このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220310となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子資源浄化のためのノーゴー定理II:新しいアプローチとチャネル理論 No-go theorems for quantum resource purification II: new approach and channel theory ( http://arxiv.org/abs/2010.11822v4 ) ライセンス: Link先を確認 | Kun Fang, Zi-Wen Liu | (参考訳) 近年, 健全な量子資源理論 [fang/liu, phys. rev. lett. 125, 060405 (2020)] において, ノイズの多い資源状態から純粋な状態(例えば-蒸留)への変換の正確性と効率に普遍的な限界があることが示されている。
ここでは、量子資源浄化の限界を分析するための新しい強力な手法を開発し、より広いノイズ状態の正確な浄化を除外する境界を改良するだけでなく、特定の場合において厳密な量子チャネル(力学)資源の堅牢な不純化理論を確立することができる。
より具体的には、状態理論とは対照的に複数のインスタンスを適応的に使用できる)ジェネリックノイズチャネルを任意の自由チャネル-チャネルマップ下のユニタリリソースチャネルに変換する誤りとコストの普遍的な境界を導出するために、新しい手法を用いる。
より具体的な用語で実践的な関心を持ついくつかの事例に対処し、蒸留、量子誤差補正、量子シャノン理論、量子回路合成への一般結果の関連と応用について議論する。 It has been recently shown that there exist universal fundamental limits to the accuracy and efficiency of the transformation from noisy resource states to pure ones (e.g.,~distillation) in any well-behaved quantum resource theory [Fang/Liu, Phys. Rev. Lett. 125, 060405 (2020)]. Here, we develop a novel and powerful method for analyzing the limitations on quantum resource purification, which not only leads to improved bounds that rule out exact purification for a broader range of noisy states and are tight in certain cases, but also enable us to establish a robust no-purification theory for quantum channel (dynamical) resources. More specifically, we employ the new method to derive universal bounds on the error and cost of transforming generic noisy channels (where multiple instances can be used adaptively, in contrast to the state theory) to some unitary resource channel under any free channel-to-channel map. We address several cases of practical interest in more concrete terms, and discuss the connections and applications of our general results to distillation, quantum error correction, quantum Shannon theory, and quantum circuit synthesis. | 翻訳日:2023-04-28 00:57:23 公開日:2022-03-10 |
# 認証削除を伴うデバイス非依存の暗号化 Composably secure device-independent encryption with certified deletion ( http://arxiv.org/abs/2011.12704v2 ) ライセンス: Link先を確認 | Srijita Kundu and Ernest Y.-Z. Tan | (参考訳) 我々はBroadbent and Islamic (2020) が導入した認証削除(ECD)による暗号処理について研究するが、デバイスに依存しない環境では、正直な当事者が彼らの量子デバイスを信頼していない場合でも、この処理を実現できることを示す。
さらに,構成可能な方法でECDタスクのセキュリティを定義し,構成可能なセキュリティにつながる条件を満たすことを示す。
本プロトコルはデバイス非依存量子鍵分布(DIQKD)に基づいており,特に Jain, Miller, Shi (2020) のマジック正方形非局所ゲームに基づく並列DIQKDプロトコルである。
認定削除を達成するために、fu and miller (2018) が観察したマジックスクエアゲームの性質、すなわち、このゲームの2ラウンド変種を使用して、1つのランダムビットの削除を証明できる。
この性質から任意の長さのメッセージに対する認証削除セキュリティを実現するために、独立した関心を持つ2ラウンド非局所ゲームに対する並列反復定理を証明している。 We study the task of encryption with certified deletion (ECD) introduced by Broadbent and Islam (2020), but in a device-independent setting: we show that it is possible to achieve this task even when the honest parties do not trust their quantum devices. Moreover, we define security for the ECD task in a composable manner and show that our ECD protocol satisfies conditions that lead to composable security. Our protocol is based on device-independent quantum key distribution (DIQKD), and in particular the parallel DIQKD protocol based on the magic square non-local game, given by Jain, Miller and Shi (2020). To achieve certified deletion, we use a property of the magic square game observed by Fu and Miller (2018), namely that a two-round variant of the game can be used to certify deletion of a single random bit. In order to achieve certified deletion security for arbitrarily long messages from this property, we prove a parallel repetition theorem for two-round non-local games, which may be of independent interest. | 翻訳日:2023-04-23 00:57:05 公開日:2022-03-10 |
# 相対論的量子導波路のスペクトル特性 Spectral properties of relativistic quantum waveguides ( http://arxiv.org/abs/2101.04009v3 ) ライセンス: Link先を確認 | William Borrelli, Philippe Briet, David Krejcirik, Thomas Ourmieres-Bonafos | (参考訳) 非有界平面曲線の管状近傍における質量ディラック作用素のスペクトル解析を行い、無限大境界条件に従属する。
曲率の一般的な仮定の下で、本質スペクトルを見つけ、シンストリップ極限の原作用素に近似する基底曲線上の有効ハミルトニアンを導出する。
また、非相対論的極限における境界状態の存在を調べ、境界状態が存在するための幾何学的定量的条件を与える。 We make a spectral analysis of the massive Dirac operator in a tubular neighborhood of an unbounded planar curve,subject to infinite mass boundary conditions. Under general assumptions on the curvature, we locate the essential spectrum and derive an effective Hamiltonian on the base curve which approximates the original operator in the thin-strip limit. We also investigate the existence of bound states in the non-relativistic limit and give a geometric quantitative condition for the bound states to exist. | 翻訳日:2023-04-17 02:41:58 公開日:2022-03-10 |
# 距離選択型Rydberg-Interactionによる離散時間量子ウォーク・フロケトポロジカル絶縁体 Discrete-Time Quantum-Walk & Floquet Topological Insulators via Distance-Selective Rydberg-Interaction ( http://arxiv.org/abs/2101.11412v6 ) ライセンス: Link先を確認 | Mohammadsadegh Khazali | (参考訳) 本稿では,多次元空間空間におけるrydberg量子ウォークの離散時間的実装として,位相絶縁体の異なるクラスを理想的にシミュレートする手法を提案する。
二重格子を持つ原子配列内のリドバーグ励起原子間の距離選択的交換相互作用を用いて、新しいセットアップは離散時間量子ウォーク(DTQW)の造語モデルとコインレスモデルの両方を運用する。
ここでは、アンチブロッケード領域でサイトを排他的に励起するグローバルレーザーによって複雑なカップリングテッセルレーションが行われる。
長距離相互作用は、異なる位相順序の周期境界条件を設計する新しい特徴を提供する。
Rydberg の人口を2つの励起に制限し、数百の格子サイトとステップのコヒーレント QW は現在の技術で達成できる。
これらの特徴は、トポロジカルに順序付けられたデータベース上で量子探索アルゴリズムを実行する際のこの量子マシンの性能を改善し、シミュレーション可能なトポロジカル絶縁体の範囲を多様化する。 This article proposes the first discrete-time implementation of Rydberg quantum walk in multi-dimensional spatial space that could ideally simulate different classes of topological insulators. Using distance-selective exchange-interaction between Rydberg excited atoms in an atomic array with dual lattice-constants, the new setup operates both coined and coin-less models of discrete-time quantum walk (DTQW). Here, complicated coupling tessellations are performed by a global laser that exclusively excites the site at the anti-blockade region. The long-range interaction provides a new feature of designing different topologically ordered periodic boundary conditions. Limiting the Rydberg population to two excitations, coherent QW over hundreds of lattice sites and steps are achievable with the current technology. These features would improve the performance of this quantum machine in running the quantum search algorithm over topologically ordered databases as well as diversifying the range of topological insulators that could be simulated. | 翻訳日:2023-04-13 20:10:12 公開日:2022-03-10 |
# ロックされた分子量子ドットセルオートマタのためのロバスト電界入力回路 Robust Electric-field Input Circuits for Clocked Molecular Quantum-dot Cellular Automata ( http://arxiv.org/abs/2103.03396v3 ) ライセンス: Link先を確認 | Peizhong Cong, Enrique P. Blair | (参考訳) 量子ドットセルオートマトン(quantum-dot cellular automata, qca)は、cmosが直面するスケーリングの限界を克服するために設計された、低消費電力、汎用、クラシックコンピューティングのパラダイムである。
QCAの分子実装は、デバイス密度と動作速度がCMOSデバイス密度を超えるナノメートルスケールのデバイスと、室温で数桁の速度を提供する。
ここでは、分子QCA回路への電界ビット書き込みの提案を、印加電界 \(\vec{E}\) を用いてクロックされた同期QCA回路に拡張する。
入力電極はセル自身よりもはるかに大きい可能性があるが、印加されたクロックフィールド \(E_z \hat{z}\) に加えて入力フィールド \(E_y \hat{y}\) に入力回路を浸漬する。
入力フィールドは、回路のフィールド感度部分において入力ビットを選択する。
シフトレジスタとして \(E_y\) 感度を低減した回路の別の部分は、処理のために入力ビットを下流QCA論理に送信する。
シフトレジスタを構成する分子の単純な回転は、入力フィールドからの望ましくない効果や入力フィールドの方向のフリングフィールドに免疫を生じさせることが示されている。
さらに、回路は、クロックでも入力方向でもない第3の方向において、重要な不要フィールド成分 \(E_x \hat{x}\) を許容する。
古典ビットの分子QCA回路への書き込みは、QCAを用いたエネルギー効率の高い分子計算を実現するために、道路ブロックをクリアする必要がある。
この結果から,大きな入力電極からの有意なフレージング場の存在下で,相互接続型シフトレジスタが機能する可能性が示唆された。
さらに、ここで開発された技術は、分子QCA論理がこれらの同じ望ましくないフレーミング場を許容することを可能にする。 Quantum-dot cellular automata (QCA) is a paradigm for low-power, general-purpose, classical computing designed to overcome the challenges facing CMOS in the extreme limits of scaling. A molecular implementation of QCA offers nanometer-scale devices with device densities and operating speeds which may surpass CMOS device densities and speeds by several orders of magnitude, all at room temperature. Here, a proposal for electric field bit write-in to molecular QCA circuits is extended to synchronous QCA circuits clocked using an applied electric field, \(\vec{E}\). Input electrodes, which may be much larger than the cells themselves, immerse an input circuit in an input field \(E_y \hat{y}\), in addition to the applied clocking field \(E_z \hat{z}\). The input field selects the input bit on a field-sensitive portion of the circuit. Another portion of the circuit with reduced \(E_y\)-sensitivity functions as a shift register, transmitting the input bit to downstream QCA logic for processing. It is shown that a simple rotation of the molecules comprising the shift register makes them immune to unwanted effects from the input field or fringing fields in the direction of the input field. Furthermore, the circuits also tolerate a significant unwanted field component \(E_x \hat{x}\) in the third direction, which is neither the clocking nor input direction. The write-in of classical bits to molecular QCA circuits is a road-block that must be cleared in order to realize energy-efficient molecular computation using QCA. The results presented here show that interconnecting shift registers may be designed to function in the presence of significant unwanted fringing fields from large input electrodes. Furthermore, the techniques devloped here may also enable molecular QCA logic to tolerate these same unwanted fringing fields. | 翻訳日:2023-04-09 00:21:50 公開日:2022-03-10 |
# 熱平衡における開系に対するクラマーズ縮退 Kramers' degeneracy for open systems in thermal equilibrium ( http://arxiv.org/abs/2105.02888v2 ) ライセンス: Link先を確認 | Simon Lieu, Max McGinley, Oles Shtanko, Nigel R. Cooper, Alexey V. Gorshkov | (参考訳) クラマースの退化定理は、時間反転対称性を持つ量子系において多くの興味深い効果を支えている。
マルコフ開フェルミオン系に対する動的生成物は、時間反転対称性と熱平衡における系のマイクロ可逆性(詳細バランス)特性の組み合わせによって保護され、類似した縮退性を示す。
この現象の簡単な例を示し、縮退が単一粒子グリーン関数に反映されていることを示す。
さらに,オープン多体システムにおけるトポロジカルエッジモードの実験的なシグネチャも,マイクロ可逆性によって保護できることを示す。
この結果は,オープントポロジカルな物質を特徴づける上で,詳細なバランスの重要性を強調した。 Kramers' degeneracy theorem underpins many interesting effects in quantum systems with time-reversal symmetry. We show that the generator of dynamics for Markovian open fermionic systems can exhibit an analogous degeneracy, protected by a combination of time-reversal symmetry and the microreversibility (detailed balance) property of systems at thermal equilibrium -- the degeneracy is lifted if either condition is not met. We provide simple examples of this phenomenon and show that the degeneracy is reflected in the single-particle Green's functions. Furthermore, we show that certain experimental signatures of topological edge modes in open many-body systems can be protected by microreversibility in the same way. Our results highlight the importance of detailed balance in characterizing open topological matter. | 翻訳日:2023-04-01 07:41:27 公開日:2022-03-10 |
# 隠れ変数設定における超決定論的不変集合論の解析 Analysis of the superdeterministic Invariant-set theory in a hidden-variable setting ( http://arxiv.org/abs/2107.04761v5 ) ライセンス: Link先を確認 | Indrajit Sen | (参考訳) 量子力学の超決定論的説明(Invariant-set theory)に関する最近の提案は、カオス理論、数論、力学系といった様々な分野のアイデアを量子基礎にもたらすようにみえる。
しかし、明確なカット隠れ変数モデルが開発されていないため、量子基礎の観点から提案を評価することは困難である。
本稿では,まず提案に基づく隠れ変数モデルを構築し,そのモデルを用いて提案のいくつかの側面を批判的に解析する。
提案手法では, 反事実測定, 非局所性, 量子観測可能性の非可換性, 測定独立性などに関するいくつかの議論は, 本モデルで検討した場合に失敗することを示した。
さらに、我々のモデルは超決定論的であるだけでなく、オンティック量子状態を持つ非局所であることを示す。
モデルで定義されたビット文字列は隠れ変数であり、冗長な情報を含んでいると主張する。
最後に,先行研究(proc)で開発された分析を適用する。
r. soc。
A, 476(2243):20200214, 2020) モデルにおける超決定論的陰謀の問題を説明する。
この結果から,超決定論はベル相関によって生じるパズルを解き得ないという見解がさらに支持されている。 A recent proposal for a superdeterministic account of quantum mechanics, named Invariant-set theory, appears to bring ideas from several diverse fields like chaos theory, number theory and dynamical systems to quantum foundations. However, a clear cut hidden-variable model has not been developed, which makes it difficult to assess the proposal from a quantum foundational perspective. In this article, we first build a hidden-variable model based on the proposal, and then critically analyse several aspects of the proposal using the model. We show that several arguments related to counter-factual measurements, nonlocality, non-commutativity of quantum observables, measurement independence etcetera that appear to work in the proposal fail when considered in our model. We further show that our model is not only superdeterministic but also nonlocal, with an ontic quantum state. We argue that the bit string defined in the model is a hidden variable and that it contains redundant information. Lastly, we apply the analysis developed in a previous work (Proc. R. Soc. A, 476(2243):20200214, 2020) to illustrate the issue of superdeterministic conspiracy in the model. Our results lend further support to the view that superdeterminism is unlikely to solve the puzzle posed by the Bell correlations. | 翻訳日:2023-03-22 21:55:10 公開日:2022-03-10 |
# 膨張・収縮する冷原子宇宙におけるハッブルの減衰と増幅の正確な決定 Accurate Determination of Hubble Attenuation and Amplification in Expanding and Contracting Cold-Atom Universes ( http://arxiv.org/abs/2107.08097v2 ) ライセンス: Link先を確認 | S. Banik, M. Gutierrez Galan, H. Sosa-Martinez, M. Anderson, S. Eckel, I. B. Spielman, and G. K. Campbell | (参考訳) 膨張する宇宙では、相対論的スカラー場は「ハッブル摩擦」によって弱められると考えられており、これは基礎となる時空計量の拡張から生じる。
対照的に、収縮する宇宙では、この擬似摩擦は増幅につながる。
ここでは, トーラス型ボース・アインシュタイン凝縮体の膨張・収縮におけるハッブル減衰と増幅の5倍精度を実験的に測定し, フォノンは宇宙論的スカラー場と類似する。
観測された減衰あるいは増幅は,非断熱力学においてのみ可能であるフォノン場の時間位相に依存することがわかった。
ハッブル摩擦の測定強度は最近の理論と一致しない[J。
M. Gomez LlorenteとJ. Plata。
rev. a} {\bf 100} 043613 (2019) と s. eckel と t. jacobson, {\displaystyle t. jacobson,} はscipost phys である。
} {\bf 10} 64 (2021)]; 我々の実験は、この理論の範囲外で物理学を探索するので、中間の厚さの環に大きな励起があるので、新しい物理学の存在を示す。 In the expanding universe, relativistic scalar fields are thought to be attenuated by "Hubble friction", which results from the dilation of the underlying spacetime metric. By contrast, in a contracting universe this pseudo-friction would lead to amplification. Here, we experimentally measure with five-fold better accuracy, both Hubble attenuation and amplification in expanding and contracting toroidally-shaped Bose-Einstein condensates, in which phonons are analogous to cosmological scalar fields. We find that the observed attenuation or amplification depends on the temporal phase of the phonon field, which is only possible for non-adiabatic dynamics. The measured strength of the Hubble friction disagrees with recent theory [J. M. Gomez Llorente and J. Plata, {\it Phys. Rev. A} {\bf 100} 043613 (2019) and S. Eckel and T. Jacobson, {\it SciPost Phys.} {\bf 10} 64 (2021)]; because our experiment probes physics outside the scope of this theory -- with large excitations in rings of intermediate thickness -- this indicates the presence of new physics. | 翻訳日:2023-03-22 02:55:25 公開日:2022-03-10 |
# 多ビットデバイスにおける量子状態準備、測定、ゲート誤差の実験ベイズ推定 Experimental Bayesian estimation of quantum state preparation, measurement, and gate errors in multi-qubit devices ( http://arxiv.org/abs/2108.10686v3 ) ライセンス: Link先を確認 | Haggai Landa, Dekel Meirom, Naoki Kanazawa, Mattias Fitzpatrick, Christopher J. Wood | (参考訳) 量子デバイスにおける単一量子ビット誤差をベイズ法で推定し,27量子ビット超伝導量子ビットデバイス3台においてその誤差を特徴付ける。
各キュービットの状態準備、読み出し、ゲートエラーの最大7パラメータを自己整合的に推定し、これらのエラーの安定性を時間の関数として解析し、量子計算実験の前に異なるエラーを緩和するための簡単な実装方法を示す。
検討したデバイスでは、対角混合状態としてパラメータ化できないが、量子ビットの励起状態からの寄与が小さい重ね合わせのコヒーレント相として現れる、無視できない量子ビットリセットエラーを見つける。
我々は、初期化量子ビットに事前回転を適用することで、そのような誤差を軽減することができる。
ベイジアン推定は, 量子ゲート誤差を含む小パラメータを, 相対的精度で, 標準的な評価手法と比較して低い測定コストで解くことができることを示した。 We introduce a Bayesian method for the estimation of single qubit errors in quantum devices, and use it to characterize these errors on three 27-qubit superconducting qubit devices. We self-consistently estimate up to seven parameters of each qubit's state preparation, readout, and gate errors, analyze the stability of these errors as a function of time, and demonstrate easily implemented approaches for mitigating different errors before a quantum computation experiment. On the investigated devices we find non-negligible qubit reset errors that cannot be parametrized as a diagonal mixed state, but manifest as a coherent phase of a superposition with a small contribution from the qubit's excited state. We are able to mitigate such errors by applying pre-rotations on the initialized qubits, which we demonstrate with multi-qubit entangled states. Our results demonstrate that Bayesian estimation can resolve small parameters - including those pertaining to quantum gate errors - with a high relative accuracy, at a lower measurement cost as compared with standard characterization approaches. | 翻訳日:2023-03-17 07:48:10 公開日:2022-03-10 |
# デコヒーレンスチャネル下での量子相関量子化器の散逸ダイナミクス Dissipative dynamics of quantum correlation quantifiers under decoherence channels ( http://arxiv.org/abs/2109.02640v2 ) ライセンス: Link先を確認 | Nitish Kumar Chandra, Sarang S. Bhosale, Prasanta K. Panigrahi | (参考訳) 本研究では,最大混合辺数を持つ2量子ビットx状態に対する散逸チャネルの影響から,円偏差のエントロピーおよび幾何測度によって捕獲された量子相関のダイナミクスについて検討する。
量子相関量子化器の保存, 急激な変化, 再生の現象を同定し, メモリレスデコヒーレンスチャネルにおけるロバストネスの階層性を決定する。
本研究では,最初の量子ビットを複数回デコヒーレンスチャネルに入力した場合に突然変化を起こすデコヒーレンス確率の解析式を求める。
保存時間, 量子相関が雑音の影響を受けない期間について, 正確な解析式を導出する。
また, トレース距離不一致の2つの突発的変化現象間の時間的持続時間を求め, その逆比例性を示す。
急激な変化領域に対応するデコヒーレンス確率と保存現象の制約関係は、両方の量子ビットが複数回、局所的に独立した量子チャネルに従属する場合に得られる。
本研究は,騒音環境における不協和対策の物理的知見と実用的実施可能性を提供する。 In this work, we investigate the dynamics of quantum correlations captured by entropic and geometric measures of discord under the influence of dissipative channels for widely used two qubit X state with maximally mixed marginals. Identifying the phenomena of the preservation, sudden change and revival of quantum correlation quantifiers, we determine their hierarchy of robustness under memory-less decoherence channels. We find the analytical expressions of decoherence probabilities at which sudden change occur when the first qubit is subjected to the decoherence channels for multiple times. We deduce the exact analytical expression for the preservation time, the duration for which quantum correlations remain unaffected by noise. We also find the time duration between the two sudden change phenomena of trace distance discord, and show its inverse proportionality to the number of times a channel operates on the state. The constraint relations of decoherence probabilities corresponding to the sudden change region and preservation phenomena are obtained when both the qubits are subjected to locally independent quantum channels for multiple times. Our investigation provides physical insights and possible practical implementation of the discord measures in noisy environments. | 翻訳日:2023-03-16 02:53:01 公開日:2022-03-10 |
# 量子干渉による反応性衝突の制御 Control of reactive collisions by quantum interference ( http://arxiv.org/abs/2109.03944v2 ) ライセンス: Link先を確認 | Hyungmok Son, Juliana J. Park, Yu-Kun Lu, Alan O. Jamison, Tijs Karman, Wolfgang Ketterle | (参考訳) 本研究では, 反応散乱の磁化制御を$^{23}$Na原子と$^{23}$Na$^{6}$Li分子の超低温混合系で達成した。
ほとんどの分子衝突では、粒子は単体確率で短距離付近で反応または失われ、いわゆる普遍速度に繋がる。
対照的に、Na{+}NaLi系は完全なスピン偏極状態における損失確率がわずか$\sim4\%であった。
フェシュバッハ共鳴を用いて散乱波関数の位相を制御することにより、損失率を100ドル以上変更した。
この結果は短距離および長距離反射の干渉による光ファブリペロ共振器と類似している。
我々の研究は、モデルによって予測される全ダイナミックレンジの磁場による化学の量子制御を実証する。 In this study, we achieved magnetic control of reactive scattering in an ultracold mixture of $^{23}$Na atoms and $^{23}$Na$^{6}$Li molecules. In most molecular collisions, particles react or are lost near short range with unity probability, leading to the so-called universal rate. By contrast, the Na{+}NaLi system was shown to have only $\sim4\%$ loss probability in a fully spin-polarized state. By controlling the phase of the scattering wave function via a Feshbach resonance, we modified the loss rate by more than a factor of $100$, from far below to far above the universal limit. The results are explained in analogy with an optical Fabry-Perot resonator by interference of reflections at short and long range. Our work demonstrates quantum control of chemistry by magnetic fields with the full dynamic range predicted by our models. | 翻訳日:2023-03-15 20:16:17 公開日:2022-03-10 |
# カイラルsachdev-yeモデル:1+1次元アノンの可積分性とカオス Chiral Sachdev-Ye model: Integrability and chaos of anyons in 1+1d ( http://arxiv.org/abs/2109.13263v3 ) ライセンス: Link先を確認 | Yichen Hu and Biao Lian | (参考訳) N$chiral SU$(M)_1$ Wess-Zumino-Witten (WZW) モデルと電流相互作用を持つカイラル Sachdev-Ye (SY) モデルを構築し研究し、0+1d量子カオスSYスピンモデルを1+1dキラル系に一般化する。
それぞれのWZWモデルはアベリアン・エノンを電荷励起として包含し、2+1dのギャップ位相のカイラルエッジ理論として現れる。
我々は、異なる量子力学を示す2つの極限でカイラルSYモデルを解く。
1つ目の極限は任意の整数において一様相互作用が$N$と$M$である場合であり、これは積分可能であり、カイラルSU$(M)_N$ WZWモデルと異なる「光の速度」との共集合に分解される。
N=M=2$のとき、モデルは自由マヨラナフェルミオンモデルにマップする。
第2の制限はランダムな相互作用を持つ大きな$n$と$m$の制限であり、これは先頭の$\frac{1}{nm}$ に解くことができ、オーノンの時間外の相関において多体量子カオスを示す。
相互作用強度がキラル性を保存する上限に近づくと、モデルの主要速度依存性のリャプノフ指数は、温度$\beta^{-1}$で最大カオス境界2.pi/\beta$を飽和させる。 We construct and study a chiral Sachdev-Ye (SY) model consisting of $N$ chiral SU$(M)_1$ Wess-Zumino-Witten (WZW) models with current-current interactions among each other, which generalizes the 0+1d quantum chaotic SY spin model into 1+1d chiral system with anyon excitations. Each WZW model hosts Abelian anyons as charge excitations, and may arise as the chiral edge theory of 2+1d gapped topological phases. We solve the chiral SY model in two limits which show distinct quantum dynamics. The first limit is the case with uniform interactions at any integers $N$ and $M$, which is integrable and decomposes into a chiral SU$(M)_N$ WZW model and its coset with different "speed of light". When $N=M=2$, the model maps to a free Majorana fermion model. The second limit is the large $N$ and $M$ limit with random interactions, which is solvable to the leading $\frac{1}{NM}$ order, and exhibits many-body quantum chaos in the out-of-time-ordered correlation of anyons. As the interaction strength approaches the upper limit preserving the chirality, the leading velocity-dependent Lyapunov exponent of the model saturates the maximal chaos bound $2\pi/\beta$ at temperature $\beta^{-1}$. | 翻訳日:2023-03-13 11:32:24 公開日:2022-03-10 |
# QICK(Quantum Instrumentation Control Kit):キュービットと検出器の読み出しと制御 The QICK (Quantum Instrumentation Control Kit): Readout and control for qubits and detectors ( http://arxiv.org/abs/2110.00557v2 ) ライセンス: Link先を確認 | Leandro Stefanazzi, Ken Treptow, Neal Wilcer, Chris Stoughton, Salvatore Montella, Collin Bradford, Gustavo Cancelo, Shefali Saxena, Horacio Arnaldi, Sara Sussman, Andrew Houck, Ankur Agrawal, Helin Zhang, Chunyang Ding and David I Schuster | (参考訳) 我々は,最大6GHzのキャリア周波数を持つ制御パルスの直接合成をサポートするXilinx RFSoCベースのqubitコントローラ(略して量子計測制御キット,QICK)を導入する。
QICKは複数の量子ビットや他の量子デバイスを制御することができる。
QICKはRFSoC (RF System-on-Chip) FPGA \cite{zcu111} をホストするデジタルボード、カスタムファームウェアとソフトウェア、およびオプションでカスタムデザインのアナログフロントエンドボードで構成されている。
我々は,量子誤り訂正やフィードバックプロトコルにおいて重要な,システムのアナログ性能と,そのディジタルレイテンシを特徴付ける。
我々は、トランスモンキュービットの標準キャラクタリゼーションを実行することで、コントローラをベンチマークする。
平均クリフォードゲート忠実度は$\mathcal{F}_{avg}=99.93\%$である。
すべてのスキーマ、ファームウェア、ソフトウェアはオープンソースの \cite{qickrepo} である。 We introduce a Xilinx RFSoC-based qubit controller (called the Quantum Instrumentation Control Kit, or QICK for short) which supports the direct synthesis of control pulses with carrier frequencies of up to 6 GHz. The QICK can control multiple qubits or other quantum devices. The QICK consists of a digital board hosting an RFSoC (RF System-on-Chip) FPGA \cite{zcu111}, custom firmware and software and an optional companion custom-designed analog front-end board. We characterize the analog performance of the system, as well as its digital latency, important for quantum error correction and feedback protocols. We benchmark the controller by performing standard characterizations of a transmon qubit. We achieve an average Clifford gate fidelity of $\mathcal{F}_{avg}=99.93\%$. All of the schematics, firmware, and software are open-source \cite{QICKrepo}. | 翻訳日:2023-03-12 19:55:31 公開日:2022-03-10 |
# リニア光学を用いた選択エネルギーカットオフまでの理想量子テレ増幅 Ideal Quantum Tele-amplification up to a Selected Energy Cut-off using Linear Optics ( http://arxiv.org/abs/2110.03172v4 ) ライセンス: Link先を確認 | Joshua J. Guanzon, Matthew S. Winnel, Austin P. Lund, Timothy C. Ralph | (参考訳) 我々は、$n^\mathrm{th}$ Fock状態まで理想的な量子テレ増幅を実装できる線形光学技術を導入し、$n$は任意の正の整数となる。
ここでのテレ増幅は、量子テレポーテーションとノイズレス線形増幅(NLA)の両方からなる。
この単純なプロトコルはビームスプリッターと$(n+1)$-スプリッターで構成され、n$の補助光子とn$の光子を検出する。
提案手法は,提案手法により,現在の代替テレポーテーションやNLA方式よりも桁違いに成功確率と物理的資源コストを向上する。
このプロトコルは, エンタングルメント分布と蒸留のための損失耐性量子リレーとしても利用できることを示す。 We introduce a linear optical technique that can implement ideal quantum tele-amplification up to the $n^\mathrm{th}$ Fock state, where $n$ can be any positive integer. Here tele-amplification consists of both quantum teleportation and noiseless linear amplification (NLA). This simple protocol consists of a beam-splitter and an $(n+1)$-splitter, with $n$ ancillary photons and detection of $n$ photons. For a given target fidelity, our technique improves success probability and physical resource costs by orders of magnitude over current alternative teleportation and NLA schemes. We show how this protocol can also be used as a loss-tolerant quantum relay for entanglement distribution and distillation. | 翻訳日:2023-03-12 06:08:43 公開日:2022-03-10 |
# 時間遅延コヒーレントフィードバックを用いた導波路qed系における非線形スペクトルと多光子効果の量子軌道理論とシミュレーション Quantum Trajectory Theory and Simulations of Nonlinear Spectra and Multi-Photon Effects in Waveguide-QED Systems with a Time-Delayed Coherent Feedback ( http://arxiv.org/abs/2110.09362v2 ) ライセンス: Link先を確認 | Gavin Crowder, Lora Ramunno, and Stephen Hughes | (参考訳) 時間遅延コヒーレントフィードバックを用いた2レベル系の導波路出力に対する非線形スペクトルと多光子相関関数について検討した。
量子軌道シミュレーションを利用する最近の量子軌道離散導波路(QTDW)アプローチと、導波路の衝突モデルを拡張して、そのダイナミクスを正確にシミュレートすることで、これらの観測値を計算する。
一般的な手法の説明に続いて、コヒーレントポンプ場の存在下で、第1および第2次量子相関関数を計算する方法を示す。
短い遅延時間で、フィードバックがモロー三重項の中心ピークをフィルタリングしたり、束ねられた光子と反束光子の出力を、ラウンドトリップフェーズの適切な選択によって切り替える方法について示します。
さらに,ループ長とラウンドトリップ位相が,束ねや反束の指標であるゼロタイム2次量子相関関数にどのように影響するかを示す。
フィードバックループを通じて導入された新しい共鳴は、導波路からの無干渉出力スペクトルの出現によっても示される。
これらの結果は,QTDWモデルで容易にアクセス可能な確率的観測値である,システム出力と個々の軌跡の待ち時間分布の文脈で説明される。 We study the nonlinear spectra and multi-photon correlation functions for the waveguide output of a two-level system (including realistic dissipation channels) with a time-delayed coherent feedback. We compute these observables by extending a recent quantum trajectory discretized-waveguide (QTDW) approach which exploits quantum trajectory simulations and a collisional model for the waveguide to tractably simulate the dynamics. Following a description of the general technique, we show how to calculate the first and second order quantum correlation functions, in the presence of a coherent pumping field. With a short delay time, we show how feedback can be used to filter out the central peak of the Mollow triplet or switch the output between bunched and anti-bunched photons by proper choice of round trip phase. We further show how the loop length and round trip phase effects the zero-time second order quantum correlation function, an indicator of bunching or anti-bunching. New resonances introduced through the feedback loop are also shown through their appearance in the incoherent output spectrum from the waveguide. We explain these results in the context of the waiting time distributions of the system output and individual trajectories, uniquely stochastic observables that are easily accessible with the QTDW model. | 翻訳日:2023-03-11 04:18:12 公開日:2022-03-10 |
# 同期相関を用いた完全デバイス独立量子鍵分布 Fully device-independent quantum key distribution using synchronous correlations ( http://arxiv.org/abs/2110.14530v3 ) ライセンス: Link先を確認 | Nishant Rodrigues, Brad Lackey | (参考訳) 同期相関とベルの不等式に基づくデバイス非依存の量子鍵分布プロトコルを導出する。
このプロトコルは、他のデバイスに依存しないスキームよりもいくつかの利点を提供している。
ほぼ同期相関が関連する同期相関の自己テスト特性を継承することを示すことで、「同期性」ループホールを閉じる。
我々はまた、"局所性"(あるいは"因果性")の抜け穴を閉じる新たなセキュリティ仮定を提起する: ユーザが測定ベースを選択することに対して小さな不確実性さえも持たない、無制限の敵は、ほぼ同期的な相関を生成できない。 We derive a device-independent quantum key distribution protocol based on synchronous correlations and their Bell inequalities. This protocol offers several advantages over other device-independent schemes including symmetry between the two users and no need for preshared randomness. We close a "synchronicity" loophole by showing that an almost synchronous correlation inherits the self-testing property of the associated synchronous correlation. We also pose a new security assumption that closes the "locality" (or "causality") loophole: an unbounded adversary with even a small uncertainty about the users' choice of measurement bases cannot produce any almost synchronous correlation that approximately maximally violates a synchronous Bell inequality. | 翻訳日:2023-03-10 03:16:29 公開日:2022-03-10 |
# チャネルの凸結合の下で半群を作るための非可逆性 Noninvertibility as a requirement for creating a semigroup under convex combinations of channels ( http://arxiv.org/abs/2111.09264v3 ) ライセンス: Link先を確認 | Vinayak Jagadish, R. Srikanth, Francesco Petruccione | (参考訳) チャネルの凸結合によって半群が得られる条件について検討する。
特に、パウリの集合と一般化パウリのチャネルについて研究する。
半群のみの混合は、決して半群を生成できない。
直観的には、凸結合が半群を与えるためには、入力チャネルのほとんどが非可逆である必要がある。 We study the conditions under which a semigroup is obtained upon convex combinations of channels. In particular, we study the set of Pauli and generalized Pauli channels. We find that mixing only semigroups can never produce a semigroup. Counter-intuitively, we find that for a convex combination to yield a semigroup, most of the input channels have to be noninvertible. | 翻訳日:2023-03-07 21:36:47 公開日:2022-03-10 |
# 原子スピンを有するナノメカニカル膜のコヒーレントフィードバック冷却 Coherent feedback cooling of a nanomechanical membrane with atomic spins ( http://arxiv.org/abs/2111.09802v2 ) ライセンス: Link先を確認 | Gian-Luca Schmid, Chun Tat Ngai, Maryse Ernzer, Manel Bosch Aguilera, Thomas M. Karg and Philipp Treutlein | (参考訳) コヒーレントフィードバックは、測定を必要とせずにシステムを目標状態に向けて安定化させ、測定に固有の量子バックアクションを避ける。
ここでは,光コヒーレントフィードバックを用いて,原子スピンをコントローラとしてナノメカニカル膜を遠隔から冷却する。
原子を直接操作することで、強い結合から過度に破壊された状態まで調整できます。
本システムが提供する完全なコヒーレント制御を利用して, 室温環境における膜を冷却するためにストロボスコープのスピンポンプと組み合わされたスピン膜状態スワップを行い, ${t}={216}\,\mathrm{mk}$ (\bar{n}_{m} = 2.3\times 10^3$ phonons) を$200}\,\mathrm{{\mu}s}$ とする。
さらに, 遅延フィードバックが冷却性能に及ぼす影響を観察・検討した。
この方法は低温で冷却された膜から始まり、量子力学的基底状態に近い機械振動子の冷却と非古典的状態の調製を可能にする。 Coherent feedback stabilises a system towards a target state without the need of a measurement, thus avoiding the quantum backaction inherent to measurements. Here, we employ optical coherent feedback to remotely cool a nanomechanical membrane using atomic spins as a controller. Direct manipulation of the atoms allows us to tune from strong-coupling to an overdamped regime. Making use of the full coherent control offered by our system, we perform spin-membrane state swaps combined with stroboscopic spin pumping to cool the membrane in a room-temperature environment to ${T}={216}\,\mathrm{mK}$ ($\bar{n}_{m} = 2.3\times 10^3$ phonons) in ${200}\,\mathrm{{\mu}s}$. We furthermore observe and study the effects of delayed feedback on the cooling performance. Starting from a cryogenically pre-cooled membrane, this method would enable cooling of the mechanical oscillator close to its quantum mechanical ground state and the preparation of nonclassical states. | 翻訳日:2023-03-07 12:26:46 公開日:2022-03-10 |
# 深層学習のための集団知性:最近の研究動向 Collective Intelligence for Deep Learning: A Survey of Recent Developments ( http://arxiv.org/abs/2111.14377v3 ) ライセンス: Link先を確認 | David Ha, Yujin Tang | (参考訳) 過去10年間、私たちは人工知能の分野を支配するためのディープラーニングの台頭を目撃してきた。
大規模なデータセットが利用可能になったことにより、コンピュータビジョン、自然言語処理、強化学習など、さまざまな分野にわたるタスクにおける最先端のパフォーマンスを実現する、高度なニューラルネットワークモデルのトレーニングとデプロイが可能になる。
しかしながら、これらのニューラルネットワークがより大きく、より複雑で、より広く使われるようになると、現在のディープラーニングモデルに関する根本的な問題がより明確になる。
最先端のディープラーニングモデルは、堅牢性の低さや、新しいタスク設定に適応できないこと、厳格で柔軟性のない設定条件など、さまざまな問題に苦しむことが知られている。
集団行動は、一般的に自然界で観察されるが、堅牢で適応性があり、環境構成に関するより厳格な仮定を持つシステムを生み出す傾向がある。
集団知性は、分野として、多くの個人の相互作用から生じる集団知性を研究する。
この分野では、複雑なシステムをモデル化し説明するために自己組織化、創発的行動、群最適化、セルオートマトンといったアイデアが開発された。
したがって、これらのアイデアがより新しい深層学習手法に組み込まれることは自然である。
本稿では,ニューラルネットワーク研究の複雑なシステムへの関与に関する歴史的文脈と,集合知の原理を取り入れた現代のディープラーニング研究のいくつかの活発な領域に注目して,その能力の向上について述べる。
このレビューが、複雑なシステムとディープラーニングコミュニティの橋渡しになることを期待しています。 In the past decade, we have witnessed the rise of deep learning to dominate the field of artificial intelligence. Advances in artificial neural networks alongside corresponding advances in hardware accelerators with large memory capacity, together with the availability of large datasets enabled practitioners to train and deploy sophisticated neural network models that achieve state-of-the-art performance on tasks across several fields spanning computer vision, natural language processing, and reinforcement learning. However, as these neural networks become bigger, more complex, and more widely used, fundamental problems with current deep learning models become more apparent. State-of-the-art deep learning models are known to suffer from issues that range from poor robustness, inability to adapt to novel task settings, to requiring rigid and inflexible configuration assumptions. Collective behavior, commonly observed in nature, tends to produce systems that are robust, adaptable, and have less rigid assumptions about the environment configuration. Collective intelligence, as a field, studies the group intelligence that emerges from the interactions of many individuals. Within this field, ideas such as self-organization, emergent behavior, swarm optimization, and cellular automata were developed to model and explain complex systems. It is therefore natural to see these ideas incorporated into newer deep learning methods. In this review, we will provide a historical context of neural network research's involvement with complex systems, and highlight several active areas in modern deep learning research that incorporate the principles of collective intelligence to advance its current capabilities. We hope this review can serve as a bridge between the complex systems and deep learning communities. | 翻訳日:2023-03-06 09:51:44 公開日:2022-03-10 |
# 量子コンピュータ上のフェルミ・ハバードモデルに対する空間、スピン、電荷対称性の射影 Spatial, spin, and charge symmetry projections for a Fermi-Hubbard model on a quantum computer ( http://arxiv.org/abs/2112.14077v2 ) ライセンス: Link先を確認 | Kazuhiro Seki, Seiji Yunoki | (参考訳) 対称適応変分量子解法(vqe)の拡張版を提案し,二成分格子上の二成分フェルミ・ハバードモデルに適用する。
拡張対称性適応VQE法において、適切に選択された部分空間におけるハミルトニアンのレイリー商とパラメタライズド量子状態は、部分空間内で最小化され、量子回路上に実装された変動パラメータの間で最適化され、基底状態と基底状態エネルギーが変動的に得られる。
変動パラメータに対する対応するエネルギー微分は、部分空間における一般化固有値問題のヘルマン・ファインマン型式として表現され、パラメータシフト規則をその評価に用いることができる。
自然勾配-発光法は、量子部分空間展開法において変分パラメータを最適化するためにも一般化されている。
ハミルトンの基底状態の近似のための部分空間として、ハミルトニアンによって生成されるクリロフ部分空間と対称性が投影された変分状態を考える。
量子回路上での近接するフェルミオンスワップ演算の積として, 職業ベースでのフェルミオンの空間対称性演算が表現可能であることを示す。
また、スピンと電荷の対称性演算、すなわち回転が量子回路上でどのように実装できるかについても述べる。
数値シミュレーションにより, 空間, スピン, 電荷対称性の射影は, パラメータ数を増やすことなくクリロフ部分空間を拡大することにより, パラメータ化状態の精度を向上し, さらに体系的に改善できることを示した。 We propose an extended version of the symmetry-adapted variational-quantum-eigensolver (VQE) and apply it to a two-component Fermi-Hubbard model on a bipartite lattice. In the extended symmetry-adapted VQE method, the Rayleigh quotient for the Hamiltonian and a parametrized quantum state in a properly chosen subspace is minimized within the subspace and is optimized among the variational parameters implemented on a quantum circuit to obtain variationally the ground state and the ground-state energy. The corresponding energy derivative with respect to a variational parameter is expressed as a Hellmann-Feynman-type formula of a generalized eigenvalue problem in the subspace, which thus allows us to use the parameter-shift rules for its evaluation. The natural-gradient-descent method is also generalized to optimize variational parameters in a quantum-subspace-expansion approach. As a subspace for approximating the ground state of the Hamiltonian, we consider a Krylov subspace generated by the Hamiltonian and a symmetry-projected variational state, and therefore the approximated ground state can restore the Hamiltonian symmetry that is broken in the parametrized variational state prepared on a quantum circuit. We show that spatial symmetry operations for fermions in an occupation basis can be expressed as a product of the nearest-neighbor fermionic swap operations on a quantum circuit. We also describe how the spin and charge symmetry operations, i.e., rotations, can be implemented on a quantum circuit. By numerical simulations, we demonstrate that the spatial, spin, and charge symmetry projections can improve the accuracy of the parametrized variational state, which can be further improved systematically by expanding the Krylov subspace without increasing the number of variational parameters. | 翻訳日:2023-03-03 01:43:52 公開日:2022-03-10 |
# プログラマブル2000量子ビットイジングチェーンにおけるコヒーレント量子アニーリング Coherent quantum annealing in a programmable 2000-qubit Ising chain ( http://arxiv.org/abs/2202.05847v2 ) ライセンス: Link先を確認 | Andrew D. King, Sei Suzuki, Jack Raymond, Alex Zucca, Trevor Lanting, Fabio Altomare, Andrew J. Berkley, Sara Ejtemaee, Emile Hoskinson, Shuiyuan Huang, Eric Ladizinsky, Allison MacDonald, Gaelen Marsden, Travis Oh, Gabriel Poulin-Lamarre, Mauricio Reis, Chris Rich, Yuki Sato, Jed D. Whittaker, Jason Yao, Richard Harris, Daniel A. Lidar, Hidetoshi Nishimori and Mohammad H. Amin | (参考訳) 量子シミュレーションは、短期量子コンピュータの能力を実証し理解するための貴重な分野として登場した。
量子アニールは、平衡と外平衡の両方において、様々な開量子系のシミュレーションに成功している。
しかし、以前の全ての実験では、アニールは環境からの熱効果が生じたため、閉じた量子系をコヒーレントにシミュレートするには遅すぎた。
ここでは1次元横磁場イジング鎖のパラダイム的設定における量子相転移によるコヒーレントな進化を,プログラム可能な量子アニール器で2000個の超伝導フラックス量子ビットを用いて実証する。
大きな系では、理論的に予測されたキンク統計量を持つ量子キブル・ズレーク機構と、系温度に依存しない特徴的な正のキンク・キンク相関を観測する。
小さな鎖では、励起統計は最小ギャップでのランダウ・ツェナー遷移の像を検証する。
どちらの場合でも、結果はクローズドシステム量子モデルの解析解と定量的に一致している。
遅いアニールに対しては、オープン量子状態へのクロスオーバーで反キブル・ズレークスケーリングを観測する。
これらの実験は、大規模量子アニーラをコヒーレントに操作できることを示し、量子最適化、機械学習、シミュレーションタスクでコヒーレントダイナミクスを利用する方法を示している。 Quantum simulation has emerged as a valuable arena for demonstrating and understanding the capabilities of near-term quantum computers. Quantum annealing has been used successfully in simulating a range of open quantum systems, both at equilibrium and out of equilibrium. However, in all previous experiments, annealing has been too slow to simulate a closed quantum system coherently, due to the onset of thermal effects from the environment. Here we demonstrate coherent evolution through a quantum phase transition in the paradigmatic setting of the 1D transverse-field Ising chain, using up to 2000 superconducting flux qubits in a programmable quantum annealer. In large systems we observe the quantum Kibble-Zurek mechanism with theoretically predicted kink statistics, as well as characteristic positive kink-kink correlations, independent of system temperature. In small chains, excitation statistics validate the picture of a Landau-Zener transition at a minimum gap. In both cases, results are in quantitative agreement with analytical solutions to the closed-system quantum model. For slower anneals we observe anti-Kibble-Zurek scaling in a crossover to the open quantum regime. These experiments demonstrate that large-scale quantum annealers can be operated coherently, paving the way to exploiting coherent dynamics in quantum optimization, machine learning, and simulation tasks. | 翻訳日:2023-02-26 02:31:25 公開日:2022-03-10 |
# 弱超対称性 $su(N|1)$量子系 Weak supersymmetric $su(N|1)$ quantum systems ( http://arxiv.org/abs/2202.11357v3 ) ライセンス: Link先を確認 | A.V. Smilga | (参考訳) 弱超代数 $su(N|1)$ を持つ超対称量子力学系のいくつかの例を示す。
一つは弱 $su(N|1)$ 発振器である。
単項基底状態、最初の励起レベルにおける退化状態、等がある。
レベル $k = N+1$ から始めて、システムは各レベルに 2^N$ 退化状態を含む完全超対称多重体を持つ。
スーパーマルチレットが$k \leq N$に対して完備でないという事実から、ウィッテン指数は$\beta$の非自明な関数を表す。
このシステムは代数をそのまま保って変形することができる。
指数はそのような変形の下で不変である。
変形した系は正確には解かれていないが、指数の不変性は、スペクトルの最初の$n$レベルにおける状態のエネルギーがシフトしないことを意味する。
別のシステムは、$N$複素スーパーチャージによる超共形力学の弱い一般化を表す。
また、この場合、あるエネルギーから始めると、スペクトルは完全な超対称な2^N$-プレットのみを含む。
(エネルギーが低い正規化可能な状態も存在するが、正規化可能な超パートナーを持たない。超対称性を維持するためには、これらの状態を排除する必要がある。) We present several examples of supersymmetric quantum mechanical systems with weak superalgebra $su(N|1)$. One of them is the weak $su(N|1)$ oscillator. It has a singlet ground state, $N +1$ degenerate states at the first excited level, etc. Starting from the level $k = N+1$, the system has complete supersymmetric multiplets at each level involving $2^N$ degenerate states. Due to the fact that the supermultiplets are not complete for $k \leq N$, the Witten index represents a nontrivial function of $\beta$. This system can be deformed with keeping the algebra intact. The index is invariant under such deformation. The deformed system is not exactly solved, but the invariance of the index implies that the energies of the states at the first $N$ levels of the spectrum are not shifted, and we are dealing with a quasi-exactly solvable system. Another system represents a weak generalisation of the superconformal mechanics with $N$ complex supercharges. Also in this case, starting from a certain energy, the spectrum involves only complete supersymmetric $2^N$-plets. (There also exist normalizable states with lower energies, but they do not have normalizable superpartners. To keep supersymmetry, we have to eliminate these states.) | 翻訳日:2023-02-24 03:52:07 公開日:2022-03-10 |
# ポントリャーギン最大原理による高忠実度量子状態転移 High Fidelity Quantum State Transfer by Pontryagin Maximum Principle ( http://arxiv.org/abs/2203.04361v2 ) ライセンス: Link先を確認 | Nahid Binandeh Dehaghani and Fernando Lobo Pereira | (参考訳) 高忠実性量子状態転送は量子情報処理の重要な部分である。
本稿では、liouville-von neumann方程式を満たす量子状態変換過程における忠実度を最大化する問題に対処する。
性能指標として忠実性を導入することにより,最終状態密度演算子と目標状態との類似性を最大化することを目指す。
確率密度関数を伝播する行列値動的制御系において、ポントリャーギンの最大原理の形での最適条件が与えられる。
これらは、最適制御戦略の計算を可能にする完全な関係セットを提供する。 High fidelity quantum state transfer is an essential part of quantum information processing. In this regard, we address the problem of maximizing the fidelity in a quantum state transformation process satisfying the Liouville-von Neumann equation. By introducing fidelity as the performance index, we aim at maximizing the similarity of the final state density operator with the one of the desired target state. Optimality conditions in the form of a Maximum Principle of Pontryagin are given for the matrix-valued dynamic control systems propagating the probability density function. These provide a complete set of relations enabling the computation of the optimal control strategy. | 翻訳日:2023-02-22 21:54:44 公開日:2022-03-10 |
# 有限経路上の量子ウォーカーの快適な場所 Comfortable place for quantum walkers on finite path ( http://arxiv.org/abs/2203.04108v2 ) ライセンス: Link先を確認 | Yoshihiro Anahara, Norio Konno, Hisashi Morioka, Etsuo Segawa | (参考訳) 我々は、シンクとソースが左右の境界に設定された有限経路上の量子ウォークの定常状態を考える。
量子コインはパスグラフのすべての頂点に均一に配置される。
あらゆる時間ステップで、新しい量子ウォーカーが左の境界から内部に入り込み、また内部にある既存の量子ウォーカーが左境界と右境界にあるシンクに出る。
本論文では、各頂点における定常状態の正方率を、この頂点に対する量子ウォーカーの快適性とみなす。
経路の長さの極限における快適性のスケールされた極限分布に対する弱収束定理を示す。 We consider the stationary state of a quantum walk on the finite path, where the sink and source are set at the left and right boundaries. The quantum coin is uniformly placed at every vertex of the path graph. At every time step, a new quantum walker penetrates into the internal from the left boundary and also some existing quantum walkers in the internal goes out to the sinks located in the left and right boundaries. The square modulus of the stationary state at each vertex is regarded as the comfortability for a quantum walker to this vertex in this paper. We show the weak convergence theorem for the scaled limit distribution of the comfortability in the limit of the length of the path. | 翻訳日:2023-02-22 20:05:07 公開日:2022-03-10 |
# 波長可変光誘起ナノ粒子間の双極子-双極子相互作用の観察 Observation of strong and tunable light-induced dipole-dipole interactions between optically levitated nanoparticles ( http://arxiv.org/abs/2203.04198v2 ) ライセンス: Link先を確認 | Jakob Rieser, Mario A. Ciampini, Henning Rudolph, Nikolai Kiesel, Klaus Hornberger, Benjamin A. Stickler, Markus Aspelmeyer, Uro\v{s} Deli\'c | (参考訳) 光に閉じ込められたナノ粒子の配列は、複雑な非平衡現象の研究のための有望な基盤として現れている。
原子多体系と同様に、重要な要素の1つは粒子間の相互作用を正確に制御する能力である。
しかし、これまで研究された光学相互作用は、限られた波長の保守的な光学結合力しか与えていない。
ここでは,より桁違いに強く,新しい質的特徴を有する結合機構を示す。
これらの効果は、光誘起双極子-双極子相互作用を駆動する光学場の間の以前未開拓の位相コヒーレンスから生じる。
さらに、偏光制御により、アレイ内の荷電粒子間の静電結合を観察できる。
本研究は, 浮遊ナノ粒子の配列内における絡み合いや位相相の探索に寄与する, 波長可変散逸性および非相反性相互作用を持つ, 完全プログラマブルな多体多体系への道を開く。 Arrays of optically trapped nanoparticles have emerged as a promising platform for the study of complex non-equilibrium phenomena. Analogous to atomic many-body systems, one of the crucial ingredients is the ability to precisely control the interactions between particles. However, the optical interactions studied thus far only provide conservative optical binding forces of limited tunability. Here we demonstrate a coupling mechanism that is orders of magnitude stronger and has new qualitative features. These effects arise from the previously unexplored phase coherence between the optical fields that drive the light-induced dipole-dipole interaction. In addition, polarization control allows us to observe electrostatic coupling between charged particles in the array. Our results pave the way for a fully programmable many-body system of interacting nanoparticles with tunable dissipative and nonreciprocal interactions, which are instrumental for exploring entanglement and topological phases in arrays of levitated nanoparticles. | 翻訳日:2023-02-22 19:53:55 公開日:2022-03-10 |
# 操作完全性に基づく共同現実感の排除実験 Experimentally ruling out joint reality based on operational completeness ( http://arxiv.org/abs/2203.05244v1 ) ライセンス: Link先を確認 | Qiuxin Zhang, Yu Xiang, Xiaoting Gao, Chenhao Zhu, Yuxin Wang, Liangyu Ding, Xiang Zhang, Shuaning Zhang, Shuming Cheng, Michael J. W. Hall, Qiongyi He, Wei Zhang | (参考訳) 物理系の可観測物が実値を受け入れるかどうかは、自然の深い理解にとって基本的な重要性である。
本研究では,一つの2レベルシステム上で観測可能な2つのオブザーバブルの合同現実が,操作完全性の仮定と相容れないことを確認するため,デバイス非依存実験を行った。
我々は、この不等式を線形および非線形の基準から導かれる特定の不等式に違反してテストするために、閉じ込められた$^{171}{\rm yb}^{+}$ ion上に2つの可観測性を実装する。
さらに,高度に制御可能なデファージングチャネルを導入することにより,非線形基準が雑音に対してより頑健であることを示す。
我々の結果は、量子古典境界線を規定する基本的な限界を押し上げ、他のシナリオで関連する問題を探索する方法を舗装する。 Whether the observables of a physical system admit real values is of fundamental importance to a deep understanding of nature. In this work, we report a device-independent experiment to confirm that the joint reality of two observables on a single two-level system is incompatible with the assumption of operational completeness, which is strictly weaker than that of preparation noncontextuality. We implement two observables on a trapped $^{171}{\rm Yb}^{+}$ ion to test this incompatibility via violation of certain inequalities derived from both linear and nonlinear criteria. Moreover, by introducing a highly controllable dephasing channel, we show that the nonlinear criterion is more robust against noise. Our results push the fundamental limit to delineate the quantum-classical boundary and pave the way for exploring relevant problems in other scenarios. | 翻訳日:2023-02-22 12:16:10 公開日:2022-03-10 |
# 非相対論的スピン統計接続の基礎としてのパリティ Parity as the foundation of the non-relativistic spin-statistics connection ( http://arxiv.org/abs/2203.05106v1 ) ライセンス: Link先を確認 | Dmitri V. Averin | (参考訳) 3次元の任意のスピン $s$ を持つ2つの同一粒子の波動関数のパリティの下での対称性は、粒子の置換の下での適切な波動関数交換統計を記述する。
非相対論的量子力学における角運動量の標準的な性質は、波動関数が2つの粒子の座標の置換の下で得られる符号因子 $(-1)^{2s}$ に対して、追加の必要なしに、スピンと非相対論的文脈における粒子交換統計を直接関連付ける。 It is shown that the symmetry under parity of the wavefunctions of two identical particles with an arbitrary spin $s$ in three spatial dimensions accounts for the appropriate wavefunction exchange statistics under the permutations of particles. The standard properties of the angular momentum in non-relativistic quantum mechanics account for the sign factor $(-1)^{2s}$ that the wavefunctions acquire under the permutation of coordinates of the two particles, without any additional requirements, directly relating spin and the particle exchange statistics in the non-relativistic context. | 翻訳日:2023-02-22 12:14:47 公開日:2022-03-10 |
# PQMとGUP:量子力学と宇宙論における格子ダイナミクスと最小不確かさの影響 PQM and the GUP: Implications of Lattice Dynamics and Minimal Uncertainties in Quantum Mechanics and Cosmology ( http://arxiv.org/abs/2203.05398v1 ) ライセンス: Link先を確認 | Gabriele Barca, Eleonora Giovannetti and Giovanni Montani | (参考訳) PQM(Polymer Quantum Mechanics)は、ループ量子重力やループ量子宇宙学に類似した特徴を示すもので、一般化不確実性原理(Generalized Uncertainity Principle, GUP)表現は、変形アルゲブラによって弦理論やブレーン宇宙学に類似した他の不確実性原理をもたらす。
これらの形式は明らかに類似しているように見えるが、GUPは位置において絶対的に最小の不確実性をもたらすが、PQMは格子を通してある種の紫外線遮断を実装し、最小の不確実性を持たない。
PQM は常に特異点の除去を意味し、一方 GUP はそれを行うのに失敗し、2つの表現が根本的に非互換であることを再び強調する。 We compare two alternative representations of quantum mechanics: Polymer Quantum Mechanics (PQM), which presents features similar to Loop Quantum Gravity and Loop Quantum Cosmology, and the Generalized Uncertainty Principle (GUP) representation, that through a modified Algebra yields an alternative uncertainty principle similar to those derived in String Theories and Brane Cosmology. These formalisms can be recast to apparently look similar, but while the GUP yields an absolute minimal uncertainty on position, PQM implements some kind of ultraviolet cut-off through a lattice and does not have a minimal uncertainty. Then we implement them on the anisotropic Bianchi I model in Misner-like variables on a semiclassical level: PQM always implies a removal of the singularities, while the GUP fails to do so, highlighting once again how the two representations are fundamentally incompatible. | 翻訳日:2023-02-22 12:09:42 公開日:2022-03-10 |
# 距離に基づく量子コヒーレンスと非古典性へのアプローチ Distance-based approach to quantum coherence and nonclassicality ( http://arxiv.org/abs/2203.05393v1 ) ライセンス: Link先を確認 | Laura Ares and Alfredo Luis | (参考訳) 距離測定による非古典的行動に対するコヒーレンスに基づくアプローチを提案する。
我々は、コヒーレンスと非古典性量化器の定量的な関係を構築し、非古典性は最大量子コヒーレンス達成可能性として確立する。
いくつかの代表的な例のコヒーレンスを計算し、この理論が連続スペクトルを持つ可観測物に拡張できるかどうかについて議論する。 We provide a coherence-based approach to nonclassical behavior by means of distance measures. We develop a quantitative relation between coherence and nonclassicality quantifiers, which establish the nonclassicality as the maximum quantum-coherence achievable. We compute the coherence of several representative examples and discuss whether the theory may be extended to reference observables with continuous spectra. | 翻訳日:2023-02-22 12:09:19 公開日:2022-03-10 |
# 実および想像的磁場を持つ非エルミートXY系の基底状態と熱的絡み合い Ground-state and thermal entanglements in a non-Hermitian XY system with real and imaginary magnetic fields ( http://arxiv.org/abs/2203.05371v1 ) ライセンス: Link先を確認 | Yue Li, Pan-Pan Zhang, Yu-Liang Xu, Li-Zhen Hu and Xiang-Mu Kong | (参考訳) 本研究では,交互,虚数,横方向の磁場の存在下で2つの位置を持つ非エルミートスピン1/2xy系について検討する。
ハミルトニアンの固有値と固有状態は正確に解かれる。
さらに、系のエネルギースペクトルを議論し、パリティ時間反転対称性と対称性の破れ相を区別する例外点を得る。
次に、異方性パラメータガンマを持つ単位球面によって図示される基底状態相図を、変数として実数および虚数磁場(h0およびeta0)を還元し、2つの可能な基底状態が存在することを発見した。
さらに基底状態の収束を議論し、パラメータの値範囲が球の外にあるとき、それがガンマとh0にのみ関係していることを見出した。
さらに、eta0のみに依存し、パラメータが球面内にある場合は常に最大となる。
基底状態が縮退すると、2つの基底状態からなる純粋な状態の絡み合いは混合状態よりも大きい。
また,熱的絡み合いについても検討し,温度と外部磁場 (h0, eta0) の低下によりコンカージェンスが突然変化することを発見した。
特にこの変化はガンマ線の増加とともに消えていく。
さらに, 温度が0に近づくと, 熱的および非退化基底状態の絡み合いが重なり合う部分が存在し, 非退化基底状態によって熱的絡み合いが実現されることを示す。 In this manuscript, we study a non-Hermitian spin-1/2 XY system with two sites in the presence of an alternating, imaginary and transverse magnetic field. The eigenvalues and eigenstates of the Hamiltonian are exactly solved. In addition, the energy spectrum of the system is discussed and an exceptional point is obtained which distinguishes the parity-time reversal symmetry and symmetry broken phases. Then we study the ground-state phase diagram which is illustrated by a unit sphere with the anisotropic parameter gamma, reduced real and imaginary magnetic fields (h0 and eta0) as variables, and find that there are two possible ground states. We further discuss the ground-state concurrence and find that it is only related to gamma and h0 when the value ranges of the parameters are outside the sphere. Moreover, it only depends on eta0 and is always the maximum when parameters are inside the sphere. When ground states are degenerate, the entanglement of the pure state which consists of two ground states is greater than that of the mixed state. We also study the thermal entanglement and find that concurrence suddenly changes with temperature and the reduced external magnetic fields (h0 and eta0). Especially, the change fades away with increasing gamma. Furthermore, when temperature approaches zero, there are overlapping parts between the thermal and non-degenerate ground-state entanglements and it is indicated that the thermal entanglement is realized by non-degenerate ground states. | 翻訳日:2023-02-22 12:08:05 公開日:2022-03-10 |
# 時相分離観測者によるネットワーク非局所性の限界 Limits of network nonlocality probed by time-like separated observers ( http://arxiv.org/abs/2203.05353v1 ) ライセンス: Link先を確認 | Pritam Halder, Ratul Banerjee, Shiladitya Mal, Aditi Sen De | (参考訳) 絡み合い交換のシナリオでは、3つのパーティ間で絡み合った状態を共有する2つのソースが独立であれば、局所的相関は、ネットワーク局所モデルとして知られる標準ベルの不等式とは異なる種類の不等式をもたらす。
非常に要求の強いタスクは、測定が一般にシステムを乱すので、量子ネットワークに多くのプレイヤーを自明に巻き込む方法を見つけることである。
この目的のために、2人の観測者が最初、最大絡み合った状態に近いときに、ネットワーク非局所性を共有する新しい方法を考える。
観測者の1人が行った非局所性測定を用いて,2対の観測者の最大2対が非局所性を示すのに対し,6対の観測者は2対の非局所性を示す。
また,固定共有絡み合った状態の非局所性を資源として示すために,各ラウンドにおけるアンシャープ測定に関わる臨界ノイズも見出した。
また、Werner状態に対する局所密度行列のvon-Neumannエントロピーによって定量化された共有状態の絡み合いの内容と、局所相関の違反を示すラウンドの最大数との間の関係を確立する。
第三者による関節測定の要素の絡み込み量を低減させることで、各辺の設定を3つにして固定した場合の最大値が最大非局所性の2つの逐次共有に減少するのを観察する。 In an entanglement swapping scenario, if two sources sharing entangled states between three parties are independent, local correlations lead to a different kind of inequalities than the standard Bell inequalities, known as network local models. A highly demanding task is to find out a way to involve many players nontrivially in a quantum network since measurements, in general, disturb the system. To this end, we consider here a novel way of sharing network nonlocality when two observers initially share close to a maximally entangled states. We report that by employing unsharp measurements performed by one of the observers, six pairs can sequentially demonstrate the violation of bilocal correlations while a maximum of two pairs of observers can exhibit bi-nonlocality when both the observers perform unsharp measurements. We also find the critical noise involved in unsharp measurements in each round to illustrate the bi-nonlocality for a fixed shared entangled state as a resource. We also establish a connection between entanglement content of the shared state, quantified via von-Neumann entropy of the local density matrix for pure states and entanglement of formation for Werner states, and the maximum number of rounds showing violation of bilocal correlations. By reducing entanglement content in the elements of the joint measurement by the third party, we observe that the maximum number reduces to two sequential sharing of bi-nonlocality even for the maximally entangled state when the settings at each side are taken to be three and fixed. | 翻訳日:2023-02-22 12:07:40 公開日:2022-03-10 |
# NVMに基づくニューロモルフィック処理素子の設計-技術共最適化 Design-Technology Co-Optimization for NVM-based Neuromorphic Processing Elements ( http://arxiv.org/abs/2203.05311v1 ) ライセンス: Link先を確認 | Shihao Song and Adarsha Balaji and Anup Das and Nagarajan Kandasamy | (参考訳) ニューロモルフィックハードウェアプラットフォームは、機械学習推論タスクのエネルギーオーバーヘッドを著しく低減することができる。
非揮発性メモリ(NVM)ベースのニューロモルフィックハードウェアの処理要素(PE)にそのような推論タスクを実装するための設計技術トレードオフ分析を提案する。
大規模プロセス技術ノードにおける回路レベルの詳細なシミュレーションを通じて、組み込みMLシステムの品質(QoS)に影響を及ぼす情報処理遅延に対する技術スケーリングの負の影響を示す。
粒度の細かい場合、PE内の遅延は依存する。
1) 寄生虫成分が現在の経路で導入する遅延及び
2) NVM細胞の異なる抵抗状態を感知するための様々な遅延。
これら2つの観察に基づいて、以下の3つの貢献を行う。
まず、技術面では、最も長い時間を要するNVM抵抗状態が、最も遅延の少ない現在の経路に設定され、また、QoSを改善する平均PE遅延を低減させる最適化手法を提案する。
第2に、アーキテクチャ面では、各PE内に分離トランジスタを導入し、個別にパワーゲート可能な領域に分割し、レイテンシとエネルギーの両方を削減する。
最後に,ハードウェアのニューロモルフィックPE上での機械学習推論タスクを実装する際に,提案する技術とアーキテクチャの強化を活用する機構を提案する。
最近のニューロモルフィックハードウェアアーキテクチャによる評価から,提案手法は,高コスト/ビットのコストを伴わずに,機械学習推論タスクの性能とエネルギー効率を向上させる。 Neuromorphic hardware platforms can significantly lower the energy overhead of a machine learning inference task. We present a design-technology tradeoff analysis to implement such inference tasks on the processing elements (PEs) of a Non- Volatile Memory (NVM)-based neuromorphic hardware. Through detailed circuit-level simulations at scaled process technology nodes, we show the negative impact of technology scaling on the information-processing latency, which impacts the quality-of-service (QoS) of an embedded ML system. At a finer granularity, the latency inside a PE depends on 1) the delay introduced by parasitic components on its current paths, and 2) the varying delay to sense different resistance states of its NVM cells. Based on these two observations, we make the following three contributions. First, on the technology front, we propose an optimization scheme where the NVM resistance state that takes the longest time to sense is set on current paths having the least delay, and vice versa, reducing the average PE latency, which improves the QoS. Second, on the architecture front, we introduce isolation transistors within each PE to partition it into regions that can be individually power-gated, reducing both latency and energy. Finally, on the system-software front, we propose a mechanism to leverage the proposed technological and architectural enhancements when implementing a machine-learning inference task on neuromorphic PEs of the hardware. Evaluations with a recent neuromorphic hardware architecture show that our proposed design-technology co-optimization approach improves both performance and energy efficiency of machine-learning inference tasks without incurring high cost-per-bit. | 翻訳日:2023-02-22 12:07:10 公開日:2022-03-10 |
# 近接場調査のための頑健な先端レス位置決め装置:プレスとロールスキャン(PROscan) A robust tip-less positioning device for near-field investigations: Press and Roll Scan (PROscan) ( http://arxiv.org/abs/2203.05527v1 ) ライセンス: Link先を確認 | Hsuan-Wei Liu, Michael A. Becker, Korenobu Matsuzaki, Randhir Kumar, Stephan G\"otzinger, Vahid Sandoghdar | (参考訳) 走査型プローブ顕微鏡は、試料表面の直近の鋭い先端を走査して操作する。
先端と試料の分離を安定化するために用いられるフィードバック機構の帯域幅が限られているため、脆弱なナノスコピック先端は機械的不安定性に非常に敏感である。
薄板基板を第2基板に対して膨らませ、互いに敬意を表して転がり合う新しい代替装置を提案し、実演し、特徴づける。
本手法は,両基板に金ナノ粒子と半導体量子ドットを配置し,ナノメートル精度で位置決めすることで蛍光強度と発光率を高めることで,そのパワーを示す。
我々は1時間以上にわたってシステムのパッシブな機械的安定性を示す。
この研究で提示されたデザイン概念は、ナノスコープの特徴を配置し、互いに近づき合う必要がある様々な状況において約束される。 Scanning probe microscopes scan and manipulate a sharp tip in the immediate vicinity of a sample surface. The limited bandwidth of the feedback mechanism used for stabilizing the separation between the tip and the sample makes the fragile nanoscopic tip very susceptible to mechanical instabilities. We propose, demonstrate and characterize a new alternative device based on bulging a thin substrate against a second substrate and rolling them with respect each other. We showcase the power of this method by placing gold nanoparticles and semiconductor quantum dots on the two opposite substrates and positioning them with nanometer precision to enhance the fluorescence intensity and emission rate. We exhibit the passive mechanical stability of the system over more than one hour. The design concept presented in this work holds promise in a variety of other contexts, where nanoscopic features have to be positioned and kept near contact with each other. | 翻訳日:2023-02-22 12:00:23 公開日:2022-03-10 |
# ブロードバンドセンシングの機会と限界 Opportunities and Limitations in Broadband Sensing ( http://arxiv.org/abs/2203.05520v1 ) ライセンス: Link先を確認 | Anthony M. Polloreno, Jacob L. Beckey, Joshua Levin, Ariel Shlosberg, James K. Thompson, Michael Foss-Feig, David Hayes, Graeme Smith | (参考訳) 2レベルセンサに結合する単色交流信号の大きさを推定することを検討する。
どんな検出プロトコルでも、精度は信号の周波数に依存し、量子フィッシャー情報によって定量化できる。
ブロードバンドセンシングの限界を研究するために,センサプロトコルの基本トレードオフを具現化した量子フィッシャー情報を導入し,不等式境界を導出する。
これらの不等式は、1つの周波数範囲の感度が他の場所の感度を低下させるコストでなければならないことを示している。
小さな位相蓄積を持つプロトコルや$\pi$-pulsesからなるプロトコルを含む多くのプロトコルでは、統合されたフィッシャー情報は$T$で線形にスケールする。
また、位相蓄積がかなり大きいプロトコルは、QFIを統合することができ、QFIは2次的に成長し、$T$は最適である。
これらのプロトコルは、非常に広い帯域で未知の周波数の信号を迅速に検出することができる。 We consider estimating the magnitude of a monochromatic AC signal that couples to a two-level sensor. For any detection protocol, the precision achieved depends on the signal's frequency and can be quantified by the quantum Fisher information. To study limitations in broadband sensing, we introduce the integrated quantum Fisher information and derive inequality bounds that embody fundamental tradeoffs in any sensing protocol. These inequalities show that sensitivity in one frequency range must come at a cost of reduced sensitivity elsewhere. For many protocols, including those with small phase accumulation and those consisting of $\pi$-pulses, we find the integrated Fisher information scales linearly with $T$. We also find protocols with substantial phase accumulation can have integrated QFI that grows quadratically with $T$, which is optimal. These protocols may allow the very rapid detection of a signal with unknown frequency over a very wide bandwidth. | 翻訳日:2023-02-22 11:59:50 公開日:2022-03-10 |
# 境界古典通信を用いた多人数量子純度蒸留 Multi-Party Quantum Purity Distillation with Bounded Classical Communication ( http://arxiv.org/abs/2203.05511v1 ) ライセンス: Link先を確認 | Touheed Anwar Atif, S. Sandeep Pradhan | (参考訳) 雑音の多い量子状態$\rho^{ABC}$から局所純度を蒸留するタスクを考え、Alice、Bob、Charlieの3人の当事者に対して、与えられた量子状態$\rho^{ABC}$の多くの独立したコピーから局所純度(P$)を蒸留するプロトコルを提供する。
3つのパーティは、それぞれ$\rho^{abc}$のサブシステムにアクセスでき、プロトコルの終了後にそれらを返すことを約束して、純粋なancillaを触媒的に提供します。
さらに、AliceとBobは、それぞれ$R_1$と$R_2$のリンクレートの一方通行の多重アクセスデフォーカスチャネルを使用してCharlieと通信することができる。
プロトコルの目的は、デファージングチャネルの使用を最小化し(レート$R_1$と$R_2$)、同時に、$\rho^{ABC}$から共同で蒸留できる漸近純度を最大化することである。
これを実現するために、分散計測圧縮プロトコルのアイデアを用いて、$(P,R_1,R_2)$に対する十分な条件のセットを量子情報理論量の観点から特徴づけ、$P$の純度を$R_1$と$R_2$で蒸留することができる。
最後に、漸近的な代数的構造化コーディングの技法を取り入れ、性能限界を特徴付ける統一的なアプローチを提供する。 We consider the task of distilling local purity from a noisy quantum state $\rho^{ABC}$, wherein we provide a protocol for three parties, Alice, Bob and Charlie, to distill local purity (at a rate $P$) from many independent copies of a given quantum state $\rho^{ABC}$. The three parties have access to their respective subsystems of $\rho^{ABC}$, and are provided with pure ancilla catalytically, i.e., with the promise of returning them unaltered after the end of the protocol. In addition, Alice and Bob can communicate with Charlie using a one-way multiple-access dephasing channel of link rates $R_1$ and $R_2$, respectively. The objective of the protocol is to minimize the usage of the dephasing channel (in terms of rates $R_1$ and $R_2$) while maximizing the asymptotic purity that can be jointly distilled from $\rho^{ABC}$. To achieve this, we employ ideas from distributed measurement compression protocols, and in turn, characterize a set of sufficient conditions on $(P,R_1,R_2)$ in terms of quantum information theoretic quantities such that $P$ amount of purity can be distilled using rates $R_1$ and $R_2$. Finally, we also incorporate the technique of asymptotic algebraic structured coding, and provide a unified approach of characterizing the performance limits. | 翻訳日:2023-02-22 11:59:15 公開日:2022-03-10 |
# 積分および非可積分スピン鎖における非局所ブロックスピンおよびランダム可観測体の時間外相関 Out-of-time-order correlators of nonlocal block-spin and random observables in integrable and nonintegrable spin chains ( http://arxiv.org/abs/2203.05494v1 ) ライセンス: Link先を確認 | Rohit Kumar Shukla, Arul Lakshminarayan, and Sunil Kumar Mishra | (参考訳) Ising Floquetシステムにおける時間外相関器(OTOC)について検討した。
局所化されたスピンオブザーバブルの代わりに、これらのブロック上に局所化されたスピンまたはランダム作用素の連続対称ブロックを観測可能として研究する。
我々は可積分と非可積分の両方の領域においてotocのパワーロー成長のみを見出す。
非可積分系では、スクランブル時間を超えると、OTOCをランダム行列理論と整合した値に指数的飽和が存在する。
これは「事前スクランブル」ランダムブロック演算子をオブザーバブルとして使用する動機である。
可積分系と可積分系の両方におけるOTOCの純粋な指数飽和は、スクランブル相なしで観察される。
ガウスのユニタリアンサンブルからのランダムな可観測物に平均して、OTOCは作用素エンタングルメントエントロピーと全く同じで、そのようなスピン鎖の以前の研究で指数的飽和が観測されている。 Out-of-time-order correlators (OTOC) in the Ising Floquet system, that can be both integrable and nonintegrable is studied. Instead of localized spin observables, we study contiguous symmetric blocks of spins or random operators localized on these blocks as observables. We find only power-law growth of OTOC in both integrable and nonintegrable regimes. In the non-integrable regime, beyond the scrambling time, there is an exponential saturation of the OTOC to values consistent with random matrix theory. This motivates the use of "pre-scrambled" random block operators as observables. A pure exponential saturation of OTOC in both integrable and nonintegrable system is observed, without a scrambling phase. Averaging over random observables from the Gaussian unitary ensemble, the OTOC is found to be exactly same as the operator entanglement entropy, whose exponential saturation has been observed in previous studies of such spin-chains. | 翻訳日:2023-02-22 11:58:44 公開日:2022-03-10 |
# 2つのブラウン粒子の双線型モデルによる非線形散逸の和解 Reconciling nonlinear dissipation with the bilinear model of two Brownian particles ( http://arxiv.org/abs/2203.05490v1 ) ライセンス: Link先を確認 | Elisa I. Goettems, Ricardo J. S. Afonso, Diogo O. Soares-Pinto, Daniel Valente | (参考訳) 単一粒子のブラウン運動は散逸系の非平衡ダイナミクスのパラダイムモデルである。
系+貯水池のアプローチでは、粒子の運動方程式は、その熱環境を表す発振器の浴に結合された系の可逆力学から導出される。
しかし、システムプラス保存アプローチを集合環境において複数の粒子に拡張することは簡単ではなく、矛盾するモデルが提案されている。
ここでは、2つのブラウン粒子の非線形および双線型モデルのいくつかの側面を整理する。
指数関数系-貯留層結合から導かれる非線形散逸は、代わりに双線型ラグランジアンから得られるかを示し、粒子間の距離に明示的に依存するスペクトル関数を改良した。
本稿では, 標準非線形モデルからの異常拡散の回避と, ブラウン粒子対の粘性流体中における流体力学的相互作用の現象論的モデル化について考察する。 The Brownian motion of a single particle is a paradigmatic model of the nonequilibrium dynamics of dissipative systems. In the system-plus-reservoir approach, one can derive the particle's equations of motion from the reversible dynamics of the system coupled to a bath of oscillators representing its thermal environment. However, extending the system-plus-reservoir approach to multiple particles in a collective environment is not straightforward, and conflicting models have been proposed to that end. Here, we set out to reconcile some aspects of the nonlinear and the bilinear models of two Brownian particles. We show how the nonlinear dissipation originally derived from exponential system-reservoir couplings can alternatively be obtained from the bilinear Lagrangian, with a modified spectral function that explicitly depends on the distance between the particles. As applications, we discuss how to avoid the anomalous diffusion from the standard nonlinear model, as well as how to phenomenologically model a hydrodynamic interaction between a pair of Brownian particles in a viscous fluid. | 翻訳日:2023-02-22 11:58:14 公開日:2022-03-10 |
# 奇時間反転対称性をもつ位相絶縁体の絶対連続エッジスペクトル Absolutely continuous edge spectrum of topological insulators with an odd time-reversal symmetry ( http://arxiv.org/abs/2203.05474v1 ) ライセンス: Link先を確認 | Alex Bols and Christopher Cedzich | (参考訳) 奇数な時間反転対称性によって保護される非自明な2次元位相絶縁体は絶対連続なエッジスペクトルを持つことを示す。
この証明は、トポロジカル絶縁体の弾道的なエッジモードを選別するウォルド分解の時間反転対称版を用いる。 We show that non-trivial two-dimensional topological insulators protected by an odd time-reversal symmetry have absolutely continuous edge spectrum. The proof employs a time-reversal symmetric version of the Wold decomposition that singles out ballistic edge modes of the topological insulator. | 翻訳日:2023-02-22 11:57:48 公開日:2022-03-10 |
# ダイヤモンドナノ構造における光コヒーレント窒素空孔欠陥中心 Optically coherent nitrogen-vacancy defect centers in diamond nanostructures ( http://arxiv.org/abs/2203.05605v1 ) ライセンス: Link先を確認 | Laura Orphal-Kobin, Kilian Unterguggenberger, Tommaso Pregnolato, Natalia Kemf, Matthias Matalla, Ralph-Stephan Unger, Ina Ostermay, Gregor Pieplow, Tim Schr\"oder | (参考訳) 光学活性な固体スピン欠陥は、量子情報処理アプリケーションのための汎用的な資源になる可能性がある。
ダイヤモンド中の窒素空孔欠陥中心(NV)は量子記憶として作用し、絡み合いプロトコルで示されるようにコヒーレント光子と相互作用することができる。
しかし、特にダイヤモンドナノ構造では、スペクトル拡散の影響により光デコヒーレンスが絡み合いの発生を妨げる。
本研究では,ダイヤモンドナノ構造の電気ノイズを著しく低減する手法を提案する。
ナノピラーにおいて1個のnvが1秒間のスペクトル安定性の時間スケールで寿命制限された線幅を示し、不均質な線幅は3分間で150mhzまで低下することを示した。
励起パワーとエネルギー依存の測定は、ナノ光学モンテカルロシミュレーションと組み合わせることで、バルクおよび表面欠陥がNVのスペクトル特性に与える影響をよりよく理解することができる。
最後に,ナノ構造結合型NVの絡み合い発生率を最大数百kHzまで向上させる絡み合いプロトコルを提案する。 Optically active solid-state spin defects have the potential to become a versatile resource for quantum information processing applications. Nitrogen-vacancy defect centers (NV) in diamond act as quantum memories and can be interfaced by coherent photons as demonstrated in entanglement protocols. However, in particular in diamond nanostructures, the effect of spectral diffusion leads to optical decoherence hindering entanglement generation. In this work, we present strategies to significantly reduce the electric noise in diamond nanostructures. We demonstrate single NVs in nanopillars exhibiting lifetime-limited linewidth on the time scale of one second and long-term spectral stability with inhomogeneous linewidth as low as 150 MHz over three minutes. Excitation power and energy-dependent measurements in combination with nanoscopic Monte Carlo simulations contribute to a better understanding of the impact of bulk and surface defects on the NV's spectral properties. Finally, we propose an entanglement protocol for nanostructure-coupled NVs providing entanglement generation rates up to hundreds of kHz. | 翻訳日:2023-02-22 11:51:35 公開日:2022-03-10 |
# 量子ランダムアクセルゲートによるメモリ圧縮 Memory Compression with Quantum Random-Access Gates ( http://arxiv.org/abs/2203.05599v1 ) ライセンス: Link先を確認 | Harry Buhrman, Bruno Loff, Subhasree Patro, Florian Speelman | (参考訳) 古典的なRAMでは、以下の有用な特性がある。
実行を通じて$M$のメモリセルを使用するアルゴリズムがあり、また、どんな時点でも$M$のメモリセルのうち$m$しかゼロではないという意味で、スパースであるなら、$m \log M$メモリのみを使用し、ほぼ同じ時間に実行される別のアルゴリズムにそれを「圧縮」することができる。
ハッシュテーブルまたは自己バランスツリーを使用してメモリをシミュレートすることで、そうすることができる。
量子ランダムアクセスゲートを備えた量子アルゴリズムの類似の結果を示す。
もし時間$T$で実行し、任意のステップでメモリの状態が最大$m$のハミング重みの計算基底ベクトルでサポートされているような$M$ qubitsを使用する量子アルゴリズムがあるなら、それは、$O(m \log M)$メモリのみを使用し、時間$\tilde O(T)$で実行する別のアルゴリズムでシミュレートできる。
我々は,この定理をブラックボックス方式で利用し,プレゼンテーションを単純化する方法をいくつかの論文で示す。
広義的には、空間非効率な歴史非依存の量子データ構造が存在する場合、空間非効率でスパースな量子データ構造を構築し、その上で主定理に訴えることがしばしば可能である。
これにより、より単純で短い議論が生まれる。 In the classical RAM, we have the following useful property. If we have an algorithm that uses $M$ memory cells throughout its execution, and in addition is sparse, in the sense that, at any point in time, only $m$ out of $M$ cells will be non-zero, then we may "compress" it into another algorithm which uses only $m \log M$ memory and runs in almost the same time. We may do so by simulating the memory using either a hash table, or a self-balancing tree. We show an analogous result for quantum algorithms equipped with quantum random-access gates. If we have a quantum algorithm that runs in time $T$ and uses $M$ qubits, such that the state of the memory, at any time step, is supported on computational-basis vectors of Hamming weight at most $m$, then it can be simulated by another algorithm which uses only $O(m \log M)$ memory, and runs in time $\tilde O(T)$. We show how this theorem can be used, in a black-box way, to simplify the presentation in several papers. Broadly speaking, when there exists a need for a space-efficient history-independent quantum data-structure, it is often possible to construct a space-inefficient, yet sparse, quantum data structure, and then appeal to our main theorem. This results in simpler and shorter arguments. | 翻訳日:2023-02-22 11:51:18 公開日:2022-03-10 |
# 全誘電体形地表面偏光度計 An all-dielectric metasurface polarimeter ( http://arxiv.org/abs/2203.05590v1 ) ライセンス: Link先を確認 | Yash D. Shah, Adetunmise C. Dada, James P. Grant, David R. S. Cumming, Charles Altuzarra, Thomas S. Nowack, Ashley Lyons, Matteo Clerici and Daniele Faccio | (参考訳) 光の偏光状態は多くのイメージングシステムにおいて重要なパラメータである。
例えば、従来の撮像では見られない機械的応力やその他の物理的性質を撮像し、量子センシングにおいて中心的な役割を果たすことができる。
しかし、偏光は画像化がより困難であり、偏光測定は通常、測定装置内の可動部を含むいくつかの独立した測定を伴う。
インターリーブデザインのメタ曲面は、線形または円/楕円偏光状態に感度を示す。
本稿では,任意の偏光状態を直接測定するための全誘電型メタポーラリメータについて述べる。
完全に非対称な設計により, ナノ共振器の固有モードを励起し, 線形偏光状態だけでなく, 楕円偏光状態(およびハンドネス)に対しても独自の回折パターンを呈するメタ曲面を得た。
ユニークな回折パターンは、5$^{\circ}$の分解能と最大99\pm1$%の偏光状態忠実度でストークスパラメータに定量化される。
これは偏光イメージングや量子状態トモグラフィーへの応用を約束している。 The polarization state of light is a key parameter in many imaging systems. For example, it can image mechanical stress and other physical properties that are not seen with conventional imaging, and can also play a central role in quantum sensing. However, polarization is more difficult to image and polarimetry typically involves several independent measurements with moving parts in the measurement device. Metasurfaces with interleaved designs have demonstrated sensitivity to either linear or circular/elliptical polarization states. Here we present an all-dielectric meta-polarimeter for direct measurement of any arbitrary polarization states from a single unit-cell design. By engineering a completely asymmetric design, we obtained a metasurface that can excite eigenmodes of the nanoresonators, thus displaying a unique diffraction pattern for not only any linear polarization state but all elliptical polarization states (and handedness) as well. The unique diffraction patterns are quantified into Stokes parameters with a resolution of 5$^{\circ}$ and with a polarization state fidelity of up to $99\pm1$%. This holds promise for applications in polarization imaging and quantum state tomography. | 翻訳日:2023-02-22 11:50:49 公開日:2022-03-10 |
# 重力実験における古典世界の出現を避ける方法 How to avoid the appearance of a classical world in gravity experiments ( http://arxiv.org/abs/2203.05587v1 ) ライセンス: Link先を確認 | Markus Aspelmeyer | (参考訳) 重力源質量の量子状態は、純粋に古典的重力場理論の予測と矛盾する実験結果をもたらす可能性がある。
環境デコヒーレンスは厳密な境界条件をそのような実験の潜在的な実現に向ける: 基本的なショーストッパーとして振る舞わないことは十分に穏やかだが、次世代の量子実験(er)に対する恐ろしい挑戦を表現するために十分要求される。 Quantum states of gravitational source masses can lead to experimental outcomes that are inconsistent with the predictions of a purely classical field theory of gravity. Environmental decoherence places strict boundary conditions to the potential realization of such experiments: sufficiently mild not to act as a fundamental show-stopper, yet sufficiently demanding to represent a formidable challenge to the next generation of quantum experiment(er)s. | 翻訳日:2023-02-22 11:50:31 公開日:2022-03-10 |
# 屋外におけるマイクロ波量子鍵分布の展望 Perspectives of microwave quantum key distribution in open-air ( http://arxiv.org/abs/2203.05530v1 ) ライセンス: Link先を確認 | Florian Fesquet, Fabian Kronowetter, Michael Renger, Qiming Chen, Kedar Honasoge, Oscar Gargiulo, Yuki Nojiri, Achim Marx, Frank Deppe, Rudolf Gross, Kirill G. Fedorov | (参考訳) 量子通信の基盤の1つは、遠隔当事者間の古典鍵の無条件セキュアな分散である。
この量子技術の鍵となる特徴は、絡み合いや非閉鎖定理のような伝播する電磁波の量子的性質に基づいている。
しかし、これらの量子リソースはノイズや損失に影響を受けやすいことが知られており、それらは屋外の通信シナリオで広く見られる。
本研究では,マイクロ波における連続可変自由空量子鍵分布の考え方を理論的に検討する。
特に, 伝搬マイクロ波と雑音環境との結合を記述するモデルを提案する。
スクイーズ状態のずれに基づくプロトコルを用いて,マイクロ波伝搬を伴う連続変動量子鍵分布を室温200mまで無条件に確保できることを実証する。
さらに,マイクロ波は,不完全な気象条件下でのテレコム波長における従来の量子鍵分布より優れていることを示す。 One of the cornerstones of quantum communication is the unconditionally secure distribution of classical keys between remote parties. This key feature of quantum technology is based on the quantum properties of propagating electromagnetic waves, such as entanglement, or the no-cloning theorem. However, these quantum resources are known to be susceptible to noise and losses, which are omnipresent in open-air communication scenarios. In this work, we theoretically investigate the perspectives of continuous-variable open-air quantum key distribution at microwave frequencies. In particular, we present a model describing the coupling of propagating microwaves with a noisy environment. Using a protocol based on displaced squeezed states, we demonstrate that continuous-variable quantum key distribution with propagating microwaves can be unconditionally secure at room temperature up to distances of around 200 meters. Moreover, we show that microwaves can potentially outperform conventional quantum key distribution at telecom wavelength at imperfect weather conditions. | 翻訳日:2023-02-22 11:48:55 公開日:2022-03-10 |
# スピン回路量子電磁力学によるJaynes-Cummingsはしごの探索 Probing the Jaynes-Cummings ladder with spin circuit quantum electrodynamics ( http://arxiv.org/abs/2203.05668v1 ) ライセンス: Link先を確認 | Tobias Bonsen (1), Patrick Harvey-Collard (1), Maximilian Russ (1), Jurgen Dijkema (1), Amir Sammak (2), Giordano Scappucci, Lieven M. K. Vandersypen (1) ((1) QuTech and Kavli Institute of Nanoscience, Delft University of Technology, (2) QuTech and Netherlands Organization for Applied Scientific Research (TNO)) | (参考訳) 電子スピンを持つ回路量子力学(スピン回路QED)は、スピン量子ビットの長距離相互作用と単一ショット読み出しを可能にし、大規模なスピン量子ビットプロセッサへの道を開く。
最近の実験的研究は、共振器透過スペクトルのピークの真空ラビ分裂における追加的な特徴を報告している。
本研究では,スピン回路QEDの入力出力モデルには含まれないJaynes-Cummingsはしごの励起状態間の遷移が特徴であることを示す。
本稿では,これらの効果を含む入力出力フレームワークを提案し,定常極限におけるlindbladマスター方程式の数値解法を基礎とする。
新しい実験では、まず以前の観測を再現し、プローブパワーを増大させ、2トーン分光を用いて励起状態遷移と多光子遷移の両方を明らかにする。
スピン回路QEDにおけるJaynes-Cummingsのはしごを探査する能力は、プラットフォームの開発における重要な新しいステップである。
今後の研究において、我々の入力出力フレームワークは2つのリモートスピン間の共振器による相互作用を正確に記述するために簡単に拡張できる。 Circuit quantum electrodynamics with electron spins (spin circuit QED) enables long-range interaction and single-shot readout of spin qubits, which pave the way to large-scale spin qubit processors. Recent experimental work reported an additional feature in the vacuum Rabi splitting of peaks in the resonator transmission spectrum, which has remained unexplained until now. In this work, we show that this feature originates from transitions between excited states in the Jaynes-Cummings ladder, which are not included in commonly used input-output models for spin circuit QED. We present an input-output framework that does include these effects and is based on a numerical solution of a Lindblad master equation in the stationary limit. In new experiments, we first reproduce previous observations and then reveal both excited-state transitions and multi-photon transitions by increasing the probe power and using two-tone spectroscopy. This ability to probe the Jaynes-Cummings ladder in spin circuit QED is an important new step in the development of the platform. In future work, our input-output framework can be straightforwardly extended to accurately describe resonator-mediated interactions between two remote spins. | 翻訳日:2023-02-22 11:40:50 公開日:2022-03-10 |
# ロックされた量子ドットセルオートマタ回路は不要な外部電界に耐える Clocked Quantum-dot Cellular Automata Circuits Tolerate Unwanted External Electric Fields ( http://arxiv.org/abs/2203.05649v1 ) ライセンス: Link先を確認 | Peizhong Cong, Enrique P. Blair | (参考訳) 量子ドットセルオートマトン(QCA)は、CMOS時代の低消費電力、汎用コンピューティングを提供する。
QCAの分子実装はナノメートル規模のデバイスを備え、室温での THz スイッチング速度をサポートする。
ここでは,多種多様な源から発生する不必要な印加電界を許容する分子qca回路の能力について検討する。
強い望ましくない電場源の1つは、分子QCA入力回路への古典ビットの書き込みのために最近提案された電極である。
従来のモデルでは、入力回路は印加フィールドに敏感であり、結合されたqcaワイヤは強い印加フィールドにもかかわらず、入力ビットを下流回路に正常に転送できることが示されている。
しかし、他のQCA回路が適用分野を許容する能力はまだ実証されていない。
本稿では, 各種QCA回路のロバスト性について, 応用場の存在下での基底状態応答を計算して検討する。
これを実現するために、回路は複数のQCA分子から構築され、それぞれが2状態系として記述される。
回路ハミルトニアンが形成され対角化される。
細胞間の全ての対の相互作用は、すべての相関とともに考慮される。
基底状態を調べると、これらのQCA回路は強い望ましくない電場を許容する可能性がある。
また, 構成分子の配向を選択することにより, 支配的不必要な磁場成分に対する回路免疫が得られることを示す。
これは、分子QCAへのビット書き込みに使用される比較的大きな電極が、近くのQCA回路の動作を妨害する必要はないことを示唆している。
回路は他の源からも大きな電界を許容することができる。 Quantum-dot cellular automata (QCA) may provide low-power, general-purpose computing in the post-CMOS era. A molecular implementation of QCA features nanometer-scale devices and may support THz switching speeds at room-temperature. Here, we explore the ability of molecular QCA circuits to tolerate unwanted applied electric fields, which may come from a variety of sources. One likely source of strong unwanted electric fields may be electrodes recently proposed for the write-in of classical bits to molecular QCA input circuits. Previous models have shown that the input circuits are sensitive to the applied field, and a coupled QCA wire can successfully transfer the input bit to downstream circuits despite strong applied fields. However, the ability of other QCA circuits to tolerate an applied field has not yet been demonstrated. Here we study the robustness of various QCA circuits by calculating their ground state responses in the presence an applied field. To do this, a circuit is built from several QCA molecules, each described as a two-state system. A circuit Hamiltonian is formed and diagonalized. All pairwise interactions between cells are considered, along with all correlations. An examination of the ground state shows that these QCA circuits may indeed tolerate strong unwanted electric fields. We also show that circuit immunity to the dominant unwanted field component may be obtained by choosing the orientation of constituent molecules. This suggests that relatively large electrodes used for bit write-in to molecular QCA need not disrupt the operation of nearby QCA circuits. The circuits may tolerate significant electric fields from other sources, as well. | 翻訳日:2023-02-22 11:40:30 公開日:2022-03-10 |
# 一般化エルミート多項式に関連する3階形状不変ハミルトン多様体の一般族について On the general family of third-order shape-invariant Hamiltonians related to generalized Hermite polynomials ( http://arxiv.org/abs/2203.05631v1 ) ライセンス: Link先を確認 | Ian Marquette and Kevin Zelaya | (参考訳) この研究は、一般化されたエルミート多項式の観点で、有理量子ポテンシャルの最も一般的な構成を報告し分類する。
これは、3階形状不変ハミルトニアンと4階パインレフ方程式の内在的関係を利用して達成され、一般化されたエルミート多項式は有理解の1/x$と2x$階層から現れる。
このような関係は、一般に、ギャップによって分離された等距離固有値の有限および無限次元列の和として構成される離散スペクトル構造を不当に確立する。
一般化されたエルミート多項式の2つの指標は有限列とギャップの次元を決定する。
同様に、完全固有解の集合は2つの非随伴部分集合に分解することができる。
この形式では、各集合内の固有解は多項式の実数直線上で定義される重み関数の積として書かれる。
これらの多項式は二階微分方程式を満たし、代わりに三項反復関係(二階差分方程式)から決定される。 This work reports and classifies the most general construction of rational quantum potentials in terms of the generalized Hermite polynomials. This is achieved by exploiting the intrinsic relation between third-order shape-invariant Hamiltonians and the fourth Painlev\'e equation, such that the generalized Hermite polynomials emerge from the $-1/x$ and $-2x$ hierarchies of rational solutions. Such a relation unequivocally establishes the discrete spectrum structure, which, in general, is composed as the union of a finite- and infinite-dimensional sequence of equidistant eigenvalues separated by a gap. The two indices of the generalized Hermite polynomials determine the dimension of the finite sequence and the gap. Likewise, the complete set of eigensolutions can be decomposed into two disjoint subsets. In this form, the eigensolutions within each set are written as the product of a weight function defined on the real line times a polynomial. These polynomials fulfill a second-order differential equation and are alternatively determined from a three-term recurrence relation (second-order difference equation), the initial conditions of which are also fixed in terms of generalized Hermite polynomials. | 翻訳日:2023-02-22 11:39:49 公開日:2022-03-10 |
# 励起子コヒーレンス長、局在およびその光学的線状との相関
I. ダヴィドフソリトンモデルの有限温度解 Correlating exciton coherence length, localization, and its optical lineshape. I. a finite temperature solution of the Davydov soliton model ( http://arxiv.org/abs/2203.05611v1 ) ライセンス: Link先を確認 | Eric R. Bittner and Carlos Silva and S. A. Shah and Hao Li | (参考訳) 分光遷移のラインシェイプは、システムの局所環境への窓を提供する。
本稿では,分子励起子のラインシェイプをダヴィドフソリトンモデル(A)の文脈内で有限温度格子振動に接続する新しい手法を提案する。
S. Davydov と N. I. Kislukha, Phys
統計。
ソル。
59},465(1973)。
本研究は, ゼロ温度局在ソリトン状態の揺らぎとして熱効果を導入するモデルについて, 数値的, 自己整合的処理を行った。
エネルギーゆらぎと局所化は, エキシトン自己トラップが安定することが期待される臨界温度を導入することにより, パラメータフリーな記述で記述できることがわかった。
この温度を超えると、格子歪と励起子波動関数との自己整合アンサッツが崩壊する。
我々の理論モデルは、分子J-アグリゲートの実験的観察とよく一致し、αヘリックスおよびタンパク質ペプチド鎖におけるソリトン状態の有限温度安定性に関する重要な問題の1つを解決する。 The lineshape of spectroscopic transitions offer windows into the local environment of a system. Here, we present a novel approach for connecting the lineshape of a molecular exciton to finite-temperature lattice vibrations within the context of the Davydov soliton model (A. S. Davydov and N. I. Kislukha, Phys. Stat. Sol. {\bf 59},465(1973)). Our results are based upon a numerically exact, self-consistent treatment of the model in which thermal effects are introduced as fluctuations about the zero-temperature localized soliton state. We find that both the energy fluctuations and the localization can be described in terms of a parameter-free, reduced description by introducing a critical temperature below which exciton self-trapping is expected to be stable. Above this temperature, the self-consistent ansatz relating the lattice distortion to the exciton wavefunction breaks down. Our theoretical model coorelates well with both experimental observations on molecular J-aggregate and resolves one of the critical issues concerning the finite temperture stability of soliton states in alpha-helices and protein peptide chains. | 翻訳日:2023-02-22 11:39:31 公開日:2022-03-10 |
# トレーニングリソースのためのオープンソースツールOTTR Open-source Tools for Training Resources -- OTTR ( http://arxiv.org/abs/2203.07083v1 ) ライセンス: Link先を確認 | Candace Savonen, Carrie Wright, Ava M. Hoffman, John Muschelli, Katherine Cox, Frederick J. Tan, Jeffrey T. Leek | (参考訳) データサイエンスとインフォマティクスツールは絶大なペースで開発されているが、利用者は研究に効率的に手法を適用するための教育的背景やリソースを欠いていることが多い。
トレーニングリソースは、資金提供によってメンテナンスが優先されないため、非推奨になることが多い。
我々のグループは、オンラインコースコンテンツの作成とメンテナンスの効率と柔軟性を高めるために、オープンソースのトレーニングリソースツール(OTTR)を開発しました。
OTTRにより、クリエイターは自分の作品をカスタマイズでき、複数のプラットフォームを使ってシンプルなワークフローを公開できる。
OTTRは、コンテンツクリエーターが慣れ親しんだレンダリング機構を使用して、複数の巨大なオンライン学習コミュニティに資料を公開することを可能にする。
ottrは、複数の選択質問の形式で形式的および要約的評価のような教育的実践を取り入れ、自動的に分類される空白問題を埋めることができる。
OTTRでコンテンツの作成を開始するためには、ソフトウェアをローカルにインストールする必要はない。
これまでのところ、ottrリポジトリテンプレートで15のコースが作成されている。
OTTRシステムを使用することで、これらのコースをプラットフォーム間で更新するメンテナンス作業が大幅に削減された。 Data science and informatics tools are developing at a blistering rate, but their users often lack the educational background or resources to efficiently apply the methods to their research. Training resources often deprecate because their maintenance is not prioritized by funding, giving teams little time to devote to such endeavors. Our group has developed Open-source Tools for Training Resources (OTTR) to offer greater efficiency and flexibility for creating and maintaining online course content. OTTR empowers creators to customize their work and allows for a simple workflow to publish using multiple platforms. OTTR allows content creators to publish material to multiple massive online learner communities using familiar rendering mechanics. OTTR allows the incorporation of pedagogical practices like formative and summative assessments in the form of multiple choice questions and fill in the blank problems that are automatically graded. No local installation of any software is required to begin creating content with OTTR. Thus far, 15 courses have been created with OTTR repository template. By using the OTTR system, the maintenance workload for updating these courses across platforms has been drastically reduced. | 翻訳日:2023-02-19 15:37:37 公開日:2022-03-10 |
# 新型コロナウイルス19号による緊急遠隔学習における集団知能曝露による学生の学力向上 Disadvantaged students increase their academic performance through collective intelligence exposure in emergency remote learning due to COVID 19 ( http://arxiv.org/abs/2203.05621v1 ) ライセンス: Link先を確認 | Cristian Candia, Alejandra Maldonado-Trapp, Karla Lobos, Fernando Pe\~na and Carola Bruna | (参考訳) 新型コロナウイルス(COVID-19)危機の間、世界中の教育機関が対面指導から緊急遠隔教育(ERT)へと移行した。
この急激な移行の中で、教師や学生は学習管理システム(LMS)を通じて実施されるオンライン学習モダリティに必要な知識やスキルを習得する機会を得られなかった。
そのため、学部生は情報リポジトリとしてLMSを主に使用し、学生間のバーチャルインタラクションを促進することは稀であり、学生に対する集団知能の利点を制限している。
我々は,7,528人の大学生のデータを分析したところ,議論フォーラムにおける大学生の協調的・合意的ダイナミクスが最終GPAに肯定的な影響を与えていることが判明した。
これらの結果は、社会経済や他のLMS活動の共同設立者以上のものである。
さらに、自然言語処理を用いて、高校1年生の成績の低さが議論フォーラムのコンテンツ集約的な投稿に露呈し、高校の成績の低さよりも大学のGPAが著しく高くなることを示した。
これらの結果は, 社会学習や集団知のメリットを享受するために, 学生のフォーラムディスカッションなどのツールを用いて, 学生間の協調的, コンセンサス的ダイナミクスを促進するために, 世界中の高等教育教員のモチベーションを高めることを期待する。 During the COVID-19 crisis, educational institutions worldwide shifted from face-to-face instruction to emergency remote teaching (ERT) modalities. In this forced and sudden transition, teachers and students did not have the opportunity to acquire the knowledge or skills necessary for online learning modalities implemented through a learning management system (LMS). Therefore, undergraduate teachers tend to mainly use an LMS as an information repository and rarely promote virtual interactions among students, thus limiting the benefits of collective intelligence for students. We analyzed data on 7,528 undergraduate students and found that cooperative and consensus dynamics among university students in discussion forums positively affect their final GPA, with a steeper effect for students with low academic performance during high school. These results hold above and beyond socioeconomic and other LMS activity confounders. Furthermore, using natural language processing, we show that first-year students with low academic performance during high school are exposed to more content-intensive posts in discussion forums, leading to significantly higher university GPAs than their low-performance peers in high school. We expect these results to motivate higher education teachers worldwide to promote cooperative and consensus dynamics among students using tools such as forum discussions in their classes to reap the benefits of social learning and collective intelligence. | 翻訳日:2023-02-19 15:33:02 公開日:2022-03-10 |
# タックル・コビッドの保健対応におけるデジタル技術の利用 : バングラデシュの展望 Use of Digital Technologies in Public Health Responses to Tackle Covid-19: the Bangladesh Perspective ( http://arxiv.org/abs/2203.05303v1 ) ライセンス: Link先を確認 | Samrat Kumar Dey, Khaleda Mehrin, Lubana Akter and Mshura Akter | (参考訳) 本稿では,バングラデシュにおけるcovid-19対策とデジタル介入イニシアチブについて検討することを目的とする。
本研究の目的は,オンラインコンテンツの方法論的レビューを行うことである。
我々は、新型コロナウイルス(covid-19)が世界中で戦うために使われた最初のデジタル介入をレビューした。
そして、バングラデシュで実施されたイニシアティブを見直しました。
我々の論文は、バングラデシュがデジタル介入アプローチを活用できる一方で、政府組織と大学との厳格な協力を必要としていることを示しています。
公衆衛生は今後ますますデジタル化され、我々は国際アライメント要件を見直している。
この調査は、デジタル技術を利用して新型コロナウイルスの流行管理と今後の対策を強化するための戦略にも焦点を当てた。 This paper aims to study the fight against COVID-19 in Bangladesh and digital intervention initiatives. To achieve the purpose of our research, we conducted a methodical review of online content. We have reviewed the first digital intervention that COVID-19 has been used to fight against worldwide. Then we reviewed the initiatives that have been taken in Bangladesh. Our paper has shown that while Bangladesh can take advantage of the digital intervention approach, it will require rigorous collaboration between government organizations and universities to get the most out of it. Public health can become increasingly digital in the future, and we are reviewing international alignment requirements. This exploration also focused on the strategies for controlling, evaluating, and using digital technology to strengthen epidemic management and future preparations for COVID-19. | 翻訳日:2023-02-19 15:32:08 公開日:2022-03-10 |
# 欧州におけるCOVID-19パンデミック時の制限措置の遵守:政治的党派は行動反応に影響を及ぼすか? Compliance with restrictive measures during the COVID-19 pandemic in Europe: Does political partisanship influence behavioural responses? ( http://arxiv.org/abs/2203.05288v1 ) ライセンス: Link先を確認 | Stefano Maria Iacus and Marco Scipioni and Spyridon Spyratos and Guido Tintori | (参考訳) 新型コロナウイルスの感染拡大を抑えるための公衆衛生政策の成功は、大衆の大規模かつ長期のコンプライアンスに依存している。
一連の研究が最近、過去の投票パターンがそのようなコンプライアンスの重要な予測要因であると論じている。
本研究は、長期にわたる欧州6カ国の政党の投票シェアと流動性の関係を追及することにより、その関連性をさらに調査する。
投票シェアは、各国における移動性の変化と時として関連があるが、政党の家族や政府メンバーによって選択された6か国すべてで移動性が低下・増大する体系的なパターンはない。
時が経つにつれて、移動性と投票シェアの関係は、一部の国で強くなる傾向にあるが、全ての国ではそうではない。 The success of public health policies aimed at curtailing the COVID-19 pandemic have relied on large-scale and protracted compliance by the public. A series of studies have recently argued that previous voting patterns are important predictors of such compliance. Our research further investigates such connection by tracking the relationships between parties' vote shares and mobility in six European countries over an extended period of time. We observe that while vote shares are occasionally related to variations in mobility within each country, there is no systematic pattern of decrease or increase in mobility across all six selected countries depending on party family or government membership. Over time, the relationships between mobility and vote shares tend to grow stronger in some but not all countries, again suggesting that there is no clear connection between vote shares for several party families and compliance with social distancing measures. | 翻訳日:2023-02-19 15:31:55 公開日:2022-03-10 |
# サイバーセキュリティとレヴィアサン Cyber security and the Leviathan ( http://arxiv.org/abs/2203.05256v1 ) ライセンス: Link先を確認 | Joseph Da Silva | (参考訳) 専用サイバーセキュリティ機能は、データ漏洩やその他の危険なセキュリティイベントの進化と普及の脅威に直面している商業ビジネスで一般的である。
そのような事業は、彼らが運営するより広い社会に刻み込まれている。
15人のチーフ・インフォメーション・セキュリティ・オフィサーと6人の上級組織リーダーとの詳細な半構造化されたインタビューから得られたデータを用いて、政治哲学者のトーマス・ホッブズ(特にレヴィアサン)の業績が、これらの機能や西洋社会におけるサイバーセキュリティの文脈を理解する上で有用なレンズを提供することを示した。
以上の結果から,これらの企業におけるサイバーセキュリティは,さらに関与するホッブシアン的特徴を多く示し,より広いレヴァイアサン風の国家に大きなメリットをもたらすことを示唆している。
これには、監視などの侵入制御の正常化や、消費の刺激が含まれる。
結論として、サイバーセキュリティの実践者、特に、これらの視点が与える反射性、および企業や他の研究者への示唆を提案する。 Dedicated cyber-security functions are common in commercial businesses, who are confronted by evolving and pervasive threats of data breaches and other perilous security events. Such businesses are enmeshed with the wider societies in which they operate. Using data gathered from in-depth, semi-structured interviews with 15 Chief Information Security Officers, as well as six senior organisational leaders, we show that the work of political philosopher Thomas Hobbes, particularly Leviathan, offers a useful lens through which to understand the context of these functions and of cyber security in Western society. Our findings indicate that cyber security within these businesses demonstrates a number of Hobbesian features that are further implicated in, and provide significant benefits to, the wider Leviathan-esque state. These include the normalisation of intrusive controls, such as surveillance, and the stimulation of consumption. We conclude by suggesting implications for cyber-security practitioners, in particular, the reflexivity that these perspectives offer, as well as for businesses and other researchers. | 翻訳日:2023-02-19 15:31:38 公開日:2022-03-10 |
# 児童福祉における非可視的作業実践・制約・潜在力関係の事例分析 Unpacking Invisible Work Practices, Constraints, and Latent Power Relationships in Child Welfare through Casenote Analysis ( http://arxiv.org/abs/2203.05169v1 ) ライセンス: Link先を確認 | Devansh Saxena, Erina Seh-Young Moon, Dahlia Shehata, Shion Guha | (参考訳) ケースワーカーは、コラボレーティブなハイテイク意思決定を通知するチャイルド・ウェルフェア(CW)の家族に関する詳細な物語を書くように訓練されている。
他の行政データとは異なり、これらの物語は、労働者と家族との交流に関してより信頼できる情報源を提供し、意思決定における体系的要因の役割を強調する。
SIGCHIの研究者は、公共セクター向けに人間中心のアルゴリズムを設計できるように、ストリートレベルでの人間の判断を理解する必要性を強調している。
本研究では,米国中西部の児童福祉機関において,ケースノートの計算テキスト解析を行い,アルゴリズム設計に直接的な意味を持つ街路レベルの裁量作業や潜時パワー構造の特徴を強調した。
casenotesは、政策立案者やcwリーダーシップにとって、現場のケースワーカーの体験を理解するためのユニークなレンズを提供する。
本研究では,労働者中心設計によって開発された社会工学的システムを用いて,街路レベルの裁量作業をどのように支援する必要があるかを明らかにする。
本研究は,ケースノートの計算検査を初めて提供し,複雑な社会工学システムを研究する上で重要なデータソースとしてSIGCHIコミュニティに紹介する。 Caseworkers are trained to write detailed narratives about families in Child-Welfare (CW) which informs collaborative high-stakes decision-making. Unlike other administrative data, these narratives offer a more credible source of information with respect to workers' interactions with families as well as underscore the role of systemic factors in decision-making. SIGCHI researchers have emphasized the need to understand human discretion at the street-level to be able to design human-centered algorithms for the public sector. In this study, we conducted computational text analysis of casenotes at a child-welfare agency in the midwestern United States and highlight patterns of invisible street-level discretionary work and latent power structures that have direct implications for algorithm design. Casenotes offer a unique lens for policymakers and CW leadership towards understanding the experiences of on-the-ground caseworkers. As a result of this study, we highlight how street-level discretionary work needs to be supported by sociotechnical systems developed through worker-centered design. This study offers the first computational inspection of casenotes and introduces them to the SIGCHI community as a critical data source for studying complex sociotechnical systems. | 翻訳日:2023-02-19 15:31:19 公開日:2022-03-10 |
# 新型コロナウイルス感染拡大に伴うメンタルヘルスのパンデミック-ソーシャルメディア支援を呼び掛け Mental Health Pandemic during the COVID-19 Outbreak: Calls for Help on Social Media ( http://arxiv.org/abs/2203.00237v3 ) ライセンス: Link先を確認 | Michelle Bak, Jessie Chin, Chungyi Chiu | (参考訳) 新型コロナウイルス(covid-19)の感染拡大に伴う社会的孤立の高まりにより、孤独感が高まるリスク(buなど、2020年)が高まる(killgore et al.、2020年、palgi et al.、2020年、weeks et al.、1980年)。
以前の研究では、孤独な人がオンラインソーシャルプラットフォーム(例えばreddit)からメンタルヘルスの助けを求める傾向が強く、孤独な人々が幅広いソーシャルネットワークと匿名のコミュニケーションを通じてメンタルヘルスサポートを求めるのが快適だと感じられる(andy, 2021; bonetti et al., 2010; morahan-martin et al., 2003)。
本研究は、新型コロナウイルスの感染拡大に伴う孤独なサブレディットのうつ病関連対話を同定し、分析することを目的としている。
reddit apiを用いて収集したデータを用いて,ロジスティック回帰とトピックモデリングを用いて,集団発生時の孤独感に関するうつ病関連議論を分類・検討した。
以上の結果から,抑うつに関連した議論に携わる孤独な個人は,メンタルヘルス問題や国内問題,関係のレベル向上,社会的支援の必要性の高まりといったリスクを被る可能性が示唆された。
さらに, オンライン学習環境における対処行動や課題として, 犬採用の増加が示唆された。
最後に、復帰したユーザーはメンタルヘルス問題の引き金となる要因に関する情報を開示し、探究し、孤独感サブredditにおけるピアツーピアメンタルヘルスサポートの重要性を示している。
今後の取り組みは、危機時の監視システムの設計に影響を及ぼす現在のアプローチを臨床的に検証する。 Heightened social isolation during the COVID-19 outbreak puts individuals at greater risks of loneliness (Bu et al., 2020) where elevated levels of loneliness are closely associated with depression (Killgore et al., 2020; Palgi et al., 2020; Weeks et al., 1980). Prior research has suggested that lonely individuals are more likely to seek mental health help from an online social platform (e.g., Reddit), a perceived comfortable environment for lonely people to seek mental health support through anonymous communication with a broad social network (Andy, 2021; Bonetti et al., 2010; Morahan-Martin et al., 2003). Therefore, this study aims to identify and analyze depression-related dialogues on loneliness subreddits during the COVID-19 outbreak, with the impact on depression-related infoveillance during the pandemic. With the collected data using Reddit API, our study utilized logistic regression and topic modeling to classify and examine depression related discussions on loneliness subreddits during the outbreak. Our results reveal that lonely individuals engaging in depression-related discussions are likely to be experiencing elevated risks of mental health problems and domestic issues, higher level of relationship seeking, and heightened need of social support. Furthermore, the results suggest an increase in dog adoption as a coping behavior and challenges in the online learning environment. Finally, returning users disclose and seek information on triggering factors of mental health problems, indicating the significance of peer-to-peer mental health support on loneliness subreddits. Our future work will clinically validate the current approach, which has implications on designing surveillance system during the crisis. | 翻訳日:2023-02-19 15:19:30 公開日:2022-03-10 |
# 信頼できる自律システム(TAS):カリキュラム設計におけるTAS専門家の育成 Trustworthy Autonomous Systems (TAS): Engaging TAS experts in curriculum design ( http://arxiv.org/abs/2202.07447v3 ) ライセンス: Link先を確認 | Mohammad Naiseh, Caitlin Bentley, Sarvapali D. Ramchurn | (参考訳) 人工知能、特に機械学習の最近の進歩は、社会的、技術的、法的な、倫理的な課題の導入とともに、自律システム産業の強化に積極的に貢献した。
信頼できる自律システム(tas)は確立され成長している研究の方向性であるが、人工知能、人間とコンピュータの相互作用、法、心理学など様々な分野において議論されてきた。
教育カリキュラムに対するTASの影響と今後のTAS技術者に必要なスキルが文献で論じられることはめったにない。
本研究は,TASの急激な台頭に伴うカリキュラム設計の課題と,TASに必要なスキルの可能性を明らかにするために,多数のTAS専門家の集合的洞察をまとめるものである。
我々の分析はTAS教育コミュニティだけでなく、TAS教育の運用に向けた今後の研究の指針を提供する研究者にとっても興味深い。 Recent advances in artificial intelligence, specifically machine learning, contributed positively to enhancing the autonomous systems industry, along with introducing social, technical, legal and ethical challenges to make them trustworthy. Although Trustworthy Autonomous Systems (TAS) is an established and growing research direction that has been discussed in multiple disciplines, e.g., Artificial Intelligence, Human-Computer Interaction, Law, and Psychology. The impact of TAS on education curricula and required skills for future TAS engineers has rarely been discussed in the literature. This study brings together the collective insights from a number of TAS leading experts to highlight significant challenges for curriculum design and potential TAS required skills posed by the rapid emergence of TAS. Our analysis is of interest not only to the TAS education community but also to other researchers, as it offers ways to guide future research toward operationalising TAS education. | 翻訳日:2023-02-19 14:55:45 公開日:2022-03-10 |
# 超スパースネットワークに対する一般ペアワイズ比較モデル A General Pairwise Comparison Model for Extremely Sparse Networks ( http://arxiv.org/abs/2002.08853v3 ) ライセンス: Link先を確認 | Ruijian Han, Yiming Xu and Kani Chen | (参考訳) ペアワイズ比較データを用いた統計的推論は、大規模スパースネットワークの解析に有効なアプローチである。
本稿では,ネットワーク内の相互相互作用をモデル化する汎用フレームワークを提案する。
そこで本研究では,ネットワークスパルシティの最小条件下では,被検者の潜在スコアベクトルに対する最大確率推定器が一様であることを示す。
この状態は、間隔を記述する先行的な漸近の点において鋭い。
本分析では,新しい連鎖手法を用いて,グラフトポロジーとモデルの一貫性との間に重要な関係を示す。
その結果,データに漸近的欠陥がある大規模対向比較ネットワークにおいて,最大確率推定器は推定の正当性が保証される。
理論的な知見を裏付けるシミュレーション研究が提案されている。 Statistical inference using pairwise comparison data is an effective approach to analyzing large-scale sparse networks. In this paper, we propose a general framework to model the mutual interactions in a network, which enjoys ample flexibility in terms of model parametrization. Under this setup, we show that the maximum likelihood estimator for the latent score vector of the subjects is uniformly consistent under a near-minimal condition on network sparsity. This condition is sharp in terms of the leading order asymptotics describing the sparsity. Our analysis utilizes a novel chaining technique and illustrates an important connection between graph topology and model consistency. Our results guarantee that the maximum likelihood estimator is justified for estimation in large-scale pairwise comparison networks where data are asymptotically deficient. Simulation studies are provided in support of our theoretical findings. | 翻訳日:2022-12-30 07:25:59 公開日:2022-03-10 |
# ディープニューラルネットワークによる雑音ラベルからの学習:サーベイ Learning from Noisy Labels with Deep Neural Networks: A Survey ( http://arxiv.org/abs/2007.08199v7 ) ライセンス: Link先を確認 | Hwanjun Song, Minseok Kim, Dongmin Park, Yooju Shin, Jae-Gil Lee | (参考訳) ディープラーニングは多くの分野で、大量のビッグデータの助けを借りて大きな成功を収めています。
しかし、多くの現実のシナリオでは高品質なラベルが不足しているため、データラベルの品質が懸念される。
ノイズラベルはディープニューラルネットワークの一般化性能を著しく低下させるため、ノイズラベル(ロバストトレーニング)からの学習は現代のディープラーニングアプリケーションにおいて重要な課題となっている。
本研究では,教師付き学習視点からラベル雑音を用いた学習の問題について述べる。
次に,62の最先端ロバストトレーニング手法を総合的に検討し,それらの方法論的差異に応じて5つのグループに分類し,その優越性を評価するための6つの特性を体系的に比較した。
その後,ノイズ率推定の詳細な分析を行い,公的な騒音データや評価指標など,一般的に用いられる評価手法を要約する。
最後に,今後の研究の指針となる有望な研究指針をいくつか提示する。
すべてのコンテンツはhttps://github.com/songhwanjun/awesome-noisy-labelsで入手できる。 Deep learning has achieved remarkable success in numerous domains with help from large amounts of big data. However, the quality of data labels is a concern because of the lack of high-quality labels in many real-world scenarios. As noisy labels severely degrade the generalization performance of deep neural networks, learning from noisy labels (robust training) is becoming an important task in modern deep learning applications. In this survey, we first describe the problem of learning with label noise from a supervised learning perspective. Next, we provide a comprehensive review of 62 state-of-the-art robust training methods, all of which are categorized into five groups according to their methodological difference, followed by a systematic comparison of six properties used to evaluate their superiority. Subsequently, we perform an in-depth analysis of noise rate estimation and summarize the typically used evaluation methodology, including public noisy datasets and evaluation metrics. Finally, we present several promising research directions that can serve as a guideline for future studies. All the contents will be available at https://github.com/songhwanjun/Awesome-Noisy-Labels. | 翻訳日:2022-11-09 21:56:49 公開日:2022-03-10 |
# 深層構造とテクスチャ合成による概念圧縮 Conceptual Compression via Deep Structure and Texture Synthesis ( http://arxiv.org/abs/2011.04976v2 ) ライセンス: Link先を確認 | Jianhui Chang, Zhenghui Zhao, Chuanmin Jia, Shiqi Wang, Lingbo Yang, Qi Mao, Jian Zhang, Siwei Ma | (参考訳) 既存の圧縮法は、信号レベルの冗長性を取り除くことに重点を置いているが、視覚データをコンパクトな概念的要素に分解する可能性と汎用性はまだ研究されていない。
そこで本研究では,視覚データをコンパクトな構造とテクスチャ表現に符号化し,より優れた視覚再構成品質,フレキシブルなコンテンツ操作,様々な視覚タスクに対する潜在的サポートの実現を目的とした,深層合成方式でデコードする,新しい概念圧縮フレームワークを提案する。
特に,2つの相補的な視覚特徴からなる双層モデルによる画像圧縮を提案する。
1)構造地図で表される構造層、及び
2)低次元深部表現を特徴とするテクスチャ層。
エンコーダ側では、構造マップとテクスチャ表現を個別に抽出して圧縮し、コンパクトで解釈可能な、相互運用可能なビットストリームを生成する。
復号段階では, 階層的融合GAN (HF-GAN) が提案され, テクスチャがデコードされた構造写像に描画される合成パラダイムを学習し, 目覚しい視覚的リアリズムを伴う高品質な再構成を実現する。
多様な画像に対する広範囲な実験により,低ビットレート,高い再構成品質,視覚的解析やコンテンツ操作タスクに対する汎用性が向上した。 Existing compression methods typically focus on the removal of signal-level redundancies, while the potential and versatility of decomposing visual data into compact conceptual components still lack further study. To this end, we propose a novel conceptual compression framework that encodes visual data into compact structure and texture representations, then decodes in a deep synthesis fashion, aiming to achieve better visual reconstruction quality, flexible content manipulation, and potential support for various vision tasks. In particular, we propose to compress images by a dual-layered model consisting of two complementary visual features: 1) structure layer represented by structural maps and 2) texture layer characterized by low-dimensional deep representations. At the encoder side, the structural maps and texture representations are individually extracted and compressed, generating the compact, interpretable, inter-operable bitstreams. During the decoding stage, a hierarchical fusion GAN (HF-GAN) is proposed to learn the synthesis paradigm where the textures are rendered into the decoded structural maps, leading to high-quality reconstruction with remarkable visual realism. Extensive experiments on diverse images have demonstrated the superiority of our framework with lower bitrates, higher reconstruction quality, and increased versatility towards visual analysis and content manipulation tasks. | 翻訳日:2022-09-27 08:08:46 公開日:2022-03-10 |
# バロン類における分類境界を持つ分類器のニューラルネットワーク近似と推定 Neural network approximation and estimation of classifiers with classification boundary in a Barron class ( http://arxiv.org/abs/2011.09363v2 ) ライセンス: Link先を確認 | Andrei Caragea, Philipp Petersen, Felix Voigtlaender | (参考訳) reluニューラルネットワークを用いた特定のバイナリ分類関数の近似と推定の境界を証明した。
評価バウンダリは、利用可能なトレーニングサンプルの数に応じて、適切なサイズのネットワークを用いて、経験的リスク最小化の事前性能を保証する。
得られた近似と推定率は入力の次元とは独立であり、この設定では次元の呪いが克服できることを示し、実際、入力次元は多項式係数の形でのみ入力される。
対象分類関数の正則性に関して、異なるクラス間の界面はバロン型の局所的なものであると仮定する。
文献で提案されている様々なバロン型空間間の関係を研究することで、その結果を補完する。
これらの空間は、現在の文献より大きく異なっている。 We prove bounds for the approximation and estimation of certain binary classification functions using ReLU neural networks. Our estimation bounds provide a priori performance guarantees for empirical risk minimization using networks of a suitable size, depending on the number of training samples available. The obtained approximation and estimation rates are independent of the dimension of the input, showing that the curse of dimensionality can be overcome in this setting; in fact, the input dimension only enters in the form of a polynomial factor. Regarding the regularity of the target classification function, we assume the interfaces between the different classes to be locally of Barron-type. We complement our results by studying the relations between various Barron-type spaces that have been proposed in the literature. These spaces differ substantially more from each other than the current literature suggests. | 翻訳日:2022-09-24 04:57:34 公開日:2022-03-10 |
# 法領域に応用された人工知能技術の現状 State of the Art in Artificial Intelligence applied to the Legal Domain ( http://arxiv.org/abs/2204.07047v1 ) ライセンス: Link先を確認 | Jo\~ao Dias, Pedro A. Santos, Nuno Cordeiro, Ana Antunes, Bruno Martins, Jorge Baptista, and Carlos Gon\c{c}alves | (参考訳) 人工知能が法律分野に適用されることは、前世紀に起源を持つトピックであるが、人工知能の最近の進歩は、それを革命させる可能性がある。
この研究は、自然言語処理の分野における主な進歩と、これらの進歩が法的テキスト分析における技術状況のさらなる向上にどのように利用されているかの概要と文脈を提示する。 While Artificial Intelligence applied to the legal domain is a topic with origins in the last century, recent advances in Artificial Intelligence are posed to revolutionize it. This work presents an overview and contextualizes the main advances on the field of Natural Language Processing and how these advances have been used to further the state of the art in legal text analysis. | 翻訳日:2022-04-17 07:28:36 公開日:2022-03-10 |
# パーキンソン病解析のためのマルチモーダルアプローチ A multimodal approach for Parkinson disease analysis ( http://arxiv.org/abs/2203.15517v1 ) ライセンス: Link先を確認 | Marcos Faundez-Zanuy, Antonio Satue-Villar, Jiri Mekyska, Viridiana Arreola, Pilar Sanz, Carles Paul, Luis Guirao, Mateu Serra, Laia Rofes, Pere Clav\'e, Enric Sesa-Nogueras, Josep Roure | (参考訳) パーキンソン病(Parkinson's disease、PD)は、一般人口が0.1-1%に達する2番目に頻度の高い神経変性疾患である。
PDの診断時の平均年齢は55歳であり、ほとんどの患者は50歳から80歳である。
最も明白な症状は運動関連であり、震え、剛性、運動の遅さ、歩行困難がある。
これらはしばしばPD診断につながる症状である。
その後、思考や行動の問題が起こり、認知障害や感覚障害、睡眠、感情障害などの症状が生じる。
本稿では,音声・手書き分析が,PDにおける摂食・バランス障害の予測・指標として信頼性が高いかどうかを評価するプロジェクトについて述べる。
音声および手書き分析の重要な利点は、その低侵入性と臨床実践の容易な実施である。
したがって、これらの簡易分析と金標準ビデオ・フルオロスコープ分析との間に有意な相関がある場合、患者の診断検査がより簡単で、より安価な分析システムを使用することが示される。 Parkinson's disease (PD) is the second most frequent neurodegenerative disease with prevalence among general population reaching 0.1-1 %, and an annual incidence between 1.3-2.0/10000 inhabitants. The mean age at diagnosis of PD is 55 and most patients are between 50 and 80 years old. The most obvious symptoms are movement-related; these include tremor, rigidity, slowness of movement and walking difficulties. Frequently these are the symptoms that lead to the PD diagnoses. Later, thinking and behavioral problems may arise, and other symptoms include cognitive impairment and sensory, sleep and emotional problems. In this paper we will present an ongoing project that will evaluate if voice and handwriting analysis can be reliable predictors/indicators of swallowing and balance impairments in PD. An important advantage of voice and handwritten analysis is its low intrusiveness and easy implementation in clinical practice. Thus, if a significant correlation between these simple analyses and the gold standard video-fluoroscopic analysis will imply simpler and less stressing diagnostic test for the patients as well as the use of cheaper analysis systems. | 翻訳日:2022-04-03 18:27:04 公開日:2022-03-10 |
# (参考訳) YouTube(AI-EVL)を重視した効率的な視覚学習環境におけるAIアノテーションの提案 AI Annotated Recommendations in an Efficient Visual Learning Environment with Emphasis on YouTube (AI-EVL) ( http://arxiv.org/abs/2203.11157v1 ) ライセンス: CC BY 4.0 | Faeze Gholamrezaie, Melika Bahman-Abadi, and M. B. Ghaznavi-Ghoushchi | (参考訳) 本稿では,AI-EVLと呼ばれるシステムについて述べる。
これは注釈付き学習システムである。
AIを学習経験に拡張します。
メインのYouTubeページのユーザがYouTubeビデオを閲覧し、AI-EVLシステムのユーザが同じことをすると、使用するトラフィックはずっと少なくなります。
帯域幅の削減を示す望ましくないコンテンツを無視しているためである。
このシステムは、カリキュラムを充実させるために、オンライン学習ツールやプラットフォームを組み込むように設計されている。
Google 2020トレンドデータを用いたシステム評価では,各データから豊富なオントロジ情報を抽出することができた。
収集されたデータのうち34.86%はWolfram、30.41%はDBpedia、34.73%はWikipediaに属する。
ビデオ字幕情報は、再生中にユーザに対してインタラクティブかつ機能的に表示される。
この効果的な視覚学習システムは、ユニークな特徴のため、ユーザの注意をそらさず、学習をより集中させる。
字幕テキストに関する情報は、AIアノテートされたトピック、Wikipedia/DBpedia、インタラクティブかつビジュアルなウィジェットを通じて強化されたテキストなど、複数のレイヤに表示される。 In this article, we create a system called AI-EVL. This is an annotated-based learning system. We extend AI to learning experience. If a user from the main YouTube page browses YouTube videos and a user from the AI-EVL system does the same, the amount of traffic used will be much less. It is due to ignoring unwanted contents which indicates a reduction in bandwidth usage too. This system is designed to be embedded with online learning tools and platforms to enrich their curriculum. In evaluating the system using Google 2020 trend data, we were able to extract rich ontological information for each data. Of the data collected, 34.86% belong to wolfram, 30.41% to DBpedia, and 34.73% to Wikipedia. The video subtitle information is displayed interactively and functionally to the user over time as the video is played. This effective visual learning system, due to the unique features, prevents the user's distraction and makes learning more focused. The information about the subtitle text is displayed in multiple layers including AI-annotated topics, Wikipedia/DBpedia, and Wolfram enriched texts via interactive and visual widgets. | 翻訳日:2022-03-27 11:18:47 公開日:2022-03-10 |
# (参考訳) HiSA-SMFM:歴史・感性分析に基づく株式市場予測モデル HiSA-SMFM: Historical and Sentiment Analysis based Stock Market Forecasting Model ( http://arxiv.org/abs/2203.08143v1 ) ライセンス: CC BY 4.0 | Ishu Gupta and Tarun Kumar Madan and Sukhman Singh and Ashutosh Kumar Singh | (参考訳) 国の経済を構築するための柱の1つは株式市場である。
長年にわたり、人々は自分の保有する金額からできるだけ多くの利益を得るために株式市場に投資してきた。
したがって、将来の株価を正確に予測できる予測モデルを持つことが不可欠である。
機械学習の助けを借りて、適切にモデル化された機械学習技術が最高の予測値を提供できるなら、それは不可能なタスクではない。
これにより、投資家は株式を売買するか保有するかを決めることができる。
本論文の目的は、企業の金融株の将来を精度良く予測することである。
本稿では,LSTMを適用して株価を効率的に予測するための履歴データと感情データの利用を提案する。
感情分析の分野での既存の研究を分析した結果、株価の動きとニュース記事の発行との間には強い相関関係があることが判明した。
そこで本稿では,これらの要因を統合し,より正確な株価予測を行う。 One of the pillars to build a country's economy is the stock market. Over the years, people are investing in stock markets to earn as much profit as possible from the amount of money that they possess. Hence, it is vital to have a prediction model which can accurately predict future stock prices. With the help of machine learning, it is not an impossible task as the various machine learning techniques if modeled properly may be able to provide the best prediction values. This would enable the investors to decide whether to buy, sell or hold the share. The aim of this paper is to predict the future of the financial stocks of a company with improved accuracy. In this paper, we have proposed the use of historical as well as sentiment data to efficiently predict stock prices by applying LSTM. It has been found by analyzing the existing research in the area of sentiment analysis that there is a strong correlation between the movement of stock prices and the publication of news articles. Therefore, in this paper, we have integrated these factors to predict the stock prices more accurately. | 翻訳日:2022-03-20 23:06:06 公開日:2022-03-10 |
# (参考訳) タッカー分解によるビデオ用CNNカーネル圧縮:軽量CNNアプリケーションに向けて Compressing CNN Kernels for Videos Using Tucker Decompositions: Towards Lightweight CNN Applications ( http://arxiv.org/abs/2203.07033v1 ) ライセンス: CC BY 4.0 | Tobias Engelhardt Rasmussen, Line H Clemmensen and Andreas Baum | (参考訳) 畳み込みニューラルネットワーク(CNN)は、ビジュアルコンピューティングの分野における最先端技術である。
しかし、CNNの大きな問題は大量の浮動小数点演算(FLOP)が大きな入力に対して畳み込みを行うのに必要なことである。
ビデオデータへのcnnの適用を考えると、畳み込みフィルタは余分な時間次元のためさらに複雑になる。
これにより、スマートフォンやタブレット、マイクロコントローラなど、各アプリケーションがモバイルデバイスにデプロイされる場合、計算能力の低下を示す問題が発生する。
Kim et al. (2016) は、ネットワークの複雑さ、すなわちFLOPの数を減らすために、事前訓練されたネットワークの畳み込みカーネルを圧縮するためにタッカー分解を用いて提案した。
本稿では、前述のビデオ(および他の3D信号)に適用するための手法を一般化し、テニスショットを行う個人のビデオを含むTheTISデータセットの修正版に対して提案手法の評価を行う。
その結果、圧縮されたネットワークは、メモリ圧縮を51倍の精度で示しながら、同等の精度に達することが分かった。
しかし、実際の計算スピードアップ(第1.4因子)は、理論上導かれた期待(第6因子)を満たさない。 Convolutional Neural Networks (CNN) are the state-of-the-art in the field of visual computing. However, a major problem with CNNs is the large number of floating point operations (FLOPs) required to perform convolutions for large inputs. When considering the application of CNNs to video data, convolutional filters become even more complex due to the extra temporal dimension. This leads to problems when respective applications are to be deployed on mobile devices, such as smart phones, tablets, micro-controllers or similar, indicating less computational power. Kim et al. (2016) proposed using a Tucker-decomposition to compress the convolutional kernel of a pre-trained network for images in order to reduce the complexity of the network, i.e. the number of FLOPs. In this paper, we generalize the aforementioned method for application to videos (and other 3D signals) and evaluate the proposed method on a modified version of the THETIS data set, which contains videos of individuals performing tennis shots. We show that the compressed network reaches comparable accuracy, while indicating a memory compression by a factor of 51. However, the actual computational speed-up (factor 1.4) does not meet our theoretically derived expectation (factor 6). | 翻訳日:2022-03-20 07:37:45 公開日:2022-03-10 |
# (参考訳) 深層学習法を用いた複雑地形地域における風力発電の確率的予測-北極圏の場合- Probabilistic forecasts of wind power generation in regions with complex topography using deep learning methods: An Arctic case ( http://arxiv.org/abs/2203.07080v1 ) ライセンス: CC BY 4.0 | Odin Foldvik Eikeland, Finn Dag Hovem, Tom Eirik Olsen, Matteo Chiesa, and Filippo Maria Bianchi | (参考訳) エネルギー市場は、動的バランスを保つ必要がある需要と発電の両方の予測能力に依存している。
今日、再生可能エネルギー発電に関して、このような決定は自由化された電力市場環境においてますます行われており、将来的な発電は契約やオークションメカニズムを通じて提供されなければならないため、予測に基づいている。
再生可能エネルギー源からの高断続的発電のシェアの増加は、将来の発電に関する不確実性を高める。
ポイント予測はそのような不確実性を考慮しない。
これらの不確実性を考慮すると、確率的予測が可能である。
この研究はまず,ディープラーニングを用いた確率的予測に関する重要な概念とアプローチを示す。
次に、ノルウェー北部にある風力発電所からの日頭発電の確率的予測にディープラーニングモデルを用いる。
異なるディープラーニングモデルと共変量のセットに対して、得られた予測間隔の品質の観点で性能を比較する。
その結果,観測した気象の履歴データと数値天気予報(NWP)を外因性変数として含めると,予測精度が向上することがわかった。
これにより、歴史的測定データを用いてNWPの系統的バイアスを自動的に補正することができる。
また,NWPのみを用いて,気象を外生変数として測定し,予測性能が低下した。 The energy market relies on forecasting capabilities of both demand and power generation that need to be kept in dynamic balance. Today, when it comes to renewable energy generation, such decisions are increasingly made in a liberalized electricity market environment, where future power generation must be offered through contracts and auction mechanisms, hence based on forecasts. The increased share of highly intermittent power generation from renewable energy sources increases the uncertainty about the expected future power generation. Point forecast does not account for such uncertainties. To account for these uncertainties, it is possible to make probabilistic forecasts. This work first presents important concepts and approaches concerning probabilistic forecasts with deep learning. Then, deep learning models are used to make probabilistic forecasts of day-ahead power generation from a wind power plant located in Northern Norway. The performance in terms of obtained quality of the prediction intervals is compared for different deep learning models and sets of covariates. The findings show that the accuracy of the predictions improves when historical data on measured weather and numerical weather predictions (NWPs) were included as exogenous variables. This allows the model to auto-correct systematic biases in the NWPs using the historical measurement data. Using only NWPs, or only measured weather as exogenous variables, worse prediction performances were obtained. | 翻訳日:2022-03-20 07:28:24 公開日:2022-03-10 |
# (参考訳) 可算mdpにおけるポイントペイオフ・平均ペイオフ・トータルペイオフの戦略複雑性 Strategy Complexity of Point Payoff, Mean Payoff and Total Payoff Objectives in Countable MDPs ( http://arxiv.org/abs/2203.07079v1 ) ライセンス: CC BY 4.0 | Richard Mayr and Eric Munday | (参考訳) 実数値遷移報酬を用いた無数のマルコフ決定過程(MDP)について検討する。
すべての無限ランは以下のペイオフ列を誘導する。
1.ポイントペイオフ(直接見られる移行報酬の順序)
2.支払額(これまでのすべての報酬の合計をステップ数で割った順序)及び
3.トータル・ペイオフ(これまでの全報酬の合計の順序)
各ペイオフタイプについて、目的は$\liminf$ が非負である確率を最大化することである。
我々は、これらの目的、すなわち、$\varepsilon$-optimal (resp. optimal)戦略に必要なメモリ量と十分なメモリ量に関する戦略の複雑さの全体像を確立する。
記憶のない決定論的戦略で勝つ場合もあり、ステップカウンタ、報酬カウンタ、あるいはその両方を必要とする場合もある。 We study countably infinite Markov decision processes (MDPs) with real-valued transition rewards. Every infinite run induces the following sequences of payoffs: 1. Point payoff (the sequence of directly seen transition rewards), 2. Mean payoff (the sequence of the sums of all rewards so far, divided by the number of steps), and 3. Total payoff (the sequence of the sums of all rewards so far). For each payoff type, the objective is to maximize the probability that the $\liminf$ is non-negative. We establish the complete picture of the strategy complexity of these objectives, i.e., how much memory is necessary and sufficient for $\varepsilon$-optimal (resp. optimal) strategies. Some cases can be won with memoryless deterministic strategies, while others require a step counter, a reward counter, or both. | 翻訳日:2022-03-20 07:13:28 公開日:2022-03-10 |
# 電気自動車の充電ステーションの場所をウェブマイニングで知らせる Web Mining to Inform Locations of Charging Stations for Electric Vehicles ( http://arxiv.org/abs/2203.07081v1 ) ライセンス: Link先を確認 | Philipp Hummler, Christof Naumzik, Stefan Feuerriegel | (参考訳) 充電ステーションの利用は、カーボンフレンドリーな輸送手段として電気自動車(EV)を推進するための重要な要素である。
したがって、都市計画者にとって重要な問題は、充電ステーションをどこに配置して大きな利用率に達するかである。
ここでは、EV所有者が充電ステーションとPOIの間を歩く意思に一定の制限があるため、EV充電ステーションの利用は、関心のポイント(POI)に近接して行われると仮定する。
そこで我々は,OpenStreetMap の異なる POI が充電ステーションの利用に与える影響を特徴付けるために,Web マイニングの利用を提案する。
そこで本研究では,POIと充電ステーションの空間分布を考慮に入れた補間解釈可能なモデルを提案する。
これにより、異なるPOIタイプの影響の距離と大きさを見積もることができます。
モデルの評価はおおよそのデータで行います。
300の充電ステーションと4,000のpoisがオランダのアムステルダムにある。
我々のモデルは最先端のベースラインよりも優れたパフォーマンスを実現し、それに加えて、未整合レベルの解釈性を提供することができる。
我々の知る限りでは、POIが関連する空間的近接度を推定することにより、実際の利用データから充電ステーション利用への影響を定量化していない。
その結果,都市プランナーが充電ステーションの有効位置を特定するのに役立つことがわかった。 The availability of charging stations is an important factor for promoting electric vehicles (EVs) as a carbon-friendly way of transportation. Hence, for city planners, the crucial question is where to place charging stations so that they reach a large utilization. Here, we hypothesize that the utilization of EV charging stations is driven by the proximity to points-of-interest (POIs), as EV owners have a certain limited willingness to walk between charging stations and POIs. To address our research question, we propose the use of web mining: we characterize the influence of different POIs from OpenStreetMap on the utilization of charging stations. For this, we present a tailored interpretable model that takes into account the full spatial distributions of both the POIs and the charging stations. This allows us then to estimate the distance and magnitude of the influence of different POI types. We evaluate our model with data from approx. 300 charging stations and 4,000 POIs in Amsterdam, Netherlands. Our model achieves a superior performance over state-of-the-art baselines and, on top of that, is able to offer an unmatched level of interpretability. To the best of our knowledge, no previous paper has quantified the POI influence on charging station utilization from real-world usage data by estimating the spatial proximity in which POIs are relevant. As such, our findings help city planners in identifying effective locations for charging stations. | 翻訳日:2022-03-15 17:12:36 公開日:2022-03-10 |
# (参考訳) 制御における構成一般化のための政策アーキテクチャ Policy Architectures for Compositional Generalization in Control ( http://arxiv.org/abs/2203.05960v1 ) ライセンス: CC BY 4.0 | Allan Zhou, Vikash Kumar, Chelsea Finn, Aravind Rajeswaran | (参考訳) 制御、ロボット工学、計画における多くのタスクは、環境における様々なエンティティの所望のゴール設定を使用して指定できる。
目標条件のポリシーを学ぶことは、そのようなタスクを解決する自然なパラダイムです。
しかし、現在のアプローチは、環境エンティティの数の変化や目標の構成など、タスクの複雑さが増すにつれて学習と一般化に苦慮している。
本稿では、タスクにおけるエンティティベースの構成構造をモデル化するフレームワークを導入し、この構造を活用できる適切なポリシー設計を作成する。
Deep SetsやSelf Attentionといったアーキテクチャを利用する私たちのポリシは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングすることが可能です。
シミュレーションロボット操作タスクで標準的な強化および模倣学習手法を用いてトレーニングすると、これらのアーキテクチャは少ないデータではるかに高い成功率を達成できることがわかった。
また、これらのアーキテクチャはより広範かつ構成的な一般化を可能にし、トレーニングで見られる異なる数のエンティティに外挿するポリシーを作成し、新しい方法で学習スキルを縫い合わせる(つまり構成する)。
結果のビデオはhttps://sites.google.com/view/comp-gen-rl.comで見ることができる。 Many tasks in control, robotics, and planning can be specified using desired goal configurations for various entities in the environment. Learning goal-conditioned policies is a natural paradigm to solve such tasks. However, current approaches struggle to learn and generalize as task complexity increases, such as variations in number of environment entities or compositions of goals. In this work, we introduce a framework for modeling entity-based compositional structure in tasks, and create suitable policy designs that can leverage this structure. Our policies, which utilize architectures like Deep Sets and Self Attention, are flexible and can be trained end-to-end without requiring any action primitives. When trained using standard reinforcement and imitation learning methods on a suite of simulated robot manipulation tasks, we find that these architectures achieve significantly higher success rates with less data. We also find these architectures enable broader and compositional generalization, producing policies that extrapolate to different numbers of entities than seen in training, and stitch together (i.e. compose) learned skills in novel ways. Videos of the results can be found at https://sites.google.com/view/comp-gen-rl. | 翻訳日:2022-03-14 23:28:28 公開日:2022-03-10 |
# (参考訳) 医用画像セグメンテーションのためのラベル効率のハイブリッド教師あり学習 Label-efficient Hybrid-supervised Learning for Medical Image Segmentation ( http://arxiv.org/abs/2203.05956v1 ) ライセンス: CC BY 4.0 | Junwen Pan and Qi Bi and Yanzhan Yang and Pengfei Zhu and Cheng Bian | (参考訳) 医用画像アノテーションの専門知識の欠如により,医用画像分割のためのラベル効率の高い手法の検討が注目される。
最近の進歩は、多くの非専門的なシナリオで同等のセグメンテーション性能を達成するために、弱いアノテーションと強い注釈付きラベルの効率的な利用に焦点を当てている。
しかしながら、これらのアプローチは、強いアノテーションと弱いアノテーションのインスタンス間の管理上の不整合のみに集中するが、弱いアノテーションのインスタンス内のインスタンスの不整合は無視する。
この問題を解決するために,各弱アノテーションインスタンスを個別に検討し,強アノテーションインスタンスの勾配方向で案内される重みを学習し,強アノテーションインスタンスに先行する高品質をより活用し,弱アノテーションインスタンスをより正確に表現する,ラベル効率のよいハイブリッド監視フレームワークを提案する。
特に、設計した動的インスタンスインジケータ(DII)は、上記の目的を実現し、弱いアノテーションの歪みからの誤蓄積を軽減するために、動的共規則化(DCR)フレームワークに適応する。
2つのハイブリッド型医用セグメンテーションデータセットの広範な実験により、10%の強いラベルしか持たず、提案フレームワークは弱いラベルを効率的に活用し、100%強いラベルを監督するシナリオに対して競争性能を達成することができることを示した。 Due to the lack of expertise for medical image annotation, the investigation of label-efficient methodology for medical image segmentation becomes a heated topic. Recent progresses focus on the efficient utilization of weak annotations together with few strongly-annotated labels so as to achieve comparable segmentation performance in many unprofessional scenarios. However, these approaches only concentrate on the supervision inconsistency between strongly- and weakly-annotated instances but ignore the instance inconsistency inside the weakly-annotated instances, which inevitably leads to performance degradation. To address this problem, we propose a novel label-efficient hybrid-supervised framework, which considers each weakly-annotated instance individually and learns its weight guided by the gradient direction of the strongly-annotated instances, so that the high-quality prior in the strongly-annotated instances is better exploited and the weakly-annotated instances are depicted more precisely. Specially, our designed dynamic instance indicator (DII) realizes the above objectives, and is adapted to our dynamic co-regularization (DCR) framework further to alleviate the erroneous accumulation from distortions of weak annotations. Extensive experiments on two hybrid-supervised medical segmentation datasets demonstrate that with only 10% strong labels, the proposed framework can leverage the weak labels efficiently and achieve competitive performance against the 100% strong-label supervised scenario. | 翻訳日:2022-03-14 23:08:33 公開日:2022-03-10 |
# (参考訳) 気候変動とコンピュータ・オーディション:地球を救うための行動とオーディオ・インテリジェンスの概要 Climate Change & Computer Audition: A Call to Action and Overview on Audio Intelligence to Help Save the Planet ( http://arxiv.org/abs/2203.06064v1 ) ライセンス: CC BY 4.0 | Bj\"orn W. Schuller, Alican Akman, Yi Chang, Harry Coppock, Alexander Gebhard, Alexander Kathan, Esther Rituerto-Gonz\'alez, Andreas Triantafyllopoulos, and Florian B. Pokorny | (参考訳) 2030年のアジェンダで提案され、国連加盟国で採用されている17の持続可能な開発目標のうち、13$^{th}$ SDGは、より良い世界のために気候変動と戦うための行動である。
この研究では、オーディオインテリジェンス -- 強力だが、この状況では、技術はほとんど考慮されていない -- が、気候に関わる課題を克服するのに寄与する領域の概要を述べる。
我々は、古代ギリシア人が提唱した地球、水、空気、火、エーテルの5つの要素に従って、潜在的なコンピュータオーディションの応用を分類し、この分類は、異なる生態学的側面に関してコンピュータオーディションを議論する枠組みとして機能する。
地球と水は、環境変化の早期発見と、人間や動物の保護、土地や水生生物の監視に関係している。
空中音声は、鳥類と昆虫の個体群に関する情報の監視と取得に使用される。
さらに、音響測定は気象やその他の気象現象のモニタリングと予測に関連した情報を提供することができる。
第4の要素は火である。
化石燃料の燃焼、結果としてCO$2$の排出の増加とそれに伴う温度上昇により、火は人為的な気候変動の象徴として使用され、この文脈では騒音汚染の監視、機械、および山火事の早期発見が含まれる。
これらすべての領域において、コンピュータオーディションは気候変動対策に役立つ。
Aetherはそれを可能にする技術そのものに対応する。
本研究は,コンピュータオーディションを方法論的代替物と位置づけながら,これらの分野を探究し,応用可能性について議論する。 Among the seventeen Sustainable Development Goals (SDGs) proposed within the 2030 Agenda and adopted by all the United Nations member states, the 13$^{th}$ SDG is a call for action to combat climate change for a better world. In this work, we provide an overview of areas in which audio intelligence -- a powerful but in this context so far hardly considered technology -- can contribute to overcome climate-related challenges. We categorise potential computer audition applications according to the five elements of earth, water, air, fire, and aether, proposed by the ancient Greeks in their five element theory; this categorisation serves as a framework to discuss computer audition in relation to different ecological aspects. Earth and water are concerned with the early detection of environmental changes and, thus, with the protection of humans and animals, as well as the monitoring of land and aquatic organisms. Aerial audio is used to monitor and obtain information about bird and insect populations. Furthermore, acoustic measures can deliver relevant information for the monitoring and forecasting of weather and other meteorological phenomena. The fourth considered element is fire. Due to the burning of fossil fuels, the resulting increase in CO$_2$ emissions and the associated rise in temperature, fire is used as a symbol for man-made climate change and in this context includes the monitoring of noise pollution, machines, as well as the early detection of wildfires. In all these areas, computer audition can help counteract climate change. Aether then corresponds to the technology itself that makes this possible. This work explores these areas and discusses potential applications, while positioning computer audition in relation to methodological alternatives. | 翻訳日:2022-03-14 22:53:05 公開日:2022-03-10 |
# (参考訳) neos: 高エネルギー物理学のためのエンドツーエンド最適化された要約統計 neos: End-to-End-Optimised Summary Statistics for High Energy Physics ( http://arxiv.org/abs/2203.05570v1 ) ライセンス: CC BY 4.0 | Nathan Simpson and Lukas Heinrich | (参考訳) ディープラーニングの出現は、計算の勾配を自動的に計算する強力なツールを生み出した。
これは、ニューラルネットワークのトレーニングが、勾配降下を使ってパラメータを反復的に更新し、損失関数の最小値を求めるためである。
エンド・ツー・エンドの最適化可能な自由なパラメータを備えたワークフローは、ずっと勾配を追跡し続けることができる。
完全に微分可能な高エネルギーの物理ワークフローのこのパラダイムに従って、分析の期待される感度に関して学習可能な要約統計を最適化できる実装の例を紹介します。
この結果、体系的な不確実性のモデル化と処理を意識した最適化プロセスが実現される。 The advent of deep learning has yielded powerful tools to automatically compute gradients of computations. This is because training a neural network equates to iteratively updating its parameters using gradient descent to find the minimum of a loss function. Deep learning is then a subset of a broader paradigm; a workflow with free parameters that is end-to-end optimisable, provided one can keep track of the gradients all the way through. This work introduces neos: an example implementation following this paradigm of a fully differentiable high-energy physics workflow, capable of optimising a learnable summary statistic with respect to the expected sensitivity of an analysis. Doing this results in an optimisation process that is aware of the modelling and treatment of systematic uncertainties. | 翻訳日:2022-03-14 22:17:34 公開日:2022-03-10 |
# (参考訳) デュアルエネルギーCT再構成のためのマルチチャネル畳み込み解析演算子学習 Multi-Channel Convolutional Analysis Operator Learning for Dual-Energy CT Reconstruction ( http://arxiv.org/abs/2203.05968v1 ) ライセンス: CC BY 4.0 | Alessandro Perelli, Suxer Alfonso Garcia, Alexandre Bousse, Jean-Pierre Tasu, Nikolaos Efthimiadis, Dimitris Visvikis | (参考訳) 目的。
デュアルエネルギー計算トモグラフィ(DECT)はコントラストを改善し、アーティファクトを低減し、高度なイメージングアプリケーションで物質分解を行う能力を持つ。
放射線照射量の増加や測定値の増加は、エネルギー当たりの投射数やx線源の強度を減少させるのに不可欠であるが、このため断層撮影による再構成は不適切である。
アプローチ。
そこで本研究では,マルチチャネル畳み込み解析演算子学習(mcaol)法を考案し,畳み込み解析演算子学習(caol)アルゴリズムを用いて,事前学習した畳み込みフィルタにより得られたばらばらな特徴に対して,低・高エネルギーの減衰画像を同時に再構成する最適化手法を提案する。
主な結果。
提案手法の有効性を検証するために,シミュレーションおよび実ctデータを用いた広範囲な実験を行い,caolおよび単関節全変量(tv)正則化を用いた反復法と比較し,再構成精度の向上を報告した。
重要なこと。
Sparse-views と Low-Dose DECT の質的および定量的結果から,提案手法はMCAOL 法を独立に各エネルギーに適用し,既存の MBIR (State-of-the-the-the-art model-based Iterative reconstruction) 法よりも優れており,線量削減の道が拓かれた。 Objective. Dual-energy computed tomography (DECT) has the potential to improve contrast, reduce artifacts and the ability to perform material decomposition in advanced imaging applications. The increased number or measurements results with a higher radiation dose and it is therefore essential to reduce either number of projections per energy or the source X-ray intensity, but this makes tomographic reconstruction more ill-posed. Approach. We developed the multi-channel convolutional analysis operator learning (MCAOL) method to exploit common spatial features within attenuation images at different energies and we propose an optimization method which jointly reconstructs the attenuation images at low and high energies with a mixed norm regularization on the sparse features obtained by pre-trained convolutional filters through the convolutional analysis operator learning (CAOL) algorithm. Main results. Extensive experiments with simulated and real computed tomography (CT) data were performed to validate the effectiveness of the proposed methods and we reported increased reconstruction accuracy compared to CAOL and iterative methods with single and joint total-variation (TV) regularization. Significance. Qualitative and quantitative results on sparse-views and low-dose DECT demonstrate that the proposed MCAOL method outperforms both CAOL applied on each energy independently and several existing state-of-the-art model-based iterative reconstruction (MBIR) techniques, thus paving the way for dose reduction. | 翻訳日:2022-03-14 22:08:48 公開日:2022-03-10 |
# (参考訳) マスクオートエンコーダを用いた医用画像解析のための自己事前訓練 Self Pre-training with Masked Autoencoders for Medical Image Analysis ( http://arxiv.org/abs/2203.05573v1 ) ライセンス: CC BY 4.0 | Lei Zhou, Huidong Liu, Joseph Bae, Junjun He, Dimitris Samaras, Prateek Prasanna | (参考訳) Masked Autoencoder (MAE) は視覚変換器 (ViT) の自然画像解析に有効であることが最近示されている。
部分的な観察のみからオリジナル画像を再構成するプリテキストタスクを実行することにより、ViTであるエンコーダは、コンテキスト情報を集約してマスクされた画像領域の内容を推測する。
このコンテキストアグリゲーション能力は、各解剖学的構造が他の構造や領域と機能的および機械的に結びついている医療画像領域にも不可欠であると考えている。
しかし、事前トレーニングのためのImageNetスケールの医療画像データセットは存在しない。
そこで本稿では,医療画像に対するmaeを用いた自己事前学習パラダイム,すなわち,同じ対象データセット上で事前学習されるモデルについて検討する。
mae自己訓練の妥当性を検証するため,胸部x線疾患分類,ct腹部多臓器分画,mri脳腫瘍分画の3つの医用画像課題を検討した。
MAEの自己学習は、すべてのタスクに顕著なメリットがある。
特に肺疾患分類のmAUCは9.4%増加する。
脳腫瘍セグメンテーションの平均DSCは77.4%から78.9%に改善されている。
興味深いことに、小規模のマルチオーガンセグメンテーションデータセット(n=30)では、平均dscが78.8%から83.5%に改善され、hd95は60%削減され、限られたデータシナリオでの有効性が示される。
セグメンテーションと分類の結果から,医療画像解析におけるMAE自己訓練の可能性が示された。 Masked Autoencoder (MAE) has recently been shown to be effective in pre-training Vision Transformers (ViT) for natural image analysis. By performing the pretext task of reconstructing the original image from only partial observations, the encoder, which is a ViT, is encouraged to aggregate contextual information to infer content in masked image regions. We believe that this context aggregation ability is also essential to the medical image domain where each anatomical structure is functionally and mechanically connected to other structures and regions. However, there is no ImageNet-scale medical image dataset for pre-training. Thus, in this paper, we investigate a self pre-training paradigm with MAE for medical images, i.e., models are pre-trained on the same target dataset. To validate the MAE self pre-training, we consider three diverse medical image tasks including chest X-ray disease classification, CT abdomen multi-organ segmentation and MRI brain tumor segmentation. It turns out MAE self pre-training benefits all the tasks markedly. Specifically, the mAUC on lung disease classification is increased by 9.4%. The average DSC on brain tumor segmentation is improved from 77.4% to 78.9%. Most interestingly, on the small-scale multi-organ segmentation dataset (N=30), the average DSC improves from 78.8% to 83.5% and the HD95 is reduced by 60%, indicating its effectiveness in limited data scenarios. The segmentation and classification results reveal the promising potential of MAE self pre-training for medical image analysis. | 翻訳日:2022-03-14 21:42:05 公開日:2022-03-10 |
# (参考訳) 画像の縫合に基づく顔画像の一部からの人間の顔認識 Human Face Recognition from Part of a Facial Image based on Image Stitching ( http://arxiv.org/abs/2203.05601v1 ) ライセンス: CC BY 4.0 | Osama R. Shahin, Rami Ayedi, Alanazi Rayan, Rasha M. Abd El-Aziz, Ahmed I. Taloba | (参考訳) 現在の顔認識技術のほとんどは、認識対象者の全顔の存在を必要としており、この状況は実際に達成することは困難であり、必要な人物が顔の一部で現れる可能性があり、そのためには、現れていない部分の予測が必要となる。
現在の予測プロセスの大部分は、画像補間(image interpolation)と呼ばれるもので、特に欠落部分が大きい場合には、信頼性の高い結果を与えない。
本研究では,人間の顔がほとんどが対称性によって特徴付けられるという事実に応じて,画像に示される部分の反転により欠落部分を完成させて顔を縫い合わせる方法を採用した。
完全なモデルを作成するために、アルゴリズムの効率を証明するために2つの顔認識手法が用いられた。
ここで適用される顔認識アルゴリズムは固有顔と幾何学的手法である。
画像ステッチ(英: image stitching)とは、特定の写真画像を組み合わせて完全なシーンや高解像度画像を作る過程である。
複数の画像が統合され、広角パノラマ画像を形成する。
縫合画像と原画像との類似性を算出し、縫合画像を介して縫合線の有無により、縫合の品質を判定する。
EigenfacesアプローチはPCA計算を利用して特徴ベクトル次元を縮小する。
これは、低次元空間を発見するための効果的なアプローチを提供する。
さらに,提案アルゴリズムが顔を認識するためには,顔の分類を迅速かつ効果的に行うことができる。
特徴抽出のフェーズは分類器フェーズに続きます。 Most of the current techniques for face recognition require the presence of a full face of the person to be recognized, and this situation is difficult to achieve in practice, the required person may appear with a part of his face, which requires prediction of the part that did not appear. Most of the current forecasting processes are done by what is known as image interpolation, which does not give reliable results, especially if the missing part is large. In this work, we adopted the process of stitching the face by completing the missing part with the flipping of the part shown in the picture, depending on the fact that the human face is characterized by symmetry in most cases. To create a complete model, two facial recognition methods were used to prove the efficiency of the algorithm. The selected face recognition algorithms that are applied here are Eigenfaces and geometrical methods. Image stitching is the process during which distinctive photographic images are combined to make a complete scene or a high-resolution image. Several images are integrated to form a wide-angle panoramic image. The quality of the image stitching is determined by calculating the similarity among the stitched image and original images and by the presence of the seam lines through the stitched images. The Eigenfaces approach utilizes PCA calculation to reduce the feature vector dimensions. It provides an effective approach for discovering the lower-dimensional space. In addition, to enable the proposed algorithm to recognize the face, it also ensures a fast and effective way of classifying faces. The phase of feature extraction is followed by the classifier phase. | 翻訳日:2022-03-14 21:32:26 公開日:2022-03-10 |
# (参考訳) 畳み込みニューラルネットワークに基づく障害者のジェスチャーに基づくアラビア語手話認識 Gesture based Arabic Sign Language Recognition for Impaired People based on Convolution Neural Network ( http://arxiv.org/abs/2203.05602v1 ) ライセンス: CC BY 4.0 | Rady El Rwelli, Osama R. Shahin, Ahmed I. Taloba | (参考訳) アラビア語の手話は、深層学習手法を用いてジェスチャーや手話の識別に優れた研究成果を支えてきた。
コミュニケーションの形式」という用語は、聴覚障害者がコミュニケーションに使用する行動を指す。
これらの行動は一般人にとって理解が難しい。
アラビア手話 (ArSL) の認識は、アラビア手話 (ArSL) が、ある領域から別の領域へ、そして州内で変化するため、難しい研究課題となっている。
畳み込みニューラルネットワークは,機械学習技術に基づく提案システムにカプセル化されている。
アラビア手話の認識には、ウェアラブルセンサが使用される。
このアプローチは、すべてのアラビア語のジェスチャーに適合する別のシステムを使用しています。
これは、地元のアラビア人コミュニティの障害を受けた人々によって使用される。
研究方法は適度かつ適度な精度で使用されてきた。
センシング装置が収集したデータから特徴を抽出するために、当初は深い畳み込みネットワークが開発された。
これらのセンサーはアラビア手話の30文字を確実に認識することができる。
DG5-Vハンドグローブとウェアラブルセンサーで手の動きを捉えた。
分類の目的では、cnn技術が用いられる。
提案システムは、アラビア語手話手のジェスチャーを入力とし、発声音声を出力として出力する。
結果は90%の人に認識された。 The Arabic Sign Language has endorsed outstanding research achievements for identifying gestures and hand signs using the deep learning methodology. The term "forms of communication" refers to the actions used by hearing-impaired people to communicate. These actions are difficult for ordinary people to comprehend. The recognition of Arabic Sign Language (ArSL) has become a difficult study subject due to variations in Arabic Sign Language (ArSL) from one territory to another and then within states. The Convolution Neural Network has been encapsulated in the proposed system which is based on the machine learning technique. For the recognition of the Arabic Sign Language, the wearable sensor is utilized. This approach has been used a different system that could suit all Arabic gestures. This could be used by the impaired people of the local Arabic community. The research method has been used with reasonable and moderate accuracy. A deep Convolutional network is initially developed for feature extraction from the data gathered by the sensing devices. These sensors can reliably recognize the Arabic sign language's 30 hand sign letters. The hand movements in the dataset were captured using DG5-V hand gloves with wearable sensors. For categorization purposes, the CNN technique is used. The suggested system takes Arabic sign language hand gestures as input and outputs vocalized speech as output. The results were recognized by 90% of the people. | 翻訳日:2022-03-14 21:21:57 公開日:2022-03-10 |
# (参考訳) 深層学習に基づくバイオニックビジョンのための知覚刺激エンコーダ Deep Learning-Based Perceptual Stimulus Encoder for Bionic Vision ( http://arxiv.org/abs/2203.05604v1 ) ライセンス: CC BY 4.0 | Lucas Relic, Bowen Zhang, Yi-Lin Tuan, Michael Beyeler | (参考訳) 網膜インプラントは、難治性の視覚障害を治療する可能性があるが、それらが生み出す人工視覚の品質は依然として必須である。
優れた課題は、視覚知覚(ホスフィン)につながる電極の活性化パターンを特定することである。
本稿では、所望の視覚知覚を生成するために必要な電極活性化パターンを予測するために、エンドツーエンドで訓練されたCNNに基づくPSEを提案する。
MNISTに対するエンコーダの有効性を、個々の網膜インプラント使用者に適した精神生理学的に検証されたホスフェインモデルを用いて実証した。
本研究は網膜インプラントによる人工視覚の質向上に向けた重要な第一歩となる。 Retinal implants have the potential to treat incurable blindness, yet the quality of the artificial vision they produce is still rudimentary. An outstanding challenge is identifying electrode activation patterns that lead to intelligible visual percepts (phosphenes). Here we propose a PSE based on CNN that is trained in an end-to-end fashion to predict the electrode activation patterns required to produce a desired visual percept. We demonstrate the effectiveness of the encoder on MNIST using a psychophysically validated phosphene model tailored to individual retinal implant users. The present work constitutes an essential first step towards improving the quality of the artificial vision provided by retinal implants. | 翻訳日:2022-03-14 21:11:12 公開日:2022-03-10 |
# (参考訳) 文脈型感覚運動ノルム:曖昧な英語単語に対する知覚運動強度の多次元計測 Contextualized Sensorimotor Norms: multi-dimensional measures of sensorimotor strength for ambiguous English words, in context ( http://arxiv.org/abs/2203.05648v1 ) ライセンス: CC BY 4.0 | Sean Trott and Benjamin Bergen | (参考訳) ほとんどの大きな言語モデルは言語入力だけで訓練されているが、人間は感覚運動経験における単語の理解を基盤にしているように見える。
自然な解法は、単語の知覚的関連(例えばランカスター知覚的ノルム)の人間の判断によるLM表現を強化することであるが、これは別の課題を生じさせる: ほとんどの単語は曖昧であり、孤立した単語の判断は、この多義性(例:「木テーブル」対「データテーブル」)を説明できない。
我々は,4つの文脈で評価された112の英単語に対して,文脈化感性判断の新しい語彙資源を構築することにより,この問題に対処しようとした。
これらの評価はLancaster Sensorimotor Normsと重複するが、異なる情報を符号化し、BERTから派生した他の指標(例えば、関連性)も予測していることを示す。
理論的な疑問に光を当てるだけでなく、これらの評価は、基礎言語モデルを構築する研究者のための「チャレンゲセット」として使用できることを示唆する。 Most large language models are trained on linguistic input alone, yet humans appear to ground their understanding of words in sensorimotor experience. A natural solution is to augment LM representations with human judgments of a word's sensorimotor associations (e.g., the Lancaster Sensorimotor Norms), but this raises another challenge: most words are ambiguous, and judgments of words in isolation fail to account for this multiplicity of meaning (e.g., "wooden table" vs. "data table"). We attempted to address this problem by building a new lexical resource of contextualized sensorimotor judgments for 112 English words, each rated in four different contexts (448 sentences total). We show that these ratings encode overlapping but distinct information from the Lancaster Sensorimotor Norms, and that they also predict other measures of interest (e.g., relatedness), above and beyond measures derived from BERT. Beyond shedding light on theoretical questions, we suggest that these ratings could be of use as a "challenge set" for researchers building grounded language models. | 翻訳日:2022-03-14 21:05:14 公開日:2022-03-10 |
# (参考訳) ポートフォリオ最適化のためのセンチメントと資産価格予測の融合 Fusion of Sentiment and Asset Price Predictions for Portfolio Optimization ( http://arxiv.org/abs/2203.05673v1 ) ライセンス: CC BY 4.0 | Mufhumudzi Muthivhi, Terence L. van Zyl | (参考訳) 株式価格予測を伴うテキスト形式での世論データの融合は、金融コミュニティ内での関心の高まりのトピックである。
しかし、研究文献はポートフォリオ選択問題における投資家感情の応用をほとんど探求していない。
本稿では,感情認識ポートフォリオ選択問題の理解を深め,解き明かすことを目的とする。
この目的のために、研究はセマンティック・アテンション・モデルを用いて資産に対する感情を予測する。
感情認識型Long Short Term Memory(LSTM)リカレントニューラルネットワークを用いて、価格予測と平均分散戦略により最適なポートフォリオを選択する。
当社のセンチメントポートフォリオ戦略は、非センチメント対応モデルよりも売上が大幅に増加した。
しかし,我々の戦略は,安定性の観点から,従来のポートフォリオ割り当て戦略を上回りません。
我々は、価格予測とポートフォリオ最適化の組み合わせによる感情予測の融合が、ポートフォリオ選択戦略の強化につながると論じる。 The fusion of public sentiment data in the form of text with stock price prediction is a topic of increasing interest within the financial community. However, the research literature seldom explores the application of investor sentiment in the Portfolio Selection problem. This paper aims to unpack and develop an enhanced understanding of the sentiment aware portfolio selection problem. To this end, the study uses a Semantic Attention Model to predict sentiment towards an asset. We select the optimal portfolio through a sentiment-aware Long Short Term Memory (LSTM) recurrent neural network for price prediction and a mean-variance strategy. Our sentiment portfolio strategies achieved on average a significant increase in revenue above the non-sentiment aware models. However, the results show that our strategy does not outperform traditional portfolio allocation strategies from a stability perspective. We argue that an improved fusion of sentiment prediction with a combination of price prediction and portfolio optimization leads to an enhanced portfolio selection strategy. | 翻訳日:2022-03-14 20:46:59 公開日:2022-03-10 |
# BASIL:クラス不均衡データセットのためのバランス付きアクティブ半教師付き学習 BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced Datasets ( http://arxiv.org/abs/2203.05651v1 ) ライセンス: Link先を確認 | Suraj Kothawade, Pavan Kumar Reddy, Ganesh Ramakrishnan, Rishabh Iyer | (参考訳) 現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベル付きデータセットの両方で、各クラスで利用可能なデータポイントの数とバランスをとる。
しかし、ほとんどの実世界のデータセットには自然にクラス不均衡が存在する。
このような不均衡なデータセットのトレーニングモデルがバイアスモデルにつながることが知られており、結果としてより頻繁なクラスに対するバイアス付き予測につながっている。
この問題はSSLメソッドでさらに強調され、トレーニング中に(ラベルなしのデータ上で)擬似ラベルを取得するためにこのバイアス付きモデルを使用する。
本稿では、SSLのためのバランスのとれたラベル付きデータセットを選択することで、バイアスのないモデルに対処する。
残念ながら、1ショットでクラス不均衡分布からバランス付きラベル付きデータセットを取得することは難しい。
本稿では,クラスごとにサブモジュラル相互情報(smi)機能を最適化し,アクティブラーニングループでバランスのとれたデータセットを徐々に選択する新しいアルゴリズムであるbasil(balanced active semi-supervised learning)を提案する。
重要なことに,この技術はSSLメソッドの性能向上に有効である。
幅広いSSL手法を対象としたPath-MNISTおよびOrgan-MNISTの医療データセットに関する実験により,バジルの有効性が示された。
さらに、SMI関数がよりバランスの取れたデータセットを選択するため、Basilは最先端の多様性と不確実性に基づくアクティブラーニング手法よりも優れています。 Current semi-supervised learning (SSL) methods assume a balance between the number of data points available for each class in both the labeled and the unlabeled data sets. However, there naturally exists a class imbalance in most real-world datasets. It is known that training models on such imbalanced datasets leads to biased models, which in turn lead to biased predictions towards the more frequent classes. This issue is further pronounced in SSL methods, as they would use this biased model to obtain psuedo-labels (on the unlabeled data) during training. In this paper, we tackle this problem by attempting to select a balanced labeled dataset for SSL that would result in an unbiased model. Unfortunately, acquiring a balanced labeled dataset from a class imbalanced distribution in one shot is challenging. We propose BASIL (Balanced Active Semi-supervIsed Learning), a novel algorithm that optimizes the submodular mutual information (SMI) functions in a per-class fashion to gradually select a balanced dataset in an active learning loop. Importantly, our technique can be efficiently used to improve the performance of any SSL method. Our experiments on Path-MNIST and Organ-MNIST medical datasets for a wide array of SSL methods show the effectiveness of Basil. Furthermore, we observe that Basil outperforms the state-of-the-art diversity and uncertainty based active learning methods since the SMI functions select a more balanced dataset. | 翻訳日:2022-03-14 13:58:30 公開日:2022-03-10 |
# レコメンダシステムの消費者価値とビジネス価値のバランス:シミュレーションに基づく分析 Balancing Consumer and Business Value of Recommender Systems: A Simulation-based Analysis ( http://arxiv.org/abs/2203.05952v1 ) ライセンス: Link先を確認 | Nada Ghanem, Stephan Leitner, Dietmar Jannach | (参考訳) 現在、多くのオンラインプラットフォームで自動レコメンデーションが利用可能であり、そのようなレコメンデーションは消費者とプロバイダーにかなりの価値をもたらす可能性がある。
しかし、推奨アイテムがすべて同じ利益率であるとは限らないため、提供者は利益を最大化する商品を宣伝する誘惑を受けることがある。
短期的には、消費者は最適でない推奨を受け入れるかもしれないが、長期的には信頼を失うかもしれない。
最終的には、消費者とプロバイダの両方の価値を考慮し、継続的なビジネス成功につながる、バランスのとれたレコメンデーション戦略を設計することに繋がる。
本研究は,様々なレコメンデーション戦略の縦断的ダイナミクスを探索するためのエージェントベースモデリングに基づくシミュレーションフレームワークを提案する。
本モデルでは,消費者エージェントが提供者からレコメンデーションを受け取り,レコメンデーションの質が時間の経過とともに消費者の信頼に影響を及ぼす。
また、ポジティブな経験とネガティブな経験がソーシャルメディア上で他人と共有されるネットワーク効果についても検討する。
我々の枠組みによるシミュレーションは、双方の利害関係者を考慮したバランスの取れた戦略が、実際に安定した消費者信頼と持続的な収益性をもたらすことを示している。
また、ソーシャルメディアは、ネガティブな体験の場合の信頼の喪失のような現象を補強できることがわかった。
再現性を確保するため,我々はフレキシブル・シミュレーション・フレームワークを公開している。 Automated recommendations can nowadays be found on many online platforms, and such recommendations can create substantial value for consumers and providers. Often, however, not all recommendable items have the same profit margin, and providers might thus be tempted to promote items that maximize their profit. In the short run, consumers might accept non-optimal recommendations, but they may lose their trust in the long run. Ultimately, this leads to the problem of designing balanced recommendation strategies, which consider both consumer and provider value and lead to sustained business success. This work proposes a simulation framework based on Agent-based Modeling designed to help providers explore longitudinal dynamics of different recommendation strategies. In our model, consumer agents receive recommendations from providers, and the perceived quality of the recommendations influences the consumers' trust over time. In addition, we consider network effects where positive and negative experiences are shared with others on social media. Simulations with our framework show that balanced strategies that consider both stakeholders indeed lead to stable consumer trust and sustained profitability. We also find that social media can reinforce phenomena like the loss of trust in the case of negative experiences. To ensure reproducibility and foster future research, we publicly share our flexible simulation framework. | 翻訳日:2022-03-14 13:54:48 公開日:2022-03-10 |
# 高精度産業用コネクタ-ソケットインサーション用触覚ニュートニアVAE Tactile-Sensitive NewtonianVAE for High-Accuracy Industrial Connector-Socket Insertion ( http://arxiv.org/abs/2203.05955v1 ) ライセンス: Link先を確認 | Ryo Okumura, Nobuki Nishio and Tadahiro Taniguchi | (参考訳) 工業用コネクタソケット挿入タスクは、コネクタのグリップポーズのサブミリ位置決めと補償を必要とする。
したがって、ソケットとコネクタ間の相対的なポーズの高精度な推定は、タスクを実現する上で重要な要素である。
世界モデルはバイスオモーター制御に有望な技術である。
彼らは特徴抽出と潜在力学モデルを協調的に最適化する制御のための適切な状態表現を得る。
近年の研究では、世界モデルの一種であるNewtonianVAEが、画像から物理座標へのマッピングに相当する潜在空間を取得している。
比例制御はニュートンVAEの潜在空間で達成できる。
しかし,newtonianvaeの物理環境における高精度産業タスクへの応用は未解決の問題である。
さらに、把握ポーズを考慮した潜在空間における目標位置を補償する一般的な枠組みは存在しない。
本研究では,usbコネクタの挿入にnewtonianvaeを応用し,物理的環境におけるポーズ変化を把握した。
ゲルアイ型触覚センサを採用し,コネクタの把持姿勢によって補償される挿入位置を推定する。
本手法では, 潜在空間をエンドツーエンドに訓練し, 単純な比例制御が可能となる。
そのため、追加のエンジニアリングやアノテーションは不要である。
実験の結果, 触覚に敏感なnewtonianvae法は, 回帰型把持姿勢推定器と座標変換のナイーブな組み合わせよりも優れていることがわかった。
さらに、元のnewtonianvaeは何らかの状況では機能せず、ドメイン知識誘導によってモデルの精度が向上することを示す。
このドメイン知識は、ロボットの仕様や測定から容易に知ることができる。 An industrial connector-socket insertion task requires sub-millimeter positioning and compensation of grasp pose of a connector. Thus high accurate estimation of relative pose between socket and connector is a key factor to achieve the task. World models are promising technology for visuo-motor control. They obtain appropriate state representation for control to jointly optimize feature extraction and latent dynamics model. Recent study shows NewtonianVAE, which is a kind of the world models, acquires latent space which is equivalent to mapping from images to physical coordinate. Proportional control can be achieved in the latent space of NewtonianVAE. However, application of NewtonianVAE to high accuracy industrial tasks in physical environments is open problem. Moreover, there is no general frameworks to compensate goal position in the obtained latent space considering the grasp pose. In this work, we apply NewtonianVAE to USB connector insertion with grasp pose variation in the physical environments. We adopt a GelSight type tactile sensor and estimate insertion position compensated by the grasp pose of the connector. Our method trains the latent space in an end-to-end manner, and simple proportional control is available. Therefore, it requires no additional engineering and annotation. Experimental results show that the proposed method, Tactile-Sensitive NewtonianVAE, outperforms naive combination of regression-based grasp pose estimator and coordinate transformation. Moreover, we reveal the original NewtonianVAE does not work in some situation, and demonstrate that domain knowledge induction improves model accuracy. This domain knowledge is easy to be known from specification of robots or measurement. | 翻訳日:2022-03-14 13:54:24 公開日:2022-03-10 |
# 話者検証のためのパラメータフリーアテンテーティブ・スコーリング Parameter-Free Attentive Scoring for Speaker Verification ( http://arxiv.org/abs/2203.05642v1 ) ライセンス: Link先を確認 | Jason Pelecanos, Quan Wang, Yiling Huang, Ignacio Lopez Moreno | (参考訳) 本稿では,話者検証のためのパラメータフリー注意点定法を提案する。
パラメータフリースコアリングは、付随するパラメトリックスコアリングモデルを必要としない話者表現を比較する柔軟性を提供する。
トランスフォーマーニューラルネットワークのアテンション成分に着想を得て,参加者とテストセグメントの表現を比較するために,スケールドドット製品アテンション機構の変種を提案する。
さらに、この研究は、パフォーマンスへの影響を探求する。
(i)異なる種類の正規化。
(ii)独立対連結クエリ/キー推定
三 キー-値対の数及び数の変更
(iv)複数の登録発話統計をプールすること。
4タスク平均に対する実験結果から, 単純なパラメータフリー注意スコアリング機構により, 最高のコサイン類似度ベースラインよりも平均EERを10%向上させることができることがわかった。 This paper presents a novel study of parameter-free attentive scoring for speaker verification. Parameter-free scoring provides the flexibility of comparing speaker representations without the need of an accompanying parametric scoring model. Inspired by the attention component in Transformer neural networks, we propose a variant of the scaled dot product attention mechanism to compare enrollment and test segment representations. In addition, this work explores the effect on performance of (i) different types of normalization, (ii) independent versus tied query/key estimation, (iii) varying the number of key-value pairs and (iv) pooling multiple enrollment utterance statistics. Experimental results for a 4 task average show that a simple parameter-free attentive scoring mechanism can improve the average EER by 10% over the best cosine similarity baseline. | 翻訳日:2022-03-14 13:53:32 公開日:2022-03-10 |
# LiftReg: 限定アングル2D/3Dデフォルマブル登録 LiftReg: Limited Angle 2D/3D Deformable Registration ( http://arxiv.org/abs/2203.05565v1 ) ライセンス: Link先を確認 | Lin Tian, Yueh Z. Lee, Ra\'ul San Jos\'e Est\'epar, Marc Niethammer | (参考訳) 2d/3d変形可能な登録アプローチであるliftregを提案する。
LiftRegは、デジタル再構成されたラジオグラフ(DRR)とCT(Computerd tomography)イメージペアのセットを使用してトレーニングされる、深い登録フレームワークである。
シミュレーションされたトレーニングデータを使用することで、liftregは高品質のct-ct画像類似度測定を行うことができる。
登録品質をさらに向上させ,非常に限られた角度取得の固有深度あいまいさに対処するために,バックプロジェクションされた2D画像から抽出した特徴と統計的変形モデルを提案する。
このアプローチをdirlabの肺登録データセットでテストし,既存の学習に基づくペアワイズ登録アプローチよりも優れていることを示す。 We propose LiftReg, a 2D/3D deformable registration approach. LiftReg is a deep registration framework which is trained using sets of digitally reconstructed radiographs (DRR) and computed tomography (CT) image pairs. By using simulated training data, LiftReg can use a high-quality CT-CT image similarity measure, which helps the network to learn a high-quality deformation space. To further improve registration quality and to address the inherent depth ambiguities of very limited angle acquisitions, we propose to use features extracted from the backprojected 2D images and a statistical deformation model. We test our approach on the DirLab lung registration dataset and show that it outperforms an existing learning-based pairwise registration approach. | 翻訳日:2022-03-14 13:53:22 公開日:2022-03-10 |
# ctフィルム写真からの医用画像の復元 Recovering medical images from CT film photos ( http://arxiv.org/abs/2203.05567v1 ) ライセンス: Link先を確認 | Quan Quan, Qiyuan Wang, Yuanqi Du, Liu Li, S. Kevin Zhou | (参考訳) コンピュータ断層撮影(CT)などの医用画像は病院PACSのDICOM形式で保存されているが, セルフストレージや二次コンサルテーションのために, フィルムを転写可能な媒体として印刷することは, 多くの国で日常的に行われている。
また、携帯電話カメラのユビキタス化により、不運にも幾何学的変形や照明の変化に悩まされるCTフィルムの撮影が一般的である。
本研究は,文献に「最初の試み」と記されたctフィルムの回収問題を,我々の知識を最大限に活用するために検討するものである。
まず,広く使用されているコンピュータグラフィックスソフトウェアであるBlenderを用いて,約2万枚の画像からなる大規模頭部CTフィルムデータベースCTFilm20Kを構築した。
また,幾何学的変形(3次元座標,深さ,正規分布,紫外線図など)と照明変化(アルベド写像など)に関する全ての情報を記録した。
そこで我々は,CTフィルムから抽出した複数の地図を用いて,形状変形と照明変化に対処し,回復過程を協調的に導出するフレームワークを,textbf{F}ilm \textbf{I}mage \textbf{Re}covery \textbf{Net}work (\textbf{FIReNet}work) と呼ぶ。
最後に,放射能特徴抽出などのさらなる解析のためにカスケードモデルを用いてデワート画像をdicomファイルに変換する。
大規模な実験は、我々のアプローチが以前のアプローチよりも優れていることを示す。
我々は,ctフィルム画像解析研究を促進すべく,シミュレーション画像と深層モデルをオープンソースとして公開する予定である。 While medical images such as computed tomography (CT) are stored in DICOM format in hospital PACS, it is still quite routine in many countries to print a film as a transferable medium for the purposes of self-storage and secondary consultation. Also, with the ubiquitousness of mobile phone cameras, it is quite common to take pictures of CT films, which unfortunately suffer from geometric deformation and illumination variation. In this work, we study the problem of recovering a CT film, which marks \textbf{the first attempt} in the literature, to the best of our knowledge. We start with building a large-scale head CT film database CTFilm20K, consisting of approximately 20,000 pictures, using the widely used computer graphics software Blender. We also record all accompanying information related to the geometric deformation (such as 3D coordinate, depth, normal, and UV maps) and illumination variation (such as albedo map). Then we propose a deep framework called \textbf{F}ilm \textbf{I}mage \textbf{Re}covery \textbf{Net}work (\textbf{FIReNet}) to tackle geometric deformation and illumination variation using the multiple maps extracted from the CT films to collaboratively guide the recovery process. Finally, we convert the dewarped images to DICOM files with our cascade model for further analysis such as radiomics feature extraction. Extensive experiments demonstrate the superiority of our approach over the previous approaches. We plan to open source the simulated images and deep models for promoting the research on CT film image analysis. | 翻訳日:2022-03-14 13:52:46 公開日:2022-03-10 |
# ブラインド画像超解像のための展開深部カーネル推定 Unfolded Deep Kernel Estimation for Blind Image Super-resolution ( http://arxiv.org/abs/2203.05568v1 ) ライセンス: Link先を確認 | Hongyi Zheng, Hongwei Yong, Lei Zhang | (参考訳) ブラインド画像超解像(BISR)は、未知のぼやけたカーネルとノイズによって劣化した低解像度画像から高解像度画像を再構成することを目的としている。
画像劣化モデルを考慮せずにこの問題に取り組むために,深層ニューラルネットワークに基づく手法が数多く提案されている。
しかし、それらは主にトレーニングセットに依存しており、推論中に見えないぼやけたカーネルでイメージを処理できないことが多い。
劣化モデルを利用してBISRを実行するための深部展開法も提案されている。
それでも、既存のDeep Openfoldingメソッドは、展開対象関数のデータ項を明示的に解決することができず、カーネル推定の能力を制限している。
本研究では,我々の最良知識に対して初めて,データ項を高効率で明示的に解き明かす,新しい展開された深層カーネル推定法を提案する。
UDKEベースのBISR法は、画像とカーネルの事前情報をエンドツーエンドで共同学習することができ、トレーニングデータと画像劣化モデルの両方で効果的に活用することができる。
ベンチマークデータセットと実世界のデータを用いた実験により、提案したUDKE法は、推論において複雑で見えない非ガウスのぼかしカーネルを予測し、最先端技術よりもBISR性能が著しく向上することを示した。
UDKEのソースコードは、https://github.com/natezhenghy/UDKEで入手できる。 Blind image super-resolution (BISR) aims to reconstruct a high-resolution image from its low-resolution counterpart degraded by unknown blur kernel and noise. Many deep neural network based methods have been proposed to tackle this challenging problem without considering the image degradation model. However, they largely rely on the training sets and often fail to handle images with unseen blur kernels during inference. Deep unfolding methods have also been proposed to perform BISR by utilizing the degradation model. Nonetheless, the existing deep unfolding methods cannot explicitly solve the data term of the unfolding objective function, limiting their capability in blur kernel estimation. In this work, we propose a novel unfolded deep kernel estimation (UDKE) method, which, for the first time to our best knowledge, explicitly solves the data term with high efficiency. The UDKE based BISR method can jointly learn image and kernel priors in an end-to-end manner, and it can effectively exploit the information in both training data and image degradation model. Experiments on benchmark datasets and real-world data demonstrate that the proposed UDKE method could well predict complex unseen non-Gaussian blur kernels in inference, achieving significantly better BISR performance than state-of-the-art. The source code of UDKE is available at: https://github.com/natezhenghy/UDKE. | 翻訳日:2022-03-14 13:52:13 公開日:2022-03-10 |
# 磁気共鳴画像を用いたグリオーマの分子サブタイピングのための深部畳み込みニューラルネットワーク Deep Convolutional Neural Networks for Molecular Subtyping of Gliomas Using Magnetic Resonance Imaging ( http://arxiv.org/abs/2203.05571v1 ) ライセンス: Link先を確認 | Dong Wei, Yiming Li, Yinyan Wang, Tianyi Qian, and Yefeng Zheng | (参考訳) グリオーマの分子サブタイプに関する知識は、調整された治療に有用な情報を提供する。
本研究は,2016年に世界保健機関(WHO)が発表した新しい分類法に基づき,放射線画像データを用いた非侵襲性グリオーマに対するディープ畳み込みニューラルネットワーク(DCNN)の使用について検討することを目的とした。
方法: 階層的分類パラダイムに基づく5つのグリオーマサブタイプの予測のためにdcnnモデルを開発した。
このモデルでは、T1重み付き、T1重み付き、コントラスト強調付き、T2重み付き画像を含む、トリモーダルMRIデータの2.5次元入力を処理するために、3つの並列、重み共有、ディープ残差学習ネットワークを使用した。
現像患者1,016名を対象に, 開発したDCNNモデルの評価を行った。
受信機動作特性解析から,曲線下領域(AUC)を用いて予測性能を評価した。
比較のために,放射能に基づくアプローチの性能評価を行った。
結果: 階層分類パラダイムにおける4つの分類課題に対するDCNNモデルのAUCは, それぞれ0.89, 0.89, 0.85, 0.66であり, 放射能アプローチでは0.85, 0.75, 0.67, 0.59であった。
結論: 開発したDCNNモデルでは, 十分な非平衡トレーニングデータから, グリオーマサブタイプを有望な性能で予測できることがわかった。 Knowledge of molecular subtypes of gliomas can provide valuable information for tailored therapies. This study aimed to investigate the use of deep convolutional neural networks (DCNNs) for noninvasive glioma subtyping with radiological imaging data according to the new taxonomy announced by the World Health Organization in 2016. Methods: A DCNN model was developed for the prediction of the five glioma subtypes based on a hierarchical classification paradigm. This model used three parallel, weight-sharing, deep residual learning networks to process 2.5-dimensional input of trimodal MRI data, including T1-weighted, T1-weighted with contrast enhancement, and T2-weighted images. A data set comprising 1,016 real patients was collected for evaluation of the developed DCNN model. The predictive performance was evaluated via the area under the curve (AUC) from the receiver operating characteristic analysis. For comparison, the performance of a radiomics-based approach was also evaluated. Results: The AUCs of the DCNN model for the four classification tasks in the hierarchical classification paradigm were 0.89, 0.89, 0.85, and 0.66, respectively, as compared to 0.85, 0.75, 0.67, and 0.59 of the radiomics approach. Conclusion: The results showed that the developed DCNN model can predict glioma subtypes with promising performance, given sufficient, non-ill-balanced training data. | 翻訳日:2022-03-14 13:51:51 公開日:2022-03-10 |
# 医用画像分割のためのオンザフライテスト時間適応 On-the-Fly Test-time Adaptation for Medical Image Segmentation ( http://arxiv.org/abs/2203.05574v1 ) ライセンス: Link先を確認 | Jeya Maria Jose Valanarasu, Pengfei Guo, Vibashan VS, and Vishal M. Patel | (参考訳) 医学的イメージングのためのディープラーニングベースのソリューションにおける大きな問題の1つは、モデルがトレーニングされたものとは異なるデータディストリビューション上でテストされた場合、パフォーマンスが低下することである。
テスト時のデータ分散にソースモデルを適用することは、データシフト問題の効率的な解決策である。
以前の手法では、エントロピー最小化や正規化といった手法を用いて、モデルをターゲットの分布に適応させることでこれを解決する。
これらの方法では、完全なテストデータ分布に対する教師なし損失を使用して、バックプロパゲーションによってモデルが更新される。
実際の臨床環境では、モデルがオンザフライで新しいテストイメージに適応し、プライバシの懸念とデプロイ時のコンピューティングリソースの不足のために推論中のモデル更新を避ける方がより合理的です。
この目的のために、ゼロショットでエピソディックなOn-the-Fly Adaptationを新たに提案する(つまり、モデルは一度に1つの画像に適合し、テスト期間中にバックプロパゲーションを行わない)。
そこで本研究では,各畳み込みブロックに適応型バッチ正規化層を設けたadaptive unetという新しいフレームワークを提案する。
ドメインコードは、医療画像の大きなコーパスで訓練された訓練済みエンコーダを用いて生成される。
テスト中のモデルは、新しいテストイメージだけを取り込んで、テストデータに従ってソースモデルの特徴を適合させるためにドメインコードを生成する。
従来のテスト時間適応法よりも優れた性能が得られる2次元および3次元データ分散シフトの性能を検証した。
コードはhttps://github.com/jeya-maria-jose/On-The-Fly-Adaptationで入手できる。 One major problem in deep learning-based solutions for medical imaging is the drop in performance when a model is tested on a data distribution different from the one that it is trained on. Adapting the source model to target data distribution at test-time is an efficient solution for the data-shift problem. Previous methods solve this by adapting the model to target distribution by using techniques like entropy minimization or regularization. In these methods, the models are still updated by back-propagation using an unsupervised loss on complete test data distribution. In real-world clinical settings, it makes more sense to adapt a model to a new test image on-the-fly and avoid model update during inference due to privacy concerns and lack of computing resource at deployment. To this end, we propose a new setting - On-the-Fly Adaptation which is zero-shot and episodic (i.e., the model is adapted to a single image at a time and also does not perform any back-propagation during test-time). To achieve this, we propose a new framework called Adaptive UNet where each convolutional block is equipped with an adaptive batch normalization layer to adapt the features with respect to a domain code. The domain code is generated using a pre-trained encoder trained on a large corpus of medical images. During test-time, the model takes in just the new test image and generates a domain code to adapt the features of source model according to the test data. We validate the performance on both 2D and 3D data distribution shifts where we get a better performance compared to previous test-time adaptation methods. Code is available at https://github.com/jeya-maria-jose/On-The-Fly-Adaptation | 翻訳日:2022-03-14 13:51:26 公開日:2022-03-10 |
# 移動地エージェントの街路・サテライト画像の地域化 City-wide Street-to-Satellite Image Geolocalization of a Mobile Ground Agent ( http://arxiv.org/abs/2203.05612v1 ) ライセンス: Link先を確認 | Lena M. Downes, Dong-Ki Kim, Ted J. Steiner and Jonathan P. How | (参考訳) クロスビュー画像のジオローカライゼーションは、GPSを必要とせずに、局地画像とオーバーヘッド衛星画像とをマッチングすることにより、エージェントのグローバルな位置を推定する。
地上画像と正しい衛星画像とを確実に一致させることは、画像に重要な視点差があるため困難である。
既存の研究は、小さな領域の制約されたシナリオで局所化を実証しているが、より大規模なローカライゼーションは示していない。
我々のアプローチはワイド・エリア・ジオローカライゼーション (WAG) と呼ばれ、ニューラルネットワークと粒子フィルタを組み合わせることで、GPSを付加した環境で移動するエージェントのグローバルな位置推定を達成し、都市域への効率よくスケーリングする。
WAGは、シームズネットワークのトリノミカルロス関数を導入し、非中心画像対を頑健にマッチングし、探索領域を粗い離散化することで、より小さな衛星画像データベースを作成することができる。
また, 局所化精度と収束性を改善するため, 粒子フィルタ重み付け法を改良した。
WAGのネットワークトレーニングと粒子フィルタ重み付けは,20mのオーダーで都市規模の位置推定精度を達成し,ベースライントレーニングと重み付けのアプローチと比較して98%の削減を実現している。
小規模のテスト領域に適用すると、WAGは文献の最先端ベースラインと比較して最終位置推定誤差を64%削減する。
WAGの検索空間の離散化はストレージと処理の要求を著しく削減する。 Cross-view image geolocalization provides an estimate of an agent's global position by matching a local ground image to an overhead satellite image without the need for GPS. It is challenging to reliably match a ground image to the correct satellite image since the images have significant viewpoint differences. Existing works have demonstrated localization in constrained scenarios over small areas but have not demonstrated wider-scale localization. Our approach, called Wide-Area Geolocalization (WAG), combines a neural network with a particle filter to achieve global position estimates for agents moving in GPS-denied environments, scaling efficiently to city-scale regions. WAG introduces a trinomial loss function for a Siamese network to robustly match non-centered image pairs and thus enables the generation of a smaller satellite image database by coarsely discretizing the search area. A modified particle filter weighting scheme is also presented to improve localization accuracy and convergence. Taken together, WAG's network training and particle filter weighting approach achieves city-scale position estimation accuracies on the order of 20 meters, a 98% reduction compared to a baseline training and weighting approach. Applied to a smaller-scale testing area, WAG reduces the final position estimation error by 64% compared to a state-of-the-art baseline from the literature. WAG's search space discretization additionally significantly reduces storage and processing requirements. | 翻訳日:2022-03-14 13:50:56 公開日:2022-03-10 |
# 高定義, 過度, 水中マッピング High Definition, Inexpensive, Underwater Mapping ( http://arxiv.org/abs/2203.05640v1 ) ライセンス: Link先を確認 | Bharat Joshi, Marios Xanthidis, Sharmin Rahman, Ioannis Rekleitis | (参考訳) 本稿では,安価センサを用いた水中スラムの完全な枠組みを提案する。
近年、水中領域の困難な条件下でも、アクションカメラの撮像技術は驚くべき成果を上げている。
GoPro 9カメラは、単一のmp4ファイルにエンコードされた慣性計測ユニット(IMU)データストリームと同期して高精細ビデオを提供する。
視覚慣性SLAMフレームワークは、各ループ閉鎖後のマップを調整するために拡張される。
サウスカロライナ海岸の人工難破船やフロリダ州の洞窟や洞窟で収集されたデータは、様々な条件下で提案されたアプローチの堅牢性を示している。 In this paper we present a complete framework for Underwater SLAM utilizing a single inexpensive sensor. Over the recent years, imaging technology of action cameras is producing stunning results even under the challenging conditions of the underwater domain. The GoPro 9 camera provides high definition video in synchronization with an Inertial Measurement Unit (IMU) data stream encoded in a single mp4 file. The visual inertial SLAM framework is augmented to adjust the map after each loop closure. Data collected at an artificial wreck of the coast of South Carolina and in caverns and caves in Florida demonstrate the robustness of the proposed approach in a variety of conditions. | 翻訳日:2022-03-14 13:50:30 公開日:2022-03-10 |
# SUPERNOVA:リスクベーステストと機械学習を用いたAAAゲームにおけるテスト選択と欠陥防止の自動化 SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning ( http://arxiv.org/abs/2203.05566v1 ) ライセンス: Link先を確認 | Alexander Senchenko, Jordan Patterson, Hamman Samuel, Dan Isper | (参考訳) 従来の手法がソフトウェアシステムの成長とともにスケールできないため、ビデオゲームのテストはますます難しくなっている。
手動テストは非常に労働集約的なプロセスなので、すぐにコスト禁止になります。
自動テストにスクリプトを使用するのは手頃な価格だが、非決定的な環境ではスクリプトが有効ではない。
現代のゲームの複雑さ、スコープ、プレイヤーの期待は、品質管理が生産コストと納入リスクの大きな部分を占めるように急速に増大している。
このリスクを低減し、生産を実現することは、現在業界にとって大きな課題です。
生産コストを前後的に現実的なものにするため、テストやデータ分析の自動化と並行して、予防的な品質保証戦略に重点を置いています。
本稿では,自動ハブとして機能しながら,テスト選択と欠陥防止を行うシステムであるSUPERNOVA(Selection of Testing and Universal defect Prevention in external Repositories for Novel Objective Verification of Software Anomalies)を提案する。
データ分析機能と機械学習機能を統合することで、SUPERNOVAは品質保証テスタのバグ発見と欠陥の低減を支援し、プロダクションサイクルの安定性を改善し、テストコストをコントロールできる。
この直接的な影響は、これらのテスト選択最適化を使用して出荷された未公開のスポーツゲームタイトルのテスト時間を55%以上削減することが観察されている。
さらに、半教師付き機械学習モデルによって生成されたリスクスコアを用いて、71%の精度で検出でき、77%がバグを誘発する変更リストの確率を思い出すことができ、この推論の詳細な説明を開発者に提供できる。
これらの取り組みはワークフローを改善し、開発中のゲームタイトルに必要なテスト時間を削減する。 Testing video games is an increasingly difficult task as traditional methods fail to scale with growing software systems. Manual testing is a very labor-intensive process, and therefore quickly becomes cost prohibitive. Using scripts for automated testing is affordable, however scripts are ineffective in non-deterministic environments, and knowing when to run each test is another problem altogether. The modern game's complexity, scope, and player expectations are rapidly increasing where quality control is a big portion of the production cost and delivery risk. Reducing this risk and making production happen is a big challenge for the industry currently. To keep production costs realistic up-to and after release, we are focusing on preventive quality assurance tactics alongside testing and data analysis automation. We present SUPERNOVA (Selection of tests and Universal defect Prevention in External Repositories for Novel Objective Verification of software Anomalies), a system responsible for test selection and defect prevention while also functioning as an automation hub. By integrating data analysis functionality with machine and deep learning capability, SUPERNOVA assists quality assurance testers in finding bugs and developers in reducing defects, which improves stability during the production cycle and keeps testing costs under control. The direct impact of this has been observed to be a reduction in 55% or more testing hours for an undisclosed sports game title that has shipped, which was using these test selection optimizations. Furthermore, using risk scores generated by a semi-supervised machine learning model, we are able to detect with 71% precision and 77% recall the probability of a change-list being bug inducing, and provide a detailed breakdown of this inference to developers. These efforts improve workflow and reduce testing hours required on game titles in development. | 翻訳日:2022-03-14 13:46:57 公開日:2022-03-10 |
# 多路数分割最適化のための線形時間局所最適アルゴリズム A Linearithmic Time Locally Optimal Algorithm for the Multiway Number Partition Optimization ( http://arxiv.org/abs/2203.05618v1 ) ライセンス: Link先を確認 | Kaan Gokcesu, Hakan Gokcesu | (参考訳) 決定,学習,最適化の文献に無数の応用があるマルチウェイ数分割最適化の問題について検討する。
もともとのマルチウェイ分割問題はnp-hardであり、指数関数的時間複雑性アルゴリズムを必要とするが、我々はより簡単な最適化問題を定式化している。
このような局所最適解を生成できる線形時間複雑性$o(n\log n)$アルゴリズムを提案する。
我々の手法は入力に対して堅牢であり、正の入力も整数の入力も不要である。 We study the problem of multiway number partition optimization, which has a myriad of applications in the decision, learning and optimization literature. Even though the original multiway partitioning problem is NP-hard and requires exponential time complexity algorithms; we formulate an easier optimization problem, where our goal is to find a solution that is locally optimal. We propose a linearithmic time complexity $O(N\log N)$ algorithm that can produce such a locally optimal solution. Our method is robust against the input and requires neither positive nor integer inputs. | 翻訳日:2022-03-14 13:42:49 公開日:2022-03-10 |
# PETR:多視点3次元物体検出のための位置埋め込み変換 PETR: Position Embedding Transformation for Multi-View 3D Object Detection ( http://arxiv.org/abs/2203.05625v1 ) ライセンス: Link先を確認 | Yingfei Liu, Tiancai Wang, Xiangyu Zhang, Jian Sun | (参考訳) 本稿では,多視点3次元物体検出のための位置埋め込み変換(PETR)を開発する。
PETRは3D座標の位置情報を画像特徴にエンコードし、3D位置認識特徴を生成する。
オブジェクトクエリは、3D位置認識機能を認識し、エンドツーエンドのオブジェクト検出を実行する。
PETRは標準的なnuScenesデータセット上で最先端のパフォーマンス(50.4% NDSと44.1% mAP)を達成し、ベンチマークで1位にランクインした。
将来の研究のベースラインとしてシンプルで強力な役割を果たすことができる。 In this paper, we develop position embedding transformation (PETR) for multi-view 3D object detection. PETR encodes the position information of 3D coordinates into image features, producing the 3D position-aware features. Object query can perceive the 3D position-aware features and perform end-to-end object detection. PETR achieves state-of-the-art performance (50.4% NDS and 44.1% mAP) on standard nuScenes dataset and ranks 1st place on the benchmark. It can serve as a simple yet strong baseline for future research. | 翻訳日:2022-03-14 13:12:08 公開日:2022-03-10 |
# LiDAR3次元物体検出のための点密度対応ボクセル Point Density-Aware Voxels for LiDAR 3D Object Detection ( http://arxiv.org/abs/2203.05662v1 ) ライセンス: Link先を確認 | Jordan S. K. Hu, Tianshu Kuai, Steven L. Waslander | (参考訳) LiDARは、自動運転における主要な3Dオブジェクト検出センサーの1つとなっている。
しかし、LiDARの発散点パターンは距離が大きくなると、離散化された体積特徴抽出に不適な一様サンプル点雲が生じる。
現在の方法では、酸素化点雲に依存するか、密度変化による有害な影響を緩和するために非効率な極端点サンプリングを用いるが、特徴としての点密度とLiDARセンサからの距離との予測可能な関係をほとんど無視する。
提案手法であるポイント密度認識Voxel Network (PDV) は,これらの点密度の変動を考慮した2段階のLiDARオブジェクト検出アーキテクチャである。
pdvは3dスパース畳み込みバックボーンからvoxel点センタロイドを介してvoxel機能を効率的にローカライズする。
空間的局所化されたボクセル特徴は、カーネル密度推定(KDE)と点密度位置符号化による自己アテンションを用いて密度対応のRoIグリッドプーリングモジュールを介して集約される。
最後に、LDARの点密度を距離関係に利用して、最終的な境界ボックスの信頼性を向上する。
PDVはWaymo Open Datasetのすべての最先端メソッドを上回り、KITTIデータセット上での競合的な結果を達成する。
PDVのコードリリースはhttps://github.com/TRAILab/PDVで公開しています。 LiDAR has become one of the primary 3D object detection sensors in autonomous driving. However, LiDAR's diverging point pattern with increasing distance results in a non-uniform sampled point cloud ill-suited to discretized volumetric feature extraction. Current methods either rely on voxelized point clouds or use inefficient farthest point sampling to mitigate detrimental effects caused by density variation but largely ignore point density as a feature and its predictable relationship with distance from the LiDAR sensor. Our proposed solution, Point Density-Aware Voxel network (PDV), is an end-to-end two stage LiDAR 3D object detection architecture that is designed to account for these point density variations. PDV efficiently localizes voxel features from the 3D sparse convolution backbone through voxel point centroids. The spatially localized voxel features are then aggregated through a density-aware RoI grid pooling module using kernel density estimation (KDE) and self-attention with point density positional encoding. Finally, we exploit LiDAR's point density to distance relationship to refine our final bounding box confidences. PDV outperforms all state-of-the-art methods on the Waymo Open Dataset and achieves competitive results on the KITTI dataset. We provide a code release for PDV which is available at https://github.com/TRAILab/PDV. | 翻訳日:2022-03-14 13:11:59 公開日:2022-03-10 |
# ヒューマン・オブジェクト間インタラクション認識における見過ごされた分類器 The Overlooked Classifier in Human-Object Interaction Recognition ( http://arxiv.org/abs/2203.05676v1 ) ライセンス: Link先を確認 | Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Lin Liang, Jenq-Neng Hwang, Zicheng Liu | (参考訳) ヒューマン・オブジェクト・インタラクション(HOI)の認識は,(1)クラス間の大きな不均衡,(2)画像ごとに複数のラベルを必要とする,という2つの要因により困難である。
本稿では,この2つの課題を,バックボーンアーキテクチャを未修正で分類器を改善することで効果的に解決できることを示す。
まず,hoisの言語埋め込みによる重み付けを初期化することにより,クラス間の意味相関を分類ヘッドに符号化する。
その結果、特に少数ショットのサブセットでは、パフォーマンスが大幅に向上する。
第2に,LSE-Sign という新たな損失を提案し,長い尾を持つデータセット上でのマルチラベル学習を強化する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
さらに, 対象物検出装置に接続することで, 分類モデルをインスタンスレベルのHOI検出に転送する。
我々は細かな調整を加えることなく最先端を達成する。 Human-Object Interaction (HOI) recognition is challenging due to two factors: (1) significant imbalance across classes and (2) requiring multiple labels per image. This paper shows that these two challenges can be effectively addressed by improving the classifier with the backbone architecture untouched. Firstly, we encode the semantic correlation among classes into the classification head by initializing the weights with language embeddings of HOIs. As a result, the performance is boosted significantly, especially for the few-shot subset. Secondly, we propose a new loss named LSE-Sign to enhance multi-label learning on a long-tailed dataset. Our simple yet effective method enables detection-free HOI classification, outperforming the state-of-the-arts that require object detection and human pose by a clear margin. Moreover, we transfer the classification model to instance-level HOI detection by connecting it with an off-the-shelf object detector. We achieve state-of-the-art without additional fine-tuning. | 翻訳日:2022-03-14 13:11:36 公開日:2022-03-10 |
# 医用画像分類のための深層マルチモーダル指導 Deep Multimodal Guidance for Medical Image Classification ( http://arxiv.org/abs/2203.05683v1 ) ライセンス: Link先を確認 | Mayur Mallya and Ghassan Hamarneh | (参考訳) 医用画像は現代医学における治療と診断の基礎である。
しかし、特定の脳機能障害に対する画像モダリティの選択は、通常、特定のモダリティ(例えば、短い待ち時間、低コスト、高速な取得、放射線/侵襲性の低下)と臨床タスク(例えば、診断精度、治療計画の有効性、ガイダンス)の期待性能の間のトレードオフを伴う。
本研究は,実現可能でないが優れた(上位)モダリティから学んだ知識を応用し,より実現可能であり,実行不能な(間接的な)モダリティの利用を誘導し,パフォーマンス向上に向けてそれを進めることを目的とする。
深層学習のイメージベース診断への応用に焦点をあてる。
我々は,優劣モダリティのみを消費するモデルを訓練する際に,優劣モダリティから学習した潜在表現を活用する軽量誘導モデルを開発した。
臨床および皮膚内視鏡画像からのマルチタスク皮膚病変の分類と、MRI(Multi-sequence MRI)および病理像からの脳腫瘍の分類の2つの臨床応用の文脈において、本手法の利点を検討する。
いずれのシナリオにおいても,下位モダリティの診断性能は,優れたモダリティを必要とせずに向上することが示された。
さらに,脳腫瘍の分類では,上様相を訓練したモデルよりも優れており,推論中に両方の様相を用いたモデルと同等の結果が得られた。 Medical imaging is a cornerstone of therapy and diagnosis in modern medicine. However, the choice of imaging modality for a particular theranostic task typically involves trade-offs between the feasibility of using a particular modality (e.g., short wait times, low cost, fast acquisition, reduced radiation/invasiveness) and the expected performance on a clinical task (e.g., diagnostic accuracy, efficacy of treatment planning and guidance). In this work, we aim to apply the knowledge learned from the less feasible but better-performing (superior) modality to guide the utilization of the more-feasible yet under-performing (inferior) modality and steer it towards improved performance. We focus on the application of deep learning for image-based diagnosis. We develop a light-weight guidance model that leverages the latent representation learned from the superior modality, when training a model that consumes only the inferior modality. We examine the advantages of our method in the context of two clinical applications: multi-task skin lesion classification from clinical and dermoscopic images and brain tumor classification from multi-sequence magnetic resonance imaging (MRI) and histopathology images. For both these scenarios we show a boost in diagnostic performance of the inferior modality without requiring the superior modality. Furthermore, in the case of brain tumor classification, our method outperforms the model trained on the superior modality while producing comparable results to the model that uses both modalities during inference. | 翻訳日:2022-03-14 13:09:03 公開日:2022-03-10 |
# PC-SwinMorph:unsupervised Medical Image Registration and Segmentationのためのパッチ表現 PC-SwinMorph: Patch Representation for Unsupervised Medical Image Registration and Segmentation ( http://arxiv.org/abs/2203.05684v1 ) ライセンス: Link先を確認 | Lihao Liu, Zhening Huang, Pietro Li\`o, Carola-Bibiane Sch\"onlieb, and Angelica I. Aviles-Rivero | (参考訳) 医療画像の登録とセグメンテーションは、いくつかの臨床手順において重要な課題である。
これらのタスクのマニュアル実現には時間がかかり、品質は医師の専門知識のレベルに大きく依存する。
その手間を省くために、ほとんどのソリューションが教師付き技術である自動ツールが開発されている。
しかし、医学領域では、表現力に富んだ基礎的真理を持つという強い仮定は現実的とはほど遠い。
この課題を克服するため、教師なしの技術が研究されている。
しかし、それらはまだ性能が限られており、妥当な結果が得られない。
そこで本研究では,PC-SwinMorphと呼ぶ,画像登録とセグメント化のための統一的アントラクショナルフレームワークを提案する。
当社のフレームワークの中核となるのは2つのパッチベースの戦略です。
まず,局所性条件とよりリッチな特徴表現を強制するパッチベースのコントラスト戦略を導入する。
第2に、3Dウィンドウ/シフトウィンドウマルチヘッド自己保持モジュールをパッチステッチ戦略として利用し、パッチ分割からアーティファクトを除去する。
数値的および視覚的な結果の集合を通して、我々の技術が現在最先端の教師なし技術より優れていることを示す。 Medical image registration and segmentation are critical tasks for several clinical procedures. Manual realisation of those tasks is time-consuming and the quality is highly dependent on the level of expertise of the physician. To mitigate that laborious task, automatic tools have been developed where the majority of solutions are supervised techniques. However, in medical domain, the strong assumption of having a well-representative ground truth is far from being realistic. To overcome this challenge, unsupervised techniques have been investigated. However, they are still limited in performance and they fail to produce plausible results. In this work, we propose a novel unified unsupervised framework for image registration and segmentation that we called PC-SwinMorph. The core of our framework is two patch-based strategies, where we demonstrate that patch representation is key for performance gain. We first introduce a patch-based contrastive strategy that enforces locality conditions and richer feature representation. Secondly, we utilise a 3D window/shifted-window multi-head self-attention module as a patch stitching strategy to eliminate artifacts from the patch splitting. We demonstrate, through a set of numerical and visual results, that our technique outperforms current state-of-the-art unsupervised techniques. | 翻訳日:2022-03-14 13:08:36 公開日:2022-03-10 |
# 交通信号制御のためのランダムアンサンブル強化学習 Random Ensemble Reinforcement Learning for Traffic Signal Control ( http://arxiv.org/abs/2203.05961v1 ) ライセンス: Link先を確認 | Ruijie Qi, Jianbin Huang, He Li, Qinglin Tan, Longji Huang and Jiangtao Cui | (参考訳) 交通信号の制御は、インテリジェント輸送の構築において重要な部分である。
効率的な交通信号制御戦略は、交通渋滞を低減し、都市交通効率を向上し、人々の生活を促進する。
既存の信号制御のための強化学習アプローチは主に、独立したニューラルネットワークによる学習に焦点を当てている。
このような独立したニューラルネットワークは、トレーニング結果の局所的最適化に陥る可能性がある。
さらに悪いことに、収集されたデータは一度しかサンプリングできないため、データ利用率が低い。
そこで我々はRandom Ensemble Double DQN Light (RELight) モデルを提案する。
強化学習により交通信号制御戦略を動的に学習し、ランダムアンサンブル学習を組み合わせることで、最適戦略に到達するために局所最適に陥ることを避けることができる。
さらに,データ再利用量を制御するために更新データ(UTD)比を導入し,低利用率の問題を改善する。
さらに,合成データと実世界のデータについて十分な実験を行い,提案手法が既存の最適手法よりも優れた交通信号制御効果を達成できることを実証した。 Traffic signal control is a significant part of the construction of intelligent transportation. An efficient traffic signal control strategy can reduce traffic congestion, improve urban road traffic efficiency and facilitate people's lives. Existing reinforcement learning approaches for traffic signal control mainly focus on learning through a separate neural network. Such an independent neural network may fall into the local optimum of the training results. Worse more, the collected data can only be sampled once, so the data utilization rate is low. Therefore, we propose the Random Ensemble Double DQN Light (RELight) model. It can dynamically learn traffic signal control strategies through reinforcement learning and combine random ensemble learning to avoid falling into the local optimum to reach the optimal strategy. Moreover, we introduce the Update-To-Data (UTD) ratio to control the number of data reuses to improve the problem of low data utilization. In addition, we have conducted sufficient experiments on synthetic data and real-world data to prove that our proposed method can achieve better traffic signal control effects than the existing optimal methods. | 翻訳日:2022-03-14 12:26:09 公開日:2022-03-10 |
# 未知, 正規埋め込み部分多様体上の動物運動推定のためのクープマン法 Koopman Methods for Estimation of Animal Motions over Unknown, Regularly Embedded Submanifolds ( http://arxiv.org/abs/2203.05646v1 ) ライセンス: Link先を確認 | Nathan Powell, Bowei Liu, and Andrew J. Kurdila | (参考訳) 本稿では,ある種の動物運動モデルに対する前方運動学マップのデータ依存近似を提案する。
運動は、高次元ユークリッド空間 $x:=\mathbb{r}^d$ に定期的に埋め込まれる低次元で未知な構成多様体 $q$ 上で支持されていると仮定される。
本稿では、未知の構成部分多様体$Q$から$n$次元ユークリッド空間$Y:=\mathbb{R}^n$までの前方運動学を推定する手法を提案する。
既知の再生カーネルヒルベルト空間(RKHS)は、既知のカーネル関数の観点から、周囲空間$X$上で定義され、周囲空間$X$で定義された既知のカーネルを用いて計算が行われる。
推定値は、既知のカーネルで定義されたKoopman演算子のデータ依存近似を用いて$X$で構成される。
しかし、近似の収束率は未知多様体 $q$ に対する制限空間で研究されている。
収束の強い速度は未知の構成多様体におけるサンプルの充填距離の観点から導き出され、新しい正則性の結果がクープマン作用素に対して成立する。
さらに, 拡張動的モード分解(EDMD)法により生成された推定値に対して, 収束の導出率を適用することができることを示す。
本研究では、シミュレーションデータと、モーションキャプチャ実験で収集したサンプルの特徴について述べる。 This paper introduces a data-dependent approximation of the forward kinematics map for certain types of animal motion models. It is assumed that motions are supported on a low-dimensional, unknown configuration manifold $Q$ that is regularly embedded in high dimensional Euclidean space $X:=\mathbb{R}^d$. This paper introduces a method to estimate forward kinematics from the unknown configuration submanifold $Q$ to an $n$-dimensional Euclidean space $Y:=\mathbb{R}^n$ of observations. A known reproducing kernel Hilbert space (RKHS) is defined over the ambient space $X$ in terms of a known kernel function, and computations are performed using the known kernel defined on the ambient space $X$. Estimates are constructed using a certain data-dependent approximation of the Koopman operator defined in terms of the known kernel on $X$. However, the rate of convergence of approximations is studied in the space of restrictions to the unknown manifold $Q$. Strong rates of convergence are derived in terms of the fill distance of samples in the unknown configuration manifold, provided that a novel regularity result holds for the Koopman operator. Additionally, we show that the derived rates of convergence can be applied in some cases to estimates generated by the extended dynamic mode decomposition (EDMD) method. We illustrate characteristics of the estimates for simulated data as well as samples collected during motion capture experiments. | 翻訳日:2022-03-14 12:24:56 公開日:2022-03-10 |
# 人間ライクなナビゲーション行動 : 統計的評価枠組み Human-Like Navigation Behavior: A Statistical Evaluation Framework ( http://arxiv.org/abs/2203.05965v1 ) ライセンス: Link先を確認 | Ian Colbert, Mehdi Saeedi | (参考訳) 深層強化学習の最近の進歩は、複雑な知的行動が可能な高度に熟練した人工エージェントの印象的な表示をもたらした。
ビデオゲームでは、これらの人工エージェントは、人間のプレイヤーの体験を向上させるために設計されたnpc(non-playable character)としてますます展開される。
しかしながら、npcの説得力のある人間的な行動はビデオゲームへの関与を増加させることが示されているが、人工エージェントの行動の信頼性は、与えられたタスクの熟練度のみによって測定されることが多い。
近年の研究は、熟練だけでは人間のような行動を見分けるのに十分でないことを示唆している。
そこで我々は,非パラメトリックな2つのサンプル仮説テストを構築し,人工エージェントの行動とプレイヤーの行動を比較した。
結果として得られる$p$-valueは、匿名の人間による人間的行動の判断に合致するだけでなく、類似性の尺度として使用できることを示した。 Recent advancements in deep reinforcement learning have brought forth an impressive display of highly skilled artificial agents capable of complex intelligent behavior. In video games, these artificial agents are increasingly deployed as non-playable characters (NPCs) designed to enhance the experience of human players. However, while it has been shown that the convincing human-like behavior of NPCs leads to increased engagement in video games, the believability of an artificial agent's behavior is most often measured solely by its proficiency at a given task. Recent work has hinted that proficiency alone is not sufficient to discern human-like behavior. Motivated by this, we build a non-parametric two-sample hypothesis test designed to compare the behaviors of artificial agents to those of human players. We show that the resulting $p$-value not only aligns with anonymous human judgment of human-like behavior, but also that it can be used as a measure of similarity. | 翻訳日:2022-03-14 12:24:03 公開日:2022-03-10 |
# 不確実性に基づく半教師付きセグメンテーションにおけるラベル表現の活用 Leveraging Labeling Representations in Uncertainty-based Semi-supervised Segmentation ( http://arxiv.org/abs/2203.05682v1 ) ライセンス: Link先を確認 | Sukesh Adiga V, Jose Dolz, Herve Lombaert | (参考訳) 半教師付きセグメンテーションは、ラベルなしデータを少量のラベル付きデータで活用することで、アノテーションの不足に対処する。
教師が生徒のセグメンテーションを指導する教師と学生のネットワークをよく利用する一貫性トレーニングによって、ラベルのないデータを活用する方法が顕著である。
ラベルなしデータの予測は信頼できないため、有意義で信頼性の高い予測から徐々に学ぶための不確実性認識手法が提案されている。
しかし、不確実性推定は、トレーニングの各ステップで計算される必要があるモデル予測からの複数の推論に依存する。
本研究では,セグメンテーションマスクのラベル付け表現を利用して画素レベルの不確実性を推定する手法を提案する。
一方、ラベル表現は利用可能なセグメンテーションマスクを表現するために学習される。
学習ラベリング表現は、セグメンテーションの予測を妥当なマスクの集合にマッピングするために使用される。
このような再構成されたセグメンテーションマスクは、セグメンテーションネットワークを導く画素レベルの不確かさを推定するのに役立つ。
提案手法はラベル表現から1つの推論で不確かさを推定し,全体の計算量を削減する。
我々は,MRIにおける左心房の3次元セグメンテーションについて評価し,ラベル付け表現からの不確実性評価により,最先端法よりもセグメンテーション精度が向上することを示した。 Semi-supervised segmentation tackles the scarcity of annotations by leveraging unlabeled data with a small amount of labeled data. A prominent way to utilize the unlabeled data is by consistency training which commonly uses a teacher-student network, where a teacher guides a student segmentation. The predictions of unlabeled data are not reliable, therefore, uncertainty-aware methods have been proposed to gradually learn from meaningful and reliable predictions. Uncertainty estimation, however, relies on multiple inferences from model predictions that need to be computed for each training step, which is computationally expensive. This work proposes a novel method to estimate the pixel-level uncertainty by leveraging the labeling representation of segmentation masks. On the one hand, a labeling representation is learnt to represent the available segmentation masks. The learnt labeling representation is used to map the prediction of the segmentation into a set of plausible masks. Such a reconstructed segmentation mask aids in estimating the pixel-level uncertainty guiding the segmentation network. The proposed method estimates the uncertainty with a single inference from the labeling representation, thereby reducing the total computation. We evaluate our method on the 3D segmentation of left atrium in MRI, and we show that our uncertainty estimates from our labeling representation improve the segmentation accuracy over state-of-the-art methods. | 翻訳日:2022-03-14 12:23:49 公開日:2022-03-10 |
# Autofocusing+:磁気共鳴画像における雑音耐性運動補正 Autofocusing+: Noise-Resilient Motion Correction in Magnetic Resonance Imaging ( http://arxiv.org/abs/2203.05569v1 ) ライセンス: Link先を確認 | Ekaterina Kuzmina, Artem Razumov, Oleg Y. Rogov, Elfar Adalsteinsson, Jacob White, Dmitry V. Dylov | (参考訳) モーションアーティファクトによる画像劣化は、MRI(Magnetic Resonance Imaging)の微細な問題である。
本研究では,従来の最適化手法であるAutofocusingを強化するために,ニューラルネットワークに基づく正規化項を提案する。
最適化に基づくルーチンは、非現実的な復元のために盲行と深層学習に基づく事前罰を反復的に実行し、収束を加速する。
本手法は合成および実雑音データを用いて3つの運動軌跡モデル上で検証する。
この方法は、ノイズや解剖学的構造の変化に対する耐性を証明し、最先端のデモーション法よりも優れている。 Image corruption by motion artifacts is an ingrained problem in Magnetic Resonance Imaging (MRI). In this work, we propose a neural network-based regularization term to enhance Autofocusing, a classic optimization-based method to remove motion artifacts. The method takes the best of both worlds: the optimization-based routine iteratively executes the blind demotion and deep learning-based prior penalizes for unrealistic restorations and speeds up the convergence. We validate the method on three models of motion trajectories, using synthetic and real noisy data. The method proves resilient to noise and anatomic structure variation, outperforming the state-of-the-art demotion methods. | 翻訳日:2022-03-14 12:20:43 公開日:2022-03-10 |
# NELA-GT-2021:ニュース記事における誤情報研究のための大規模マルチラベルニュースデータセット NELA-GT-2021: A Large Multi-Labelled News Dataset for The Study of Misinformation in News Articles ( http://arxiv.org/abs/2203.05659v1 ) ライセンス: Link先を確認 | Maur\'icio Gruppi, Benjamin D. Horne, Sibel Adal{\i} | (参考訳) 本稿では,NELA-GTデータセットNELA-GT-2021の4番目のインストールについて述べる。
データセットには、2021年1月1日から12月31日までの367のアウトレットからの1.8万記事が含まれている。
データセットの過去のリリースと同じように、NELA-GT-2021にはMedia Bias/Fact Checkのアウトレットレベルの検証ラベルと、収集されたニュース記事に埋め込まれたツイートが含まれている。
NELA-GT-2021データセットは、https://doi.org/10.7910/DVN/RBKVBMで見ることができる。 In this paper, we present the fourth installment of the NELA-GT datasets, NELA-GT-2021. The dataset contains 1.8M articles from 367 outlets between January 1st, 2021 and December 31st, 2021. Just as in past releases of the dataset, NELA-GT-2021 includes outlet-level veracity labels from Media Bias/Fact Check and tweets embedded in collected news articles. The NELA-GT-2021 dataset can be found at: https://doi.org/10.7910/DVN/RBKVBM | 翻訳日:2022-03-14 12:19:36 公開日:2022-03-10 |
# 翻訳品質の自動評価のためのBERTScoreの新しい計算手法 A new approach to calculating BERTScore for automatic assessment of translation quality ( http://arxiv.org/abs/2203.05598v1 ) ライセンス: Link先を確認 | A.A. Vetrov and E.A. Gorn | (参考訳) bertscoreメトリックの適用性について検討し, 英語における文レベルの翻訳品質評価 ->ロシア語方向について検討した。
実験は、事前訓練された多言語BERTと、一対の単言語BERTモデルを用いて行われた。
単言語埋め込みの調整にはアンカートークンに基づく直交変換が用いられた。
このような変換はミスマッチの防止に役立つことを実証し,多言語モデルの組込みよりも優れた結果が得られることを示した。
トークンマッチングプロセスを改善するために,すべての不完全なWorkPieceトークンを意味のある単語に結合し,対応するベクトルの簡易平均化とアンカートークンのみに基づくBERTScoreの計算を提案する。
このような修正により,モデル予測と推定値との相関性が向上した。
機械翻訳の評価に加えて, 数種類の人間翻訳も評価し, 本手法の問題点を列挙した。 The study of the applicability of the BERTScore metric was conducted to translation quality assessment at the sentence level for English -> Russian direction. Experiments were performed with a pre-trained multilingual BERT as well as with a pair of monolingual BERT models. To align the monolingual embeddings, an orthogonal transformation based on anchor tokens was used. It was demonstrated that such transformation helps to prevent mismatching issue and shown that this approach gives better results than using embeddings of the multilingual model. To improve the token matching process it is proposed to combine all incomplete WorkPiece tokens into meaningful words and use simple averaging of corresponding vectors and to calculate BERTScore based on anchor tokens only. Such modifications allowed us to achieve a better correlation of the model predictions with human estimates. In addition to evaluating machine translation, several versions of human translation were evaluated as well, the problems of this approach were listed. | 翻訳日:2022-03-14 11:54:09 公開日:2022-03-10 |
# 高速勾配符号法による顔認識認証システムの攻撃解析 Attack Analysis of Face Recognition Authentication Systems Using Fast Gradient Sign Method ( http://arxiv.org/abs/2203.05653v1 ) ライセンス: Link先を確認 | Arbena Musa, Kamer Vishi, Blerim Rexha | (参考訳) 生体認証手法は、保護されたリソースにアクセスするための最も安全なアプローチであると考えられている。
最近の機械学習技術による攻撃は、生体認証の重大な体系的再評価を要求する。
本稿では,生体認証のための顔認識を用いたファストグラデーションサイン法(fgsm)攻撃を解析・提示する。
機械学習技術は、モデルの訓練とテストに使われており、異なる人の顔の分類と識別が可能であり、攻撃の実行のターゲットとして使用される。
さらに,本手法を攻撃に適用することにより,FGSMの実装とモデルが持つ性能低下のレベルを分析する。
実験結果は,fgsmの適用効率を示すため,トレーニングとモデル攻撃の両面でパラメータの変更を行った。 Biometric authentication methods, representing the "something you are" scheme, are considered the most secure approach for gaining access to protected resources. Recent attacks using Machine Learning techniques demand a serious systematic reevaluation of biometric authentication. This paper analyzes and presents the Fast Gradient Sign Method (FGSM) attack using face recognition for biometric authentication. Machine Learning techniques have been used to train and test the model, which can classify and identify different people's faces and which will be used as a target for carrying out the attack. Furthermore, the case study will analyze the implementation of the FGSM and the level of performance reduction that the model will have by applying this method in attacking. The test results were performed with the change of parameters both in terms of training and attacking the model, thus showing the efficiency of applying the FGSM. | 翻訳日:2022-03-14 11:53:56 公開日:2022-03-10 |
# (参考訳) 子どものための人工知能とロボティクスにおける多様性と包括的ワークショップの試行 Piloting Diversity and Inclusion Workshops in Artificial Intelligence and Robotics for Children ( http://arxiv.org/abs/2203.03204v2 ) ライセンス: CC BY-SA 4.0 | Antonio Badillo-Perez, Donato Badillo-Perez, Diego Coyotzi-Molina, Dago Cruz, Rocio Montenegro, Leticia Vazquez and Miguel Xochicale | (参考訳) 本稿では,開発途上国における人工知能とロボット工学(air4children)の基礎の多様性と包括性を促進することを目的としたパイロットワークショップの予備研究について述べる。
資金不足と発展途上国でAIやロボティクスを教える専門職の不足を考えると、フリーのオープンソースハードウェアとソフトウェア、オープンな教育リソース、代替教育プログラムに基づくリソースを提供する。
とはいえ、この研究の貢献は、平均年齢7.64歳の14人の子どものジェンダーバランスの小さなサンプルに、子供向けのaiとロボティクスを教えることにおける多様性と包括性を促進する4つのレッスンのパイロットワークショップである。
参加者,インストラクター,コーディネーター,親は,途上国のワークショップに適切なリソースを持ち,今後の作業を行うというさまざまな課題を指摘して,パイロットワークショップに積極的に参加している。
この作品を再現するリソースはhttps://github.com/air4children/hri2022で入手できる。 In this paper, we present preliminary work from a pilot workshop that aimed to promote diversity and inclusion for fundamentals of Artificial Intelligence and Robotics for Children (air4children) in the context of developing countries. Considering the scarcity of funding and the little to none availability of specialised professionals to teach AI and robotics in developing countries, we present resources based on free open-source hardware and software, open educational resources, and alternative education programs. That said, the contribution of this work is the pilot workshop of four lessons that promote diversity and inclusion on teaching AI and Robotics for children to a small gender-balanced sample of 14 children of an average age of 7.64 years old. We conclude that participant, instructors, coordinators and parents engaged well in the pilot workshop noting the various challenges of having the right resources for the workshops in developing countries and posing future work. The resources to reproduce this work are available at https://github.com/air4children/hri2022. | 翻訳日:2022-03-12 04:41:53 公開日:2022-03-10 |
# (参考訳) 知識蒸留によるニューラルODEの改善 Improving Neural ODEs via Knowledge Distillation ( http://arxiv.org/abs/2203.05103v1 ) ライセンス: CC BY 4.0 | Haoyu Chu, Shikui Wei, Qiming Lu, Yao Zhao | (参考訳) ニューラル正規微分方程式 (Neural Ordinary Differential Equations) は、ニューラルネットワークによって指定された通常の微分方程式を用いて隠れた単位の連続的なダイナミクスを構築し、多くのタスクにおいて有望な結果を示す。
しかし、Neural ODEは画像認識タスクではまだうまく機能しない。
その理由は、Neural ODEでよく使われるワンホット符号化ベクトルが十分な教師付き情報を提供できないからである。
画像認識タスクに適合するより強力で堅牢なニューラルODEを構築するための知識蒸留に基づく新しいトレーニングを提案する。
特に,教師が教師に指導する学習プロセスにニューラルオデムの訓練をモデル化し,教師モデルとしてのresnetsを提案する。
実験の結果,CIFAR10では24%,SVHNでは5%の精度でニューラルODEの分類精度を向上できることがわかった。
また,ニューラルネットワークにおける知識蒸留と時間水平化の両面が,敵対例に対する堅牢性に及ぼす影響を定量的に検討した。
実験分析の結果、知識蒸留の導入と時間軸の増加は、敵の例に対する神経オデムのロバスト性を改善すると結論づけられた。 Neural Ordinary Differential Equations (Neural ODEs) construct the continuous dynamics of hidden units using ordinary differential equations specified by a neural network, demonstrating promising results on many tasks. However, Neural ODEs still do not perform well on image recognition tasks. The possible reason is that the one-hot encoding vector commonly used in Neural ODEs can not provide enough supervised information. We propose a new training based on knowledge distillation to construct more powerful and robust Neural ODEs fitting image recognition tasks. Specially, we model the training of Neural ODEs into a teacher-student learning process, in which we propose ResNets as the teacher model to provide richer supervised information. The experimental results show that the new training manner can improve the classification accuracy of Neural ODEs by 24% on CIFAR10 and 5% on SVHN. In addition, we also quantitatively discuss the effect of both knowledge distillation and time horizon in Neural ODEs on robustness against adversarial examples. The experimental analysis concludes that introducing the knowledge distillation and increasing the time horizon can improve the robustness of Neural ODEs against adversarial examples. | 翻訳日:2022-03-12 02:48:47 公開日:2022-03-10 |
# (参考訳) オープンドメイン質問応答のための数ショットプロンプトによるインターネット強化言語モデル Internet-augmented language models through few-shot prompting for open-domain question answering ( http://arxiv.org/abs/2203.05115v1 ) ライセンス: CC BY 4.0 | Angeliki Lazaridou, Elena Gribovskaya, Wojciech Stokowiec, Nikolai Grigorev | (参考訳) 本研究は,大規模言語モデルによって提供される特異な少数ショット機能を活用して,事実情報や最新情報を基盤として,それらの課題を克服することを目的とする。
半パラメトリック言語モデルによってモチベーションされ、外部から得られた証拠に基づいて決定を下す。我々は、広範囲かつ常に更新される知識ソースであるGoogle Searchを用いて、Webから返される情報に対して言語モデルを条件付けることを学ぶために、数発のプロンプトを使用する。
私たちのアプローチでは、微調整や追加パラメータの学習は含まないので、どんな言語モデルにも適用できます。
実際、ウェブ上で条件付けされた言語モデルは、オープンドメイン質問応答における類似またはそれ以上のモデルサイズを持つクローズドブックモデルの性能を上回ることが判明した。
最後に,複数の抽出されたエビデンスを用いて得られたモデルの推論時間計算を増大させ,複数の回答を生成し,さらに段階的に再評価することで,より小さな数発の言語モデルの性能を低下させる。
全体として、我々の研究結果は、最大のモデルへの競争を減速させ、より効率的なモデル利用方法を見つけることに注意を移すことが有益である可能性を示唆している。 In this work, we aim to capitalize on the unique few-shot capabilities offered by large-scale language models to overcome some of their challenges with respect to grounding to factual and up-to-date information. Motivated by semi-parametric language models, which ground their decisions in external retrieved evidence, we use few-shot prompting to learn to condition language models on information returned from the web using Google Search, a broad and constantly updated knowledge source. Our approach does not involve fine-tuning or learning additional parameters, thus making it applicable to any language model, offering like this a strong baseline. Indeed, we find that language models conditioned on the web surpass performance of closed-book models of similar, or even larger, model sizes in open-domain question answering. Finally, we find that increasing the inference-time compute of models, achieved via using multiple retrieved evidences to generate multiple answers followed by a reranking stage, alleviates generally decreased performance of smaller few-shot language models. All in all, our findings suggest that it might be beneficial to slow down the race towards the biggest model and instead shift the attention towards finding more effective ways to use models, including but not limited to better prompting or increasing inference-time compute. | 翻訳日:2022-03-12 02:38:35 公開日:2022-03-10 |
# (参考訳) 不確実性誘導自己クロス監督による半スーパービジョン意味セグメンテーション Semi-supervision semantic segmentation with uncertainty-guided self cross supervision ( http://arxiv.org/abs/2203.05118v1 ) ライセンス: CC0 1.0 | Yunyang Zhang, Zhiqiang Gong, Xiaohu Zheng, Xiaoyu Zhao, Wen Yao | (参考訳) 半教師付きセグメンテーションを実現する強力な方法として,無ラベル画像を用いた独立アンサンブルモデルに基づくクロス一貫性を学習する。
しかし、クロス監督によって生成された誤った擬似ラベル情報はトレーニングプロセスを混乱させ、セグメンテーションモデルの有効性に悪影響を及ぼす。
さらに、このような方法でのアンサンブルモデルのトレーニングプロセスは、計算資源のコストを乗じて、トレーニング効率を低下させる。
そこで本研究では,不確実性誘導型自己横断監視 (uscs) という新しい横断監視手法を提案する。
まず,マルチ入力マルチ出力(mimo)セグメンテーションモデルの設計を行い,複数の出力を共有モデルで生成し,その結果,出力に一貫性を課し,パラメータや計算コストを削減した。
一方,疑似ラベルの高信頼領域に着目し,自己クロス監督における誤った擬似ラベルの影響を緩和し,セグメンテーションモデルの性能を向上させるために,不確実性を指導情報として活用する。
実験の結果,提案手法はパラメータや計算に40.5%,49.1%のコストを節約しつつ,最先端の性能を実現することがわかった。 As a powerful way of realizing semi-supervised segmentation, the cross supervision method learns cross consistency based on independent ensemble models using abundant unlabeled images. However, the wrong pseudo labeling information generated by cross supervision would confuse the training process and negatively affect the effectiveness of the segmentation model. Besides, the training process of ensemble models in such methods also multiplies the cost of computation resources and decreases the training efficiency. To solve these problems, we propose a novel cross supervision method, namely uncertainty-guided self cross supervision (USCS). In addition to ensemble models, we first design a multi-input multi-output (MIMO) segmentation model which can generate multiple outputs with shared model and consequently impose consistency over the outputs, saving the cost on parameters and calculations. On the other hand, we employ uncertainty as guided information to encourage the model to focus on the high confident regions of pseudo labels and mitigate the effects of wrong pseudo labeling in self cross supervision, improving the performance of the segmentation model. Extensive experiments show that our method achieves state-of-the-art performance while saving 40.5% and 49.1% cost on parameters and calculations. | 翻訳日:2022-03-12 02:17:58 公開日:2022-03-10 |
# (参考訳) DEER:シーンテキストスポッティングのための検出不要なエンドツーエンド認識装置 DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting ( http://arxiv.org/abs/2203.05122v1 ) ライセンス: CC BY 4.0 | Seonghyeon Kim, Seung Shin, Yoonsik Kim, Han-Cheol Cho, Taeho Kil, Jaeheung Surh, Seunghyun Park, Bado Lee, Youngmin Baek | (参考訳) 最近のエンド・ツー・エンドのシーンテキストスポッターは任意のテキストインスタンスの認識において大きな改善を達成している。
テキストスポッティングの一般的なアプローチは、単一のテキストインスタンスに機能を制限するために関心プーリングまたはセグメンテーションマスクの領域を使用する。
しかし、検出が正確でない場合には、認識者が正しいシーケンスを復号することは困難である。
検出器だけでは単語境界を正確に決定することは困難であると考え,新しい検出非依存のエンドツーエンド認識器であるdeerを提案する。
提案手法は,検出された領域ではなく,各テキストインスタンスに対する単一の参照ポイントをブリッジすることで,検出と認識モジュール間の密接な依存関係を低減する。
提案手法により,デコーダは参照ポイントで示されるテキストを画像全体の特徴として認識することができる。
提案手法では,テキスト認識には1点のみが必要なため,任意の形状の検出器や多角形アノテーションを使わずにテキストスポッティングが可能となる。
実験の結果,本手法は正規および任意形状のテキストスポッティングベンチマークにおいて競合する結果が得られることがわかった。
さらなる分析により、DEERは検出エラーに対して堅牢であることが示された。
コードとデータセットは公開される予定だ。 Recent end-to-end scene text spotters have achieved great improvement in recognizing arbitrary-shaped text instances. Common approaches for text spotting use region of interest pooling or segmentation masks to restrict features to single text instances. However, this makes it hard for the recognizer to decode correct sequences when the detection is not accurate i.e. one or more characters are cropped out. Considering that it is hard to accurately decide word boundaries with only the detector, we propose a novel Detection-agnostic End-to-End Recognizer, DEER, framework. The proposed method reduces the tight dependency between detection and recognition modules by bridging them with a single reference point for each text instance, instead of using detected regions. The proposed method allows the decoder to recognize the texts that are indicated by the reference point, with features from the whole image. Since only a single point is required to recognize the text, the proposed method enables text spotting without an arbitrarily-shaped detector or bounding polygon annotations. Experimental results present that the proposed method achieves competitive results on regular and arbitrarily-shaped text spotting benchmarks. Further analysis shows that DEER is robust to the detection errors. The code and dataset will be publicly available. | 翻訳日:2022-03-12 02:05:17 公開日:2022-03-10 |
# (参考訳) PACTran: PAC-Bayesian Metrics for Estimation the Transferability of Pretrained Models to Classification Tasks PACTran: PAC-Bayesian Metrics for Estimating the Transferability of Pretrained Models to Classification Tasks ( http://arxiv.org/abs/2203.05126v1 ) ライセンス: CC BY 4.0 | Nan Ding, Xi Chen, Tomer Levinboim, Beer Changpinyo, Radu Soricut | (参考訳) 近年の事前学習モデルの増加に伴い、特定の下流分類タスクにおいて最適な事前学習済みチェックポイントを選択する問題に注目が集まっている。
選択問題(leep、h-scoreなど)に取り組むためのいくつかの手法が最近提案されているが、これらの手法は学習理論に動機づけられていないヒューリスティックを適用している。
本稿では,事前訓練されたモデル選択と伝達可能性測定のための理論的根拠を持つ指標群であるPACTranを提案する。
まず、転送学習環境下での最適PAC-Bayesian境界からPACTranメトリクスを導出する方法を示す。
次に,複数の視覚タスク(VTAB)とOKVQA(Language-and-vision)タスク(OKVQA)に基づいて,PACTranの3つのメートル法インスタンスを評価する。
この結果から, PACTran は既存の選択法と比較して, より一貫性があり, 有効であることが示された。 With the increasing abundance of pretrained models in recent years, the problem of selecting the best pretrained checkpoint for a particular downstream classification task has been gaining increased attention. Although several methods have recently been proposed to tackle the selection problem (e.g. LEEP, H-score), these methods resort to applying heuristics that are not well motivated by learning theory. In this paper we present PACTran, a theoretically grounded family of metrics for pretrained model selection and transferability measurement. We first show how to derive PACTran metrics from the optimal PAC-Bayesian bound under the transfer learning setting. We then empirically evaluate three metric instantiations of PACTran on a number of vision tasks (VTAB) as well as a language-and-vision (OKVQA) task. An analysis of the results shows PACTran is a more consistent and effective transferability measure compared to existing selection methods. | 翻訳日:2022-03-12 01:52:52 公開日:2022-03-10 |
# (参考訳) 対話型セグメンテーションのための意図認識特徴伝達ネットワーク Intention-aware Feature Propagation Network for Interactive Segmentation ( http://arxiv.org/abs/2203.05145v1 ) ライセンス: CC BY 4.0 | Chuyu Zhang, Chuanyang Hu, Yongfei Liu, and Xuming He | (参考訳) 本稿では,ユーザの意図を正しく推測し,ユーザが提供するアノテーションをラベルのない領域に効率的に普及させるという,ポイントベースの対話的セグメンテーションの課題に取り組むことを目的とする。
そこで本研究では,ユーザの意図を明示的に推定し,高分解能フォアグラウンドセグメンテーションのための効率的なクリック提示特徴表現を学習する,意図認識特徴伝達戦略を提案する。
具体的には,ユーザの興味をより効果的に追跡するための粗レベルネットワークと,対象オブジェクトにズームして細レベルセグメンテーションを行う細レベルネットワークとからなる,対話的なセグメンテーションステップ毎に,細粒度のスパース伝播ネットワークを開発する。
さらに,クリック情報の長距離伝搬を効果的に行うために,両レベルの疎グラフネットワークモジュールを設計する。
実験の結果,提案手法はすべてのベンチマークにおいて従来の最先端手法を超越し,有効性を示した。 We aim to tackle the problem of point-based interactive segmentation, in which two key challenges are to infer user's intention correctly and to propagate the user-provided annotations to unlabeled regions efficiently. To address those challenges, we propose a novel intention-aware feature propagation strategy that performs explicit user intention estimation and learns an efficient click-augmented feature representation for high-resolution foreground segmentation. Specifically, we develop a coarse-to-fine sparse propagation network for each interactive segmentation step, which consists of a coarse-level network for more effective tracking of user's interest, and a fine-level network for zooming to the target object and performing fine-level segmentation. Moreover, we design a new sparse graph network module for both levels to enable efficient long-range propagation of click information. Extensive experiments show that our method surpasses the previous state-of-the-art methods on all popular benchmarks, demonstrating its efficacy. | 翻訳日:2022-03-12 01:51:51 公開日:2022-03-10 |
# (参考訳) 意味的類似性に対する周波数駆動的非知覚的逆攻撃 Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity ( http://arxiv.org/abs/2203.05151v1 ) ライセンス: CC BY 4.0 | Cheng Luo, Qinliang Lin, Weicheng Xie, Bizhu Wu, Jinheng Xie, Linlin Shen | (参考訳) 現在の敵攻撃研究は、慎重に作られた摂動に対する学習ベースの分類器の脆弱性を明らかにしている。
しかし、既存の攻撃手法の多くは、クローズドなカテゴリの分類層に依存するため、データセット間の一般化に固有の制限がある。
さらに、これらの手法によって生成される摂動は、ヒト視覚系(HVS)に容易に知覚できる領域に現れることがある。
前者問題を回避するために,特徴表現における意味的類似性を攻撃する新しいアルゴリズムを提案する。
このようにして、特定のデータセットへの攻撃を制限することなく、分類器を騙すことができます。
そこで本研究では,高周波数成分の摂動を制限するために低周波制約を導入し,敵の例と原文との知覚的類似性を確保する。
3つのデータセット(CIFAR-10、CIFAR-100、ImageNet-1K)と3つのパブリックオンラインプラットフォームに対する大規模な実験は、我々の攻撃がアーキテクチャやデータセットにまたがって誤解を招き、伝達可能な敵の例をもたらすことを示唆している。
さらに、可視化結果と量的性能(4つの異なるメトリクス)は、提案アルゴリズムが最先端の手法よりも知覚不可能な摂動を生成することを示している。
コードはここで入手できる。 Current adversarial attack research reveals the vulnerability of learning-based classifiers against carefully crafted perturbations. However, most existing attack methods have inherent limitations in cross-dataset generalization as they rely on a classification layer with a closed set of categories. Furthermore, the perturbations generated by these methods may appear in regions easily perceptible to the human visual system (HVS). To circumvent the former problem, we propose a novel algorithm that attacks semantic similarity on feature representations. In this way, we are able to fool classifiers without limiting attacks to a specific dataset. For imperceptibility, we introduce the low-frequency constraint to limit perturbations within high-frequency components, ensuring perceptual similarity between adversarial examples and originals. Extensive experiments on three datasets (CIFAR-10, CIFAR-100, and ImageNet-1K) and three public online platforms indicate that our attack can yield misleading and transferable adversarial examples across architectures and datasets. Additionally, visualization results and quantitative performance (in terms of four different metrics) show that the proposed algorithm generates more imperceptible perturbations than the state-of-the-art methods. Code is made available at. | 翻訳日:2022-03-12 01:50:26 公開日:2022-03-10 |
# (参考訳) トランスフォーマーを用いたビデオセマンティック埋め込みによるゼロショット動作認識 Zero-Shot Action Recognition with Transformer-based Video Semantic Embedding ( http://arxiv.org/abs/2203.05156v1 ) ライセンス: CC BY 4.0 | Keval Doshi and Yasin Yilmaz | (参考訳) ビデオのアクション認識はここ数年研究の活発な領域であるが、ゼロショットのアクション認識が普及し始めたのはつい最近である。
しかし、ゼロショット学習パラダイムには形式的な定義が欠如しており、それまで見つからなかったクラスに対する不確実性につながっている。
本研究では,現実的な視点から,帰納的ゼロショット動作認識問題に対する包括的考察を行う。
具体的には、ゼロショット動作認識のための具体的な定式化を提案し、3D-CNNを使用する既存のアプローチとは対照的に、長距離時空間依存性を効率的に捉えることができる新しいエンドツーエンドトレーニングトランスフォーマーモデルを提案する。
提案手法は、すべてのベンチマークデータセットにおいて、既存の最先端アルゴリズムよりも幅広いマージンで性能を向上する。 While video action recognition has been an active area of research for several years, zero-shot action recognition has only recently started gaining traction. However, there is a lack of a formal definition for the zero-shot learning paradigm leading to uncertainty about classes that can be considered as previously unseen. In this work, we take a new comprehensive look at the inductive zero-shot action recognition problem from a realistic standpoint. Specifically, we advocate for a concrete formulation for zero-shot action recognition that avoids an exact overlap between the training and testing classes and also limits the intra-class variance; and propose a novel end-to-end trained transformer model which is capable of capturing long range spatiotemporal dependencies efficiently, contrary to existing approaches which use 3D-CNNs. The proposed approach outperforms the existing state-of-the-art algorithms in many settings on all benchmark datasets by a wide margin. | 翻訳日:2022-03-12 01:49:25 公開日:2022-03-10 |
# (参考訳) TiSAT: 時系列異常トランス TiSAT: Time Series Anomaly Transformer ( http://arxiv.org/abs/2203.05167v1 ) ライセンス: CC BY 4.0 | Keval Doshi, Shatha Abudalou and Yasin Yilmaz | (参考訳) 時系列における異常検出はここ数年研究の活発な領域であるが、近年のアプローチでは不適切な評価基準が採用され、F1スコアが膨らんだ。
本稿では,この評価基準により,初歩的なランダム・ギーズ法が最先端の検出器より優れていることを示す。
本研究では,逐次異常検出の時系列と精度を計測する適切な評価指標を提案する。
さらに、既存のアプローチのほとんどは、長いシーケンスから時間的特徴をキャプチャできない。
トランスフォーマーなどの自己注意に基づくアプローチは、トレーニングや推論において計算効率を保ちながら、長距離依存性を捉えるのに特に効率的であることが示されている。
また,時系列異常検出のための効率的なトランスフォーマー手法を提案し,いくつかのベンチマークデータセットにおいて提案手法を広範囲に評価した。 While anomaly detection in time series has been an active area of research for several years, most recent approaches employ an inadequate evaluation criterion leading to an inflated F1 score. We show that a rudimentary Random Guess method can outperform state-of-the-art detectors in terms of this popular but faulty evaluation criterion. In this work, we propose a proper evaluation metric that measures the timeliness and precision of detecting sequential anomalies. Moreover, most existing approaches are unable to capture temporal features from long sequences. Self-attention based approaches, such as transformers, have been demonstrated to be particularly efficient in capturing long-range dependencies while being computationally efficient during training and inference. We also propose an efficient transformer approach for anomaly detection in time series and extensively evaluate our proposed approach on several popular benchmark datasets. | 翻訳日:2022-03-12 01:33:44 公開日:2022-03-10 |
# (参考訳) アルゴリズムフェアネスのための現象型定義の評価 Assessing Phenotype Definitions for Algorithmic Fairness ( http://arxiv.org/abs/2203.05174v1 ) ライセンス: CC BY 4.0 | Tony Y. Sun, Shreyas Bhave, Jaan Altosaar, No\'emie Elhadad | (参考訳) 病気の特定は、観察健康研究における中核的な日常的な活動である。
コホートが下流解析に影響を及ぼすのは、病態の特徴づけ方、患者のリスクの定義方法、どのような治療が研究されているかなどである。
したがって、選択されたコホートが、人口動態や健康の社会的決定要因とは独立して、すべての患者の代表であることを保証することが重要である。
表現型定義がフェアネスに影響を与える可能性のある場合、複数のバイアス源が存在するが、患者サブグループ間で異なる定義の影響を検討するのは表現型の分野では一般的ではない。
本稿では,表現型定義の公平性を評価するための一連のベストプラクティスを提案する。
我々は、予測モデルで一般的に使用される確立された公正度指標を活用し、それらを一般的な疫学的コホート記述指標と関連付ける。
われわれはクローン病と糖尿病の2型について,2つのサブグループ(性別と人種)の文献から抽出した複数の表現型定義を実証的に検討した。
異なる表現型の定義は、異なるフェアネス指標とサブグループによって大きく変化し、異なる性能を示す。
提案されたベストプラクティスが公正かつ包括的な表現型定義の構築に役立つことを願っている。 Disease identification is a core, routine activity in observational health research. Cohorts impact downstream analyses, such as how a condition is characterized, how patient risk is defined, and what treatments are studied. It is thus critical to ensure that selected cohorts are representative of all patients, independently of their demographics or social determinants of health. While there are multiple potential sources of bias when constructing phenotype definitions which may affect their fairness, it is not standard in the field of phenotyping to consider the impact of different definitions across subgroups of patients. In this paper, we propose a set of best practices to assess the fairness of phenotype definitions. We leverage established fairness metrics commonly used in predictive models and relate them to commonly used epidemiological cohort description metrics. We describe an empirical study for Crohn's disease and diabetes type 2, each with multiple phenotype definitions taken from the literature across two sets of patient subgroups (gender and race). We show that the different phenotype definitions exhibit widely varying and disparate performance according to the different fairness metrics and subgroups. We hope that the proposed best practices can help in constructing fair and inclusive phenotype definitions. | 翻訳日:2022-03-12 01:15:42 公開日:2022-03-10 |
# (参考訳) 適応指を用いたクラッタ食品把握と合成データ学習物体検出 Cluttered Food Grasping with Adaptive Fingers and Synthetic-Data Trained Object Detection ( http://arxiv.org/abs/2203.05187v1 ) ライセンス: CC BY 4.0 | Avinash Ummadisingu, Kuniyuki Takahashi, Naoki Fukaya | (参考訳) 食品包装産業は、幅広い形状と大きさの食品を1種類の食品の中にさえも扱っている。
メニューも多様で頻繁に変更され、ピック・アンド・プレイスの自動化が困難になる。
ビンピッキングの一般的なアプローチは、インスタンスセグメンテーションメソッドを使用して、まずトレイ内の各食品を識別することである。
しかし,食品は不明瞭な境界と視覚的な類似性で密集しており,部品の分離が困難であるため,これらの手法を訓練するヒューマンアノテーションは信頼性が低く,誤りやすい。
そこで本研究では, 実食品の高品質な3次元モデルを用いて, 食品トレイのデータセットを作成し, 合成データに基づいて純粋に訓練し, 実世界への移動を成功させる手法を提案する。
もう一つの懸念は、食品は把持時に損傷しやすいことである。
衝突時に受動的に引きずり出す新しい適応指機構と、握り中に隣り合う食物に損傷を与える可能性のあるつかみをフィルターする方法の2つの追加手法を導入することで、この問題に対処する。
提案手法がいくつかの実食品に有効であることを示す。 The food packaging industry handles an immense variety of food products with wide-ranging shapes and sizes, even within one kind of food. Menus are also diverse and change frequently, making automation of pick-and-place difficult. A popular approach to bin-picking is to first identify each piece of food in the tray by using an instance segmentation method. However, human annotations to train these methods are unreliable and error-prone since foods are packed close together with unclear boundaries and visual similarity making separation of pieces difficult. To address this problem, we propose a method that trains purely on synthetic data and successfully transfers to the real world using sim2real methods by creating datasets of filled food trays using high-quality 3d models of real pieces of food for the training instance segmentation models. Another concern is that foods are easily damaged during grasping. We address this by introducing two additional methods -- a novel adaptive finger mechanism to passively retract when a collision occurs, and a method to filter grasps that are likely to cause damage to neighbouring pieces of food during a grasp. We demonstrate the effectiveness of the proposed method on several kinds of real foods. | 翻訳日:2022-03-12 01:00:28 公開日:2022-03-10 |
# (参考訳) ブロックチェーンによる自動車用フェデレーション学習フレームワークに関する体系的文献レビュー A Systematic Literature Review on Blockchain Enabled Federated Learning Framework for Internet of Vehicles ( http://arxiv.org/abs/2203.05192v1 ) ライセンス: CC0 1.0 | Mustain Billah, Sk. Tanzir Mehedi, Adnan Anwar, Ziaur Rahman and Rafiqul Islam | (参考訳) 情報技術システムの改良による人工知能(AI)技術の統合は、IoT(Internet of Vehicles)システムに多大な利益をもたらす一方で、セキュリティとプライバシの脅威の増大も引き起こした。
IoVsデータのセキュリティを確保するために、プライバシー保護方法論が文献で注目されている。
しかし、これらの戦略は、IoVの設計の進歩に対応するために、特定の調整と修正も必要である。
この間、フェデレートラーニング(FL)は、IoVのデータプライバシとセキュリティを保護する新しいアイデアとして証明されてきた。
一方、ブロックチェーン技術は、セキュアで分散した監査可能なデータ記録と共有スキームにおいて、大きな可能性を示している。
本稿では,IoVを対象としたBlockchain-Enabled Federated Learningフレームワークの適用と実装に関する総合的な調査を行う。
さらに、BC-Enabled FL framework for IoVsの潜在的な問題、課題、解決策、今後の研究方向性についても紹介する。
この調査は、さまざまなデータプライバシ問題とIoVのシナリオを解決するために、最新のBC-Enabled FLソリューションの開発の基礎として、さらに使用できる。 While the convergence of Artificial Intelligence (AI) techniques with improved information technology systems ensured enormous benefits to the Internet of Vehicles (IoVs) systems, it also introduced an increased amount of security and privacy threats. To ensure the security of IoVs data, privacy preservation methodologies have gained significant attention in the literature. However, these strategies also need specific adjustments and modifications to cope with the advances in IoVs design. In the interim, Federated Learning (FL) has been proven as an emerging idea to protect IoVs data privacy and security. On the other hand, Blockchain technology is showing prominent possibilities with secured, dispersed, and auditable data recording and sharing schemes. In this paper, we present a comprehensive survey on the application and implementation of Blockchain-Enabled Federated Learning frameworks for IoVs. Besides, probable issues, challenges, solutions, and future research directions for BC-Enabled FL frameworks for IoVs are also presented. This survey can further be used as the basis for developing modern BC-Enabled FL solutions to resolve different data privacy issues and scenarios of IoVs. | 翻訳日:2022-03-12 00:42:50 公開日:2022-03-10 |
# (参考訳) 背景マッチングを用いた適応型背景マッティング Adaptive Background Matting Using Background Matching ( http://arxiv.org/abs/2203.05193v1 ) ライセンス: CC BY 4.0 | Jinlin Liu | (参考訳) 畳み込み問題を解くのが難しいため、高品質なアルファマットを得るのにある種の支援を用いる方法が数多く存在する。
グリーンスクリーンのマットリングは物理機器に依存する。
トリマップベースの手法は、手動インタラクションを外部入力として扱う。
バックグラウンドベースのメソッドには、キャプチャ済みの静的なバックグラウンドが必要です。
この方法は柔軟性がなく、広く使えるほど便利ではない。
trimap-freeメソッドは柔軟だが、複雑なビデオアプリケーションでは安定していない。
実アプリケーションで安定かつ柔軟となるために,適応的背景マッチング法を提案する。
ユーザーはまずビデオを自由に撮影し、カメラを動かす。
その後、ユーザはバックグラウンドビデオをキャプチャし、約1つの領域をカバーした。
我々は静的背景ではなく動的背景映像を用いて正確なマッチングを行う。
静的カメラと背景がもはや制限にならないため,提案手法は任意のシーンで使用するのに便利である。
この目的を達成するために,動的背景から最適な背景フレームを見つけるために,背景マッチングネットワークを用いる。
次に、粗いアルファマットを推定するためにロバストな意味推定ネットワークを用いる。
最後に、粗いアルファマットに従って目標領域を収穫・拡大し、最終的な正確なアルファマットを推定する。
実験において,提案手法は最先端のマットング法に対して比較可能となる。 Due to the difficulty of solving the matting problem, lots of methods use some kinds of assistance to acquire high quality alpha matte. Green screen matting methods rely on physical equipment. Trimap-based methods take manual interactions as external input. Background-based methods require a pre-captured, static background. The methods are not flexible and convenient enough to use widely. Trimap-free methods are flexible but not stable in complicated video applications. To be stable and flexible in real applications, we propose an adaptive background matting method. The user first captures their videos freely, moving the cameras. Then the user captures the background video afterwards, roughly covering the previous captured regions. We use dynamic background video instead of static background for accurate matting. The proposed method is convenient to use in any scenes as the static camera and background is no more the limitation. To achieve this goal, we use background matching network to find the best-matched background frame by frame from dynamic backgrounds. Then, robust semantic estimation network is used to estimate the coarse alpha matte. Finally, we crop and zoom the target region according to the coarse alpha matte, and estimate the final accurate alpha matte. In experiments, the proposed method is able to perform comparably against the state-of-the-art matting methods. | 翻訳日:2022-03-12 00:18:21 公開日:2022-03-10 |
# (参考訳) 時系列解析のためのオープンソースソフトウェアツールのレビュー A Review of Open Source Software Tools for Time Series Analysis ( http://arxiv.org/abs/2203.05195v1 ) ライセンス: CC BY 4.0 | Yunus Parvej Faniband (1), Iskandar Ishak (2), Sadiq M.Sait (1) ((1) Office of Industrial Collaboration, King Fahd University of Petroleum & Minerals, Dhahran, Saudi Arabia (2) Faculty of Computer Science and Information Technology, Universiti Putra Malaysia, Serdang, Selangor Darul Ehsan, Malaysia) | (参考訳) 時系列データは、幅広い現実世界のアプリケーションで使われている。
さまざまなドメインにおいて、時系列データの詳細な分析(予測と異常検出)は、特定の時間インスタンスに関連するイベントがどのように振る舞うかをよりよく理解する。
時系列分析(TSA)はプロットや伝統的なモデルで一般的に行われている。
一方、機械学習(ML)アプローチは、時間とデータ制約が満たされた場合に同等の結果を提供するため、予測と異常検出のための技術の現状が増加している。
特定のモデルクラス(ARIMA/フィルタ、ニューラルネットワーク)や、独立した時系列モデリングタスク(予測、特徴抽出、アノテーション、分類)に対するフレームワークインターフェースにリッチなインターフェースを提供する時系列ツールボックスが多数用意されている。
それでも、時系列のオープンソースの機械学習機能は限定的であり、既存のライブラリは互いに互換性がないことが多い。
本論文の目的は,時系列解析において最も重要なオープンソースツールの簡潔かつユーザフレンドリな概要を提供することである。
本稿では,(1)予測と(2)異常検出の2つの関連ツールボックスについて検討する。
本稿では、アーキテクチャを備えた典型的な時系列分析(TSA)フレームワークを説明し、TSAフレームワークの主な特徴を列挙する。
ツールは、完了した分析タスクの基準、使用するデータ作成方法、結果の評価方法に基づいて分類される。
本稿では,オープンソースの時系列分析フレームワークであるTime Series Analysisの定量的解析と現状について論じる。
全体としては、60の時系列分析ツール、32の予測モジュール、21のパッケージに異常検出が含まれた。 Time series data is used in a wide range of real world applications. In a variety of domains , detailed analysis of time series data (via Forecasting and Anomaly Detection) leads to a better understanding of how events associated with a specific time instance behave. Time Series Analysis (TSA) is commonly performed with plots and traditional models. Machine Learning (ML) approaches , on the other hand , have seen an increase in the state of the art for Forecasting and Anomaly Detection because they provide comparable results when time and data constraints are met. A number of time series toolboxes are available that offer rich interfaces to specific model classes (ARIMA/filters , neural networks) or framework interfaces to isolated time series modelling tasks (forecasting , feature extraction , annotation , classification). Nonetheless , open source machine learning capabilities for time series remain limited , and existing libraries are frequently incompatible with one another. The goal of this paper is to provide a concise and user friendly overview of the most important open source tools for time series analysis. This article examines two related toolboxes (1) forecasting and (2) anomaly detection. This paper describes a typical Time Series Analysis (TSA) framework with an architecture and lists the main features of TSA framework. The tools are categorized based on the criteria of analysis tasks completed , data preparation methods employed , and evaluation methods for results generated. This paper presents quantitative analysis and discusses the current state of actively developed open source Time Series Analysis frameworks. Overall , this article considered 60 time series analysis tools , and 32 of which provided forecasting modules , and 21 packages included anomaly detection. | 翻訳日:2022-03-12 00:07:46 公開日:2022-03-10 |
# (参考訳) ディープニューラルネットワークを用いたスクリーン撮影耐性文書画像透かし方式 A Screen-Shooting Resilient Document Image Watermarking Scheme using Deep Neural Network ( http://arxiv.org/abs/2203.05198v1 ) ライセンス: CC0 1.0 | Sulong Ge, Zhihua Xia, Yao Tong, Jian Weng, and Jianan Liu | (参考訳) 画面読影時代の到来により、画面に表示される機密文書は、痕跡を残すことなく、容易にカメラによってキャプチャできる。
そこで本研究では,ディープニューラルネットワークを用いた文書画像のための新しいスクリーンシューティングレジリエントな透かし方式を提案する。
この方式を適用すれば、スクリーン上に透かし画像を表示してカメラで撮影した場合も、撮影された写真から透かしを抽出することができる。
具体的には、透かしを埋め込むエンコーダと、透かしを抽出するデコーダを備えたエンドツーエンドニューラルネットワークである。
トレーニングプロセス中に、エンコーダとデコーダの間の歪み層を追加して、カメラ歪み、撮影歪み、光源歪みなどの実シーンでスクリーン撮影処理によって生じる歪みをシミュレートする。
また,透かし画像の視覚的品質を,抽出精度を損なうことなく向上させるため,埋め込み強度調整戦略を設計した。
実験の結果、このスキームは他の3つの最新技術よりも堅牢性と視覚品質が高いことがわかった。
特に,射程距離や角度が極端である場合でも,高い抽出精度を得ることができる。 With the advent of the screen-reading era, the confidential documents displayed on the screen can be easily captured by a camera without leaving any traces. Thus, this paper proposes a novel screen-shooting resilient watermarking scheme for document image using deep neural network. By applying this scheme, when the watermarked image is displayed on the screen and captured by a camera, the watermark can be still extracted from the captured photographs. Specifically, our scheme is an end-to-end neural network with an encoder to embed watermark and a decoder to extract watermark. During the training process, a distortion layer between encoder and decoder is added to simulate the distortions introduced by screen-shooting process in real scenes, such as camera distortion, shooting distortion, light source distortion. Besides, an embedding strength adjustment strategy is designed to improve the visual quality of the watermarked image with little loss of extraction accuracy. The experimental results show that the scheme has higher robustness and visual quality than other three recent state-of-the-arts. Specially, even if the shooting distances and angles are in extreme, our scheme can also obtain high extraction accuracy. | 翻訳日:2022-03-11 23:38:00 公開日:2022-03-10 |
# (参考訳) ReF -- 局所的特徴マッチングのための回転同変機能 ReF -- Rotation Equivariant Features for Local Feature Matching ( http://arxiv.org/abs/2203.05206v1 ) ライセンス: CC BY 4.0 | Abhishek Peri, Kinal Mehta, Avneesh Mishra, Michael Milford, Sourav Garg, K. Madhava Krishna | (参考訳) スパースなローカル機能マッチングは、多くのコンピュータビジョンやロボティクスタスクにとって重要である。
課題のある外観条件や視角への不変性を改善するため、既存の学習手法は主にデータ強化に基づくトレーニングに焦点を当てている。
本研究では,モデルアーキテクチャ自体のバイアスを誘発して,ステアブルE2-CNNを用いて‘回転特化’機能を生成するための代替的補完的手法を提案する。
より広範にカバーできるが、しばしば不正確な拡張訓練された標準CNNと組み合わせることで、ステアブルCNNからの高速で回転特異的なカバレッジを全回転角に拡張できることを実証した。
我々は,HPatchの既存の手法と,視覚的位置認識のためのUrbanScenes3D-Airデータセットを比較検討した。
さらに, ネットワークアーキテクチャの変動, ローテーションプリミティブの利用など, センセムリング, ロバスト推定, ネットワークアーキテクチャの変動, 性能効果の詳細な解析を行った。 Sparse local feature matching is pivotal for many computer vision and robotics tasks. To improve their invariance to challenging appearance conditions and viewing angles, and hence their usefulness, existing learning-based methods have primarily focused on data augmentation-based training. In this work, we propose an alternative, complementary approach that centers on inducing bias in the model architecture itself to generate `rotation-specific' features using Steerable E2-CNNs, that are then group-pooled to achieve rotation-invariant local features. We demonstrate that this high performance, rotation-specific coverage from the steerable CNNs can be expanded to all rotation angles by combining it with augmentation-trained standard CNNs which have broader coverage but are often inaccurate, thus creating a state-of-the-art rotation-robust local feature matcher. We benchmark our proposed methods against existing techniques on HPatches and a newly proposed UrbanScenes3D-Air dataset for visual place recognition. Furthermore, we present a detailed analysis of the performance effects of ensembling, robust estimation, network architecture variations, and the use of rotation priors. | 翻訳日:2022-03-11 23:19:56 公開日:2022-03-10 |
# (参考訳) 自然言語生成における忠実性:分析・評価・最適化手法の体系的調査 Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods ( http://arxiv.org/abs/2203.05227v1 ) ライセンス: CC0 1.0 | Wei Li, Wenhao Wu, Moye Chen, Jiachen Liu, Xinyan Xiao, Hua Wu | (参考訳) 自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。
この進歩により、より流動的でコヒーレントな特性(例えば、スタイル、感情、長さなど)の生成が可能となり、自然に抽象要約、対話生成、機械翻訳、データ・ツー・テキスト生成といった下流タスクの開発に繋がる。
しかし、生成したテキストに通常不信または非実情報が含まれているという忠実性問題は最大の課題となり、多くの実世界のシナリオにおける実践的応用においてテキスト生成のパフォーマンスが不満足になっている。
忠実度問題の解析・評価・最適化手法に関する多くの研究が様々な課題に対して提案されているが、総合的に比較・検討されていない。
本調査では,問題解析,評価指標,最適化手法など,NLGの忠実度問題に関する研究の成果を体系的に概観する。
タスク間の比較と学習を容易にするために,異なるタスクに対する評価と最適化手法を統一分類に整理した。
さらにいくつかの研究動向が議論されている。 Natural Language Generation (NLG) has made great progress in recent years due to the development of deep learning techniques such as pre-trained language models. This advancement has resulted in more fluent, coherent and even properties controllable (e.g. stylistic, sentiment, length etc.) generation, naturally leading to development in downstream tasks such as abstractive summarization, dialogue generation, machine translation, and data-to-text generation. However, the faithfulness problem that the generated text usually contains unfaithful or non-factual information has become the biggest challenge, which makes the performance of text generation unsatisfactory for practical applications in many real-world scenarios. Many studies on analysis, evaluation, and optimization methods for faithfulness problems have been proposed for various tasks, but have not been organized, compared and discussed in a combined manner. In this survey, we provide a systematic overview of the research progress on the faithfulness problem of NLG, including problem analysis, evaluation metrics and optimization methods. We organize the evaluation and optimization methods for different tasks into a unified taxonomy to facilitate comparison and learning across tasks. Several research trends are discussed further. | 翻訳日:2022-03-11 23:04:10 公開日:2022-03-10 |
# (参考訳) 個人熱快適モデルのための条件付き合成データ生成 Conditional Synthetic Data Generation for Personal Thermal Comfort Models ( http://arxiv.org/abs/2203.05242v1 ) ライセンス: CC BY 4.0 | Hari Prasanna Das and Costas J. Spanos | (参考訳) 個人の熱的快適性モデルは、大きなグループの平均的な反応ではなく、個人の熱的快適性反応を予測することを目的としている。
近年、機械学習アルゴリズムは、個人の熱的快適性モデル候補として大きな可能性を証明している。
しかし、しばしば建物の通常の設定内では、実験によって得られた個人的熱的快適性データは、非常に不均衡である。
Prefer No Change"クラスには、"Prefer Warmer"クラスや"Prefer Cooler"クラスと比較して、非常に多くのデータサンプルがあります。
このようなクラス不均衡なデータに基づいてトレーニングされた機械学習アルゴリズムは、現実世界にデプロイされたときにサブオプティマイズを実行する。
上記のクラス不均衡データとプライバシ保存データ共有を用いた頑健な機械学習アプリケーションを開発するために,最先端の条件付き合成データ生成装置を実装し,低周波クラスに対応する合成データを生成する。
実験の結果,生成した合成データは実データ分布を模倣した分布を持つことがわかった。
提案手法は,他のスマートビルディングデータセットやユースケースによって拡張することができる。 Personal thermal comfort models aim to predict an individual's thermal comfort response, instead of the average response of a large group. Recently, machine learning algorithms have proven to be having enormous potential as a candidate for personal thermal comfort models. But, often within the normal settings of a building, personal thermal comfort data obtained via experiments are heavily class-imbalanced. There are a disproportionately high number of data samples for the "Prefer No Change" class, as compared with the "Prefer Warmer" and "Prefer Cooler" classes. Machine learning algorithms trained on such class-imbalanced data perform sub-optimally when deployed in the real world. To develop robust machine learning-based applications using the above class-imbalanced data, as well as for privacy-preserving data sharing, we propose to implement a state-of-the-art conditional synthetic data generator to generate synthetic data corresponding to the low-frequency classes. Via experiments, we show that the synthetic data generated has a distribution that mimics the real data distribution. The proposed method can be extended for use by other smart building datasets/use-cases. | 翻訳日:2022-03-11 23:02:54 公開日:2022-03-10 |
# (参考訳) BEAT:対話型ジェスチャー合成のための大規模意味・感情多モードデータセット BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis ( http://arxiv.org/abs/2203.05297v1 ) ライセンス: CC BY 4.0 | Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng | (参考訳) 現実的で、鮮明で、人間らしく合成された会話ジェスチャをマルチモーダルデータに条件付けすることは、利用可能なデータセット、モデル、標準評価メトリクスが欠如しているため、まだ未解決の問題である。
これを解決するために、Body-Expression-Audio-Text データセット BEAT を構築しました。
i) 76時間,高品質,マルチモーダルデータ,30人の話者が8つの異なる感情を話し,4つの異なる言語で話すこと。
二百三百万のフレームレベルの感情及び意味関連アノテーション。beatに関する統計的分析は、音声、テキスト、話者のアイデンティティとの既知の相関に加えて、表情、感情、意味論と会話のジェスチャーの相関を示す。
質的かつ定量的な実験は、メトリクスの妥当性、真実のデータ品質、ベースラインの最先端のパフォーマンスを示す。
我々の知る限り、BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットであり、制御可能なジェスチャー合成、相互モダリティ分析、感情的なジェスチャー認識など、さまざまな研究分野に寄与する可能性がある。
データ、コード、モデルは研究のためにリリースされます。 Achieving realistic, vivid, and human-like synthesized conversational gestures conditioned on multi-modal data is still an unsolved problem, due to the lack of available datasets, models and standard evaluation metrics. To address this, we build Body-Expression-Audio-Text dataset, BEAT, which has i) 76 hours, high-quality, multi-modal data captured from 30 speakers talking with eight different emotions and in four different languages, ii) 32 millions frame-level emotion and semantic relevance annotations.Our statistical analysis on BEAT demonstrates the correlation of conversational gestures with facial expressions, emotions, and semantics, in addition to the known correlation with audio, text, and speaker identity. Qualitative and quantitative experiments demonstrate metrics' validness, ground truth data quality, and baseline's state-of-the-art performance. To the best of our knowledge, BEAT is the largest motion capture dataset for investigating the human gestures, which may contribute to a number of different research fields including controllable gesture synthesis, cross-modality analysis, emotional gesture recognition. The data, code and model will be released for research. | 翻訳日:2022-03-11 22:56:36 公開日:2022-03-10 |
# (参考訳) ニューラルレスポンス測定と言語計算モデル:非包括的ガイド Connecting Neural Response measurements & Computational Models of language: a non-comprehensive guide ( http://arxiv.org/abs/2203.05300v1 ) ライセンス: CC BY 4.0 | Mostafa Abdou | (参考訳) 脳内の言語理解の神経基盤を理解することは、様々な科学研究プログラムの長年の目標であった。
言語モデリングとニューロイメージング手法の最近の進歩は、言語の神経生物学の研究と、より優れた人間的な言語モデルの構築の両方において潜在的な改善を約束している。
この調査は、単純な言語モデルから派生した事象関連電位と複雑性尺度を関連づけた初期の研究から、複数のモーダルからのニューラル応答記録と自然主義的刺激を併用した大規模コーパスで訓練された人工ニューラルネットワークモデルを用いた現代の研究まで遡る。 Understanding the neural basis of language comprehension in the brain has been a long-standing goal of various scientific research programs. Recent advances in language modelling and in neuroimaging methodology promise potential improvements in both the investigation of language's neurobiology and in the building of better and more human-like language models. This survey traces a line from early research linking Event Related Potentials and complexity measures derived from simple language models to contemporary studies employing Artificial Neural Network models trained on large corpora in combination with neural response recordings from multiple modalities using naturalistic stimuli. | 翻訳日:2022-03-11 22:40:57 公開日:2022-03-10 |
# (参考訳) SoK:自動運転におけるセマンティックAIセキュリティについて SoK: On the Semantic AI Security in Autonomous Driving ( http://arxiv.org/abs/2203.05314v1 ) ライセンス: CC BY 4.0 | Junjie Shen, Ningfei Wang, Ziwen Wan, Yunpeng Luo, Takami Sato, Zhisheng Hu, Xinyang Zhang, Shengjian Guo, Zhenyu Zhong, Kang Li, Ziming Zhao, Chunming Qiao, Qi Alfred Chen | (参考訳) 自律運転(AD)システムは、安全と正しい運転決定を行うためにAIコンポーネントに依存している。
残念ながら、今日のAIアルゴリズムは、一般的に敵の攻撃に弱いことが知られている。
しかし、そのようなAIコンポーネントレベルの脆弱性がシステムレベルでセマンティックに影響を及ぼすためには、(1)システムレベルの攻撃入力空間から(2)AIコンポーネントレベルの攻撃の影響と(2)システムレベルのものの両方に対処する必要がある。
本稿では,このような研究領域を汎用AIセキュリティとは対照的にセマンティックAIセキュリティと定義する。
過去5年間で、広告コンテキストにおけるこのようなセマンティックaiセキュリティの課題に取り組むための研究がますます増えており、指数関数的な成長傾向が示され始めている。
本稿では,このようなsemantic ad aiセキュリティ研究分野における知識の体系化を初めて実施する。
総合的に53の論文を収集・分析し,セキュリティ分野において重要な研究面に基づいて体系的に分類した。
我々は、既存のAD AIセキュリティワークと密接な関係のあるドメインのセキュリティワークとを垂直に比較して観察された6つの重要な科学的ギャップを要約する。
これらによって、設計レベルだけでなく、研究目標、方法論、コミュニティレベルにおいても、洞察と将来の方向性を提供することができます。
もっとも重要な科学的方法論レベルのギャップに対処するため、私たちは、AD AIセキュリティ研究コミュニティのための、PASSという、オープンソースで均一で拡張可能なシステム駆動評価プラットフォームの開発を主導しています。
私たちはまた、実装済みのプラットフォームプロトタイプを使用して、semantic ad ai攻撃を代表するプラットフォームの機能とメリットを示します。 Autonomous Driving (AD) systems rely on AI components to make safety and correct driving decisions. Unfortunately, today's AI algorithms are known to be generally vulnerable to adversarial attacks. However, for such AI component-level vulnerabilities to be semantically impactful at the system level, it needs to address non-trivial semantic gaps both (1) from the system-level attack input spaces to those at AI component level, and (2) from AI component-level attack impacts to those at the system level. In this paper, we define such research space as semantic AI security as opposed to generic AI security. Over the past 5 years, increasingly more research works are performed to tackle such semantic AI security challenges in AD context, which has started to show an exponential growth trend. In this paper, we perform the first systematization of knowledge of such growing semantic AD AI security research space. In total, we collect and analyze 53 such papers, and systematically taxonomize them based on research aspects critical for the security field. We summarize 6 most substantial scientific gaps observed based on quantitative comparisons both vertically among existing AD AI security works and horizontally with security works from closely-related domains. With these, we are able to provide insights and potential future directions not only at the design level, but also at the research goal, methodology, and community levels. To address the most critical scientific methodology-level gap, we take the initiative to develop an open-source, uniform, and extensible system-driven evaluation platform, named PASS, for the semantic AD AI security research community. We also use our implemented platform prototype to showcase the capabilities and benefits of such a platform using representative semantic AD AI attacks. | 翻訳日:2022-03-11 22:17:48 公開日:2022-03-10 |
# (参考訳) StyleBabel: アートスタイルのタグ付けとキャプション StyleBabel: Artistic Style Tagging and Captioning ( http://arxiv.org/abs/2203.05321v1 ) ライセンス: CC BY 4.0 | Dan Ruta, Andrew Gilbert, Pranav Aggarwal, Naveen Marri, Ajinkya Kale, Jo Briggs, Chris Speed, Hailin Jin, Baldo Faieta, Alex Filipkowski, Zhe Lin, John Collomosse | (参考訳) 本稿では,135K以上のデジタルアート作品の芸術様式を記述した,自然言語キャプションと自由形式のタグのユニークなオープンアクセスデータセットであるStyleBabelについて紹介する。
stylebabelは'grounded theory'にインスパイアされた反復的手法によって収集された: 細かな芸術的スタイル属性記述のための共有言語を共進化させながら、アノテーションを可能にする質的アプローチである。
StyleBabelのいくつかのダウンストリームタスクを実演し、最近のALADINアーキテクチャをきめ細かいスタイルの類似性に適応させ、次のようにクロスモーダルな埋め込みをトレーニングします。
1) フリーフォームタグ生成
2) 芸術様式の自然言語記述
3) きめ細かいスタイルのテキスト検索。
そこで我々は,ビジュアルトランスフォーマー (ViT) とクロスモーダル表現学習の最近の進歩により,ALADINを拡張し,細粒度スタイル検索の精度向上を実現した。 We present StyleBabel, a unique open access dataset of natural language captions and free-form tags describing the artistic style of over 135K digital artworks, collected via a novel participatory method from experts studying at specialist art and design schools. StyleBabel was collected via an iterative method, inspired by `Grounded Theory': a qualitative approach that enables annotation while co-evolving a shared language for fine-grained artistic style attribute description. We demonstrate several downstream tasks for StyleBabel, adapting the recent ALADIN architecture for fine-grained style similarity, to train cross-modal embeddings for: 1) free-form tag generation; 2) natural language description of artistic style; 3) fine-grained text search of style. To do so, we extend ALADIN with recent advances in Visual Transformer (ViT) and cross-modal representation learning, achieving a state of the art accuracy in fine-grained style retrieval. | 翻訳日:2022-03-11 21:14:35 公開日:2022-03-10 |
# (参考訳) データセットの可能性の爆発:モデルロバストネスに対するデータ中心アプローチ Exploiting the Potential of Datasets: A Data-Centric Approach for Model Robustness ( http://arxiv.org/abs/2203.05323v1 ) ライセンス: CC BY 4.0 | Yiqi Zhong, Lei Wu, Xianming Liu, Junjun Jiang | (参考訳) 悪意のある摂動に対するディープニューラルネットワーク(DNN)のロバスト性は、信頼できるAIにおいてホットなトピックである。
既存の技術は、モデル構造を変更するか、推論やトレーニングのプロセスを最適化することによって、固定データセットに与えられた堅牢なモデルを得る。
大幅な改善が行われたが、モデルロバストネスのための高品質なデータセットを構築する可能性はまだ明らかではない。
Andrew Ng氏が立ち上げたデータ中心AIのキャンペーンに続いて、既存のDNNモデルの多くにおいて堅牢性を改善するために、データセット拡張のための新しいアルゴリズムを提案する。
最適化データセットには、転送可能な逆例と14種類の共通汚職が含まれている。
alibaba groupとtsinghua universityが主催するデータ中心の堅牢な学習コンペティションでは、アルゴリズムは第1段階で3000以上の競合他社のうち3番目、第2ステージでは第4位だった。
我々のコードは \url{https://github.com/hncszyq/tianchi_challenge} で入手できる。 Robustness of deep neural networks (DNNs) to malicious perturbations is a hot topic in trustworthy AI. Existing techniques obtain robust models given fixed datasets, either by modifying model structures, or by optimizing the process of inference or training. While significant improvements have been made, the possibility of constructing a high-quality dataset for model robustness remain unexplored. Follow the campaign of data-centric AI launched by Andrew Ng, we propose a novel algorithm for dataset enhancement that works well for many existing DNN models to improve robustness. Transferable adversarial examples and 14 kinds of common corruptions are included in our optimized dataset. In the data-centric robust learning competition hosted by Alibaba Group and Tsinghua University, our algorithm came third out of more than 3000 competitors in the first stage while we ranked fourth in the second stage. Our code is available at \url{https://github.com/hncszyq/tianchi_challenge}. | 翻訳日:2022-03-11 20:57:38 公開日:2022-03-10 |
# (参考訳) backboneはあなたのニーズのすべてです:ビジュアルオブジェクト追跡のためのシンプルなアーキテクチャ Backbone is All Your Need: A Simplified Architecture for Visual Object Tracking ( http://arxiv.org/abs/2203.05328v1 ) ライセンス: CC BY 4.0 | Boyu Chen, Peixia Li, Lei Bai, Lei Qiao, Qiuhong Shen, Bo Li, Weihao Gan, Wei Wu, Wanli Ouyang | (参考訳) 手作業による設計や帰納的バイアスを置き換える汎用神経アーキテクチャの展開は、最近広く関心を集めている。
しかし、既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャ選択の事前知識を必要としており、より一般的なシステムでのトラッキング開発を妨げる。
本稿では,ジョイント特徴抽出とインタラクションのためにトランスフォーマーバックボーンを利用した簡易トラッキングアーキテクチャ(simtrack)を提案する。
既存のシームズトラッカーとは異なり、入力画像をシリアライズし、ワンブランチバックボーンの前に直接結合する。
バックボーンの機能的相互作用は、よく設計された相互作用モジュールを取り除き、より効率的で効果的なフレームワークを作成するのに役立つ。
視覚トランスフォーマーにおけるダウンサンプリングによる情報損失を低減するため、より多様な入力パッチを許容可能な計算コストで提供するフォビアウィンドウ戦略も提案する。
我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。 Exploiting a general-purpose neural architecture to replace hand-wired designs or inductive biases has recently drawn extensive interest. However, existing tracking approaches rely on customized sub-modules and need prior knowledge for architecture selection, hindering the tracking development in a more general system. This paper presents a Simplified Tracking architecture (SimTrack) by leveraging a transformer backbone for joint feature extraction and interaction. Unlike existing Siamese trackers, we serialize the input images and concatenate them directly before the one-branch backbone. Feature interaction in the backbone helps to remove well-designed interaction modules and produce a more efficient and effective framework. To reduce the information loss from down-sampling in vision transformers, we further propose a foveal window strategy, providing more diverse input patches with acceptable computational costs. Our SimTrack improves the baseline with 2.5%/2.6% AUC gains on LaSOT/TNL2K and gets results competitive with other specialized tracking algorithms without bells and whistles. | 翻訳日:2022-03-11 20:49:26 公開日:2022-03-10 |
# (参考訳) 反復対応幾何:テクスチャレス物体の高効率3次元追跡のための融合領域と深さ Iterative Corresponding Geometry: Fusing Region and Depth for Highly Efficient 3D Tracking of Textureless Objects ( http://arxiv.org/abs/2203.05334v1 ) ライセンス: CC BY 4.0 | Manuel Stoiber, Martin Sundermeyer, Rudolph Triebel | (参考訳) 3D空間における物体の追跡と6DoFのポーズの予測は、コンピュータビジョンにおいて重要な課題である。
最先端のアプローチはしばしばこの問題に取り組むためにオブジェクトテクスチャに依存します。
しかし、印象的な結果が得られる一方で、多くのオブジェクトは十分なテクスチャを含んでおらず、主な前提に違反している。
そこで本研究では,領域と深度情報を融合し,物体形状のみを必要とする新しい確率的トラッカーであるICGを提案する。
本手法は対応線を配置し,ポーズを反復的に洗練する。
また,実環境における性能を向上させるため,ロバストなオクルージョン処理も実装した。
YCB-Video、OPT、Choiデータセットの実験では、テクスチャ化されたオブジェクトであっても、精度とロバスト性に関して、我々のアプローチは最先端の技術を上回ります。
同時に、ICGは高速収束と優れた効率を示し、単一のCPUコア上で1フレームあたり1.3msしか必要としない。
最後に,各要素の影響を分析し,深層学習法と比較して性能について考察する。
トラッカーのソースコードは公開されています。 Tracking objects in 3D space and predicting their 6DoF pose is an essential task in computer vision. State-of-the-art approaches often rely on object texture to tackle this problem. However, while they achieve impressive results, many objects do not contain sufficient texture, violating the main underlying assumption. In the following, we thus propose ICG, a novel probabilistic tracker that fuses region and depth information and only requires the object geometry. Our method deploys correspondence lines and points to iteratively refine the pose. We also implement robust occlusion handling to improve performance in real-world settings. Experiments on the YCB-Video, OPT, and Choi datasets demonstrate that, even for textured objects, our approach outperforms the current state of the art with respect to accuracy and robustness. At the same time, ICG shows fast convergence and outstanding efficiency, requiring only 1.3 ms per frame on a single CPU core. Finally, we analyze the influence of individual components and discuss our performance compared to deep learning-based methods. The source code of our tracker is publicly available. | 翻訳日:2022-03-11 20:30:49 公開日:2022-03-10 |
# (参考訳) EyeLoveGAN:CycleGANによるネットワーク学習を促進するためにドメインシフトを爆発させる EyeLoveGAN: Exploiting domain-shifts to boost network learning with cycleGANs ( http://arxiv.org/abs/2203.05344v1 ) ライセンス: CC BY 4.0 | Josefine Vilsb{\o}ll Sundgaard, Kristine Aavild Juhl, and Jakob M{\o}lkj{\ae}r Slipsager | (参考訳) 本稿では,2020年のREFUGEチャレンジへの貢献について述べる。
この課題は網膜画像のデータセットに基づく3つの課題から成っている:視神経円板とカップの分画、緑内障の分類、葉の局在。
3つのタスクすべてに畳み込みニューラルネットワークを採用することを提案する。
U-Netを用いてセグメンテーションを行い、事前訓練されたInceptionV3ネットワークで分類を行い、ヒートマップ予測に積層時間ガラスを用いて卵胞検出を行う。
チャレンジデータセットには、3つの異なるデータソースの画像が含まれている。
性能を向上させるため、CycleGANを使用してデータソース間のドメインシフトを生成した。
これらのサイクガンは、画像をドメイン間で移動させ、トレーニングに使用できる人工画像を生成する。 This paper presents our contribution to the REFUGE challenge 2020. The challenge consisted of three tasks based on a dataset of retinal images: Segmentation of optic disc and cup, classification of glaucoma, and localization of fovea. We propose employing convolutional neural networks for all three tasks. Segmentation is performed using a U-Net, classification is performed by a pre-trained InceptionV3 network, and fovea detection is performed by employing stacked hour-glass for heatmap prediction. The challenge dataset contains images from three different data sources. To enhance performance, cycleGANs were utilized to create a domain-shift between the data sources. These cycleGANs move images across domains, thus creating artificial images which can be used for training. | 翻訳日:2022-03-11 20:08:52 公開日:2022-03-10 |
# (参考訳) satlab at semeval-2022 task 4: 文字と単語のn-gramのみによるパトロン化と待遇言語の検出の試み SATLab at SemEval-2022 Task 4: Trying to Detect Patronizing and Condescending Language with only Character and Word N-grams ( http://arxiv.org/abs/2203.05355v1 ) ライセンス: CC BY 4.0 | Yves Bestgen | (参考訳) SemEval-2022 Task 4(PCL)では,文字と単語n-gramのみを供給したロジスティック回帰モデルが提案されている。
タスクに関する知識を使わずに推測しようとするシステムのパフォーマンスをはるかに上回る平均的なレベルのパフォーマンスを得たが、最高のチームよりもはるかに低い。
提案手法はヘイトスピーチと不快コンテンツを自動的に識別するタスクでよく機能するモデルとよく似ているため,pcl検出の難しさを検証した。 A logistic regression model only fed with character and word n-grams is proposed for the SemEval-2022 Task 4 on Patronizing and Condescending Language Detection (PCL). It obtained an average level of performance, well above the performance of a system that tries to guess without using any knowledge about the task, but much lower than the best teams. As the proposed model is very similar to the one that performed well on a task requiring to automatically identify hate speech and offensive content, this paper confirms the difficulty of PCL detection. | 翻訳日:2022-03-11 20:02:49 公開日:2022-03-10 |
# (参考訳) フェデレーション学習における貢献型デバイス選択方式 A Contribution-based Device Selection Scheme in Federated Learning ( http://arxiv.org/abs/2203.05369v1 ) ライセンス: CC BY 4.0 | Shashi Raj Pandey, Lam D. Nguyen, and Petar Popovski | (参考訳) フェデレーション学習(fl)セットアップでは、複数のデバイスが共通のモデルのトレーニングに寄与する。
本稿では,改良された一般化,高速収束,デバイスレベルの性能向上を実現するために,更新を行うデバイスを選択する手法を提案する。
min-max最適化問題を定式化し、デバイスレベルの性能の定量化に双対性ギャップを用いる原始双対設定に分解する。
我々の戦略は、ランダムなデバイス選択によるデータの鮮度(emph{exploration})と、デバイスコントリビューションの簡易な見積による「emph{exploitation}」を組み合わせる。
これにより、一般化とパーソナライゼーションの両方の観点から訓練されたモデルの性能が向上する。
装置のコントリビューションを推定し,通信オーバヘッドを低くするために,改良されたTrncated Monte-Carlo (TMC) 法を適用した。
実験の結果,提案手法は,通信オーバーヘッドの低減とベースライン方式に対するパーソナライズ性能の低下により,競争性能が向上した。 In a Federated Learning (FL) setup, a number of devices contribute to the training of a common model. We present a method for selecting the devices that provide updates in order to achieve improved generalization, fast convergence, and better device-level performance. We formulate a min-max optimization problem and decompose it into a primal-dual setup, where the duality gap is used to quantify the device-level performance. Our strategy combines \emph{exploration} of data freshness through a random device selection with \emph{exploitation} through simplified estimates of device contributions. This improves the performance of the trained model both in terms of generalization and personalization. A modified Truncated Monte-Carlo (TMC) method is applied during the exploitation phase to estimate the device's contribution and lower the communication overhead. The experimental results show that the proposed approach has a competitive performance, with lower communication overhead and competitive personalization performance against the baseline schemes. | 翻訳日:2022-03-11 19:57:01 公開日:2022-03-10 |
# (参考訳) 偽ニュース検出のための偽ニュースのフェーキング:プロパガンダによるトレーニングデータ生成 Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generation ( http://arxiv.org/abs/2203.05386v1 ) ライセンス: CC BY 4.0 | Kung-Hsiang Huang, Kathleen McKeown, Preslav Nakov, Yejin Choi and Heng Ji | (参考訳) ニューラルフェイクニュースの検出には多くの研究や最近の進歩があったが、人間による偽情報に対する防御はいまだに研究されていない。
偽ニュース生成と人為的記事に対する現在のアプローチを分析すると、その間にギャップがあることがわかり、自動生成データに基づいてトレーニングされた検出器に対する人為的偽ニュースの検出性能の低下を説明できることがわかった。
そこで本研究では,人文に近い記事を生成するための新しいフレームワークを提案する。
具体的には,自然言語推論を用いた自己批判的なシーケンス学習を行い,生成記事の有効性を確認した。
そして、プロパガンダテクニックを生成した記事に明示的に組み込んで、人間が偽ニュースを作る方法を模倣する。
最終的には、偽ニュース検出トレーニングデータセットであるPropaNewsを作成します。
PropaNewsでトレーニングされた検出器は、最先端のアプローチによって生成されたデータに基づいてトレーニングされた検出器よりも、人間の書き起こした偽情報を検出する精度が7.3%から12.0%高いことを示す。 While there has been a lot of research and many recent advances in neural fake news detection, defending against human-written disinformation remains underexplored. Upon analyzing current approaches for fake news generation and human-crafted articles, we found that there is a gap between them, which can explain the poor performance on detecting human-written fake news for detectors trained on automatically generated data. To address this issue, we propose a novel framework for generating articles closer to human-written ones. Specifically, we perform self-critical sequence training with natural language inference to ensure the validity of the generated articles. We then explicitly incorporate propaganda techniques into the generated articles to mimic how humans craft fake news. Eventually, we create a fake news detection training dataset, PropaNews, which includes 2,256 examples. Our experimental results show that detectors trained on PropaNews are 7.3% to 12.0% more accurate for detecting human-written disinformation than for counterparts trained on data generated by state-of-the-art approaches. | 翻訳日:2022-03-11 19:44:02 公開日:2022-03-10 |
# (参考訳) 逐次入力を含む繰り返しニューラルネットワークを用いた分類のロバスト性解析 Robustness Analysis of Classification Using Recurrent Neural Networks with Perturbed Sequential Input ( http://arxiv.org/abs/2203.05403v1 ) ライセンス: CC BY 4.0 | Guangyi Liu, Arash Amini, Martin Takac, and Nader Motee | (参考訳) 逐次入力を用いた分類タスクを行うように訓練された所定の安定なリカレントニューラルネットワーク(rnn)に対して、トレーニング可能な重み行列の関数として明示的なロバスト性境界を定量化する。
シーケンシャル入力は、例えば、ロボットの動きや不完全なカメラレンズによって、ストリーミング画像が変形するなど、様々な方法で摂動することができる。
安定RNNのボロノイ図形とリプシッツ特性の概念を用いて、分類タスクの完全精度を保証しながら、最大許容摂動を徹底的に解析し特徴付ける。
雲を含む地図データセットとMNISTデータセットを用いて,理論結果の検証と検証を行う。 For a given stable recurrent neural network (RNN) that is trained to perform a classification task using sequential inputs, we quantify explicit robustness bounds as a function of trainable weight matrices. The sequential inputs can be perturbed in various ways, e.g., streaming images can be deformed due to robot motion or imperfect camera lens. Using the notion of the Voronoi diagram and Lipschitz properties of stable RNNs, we provide a thorough analysis and characterize the maximum allowable perturbations while guaranteeing the full accuracy of the classification task. We illustrate and validate our theoretical results using a map dataset with clouds as well as the MNIST dataset. | 翻訳日:2022-03-11 19:21:55 公開日:2022-03-10 |
# (参考訳) グラフ信号からの等価パーティションのブラインド抽出 Blind Extraction of Equitable Partitions from Graph Signals ( http://arxiv.org/abs/2203.05407v1 ) ライセンス: CC BY 4.0 | Michael Scholkemper and Michael Schaub | (参考訳) 等価なパーティションを見つけることは、グラフ対称性の抽出や、ノードの役割検出、クラスタ同期、コンセンサスダイナミクス、ネットワーク制御問題など、さまざまなアプリケーションコンテキストへの関心と密接に関連している。
本研究では,ネットワークのエッジの知識を必要とせず,未知のグラフフィルタの出力の観測のみに基づいて,ネットワークの公平な分割を回復することを目的としたブラインド識別問題について検討する。
具体的には2つの設定を考えます。
まず、グラフフィルタへの入力を制御できるシナリオを検討し、よく知られたWeisfeiler-Lehman (color refinement)アルゴリズムにインスパイアされた分割を抽出する方法を提案する。
第2に、このアイデアをグラフフィルタのランダムで低ランクな励起にのみ出力を観測する設定に一般化し、関連する等値分割を抽出する単純なスペクトルアルゴリズムを提案する。
最後に, このスペクトル検出方式がもたらした誤差の理論的境界を定め, 理論結果を説明する数値実験を行い, 両アルゴリズムを比較した。 Finding equitable partitions is closely related to the extraction of graph symmetries and of interest in a variety of applications context such as node role detection, cluster synchronization, consensus dynamics, and network control problems. In this work we study a blind identification problem in which we aim to recover an equitable partition of a network without the knowledge of the network's edges but based solely on the observations of the outputs of an unknown graph filter. Specifically, we consider two settings. First, we consider a scenario in which we can control the input to the graph filter and present a method to extract the partition inspired by the well known Weisfeiler-Lehman (color refinement) algorithm. Second, we generalize this idea to a setting where only observe the outputs to random, low-rank excitations of the graph filter, and present a simple spectral algorithm to extract the relevant equitable partitions. Finally, we establish theoretical bounds on the error that this spectral detection scheme incurs and perform numerical experiments that illustrate our theoretical results and compare both algorithms. | 翻訳日:2022-03-11 19:06:09 公開日:2022-03-10 |
# (参考訳) 防衛としての攻撃:自動音声認識システムにおける攻撃を用いたロバストオーディオCAPTCHAの設計 Attacks as Defenses: Designing Robust Audio CAPTCHAs Using Attacks on Automatic Speech Recognition Systems ( http://arxiv.org/abs/2203.05408v1 ) ライセンス: CC BY 4.0 | Hadi Abdullah, Aditya Karlekar, Saurabh Prasad, Muhammad Sajidur Rahman, Logan Blue, Luke A. Bauer, Vincent Bindschaedler, Patrick Traynor | (参考訳) 音声CAPTCHAは、オンラインリソースの強力な防御を提供すると考えられているが、音声とテキストのメカニズムの進歩により、これらの防御は効果がない。
オーディオCAPTCHAはW3Cによってアクセシビリティーの重要な実現手段として特別に命名されているため、単に放棄することはできない。
したがって、より堅牢なCAPTCHAは、安全でアクセスしやすいWebの未来にとって重要である。
我々は,ロバストで原理駆動型オーディオディフェンスの構築にインスピレーションを与えるために,音声テキストシステムに対する攻撃に関する最近の文献を考察する。
我々は、最近の20件の攻撃論文を比較して、新しい「転写ロバスト」の基礎として、CAPTCHAを「人間が理解しやすくする」ために、それらの適合性を分類し、測定することから始める。
これらの攻撃だけでは不十分であることが証明された後、我々は比較的知的な(ユーザスタディによって評価される)かつ自動転写が難しい(つまり$P({\rm transcription}) = 4 \times 10^{-5}$)新しいメカニズムを提案する。
最後に、音声サンプルが、音声テキストシステム(P({\rm evasion}) = 1.77 \times 10^{-4}$)に対して、CAPTCHAとして検出される確率が高いことを示す。
このようにして、我々は、およそ4桁のクラックが難しいcaptchaを示すだけでなく、人間とコンピュータがオーディオを処理する方法の違いを利用して攻撃論文から得られた洞察に基づいて、このようなシステムを設計できることを示した。 Audio CAPTCHAs are supposed to provide a strong defense for online resources; however, advances in speech-to-text mechanisms have rendered these defenses ineffective. Audio CAPTCHAs cannot simply be abandoned, as they are specifically named by the W3C as important enablers of accessibility. Accordingly, demonstrably more robust audio CAPTCHAs are important to the future of a secure and accessible Web. We look to recent literature on attacks on speech-to-text systems for inspiration for the construction of robust, principle-driven audio defenses. We begin by comparing 20 recent attack papers, classifying and measuring their suitability to serve as the basis of new "robust to transcription" but "easy for humans to understand" CAPTCHAs. After showing that none of these attacks alone are sufficient, we propose a new mechanism that is both comparatively intelligible (evaluated through a user study) and hard to automatically transcribe (i.e., $P({\rm transcription}) = 4 \times 10^{-5}$). Finally, we demonstrate that our audio samples have a high probability of being detected as CAPTCHAs when given to speech-to-text systems ($P({\rm evasion}) = 1.77 \times 10^{-4}$). In so doing, we not only demonstrate a CAPTCHA that is approximately four orders of magnitude more difficult to crack, but that such systems can be designed based on the insights gained from attack papers using the differences between the ways that humans and computers process audio. | 翻訳日:2022-03-11 18:44:18 公開日:2022-03-10 |
# (参考訳) OneRel:1ステップで1つのモジュールによるエンティティと関係抽出 OneRel:Joint Entity and Relation Extraction with One Module in One Step ( http://arxiv.org/abs/2203.05412v1 ) ライセンス: CC BY 4.0 | Yu-Ming Shang, Heyan Huang, Xian-Ling Mao | (参考訳) 統合エンティティと関係抽出は自然言語処理と知識グラフ構築において不可欠な課題である。
既存のアプローチは通常、ジョイント抽出タスクをいくつかの基本的なモジュールや処理ステップに分解して実行しやすくする。
しかし、そのようなパラダイムは三重項の3つの要素が相互依存的で区別できないという事実を無視している。
そのため,従来の共同手法ではカスケードエラーや冗長な情報に悩まされていた。
これらの問題に対処するため,本稿では,細粒度3次分類問題として統合抽出をキャスティングするonerelと呼ばれる新しい結合エンティティと関係抽出モデルを提案する。
具体的には,スコアリングに基づく分類器と,関係性を考慮したホーンのタグ付け戦略からなる。
前者は、トークン対と関係が事実のトリプルに属するかどうかを評価する。
後者は単純だが効果的な復号処理を保証する。
2つの広く使用されているデータセットの大規模な実験結果から,提案手法は最先端のベースラインよりも優れた性能を示し,様々な重なり合うパターンと複数のトリプルの複雑なシナリオに対して一貫した性能向上を実現する。 Joint entity and relation extraction is an essential task in natural language processing and knowledge graph construction. Existing approaches usually decompose the joint extraction task into several basic modules or processing steps to make it easy to conduct. However, such a paradigm ignores the fact that the three elements of a triple are interdependent and indivisible. Therefore, previous joint methods suffer from the problems of cascading errors and redundant information. To address these issues, in this paper, we propose a novel joint entity and relation extraction model, named OneRel, which casts joint extraction as a fine-grained triple classification problem. Specifically, our model consists of a scoring-based classifier and a relation-specific horns tagging strategy. The former evaluates whether a token pair and a relation belong to a factual triple. The latter ensures a simple but effective decoding process. Extensive experimental results on two widely used datasets demonstrate that the proposed method performs better than the state-of-the-art baselines, and delivers consistent performance gain on complex scenarios of various overlapping patterns and multiple triples. | 翻訳日:2022-03-11 18:19:25 公開日:2022-03-10 |
# (参考訳) 深層回帰アンサンブル Deep Regression Ensembles ( http://arxiv.org/abs/2203.05417v1 ) ライセンス: CC0 1.0 | Antoine Didisheim, Bryan Kelly, Semyon Malamud | (参考訳) 本稿では,ディープ・レグレッション・アンサンブル(dre)と呼ばれる深層ニューラルネットワーク(dnn)の設計とトレーニングのための手法を提案する。
ランダムな特徴回帰でトレーニングされたDNNと2層ニューラルネットワークのギャップを埋める。
DREの各層は、ランダムに描画された入力重みと(最終出力層のように)ミオプティックに訓練された出力重みの2つの成分を持つ。
層内では、各ニューロンは異なる入力サブセットと異なるリッジペナルティを使用し、ランダムな特徴リッジ回帰のアンサンブルを構成する。
我々の実験は、単一のDREアーキテクチャが多くのデータセットにおいて最先端のDNNと同等かそれ以上であることを示している。
しかし、DREニューラルウェイトはクローズドフォームかランダム描画で知られているため、計算コストはDNNよりも桁違いに小さい。 We introduce a methodology for designing and training deep neural networks (DNN) that we call "Deep Regression Ensembles" (DRE). It bridges the gap between DNN and two-layer neural networks trained with random feature regression. Each layer of DRE has two components, randomly drawn input weights and output weights trained myopically (as if the final output layer) using linear ridge regression. Within a layer, each neuron uses a different subset of inputs and a different ridge penalty, constituting an ensemble of random feature ridge regressions. Our experiments show that a single DRE architecture is at par with or exceeds state-of-the-art DNN in many data sets. Yet, because DRE neural weights are either known in closed-form or randomly drawn, its computational cost is orders of magnitude smaller than DNN. | 翻訳日:2022-03-11 17:44:22 公開日:2022-03-10 |
# (参考訳) ゾーン温度制御のためのデータから準最適深層強化学習方針 Near-optimal Deep Reinforcement Learning Policies from Data for Zone Temperature Control ( http://arxiv.org/abs/2203.05434v1 ) ライセンス: CC BY 4.0 | Loris Di Natale, Bratislav Svetozarevic, Philipp Heer, and Colin N. Jones | (参考訳) 性能の悪い既存のコントローラをよりスマートなソリューションに置き換えることで、ビルディングセクターのエネルギー強度が低下する。
近年,Deep Reinforcement Learning (DRL) に基づくコントローラは,従来のベースラインよりも有効であることが示されている。
しかし、最適解法は通常不明であるため、DRL剤が概して最適に近い性能を保っているのか、橋梁に大きなギャップがあるのかはまだ不明である。
本稿では,DRLエージェントの性能を理論的に最適解と比較して検討する。
そこで我々は,最適制御入力を計算し易いシミュレーション環境として,物理一貫性ニューラルネットワーク(PCNN)を利用する。
さらに、PCNNはトレーニング対象のデータにのみ依存し、物理的な一貫性を維持しながら、難しい物理ベースのモデリングフェーズを避ける。
この結果から,DRLエージェントは従来のルールベースコントローラよりも明らかに優れるだけでなく,ほぼ最適性能が得られることが示唆された。 Replacing poorly performing existing controllers with smarter solutions will decrease the energy intensity of the building sector. Recently, controllers based on Deep Reinforcement Learning (DRL) have been shown to be more effective than conventional baselines. However, since the optimal solution is usually unknown, it is still unclear if DRL agents are attaining near-optimal performance in general or if there is still a large gap to bridge. In this paper, we investigate the performance of DRL agents compared to the theoretically optimal solution. To that end, we leverage Physically Consistent Neural Networks (PCNNs) as simulation environments, for which optimal control inputs are easy to compute. Furthermore, PCNNs solely rely on data to be trained, avoiding the difficult physics-based modeling phase, while retaining physical consistency. Our results hint that DRL agents not only clearly outperform conventional rule-based controllers, they furthermore attain near-optimal performance. | 翻訳日:2022-03-11 16:25:16 公開日:2022-03-10 |
# (参考訳) TinyMLの低精度量子化に関する実証的研究 An Empirical Study of Low Precision Quantization for TinyML ( http://arxiv.org/abs/2203.05492v1 ) ライセンス: CC BY-SA 4.0 | Shaojie Zhuo, Hongyu Chen, Ramchalam Kinattinkara Ramakrishnan, Tommy Chen, Chen Feng, Yicheng Lin, Parker Zhang, Liang Shen | (参考訳) tiny machine learning(tinyml)は、メモリと計算能力に制約のある組み込みaiプロセッサに機械学習モデルをデプロイすることを目的とした、ここ数年の間に登場した。
低精度量子化は、モデル推論のメモリ消費と計算コストを大幅に削減できる重要なモデル圧縮技術である。
本研究では,小セットのキャリブレーションデータを用いてモデルを低ビット(8ビット未満)精度に量子化するptq(post-training quantization)アルゴリズムに注目し,これらを異なるtinymlユースケースでベンチマークする。
公平な比較を実現するため,最近のPTQアルゴリズムを解析するためのシミュレーション量子化フレームワークを構築した。
さらに、これらのアルゴリズムを必須コンポーネントに分解し、汎用的なPTQパイプラインを再組み立てする。
パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の重要な設計選択を明らかにする。
この研究が有用なデータポイントを提供し、将来低精度量子化の研究に光を当てることを願っている。 Tiny machine learning (tinyML) has emerged during the past few years aiming to deploy machine learning models to embedded AI processors with highly constrained memory and computation capacity. Low precision quantization is an important model compression technique that can greatly reduce both memory consumption and computation cost of model inference. In this study, we focus on post-training quantization (PTQ) algorithms that quantize a model to low-bit (less than 8-bit) precision with only a small set of calibration data and benchmark them on different tinyML use cases. To achieve a fair comparison, we build a simulated quantization framework to investigate recent PTQ algorithms. Furthermore, we break down those algorithms into essential components and re-assembled a generic PTQ pipeline. With ablation study on different alternatives of components in the pipeline, we reveal key design choices when performing low precision quantization. We hope this work could provide useful data points and shed lights on the future research of low precision quantization. | 翻訳日:2022-03-11 16:11:49 公開日:2022-03-10 |
# (参考訳) 線形petcシステムのための確率的保証を伴うデータ駆動抽象化 Data-driven Abstractions with Probabilistic Guarantees for Linear PETC Systems ( http://arxiv.org/abs/2203.05522v1 ) ライセンス: CC BY 4.0 | Andrea Peruffo and Manuel Mazo Jr | (参考訳) 我々は,未知のPETCシステムによって生成される平均サンプル間時間(AIST)に基づいて,おそらくほぼ正(PAC)境界を計算するシナリオアプローチを採用した。
我々は,具体的な,未知の状態空間とサンプル間時間の間のPACマップを構築するために,シナリオアプローチをマルチクラスSVMアルゴリズムに拡張する。
次に、$\ell$-complete関係を適用したトラフィックモデルを構築し、基礎となるグラフでは、最小および最大平均重量のサイクルを見つけます。
モデルに基づく最先端ツールと比較し,本手法の実用性を示す。 We employ the scenario approach to compute probably approximately correct (PAC) bounds on the average inter-sample time (AIST) generated by an unknown PETC system, based on a finite number of samples. We extend the scenario approach to multiclass SVM algorithms in order to construct a PAC map between the concrete, unknown state-space and the inter-sample times. We then build a traffic model applying an $\ell$-complete relation and find, in the underlying graph, the cycles of minimum and maximum average weight: these provide lower and upper bounds on the AIST. Numerical benchmarks show the practical applicability of our method, which is compared against model-based state-of-the-art tools. | 翻訳日:2022-03-11 15:59:42 公開日:2022-03-10 |
# ビデオラベル伝播における表現の伝達:実施要因 Transfer of Representations to Video Label Propagation: Implementation Factors Matter ( http://arxiv.org/abs/2203.05553v1 ) ライセンス: Link先を確認 | Daniel McKee, Zitong Zhan, Bing Shuai, Davide Modolo, Joseph Tighe, Svetlana Lazebnik | (参考訳) 本研究は,カラー化や時間周期の整合性といった自己教師付き信号を用いて映像対応を学習する手法に焦点をあてて,映像中の濃密なラベル伝搬の表現を特徴付ける。
文献では、これらの手法は一貫性のない一連の設定で評価されており、傾向の識別や性能の比較が困難である。
まず,既存のバリエーションを包含するラベル伝播アルゴリズムの統一的定式化から,特徴抽出とラベル伝播における重要な実装因子の影響を体系的に検討する。
そこで本研究では,従来の作品よりも高画質の静止画像ベースラインを,適切に調整し,教師なしの静止画像ベースラインの精度を報告する。
また,静止画による映像対応の強化により,さらなる性能向上が期待できることを示す。
次に、DAVISベンチマークにおける最近のビデオベース手法の公正な比較を試みた。これは、様々な専門的なビデオベース損失の使用とトレーニング特質にもかかわらず、強力なImageNetベースラインに近いパフォーマンスレベルへのベストメソッドの収束を示すものである。
JHMDBとVIPデータセットのさらなる比較では、現在の手法と同様のパフォーマンスが確認されている。
本研究は, 評価実践の改善と, 時間的対応における今後の研究方向性の報知に役立つことを期待する。 This work studies feature representations for dense label propagation in video, with a focus on recently proposed methods that learn video correspondence using self-supervised signals such as colorization or temporal cycle consistency. In the literature, these methods have been evaluated with an array of inconsistent settings, making it difficult to discern trends or compare performance fairly. Starting with a unified formulation of the label propagation algorithm that encompasses most existing variations, we systematically study the impact of important implementation factors in feature extraction and label propagation. Along the way, we report the accuracies of properly tuned supervised and unsupervised still image baselines, which are higher than those found in previous works. We also demonstrate that augmenting video-based correspondence cues with still-image-based ones can further improve performance. We then attempt a fair comparison of recent video-based methods on the DAVIS benchmark, showing convergence of best methods to performance levels near our strong ImageNet baseline, despite the usage of a variety of specialized video-based losses and training particulars. Additional comparisons on JHMDB and VIP datasets confirm the similar performance of current methods. We hope that this study will help to improve evaluation practices and better inform future research directions in temporal correspondence. | 翻訳日:2022-03-11 15:45:01 公開日:2022-03-10 |
# KSoF: Kassel State of Fluency Dataset -- スタタリングのセラピー中心のデータセット KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset of Stuttering ( http://arxiv.org/abs/2203.05383v1 ) ライセンス: Link先を確認 | Sebastian P. Bayerl, Alexander Wolff von Gudenberg, Florian H\"onig, Elmar N\"oth and Korbinian Riedhammer | (参考訳) 発声は、個人の効果的なコミュニケーション能力に悪影響を及ぼす複雑な音声障害である。
スタッター(PWS)の患者は、しばしばその状態下でかなり苦しめられ、治療を通じて助けを求める。
フルエンシシェーピング(fluency shaping)は、pwsが発話の修正を学んで、混乱を克服するのに役立つセラピーアプローチである。
このような音声技法を習得するには、治療後にも時間と練習が必要である。
治療後すぐに、成功は高く評価されるが、再発率は高い。
長期間にわたって音声の振る舞いをモニタリングするためには、発話中の乱れや変化を検出する能力は、PWSや言語病理学者が流感のレベルを追跡するのに役立つ。
モニタリングは、流し込みの経過を検出することによって、早期に介入する能力を生み出す可能性がある。
われわれの知る限りでは、話し方を変えた散発的な治療を受けた人々のスピーチを含む公開データセットは提供されていない。
5500以上のpwsクリップを含むセラピーベースのデータセットであるkassel state of fluency(ksof)を紹介する。
ビデオクリップには、ブロック、延長、音の繰り返し、単語の繰り返し、インタージェクション、言語修正の6種類の散らばったイベントタイプがラベル付けされた。
オーディオは、Institut der Kasseler Stottertherapieのセラピーセッション中に録音された。
データは、要求に応じて研究目的に提供される。 Stuttering is a complex speech disorder that negatively affects an individual's ability to communicate effectively. Persons who stutter (PWS) often suffer considerably under the condition and seek help through therapy. Fluency shaping is a therapy approach where PWSs learn to modify their speech to help them to overcome their stutter. Mastering such speech techniques takes time and practice, even after therapy. Shortly after therapy, success is evaluated highly, but relapse rates are high. To be able to monitor speech behavior over a long time, the ability to detect stuttering events and modifications in speech could help PWSs and speech pathologists to track the level of fluency. Monitoring could create the ability to intervene early by detecting lapses in fluency. To the best of our knowledge, no public dataset is available that contains speech from people who underwent stuttering therapy that changed the style of speaking. This work introduces the Kassel State of Fluency (KSoF), a therapy-based dataset containing over 5500 clips of PWSs. The clips were labeled with six stuttering-related event types: blocks, prolongations, sound repetitions, word repetitions, interjections, and - specific to therapy - speech modifications. The audio was recorded during therapy sessions at the Institut der Kasseler Stottertherapie. The data will be made available for research purposes upon request. | 翻訳日:2022-03-11 15:44:39 公開日:2022-03-10 |
# ワイドニューラルネットワークの線形性への遷移は、組立弱モデルの創発的特性である Transition to Linearity of Wide Neural Networks is an Emerging Property of Assembling Weak Models ( http://arxiv.org/abs/2203.05104v1 ) ライセンス: Link先を確認 | Chaoyue Liu, Libin Zhu, Mikhail Belkin | (参考訳) 線形出力層を持つ広いニューラルネットワークは、ほぼ直線であり、勾配降下の最適化経路を含む領域において、ニアコンスタントニューラルネットワーク(NTK)を有することが示されている。
一般のニューラルネットワークは非常に複雑なモデルであるため、これらの発見は直観に反するように思える。
ネットワークが広くなるとなぜ線形構造が現れるのか?
本研究では、ニューラルネットワークを個々のニューロンに対応するサブモデルの集合から再帰的に構築したアセンブリモデルとして考えることにより、この「線形性への遷移」に対する新たな視点を提供する。
この観点から、広義のニューラルネットワークの線形性は、実際には、多数の多様な「弱」サブモデルを組み立てる新たな性質であり、いずれもアセンブリを支配していないことを示す。 Wide neural networks with linear output layer have been shown to be near-linear, and to have near-constant neural tangent kernel (NTK), in a region containing the optimization path of gradient descent. These findings seem counter-intuitive since in general neural networks are highly complex models. Why does a linear structure emerge when the networks become wide? In this work, we provide a new perspective on this "transition to linearity" by considering a neural network as an assembly model recursively built from a set of sub-models corresponding to individual neurons. In this view, we show that the linearity of wide neural networks is, in fact, an emerging property of assembling a large number of diverse "weak" sub-models, none of which dominate the assembly. | 翻訳日:2022-03-11 15:42:59 公開日:2022-03-10 |
# 機械学習による坑井掘削における異常事象予測 Forecasting the abnormal events at well drilling with machine learning ( http://arxiv.org/abs/2203.05378v1 ) ライセンス: Link先を確認 | Ekaterina Gurina, Nikita Klyuchnikov, Ksenia Antipova and Dmitry Koroteev | (参考訳) 事故予測のためのデータ駆動・物理インフォームドアルゴリズムを提案する。
コア機械学習アルゴリズムは、時系列を表すドリルテレメトリのデータを使用する。
我々は,6種類の掘削事故の確率をリアルタイムに予測できる時系列のBag-of-features表現を開発した。
この機械学習モデルは、ロシアの油田やガス井100箇所の掘削事故125件に基づいて訓練されている。
検証の結果, 掘削事故の70%を偽陽性率で予測できることがわかった。
このモデルは坑井工事における掘削事故の部分的にの防止に対処する。 We present a data-driven and physics-informed algorithm for drilling accident forecasting. The core machine-learning algorithm uses the data from the drilling telemetry representing the time-series. We have developed a Bag-of-features representation of the time series that enables the algorithm to predict the probabilities of six types of drilling accidents in real-time. The machine-learning model is trained on the 125 past drilling accidents from 100 different Russian oil and gas wells. Validation shows that the model can forecast 70% of drilling accidents with a false positive rate equals to 40%. The model addresses partial prevention of the drilling accidents at the well construction. | 翻訳日:2022-03-11 15:42:47 公開日:2022-03-10 |
# coco-fl:部分的nn凍結と量子化による通信と計算の融合学習 CoCo-FL: Communication- and Computation-Aware Federated Learning via Partial NN Freezing and Quantization ( http://arxiv.org/abs/2203.05468v1 ) ライセンス: Link先を確認 | Kilian Pfeiffer, Martin Rapp, Ramin Khalili, J\"org Henkel | (参考訳) 連邦学習(FL)に参加するデバイスは通常、異種通信と計算資源を持つ。
しかし、本論文で検討する同期flを適用する場合、すべてのデバイスは、サーバが指示するのと同じ期限までにトレーニングを終える必要がある。
制約されたデバイス、すなわちニューロン/フィルタを落とすことで、訓練されたニューラルネットワーク(NN)の複雑さを減らすことは、通信と計算要求の削減とリソースの浪費を密に結合するため、不十分である。
量子化は推論を加速する効果があるが、量子化トレーニングは精度の低下に悩まされている。
本稿では,nnの学習中に量子化を行い,計算要求を減少させ,通信と計算要求を減少させ,残部を完全精度で訓練し,高い収束速度と最終的な精度を維持する新しい機構を提案する。
本機構を用いて,FLにおける特定の通信制約と計算制約を独立に最適化する最初のFL手法を提案する。
本研究では,CoCo-FLの収束速度が,最先端技術よりもはるかに高く,最終精度が著しく高いことを示す。 Devices participating in federated learning (FL) typically have heterogeneous communication and computation resources. However, all devices need to finish training by the same deadline dictated by the server when applying synchronous FL, as we consider in this paper. Reducing the complexity of the trained neural network (NN) at constrained devices, i.e., by dropping neurons/filters, is insufficient as it tightly couples reductions in communication and computation requirements, wasting resources. Quantization has proven effective to accelerate inference, but quantized training suffers from accuracy losses. We present a novel mechanism that quantizes during training parts of the NN to reduce the computation requirements, freezes them to reduce the communication and computation requirements, and trains the remaining parts in full precision to maintain a high convergence speed and final accuracy. Using this mechanism, we present the first FL technique that independently optimizes for specific communication and computation constraints in FL: CoCo-FL. We show that CoCo-FL reaches a much higher convergence speed than the state of the art and a significantly higher final accuracy. | 翻訳日:2022-03-11 15:41:46 公開日:2022-03-10 |
# タブラルディープラーニングにおける数値的特徴の埋め込みについて On Embeddings for Numerical Features in Tabular Deep Learning ( http://arxiv.org/abs/2203.05556v1 ) ライセンス: Link先を確認 | Yura Gorishniy and Ivan Rubachev and Artem Babenko | (参考訳) 近年,トランスフォーマーのような深層アーキテクチャは表型データ問題に対して高い性能を示している。
MLPのような従来のモデルとは異なり、これらのアーキテクチャはスカラー値の数値特徴をメインのバックボーンに混ぜる前に高次元の埋め込みにマッピングする。
本研究では,従来の GBDT 対応ベンチマークにおいて,より強力な DL モデルの構築と GBDT との競合を可能にするため,数値的特徴の埋め込みは,表型 DL の過度な自由度である,と論じる。
まず、埋め込み加群を構築するための概念的に異なる2つのアプローチについて説明する: 1つはスカラー値の断片的線形符号化に基づくもので、2つ目は周期的アクティベーションを利用する。
次に,これら2つのアプローチが,線形層やreluアクティベーションといった従来のブロックに基づく組込みと比較して,大幅なパフォーマンス向上につながることを実証する。
重要なのは,トランスフォーマーだけでなく,多くのバックボーンにも数値的特徴を埋め込むことが有益であることを示すことである。
具体的には、適切な埋め込みの後、単純なMLPのようなモデルは注意に基づくアーキテクチャと同等に機能する。
全体として、数値的な特徴の埋め込みは重要な設計の側面であり、表状DLをさらに改善する可能性があることを強調する。 Recently, Transformer-like deep architectures have shown strong performance on tabular data problems. Unlike traditional models, e.g., MLP, these architectures map scalar values of numerical features to high-dimensional embeddings before mixing them in the main backbone. In this work, we argue that embeddings for numerical features are an underexplored degree of freedom in tabular DL, which allows constructing more powerful DL models and competing with GBDT on some traditionally GBDT-friendly benchmarks. We start by describing two conceptually different approaches to building embedding modules: the first one is based on a piecewise linear encoding of scalar values, and the second one utilizes periodic activations. Then, we empirically demonstrate that these two approaches can lead to significant performance boosts compared to the embeddings based on conventional blocks such as linear layers and ReLU activations. Importantly, we also show that embedding numerical features is beneficial for many backbones, not only for Transformers. Specifically, after proper embeddings, simple MLP-like models can perform on par with the attention-based architectures. Overall, we highlight that embeddings for numerical features are an important design aspect, which has good potential for further improvements in tabular DL. | 翻訳日:2022-03-11 15:41:26 公開日:2022-03-10 |
# 車両無線ネットワークにおける人工知能 : ns-3を用いた事例研究 Artificial Intelligence in Vehicular Wireless Networks: A Case Study Using ns-3 ( http://arxiv.org/abs/2203.05449v1 ) ライセンス: Link先を確認 | Matteo Drago, Tommaso Zugno, Federico Mason, Marco Giordani, Mate Boban and Michele Zorzi | (参考訳) 人工知能(AI)技術は、無線ネットワークをより効率的かつ適応可能なものにするための強力なアプローチとして登場した。
本稿では,無線ネットワーク最適化のためのAIアルゴリズムを実装可能なns-3シミュレーションフレームワークを提案する。
私たちのパイプラインは
(i)V2Xの新しい幾何学的モビリティ依存チャネルモデル
(ii) ns3-mmwaveモジュールに基づく5G-NR準拠プロトコルスタックのすべてのレイヤ
(iii)v2xデータ伝送をシミュレートする新しいアプリケーション、及び
(iv)AIを介してネットワークを制御するための新しいインテリジェントエンティティ。
柔軟性とモジュラーデザインのおかげで、研究者はこのツールを使って、リアルで制御された環境で独自のアルゴリズムを実装し、訓練し、評価することができる。
我々は、AI機能を強化学習(Reinforcement Learning, RL)を用いて実装する予測品質サービス(PQoS)シナリオにおいて、我々のフレームワークの挙動を検証し、AIを実装しないベースラインソリューションよりも優れたネットワーク最適化を促進することを実証する。 Artificial intelligence (AI) techniques have emerged as a powerful approach to make wireless networks more efficient and adaptable. In this paper we present an ns-3 simulation framework, able to implement AI algorithms for the optimization of wireless networks. Our pipeline consists of: (i) a new geometry-based mobility-dependent channel model for V2X; (ii) all the layers of a 5G-NR-compliant protocol stack, based on the ns3-mmwave module; (iii) a new application to simulate V2X data transmission, and (iv) a new intelligent entity for the control of the network via AI. Thanks to its flexible and modular design, researchers can use this tool to implement, train, and evaluate their own algorithms in a realistic and controlled environment. We test the behavior of our framework in a Predictive Quality of Service (PQoS) scenario, where AI functionalities are implemented using Reinforcement Learning (RL), and demonstrate that it promotes better network optimization compared to baseline solutions that do not implement AI. | 翻訳日:2022-03-11 15:40:50 公開日:2022-03-10 |
# 離散モデリングフレームワーク:物理の欠如、系統的残差のモデル化、決定論的効果とランダム効果の曖昧化 Discrepancy Modeling Framework: Learning missing physics, modeling systematic residuals, and disambiguating between deterministic and random effects ( http://arxiv.org/abs/2203.05164v1 ) ライセンス: Link先を確認 | Megan R. Ebers, Katherine M. Steele, J. Nathan Kutz | (参考訳) 物理モデルと第一原理モデルは工学と物理科学に浸透し、複雑なシステムのダイナミクスを所定の精度でモデル化することができる。
支配方程式の導出に使用される近似は、しばしばモデルとセンサによるシステムの測定の相違が生じ、方程式の近似的性質やセンサ自体の信号対雑音比が明らかになる。
現代の力学系では、モデルと測定の相違により定量化が悪くなり、しばしば正確かつ正確な制御アルゴリズムを作成する能力を損なう。
決定論的モデル-測定ミスマッチを2つの異なるアプローチで解決する不一致モデリングフレームワークを導入する。
一 体系的状態空間残留の進化モデルを学ぶことにより、及び
(II) 欠落した決定論物理学のモデルを発見すること。
アプローチにかかわらず、データ駆動型モデル発見手法の共通スイートが使用できる。
具体的には、4つの基本的な異なる手法を用いて、差分モデリングの数学的実装を実証する。
(i)非線形力学(SINDy)のスパース同定
(ii)動的モード分解(dmd)
(iii)ガウス過程回帰(gpr)及び
(iv)ニューラルネットワーク(nn)。
方法の選択は、センサ測定の量と品質だけでなく、不一致モデリングに対する人の意図にも依存する。
本稿では,信号対雑音比の異なる3つの力学系におけるデータ駆動モデリング手法を用いて,差分モデリング手法の有用性と妥当性を示す。
復元と予測の精度を比較し,詳細な比較を行い,適切なアプローチと方法の選択を可能にした。 Physics-based and first-principles models pervade the engineering and physical sciences, allowing for the ability to model the dynamics of complex systems with a prescribed accuracy. The approximations used in deriving governing equations often result in discrepancies between the model and sensor-based measurements of the system, revealing the approximate nature of the equations and/or the signal-to-noise ratio of the sensor itself. In modern dynamical systems, such discrepancies between model and measurement can lead to poor quantification, often undermining the ability to produce accurate and precise control algorithms. We introduce a discrepancy modeling framework to resolve deterministic model-measurement mismatch with two distinct approaches: (i) by learning a model for the evolution of systematic state-space residual, and (ii) by discovering a model for the missing deterministic physics. Regardless of approach, a common suite of data-driven model discovery methods can be used. Specifically, we use four fundamentally different methods to demonstrate the mathematical implementations of discrepancy modeling: (i) the sparse identification of nonlinear dynamics (SINDy), (ii) dynamic mode decomposition (DMD), (iii) Gaussian process regression (GPR), and (iv) neural networks (NN). The choice of method depends on one's intent for discrepancy modeling, as well as quantity and quality of the sensor measurements. We demonstrate the utility and suitability for both discrepancy modeling approaches using the suite of data-driven modeling methods on three dynamical systems under varying signal-to-noise ratios. We compare reconstruction and forecasting accuracies and provide detailed comparatives, allowing one to select the appropriate approach and method in practice. | 翻訳日:2022-03-11 15:40:36 公開日:2022-03-10 |
# 柔軟かつ解釈可能な空間予測のための空間変動ベイズ予測合成 Spatially-Varying Bayesian Predictive Synthesis for Flexible and Interpretable Spatial Prediction ( http://arxiv.org/abs/2203.05197v1 ) ライセンス: Link先を確認 | Danielle Cabel, Masahiro Kato, Kenichiro McAlinn, Shonosuke Sugasawa, Kosaku Takanashi | (参考訳) 空間データは、しばしば複雑で非線形で、単一のモデルで捉えるのが困難である空間依存によって特徴づけられる。
これらの特徴から生じる重要なモデルの不確実性のレベルは、モデル選択や単純なアンサンブルメソッドによって解決できない。
本稿では,空間的ベイズ予測合成と呼ばれる空間変化モデルの不確実性を捉える手法を提案する。
本提案は, 合成関数として潜在因子空間変動係数モデルを指定することで, モデル係数を各領域で変化させることにより, 柔軟な空間モデル感覚化を実現する。
完全不確実性定量化のための2つのMCMC戦略と高速点推定のための変分推論戦略を実装した。
また,一般応答に対する推定戦略も拡張する。
提案手法の予測性能については, 有限サンプル理論的保証が与えられ, 予測が極小であることを示す。
シミュレーション例と2つの実データ応用により,提案する空間ベイズ予測合成が,予測精度の面では標準空間モデルや高度な機械学習手法を上回り,予測機構の解釈可能性を維持していることを示す。 Spatial data are characterized by their spatial dependence, which is often complex, non-linear, and difficult to capture with a single model. Significant levels of model uncertainty -- arising from these characteristics -- cannot be resolved by model selection or simple ensemble methods, as performances are not homogeneous. We address this issue by proposing a novel methodology that captures spatially-varying model uncertainty, which we call spatial Bayesian predictive synthesis. Our proposal is defined by specifying a latent factor spatially-varying coefficient model as the synthesis function, which enables model coefficients to vary over the region to achieve flexible spatial model ensembling. Two MCMC strategies are implemented for full uncertainty quantification, as well as a variational inference strategy for fast point inference. We also extend the estimations strategy for general responses. A finite sample theoretical guarantee is given for the predictive performance of our methodology, showing that the predictions are exact minimax. Through simulation examples and two real data applications, we demonstrate that our proposed spatial Bayesian predictive synthesis outperforms standard spatial models and advanced machine learning methods, in terms of predictive accuracy, while maintaining interpretability of the prediction mechanism. | 翻訳日:2022-03-11 15:40:13 公開日:2022-03-10 |
# 視覚と言語ナビゲーションのためのクロスモーダルマップ学習 Cross-modal Map Learning for Vision and Language Navigation ( http://arxiv.org/abs/2203.05137v1 ) ライセンス: Link先を確認 | Georgios Georgakis, Karl Schmeckpeper, Karan Wanchoo, Soham Dan, Eleni Miltsakaki, Dan Roth, Kostas Daniilidis | (参考訳) VLN(Vision-and-Language Navigation)の問題点を考察する。
VLNの現在の手法の大部分は、LSTMのような非構造化メモリや、エージェントの自我中心的な観察に対する相互注意を用いて、エンドツーエンドで訓練されている。
他の作品と対照的に、我々の重要な洞察は、言語と視覚の間の関係は、明示的な空間表現において起こるときより強くなるということである。
本研究では,視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。まず,観測領域と観測領域の両方において,エゴセントリックマップ上でトップダウンセマンティクスを予測し,次に目標に向かっての経路をルートポイントの集合として予測する。
どちらの場合も、予測は言語によってクロスモーダルアテンション機構を通じて通知される。
言語駆動ナビゲーションは地図から解けるという基本的な仮説を実験的に検証し、VLN-CEベンチマークで競合結果を示す。 We consider the problem of Vision-and-Language Navigation (VLN). The majority of current methods for VLN are trained end-to-end using either unstructured memory such as LSTM, or using cross-modal attention over the egocentric observations of the agent. In contrast to other works, our key insight is that the association between language and vision is stronger when it occurs in explicit spatial representations. In this work, we propose a cross-modal map learning model for vision-and-language navigation that first learns to predict the top-down semantics on an egocentric map for both observed and unobserved regions, and then predicts a path towards the goal as a set of waypoints. In both cases, the prediction is informed by the language through cross-modal attention mechanisms. We experimentally test the basic hypothesis that language-driven navigation can be solved given a map, and then show competitive results on the full VLN-CE benchmark. | 翻訳日:2022-03-11 15:37:15 公開日:2022-03-10 |
# 顔マイクロ圧縮認識のためのデュアル確率グラフ畳み込みネットワークの転送 Transferring Dual Stochastic Graph Convolutional Network for Facial Micro-expression Recognition ( http://arxiv.org/abs/2203.05208v1 ) ライセンス: Link先を確認 | Hui Tang, Li Chai, Wanli Lu | (参考訳) マイクロ表現認識は, 嘘の検出, 犯罪検出, 心理相談に広く応用され, 注目を集めている。
本稿では,マイクロ表現データの認識性能を向上させるため,tdsgcn(trans transfer dual stochastic graph convolutional network)モデルを提案する。
マイクロ圧縮画像からより識別性の高い特徴を抽出する確率グラフ構築法と二重グラフ畳み込みネットワークを提案する。
マクロ表現データからsgcnsを事前学習するために転送学習を用いる。
光流アルゴリズムも時間的特徴を抽出するために統合されている。
空間的特徴と時間的特徴を融合させて認識性能を向上させる。
我々の知る限り、これはマイクロ圧縮認識タスクにおいて、転送学習とグラフ畳み込みネットワークを利用するための最初の試みである。
さらに,データセットのクラス不均衡問題に対処するため,焦点損失関数の設計に注目する。
提案手法は,SAMM上での最先端性能と最近リリースされたMMEWベンチマークを実現する。
私たちのコードは、この論文と共に公開されます。 Micro-expression recognition has drawn increasing attention due to its wide application in lie detection, criminal detection and psychological consultation. To improve the recognition performance of the small micro-expression data, this paper presents a transferring dual stochastic Graph Convolutional Network (TDSGCN) model. We propose a stochastic graph construction method and dual graph convolutional network to extract more discriminative features from the micro-expression images. We use transfer learning to pre-train SGCNs from macro expression data. Optical flow algorithm is also integrated to extract their temporal features. We fuse both spatial and temporal features to improve the recognition performance. To the best of our knowledge, this is the first attempt to utilize the transferring learning and graph convolutional network in micro-expression recognition task. In addition, to handle the class imbalance problem of dataset, we focus on the design of focal loss function. Through extensive evaluation, our proposed method achieves state-of-the-art performance on SAMM and recently released MMEW benchmarks. Our code will be publicly available accompanying this paper. | 翻訳日:2022-03-11 15:36:56 公開日:2022-03-10 |
# 逆知識蒸留による画像翻訳モデルの会員プライバシー保護 Membership Privacy Protection for Image Translation Models via Adversarial Knowledge Distillation ( http://arxiv.org/abs/2203.05212v1 ) ライセンス: Link先を確認 | Saeed Ranjbar Alvar, Lanjun Wang, Jian Pei, Yong Zhang | (参考訳) 画像から画像への変換モデルは、モデルのトレーニングにサンプルが使用されているかどうかを特定することを目的としているメンバーシップ推論攻撃(MIA)に対して脆弱であることが示されている。
画像から画像への変換モデルに基づく日々のアプリケーションの増加に伴い、これらのモデルのプライバシをMIAから保護することが重要である。
画像から画像への変換モデルに対するMIAに対する防御手法として,逆知識蒸留(AKD)を提案する。
提案手法は,モデルの一般化性を向上させることにより,トレーニングサンプルのプライバシを保護する。
画像から画像への変換モデルの実験を行い、AKDが出力画像の品質をわずかに低下させることで、攻撃性能を38.9%まで下げることにより、最先端のユーティリティ・プライバシ・トレードオフを実現することを示す。
また, 実験結果から, AKDにより訓練されたモデルは, 通常の訓練モデルよりも一般化されていることが示された。
さらに,従来の防衛手法と比較して,AKDが訓練した画像翻訳モデルは,プライバシー保護レベルが同じであり,出力の品質が同じであるのに対して,AKDは30%以上のプライバシー保護を強化している。 Image-to-image translation models are shown to be vulnerable to the Membership Inference Attack (MIA), in which the adversary's goal is to identify whether a sample is used to train the model or not. With daily increasing applications based on image-to-image translation models, it is crucial to protect the privacy of these models against MIAs. We propose adversarial knowledge distillation (AKD) as a defense method against MIAs for image-to-image translation models. The proposed method protects the privacy of the training samples by improving the generalizability of the model. We conduct experiments on the image-to-image translation models and show that AKD achieves the state-of-the-art utility-privacy tradeoff by reducing the attack performance up to 38.9% compared with the regular training model at the cost of a slight drop in the quality of the generated output images. The experimental results also indicate that the models trained by AKD generalize better than the regular training models. Furthermore, compared with existing defense methods, the results show that at the same privacy protection level, image translation models trained by AKD generate outputs with higher quality; while at the same quality of outputs, AKD enhances the privacy protection over 30%. | 翻訳日:2022-03-11 15:36:41 公開日:2022-03-10 |
# 画像テキストマッチングのための2ストリーム階層的類似性推論 Two-stream Hierarchical Similarity Reasoning for Image-text Matching ( http://arxiv.org/abs/2203.05349v1 ) ライセンス: Link先を確認 | Ran Chen, Hanli Wang, Lei Wang, Sam Kwong | (参考訳) 推論に基づくアプローチは、画像テキストマッチングのタスクに強力な能力を示した。
本研究では,画像テキストマッチングにおける2つの課題について述べる。
第一に、推論処理では、従来の手法では多階層的類似情報を見つけ、利用することができない。
この問題を解決するために, 階層的類似性推論モジュールを提案し, コンテキスト情報を自動的に抽出し, 効率的な推論のために局所的インタラクション情報と共存させる。
第二に、従来のアプローチでは、画像とテキストの整合性(つまり、画像とテキストの整合性)の学習しか考慮していなかった。
この問題に対処するために、画像からテキストまでのマッチングとテキストから画像までの類似度計算に分解する2ストリームアーキテクチャを開発した。
これら2つの問題は、エンドツーエンドでトレーニングされる統一フレームワーク、すなわち2ストリーム階層的類似性推論ネットワークによって検討される。
MSCOCOとFlickr30Kのベンチマークデータセットで実施された広範な実験は、既存の最先端手法と比較して提案手法の優位性を示している。 Reasoning-based approaches have demonstrated their powerful ability for the task of image-text matching. In this work, two issues are addressed for image-text matching. First, for reasoning processing, conventional approaches have no ability to find and use multi-level hierarchical similarity information. To solve this problem, a hierarchical similarity reasoning module is proposed to automatically extract context information, which is then co-exploited with local interaction information for efficient reasoning. Second, previous approaches only consider learning single-stream similarity alignment (i.e., image-to-text level or text-to-image level), which is inadequate to fully use similarity information for image-text matching. To address this issue, a two-stream architecture is developed to decompose image-text matching into image-to-text level and text-to-image level similarity computation. These two issues are investigated by a unifying framework that is trained in an end-to-end manner, namely two-stream hierarchical similarity reasoning network. The extensive experiments performed on the two benchmark datasets of MSCOCO and Flickr30K show the superiority of the proposed approach as compared to existing state-of-the-art methods. | 翻訳日:2022-03-11 15:36:19 公開日:2022-03-10 |
# 四足歩行における学習トルク制御 Learning Torque Control for Quadrupedal Locomotion ( http://arxiv.org/abs/2203.05194v1 ) ライセンス: Link先を確認 | Shuxiao Chen, Bike Zhang, Mark W. Mueller, Akshara Rai and Koushil Sreenath | (参考訳) 強化学習(rl)は四足歩行のための制御器を開発するための有望なツールである。
ほとんどの学習ベースのロコモーションコントローラの設計は、低周波rlポリシーがターゲットジョイント位置を出力するジョイント位置に基づくパラダイムを採用し、その後、ジョイントトルクを出力する高周波比例導出(pd)コントローラによって追跡される。
しかし、そのような政策の低頻度は、非常にダイナミックな移動行動の進行を妨げる。
また、最適なトラッキング性能のためにpdゲインを決定することは手間がかかり、手元のタスクに依存する。
本稿では,四足歩行のための学習トルク制御フレームワークを提案する。このフレームワークは,関節トルクを高周波で直接予測するrlポリシーを訓練し,pdコントローラの使用を回避している。
我々は,ロボットが様々な地形を横断し,外部からのプッシュに抵抗できるような広範な実験を行い,提案手法を検証した。
我々の知る限り、これは四足歩行のトルク制御をエンドツーエンドの単一ニューラルネットワークで学習する最初の試みであり、主に位置ベースである学習に基づく四足歩行に関する最近の研究の中で、実世界の実験に成功している。 Reinforcement learning (RL) is a promising tool for developing controllers for quadrupedal locomotion. The design of most learning-based locomotion controllers adopts the joint position-based paradigm, wherein a low-frequency RL policy outputs target joint positions that are then tracked by a high-frequency proportional-derivative (PD) controller that outputs joint torques. However, the low frequency of such a policy hinders the advancement of highly dynamic locomotion behaviors. Moreover, determining the PD gains for optimal tracking performance is laborious and dependent on the task at hand. In this paper, we introduce a learning torque control framework for quadrupedal locomotion, which trains an RL policy that directly predicts joint torques at a high frequency, thus circumventing the use of PD controllers. We validate the proposed framework with extensive experiments where the robot is able to both traverse various terrains and resist external pushes, given user-specified commands. To our knowledge, this is the first attempt of learning torque control for quadrupedal locomotion with an end-to-end single neural network that has led to successful real-world experiments among recent research on learning-based quadrupedal locomotion which is mostly position-based. | 翻訳日:2022-03-11 15:34:55 公開日:2022-03-10 |
# 楕円型観測のための低ランクアンサンブルカルマンフィルタ A low-rank ensemble Kalman filter for elliptic observations ( http://arxiv.org/abs/2203.05120v1 ) ライセンス: Link先を確認 | Mathieu Le Provost, Ricardo Baptista, Youssef Marzouk and Jeff D. Eldredge | (参考訳) 楕円型観測演算子を用いたアンサンブルカルマンフィルタ(EnKF)の正規化法を提案する。
一般的に用いられるenkf正則化法は長距離の状態相関を抑制する。
非圧縮性流体中の圧力ポアソン方程式(英語版)(ppe)のような楕円偏微分方程式によって記述された観測では、散発的な長距離相関から物理的相互作用を緩やかに崩壊させることが出来ないため、距離の定位は適用できない。
これは、遠方渦要素が非線形に結合して圧力を誘導するPPEに特に当てはまる。
その代わり、これらの逆問題には低い有効次元があり、観測の低次元射影は状態空間の低次元部分空間を強く知らせる。
我々は観測作用素のヤコビアンスペクトルに基づいてカルマンゲインの低ランク分解を導出した。
同定された固有ベクトルは、問題の基本空間分布とは独立に、多極展開のソースモードとターゲットモードを一般化する。
急速なスペクトル減衰が与えられると、推論は優性固有ベクトルにまたがる低次元部分空間において行うことができる。
この低ランク EnKF はポアソン観測演算子を用いた力学系で評価され、ポテンシャルや圧力観測から時間とともに点特異点の位置と強度を推定する。
また、フィルタリングの文脈外の楕円逆問題に対するこのアプローチの適用性についてもコメントする。 We propose a regularization method for ensemble Kalman filtering (EnKF) with elliptic observation operators. Commonly used EnKF regularization methods suppress state correlations at long distances. For observations described by elliptic partial differential equations, such as the pressure Poisson equation (PPE) in incompressible fluid flows, distance localization cannot be applied, as we cannot disentangle slowly decaying physical interactions from spurious long-range correlations. This is particularly true for the PPE, in which distant vortex elements couple nonlinearly to induce pressure. Instead, these inverse problems have a low effective dimension: low-dimensional projections of the observations strongly inform a low-dimensional subspace of the state space. We derive a low-rank factorization of the Kalman gain based on the spectrum of the Jacobian of the observation operator. The identified eigenvectors generalize the source and target modes of the multipole expansion, independently of the underlying spatial distribution of the problem. Given rapid spectral decay, inference can be performed in the low-dimensional subspace spanned by the dominant eigenvectors. This low-rank EnKF is assessed on dynamical systems with Poisson observation operators, where we seek to estimate the positions and strengths of point singularities over time from potential or pressure observations. We also comment on the broader applicability of this approach to elliptic inverse problems outside the context of filtering. | 翻訳日:2022-03-11 15:34:25 公開日:2022-03-10 |
# FPGA上での高速時空間GNN推論のためのモデル構造共設計 Model-Architecture Co-Design for High Performance Temporal GNN Inference on FPGA ( http://arxiv.org/abs/2203.05095v1 ) ライセンス: Link先を確認 | Hongkuan Zhou, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, Carl Busart | (参考訳) 時間グラフニューラルネットワーク(tgnn)は、時間グラフの時間的、構造的、文脈的情報をキャプチャする強力なモデルである。
生成された時間ノードの埋め込みは、多くの下流タスクで他のメソッドよりも優れている。
実世界のアプリケーションは、リアルタイムストリーミング動的グラフの高性能な推論を必要とする。
しかし、これらのモデルは通常、時間的近傍間の関係を捉えるために複雑な注意メカニズムに依存している。
さらに、頂点メモリの維持はタスクレベルの並列性を阻害する固有の時間データ依存に悩まされ、汎用プロセッサでは非効率である。
本研究では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。
提案する鍵となるモデリング最適化は,注意スコアを計算する軽量手法と,計算とメモリアクセスをさらに削減するための関連する時間的隣接プルーニング戦略を含む。
これらはFPGAハードウェアを利用するハードウェアの最適化と相性が良い。
我々は、時間サンプリングをオンチップFIFOベースのハードウェアサンプリングに置き換え、タイムエンコーダをルックアップテーブルに置き換える。
我々は, 知識蒸留を用いた簡易モデルの訓練を行い, 類似したモデルのvis-\'a-vis を実現する。
モデル最適化の利点を生かして,バッチ処理,パイプライン化,プリフェッチ技術を用いたハードウェアアーキテクチャを提案する。
また,計算並列性を犠牲にすることなく,時系列の更新を保証するハードウェア機構を提案する。
提案するハードウェアアクセラレータの性能を実世界の3つのデータセットで評価する。 Temporal Graph Neural Networks (TGNNs) are powerful models to capture temporal, structural, and contextual information on temporal graphs. The generated temporal node embeddings outperform other methods in many downstream tasks. Real-world applications require high performance inference on real-time streaming dynamic graphs. However, these models usually rely on complex attention mechanisms to capture relationships between temporal neighbors. In addition, maintaining vertex memory suffers from intrinsic temporal data dependency that hinders task-level parallelism, making it inefficient on general-purpose processors. In this work, we present a novel model-architecture co-design for inference in memory-based TGNNs on FPGAs. The key modeling optimizations we propose include a light-weight method to compute attention scores and a related temporal neighbor pruning strategy to further reduce computation and memory accesses. These are holistically coupled with key hardware optimizations that leverage FPGA hardware. We replace the temporal sampler with an on-chip FIFO based hardware sampler and the time encoder with a look-up-table. We train our simplified models using knowledge distillation to ensure similar accuracy vis-\'a-vis the original model. Taking advantage of the model optimizations, we propose a principled hardware architecture using batching, pipelining, and prefetching techniques to further improve the performance. We also propose a hardware mechanism to ensure the chronological vertex updating without sacrificing the computation parallelism. We evaluate the performance of the proposed hardware accelerator on three real-world datasets. | 翻訳日:2022-03-11 15:34:05 公開日:2022-03-10 |
# チームベースマルチプレイヤーゲームにおけるコルーシオン検出 Collusion Detection in Team-Based Multiplayer Games ( http://arxiv.org/abs/2203.05121v1 ) ライセンス: Link先を確認 | Laura Greige, Fernando De Mesentier Silva, Meredith Trotter, Chris Lawrence, Peter Chin and Dilip Varadarajan | (参考訳) 競合するマルチプレイヤーゲームでは、2つ以上のチームが共通の目標に向けて協力することを決めたときに、この協力から不公平な優位性を得る意図で衝突が起こる。
しかし、プレイヤー人口からコラーを識別する仕事は、プレイヤー人口の大きさのため、ゲームデザイナーにとって不可能である。
本稿では,チームベースのマルチプレイヤーゲームにおけるコルーディング動作を検知し,コルーディング動作の可能性が最も高いプレイヤーをハイライトするシステムを提案する。
ゲームデザイナーは、プレイヤーの小さなサブセットを分析して、どのアクションをとるかを決定する。
このため,検出の自動化には誤検出に対して極めて注意が必要である。
提案手法では,プレイヤーの社会的関係をゲーム内行動パターンと組み合わせて分析し,グラフ理論のツールを用いて,相手チームから各ペアの選手が提示する結束度を検出・測定できる特徴集合を推定する。
次に、外れ値の強調を専門とする教師なし学習手法であるIsolation Forestによる検出を自動化し、それぞれ170,000以上のユニークなプレーヤーと10万以上の異なるマッチを持つ2つの実際のデータセットに対して、アプローチのパフォーマンスと効率を示す。 In the context of competitive multiplayer games, collusion happens when two or more teams decide to collaborate towards a common goal, with the intention of gaining an unfair advantage from this cooperation. The task of identifying colluders from the player population is however infeasible to game designers due to the sheer size of the player population. In this paper, we propose a system that detects colluding behaviors in team-based multiplayer games and highlights the players that most likely exhibit colluding behaviors. The game designers then proceed to analyze a smaller subset of players and decide what action to take. For this reason, it is important and necessary to be extremely careful with false positives when automating the detection. The proposed method analyzes the players' social relationships paired with their in-game behavioral patterns and, using tools from graph theory, infers a feature set that allows us to detect and measure the degree of collusion exhibited by each pair of players from opposing teams. We then automate the detection using Isolation Forest, an unsupervised learning technique specialized in highlighting outliers, and show the performance and efficiency of our approach on two real datasets, each with over 170,000 unique players and over 100,000 different matches. | 翻訳日:2022-03-11 15:33:40 公開日:2022-03-10 |
# フランクウルフ政策最適化によるHEVC/H.265におけるフレームレベルビット配置の動作制約強化学習 Action-Constrained Reinforcement Learning for Frame-Level Bit Allocation in HEVC/H.265 through Frank-Wolfe Policy Optimization ( http://arxiv.org/abs/2203.05127v1 ) ライセンス: Link先を確認 | Yung-Han Ho, Yun Liang, Chia-Hao Kao, Wen-Hsiao Peng | (参考訳) 本稿では, HEVC/H.265のフレームレベルビット割り当てにFrank-Wolfeポリシ最適化を利用する強化学習(RL)フレームワークを提案する。
以前のrlベースのアプローチでは、歪み最小化とレート正規化の報酬を経験的に選択したハイパーパラメータで重み付けするシングルクリティック設計を採用している。
最近では、アクターネットワークの更新のために、レートと歪みの批判を交互に行い、二重批判設計を提案する。
しかし、訓練の収束は保証されていない。
この問題に対処するために、フレームレベルのビット割り当てをアクション制約付きRL問題として定式化する際に、Neural Frank-Wolfe Policy Optimization (NFWPO)を導入する。
この新たな枠組みでは、レート批評家は実行可能なアクションセットを特定するのに役立ち、歪み批評家はアクタネットワークを更新して、アクション制約に準拠しながらコンストラクション品質を最大化する。
実験結果から,ビデオマルチメソッド評価融合(VMAF)メトリックを最適化する訓練を行った場合,NFWPOに基づくモデルは,単一批判法と二重批判法の両方に優れることがわかった。
また、x265の2パス平均ビットレート制御に匹敵するレート歪み性能を示す。 This paper presents a reinforcement learning (RL) framework that leverages Frank-Wolfe policy optimization to address frame-level bit allocation for HEVC/H.265. Most previous RL-based approaches adopt the single-critic design, which weights the rewards for distortion minimization and rate regularization by an empirically chosen hyper-parameter. More recently, the dual-critic design is proposed to update the actor network by alternating the rate and distortion critics. However, the convergence of training is not guaranteed. To address this issue, we introduce Neural Frank-Wolfe Policy Optimization (NFWPO) in formulating the frame-level bit allocation as an action-constrained RL problem. In this new framework, the rate critic serves to specify a feasible action set, and the distortion critic updates the actor network towards maximizing the reconstruction quality while conforming to the action constraint. Experimental results show that when trained to optimize the video multi-method assessment fusion (VMAF) metric, our NFWPO-based model outperforms both the single-critic and the dual-critic methods. It also demonstrates comparable rate-distortion performance to the 2-pass average bit rate control of x265. | 翻訳日:2022-03-11 15:33:18 公開日:2022-03-10 |
# Fake Talking Face Videos Detection のための視覚的注意に基づくマルチモーダルネットワーク An Audio-Visual Attention Based Multimodal Network for Fake Talking Face Videos Detection ( http://arxiv.org/abs/2203.05178v1 ) ライセンス: Link先を確認 | Ganglai Wang, Peng Zhang, Lei Xie, Wei Huang, Yufei Zha and Yanning Zhang | (参考訳) ディープフェイクベースのデジタル顔偽造は、特に口唇操作が発話顔生成に使われている場合、公衆メディアのセキュリティを脅かしている。
与えられた発話に合わせて唇の形を変えるだけでは、このような偽の顔ビデオではアイデンティティの表情の特徴を判別することは困難である。
先行知識としての音声ストリームへの注意の欠如とともに、偽の会話顔生成の検出失敗も避けられないものとなる。
本研究は,人間の多感性知覚システムの意思決定機構に触発され,聴覚情報による情報入力後の視覚的エビデンスを強化し,より正確な会話顔検出を実現するために,音声と視覚的表現を取り入れた偽会話顔検出フレームワークFTFDNetを提案する。
さらに、モジュール化により任意のCNNアーキテクチャにシームレスに統合可能な、より情報的な特徴を発見するために、AVAM(Audio-visual attention mechanism)を提案する。
AVAMの追加により、提案されたFTFDNetは、確立されたデータセット(FTFDD)上でより良い検出性能を達成することができる。
提案手法の評価により,偽の顔ビデオの検出において優れた性能を示し,その検出率は97%以上となった。 DeepFake based digital facial forgery is threatening the public media security, especially when lip manipulation has been used in talking face generation, the difficulty of fake video detection is further improved. By only changing lip shape to match the given speech, the facial features of identity is hard to be discriminated in such fake talking face videos. Together with the lack of attention on audio stream as the prior knowledge, the detection failure of fake talking face generation also becomes inevitable. Inspired by the decision-making mechanism of human multisensory perception system, which enables the auditory information to enhance post-sensory visual evidence for informed decisions output, in this study, a fake talking face detection framework FTFDNet is proposed by incorporating audio and visual representation to achieve more accurate fake talking face videos detection. Furthermore, an audio-visual attention mechanism (AVAM) is proposed to discover more informative features, which can be seamlessly integrated into any audio-visual CNN architectures by modularization. With the additional AVAM, the proposed FTFDNet is able to achieve a better detection performance on the established dataset (FTFDD). The evaluation of the proposed work has shown an excellent performance on the detection of fake talking face videos, which is able to arrive at a detection rate above 97%. | 翻訳日:2022-03-11 15:32:34 公開日:2022-03-10 |
# GrainSpace:Cereal Grainのきめ細かいドメイン適応認識のための大規模データセット GrainSpace: A Large-scale Dataset for Fine-grained and Domain-adaptive Recognition of Cereal Grains ( http://arxiv.org/abs/2203.05306v1 ) ライセンス: Link先を確認 | Lei Fan, Yiwen Ding, Dongdong Fan, Donglin Di, Maurice Pagnucco, Yang Song | (参考訳) 穀物は人間の食事の重要な部分であり、人々の生活と国際貿易にとって重要な商品である。
穀物外観検査(GAI)は、適切な循環、貯蔵、食品加工等のために、穀物の品質及び粒層化を決定するための重要なステップの1つである。
GAIは、手工具の助けを借りて、適格な検査官が手動で行う。
自動GAIは、インスペクタにジョブを強く支援するメリットがあるが、データセットの欠如とタスクの明確な定義のために制限されている。
本稿では,粒度認識,ドメイン適応,分散認識という3つのユビキタスなコンピュータビジョンタスクとしてgaiを定式化する。
我々は,GrainSpaceと呼ばれる大規模かつ一般公開された穀物のデータセットを提示する。
具体的には,データ取得のための3種類のデバイスプロトタイプと,専門家による525万枚の画像を作成する。
小麦、トウモロコシ、米などの穀物サンプルを5カ国30地域以上から採取する。
また,半教師付き学習と自己教師付き学習技術に基づく総合ベンチマークを開発した。
私たちの知る限りでは、GrainSpaceは穀物検査のための最初の公開データセットです。 Cereal grains are a vital part of human diets and are important commodities for people's livelihood and international trade. Grain Appearance Inspection (GAI) serves as one of the crucial steps for the determination of grain quality and grain stratification for proper circulation, storage and food processing, etc. GAI is routinely performed manually by qualified inspectors with the aid of some hand tools. Automated GAI has the benefit of greatly assisting inspectors with their jobs but has been limited due to the lack of datasets and clear definitions of the tasks. In this paper we formulate GAI as three ubiquitous computer vision tasks: fine-grained recognition, domain adaptation and out-of-distribution recognition. We present a large-scale and publicly available cereal grains dataset called GrainSpace. Specifically, we construct three types of device prototypes for data acquisition, and a total of 5.25 million images determined by professional inspectors. The grain samples including wheat, maize and rice are collected from five countries and more than 30 regions. We also develop a comprehensive benchmark based on semi-supervised learning and self-supervised learning techniques. To the best of our knowledge, GrainSpace is the first publicly released dataset for cereal grain inspection. | 翻訳日:2022-03-11 15:31:00 公開日:2022-03-10 |
# リスク逆分散最適化のための最適手法 Optimal Methods for Risk Averse Distributed Optimization ( http://arxiv.org/abs/2203.05117v1 ) ライセンス: Link先を確認 | Gaunghui Lan, Zhe Zhang | (参考訳) 本稿では,ネットワーク上のリスク回避最適化の通信複雑性について検討する。
この問題は、よく研究されたリスク中立な有限サム分散最適化問題を一般化し、その重要性は不確定な環境でリスクを扱う必要性に起因する。
文献におけるアルゴリズムには、リスク逆問題とリスクニュートラル問題を解くための通信複雑性のギャップが存在する。
本研究では,分散リスク逆最適化法(drao法)と分散リスク逆最適化法(drao-s法)という2つの分散アルゴリズムを提案する。
具体的には、サーバノードにおいて、特定のサドルポイント部分問題を容易に解決できると仮定して、最適な通信複雑性を達成する。
DRAO-S法は、曖昧性集合を射影することだけを必要とする新しいサドル点スライディングサブルーチンを導入することで、強い仮定を取り除く。
DRAO-Sによって実行される$P$-プロジェクションの数は最適である。
さらに, DRAO と DRAO-S の通信複雑度が即効しないことを示すために, 一致した低複雑性境界を開発する。
数値実験により, DRAO-S法の性能向上を実証した。 This paper studies the communication complexity of risk averse optimization over a network. The problem generalizes the well-studied risk-neutral finite-sum distributed optimization problem and its importance stems from the need to handle risk in an uncertain environment. For algorithms in the literature, there exists a gap in communication complexities for solving risk-averse and risk-neutral problems. We propose two distributed algorithms, namely the distributed risk averse optimization (DRAO) method and the distributed risk averse optimization with sliding (DRAO-S) method, to close the gap. Specifically, the DRAO method achieves the optimal communication complexity by assuming a certain saddle point subproblem can be easily solved in the server node. The DRAO-S method removes the strong assumption by introducing a novel saddle point sliding subroutine which only requires the projection over the ambiguity set $P$. We observe that the number of $P$-projections performed by DRAO-S is optimal. Moreover, we develop matching lower complexity bounds to show that communication complexities of both DRAO and DRAO-S are not improvable. Numerical experiments are conducted to demonstrate the encouraging empirical performance of the DRAO-S method. | 翻訳日:2022-03-11 15:30:02 公開日:2022-03-10 |
# バスケットボールトライアルにおける治療効果推定のためのマルチタスク逆学習 Multi-Task Adversarial Learning for Treatment Effect Estimation in Basket Trials ( http://arxiv.org/abs/2203.05123v1 ) ライセンス: Link先を確認 | Zhixuan Chu, Stephen L. Rathbun, Sheng Li | (参考訳) 観察データから治療効果を推定することは、医学、臨床、その他の研究における試験、実験、観察研究の定式化である異なる臨床研究設計のような、多くの実世界の応用を導く因果性に関する洞察を提供する。
本報告では, 同一の変異を有する異なる種類のがん患者において, 新規薬物がどの程度有効であるかを検査する, バスケットトライアルと呼ばれる新しい臨床設計に応用するための因果推論について述べる。
本手法では, マルチタスク表現学習と対戦学習を併用し, 同一の遺伝子変異を持つが, 異なる変異を有する患者に対して, 異なる種類の腫瘍に対して, 潜在的な結果を推定する。
本稿では,この新たな因果推論設定を示す直感的な例として,バスケットトライアルを用いた。
この新しい因果推論設定は、バスケットトライアルに限定されるものではないが、含まれている。
この設定は、従来の因果推論問題と同じ課題、すなわち、異なるサブグループの下での対実的な結果の欠如と、共同設立者による治療選択バイアスがある。
IHDPとNewsの2つのベンチマークにおいて,合成バスケット試薬データの解析におけるMTAL法の実用的利点と評価を行った。
その結果,MTAL法が競合する最先端手法よりも優れていることが示された。 Estimating treatment effects from observational data provides insights about causality guiding many real-world applications such as different clinical study designs, which are the formulations of trials, experiments, and observational studies in medical, clinical, and other types of research. In this paper, we describe causal inference for application in a novel clinical design called basket trial that tests how well a new drug works in patients who have different types of cancer that all have the same mutation. We propose a multi-task adversarial learning (MTAL) method, which incorporates feature selection multi-task representation learning and adversarial learning to estimate potential outcomes across different tumor types for patients sharing the same genetic mutation but having different tumor types. In our paper, the basket trial is employed as an intuitive example to present this new causal inference setting. This new causal inference setting includes, but is not limited to basket trials. This setting has the same challenges as the traditional causal inference problem, i.e., missing counterfactual outcomes under different subgroups and treatment selection bias due to confounders. We present the practical advantages of our MTAL method for the analysis of synthetic basket trial data and evaluate the proposed estimator on two benchmarks, IHDP and News. The results demonstrate the superiority of our MTAL method over the competing state-of-the-art methods. | 翻訳日:2022-03-11 15:29:43 公開日:2022-03-10 |
# IAE-Net:離散化不変学習のための積分オートエンコーダ IAE-Net: Integral Autoencoders for Discretization-Invariant Learning ( http://arxiv.org/abs/2203.05142v1 ) ライセンス: Link先を確認 | Yong Zheng Ong and Zuowei Shen and Haizhao Yang | (参考訳) 離散化不変学習は、学習モデルの入力や出力として関数の不均一な離散表現を処理する能力を持つ無限次元関数空間での学習を目標とする。
本稿では,離散化不変学習のための積分オートエンコーダ(iae-net)に基づく新しいディープラーニングフレームワークを提案する。
iae-netの基本構成ブロックは、データ駆動カーネルとの積分変換としてのエンコーダとデコーダと、エンコーダとデコーダの間の完全に接続されたニューラルネットワークで構成される。
この基本構築ブロックは、スキップ接続をiae-netとして深く密結合したニューラルネットワークを形成するために繰り返し構成される、広いマルチチャネル構造に並列に適用される。
IAE-Netは、不均一な構造を持つトレーニングデータを生成するランダム化データ拡張を用いて訓練され、離散化不変学習のパフォーマンスが向上する。
提案したIAE-Netは、予測データ科学、科学計算における前方および逆問題、信号/画像処理における様々な応用でテストされている。
IAE-Netは文献の代替品と比較して、既存のアプリケーションで最先端のパフォーマンスを達成し、幅広い新しいアプリケーションを作成する。 Discretization invariant learning aims at learning in the infinite-dimensional function spaces with the capacity to process heterogeneous discrete representations of functions as inputs and/or outputs of a learning model. This paper proposes a novel deep learning framework based on integral autoencoders (IAE-Net) for discretization invariant learning. The basic building block of IAE-Net consists of an encoder and a decoder as integral transforms with data-driven kernels, and a fully connected neural network between the encoder and decoder. This basic building block is applied in parallel in a wide multi-channel structure, which are repeatedly composed to form a deep and densely connected neural network with skip connections as IAE-Net. IAE-Net is trained with randomized data augmentation that generates training data with heterogeneous structures to facilitate the performance of discretization invariant learning. The proposed IAE-Net is tested with various applications in predictive data science, solving forward and inverse problems in scientific computing, and signal/image processing. Compared with alternatives in the literature, IAE-Net achieves state-of-the-art performance in existing applications and creates a wide range of new applications. | 翻訳日:2022-03-11 15:29:16 公開日:2022-03-10 |
# ODEとインデックス-1DAEの初期値問題の数値解に対する擬似ランダム射影ニューラルネットワーク Parsimonious Random Projection Neural Networks for the Numerical Solution of Initial-Value Problems of ODEs and index-1 DAEs ( http://arxiv.org/abs/2203.05337v1 ) ライセンス: Link先を確認 | Gianluca Fabiani, Evangelos Galaris, Lucia Russo, Constantinos Siettos | (参考訳) PDEの空間的離散化から生じるかもしれない非線形ODEのIDPの数値解とインデックス-1DAEの数値解に対するランダムなプロジェクションの概念に基づく物理インフォームニューラルネットワークに対処する。
このスキームは、適切にランダムにパラメータ化されたガウス核と線形出力層を持つ単一の隠れ層を持ち、内部重みは1つに固定される。
隠蔽層と出力層の間の未知の重みはニュートンの反復によって計算され、ムーア-ペンローズ擬似逆数(英語版)を中規模から大規模に正規化したスパースQR分解を用いて計算される。
剛性および鋭い勾配に対処するために,積分間隔を調整する可変ステップサイズスキームを提案し,ニュートン反復に対するよい初期推定を提供する継続法に対処する。
従来のランダムなプロジェクションに関する研究に基づいて、正準形式におけるODEのスキームと半明示形式におけるインデックス-1DAEの近似能力を証明した。
均一分布の最適境界はバイアス分散トレードオフに基づいて同義に選択される。
4つのインデックス-1 DAE、ロバートソンモデル、ビーズの動作を記述する5つのDAEのモデル、放電制御問題を記述する6つのDAEのモデル、化学アクゾノーベル問題と3つの固い問題、ベルーソフ・ザボチンスキー、アレン・カーン PDE、そして倉本・シヴァシンスキー PDEである。
この方式の効率は、MATLAB ODE スイートの3つの解法 ode23t, ode23s, ode15s と比較される。
提案手法は,特に数値精度の面で高い剛性や鋭い勾配が生じ,計算コストは実用上同等である場合において,いくつかの場合において剛性解法よりも優れることを示す。 We address a physics-informed neural network based on the concept of random projections for the numerical solution of IVPs of nonlinear ODEs in linear-implicit form and index-1 DAEs, which may also arise from the spatial discretization of PDEs. The scheme has a single hidden layer with appropriately randomly parametrized Gaussian kernels and a linear output layer, while the internal weights are fixed to ones. The unknown weights between the hidden and output layer are computed by Newton's iterations, using the Moore-Penrose pseudoinverse for low to medium, and sparse QR decomposition with regularization for medium to large scale systems. To deal with stiffness and sharp gradients, we propose a variable step size scheme for adjusting the interval of integration and address a continuation method for providing good initial guesses for the Newton iterations. Based on previous works on random projections, we prove the approximation capability of the scheme for ODEs in the canonical form and index-1 DAEs in the semiexplicit form. The optimal bounds of the uniform distribution are parsimoniously chosen based on the bias-variance trade-off. The performance of the scheme is assessed through seven benchmark problems: four index-1 DAEs, the Robertson model, a model of five DAEs describing the motion of a bead, a model of six DAEs describing a power discharge control problem, the chemical Akzo Nobel problem and three stiff problems, the Belousov-Zhabotinsky, the Allen-Cahn PDE and the Kuramoto-Sivashinsky PDE. The efficiency of the scheme is compared with three solvers ode23t, ode23s, ode15s of the MATLAB ODE suite. Our results show that the proposed scheme outperforms the stiff solvers in several cases, especially in regimes where high stiffness or sharp gradients arise in terms of numerical accuracy, while the computational costs are for any practical purposes comparable. | 翻訳日:2022-03-11 15:28:55 公開日:2022-03-10 |
# 複素ネットワークの深い表現に対する幾何学的および位相的推論 Geometric and Topological Inference for Deep Representations of Complex Networks ( http://arxiv.org/abs/2203.05488v1 ) ライセンス: Link先を確認 | Baihan Lin | (参考訳) 複雑なネットワークの深い表現を理解することは、インターネット時代に解釈可能で信頼できる機械学習アプリケーションを構築するための重要なステップである。
ブラックボックスモデル(例えば人工または生物学的ニューラルネットワーク)の予測を近似するグローバルサロゲートモデルは通常、モデル解釈可能性に関する貴重な理論的洞察を提供するために使用される。
代理モデルが他のモデルでの表現をどの程度うまく説明できるかを評価するためには,モデル比較のための推論手法を開発する必要がある。
これまでの研究では、モデルと脳を、その表現的ジオメトリ(モデル層または皮質領域における入力パターンの表現間の距離の行列によって特徴づけられる)で比較してきた。
本研究では、トポロジと表現の幾何学を重視したより広範な統計のクラスの一部として、モデルと脳における表現の統計的記述を概説する。
トポロジカルサマリー統計は、トポロジカルデータ分析(tda)やその他のグラフベースの手法に基づいている。
我々は、モデル選択に使用する感度と特異性の観点からこれらの統計を評価し、異なるニューラルネットワークモデルを相互に関連付け、ブラックボックス表現を最も考慮すべき計算機構について推測することを目的としている。
これらの新しい手法により、脳とコンピュータ科学者は、脳とモデルによって学習された動的表現変換を可視化し、モデル比較統計推論を行うことができる。 Understanding the deep representations of complex networks is an important step of building interpretable and trustworthy machine learning applications in the age of internet. Global surrogate models that approximate the predictions of a black box model (e.g. an artificial or biological neural net) are usually used to provide valuable theoretical insights for the model interpretability. In order to evaluate how well a surrogate model can account for the representation in another model, we need to develop inference methods for model comparison. Previous studies have compared models and brains in terms of their representational geometries (characterized by the matrix of distances between representations of the input patterns in a model layer or cortical area). In this study, we propose to explore these summary statistical descriptions of representations in models and brains as part of a broader class of statistics that emphasize the topology as well as the geometry of representations. The topological summary statistics build on topological data analysis (TDA) and other graph-based methods. We evaluate these statistics in terms of the sensitivity and specificity that they afford when used for model selection, with the goal to relate different neural network models to each other and to make inferences about the computational mechanism that might best account for a black box representation. These new methods enable brain and computer scientists to visualize the dynamic representational transformations learned by brains and models, and to perform model-comparative statistical inference. | 翻訳日:2022-03-11 15:27:23 公開日:2022-03-10 |
# SoftSNN: ソフトエラー下でのスパイクニューラルネットワーク加速器の低コストフォールトトレランス SoftSNN: Low-Cost Fault Tolerance for Spiking Neural Network Accelerators under Soft Errors ( http://arxiv.org/abs/2203.05523v1 ) ライセンス: Link先を確認 | Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique | (参考訳) 特殊なハードウェアアクセラレータが設計され、スパイキングニューラルネットワーク(snn)の性能を最大化するために使用されている。
しかし、そのような加速器は、高エネルギー粒子衝突によって生じる過渡的断層(ソフトエラー)に弱いため、ハードウェア層でビットフリップとして現れる。
これらの誤差はSNN加速器の計算エンジンの重み値とニューロン操作を変化させ、誤った出力と精度の低下をもたらす。
しかし、SNNでは、計算エンジンにおけるソフトエラーの影響と各緩和技術が十分に研究されていない。
潜在的な解決策は、正しいアウトプットを保証するために冗長な実行(再実行)を採用することですが、大きなレイテンシとエネルギーオーバーヘッドをもたらします。
そこで本研究では,SNNアクセラレータの重みレジスタ(シナプス)とニューロンのソフトエラーを再実行することなく軽減し,低レイテンシとエネルギーオーバーヘッドで精度を維持する手法であるSoftSNNを提案する。
Our SoftSNN methodology employs the following key steps: (1) analyzing the SNN characteristics under soft errors to identify faulty weights and neuron operations, which are required for recognizing faulty SNN behavior; (2) a Bound-and-Protect technique that leverages this analysis to improve the SNN fault tolerance by bounding the weight values and protecting the neurons from faulty operations; and (3) devising lightweight hardware enhancements for the neural hardware accelerator to efficiently support the proposed technique.
実験の結果,高い故障率をもった900ニューロンネットワークの場合,SoftSNNは3%未満の精度低下を維持しつつ,それぞれ3倍,2.3倍の遅延とエネルギー削減を実現していることがわかった。 Specialized hardware accelerators have been designed and employed to maximize the performance efficiency of Spiking Neural Networks (SNNs). However, such accelerators are vulnerable to transient faults (i.e., soft errors), which occur due to high-energy particle strikes, and manifest as bit flips at the hardware layer. These errors can change the weight values and neuron operations in the compute engine of SNN accelerators, thereby leading to incorrect outputs and accuracy degradation. However, the impact of soft errors in the compute engine and the respective mitigation techniques have not been thoroughly studied yet for SNNs. A potential solution is employing redundant executions (re-execution) for ensuring correct outputs, but it leads to huge latency and energy overheads. Toward this, we propose SoftSNN, a novel methodology to mitigate soft errors in the weight registers (synapses) and neurons of SNN accelerators without re-execution, thereby maintaining the accuracy with low latency and energy overheads. Our SoftSNN methodology employs the following key steps: (1) analyzing the SNN characteristics under soft errors to identify faulty weights and neuron operations, which are required for recognizing faulty SNN behavior; (2) a Bound-and-Protect technique that leverages this analysis to improve the SNN fault tolerance by bounding the weight values and protecting the neurons from faulty operations; and (3) devising lightweight hardware enhancements for the neural hardware accelerator to efficiently support the proposed technique. The experimental results show that, for a 900-neuron network with even a high fault rate, our SoftSNN maintains the accuracy degradation below 3%, while reducing latency and energy by up to 3x and 2.3x respectively, as compared to the re-execution technique. | 翻訳日:2022-03-11 15:27:01 公開日:2022-03-10 |
# (参考訳) ランダム線形特徴を持つ過パラメータ回帰のバイアス分散分解 Bias-variance decomposition of overparameterized regression with random linear features ( http://arxiv.org/abs/2203.05443v1 ) ライセンス: CC BY 4.0 | Jason W. Rocks, Pankaj Mehta | (参考訳) 古典統計学において、バイアス分散トレードオフは、モデルの複雑さ(例えば、適合パラメータの数)が正確な予測を行う能力にどのように影響するかを記述する。
このトレードオフによると、モデルがデータのトレンドを捉えるのに十分な表現力を持つ場合に最適なパフォーマンスが達成されるが、トレーニングデータの慣用的な特徴に過度に適合するほど複雑ではない。
近年、このバイアス分散の古典的な理解は、「過剰パラメータモデル」の驚くべき予測性能に照らして、基本的に再検討されなければならないことが明らかになっている。
ここでは、過パラメータ化モデルの最も単純な例の1つとして、ランダムな線形特徴を持つ回帰(線形アクティベーション関数を持つ2層ニューラルネットワーク)を示す。
ゼロ温度キャビティ法を用いて, トレーニング誤差, テスト誤差, バイアス, 分散の解析式を導出する。
線形ランダム特徴モデルは3つの相転移を示す: トレーニング誤差がゼロである補間系への2つの異なる遷移と、バイアスが大きくバイアスが最小な系間の付加的な遷移である。
ランダム行列理論を用いて、ヘッセン行列の小さな非ゼロ固有値によって各遷移がどのように生じるかを示す。
最後に、ランダムな線形特徴モデルの位相図とランダムな非線形特徴モデルと通常の回帰とを比較して、線形基底関数の使用による新たな位相遷移を強調した。 In classical statistics, the bias-variance trade-off describes how varying a model's complexity (e.g., number of fit parameters) affects its ability to make accurate predictions. According to this trade-off, optimal performance is achieved when a model is expressive enough to capture trends in the data, yet not so complex that it overfits idiosyncratic features of the training data. Recently, it has become clear that this classic understanding of the bias-variance must be fundamentally revisited in light of the incredible predictive performance of "overparameterized models" -- models that avoid overfitting even when the number of fit parameters is large enough to perfectly fit the training data. Here, we present results for one of the simplest examples of an overparameterized model: regression with random linear features (i.e. a two-layer neural network with a linear activation function). Using the zero-temperature cavity method, we derive analytic expressions for the training error, test error, bias, and variance. We show that the linear random features model exhibits three phase transitions: two different transitions to an interpolation regime where the training error is zero, along with an additional transition between regimes with large bias and minimal bias. Using random matrix theory, we show how each transition arises due to small nonzero eigenvalues in the Hessian matrix. Finally, we compare and contrast the phase diagram of the random linear features model to the random nonlinear features model and ordinary regression, highlighting the new phase transitions that result from the use of linear basis functions. | 翻訳日:2022-03-11 15:26:00 公開日:2022-03-10 |
# projUNN: ユニタリ行列を用いたディープネットワークの効率的なトレーニング方法 projUNN: efficient method for training deep networks with unitary matrices ( http://arxiv.org/abs/2203.05483v1 ) ライセンス: Link先を確認 | Bobak Kiani, Randall Balestriero, Yann Lecun, Seth Lloyd | (参考訳) 繰り返しまたは非常に深いフィードフォワードネットワークで学習する場合、各層に一元行列を用いることは、長距離安定性を維持するのに非常に効果的である。
しかし、ネットワークパラメータをユニタリに制限することは、通常、高価なパラメータ化やトレーニングランタイムの増加のコストがかかる。
代わりに、ほぼ最適なトレーニングランタイムでパフォーマンスを維持する、ランク-$k$ 更新 -- またはランク-$k$近似 -- に基づく効率的なメソッドを提案します。
本手法の2つの変種である Direct (projUNN-D) と Tangent (projUNN-T) は、フル$N$次元のユニタリ行列や直交行列を$O(kN^2)$としてパラメータ化することができる。
本手法は, 最寄りのユニタリ行列 (projUNN-T) に低ランク勾配を投影するか, 低ランク勾配 (projUNN-D) の方向にユニタリ行列を輸送する。
最速設定(k=1$)であっても、projunnはモデルのユニタリパラメータをトレーニングして、ベースライン実装と同等のパフォーマンスに達することができる。
ProjUNNアルゴリズムをリカレントニューラルネットワークと畳み込みニューラルネットワークの両方に統合することで、我々のモデルは最先端のアルゴリズムのベンチマーク結果と密に一致または超えることができる。 In learning with recurrent or very deep feed-forward networks, employing unitary matrices in each layer can be very effective at maintaining long-range stability. However, restricting network parameters to be unitary typically comes at the cost of expensive parameterizations or increased training runtime. We propose instead an efficient method based on rank-$k$ updates -- or their rank-$k$ approximation -- that maintains performance at a nearly optimal training runtime. We introduce two variants of this method, named Direct (projUNN-D) and Tangent (projUNN-T) projected Unitary Neural Networks, that can parameterize full $N$-dimensional unitary or orthogonal matrices with a training runtime scaling as $O(kN^2)$. Our method either projects low-rank gradients onto the closest unitary matrix (projUNN-T) or transports unitary matrices in the direction of the low-rank gradient (projUNN-D). Even in the fastest setting ($k=1$), projUNN is able to train a model's unitary parameters to reach comparable performances against baseline implementations. By integrating our projUNN algorithm into both recurrent and convolutional neural networks, our models can closely match or exceed benchmarked results from state-of-the-art algorithms. | 翻訳日:2022-03-11 14:43:10 公開日:2022-03-10 |
# コンテキストはすべて:動的適応のための暗黙の識別 Context is Everything: Implicit Identification for Dynamics Adaptation ( http://arxiv.org/abs/2203.05549v1 ) ライセンス: Link先を確認 | Ben Evans, Abitha Thankaraj, Lerrel Pinto | (参考訳) ロボットが安全に最適な行動をとるためには、環境力学を理解する必要がある。
現実的なシナリオでは、ダイナミクスは定常的ではなく、環境パラメータなどの因果変数はトレーニング中にも正確に測定または推測することはできない。
本研究では,環境変動に適応する予測モデルを実現するための簡易な手法であるインプリシット同定法(IIDA)を提案する。
IIDAは、世界の真のバリエーションへのアクセスを前提とせず、少数のコンテキストデータから環境の特性を暗黙的に推論する。
我々は,ミュージョコ環境のシミュレーション実験と実ロボットの動的スライディングタスクにより,iiidaの非知覚環境における良好な性能を実証する。
一般に、IIDAはモデルエラーを著しく低減し、一般的に使われているメソッドよりも高いタスク性能をもたらす。
私たちのコードとロボットビデオはhttps://bennevans.github.io/iida/にある。 Understanding environment dynamics is necessary for robots to act safely and optimally in the world. In realistic scenarios, dynamics are non-stationary and the causal variables such as environment parameters cannot necessarily be precisely measured or inferred, even during training. We propose Implicit Identification for Dynamics Adaptation (IIDA), a simple method to allow predictive models to adapt to changing environment dynamics. IIDA assumes no access to the true variations in the world and instead implicitly infers properties of the environment from a small amount of contextual data. We demonstrate IIDA's ability to perform well in unseen environments through a suite of simulated experiments on MuJoCo environments and a real robot dynamic sliding task. In general, IIDA significantly reduces model error and results in higher task performance over commonly used methods. Our code and robot videos are at https://bennevans.github.io/iida/ | 翻訳日:2022-03-11 14:42:45 公開日:2022-03-10 |
# 異なるプライベートな学習は、隠れた状態(あるいははるかに高速な収束)を必要とする Differentially Private Learning Needs Hidden State (Or Much Faster Convergence) ( http://arxiv.org/abs/2203.05363v1 ) ライセンス: Link先を確認 | Jiayuan Ye, Reza Shokri | (参考訳) ランダム化学習アルゴリズムの微分プライバシー解析は通常合成定理に依存するが、暗黙の仮定では反復アルゴリズムの内部状態が敵に明らかにされる。
しかし、DPアルゴリズムの隠れ状態(最終項目のみが観測可能である場合)を仮定することにより、最近の研究は、O(1/\text{step-size})$ epochsの後の構成境界よりもはるかに小さいノイズ勾配降下(強い凸滑らかな損失関数)に対する収束プライバシーを証明している。
本稿では,この隠れ状態解析を,強凸滑らかな損失関数に対する微小バッチ確率勾配降下アルゴリズムに拡張する。
DP-SGDの実践的な実装であるシャッフル・アンド・パーティション(シャッフル・アンド・パーティション)や「交換なしサンプリング」など,様々なミニバッチサンプリングスキームの下でR\enyi DP境界を収束させることを実証する。
これらの設定では、私たちのプライバシ境界が、多数のイテレーション(高次元データから学ぶ場合)でトレーニングを行うための構成よりもはるかに小さいことを証明しています。
私たちの収束するプライバシー分析は、差分的にプライベートな学習は、厳密な拘束力を持って、隠れた状態のプライバシー分析または高速な収束を必要とすることを示している。
理論的結果の補完として,MNIST,FMNIST,CIFAR-10データセットのトレーニング分類モデルを実験し,固定されたプライバシー予算が与えられた場合,隠れ状態解析の下でより正確な精度を観察する。 Differential privacy analysis of randomized learning algorithms typically relies on composition theorems, where the implicit assumption is that the internal state of the iterative algorithm is revealed to the adversary. However, by assuming hidden states for DP algorithms (when only the last-iterate is observable), recent works prove a converging privacy bound for noisy gradient descent (on strongly convex smooth loss function) that is significantly smaller than composition bounds after $O(1/\text{step-size})$ epochs. In this paper, we extend this hidden-state analysis to the noisy mini-batch stochastic gradient descent algorithms on strongly-convex smooth loss functions. We prove converging R\'enyi DP bounds under various mini-batch sampling schemes, such as "shuffle and partition" (which are used in practical implementations of DP-SGD) and "sampling without replacement". We prove that, in these settings, our privacy bound is much smaller than the composition bound for training with a large number of iterations (which is the case for learning from high-dimensional data). Our converging privacy analysis, thus, shows that differentially private learning, with a tight bound, needs hidden state privacy analysis or a fast convergence. To complement our theoretical results, we run experiment on training classification models on MNIST, FMNIST and CIFAR-10 datasets, and observe a better accuracy given fixed privacy budgets, under the hidden-state analysis. | 翻訳日:2022-03-11 14:42:29 公開日:2022-03-10 |
# ガウス過程回帰における滑らか度パラメータ推定のための漸近境界 Asymptotic Bounds for Smoothness Parameter Estimates in Gaussian Process Regression ( http://arxiv.org/abs/2203.05400v1 ) ライセンス: Link先を確認 | Toni Karvonen | (参考訳) コンピュータ実験の出力のような決定論的応答関数をマット・エルン共分散核を持つガウス過程としてモデル化するのが一般的である。
mat\'ernカーネルの滑らかさパラメータは、応答関数に対する条件付き平均の収束率など、大きなデータ限界におけるモデルの多くの重要な特性を決定する。
我々は、データが$\mathbb{r}^d$ の固定有界部分集合上で得られるとき、滑らか性パラメータの最大確率とクロスバリデーション推定は漸近的に真理を覆すことができないことを証明した。
つまり、データ生成応答関数が sobolev smoothness $\nu_0 + d/2$ を持つならば、より多くのデータが得られれば、滑らかさパラメータの推定値は $\nu_0$ 以下となることはない。
これらの結果は一般定理に基づくもので、カーネルヒルベルト空間法を用いて証明され、パラメータ推定が取れない値の集合とソボレフ空間における近似理論についてである。 It is common to model a deterministic response function, such as the output of a computer experiment, as a Gaussian process with a Mat\'ern covariance kernel. The smoothness parameter of a Mat\'ern kernel determines many important properties of the model in the large data limit, such as the rate of convergence of the conditional mean to the response function. We prove that the maximum likelihood and cross-validation estimates of the smoothness parameter cannot asymptotically undersmooth the truth when the data are obtained on a fixed bounded subset of $\mathbb{R}^d$. That is, if the data-generating response function has Sobolev smoothness $\nu_0 + d/2$, then the smoothness parameter estimates cannot remain below $\nu_0$ as more data are obtained. These results are based on a general theorem, proved using reproducing kernel Hilbert space techniques, about sets of values the parameter estimates cannot take and approximation theory in Sobolev spaces. | 翻訳日:2022-03-11 14:41:57 公開日:2022-03-10 |
# 微分プライバシーにおける完全適応構成 Fully Adaptive Composition in Differential Privacy ( http://arxiv.org/abs/2203.05481v1 ) ライセンス: Link先を確認 | Justin Whitehouse and Aaditya Ramdas and Ryan Rogers and Zhiwei Steven Wu | (参考訳) 構成は差分プライバシーの重要な特徴である。
よく知られている高度な合成定理は、プライバシの基本的な構成が許すよりも2倍の頻度でプライベートデータベースをクエリできる。
しかし、これらの結果は、すべてのアルゴリズムのプライバシパラメータをデータとやりとりする前に修正する必要がある。
これを解決するためにRogersらは、アルゴリズムとプライバシパラメータの両方を適応的に選択できる完全適応型合成を導入した。
著者らは、適応的な構成でプライバシを測定するための2つの確率的オブジェクトを紹介した。プライバシーフィルタは、構成されたインタラクションに対する異なるプライバシ保証を提供する。
高度な合成と既存のフィルターとオドメーターの間には大きなギャップがある。
まず、既存のフィルタは、構成されるアルゴリズムに強い仮定を与える。
第二に、これらのオドメータとフィルターは大きな定数に苦しめられ、実用的でない。
適応的に選択されたプライバシパラメータが許されているにもかかわらず、定数を含む高度な構成の厳密さに適合するフィルタを構築する。
また、オドメーターの一般的なファミリーもいくつか構築する。
これらのオドメータは、任意の、事前選択された時点、あるいは全ての時点において、二重対数係数まで、高度な組成のタイトネスを一致させることができる。
我々は, 時間均一マルティンゲール濃度の最近の進歩を利用して, 結果を得た。
結論として,完全適応プライバシは損失がほとんどなく取得可能であり,その結果は(定数においても)本質的に改善不可能である,と推測する。 Composition is a key feature of differential privacy. Well-known advanced composition theorems allow one to query a private database quadratically more times than basic privacy composition would permit. However, these results require that the privacy parameters of all algorithms be fixed before interacting with the data. To address this, Rogers et al. introduced fully adaptive composition, wherein both algorithms and their privacy parameters can be selected adaptively. The authors introduce two probabilistic objects to measure privacy in adaptive composition: privacy filters, which provide differential privacy guarantees for composed interactions, and privacy odometers, time-uniform bounds on privacy loss. There are substantial gaps between advanced composition and existing filters and odometers. First, existing filters place stronger assumptions on the algorithms being composed. Second, these odometers and filters suffer from large constants, making them impractical. We construct filters that match the tightness of advanced composition, including constants, despite allowing for adaptively chosen privacy parameters. We also construct several general families of odometers. These odometers can match the tightness of advanced composition at an arbitrary, preselected point in time, or at all points in time simultaneously, up to a doubly-logarithmic factor. We obtain our results by leveraging recent advances in time-uniform martingale concentration. In sum, we show that fully adaptive privacy is obtainable at almost no loss, and conjecture that our results are essentially unimprovable (even in constants) in general. | 翻訳日:2022-03-11 14:41:36 公開日:2022-03-10 |
# 英語マスク語モデルにおける種族言語と非ヒト動物バイアス Speciesist Language and Nonhuman Animal Bias in English Masked Language Models ( http://arxiv.org/abs/2203.05140v1 ) ライセンス: Link先を確認 | Masashi Takeshita and Rafal Rzepka and Kenji Araki | (参考訳) 既存の様々な研究は、NLPモデルによってどのような社会的バイアスが受け継がれているかを分析してきた。
これらのバイアスは直接的または間接的に人を傷つける可能性があるため、以前の研究は人的属性のみに焦点を当ててきた。
NLPモデルの社会的バイアスが人間に間接的に有害である場合、モデルが間接的に非ヒト動物に害を与えることもある。
しかし、最近までNLPにおける非ヒトに関する社会的偏見の研究は存在しなかった。
本稿では,非ヒト動物,すなわち英語のマスキング言語モデルに内在する種主義者バイアスに対するバイアスを分析する。
このバイアスを、種族主義(または非種族主義)言語を含むテンプレートベースおよびコーパス抽出文を用いて分析し、有害な単語と非ヒト動物を関連付ける傾向を示す。
実験を再現するためのコードはgithubで入手できる予定です。 Various existing studies have analyzed what social biases are inherited by NLP models. These biases may directly or indirectly harm people, therefore previous studies have focused only on human attributes. If the social biases in NLP models can be indirectly harmful to humans involved, then the models can also indirectly harm nonhuman animals. However, until recently no research on social biases in NLP regarding nonhumans existed. In this paper, we analyze biases to nonhuman animals, i.e. speciesist bias, inherent in English Masked Language Models. We analyze this bias using template-based and corpus-extracted sentences which contain speciesist (or non-speciesist) language, to show that these models tend to associate harmful words with nonhuman animals. Our code for reproducing the experiments will be made available on GitHub. | 翻訳日:2022-03-11 14:40:28 公開日:2022-03-10 |
# 共同エンティティアライメントとダンピングエンティティ検出のための高精度な教師なし手法 An Accurate Unsupervised Method for Joint Entity Alignment and Dangling Entity Detection ( http://arxiv.org/abs/2203.05147v1 ) ライセンス: Link先を確認 | Shengxuan Luo, Sheng Yu | (参考訳) 知識グラフの統合は通常、アライメント・クロス・ナレッジグラフ(KG)を見つけることができない広く存在するダングリングエンティティに悩まされる。
ダングリングエンティティセットは現実世界のほとんどのシナリオでは利用できず、同じ意味を持つエンティティで構成されたエンティティペアを手作業でマイニングする。
本稿では,DAD(Dangling entity detection, DED)とEA(Content Entityアライメント)を併用した新しいUnsupervised法を提案する。
UEDは、リテラル意味情報をマイニングして擬似エンティティペアを生成し、グローバルにEAのアライメント情報を導出し、EA結果を利用してDEDを支援する。
我々は、医療用言語間知識グラフデータセットMedEDを構築し、EAタスクとDEDタスクの両方にデータを提供する。
UEDはEAタスクにおいて、最先端のEAベースラインに匹敵するEA結果を達成し、管理されたEAデータを組み合わせることで現在の最先端のEAメソッドを上回る性能を発揮することを実証している。
DEDタスクでは、UDEは監督なしで高品質な結果を得る。 Knowledge graph integration typically suffers from the widely existing dangling entities that cannot find alignment cross knowledge graphs (KGs). The dangling entity set is unavailable in most real-world scenarios, and manually mining the entity pairs that consist of entities with the same meaning is labor-consuming. In this paper, we propose a novel accurate Unsupervised method for joint Entity alignment (EA) and Dangling entity detection (DED), called UED. The UED mines the literal semantic information to generate pseudo entity pairs and globally guided alignment information for EA and then utilizes the EA results to assist the DED. We construct a medical cross-lingual knowledge graph dataset, MedED, providing data for both the EA and DED tasks. Extensive experiments demonstrate that in the EA task, UED achieves EA results comparable to those of state-of-the-art supervised EA baselines and outperforms the current state-of-the-art EA methods by combining supervised EA data. For the DED task, UED obtains high-quality results without supervision. | 翻訳日:2022-03-11 14:39:36 公開日:2022-03-10 |
# 神経機械翻訳のための双方向デコーダを用いた自己認識蒸留 Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation ( http://arxiv.org/abs/2203.05248v1 ) ライセンス: Link先を確認 | Xuanwei Zhang and Libin Shen and Disheng Pan and Liang Wang and Yanjun Miao | (参考訳) ニューラルネットワーク翻訳(NMT)モデルは通常、一方向デコーダを用いて訓練される。
しかしながら、このような一方向のデコーディングフレームワークは、グローバルコヒーレンスではなく、局所的な構造にフォーカスする傾向がある。
この問題を軽減するために,ニューラルマシン翻訳のための双方向デコーダを用いた自己知識蒸留法(SBD-NMT)を提案する。
我々は、フォワードデコーダに効果的な正規化手法として機能する後方デコーダをデプロイする。
長期的未来に関する後方デコーダの情報を活用することで、後方デコーダで学んだ知識を蒸留することで、自動回帰NMTモデルを先進的な計画に導くことができる。
実験の結果,複数機械翻訳データセットの強変圧器ベースラインよりも有意に優れていることがわかった。
私たちのコードはもうすぐgithubでリリースされるでしょう。 Neural Machine Translation(NMT) models are usually trained via unidirectional decoder which corresponds to optimizing one-step-ahead prediction. However, this kind of unidirectional decoding framework may incline to focus on local structure rather than global coherence. To alleviate this problem, we propose a novel method, Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation(SBD-NMT). We deploy a backward decoder which can act as an effective regularization method to the forward decoder. By leveraging the backward decoder's information about the longer-term future, distilling knowledge learned in the backward decoder can encourage auto-regressive NMT models to plan ahead. Experiments show that our method is significantly better than the strong Transformer baselines on multiple machine translation data sets. Our codes will be released on github soon. | 翻訳日:2022-03-11 14:39:16 公開日:2022-03-10 |
# OpenTAL: 時間的行動ローカライゼーションのオープン化を目指す OpenTAL: Towards Open Set Temporal Action Localization ( http://arxiv.org/abs/2203.05114v1 ) ライセンス: Link先を確認 | Wentao Bao, Qi Yu, Yu Kong | (参考訳) 時間的行動局在 (tal) は教師付き学習パラダイムの下で著しく成功した。
しかし、既存のtalメソッドは、オープンワールドシナリオにおいて避けられない未知のアクションを処理できない閉集合の仮定に根ざしている。
本稿では,まず,オープン・セット・メタル(OSTAL)問題への一歩を踏み出し,エビデンシャル・ディープ・ラーニング(EDL)に基づく一般フレームワークOpenTALを提案する。
具体的には、opentalは不確実性対応行動分類、行動性予測、時間的位置回帰からなる。
重要度バランスedl法では,重要なサンプルからカテゴリー的証拠を収集することで分類の不確かさを学習する。
背景映像フレームから未知の動作を識別するために、正の未ラベル学習によって行動性が学習される。
この分類の不確かさは, 時間的局所化品質の指導を活かしてさらに校正される。
opental はオープンセットシナリオのための既存のtalモデルを可能にするために一般的であり、thums14 と activitynet1.3 ベンチマークの実験結果は本手法の有効性を示している。
コードと事前トレーニングされたモデルは、https://www.rit.edu/actionlab/opentalでリリースされている。 Temporal Action Localization (TAL) has experienced remarkable success under the supervised learning paradigm. However, existing TAL methods are rooted in the closed set assumption, which cannot handle the inevitable unknown actions in open-world scenarios. In this paper, we, for the first time, step toward the Open Set TAL (OSTAL) problem and propose a general framework OpenTAL based on Evidential Deep Learning (EDL). Specifically, the OpenTAL consists of uncertainty-aware action classification, actionness prediction, and temporal location regression. With the proposed importance-balanced EDL method, classification uncertainty is learned by collecting categorical evidence majorly from important samples. To distinguish the unknown actions from background video frames, the actionness is learned by the positive-unlabeled learning. The classification uncertainty is further calibrated by leveraging the guidance from the temporal localization quality. The OpenTAL is general to enable existing TAL models for open set scenarios, and experimental results on THUMOS14 and ActivityNet1.3 benchmarks show the effectiveness of our method. The code and pre-trained models are released at https://www.rit.edu/actionlab/opental. | 翻訳日:2022-03-11 14:36:31 公開日:2022-03-10 |
# MetAug: メタ機能拡張によるコントラスト学習 MetAug: Contrastive Learning via Meta Feature Augmentation ( http://arxiv.org/abs/2203.05119v1 ) ライセンス: Link先を確認 | Jiangmeng Li, Wenwen Qiang, Changwen Zheng, Bing Su, Hui Xiong | (参考訳) 対照的な学習とは何か?
対照的な学習は情報的特徴、すなわち「堅い」(正または負の)特徴に大きく依存していると我々は主張する。
初期の作品には、複雑なデータ拡張と大規模なバッチサイズやメモリバンクを適用することで、より有益な機能が含まれている。
このような特徴を探求する上での鍵となる課題は、ランダムなデータ拡張を適用することで、ソースのマルチビューデータが生成されることである。
これにより、このような拡張データから得られた特徴の情報性が制限される。
そこで本研究では,潜在空間における特徴を直接拡張し,大量の入力データなしで識別表現を学習することを提案する。
我々は,エンコーダの性能を考慮し,そのネットワークパラメータを更新する拡張ジェネレータを構築するメタ学習手法を実行する。
しかし、入力データが不十分なため、エンコーダは崩壊した特徴を学習し、拡張生成器を誤動作させる可能性がある。
退化写像を学習するエンコーダを避けるため、目的関数に新たなマージンインジェクション正規化が追加される。
1つの勾配バックプロパゲーションステップで全ての特徴を対比するために、従来のコントラスト損失ではなく最適化駆動型統一コントラスト損失を採用する。
本手法は,いくつかのベンチマークデータセットにおいて最先端の結果を得る。 What matters for contrastive learning? We argue that contrastive learning heavily relies on informative features, or "hard" (positive or negative) features. Early works include more informative features by applying complex data augmentations and large batch size or memory bank, and recent works design elaborate sampling approaches to explore informative features. The key challenge toward exploring such features is that the source multi-view data is generated by applying random data augmentations, making it infeasible to always add useful information in the augmented data. Consequently, the informativeness of features learned from such augmented data is limited. In response, we propose to directly augment the features in latent space, thereby learning discriminative representations without a large amount of input data. We perform a meta learning technique to build the augmentation generator that updates its network parameters by considering the performance of the encoder. However, insufficient input data may lead the encoder to learn collapsed features and therefore malfunction the augmentation generator. A new margin-injected regularization is further added in the objective function to avoid the encoder learning a degenerate mapping. To contrast all features in one gradient back-propagation step, we adopt the proposed optimization-driven unified contrastive loss instead of the conventional contrastive loss. Empirically, our method achieves state-of-the-art results on several benchmark datasets. | 翻訳日:2022-03-11 14:36:13 公開日:2022-03-10 |
# 適応的オートアタックによる対向ロバスト性の評価 Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack ( http://arxiv.org/abs/2203.05154v1 ) ライセンス: Link先を確認 | Ye Liu, Yaya Cheng, Lianli Gao, Xianglong Liu, Qilong Zhang, Jingkuan Song | (参考訳) 敵攻撃に対する防衛モデルは著しく成長しているが、実用的評価方法の欠如は進歩を妨げている。
評価は、予算の反復数とテストデータセットを考えると、防衛モデルのロバスト性の下限を求めるものとして定義できる。
実用的な評価方法は便利(パラメータフリー)、効率的(イテレーションが少ない)、信頼性(ロバスト性の下限に近づく)である。
この目標に向けて,テスト時間学習の効率と信頼性に対処したパラメータフリー適応オートアタック(a$^3$)評価手法を提案する。
具体的には、特定の防御モデルに対する敵の例が開始点のいくつかの規則に従うことを観察することで、評価を高速化するために適応方向初期化戦略を設計する。
さらに, 繰り返し回数の少ないロバスト性の下限に近づくために, オンライン統計ベースの廃棄戦略を提案し, 攻撃困難な画像を自動的に識別し, 放棄する。
大規模な実験は、我々のA$^3$の有効性を示す。
特に、A$^3$を50近い広く使われている防衛モデルに適用する。
既存のメソッドよりもずっと少ないイテレーション、すなわち平均で1/10ドル(10$\times$ speed up)を消費することで、すべてのケースでロバストな精度が低下します。
特に、cvpr 2021で1681チームから$\textbf{first place}$を獲得しました。
コードは、$\href{https://github.com/liuye6666/adaptive_auto_attack}{https://github.com/liuye6666/adaptive\_auto\_attack}$で入手できる。 Defense models against adversarial attacks have grown significantly, but the lack of practical evaluation methods has hindered progress. Evaluation can be defined as looking for defense models' lower bound of robustness given a budget number of iterations and a test dataset. A practical evaluation method should be convenient (i.e., parameter-free), efficient (i.e., fewer iterations) and reliable (i.e., approaching the lower bound of robustness). Towards this target, we propose a parameter-free Adaptive Auto Attack (A$^3$) evaluation method which addresses the efficiency and reliability in a test-time-training fashion. Specifically, by observing that adversarial examples to a specific defense model follow some regularities in their starting points, we design an Adaptive Direction Initialization strategy to speed up the evaluation. Furthermore, to approach the lower bound of robustness under the budget number of iterations, we propose an online statistics-based discarding strategy that automatically identifies and abandons hard-to-attack images. Extensive experiments demonstrate the effectiveness of our A$^3$. Particularly, we apply A$^3$ to nearly 50 widely-used defense models. By consuming much fewer iterations than existing methods, i.e., $1/10$ on average (10$\times$ speed up), we achieve lower robust accuracy in all cases. Notably, we won $\textbf{first place}$ out of 1681 teams in CVPR 2021 White-box Adversarial Attacks on Defense Models competitions with this method. Code is available at: $\href{https://github.com/liuye6666/adaptive_auto_attack}{https://github.com/liuye6666/adaptive\_auto\_attack}$ | 翻訳日:2022-03-11 14:35:49 公開日:2022-03-10 |
# MVP:マルチモーダル誘導型ビジュアル事前トレーニング MVP: Multimodality-guided Visual Pre-training ( http://arxiv.org/abs/2203.05175v1 ) ライセンス: Link先を確認 | Longhui Wei, Lingxi Xie, Wengang Zhou, Houqiang Li, Qi Tian | (参考訳) 近年,マスク付き画像モデリング(MIM)が視覚前訓練の有望な方向となっている。
視覚変換器の文脈では、MIMはトークンレベルの特徴を予め定義された空間に整列させることで効果的な視覚表現を学ぶ(例えば、BEITは大きな画像コーパスで訓練されたd-VAEをトークン化器として使用した)。
本稿では,他のモダリティからのガイダンスを導入し,その知識が視覚的事前学習において印象的な成果をもたらすことを検証し,さらに一歩前進する。
提案手法はmultimodality-guided visual pre-training (mvp) と呼ばれ、4億のイメージテキストペアで事前学習された視覚言語モデルである clip の vision branch にトークン化器を置き換える。
本研究では,vitモデルをimagenet上で事前学習し,下流の視覚認識タスクで微調整することにより,mvpの有効性を示す。
特に300エポックのViT-Base/16の事前トレーニングにおいて、MVPはADE20Kの52.4% mIoUを報告し、BEIT(ベースラインと以前の最先端技術)を6.8%で上回った。 Recently, masked image modeling (MIM) has become a promising direction for visual pre-training. In the context of vision transformers, MIM learns effective visual representation by aligning the token-level features with a pre-defined space (e.g., BEIT used a d-VAE trained on a large image corpus as the tokenizer). In this paper, we go one step further by introducing guidance from other modalities and validating that such additional knowledge leads to impressive gains for visual pre-training. The proposed approach is named Multimodality-guided Visual Pre-training (MVP), in which we replace the tokenizer with the vision branch of CLIP, a vision-language model pre-trained on 400 million image-text pairs. We demonstrate the effectiveness of MVP by performing standard experiments, i.e., pre-training the ViT models on ImageNet and fine-tuning them on a series of downstream visual recognition tasks. In particular, pre-training ViT-Base/16 for 300 epochs, MVP reports a 52.4% mIoU on ADE20K, surpassing BEIT (the baseline and previous state-of-the-art) with an impressive margin of 6.8%. | 翻訳日:2022-03-11 14:35:20 公開日:2022-03-10 |
# ラベル対プロトタイプ学習によるオープンセットテキスト認識 Towards Open-Set Text Recognition via Label-to-Prototype Learning ( http://arxiv.org/abs/2203.05179v1 ) ライセンス: Link先を確認 | Chang Liu, Chun Yang, Hai-Bo Qin, Xiaobin Zhu, JieBo Hou, and Xu-Cheng Yin | (参考訳) シーンテキスト認識は人気のあるトピックであり、様々なタスクに役立てることができる。
クローズセットのテキスト認識課題に対して多くの手法が提案されているが、評価セットがトレーニングセットに現れない新しい文字を含むオープンセットシナリオに直接適用することはできない。
従来の方法では新しいデータを集め、これらの新しい文字を扱うためにモデルを再トレーニングする必要があります。
本稿では,モデルを再学習することなく,新しい文字を扱えるラベル-プロトタイプ学習フレームワークを提案する。
提案フレームワークでは,新しい文字をラベル-プロトタイプ学習モジュールを用いて,対応するプロトタイプに効果的にマッピングする。
このモジュールはラベルのある文字で訓練されており、新しい文字に簡単に一般化することができる。
さらに、特徴レベルの修正はトポロジ保存変換によって行われ、結果として視覚的特徴と構築されたプロトタイプとの整合性が向上し、モデル速度に適度に小さな影響を及ぼす。
多くの実験により,ゼロショット,クローズセット,オープンセットのテキスト認識データセットで有望な性能が得られることが示された。 Scene text recognition is a popular topic and can benefit various tasks. Although many methods have been proposed for the close-set text recognition challenges, they cannot be directly applied to open-set scenarios, where the evaluation set contains novel characters not appearing in the training set. Conventional methods require collecting new data and retraining the model to handle these novel characters, which is an expensive and tedious process. In this paper, we propose a label-to-prototype learning framework to handle novel characters without retraining the model. In the proposed framework, novel characters are effectively mapped to their corresponding prototypes with a label-to-prototype learning module. This module is trained on characters with seen labels and can be easily generalized to novel characters. Additionally, feature-level rectification is conducted via topology-preserving transformation, resulting in better alignments between visual features and constructed prototypes while having a reasonably small impact on model speed. A lot of experiments show that our method achieves promising performance on a variety of zero-shot, close-set, and open-set text recognition datasets. | 翻訳日:2022-03-11 14:34:55 公開日:2022-03-10 |
# 効果的な事前学習としての知識蒸留:より高速な収束、データ効率の向上、伝達性の向上 Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability ( http://arxiv.org/abs/2203.05180v1 ) ライセンス: Link先を確認 | Ruifei He, Shuyang Sun, Jihan Yang, Song Bai and Xiaojuan Qi | (参考訳) 大規模事前学習は様々なコンピュータビジョンタスクに不可欠であることが証明されている。
しかし、事前学習データ量、モデルアーキテクチャ量、プライベート/アクセス不能データの増加により、大規模データセット上ですべてのモデルアーキテクチャを事前トレーニングすることは、あまり効率的・不可能である。
本研究では,学習した特徴表現を既存の事前学習モデルから,将来的な下流タスクのための新しい学生モデルへ効率的に伝達することを目的とした,事前学習のための代替戦略である知識蒸留(KDEP)について検討する。
既存の知識蒸留(KD)法は,下流のタスクに移行した場合に廃棄されるロジットを通常蒸留するため,事前学習には適さない。
この問題を解決するために,非パラメトリックな特徴次元アライメントを有する特徴量に基づくKD法を提案する。
特に,3つのダウンストリームタスクと9つのダウンストリームデータセットで教師付き事前トレーニングを行う場合,10倍のデータと5倍の事前トレーニング時間が必要となる。
コードはhttps://github.com/CVMI-Lab/KDEPで入手できる。 Large-scale pre-training has been proven to be crucial for various computer vision tasks. However, with the increase of pre-training data amount, model architecture amount, and the private/inaccessible data, it is not very efficient or possible to pre-train all the model architectures on large-scale datasets. In this work, we investigate an alternative strategy for pre-training, namely Knowledge Distillation as Efficient Pre-training (KDEP), aiming to efficiently transfer the learned feature representation from existing pre-trained models to new student models for future downstream tasks. We observe that existing Knowledge Distillation (KD) methods are unsuitable towards pre-training since they normally distill the logits that are going to be discarded when transferred to downstream tasks. To resolve this problem, we propose a feature-based KD method with non-parametric feature dimension aligning. Notably, our method performs comparably with supervised pre-training counterparts in 3 downstream tasks and 9 downstream datasets requiring 10x less data and 5x less pre-training time. Code is available at https://github.com/CVMI-Lab/KDEP. | 翻訳日:2022-03-11 14:33:14 公開日:2022-03-10 |
# NeRFocus:3次元合成デフォーカスのための神経放射場 NeRFocus: Neural Radiance Field for 3D Synthetic Defocus ( http://arxiv.org/abs/2203.05189v1 ) ライセンス: Link先を確認 | Yinhuai Wang, Shuzhou Yang, Yujie Hu and Jian Zhang | (参考訳) ニューラルレイディアンス場(NeRF)は3次元インタラクティブ体験のための新しい波をもたらす。
しかし、没入体験の重要な部分として、デフォーカス効果はNeRF内で完全には研究されていない。
近年のNeRF法では, 多面体技術を利用して3次元デフォーカス効果を後処理で生成している。
それでも、それらは時間消費かメモリ消費のいずれかです。
本稿では,NeRFocusと呼ばれる様々な3次元デフォーカス効果を直接レンダリングできる,薄膜イメージングベースの新しいNeRFフレームワークを提案する。
ピンホールとは異なり、薄いレンズはシーンポイントの光を屈折させるので、センサー面上のイメージングは混乱の円(CoC)として散乱する。
この過程を近似するのに十分な光線をサンプリングする直接解法は計算に高価である。
代わりに,センサ面上の各点のビームパスを明示的にモデル化し,このパラダイムを各画素のビームパスに一般化し,フラストムベースのボリュームレンダリングを用いて各画素のビームパスを描画する。
さらに,効率の良い確率的トレーニング(p-training)戦略を考案し,トレーニングプロセスを大幅に単純化する。
我々のNeRFocusは、調整可能なカメラポーズ、焦点距離、開口サイズで様々な3Dデフォーカス効果を達成できることを示した。
既存のNeRFは,フィールド深度画像の描画に開口径を0に設定することで,我々の特別な場合とみなすことができる。
このような利点にもかかわらず、NeRFocusはNeRFの本来の性能(例えば、トレーニングと推論時間、パラメータ消費、レンダリング品質)を犠牲にしていない。 Neural radiance fields (NeRF) bring a new wave for 3D interactive experiences. However, as an important part of the immersive experiences, the defocus effects have not been fully explored within NeRF. Some recent NeRF-based methods generate 3D defocus effects in a post-process fashion by utilizing multiplane technology. Still, they are either time-consuming or memory-consuming. This paper proposes a novel thin-lens-imaging-based NeRF framework that can directly render various 3D defocus effects, dubbed NeRFocus. Unlike the pinhole, the thin lens refracts rays of a scene point, so its imaging on the sensor plane is scattered as a circle of confusion (CoC). A direct solution sampling enough rays to approximate this process is computationally expensive. Instead, we propose to inverse the thin lens imaging to explicitly model the beam path for each point on the sensor plane and generalize this paradigm to the beam path of each pixel, then use the frustum-based volume rendering to render each pixel's beam path. We further design an efficient probabilistic training (p-training) strategy to simplify the training process vastly. Extensive experiments demonstrate that our NeRFocus can achieve various 3D defocus effects with adjustable camera pose, focus distance, and aperture size. Existing NeRF can be regarded as our special case by setting aperture size as zero to render large depth-of-field images. Despite such merits, NeRFocus does not sacrifice NeRF's original performance (e.g., training and inference time, parameter consumption, rendering quality), which implies its great potential for broader application and further improvement. | 翻訳日:2022-03-11 14:32:54 公開日:2022-03-10 |
# 相互蒸留によるオンライン深層計量学習 Online Deep Metric Learning via Mutual Distillation ( http://arxiv.org/abs/2203.05201v1 ) ライセンス: Link先を確認 | Gao-Dong Liu, Wan-Lei Zhao, Jie Zhao | (参考訳) ディープ・メトリック・ラーニング(Deep metric learning)は、入力データを埋め込み空間に変換することを目的としており、類似したサンプルが近接し、異種サンプルが互いに遠く離れている。
実際には、新しいカテゴリのサンプルが徐々に到着し、学習モデルの定期的な拡張を必要とする。
新しいカテゴリーの微調整は、通常「破滅的な忘れ物」として知られる古いカテゴリのパフォーマンスの低下につながる。
既存のソリューションは、スクラッチからモデルをリトレーニングするか、トレーニング中に古いサンプルをリプレイする必要がある。
本稿では,1タスクシナリオとマルチタスクシナリオの相互蒸留に基づく,完全なオンラインディープメトリック学習フレームワークを提案する。
教師と教師の枠組みとは異なり、提案されたアプローチは、古い学習タスクと新しい学習タスクを等しく扱う。
古い知識や新しい知識に対する選好は起こらない。
また,古いモデルから抽出されたと考えられる特徴を復元するために,新しい仮想特徴量推定手法を提案する。
これは、古いトレーニングサンプルの再生や、トレーニング中に古いモデルの保持なしに、新しいモデルと古いモデルの蒸留を可能にする。
総合的な研究は、異なるバックボーンのサポートによるアプローチの優れたパフォーマンスを示している。 Deep metric learning aims to transform input data into an embedding space, where similar samples are close while dissimilar samples are far apart from each other. In practice, samples of new categories arrive incrementally, which requires the periodical augmentation of the learned model. The fine-tuning on the new categories usually leads to poor performance on the old, which is known as "catastrophic forgetting". Existing solutions either retrain the model from scratch or require the replay of old samples during the training. In this paper, a complete online deep metric learning framework is proposed based on mutual distillation for both one-task and multi-task scenarios. Different from the teacher-student framework, the proposed approach treats the old and new learning tasks with equal importance. No preference over the old or new knowledge is caused. In addition, a novel virtual feature estimation approach is proposed to recover the features assumed to be extracted by the old models. It allows the distillation between the new and the old models without the replay of old training samples or the holding of old models during the training. A comprehensive study shows the superior performance of our approach with the support of different backbones. | 翻訳日:2022-03-11 14:32:13 公開日:2022-03-10 |
# クラウドソースのシーン変更検出とローカルマップ更新 Crowd Source Scene Change Detection and Local Map Update ( http://arxiv.org/abs/2203.05205v1 ) ライセンス: Link先を確認 | Itzik Wilf, Nati Daniel, Lin Manqing, Firas Shama, Omri Asraf, Feng Wensen, Ofer Kruzel | (参考訳) タイムマップ記述子でシーンが変化すると、VPSのローカライゼーション精度が悪くなる。
本研究では,地図更新に追従する構造やテクスチャのシーン変化を検出する手法を提案する。
この方法では、地図はLiDARまたはSFMを介して生成された記述子を持つ3Dポイントを含む。
一般的なアプローチは欠点に苦しむ。
1) 変更検出のための2つのポイントクラウドの直接比較は、比較するたびに新しいポイントクラウドを構築する必要があるため、遅い。
2)画像に基づく比較では,マップ画像にかなりのストレージオーバーヘッドを付加する必要がある。
この問題を回避するために,ポイントクラウド記述子比較に基づくアプローチを提案する。
1)vpsに基づくクローズクイッククエリとマップイメージペアの選択。
2)地図画像記述子への問合せ画像の登録
3)分節を用いて動的又は短期的な時間変化をフィルタリングする。
4) 対応するセグメント間で記述子を比較する。 As scene changes with time map descriptors become outdated, affecting VPS localization accuracy. In this work, we propose an approach to detect structural and texture scene changes to be followed by map update. In our method - map includes 3D points with descriptors generated either via LiDAR or SFM. Common approaches suffer from shortcomings: 1) Direct comparison of the two point-clouds for change detection is slow due to the need to build new point-cloud every time we want to compare; 2) Image based comparison requires to keep the map images adding substantial storage overhead. To circumvent this problems, we propose an approach based on point-clouds descriptors comparison: 1) Based on VPS poses select close query and map images pairs, 2) Registration of query images to map image descriptors, 3) Use segmentation to filter out dynamic or short term temporal changes, 4) Compare the descriptors between corresponding segments. | 翻訳日:2022-03-11 14:31:56 公開日:2022-03-10 |
# グローバルレベルと単語レベルの特徴に基づくリアルタイムシーンテキスト検出 Real-time Scene Text Detection Based on Global Level and Word Level Features ( http://arxiv.org/abs/2203.05251v1 ) ライセンス: Link先を確認 | Fuqiang Zhao, Jionghua Yu, Enjun Xing, Wenming Song, and Xue Xu | (参考訳) 自然場面で任意の形状のテキストを高精度かつ効率良く検出することは極めて難しい課題である。
本稿では,グローバルモジュールとrcnnモジュールの2つのモジュールを主に含むgwnetというシーンテキスト検出フレームワークを提案する。
具体的には、グローバルモジュールは、kサブモジュールとシフトサブモジュールを追加することで、DBモジュールの適応性を改善する。
2つの部分加群は増幅係数 k の適応性を高め、モデルの収束を加速し、より正確な検出結果を得るのに役立つ。
RCNNモジュールはグローバルレベルとワードレベルの機能を融合する。
単語レベルラベルは、スランクポリゴンの最小軸方向の矩形ボックスを取得して生成される。
推論期間中、GWNetは単純なポリゴン検出を出力するためにグローバルレベルの機能のみを使用する。
MSRA-TD500、Total-Text、ICDAR2015、CTW-1500を含む4つのベンチマークデータセットの実験は、我々のGWNetが最先端の検出器よりも優れていることを示した。
具体的には、ResNet-50のバックボーンを用いて、MSRA-TD500で88.6%、トータルテキストで87.9%、ICDAR2015で89.2%、CTW-1500で87.5%のF測定を達成している。 It is an extremely challenging task to detect arbitrary shape text in natural scenes on high accuracy and efficiency. In this paper, we propose a scene text detection framework, namely GWNet, which mainly includes two modules: Global module and RCNN module. Specifically, Global module improves the adaptive performance of the DB (Differentiable Binarization) module by adding k submodule and shift submodule. Two submodules enhance the adaptability of amplifying factor k, accelerate the convergence of models and help to produce more accurate detection results. RCNN module fuses global-level and word-level features. The word-level label is generated by obtaining the minimum axis-aligned rectangle boxes of the shrunk polygon. In the inference period, GWNet only uses global-level features to output simple polygon detections. Experiments on four benchmark datasets, including the MSRA-TD500, Total-Text, ICDAR2015 and CTW-1500, demonstrate that our GWNet outperforms the state-of-the-art detectors. Specifically, with a backbone of ResNet-50, we achieve an F-measure of 88.6% on MSRA- TD500, 87.9% on Total-Text, 89.2% on ICDAR2015 and 87.5% on CTW-1500. | 翻訳日:2022-03-11 14:31:45 公開日:2022-03-10 |
# ポイントクラウドセグメンテーションのためのコントラスト境界学習 Contrastive Boundary Learning for Point Cloud Segmentation ( http://arxiv.org/abs/2203.05272v1 ) ライセンス: Link先を確認 | Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao | (参考訳) ポイントクラウドセグメンテーションは3D環境を理解するのに基本である。
しかし、現在の3Dポイントクラウドセグメンテーション手法は通常、シーン境界では性能が悪く、全体のセグメンテーション性能は低下する。
本稿では,シーン境界のセグメンテーションに着目した。
そこで我々はまず,シーン境界におけるセグメンテーション性能を評価するための指標を検討する。
境界上の不満足なパフォーマンスに対処するために,ポイントクラウドセグメンテーションのための新しいコントラスト境界学習(cbl)フレームワークを提案する。
特に,提案したCBLは,複数のスケールのシーンコンテキストの助けを借りて,その表現を対比することで,境界点間の特徴識別を強化する。
CBLを3つの異なるベースライン法に適用することにより、CBLは、例えばmIoUにおいて、異なるベースラインを一貫して改善し、バウンダリ上で魅力的なパフォーマンスを達成するのに役立つことを示す。
本手法の有効性と3次元点雲分割における境界の重要性を実験的に検証した。
コードとモデルはhttps://github.com/LiyaoTang/contrastBoundary.comで公開される。 Point cloud segmentation is fundamental in understanding 3D environments. However, current 3D point cloud segmentation methods usually perform poorly on scene boundaries, which degenerates the overall segmentation performance. In this paper, we focus on the segmentation of scene boundaries. Accordingly, we first explore metrics to evaluate the segmentation performance on scene boundaries. To address the unsatisfactory performance on boundaries, we then propose a novel contrastive boundary learning (CBL) framework for point cloud segmentation. Specifically, the proposed CBL enhances feature discrimination between points across boundaries by contrasting their representations with the assistance of scene contexts at multiple scales. By applying CBL on three different baseline methods, we experimentally show that CBL consistently improves different baselines and assists them to achieve compelling performance on boundaries, as well as the overall performance, eg in mIoU. The experimental results demonstrate the effectiveness of our method and the importance of boundaries for 3D point cloud segmentation. Code and model will be made publicly available at https://github.com/LiyaoTang/contrastBoundary. | 翻訳日:2022-03-11 14:31:25 公開日:2022-03-10 |
# オブジェクト検出のためのドメイン一般化 Domain Generalisation for Object Detection ( http://arxiv.org/abs/2203.05294v1 ) ライセンス: Link先を確認 | Karthik Seemakurthy, Charles Fox, Erchan Aptoula, Petra Bosilj | (参考訳) ドメイン一般化(domain generalization)は、ドメイン固有の特徴を抑制しながら、ドメイン不変な特徴の学習を促進することを目的としている。
本稿では,オブジェクト検出設定における領域一般化について検討する。
本稿では,境界ボックス検出器とドメインの双方を扱うための新しい用語を提案し,整合正則化を組み込む。
これにより、オブジェクト検出のためのドメインに依存しない特徴表現を学習でき、ドメインの一般化の問題に適用できます。
提案手法は、GWHD、Cityscapes、BDD100K、Sim10Kの4つの標準オブジェクト検出データセットを用いて評価され、ベースラインよりも一貫して優れた一般化性能を示す。 Domain generalisation aims to promote the learning of domain-invariant features while suppressing domain specific features, so that a model can generalise well on previously unseen target domains. This paper studies domain generalisation in the object detection setting. We propose new terms for handling both the bounding box detector and domain belonging, and incorporate them with consistency regularisation. This allows us to learn a domain agnostic feature representation for object detection, applicable to the problem of domain generalisation. The proposed approach is evaluated using four standard object detection datasets with available domain metadata, namely GWHD, Cityscapes, BDD100K, Sim10K and exhibits consistently superior generalisation performance over baselines. | 翻訳日:2022-03-11 14:31:07 公開日:2022-03-10 |
# selftune: 自己教師付き学習による計量的単眼深度推定 SelfTune: Metrically Scaled Monocular Depth Estimation through Self-Supervised Learning ( http://arxiv.org/abs/2203.05332v1 ) ライセンス: Link先を確認 | Jaehoon Choi, Dongki Jung, Yonghan Lee, Deokhwa Kim, Dinesh Manocha, Donghwan Lee | (参考訳) 野生における単分子深度推定は、本質的に未知のスケールまで深度を予測する。
そこで本研究では,単眼同時局在化マッピング(slam)と固有受容センサを用いた学習アルゴリズムを提案する。
このような単眼式スラムシステムは、メートル法的なカメラポーズを提供することができる。
これらの距離ポーズと単眼列を仮定し,事前学習した単眼深度ネットワークに対する自己教師あり学習法を提案する。
提案手法は,ネットワークを誘導して高品質な深度を予測する教師学生の定式化に基づいている。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能であることを示す。
本システムでは,最近のEuRoC,OpenLORIS,ScanNetデータセット上での自己教師付き深度推定および完了手法の改善を示す。 Monocular depth estimation in the wild inherently predicts depth up to an unknown scale. To resolve scale ambiguity issue, we present a learning algorithm that leverages monocular simultaneous localization and mapping (SLAM) with proprioceptive sensors. Such monocular SLAM systems can provide metrically scaled camera poses. Given these metric poses and monocular sequences, we propose a self-supervised learning method for the pre-trained supervised monocular depth networks to enable metrically scaled depth estimation. Our approach is based on a teacher-student formulation which guides our network to predict high-quality depths. We demonstrate that our approach is useful for various applications such as mobile robot navigation and is applicable to diverse environments. Our full system shows improvements over recent self-supervised depth estimation and completion methods on EuRoC, OpenLORIS, and ScanNet datasets. | 翻訳日:2022-03-11 14:29:57 公開日:2022-03-10 |
# タスク関連アンタングルメントと制御可能なサンプル合成による非生成的一般化ゼロショット学習 Non-generative Generalized Zero-shot Learning via Task-correlated Disentanglement and Controllable Samples Synthesis ( http://arxiv.org/abs/2203.05335v1 ) ライセンス: Link先を確認 | Yaogong Feng, Xiaowen Huang, Pengbo Yang, Jian Yu, Jitao Sang | (参考訳) 擬似サンプルの合成は、現在、一般化ゼロショット学習(GZSL)問題を解決する最も効果的な方法である。
多くのモデルは競争性能を達成しているが,(1)タスク関連やタスク非依存といった特徴は,信頼性の高い擬似サンプルを合成するには不合理な全体表現と,(2)既存のモデルが不確実な分布からサンプルを合成する際には大量のデータが必要である,という2つの問題に悩まされている。
本稿では,これらの問題に対応する非生成モデルを提案する。(1)タスク関連特徴の絡み合い,(2)適切な合成に向けてのドメイン適応の敵対学習によるタスク非依存特徴の排除,(2)制御可能な疑似サンプル合成,(2)エッジ・プセドとセンター・プセドのサンプルを,より多様性と直感的な伝達に向けて合成する。
学習過程におけるクラスサンプルの限界である新たなシーンを説明するために,「Few-shot Seen Class and Zero-shot Unseen Class Learning」(FSZU)という新たなZSLタスクを策定する。
4つのベンチマークにおいて、提案手法がGZSLとFSZUタスクで競合することを確認した。 Synthesizing pseudo samples is currently the most effective way to solve the Generalized Zero Shot Learning (GZSL) problem. Most models achieve competitive performance but still suffer from two problems: (1) feature confounding, that task-correlated and task-independent features are confounded in overall representations, which is unreasonable to synthesize reliable pseudo samples; and (2) distribution uncertainty, that massive data is needed when existing models synthesize samples from the uncertain distribution, which causes poor performance in limited samples of seen classes. In this paper, we propose a non-generative model to address these problems correspondingly in two modules: (1) Task-correlated feature disentanglement, to exclude the task-correlated features from task-independent ones by adversarial learning of domain adaption towards reasonable synthesis; and (2) Controllable pseudo sample synthesis, to synthesize edge-pseudo and center-pseudo samples with certain characteristics towards more diversity generated and intuitive transfer. To describe the new scene that is the limit seen class samples in the training process, we further formulate a new ZSL task named the 'Few-shot Seen class and Zero-shot Unseen class learning' (FSZU). Extensive experiments on four benchmarks verify that the proposed method is competitive in the GZSL and the FSZU tasks. | 翻訳日:2022-03-11 14:29:43 公開日:2022-03-10 |
# TrueType Transformer:アウトラインフォーマットにおける文字とフォントスタイルの認識 TrueType Transformer: Character and Font Style Recognition in Outline Format ( http://arxiv.org/abs/2203.05338v1 ) ライセンス: Link先を確認 | Yusuke Nagata, Jinki Otao, Daichi Haraguchi, and Seiichi Uchida | (参考訳) 本稿では,アウトライン形式で文字およびフォントスタイル認識が可能なtruetype transformer(t3)を提案する。
TrueTypeのようなアウトラインフォーマットは、各文字をストローク輪郭の制御点のシーケンスとして表現し、生まれながらのデジタル文書で頻繁に使用される。
t3はディープニューラルネットワーク、いわゆるトランスフォーマーによって構成されている。
Transformerはもともとテキストなどの逐次データに対して提案されており、アウトラインデータを扱うのに適している。
言い換えれば、T3はビットマップ画像に変換することなくアウトラインデータを直接受け入れる。
その結果、T3は分解能に依存しない分類を実現する。
また、制御点の位置はフォントスタイルの微細かつ局所的な構造を表すため、t3はフォントスタイル分類に適しており、そのような構造は非常に重要である。
本稿では,各制御点が分類結果にどう貢献するかを観察しながら,文字認識タスクとフォント認識タスクにおけるT3の適用性を実験的に示す。 We propose TrueType Transformer (T3), which can perform character and font style recognition in an outline format. The outline format, such as TrueType, represents each character as a sequence of control points of stroke contours and is frequently used in born-digital documents. T3 is organized by a deep neural network, so-called Transformer. Transformer is originally proposed for sequential data, such as text, and therefore appropriate for handling the outline data. In other words, T3 directly accepts the outline data without converting it into a bitmap image. Consequently, T3 realizes a resolution-independent classification. Moreover, since the locations of the control points represent the fine and local structures of the font style, T3 is suitable for font style classification, where such structures are very important. In this paper, we experimentally show the applicability of T3 in character and font style recognition tasks, while observing how the individual control points contribute to classification results. | 翻訳日:2022-03-11 14:29:07 公開日:2022-03-10 |
# 顔アンチスプーフィングのためのシャッフルスタイルアセンブリによるドメインの一般化 Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing ( http://arxiv.org/abs/2203.05340v1 ) ライセンス: Link先を確認 | Zhuo Wang, Zezheng Wang, Zitong Yu, Weihong Deng, Jiahong Li, Size Li, Zhongyuan Wang | (参考訳) 多様なプレゼンテーションアタックが絶え間なく出現する中、一般化可能な顔反偽造(FAS)が注目されている。
ほとんどの既存メソッドは完全表現にドメイン一般化(dg)を実装している。
しかし、異なる画像統計はFASタスクに固有の特性を持つ可能性がある。
この作業では、完全な表現をコンテンツとスタイルに分けます。
Shuffled Style Assembly Network (SSAN) は、スタイル化された特徴空間のための異なるコンテンツやスタイルの特徴を抽出し、再組み立てするために提案されている。
そして、一般化された表現を得るために、ドメイン固有の情報を抑えつつ、生活関連スタイル情報を強調するコントラスト学習戦略を開発する。
最後に、正しいアセンブリの表現は、推論中の生活とスプーフィングを区別するために使用される。
一方で,データ量と分布の違いから,学界と産業の間には依然としてギャップが存在する。
したがって、FASのための新しい大規模ベンチマークを構築し、実際のアルゴリズムの性能をさらに評価する。
既存のベンチマークと提案するベンチマークの質的および定量的な結果から,提案手法の有効性が示された。
コードはhttps://github.com/wangzhuo2019/ssanで入手できる。 With diverse presentation attacks emerging continually, generalizable face anti-spoofing (FAS) has drawn growing attention. Most existing methods implement domain generalization (DG) on the complete representations. However, different image statistics may have unique properties for the FAS tasks. In this work, we separate the complete representation into content and style ones. A novel Shuffled Style Assembly Network (SSAN) is proposed to extract and reassemble different content and style features for a stylized feature space. Then, to obtain a generalized representation, a contrastive learning strategy is developed to emphasize liveness-related style information while suppress the domain-specific one. Finally, the representations of the correct assemblies are used to distinguish between living and spoofing during the inferring. On the other hand, despite the decent performance, there still exists a gap between academia and industry, due to the difference in data quantity and distribution. Thus, a new large-scale benchmark for FAS is built up to further evaluate the performance of algorithms in reality. Both qualitative and quantitative results on existing and proposed benchmarks demonstrate the effectiveness of our methods. The codes will be available at https://github.com/wangzhuo2019/SSAN. | 翻訳日:2022-03-11 14:28:51 公開日:2022-03-10 |
# ロバストな海上障害物検出のための時間的文脈 Temporal Context for Robust Maritime Obstacle Detection ( http://arxiv.org/abs/2203.05352v1 ) ライセンス: Link先を確認 | Lojze \v{Z}ust and Matej Kristan | (参考訳) 完全無人無人表面車両(USV)にはロバスト海上障害物検出が不可欠である。
現在広く採用されているセグメンテーションに基づく障害物検出手法は、物体反射と太陽光を障害物として誤分類し、多くの偽陽性検出を生成し、usvナビゲーションに実用的でない手法を効果的に表示する傾向がある。
しかし、水乱流による物体反射の時間変化は、真の物体の外観力学と非常に異なる。
この特性を利用して,最近のフレームから時間的文脈を抽出する新しい海上障害物検出ネットワークwasr-tの設計を行い,曖昧さを低減した。
水面における物体反射の局所時間特性を学習することにより、WaSR-Tは反射やグリッターの存在下での障害物検出精度を大幅に向上する。
既存の単一フレーム法と比較して、wasr-tは偽陽性検出回数を41%削減し、ボートの危険域内で53%以上削減し、高いリコールを維持しつつ、挑戦的なmods海上障害物検出ベンチマークで新たな最先端性能を達成している。 Robust maritime obstacle detection is essential for fully autonomous unmanned surface vehicles (USVs). The currently widely adopted segmentation-based obstacle detection methods are prone to misclassification of object reflections and sun glitter as obstacles, producing many false positive detections, effectively rendering the methods impractical for USV navigation. However, water-turbulence-induced temporal appearance changes on object reflections are very distinctive from the appearance dynamics of true objects. We harness this property to design WaSR-T, a novel maritime obstacle detection network, that extracts the temporal context from a sequence of recent frames to reduce ambiguity. By learning the local temporal characteristics of object reflection on the water surface, WaSR-T substantially improves obstacle detection accuracy in the presence of reflections and glitter. Compared with existing single-frame methods, WaSR-T reduces the number of false positive detections by 41% overall and by over 53% within the danger zone of the boat, while preserving a high recall, and achieving new state-of-the-art performance on the challenging MODS maritime obstacle detection benchmark. | 翻訳日:2022-03-11 14:28:35 公開日:2022-03-10 |
# 部分的シーンにおけるオブジェクトローカライズのための空間コモンセンスグラフ Spatial Commonsense Graph for Object Localisation in Partial Scenes ( http://arxiv.org/abs/2203.05380v1 ) ライセンス: Link先を確認 | Francesco Giuliari and Geri Skenderi and Marco Cristani and Yiming Wang and Alessio Del Bue | (参考訳) 部分的なシーンにおける物体の局所化は、シーンの部分的な3Dスキャンにより、物体の未知の位置(例えば、バッグはどこにあるのか)を推定する新しい問題である。
提案手法は新たなシーングラフモデルであるSpatial Commonsense Graph (SCG) に基づいており、オブジェクトはノードであり、エッジは概念ノードとコモンセンス知識ベースからの関連性によって強化されたペアワイズ距離を定義する。
これにより、SCGは未知の3Dシーンに対して空間的推論をより一般化することができる。
The SCG is used to estimate the unknown position of the target object in two steps: first, we feed the SCG into a novel Proximity Prediction Network, a graph neural network that uses attention to perform distance prediction between the node representing the target object and the nodes representing the observed objects in the SCG; second, we propose a Localisation Module based on circular intersection to estimate the object position using all the predicted pairwise distances in order to be independent of any reference system.
提案手法は,部分的なシーンにおけるオブジェクトのローカライゼーションのための手法とベースラインをベンチマークするために,部分的に再構成されたシーンのデータセットを作成する。 We solve object localisation in partial scenes, a new problem of estimating the unknown position of an object (e.g. where is the bag?) given a partial 3D scan of a scene. The proposed solution is based on a novel scene graph model, the Spatial Commonsense Graph (SCG), where objects are the nodes and edges define pairwise distances between them, enriched by concept nodes and relationships from a commonsense knowledge base. This allows SCG to better generalise its spatial inference over unknown 3D scenes. The SCG is used to estimate the unknown position of the target object in two steps: first, we feed the SCG into a novel Proximity Prediction Network, a graph neural network that uses attention to perform distance prediction between the node representing the target object and the nodes representing the observed objects in the SCG; second, we propose a Localisation Module based on circular intersection to estimate the object position using all the predicted pairwise distances in order to be independent of any reference system. We create a new dataset of partially reconstructed scenes to benchmark our method and baselines for object localisation in partial scenes, where our proposed method achieves the best localisation performance. | 翻訳日:2022-03-11 14:28:13 公開日:2022-03-10 |
# 多様なクラスタベースペア選択によるアノテーション効率のよい人物再同定 Annotation Efficient Person Re-Identification with Diverse Cluster-Based Pair Selection ( http://arxiv.org/abs/2203.05395v1 ) ライセンス: Link先を確認 | Lantian Xue, Yixiong Zou, Peixi Peng, Yonghong Tian, Tiejun Huang | (参考訳) Person Re-ID (Person Re-identification) が注目されている。
しかし、実際には、Re-IDモデルをトレーニングするためにトレーニングデータをアノテートすることは常にコストがかかり、Re-IDタスクのパフォーマンスを維持しながらアノテーションコストを削減することは依然として困難である。
そこで本研究では,ペアの誤認性と多様性に応じて,代替ペアセットから画像ペアを選択するアノテーション有効人物再同定手法を提案し,アノテーションに基づいてRe-IDモデルを訓練する。
具体的には、特徴の局所性を考慮して全ての画像をクラスタリングし、アノテーションにしたがってクラスタをアノテートするためのクラスタ内/クラスタ内サンプルから2番目のイメージペアを選択し、最後に再アサインされたクラスタでモデルをトレーニングすることで、代替ペアのサイズを第一に削減するアノテーションとトレーニングフレームワークを設計する。
ペア選択の過程では,最もカオス的なサンプルとクラスタ内の代表サンプルとのイメージペアを構成するクラスタ内基準,第2次waserstein距離に基づくクラスタ間のイメージペアを構築するクラスタ間基準,クラスタベースペア選択のための多様性基準など,ペアの誤り性と多様性に応じた貴重なペアを求める。
上記のすべての基準を組み合わせることで、ペア選択問題を解決するための欲求戦略が開発される。
最後に、上記のクラスタリング・selecting-annotating-reassigning-training手順をアノテーション予算に達するまで繰り返す。
広く採用されている3つのre-idデータセットに関する広範囲な実験は、最先端の作業よりも優れたパフォーマンスを実現しながら、アノテーションコストを大幅に削減できることを示している。 Person Re-identification (Re-ID) has attracted great attention due to its promising real-world applications. However, in practice, it is always costly to annotate the training data to train a Re-ID model, and it still remains challenging to reduce the annotation cost while maintaining the performance for the Re-ID task. To solve this problem, we propose the Annotation Efficient Person Re-Identification method to select image pairs from an alternative pair set according to the fallibility and diversity of pairs, and train the Re-ID model based on the annotation. Specifically, we design an annotation and training framework to firstly reduce the size of the alternative pair set by clustering all images considering the locality of features, secondly select images pairs from intra-/inter-cluster samples for human to annotate, thirdly re-assign clusters according to the annotation, and finally train the model with the re-assigned clusters. During the pair selection, we seek for valuable pairs according to pairs' fallibility and diversity, which includes an intra-cluster criterion to construct image pairs with the most chaotic samples and the representative samples within clusters, an inter-cluster criterion to construct image pairs between clusters based on the second-order Wasserstein distance, and a diversity criterion for clusterbased pair selection. Combining all criteria above, a greedy strategy is developed to solve the pair selection problem. Finally, the above clustering-selecting-annotating-reassigning-training procedure will be repeated until the annotation budget is reached. Extensive experiments on three widely adopted Re-ID datasets show that we can greatly reduce the annotation cost while achieving better performance compared with state-of-the-art works. | 翻訳日:2022-03-11 14:27:53 公開日:2022-03-10 |
# 連続セマンティックセグメンテーションのための表現補償ネットワーク Representation Compensation Networks for Continual Semantic Segmentation ( http://arxiv.org/abs/2203.05402v1 ) ライセンス: Link先を確認 | Chang-Bin Zhang, Jia-Wen Xiao, Xialei Liu, Ying-Cong Chen, Ming-Ming Cheng | (参考訳) 本研究では,深層ニューラルネットワークが破滅的な記憶を伴わずに新しいクラスを継続的に組み込む必要がある,連続的な意味セグメンテーション問題について検討する。
本稿では,従来の知識と新しい知識の両方の表現学習を分離するために,RCモジュールという構造的再パラメータ化機構を提案する。
RCモジュールは2つの動的に進化した分岐で構成され、1つは凍結し、1つは訓練可能である。
さらに,モデルの可塑性と安定性をさらに高めるため,空間次元とチャネル次元の両面にプール型立方体知識蒸留戦略を設計する。
連続クラスセグメンテーションと連続ドメインセグメンテーションの2つの難解な連続的意味セグメンテーションシナリオについて実験を行った。
推論中に余分な計算オーバーヘッドやパラメータがなければ、我々の手法は最先端の性能より優れている。
コードは \url{https://github.com/zhangchbin/rcil} で入手できる。 In this work, we study the continual semantic segmentation problem, where the deep neural networks are required to incorporate new classes continually without catastrophic forgetting. We propose to use a structural re-parameterization mechanism, named representation compensation (RC) module, to decouple the representation learning of both old and new knowledge. The RC module consists of two dynamically evolved branches with one frozen and one trainable. Besides, we design a pooled cube knowledge distillation strategy on both spatial and channel dimensions to further enhance the plasticity and stability of the model. We conduct experiments on two challenging continual semantic segmentation scenarios, continual class segmentation and continual domain segmentation. Without any extra computational overhead and parameters during inference, our method outperforms state-of-the-art performance. The code is available at \url{https://github.com/zhangchbin/RCIL}. | 翻訳日:2022-03-11 14:27:27 公開日:2022-03-10 |
# 3次元異常検出とセグメンテーションの実証的研究 An Empirical Investigation of 3D Anomaly Detection and Segmentation ( http://arxiv.org/abs/2203.05550v1 ) ライセンス: Link先を確認 | Eliahu Horwitz, Yedid Hoshen | (参考訳) 近年,画像の異常検出とセグメンテーションが著しく進展しているが,3d情報は無視されることが多い。
本研究の目的は,画像異常検出における色に対する3Dの利点と役割をより深く理解することである。
標準的な色のみの異常セグメンテーション手法が、3dデータセットに適用された場合、現在のすべての方法を大幅に上回っています。
一方,2次元から形状を曖昧に推測できない幾何学的異常を含む画像では,色のみの手法では不十分である。
これは、より良い3Dメソッドが必要であることを示唆している。
本研究では,3次元異常検出のための異なる表現について検討し,手作り方向不変表現が不当に有効であることを示す。
ディープラーニングや外部事前トレーニングデータセット、カラー情報を使用しずに、最新のアプローチをすべて上回る、シンプルな3dのみの方法を明らかにする。
3Dのみの手法では色とテクスチャの異常を検出できないため、2Dカラーの特徴と組み合わせることで、大きなマージンで最高の現在の結果が得られる(Pixel-wise ROCAUC: 99.2%、Pro: 95.9%、MVTec 3D-AD)。
最後に,3次元異常検出とセグメンテーションの今後の課題について論じる。 Anomaly detection and segmentation in images has made tremendous progress in recent years while 3D information has often been ignored. The objective of this paper is to further understand the benefit and role of 3D as opposed to color in image anomaly detection. Our study begins by presenting a surprising finding: standard color-only anomaly segmentation methods, when applied to 3D datasets, significantly outperform all current methods. On the other hand, we observe that color-only methods are insufficient for images containing geometric anomalies where shape cannot be unambiguously inferred from 2D. This suggests that better 3D methods are needed. We investigate different representations for 3D anomaly detection and discover that handcrafted orientation-invariant representations are unreasonably effective on this task. We uncover a simple 3D-only method that outperforms all recent approaches while not using deep learning, external pretraining datasets, or color information. As the 3D-only method cannot detect color and texture anomalies, we combine it with 2D color features, granting us the best current results by a large margin (Pixel-wise ROCAUC: 99.2%, PRO: 95.9% on MVTec 3D-AD). We conclude by discussing future challenges for 3D anomaly detection and segmentation. | 翻訳日:2022-03-11 14:27:12 公開日:2022-03-10 |
# (参考訳) IndicNLG Suite: 言語におけるNLGタスクの多言語データセット IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages ( http://arxiv.org/abs/2203.05437v1 ) ライセンス: CC BY 4.0 | Aman Kumar, Himani Shrotriya, Prachi Sahu, Raj Dabre, Ratish Puduppully, Anoop Kunchukuttan, Amogh Mishra, Mitesh M. Khapra, Pratyush Kumar | (参考訳) 本稿では,11言語を対象とした自然言語生成(NLG)をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。
本稿では,ウィキペディア情報ボックス(WikiBio)を用いた伝記生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
本稿では、データセットの作成プロセスとデータセットの統計結果について述べる。続いて、トレーニング済みのシーケンス・ツー・シーケンスモデルを利用した強力な単言語および多言語ベースラインのトレーニングとレポートを行い、その結果を分析し、Indic言語NLGに関わる課題を理解する。
我々の知る限りでは、これはIndic言語のための最初のNLGデータセットであり、また最大の多言語NLGデータセットである。
また、wikipediaのような構造化データを含むコーパスと同様に、適度な単言語および並列コーパスを持つ控えめなリソース言語にも容易に適用できる。
このデータセットが、多種多様な言語やタスク、特にIndic言語の研究を促進することを願っています。
データセットとモデルはhttps://indicnlp.ai4bharat.org/indicnlg-suiteで公開されている。 In this paper, we present the IndicNLG suite, a collection of datasets for benchmarking Natural Language Generation (NLG) for 11 Indic languages. We focus on five diverse tasks, namely, biography generation using Wikipedia infoboxes (WikiBio), news headline generation, sentence summarization, question generation and paraphrase generation. We describe the process of creating the datasets and present statistics of the dataset, following which we train and report a variety of strong monolingual and multilingual baselines that leverage pre-trained sequence-to-sequence models and analyze the results to understand the challenges involved in Indic language NLG. To the best of our knowledge, this is the first NLG dataset for Indic languages and also the largest multilingual NLG dataset. Our methods can also be easily applied to modest-resource languages with reasonable monolingual and parallel corpora, as well as corpora containing structured data like Wikipedia. We hope this dataset spurs research in NLG on diverse languages and tasks, particularly for Indic languages. The datasets and models are publicly available at https://indicnlp.ai4bharat.org/indicnlg-suite. | 翻訳日:2022-03-11 14:26:03 公開日:2022-03-10 |
# グループ別セマンティクスを用いたビジュアルストーリーテリングのための知識強化型アテンションネットワーク Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling ( http://arxiv.org/abs/2203.05346v1 ) ライセンス: Link先を確認 | Tengpeng Li, Hanli Wang, Bin He, Chang Wen Chen | (参考訳) 技術的に難しいトピックとして、ビジュアルストーリーテリングは、関連するイメージのグループから、物語の多元性を持つ想像力とコヒーレントなストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索できないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
したがって、これらのスキームは全体論的な表現から一貫した依存関係を捉えることができず、合理的で流動的な物語の生成を妨げた。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識豊かな注意ネットワークを提案する。
3つの新しいコンポーネントは、実用的な利点を明らかにするために、かなりの実験によって設計、支援されている。
まず、知識に富んだ注意ネットワークは、外部知識システムから暗黙的な概念を抽出するために設計され、これらの概念は、想像的、具体的表現を特徴づけるカスケード横断的な注意機構が続く。
第二に,二階プーリングを用いたグループ指向のセマンティクスモジュールを開発し,グローバルに一貫したガイダンスを探索する。
第3に,エンコーダ・デコーダ構造を持つ一段階のストーリー生成モデルを提案し,エンド・ツー・エンド方式で知識に富んだ注目ネットワーク,グループ・ワイド・セマンティック・モジュール,マルチモーダル・ストーリー生成デコーダを同時に訓練・推論する。
主観的評価指標と主観的評価指標を併用した人気のあるビジュアルストーリーテリングデータセットの実体実験により,提案手法が他の最先端手法と比較して優れた性能を示した。 As a technically challenging topic, visual storytelling aims at generating an imaginary and coherent story with narrative multi-sentences from a group of relevant images. Existing methods often generate direct and rigid descriptions of apparent image-based contents, because they are not capable of exploring implicit information beyond images. Hence, these schemes could not capture consistent dependencies from holistic representation, impairing the generation of reasonable and fluent story. To address these problems, a novel knowledge-enriched attention network with group-wise semantic model is proposed. Three main novel components are designed and supported by substantial experiments to reveal practical advantages. First, a knowledge-enriched attention network is designed to extract implicit concepts from external knowledge system, and these concepts are followed by a cascade cross-modal attention mechanism to characterize imaginative and concrete representations. Second, a group-wise semantic module with second-order pooling is developed to explore the globally consistent guidance. Third, a unified one-stage story generation model with encoder-decoder structure is proposed to simultaneously train and infer the knowledge-enriched attention network, group-wise semantic module and multi-modal story generation decoder in an end-to-end fashion. Substantial experiments on the popular Visual Storytelling dataset with both objective and subjective evaluation metrics demonstrate the superior performance of the proposed scheme as compared with other state-of-the-art methods. | 翻訳日:2022-03-11 13:47:20 公開日:2022-03-10 |
# 疑わしい対象:一段階視覚接地におけるモデルの予測を再考する Suspected Object Matters: Rethinking Model's Prediction for One-stage Visual Grounding ( http://arxiv.org/abs/2203.05186v1 ) ライセンス: Link先を確認 | Yang Jiao, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang | (参考訳) 近年,1段の視覚グラウンダーは,2段のグラウンダーに比べて精度は高いが,高い効率で注目されている。
しかし, 対象間関係モデリングは, 単段グルーダでは十分に研究されていない。
オブジェクト間の関係モデリングは重要なことではあるが、画像内のすべてのオブジェクトの中で必ずしも実行されるわけではない。
これらのオブジェクトを"suspected objects"と呼んでいます。
However, exploring relationships among these suspected objects in the one-stage visual grounding paradigm is non-trivial due to two core problems: (1) no object proposals are available as the basis on which to select suspected objects and perform relationship modeling; (2) compared with those irrelevant to the text query, suspected objects are more confusing, as they may share similar semantics, be entangled with certain relationships, etc, and thereby more easily mislead the model's prediction.
上記の問題に対処するため,一段階の視覚的グラウンドにおける被疑者間の正しい参照対象選択を促すために,疑似オブジェクトグラフ(SOG)アプローチを提案する。
疑似オブジェクトは、学習したアクティベーションマップからノードとして動的に選択され、トレーニング中のモデルの現在の識別能力に適応する。
その後、疑わしいオブジェクトの上に、キーワード認識ノード表現モジュール(knr)とランダム接続戦略(erc)による探索がsom内で同時に提案され、モデルが初期予測を再考するのに役立つ。
広汎なアブレーション研究と最先端手法との比較により,提案手法の有効性が示された。 Recently, one-stage visual grounders attract high attention due to the comparable accuracy but significantly higher efficiency than two-stage grounders. However, inter-object relation modeling has not been well studied for one-stage grounders. Inter-object relationship modeling, though important, is not necessarily performed among all the objects within the image, as only a part of them are related to the text query and may confuse the model. We call these objects "suspected objects". However, exploring relationships among these suspected objects in the one-stage visual grounding paradigm is non-trivial due to two core problems: (1) no object proposals are available as the basis on which to select suspected objects and perform relationship modeling; (2) compared with those irrelevant to the text query, suspected objects are more confusing, as they may share similar semantics, be entangled with certain relationships, etc, and thereby more easily mislead the model's prediction. To address the above issues, this paper proposes a Suspected Object Graph (SOG) approach to encourage the correct referred object selection among the suspected ones in the one-stage visual grounding. Suspected objects are dynamically selected from a learned activation map as nodes to adapt to the current discrimination ability of the model during training. Afterward, on top of the suspected objects, a Keyword-aware Node Representation module (KNR) and an Exploration by Random Connection strategy (ERC) are concurrently proposed within the SOG to help the model rethink its initial prediction. Extensive ablation studies and comparison with state-of-the-art approaches on prevalent visual grounding benchmarks demonstrate the effectiveness of our proposed method. | 翻訳日:2022-03-11 13:46:52 公開日:2022-03-10 |
# サクラトマトのハイパースペクトルイメージング Hyperspectral Imaging for cherry tomato ( http://arxiv.org/abs/2203.05199v1 ) ライセンス: Link先を確認 | Yun Xiang, Qijun Chen, Zhongjin Su, Lu Zhang, Zuohui Chen, Guozhi Zhou, Zhuping Yao, Qi Xuan, and Yuan Cheng | (参考訳) サクラトマト(solanum lycopersicum)は、独特の風味のため、世界中の消費者に人気がある。
Soluble Solids Content (SSC) と firmness は製品品質を評価する上で重要な指標である。
本研究では,超スペクトル画像とそれに対応する深層学習回帰モデルに基づいて,sscと果実堅さのための非破壊検査手法を開発した。
200種以上のトマト果実の高スペクトル反射像は400nmから1000nmの範囲で導出される。
取得したハイパースペクトル画像を補正し、スペクトル情報を抽出する。
新規な1次元畳み込みResNet(Con1dResNet)に基づく回帰モデルの提案と技術の現状との比較を行った。
実験の結果, 比較的多数の試料を採取すると, SSCの最先端技術よりも26.4倍, 硬度は33.7倍であった。
本研究は,サクラ果実品質の非破壊検査に新たな選択肢を提供するため,sscにおけるハイパースペクトルイメージング技術の適用可能性と堅さ検出の可能性を示した。 Cherry tomato (Solanum Lycopersicum) is popular with consumers over the world due to its special flavor. Soluble solids content (SSC) and firmness are two key metrics for evaluating the product qualities. In this work, we develop non-destructive testing techniques for SSC and fruit firmness based on hyperspectral images and a corresponding deep learning regression model. Hyperspectral reflectance images of over 200 tomato fruits are derived with spectrum ranging from 400 to 1000 nm. The acquired hyperspectral images are corrected and the spectral information is extracted. A novel one-dimensional(1D) convolutional ResNet (Con1dResNet) based regression model is prosed and compared with the state of art techniques. Experimental results show that, with a relatively large number of samples our technique is 26.4\% better than state of art technique for SSC and 33.7\% for firmness. The results of this study indicate the application potential of hyperspectral imaging technique in the SSC and firmness detection, which provides a new option for non-destructive testing of cherry tomato fruit quality in the future. | 翻訳日:2022-03-11 13:46:28 公開日:2022-03-10 |
# AGCN:生涯多ラベル画像認識のためのグラフ畳み込みネットワーク AGCN: Augmented Graph Convolutional Network for Lifelong Multi-label Image Recognition ( http://arxiv.org/abs/2203.05534v1 ) ライセンス: Link先を確認 | Kaile Du, Fan Lyu, Fuyuan Hu, Linyan Li, Wei Feng, Fenglei Xu, Qiming Fu | (参考訳) Lifelong Multi-Label (LML)画像認識は、シーケンシャルなマルチラベル画像認識データストリームにオンラインのクラスインクリメンタル分類器を構築する。
LML画像認識の鍵となる課題は、トレーニングデータの部分ラベルと古いクラスにおけるカタストロフィック・フォーッティングのラベル関係の構築である。
この問題を解決するために, 逐次認識タスク間でラベル関係を構築し, 破滅的な忘れを抑えるAGCN(Augmented Graph Convolutional Network)モデルを提案する。
まず,すべてのクラスにACM(Augmented correlation Matrix)を構築する。そこでは,タスク内関係はハードラベル統計から導かれるが,タスク間関係はデータと構築されたエキスパートネットワークからハードラベルとソフトラベルの両方を活用する。
そして、ACMに基づいて、提案したAGCNは動的拡張構造でラベルの依存関係をキャプチャし、効果的なクラス表現を得る。
最後に,古いタスク間のラベル依存の忘れることを抑制するため,ラベル関係の構築に対する制約として,関係保存損失を提案する。
提案手法は2つのマルチラベル画像ベンチマークを用いて評価し,提案手法がLML画像認識に有効であることを示す。
私たちのコードはhttps://github.com/kaile-du/agcnで利用可能です。 The Lifelong Multi-Label (LML) image recognition builds an online class-incremental classifier in a sequential multi-label image recognition data stream. The key challenges of LML image recognition are the construction of label relationships on Partial Labels of training data and the Catastrophic Forgetting on old classes, resulting in poor generalization. To solve the problems, the study proposes an Augmented Graph Convolutional Network (AGCN) model that can construct the label relationships across the sequential recognition tasks and sustain the catastrophic forgetting. First, we build an Augmented Correlation Matrix (ACM) across all seen classes, where the intra-task relationships derive from the hard label statistics while the inter-task relationships leverage both hard and soft labels from data and a constructed expert network. Then, based on the ACM, the proposed AGCN captures label dependencies with dynamic augmented structure and yields effective class representations. Last, to suppress the forgetting of label dependencies across old tasks, we propose a relationship-preserving loss as a constraint to the construction of label relationships. The proposed method is evaluated using two multi-label image benchmarks and the experimental results show that the proposed method is effective for LML image recognition and can build convincing correlation across tasks even if the labels of previous tasks are missing. Our code is available at https://github.com/Kaile-Du/AGCN. | 翻訳日:2022-03-11 13:43:51 公開日:2022-03-10 |
# 意味規範認識とそのポルトガル法への応用 Semantic Norm Recognition and its application to Portuguese Law ( http://arxiv.org/abs/2203.05425v1 ) ライセンス: Link先を確認 | Maria Duarte, Pedro A. Santos, Jo\~ao Dias and Jorge Baptista | (参考訳) 法的文書を明確に解釈し、我々の権利、義務、その他の法的規範を完全に理解できることは、デジタル社会において徐々に重要になっている。
しかし、特定のクエリやニーズに対応する意味のある情報を提供する必要があるため、市民に法律へのアクセスを与えるだけでは不十分である。
そのためには、法的文書に存在する関連する意味情報を抽出する必要がある。
そこで我々は,ポルトガルの消費者法から取得したドメイン固有(法的)テキストコーパスに基づいて,自動意味情報抽出システムであるSNR(Semantic Norm Recognition)システムを導入する。
SNRはポルトガル・ベルト(BERTimbau)を使用し、ポルトガルの立法機関で訓練を受けた。
本研究では,既存の雑音によらず,このドメイン固有コーパスにおける良好な結果(81.44 % F1-score)と,情報検索などの下流タスクの改善にどのように活用できるかを示す。 Being able to clearly interpret legal texts and fully understanding our rights, obligations and other legal norms has become progressively more important in the digital society. However, simply giving citizens access to the laws is not enough, as there is a need to provide meaningful information that cater to their specific queries and needs. For this, it is necessary to extract the relevant semantic information present in legal texts. Thus, we introduce the SNR (Semantic Norm Recognition) system, an automatic semantic information extraction system trained on a domain-specific (legal) text corpus taken from Portuguese Consumer Law. The SNR system uses the Portuguese Bert (BERTimbau) and was trained on a legislative Portuguese corpus. We demonstrate how our system achieved good results (81.44\% F1-score) on this domain-specific corpus, despite existing noise, and how it can be used to improve downstream tasks such as information retrieval. | 翻訳日:2022-03-11 13:43:27 公開日:2022-03-10 |
# コンパイラフィードバックによるコンパイル可能なニューラルコード生成 Compilable Neural Code Generation with Compiler Feedback ( http://arxiv.org/abs/2203.05132v1 ) ライセンス: Link先を確認 | Xin Wang, Yasheng Wang, Yao Wan, Fei Mi, Yitong Li, Pingyi Zhou, Jin Liu, Hao Wu, Xin Jiang, Qun Liu | (参考訳) 自然言語記述によるコンパイル可能なプログラムの自動生成は、常に計算言語学と自動ソフトウェア工学にとって重要な問題である。
既存のディープラーニングアプローチは、テキスト生成としてコード生成をモデル化し、デコーダの文法構造によって制約されるか、大規模コードコーパス(CodeGPT、PLBART、CodeT5など)で事前訓練された言語モデルによって駆動される。
しかし、生成したプログラムのコンパイル可能性を説明するものはほとんどない。
本稿では,言語モデルの微調整,コンパイル性強化,コンパイル性判定を含む,コンパイル可能なコード生成のためのコンパイラフィードバックを活用した3段階パイプラインであるcompcoderを提案する。
2つのコード生成タスクに関する包括的実験により,提案手法の有効性が示され,コード補完におけるコンパイル成功率を平均44.18から89.18に,テキスト対コード生成において70.3から96.2に改善した。 Automatically generating compilable programs with (or without) natural language descriptions has always been a touchstone problem for computational linguistics and automated software engineering. Existing deep-learning approaches model code generation as text generation, either constrained by grammar structures in decoder, or driven by pre-trained language models on large-scale code corpus (e.g., CodeGPT, PLBART, and CodeT5). However, few of them account for compilability of the generated programs. To improve compilability of the generated programs, this paper proposes COMPCODER, a three-stage pipeline utilizing compiler feedback for compilable code generation, including language model fine-tuning, compilability reinforcement, and compilability discrimination. Comprehensive experiments on two code generation tasks demonstrate the effectiveness of our proposed approach, improving the success rate of compilation from 44.18 to 89.18 in code completion on average and from 70.3 to 96.2 in text-to-code generation, respectively, when comparing with the state-of-the-art CodeGPT. | 翻訳日:2022-03-11 13:42:55 公開日:2022-03-10 |
# ビデオにおけるデバイアスされた時相文の接地:データセット、メトリック、およびアプローチ A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach ( http://arxiv.org/abs/2203.05243v1 ) ライセンス: Link先を確認 | Xiaohan Lan, Yitian Yuan, Xin Wang, Long Chen, Zhi Wang, Lin Ma and Wenwu Zhu | (参考訳) tsgv(temporal sentence grounding in video)は、自然言語文を未編集の動画に固定することを目的としているが、ここ数年、広く注目を集めている。
しかし、最近の研究では、現在のベンチマークデータセットは明らかなモーメント・アノテーションのバイアスがあり、訓練なしでSOTAのパフォーマンスを達成できた。
本稿では,既存の評価プロトコルを詳しく検討し,有望なデータセットと評価指標の両方が信頼できないベンチマークにつながるデビルであることを示す。
そこで本研究では,広く使用されている2つのデータセットを再構成し,トレーニングとテストの分割,すなわちout-of-distribution (ood) テストにおいて基底モーメント分布を異にする手法を提案する。
また,新たな評価指標「dr@n,iou@m」を導入して,基本リコールスコアを割引し,偏りのあるデータセットによる膨らみ評価を緩和する。
新しいベンチマーク結果から,提案する評価プロトコルは,研究進捗をより良く監視できることが示唆された。
さらに,非バイアスモーメント予測のための新しい因果関係に基づくマルチブランチデフレウンディングデバイアス(MDD)フレームワークを提案する。
具体的には、複数の共同創設者による因果的介入による影響を排除するために、マルチブランチ・デコノミーを設計する。
このモデルが文クエリとビデオモーメントのセマンティクスをよりよく一致させるのを助けるために,特徴エンコーディング中の表現を強化する。
具体的には、テキスト情報に対して、クエリを複数の動詞中心のフレーズに解析し、よりきめ細かいテキスト特徴を得る。
視覚情報については、位置情報をモーメント特徴から分解し、多様な位置を持つモーメントの表現を強化する。
広範な実験により,提案手法が既存のsomaアプローチの競争結果を達成し,高い利益率でベースモデルを上回ることを実証した。 Temporal Sentence Grounding in Videos (TSGV), which aims to ground a natural language sentence in an untrimmed video, has drawn widespread attention over the past few years. However, recent studies have found that current benchmark datasets may have obvious moment annotation biases, enabling several simple baselines even without training to achieve SOTA performance. In this paper, we take a closer look at existing evaluation protocols, and find both the prevailing dataset and evaluation metrics are the devils that lead to untrustworthy benchmarking. Therefore, we propose to re-organize the two widely-used datasets, making the ground-truth moment distributions different in the training and test splits, i.e., out-of-distribution (OOD) test. Meanwhile, we introduce a new evaluation metric "dR@n,IoU@m" that discounts the basic recall scores to alleviate the inflating evaluation caused by biased datasets. New benchmarking results indicate that our proposed evaluation protocols can better monitor the research progress. Furthermore, we propose a novel causality-based Multi-branch Deconfounding Debiasing (MDD) framework for unbiased moment prediction. Specifically, we design a multi-branch deconfounder to eliminate the effects caused by multiple confounders with causal intervention. In order to help the model better align the semantics between sentence queries and video moments, we enhance the representations during feature encoding. Specifically, for textual information, the query is parsed into several verb-centered phrases to obtain a more fine-grained textual feature. For visual information, the positional information has been decomposed from moment features to enhance representations of moments with diverse locations. Extensive experiments demonstrate that our proposed approach can achieve competitive results among existing SOTA approaches and outperform the base model with great gains. | 翻訳日:2022-03-11 13:42:00 公開日:2022-03-10 |
# 木構造型マルチタスクモデルレコメンダ A Tree-Structured Multi-Task Model Recommender ( http://arxiv.org/abs/2203.05092v1 ) ライセンス: Link先を確認 | Lijun Zhang, Xiao Liu, Hui Guan | (参考訳) 木構造型マルチタスクアーキテクチャは、マルチタスク学習(MTL)のコンテキストにおいて、複数の視覚タスクに共同で取り組むために使用されている。
主な課題は、タスクの正確性と計算効率の両方を最適化するためのバックボーンモデルが与えられた場合、各タスクの分岐先を決定することである。
そこで本研究では,タスクセットと畳み込みニューラルネットワークに基づくバックボーンモデルを用いて,モデルトレーニングを行なわずにユーザ指定の計算予算を満たしながら高いタスク性能を実現することができる木構造型マルチタスクアーキテクチャを自動提案する。
一般的なMTLベンチマークの大規模な評価は、推奨アーキテクチャが最先端のMTL手法と比較して、競合するタスク精度と計算効率を達成できることを示している。 Tree-structured multi-task architectures have been employed to jointly tackle multiple vision tasks in the context of multi-task learning (MTL). The major challenge is to determine where to branch out for each task given a backbone model to optimize for both task accuracy and computation efficiency. To address the challenge, this paper proposes a recommender that, given a set of tasks and a convolutional neural network-based backbone model, automatically suggests tree-structured multi-task architectures that could achieve a high task performance while meeting a user-specified computation budget without performing model training. Extensive evaluations on popular MTL benchmarks show that the recommended architectures could achieve competitive task accuracy and computation efficiency compared with state-of-the-art MTL methods. | 翻訳日:2022-03-11 13:40:28 公開日:2022-03-10 |
# 商空間における多様体モデリング:画像パッチの可算性を伴う不変写像の学習 Manifold Modeling in Quotient Space: Learning An Invariant Mapping with Decodability of Image Patches ( http://arxiv.org/abs/2203.05134v1 ) ライセンス: Link先を確認 | Tatsuya Yokota and Hidekata Hontani | (参考訳) 本研究は,同値クラスの概念を用いた画像パッチの多様体学習のための枠組みである商空間における多様体モデリング(mmqs)を提案する。
MMQSでは、画像の局所的なパッチの集合をそのまま考えるのではなく、同値クラスの概念を導入し、それらの正準パッチ上で多様体学習を行うことによって得られる正準パッチの集合を考える。
正準パッチは同値類を表し、その自己エンコーダは商空間において多様体を構成する。
この枠組みに基づき、回転フリップ等価関係を導入し、新しい多様体に基づく画像モデルを作成する。
また,提案する画像モデルを劣化した観測画像に適合させて画像再構成問題を定式化し,アルゴリズムを導出して解決する。
提案手法は,画像インパインティング,デブラリング,スーパーレゾリューション,デノジングなど,様々な自己教師あり画像再構成タスクに有効であることを示す。 This study proposes a framework for manifold learning of image patches using the concept of equivalence classes: manifold modeling in quotient space (MMQS). In MMQS, we do not consider a set of local patches of the image as it is, but rather the set of their canonical patches obtained by introducing the concept of equivalence classes and performing manifold learning on their canonical patches. Canonical patches represent equivalence classes, and their auto-encoder constructs a manifold in the quotient space. Based on this framework, we produce a novel manifold-based image model by introducing rotation-flip-equivalence relations. In addition, we formulate an image reconstruction problem by fitting the proposed image model to a corrupted observed image and derive an algorithm to solve it. Our experiments show that the proposed image model is effective for various self-supervised image reconstruction tasks, such as image inpainting, deblurring, super-resolution, and denoising. | 翻訳日:2022-03-11 13:40:14 公開日:2022-03-10 |
# 密度物体検出のための予測誘導蒸留法 Prediction-Guided Distillation for Dense Object Detection ( http://arxiv.org/abs/2203.05469v1 ) ライセンス: Link先を確認 | Chenhongyi Yang, Mateusz Ochal, Amos Storkey, Elliot J. Crowley | (参考訳) 現実世界のオブジェクト検出モデルは安価で正確であるべきです。
知識蒸留(kd)は,より大きな教師モデルからの有用な情報を活用することで,小型で安価な検出モデルの精度を高めることができる。
しかし、重要な課題は、蒸留の教師が生み出す最も有益な特徴を特定することである。
本研究は,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の特徴のみであることを示す。
そこで本研究では,教師のこれらの重要な予測領域の蒸留に焦点を当てた予測誘導蒸留(PGD)を提案し,既存のKDベースラインよりも高い性能を示した。
さらに,その影響を緩和し,さらに優れた性能を実現するため,キー領域に適応的な重み付け手法を提案する。
提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
特にCOCOデータセットでは,教師と生徒のバックボーンとしてResNet-101とResNet-50を用いて,+3.1%と+4.6%のAP改善を実現している。
CrowdHumanデータセットでは、MRとAPの+3.2%と+2.0%の改善を実現しています。
私たちのコードはhttps://github.com/chenhongyiyang/pgdで入手できる。 Real-world object detection models should be cheap and accurate. Knowledge distillation (KD) can boost the accuracy of a small, cheap detection model by leveraging useful information from a larger teacher model. However, a key challenge is identifying the most informative features produced by the teacher for distillation. In this work, we show that only a very small fraction of features within a ground-truth bounding box are responsible for a teacher's high detection performance. Based on this, we propose Prediction-Guided Distillation (PGD), which focuses distillation on these key predictive regions of the teacher and yields considerable gains in performance over many existing KD baselines. In addition, we propose an adaptive weighting scheme over the key regions to smooth out their influence and achieve even better performance. Our proposed approach outperforms current state-of-the-art KD baselines on a variety of advanced one-stage detection architectures. Specifically, on the COCO dataset, our method achieves between +3.1% and +4.6% AP improvement using ResNet-101 and ResNet-50 as the teacher and student backbones, respectively. On the CrowdHuman dataset, we achieve +3.2% and +2.0% improvements in MR and AP, also using these backbones. Our code is available at https://github.com/ChenhongyiYang/PGD. | 翻訳日:2022-03-11 13:39:59 公開日:2022-03-10 |
# Librarian-in-the-Loop:学術文献における研究データのインフォーマルな操作を検出する自然言語処理パラダイム Librarian-in-the-Loop: A Natural Language Processing Paradigm for Detecting Informal Mentions of Research Data in Academic Literature ( http://arxiv.org/abs/2203.05112v1 ) ライセンス: Link先を確認 | Lizhou Fan, Sara Lafia, David Bleckley, Elizabeth Moss, Andrea Thomer, Libby Hemphill | (参考訳) データ引用は、研究データへの影響を研究する基盤を提供する。
データ引用の収集と管理は、アーカイブ科学と学術コミュニケーションの新しいフロンティアである。
しかし、研究データ引用の発見とキュレーションは労働集約的である。
ユニークな識別子(DOI)を参照するデータ引用は容易に見つけられるが、研究データに対する非公式な言及は推論がより困難である。
本研究では,研究データセットに対する非公式な言及を識別する作業を支援する自然言語処理(NLP)パラダイムを提案する。
非公式なデータ参照を発見する作業は、現在、図書館員とそのスタッフが、データ関連文学の大規模な文献を保管する大規模な社会科学データアーカイブであるICPSR(Inter-University Consortium for Political and Social Research)で行われている。
NLPモデルはICPSRの図書館員が積極的に収集したデータ引用からブートストラップされる。
このモデルはパターンマッチングと人間のアノテーションの繰り返しを組み合わせることで、非公式なデータ参照を検出するための追加ルールを学ぶ。
これらの例は、NLPパイプラインのトレーニングに使用される。
librarian-in-the-loopパラダイムは、icpsr librariansが行ったデータ研究を中心に、研究データ利用者の学術的コミュニティを反映した、より包括的なデータ関連文献の書誌作成を支援する。 Data citations provide a foundation for studying research data impact. Collecting and managing data citations is a new frontier in archival science and scholarly communication. However, the discovery and curation of research data citations is labor intensive. Data citations that reference unique identifiers (i.e. DOIs) are readily findable; however, informal mentions made to research data are more challenging to infer. We propose a natural language processing (NLP) paradigm to support the human task of identifying informal mentions made to research datasets. The work of discovering informal data mentions is currently performed by librarians and their staff in the Inter-university Consortium for Political and Social Research (ICPSR), a large social science data archive that maintains a large bibliography of data-related literature. The NLP model is bootstrapped from data citations actively collected by librarians at ICPSR. The model combines pattern matching with multiple iterations of human annotations to learn additional rules for detecting informal data mentions. These examples are then used to train an NLP pipeline. The librarian-in-the-loop paradigm is centered in the data work performed by ICPSR librarians, supporting broader efforts to build a more comprehensive bibliography of data-related literature that reflects the scholarly communities of research data users. | 翻訳日:2022-03-11 13:39:12 公開日:2022-03-10 |
# 実践的スプリット学習に対するラベル推論のクラスタリング Clustering Label Inference Attack against Practical Split Learning ( http://arxiv.org/abs/2203.05222v1 ) ライセンス: Link先を確認 | Junlin Liu and Xinchen Lyu | (参考訳) 分割学習は、プライバシを保存する分散学習において有望なパラダイムであり、学習モデルを複数の部分に分割して、参加者を協調的にトレーニングすることができる。
参加者は, フォワードパス(生データから抽出した特徴)や後方伝播中の勾配などの切断層での中間学習結果のみを交換し, 各種プライバシに敏感なアプリケーションにおいてスプリットラーニングのセキュリティ性能は重要であるが, プライベートラベルに重点を置いて, 実用的なスプリットラーニングのためのパッシブクラスタリングラベル推論攻撃を提案する。
クライアントやサーバは、交換した勾配とスマッシュデータを収集して、個人ラベルを正確に検索することができ、スプリットラーニングにおける潜在的なラベルリークを数学的に解析し、クラスタリング攻撃に対するコサインとユークリッドの類似度測定を提案する。
実験の結果,提案手法は,ラベル保護に微分プライバシーや勾配圧縮が適用された場合でも,実用的な分割学習を行うために,異なる設定(カット層位置,エポックサイズ,バッチサイズなど)でスケーラブルで頑健であることを検証した。 Split learning is deemed as a promising paradigm for privacy-preserving distributed learning, where the learning model can be cut into multiple portions to be trained at the participants collaboratively. The participants only exchange the intermediate learning results at the cut layer, including smashed data via forward-pass (i.e., features extracted from the raw data) and gradients during backward-propagation.Understanding the security performance of split learning is critical for various privacy-sensitive applications.With the emphasis on private labels, this paper proposes a passive clustering label inference attack for practical split learning. The adversary (either clients or servers) can accurately retrieve the private labels by collecting the exchanged gradients and smashed data.We mathematically analyse potential label leakages in split learning and propose the cosine and Euclidean similarity measurements for clustering attack. Experimental results validate that the proposed approach is scalable and robust under different settings (e.g., cut layer positions, epochs, and batch sizes) for practical split learning.The adversary can still achieve accurate predictions, even when differential privacy and gradient compression are adopted for label protections. | 翻訳日:2022-03-11 13:38:47 公開日:2022-03-10 |
# API:エージェント置換不変ネットワークによるマルチエージェント強化学習の促進 API: Boosting Multi-Agent Reinforcement Learning via Agent-Permutation-Invariant Networks ( http://arxiv.org/abs/2203.05285v1 ) ライセンス: Link先を確認 | Xiaotian Hao, Weixun Wang, Hangyu Mao, Yaodong Yang, Dong Li, Yan Zheng, Zhen Wang, Jianye Hao | (参考訳) 多エージェント強化学習は、状態-作用空間の指数的な成長によりサンプル効率が低下する。
均質なマルチエージェントシステムを考えると、$m$ 均質なコンポーネントからなるグローバル状態は$m!
つまり、置換不変量(pi)を満たす関数を設計することによって、状態空間を$\frac{1}{m!
}$.
しかし、主流のMARLアルゴリズムはこの特性を無視し、元の状態空間について学習する。
PIを実現するために、データ拡張ベースの手法や埋め込み共有アーキテクチャベースの手法を含む以前の研究は、トレーニング不安定性と限られたモデル能力に悩まされていた。
本研究では,これらの制約を回避しつつ,PIを実現するための2つの新しい設計を提案する。
最初の設計では、同じが異なる順序の入力を同じ順序に戻し、ダウンストリームネットワークは、全ての置換ではなく、固定順序の入力に対する関数マッピングを学習するだけで、訓練がより簡単になる。
第2の設計では、ハイパーネットワークを適用して各コンポーネントにカスタマイズされた埋め込みを生成し、これは以前の埋め込み共有方法よりも高い表現能力を持つ。
SMACベンチマークによる実験結果から, 提案手法は, ほぼすべてのハードシナリオおよび超硬度シナリオにおいて100%の勝率を達成し, 最先端のベースラインよりも400%も優れた試料効率を示した。 Multi-agent reinforcement learning suffers from poor sample efficiency due to the exponential growth of the state-action space. Considering a homogeneous multiagent system, a global state consisting of $m$ homogeneous components has $m!$ differently ordered representations, thus designing functions satisfying permutation invariant (PI) can reduce the state space by a factor of $\frac{1}{m!}$. However, mainstream MARL algorithms ignore this property and learn over the original state space. To achieve PI, previous works including data augmentation based methods and embedding-sharing architecture based methods, suffer from training instability and limited model capacity. In this work, we propose two novel designs to achieve PI, while avoiding the above limitations. The first design permutes the same but differently ordered inputs back to the same order and the downstream networks only need to learn function mapping over fixed-ordering inputs instead of all permutations, which is much easier to train. The second design applies a hypernetwork to generate customized embedding for each component, which has higher representational capacity than the previous embedding-sharing method. Empirical results on the SMAC benchmark show that the proposed method achieves 100% win-rates in almost all hard and super-hard scenarios (never achieved before), and superior sample-efficiency than the state-of-the-art baselines by up to 400%. | 翻訳日:2022-03-11 13:38:22 公開日:2022-03-10 |
# (参考訳) 制約の少ないマクロニューラルアーキテクチャ探索に向けて Towards Less Constrained Macro-Neural Architecture Search ( http://arxiv.org/abs/2203.05508v1 ) ライセンス: CC BY 4.0 | Vasco Lopes and Lu\'is A. Alexandre | (参考訳) Neural Architecture Search (NAS)で発見されたネットワークは、さまざまなタスクにおいて最先端のパフォーマンスを達成する。
しかし、ほとんどのnas手法は探索を制約する人間定義の仮定に大きく依存している: アーキテクチャの外骨格、層数、パラメータヒューリスティック、探索空間。
さらに、共通検索空間は、アーキテクチャ全体(macro-search)を設計することによって、アーキテクチャの検索空間を完全に探索する代わりに、繰り返し可能なモジュール(セル)で構成される。
このような制約を課すには、人間の深い専門知識が必要であり、検索を事前定義された設定に制限する。
本稿では,事前定義されたヒューリスティックスや有界探索空間に頼ることなく,マクロ探索を行うことにより,NASを制約の少ない探索空間にプッシュする手法であるLCMNASを提案する。
LCMNASはNASパイプラインの3つのコンポーネントを導入した。
一 よく知られた建築に関する情報を利用して、隠された特性を有する重み付き指向グラフに基づく複雑な検索空間を自律的に生成する方法
二 完全な建築をゼロから生成する進化的探索戦略及び
三 初期化段階における建築情報と低忠実度推定とを組み合わせて、複雑な関数をモデル化するための訓練性とキャパシティを推定する混合性能推定手法。
我々は,LCMNASが最小のGPU計算でゼロから最先端アーキテクチャを生成することを示す実験を行った。
マクロ検索におけるNAS成分の重要性について検討した。
再現性に関するコードは \url{https://github.com/VascoLopes/LCMNAS} で公開されている。 Networks found with Neural Architecture Search (NAS) achieve state-of-the-art performance in a variety of tasks, out-performing human-designed networks. However, most NAS methods heavily rely on human-defined assumptions that constrain the search: architecture's outer-skeletons, number of layers, parameter heuristics and search spaces. Additionally, common search spaces consist of repeatable modules (cells) instead of fully exploring the architecture's search space by designing entire architectures (macro-search). Imposing such constraints requires deep human expertise and restricts the search to pre-defined settings. In this paper, we propose LCMNAS, a method that pushes NAS to less constrained search spaces by performing macro-search without relying on pre-defined heuristics or bounded search spaces. LCMNAS introduces three components for the NAS pipeline: i) a method that leverages information about well-known architectures to autonomously generate complex search spaces based on Weighted Directed Graphs with hidden properties, ii) a evolutionary search strategy that generates complete architectures from scratch, and iii) a mixed-performance estimation approach that combines information about architectures at initialization stage and lower fidelity estimates to infer their trainability and capacity to model complex functions. We present experiments showing that LCMNAS generates state-of-the-art architectures from scratch with minimal GPU computation. We study the importance of different NAS components on a macro-search setting. Code for reproducibility is public at \url{https://github.com/VascoLopes/LCMNAS}. | 翻訳日:2022-03-11 13:37:09 公開日:2022-03-10 |
# loopitr: 画像テキスト検索のためのデュアルエンコーダとクロスエンコーダの組み合わせ LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text Retrieval ( http://arxiv.org/abs/2203.05465v1 ) ライセンス: Link先を確認 | Jie Lei, Xinlei Chen, Ning Zhang, Mengjiao Wang, Mohit Bansal, Tamara L. Berg, Licheng Yu | (参考訳) デュアルエンコーダとクロスエンコーダは画像テキスト検索に広く利用されている。
この2つの間、デュアルエンコーダは、画像とテキストを独立にドット積で符号化し、クロスエンコーダは、画像とテキストを入力として共同供給し、密集したマルチモーダル融合を行う。
これらの2つのアーキテクチャは通常、相互作用なしで個別にモデル化される。
そこで本研究では,共学学習のために同じネットワークで組み合わせたloopitrを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
どちらのステップも同じモデルで効率的に実行される。
本研究は, この組み合わせアーキテクチャの実証分析を中心とし, 蒸留目標の設計に重点を置いている。
実験の結果、同一ネットワーク上で2つのエンコーダをトレーニングする利点を強調し、蒸留が非常に効果的であることを示す。
2つの標準データセット(Flickr30KとCOCO)で実験したところ、同様の量のデータを用いたアプローチと比較して、最先端のデュアルエンコーダの性能が得られた。 Dual encoders and cross encoders have been widely used for image-text retrieval. Between the two, the dual encoder encodes the image and text independently followed by a dot product, while the cross encoder jointly feeds image and text as the input and performs dense multi-modal fusion. These two architectures are typically modeled separately without interaction. In this work, we propose LoopITR, which combines them in the same network for joint learning. Specifically, we let the dual encoder provide hard negatives to the cross encoder, and use the more discriminative cross encoder to distill its predictions back to the dual encoder. Both steps are efficiently performed together in the same model. Our work centers on empirical analyses of this combined architecture, putting the main focus on the design of the distillation objective. Our experimental results highlight the benefits of training the two encoders in the same network, and demonstrate that distillation can be quite effective with just a few hard negative examples. Experiments on two standard datasets (Flickr30K and COCO) show our approach achieves state-of-the-art dual encoder performance when compared with approaches using a similar amount of data. | 翻訳日:2022-03-11 13:17:40 公開日:2022-03-10 |
# 視覚言語モデルのための条件付きプロンプト学習 Conditional Prompt Learning for Vision-Language Models ( http://arxiv.org/abs/2203.05557v1 ) ライセンス: Link先を確認 | Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu | (参考訳) CLIPのような強力なトレーニング済みの視覚言語モデルの台頭により、これらのモデルを下流データセットに適応させる方法を検討することが不可欠になる。
最近提案されたContext Optimization (CoOp) という手法は、事前学習された視覚言語モデルに適応するための視覚領域に、NLPの最近のトレンドである即時学習の概念を導入している。
特に、CoOpは、文脈語をプロンプトで学習可能なベクトルの集合に変換し、ラベル付きイメージで学習することで、集中的に調整された手動プロンプトよりも大幅に改善することができる。
学習コンテキストは、同じデータセット内のより広い未確認クラスには一般化できないため、CoOpはトレーニング中に観察されたベースクラスに適合する可能性が示唆された。
本稿では,各画像に対して入力条件トークン(vector)を生成する軽量ニューラルネットワークをさらに学習することにより,coopを拡張する条件付きコンテキスト最適化(cocoop)を提案する。
CoOpの静的プロンプトと比較すると、動的プロンプトは各インスタンスに適応するので、クラスシフトに敏感ではない。
大規模な実験によると、CoCoOpはCoOpよりもはるかに優れた一般化を実現しており、単一のデータセットを超える有望な転送可能性を示している。
コードはhttps://github.com/KaiyangZhou/CoOp.comで入手できる。 With the rise of powerful pre-trained vision-language models like CLIP, it becomes essential to investigate ways to adapt these models to downstream datasets. A recently proposed method named Context Optimization (CoOp) introduces the concept of prompt learning -- a recent trend in NLP -- to the vision domain for adapting pre-trained vision-language models. Specifically, CoOp turns context words in a prompt into a set of learnable vectors and, with only a few labeled images for learning, can achieve huge improvements over intensively-tuned manual prompts. In our study we identify a critical problem of CoOp: the learned context is not generalizable to wider unseen classes within the same dataset, suggesting that CoOp overfits base classes observed during training. To address the problem, we propose Conditional Context Optimization (CoCoOp), which extends CoOp by further learning a lightweight neural network to generate for each image an input-conditional token (vector). Compared to CoOp's static prompts, our dynamic prompts adapt to each instance and are thus less sensitive to class shift. Extensive experiments show that CoCoOp generalizes much better than CoOp to unseen classes, even showing promising transferability beyond a single dataset; and yields stronger domain generalization performance as well. Code is available at https://github.com/KaiyangZhou/CoOp. | 翻訳日:2022-03-11 13:17:18 公開日:2022-03-10 |
# 3dシーンにおける高次キャプションのための多階関係マイニング MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes ( http://arxiv.org/abs/2203.05203v1 ) ライセンス: Link先を確認 | Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang | (参考訳) 3D高密度キャプションは、最近提案された新しいタスクであり、ポイント雲は2Dよりも幾何的な情報を含んでいる。
しかし、複雑さが増し、オブジェクト間の関係がより多様になるため、さらに困難である。
既存の手法では、グラフでオブジェクト特徴学習の副産物として扱うだけで、それを特別にエンコードすることなく、結果として最適以下の結果が得られる。
本稿では,3次元シーンの複雑な関係を捕捉・活用して3次元高密度キャプションを改善することを目的として,より記述的で包括的なキャプションの生成を支援するマルチオーダーリレーションマイニングモデルMOREを提案する。
技術的には、MOREは複雑な関係を少数の基本関係から導出できるため、オブジェクト関係を進行的に符号化する。
まず,3次元オブジェクトの提案に基づいて構築されたグラフのエッジとして,複数の一階関係を意味的に符号化する空間レイアウトグラフ畳み込み(SLGC)を提案する。
次に、得られたグラフから基本一階関係を包含する複数の三重項を基本単位として抽出し、対象オブジェクト毎に多元関係を推定するオブジェクト中心三重項注意グラフ(otag)を構築する。
OTAGから更新されたノードの特徴を集約してキャプションデコーダに入力し、コンテクストオブジェクトとの多様な関係を含むキャプションを生成する。
scan2capデータセットに関する広範な実験により,提案する more とそのコンポーネントの有効性が証明された。 3D dense captioning is a recently-proposed novel task, where point clouds contain more geometric information than the 2D counterpart. However, it is also more challenging due to the higher complexity and wider variety of inter-object relations. Existing methods only treat such relations as by-products of object feature learning in graphs without specifically encoding them, which leads to sub-optimal results. In this paper, aiming at improving 3D dense captioning via capturing and utilizing the complex relations in the 3D scene, we propose MORE, a Multi-Order RElation mining model, to support generating more descriptive and comprehensive captions. Technically, our MORE encodes object relations in a progressive manner since complex relations can be deduced from a limited number of basic ones. We first devise a novel Spatial Layout Graph Convolution (SLGC), which semantically encodes several first-order relations as edges of a graph constructed over 3D object proposals. Next, from the resulting graph, we further extract multiple triplets which encapsulate basic first-order relations as the basic unit and construct several Object-centric Triplet Attention Graphs (OTAG) to infer multi-order relations for every target object. The updated node features from OTAG are aggregated and fed into the caption decoder to provide abundant relational cues so that captions including diverse relations with context objects can be generated. Extensive experiments on the Scan2Cap dataset prove the effectiveness of our proposed MORE and its components, and we also outperform the current state-of-the-art method. | 翻訳日:2022-03-11 13:16:53 公開日:2022-03-10 |
# TextConvoNet:テキスト分類のための畳み込みニューラルネットワークに基づくアーキテクチャ TextConvoNet:A Convolutional Neural Network based Architecture for Text Classification ( http://arxiv.org/abs/2203.05173v1 ) ライセンス: Link先を確認 | Sanskar Soni, Satyendra Singh Chouhan, and Santosh Singh Rathore | (参考訳) 近年、ディープラーニングベースのモデルは自然言語処理(NLP)タスクを大幅に改善している。
特に、コンピュータビジョンに最初に使われた畳み込みニューラルネットワーク(CNN)は、様々なNLP問題におけるテキストデータの顕著な性能を示している。
既存のCNNベースのモデルの多くは1次元の畳み込みフィルタ(n-gram detectors)を使用しており、各フィルタは特定の入力単語の埋め込みの特徴を抽出する。
入力語埋め込みは文行列とも呼ばれ、各行がワードベクトルである行列として扱われる。
したがって、モデルは1次元の畳み込みを適用し、文行列からn-gramベースの特徴のみを抽出することができる。
これらの特徴は、文内n-gram特徴と呼ばれる。
我々の知る限りでは、既存のCNNモデルはすべて上記の概念に基づいている。
本稿では,n-gram内特徴を抽出するだけでなく,入力テキストデータ中のn-gram間特徴をキャプチャするcnnベースのアーキテクチャであるtextconvonetを提案する。
入力行列表現に代替的なアプローチを用い、入力に2次元の多次元畳み込み演算を適用する。
TextConvoNetの性能を評価するために,5つのテキスト分類データセットの実験的検討を行った。
結果は様々なパフォーマンス指標を用いて評価される。
提案するtextconvonetは,テキスト分類において最先端の機械学習およびディープラーニングモデルよりも優れていることを示す。 In recent years, deep learning-based models have significantly improved the Natural Language Processing (NLP) tasks. Specifically, the Convolutional Neural Network (CNN), initially used for computer vision, has shown remarkable performance for text data in various NLP problems. Most of the existing CNN-based models use 1-dimensional convolving filters n-gram detectors), where each filter specialises in extracting n-grams features of a particular input word embedding. The input word embeddings, also called sentence matrix, is treated as a matrix where each row is a word vector. Thus, it allows the model to apply one-dimensional convolution and only extract n-gram based features from a sentence matrix. These features can be termed as intra-sentence n-gram features. To the extent of our knowledge, all the existing CNN models are based on the aforementioned concept. In this paper, we present a CNN-based architecture TextConvoNet that not only extracts the intra-sentence n-gram features but also captures the inter-sentence n-gram features in input text data. It uses an alternative approach for input matrix representation and applies a two-dimensional multi-scale convolutional operation on the input. To evaluate the performance of TextConvoNet, we perform an experimental study on five text classification datasets. The results are evaluated by using various performance metrics. The experimental results show that the presented TextConvoNet outperforms state-of-the-art machine learning and deep learning models for text classification purposes. | 翻訳日:2022-03-11 13:16:23 公開日:2022-03-10 |
# SemEval-2022 Task 12におけるAIFB-WebScience:関係抽出第一部-関係抽出と実体の同定 AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First -- Using Relation Extraction to Identify Entities ( http://arxiv.org/abs/2203.05325v1 ) ライセンス: Link先を確認 | Nicholas Popovic, Walter Laurito, Michael F\"arber | (参考訳) 本稿では,変換器に基づく言語モデルに基づくエンドツーエンドのジョイントエンティティと関係抽出手法を提案する。
数学的記号をLaTeX文書に記述するタスクにモデルを適用する。
エンティティ抽出と関係抽出を連続的に行う既存のアプローチとは対照的に,本システムは関係抽出からエンティティ抽出へ情報を取り込む。
つまり、有効なエンティティのサブセットだけがアノテートされているデータセットでも、システムはトレーニングできる。
本稿では,提案システムとその長所と短所を広範囲に評価する。
提案手法は計算複雑性を推論時に動的に拡張し,高精度で予測し,SemEval-2022タスク12のリーダーボードで3位に到達した。
物理学と数学の分野の入力では、それぞれ95.43%と79.17%の高関係抽出マクロf1スコアが得られる。
モデルのトレーニングと評価に使用されるコードは、https://github.com/nicpopovic/RE1stで公開されている。 In this paper, we present an end-to-end joint entity and relation extraction approach based on transformer-based language models. We apply the model to the task of linking mathematical symbols to their descriptions in LaTeX documents. In contrast to existing approaches, which perform entity and relation extraction in sequence, our system incorporates information from relation extraction into entity extraction. This means that the system can be trained even on data sets where only a subset of all valid entity spans is annotated. We provide an extensive evaluation of the proposed system and its strengths and weaknesses. Our approach, which can be scaled dynamically in computational complexity at inference time, produces predictions with high precision and reaches 3rd place in the leaderboard of SemEval-2022 Task 12. For inputs in the domain of physics and math, it achieves high relation extraction macro f1 scores of 95.43% and 79.17%, respectively. The code used for training and evaluating our models is available at: https://github.com/nicpopovic/RE1st | 翻訳日:2022-03-11 13:16:00 公開日:2022-03-10 |
# モデルスープ:複数の微調整モデルの平均重量は推論時間を増やすことなく精度を向上させる Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time ( http://arxiv.org/abs/2203.05482v1 ) ライセンス: Link先を確認 | Mitchell Wortsman, Gabriel Ilharco, Samir Yitzhak Gadre, Rebecca Roelofs, Raphael Gontijo-Lopes, Ari S. Morcos, Hongseok Namkoong, Ali Farhadi, Yair Carmon, Simon Kornblith, Ludwig Schmidt | (参考訳) モデル精度を最大化するための従来のレシピは、(1)様々なハイパーパラメーターで複数のモデルを訓練し、(2)保持された検証セット上で最良となる個別モデルを選定し、残りのモデルを破棄する。
本稿では,この手順の2番目のステップを,細調整されたモデルが単一の低誤差境界内にあるように見えるような,大規模事前学習モデルの文脈で再考する。
異なるパラメータ構成で微調整された複数のモデルの重みを平均化することで、精度とロバスト性が向上することを示す。
従来のアンサンブルとは異なり、追加の推論やメモリコストを伴わずに、平均的な多くのモデルを作ることができます。
CLIP, ALIGN, およびJFTで事前学習したViT-Gなどの大規模事前学習モデルの微調整を行うと, スープレシピはImageNetのハイパーパラメータスイープにおいて, 最高のモデルよりも大幅に改善される。
ハイライトとして、結果のViT-Gモデルは、新しい最先端であるImageNetで90.94%のトップ1精度を達成した。
さらに,モデルスープアプローチが複数の画像分類や自然言語処理タスクに拡張され,分散性能が向上し,新しい下流タスクにおけるゼロショット性能が向上することを示す。
最後に,重量平均とロジットセンシングの性能の類似性を,予測の損失と信頼性の平坦性に分析的に関連付け,経験的に検証する。 The conventional recipe for maximizing model accuracy is to (1) train multiple models with various hyperparameters and (2) pick the individual model which performs best on a held-out validation set, discarding the remainder. In this paper, we revisit the second step of this procedure in the context of fine-tuning large pre-trained models, where fine-tuned models often appear to lie in a single low error basin. We show that averaging the weights of multiple models fine-tuned with different hyperparameter configurations often improves accuracy and robustness. Unlike a conventional ensemble, we may average many models without incurring any additional inference or memory costs -- we call the results "model soups." When fine-tuning large pre-trained models such as CLIP, ALIGN, and a ViT-G pre-trained on JFT, our soup recipe provides significant improvements over the best model in a hyperparameter sweep on ImageNet. As a highlight, the resulting ViT-G model attains 90.94% top-1 accuracy on ImageNet, a new state of the art. Furthermore, we show that the model soup approach extends to multiple image classification and natural language processing tasks, improves out-of-distribution performance, and improves zero-shot performance on new downstream tasks. Finally, we analytically relate the performance similarity of weight-averaging and logit-ensembling to flatness of the loss and confidence of the predictions, and validate this relation empirically. | 翻訳日:2022-03-11 13:15:43 公開日:2022-03-10 |
# back to reality: shape-guided label enhancementによる弱い教師付き3dオブジェクト検出 Back to Reality: Weakly-supervised 3D Object Detection with Shape-guided Label Enhancement ( http://arxiv.org/abs/2203.05238v1 ) ライセンス: Link先を確認 | Xiuwei Xu, Yifan Wang, Yu Zheng, Yongming Rao, Jiwen Lu, Jie Zhou | (参考訳) 本稿では,3次元オブジェクト検出のための弱教師付きアプローチを提案する。これにより,位置レベルのアノテーション(オブジェクト中心のアノテーション)を用いて,強力な3次元検出器を訓練することができる。
ボックスアノテーションからセンターへの情報損失を改善するため,我々の手法であるBack to Reality (BR)は,弱いラベルを完全な注釈付き仮想シーンに変換するための合成3D形状を用いて,真のラベルを補完・洗練するために,完全な仮想ラベルを利用する。
具体的には,まず位置レベルのアノテーションから抽出した粗いシーンレイアウトに従って,物理的に妥当な仮想シーンに3d形状を組み立てる。
次に、弱いラベルを洗練し、仮想シーンで検出器のトレーニングを監督する仮想から現実へのドメイン適応手法を適用することで現実に戻る。
さらに, 室内3次元物体検出において, BRの可能性をよりよく示すために, より多彩なオブジェクトサイズでより困難なベノックマークを提案する。
ラベル付け作業の5%未満で、広く使用されているscannetデータセット上の一般的な完全教師付きアプローチと同等の検出性能を達成しています。
コードは、https://github.com/xuxw98/BackToRealityで入手できる。 In this paper, we propose a weakly-supervised approach for 3D object detection, which makes it possible to train strong 3D detector with position-level annotations (i.e. annotations of object centers). In order to remedy the information loss from box annotations to centers, our method, namely Back to Reality (BR), makes use of synthetic 3D shapes to convert the weak labels into fully-annotated virtual scenes as stronger supervision, and in turn utilizes the perfect virtual labels to complement and refine the real labels. Specifically, we first assemble 3D shapes into physically reasonable virtual scenes according to the coarse scene layout extracted from position-level annotations. Then we go back to reality by applying a virtual-to-real domain adaptation method, which refine the weak labels and additionally supervise the training of detector with the virtual scenes. Furthermore, we propose a more challenging benckmark for indoor 3D object detection with more diversity in object sizes to better show the potential of BR. With less than 5% of the labeling labor, we achieve comparable detection performance with some popular fully-supervised approaches on the widely used ScanNet dataset. Code is available at: https://github.com/xuxw98/BackToReality | 翻訳日:2022-03-11 13:14:51 公開日:2022-03-10 |
# (参考訳) 多様性を意識した言語科学と技術のための会話コーパスの構築とキュレーション Building and curating conversational corpora for diversity-aware language science and technology ( http://arxiv.org/abs/2203.03399v2 ) ライセンス: CC BY 4.0 | Andreas Liesenfeld, Mark Dingemanse | (参考訳) 66の言語と32の系統を網羅する対話型相互作用の、最も自然なデータセットを構築するためのパイプラインとツールを提案する。
本稿では,多様な言語ドキュメントコーパスから統一フォーマットへ移行するキュレーションとコンパイルのプロセスを説明し,対話型データの品質管理と評価を支援するオープンソースツール「convo-parse」について述べる。
多様なデータセットが対話型言語学や音声認識技術にどのような影響を及ぼすかという2つのケーススタディをまとめ,言語科学の実証的基盤の拡大に寄与する。 We present a pipeline and tools to build a maximally natural data set of conversational interaction that covers 66 languages and varieties from 32 phyla. We describe the curation and compilation process moving from diverse language documentation corpora to a unified format and describe an open-source tool "convo-parse" to help in quality control and assessment of conversational data. We conclude with two case studies of how diverse data sets can inform interactional linguistics and speech recognition technology and thus contribute to broadening the empirical foundations of language sciences and technologies of the future. | 翻訳日:2022-03-11 13:13:03 公開日:2022-03-10 |
# (参考訳) 超高精度超解像ネットワークのための動的デュアルトレーニングバウンド Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution Networks ( http://arxiv.org/abs/2203.03844v2 ) ライセンス: CC BY 4.0 | Yunshan Zhong, Mingbao Lin, Xunchao Li, Ke Li, Yunhang Shen, Fei Chao, Yongjian Wu, Rongrong Ji | (参考訳) 軽量スーパーレゾリューション(SR)モデルは、モバイルデバイスでの利用性に大きな注目を集めている。
多くの努力はsrモデルを圧縮するためにネットワーク量子化を利用している。
しかし、これらの手法は、SRモデルを低コスト層ワイド量子化器で超低精度(2ビット、3ビットなど)に定量化する際に、厳しい性能劣化に悩まされる。
本稿では,SRモデルにおける層次対称量子化器と高非対称活性化分布との矛盾から,性能低下が生じることを確かめる。
この違いは、量子化レベルの無駄や、再構成された画像の詳細な損失につながる。
そこで本研究では,アクティベーションの非対称性に対応するために,動的デュアルトレーニング境界(DDTB)と呼ばれる新しいアクティベーション量子化器を提案する。
具体的には、DDTBは:
1) 高度に非対称なアクティベーションに取り組むために, 上部および下部境界を訓練可能な層状量子化器。
2) 実行時の上限と下限を適応的に調整し, 異なるサンプルに対して大きく変化するアクティベーション範囲を克服する動的ゲートコントローラを, 追加オーバーヘッドを低減するために, 動的ゲートコントローラを2ビットに量子化し, 導入した動的強度に応じてsrネットワークの一部にのみ適用する。
DDTBは超低精度で高い性能向上を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
コードは \url{https://github.com/zysxmu/DDTB} にある。 Light-weight super-resolution (SR) models have received considerable attention for their serviceability in mobile devices. Many efforts employ network quantization to compress SR models. However, these methods suffer from severe performance degradation when quantizing the SR models to ultra-low precision (e.g., 2-bit and 3-bit) with the low-cost layer-wise quantizer. In this paper, we identify that the performance drop comes from the contradiction between the layer-wise symmetric quantizer and the highly asymmetric activation distribution in SR models. This discrepancy leads to either a waste on the quantization levels or detail loss in reconstructed images. Therefore, we propose a novel activation quantizer, referred to as Dynamic Dual Trainable Bounds (DDTB), to accommodate the asymmetry of the activations. Specifically, DDTB innovates in: 1) A layer-wise quantizer with trainable upper and lower bounds to tackle the highly asymmetric activations. 2) A dynamic gate controller to adaptively adjust the upper and lower bounds at runtime to overcome the drastically varying activation ranges over different samples.To reduce the extra overhead, the dynamic gate controller is quantized to 2-bit and applied to only part of the SR networks according to the introduced dynamic intensity. Extensive experiments demonstrate that our DDTB exhibits significant performance improvements in ultra-low precision. For example, our DDTB achieves a 0.70dB PSNR increase on Urban100 benchmark when quantizing EDSR to 2-bit and scaling up output images to x4. Code is at \url{https://github.com/zysxmu/DDTB}. | 翻訳日:2022-03-11 13:00:08 公開日:2022-03-10 |
# (参考訳) 機械学習を用いた連続変数の介入による平均因果効果の推定 Estimating the average causal effect of intervention in continuous variables using machine learning ( http://arxiv.org/abs/2203.03916v3 ) ライセンス: CC BY 4.0 | Yoshiaki Kitazawa | (参考訳) 平均因果効果/平均治療効果を推定するための最も広く議論されている方法は、介入/非干渉群を表す値を持つ離散二変数への介入である。
一方,データ生成モデルに依存しない連続変数のインターベンション手法は開発されていない。
本研究では,任意の生成モデルのデータに適用可能な連続変数に対する介入に対する平均因果効果を,因果効果を識別できる限り推定する手法を提案する。
提案手法は機械学習アルゴリズムとは無関係であり、データの識別性を保持する。 The most widely discussed methods for estimating the Average Causal Effect / Average Treatment Effect are those for intervention in discrete binary variables whose value represents the intervention / non-intervention groups. On the other hand, methods for intervening in continuous variables independent of the data generating model has not been developed. In this study, we give a method for estimating the average causal effect for intervention in continuous variables that can be applied to data of any generating model as long as the causal effect is identifiable. The proposing method is independent of machine learning algorithms and preserves the identifiability of the data. | 翻訳日:2022-03-11 12:58:59 公開日:2022-03-10 |
# (参考訳) 制約付きボトルネックオートエンコーダを用いたデータ駆動型検出器信号特性評価 Data-driven detector signal characterization with constrained bottleneck autoencoders ( http://arxiv.org/abs/2203.04604v2 ) ライセンス: CC BY 4.0 | C\'esar Jes\'us-Valls, Thorsten Lux and Federico S\'anchez | (参考訳) 高エネルギー物理学における一般的な手法は、システムの物理パラメータから検出器の期待信号へのパラメトリックマップを構築するデータに追従したモデルを用いて検出器の応答を特徴づけることである。
基礎となるモデルが不明な場合、この手法を適用することは困難であり、しばしば、モデリングエラーを導入した仮定を単純化する。
本稿では,波形玩具モデルを用いて,制約付きボトルネックオートエンコーダによるディープラーニングを用いて,未知検出応答モデルを直接データから学習する方法を提案する。
その結果,信号がランダムノイズの影響を受けても,優れた性能が得られることがわかった。
訓練されたアルゴリズムは同時にモデルの物理パラメータの推定を行い、高い忠実度で検出器応答をシミュレートし、検出器信号にノイズを与える。 A common technique in high energy physics is to characterize the response of a detector by means of models tunned to data which build parametric maps from the physical parameters of the system to the expected signal of the detector. When the underlying model is unknown it is difficult to apply this method, and often, simplifying assumptions are made introducing modeling errors. In this article, using a waveform toy model we present how deep learning in the form of constrained bottleneck autoencoders can be used to learn the underlying unknown detector response model directly from data. The results show that excellent performance results can be achieved even when the signals are significantly affected by random noise. The trained algorithm can be used simultaneously to perform estimations on the physical parameters of the model, simulate the detector response with high fidelity and to denoise detector signals. | 翻訳日:2022-03-11 12:25:27 公開日:2022-03-10 |
# (参考訳) Text-DIAE: テキスト認識と文書強調のための劣化不変オートエンコーダ Text-DIAE: Degradation Invariant Autoencoders for Text Recognition and Document Enhancement ( http://arxiv.org/abs/2203.04814v2 ) ライセンス: CC BY 4.0 | Mohamed Ali Souibgui, Sanket Biswas, Andres Mafla, Ali Furkan Biten, Alicia Forn\'es, Yousri Kessentini, Josep Llad\'os, Lluis Gomez, Dimosthenis Karatzas | (参考訳) 本研究では,テキスト認識(手書き・シーンテキスト)と文書画像強調の2つの課題を解決するためのテキスト劣化不変オートエンコーダ(Text-DIAE)を提案する。
3つのプリテキストタスクを,ラベル付きデータの使用なしに事前トレーニング中に最適化される学習目標として定義する。
プレテキストの目的のそれぞれは、最後のダウンストリームタスクに特化している。
特定の領域における各劣化の重要性を示すアブレーション実験を行っている。
実験結果から, 従来手法では, 従来手法では比較的損失に基づく限界がなく, 同時に, 収束するデータサンプルが少ないことがわかった。
最後に,本手法は手書き文字認識と文書画像強調において,既存の教師付きおよび自己監督型設定において,最先端の手法をはるかに上回ることを示す。
私たちのコードとトレーニングされたモデルは、~\url{ http://Upon_Acceptance}で公開されます。 In this work, we propose Text-Degradation Invariant Auto Encoder (Text-DIAE) aimed to solve two tasks, text recognition (handwritten or scene-text) and document image enhancement. We define three pretext tasks as learning objectives to be optimized during pre-training without the usage of labelled data. Each of the pre-text objectives is specifically tailored for the final downstream tasks. We conduct several ablation experiments that show the importance of each degradation for a specific domain. Exhaustive experimentation shows that our method does not have limitations of previous state-of-the-art based on contrastive losses while at the same time requiring essentially fewer data samples to converge. Finally, we demonstrate that our method surpasses the state-of-the-art significantly in existing supervised and self-supervised settings in handwritten and scene text recognition and document image enhancement. Our code and trained models will be made publicly available at~\url{ http://Upon_Acceptance}. | 翻訳日:2022-03-11 12:14:33 公開日:2022-03-10 |
# ディープニューラルネットワークを用いたデータ駆動型ロバスト統計調停戦略の検出 Detecting data-driven robust statistical arbitrage strategies with deep neural networks ( http://arxiv.org/abs/2203.03179v2 ) ライセンス: Link先を確認 | Ariel Neufeld, Julian Sester, Daiying Yin | (参考訳) 我々は、金融市場における堅牢な統計的仲裁戦略を識別できるディープニューラルネットワークに基づくアプローチを提案する。
ロバストな統計仲裁戦略は、モデルあいまいさの下で利益のある取引を可能にする自己金融取引戦略を指す。
提示された新しい手法は、次元の呪いに苦しめられず、統合された資産のペアの識別に依存しないため、高次元金融市場や古典的なペア取引アプローチが失敗する市場においても適用可能である。
さらに、観測された市場データから導出可能な許容確率尺度のあいまい性セットを構築する方法を提案する。
したがって、このアプローチはモデルフリーであり、データ駆動であると考えることができる。
金融危機時の50次元においても高い利益率の取引実績と資産対の合併関係が持続しなくなった場合においても,実証調査を行うことにより,本手法の適用性を示す。 We present an approach, based on deep neural networks, that allows identifying robust statistical arbitrage strategies in financial markets. Robust statistical arbitrage strategies refer to self-financing trading strategies that enable profitable trading under model ambiguity. The presented novel methodology does not suffer from the curse of dimensionality nor does it depend on the identification of cointegrated pairs of assets and is therefore applicable even on high-dimensional financial markets or in markets where classical pairs trading approaches fail. Moreover, we provide a method to build an ambiguity set of admissible probability measures that can be derived from observed market data. Thus, the approach can be considered as being model-free and entirely data-driven. We showcase the applicability of our method by providing empirical investigations with highly profitable trading performances even in 50 dimensions, during financial crises, and when the cointegration relationship between asset pairs stops to persist. | 翻訳日:2022-03-11 11:51:13 公開日:2022-03-10 |
# (参考訳) 中間レベル表現としての分解光学流れの検討 Investigation of Factorized Optical Flows as Mid-Level Representations ( http://arxiv.org/abs/2203.04927v2 ) ライセンス: CC BY 4.0 | Hsuan-Kung Yang, Tsu-Ching Hsiao, Ting-Hsuan Liao, Hsu-Shen Liu, Li-Yuan Tsao, Tzu-Wen Wang, Shan-Ya Yang, Yu-Wen Chen, Huang-Ru Liao, and Chun-Yi Lee | (参考訳) 本稿では,モジュール型学習ロボットフレームワークにおける知覚と制御モジュールを橋渡しするための中レベル表現として,因子化フローマップを組み込む新しい概念を提案する。
因子化フローマップの利点を検証し,他の中級表現との相互作用を検討するために,静的および動的オブジェクトの両方を含む4つの異なる環境とともに構成可能なフレームワークを開発し,分解された光フローマップが深い強化学習エージェントの性能に与える影響を解析する。
この枠組みに基づき,様々なシナリオに関する実験結果を報告し,仮説を正当化するための一連の分析を行う。
最後に,実世界のシナリオにおけるフローファクタライゼーションを検証する。 In this paper, we introduce a new concept of incorporating factorized flow maps as mid-level representations, for bridging the perception and the control modules in modular learning based robotic frameworks. To investigate the advantages of factorized flow maps and examine their interplay with the other types of mid-level representations, we further develop a configurable framework, along with four different environments that contain both static and dynamic objects, for analyzing the impacts of factorized optical flow maps on the performance of deep reinforcement learning agents. Based on this framework, we report our experimental results on various scenarios, and offer a set of analyses to justify our hypothesis. Finally, we validate flow factorization in real world scenarios. | 翻訳日:2022-03-11 11:49:44 公開日:2022-03-10 |
# 代表的スニペット知識伝播による時間的行動局在の弱化 Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation ( http://arxiv.org/abs/2203.02925v3 ) ライセンス: Link先を確認 | Linjiang Huang, Liang Wang, Hongsheng Li | (参考訳) 微弱に監督された時間的行動局所化は、行動の時間的境界をローカライズすることを目的としており、同時にビデオレベルのカテゴリラベルのみを用いてカテゴリを識別する。
既存の多くの手法は、分類とローカライゼーションの相違をブリッジするために擬似ラベルを生成するが、通常は擬似ラベル生成に限定した文脈情報のみを使用する。
この問題を軽減するために,代表的要約・伝播フレームワークを提案する。
提案手法では,ビデオスニペット間で情報を伝達し,より優れた擬似ラベルを生成するために,各ビデオ中の代表スニペットをマイニングする。
各ビデオに対して、それぞれの代表スニペットとメモリバンクの代表スニペットが伝播して、イントラおよびイントラビデオ方式で入力機能を更新する。
更新された特徴の時間クラス活性化マップから擬似ラベルを生成し、メインブランチの予測を是正する。
提案手法は,THUMOS14とActivityNet1.3の2つのベンチマークにおける既存手法と比較して優れた性能を示し,THUMOS14の平均mAPは1.2%向上した。 Weakly supervised temporal action localization aims to localize temporal boundaries of actions and simultaneously identify their categories with only video-level category labels. Many existing methods seek to generate pseudo labels for bridging the discrepancy between classification and localization, but usually only make use of limited contextual information for pseudo label generation. To alleviate this problem, we propose a representative snippet summarization and propagation framework. Our method seeks to mine the representative snippets in each video for propagating information between video snippets to generate better pseudo labels. For each video, its own representative snippets and the representative snippets from a memory bank are propagated to update the input features in an intra- and inter-video manner. The pseudo labels are generated from the temporal class activation maps of the updated features to rectify the predictions of the main branch. Our method obtains superior performance in comparison to the existing methods on two benchmarks, THUMOS14 and ActivityNet1.3, achieving gains as high as 1.2% in terms of average mAP on THUMOS14. | 翻訳日:2022-03-11 11:30:16 公開日:2022-03-10 |
# SingleSketch2Mesh : スケッチから3Dメッシュモデルを生成する SingleSketch2Mesh : Generating 3D Mesh model from Sketch ( http://arxiv.org/abs/2203.03157v2 ) ライセンス: Link先を確認 | Nitish Bhardwaj, Dhornala Bharadwaj, Alpana Dubey | (参考訳) スケッチは設計プロセスにおいて重要な活動である。
設計者とステークホルダは手書きのスケッチを通じてアイデアを共有します。
これらのスケッチは、3dモデルの作成にも使われる。
スケッチから3Dモデルを生成する現在の方法は、手動またはタイトに3Dモデリングプラットフォームと結合されている。
そのため、ユーザーはこうしたプラットフォーム上でスケッチを体験する必要がある。
さらに、既存のアプローチのほとんどは幾何学的操作に基づいているため、一般化はできない。
我々は手描きスケッチから3Dモデルを生成するための新しいAIベースのアンサンブルアプローチであるSingleSketch2Meshを提案する。
このアプローチは生成ネットワークとエンコーダ-デコーダアーキテクチャに基づいて,手書きスケッチから3次元メッシュモデルを生成する。
既存のソリューションでソリューションを評価します。
提案手法は,定量評価基準と定性評価基準の両方において既存手法より優れている。 Sketching is an important activity in any design process. Designers and stakeholders share their ideas through hand-drawn sketches. These sketches are further used to create 3D models. Current methods to generate 3D models from sketches are either manual or tightly coupled with 3D modeling platforms. Therefore, it requires users to have an experience of sketching on such platform. Moreover, most of the existing approaches are based on geometric manipulation and thus cannot be generalized. We propose a novel AI based ensemble approach, SingleSketch2Mesh, for generating 3D models from hand-drawn sketches. Our approach is based on Generative Networks and Encoder-Decoder Architecture to generate 3D mesh model from a hand-drawn sketch. We evaluate our solution with existing solutions. Our approach outperforms existing approaches on both - quantitative and qualitative evaluation criteria. | 翻訳日:2022-03-11 11:29:57 公開日:2022-03-10 |
# 顔認識における物理的対立パッチの評価と生成 Controllable Evaluation and Generation of Physical Adversarial Patch on Face Recognition ( http://arxiv.org/abs/2203.04623v2 ) ライセンス: Link先を確認 | Xiao Yang, Yinpeng Dong, Tianyu Pang, Zihao Xiao, Hang Su, Jun Zhu | (参考訳) 近年の研究では、顔認証システムのセキュリティ上の懸念を生じさせる物理的敵パッチに対する顔認識モデルの脆弱性が明らかにされている。
しかし、複雑な物理条件下での攻撃アルゴリズムの再現性を確保することは依然として困難であり、既存の手法の体系的評価が欠如している。
したがって、物理的世界における顔認識の脆弱性を包括的に評価できるフレームワークを開発することが不可欠である。
そこで,本稿では,物理的顔のデジタル対応として機能する3d顔モデルを用いて,物理的世界における顔の複雑な変換をシミュレートする。
汎用フレームワークは、さまざまな顔のバリエーションや物理的条件を制御し、再現可能な評価を包括的に行うことができる。
このデジタルシミュレータを用いて,3次元顔変換とリアルな物理的変動を考慮したface3dadv法を提案する。
広範な実験により、face3dadvは様々なホワイトボックスとブラックボックスの顔認識モデルに対して、シミュレートされた環境と物理的環境の両方において、様々な物理的に実現可能な敵パッチの有効性を著しく改善できることが確認された。 Recent studies have revealed the vulnerability of face recognition models against physical adversarial patches, which raises security concerns about the deployed face recognition systems. However, it is still challenging to ensure the reproducibility for most attack algorithms under complex physical conditions, which leads to the lack of a systematic evaluation of the existing methods. It is therefore imperative to develop a framework that can enable a comprehensive evaluation of the vulnerability of face recognition in the physical world. To this end, we propose to simulate the complex transformations of faces in the physical world via 3D-face modeling, which serves as a digital counterpart of physical faces. The generic framework allows us to control different face variations and physical conditions to conduct reproducible evaluations comprehensively. With this digital simulator, we further propose a Face3DAdv method considering the 3D face transformations and realistic physical variations. Extensive experiments validate that Face3DAdv can significantly improve the effectiveness of diverse physically realizable adversarial patches in both simulated and physical environments, against various white-box and black-box face recognition models. | 翻訳日:2022-03-11 11:29:46 公開日:2022-03-10 |
# 専門的学習によるオンライン健康フォーラムの博士勧告 Doctor Recommendation in Online Health Forums via Expertise Learning ( http://arxiv.org/abs/2203.02932v3 ) ライセンス: Link先を確認 | Xiaoxin Lu, Yubo Zhang, Jing Li, Shi Zong | (参考訳) 大量の患者クエリがオンラインヘルスフォーラムで毎日生成され、手動の医師が労働集約的なタスクを割り当てる。
そこで本論文では,患者を医師に自動的にペア化するための,医師推薦の新たな課題について検討する。
これまでの推奨作業のほとんどは、過去の行動からターゲットユーザをモデル化することに焦点を当てていますが、プライバシ上の理由から患者のニーズを推測するために、クエリ内の限られた単語のみに依存することができます。
医師モデルでは, 他患者とのプロフィールと過去の対話の併用効果について検討し, 自己学習による対話を探求する。
学習した医師の埋め込みは、患者クエリをマルチヘッドアテンションメカニズムで処理する能力を推定するためにさらに使用される。
実験では、中国のオンライン健康フォーラム「中入義宗」から大規模なデータセットを収集し、私たちのモデルは最先端の結果を示し、医師を特徴づけるためにプロファイルと過去の対話のみを上回ります。 Huge volumes of patient queries are daily generated on online health forums, rendering manual doctor allocation a labor-intensive task. To better help patients, this paper studies a novel task of doctor recommendation to enable automatic pairing of a patient to a doctor with relevant expertise. While most prior work in recommendation focuses on modeling target users from their past behavior, we can only rely on the limited words in a query to infer a patient's needs for privacy reasons. For doctor modeling, we study the joint effects of their profiles and previous dialogues with other patients and explore their interactions via self-learning. The learned doctor embeddings are further employed to estimate their capabilities of handling a patient query with a multi-head attention mechanism. For experiments, a large-scale dataset is collected from Chunyu Yisheng, a Chinese online health forum, where our model exhibits the state-of-the-art results, outperforming baselines only consider profiles and past dialogues to characterize a doctor. | 翻訳日:2022-03-11 11:29:26 公開日:2022-03-10 |