このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20211111となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 一般化不確かさ原理補正調和振動子における熱状態のr\'enyiとvon neumannエントロピー R\'enyi and von Neumann entropies of thermal state in Generalized Uncertainty Principle-corrected harmonic oscillator ( http://arxiv.org/abs/2006.02717v2 ) ライセンス: Link先を確認 | MuSeong Kim, Mi-Ra Hwang, Eylee Jung, and DaeKil Park | (参考訳) 一般化不確かさ原理(GUP)補正単調波発振器系における熱状態のR\'{e}nyiとフォン・ノイマンエントロピーは、GUPパラメータ$\alpha$の最初の順序で明示的に計算される。
$\alpha = 0$ のフォン・ノイマンエントロピーは外部温度において単調に増大する振舞いを示すが、非ゼロ GUP パラメータは大きな温度領域におけるフォン・ノイマンエントロピーの振舞いを減少させる。
その結果、フォン・ノイマンのエントロピーは、$\alpha \neq 0$ の場合、有限温度で最大化される。
R\'{e}nyi entropy $S_{\gamma}$ が 0 でない$\alpha$ もまた、大きな温度領域で同様の挙動を示す。
この領域では、r\'{e}nyiエントロピーは温度の増加とともに減少する挙動を示す。
R\'{e}nyi entropy $\gamma$ の順序が小さくなると減少率が大きくなる。 The R\'{e}nyi and von Neumann entropies of the thermal state in the generalized uncertainty principle (GUP)-corrected single harmonic oscillator system are explicitly computed within the first order of the GUP parameter $\alpha$. While the von Neumann entropy with $\alpha = 0$ exhibits a monotonically increasing behavior in external temperature, the nonzero GUP parameter makes the decreasing behavior of the von Neumann entropy at the large temperature region. As a result, the von Neumann entropy is maximized at the finite temperature if $\alpha \neq 0$. The R\'{e}nyi entropy $S_{\gamma}$ with nonzero $\alpha$ also exhibits similar behavior at the large temperature region. In this region the R\'{e}nyi entropy exhibit decreasing behavior with increasing the temperature. The decreasing rate becomes larger when the order of the R\'{e}nyi entropy $\gamma$ is smaller. | 翻訳日:2023-05-17 04:36:16 公開日:2021-11-11 |
# キラリティーに基づく量子跳躍 A Chirality-Based Quantum Leap ( http://arxiv.org/abs/2009.00136v2 ) ライセンス: Link先を確認 | Clarice D. Aiello, Muneer Abbas, John M. Abendroth, Andrei Afanasev, Shivang Agarwal, Amartya S. Banerjee, David N. Beratan, Jason N. Belling, Bertrand Berche, Antia Botana, Justin R. Caram, Giuseppe Luca Celardo, Gianaurelio Cuniberti, Aitzol Garcia-Etxarri, Arezoo Dianat, Ismael Diez-Perez, Yuqi Guo, Rafael Gutierrez, Carmen Herrmann, Joshua Hihath, Suneet Kale, Philip Kurian, Ying-Cheng Lai, Alexander Lopez, Ernesto Medina, Vladimiro Mujica, Ron Naaman, Mohammadreza Noormandipour, Julio L. Palma, Yossi Paltiel, William T. Petuskey, Joao Carlos Ribeiro-Silva, Juan Jose Saenz, Elton J. G. Santos, Maria Solyanik, Volker J. Sorger, Dominik M. Stemer, Jesus M. Ugalde, Ana Valdes-Curiel, Solmar Varela, David H. Waldeck, Paul S. Weiss, Helmut Zacharias, and Qing Hua Wang | (参考訳) キラルな自由度は物質や電磁界で発生し、キラル分子や工学的ナノ材料におけるキラル誘導スピン選択性(ciss)効果の最近の観測によって新たな関心が寄せられている研究領域を構成する。
CISS効果は、ナノ光学的キラル構造による電荷輸送が特定の電子スピン配向を好んでおり、室温のスピン偏極が大きいという事実を裏付けている。
ciss効果の観測は、スピン制御とボトムアップから室温量子デバイスの設計と製造の機会を原子スケール精度で示唆している。
論理、センシング、記憶のための量子デバイスを含む最適な電荷輸送に依存する技術は、キラル量子特性の恩恵を受ける。
これらの性質は、現在不足している量子情報の観点から理論的および実験的に研究することができる。
量子情報の保存、変換、操作を制御するためにキラルカップリングを設計できると、量子科学には明確な意味がある。
この先見的な視点は、キラル影響量子効果の実験的および理論的基礎の調査を提供し、室温量子技術の実現における将来の役割に対するビジョンを示す。 Chiral degrees of freedom occur in matter and in electromagnetic fields and constitute an area of research that is experiencing renewed interest driven by recent observations of the chiral-induced spin selectivity (CISS) effect in chiral molecules and engineered nanomaterials. The CISS effect underpins the fact that charge transport through nanoscopic chiral structures favors a particular electronic spin orientation, resulting in large room-temperature spin polarizations. Observations of the CISS effect suggest opportunities for spin control and for the design and fabrication of room-temperature quantum devices from the bottom up, with atomic-scale precision. Any technology that relies on optimal charge transport, including quantum devices for logic, sensing, and storage, may benefit from chiral quantum properties. These properties can be theoretically and experimentally investigated from a quantum information perspective, which is presently lacking. There are uncharted implications for the quantum sciences once chiral couplings can be engineered to control the storage, transduction, and manipulation of quantum information. This forward-looking perspective provides a survey of the experimental and theoretical fundamentals of chiral-influenced quantum effects, and presents a vision for their future roles in enabling room-temperature quantum technologies. | 翻訳日:2023-05-04 05:15:26 公開日:2021-11-11 |
# サブ回折非コヒーレント光イメージングにおける量子限界
II。
パラメトリックサブモデルアプローチ Quantum limit to subdiffraction incoherent optical imaging. II. A parametric-submodel approach ( http://arxiv.org/abs/2010.03518v4 ) ライセンス: Link先を確認 | Mankei Tsang | (参考訳) 前回の論文 (M. Tsang, Phys. Rev. A 99, 012305 (2019)] で, サブ回折非コヒーレント光学画像における物体モーメントの推定に対する量子制限を提案した。
この続編では、無限次元解析によって量子極限を厳密に証明する。
証明の鍵は半パラメトリック問題に対する有界性を与えるために、好ましくないパラメトリック部分モデルを選択することである。
より大規模なモーメントの量子極限を一般化することにより、空間モードデマルチプレックス(SPADE)の測定方法が1つまたは2つのモードで量子極限を達成することができることを示す。
比較のために,パラメトリック・サブモデル法を用いて直接撮像の古典的境界を導出し,直接撮像が著しく劣っていることを示唆した。 In a previous paper [M. Tsang, Phys. Rev. A 99, 012305 (2019)], I proposed a quantum limit to the estimation of object moments in subdiffraction incoherent optical imaging. In this sequel, I prove the quantum limit rigorously by infinite-dimensional analysis. A key to the proof is the choice of an unfavorable parametric submodel to give a bound for the semiparametric problem. By generalizing the quantum limit for a larger class of moments, I also prove that the measurement method of spatial-mode demultiplexing (SPADE) with just one or two modes is able to achieve the quantum limit. For comparison, I derive a classical bound for direct imaging using the parametric-submodel approach, which suggests that direct imaging is substantially inferior. | 翻訳日:2023-04-29 17:48:41 公開日:2021-11-11 |
# 四重極空洞通過回避における波動関数(de)局在の指標 Indicators of wavefunction (de)localization in the avoided crossing in a quadrupole cavity ( http://arxiv.org/abs/2011.09095v3 ) ライセンス: Link先を確認 | Kyu-Won Park, Juman Kim, Jisung Seo, Songky Moon, Kabgyun Jeong | (参考訳) 四重極ビリヤードにおける波動関数(de)局在と回避交差の関係について検討した。
我々は、波動関数(de)局在化の3種類の尺度として、逆参加比、Renyiエントロピー、ルート平均二乗(rms)画像コントラストを用いる。
これらの測定はすべて同じように振る舞い、波動関数が最大非局在化される回避交差の中心で最小値を示す。
以上の結果から, rmsコントラストは最も感度の高い指標となるものの, 波動関数(de)局所化の指標として有用であることが示された。 We study the relation between wavefunction (de)localization and the avoided crossing in a quadrupole billiard. We employ the inverse participation ratio, the Renyi entropy and the root-mean-square (rms) image contrast as the three types of measures for wavefunction (de)localization. It is found that all these measures behave similarly, exhibiting a minimum at the center of avoided crossing, where wavefunction is maximally delocalized. Our results show that these quantities can be good indicators for wavefunction (de)localization although the rms contrast yields the most sensitive measure among them. | 翻訳日:2023-04-23 19:25:19 公開日:2021-11-11 |
# トレース距離と忠実度推定のための変分量子アルゴリズム Variational Quantum Algorithms for Trace Distance and Fidelity Estimation ( http://arxiv.org/abs/2012.05768v3 ) ライセンス: Link先を確認 | Ranyiliu Chen, Zhixin Song, Xuanqiang Zhao, Xin Wang | (参考訳) 量子データ間の差を推定することは量子コンピューティングにおいて不可欠である。
しかし、量子データの類似性の典型的な特徴として、トレース距離と量子忠実性は一般には指数関数的に評価が難しいと考えられている。
本研究では,入力状態の仮定が不要な近距離量子デバイス上で,これらの2つの距離測度に対するハイブリッド量子古典アルゴリズムを提案する。
まず,変分トレース距離推定(VTDE)アルゴリズムを提案する。
特に局所的な測定により任意のエルミート行列の所望のスペクトル情報を抽出する手法を提供する。
トレース距離推定のための新しい変分アルゴリズムは、1つの漸近量子ビットの助けを借りてこの手法から導かれる。
特に、VTDEは局所的なコスト関数による対数深度回路のバレンプラトー問題を回避することができる。
次に,変分忠実度推定(VFE)アルゴリズムを提案する。
我々は、Uhlmannの定理と精製の自由さを組み合わせて、推定タスクを固定された純化された入力を持つ単項系上のユニタリ上の最適化問題に変換する。
次に、翻訳を完了するための精製サブルーチンを提供する。
どちらのアルゴリズムも数値シミュレーションと実験により検証され、ランダムに生成された混合状態に対して高い精度を示す。 Estimating the difference between quantum data is crucial in quantum computing. However, as typical characterizations of quantum data similarity, the trace distance and quantum fidelity are believed to be exponentially-hard to evaluate in general. In this work, we introduce hybrid quantum-classical algorithms for these two distance measures on near-term quantum devices where no assumption of input state is required. First, we introduce the Variational Trace Distance Estimation (VTDE) algorithm. We in particular provide the technique to extract the desired spectrum information of any Hermitian matrix by local measurement. A novel variational algorithm for trace distance estimation is then derived from this technique, with the assistance of a single ancillary qubit. Notably, VTDE could avoid the barren plateau issue with logarithmic depth circuits due to a local cost function. Second, we introduce the Variational Fidelity Estimation (VFE) algorithm. We combine Uhlmann's theorem and the freedom in purification to translate the estimation task into an optimization problem over a unitary on an ancillary system with fixed purified inputs. We then provide a purification subroutine to complete the translation. Both algorithms are verified by numerical simulations and experimental implementations, exhibiting high accuracy for randomly generated mixed states. | 翻訳日:2023-04-21 05:45:10 公開日:2021-11-11 |
# 単一光子波束と相互作用する量子ビットの永遠非マルコフダイナミクス Eternally non-Markovian dynamics of a qubit interacting with a single-photon wavepacket ( http://arxiv.org/abs/2012.15317v3 ) ライセンス: Link先を確認 | Anita D\k{a}browska, Dariusz Chru\'sci\'nski, Sagnik Chakraborty, Gniewomir Sarbicki | (参考訳) 単一光子波パケットと相互作用する2レベルシステム(量子ビット)の進化を分析する。
マスター方程式の階層構造は位相共変量子ビット進化をもたらすことが示されている。
入力場の時間相関は、量子ビットの進化に対する非自明な記憶効果を誘導する。
共振器の場合、時間局所発生器が正則であれば(特異点を示さない)、量子ビットの進化は情報のバックフローを決して示さない。
しかし、一般に、生成元は高度に特異であり、非マルコフ効果を複雑に導く。
指数プロファイルの詳細な分析が提供されており、量子ビット進化の全ての特徴を説明できる。 An evolution of a two-level system (qubit) interacting with a single-photon wave packet is analyzed. It is shown that a hierarchy of master equations gives rise to phase covariant qubit evolution. The temporal correlations in the input field induce nontrivial memory effects for the evolution of a qubit. It is shown that in the resonant case whenever time-local generator is regular (does not display singularities) the qubit evolution never displays information backflow. However, in general the generator might be highly singular leading to intricate non-Markovian effects. A detailed analysis of the exponential profile is provided which allows to illustrate all characteristic feature of the qubit evolution. | 翻訳日:2023-04-18 07:38:55 公開日:2021-11-11 |
# 配位部位依存交換結合を持つ等方性および異方性ハイゼンベルクスピン鎖上のかなり良い量子状態転移 Pretty good quantum state transfer on isotropic and anisotropic Heisenberg spin chains with tailored site dependent exchange couplings ( http://arxiv.org/abs/2101.03194v3 ) ライセンス: Link先を確認 | Pablo Serra, Alejandro Ferr\'on and Omar Osenda | (参考訳) グローバル最適化アルゴリズムを用いて、時間依存の外部制御なしに、チェーンの極端間のほぼ完全な量子状態移動を可能にする、サイト依存交換係数を持つスピンチェーンを得る。
我々は、最大100スピンの等方的および異方的ハイゼンベルク・ハミルトン的鎖を考える。
この方法では、交換結合強度に利用可能な範囲を変更することで、転送状態の到着を選択できる。
我々は、特に、既知の時間依存制御スキームで達成可能なものよりも短い転送時間を考える。
最適化法を用いて得られたチェーンは、例えば、チェーンの長さと到着時間とのほぼ完全な状態伝達を達成するのに必要な交換結合の大きさのスケーリングのような、顕著で興味深い特性を示す。
このスケーリングにより、サイト依存係数の連鎖が実際のシステムに実装可能であるかどうかを、実際の相互作用の範囲に応じて決定することができる。
伝送プロトコルの静的な障害に対するロバスト性を比較し,異方性連鎖と比較して異方性ハイゼンベルク鎖が最適であることを示す。
この比較は、時間依存の外部制御なしでは従来これらのチェーンで利用できなかった、ほぼ完全な量子状態移動を実現するチェーンから始めることができるため、関係がある。 Using a global optimization algorithm we obtain spin chains with site-dependent exchange coefficients which allow almost perfect quantum state transfer between the extremes of the chains without any further time-dependent external control. We consider chains with isotropic and anisotropic Heisenberg Hamiltonian with up to 100 spins. The method allow us to choose the arrival of the transferred state by changing the range available to the exchange coupling strengths. We consider short transferred times, in particular shorter than those achievable with known time-dependent control schemes. The chains obtained with the optimization method show some remarkable and interesting traits as, for instance, the scaling of the magnitude of the exchange couplings needed to achieve near perfect state transfer with the length of the chain and the arrival time. This scaling makes it possible to decide if the chain with site-dependent coefficients can be implemented in an actual system according to the range of interactions allowed in it. We compare the robustness of the transmission protocol against static disorder on the exchange coefficients using different figures of merit, which allow us to conclude that the isotropic Heisenberg chain is the best option when compared with anisotropic chains. This comparison is relevant since the method allow us to start with chains that all achieve near perfect quantum state transfer, regime that was not available previously in these chains without time-dependent external control. | 翻訳日:2023-04-17 08:18:56 公開日:2021-11-11 |
# スピンバルブカップリングによるシリコン一重項量子ビット A silicon singlet-triplet qubit driven by spin-valley coupling ( http://arxiv.org/abs/2102.12068v2 ) ライセンス: Link先を確認 | Ryan M. Jock, N. Tobias Jacobson, Martin Rudolph, Daniel R. Ward, Malcolm S. Carroll, and Dwight R. Luhman | (参考訳) シリコンヘテロ界面の量子ドットに閉じ込められた電子に固有のスピン軌道効果は、オンチップ、ナノファブリックマイクロマグネットまたは近くのコプラナーストリップラインの複雑さを増すことなく電子スピン量子ビットを制御する手段を提供する。
ここでは200MHzを超える周波数で量子ビットの進化を駆動できる新しいシングルトリップキュービット動作モードを示す。
このアプローチは、高速制御を電気的にオン/オフする手段を提供し、高い論理ゲート直交性と長い量子ビット遅延時間を提供する。
この動作モードを動的デカップリング実験に活用し、シリコン-酸化物-半導体二重量子ドットの帯電ノイズパワースペクトルを調べる。
さらに,低周波ノイズを捉えるために,より長い時間スケールで量子ビット周波数のドリフトを評価する。
最大3mhzまでの帯電ノイズパワースペクトル密度を示し、ノイズ周波数の9桁以上の$\alpha \sim 0.7$と一致する1/f^{\alpha}$依存性を示す。 Spin-orbit effects, inherent to electrons confined in quantum dots at a silicon heterointerface, provide a means to control electron spin qubits without the added complexity of on-chip, nanofabricated micromagnets or nearby coplanar striplines. Here, we demonstrate a novel singlet-triplet qubit operating mode that can drive qubit evolution at frequencies in excess of 200 MHz. This approach offers a means to electrically turn on and off fast control, while providing high logic gate orthogonality and long qubit dephasing times. We utilize this operational mode for dynamical decoupling experiments to probe the charge noise power spectrum in a silicon metal-oxide-semiconductor double quantum dot. In addition, we assess qubit frequency drift over longer timescales to capture low-frequency noise. We present the charge noise power spectral density up to 3 MHz, which exhibits a $1/f^{\alpha}$ dependence consistent with $\alpha \sim 0.7$, over 9 orders of magnitude in noise frequency. | 翻訳日:2023-04-10 01:14:11 公開日:2021-11-11 |
# locc支援量子回路:物質の変換と位相 Quantum Circuits assisted by LOCC: Transformations and Phases of Matter ( http://arxiv.org/abs/2103.13367v4 ) ライセンス: Link先を確認 | Lorenzo Piroli, Georgios Styliaris, J. Ignacio Cirac | (参考訳) 低深度量子回路(QC)で実装可能な多体量子状態間の決定論的状態変換プロトコルを導入し,次にローカル操作と古典通信(LOCC)を紹介する。
これは位相秩序状態や他のパラダイム的絡み合い状態が自明になる位相の分類をもたらすことを示している。
また,このシナリオにおいてLOCCによりユニタリ操作の集合がどのように拡張され,より深度の高いQCの実行が可能になるかを検討する。 We introduce deterministic state-transformation protocols between many-body quantum states which can be implemented by low-depth Quantum Circuits (QC) followed by Local Operations and Classical Communication (LOCC). We show that this gives rise to a classification of phases in which topologically-ordered states or other paradigmatic entangled states become trivial. We also investigate how the set of unitary operations is enhanced by LOCC in this scenario, allowing one to perform certain large-depth QC in terms of low-depth ones. | 翻訳日:2023-04-06 23:44:18 公開日:2021-11-11 |
# テンプレートとシンボルパウリゲートを用いたクリフォード回路最適化 Clifford Circuit Optimization with Templates and Symbolic Pauli Gates ( http://arxiv.org/abs/2105.02291v2 ) ライセンス: Link先を確認 | Sergey Bravyi, Ruslan Shaydulin, Shaohan Hu, Dmitri Maslov | (参考訳) クリフォード群(Clifford group)は、アダマール、CNOT、位相ゲートによって生成されるユニタリ群の有限部分群である。
このグループは量子エラー補正、ランダム化されたベンチマークプロトコル、および絡み合いの研究において顕著な役割を果たす。
ここでは、与えられたクリフォード群要素を実装する短い量子回路を見つける問題を考える。
本手法は,全量子ビット接続を前提としたエンタングルゲート数の最小化を目的とする。
まず, テンプレートマッチングに基づく回路最適化と, Pauli と SWAP のゲートを分解できる Clifford 固有のテンプレートの設計について検討する。
次に,記号的ピープホール最適化手法を提案する。
量子ビットの小さなサブセットに全回路を投影し、動的プログラミングによって投影されたサブ回路を最適に再コンパイルする。
キュービットの選択部分集合と残りのキュービットを結合するcnotゲートは、シンボリックポーリゲートを用いて表現される。
これらの手法のソフトウェア実装は、6キュービットの最適値からわずか0.2%しか離れていない回路を発見し、Aaronson-Gottesman標準形式と比較して64キュービットまでの2キュービットゲート数を64.7%削減する。 The Clifford group is a finite subgroup of the unitary group generated by the Hadamard, the CNOT, and the Phase gates. This group plays a prominent role in quantum error correction, randomized benchmarking protocols, and the study of entanglement. Here we consider the problem of finding a short quantum circuit implementing a given Clifford group element. Our methods aim to minimize the entangling gate count assuming all-to-all qubit connectivity. First, we consider circuit optimization based on template matching and design Clifford-specific templates that leverage the ability to factor out Pauli and SWAP gates. Second, we introduce a symbolic peephole optimization method. It works by projecting the full circuit onto a small subset of qubits and optimally recompiling the projected subcircuit via dynamic programming. CNOT gates coupling the chosen subset of qubits with the remaining qubits are expressed using symbolic Pauli gates. Software implementation of these methods finds circuits that are only 0.2% away from optimal for 6 qubits and reduces the two-qubit gate count in circuits with up to 64 qubits by 64.7% on average, compared with the Aaronson-Gottesman canonical form. | 翻訳日:2023-04-01 13:06:53 公開日:2021-11-11 |
# 有限温度におけるボースポーラロンの準粒子性 Quasiparticle nature of the Bose polaron at finite temperature ( http://arxiv.org/abs/2105.07738v2 ) ライセンス: Link先を確認 | Gerard Pascual and Jordi Boronat | (参考訳) ボースポーラロンは、移動不純物が超流動から通常相転移を受ける浴槽に囲まれているため、理論的および実験的関心を惹きつけている。
多くの理論研究がこの系を基底状態で研究しているが、有限温度での挙動を分析するのはごくわずかである。
Ab-initio Path Integral Monte Carlo シミュレーションを行うボースポラロン系における温度の影響について検討した。
この方法は摂動近似とは対照的に、精度を損なうことなく臨界温度に近づくことができる。
また,両枝間の非対称な挙動を観測し,両枝間のポラロンエネルギーを計算した。
電位が反発すると、温度が上がるとポラロンエネルギーが減少し、逆に魅力的な分岐が生じる。
その結果, ポラロンの有効質量と動的構造因子は, 最近の実験結果と一致し, その準粒子性は臨界温度に近づいたまま消滅することがわかった。
最後に, 凝縮物中のボソンの分画と超流動分画を推定し, 不純物が他のボソンの凝縮を妨げると結論した。 The Bose polaron has attracted theoretical and experimental interest because the mobile impurity is surrounded by a bath that undergoes a superfluid-to-normal phase transition. Although many theoretical works have studied this system in its ground state, only few analyze its behavior at finite temperature. We have studied the effect of temperature on a Bose polaron system performing ab-initio Path Integral Monte Carlo simulations. This method is able to approach the critical temperature without losing accuracy, in contrast with perturbative approximations. We have calculated the polaron energy for the repulsive and attractive branches and we have observed an asymmetric behavior between the two branches. When the potential is repulsive, the polaron energy decreases when the temperature increases, and contrariwise for the attractive branch. Our results for the effective mass and the dynamical structure factor of the polaron show unambiguously that its quasiparticle nature disappears close to the critical temperature, in agreement with recent experimental findings. Finally, we have also estimated the fraction of bosons in the condensate as well as the superfluid fraction, and we have concluded that the impurity hinders the condensation of the rest of bosons. | 翻訳日:2023-03-30 22:22:35 公開日:2021-11-11 |
# バイパルタイト非局所因果論は自然の相関を説明できない No Bipartite-Nonlocal Causal Theory Can Explain Nature's Correlations ( http://arxiv.org/abs/2105.09381v2 ) ライセンス: Link先を確認 | Xavier Coiteux-Roy, Elie Wolfe and Marc-Olivier Renou | (参考訳) いくつかの三部分量子相関は、二部分非古典的共通因と無限共有ランダム性を含む因果理論では説明できない。
これは、自然の非局所性が、どんなにエキゾチックであっても、あらゆる知覚可能な物理理論において、基本的に少なくとも三部類であるというデバイス非依存の証明を構成する。
この主張を形式化するために、我々はSvetlichnyの真の三部作非局所性という歴史的定義を、局所的操作と共有ランダム性(LOSR)の枠組みに結びついた新しい理論に依存しない定義に置き換えざるを得ない。
関連記事[PRA.104, 052207 (2021)]は、これらの概念を任意の数のパーティに一般化し、実験的に従属するデバイス非依存の不等式制約とそれらに違反する量子相関を与える。 We show that some tripartite quantum correlations are inexplicable by any causal theory involving bipartite nonclassical common causes and unlimited shared randomness. This constitutes a device-independent proof that Nature's nonlocality is fundamentally at least tripartite in every conceivable physical theory - no matter how exotic. To formalize this claim we are compelled to substitute Svetlichny's historical definition of genuine tripartite nonlocality with a novel theory-agnostic definition tied to the framework of Local Operations and Shared Randomness (LOSR). A companion article [PRA. 104, 052207 (2021)] generalizes these concepts to any number of parties, providing experimentally amenable device-independent inequality constraints along with quantum correlations violating them, thereby certifying that Nature's nonlocality must be boundlessly multipartite. | 翻訳日:2023-03-30 11:32:18 公開日:2021-11-11 |
# 自然の物理理論は、無境界で非局所的でなければならない Any Physical Theory of Nature Must Be Boundlessly Multipartite Nonlocal ( http://arxiv.org/abs/2105.09380v2 ) ライセンス: Link先を確認 | Xavier Coiteux-Roy, Elie Wolfe and Marc-Olivier Renou | (参考訳) 局所的操作と共有ランダム性(LOSR) 局所的非局所的相関,すなわち (N-1) 共有因果的一般化確率理論(GPT) リソースの任意の構成で補足された無制限な共有ランダム性から得られない N パーティ間の相関について紹介する。
次に、ノイズの大きいn-partite ghz 量子状態と 3-partite w 量子状態がそのような相関を発生できることを示す。
これは、量子論の操作的予測が正しければ、自然の非局所性は任意の因果 GPT において有界に多部類でなければならないことを証明している。
本研究では,85パーセントの忠実性を有する雑音n=3ghzの量子状態が,この特性を満たすことを証明し,実験による結果の検証を行う。
我々は、我々の定義を動機付け、既存の真のマルチパーティト非局所性の概念と対比する。
この研究は、よりコンパクトな平行文字(Phys. Rev. Lett. 127, 200401 (2021))を同じ主題に拡張し、必要なすべての技術的証明を提供する。 We introduce the class of Genuinely Local Operation and Shared Randomness (LOSR) Multipartite Nonlocal correlations, that is, correlations between N parties that cannot be obtained from unlimited shared randomness supplemented by any composition of (N-1)-shared causal Generalized-Probabilistic-Theory (GPT) resources. We then show that noisy N-partite GHZ quantum states as well as the 3-partite W quantum state can produce such correlations. This proves, if the operational predictions of quantum theory are correct, that Nature's nonlocality must be boundlessly multipartite in any causal GPT. We develop a computational method which certifies that a noisy N=3 GHZ quantum state with fidelity 85 percent satisfies this property, making an experimental demonstration of our results within reach. We motivate our definition and contrast it with preexisting notions of genuine multipartite nonlocality. This work extends a more compact parallel letter [Phys. Rev. Lett. 127, 200401 (2021)] on the same subject and provides all the required technical proofs. | 翻訳日:2023-03-30 11:31:57 公開日:2021-11-11 |
# 量子レジスタと古典レジスタ Quantum and classical registers ( http://arxiv.org/abs/2105.10914v2 ) ライセンス: Link先を確認 | Dominique Unruh | (参考訳) 命令型プログラムで「登録」の一般的な理論を提示し、古典的および量子的設定でインスタンス化する。
大まかに言えば、レジスタはプログラム状態の可変部分である。
ミュータブルな古典変数や量子レジスタ、量子回路のワイヤなどがその例である。
しかし、我々の設定のレジスタは、他のレジスタのサブパート、異なるレジスタの部品の組み合わせ、異なるベースで見られる量子レジスタなどを参照することもできる。
我々の形式化は、定理プローバーの形式化や命令型プログラムにおける量子/古典変数のモデル化の基盤として適当である。
我々は量子レジスタをより詳細に研究し、無限次元の場合もカバーする。
我々はIsabelle/HOL定理証明器に結果の大部分(最小量子ホア論理と量子テレポーテーションの解析を含む)を実装した。 We present a generic theory of "registers" in imperative programs and instantiate it in the classical and quantum setting. Roughly speaking, a register is some mutable part of the program state. Mutable classical variables and quantum registers and wires in quantum circuits are examples of this. However, registers in our setting can also refer to subparts of other registers, or combinations of parts from different registers, or quantum registers seen in a different basis, etc. Our formalization is intended to be well suited for formalization in theorem provers and as a foundation for modeling quantum/classical variables in imperative programs. We study the quantum registers in greater detail and cover the infinite-dimensional case as well. We implemented a large part of our results (including a minimal quantum Hoare logic and an analysis of quantum teleportation) in the Isabelle/HOL theorem prover. | 翻訳日:2023-03-30 01:19:53 公開日:2021-11-11 |
# クリロフ部分空間におけるフロケスピン鎖の強でほぼ強いモード Strong and almost strong modes of Floquet spin chains in Krylov subspaces ( http://arxiv.org/abs/2105.13246v3 ) ライセンス: Link先を確認 | Daniel J. Yates, Aditi Mitra | (参考訳) 積分可能なフロケスピン鎖は強い零点と$\pi$モードを持ち、フロケユニタリの離散対称性の反可換性に加えて、フロケユニタリの生成するストロボスコピック時間進化とそれぞれ可換かつ反可換な境界作用素である。
したがって、強いモードの存在はフルスペクトルの特徴的な対構造を意味する。
弱い相互作用は、フロッケユニタリとほとんど交換または反共するほぼ強いモードに強いモードを変化させる。
強モードとほぼ強モードの表現は、2つの異なるクリロフ部分空間で示される。
1つはランチョス反復から得られるクリロフ部分空間で、フロッケ・ハミルトニアンが生成した時間変化を、最も近いホッピングを持つ架空のチェーン上の1つの粒子の動力学にマッピングする。
2つ目はアルノルニ反復から得られるクリロフ部分空間で、フロケユニタリによって直接生成される時間進化を、より長い距離ホッピングを持つ架空の鎖上の単一の粒子の力学にマッピングする。
以前のクリロフ部分空間はフロケットユニタリの対数の分岐に敏感であるが、アルノルディのスキームから得られる後者はそうではない。
クリロフ部分空間における有効単一粒子モデルについて論じ、その境界における安定な$0$および$\pi$モードを保証するクリロフ鎖の位相的性質が強調される。
相互作用の役割について論じる。
ほぼ強モードの寿命を表す表現は、クリロフ部分空間のパラメータの観点から導出され、正確な対角化と比較される。 Integrable Floquet spin chains are known to host strong zero and $\pi$ modes which are boundary operators that respectively commute and anticommute with the Floquet unitary generating stroboscopic time-evolution, in addition to anticommuting with a discrete symmetry of the Floquet unitary. Thus the existence of strong modes imply a characteristic pairing structure of the full spectrum. Weak interactions modify the strong modes to almost strong modes that almost commute or anticommute with the Floquet unitary. Manifestations of strong and almost strong modes are presented in two different Krylov subspaces. One is a Krylov subspace obtained from a Lanczos iteration that maps the time-evolution generated by the Floquet Hamiltonian onto dynamics of a single particle on a fictitious chain with nearest neighbor hopping. The second is a Krylov subspace obtained from the Arnoldi iteration that maps the time-evolution generated directly by the Floquet unitary onto dynamics of a single particle on a fictitious chain with longer range hopping. While the former Krylov subspace is sensitive to the branch of the logarithm of the Floquet unitary, the latter obtained from the Arnoldi scheme is not. The effective single particle models in the Krylov subspace are discussed, and the topological properties of the Krylov chain that ensure stable $0$ and $\pi$ modes at the boundaries are highlighted. The role of interactions is discussed. Expressions for the lifetime of the almost strong modes are derived in terms of the parameters of the Krylov subspace, and are compared with exact diagonalization. | 翻訳日:2023-03-29 07:16:29 公開日:2021-11-11 |
# 不規則相互作用を持つ鎖上の2つの粒子:有界状態の局在と解離とカオスビリヤードへの写像 Two particles on a chain with disordered interaction: Localization and dissociation of bound states and mapping to chaotic billiards ( http://arxiv.org/abs/2106.09603v2 ) ライセンス: Link先を確認 | Hugo Perrin, J\'anos K. Asb\'oth, Jean-No\"el Fuchs and R\'emy Mosseri | (参考訳) 鎖にホッピングする2つの粒子を, 鎖同士の接触相互作用で考える。
強い相互作用では、原子状態の連続バンドと直接ギャップによって分離された分子結合状態が存在する。
相互作用に弱い障害を導入すると、分子状態はアンダーソン局在となる。
強い障害では、分子バンドの一部が原子バンドへのハイブリダイゼーションにより非局在化し、解離する。
本研究では, 状態密度, 逆参加率, レベルスポーキング統計, 初期局所状態の生存確率を計算することによって, これらの異なる状態を特徴づける。
原子バンドは、量子カオスのシグネチャを示す正方形格子上の1つの粒子に対する粗いビリヤードのそれと最もよく説明される。
典型的な「カオス状態」に加えて、一方向のみに局所化された状態が見つかる。
これらの「セパラトリクス状態」は、カオス状態よりもより局所化されており、この点では不足状態と同様であるが、その存在は不安定な周期軌道ではなく、相互作用のない分散関係におけるセパラトリクスアイソエネルギー線によるものである。 We consider two particles hopping on a chain with a contact interaction between them. At strong interaction, there is a molecular bound state separated by a direct gap from a continuous band of atomic states. Introducing weak disorder in the interaction, the molecular state becomes Anderson localized. At stronger disorder, part of the molecular band delocalizes and dissociates due to its hybridization to the atomic band. We characterize these different regimes by computing the density of states, the inverse participation ratio, the level-spacing statistics and the survival probability of an initially localized state. The atomic band is best described as that of a rough billiard for a single particle on a square lattice that shows signatures of quantum chaos. In addition to typical "chaotic states", we find states that are localized along only one direction. These "separatrix states" are more localized than chaotic states, and similar in this respect to scarred states, but their existence is due to the separatrix iso-energy line in the interaction-free dispersion relation, rather than to unstable periodic orbits. | 翻訳日:2023-03-26 10:49:14 公開日:2021-11-11 |
# 強磁性体中の伝導電子と相互作用する局在スピンがランダウ・リフシッツ方程式を介して古典的に記述されるとき:量子多体絡み状態から量子古典的非平衡状態への遷移 When can localized spins interacting with conduction electrons in ferro- or antiferromagnets be described classically via the Landau-Lifshitz equation: Transition from quantum many-body entangled to quantum-classical nonequilibrium states ( http://arxiv.org/abs/2107.10776v3 ) ライセンス: Link先を確認 | Priyanka Mondal, Abhin Suresh, Branislav K. Nikolic | (参考訳) スピントロニクスとマグノニクスの実験は、強磁性(f)または反強磁性(af)材料内の多くの局所スピンをマクロ的に操作し、それらの非平衡ダイナミクスは固定長の古典ベクトルとして局所スピンを扱うランダウ・リフシッツ(ll)方程式によって標準的に記述される。
しかし、スピンは真の量子自由度であり、スピン値$S>1$に対して量子効果は徐々に重要度が低くなりつつも、すべての$S < \infty$に対して存在する。
これは LL 方程式の極限/破壊を探索する動機となっているが、F 絶縁体の例を用いて、非平衡伝導電子が存在する系では、完全量子多体対量子(電子)-古典的(局所スピン)ダイナミクスの類似比較が欠如している。
ここでは、局所スピンが$sd$交換相互作用を介して伝導電子と相互作用する$N=4$サイトの量子ハイゼンベルク F または AF 連鎖を用いて、非絡み合った純(零温度)または局所スピンの混合(有限温度)量子状態から初期条件としてそのような比較を行う。
これは量子古典力学がF金属の場合において完全量子力学を忠実に再現できることを示しているが、スピン$S$の場合、局所スピンと$sd$交換の間のハイゼンベルク交換は十分小さい。
これら3つのパラメータのいずれを増加させることでかなりの偏差が生じる可能性があり、これは局所スピンと電子の間の絡み合いのダイナミックな構築によって説明される。
AF金属の場合、非絡み合いのN\'{e}el状態から始まるにもかかわらず、初期の段階では実質的な偏差が現れるため、反強磁性スピントロニクス実験の現象論的モデリングにおいて、LL方程式の幅広い使用を厳密に正当化する方法が課題となる。 Experiments in spintronics and magnonics operate with macroscopically large number of localized spins within ferromagnetic (F) or antiferromagnetic (AF) materials, so that their nonequilibrium dynamics is standardly described by the Landau-Lifshitz (LL) equation treating localized spins as classical vectors of fixed length. However, spin is a genuine quantum degree of freedom, and even though quantum effects become progressively less important for spin value $S>1$, they exist for all $S < \infty$. While this has motivated exploration of limitations/breakdown of the LL equation, by using examples of F insulators, analogous comparison of fully quantum many-body vs. quantum (for electrons)-classical (for localized spins) dynamics in systems where nonequilibrium conduction electrons are present is lacking. Here we employ quantum Heisenberg F or AF chains of $N=4$ sites, whose localized spins interact with conduction electrons via $sd$ exchange interaction, to perform such comparison by starting from unentangled pure (at zero temperature) or mixed (at finite temperature) quantum state of localized spins as the initial condition. This reveals that quantum-classical dynamics can faithfully reproduce fully quantum dynamics in the F metallic case, but only when spin $S$, Heisenberg exchange between localized spins and $sd$ exchange are sufficiently small. Increasing any of these three parameters can lead to substantial deviations, which are explained by the dynamical buildup of entanglement between localized spins and/or between them and electrons. In the AF metallic case, substantial deviations appear even at early times, despite starting from unentangled N\'{e}el state, which therefore poses a challenge on how to rigorously justify wide usage of the LL equation in phenomenological modeling of antiferromagnetic spintronics experiments. | 翻訳日:2023-03-21 05:22:58 公開日:2021-11-11 |
# フロックグラフェン系抗菌剤 Floquet Graphene Antidot Lattices ( http://arxiv.org/abs/2108.06472v2 ) ライセンス: Link先を確認 | Andrew Cupo, Emilio Cobanera, James D. Whitfield, Chandrasekhar Ramanathan, Lorenza Viola | (参考訳) フロッケグラフェン反ドート格子の理論的基礎を確立し、質量のないディラックフェルミオンを円偏波電磁場によって周期的に駆動し、それらの運動はナノホールの配列から除外される。
興味の性質は、フロッケ形式論の中で非摂動的に計算される準エネルギースペクトルに符号化される。
駆動場の振幅が変化するにつれて、リッチなフロケット位相図が現れる。
特に、ディラック分散はギャップ平衡状態に対してリアルタイムで復元することができ、これは光電子スイッチや動的に調整可能な電子導波路の作成を可能にする。
振幅が増加するにつれて、高対称性の点間の準エネルギーギャップをシフトする能力は、電子輸送と光放出に関連する散乱過程において結晶モータが支配する部分を変えることができる。
さらに、バンドは選択的動的局所化の指標である$\Gamma$ポイントの近くで平坦化することができる。
最後に、二次および線型分散は、Floquet半ディラック材料をシグナルとして、M$ポイントで直交方向に現れる。
重要なことは、グラフェンアンチドット格子の上記の帯域幅制限に対応する実験的な近赤外放射に対して、我々の予測はすべて有効である。
フロッケ電子位相間のサイクリングは、光電子応用のための次世代オンチップデバイスの開発において重要な役割を果たす。 We establish the theoretical foundation of the Floquet graphene antidot lattice, whereby massless Dirac fermions are driven periodically by a circularly polarized electromagnetic field, while having their motion excluded from an array of nanoholes. The properties of interest are encoded in the quasienergy spectra, which are computed non-perturbatively within the Floquet formalism. We find that a rich Floquet phase diagram emerges as the amplitude of the drive field is varied. Notably, the Dirac dispersion can be restored in real time relative to the gapped equilibrium state, which may enable the creation of an optoelectronic switch or a dynamically tunable electronic waveguide. As the amplitude is increased, the ability to shift the quasienergy gap between high-symmetry points can change which crystal momenta dominate in the scattering processes relevant to electronic transport and optical emission. Furthermore, the bands can be flattened near the $\Gamma$ point, which is indicative of selective dynamical localization. Lastly, quadratic and linear dispersions emerge in orthogonal directions at the $M$ point, signaling a Floquet semi-Dirac material. Importantly, all our predictions are valid for experimentally accessible near-IR radiation, which corresponds to the above bandwidth limit for the graphene antidot lattice. Cycling between engineered Floquet electronic phases may play a key role in the development of next-generation on-chip devices for optoelectronic applications. | 翻訳日:2023-03-18 13:03:09 公開日:2021-11-11 |
# 量子状態とユニタリを合成するインタラクティブな証明 Interactive Proofs for Synthesizing Quantum States and Unitaries ( http://arxiv.org/abs/2108.07192v2 ) ライセンス: Link先を確認 | Gregory Rosenthal, Henry Yuen | (参考訳) 量子複雑性理論は伝統的に古典的複雑性理論(ブール関数の計算など)から生じる問題に関係しているが、量子状態の構築やユニタリ変換の実行といった本質的に量子演算の複雑さを研究することは理にかなっている。
With this motivation, we define models of interactive proofs for synthesizing quantum states and unitaries, where a polynomial-time quantum verifier interacts with an untrusted quantum prover, and a verifier who accepts also outputs an approximation of the target state (for the state synthesis problem) or the result of the target unitary applied to the input state (for the unitary synthesis problem); furthermore there should exist an "honest" prover which the verifier accepts with probability 1.
我々の主な結果は「状態合成」の類似物である: $\mathsf{pspace} \subseteq \mathsf{ip}$: 多項式空間量子アルゴリズムによって計算可能な状態の列は、上記の形式のインタラクティブなプロトコルを受け入れる。
この状態合成プロトコルを利用することで、多項式次元の部分空間のみに非自明に作用する多項式空間計算可能なユニタリに対するユニタリ合成プロトコルも提供する。
複数の絡み合ったプロバーの設定でも類似した結果が得られる。 Whereas quantum complexity theory has traditionally been concerned with problems arising from classical complexity theory (such as computing boolean functions), it also makes sense to study the complexity of inherently quantum operations such as constructing quantum states or performing unitary transformations. With this motivation, we define models of interactive proofs for synthesizing quantum states and unitaries, where a polynomial-time quantum verifier interacts with an untrusted quantum prover, and a verifier who accepts also outputs an approximation of the target state (for the state synthesis problem) or the result of the target unitary applied to the input state (for the unitary synthesis problem); furthermore there should exist an "honest" prover which the verifier accepts with probability 1. Our main result is a "state synthesis" analogue of the inclusion $\mathsf{PSPACE} \subseteq \mathsf{IP}$: any sequence of states computable by a polynomial-space quantum algorithm (which may run for exponential time) admits an interactive protocol of the form described above. Leveraging this state synthesis protocol, we also give a unitary synthesis protocol for polynomial space-computable unitaries that act nontrivially on only a polynomial-dimensional subspace. We obtain analogous results in the setting with multiple entangled provers as well. | 翻訳日:2023-03-18 07:31:10 公開日:2021-11-11 |
# 耐故障性レジームにおける量子アドバンテージの獲得に及ぼすハードウェア仕様の影響 The Impact of Hardware Specifications on Reaching Quantum Advantage in the Fault Tolerant Regime ( http://arxiv.org/abs/2108.12371v3 ) ライセンス: Link先を確認 | Mark Webber, Vincent Elfving, Sebastian Weidt, Winfried K. Hensinger | (参考訳) 本稿では,ハードウェア仕様が最終実行時間と物理量子ビット数にどのように影響し,耐故障性体制における量子的優位性を実現するかを検討する。
特定の時間枠内では、コードサイクル時間と達成可能な物理量子ビットの数は、異なる量子ハードウェア設計の間で桁違いに変化する可能性がある。
まず、特定の化学アプリケーションに対する量子アドバンテージに対応する論理リソース要件から始め、femoco分子をシミュレートし、追加の量子ビットを用いて、コードサイクル時間がどの程度遅くなるかを探索する。
ある状況では、コードサイクルがかなり遅いアーキテクチャは、十分な物理量子ビットが利用可能であれば、望ましい実行時間に到達することができる。
誤り訂正曲面符号の分野においてこれまで検討されてきた様々な空間・時間最適化戦略を利用する。
特に,2つの異なる並列化手法であるgame of surface codeのユニットとautocczのファクトリを比較した。
最後に、Bitcoinネットワーク内のキーの256ビット楕円曲線の暗号化を破るのに必要な物理量子ビットの数を計算します。
表面コードを使って1時間以内に暗号化を破るのには約3億1700万の物理キュービットが必要で、コードサイクルタイムは1$ \mu s$、リアクションタイムは10$ \mu s$、物理ゲートエラーは10^{-3}$である。
暗号化を1日以内に破るには、1300万の物理キュービットが必要になる。 We investigate how hardware specifications can impact the final run time and the required number of physical qubits to achieve a quantum advantage in the fault tolerant regime. Within a particular time frame, both the code cycle time and the number of achievable physical qubits may vary by orders of magnitude between different quantum hardware designs. We start with logical resource requirements corresponding to a quantum advantage for a particular chemistry application, simulating the FeMoco molecule, and explore to what extent slower code cycle times can be mitigated by using additional qubits. We show that in certain situations architectures with considerably slower code cycle times will still be able to reach desirable run times, provided enough physical qubits are available. We utilize various space and time optimization strategies that have been previously considered within the field of error-correcting surface codes. In particular, we compare two distinct methods of parallelization, Game of Surface Code's Units, and AutoCCZ factories, both of which enable one to incrementally speed up the computation until the reaction limited rate is reached. Finally we calculate the number of physical qubits which would be required to break the 256 bit elliptic curve encryption of keys in the Bitcoin network, within the small available time frame in which it would actually pose a threat to do so. It would require approximately 317 million physical qubits to break the encryption within one hour using the surface code, a code cycle time of 1 $ \mu s$, a reaction time of 10 $ \mu s$, and physical gate error of $10^{-3}$. To break the encryption instead within one day it would require 13 million physical qubits. | 翻訳日:2023-03-17 01:02:39 公開日:2021-11-11 |
# 非線形時間依存型Schr\"{o}dinger方程式に対する暗黙分割演算アルゴリズム An implicit split-operator algorithm for the nonlinear time-dependent Schr\"{o}dinger equation ( http://arxiv.org/abs/2109.10630v2 ) ライセンス: Link先を確認 | Julien Roulet, Ji\v{r}\'i Van\'i\v{c}ek | (参考訳) 明示的な分割演算アルゴリズムは、線形および非線形時間依存のシュルンディンガー方程式を解くためにしばしば用いられる。
しかし、ある非線形時間依存のSchr\"{o}dinger方程式に適用すると、このアルゴリズムは時間可逆性と二階精度を失うため、非常に非効率である。
本稿では,その明示的な性質を放棄することで,明示的な分割操作アルゴリズムの限界を克服する。
本稿では,ノルム保存,時間可逆,高効率な高次暗黙分割演算アルゴリズム群について述べる。
積分器の幾何学的性質は解析的に証明され、2次元網膜モデルの局所的な制御について数値的に実証される。
これらは分離可能ハミルトニアンにのみ適用できるが、暗黙分割演算アルゴリズムは、この設定では、暗黙中点法に基づく最近提案された積分器よりも効率的である。 The explicit split-operator algorithm is often used for solving the linear and nonlinear time-dependent Schr\"{o}dinger equations. However, when applied to certain nonlinear time-dependent Schr\"{o}dinger equations, this algorithm loses time reversibility and second-order accuracy, which makes it very inefficient. Here, we propose to overcome the limitations of the explicit split-operator algorithm by abandoning its explicit nature. We describe a family of high-order implicit split-operator algorithms that are norm-conserving, time-reversible, and very efficient. The geometric properties of the integrators are proven analytically and demonstrated numerically on the local control of a two-dimensional model of retinal. Although they are only applicable to separable Hamiltonians, the implicit split-operator algorithms are, in this setting, more efficient than the recently proposed integrators based on the implicit midpoint method. | 翻訳日:2023-03-14 01:28:33 公開日:2021-11-11 |
# 量子ネットワークにおけるブレスパラドックス Braess Paradox in a quantum network ( http://arxiv.org/abs/2110.01877v2 ) ライセンス: Link先を確認 | Abhishek Banerjee, Pratapaditya Bej | (参考訳) トラフィックモデリングに取り組んでいるDietrich Braess氏は、既存のネットワークに余分なエッジを追加することで、ネットワーク内のトラフィックフローが悪化する可能性があることに気付いた。
この一見直観に反する現象は、ブレスパラドックスとして知られている。
我々は、エッジが空間的に分離されたパーティ(ノード)間で共有の絡み合った状態を表す量子ネットワークを考える。
目標は、エンタングルメントスワッピングを使用して、以前の相関のない2つのノードをエンタングルすることである。
遠方のノード間の絡み合いの量は、絡み合いスワッピングの結果、確立された状態の平均コンカレンスによって定量化される。
次にネットワーク内の最大絡み合ったベル状態の追加エッジを導入する。
このネットワークに最大絡み合った追加状態を導入することで、以前とは関係のない2つのノード間の一致が小さくなることを示す。
そこで本研究では,トラヒックネットワークにおけるブレースのパラドックスに類似した量子ネットワークにおける現象の出現を示す。 Dietrich Braess while working on traffic modelling, noticed that traffic flow in a network can be worsened by adding extra edges to an existing network. This seemingly counterintuitive phenomenon is known as the Braess paradox. We consider a quantum network, where edges represent shared entangled states between spatially separated parties(nodes). The goal is to entangle two previously uncorrelated nodes using entanglement swappings. The amount of entanglement between the distant nodes is quantified by the average concurrence of the states established, as a result of the entanglement swappings. We then introduce an additional edge of maximally entangled Bell states in the network. We show that the introduction of the additional maximally entangled states to this network leads to lower concurrence between the two previously un-correlated nodes. Thus we demonstrate the occurrence of a phenomenon in a quantum network that is analogous to the Braess' paradox in traffic networks. | 翻訳日:2023-03-12 12:17:02 公開日:2021-11-11 |
# 分解と多元参照点戦略に基づく新しい多目的進化アルゴリズム A novel multiobjective evolutionary algorithm based on decomposition and multi-reference points strategy ( http://arxiv.org/abs/2110.14124v6 ) ライセンス: Link先を確認 | Wang Chen, Jian Chen, Weitian Wu, Xinmin Yang, Hui Li | (参考訳) 工学設計のような現実世界の多くの最適化問題は、最終的には対応する多目的最適化問題(MOP)としてモデル化することができる。
分解に基づく多目的進化アルゴリズム (MOEA/D) は, MOPを解く上で極めて有望な手法であると考えられている。
近年の研究では、均一な重みベクトルを持つMOEA/Dは、通常のパレート最適フロントを持つMOPに適しているが、その多様性は、不規則なパレート最適フロントを持つMOAを解く際には通常劣化する。
このようにして、アルゴリズムによって得られた解は、意思決定者により合理的な選択を与えることができない。
この欠点を効率的に克服するために,よく知られたpascoletti-serafiniスカラー化法と複数参照点の新しい戦略を用いて,改良したmoea/dアルゴリズムを提案する。
具体的には、この戦略は等距離分割と投影の技法によって生成される基準点の設定と適応から構成される。
性能評価のために,提案アルゴリズムは,パレート最適フロントの様々な種類のベンチマークテスト問題において,既存の4つの最先端多目的進化アルゴリズムと比較される。
実験結果によると,提案アルゴリズムは他の比較アルゴリズムよりも多様性に優れることがわかった。
最後に,本アルゴリズムは工学最適化における実世界の2つのMOPに適用される。 Many real-world optimization problems such as engineering design can be eventually modeled as the corresponding multiobjective optimization problems (MOPs) which must be solved to obtain approximate Pareto optimal fronts. Multiobjective evolutionary algorithm based on decomposition (MOEA/D) has been regarded as a significantly promising approach for solving MOPs. Recent studies have shown that MOEA/D with uniform weight vectors is well-suited to MOPs with regular Pareto optimal fronts, but its performance in terms of diversity usually deteriorates when solving MOPs with irregular Pareto optimal fronts. In this way, the solution set obtained by the algorithm can not provide more reasonable choices for decision makers. In order to efficiently overcome this drawback, we propose an improved MOEA/D algorithm by virtue of the well-known Pascoletti-Serafini scalarization method and a new strategy of multi-reference points. Specifically, this strategy consists of the setting and adaptation of reference points generated by the techniques of equidistant partition and projection. For performance assessment, the proposed algorithm is compared with existing four state-of-the-art multiobjective evolutionary algorithms on benchmark test problems with various types of Pareto optimal fronts. According to the experimental results, the proposed algorithm exhibits better diversity performance than that of the other compared algorithms. Finally, our algorithm is applied to two real-world MOPs in engineering optimization successfully. | 翻訳日:2023-03-10 03:40:06 公開日:2021-11-11 |
# QAOAのための等価回路平均化を用いた最適化フェミオンSWAPネットワーク Optimized fermionic SWAP networks with equivalent circuit averaging for QAOA ( http://arxiv.org/abs/2111.04572v2 ) ライセンス: Link先を確認 | Akel Hashim, Rich Rines, Victory Omole, Ravi K. Naik, John Mark Kreikebaum, David I. Santiago, Frederic T. Chong, Irfan Siddiqi, Pranav Gokhale | (参考訳) フェルミオンSWAPネットワーク(英: fermionic SWAP network)は、量子近似最適化アルゴリズム(QAOA)を効率的に実行するためのキュービットルーティングシーケンスである。
nビットプロセッサ上の最小接続トポロジーであっても、このルーティングシーケンスはO(n^2)演算をO(n)ステップで実行することができる。
本研究では,2つの手法を用いて,QAOAのためのフェミオンSWAPネットワークの実行を最適化する。
まず、関連する量子ゲートを分解し、回路の深さを最小化し、ゲートキャンセルを最大化する方法でネットワークをスワップするために、過剰なハードウェア操作(最大99.67(1)%忠実な150 ns制御pi/2フェーズゲートを含む)を利用する。
第2に、量子回路コンパイルにおける自由度をランダム化する等価回路平均化を導入することで、系統的コヒーレントエラーの影響を低減する。
本手法は2ノードおよび4ノードのシェリントン・カークパトリックスピングラスモデルのランダムサンプリングパラメータによる基底状態を求めるためのQAOA回路の実行を通じて,Advanced Quantum Testbed上で実験的に検証される。
超伝導量子プロセッサ上で4つのトランスモン量子ビット上で深さp = 1のqaoaに対する誤差(トータル変動距離)は60%程度減少する。 The fermionic SWAP network is a qubit routing sequence that can be used to efficiently execute the Quantum Approximate Optimization Algorithm (QAOA). Even with a minimally-connected topology on an n-qubit processor, this routing sequence enables O(n^2) operations to execute in O(n) steps. In this work, we optimize the execution of fermionic SWAP networks for QAOA through two techniques. First, we take advantage of an overcomplete set of native hardware operations [including 150 ns controlled-pi/2 phase gates with up to 99.67(1)% fidelity] in order to decompose the relevant quantum gates and SWAP networks in a manner which minimizes circuit depth and maximizes gate cancellation. Second, we introduce Equivalent Circuit Averaging, which randomizes over degrees of freedom in the quantum circuit compilation to reduce the impact of systematic coherent errors. Our techniques are experimentally validated on the Advanced Quantum Testbed through the execution of QAOA circuits for finding the ground state of two- and four-node Sherrington-Kirkpatrick spin-glass models with various randomly sampled parameters. We observe a ~60% average reduction in error (total variation distance) for QAOA of depth p = 1 on four transmon qubits on a superconducting quantum processor. | 翻訳日:2023-03-08 20:13:20 公開日:2021-11-11 |
# オープン量子多体系の遺伝的安定性 Genuine Bistability in Open Quantum Many-Body Systems ( http://arxiv.org/abs/2111.05352v2 ) ライセンス: Link先を確認 | Javad Kazemi, Hendrik Weimer | (参考訳) 変動的アプローチを用いてオープン量子多体系の長期進化を解析する。
平均場理論がバイスタブルな振る舞いの広い領域を予測している散逸的イジングモデルでは、真の不安定性は特異点のみであり、前述した第1次遷移の像を確認する。
システムの実効的な記述における詳細バランスの欠如による拡張領域におけるバイスタブルな振る舞いを見出す3体インタラクションを含む多数決投票モデルを考えると,その状況は劇的に異なる。
このモデルでは、量子揺らぎが加えられても真のビスタビリティは持続する。 We analyze the long-time evolution of open quantum many-body systems using a variational approach. For the dissipative Ising model, where mean-field theory predicts a wide region of bistable behavior, we find genuine bistability only at a singular point, confirming the previously suggested picture of a first order transition. The situation is dramatically different when considering a majority-voter model including three-body interactions, where we find bistable behavior in an extended region, owing to the breaking of detailed balance in the the effective description of the system. In this model, genuine bistability persists even when quantum fluctuations are added. | 翻訳日:2023-03-08 17:59:00 公開日:2021-11-11 |
# Nation-wide Mood: Web Search Query と Mobile Sensor Data による人々のムードの大規模推定 Nation-wide Mood: Large-scale Estimation of People's Mood from Web Search Query and Mobile Sensor Data ( http://arxiv.org/abs/2111.05537v2 ) ライセンス: Link先を確認 | Wataru Sasaki, Hiroshi Kawane, Satoko Miyahara, Kota Tsubouchi, Tadashi Okoshi | (参考訳) ウェブユーザーの現在の感情的ステータスを推定する能力は、社会におけるユーザー中心のサービスの実現にかなりの可能性を持っている。
しかし、現実世界のwebサービスでは、そのような感情的な状態の基盤的真実を収集するだけでなく、そのような推定に使用するデータの種類を決定するのは難しい。
本稿では,ユーザのweb検索クエリとモバイルセンサデータを組み合わせた新しい推定手法を提案する。
このシステムは当社の製品サーバスタックにデプロイされ、11,000,000人以上のユーザによる大規模データ分析が行われた。
今回提案した「全国規模のムードスコア」は、国民の気分の価値観を束ねたもので、(1)人々の気分の毎日のリズム、(2)新型コロナウイルスのパンデミックにおける人々の気分の上昇と低下を説明、(3)大ニュースとの結びつきを検知し、同時に多くのユーザーの気分状態に影響を与える可能性がある。 The ability to estimate the current affective statuses of web users has considerable potential for the realization of user-centric services in the society. However, in real-world web services, it is difficult to determine the type of data to be used for such estimation, as well as collecting the ground truths of such affective statuses. We propose a novel method of such estimation based on the combined use of user web search queries and mobile sensor data. The system was deployed in our product server stack, and a large-scale data analysis with more than 11,000,000 users was conducted. Interestingly, our proposed "Nation-wide Mood Score," which bundles the mood values of users across the country, (1) shows the daily and weekly rhythm of people's moods, (2) explains the ups and downs of people's moods in the COVID-19 pandemic, which is inversely synchronized to the number of new COVID-19 cases, and (3) detects the linkage with big news, which may affect many user's mood states simultaneously, even in a fine-grained time resolution, such as the order of hours. | 翻訳日:2023-03-08 12:26:46 公開日:2021-11-11 |
# 人間中心決定支援ツール:実世界設計と実装の展望 Human-Centric Decision Support Tools: Insights from Real-World Design and Implementation ( http://arxiv.org/abs/2111.05796v2 ) ライセンス: Link先を確認 | Narges Ahani (1) and Andrew C. Trapp (1 and 2) ((1) Data Science Program, Worcester Polytechnic Institute, Worcester, MA, (2) WPI Business School, Worcester Polytechnic Institute, Worcester, MA) | (参考訳) 意思決定支援ツールは、ステークホルダーが処理し、分析し、視覚化し、その他に様々な重要な要素を理解できるようにすることで、意思決定を改善する。
彼らの意図的な設計は、彼らが生み出す価値の重要な要素です。
意思決定支援ツールはすべて共通して、意思決定支援が役に立つような複雑な意思決定問題があり、さらに、適切な分析専門知識が手元にある問題に対するソリューションを生み出すために利用可能である。
適切に設計された意思決定支援ツールは、摩擦を減らし、意思決定プロセスのサポートを提供することで、意思決定者の品質決定能力を向上させる。
一方で、圧倒的、超流動的、不十分、不適合な情報やソフトウェア機能の存在は、意思決定プロセスやその結果に悪影響を及ぼす可能性がある。
私たちは、プロジェクトステークホルダーに真に耳を傾け、彼らの本当のニーズと視点を確かめ、評価する、効果的な意思決定支援ツールを設計するための革新的で、おそらく見落とされがちなアプローチを提唱します。
ステークホルダーのニーズを優先順位付けすることで、デザインチームとの相互信頼と理解の基礎が確立される。
この信頼は、最終的にツールの受け入れと採用に不可欠であり、その欠如は、ツールの将来的な使用を危険にさらす。
我々は,複数のコンテキストにわたる事例を議論し,集団的経験を強調し,学んだ教訓を強調するとともに,意思決定ダップポートツールの設計と最終的な採用を改善するための推奨プラクティスを提案する。 Decision support tools enable improved decision-making for challenging decision problems by empowering stakeholders to process, analyze, visualize, and otherwise make sense of a variety of key factors. Their intentional design is a critical component of the value they create. All decision-support tools share in common that there is a complex decision problem to be solved for which decision-support is useful, and moreover, that appropriate analytics expertise is available to produce solutions to the problem setting at hand. When well-designed, decision support tools reduce friction and increase efficiency in providing support for the decision-making process, thereby improving the ability of decision-makers to make quality decisions. On the other hand, the presence of overwhelming, superfluous, insufficient, or ill-fitting information and software features can have an adverse effect on the decision-making process and, consequently, outcomes. We advocate for an innovative, and perhaps overlooked, approach to designing effective decision support tools: genuinely listening to the project stakeholders, to ascertain and appreciate their real needs and perspectives. By prioritizing stakeholder needs, a foundation of mutual trust and understanding is established with the design team. We maintain this trust is critical to eventual tool acceptance and adoption, and its absence jeopardizes the future use of the tool, which would leave its analytical insights for naught. We discuss examples across multiple contexts to underscore our collective experience, highlight lessons learned, and present recommended practices to improve the design and eventual adoption of decision dupport tools. | 翻訳日:2023-03-08 12:10:04 公開日:2021-11-11 |
# SMART端末デジタル化プロジェクトにおける倫理的ユーザストーリーを用いた倫理的アライズドデザインの実装:利用例 Implementation of Ethically Aligned Design with Ethical User stories in SMART terminal Digitalization project: Use case Passenger Flow ( http://arxiv.org/abs/2111.06116v1 ) ライセンス: Link先を確認 | Erika Halme, Mamia Agbese, Hanna-Kaisa Alanen, Jani Antikainen, Marianna Jantunen, Arif Ali Khan, Kai-Kristian Kemell, Ville Vakkuri, Pekka Abrahamsson | (参考訳) デジタル化とスマートシステムは、今日の私たちの日常生活の一部です。
これまでのところ、開発は迅速で、デプロイメント後のすべての影響は、特に倫理や信頼性に関して、開発中に予見したり、評価することもできませんでした。
人工知能(AI)と自律システム(AS)は今日、ソフトウェアシステムが取ろうとしている方向です。
銀行、店舗、インターネットで目撃されており、旅行だけでなく交通機関にも進出している。
自律型海事産業もフェアウェイやポートターミナルでのデジタル化の開発でこの方向を採っている。
AI倫理は、過去10年間に機械学習が発展して以来、大きく進歩し、現在、ソフトウェアエンジニアのAI開発とワークフローで実装されている。
倫理的評価を容易にするためには、簡単な作業ではなく、ツールが必要である。
本稿では,倫理的デザインの実践である倫理的ユーザストーリーを用いて倫理的ユーザストーリーに倫理的要件を移譲し,プロジェクト利用の実践的ソリューションを形成する産業環境における研究を概観する。
本研究は海上産業の分野において,港湾ターミナルのデジタル化に重点を置いており,特に乗客の流動に着目している。
結果は、大きな経験的データセットから引き出された倫理的なユーザストーリーの実践に対して肯定的です。 Digitalization and Smart systems are part of our everyday lives today. So far the development has been rapid and all the implications that comes after the deployment has not been able to foresee or even assess during the development, especially when ethics or trustworthiness is concerned. Artificial Intelligence (AI) and Autonomous Systems (AS) are the direction that software systems are taking today. It is witnessed in banks, stores, internet and it is proceeding to transportation as well as on traveling. Autonomous maritime industry has also taking this direction when taking under development in digitalization on fairway and port terminals. AI ethics has advanced profoundly since the machine learning develop during the last decade and is now being implemented in AI development and workflow of software engineers. It is not an easy task and tools are needed to make the ethical assessment easier. This paper will review a research in an industrial setting, where Ethically Aligned Design practice, Ethical User Stories are used to transfer ethical requirements to ethical user stories to form practical solutions for project use. This project is in the field of maritime industry and concentrates on digitalization of port terminals and this particular paper focuses on the passenger flow. Results are positive towards the practice of Ethical User Stories, drawn from a large empirical data set. | 翻訳日:2023-03-08 10:09:28 公開日:2021-11-11 |
# 非相互単光子バンド構造 Nonreciprocal single-photon band structure ( http://arxiv.org/abs/2111.06104v1 ) ライセンス: Link先を確認 | Jiangshan Tang and Wei Nie and Lei Tang and Mingyuan Chen and Xin Su and Yanqing Lu and Franco Nori and Keyu Xia | (参考訳) 本研究では,1次元(1次元)結合共振器型光導波路(CROW)における単一光子バンド構造について検討した。
共振器モードとQEの間のキラル相互作用は、磁気光学効果なしで時間反転対称性を破ることができる。
その結果、非相反的な単光子エッジ状態、バンドギャップ、フラットバンドが現れる。
有限個の単位セルを含むそのようなキラルqe-crowシステムを用い、非相反帯域ギャップで動作することで、高い忠実度と低い挿入損失を有する周波数多重単光子循環器を実現する。
キラルQE-光相互作用は、単一の光子の片方向伝播を後方散乱から保護する。
我々の研究は、非相互フォトニックバンド構造を研究し、量子状態におけるその応用を探求するための新しい扉を開く。 We study single-photon band structure in a one-dimensional (1D) coupled-resonator optical waveguide (CROW) which chirally couples to an array of two-level quantum emitters (QEs). The chiral interaction between the resonator mode and the QE can break the time-reversal symmetry without the magneto-optical effect. As a result, a nonreciprocal single-photon edge state, band gap and flat band appear. By using such a chiral QE-CROW system, including a finite number of unit cells and working in the nonreciprocal band gap, we achieve frequency-multiplex single-photon circulators with high fidelity and low insertion loss. The chiral QE-light interaction can also protect one-way propagation of single photons against backscattering. Our work opens a new door for studying nonreciprocal photonic band structure and exploring its applications in the quantum regime. | 翻訳日:2023-03-08 10:09:06 公開日:2021-11-11 |
# 雑音量子コンピュータにおける離散対数問題の現状と将来 The Present and Future of Discrete Logarithm Problems on Noisy Quantum Computers ( http://arxiv.org/abs/2111.06102v1 ) ライセンス: Link先を確認 | Yoshinori Aono, Sitong Liu, Tomoki Tanaka, Shumpei Uno, Rodney Van Meter, Naoyuki Shinohara, Ryo Nojima | (参考訳) 離散対数問題(DLP)は、いくつかの暗号プリミティブの基礎である。
Shorの研究以来、DLPは多項式サイズの量子回路と多項式時間古典的後処理アルゴリズムを組み合わせることで解決できることが知られている。
量子デバイスが解決できるインスタンスサイズの評価と予測は、新たな研究トピックである。
本稿では,量子デバイス(または古典シミュレータ)の実験が成功したかどうかを決定するために,後処理アルゴリズムの成功確率に基づく定量的尺度を提案する。
また,shor回路から観測されるビット文字列を修正し,格子型後処理アルゴリズムの成功確率を高める手法を提案する。
我々は、IBM-Quantum量子コンピュータおよびノイズデバイスシミュレーションに基づく近未来予測に関する予備実験を報告する。
ibm_kawasaki デバイスを用いて実験を行い、2ビット DLP インスタンスから最も単純な回路 (7 qubits) が十分に高い成功率を達成し、実験を成功に導くことを発見した。
一方, やや硬い2ビットDLPインスタンスによる他の回路の実験は成功せず, 実験を成功させるためには, ノイズレベルを半分に減らす必要があると判断した。
最後に、選択した小さなDLPおよび整数ファクタリングインスタンスを解くために、必要なノイズレベルに基づいて、短期予測を行う。 The discrete logarithm problem (DLP) is the basis for several cryptographic primitives. Since Shor's work, it has been known that the DLP can be solved by combining a polynomial-size quantum circuit and a polynomial-time classical post-processing algorithm. Evaluating and predicting the instance size that quantum devices can solve is an emerging research topic. In this paper, we propose a quantitative measure based on the success probability of the post-processing algorithm to determine whether an experiment on a quantum device (or a classical simulator) succeeded. We also propose a procedure to modify bit strings observed from a Shor circuit to increase the success probability of a lattice-based post-processing algorithm. We report preliminary experiments conducted on IBM-Quantum quantum computers and near-future predictions based on noisy-device simulations. We conducted our experiments with the ibm_kawasaki device and discovered that the simplest circuit (7 qubits) from a 2-bit DLP instance achieves a sufficiently high success probability to proclaim the experiment successful. Experiments on another circuit from a slightly harder 2-bit DLP instance, on the other hand, did not succeed, and we determined that reducing the noise level by half is required to achieve a successful experiment. Finally, we give a near-term prediction based on required noise levels to solve some selected small DLP and integer factoring instances. | 翻訳日:2023-03-08 10:08:51 公開日:2021-11-11 |
# 谷村義隆の自伝 Autobiography of Yoshitaka Tanimura ( http://arxiv.org/abs/2111.06093v1 ) ライセンス: Link先を確認 | Yoshitaka Tanimura | (参考訳) 本稿では,開量子力学系における階層型運動方程式(HEOM)理論と超高速非線形2次元分光法(2D)理論の2つの発展を,創始者の歴史に従って述べる。
HEOMは、システムバスハミルトニアンに基づくクーブの確率的リウヴィル方程式に類似した方程式を導出することによって発見された。
2次元分光理論は、ファインマン・ヴァーノン関数に基づく非線形振動スペクトルに対する量子コヒーレンスの影響を研究する過程で開発された。
また、光合成系における電子および励起子移動、量子統計熱力学、固体物理学などの問題に対するこれらの2つの理論の開発についても述べる。 In this paper, two developments, the theory of hierarchical equations of motion (HEOM) for open quantum dynamics systems and the theory of ultrafast nonlinear two-dimensional (2D) spectroscopies, are described, following the history of their founder. The HEOM was discovered by attempting to derive an equation similar to Kuob's stochastic Liouville equation based on the system-bath Hamiltonian. The theory of 2D spectroscopy was developed in the process of investigating the effect of quantum coherence on nonlinear vibrational spectra based on the Feynman-Vernon influence functional. The paper also describes the development of these two theories for problems such as electron and exciton transfer in photosynthetic systems, quantum statistical thermodynamics, and solid-state physics. | 翻訳日:2023-03-08 10:08:29 公開日:2021-11-11 |
# 複数の弱値から起因した選択後の感度と確率の系統的誤りと異常 The systematic error and the anomaly in the sensitivity and the probability of post-selection raised from the plural weak value ( http://arxiv.org/abs/2111.06034v1 ) ライセンス: Link先を確認 | Jing-Hui Huang and Xue-Ying Duan and Guang-Jun Wang and Xiang-Yun Hu | (参考訳) 近年,前および後選択した弱測定値から導出される弱値$\rm a_w$が,微小な物理効果の測定に有効であることが示されている。
原則として、選択後の確率の低下は感度を高める。
また、ポインタ位置ずれを特徴付ける感度は$\rm A_w$の実部と比例し、運動量空間におけるポインタシフトを特徴付ける感度は$\rm A_w$の虚部と比例する。
しかし、選択後の確率と感度の関係は、$\rm A_w$ が純粋実数または純粋虚数であるときに真であることが分かる。
複数の$\rm A_w$は、選択後確率が低下すると、選択前および選択後の感度が低下する異常な挙動を引き起こす。
さらに、WVAプロトコルのデバイス不完全性と環境不安定性を考慮すると、複数の$\rm A_w$から得られたこの異常は感度を低下させ、元のスキームと比較して測定の体系的な誤差を発生させる。
最後に, 弱測定が複数の弱値で測定に必然的に変化する場合に, これらの負の効果を低減するための3つの方法を提案する。 Recently, weak value $\rm A_w$ derived in the pre- and post-selected weak measurement has been shown to be powerful in measuring minute physical effects. In principle, the decrease in the post-selection probability will increase the sensitivity. Besides, the sensitivity which characterizes the pointer position shift is proportional to the real part of $\rm A_w$, and the sensitivity which characterizes the pointer shift in momentum space is proportional to the imaginary part of $\rm A_w$. However, we find that the relationship between the post-selection probability and the sensitivity is true when $\rm A_w$ is a purely real number or a purely imaginary number. The plural $\rm A_w$ will lead to the abnormal behavior where the decrease in the post-selection probability reduce the sensitivity at certain pre- and post-selection. In addition, considering the device imperfections and the environmental instability in the WVA protocol, this anomaly raised from plural $\rm A_w$ will reduce the sensitivity and generate a systematic error of the measurement compared with the original scheme. Finally, three feasible methods are proposed to reduce these negative effects when the weak measurement inevitably changes into measurement with a plural weak value. | 翻訳日:2023-03-08 10:07:59 公開日:2021-11-11 |
# 駆動空洞における環状3レベルキラル分子のエナンチオ検出 Enantio-detection of cyclic three-level chiral molecules in a driven cavity ( http://arxiv.org/abs/2111.06028v1 ) ライセンス: Link先を確認 | Yu-Yuan Chen, Jian-Jian Cheng, Chong Ye, and Yong Li | (参考訳) 外部駆動型キャビティにおけるキラル分子のエナンチオ検出法を提案する。
キラル分子は量子化されたキャビティ場と2つの古典的な光場と結合し、環状3準位系を形成する。
3レベル系におけるキラリティ依存性キャビティアシスト三光子過程は、キャビティ内光子を生成する。
同時に、駆動場は、空洞内光子の生成のキラリティ非依存的な過程をもたらす。
これら2つのプロセスから発生するキャビティ内光子間の干渉に基づき、ドライブフィールドの伝送速度をモニターすることでキラル混合物のエナンチオマー過剰を検出することができる。 We propose an enantio-detection method of chiral molecules in a cavity with external drive. The chiral molecules are coupled with a quantized cavity field and two classical light fields to form the cyclic three-level systems. The chirality-dependent cavity-assisted three-photon process in the three-level systems leads to the generation of intracavity photons. Simultaneously, the drive field also results in the chirality-independent process of the generation of intracavity photons. Based on the interference between the intracavity photons generated from these two processes, one can detect the enantiomeric excess of chiral mixture via monitoring the transmission rate of the drive field. | 翻訳日:2023-03-08 10:07:38 公開日:2021-11-11 |
# 黒画面の反対側:協調プログラミングのための同期遠隔学習におけるインタラクション再考 The Other Side of Black Screen: Rethinking Interaction in Synchronous Remote Learning for Collaborative Programming ( http://arxiv.org/abs/2111.06013v1 ) ライセンス: Link先を確認 | Tahiya Chowdhury | (参考訳) プログラミングラボのような協調学習環境は、批判的思考や問題解決といった経験的なハンズオンのスキルを学ぶために不可欠である。
伝統的な実験室では、これらのスキルの多くは、自然な相互作用(言語、顔)と物理的なコロケーションを通じて実践することができる。
しかし、世界的なパンデミックの間とその後は、これらの学習プラクティスは、もはや対人環境では安全に実施できないため、遠隔学習環境のために再イメージされる必要がある。
効果的な遠隔学習の実践に関する議論が活発化するにつれ、異なる学習環境下で学生とインストラクターの両方が要求するユニークなニーズを特定するための緊急性がある。
遠隔学習の実践を、遠隔学習ソリューションのパワーと組み合わせることで、広くアクセス可能な学習を提供するために、リモート学習をどのように設計すればよいのか?
本稿では,新型コロナウイルスのパンデミック前後に提供される2つの導入プログラムコースの,個人版とオンライン版について述べる。
本研究は,学生の従来経験と異なる5つのテーマの下でのユーザニーズとインタラクションの実践を明らかにするものである。
現在のオンラインビデオ会議プラットフォームは,仲間間の協調学習を促進できないこと,学生とインストラクターの間の学習のあいまいさや自発的な関与が欠如していることが分かる。
本研究は,学習環境,特に入門実験コースにおいて,より優れた学習環境を実現するために,同期遠隔学習における現在の実践を改善するための設計勧告と介入戦略を提案する。 Collaborative learning environments such as programming labs are crucial for learning experiential hands-on skills such as critical thinking and problem solving, and peer discussion. In a traditional laboratory setting, many of these skills can be practiced through natural interaction (verbal, facial) and physical co-location. However, during and after a global pandemic, these learning practices cannot be exercised safely in in-person settings any longer and thus need to be re-imagined for a remote learning environment. As discussions spur about effective remote learning practices, there is an urgency for identifying the unique needs demanded by both students and instructors under different learning environments. How can we design remote learning to offer broadly accessible learning, by drawing in-person practices and combining them with the power of remote learning solutions? In this case study, we present observations of in-person and online versions of 2 introductory programming courses offered before and during the COVID-19 pandemic. Our observations reveal certain user needs and interaction practices under 5 themes that are unique to students' prior experience with the curriculum and academic level. We find that the current online video-conferencing platforms cannot foster collaborative learning among peers, lacks learning ambiance and spontaneous engagement between students and instructors. Based on our findings, we propose design recommendations and intervention strategies to improve current practices in synchronous remote learning that can facilitate a better learning environment, particularly for introductory lab courses. | 翻訳日:2023-03-08 10:07:23 公開日:2021-11-11 |
# 倫理的・信頼できるAIシステムのガバナンス:ECCOLA法による研究ギャップ Governance of Ethical and Trustworthy AI Systems: Research Gaps in the ECCOLA Method ( http://arxiv.org/abs/2111.06207v1 ) ライセンス: Link先を確認 | Mamia Agbese, Hanna-Kaisa Alanen, Jani Antikainen, Erika Halme, Hannakaisa Isom\"aki, Marianna Jantunen, Kai-Kristian Kemell, Rebekah Rousi, Heidi Vainio-Pekka and Ville Vakkuri | (参考訳) 機械学習(ML)技術の進歩は人工知能(AI)システムを大幅に改善した。
その結果、AIシステムはユビキタスになり、その応用は事実上すべての分野に広まっている。
しかし、AIシステムは特に、医療、交通、セキュリティといった機密性の高い領域の境界を越えて、倫理的な懸念を引き起こしている。
その結果、ユーザーは倫理的AIシステムにおけるより良いAIガバナンスの実践を求めている。
したがって、AI開発手法はこれらのプラクティスを育むために奨励される。
本研究は、倫理的・信頼性の高いAIシステムを開発するためのECCOLA手法を分析し、倫理的実践を通じて開発プロセスにおけるAIガバナンスを可能にするかどうかを判断する。
その結果、ECCOLAはすべてのプロセスにおいて、企業のガバナンスプラクティスにおけるAIガバナンスを完全に促進しますが、そのプラクティスの一部は、データガバナンスと情報ガバナンスのプラクティスを完全には育成していません。
これは、この方法をさらに改善できることを示している。 Advances in machine learning (ML) technologies have greatly improved Artificial Intelligence (AI) systems. As a result, AI systems have become ubiquitous, with their application prevalent in virtually all sectors. However, AI systems have prompted ethical concerns, especially as their usage crosses boundaries in sensitive areas such as healthcare, transportation, and security. As a result, users are calling for better AI governance practices in ethical AI systems. Therefore, AI development methods are encouraged to foster these practices. This research analyzes the ECCOLA method for developing ethical and trustworthy AI systems to determine if it enables AI governance in development processes through ethical practices. The results demonstrate that while ECCOLA fully facilitates AI governance in corporate governance practices in all its processes, some of its practices do not fully foster data governance and information governance practices. This indicates that the method can be further improved. | 翻訳日:2023-03-08 10:00:13 公開日:2021-11-11 |
# グラフ対称性からの脳内不変度変換は可能か? Does the Brain Infer Invariance Transformations from Graph Symmetries? ( http://arxiv.org/abs/2111.06174v1 ) ライセンス: Link先を確認 | Helmut Linde | (参考訳) 知覚的変化の下での自然物体の不変性は、シナプス接続グラフの対称性によって脳内にコード化される可能性がある。
このグラフは、異なる知覚的様相にまたがる生物学的に妥当なプロセスにおいて教師なし学習によって確立することができる。
この仮説符号化方式は、自然言語と画像データの相関構造によって支持され、一次感覚野に関する多くの経験的観察と一致した神経接続アーキテクチャを予測する。 The invariance of natural objects under perceptual changes is possibly encoded in the brain by symmetries in the graph of synaptic connections. The graph can be established via unsupervised learning in a biologically plausible process across different perceptual modalities. This hypothetical encoding scheme is supported by the correlation structure of naturalistic audio and image data and it predicts a neural connectivity architecture which is consistent with many empirical observations about primary sensory cortex. | 翻訳日:2023-03-08 09:59:33 公開日:2021-11-11 |
# 開量子系の古典的シミュラビリティにおける相転移 Phase Transitions in the Classical Simulability of Open Quantum Systems ( http://arxiv.org/abs/2111.06408v1 ) ライセンス: Link先を確認 | F. Azad, A. Hallam, J. Morley, A. G. Green | (参考訳) 本稿では,Langevinによる行列積状態上の密度行列進化の解明を用いて,開量子系の進化を研究する。
環境との結合の強さと温度が増大するにつれて、個々の軌道の絡み合いが飽和し、常にシステムの古典的なシミュレーションを可能にする遷移が見つかる。
これは、射影的または弱い測定値を持つランダム回路に見られる絡み合いの飽和に対応するハミルトン開系である。
システムが開いている場合、その進化が重要な量子効果を損なう場合でも、量子コンピュータ上での振る舞いをシミュレートする利点には限界がある。 We study the evolution of an open quantum system using a Langevin unravelling of the density matrix evolution over matrix product states. As the strength of coupling to and temperature of the environment is increased, we find a transition where the entanglement of the individual trajectories saturates, permitting a classical simulation of the system for all times. This is the Hamiltonian open system counterpart of the saturation in entanglement found in random circuits with projective or weak measurements. If a system is open, there is a limit to the advantage in simulating its behaviour on a quantum computer, even when that evolution harbours important quantum effects. | 翻訳日:2023-03-08 09:51:14 公開日:2021-11-11 |
# 量子情報次元と幾何学的エントロピー Quantum Information Dimension and Geometric Entropy ( http://arxiv.org/abs/2111.06374v1 ) ライセンス: Link先を確認 | Fabio Anza and James P. Crutchfield | (参考訳) 幾何学的量子力学は、その微分幾何学的基盤を通して、量子力学を古典力学に近づける解析と解釈のツールを提供する:両方の状態空間はシンプレクティック幾何学を備えている。
これは、幾何学的な観点から、量子エントロピーの性質のような基礎的な問題や問題を再考する扉を開く。
これの中心は幾何学的量子状態の概念であり、純粋状態の系の空間上の確率測度である。
この空間の連続性は、レニイの情報理論にインスパイアされた2つの解析ツールを導入し、幾何量子状態の基本的な性質を特徴づけ、定量化する: 幾何量子状態圧縮の速度である量子情報次元と、量子状態に格納された情報を監視する次元幾何学エントロピーである。
古典的定義、情報理論的な意味、物理的解釈を記述し、幾何学的アプローチによって量子システムに適用する。
その後、量子システムの様々な例やクラスで明示的に計算します。
我々は、幾何学量子力学における情報に対する今後の方向性についてコメントする。 Geometric quantum mechanics, through its differential-geometric underpinning, provides additional tools of analysis and interpretation that bring quantum mechanics closer to classical mechanics: state spaces in both are equipped with symplectic geometry. This opens the door to revisiting foundational questions and issues, such as the nature of quantum entropy, from a geometric perspective. Central to this is the concept of geometric quantum state -- the probability measure on a system's space of pure states. This space's continuity leads us to introduce two analysis tools, inspired by Renyi's information theory, to characterize and quantify fundamental properties of geometric quantum states: the quantum information dimension that is the rate of geometric quantum state compression and the dimensional geometric entropy that monitors information stored in quantum states. We recount their classical definitions, information-theoretic meanings, and physical interpretations, and adapt them to quantum systems via the geometric approach. We then explicitly compute them in various examples and classes of quantum system. We conclude commenting on future directions for information in geometric quantum mechanics. | 翻訳日:2023-03-08 09:51:03 公開日:2021-11-11 |
# 量子ゲートファミリーの最適制御 Optimal control of families of quantum gates ( http://arxiv.org/abs/2111.06337v1 ) ライセンス: Link先を確認 | Frederic Sauvage and Florian Mintert | (参考訳) 量子最適制御(QOC)は、量子ゲートのような正確な操作の実現を可能にし、量子技術の発展を支援する。
これまで多くのqocフレームワークが開発されてきたが、単一のターゲット操作を一度に最適化するのに適している。
我々は、この概念を目標の連続的なファミリーによる最適制御にまで拡張し、ニューラルネットワークに基づく最適化によって、最小時間で量子ゲートの望ましいクラスを実現する時間依存ハミルトニアンの族を見つけることができることを示した。 Quantum Optimal Control (QOC) enables the realization of accurate operations, such as quantum gates, and support the development of quantum technologies. To date, many QOC frameworks have been developed but those remain only naturally suited to optimize a single targeted operation at a time. We extend this concept to optimal control with a continuous family of targets, and demonstrate that an optimization based on neural networks can find families of time-dependent Hamiltonians that realize desired classes of quantum gates in minimal time. | 翻訳日:2023-03-08 09:49:19 公開日:2021-11-11 |
# パルス励起光共振器と有限個の量子エミッタにおける半古典的及び量子的光学場ダイナミクスの比較 Comparison of the semiclassical and quantum optical field dynamics in a pulse-excited optical cavity with a finite number of quantum emitters ( http://arxiv.org/abs/2111.06286v1 ) ライセンス: Link先を確認 | K. J\"urgens and F. Lengers and D. Groll and D. E. Reiter and D. Wigger and T. Kuhn | (参考訳) フォトニックキャビティに埋め込まれた1組のN$量子エミッタのスペクトルおよび時間応答について検討した。
量子力学的には、そのようなシステムは1つの光モードに結合された$N$2レベルシステムのTavis-Cummings (TC)モデルで記述することができる。
ここでは、様々な数の量子エミッタに対するTCモデルの完全な量子解と、キャビティモードのパルス励起後の半古典的極限を比較する。
異なるパルス振幅を考慮すると、TCモデルから得られたスペクトルが半古典的なスペクトルに近づき、エミッター数が増加するとN$となる。
さらに、小さなパルス振幅に非常によく一致する。
我々は、n$よりはるかに小さい光子数の時間的ダイナミクスにおいて、非常に良い一致を観察する一方で、崩壊や復活現象と関連づけられた、n$より大きい光子数のレジームにおいてかなりの偏差が生じる。
光場の量子状態を分析するために、異なるシナリオのために光モードのウィグナー関数が計算される。
期待値のダイナミクスが半古典的極限によって十分に記述されている場合でも、コヒーレント状態からの強い偏差が見つかる。
より高いパルス振幅では、2つ以上の準コヒーレントな貢献の間のschr\"odinger cat状態と似たウィグナー関数が構築される。 The spectral and temporal response of a set of $N$ quantum emitters embedded in a photonic cavity is studied. Quantum mechanically, such systems can be described by the Tavis-Cummings (TC) model of $N$ two-level systems coupled to a single light mode. Here we compare the full quantum solution of the TC model for different numbers of quantum emitters with its semiclassical limit after a pulsed excitation of the cavity mode. Considering different pulse amplitudes, we find that the spectra obtained from the TC model approach the semiclassical one for an increasing number of emitters $N$. Furthermore they match very well for small pulse amplitudes. While we observe a very good agreement in the temporal dynamics for photon numbers much smaller than $N$, considerable deviations occur in the regime of photon numbers similar to or larger than $N$, which are linked to collapse and revival phenomena. Wigner functions of the light mode are calculated for different scenarios to analyze the quantum state of the light field. We find strong deviations from a coherent state even if the dynamics of the expectation values are still well described by the semiclassical limit. For higher pulse amplitudes Wigner functions similar to those of Schr\"odinger cat states between two or more quasi-coherent contributions build up. | 翻訳日:2023-03-08 09:49:01 公開日:2021-11-11 |
# ブロックチェーンに基づく自己主権に基づくデジタルKYCプロセスのためのフレームワークの設計 Designing a Framework for Digital KYC Processes Built on Blockchain-Based Self-Sovereign Identity ( http://arxiv.org/abs/2112.01237v1 ) ライセンス: Link先を確認 | Vincent Schlatt, Johannes Sedlmeir, Simon Feulner, Nils Urbach | (参考訳) 顧客(kyc)プロセスを知ることは、顧客にとって費用がかかり、非効率で不便であるため、銀行に大きな負担を負います。
ブロックチェーン技術は潜在的な解決策としてしばしば言及されるが、データ保護規則や顧客のプライバシに違反することなく、この技術の利点をどのように使うかは明確ではない。
ブロックチェーンベースの自己主権アイデンティティ(SSI)がKYCの課題をいかに解決できるかを実証する。
私たちは、KYCプロセスでSSIを利用するフレームワークを作成するために、厳格な設計科学研究アプローチに従い、SSIに対するブロックチェーンの役割を理論化する、生まれたばかりの設計原則を導き出します。 Know your customer (KYC) processes place a great burden on banks, because they are costly, inefficient, and inconvenient for customers. While blockchain technology is often mentioned as a potential solution, it is not clear how to use the technology's advantages without violating data protection regulations and customer privacy. We demonstrate how blockchain-based self-sovereign identity (SSI) can solve the challenges of KYC. We follow a rigorous design science research approach to create a framework that utilizes SSI in the KYC process, deriving nascent design principles that theorize on blockchain's role for SSI. | 翻訳日:2023-03-08 09:42:21 公開日:2021-11-11 |
# 中性原子量子アーキテクチャにおける長距離相互作用の爆発と原子損失耐性 Exploiting Long-Distance Interactions and Tolerating Atom Loss in Neutral Atom Quantum Architectures ( http://arxiv.org/abs/2111.06469v1 ) ライセンス: Link先を確認 | Jonathan M. Baker, Andrew Litteken, Casey Duckering, Henry Hoffman, Hannes Bernien, Frederic T. Chong | (参考訳) 量子技術は現在、中程度のスケールのプロトタイプを超えてスケールするのに苦労しており、ゲートエラー率やコヒーレンス時間によって、合理的なサイズのプログラムを実行できない。
多くのソフトウェアアプローチは、ノイズの多いマシンから余分な値を引き出すために重いコンパイラ最適化に依存しているが、ハードウェアによって基本的に制限されている。
単独では、これらのソフトウェアアプローチは利用可能なハードウェアの使用を最大化するのに役立ちますが、基盤となる技術が生み出す固有の制限を克服することはできません。
もう1つのアプローチは、スケーラビリティへの道筋として、新しい、しかし、開発が容易でない技術の使用を検討することである。
この作業では、ニュートラルAtom(NA)アーキテクチャの利点とデメリットを評価します。
NAシステムは、通信オーバーヘッド、全体的なゲート数、コンパイルプログラムの深さを削減できる、長距離通信やネイティブマルチビットゲートなどの有望な利点を提供している。
しかし、長距離相互作用は、相互作用するキュービット対を取り巻く制限ゾーンと平行性を妨げる。
これらの利点の恩恵を最大化し、コストを最小化するために、現在のコンパイラメソッドを拡張します。
さらに、NA装置内の原子は、プログラム実行中にランダムに失われる可能性があり、原子配列のロードが遅いため、プログラム実行時間全体に対して極めて有害である。
コンパイルされたプログラムが基盤となるトポロジーと互換性がなくなった場合、高速で効率的なコーピングメカニズムが必要です。
本稿では,全再負荷や全再コンパイルをサイクル毎に回避し,全計算時間を劇的に短縮するシステムレジリエンス向上のためのハードウェアおよびコンパイラ手法を提案する。 Quantum technologies currently struggle to scale beyond moderate scale prototypes and are unable to execute even reasonably sized programs due to prohibitive gate error rates or coherence times. Many software approaches rely on heavy compiler optimization to squeeze extra value from noisy machines but are fundamentally limited by hardware. Alone, these software approaches help to maximize the use of available hardware but cannot overcome the inherent limitations posed by the underlying technology. An alternative approach is to explore the use of new, though potentially less developed, technology as a path towards scalability. In this work we evaluate the advantages and disadvantages of a Neutral Atom (NA) architecture. NA systems offer several promising advantages such as long range interactions and native multiqubit gates which reduce communication overhead, overall gate count, and depth for compiled programs. Long range interactions, however, impede parallelism with restriction zones surrounding interacting qubit pairs. We extend current compiler methods to maximize the benefit of these advantages and minimize the cost. Furthermore, atoms in an NA device have the possibility to randomly be lost over the course of program execution which is extremely detrimental to total program execution time as atom arrays are slow to load. When the compiled program is no longer compatible with the underlying topology, we need a fast and efficient coping mechanism. We propose hardware and compiler methods to increase system resilience to atom loss dramatically reducing total computation time by circumventing complete reloads or full recompilation every cycle. | 翻訳日:2023-03-08 09:41:36 公開日:2021-11-11 |
# 励起子:エネルギーと時空間力学 Excitons: Energetics and spatio-temporal dynamics ( http://arxiv.org/abs/2111.06460v1 ) ライセンス: Link先を確認 | Seogjoo J. Jang, Irene Burghardt, Chao-Ping Hsu, and Christopher J. Bardeen | (参考訳) 集合励起状態を表す準粒子としてのエクシトンの概念は、もともと固体物理学から応用され、ワニエ・エクシトンとフレンケル・エクシトン(英語版)の確立した極限に依存することで分子集合体に適用された。
しかし、過去20年間のより複雑な化学系や固体物質の励起子の研究により、ワニエやフランケル励起子に基づく単純な概念は、特にナノ構造固体、多色多分子、複雑な分子集合体において、詳細な励起子挙動を記述するのに十分でないことが明らかとなった。
さらに, ビブロニックカップリング, 電荷移動(CT)成分の影響, スピン状態相互変換, 電子相関など, 長年研究されてきたが完全には理解されていない重要な効果が, 多くのシステムにおいて中心的な役割を担っていることがわかった。
これは新しい実験的アプローチと高度化の理論的研究の動機となった。
本稿では、これらの問題に対処する研究の概要を「Excitons: Energetics and Spatio-temporal dynamics」で特集し、その意義について論じる。 The concept of an exciton as a quasiparticle that represents collective excited states was originally adapted from solid-state physics and has been successfully applied to molecular aggregates by relying on the well-established limits of the Wannier exciton and the Frenkel exciton. However, the study of excitons in more complex chemical systems and solid materials over the past two decades has made it clear that simple concepts based on Wannier or Frenkel excitons are not sufficient to describe detailed excitonic behavior, especially in nano-structured solid materials, multichromophoric macromolecules, and complex molecular aggregates. In addition, important effects such as vibronic coupling, the influence of charge-transfer (CT) components, spin-state interconversion, and electronic correlation, which had long been studied but not fully understood, have turned out to play a central role in many systems. This has motivated new experimental approaches and theoretical studies of increasing sophistication. This article provides an overview of works addressing these issues that were published for A Special Topic of the Journal of Chemical Physics on "Excitons: Energetics and spatio-temporal dynamics" and discusses their implications. | 翻訳日:2023-03-08 09:41:11 公開日:2021-11-11 |
# 量子情報革命のリーダーになるための学生の準備 Preparing students to be leaders of the quantum information revolution ( http://arxiv.org/abs/2111.06438v1 ) ライセンス: Link先を確認 | Chandralekha Singh, Abraham Asfaw and Jeremy Levy | (参考訳) この記事では、物理学コミュニティが将来の研究と労働力の要求を満たすために、様々な学歴を持つ学生を教育するという課題を受け入れる必要がある理由を論じ、進行中の取り組みの概要を概説する。 This Physics Today article discusses why the physics community needs to embrace the challenge of educating students with diverse educational backgrounds to meet future research and workforce demands and outlines some of the efforts underway. | 翻訳日:2023-03-08 09:40:48 公開日:2021-11-11 |
# aiと法制度を罰する人々の衝動の衝突 The Conflict Between People's Urge to Punish AI and Legal Systems ( http://arxiv.org/abs/2003.06507v3 ) ライセンス: Link先を確認 | Gabriel Lima, Meeyoung Cha, Chihyung Jeon, Kyungsin Park | (参考訳) リスクの高いシナリオに展開するためには、人工知能(AI)の規制が必要である。
本稿では、一般市民のレンズを通してまだ検討されていないAIやロボットに法的人格を拡大する提案について検討する。
本研究は,電子的法的人格に対する人々の見解を得るための2つの研究 (N = 3,559) を提示する。
本研究は,これらの組織が精神状態を認識していないにもかかわらず,自動化されたエージェントを処罰したいという人々の欲求を明らかにするものである。
さらに、自動エージェントの刑罰が抑止や報復を果たすとは考えておらず、法的処罰、すなわち身体的独立と資産を事前に認めることを望まなかった。
これらの知見は、自動化されたエージェントを罰したいという欲求と、その非現実性に対する認識との間に矛盾を示唆している。
我々は、将来の設計と法的決定が、自動化エージェントの不正行為に対する大衆の反応にどのように影響するかを議論することで締めくくった。 Regulating artificial intelligence (AI) has become necessary in light of its deployment in high-risk scenarios. This paper explores the proposal to extend legal personhood to AI and robots, which had not yet been examined through the lens of the general public. We present two studies (N = 3,559) to obtain people's views of electronic legal personhood vis-\`a-vis existing liability models. Our study reveals people's desire to punish automated agents even though these entities are not recognized any mental state. Furthermore, people did not believe automated agents' punishment would fulfill deterrence nor retribution and were unwilling to grant them legal punishment preconditions, namely physical independence and assets. Collectively, these findings suggest a conflict between the desire to punish automated agents and its perceived impracticability. We conclude by discussing how future design and legal decisions may influence how the public reacts to automated agents' wrongdoings. | 翻訳日:2022-12-24 02:07:45 公開日:2021-11-11 |
# GAN圧縮:対話型条件付きGANのための効率的なアーキテクチャ GAN Compression: Efficient Architectures for Interactive Conditional GANs ( http://arxiv.org/abs/2003.08936v4 ) ライセンス: Link先を確認 | Muyang Li, Ji Lin, Yaoyao Ding, Zhijian Liu, Jun-Yan Zhu, Song Han | (参考訳) conditional generative adversarial networks (cgans)は、多くの視覚およびグラフィックアプリケーションで制御可能な画像合成を可能にした。
しかし、最近のcGANは現代の認識CNNよりも1-2桁の計算集約性がある。
例えば、GauGANは画像当たり281GのMACを消費し、MobileNet-v3の0.44GのMACを消費する。
本研究では,cGANにおけるジェネレータの推論時間とモデルサイズを低減するための汎用圧縮フレームワークを提案する。
既存の圧縮手法を直接適用すると、GANトレーニングの難しさとジェネレータアーキテクチャの違いにより性能が低下する。
我々はこれらの課題を2つの方法で解決する。
まず、GANトレーニングを安定化させるために、原モデルの複数の中間表現の知識を圧縮モデルに転送し、未ペア学習とペア学習を統一する。
第2に,既存のcnn設計を再利用する代わりに,ニューラルネットワークによる効率的なアーキテクチャを探索する手法を提案する。
検索プロセスを高速化するために,モデルトレーニングとウェイトシェアリングによる検索を分離する。
実験は,様々な監督設定,ネットワークアーキテクチャ,学習方法において,提案手法の有効性を示す。
画像品質を損なうことなく、CycleGANを21倍、Pix2pixを12倍、MUNITを29倍、GauGANを9倍に減らし、インタラクティブな画像合成を行う。 Conditional Generative Adversarial Networks (cGANs) have enabled controllable image synthesis for many vision and graphics applications. However, recent cGANs are 1-2 orders of magnitude more compute-intensive than modern recognition CNNs. For example, GauGAN consumes 281G MACs per image, compared to 0.44G MACs for MobileNet-v3, making it difficult for interactive deployment. In this work, we propose a general-purpose compression framework for reducing the inference time and model size of the generator in cGANs. Directly applying existing compression methods yields poor performance due to the difficulty of GAN training and the differences in generator architectures. We address these challenges in two ways. First, to stabilize GAN training, we transfer knowledge of multiple intermediate representations of the original model to its compressed model and unify unpaired and paired learning. Second, instead of reusing existing CNN designs, our method finds efficient architectures via neural architecture search. To accelerate the search process, we decouple the model training and search via weight sharing. Experiments demonstrate the effectiveness of our method across different supervision settings, network architectures, and learning methods. Without losing image quality, we reduce the computation of CycleGAN by 21x, Pix2pix by 12x, MUNIT by 29x, and GauGAN by 9x, paving the way for interactive image synthesis. | 翻訳日:2022-12-22 04:50:21 公開日:2021-11-11 |
# 対称 pre を用いた無線資源割当のための学習効率の向上 Improving Learning Efficiency for Wireless Resource Allocation with Symmetric Prior ( http://arxiv.org/abs/2005.08510v4 ) ライセンス: Link先を確認 | Chengjian Sun, Jiajun Wu and Chenyang Yang | (参考訳) 高度にダイナミックな環境での無線通信におけるディープニューラルネットワーク(dnn)を用いた学習リソース割り当てでは、学習効率の向上が重要となる。
ドメイン知識を学習に組み込むことは、この問題に対処するための有望な方法である。
本稿では、まず、数学モデルの導入とディープラーニングへの事前知識という、ドメイン知識を使用するアプローチの2つのクラスを簡潔に要約します。
次に,ワイヤレスタスクに広く存在する対称な事前置換等分散について考察する。
そこで我々は,DNNの入力と出力を協調的にソートするランキングを,学習効率の向上にどのように活用するかを説明する。
我々は,サブキャリア間の電力配分,確率的コンテンツキャッシュ,干渉調整を用いて,その特性を利用して学習効率の向上を示す。
ケーススタディから, システム性能を達成するために必要なトレーニングサンプルは, サブキャリア数や内容数によって減少し, 興味深い現象として「サンプル硬化」がみられた。
シミュレーションの結果, DNNにおけるトレーニングサンプル, 自由パラメータ, トレーニング時間を, 事前知識を利用することで劇的に削減できることが示唆された。
ランク付け後のdnnのトレーニングに必要なサンプルは15 \sim 2,400$ foldsに削減でき、前もって使用せずにシステムパフォーマンスが同等になる。 Improving learning efficiency is paramount for learning resource allocation with deep neural networks (DNNs) in wireless communications over highly dynamic environments. Incorporating domain knowledge into learning is a promising way of dealing with this issue, which is an emerging topic in the wireless community. In this article, we first briefly summarize two classes of approaches to using domain knowledge: introducing mathematical models or prior knowledge to deep learning. Then, we consider a kind of symmetric prior, permutation equivariance, which widely exists in wireless tasks. To explain how such a generic prior is harnessed to improve learning efficiency, we resort to ranking, which jointly sorts the input and output of a DNN. We use power allocation among subcarriers, probabilistic content caching, and interference coordination to illustrate the improvement of learning efficiency by exploiting the property. From the case study, we find that the required training samples to achieve given system performance decreases with the number of subcarriers or contents, owing to an interesting phenomenon: "sample hardening". Simulation results show that the training samples, the free parameters in DNNs and the training time can be reduced dramatically by harnessing the prior knowledge. The samples required to train a DNN after ranking can be reduced by $15 \sim 2,400$ folds to achieve the same system performance as the counterpart without using prior. | 翻訳日:2022-12-02 00:34:34 公開日:2021-11-11 |
# オブジェクトをフォローする: 仮想ゴールを用いた操作タスクのカリキュラム学習 Follow the Object: Curriculum Learning for Manipulation Tasks with Imagined Goals ( http://arxiv.org/abs/2008.02066v2 ) ライセンス: Link先を確認 | Ozsel Kilinc, Giovanni Montana | (参考訳) 狭い環境下での深層強化学習によるロボット操作の学習は難しい課題である。
本稿では,仮想目標の概念を導入することでこの問題に対処する。
与えられた操作タスクでは、興味のある対象は、物理的に現実的なシミュレーションを通じて、操作されることなく、自分自身で所望の目標位置に到達するように訓練される。
次に、オブジェクトポリシーを利用して、訓練中に到達するより段階的に難しいオブジェクト目標のカリキュラムを提供する、信頼できるオブジェクトトラジェクタの予測モデルを構築する。
提案アルゴリズムであるFollow the Object (FO)は,探索の度合いを高くする必要がある7つのMuJoCo環境で評価され,代替アルゴリズムと比較して高い成功率を達成した。
オブジェクトの初期位置とターゲット位置が遠く離れているような、特に困難な学習シナリオでは、競合するメソッドが現在失敗するのに対して、我々のアプローチは依然としてポリシーを学習することができる。 Learning robot manipulation through deep reinforcement learning in environments with sparse rewards is a challenging task. In this paper we address this problem by introducing a notion of imaginary object goals. For a given manipulation task, the object of interest is first trained to reach a desired target position on its own, without being manipulated, through physically realistic simulations. The object policy is then leveraged to build a predictive model of plausible object trajectories providing the robot with a curriculum of incrementally more difficult object goals to reach during training. The proposed algorithm, Follow the Object (FO), has been evaluated on 7 MuJoCo environments requiring increasing degree of exploration, and has achieved higher success rates compared to alternative algorithms. In particularly challenging learning scenarios, e.g. where the object's initial and target positions are far apart, our approach can still learn a policy whereas competing methods currently fail. | 翻訳日:2022-11-02 17:27:52 公開日:2021-11-11 |
# AutoAtlas: 教師なし分割と表現学習のためのニューラルネットワーク AutoAtlas: Neural Network for 3D Unsupervised Partitioning and Representation Learning ( http://arxiv.org/abs/2010.15987v3 ) ライセンス: Link先を確認 | K. Aditya Mohan, Alan D. Kaplan | (参考訳) 我々は3次元脳磁気共鳴イメージング(MRI)ボリュームの完全教師なし分割と表現学習のためのAutoAtlasと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。
AutoAtlasは、ボリュームの局所的なテクスチャに基づいたマルチラベルパーティショニングを実行するニューラルネットワークと、各パーティショニングに含まれる情報を圧縮する第2のニューラルネットワークの2つのニューラルネットワークコンポーネントで構成されている。
各分割の正確な再構築を促進するために設計された損失関数を最適化し、空間的に滑らかで連続的な分割を奨励し、比較的小さな分割を回避し、両コンポーネントを同時に訓練する。
本研究は,被験者間の類似した空間的位置を連続的に観察しながら,被験者の脳組織の特定の構造変化に適応することを示す。
AutoAtlasはまた、各パーティションの局所的なテクスチャを表す非常に低次元の特徴も生成する。
抽出された特徴表現を用いて各被験者に関連付けられたメタデータを予測し,自由サーフィン解剖学的パーセレーションから得られた特徴を用いて結果を予測と比較する。
私たちの特徴は本質的に異なるパーティションに結びついているので、パーティション固有の特徴重要度スコアなどの興味ある値を脳にマッピングして視覚化することができます。 We present a novel neural network architecture called AutoAtlas for fully unsupervised partitioning and representation learning of 3D brain Magnetic Resonance Imaging (MRI) volumes. AutoAtlas consists of two neural network components: one neural network to perform multi-label partitioning based on local texture in the volume, and a second neural network to compress the information contained within each partition. We train both of these components simultaneously by optimizing a loss function that is designed to promote accurate reconstruction of each partition, while encouraging spatially smooth and contiguous partitioning, and discouraging relatively small partitions. We show that the partitions adapt to the subject specific structural variations of brain tissue while consistently appearing at similar spatial locations across subjects. AutoAtlas also produces very low dimensional features that represent local texture of each partition. We demonstrate prediction of metadata associated with each subject using the derived feature representations and compare the results to prediction using features derived from FreeSurfer anatomical parcellation. Since our features are intrinsically linked to distinct partitions, we can then map values of interest, such as partition-specific feature importance scores onto the brain for visualization. | 翻訳日:2022-10-01 22:44:13 公開日:2021-11-11 |
# passgoodpool:強化学習による料金、マッチング、ルート計画を支援する、乗客と商品の合同艦隊管理 PassGoodPool: Joint Passengers and Goods Fleet Management with Reinforcement Learning aided Pricing, Matching, and Route Planning ( http://arxiv.org/abs/2011.08999v2 ) ライセンス: Link先を確認 | Kaushik Manchella, Marina Haliem, Vaneet Aggarwal, and Bharat Bhargava | (参考訳) 旅客・貨物輸送における移動・オンデマンドサービスの普及は、輸送システムの領域内で様々な課題や機会をもたらしている。
その結果、運用利益率、ユーザ利便性、環境サステナビリティを最大化するインテリジェント交通システムが開発されている。
最終マイルの配達量の増加は、乗客と商品の両方を輸送する効率的で凝集的なシステムを求めるライドシェアリングと並んでいる。
既存の手法では、要求の要求や経路計画中の車両間の商品の移動を考慮せず、静的なルーティング手法でこれに対処する。
In this paper, we present a dynamic and demand aware fleet management framework for combined goods and passenger transportation that is capable of (1) Involving both passengers and drivers in the decision-making process by allowing drivers to negotiate to a mutually suitable price, and passengers to accept/reject, (2) Matching of goods to vehicles, and the multi-hop transfer of goods, (3) Dynamically generating optimal routes for each vehicle considering demand along their paths, based on the insertion cost which then determines the matching, (4) Dispatching idle vehicles to areas of anticipated high passenger and goods demand using Deep Reinforcement Learning (RL), (5) Allowing for distributed inference at each vehicle while collectively optimizing fleet objectives.
提案手法は,分散システムの成長に伴う計算コストを最小化し,個別の意思決定を民主化するため,各車両内で独立して展開可能である。
各種車両の種類, 商品, 乗用車機能に関するシミュレーションは, 負荷輸送と動的マルチホップ経路計画の併用を考慮しない他の方法と比較して, 提案手法の有効性を示す。 The ubiquitous growth of mobility-on-demand services for passenger and goods delivery has brought various challenges and opportunities within the realm of transportation systems. As a result, intelligent transportation systems are being developed to maximize operational profitability, user convenience, and environmental sustainability. The growth of last mile deliveries alongside ridesharing calls for an efficient and cohesive system that transports both passengers and goods. Existing methods address this using static routing methods considering neither the demands of requests nor the transfer of goods between vehicles during route planning. In this paper, we present a dynamic and demand aware fleet management framework for combined goods and passenger transportation that is capable of (1) Involving both passengers and drivers in the decision-making process by allowing drivers to negotiate to a mutually suitable price, and passengers to accept/reject, (2) Matching of goods to vehicles, and the multi-hop transfer of goods, (3) Dynamically generating optimal routes for each vehicle considering demand along their paths, based on the insertion cost which then determines the matching, (4) Dispatching idle vehicles to areas of anticipated high passenger and goods demand using Deep Reinforcement Learning (RL), (5) Allowing for distributed inference at each vehicle while collectively optimizing fleet objectives. Our proposed model is deployable independently within each vehicle as this minimizes computational costs associated with the growth of distributed systems and democratizes decision-making to each individual. Simulations on a variety of vehicle types, goods, and passenger utility functions show the effectiveness of our approach as compared to other methods that do not consider combined load transportation or dynamic multi-hop route planning. | 翻訳日:2022-09-24 17:41:49 公開日:2021-11-11 |
# Unsupervised BatchNorm Adaptation (UBNA):ソースドメイン表現を使わずにセマンティックセグメンテーションのためのドメイン適応法 Unsupervised BatchNorm Adaptation (UBNA): A Domain Adaptation Method for Semantic Segmentation Without Using Source Domain Representations ( http://arxiv.org/abs/2011.08502v2 ) ライセンス: Link先を確認 | Marvin Klingner, Jan-Aike Term\"ohlen, Jacob Ritterbach, Tim Fingscheidt | (参考訳) 本稿では,事前訓練されたセマンティックセグメンテーションモデルの教師なしドメイン適応(UDA)課題に対する,ソースドメイン表現に依存しない解決法を提案する。
セマンティックセグメンテーションのための以前のUDAアプローチでは、ソースドメインとターゲットドメインのモデルの同時トレーニングを採用するか、あるいは追加のネットワークに依存し、適応中にソースドメインの知識をモデルに再生する。
これとは対照的に,本手法では,事前学習されたモデルに対して,事前学習による既存モデルのパラメータを越えず,未学習のターゲット領域に適応させる手法である未教師付きバッチノルム適応法(ubna)を提案する。
具体的には、指数関数的に減衰する運動量係数を用いて正規化層統計を対象領域に部分的に適用し、両方の領域からの統計を混合する。
セマンティックセグメンテーションのための標準UDAベンチマークの評価により、これは適応のないモデルや、対象領域からの統計を用いたベースラインアプローチよりも優れていることを示す。
標準的なUDAアプローチと比較して、ソースドメイン表現のパフォーマンスと利用のトレードオフを報告します。 In this paper we present a solution to the task of "unsupervised domain adaptation (UDA) of a given pre-trained semantic segmentation model without relying on any source domain representations". Previous UDA approaches for semantic segmentation either employed simultaneous training of the model in the source and target domains, or they relied on an additional network, replaying source domain knowledge to the model during adaptation. In contrast, we present our novel Unsupervised BatchNorm Adaptation (UBNA) method, which adapts a given pre-trained model to an unseen target domain without using -- beyond the existing model parameters from pre-training -- any source domain representations (neither data, nor networks) and which can also be applied in an online setting or using just a few unlabeled images from the target domain in a few-shot manner. Specifically, we partially adapt the normalization layer statistics to the target domain using an exponentially decaying momentum factor, thereby mixing the statistics from both domains. By evaluation on standard UDA benchmarks for semantic segmentation we show that this is superior to a model without adaptation and to baseline approaches using statistics from the target domain only. Compared to standard UDA approaches we report a trade-off between performance and usage of source domain representations. | 翻訳日:2022-09-24 16:47:38 公開日:2021-11-11 |
# 接合体の場:低snrにおける境界構造抽出 Field of Junctions: Extracting Boundary Structure at Low SNR ( http://arxiv.org/abs/2011.13866v3 ) ライセンス: Link先を確認 | Dor Verbin and Todd Zickler | (参考訳) 本稿では,輪郭,コーナー,ジャンクションなど,画像内の多数の境界要素を同時に見つけるボトムアップモデルを提案する。
このモデルは、M角と自由に動く頂点からなる「一般化M接合」を用いて、各小さなパッチにおける境界形状を説明する。
画像は非凸最適化を用いて解析され、各位置でM+2接合値が協調的に検出され、空間的整合性は、角とジャンクションを保存しながら曲率を減少させる新しい正規化器によって強制される。
その結果得られる「接合領域」は、輪郭検出器、コーナー/接合検出器、および境界認識平滑化を同時に行う。
特に、輪郭、角、ジャンクション、および均一領域の統一解析により、セグメンテーションや境界検出の他の方法が失敗する高いノイズレベルで成功することができる。 We introduce a bottom-up model for simultaneously finding many boundary elements in an image, including contours, corners and junctions. The model explains boundary shape in each small patch using a 'generalized M-junction' comprising M angles and a freely-moving vertex. Images are analyzed using non-convex optimization to cooperatively find M+2 junction values at every location, with spatial consistency being enforced by a novel regularizer that reduces curvature while preserving corners and junctions. The resulting 'field of junctions' is simultaneously a contour detector, corner/junction detector, and boundary-aware smoothing of regional appearance. Notably, its unified analysis of contours, corners, junctions and uniform regions allows it to succeed at high noise levels, where other methods for segmentation and boundary detection fail. | 翻訳日:2022-09-20 02:32:55 公開日:2021-11-11 |
# (参考訳) CU-UD:BERTモデルを用いたテキストマイニング薬とケミカル-タンパク質相互作用 CU-UD: text-mining drug and chemical-protein interactions with ensembles of BERT-based models ( http://arxiv.org/abs/2112.03004v1 ) ライセンス: CC BY 4.0 | Mehmet Efruz Karabulut, K. Vijay-Shanker, Yifan Peng | (参考訳) 化学物質とタンパク質の関係を特定することは重要なテキストマイニング作業である。
BioCreative VII track 1 DrugProt taskは、PubMedの抽象化における化学物質/ドラッグと遺伝子/タンパク質の関係を自動的に検出できるシステムの開発と評価を促進することを目的としている。
本稿では,複数のBERT言語モデルを含むアンサンブルシステムである提案文について述べる。
多数決と多層パーセプトロンを用いて個々のモデルの出力を合成する。
精度0.7708,リコール0.7770,f1スコア0.7739を算出し,化学物質とタンパク質の関係を自動検出するbert言語モデルのアンサンブルの有効性を示した。
私たちのコードはhttps://github.com/bionlplab/drugprot_bcviiで利用可能です。 Identifying the relations between chemicals and proteins is an important text mining task. BioCreative VII track 1 DrugProt task aims to promote the development and evaluation of systems that can automatically detect relations between chemical compounds/drugs and genes/proteins in PubMed abstracts. In this paper, we describe our submission, which is an ensemble system, including multiple BERT-based language models. We combine the outputs of individual models using majority voting and multilayer perceptron. Our system obtained 0.7708 in precision and 0.7770 in recall, for an F1 score of 0.7739, demonstrating the effectiveness of using ensembles of BERT-based language models for automatically detecting relations between chemicals and proteins. Our code is available at https://github.com/bionlplab/drugprot_bcvii. | 翻訳日:2021-12-12 19:22:02 公開日:2021-11-11 |
# 点雲完成のためのグラフ誘導変形 Graph-Guided Deformation for Point Cloud Completion ( http://arxiv.org/abs/2112.01840v1 ) ライセンス: Link先を確認 | Jieqi Shi, Lingyun Xu, Liang Heng, Shaojie Shen | (参考訳) 長い間、ポイントクラウド完了タスクは純粋な生成タスクとみなされてきた。
エンコーダを介してグローバルな形状コードを取得すると、ネットワークが予め学習した形状を用いて完全点雲を生成する。
しかし、そのようなモデルは従来の平均オブジェクトに対して好ましくない偏りがあり、本質的には幾何学的詳細に適合するように制限されている。
本稿では,入力データと中間生成を制御およびサポートポイントとみなすグラフガイド変形ネットワークを提案し,ポイントクラウド完了タスクにおいてグラフ畳み込みネットワーク(GCN)によって導かれる最適化をモデル化する。
我々の重要な洞察は、メッシュ変形法による最小2乗ラプラシア変形過程をシミュレートすることであり、幾何学的詳細のモデリングに適応性をもたらす。
これにより、完了タスクとメッシュ変形アルゴリズムとのギャップを低減することができる。
私たちが知る限りでは、GCN誘導変形による従来のグラフィックアルゴリズムを模倣することで、最初にポイントクラウド補完タスクを洗練します。
我々は、模擬屋内データセットShapeNet、屋外データセットKITTI、自律走行データセットPandar40について広範な実験を行った。
その結果,本手法は3Dポイントクラウド完了タスクにおいて,既存の最先端アルゴリズムよりも優れていることがわかった。 For a long time, the point cloud completion task has been regarded as a pure generation task. After obtaining the global shape code through the encoder, a complete point cloud is generated using the shape priorly learnt by the networks. However, such models are undesirably biased towards prior average objects and inherently limited to fit geometry details. In this paper, we propose a Graph-Guided Deformation Network, which respectively regards the input data and intermediate generation as controlling and supporting points, and models the optimization guided by a graph convolutional network(GCN) for the point cloud completion task. Our key insight is to simulate the least square Laplacian deformation process via mesh deformation methods, which brings adaptivity for modeling variation in geometry details. By this means, we also reduce the gap between the completion task and the mesh deformation algorithms. As far as we know, we are the first to refine the point cloud completion task by mimicing traditional graphics algorithms with GCN-guided deformation. We have conducted extensive experiments on both the simulated indoor dataset ShapeNet, outdoor dataset KITTI, and our self-collected autonomous driving dataset Pandar40. The results show that our method outperforms the existing state-of-the-art algorithms in the 3D point cloud completion task. | 翻訳日:2021-12-12 15:45:12 公開日:2021-11-11 |
# マルチユーザマルチバンドネットワークのためのアンチジャミングゲーム Anti-Jamming Games for Multi-User Multi-Band Networks ( http://arxiv.org/abs/2111.11178v1 ) ライセンス: Link先を確認 | Hyeon-Seong Im and Si-Hyeon Lee | (参考訳) マルチユーザマルチバンドネットワークでは、ユーザとジャマーの間のゼロサムゲームが検討される。
ゲームの定式化において、ユーザの報酬は、通信速度、ホッピングコスト、ジャミング損失など、さまざまなパラメータでモデル化される。
任意の対称衝突回避プロトコルに対して、保持閾値周波数ホッピングと掃討攻撃が平衡を確立することを解析的に示す。
また,2種類の衝突回避プロトコルを提案して,少なくとも1人のユーザがバンド内で通信することを保証し,また,衝突回避プロトコルが保持周波数ホッピングの最適しきい値とユーザの期待する報奨値に与える影響を,様々な数値で示す。 For multi-user multi-band networks, a zero-sum game between the users and the jammer is considered. In the formulation of the game, the rewards of the users are modeled with various parameters including communication rate, hopping cost, and jamming loss. It is analytically shown that for any symmetric collision avoidance protocol, a staying-threshold frequency hopping and a sweeping attack establish an equilibrium. We also propose two kinds of collision avoidance protocols to ensure that at most one user communicates in a band, and provide various numerical results that show the effect of the reward parameters and collision avoidance protocols on the optimal threshold of the staying-threshold frequency hopping and the expected rewards of the users. | 翻訳日:2021-11-28 18:19:57 公開日:2021-11-11 |
# (参考訳) 無線ネットワーク最適化のためのオフラインコンテキスト帯域 Offline Contextual Bandits for Wireless Network Optimization ( http://arxiv.org/abs/2111.08587v1 ) ライセンス: CC BY 4.0 | Miguel Suau, Alexandros Agapitos, David Lynch, Derek Farrell, Mingqi Zhou, Aleksandar Milenovic | (参考訳) モバイルデータトラフィックの急増と、無線ネットワーク最適化のためのAIアルゴリズムの開発に対する、より高い品質のサービスコールに対する期待が高まっている。
本稿では,ユーザ要求の変化に応じて,ネットワーク内の各セルの構成パラメータを自動的に調整するポリシの学習方法について検討する。
私たちのソリューションは、オフライン学習のための既存の方法を組み合わせて、この文脈で生じる重要な課題を克服する原則的な方法でそれらを適応します。
実験結果から,提案手法は実ネットワークにデプロイした場合,計算効率の制約を十分に満たしながら,重要な性能向上を達成できることが示唆された。 The explosion in mobile data traffic together with the ever-increasing expectations for higher quality of service call for the development of AI algorithms for wireless network optimization. In this paper, we investigate how to learn policies that can automatically adjust the configuration parameters of every cell in the network in response to the changes in the user demand. Our solution combines existent methods for offline learning and adapts them in a principled way to overcome crucial challenges arising in this context. Empirical results suggest that our proposed method will achieve important performance gains when deployed in the real network while satisfying practical constrains on computational efficiency. | 翻訳日:2021-11-21 15:17:01 公開日:2021-11-11 |
# (参考訳) 資源制約のあるモバイルアプリケーションの効率的な不確実性推定について On Efficient Uncertainty Estimation for Resource-Constrained Mobile Applications ( http://arxiv.org/abs/2111.09838v1 ) ライセンス: CC BY 4.0 | Johanna Rock, Tiago Azevedo, Ren\'e de Jong, Daniel Ruiz-Mu\~noz, Partha Maji | (参考訳) 深層ニューラルネットワークは予測品質に大きな成功を収め、信頼性と堅牢な不確実性推定は依然として課題である。
予測の不確実性はモデル予測を補完し、仮想現実、拡張現実、センサー融合、知覚など、組み込みおよびモバイルアプリケーションを含む下流タスクの機能を改善する。
これらのアプリケーションは、非常に限られたメモリと計算資源のために不確実性推定を得るために、複雑さの妥協を必要とすることが多い。
axolotlフレームワークを使用してモンテカルロドロップアウト(mcdo)モデルを構築してこの問題に取り組む。具体的には、サンプルされたサブネットワークを多様化し、ドロップアウトパターンを活用し、分岐技術を用いて高速な計算を維持しながら予測性能を向上させる。
我々は,(1)CIFAR10データセットを用いた多クラス分類タスク,(2)より複雑な人体セグメンテーションタスクについて実験を行った。
提案手法は,リソース制限のあるモバイルプラットフォームでより高速に推論できながら,精度や不確実性の推定に近づいた場合の有効性を示す。 Deep neural networks have shown great success in prediction quality while reliable and robust uncertainty estimation remains a challenge. Predictive uncertainty supplements model predictions and enables improved functionality of downstream tasks including embedded and mobile applications, such as virtual reality, augmented reality, sensor fusion, and perception. These applications often require a compromise in complexity to obtain uncertainty estimates due to very limited memory and compute resources. We tackle this problem by building upon Monte Carlo Dropout (MCDO) models using the Axolotl framework; specifically, we diversify sampled subnetworks, leverage dropout patterns, and use a branching technique to improve predictive performance while maintaining fast computations. We conduct experiments on (1) a multi-class classification task using the CIFAR10 dataset, and (2) a more complex human body segmentation task. Our results show the effectiveness of our approach by reaching close to Deep Ensemble prediction quality and uncertainty estimation, while still achieving faster inference on resource-limited mobile platforms. | 翻訳日:2021-11-21 15:04:58 公開日:2021-11-11 |
# パーソナライズされたてんかん脳波検出のための多視点協調伝達学習を取り入れた新しいTSKファジィシステム A Novel TSK Fuzzy System Incorporating Multi-view Collaborative Transfer Learning for Personalized Epileptic EEG Detection ( http://arxiv.org/abs/2111.08457v1 ) ライセンス: Link先を確認 | Andong Li, Zhaohong Deng, Qiongdan Lou, Kup-Sze Choi, Hongbin Shen, Shitong Wang | (参考訳) 臨床において、脳波(eeg)はてんかんの診断において重要な役割を果たす。
脳波をベースとしたてんかんのコンピュータ支援診断は、医師の作業量を減らすとともにてんかん検出の精度を大幅に向上させることができる。
しかし、個別のてんかん性脳波検出(例えば、特定の人物に対する検出モデルのトレーニング)の実践的応用には、一つの視点から効果的な特徴を抽出するのが難しいこと、実際には十分なトレーニングデータがないという望ましくないが一般的なシナリオ、同じ分散トレーニングとテストデータの保証がないことなど、多くの課題がある。
これらの問題を解決するために,多視点共同転送学習を統合したtskファジィシステムに基づくてんかん検出アルゴリズムを提案する。
単一視点の特徴の制限による課題に対処するため、多視点学習は異なる視点から特徴を抽出することで特徴の多様性を保証する。
パーソナライズされた検出モデルを構築するためのトレーニングデータの欠如は、ソースドメインからの知識(参照シーン)を活用して、ターゲットドメイン(現在の関心シーン)のパフォーマンスを向上させることで解決される。
特に、転送学習とマルチビュー特徴抽出を同時に行う。
さらに、TSKファジィシステムのファジィ規則は、強いファジィ論理推論能力を持つモデルに適合する。
したがって,提案手法は,CHB-MITデータセットにおける多数の実験結果から,てんかん性脳波信号を効果的に検出できる可能性が示された。 In clinical practice, electroencephalography (EEG) plays an important role in the diagnosis of epilepsy. EEG-based computer-aided diagnosis of epilepsy can greatly improve the ac-curacy of epilepsy detection while reducing the workload of physicians. However, there are many challenges in practical applications for personalized epileptic EEG detection (i.e., training of detection model for a specific person), including the difficulty in extracting effective features from one single view, the undesirable but common scenario of lacking sufficient training data in practice, and the no guarantee of identically distributed training and test data. To solve these problems, we propose a TSK fuzzy system-based epilepsy detection algorithm that integrates multi-view collaborative transfer learning. To address the challenge due to the limitation of single-view features, multi-view learning ensures the diversity of features by extracting them from different views. The lack of training data for building a personalized detection model is tackled by leveraging the knowledge from the source domain (reference scene) to enhance the performance of the target domain (current scene of interest), where mismatch of data distributions between the two domains is resolved with adaption technique based on maximum mean discrepancy. Notably, the transfer learning and multi-view feature extraction are performed at the same time. Furthermore, the fuzzy rules of the TSK fuzzy system equip the model with strong fuzzy logic inference capability. Hence, the proposed method has the potential to detect epileptic EEG signals effectively, which is demonstrated with the positive results from a large number of experiments on the CHB-MIT dataset. | 翻訳日:2021-11-21 14:53:13 公開日:2021-11-11 |
# 正規逆ガンマ分布の混合による信頼できるマルチモーダル回帰 Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma Distributions ( http://arxiv.org/abs/2111.08456v1 ) ライセンス: Link先を確認 | Huan Ma, Zongbo Han, Changqing Zhang, Huazhu Fu, Joey Tianyi Zhou, Qinghua Hu | (参考訳) マルチモーダル回帰は基本的なタスクであり、異なるソースからの情報を統合して、フォローアップアプリケーションの性能を改善する。
しかし、既存の手法は主に性能向上に重点を置いており、様々な状況における予測の信頼性を無視することが多い。
本研究では,コスト依存ドメインにおいて重要な,信頼性の高いマルチモーダルレグレッションに焦点をあてる。
そこで本研究では,異なるモーダルの適応積分に対する原理的不確かさを効率的に推定し,信頼性の高い回帰結果を生成する,正規逆ガンマ分布の混合(MoNIG)アルゴリズムを提案する。
我々のモデルは各モダリティの不確かさを動的に認識でき、腐敗したモダリティに対しても頑健である。
さらに、提案したMoNIGは、それぞれ(モダリティ特異的/グローバルな)てんかんの明確な表現を保証している。
合成および異なる実世界のデータに対する実験結果は, 様々な多モード回帰タスク(超伝導の温度予測, CTスライスの相対的位置予測, マルチモーダル感情分析など)における本手法の有効性と信頼性を示す。 Multimodal regression is a fundamental task, which integrates the information from different sources to improve the performance of follow-up applications. However, existing methods mainly focus on improving the performance and often ignore the confidence of prediction for diverse situations. In this study, we are devoted to trustworthy multimodal regression which is critical in cost-sensitive domains. To this end, we introduce a novel Mixture of Normal-Inverse Gamma distributions (MoNIG) algorithm, which efficiently estimates uncertainty in principle for adaptive integration of different modalities and produces a trustworthy regression result. Our model can be dynamically aware of uncertainty for each modality, and also robust for corrupted modalities. Furthermore, the proposed MoNIG ensures explicitly representation of (modality-specific/global) epistemic and aleatoric uncertainties, respectively. Experimental results on both synthetic and different real-world data demonstrate the effectiveness and trustworthiness of our method on various multimodal regression tasks (e.g., temperature prediction for superconductivity, relative location prediction for CT slices, and multimodal sentiment analysis). | 翻訳日:2021-11-21 14:30:44 公開日:2021-11-11 |
# イベントベースデータからの生涯学習 Lifelong Learning from Event-based Data ( http://arxiv.org/abs/2111.08458v1 ) ライセンス: Link先を確認 | Vadym Gryshchuk, Cornelius Weber, Chu Kiong Loo, Stefan Wermter | (参考訳) 生涯学習は、エージェントが以前に学習した表現を忘れずに知識を段階的に蓄積する必要がある動的環境で行動する人工エージェントのための長年の目標である。
本研究では,イベントカメラが生成するデータから学習する手法を調査し,学習中に忘れを緩和する手法を比較した。
本稿では,特徴抽出と連続学習の両方からなるモデルを提案する。
さらに,忘れを緩和する習慣ベース手法を提案する。
実験の結果,異なる手法の組み合わせは,抽出モジュールが提供する特徴から漸進的に学習しながら,破滅的な忘れを回避できることがわかった。 Lifelong learning is a long-standing aim for artificial agents that act in dynamic environments, in which an agent needs to accumulate knowledge incrementally without forgetting previously learned representations. We investigate methods for learning from data produced by event cameras and compare techniques to mitigate forgetting while learning incrementally. We propose a model that is composed of both, feature extraction and continuous learning. Furthermore, we introduce a habituation-based method to mitigate forgetting. Our experimental results show that the combination of different techniques can help to avoid catastrophic forgetting while learning incrementally from the features provided by the extraction module. | 翻訳日:2021-11-21 14:30:25 公開日:2021-11-11 |
# プライバシ意識を高めるソーシャルメディアからのPII自動抽出:ディープトランスファー学習アプローチ Automated PII Extraction from Social Media for Raising Privacy Awareness: A Deep Transfer Learning Approach ( http://arxiv.org/abs/2111.09415v1 ) ライセンス: Link先を確認 | Yizhi Liu, Fang Yu Lin, Mohammadreza Ebrahimi, Weifeng Li, Hsinchun Chen | (参考訳) インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。
このような暴露されたPIIは、ユーザに対して重大な損失を生じさせ、プライバシの意識を高め、保護措置を取るようユーザに伝えることが重要である。
そのため、高度な自動技術が必要である。
情報抽出(IE)技術はPIIを自動的に抽出するために用いられるが、ディープラーニング(DL)ベースのIEモデルは機能工学の必要性を軽減し、効率をさらに向上させる。
しかし、DLベースのIEモデルでは、トレーニングには大規模なラベル付きデータを必要とすることが多いが、プライバシ上の懸念から、PIIラベルのソーシャルメディア投稿は入手が困難である。
また、これらのモデルは事前訓練された単語埋め込みに大きく依存するが、ソーシャルメディアのPIIはしばしば形式によって異なり、事前訓練された単語埋め込みには固定表現がない。
本研究では,これらの2つの制約に対処するため,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。
DTL-PIIEは、公開されているPIIデータから学んだ知識をソーシャルメディアに転送し、希少なPIIラベルデータの問題に対処する。
さらに,グラフ畳み込みネットワーク(GCN)を活用して,事前学習した単語の埋め込みに頼ることなく,PIIEをガイドする構文パターンを組み込む。
ベンチマークIEモデルに対する評価は、我々のアプローチが最先端のDLベースのIEモデルより優れていることを示している。
当社のフレームワークは,PII誤用予測やプライバシリスク評価,インターネットユーザのプライバシ保護など,さまざまなアプリケーションを容易にする。 Internet users have been exposing an increasing amount of Personally Identifiable Information (PII) on social media. Such exposed PII can cause severe losses to the users, and informing users of their PII exposure is crucial to raise their privacy awareness and encourage them to take protective measures. To this end, advanced automatic techniques are needed. While Information Extraction (IE) techniques can be used to extract the PII automatically, Deep Learning (DL)-based IE models alleviate the need for feature engineering and further improve the efficiency. However, DL-based IE models often require large-scale labeled data for training, but PII-labeled social media posts are difficult to obtain due to privacy concerns. Also, these models rely heavily on pre-trained word embeddings, while PII in social media often varies in forms and thus has no fixed representations in pre-trained word embeddings. In this study, we propose the Deep Transfer Learning for PII Extraction (DTL-PIIE) framework to address these two limitations. DTL-PIIE transfers knowledge learned from publicly available PII data to social media to address the problem of rare PII-labeled data. Moreover, our framework leverages Graph Convolutional Networks (GCNs) to incorporate syntactic patterns to guide PIIE without relying on pre-trained word embeddings. Evaluation against benchmark IE models indicates that our approach outperforms state-of-the-art DL-based IE models. Our framework can facilitate various applications, such as PII misuse prediction and privacy risk assessment, protecting the privacy of internet users. | 翻訳日:2021-11-21 14:29:07 公開日:2021-11-11 |
# (参考訳) 学習 一般化ガムベル-マックス因果機構 Learning Generalized Gumbel-max Causal Mechanisms ( http://arxiv.org/abs/2111.06888v1 ) ライセンス: CC0 1.0 | Guy Lorberbom, Daniel D. Johnson, Chris J. Maddison, Daniel Tarlow, Tamir Hazan | (参考訳) 構造因果モデル(Structure Causal Models, SCM)において, ノイズ源への条件分布の因果分解と, サンプルへのノイズの現実化を決定論的関数にマッピングする因果的メカニズムを知る必要がある。
残念なことに、因果メカニズムは、世界の観察と相互作用によって収集できるデータによって一意に識別されないため、因果メカニズムを選択する方法に疑問が残る。
最近の研究において、Oberst & Sontag (2019) はGumbel-max SCM を提案し、これはGumbel-max再パラメータ化を因果機構として用いている。
本研究は, 反実的治療効果を推定する際の分散の最小化など, 定量的基準を満たした因果機構の選定を議論する。
ガムベルマックスを一般化する因果機構のパラメタライズドファミリーを提案する。
提案手法は, 関心の問合せにおける対実効果の分散やその他の損失を最小限に抑え, 対実処理効果の分散を一定の代替品よりも低くし, 訓練時に見られない問合せに一般化できることを示す。 To perform counterfactual reasoning in Structural Causal Models (SCMs), one needs to know the causal mechanisms, which provide factorizations of conditional distributions into noise sources and deterministic functions mapping realizations of noise to samples. Unfortunately, the causal mechanism is not uniquely identified by data that can be gathered by observing and interacting with the world, so there remains the question of how to choose causal mechanisms. In recent work, Oberst & Sontag (2019) propose Gumbel-max SCMs, which use Gumbel-max reparameterizations as the causal mechanism due to an intuitively appealing counterfactual stability property. In this work, we instead argue for choosing a causal mechanism that is best under a quantitative criteria such as minimizing variance when estimating counterfactual treatment effects. We propose a parameterized family of causal mechanisms that generalize Gumbel-max. We show that they can be trained to minimize counterfactual effect variance and other losses on a distribution of queries of interest, yielding lower variance estimates of counterfactual treatment effect than fixed alternatives, also generalizing to queries not seen at training time. | 翻訳日:2021-11-19 07:53:19 公開日:2021-11-11 |
# (参考訳) aicrowd sbb flatland challenge 2019-2020の勝利ソリューション Winning Solution of the AIcrowd SBB Flatland Challenge 2019-2020 ( http://arxiv.org/abs/2111.07876v1 ) ライセンス: CC BY 4.0 | Mugurel-Ionut Andreica | (参考訳) このレポートでは、AIcrowd SBB Flatland Challenge 2019-2020で99%のスコアを獲得したソリューションの主なアイデアについて述べています。
タスクの詳細は、コンペティションのウェブサイトで確認できる。
ソリューションは2つの主要なコンポーネントで構成される。
1) 各エージェントの時間展開グラフ上のパスを(再)生成するコンポーネント
2) 誤動作後のエージェントパスを更新するコンポーネントは、誤動作前の各セルに入るのと同じエージェント順序を保とうとする。
このコンポーネントの目標は2つあります。
a)デッドロックを避ける(試みる)
b) システムを一貫した状態に戻す(各エージェントが時間拡張されたグラフ上で実行可能な経路を持つ)。
私はこれらのコンポーネントと、潜在的な有望だが未検討のアイデアの両方について、下記のように議論しています。 This report describes the main ideas of the solution which won the AIcrowd SBB Flatland Challenge 2019-2020, with a score of 99% (meaning that, on average, 99% of the agents were routed to their destinations within the allotted time steps). The details of the task can be found on the competition's website. The solution consists of 2 major components: 1) A component which (re-)generates paths over a time-expanded graph for each agent 2) A component which updates the agent paths after a malfunction occurs, in order to try to preserve the same agent ordering of entering each cell as before the malfunction. The goal of this component is twofold: a) to (try to) avoid deadlocks b) to bring the system back to a consistent state (where each agent has a feasible path over the time-expanded graph). I am discussing both of these components, as well as a series of potentially promising, but unexplored ideas, below. | 翻訳日:2021-11-19 07:29:11 公開日:2021-11-11 |
# サブ最小スパンニングツリーにおけるアグリゲーション代表による階層的クラスタリング Hierarchical clustering by aggregating representatives in sub-minimum-spanning-trees ( http://arxiv.org/abs/2111.06968v1 ) ライセンス: Link先を確認 | Wen-Bo Xie, Zhen Liu, Jaideep Srivastava | (参考訳) 階層的クラスタリングの主な課題の1つは、クラスタツリーの下位レベルにおける代表点を適切に識別する方法である。
しかしながら、従来の階層的クラスタリングアプローチでは、十分な代表性を持たない"代表的"なポイントを選択するための簡単なトリックが採用されている。
このように、構築されたクラスタツリーは、ロバスト性や信頼性の低い点で魅力的ではない。
そこで本研究では,クラスタリングデンドログラムを構築しながら,各サブ最小スパンニングツリーの相互に最も近いデータ点のスコアに基づいて,代表点を効果的に検出できる階層的クラスタリングアルゴリズムを提案する。
uciデータセットに関する広範な実験は、提案アルゴリズムが他のベンチマークよりも正確であることを示している。
一方,本解析では,提案手法はo(nlogn)時間複雑度とo(logn)空間複雑度を有し,時間とストレージ消費の少ない大規模データを扱う場合のスケーラビリティを示す。 One of the main challenges for hierarchical clustering is how to appropriately identify the representative points in the lower level of the cluster tree, which are going to be utilized as the roots in the higher level of the cluster tree for further aggregation. However, conventional hierarchical clustering approaches have adopted some simple tricks to select the "representative" points which might not be as representative as enough. Thus, the constructed cluster tree is less attractive in terms of its poor robustness and weak reliability. Aiming at this issue, we propose a novel hierarchical clustering algorithm, in which, while building the clustering dendrogram, we can effectively detect the representative point based on scoring the reciprocal nearest data points in each sub-minimum-spanning-tree. Extensive experiments on UCI datasets show that the proposed algorithm is more accurate than other benchmarks. Meanwhile, under our analysis, the proposed algorithm has O(nlogn) time-complexity and O(logn) space-complexity, indicating that it has the scalability in handling massive data with less time and storage consumptions. | 翻訳日:2021-11-16 13:23:03 公開日:2021-11-11 |
# (参考訳) 歩行者追跡予測法の検討 : ディープラーニングと知識ベースアプローチの比較 Review of Pedestrian Trajectory Prediction Methods: Comparing Deep Learning and Knowledge-based Approaches ( http://arxiv.org/abs/2111.06740v1 ) ライセンス: CC BY 4.0 | Raphael Korbmacher and Antoine Tordeux | (参考訳) 群衆のシナリオでは、歩行者の軌道を予測することは、多くの外部要因に依存する複雑で困難な作業である。
シーンのトポロジーと歩行者間のインタラクションは、それらの一部に過ぎません。
データサイエンスとデータ収集技術の進歩により、ディープラーニング手法は近年、多くの領域で研究ホットスポットとなっている。
したがって、この手法を歩行者の軌道予測に応用する研究者がますます増えていることは驚くにあたらない。
本稿では,これらの比較的新しいディープラーニングアルゴリズムと,歩行者動態のシミュレートに広く用いられている古典的知識ベースモデルを比較する。
両アプローチの包括的な文献レビューを提供し、技術的およびアプリケーション指向の違いを調査し、オープンな質問と今後の開発方向性に対処する。
本研究は, 学習アルゴリズムの精度が高いため, 局所軌道予測における知識ベースモデルの有効性が疑問視されていることを指摘する。
それにもかかわらず、大規模シミュレーションのためのディープラーニングアルゴリズムの能力と集団ダイナミクスの記述は、まだ実証されていない。
さらに,両アプローチの組み合わせ(ハイブリッドアプローチ)が,ディープラーニングアプローチの欠如といったデメリットを克服する可能性が示唆された。 In crowd scenarios, predicting trajectories of pedestrians is a complex and challenging task depending on many external factors. The topology of the scene and the interactions between the pedestrians are just some of them. Due to advancements in data-science and data collection technologies deep learning methods have recently become a research hotspot in numerous domains. Therefore, it is not surprising that more and more researchers apply these methods to predict trajectories of pedestrians. This paper compares these relatively new deep learning algorithms with classical knowledge-based models that are widely used to simulate pedestrian dynamics. It provides a comprehensive literature review of both approaches, explores technical and application oriented differences, and addresses open questions as well as future development directions. Our investigations point out that the pertinence of knowledge-based models to predict local trajectories is nowadays questionable because of the high accuracy of the deep learning algorithms. Nevertheless, the ability of deep-learning algorithms for large-scale simulation and the description of collective dynamics remains to be demonstrated. Furthermore, the comparison shows that the combination of both approaches (the hybrid approach) seems to be promising to overcome disadvantages like the missing explainability of the deep learning approach. | 翻訳日:2021-11-16 01:05:13 公開日:2021-11-11 |
# (参考訳) 線虫Embryonic Caenorhabditis elegansの姿勢同定のための多重仮説ハイパーグラフ追跡 Multiple Hypothesis Hypergraph Tracking for Posture Identification in Embryonic Caenorhabditis elegans ( http://arxiv.org/abs/2111.06425v1 ) ライセンス: CC BY 4.0 | Andrew Lauziere, Evan Ardiel, Stephen Xu, Hari Shroff | (参考訳) マルチオブジェクトトラッキング(MOT)の現在の手法は、大量のオブジェクトを効果的に追跡するために予測可能な動作を行う独立したオブジェクトトラジェクトリに依存している。
揮発性物体の動きや不完全な検出などの逆条件は、確立された手法が不十分な結果をもたらすという困難な追跡環境を生み出す。
多仮説ハイパーグラフ追跡(MHHT)はノイズ検出中、相互依存オブジェクト間でMOTを実行するために開発された。
この手法は、ハイパーグラフを通じて従来の多重仮説追跡(MHT)を拡張し、相関した物体の動きをモデル化し、挑戦的なシナリオにおいて堅牢な追跡を可能にする。
線虫C. elegansの後期胚発生過程における海藻細胞追跡にMHHTを適用した。 Current methods in multiple object tracking (MOT) rely on independent object trajectories undergoing predictable motion to effectively track large numbers of objects. Adversarial conditions such as volatile object motion and imperfect detections create a challenging tracking landscape in which established methods may yield inadequate results. Multiple hypothesis hypergraph tracking (MHHT) is developed to perform MOT among interdependent objects amid noisy detections. The method extends traditional multiple hypothesis tracking (MHT) via hypergraphs to model correlated object motion, allowing for robust tracking in challenging scenarios. MHHT is applied to perform seam cell tracking during late-stage embryogenesis in embryonic C. elegans. | 翻訳日:2021-11-16 00:16:49 公開日:2021-11-11 |
# (参考訳) ソーシャルメディアにおける信頼関係決定のための個人化多面信頼モデルとその誤情報管理の可能性 Personalized multi-faceted trust modeling to determine trust links in social media and its potential for misinformation management ( http://arxiv.org/abs/2111.06440v1 ) ライセンス: CC BY 4.0 | Alexandre Parmentier, Robin Cohen, Xueguang Ma, Gaurav Sahu and Queenie Chen | (参考訳) 本稿では,多エージェント信頼モデリングの人工知能分野を基盤とした,ソーシャルメディアにおける仲間間の信頼関係の予測手法を提案する。
特に,様々な特徴を包括的分析に取り入れた,データ駆動型多面信頼モデリングを提案する。
私たちは、類似ユーザによるクラスタリングが、よりパーソナライズされ、より正確なユーザ予測をサポートする、重要な新機能を実現する方法を示すことに重点を置いています。
信頼を意識した項目レコメンデーションタスクで示すことで,yelpの大規模データセットのコンテキストで提案フレームワークを評価する。
次に,ソーシャルメディアにおける信頼関係の検出の改善が,最近人気が高まっているソーシャルネットワーク環境において,誤情報や噂の拡散との戦いにおけるオンラインユーザ支援にどのように役立つかについて議論する。
我々は、特に脆弱な高齢者のユーザーベースを考察し、データ分析を通じて得られた知見と既知の嗜好を統合するための今後の方向性を探るため、ユーザーグループに対する推論の価値を説明している。 In this paper, we present an approach for predicting trust links between peers in social media, one that is grounded in the artificial intelligence area of multiagent trust modeling. In particular, we propose a data-driven multi-faceted trust modeling which incorporates many distinct features for a comprehensive analysis. We focus on demonstrating how clustering of similar users enables a critical new functionality: supporting more personalized, and thus more accurate predictions for users. Illustrated in a trust-aware item recommendation task, we evaluate the proposed framework in the context of a large Yelp dataset. We then discuss how improving the detection of trusted relationships in social media can assist in supporting online users in their battle against the spread of misinformation and rumours, within a social networking environment which has recently exploded in popularity. We conclude with a reflection on a particularly vulnerable user base, older adults, in order to illustrate the value of reasoning about groups of users, looking to some future directions for integrating known preferences with insights gained through data analysis. | 翻訳日:2021-11-15 23:55:45 公開日:2021-11-11 |
# (参考訳) SynthBio:テキストデータセットの人間-AI協調的キュレーションの事例研究 SynthBio: A Case Study in Human-AI Collaborative Curation of Text Datasets ( http://arxiv.org/abs/2111.06467v1 ) ライセンス: CC BY 4.0 | Ann Yuan, Daphne Ippolito, Vitaly Nikolaev, Chris Callison-Burch, Andy Coenen, Sebastian Gehrmann | (参考訳) nlp研究者はより高品質なテキストデータセットを必要としている。
人ラベル付きデータセットは収集に費用がかかるが、WikiBioのようなWebからの自動検索によって収集されたデータセットは騒々しく、望ましくないバイアスを含むことができる。
さらに、Webからソースされたデータは、しばしばモデルの事前トレーニングに使われるデータセットに含まれ、トレーニングとテストセットの不注意なクロス汚染につながる。
本研究では,大規模な言語モデルを用いて,人間のレーダにシード世代を提供することにより,文章作成タスクから編集タスクへのデータセットオーサリングを変化させる,効率的なデータセットキュレーション手法を提案する。
本手法は,自然言語にマッピングされた架空の人物を記述する構造化属性リストのwikibiocomposedのための新しい評価セットであるsynthbioをキュレートする。
われわれの架空の伝記のデータセットはWikiBioよりも騒々しくなく、性別や国籍に関してはバランスがとれている。 NLP researchers need more, higher-quality text datasets. Human-labeled datasets are expensive to collect, while datasets collected via automatic retrieval from the web such as WikiBio are noisy and can include undesired biases. Moreover, data sourced from the web is often included in datasets used to pretrain models, leading to inadvertent cross-contamination of training and test sets. In this work we introduce a novel method for efficient dataset curation: we use a large language model to provide seed generations to human raters, thereby changing dataset authoring from a writing task to an editing task. We use our method to curate SynthBio - a new evaluation set for WikiBio - composed of structured attribute lists describing fictional individuals, mapped to natural language biographies. We show that our dataset of fictional biographies is less noisy than WikiBio, and also more balanced with respect to gender and nationality. | 翻訳日:2021-11-15 23:20:46 公開日:2021-11-11 |
# (参考訳) AnswerSumm: 回答要約のための手動計算データセットとパイプライン AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization ( http://arxiv.org/abs/2111.06474v1 ) ライセンス: CC BY 4.0 | Alexander R. Fabbri, Xiaojian Wu, Srini Iyer, Haoran Li, Mona Diab | (参考訳) Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
各質問スレッドは、異なる視点で多数の回答を受け取ることができる。
回答要約の1つの目標は、回答の観点の範囲を反映した要約を作ることである。
抽象的回答要約の主要な障害は、このような要約を生成するための監督を提供するデータセットがないことである。
最近の研究は、そのようなデータを作成するためのヒューリスティックスを提案するが、それらはしばしば騒がしく、回答に存在するすべての視点をカバーするものではない。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
パイプラインは,回答の要約に関わるすべてのサブタスクに対してアノテーションを収集し,質問に関連する回答文の選択,視点に基づいてこれらの文をグループ化し,各視点を要約し,全体的な要約を生成する。
これらのサブタスクにおける最先端モデルの解析とベンチマークを行い,マルチパースペクティブデータ拡張のための新しい教師なしアプローチを導入し,自動評価により総和性能をさらに向上させる。
最後に,事実整合性と回答カバレッジを改善し,改善のための領域を分析するための強化学習報酬を提案する。 Community Question Answering (CQA) fora such as Stack Overflow and Yahoo! Answers contain a rich resource of answers to a wide range of community-based questions. Each question thread can receive a large number of answers with different perspectives. One goal of answer summarization is to produce a summary that reflects the range of answer perspectives. A major obstacle for abstractive answer summarization is the absence of a dataset to provide supervision for producing such summaries. Recent works propose heuristics to create such data, but these are often noisy and do not cover all perspectives present in the answers. This work introduces a novel dataset of 4,631 CQA threads for answer summarization, curated by professional linguists. Our pipeline gathers annotations for all subtasks involved in answer summarization, including the selection of answer sentences relevant to the question, grouping these sentences based on perspectives, summarizing each perspective, and producing an overall summary. We analyze and benchmark state-of-the-art models on these subtasks and introduce a novel unsupervised approach for multi-perspective data augmentation, that further boosts overall summarization performance according to automatic evaluation. Finally, we propose reinforcement learning rewards to improve factual consistency and answer coverage and analyze areas for improvement. | 翻訳日:2021-11-15 22:47:59 公開日:2021-11-11 |
# (参考訳) 有限スペクトル/テンポラル支援信号に対する特異双スペクトルインバージョン Unique Bispectrum Inversion for Signals with Finite Spectral/Temporal Support ( http://arxiv.org/abs/2111.06479v1 ) ライセンス: CC BY 4.0 | Samuel Pinilla, Kumar Vijay Mishra, Brian M. Sadler | (参考訳) 3次統計や双スペクトルのフーリエ変換から信号を取得することは、幅広い信号処理問題において生じる。
従来の方法は双スペクトルのユニークな反転を提供しない。
本稿では,信号の帯域幅が$B$であるバイスペクトル関数(BF)の少なくとも$3B$の測定から,有限スペクトルサポート(帯域制限信号)を持つ信号を一意に復元する手法を提案する。
我々のアプローチは時間制限信号にも拡張する。
非凸目的関数を最小化する2段階信頼領域アルゴリズムを提案する。
まず,スペクトルアルゴリズムにより信号の近似を行う。
次に, グラデーション反復の系列に基づいて, 到達した初期化を洗練する。
数値実験により,提案アルゴリズムはBFの帯域/時間制限信号から,完全かつアンサンプされた観測を推定できることが示唆された。 Retrieving a signal from the Fourier transform of its third-order statistics or bispectrum arises in a wide range of signal processing problems. Conventional methods do not provide a unique inversion of bispectrum. In this paper, we present a an approach that uniquely recovers signals with finite spectral support (band-limited signals) from at least $3B$ measurements of its bispectrum function (BF), where $B$ is the signal's bandwidth. Our approach also extends to time-limited signals. We propose a two-step trust region algorithm that minimizes a non-convex objective function. First, we approximate the signal by a spectral algorithm. Then, we refine the attained initialization based upon a sequence of gradient iterations. Numerical experiments suggest that our proposed algorithm is able to estimate band/time-limited signals from its BF for both complete and undersampled observations. | 翻訳日:2021-11-15 22:31:48 公開日:2021-11-11 |
# (参考訳) シーケンシャルアグリゲーションと再構成:大規模グラフ上のグラフニューラルネットワークの分散フルバッチトレーニング Sequential Aggregation and Rematerialization: Distributed Full-batch Training of Graph Neural Networks on Large Graphs ( http://arxiv.org/abs/2111.06483v1 ) ライセンス: CC BY 4.0 | Hesham Mostafa | (参考訳) 大規模グラフ上でのグラフニューラルネットワーク(GNN)の分散フルバッチ学習のための逐次アグリゲーション・リマテリアル化(SAR)方式を提案する。
GNNの大規模トレーニングは、最近、非学習可能なメッセージパッシングに基づくサンプリングベースの方法と方法に支配されている。
一方、SARは、すべてのGNNタイプを大きなグラフ上で直接トレーニングできる分散技術である。
SARの鍵となる革新は分散逐次再機械化方式であり、これは後方通過の間、不当に大きなGNN計算グラフの一部を順次再構成し解放する。
これにより、高密度に連結されたグラフであっても、ワーカ当たりのメモリ消費がワーカ数に線形に低下する、優れたメモリスケーリング挙動が実現される。
SARを用いて、GNNトレーニングをこれまでで最大の応用例を報告し、作業者の数が増えるにつれて、大きなメモリ節約を実証する。
また,カーネル融合とアテンション行列再構成に基づく汎用手法を提案し,アテンションベースモデルの実行時間とメモリ効率を最適化する。
SARと組み合わせて、最適化されたアテンションカーネルは、アテンションベースのGNNにおいて、大幅なスピードアップとメモリ節約につながることを示す。 We present the Sequential Aggregation and Rematerialization (SAR) scheme for distributed full-batch training of Graph Neural Networks (GNNs) on large graphs. Large-scale training of GNNs has recently been dominated by sampling-based methods and methods based on non-learnable message passing. SAR on the other hand is a distributed technique that can train any GNN type directly on an entire large graph. The key innovation in SAR is the distributed sequential rematerialization scheme which sequentially re-constructs then frees pieces of the prohibitively large GNN computational graph during the backward pass. This results in excellent memory scaling behavior where the memory consumption per worker goes down linearly with the number of workers, even for densely connected graphs. Using SAR, we report the largest applications of full-batch GNN training to-date, and demonstrate large memory savings as the number of workers increases. We also present a general technique based on kernel fusion and attention-matrix rematerialization to optimize both the runtime and memory efficiency of attention-based models. We show that, coupled with SAR, our optimized attention kernels lead to significant speedups and memory savings in attention-based GNNs. | 翻訳日:2021-11-15 22:18:37 公開日:2021-11-11 |
# 事前取得T1w MRIに対する情報補完の最適サンプリングによる高速T2w/FLAIRMRI取得 Fast T2w/FLAIR MRI Acquisition by Optimal Sampling of Information Complementary to Pre-acquired T1w MRI ( http://arxiv.org/abs/2111.06400v1 ) ライセンス: Link先を確認 | Junwei Yang, Xiao-Xin Li, Feihong Liu, Dong Nie, Pietro Lio, Haikun Qi, Dinggang Shen | (参考訳) その他のモダリティのアンダーサンプル画像に対するT1支援MRI再構成の最近の研究は、他のモダリティのMRI獲得をさらに加速させる可能性を示している。
最先端のアプローチの多くは、モダリティ間の補完的な情報を完全に活用することなく、固定アンダーサンプリングパターンのためのネットワークアーキテクチャの開発を通じて改善されている。
既存のアンダーサンプリングパターン学習アルゴリズムは、完全にサンプリングされたt1重み付きmr画像がパターン学習を補助するために単純に修正できるが、復元作業の大幅な改善は得られない。
そこで本研究では,MRI画像のアンダーサンプリングパターンを最適化する反復的枠組みを提案し,T1支援MRI再構成モデルを共同で最適化しながら,フルサンプリングされたT1強調MRI画像を異なるアンダーサンプリング要因で補完する。
具体的には,MRI再建におけるT1強調MRI画像の補助力を最大化できるサンプリングパターンを決定するために,2つのモード間の潜時情報の差を利用した。
一般に使われているアンダーサンプリングパターンや最先端の手法と比較して,公開データセット上で学習したアンダーサンプリングパターンの優れた性能を示し,リコンストラクションネットワークとアンダーサンプリングパターンを最大8倍のアンダーサンプリング係数で協調的に最適化することができる。 Recent studies on T1-assisted MRI reconstruction for under-sampled images of other modalities have demonstrated the potential of further accelerating MRI acquisition of other modalities. Most of the state-of-the-art approaches have achieved improvement through the development of network architectures for fixed under-sampling patterns, without fully exploiting the complementary information between modalities. Although existing under-sampling pattern learning algorithms can be simply modified to allow the fully-sampled T1-weighted MR image to assist the pattern learning, no significant improvement on the reconstruction task can be achieved. To this end, we propose an iterative framework to optimize the under-sampling pattern for MRI acquisition of another modality that can complement the fully-sampled T1-weighted MR image at different under-sampling factors, while jointly optimizing the T1-assisted MRI reconstruction model. Specifically, our proposed method exploits the difference of latent information between the two modalities for determining the sampling patterns that can maximize the assistance power of T1-weighted MR image in improving the MRI reconstruction. We have demonstrated superior performance of our learned under-sampling patterns on a public dataset, compared to commonly used under-sampling patterns and state-of-the-art methods that can jointly optimize both the reconstruction network and the under-sampling pattern, up to 8-fold under-sampling factor. | 翻訳日:2021-11-15 14:55:54 公開日:2021-11-11 |
# MultiSV:遠距離マルチチャネル話者検証のためのデータセット MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification ( http://arxiv.org/abs/2111.06458v1 ) ライセンス: Link先を確認 | Ladislav Mo\v{s}ner, Old\v{r}ich Plchot, Luk\'a\v{s} Burget, Jan \v{C}ernock\'y | (参考訳) 統合されていないデータ状況と標準ベンチマークの欠如に動機付けられ,本研究を補完し,テキスト非依存型マルチチャネル話者検証システムの訓練と評価を目的とした包括的コーパスを提案する。
また、難聴、難聴、音声強調などの実験にも容易に利用できる。
voxcelebデータセットのクリーンな部分上にデータシミュレーションを活用し,マルチチャネルトレーニングデータの欠如という現在に至るまでの課題に取り組んだ。
開発・評価試験は,複合環境設定 (voices) コーパスに隠された再送信音声に基づいて行う。
我々は、公開ソースからデータセットを生成する完全なレシピをマルチsvコーパスとして公開し、理想のバイナリマスクやより最近のconv-tasnetの予測に基づいて、ニューラルネットワークベースのビームフォーミングを備えた2つのマルチチャネル話者検証システムで結果を提供する。 Motivated by unconsolidated data situation and the lack of a standard benchmark in the field, we complement our previous efforts and present a comprehensive corpus designed for training and evaluating text-independent multi-channel speaker verification systems. It can be readily used also for experiments with dereverberation, denoising, and speech enhancement. We tackled the ever-present problem of the lack of multi-channel training data by utilizing data simulation on top of clean parts of the Voxceleb dataset. The development and evaluation trials are based on a retransmitted Voices Obscured in Complex Environmental Settings (VOiCES) corpus, which we modified to provide multi-channel trials. We publish full recipes that create the dataset from public sources as the MultiSV corpus, and we provide results with two of our multi-channel speaker verification systems with neural network-based beamforming based either on predicting ideal binary masks or the more recent Conv-TasNet. | 翻訳日:2021-11-15 14:55:32 公開日:2021-11-11 |
# クラウドコンピューティングと機械学習プラットフォームにおける分子動力学シミュレーション Molecular Dynamics Simulations on Cloud Computing and Machine Learning Platforms ( http://arxiv.org/abs/2111.06466v1 ) ライセンス: Link先を確認 | Prateek Sharma and Vikram Jadhao | (参考訳) 科学計算アプリケーションはスーパーコンピュータのような高性能コンピューティング基盤から大きな恩恵を受けてきた。
しかし、これらのアプリケーションの計算構造、設計、要求のパラダイムシフトが見られます。
ますます、データ駆動および機械学習のアプローチは、科学計算アプリケーション、特に分子動力学シミュレーションのサポート、スピードアップ、強化に使われている。
クラウドコンピューティングプラットフォームは、科学的コンピューティングにますますアピールし、"無限の"コンピューティング能力、プログラミングとデプロイメントの容易なモデル、TPU(Tensor Processing Units)のようなコンピューティングアクセラレータへのアクセスを提供する。
この機械学習(ML)とクラウドコンピューティングの合流は、クラウドとシステム研究者にとってエキサイティングな機会である。
ML支援分子動力学シミュレーションは新しい種類のワークロードであり、ユニークな計算パターンを示す。
これらのシミュレーションは、低コストで高性能な実行に新たな課題をもたらす。
私たちは、低コストでプリエンプティブルなクラウドVMのような一時的なクラウドリソースが、この新しいワークロードにとって実行可能なプラットフォームになり得ると論じています。
最後に、クラウドリソース管理における低変動の成果と長期的課題、および分子動力学シミュレーションをMLプラットフォーム(TensorFlowなど)に統合することを紹介する。 Scientific computing applications have benefited greatly from high performance computing infrastructure such as supercomputers. However, we are seeing a paradigm shift in the computational structure, design, and requirements of these applications. Increasingly, data-driven and machine learning approaches are being used to support, speed-up, and enhance scientific computing applications, especially molecular dynamics simulations. Concurrently, cloud computing platforms are increasingly appealing for scientific computing, providing "infinite" computing powers, easier programming and deployment models, and access to computing accelerators such as TPUs (Tensor Processing Units). This confluence of machine learning (ML) and cloud computing represents exciting opportunities for cloud and systems researchers. ML-assisted molecular dynamics simulations are a new class of workload, and exhibit unique computational patterns. These simulations present new challenges for low-cost and high-performance execution. We argue that transient cloud resources, such as low-cost preemptible cloud VMs, can be a viable platform for this new workload. Finally, we present some low-hanging fruits and long-term challenges in cloud resource management, and the integration of molecular dynamics simulations into ML platforms (such as TensorFlow). | 翻訳日:2021-11-15 14:54:17 公開日:2021-11-11 |
# ハードウェア効率の深いディープラーニングのためのシリコンフォトニックサブスペースニューラルチップ Silicon photonic subspace neural chip for hardware-efficient deep learning ( http://arxiv.org/abs/2111.06705v1 ) ライセンス: Link先を確認 | Chenghao Feng, Jiaqi Gu, Hanqing Zhu, Zhoufeng Ying, Zheng Zhao, David Z. Pan and Ray T. Chen | (参考訳) ディープラーニングは多くの人工知能アプリケーションで革命的なパフォーマンスを示しているため、計算要求のエスカレートには、大量の並列処理とスループット向上のためのハードウェアアクセラレータが必要である。
光ニューラルネットワーク(onn)は、高並列性、低レイテンシ、低エネルギー消費のため、次世代ニューロコンピューティングの有望な候補である。
本稿では,従来のonnアーキテクチャに比べて光学部品使用率,面積コスト,エネルギー消費量の低減を目標とした,ハードウェア効率の高いフォトニックサブスペースニューラルネットワーク(psnn)アーキテクチャを考案する。
さらに、必要なデバイスプログラミング精度を最小化し、チップ面積を小さくし、ノイズ堅牢性を高めるため、ハードウェア対応のトレーニングフレームワークが提供される。
我々は,バタフライ型プログラマブルシリコンフォトニック集積回路を用いたPSNN実験を行い,その実用的画像認識における有用性を示した。 As deep learning has shown revolutionary performance in many artificial intelligence applications, its escalating computation demand requires hardware accelerators for massive parallelism and improved throughput. The optical neural network (ONN) is a promising candidate for next-generation neurocomputing due to its high parallelism, low latency, and low energy consumption. Here, we devise a hardware-efficient photonic subspace neural network (PSNN) architecture, which targets lower optical component usage, area cost, and energy consumption than previous ONN architectures with comparable task performance. Additionally, a hardware-aware training framework is provided to minimize the required device programming precision, lessen the chip area, and boost the noise robustness. We experimentally demonstrate our PSNN on a butterfly-style programmable silicon photonic integrated circuit and show its utility in practical image recognition tasks. | 翻訳日:2021-11-15 14:51:55 公開日:2021-11-11 |
# テキスト・テキスト変換器を用いたトルコ語テキストからの質問自動生成と質問応答 Automated question generation and question answering from Turkish texts using text-to-text transformers ( http://arxiv.org/abs/2111.06476v1 ) ライセンス: Link先を確認 | Fatih Cagatay Akyon, Devrim Cavusoglu, Cemil Cengiz, Sinan Onur Altinuc, Alptekin Temizel | (参考訳) 試験スタイルの質問は、様々な目的に役立ち、基本的な教育ツールであるが、質問の手動構築は、訓練、経験、リソースを必要とする複雑なプロセスである。
質問のマニュアル作成に伴うコストを削減し、新たな質問の継続的な供給の必要性を満たすために、自動質問生成(QG)技術を利用することができる。
しかしながら、自動質問応答(QA)と比較して、QGはより難しい課題である。
本研究では、トルコのQAデータセットを用いて、QA、QG、回答抽出タスクのためのマルチタスク設定でマルチ言語T5(mT5)変換器を微調整する。
我々の知る限りでは、トルコ語テキストからテキストからテキストへの質問の自動生成を試みている最初の学術研究である。
評価の結果,提案手法により,TQuADv1,TQuADv2データセット,XQuADトルコ分割に対する質問応答と質問生成性能が得られた。
ソースコードと事前学習されたモデルはhttps://github.com/obss/turkish-question-generationで入手できる。 While exam-style questions are a fundamental educational tool serving a variety of purposes, manual construction of questions is a complex process that requires training, experience and resources. To reduce the expenses associated with the manual construction of questions and to satisfy the need for a continuous supply of new questions, automatic question generation (QG) techniques can be utilized. However, compared to automatic question answering (QA), QG is a more challenging task. In this work, we fine-tune a multilingual T5 (mT5) transformer in a multi-task setting for QA, QG and answer extraction tasks using a Turkish QA dataset. To the best of our knowledge, this is the first academic work that attempts to perform automated text-to-text question generation from Turkish texts. Evaluation results show that the proposed multi-task setting achieves state-of-the-art Turkish question answering and question generation performance over TQuADv1, TQuADv2 datasets and XQuAD Turkish split. The source code and pre-trained models are available at https://github.com/obss/turkish-question-generation. | 翻訳日:2021-11-15 14:20:20 公開日:2021-11-11 |
# Fair AutoML Fair AutoML ( http://arxiv.org/abs/2111.06495v1 ) ライセンス: Link先を確認 | Qingyun Wu, Chi Wang | (参考訳) 我々は、予測精度だけでなく、公正な機械学習モデルを見つけるために、エンドツーエンドの自動機械学習システムを提案する。
このシステムは以下の理由から望ましい。
1)従来のAutoMLシステムと比較すると,このシステムは公平性評価と不公平性軽減を有機的に取り入れており,機械学習モデルの公平性を定量化し,必要に応じて不公平性を緩和することができる。
2)システムは,必要フェアネス制約を満たすモデルの精度など,いつでも良い「フェア」性能を持つように設計されている。
これを実現するために、予測精度、公平性、及びフライ時の資源消費に応じて、モデルが不公平を緩和する時期及び時期を動的に決定する戦略を含む。
3) システムの使用は柔軟である。
既存の公平度指標や不公平さ緩和手法のほとんどと併用することができる。 We present an end-to-end automated machine learning system to find machine learning models not only with good prediction accuracy but also fair. The system is desirable for the following reasons. (1) Comparing to traditional AutoML systems, this system incorporates fairness assessment and unfairness mitigation organically, which makes it possible to quantify fairness of the machine learning models tried and mitigate their unfairness when necessary. (2) The system is designed to have a good anytime `fair' performance, such as accuracy of a model satisfying necessary fairness constraints. To achieve it, the system includes a strategy to dynamically decide when and on which models to conduct unfairness mitigation according to the prediction accuracy, fairness and the resource consumption on the fly. (3) The system is flexible to use. It can be used together with most of the existing fairness metrics and unfairness mitigation methods. | 翻訳日:2021-11-15 14:20:00 公開日:2021-11-11 |
# 拒絶の科学:人間の計算研究分野 The Science of Rejection: A Research Area for Human Computation ( http://arxiv.org/abs/2111.06736v1 ) ライセンス: Link先を確認 | Burcu Sayin, Jie Yang, Andrea Passerini, Fabio Casati | (参考訳) モデル予測を拒絶する学習科学がMLの中心である理由と、この取り組みにおいて人間の計算が中心的な役割を果たす理由を動機付けている。 We motivate why the science of learning to reject model predictions is central to ML, and why human computation has a lead role in this effort. | 翻訳日:2021-11-15 14:18:44 公開日:2021-11-11 |
# DPLL(MAPF):マルチエージェントパス探索とSATソルビング技術の統合 DPLL(MAPF): an Integration of Multi-Agent Path Finding and SAT Solving Technologies ( http://arxiv.org/abs/2111.06494v1 ) ライセンス: Link先を確認 | Martin \v{C}apek and Pavel Surynek | (参考訳) マルチエージェントパス探索(MAPF)において、タスクは、初期位置から与えられた個々のゴール位置への複数のエージェントの非競合パスを見つけることである。
MAPFは、しばしばヒューリスティック検索によって対処される古典的な人工知能問題である。
検索ベースの手法の重要な代替手段として、MAPFをBoolean satisfiability (SAT)のような異なる形式にコンパイルすることがある。
MAPFに対する現代のSATベースのアプローチは、SATソルバを、入力MAPFのブールモデルのすべての決定変数の代入を返すタスクを持つ外部ツールとみなしている。
本稿では、MAPFルールに対する決定変数の部分的割り当ての整合性チェックをSATソルバに直接組み込む、DPLL(MAPF)と呼ばれる新しいコンパイル方式を提案する。
このスキームは、satソルバと一貫性チェックプロシージャが同時に動作してbooleanモデルを作成し、満足のいく代入を検索する、はるかに自動化されたコンパイルを可能にする。 In multi-agent path finding (MAPF), the task is to find non-conflicting paths for multiple agents from their initial positions to given individual goal positions. MAPF represents a classical artificial intelligence problem often addressed by heuristic-search. An important alternative to search-based techniques is compilation of MAPF to a different formalism such as Boolean satisfiability (SAT). Contemporary SAT-based approaches to MAPF regard the SAT solver as an external tool whose task is to return an assignment of all decision variables of a Boolean model of input MAPF. We present in this short paper a novel compilation scheme called DPLL(MAPF) in which the consistency checking of partial assignments of decision variables with respect to the MAPF rules is integrated directly into the SAT solver. This scheme allows for far more automated compilation where the SAT solver and the consistency checking procedure work together simultaneously to create the Boolean model and to search for its satisfying assignment. | 翻訳日:2021-11-15 14:17:27 公開日:2021-11-11 |
# 脳MRIにおける剛体運動アーチファクトのロバスト補正に向けた自己支援型U-Net Stacked U-Nets with Self-Assisted Priors Towards Robust Correction of Rigid Motion Artifact in Brain MRI ( http://arxiv.org/abs/2111.06401v1 ) ライセンス: Link先を確認 | Mohammed A. Al-masni, Seul Lee, Jaeuk Yi, Sewook Kim, Sung-Min Gho, Young Hun Choi, and Dong-Hyun Kim | (参考訳) 本稿では,MRIにおける剛性動作アーティファクトの問題に対処するために,自己支援型事前学習を用いた階層型U-Netと呼ばれる効率的な振り返り深層学習手法を開発する。
提案手法では,コントラストデータの追加を必要とせず,劣化画像自体から事前知識を付加的に活用する。
提案するネットワークは、同一の歪んだ対象の連続スライスから補助情報を共有することによって、構造的詳細を欠くことを学習する。
さらに,画像の空間的詳細の保存を容易にし,画素間依存性を改善した改良スタック型u-netの設計を行った。
ネットワークトレーニングを行うには,MRI動画像のシミュレーションは避けられない。
提案する自己支援画像と,同じ被験者の他の画像コントラストからの先行画像とを用いた集中分析を行った。
実験分析は,さらなるデータスキャンを必要とせず,自己支援型プライオリティの有効性と実現可能性を示す。 In this paper, we develop an efficient retrospective deep learning method called stacked U-Nets with self-assisted priors to address the problem of rigid motion artifacts in MRI. The proposed work exploits the usage of additional knowledge priors from the corrupted images themselves without the need for additional contrast data. The proposed network learns missed structural details through sharing auxiliary information from the contiguous slices of the same distorted subject. We further design a refinement stacked U-Nets that facilitates preserving of the image spatial details and hence improves the pixel-to-pixel dependency. To perform network training, simulation of MRI motion artifacts is inevitable. We present an intensive analysis using various types of image priors: the proposed self-assisted priors and priors from other image contrast of the same subject. The experimental analysis proves the effectiveness and feasibility of our self-assisted priors since it does not require any further data scans. | 翻訳日:2021-11-15 14:15:53 公開日:2021-11-11 |
# オンライン対応型非共振異常検出 Online-compatible Unsupervised Non-resonant Anomaly Detection ( http://arxiv.org/abs/2111.06417v1 ) ライセンス: Link先を確認 | Vinicius Mikuni, Benjamin Nachman, David Shih | (参考訳) モデルに依存しない方法で新しい粒子の探索を拡大できる異常検出手法の必要性が高まっている。
新しい手法のほとんどの提案は信号感度にのみ焦点をあてている。
しかし、異常なイベントを選択するだけでは十分ではなく、選択したイベントにコンテキストを提供する戦略も必要である。
信号感度と背景推定のためのデータ駆動手法の両方を含む非共鳴異常の教師なし検出のための最初の完全戦略を提案する。
本手法は,互いに非相関な2つのオートエンコーダを同時に構築する。
この方法は非共鳴異常検出のためにオフラインでデプロイすることができ、オンライン互換異常検出戦略としては初めてのものである。
ADC2021データチャレンジに備えた様々な信号に対して,本手法が優れた性能を発揮することを示す。 There is a growing need for anomaly detection methods that can broaden the search for new particles in a model-agnostic manner. Most proposals for new methods focus exclusively on signal sensitivity. However, it is not enough to select anomalous events - there must also be a strategy to provide context to the selected events. We propose the first complete strategy for unsupervised detection of non-resonant anomalies that includes both signal sensitivity and a data-driven method for background estimation. Our technique is built out of two simultaneously-trained autoencoders that are forced to be decorrelated from each other. This method can be deployed offline for non-resonant anomaly detection and is also the first complete online-compatible anomaly detection strategy. We show that our method achieves excellent performance on a variety of signals prepared for the ADC2021 data challenge. | 翻訳日:2021-11-15 14:13:59 公開日:2021-11-11 |
# アナログPIMのための高量子化DNNの可変学習と自己調整 Variability-Aware Training and Self-Tuning of Highly Quantized DNNs for Analog PIM ( http://arxiv.org/abs/2111.06457v1 ) ライセンス: Link先を確認 | Zihao Deng and Michael Orshansky | (参考訳) メモリ内のアナログ処理(PIM)アーキテクチャにデプロイされるDNNは、製造時間変動の影響を受ける。
提案手法は,高量子化アナログpcmモデルに対して,従来よりも有意な有効性を持つdnn学習アルゴリズムを開発した。
複数のコンピュータビジョンデータセット/モデル上で、可変性と学習後の量子化モデルよりも優れています。
低ビット幅モデルと高変動モデルでは、ResNet-18の精度は35.7%まで向上する。
可変性のチップ内コンポーネントとチップ間コンポーネントの現実的なパターンの下では、トレーニングだけでは大きなdnn精度の損失(cifar-100/resnet-18では最大54%)を防ぐことができないことを実証する。
本稿では,推論中のレイヤワイズアクティベーションを動的に調整し,精度の低下を10%以下に抑える自己調整型DNNアーキテクチャを提案する。 DNNs deployed on analog processing in memory (PIM) architectures are subject to fabrication-time variability. We developed a new joint variability- and quantization-aware DNN training algorithm for highly quantized analog PIM-based models that is significantly more effective than prior work. It outperforms variability-oblivious and post-training quantized models on multiple computer vision datasets/models. For low-bitwidth models and high variation, the gain in accuracy is up to 35.7% for ResNet-18 over the best alternative. We demonstrate that, under a realistic pattern of within- and between-chip components of variability, training alone is unable to prevent large DNN accuracy loss (of up to 54% on CIFAR-100/ResNet-18). We introduce a self-tuning DNN architecture that dynamically adjusts layer-wise activations during inference and is effective in reducing accuracy loss to below 10%. | 翻訳日:2021-11-15 14:13:48 公開日:2021-11-11 |
# 効率的な3次元ハンドポース推定のための動的反復リファインメント Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation ( http://arxiv.org/abs/2111.06500v1 ) ライセンス: Link先を確認 | John Yang, Yash Bhalgat, Simyung Chang, Fatih Porikli, Nojun Kwak | (参考訳) ハンドポーズ推定は、ほとんどのインタラクティブな拡張現実とジェスチャー認識システムにおいて重要な要素であるが、現代のアプローチは計算とメモリ効率に最適化されていない。
本稿では,部分的層を再帰的に活用し,過去の推定を精査する,小さな深層ニューラルネットワークを提案する。
反復的な改良では、学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを決定し、モデルにサンプルごとの適応を可能にする。
我々のネットワークは、現在の予測の不確実性を認識して、各繰り返しを効率的にゲートし、各ループの後にキーポイント推定のばらつきを推定するように訓練されている。
さらに,モデル容量を最大化するための再帰的構造に対するエンドツーエンドおよびプログレッシブトレーニングプロトコルの有効性について検討した。
提案手法は, 広く使用されているベンチマークの精度と効率の両面で, 最先端の2d/3dハンドポーズ推定手法を一貫して上回っている。 While hand pose estimation is a critical component of most interactive extended reality and gesture recognition systems, contemporary approaches are not optimized for computational and memory efficiency. In this paper, we propose a tiny deep neural network of which partial layers are recursively exploited for refining its previous estimations. During its iterative refinements, we employ learned gating criteria to decide whether to exit from the weight-sharing loop, allowing per-sample adaptation in our model. Our network is trained to be aware of the uncertainty in its current predictions to efficiently gate at each iteration, estimating variances after each loop for its keypoint estimates. Additionally, we investigate the effectiveness of end-to-end and progressive training protocols for our recursive structure on maximizing the model capacity. With the proposed setting, our method consistently outperforms state-of-the-art 2D/3D hand pose estimation approaches in terms of both accuracy and efficiency for widely used benchmarks. | 翻訳日:2021-11-15 13:44:22 公開日:2021-11-11 |
# 説明可能なAI(XAI):現在の課題と今後の可能性の体系的なメタサーベイ Explainable AI (XAI): A Systematic Meta-Survey of Current Challenges and Future Opportunities ( http://arxiv.org/abs/2111.06420v1 ) ライセンス: Link先を確認 | Waddah Saeed, Christian Omlin | (参考訳) 過去10年間、人工知能(ai)は大幅に進歩し、様々な問題を解決するためにアルゴリズムが採用された。
しかしながら、この成功は、モデルの複雑さの増加と、透明性に欠けるブラックボックスAIモデルの採用によって達成されている。
このニーズに応えて、説明可能なAI(XAI)が提案され、AIをより透明性を高め、クリティカルドメインにおけるAIの採用を促進する。
XAIの課題と今後の研究方向性を特定する文献にはいくつかの論点があるが、これらの課題と研究の方向性は散在している。
そこで本研究では,(1)xaiの一般課題と研究方向,(2)機械学習ライフサイクルのフェーズに基づくxaiの課題と研究方向,すなわち設計,開発,展開という2つのテーマに整理されたxaiの課題と今後の研究方向に関する体系的メタサーベイを提案する。
我々は,我々のメタサーベイが,XAI地域における今後の探索のガイドを提供することで,XAI文学に寄与すると考えている。 The past decade has seen significant progress in artificial intelligence (AI), which has resulted in algorithms being adopted for resolving a variety of problems. However, this success has been met by increasing model complexity and employing black-box AI models that lack transparency. In response to this need, Explainable AI (XAI) has been proposed to make AI more transparent and thus advance the adoption of AI in critical domains. Although there are several reviews of XAI topics in the literature that identified challenges and potential research directions in XAI, these challenges and research directions are scattered. This study, hence, presents a systematic meta-survey for challenges and future research directions in XAI organized in two themes: (1) general challenges and research directions in XAI and (2) challenges and research directions in XAI based on machine learning life cycle's phases: design, development, and deployment. We believe that our meta-survey contributes to XAI literature by providing a guide for future exploration in the XAI area. | 翻訳日:2021-11-15 13:30:00 公開日:2021-11-11 |
# リカレントニューラルネットワークを用いたデータ同化のための動的システムの観測誤差共分散仕様 Observation Error Covariance Specification in Dynamical Systems for Data assimilation using Recurrent Neural Networks ( http://arxiv.org/abs/2111.06447v1 ) ライセンス: Link先を確認 | Sibo Cheng, Mingming Qiu | (参考訳) データ同化技術は時系列観測データに基づいて不確実性のある複雑な力学系を予測するために広く用いられている。
誤差共分散行列モデリングは、予測精度に大きな影響を与えるデータ同化アルゴリズムの重要な要素である。
通常、経験的仮定や物理的制約に依存するこれらの共分散の推定は、特に大きな次元の系では不正確で計算的に高価であることが多い。
本研究では,長期記憶(LSTM)リカレントニューラルネットワーク(RNN)に基づくデータ駆動型アプローチを提案し,動的システムにおけるデータ同化における観測共分散仕様の精度と効率を両立させる。
観測・シミュレーションされた時系列データから共分散行列を学習し,従来の後方調整法とは異なり,先行誤差分布に関する知識や仮定は不要である。
本手法は,ロレンツ力学系におけるDI01とD05の2つの状態共分散チューニングアルゴリズムと,アンサンブル同化を用いた共分散パラメータの異なる2次元浅水双対実験フレームワークを比較した。
本手法は,観測共分散仕様,同化精度,計算効率において有意な利点を示す。 Data assimilation techniques are widely used to predict complex dynamical systems with uncertainties, based on time-series observation data. Error covariance matrices modelling is an important element in data assimilation algorithms which can considerably impact the forecasting accuracy. The estimation of these covariances, which usually relies on empirical assumptions and physical constraints, is often imprecise and computationally expensive especially for systems of large dimension. In this work, we propose a data-driven approach based on long short term memory (LSTM) recurrent neural networks (RNN) to improve both the accuracy and the efficiency of observation covariance specification in data assimilation for dynamical systems. Learning the covariance matrix from observed/simulated time-series data, the proposed approach does not require any knowledge or assumption about prior error distribution, unlike classical posterior tuning methods. We have compared the novel approach with two state-of-the-art covariance tuning algorithms, namely DI01 and D05, first in a Lorenz dynamical system and then in a 2D shallow water twin experiments framework with different covariance parameterization using ensemble assimilation. This novel method shows significant advantages in observation covariance specification, assimilation accuracy and computational efficiency. | 翻訳日:2021-11-15 13:26:48 公開日:2021-11-11 |
# 合成コミュニケーションの創発における騒音の触媒的役割と誘導バイアスの必要性 Catalytic Role Of Noise And Necessity Of Inductive Biases In The Emergence Of Compositional Communication ( http://arxiv.org/abs/2111.06464v1 ) ライセンス: Link先を確認 | {\L}ukasz Kuci\'nski, Tomasz Korbak, Pawe{\l} Ko{\l}odziej, Piotr Mi{\l}o\'s | (参考訳) 複雑な信号が単純な部分の組合せとして表現できるならば、通信は構成的である。
本稿では,学習フレームワークとデータの両方に対する帰納的バイアスが,構成的コミュニケーションの発達に必要であることを示す。
さらに,エージェントがノイズチャネル上で通信するシグナリングゲームにおいて,構成性が自然に発生することを示す。
モデルとデータに依存する様々なノイズレベルが、実際に構成性を促進することを実験的に確認する。
最後に,この依存度に関する包括的研究を行い,最近研究した構成性指標(地形的類似性,競合数,文脈独立性)について報告する。 Communication is compositional if complex signals can be represented as a combination of simpler subparts. In this paper, we theoretically show that inductive biases on both the training framework and the data are needed to develop a compositional communication. Moreover, we prove that compositionality spontaneously arises in the signaling games, where agents communicate over a noisy channel. We experimentally confirm that a range of noise levels, which depends on the model and the data, indeed promotes compositionality. Finally, we provide a comprehensive study of this dependence and report results in terms of recently studied compositionality metrics: topographical similarity, conflict count, and context independence. | 翻訳日:2021-11-15 13:03:26 公開日:2021-11-11 |
# Excelの因果推論における変分オートエンコーダアーキテクチャ Variational Auto-Encoder Architectures that Excel at Causal Inference ( http://arxiv.org/abs/2111.06486v1 ) ライセンス: Link先を確認 | Negar Hassanpour, Russell Greiner | (参考訳) 観察データ(個人または人口レベル)から因果効果を推定することは、多くのタイプの意思決定に不可欠である。
この課題に対処する1つのアプローチは、データの基礎となる要因の分解された表現を学習することである。
本稿では,近年の変分オートエンコーダの進歩に基づく生成的アプローチを用いて,これらの要因と因果効果を同時に学習する。
本稿では,前モデルよりもそれぞれが改良され,ハイブリッドモデルに到達したモデル系列を提案する。
以上の結果から,提案する3つのモデルの性能は,最先端の判別法および他の生成的手法よりも優れていることが示された。 Estimating causal effects from observational data (at either an individual -- or a population -- level) is critical for making many types of decisions. One approach to address this task is to learn decomposed representations of the underlying factors of data; this becomes significantly more challenging when there are confounding factors (which influence both the cause and the effect). In this paper, we take a generative approach that builds on the recent advances in Variational Auto-Encoders to simultaneously learn those underlying factors as well as the causal effects. We propose a progressive sequence of models, where each improves over the previous one, culminating in the Hybrid model. Our empirical results demonstrate that the performance of all three proposed models are superior to both state-of-the-art discriminative as well as other generative approaches in the literature. | 翻訳日:2021-11-15 13:02:41 公開日:2021-11-11 |
# イメージベース表現を用いた深層強化学習を用いたグラン・チュリモスポーツにおける熟練人間レベル運転 Expert Human-Level Driving in Gran Turismo Sport Using Deep Reinforcement Learning with Image-based Representation ( http://arxiv.org/abs/2111.06449v1 ) ライセンス: Link先を確認 | Ryuji Imamura, Takuma Seno, Kenta Kawamoto, Michael Spranger | (参考訳) 人間は仮想レースゲームをするとき、ゲーム画面上の視覚環境情報を使用して、環境内のルールを理解する。
対照的に、人間のプレイヤーに勝る最先端のリアルなレーシングゲームAIエージェントは、画像ベースの環境情報ではなく、環境が提供するコンパクトで正確な測定値を使用する。
本稿では,Gran Turismo Sport (GTS) を用いた現実的なレースシナリオにおいて,人間選手と同一条件下での視覚に基づく制御アルゴリズムを提案し,比較した。
提案手法では,従来の最先端手法における観察の一部を構成する環境情報を,ゲーム画面画像から抽出した特徴表現に置き換える。
提案手法は,高次元入力としてゲーム画面画像を用いた場合においても,高速運転シナリオにおいて熟練した人間レベル車両制御を行う。
さらに、GTSの組み込みAIをタイムトライアルのタスクで上回り、そのスコアは、約28,000人の人間のプレーヤーのトップ10%に入っている。 When humans play virtual racing games, they use visual environmental information on the game screen to understand the rules within the environments. In contrast, a state-of-the-art realistic racing game AI agent that outperforms human players does not use image-based environmental information but the compact and precise measurements provided by the environment. In this paper, a vision-based control algorithm is proposed and compared with human player performances under the same conditions in realistic racing scenarios using Gran Turismo Sport (GTS), which is known as a high-fidelity realistic racing simulator. In the proposed method, the environmental information that constitutes part of the observations in conventional state-of-the-art methods is replaced with feature representations extracted from game screen images. We demonstrate that the proposed method performs expert human-level vehicle control under high-speed driving scenarios even with game screen images as high-dimensional inputs. Additionally, it outperforms the built-in AI in GTS in a time trial task, and its score places it among the top 10% approximately 28,000 human players. | 翻訳日:2021-11-15 13:02:29 公開日:2021-11-11 |
# (参考訳) 位置情報から偽の関心点を検出する Detecting Fake Points of Interest from Location Data ( http://arxiv.org/abs/2111.06003v1 ) ライセンス: CC BY 4.0 | Syed Raza Bashir, Vojislav Misic | (参考訳) GPS対応モバイルデバイスの普及と位置情報サービスの普及により、大量のジオタグ付きデータが生成されるようになった。
近年、データ分析はレビュー、ニュース、画像など多くのソースにアクセスでき、POI(Point-of-Interest)データソースの信頼性に関する疑問も提起されている。
これまでの研究では、さまざまなセキュリティメカニズムを通じて偽のPOIデータを検出しようとしたが、現在の作業では、偽のPOIデータをはるかに単純な方法でキャプチャしようと試みていた。
提案する研究は,教師付き学習手法と,その位置に基づくデータに隠れたパターンを見つける能力に着目したものである。
地上の真理ラベルは実世界のデータから取得され、偽のデータはAPIを使って生成されるので、位置データ上に実際のラベルと偽のラベルの両方でデータセットを得る。
目的は,Multi-Layer Perceptron (MLP) 法を用いてPOIの真偽を予測することである。
提案手法では,位置データを正確に分類するために,データ分類に基づくMLPを用いる。
提案手法は,従来の分類法,ロバスト法,および近年の深層神経法と比較した。
その結果,提案手法はベースライン法よりも優れていることがわかった。 The pervasiveness of GPS-enabled mobile devices and the widespread use of location-based services have resulted in the generation of massive amounts of geo-tagged data. In recent times, the data analysis now has access to more sources, including reviews, news, and images, which also raises questions about the reliability of Point-of-Interest (POI) data sources. While previous research attempted to detect fake POI data through various security mechanisms, the current work attempts to capture the fake POI data in a much simpler way. The proposed work is focused on supervised learning methods and their capability to find hidden patterns in location-based data. The ground truth labels are obtained through real-world data, and the fake data is generated using an API, so we get a dataset with both the real and fake labels on the location data. The objective is to predict the truth about a POI using the Multi-Layer Perceptron (MLP) method. In the proposed work, MLP based on data classification technique is used to classify location data accurately. The proposed method is compared with traditional classification and robust and recent deep neural methods. The results show that the proposed method is better than the baseline methods. | 翻訳日:2021-11-13 01:23:18 公開日:2021-11-11 |
# (参考訳) 大規模医療エンティティリンクにおけるカタストロフィック形成防止のためのKronecker因子の同定 Kronecker Factorization for Preventing Catastrophic Forgetting in Large-scale Medical Entity Linking ( http://arxiv.org/abs/2111.06012v1 ) ライセンス: CC BY 4.0 | Denis Jered McInerney, Luyang Kong, Kristjan Arumae, Byron Wallace, Parminder Bhatia | (参考訳) マルチタスク学習は、様々なタスクにまたがる単一のモデルを持つことが事実上望ましいため、NLPで有用である。
医学領域において、タスクのシーケンシャルトレーニングは、元の(潜在的に敏感な)データへのアクセスがもはや利用できないことや、単に共同再トレーニングに固有の計算コストのために、モデルをトレーニングする唯一の方法である。
しかし、シーケンシャルラーニングに固有の大きな問題は破滅的な忘れ、すなわち、新しいタスクのためにモデルが更新されたときのタスクに対する精度の大幅な低下である。
弾性重み統合は、この問題に対処するために最近提案された方法であるが、このアプローチを実際に使われているモダンな大規模モデルにスケールするには、モデルパラメータに関する強い独立性の仮定が必要であり、その効果は制限される。
本研究では,独立性の仮定を緩和する最近のアプローチであるKronecker Factorizationを適用し,畳み込みとトランスフォーマーに基づく大規模ニューラルネットワークにおける破滅的な忘れを防止する。
3つのデータセットにまたがる医療エンティティの重要かつ説明的なタスクにおいて,本手法の有効性を示し,新たな医療データが利用可能になると,既存の手法を効率的に更新するための手法の能力を示す。
平均的に, bertモデルを用いた場合, モデルパラメータ数に比例する空間的複雑性を維持しつつ, 標準弾性重み密化による27%の削減に比べ, 破壊的忘れ込みを51%削減した。 Multi-task learning is useful in NLP because it is often practically desirable to have a single model that works across a range of tasks. In the medical domain, sequential training on tasks may sometimes be the only way to train models, either because access to the original (potentially sensitive) data is no longer available, or simply owing to the computational costs inherent to joint retraining. A major issue inherent to sequential learning, however, is catastrophic forgetting, i.e., a substantial drop in accuracy on prior tasks when a model is updated for a new task. Elastic Weight Consolidation is a recently proposed method to address this issue, but scaling this approach to the modern large models used in practice requires making strong independence assumptions about model parameters, limiting its effectiveness. In this work, we apply Kronecker Factorization--a recent approach that relaxes independence assumptions--to prevent catastrophic forgetting in convolutional and Transformer-based neural networks at scale. We show the effectiveness of this technique on the important and illustrative task of medical entity linking across three datasets, demonstrating the capability of the technique to be used to make efficient updates to existing methods as new medical data becomes available. On average, the proposed method reduces catastrophic forgetting by 51% when using a BERT-based model, compared to a 27% reduction using standard Elastic Weight Consolidation, while maintaining spatial complexity proportional to the number of model parameters. | 翻訳日:2021-11-13 01:05:58 公開日:2021-11-11 |
# (参考訳) 確率コントラスト損失による意味認識表現学習 Semantic-aware Representation Learning Via Probability Contrastive Loss ( http://arxiv.org/abs/2111.06021v1 ) ライセンス: CC BY 4.0 | Junjie Li, Yixin Zhang, Zilei Wang, Keyu Tu | (参考訳) 近年のFCLは,教師なし表現学習において有望な性能を示した。
しかし、ラベル付きデータとラベルなしデータが同じ意味空間に属するクローズセット表現学習の場合、fclは最適化中にクラスセマンティクスを含まないため、圧倒的な利益を示すことができない。
したがって、生成された特徴は、情報豊富なにもかかわらずラベル付きデータから学習したクラス重みによって容易に分類されることを保証しない。
この問題に対処するため,本論文では,リッチな特徴を生み出すだけでなく,クラスプロトタイプの周辺に分散させることを強制する新しい確率コントラスト学習(PCL)を提案する。
具体的には,FCLの抽出特徴の代わりにソフトマックス後の出力確率を用いてコントラスト学習を行う。
このような方法は、最適化中にクラスセマンティクスを利用することができる。
さらに,従来のfclにおける$\ell_{2}$正規化を除去し,比較学習に$\ell_{1}$正規化確率を直接使用することを提案する。
提案するPCLは単純かつ効果的である。
本研究では,教師なし領域適応,半教師付き学習,半教師付き領域適応という,3つの近接画像分類タスクについて広範な実験を行った。
複数のデータセットから得られた結果から,PCLが一定に向上し,3つのタスクすべてに対して最先端のパフォーマンスを達成できることが示される。 Recent feature contrastive learning (FCL) has shown promising performance in unsupervised representation learning. For the close-set representation learning where labeled data and unlabeled data belong to the same semantic space, however, FCL cannot show overwhelming gains due to not involving the class semantics during optimization. Consequently, the produced features do not guarantee to be easily classified by the class weights learned from labeled data although they are information-rich. To tackle this issue, we propose a novel probability contrastive learning (PCL) in this paper, which not only produces rich features but also enforces them to be distributed around the class prototypes. Specifically, we propose to use the output probabilities after softmax to perform contrastive learning instead of the extracted features in FCL. Evidently, such a way can exploit the class semantics during optimization. Moreover, we propose to remove the $\ell_{2}$ normalization in the traditional FCL and directly use the $\ell_{1}$-normalized probability for contrastive learning. Our proposed PCL is simple and effective. We conduct extensive experiments on three close-set image classification tasks, i.e., unsupervised domain adaptation, semi-supervised learning, and semi-supervised domain adaptation. The results on multiple datasets demonstrate that our PCL can consistently get considerable gains and achieves the state-of-the-art performance for all three tasks. | 翻訳日:2021-11-13 00:44:04 公開日:2021-11-11 |
# (参考訳) HMD-AMP:抗微生物ペプチドのアノテートのためのタンパク質言語による階層型多層森林 HMD-AMP: Protein Language-Powered Hierarchical Multi-label Deep Forest for Annotating Antimicrobial Peptides ( http://arxiv.org/abs/2111.06023v1 ) ライセンス: CC BY 4.0 | Qinze Yu, Zhihang Dong, Xingyu Fan, Licheng Zong and Yu Li | (参考訳) 抗微生物ペプチドの標的を同定することは、自然免疫反応を研究し、抗生物質耐性と戦うための基本的なステップであり、より広くは精密な医療と公衆衛生である。
統計学的および計算学的アプローチの同定に関する広範な研究がなされている。
i)ペプチドが抗微生物ペプチド(AMP)であるか非AMPであるか
(二)どのターゲットがこれらの配列に有効であるか(グラム陽性、グラム陰性等)
この問題に関する既存のディープラーニングメソッドにもかかわらず、その多くは小さなAMPクラス(アンチ・インジェクト、アンチ・寄生虫など)を扱うことができません。
さらに重要なことは、いくつかのAMPは複数のターゲットを持つことができます。
本研究では, 各種AMPデータベースからアミノ酸を収集, 洗浄することにより, 多様な多ラベルタンパク質配列データベースを構築した。
小クラスデータセットの効率的な表現と特徴を生成するために、2億5000万個のタンパク質配列で訓練されたタンパク質言語モデルを利用する。
そこで我々は,AMPを包括的にアノテートするために,エンド・ツー・エンドの階層型多ラベル深い森林フレームワークであるHMD-AMPを開発した。
AMPを特定した後、AMPが効果的に11の利用可能なクラスから殺すことができるターゲットを予測します。
大規模な実験により,2進分類タスクと複数ラベル分類タスク,特にマイノリティクラスにおいて,我々のフレームワークは最先端のモデルよりも優れていることが示唆された。
HMD-AMPは、様々な抗菌ペプチドの自然構造に関するウェットラブ研究と、抗生物質による精密な医療のための有望な経験的基盤構築の両方に寄与すると考えている。 Identifying the targets of an antimicrobial peptide is a fundamental step in studying the innate immune response and combating antibiotic resistance, and more broadly, precision medicine and public health. There have been extensive studies on the statistical and computational approaches to identify (i) whether a peptide is an antimicrobial peptide (AMP) or a non-AMP and (ii) which targets are these sequences effective to (Gram-positive, Gram-negative, etc.). Despite the existing deep learning methods on this problem, most of them are unable to handle the small AMP classes (anti-insect, anti-parasite, etc.). And more importantly, some AMPs can have multiple targets, which the previous methods fail to consider. In this study, we build a diverse and comprehensive multi-label protein sequence database by collecting and cleaning amino acids from various AMP databases. To generate efficient representations and features for the small classes dataset, we take advantage of a protein language model trained on 250 million protein sequences. Based on that, we develop an end-to-end hierarchical multi-label deep forest framework, HMD-AMP, to annotate AMP comprehensively. After identifying an AMP, it further predicts what targets the AMP can effectively kill from eleven available classes. Extensive experiments suggest that our framework outperforms state-of-the-art models in both the binary classification task and the multi-label classification task, especially on the minor classes.The model is robust against reduced features and small perturbations and produces promising results. We believe HMD-AMP contributes to both the future wet-lab investigations of the innate structural properties of different antimicrobial peptides and build promising empirical underpinnings for precise medicine with antibiotics. | 翻訳日:2021-11-13 00:22:13 公開日:2021-11-11 |
# (参考訳) 過渡制御のための強化学習手法の最小化 Adapting Surprise Minimizing Reinforcement Learning Techniques for Transactive Control ( http://arxiv.org/abs/2111.06025v1 ) ライセンス: CC BY 4.0 | William Arnold, Tarang Srivastava, Lucas Spangher, Utkarsha Agwan, Costas Spanos | (参考訳) エネルギー需要応答に対する価格の最適化には、複雑な環境をナビゲートできる柔軟なコントローラが必要である。
本稿では,アーキテクチャの変更を最小化する強化学習コントローラを提案する。
エネルギー利用の予測可能性を活用することで,学習速度の向上にサプライズ最小化が有効であることを示唆する。
我々のアーキテクチャはエネルギー需要応答のシミュレーションでよく機能する。
我々は,この機能を改善し,大規模な実験で節約するために,この修正を提案する。 Optimizing prices for energy demand response requires a flexible controller with ability to navigate complex environments. We propose a reinforcement learning controller with surprise minimizing modifications in its architecture. We suggest that surprise minimization can be used to improve learning speed, taking advantage of predictability in peoples' energy usage. Our architecture performs well in a simulation of energy demand response. We propose this modification to improve functionality and save in a large scale experiment. | 翻訳日:2021-11-13 00:05:26 公開日:2021-11-11 |
# (参考訳) Causal KL: Causal Discoveryの評価 Causal KL: Evaluating Causal Discovery ( http://arxiv.org/abs/2111.06029v1 ) ライセンス: CC BY 4.0 | Rodney T. O'Donnell, Kevin B. Korb and Lloyd Allison | (参考訳) 人工データを用いて因果モデル発見を評価するための最もよく用いられる2つの基準は、真のモデルから学習モデルへ測定された編集距離とクルバック・リーブラー分岐である。
これらのメトリクスはどちらも、真のモデルに最大報酬を与えます。
しかし、両者とも虚偽モデルの相対的メリットを判断するのに不十分であると主張する。
例えば、編集距離は、強みと弱みの確率依存性の区別に失敗する。
一方、klの発散は、それらの異なる因果的主張に関係なく、等しくすべての統計等価なモデルに報いる。
我々は、観測等価モデルを区別する因果関係を考慮に入れた、Causal KL (CKL) と呼ばれる拡張KL分岐を提案する。
結果は3種類のCKLに対して提示され、Causal KLが実際にうまく動作することを示す。 The two most commonly used criteria for assessing causal model discovery with artificial data are edit-distance and Kullback-Leibler divergence, measured from the true model to the learned model. Both of these metrics maximally reward the true model. However, we argue that they are both insufficiently discriminating in judging the relative merits of false models. Edit distance, for example, fails to distinguish between strong and weak probabilistic dependencies. KL divergence, on the other hand, rewards equally all statistically equivalent models, regardless of their different causal claims. We propose an augmented KL divergence, which we call Causal KL (CKL), which takes into account causal relationships which distinguish between observationally equivalent models. Results are presented for three variants of CKL, showing that Causal KL works well in practice. | 翻訳日:2021-11-12 23:56:04 公開日:2021-11-11 |
# (参考訳) fino: 流れに基づくジョイントイメージとノイズモデル FINO: Flow-based Joint Image and Noise Model ( http://arxiv.org/abs/2111.06031v1 ) ライセンス: CC BY 4.0 | Lanqing Guo, Siyu Huang, Haosen Liu, Bihan Wen | (参考訳) 画像復元における基本的な課題の1つは、ノイズの多い測定からクリーンな画像を推定することである。
このような不当な逆問題に対処するために、既存の認知的アプローチは一般的に、効果的な自然画像の事前利用に重点を置いている。
ノイズモデルの利用と分析は無視されることが多いが、ノイズモデルでは補的な情報をデノナイズアルゴリズムに提供することができる。
本稿では, 潜在空間における画像と雑音を分離し, 一連の可逆変換により無損失に再構成する新しい流れに基づく関節像・雑音モデル(fino)を提案する。
さらに,空間的に最小化された相関情報に基づいて,画像の構造情報を調整する可変スワップ方式と雑音相関行列を提案する。
実験の結果,フィノは合成白色ガウスノイズ (awgn) と実雑音の両方を除去することができた。
さらに,不正確な推定による空間的変動雑音除去に対するfinoの一般化は,一般および最先端の手法を大きなマージンで上回っている。 One of the fundamental challenges in image restoration is denoising, where the objective is to estimate the clean image from its noisy measurements. To tackle such an ill-posed inverse problem, the existing denoising approaches generally focus on exploiting effective natural image priors. The utilization and analysis of the noise model are often ignored, although the noise model can provide complementary information to the denoising algorithms. In this paper, we propose a novel Flow-based joint Image and NOise model (FINO) that distinctly decouples the image and noise in the latent space and losslessly reconstructs them via a series of invertible transformations. We further present a variable swapping strategy to align structural information in images and a noise correlation matrix to constrain the noise based on spatially minimized correlation information. Experimental results demonstrate FINO's capacity to remove both synthetic additive white Gaussian noise (AWGN) and real noise. Furthermore, the generalization of FINO to the removal of spatially variant noise and noise with inaccurate estimation surpasses that of the popular and state-of-the-art methods by large margins. | 翻訳日:2021-11-12 23:06:54 公開日:2021-11-11 |
# (参考訳) cubetr: トランスフォーマーを使ってルービックキューブの解法を学ぶ CubeTR: Learning to Solve The Rubiks Cube Using Transformers ( http://arxiv.org/abs/2111.06036v1 ) ライセンス: CC BY 4.0 | Mustafa Ebrahim Chasmai | (参考訳) 最初の登場以来、トランスフォーマーはコンピュータビジョンから自然言語処理まで幅広い領域でうまく使われてきた。
シーケンスモデリング問題として再構成した強化学習における変圧器の適用は,最近になって提案された。
他の一般的な強化学習問題と比較すると、rubiks cubeは独自の課題となっている。
rubiks cubeは、可能な構成のクエンチリオンに対して単一の解決状態を持ち、極めて少ない報酬をもたらす。
提案モデルであるCubeTRは、より長いアクションシーケンスに参加し、スパース報酬の問題に対処する。
キューブTRは、ルービックキューブを人間に先行しない任意の開始状態から解く方法を学び、移動正則化の後、それによって生成される解の長さは、専門家の人間の解法が使用するアルゴリズムに非常に近いと期待されている。
CubeTRは、学習アルゴリズムの高次元立方体への一般化可能性と、他のスパース報酬シナリオにおける変換器の適用性に関する洞察を提供する。 Since its first appearance, transformers have been successfully used in wide ranging domains from computer vision to natural language processing. Application of transformers in Reinforcement Learning by reformulating it as a sequence modelling problem was proposed only recently. Compared to other commonly explored reinforcement learning problems, the Rubiks cube poses a unique set of challenges. The Rubiks cube has a single solved state for quintillions of possible configurations which leads to extremely sparse rewards. The proposed model CubeTR attends to longer sequences of actions and addresses the problem of sparse rewards. CubeTR learns how to solve the Rubiks cube from arbitrary starting states without any human prior, and after move regularisation, the lengths of solutions generated by it are expected to be very close to those given by algorithms used by expert human solvers. CubeTR provides insights to the generalisability of learning algorithms to higher dimensional cubes and the applicability of transformers in other relevant sparse reward scenarios. | 翻訳日:2021-11-12 22:54:25 公開日:2021-11-11 |
# (参考訳) 状態依存コストによる制約付き確率部分モジュラー最大化 Constrained Stochastic Submodular Maximization with State-Dependent Costs ( http://arxiv.org/abs/2111.06037v1 ) ライセンス: CC BY 4.0 | Shaojie Tang | (参考訳) 本稿では,制約付き確率的極大化問題と状態依存コストについて検討する。
問題の入力は、既知の確率分布から状態(すなわち、アイテムの限界寄与とコスト)が引き出される項目の集合である。
アイテムの実際の状態を知る唯一の方法は、そのアイテムを選択することです。
我々は二つの制約、すなわち \emph{inner} と \emph{outer} を考える。
各項目が状態依存コストを持ち、内部制約は、選択された項目の合計 \emph{realized} コストが付与予算を超過してはならないことを言い換える。
したがって、内部制約は状態依存である。
一方、外部制約は状態非依存である。
状態に関わらず、選択されたアイテムのセットの下位に閉じたファミリーとして表現することができる。
我々の目標は、内外制約の対象となる目的関数を最大化することである。
より大きなコストがより大きな「有効性」を示すという仮定の下で、この問題に対する一定の近似解を提示する。 In this paper, we study the constrained stochastic submodular maximization problem with state-dependent costs. The input of our problem is a set of items whose states (i.e., the marginal contribution and the cost of an item) are drawn from a known probability distribution. The only way to know the realized state of an item is to select that item. We consider two constraints, i.e., \emph{inner} and \emph{outer} constraints. Recall that each item has a state-dependent cost, and the inner constraint states that the total \emph{realized} cost of all selected items must not exceed a give budget. Thus, inner constraint is state-dependent. The outer constraint, one the other hand, is state-independent. It can be represented as a downward-closed family of sets of selected items regardless of their states. Our objective is to maximize the objective function subject to both inner and outer constraints. Under the assumption that larger cost indicates larger "utility", we present a constant approximate solution to this problem. | 翻訳日:2021-11-12 22:40:05 公開日:2021-11-11 |
# (参考訳) HDRシーンのLDR画像のためのハイブリッド飽和復元 Hybrid Saturation Restoration for LDR Images of HDR Scenes ( http://arxiv.org/abs/2111.06038v1 ) ライセンス: CC0 1.0 | Chaobing Zheng, Zhengguo Li, and Shiqian Wu | (参考訳) 低ダイナミックレンジ(LDR)画像には、ハイダイナミックレンジ(HDR)シーンからキャプチャされる影とハイライト領域がある。
LDR画像の飽和領域を復元するには不適切な問題である。
本稿では,LDR画像の飽和領域をモデルベースおよびデータ駆動アプローチの融合により復元する。
このような神経拡張により、2つの合成LDR画像がモデルベースアプローチを介して基礎となるLDR画像から生成される。
1つは、シャドウ領域を復元するための入力画像より明るく、もう1つは、入力画像よりも暗く、高照度領域を復元する。
両方の合成画像は、新しい露出認識飽和回復ネットワーク(EASRN)を介して精製される。
最後に、2つの合成画像と入力画像がHDR合成アルゴリズムまたはマルチスケール露光融合アルゴリズムを介して結合される。
提案アルゴリズムは,任意のスマートフォンやデジタルカメラに組み込み,情報豊富なldr画像を生成することができる。 There are shadow and highlight regions in a low dynamic range (LDR) image which is captured from a high dynamic range (HDR) scene. It is an ill-posed problem to restore the saturated regions of the LDR image. In this paper, the saturated regions of the LDR image are restored by fusing model-based and data-driven approaches. With such a neural augmentation, two synthetic LDR images are first generated from the underlying LDR image via the model-based approach. One is brighter than the input image to restore the shadow regions and the other is darker than the input image to restore the high-light regions. Both synthetic images are then refined via a novel exposedness aware saturation restoration network (EASRN). Finally, the two synthetic images and the input image are combined together via an HDR synthesis algorithm or a multi-scale exposure fusion algorithm. The proposed algorithm can be embedded in any smart phones or digital cameras to produce an information-enriched LDR image. | 翻訳日:2021-11-12 22:28:19 公開日:2021-11-11 |
# (参考訳) 可変長インフィルによる楽譜拡張 Music Score Expansion with Variable-Length Infilling ( http://arxiv.org/abs/2111.06046v1 ) ライセンス: CC BY 4.0 | Chih-Pin Tan, Chin-Jui Chang, Alvin W.Y. Su and Yi-Hsuan Yang | (参考訳) 本稿では,未完成セグメントを埋め込むためにもともと提案されていた可変長埋込モデルを用いて,音楽境界における既存のセグメントの「延長」について検討する。
具体的には,12バーから16バーに20の楽曲セグメントを拡大し,新たに提案したレジスタヒストグラム類似度を含むいくつかの客観的指標を用いて,拡張結果におけるVLIモデルが音楽境界を保存する程度について検討する。
その結果,VLIモデルは拡張タスクに対処できる可能性が示唆された。 In this paper, we investigate using the variable-length infilling (VLI) model, which is originally proposed to infill missing segments, to "prolong" existing musical segments at musical boundaries. Specifically, as a case study, we expand 20 musical segments from 12 bars to 16 bars, and examine the degree to which the VLI model preserves musical boundaries in the expanded results using a few objective metrics, including the Register Histogram Similarity we newly propose. The results show that the VLI model has the potential to address the expansion task. | 翻訳日:2021-11-12 22:10:19 公開日:2021-11-11 |
# (参考訳) フィリピンの大規模言語モデルとリソースの改善 Improving Large-scale Language Models and Resources for Filipino ( http://arxiv.org/abs/2111.06053v1 ) ライセンス: CC BY-SA 4.0 | Jan Christian Blaise Cruz and Charibeth Cheng | (参考訳) 本稿では,低リソースのフィリピン語に対する既存の言語資源を2つの点で改善する。
まず,大規模な事前学習コーパスであるTLUnifiedデータセットの構築について概説する。
第2に,RoBERTa事前学習法に従って,新しいトランスフォーマー言語モデルを事前訓練し,小型コーパスで訓練した既存モデルを置き換える。
我々の新しいRoBERTaモデルは、3つのベンチマークデータセットで既存のフィリピンモデルよりも大幅に改善され、3つの分類タスクで平均4.47%のテスト精度が向上した。 In this paper, we improve on existing language resources for the low-resource Filipino language in two ways. First, we outline the construction of the TLUnified dataset, a large-scale pretraining corpus that serves as an improvement over smaller existing pretraining datasets for the language in terms of scale and topic variety. Second, we pretrain new Transformer language models following the RoBERTa pretraining technique to supplant existing models trained with small corpora. Our new RoBERTa models show significant improvements over existing Filipino models in three benchmark datasets with an average gain of 4.47% test accuracy across the three classification tasks of varying difficulty. | 翻訳日:2021-11-12 22:06:27 公開日:2021-11-11 |
# (参考訳) 野生動物におけるインドライセンスプレートデータセット Indian Licence Plate Dataset in the wild ( http://arxiv.org/abs/2111.06054v1 ) ライセンス: CC BY 4.0 | Sanchit Tanwar, Ayush Tiwari, Ritesh Chowdhry | (参考訳) Indian Licence Plate Detection is a problem that has not been explored much at an open-source level.There are proprietary solutions available for it, but there is no big open-source dataset that can be used to perform experiments and test different approaches.Most of the large datasets available are for countries like China, Brazil, but the model trained on these datasets does not perform well on Indian plates because the font styles and plate designs used vary significantly from country to country.This paper introduces an Indian license plate dataset with 16192 images and 21683 plate plates annotated with 4 points for each plate and each character in the corresponding plate.We present a benchmark model that uses semantic segmentation to solve number plate detection.
我々は,第1段階がプレートのローカライズのための2段階のアプローチを提案し,第2段階がトリミングプレート画像のテキスト読取であり,第2段階はベンチマークオブジェクトの検出とセマンティックセグメンテーションモデル,第2段階はlprnetベースのOCRを用いた。 Indian Licence Plate Detection is a problem that has not been explored much at an open-source level.There are proprietary solutions available for it, but there is no big open-source dataset that can be used to perform experiments and test different approaches.Most of the large datasets available are for countries like China, Brazil, but the model trained on these datasets does not perform well on Indian plates because the font styles and plate designs used vary significantly from country to country.This paper introduces an Indian license plate dataset with 16192 images and 21683 plate plates annotated with 4 points for each plate and each character in the corresponding plate.We present a benchmark model that uses semantic segmentation to solve number plate detection. We propose a two-stage approach in which the first stage is for localizing the plate, and the second stage is to read the text in cropped plate image.We tested benchmark object detection and semantic segmentation model, for the second stage, we used lprnet based OCR. | 翻訳日:2021-11-12 21:59:43 公開日:2021-11-11 |
# (参考訳) 散らばった統計的学習を用いたオンライン買い物客の頻度評価 Characterization of Frequent Online Shoppers using Statistical Learning with Sparsity ( http://arxiv.org/abs/2111.06057v1 ) ライセンス: CC BY 4.0 | Rajiv Sambasivan, Mark Burgess, J\"org Schad, Arthur Keen, Christopher Woodward, Alexander Geenen, Sachin Sharma | (参考訳) 顧客を喜ばせるショッピング体験を開発するには、顧客の嗜好を理解する必要がある。
本研究は,小売分析と統計学習のアイデアを疎結合に組み合わせ,買い物客のオンラインギフトストアへの買い物嗜好を学習する方法を報告する。
ショッピング活動は二部グラフとして表される。
このグラフは、スパーシティに基づく統計学習手法を適用して洗練される。
これらの方法は解釈可能であり、顧客の好みに関する洞察と、ストアへの収益を駆動する製品を明らかにする。 Developing shopping experiences that delight the customer requires businesses to understand customer taste. This work reports a method to learn the shopping preferences of frequent shoppers to an online gift store by combining ideas from retail analytics and statistical learning with sparsity. Shopping activity is represented as a bipartite graph. This graph is refined by applying sparsity-based statistical learning methods. These methods are interpretable and reveal insights about customers' preferences as well as products driving revenue to the store. | 翻訳日:2021-11-12 21:51:47 公開日:2021-11-11 |
# (参考訳) 時系列異常検出によるlevenberg-marquardtオプティマイザのパワー活用 Exploiting the Power of Levenberg-Marquardt Optimizer with Anomaly Detection in Time Series ( http://arxiv.org/abs/2111.06060v1 ) ライセンス: CC BY 4.0 | Wenyi Wang, John Taylor and Biswajit Bala | (参考訳) Levenberg-Marquardt (LM) 最適化アルゴリズムは機械学習の問題を解決するために広く利用されている。
文献レビューでは、ネットワーク内の重み数が数百に満たない場合、lmは中程度の関数近似問題に対して非常に強力で効果的であることが示されている。
対照的に、lmはパターン認識や分類の問題を扱う場合にはあまり効果がなく、ネットワークが大きくなった場合(例えば500ポンド以上)には非効率である。
本稿では,実世界の航空機データセットを用いてlmアルゴリズムの真のパワーを利用する。
これらのデータセットでは、一般的なオプティマイザのほとんどは、航空機エンジンの条件の変化によって生じる異常を検出することができない。
データセットの困難な性質は、時系列データの突然の変更である。
LMオプティマイザは急激な変化を近似し,他のオプティマイザよりも異常を検出する能力が優れていることがわかった。
我々は,この異常/変化検出問題に対するlmと他の最適化器の性能比較を行った。
ネットワークの複雑性(ウェイト数)、適合精度、オーバーフィッティング、トレーニング時間、GPUの使用、メモリ要件など、さまざまな測定値に基づいて、相対的なパフォーマンスを評価する。
また,matlab と tensorflow による lm アルゴリズムの普及促進のための堅牢な lm 実装の問題や,大規模な問題に対する lm オプティマイザ の利用の可能性についても論じる。 The Levenberg-Marquardt (LM) optimization algorithm has been widely used for solving machine learning problems. Literature reviews have shown that the LM can be very powerful and effective on moderate function approximation problems when the number of weights in the network is not more than a couple of hundred. In contrast, the LM does not seem to perform as well when dealing with pattern recognition or classification problems, and inefficient when networks become large (e.g. with more than 500 weights). In this paper, we exploit the true power of LM algorithm using some real world aircraft datasets. On these datasets most other commonly used optimizers are unable to detect the anomalies caused by the changing conditions of the aircraft engine. The challenging nature of the datasets are the abrupt changes in the time series data. We find that the LM optimizer has a much better ability to approximate abrupt changes and detect anomalies than other optimizers. We compare the performance, in addressing this anomaly/change detection problem, of the LM and several other optimizers. We assess the relative performance based on a range of measures including network complexity (i.e. number of weights), fitting accuracy, over fitting, training time, use of GPUs and memory requirement etc. We also discuss the issue of robust LM implementation in MATLAB and Tensorflow for promoting more popular usage of the LM algorithm and potential use of LM optimizer for large-scale problems. | 翻訳日:2021-11-12 21:38:50 公開日:2021-11-11 |
# (参考訳) 数ビットの通信を用いたマルチアームバンディットの解法 Solving Multi-Arm Bandit Using a Few Bits of Communication ( http://arxiv.org/abs/2111.06067v1 ) ライセンス: CC BY 4.0 | Osama A. Hanna, Lin F. Yang, Christina Fragouli | (参考訳) マルチアームバンディット(multi-armed bandit、mab)問題は、報酬を逐次観察することで、一連のアクションの中で最良のものを選択することを目的とした、アクティブな学習フレームワークである。
近年、通信の制約がボトルネックになる可能性がある無線ネットワーク上の多くのアプリケーションで人気が高まっている。
既存の作業は通常この問題に対処できず、特定のアプリケーションでは実現不可能になる可能性がある。
本稿では,分散エージェントが収集した報酬の通信を最適化することで,コミュニケーション問題に対処する。
ほぼ一致した上界と下界を提供することにより,学習者が余計な後悔を伴わずに正確に学習するために必要なビット数を強く特徴付ける。
特に,任意の(非レグリートな)MABアルゴリズム上で適用可能な汎用報酬量子化アルゴリズムQuBanを構築し,同じ後悔境界を保ちながら,イテレーション毎に送信されるビット数(最低3ビット)しか必要としない通信効率の高い新しいアルゴリズムを構築した。
我々の下限は、サブガウス分布からハードインスタンスを構築することによって確立される。
我々の理論は数値実験によってさらに裏付けられている。 The multi-armed bandit (MAB) problem is an active learning framework that aims to select the best among a set of actions by sequentially observing rewards. Recently, it has become popular for a number of applications over wireless networks, where communication constraints can form a bottleneck. Existing works usually fail to address this issue and can become infeasible in certain applications. In this paper we address the communication problem by optimizing the communication of rewards collected by distributed agents. By providing nearly matching upper and lower bounds, we tightly characterize the number of bits needed per reward for the learner to accurately learn without suffering additional regret. In particular, we establish a generic reward quantization algorithm, QuBan, that can be applied on top of any (no-regret) MAB algorithm to form a new communication-efficient counterpart, that requires only a few (as low as 3) bits to be sent per iteration while preserving the same regret bound. Our lower bound is established via constructing hard instances from a subgaussian distribution. Our theory is further corroborated by numerically experiments. | 翻訳日:2021-11-12 21:32:08 公開日:2021-11-11 |
# (参考訳) Graph Relation Transformer: ペアワイズオブジェクト機能をTransformerアーキテクチャに組み込む Graph Relation Transformer: Incorporating pairwise object features into the Transformer architecture ( http://arxiv.org/abs/2111.06075v1 ) ライセンス: CC BY 4.0 | Michael Yang, Aditya Anantharaman, Zachary Kitowski and Derik Clive Robert | (参考訳) VizWizのような以前の研究によると、画像中のテキストを読み、推論できる視覚質問回答(VQA)システムは、視覚障害者を支援するなどのアプリケーション領域で有用である。
TextVQAはこの問題に向けられたVQAデータセットであり、質問には、画像内の視覚オブジェクトやテキストオブジェクトを読み取り、推論するシステムが必要である。
TextVQAの重要な課題は、視覚的オブジェクトとテキストオブジェクトを個別にだけでなく、これらのオブジェクト間の空間的関係についても効果的に推論するシステムの設計である。
これは'エッジ機能'、すなわち各オブジェクト間の関係に関する情報の使用を動機付けている。
現在のTextVQAモデルはこの問題に対処するが、(エッジ特徴ベクトルではなく)関係のカテゴリのみを使用するか、トランスフォーマーアーキテクチャ内でエッジ機能を使用しない。
これらの欠点を克服するために,グラフアテンション計算のためのノード情報に加えてエッジ情報を利用するグラフリレーショナルトランス (GRT) を提案する。
提案手法は,他の最適化を使わずに,val集合では0.65%,テストセットでは0.57%の精度でM4Cベースラインモデルの精度を向上する。
定性的には、GRTはM4Cよりも優れた空間推論能力を有する。 Previous studies such as VizWiz find that Visual Question Answering (VQA) systems that can read and reason about text in images are useful in application areas such as assisting visually-impaired people. TextVQA is a VQA dataset geared towards this problem, where the questions require answering systems to read and reason about visual objects and text objects in images. One key challenge in TextVQA is the design of a system that effectively reasons not only about visual and text objects individually, but also about the spatial relationships between these objects. This motivates the use of 'edge features', that is, information about the relationship between each pair of objects. Some current TextVQA models address this problem but either only use categories of relations (rather than edge feature vectors) or do not use edge features within the Transformer architectures. In order to overcome these shortcomings, we propose a Graph Relation Transformer (GRT), which uses edge information in addition to node information for graph attention computation in the Transformer. We find that, without using any other optimizations, the proposed GRT method outperforms the accuracy of the M4C baseline model by 0.65% on the val set and 0.57% on the test set. Qualitatively, we observe that the GRT has superior spatial reasoning ability to M4C. | 翻訳日:2021-11-12 21:30:59 公開日:2021-11-11 |
# (参考訳) ディープラーニングを用いたきめ細かい画像解析:サーベイ Fine-Grained Image Analysis with Deep Learning: A Survey ( http://arxiv.org/abs/2111.06119v1 ) ライセンス: CC BY 4.0 | Xiu-Shen Wei and Yi-Zhe Song and Oisin Mac Aodha and Jianxin Wu and Yuxin Peng and Jinhui Tang and Jian Yang and Serge Belongie | (参考訳) 細粒度画像解析(FGIA)は、コンピュータビジョンとパターン認識における長年の基本的な問題であり、様々な現実世界の応用の基盤となっている。
fgiaの目標は、鳥の種類や車のモデルなど、下位のカテゴリから視覚オブジェクトを分析することである。
細粒度画像解析に固有の小クラス間および大クラス内変動は課題となっている。
近年、深層学習の進歩に乗じて、深層学習によるFGIAの顕著な進歩を目の当たりにしてきた。
本稿では,これらの進歩を体系的に調査し,精細画像認識と細粒画像検索という2つの基礎的研究領域を統合し,fgiaの分野を再定義し,広めることを試みる。
さらに、FGIAの他の重要な問題、例えば、公開ベンチマークデータセットや関連するドメイン固有のアプリケーションについてもレビューする。
結論として,研究の方向性と,コミュニティからのさらなる探索を必要とするオープンな問題を強調する。 Fine-grained image analysis (FGIA) is a longstanding and fundamental problem in computer vision and pattern recognition, and underpins a diverse set of real-world applications. The task of FGIA targets analyzing visual objects from subordinate categories, e.g., species of birds or models of cars. The small inter-class and large intra-class variation inherent to fine-grained image analysis makes it a challenging problem. Capitalizing on advances in deep learning, in recent years we have witnessed remarkable progress in deep learning powered FGIA. In this paper we present a systematic survey of these advances, where we attempt to re-define and broaden the field of FGIA by consolidating two fundamental fine-grained research areas -- fine-grained image recognition and fine-grained image retrieval. In addition, we also review other key issues of FGIA, such as publicly available benchmark datasets and related domain-specific applications. We conclude by highlighting several research directions and open problems which need further exploration from the community. | 翻訳日:2021-11-12 21:17:42 公開日:2021-11-11 |
# (参考訳) 近隣住民の再建による新規性検出の改善 Improving Novelty Detection using the Reconstructions of Nearest Neighbours ( http://arxiv.org/abs/2111.06150v1 ) ライセンス: CC BY 4.0 | Michael Mesarcik, Elena Ranguelova, Albert-Jan Boonstra and Rob V. van Nieuwpoort | (参考訳) 自動エンコーダ (AE) の潜伏空間に近接する近傍を使用すれば, 単クラス・複数クラスの文脈において, 半教師付きノベルティ検出の性能が著しく向上することを示す。
オートエンコーディング手法は、非ノーベルトレーニングクラス(es)と他の見えないクラスを区別する学習によって新規性を検出する。
提案手法は, 最寄りの近傍の復元と, 入力の潜在表現の潜在-近距離を組み合わせたものである。
我々は,NLNアルゴリズムがメモリと時間効率が高く,有意なデータ拡張が不要であり,事前学習ネットワークに依存しないことを示す。
さらに,NLN-アルゴリズムは修正することなく,複数のデータセットに容易に適用可能であることを示す。
さらに,提案アルゴリズムは自動エンコーダアーキテクチャや再構成誤差法に非依存である。
我々は,バニラ,逆数,変分オートエンコーダなどの様々な自動エンコードアーキテクチャに対して,再構成,残差,特徴的損失のいずれかを用いて,複数の標準データセットで検証を行った。
その結果、nlnアルゴリズムは、マルチクラスケースの受信機動作特性(auroc)曲線性能下での面積を最大17%増加させ、シングルクラスのノベルティ検出では8%増加させることがわかった。 We show that using nearest neighbours in the latent space of autoencoders (AE) significantly improves performance of semi-supervised novelty detection in both single and multi-class contexts. Autoencoding methods detect novelty by learning to differentiate between the non-novel training class(es) and all other unseen classes. Our method harnesses a combination of the reconstructions of the nearest neighbours and the latent-neighbour distances of a given input's latent representation. We demonstrate that our nearest-latent-neighbours (NLN) algorithm is memory and time efficient, does not require significant data augmentation, nor is reliant on pre-trained networks. Furthermore, we show that the NLN-algorithm is easily applicable to multiple datasets without modification. Additionally, the proposed algorithm is agnostic to autoencoder architecture and reconstruction error method. We validate our method across several standard datasets for a variety of different autoencoding architectures such as vanilla, adversarial and variational autoencoders using either reconstruction, residual or feature consistent losses. The results show that the NLN algorithm grants up to a 17% increase in Area Under the Receiver Operating Characteristics (AUROC) curve performance for the multi-class case and 8% for single-class novelty detection. | 翻訳日:2021-11-12 20:22:22 公開日:2021-11-11 |
# (参考訳) ストックウェル・トランスフォーメーションと深部畳み込みニューラルネットワークに基づく建物構造物の劣化・損傷同定の新しい手法 A Novel Approach for Deterioration and Damage Identification in Building Structures Based on Stockwell-Transform and Deep Convolutional Neural Network ( http://arxiv.org/abs/2111.06155v1 ) ライセンス: CC BY 4.0 | Vahid Reza Gharehbaghi, Hashem Kalbkhani, Ehsan Noroozinejad Farsangi, T.Y. Yang, Andy Nguyene, Seyedali Mirjalili, C. M\'alaga-Chuquitaype | (参考訳) 本稿では,新しい劣化・損傷識別手法(DIP)を提案し,建築モデルに適用する。
これらの構造に対する応用に関する課題は、応答の強い相関関係に関連しており、高レベルのノイズを持つ実環境振動に対処する際にはさらに複雑になる。
これにより、低コストの環境振動を利用してストックウェル変換(st)を用いて加速度応答を分析し、スペクトログラムを生成するディップを設計することができる。
その後、ST出力は、建物モデルの劣化と損傷を特定するために確立された2種類の畳み込みニューラルネットワーク(CNN)の入力となる。
我々の知る限りでは、STとCNNの組み合わせによる建物モデルにおける損傷と劣化の両方を高精度に評価するのは今回が初めてである。 In this paper, a novel deterioration and damage identification procedure (DIP) is presented and applied to building models. The challenge associated with applications on these types of structures is related to the strong correlation of responses, which gets further complicated when coping with real ambient vibrations with high levels of noise. Thus, a DIP is designed utilizing low-cost ambient vibrations to analyze the acceleration responses using the Stockwell transform (ST) to generate spectrograms. Subsequently, the ST outputs become the input of two series of Convolutional Neural Networks (CNNs) established for identifying deterioration and damage to the building models. To the best of our knowledge, this is the first time that both damage and deterioration are evaluated on building models through a combination of ST and CNN with high accuracy. | 翻訳日:2021-11-12 20:07:24 公開日:2021-11-11 |
# (参考訳) ネットワークにおけるモビリティの理解:ノード埋め込みアプローチ Understanding mobility in networks: A node embedding approach ( http://arxiv.org/abs/2111.06161v1 ) ライセンス: CC BY 4.0 | Matheus F. C. Barros, Carlos H. G. Ferreira, Bruno Pereira dos Santos, Louren\c{c}o A. P. J\'unior, Marco Mellia, Jussara M. Almeida | (参考訳) メッセージの接続や交換が可能なモバイルデバイスが増えている中で,ネットワーク内のノード移動をモデル化し,分析することを目的とした手法を提案する。
文献における既存のソリューションの多くは、ノードの接触グラフを直接計算したトポロジカルな測定に依存しており、ネットワークのプロトタイピング、設計、配置に有用な接続性とモビリティパターンの観点からノードの重要性を捉えることを目的としている。
しかしながら、各測度はその特異性を持ち、最終的に時間とともに変化するノードの重要性の概念を一般化することができない。
従来のアプローチとは異なり,本手法は,モビリティとコネクティビティパターンにおけるノードの重要性をモデル化し,公開するノード埋め込み手法に基づいている。
グループミーティングの痕跡に基づくケーススタディに注目した。
提案手法は,モバイルネットワークにおける様々なアプリケーションやサービスに有用な,さまざまなモビリティや接続パターンを抽出するためのリッチな表現を提供する。 Motivated by the growing number of mobile devices capable of connecting and exchanging messages, we propose a methodology aiming to model and analyze node mobility in networks. We note that many existing solutions in the literature rely on topological measurements calculated directly on the graph of node contacts, aiming to capture the notion of the node's importance in terms of connectivity and mobility patterns beneficial for prototyping, design, and deployment of mobile networks. However, each measure has its specificity and fails to generalize the node importance notions that ultimately change over time. Unlike previous approaches, our methodology is based on a node embedding method that models and unveils the nodes' importance in mobility and connectivity patterns while preserving their spatial and temporal characteristics. We focus on a case study based on a trace of group meetings. The results show that our methodology provides a rich representation for extracting different mobility and connectivity patterns, which can be helpful for various applications and services in mobile networks. | 翻訳日:2021-11-12 19:56:54 公開日:2021-11-11 |
# (参考訳) モーメントを用いた確率的近位点アルゴリズムの収束と安定性 Convergence and Stability of the Stochastic Proximal Point Algorithm with Momentum ( http://arxiv.org/abs/2111.06171v1 ) ライセンス: CC BY 4.0 | Junhyung Lyle Kim, Panos Toulis, Anastasios Kyrillidis | (参考訳) 運動量による確率勾配降下(SGDM)は、凸最適化インスタンスや非凸ニューラルネットワークトレーニングを含む多くの最適化シナリオにおいて支配的なアルゴリズムである。
しかし、確率的な設定では、運動量は勾配ノイズに干渉し、しばしば収束を保証するために特定のステップサイズと運動量選択に繋がる。
一方, 近位点法では, 不完全調律に対する数値的安定性と弾力性が注目されている。
モーメントが(確率的な)近位点法の安定性とどのように相互作用するかはほとんど研究されていない。
そこで本研究では,運動量を伴う確率的近位点アルゴリズム(SPPAM)の収束と安定性に着目し,SPPAMが適切なハイパーパラメータチューニングの下で,より優れた収縮係数を持つ確率的近位点アルゴリズム(SPPA)と比較して,より高速な線形収束率を実現することを示す。
安定性の観点からは、SPPAMはSGDMよりも問題定数に依存しており、より広いステップサイズと運動量で収束することを示す。 Stochastic gradient descent with momentum (SGDM) is the dominant algorithm in many optimization scenarios, including convex optimization instances and non-convex neural network training. Yet, in the stochastic setting, momentum interferes with gradient noise, often leading to specific step size and momentum choices in order to guarantee convergence, set aside acceleration. Proximal point methods, on the other hand, have gained much attention due to their numerical stability and elasticity against imperfect tuning. Their stochastic accelerated variants though have received limited attention: how momentum interacts with the stability of (stochastic) proximal point methods remains largely unstudied. To address this, we focus on the convergence and stability of the stochastic proximal point algorithm with momentum (SPPAM), and show that SPPAM allows a faster linear convergence rate compared to stochastic proximal point algorithm (SPPA) with a better contraction factor, under proper hyperparameter tuning. In terms of stability, we show that SPPAM depends on problem constants more favorably than SGDM, allowing a wider range of step size and momentum that lead to convergence. | 翻訳日:2021-11-12 19:45:10 公開日:2021-11-11 |
# (参考訳) 人工心電図を用いたニューラルネットワークの訓練 Training neural networks with synthetic electrocardiograms ( http://arxiv.org/abs/2111.06175v1 ) ライセンス: CC BY 4.0 | Matti Kaisti, Juho Laitala, Antti Airola | (参考訳) 本稿では,ウェアラブル・シングルリード心電図モニタによる信号を模倣した合成心電図を用いたニューラルネットワークのトレーニング手法を提案する。
学習例ごとに波形形状,rr-intervals,ノイズなどの合成信号特性が変化する領域ランダム化を用いる。
合成データで訓練されたモデルは、実際のデータで訓練されたモデルと比較される。
異なる身体活動中に記録された心電図と心房細動におけるr波の検出は、モデルを比較するために用いられる。
ランダム化を現実世界のデータで通常観測される以上のものにすることで、パフォーマンスは実データで訓練されたネットワークのパフォーマンスと同等か、または同等かに向上する。
実験では、異なるシードを持つロバストなパフォーマンスと、テストセットを特定のチューニングなしで異なるテストセットでトレーニングサンプルを示す。
この方法は、手動の注釈を必要とせずに、事実上自由に収集できるデータと正確なラベルを用いてニューラルネットワークを訓練することを可能にし、心電図生成に病特異的な事前情報を使用する場合に、心臓疾患分類における合成データの使用を拡大する可能性を開く。
さらに、データ分布は、健康関連データで通常観察されるクラス不均衡を排除し、さらに生成されたデータは本質的にプライベートである。 We present a method for training neural networks with synthetic electrocardiograms that mimic signals produced by a wearable single lead electrocardiogram monitor. We use domain randomization where the synthetic signal properties such as the waveform shape, RR-intervals and noise are varied for every training example. Models trained with synthetic data are compared to their counterparts trained with real data. Detection of r-waves in electrocardiograms recorded during different physical activities and in atrial fibrillation is used to compare the models. By allowing the randomization to increase beyond what is typically observed in the real-world data the performance is on par or superseding the performance of networks trained with real data. Experiments show robust performance with different seeds and training examples on different test sets without any test set specific tuning. The method makes possible to train neural networks using practically free-to-collect data with accurate labels without the need for manual annotations and it opens up the possibility of extending the use of synthetic data on cardiac disease classification when disease specific a priori information is used in the electrocardiogram generation. Additionally the distribution of data can be controlled eliminating class imbalances that are typically observed in health related data and additionally the generated data is inherently private. | 翻訳日:2021-11-12 19:17:29 公開日:2021-11-11 |
# (参考訳) 自然言語理解におけるマインドリードの実践的記述 An Enactivist account of Mind Reading in Natural Language Understanding ( http://arxiv.org/abs/2111.06179v1 ) ライセンス: CC BY-SA 4.0 | Peter Wallis and Bruce Edmonds | (参考訳) 本稿では,古典的AI問題に対する急進的行動主義的課題の理解を応用する。
自然言語理解はAI研究のサブフィールドであり、先駆者には簡単に見えました。
このようにチューリングテストは、コンピュータが言語を使えると仮定し、その課題は人間の知性を偽造することであった。
チェスや形式論理は必要な言語スキルに比べれば容易であることが判明した。
優れた古き良きAI(GOFAI)のテクニックは、象徴的表現が推論のコアであり、人間のコミュニケーションは、ある心から別の心へ表現を移すことから成り立っている。
しかし、このモデルにより、表現は中間言語に現れることなく、他者の心に現れることが分かる。
人々はそれを心から読んでコミュニケーションします。
AlexaやSiriのような音声インターフェイスを持つシステムは、もちろん一般的だが、制限されている。
マインドリーディングスキルを追加するのではなく、システムに偽造を可能にする“チート”を導入しました。
この不正行為は単純で、コンピュータ科学者にはわずかにしか興味がなく、哲学者には全然興味がない。
しかし、他人の意図を「直接知覚する」という実践主義的な考えについて、私たちの浮気は新しい光を浴び、この論文では、自然言語の理解が人間の間でどのように機能するかを再検討する。 In this paper we apply our understanding of the radical enactivist agenda to a classic AI-hard problem. Natural Language Understanding is a sub-field of AI research that looked easy to the pioneers. Thus the Turing Test, in its original form, assumed that the computer could use language and the challenge was to fake human intelligence. It turned out that playing chess and formal logic were easy compared to the necessary language skills. The techniques of good old-fashioned AI (GOFAI) assume symbolic representation is the core of reasoning and human communication consisted of transferring representations from one mind to another. But by this model one finds that representations appear in another's mind, without appearing in the intermediary language. People communicate by mind reading it seems. Systems with speech interfaces such as Alexa and Siri are of course common but they are limited. Rather than adding mind reading skills, we introduced a "cheat" that enabled our systems to fake it. The cheat is simple and only slightly interesting to computer scientists and not at all interesting to philosophers. However, reading about the enactivist idea that we "directly perceive" the intentions of others, our cheat took on a new light and in this paper look again at how natural language understanding might actually work between humans. | 翻訳日:2021-11-12 18:57:58 公開日:2021-11-11 |
# (参考訳) Virtual Adversarial Training を用いた多言語・多言語感情認識 Multilingual and Multilabel Emotion Recognition using Virtual Adversarial Training ( http://arxiv.org/abs/2111.06181v1 ) ライセンス: CC BY 4.0 | Vikram Gupta | (参考訳) VAT(Virtual Adversarial Training)は、コンピュータビジョンとNLPタスクの両方の教師付きおよび半教師付き設定の下で堅牢なモデルを学ぶのに有効である。
しかし,多言語・多音節のテキスト分類におけるvatの有効性はこれまでに検討されていない。
本研究では、異なる言語からの未ラベルデータを活用してモデル性能を向上させるマルチラベル感情認識のためのVATについて検討する。
我々はSemEval2018マルチラベルと多言語感情認識データセットに関する広範な半教師付き実験を行い、同じラベル付きデータ(トレーニングデータの10%)による教師付き学習よりも6.2%(アラビア語)、3.8%(スペイン語)、1.8%(英語)のパフォーマンス向上を示した。
また,既存の現状をスペイン語,アラビア語,英語でそれぞれ7%,4.5%,1%(ジャカード指数)で改善し,文脈モデルの異なる層の影響を理解するための探索実験を行った。 Virtual Adversarial Training (VAT) has been effective in learning robust models under supervised and semi-supervised settings for both computer vision and NLP tasks. However, the efficacy of VAT for multilingual and multilabel text classification has not been explored before. In this work, we explore VAT for multilabel emotion recognition with a focus on leveraging unlabelled data from different languages to improve the model performance. We perform extensive semi-supervised experiments on SemEval2018 multilabel and multilingual emotion recognition dataset and show performance gains of 6.2% (Arabic), 3.8% (Spanish) and 1.8% (English) over supervised learning with same amount of labelled data (10% of training data). We also improve the existing state-of-the-art by 7%, 4.5% and 1% (Jaccard Index) for Spanish, Arabic and English respectively and perform probing experiments for understanding the impact of different layers of the contextual models. | 翻訳日:2021-11-12 18:43:44 公開日:2021-11-11 |
# (参考訳) Setswana と Sepedi の言語間埋め込みの訓練 Training Cross-Lingual embeddings for Setswana and Sepedi ( http://arxiv.org/abs/2111.06230v1 ) ライセンス: CC BY 4.0 | Mack Makgatho, Vukosi Marivate, Tshephisho Sefara, Valencia Wagner | (参考訳) アフリカの言語は、自然言語処理技術の進歩にまだ遅れている。1つの理由は、代表データがないため、言語間で情報を転送できる技術は、データの問題の欠如を緩和するのに役立ちます。
本稿では,Setswana と Sepedi の単言語語ベクトルを学習し,VecMap を用いてセツワナ・セペディの言語間埋め込みを作成し,言語間移動を行う。
単語埋め込みは単語を連続浮動小数点として表現するワードベクトルであり、n次元空間の近傍の点に意味的に類似した単語がマッピングされる。
単語埋め込みの概念は、意味的に類似した単語が類似した文脈で分布するという分布仮説に基づいている(harris, 1954)。
言語間埋め込みは、類似した意味を持つ単語が類似したベクトルで表されるように、個別に訓練された2つの単言語ベクトルに対して共有ベクトル空間を学習することにより、単言語埋め込みを利用する。
本稿では,Setswana-Sepedi単言語単語ベクトルの言語間埋め込みについて検討する。
教師なしの言語間埋め込みをVecMapで使用し、セツワナ・セペディ語間の単語埋め込みを訓練する。
意味的評価タスクを用いてセツワナ・セペディ語間単語表現の品質を評価する。
意味的類似性タスクについては,WordSim と SimLex のタスクを Setswana と Sepedi に翻訳した。
他の研究者のためにこの研究の一環として、このデータセットをリリースします。
単語埋め込みのセマンティック表現に改善があるかどうかを判断するために,埋め込みの固有の品質を評価する。 African languages still lag in the advances of Natural Language Processing techniques, one reason being the lack of representative data, having a technique that can transfer information between languages can help mitigate against the lack of data problem. This paper trains Setswana and Sepedi monolingual word vectors and uses VecMap to create cross-lingual embeddings for Setswana-Sepedi in order to do a cross-lingual transfer. Word embeddings are word vectors that represent words as continuous floating numbers where semantically similar words are mapped to nearby points in n-dimensional space. The idea of word embeddings is based on the distribution hypothesis that states, semantically similar words are distributed in similar contexts (Harris, 1954). Cross-lingual embeddings leverages monolingual embeddings by learning a shared vector space for two separately trained monolingual vectors such that words with similar meaning are represented by similar vectors. In this paper, we investigate cross-lingual embeddings for Setswana-Sepedi monolingual word vector. We use the unsupervised cross lingual embeddings in VecMap to train the Setswana-Sepedi cross-language word embeddings. We evaluate the quality of the Setswana-Sepedi cross-lingual word representation using a semantic evaluation task. For the semantic similarity task, we translated the WordSim and SimLex tasks into Setswana and Sepedi. We release this dataset as part of this work for other researchers. We evaluate the intrinsic quality of the embeddings to determine if there is improvement in the semantic representation of the word embeddings. | 翻訳日:2021-11-12 18:29:08 公開日:2021-11-11 |
# (参考訳) リカレント畳み込みネットワークによる短期気象予測の改善 Improvements to short-term weather prediction with recurrent-convolutional networks ( http://arxiv.org/abs/2111.06240v1 ) ライセンス: CC BY 4.0 | Jussi Leinonen | (参考訳) weather4cast 2021コンペティションでは、参加者は衛星ベースの気象データの2次元フィールドの時間発展を予測するタスクを与えられた。
本稿は,第1段階において最初の成功をおさめた後,第2段階においてモデルをさらに改善するための著者の努力について述べる。
改良は、より深いバージョンと競争力のある浅いモデル変種、adabeliefオプティマイザの採用、トレーニングセットが検証セットをうまく表現していないことが判明した予測変数の処理の改善、結果を改善するために複数のモデルをセンセンシングした。
競技の指標に対する最大の量的改善は、競技の第2段階で利用可能なトレーニングデータの量の増加と、モデルアンサンブルの影響によるものである。
定性的な結果は、モデルがフィールドの経時的動きを含むフィールドの時間的進化を予測できることを示しており、これは近未来の鋭い予測から始まり、不確実性の増加を考慮した後のフレームの出力のぼやけから始まっている。 The Weather4cast 2021 competition gave the participants a task of predicting the time evolution of two-dimensional fields of satellite-based meteorological data. This paper describes the author's efforts, after initial success in the first stage of the competition, to improve the model further in the second stage. The improvements consisted of a shallower model variant that is competitive against the deeper version, adoption of the AdaBelief optimizer, improved handling of one of the predicted variables where the training set was found not to represent the validation set well, and ensembling multiple models to improve the results further. The largest quantitative improvements to the competition metrics can be attributed to the increased amount of training data available in the second stage of the competition, followed by the effects of model ensembling. Qualitative results show that the model can predict the time evolution of the fields, including the motion of the fields over time, starting with sharp predictions for the immediate future and blurring of the outputs in later frames to account for the increased uncertainty. | 翻訳日:2021-11-12 18:11:22 公開日:2021-11-11 |
# (参考訳) 高速高精度物体把握のためのディープラーニングと3次元視覚技術を組み合わせた6次元ポーズ推定 6D Pose Estimation with Combined Deep Learning and 3D Vision Techniques for a Fast and Accurate Object Grasping ( http://arxiv.org/abs/2111.06276v1 ) ライセンス: CC BY 4.0 | Tuan-Tang Le, Trung-Son Le, Yu-Ru Chen, Joel Vidal, Chyi-Yeu Lin | (参考訳) その後の正確な操作タスクをサポートするリアルタイムロボット把持は、高度に高度な自律システムへの優先目標である。
しかし、時間効率で十分に正確に把握できるようなアルゴリズムはまだ見つからない。
本稿では,深層ニューラルネットワークを用いた高速な2次元物体認識と,それに続く高精度かつ高速な6次元ポーズ推定とを組み合わせて,リアルタイムな3次元物体認識・把握ソリューションを構築する手法を提案する。
提案するソリューションは、リアルタイムアプリケーションで堅牢に動作し、効率と精度の両方を必要とする可能性がある。
提案手法を検証するため,我々のデータセットの精巧な作成を含む広範囲かつ徹底的な実験を行った。
実験の結果,提案手法の精度は5cm5degで97.37%,平均距離で99.37%であった。
実験の結果, 提案手法を用いて, 62%の相対的改善(5cm5deg)と52.48%(平均距離)が得られた。
また、ポーズ推定実行では、実行時間の平均が47.6%向上した。
最後に、リアルタイム操作におけるシステム全体の効率を示すために、ピック・アンド・プレースロボット実験を行い、90%の精度で説得力のある成功率を示した。
この実験ビデオはhttps://sites.google.com/view/dl-ppf6dpose/で見ることができる。 Real-time robotic grasping, supporting a subsequent precise object-in-hand operation task, is a priority target towards highly advanced autonomous systems. However, such an algorithm which can perform sufficiently-accurate grasping with time efficiency is yet to be found. This paper proposes a novel method with a 2-stage approach that combines a fast 2D object recognition using a deep neural network and a subsequent accurate and fast 6D pose estimation based on Point Pair Feature framework to form a real-time 3D object recognition and grasping solution capable of multi-object class scenes. The proposed solution has a potential to perform robustly on real-time applications, requiring both efficiency and accuracy. In order to validate our method, we conducted extensive and thorough experiments involving laborious preparation of our own dataset. The experiment results show that the proposed method scores 97.37% accuracy in 5cm5deg metric and 99.37% in Average Distance metric. Experiment results have shown an overall 62% relative improvement (5cm5deg metric) and 52.48% (Average Distance metric) by using the proposed method. Moreover, the pose estimation execution also showed an average improvement of 47.6% in running time. Finally, to illustrate the overall efficiency of the system in real-time operations, a pick-and-place robotic experiment is conducted and has shown a convincing success rate with 90% of accuracy. This experiment video is available at https://sites.google.com/view/dl-ppf6dpose/. | 翻訳日:2021-11-12 18:01:11 公開日:2021-11-11 |
# (参考訳) 画像品質評価に関する関連研究 Related Work on Image Quality Assessment ( http://arxiv.org/abs/2111.06291v1 ) ライセンス: CC BY 4.0 | Dongxu Wang | (参考訳) 視覚信号取得、圧縮、伝送、表示の様々な段階で導入される品質劣化が存在するため、画像ベースのアプリケーションでは画質評価(iqa)が重要な役割を果たす。
参照画像が完全で利用可能かどうかに応じて、画像品質評価は、Full-Reference(FR)、ReduceedReference(RR)、Non-Reference(NR)の3つのカテゴリに分けられる。
本稿では,最新の画像品質評価アルゴリズムについて概説する。 Due to the existence of quality degradations introduced in various stages of visual signal acquisition, compression, transmission and display, image quality assessment (IQA) plays a vital role in image-based applications. According to whether the reference image is complete and available, image quality evaluation can be divided into three categories: Full-Reference(FR), Reduced- Reference(RR), and Non- Reference(NR). This article will review the state-of-the-art image quality assessment algorithms. | 翻訳日:2021-11-12 17:59:58 公開日:2021-11-11 |
# (参考訳) 車両内の携帯電話ユーザの位置を自動的に識別する Automatically identifying a mobile phone user's position within a vehicle ( http://arxiv.org/abs/2111.06306v1 ) ライセンス: CC BY 4.0 | Matt Knutson, Kevin Kramer, Sara Seifert, Ryan Chamberlain | (参考訳) 交通事故や死亡事故はアメリカ合衆国の主要な健康リスクである。
運転中の携帯電話の使用は、自動車事故のリスクを4倍にする。
本研究は,携帯電話カメラを用いて車両内の携帯電話ユーザの位置を受動的に検出することの実現可能性を示す。
大きくて多様なデータセットでは、ユーザーが運転席にいるか、94.9%の精度で乗客席にいるかを正確に特定することができた。
このモデルは、ユーザが運転中に機能を選択的に変更またはロックするために、アプリケーション開発者が使用することができる。 Traffic-related injuries and fatalities are major health risks in the United States. Mobile phone use while driving quadruples the risk for a motor vehicle crash. This work demonstrates the feasibility of using the mobile phone camera to passively detect the location of the phone's user within a vehicle. In a large, varied dataset we were able correctly identify if the user was in the driver's seat or one of the passenger seats with 94.9% accuracy. This model could be used by application developers to selectively change or lock functionality while a user is driving, but not if the user is a passenger in a moving vehicle. | 翻訳日:2021-11-12 17:46:24 公開日:2021-11-11 |
# (参考訳) グラフ表現学習のためのインプシットSVD Implicit SVD for Graph Representation Learning ( http://arxiv.org/abs/2111.06312v1 ) ライセンス: CC BY 4.0 | Sami Abu-El-Haija, Hesham Mostafa, Marcel Nassar, Valentino Crespi, Greg Ver Steeg, Aram Galstyan | (参考訳) 最近のグラフ表現学習(grl)のための最先端(sota)手法の性能改善は、トレーニングのための重要な計算リソース要件(例えば、多くのデータ時代におけるバックプロップによる勾配計算など)のコストがかかっている。
一方、特異値分解(SVD)は、ほんの一握りのエポックを用いて、凸問題に対する閉形式解を見つけることができる。
本稿では,モデムハードウェアのユーザに対して,GRLをより計算処理しやすいものにする。
我々は,定義行列のSVDを計算するフレームワークを設計し,このフレームワークを複数のGRLタスクに適用する。
各タスクに対して、SOTAモデルの線形近似を導出します。そこでは、$\mathbf{M}$のエントリを計算せずに、$\mathbf{M}$のSVDを介して、行列 $\mathbf{M}$を設計し、クローズドフォームでモデルを訓練します。
1ステップで一意な点に収束し、勾配を計算せずに、論文引用や生体相互作用ネットワークといった様々なグラフ上での競争力のある経験的テスト性能を示す。
さらに重要なことは、SVDはより深いモデルの初期化が可能であり、ほとんどどこでも非線形に設計されているが、パラメータが超平面上に置かれ、SVDが初期化すると線形に振る舞う。
さらに深いモデルは、わずか数エポックで微調整できる。
提案手法は,実証試験性能と競合しながら,最先端の手法よりも数百倍速く訓練する。
私たちは実装をhttps://github.com/samihaija/isvdでオープンソース化しました。 Recent improvements in the performance of state-of-the-art (SOTA) methods for Graph Representational Learning (GRL) have come at the cost of significant computational resource requirements for training, e.g., for calculating gradients via backprop over many data epochs. Meanwhile, Singular Value Decomposition (SVD) can find closed-form solutions to convex problems, using merely a handful of epochs. In this paper, we make GRL more computationally tractable for those with modest hardware. We design a framework that computes SVD of \textit{implicitly} defined matrices, and apply this framework to several GRL tasks. For each task, we derive linear approximation of a SOTA model, where we design (expensive-to-store) matrix $\mathbf{M}$ and train the model, in closed-form, via SVD of $\mathbf{M}$, without calculating entries of $\mathbf{M}$. By converging to a unique point in one step, and without calculating gradients, our models show competitive empirical test performance over various graphs such as article citation and biological interaction networks. More importantly, SVD can initialize a deeper model, that is architected to be non-linear almost everywhere, though behaves linearly when its parameters reside on a hyperplane, onto which SVD initializes. The deeper model can then be fine-tuned within only a few epochs. Overall, our procedure trains hundreds of times faster than state-of-the-art methods, while competing on empirical test performance. We open-source our implementation at: https://github.com/samihaija/isvd | 翻訳日:2021-11-12 17:41:19 公開日:2021-11-11 |
# (参考訳) 混合交通における連結車両と自律車両の協調車線変更のためのマルチエージェント強化学習 Multi-agent Reinforcement Learning for Cooperative Lane Changing of Connected and Autonomous Vehicles in Mixed Traffic ( http://arxiv.org/abs/2111.06318v1 ) ライセンス: CC BY 4.0 | Wei Zhou, Dong Chen, Jun Yan, Zhaojian Li, Huilin Yin, Wanchen Ge | (参考訳) 自動運転は過去20年で大きな研究関心を集めており、運転者の運転不足や交通渋滞の緩和など、多くの潜在的な利益を提供している。
将来性はあるものの、車線変更は自動運転車(AV)にとって大きな課題であり、特に混合および動的交通シナリオにおいてである。
近年,データ駆動型強力な制御手法である強化学習 (RL) が, AV の車線変更意思決定のために広く研究されている。
しかし、これらの研究の大半は単車種に焦点を合わせており、人間駆動車(HDV)と共存する複数のAVの文脈での車線変更は、ほとんど注目されていない。
本稿では,混在高速道路環境における複数のAVの車線変更決定をマルチエージェント強化学習(MARL)問題として定式化し,各AVが隣接するAVとHDVの両方の動きに基づいて車線変更決定を行う。
具体的には,新しい局所報酬設計とパラメータ共有方式を用いて,マルチエージェント・アドバンテージ・アクタ-クリティックネットワーク(ma2c)を開発した。
特に, 燃料効率, 運転快適性, 自律運転の安全性を考慮した多目的報酬関数を提案する。
3つの異なる交通密度と様々なレベルの人間ドライバー攻撃性の下で実施した総合的な実験結果から,提案手法は,効率,安全性,快適性において,最先端のベンチマークを一貫して上回っていることが示された。 Autonomous driving has attracted significant research interests in the past two decades as it offers many potential benefits, including releasing drivers from exhausting driving and mitigating traffic congestion, among others. Despite promising progress, lane-changing remains a great challenge for autonomous vehicles (AV), especially in mixed and dynamic traffic scenarios. Recently, reinforcement learning (RL), a powerful data-driven control method, has been widely explored for lane-changing decision makings in AVs with encouraging results demonstrated. However, the majority of those studies are focused on a single-vehicle setting, and lane-changing in the context of multiple AVs coexisting with human-driven vehicles (HDVs) have received scarce attention. In this paper, we formulate the lane-changing decision making of multiple AVs in a mixed-traffic highway environment as a multi-agent reinforcement learning (MARL) problem, where each AV makes lane-changing decisions based on the motions of both neighboring AVs and HDVs. Specifically, a multi-agent advantage actor-critic network (MA2C) is developed with a novel local reward design and a parameter sharing scheme. In particular, a multi-objective reward function is proposed to incorporate fuel efficiency, driving comfort, and safety of autonomous driving. Comprehensive experimental results, conducted under three different traffic densities and various levels of human driver aggressiveness, show that our proposed MARL framework consistently outperforms several state-of-the-art benchmarks in terms of efficiency, safety and driver comfort. | 翻訳日:2021-11-12 17:12:26 公開日:2021-11-11 |
# (参考訳) 定常ステップによるsgd型アルゴリズムの定常挙動:漸近的特徴付け Stationary Behavior of Constant Stepsize SGD Type Algorithms: An Asymptotic Characterization ( http://arxiv.org/abs/2111.06328v1 ) ライセンス: CC BY 4.0 | Zaiwei Chen, Shancong Mou, and Siva Theja Maguluri | (参考訳) 確率近似 (SA) と確率勾配降下 (SGD) アルゴリズムは、現代の機械学習アルゴリズムのワークホースである。
それらの定常段階的変種は、高速収束挙動のために実際に好まれる。
しかし、定数ステップ確率反復アルゴリズムは漸近的に最適解に収束するのではなく、解析的に特徴づけられない定常分布を持つ。
本研究では, 定段化が0になる極限において, 適度にスケールされた定常分布の漸近的挙動について検討する。
具体的には,(1)滑らかで凸度の高いSGDアルゴリズム,(2)Hurwitz行列を含む線形SAアルゴリズム,(3)契約演算子を含む非線形SAアルゴリズムの3つの設定を考える。
反復が 1/\sqrt{\alpha}$ でスケールすると、$\alpha$ は定数ステップサイズであり、制限されたスケールされた定常分布は積分方程式の解であることを示す。
この方程式上の一意性仮定(特定の設定で除去できる)の下で、この極限分布を、共分散行列が適切なリャプノフ方程式の唯一の解であるガウス分布として特徴づける。
これらの場合を超えるsaアルゴリズムについて、我々の数値実験は中央極限定理の型と異なり、(1)スケーリング係数は 1/\sqrt{\alpha}$ でなければならず、(2) 制限分布はガウス分布である必要はないことを示唆している。
数値的な研究に基づいて、正しいスケーリング係数を決定する公式を考案し、確率微分方程式を近似するオイラー・丸山離散化スキームに洞察力のある接続を行う。 Stochastic approximation (SA) and stochastic gradient descent (SGD) algorithms are work-horses for modern machine learning algorithms. Their constant stepsize variants are preferred in practice due to fast convergence behavior. However, constant step stochastic iterative algorithms do not converge asymptotically to the optimal solution, but instead have a stationary distribution, which in general cannot be analytically characterized. In this work, we study the asymptotic behavior of the appropriately scaled stationary distribution, in the limit when the constant stepsize goes to zero. Specifically, we consider the following three settings: (1) SGD algorithms with smooth and strongly convex objective, (2) linear SA algorithms involving a Hurwitz matrix, and (3) nonlinear SA algorithms involving a contractive operator. When the iterate is scaled by $1/\sqrt{\alpha}$, where $\alpha$ is the constant stepsize, we show that the limiting scaled stationary distribution is a solution of an integral equation. Under a uniqueness assumption (which can be removed in certain settings) on this equation, we further characterize the limiting distribution as a Gaussian distribution whose covariance matrix is the unique solution of a suitable Lyapunov equation. For SA algorithms beyond these cases, our numerical experiments suggest that unlike central limit theorem type results: (1) the scaling factor need not be $1/\sqrt{\alpha}$, and (2) the limiting distribution need not be Gaussian. Based on the numerical study, we come up with a formula to determine the right scaling factor, and make insightful connection to the Euler-Maruyama discretization scheme for approximating stochastic differential equations. | 翻訳日:2021-11-12 16:58:36 公開日:2021-11-11 |
# (参考訳) コントラスト再建からの無監督部分発見 Unsupervised Part Discovery from Contrastive Reconstruction ( http://arxiv.org/abs/2111.06349v1 ) ライセンス: CC BY 4.0 | Subhabrata Choudhury, Iro Laina, Christian Rupprecht, Andrea Vedaldi | (参考訳) 自己監督型視覚表現学習の目標は、オブジェクトやシーンレベルに焦点を当てた、強く伝達可能な画像表現を学習することである。
一方,部分レベルでの表現学習は注目度が大幅に低下している。
本稿では,対象部分の発見とセグメンテーションに対する教師なしアプローチを提案し,三つの貢献を行う。
まず、目的の集合を通してプロキシタスクを構築し、モデルがイメージをその部分へ有意義に分解することを奨励する。
第2に、事前計算された特徴の再構成やクラスタリングを部品の代用として論じており、低解像度と空間的に情報を抽出する分類ネットワークの傾向から、これだけで意味のある部分を見つけることは不可能であることを示す。
画素レベルでの画像再構成はこの問題を緩和し,補足的な手がかりとして機能することを示唆する。
最後に,キーポイント回帰に基づく標準評価はセグメンテーション品質とよく相関しないことを示した。
本手法は,細粒度だが視覚的に異なるカテゴリにまたがって一貫性のある意味的部品を産出し,3つのベンチマークデータセットにおける最先端技術に匹敵する。
コードはプロジェクトページで入手できる。 https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/。 The goal of self-supervised visual representation learning is to learn strong, transferable image representations, with the majority of research focusing on object or scene level. On the other hand, representation learning at part level has received significantly less attention. In this paper, we propose an unsupervised approach to object part discovery and segmentation and make three contributions. First, we construct a proxy task through a set of objectives that encourages the model to learn a meaningful decomposition of the image into its parts. Secondly, prior work argues for reconstructing or clustering pre-computed features as a proxy to parts; we show empirically that this alone is unlikely to find meaningful parts; mainly because of their low resolution and the tendency of classification networks to spatially smear out information. We suggest that image reconstruction at the level of pixels can alleviate this problem, acting as a complementary cue. Lastly, we show that the standard evaluation based on keypoint regression does not correlate well with segmentation quality and thus introduce different metrics, NMI and ARI, that better characterize the decomposition of objects into parts. Our method yields semantic parts which are consistent across fine-grained but visually distinct categories, outperforming the state of the art on three benchmark datasets. Code is available at the project page: https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/. | 翻訳日:2021-11-12 16:31:01 公開日:2021-11-11 |
# (参考訳) 答えセットプログラミングが簡単になった Answer Set Programming Made Easy ( http://arxiv.org/abs/2111.06366v1 ) ライセンス: CC BY 4.0 | Jorge Fandinno, Seemran Mishra, Javier Romero, Torsten Schaub | (参考訳) 私たちは、Answer Set Programmingの民話から、すなわち、選択、整合性制約と制限されたルールフォーマットが、Answer Set Programmingにとって十分であるという考えを取り上げます。
我々は、この概念の基礎をヘレ・アンド・ザレの論理の文脈で詳述し、定義による拡張の論理原理からどのように導出できるかを示す。
次に、古典論理における連結正規形式に似た論理プログラムの正規形式として機能するアスター型論理プログラムを提供する。
最後に、重要なアイデアを取り上げ、ASP初心者向けのモデリング方法論を提案し、それがどのように使用できるかを説明します。 We take up an idea from the folklore of Answer Set Programming, namely that choices, integrity constraints along with a restricted rule format is sufficient for Answer Set Programming. We elaborate upon the foundations of this idea in the context of the logic of Here-and-There and show how it can be derived from the logical principle of extension by definition. We then provide an austere form of logic programs that may serve as a normalform for logic programs similar to conjunctive normalform in classical logic. Finally, we take the key ideas and propose a modeling methodology for ASP beginners and illustrate how it can be used. | 翻訳日:2021-11-12 16:10:17 公開日:2021-11-11 |
# (参考訳) 生成的深層学習を用いた超解答ダークマターハロー Super-resolving Dark Matter Halos using Generative Deep Learning ( http://arxiv.org/abs/2111.06393v1 ) ライセンス: CC BY 4.0 | David Schaurecker, Yin Li, Jeremy Tinker, Shirley Ho, Alexandre Refregier | (参考訳) 畳み込みニューラルネットワーク(cnns)に基づく生成的ディープラーニング手法は、宇宙論における非線形構造を予測するための優れたツールを提供する。
本研究では,高分解能暗黒物質ハロを大規模で低分解能暗黒物質のみのシミュレーションから予測する。
これは、低分解能を同じ宇宙論、初期条件、ボックスサイズを共有するシミュレーションの高分解能密度場にマッピングすることで達成される。
質量分解能を8倍に向上させるため,条件付きGANを用いたU-Netの変動を利用して,高分解能ターゲットと視覚的,統計的に極めてよく一致した出力を生成する。
本手法は,低分解能シミュレーションからgpc/hボックスサイズ以上の高分解能密度出力を生成することができることを示唆する。 Generative deep learning methods built upon Convolutional Neural Networks (CNNs) provide a great tool for predicting non-linear structure in cosmology. In this work we predict high resolution dark matter halos from large scale, low resolution dark matter only simulations. This is achieved by mapping lower resolution to higher resolution density fields of simulations sharing the same cosmology, initial conditions and box-sizes. To resolve structure down to a factor of 8 increase in mass resolution, we use a variation of U-Net with a conditional GAN, generating output that visually and statistically matches the high resolution target extremely well. This suggests that our method can be used to create high resolution density output over Gpc/h box-sizes from low resolution simulations with negligible computational effort. | 翻訳日:2021-11-12 15:49:34 公開日:2021-11-11 |
# 確率ハイブリッドシステムのモデルベース強化学習 Model-Based Reinforcement Learning for Stochastic Hybrid Systems ( http://arxiv.org/abs/2111.06211v1 ) ライセンス: Link先を確認 | Hany Abdulsamad and Jan Peters | (参考訳) 一般的な非線形システムの最適制御は、自動化における中心的な課題である。
強力な関数近似器によって実現されたデータ駆動型制御アプローチは、最近、困難なロボットアプリケーションに取り組むことに成功している。
しかし、そのような手法はしばしばブラックボックスの過度パラメータ化表現の背後にある力学や制御の構造を曖昧にするため、閉ループの振る舞いを理解する能力は制限される。
本稿では,非線形モデリングと制御のハイブリッドシステム・ビューを採用し,問題に対して明示的な階層構造を付与し,複雑なダイナミクスをより単純な局所化単位に分解する。
そこで本研究では,データの時間構造を解析し,非線形境界を持つ確率的アフィン系に非線形ダイナミクスを自動的に分解する排他最大化(EM)アルゴリズムを提案する。
さらに,これらの時系列モデルは,非線形専門家から局所線形あるいは多項式フィードバックコントローラを模倣学習によって抽出する閉ループ拡張を自然に認めることを示す。
最後に、ハイブリッドシステムの階層的性質を取り入れ、大域値関数の局所多項式近似から導出される時間不変局所フィードバックコントローラの集合を最適化する、新しいハイブリッド実数エントロピーポリシー探索(hb-reps)手法を提案する。 Optimal control of general nonlinear systems is a central challenge in automation. Data-driven approaches to control, enabled by powerful function approximators, have recently had great success in tackling challenging robotic applications. However, such methods often obscure the structure of dynamics and control behind black-box over-parameterized representations, thus limiting our ability to understand the closed-loop behavior. This paper adopts a hybrid-system view of nonlinear modeling and control that lends an explicit hierarchical structure to the problem and breaks down complex dynamics into simpler localized units. Therefore, we consider a sequence modeling paradigm that captures the temporal structure of the data and derive an expecation-maximization (EM) algorithm that automatically decomposes nonlinear dynamics into stochastic piecewise affine dynamical systems with nonlinear boundaries. Furthermore, we show that these time-series models naturally admit a closed-loop extension that we use to extract locally linear or polynomial feedback controllers from nonlinear experts via imitation learning. Finally, we introduce a novel hybrid realtive entropy policy search (Hb-REPS) technique that incorporates the hierarchical nature of hybrid systems and optimizes a set of time-invariant local feedback controllers derived from a locally polynomial approximation of a global value function. | 翻訳日:2021-11-12 15:30:42 公開日:2021-11-11 |
# 判別器制約最適搬送による教師なし雑音適応音声強調 Unsupervised Noise Adaptive Speech Enhancement by Discriminator-Constrained Optimal Transport ( http://arxiv.org/abs/2111.06316v1 ) ライセンス: Link先を確認 | Hsin-Yi Lin, Huan-Hsin Tseng, Xugang Lu and Yu Tsao | (参考訳) 本稿では,音声処理における重要な回帰課題である音声強調のための教師なし領域適応を行う,識別器制約付き最適輸送ネットワーク(DOTN)を提案する。
DOTNは、ソースドメインから利用可能な知識を利用して、ターゲットドメインにおけるノイズの多い音声のクリーンな参照を推定することを目的としている。
トレーニングデータとテストデータのドメインシフトは、さまざまな分野における学習問題の障害であると報告されている。
分類のための教師なし領域適応に関する文献は豊富にあるが、特に回帰において提案される手法は乏しく、入力データに関する追加情報に依存することが多い。
提案したDOTNアプローチは、最適輸送(OT)理論を、生成的敵対的なフレームワークを用いた数学的解析から解き放つことによって、対象領域における連続ラベルの評価を支援する。
2つのSEタスクの実験結果から,従来のOTの定式化を拡張することにより,提案したDOTNは従来のドメイン適応フレームワークを純粋に教師なしで上回ることを示す。 This paper presents a novel discriminator-constrained optimal transport network (DOTN) that performs unsupervised domain adaptation for speech enhancement (SE), which is an essential regression task in speech processing. The DOTN aims to estimate clean references of noisy speech in a target domain, by exploiting the knowledge available from the source domain. The domain shift between training and testing data has been reported to be an obstacle to learning problems in diverse fields. Although rich literature exists on unsupervised domain adaptation for classification, the methods proposed, especially in regressions, remain scarce and often depend on additional information regarding the input data. The proposed DOTN approach tactically fuses the optimal transport (OT) theory from mathematical analysis with generative adversarial frameworks, to help evaluate continuous labels in the target domain. The experimental results on two SE tasks demonstrate that by extending the classical OT formulation, our proposed DOTN outperforms previous adversarial domain adaptation frameworks in a purely unsupervised manner. | 翻訳日:2021-11-12 15:28:43 公開日:2021-11-11 |
# サーロゲートモデルを用いた3次元ステント再狭窄モデルの不確かさ定量化 Uncertainty quantification of a 3D In-Stent Restenosis model with surrogate modelling ( http://arxiv.org/abs/2111.06173v1 ) ライセンス: Link先を確認 | Dongwei Ye, Pavel Zun, Valeria Krzhizhanovskaya, Alfons G. Hoekstra | (参考訳) In-Stent Restenosisはバルーン拡張とステント留置による血管障害による冠動脈狭窄の再発である。
これは狭心症症状の再発や急性冠症候群につながる可能性がある。
内皮再生時間, 平滑筋細胞接着破壊の閾値ひずみ, 血流速度, 内弾性ラミナのフェネトレーションの割合) の4つの不確実なパラメータを持つ In-Stent Restenosis モデルの不確実性定量化を行った。
船体の平均断面積と最大相対面積損失の2つの考察を行った。
モデルの計算強度と不確かさ定量化に必要な評価数により、ガウス過程の回帰と適切な直交分解に基づく代理モデルが開発され、その後、不確かさ定量化において元のIn-Stent Restenosisモデルを置き換えた。
不確実性伝播の詳細な解析と感度解析について述べる。
平均断面積で約11%, 最大相対面積損失で約16%の不確かさが観察され, 不確実性評価は, プロセス初期における新生内膜成長における不確かさを主に決定していることを示している。
一方, 血流速度および内皮再生時間の不確かさは, 再狭窄後の臨床関連段階における関心量の不確かさを主に決定している。
閾値ひずみの不確かさは他の不確かさパラメータと比較して比較的小さい。 In-Stent Restenosis is a recurrence of coronary artery narrowing due to vascular injury caused by balloon dilation and stent placement. It may lead to the relapse of angina symptoms or to an acute coronary syndrome. An uncertainty quantification of a model for In-Stent Restenosis with four uncertain parameters (endothelium regeneration time, the threshold strain for smooth muscle cells bond breaking, blood flow velocity and the percentage of fenestration in the internal elastic lamina) is presented. Two quantities of interest were studied, namely the average cross-sectional area and the maximum relative area loss in a vessel. Due to the computational intensity of the model and the number of evaluations required in the uncertainty quantification, a surrogate model, based on Gaussian process regression with proper orthogonal decomposition, was developed which subsequently replaced the original In-Stent Restenosis model in the uncertainty quantification. A detailed analysis of the uncertainty propagation and sensitivity analysis is presented. Around 11% and 16% of uncertainty are observed on the average cross-sectional area and maximum relative area loss respectively, and the uncertainty estimates show that a higher fenestration mainly determines uncertainty in the neointimal growth at the initial stage of the process. On the other hand, the uncertainty in blood flow velocity and endothelium regeneration time mainly determine the uncertainty in the quantities of interest at the later, clinically relevant stages of the restenosis process. The uncertainty in the threshold strain is relatively small compared to the other uncertain parameters. | 翻訳日:2021-11-12 15:27:17 公開日:2021-11-11 |
# (参考訳) クラウドソーシングにおける適応的多数決の完全性 Full Characterization of Adaptively Strong Majority Voting in Crowdsourcing ( http://arxiv.org/abs/2111.06390v1 ) ライセンス: CC BY 4.0 | Margarita Boyarskaya and Panos Ipeirotis | (参考訳) クラウドソーシングにおける品質管理の一般的なテクニックは、アイテムを検査し、アイテムが正しくラベル付けされているかどうかを投票する作業を行なうことである。
労働者の反応の可能なノイズに対処するため、1つの解決策は、2つの可能な結果の投票数の違いが予め特定された閾値を超えるまで、より多くの労働者から投票を要求することである。
マルコフ連鎖を吸収する手法を用いて,このような投票結果の収集過程をモデル化する方法を示す。
この投票過程の重要な特性、すなわち、結果の品質、完成への期待投票数、必要な投票数のばらつき、その他の分布のモーメントについて、閉形式方程式を提供する。
これらの結果を用いて、精度の異なる労働者を選別する投票プロセスにおける品質等価性を達成するために、しきい値の値に適応できることを示す。
次に、この結果を用いて、異なるレベルの応答精度で特徴付けられる労働者のグループに対する効率等化の支払い率を提供する。
最後に、全合成データと実生活におけるクラウドソース投票の両方を用いてシミュレーション実験を行う。
本理論モデルでは, コンセンサス集約プロセスの結果が良好に特徴づけられることを示す。 A commonly used technique for quality control in crowdsourcing is to task the workers with examining an item and voting on whether the item is labeled correctly. To counteract possible noise in worker responses, one solution is to keep soliciting votes from more workers until the difference between the numbers of votes for the two possible outcomes exceeds a pre-specified threshold {\delta}. We show a way to model such {\delta}-margin voting consensus aggregation process using absorbing Markov chains. We provide closed-form equations for the key properties of this voting process -- namely, for the quality of the results, the expected number of votes to completion, the variance of the required number of votes, and other moments of the distribution. Using these results, we show further that one can adapt the value of the threshold {\delta} to achieve quality-equivalence across voting processes that employ workers of different accuracy levels. We then use this result to provide efficiency-equalizing payment rates for groups of workers characterized by different levels of response accuracy. Finally, we perform a set of simulated experiments using both fully synthetic data as well as real-life crowdsourced votes. We show that our theoretical model characterizes the outcomes of the consensus aggregation process well. | 翻訳日:2021-11-12 15:26:22 公開日:2021-11-11 |
# DropGNN: ランダムなドロップアウトはグラフニューラルネットワークの表現性を向上する DropGNN: Random Dropouts Increase the Expressiveness of Graph Neural Networks ( http://arxiv.org/abs/2111.06283v1 ) ライセンス: Link先を確認 | P\'al Andr\'as Papp, Karolis Martinkus, Lukas Faber, Roger Wattenhofer | (参考訳) 本稿では,標準gnnフレームワークの限界を克服する新しいアプローチであるdropout graph neural networks(dropgnns)について述べる。
DropGNNでは、入力グラフ上でGNNの複数の実行を実行する。
そして、これらの結果を組み合わせて最終的な結果を得る。
我々はDropGNNがメッセージパッシングGNNによって分離できない様々なグラフ近傍を識別できることを証明する。
我々は、ドロップアウトの信頼性の確保に必要な実行回数の理論的境界を導出し、dropgnnの表現能力と限界に関するいくつかの特性を証明した。
表現力に関する理論的知見を実験的に検証した。
さらに,DropGNNは,既存のGNNベンチマークと競合することを示す。 This paper studies Dropout Graph Neural Networks (DropGNNs), a new approach that aims to overcome the limitations of standard GNN frameworks. In DropGNNs, we execute multiple runs of a GNN on the input graph, with some of the nodes randomly and independently dropped in each of these runs. Then, we combine the results of these runs to obtain the final result. We prove that DropGNNs can distinguish various graph neighborhoods that cannot be separated by message passing GNNs. We derive theoretical bounds for the number of runs required to ensure a reliable distribution of dropouts, and we prove several properties regarding the expressive capabilities and limits of DropGNNs. We experimentally validate our theoretical findings on expressiveness. Furthermore, we show that DropGNNs perform competitively on established GNN benchmarks. | 翻訳日:2021-11-12 15:07:08 公開日:2021-11-11 |
# AlphaGarden:多文化の庭を自律的に破壊する学習 AlphaGarden: Learning to Autonomously Tend a Polyculture Garden ( http://arxiv.org/abs/2111.06014v1 ) ライセンス: Link先を確認 | Mark Presten, Yahav Avigal, Mark Theis, Satvik Sharma, Rishi Parikh, Shrey Aeron, Sandeep Mukherjee, Sebastian Oehme, Simeon Adebola, Walter Teitelbaum, Varun Kamat and Ken Goldberg | (参考訳) 本稿では,1.5m×3.0mの物理的テストベッドに植物を植えて灌水する,自律型多文化庭園であるAlphaGardenについて述べる。
AlphaGardenは頭上カメラとセンサーを使って植物の分布と土壌の水分を追跡する。
我々は、植物の成長と植物間動態をモデル化し、葉のカバレッジと多様性を最大化する行動を選択する政策を訓練する。
自律的な刈り取りのために、alphagardenは2つのカスタムデザインの刈り取りツールと訓練されたニューラルネットワークを使用してプルーンポイントを検出する。
我々は,60日間の園芸サイクルを4回実施した。
以上の結果から,alphagarden は周期のピーク時の平均キャノピーカバレッジ 0.86 を維持しつつ,刈り込みせん断によって 0.96 の正規化多様性を自律的に達成できることが示唆された。
コード、データセット、補足資料はhttps://github.com/BerkeleyAutomation/AlphaGarden.comにある。 This paper presents AlphaGarden: an autonomous polyculture garden that prunes and irrigates living plants in a 1.5m x 3.0m physical testbed. AlphaGarden uses an overhead camera and sensors to track the plant distribution and soil moisture. We model individual plant growth and interplant dynamics to train a policy that chooses actions to maximize leaf coverage and diversity. For autonomous pruning, AlphaGarden uses two custom-designed pruning tools and a trained neural network to detect prune points. We present results for four 60-day garden cycles. Results suggest AlphaGarden can autonomously achieve 0.96 normalized diversity with pruning shears while maintaining an average canopy coverage of 0.86 during the peak of the cycle. Code, datasets, and supplemental material can be found at https://github.com/BerkeleyAutomation/AlphaGarden. | 翻訳日:2021-11-12 15:06:28 公開日:2021-11-11 |
# Bag of Bytesを用いたURLビットストリームの分類 Classification of URL bitstreams using Bag of Bytes ( http://arxiv.org/abs/2111.06087v1 ) ライセンス: Link先を確認 | Keiichi Shima, Daisuke Miyamoto, Hiroshi Abe, Tomohiro Ishihara, Kazuya Okada, Yuji Sekiya, Hirochika Asai, Yusuke Doi | (参考訳) 悪意のあるWebサイトにアクセスするユーザを保護することは、ネットワークオペレータにとって重要な管理タスクのひとつだ。
アクセス可能なWebサイトを制御するオープンソースや商用製品は数多くある。
最も伝統的なアプローチはブラックリストベースのフィルタリングである。
このメカニズムは単純だが拡張性はないが、ファジィマッチング技術を利用したいくつかの改良されたアプローチがある。
他のアプローチでは、URL文字列から機能を抽出することで、機械学習(ML)技術の使用を試みる。
このアプローチは、インターネットWebサイトの広い範囲をカバーすることができるが、優れた機能を見つけるには、Webサイト設計のトレンドに関する深い知識が必要である。
近年,Deep Learning (DL) を用いた別のアプローチが出現している。
dlアプローチは、既存の多くのサンプルデータを調べることによって、自動的に機能を抽出するのに役立つ。
この技術を用いることで、ニューラルネットワークモジュールに最近のトレンドを教え続けることで、URLドメインに関する特別な知識を必要とせずに、フレキシブルなフィルタリング決定モジュールを構築することができる。
本稿では,URL文字列から特徴ベクトルを生成するための機械的手法を適用する。
提案手法を実装し,研究機関から取得した現実的なURLアクセス履歴データと,フィッシングサイト情報の有名なアーカイブサイトであるPhishTank.comから取得したデータを用いて検証を行った。
従来のDL法に比べて2~3%精度が向上した。 Protecting users from accessing malicious web sites is one of the important management tasks for network operators. There are many open-source and commercial products to control web sites users can access. The most traditional approach is blacklist-based filtering. This mechanism is simple but not scalable, though there are some enhanced approaches utilizing fuzzy matching technologies. Other approaches try to use machine learning (ML) techniques by extracting features from URL strings. This approach can cover a wider area of Internet web sites, but finding good features requires deep knowledge of trends of web site design. Recently, another approach using deep learning (DL) has appeared. The DL approach will help to extract features automatically by investigating a lot of existing sample data. Using this technique, we can build a flexible filtering decision module by keep teaching the neural network module about recent trends, without any specific expert knowledge of the URL domain. In this paper, we apply a mechanical approach to generate feature vectors from URL strings. We implemented our approach and tested with realistic URL access history data taken from a research organization and data from the famous archive site of phishing site information, PhishTank.com. Our approach achieved 2~3% better accuracy compared to the existing DL-based approach. | 翻訳日:2021-11-12 15:06:10 公開日:2021-11-11 |
# 感度シグネチャプラニングに基づく高速ブールマッチングの高速化 Enhanced Fast Boolean Matching based on Sensitivity Signatures Pruning ( http://arxiv.org/abs/2111.06213v1 ) ライセンス: Link先を確認 | Jiaxi Zhang, Liwei Ni, Shenggen Zheng, Hao Liu, Xiangfu Zou, Feng Wang, Guojie Luo | (参考訳) ブールマッチングはデジタル集積回路設計において重要である。
n変数のブール関数に対するそのようなアルゴリズムの時間複雑性は$o(2^{n+1}n!)$であるので、ブールマッチングの徹底的な手法は数変数の関数でも計算的に高価である。
感度はブール関数の複雑さの重要な特徴であり測度である。
様々な分野におけるアルゴリズムの複雑さの分析に用いられている。
この測度はブール関数の符号と見なすことができ、ブールマッチングの探索空間を減少させる大きな可能性を持つ。
本稿では,booleanマッチングにboolean感度を導入するとともに,booleanマッチングの高速化のためにいくつかの感度関連シグネチャを設計する。
まず,ブール等価性に対する感度に関する新たなシグネチャを提案する。
そして,これらのシグネチャがブールマッチングの前提条件であることを証明する。
また、2つのブール関数のシグネチャを計算・比較するための高速感度計算法を開発した。
従来の共因子および対称検出法と比較して、感度は別の次元の一連のシグネチャである。
また,感度を従来の手法と容易に統合でき,ミスマッチしたブール関数を高速に区別できることを示した。
私たちの知る限りでは、Booleanマッチングに感度を導入するのはこれが初めてです。
実験の結果,本論文で提案した感度関連シグネチャは,探索空間を極端に小さくし,最先端のブールマッチング法に対して最大3倍の高速化を実現することができた。 Boolean matching is significant to digital integrated circuits design. An exhaustive method for Boolean matching is computationally expensive even for functions with only a few variables, because the time complexity of such an algorithm for an n-variable Boolean function is $O(2^{n+1}n!)$. Sensitivity is an important characteristic and a measure of the complexity of Boolean functions. It has been used in analysis of the complexity of algorithms in different fields. This measure could be regarded as a signature of Boolean functions and has great potential to help reduce the search space of Boolean matching. In this paper, we introduce Boolean sensitivity into Boolean matching and design several sensitivity-related signatures to enhance fast Boolean matching. First, we propose some new signatures that relate sensitivity to Boolean equivalence. Then, we prove that these signatures are prerequisites for Boolean matching, which we can use to reduce the search space of the matching problem. Besides, we develop a fast sensitivity calculation method to compute and compare these signatures of two Boolean functions. Compared with the traditional cofactor and symmetric detection methods, sensitivity is a series of signatures of another dimension. We also show that sensitivity can be easily integrated into traditional methods and distinguish the mismatched Boolean functions faster. To the best of our knowledge, this is the first work that introduces sensitivity to Boolean matching. The experimental results show that sensitivity-related signatures we proposed in this paper can reduce the search space to a very large extent, and perform up to 3x speedup over the state-of-the-art Boolean matching methods. | 翻訳日:2021-11-12 15:05:51 公開日:2021-11-11 |
# 最良ランクr近似の最小エントリからの復元について On Recovering the Best Rank-r Approximation from Few Entries ( http://arxiv.org/abs/2111.06302v1 ) ライセンス: Link先を確認 | Shun Xu, Ming Yuan | (参考訳) 本稿では,大行列の最大ランク-$r$近似を少数のエントリからいかにうまく再構築できるかについて検討する。
本研究では,データ行列が全ランクであり,低ランク行列では近似できない場合でも,その最良な低ランク近似は,少数のエントリから確実に計算されるか,あるいは推定できることを示す。
データマトリックスに対する最高の低ランク近似は、しばしばそれ自身よりも興味を引いている。なぜなら、より安定で、しばしば、より複雑なデータ生成モデルの再現可能な特性を捉えるからである。
特に、スペクトルトランケーションに基づく2つの非依存的アプローチと、投射された勾配降下に基づく最適化手法について検討する。
第一のアプローチは直感的で合理的に有効であるが、後者は一般にはるかに優れた性能を持つ。
誤差は行列が低位であることにどの程度近いかに依存することを示した。
理論的および数値的な証拠はともに提案手法の有効性を示すものである。 In this note, we investigate how well we can reconstruct the best rank-$r$ approximation of a large matrix from a small number of its entries. We show that even if a data matrix is of full rank and cannot be approximated well by a low-rank matrix, its best low-rank approximations may still be reliably computed or estimated from a small number of its entries. This is especially relevant from a statistical viewpoint: the best low-rank approximations to a data matrix are often of more interest than itself because they capture the more stable and oftentimes more reproducible properties of an otherwise complicated data-generating model. In particular, we investigate two agnostic approaches: the first is based on spectral truncation; and the second is a projected gradient descent based optimization procedure. We argue that, while the first approach is intuitive and reasonably effective, the latter has far superior performance in general. We show that the error depends on how close the matrix is to being of low rank. Both theoretical and numerical evidence is presented to demonstrate the effectiveness of the proposed approaches. | 翻訳日:2021-11-12 15:05:25 公開日:2021-11-11 |
# 言葉からつながりへ: 言葉は従業員のデジタルコミュニケーションに忠実なシグナルとして類似性を使う From words to connections: Word use similarity as an honest signal conducive to employees' digital communication ( http://arxiv.org/abs/2111.06133v1 ) ライセンス: Link先を確認 | A. Fronzetti Colladon, J. Saint-Charles, P. Mongeau | (参考訳) 3つの研究動向(コラボレーションの正統的シグナル、ソシオ・セマンティクス・ネットワーク、ホモフィリー理論)から考察をまとめ、単語が類似性を使い、類似したソーシャルネットワークのポジションを持つと従業員のデジタルインタラクションのレベルに関連付けられると仮定する。
この仮説を検証するために、大企業のイントラネット通信フォーラムでやり取りする1600人近い従業員のコミュニケーションを分析した。
過去の研究で、従業員の関与とコラボレーションに寄与することが判明した社会動態と「正直なシグナル」について検討した。
単語の類似性は、他の言語の特徴やネットワーク位置の類似性よりも、対話の主要な要因であることがわかった。
この結果から,対象者に応じて言語を慎重に選択し,企業管理者とオンラインコミュニティ管理者の両方に実用的な意味を持つ可能性が示唆された。
言語をよりよく使う方法を理解することは、例えば、知識共有プラクティスや内部コミュニケーションキャンペーンの開発をサポートするだろう。 Bringing together considerations from three research trends (honest signals of collaboration, socio-semantic networks and homophily theory), we hypothesise that word use similarity and having similar social network positions are linked with the level of employees' digital interaction. To verify our hypothesis, we analyse the communication of close to 1600 employees, interacting on the intranet communication forum of a large company. We study their social dynamics and the 'honest signals' that, in past research, proved to be conducive to employees' engagement and collaboration. We find that word use similarity is the main driver of interaction, much more than other language characteristics or similarity in network position. Our results suggest carefully choosing the language according to the target audience and have practical implications for both company managers and online community administrators. Understanding how to better use language could, for example, support the development of knowledge sharing practices or internal communication campaigns. | 翻訳日:2021-11-12 15:04:47 公開日:2021-11-11 |
# ニューラルネットワークモデリングのための自己Normalized Importance Smpling Self-Normalized Importance Sampling for Neural Language Modeling ( http://arxiv.org/abs/2111.06310v1 ) ライセンス: Link先を確認 | Zijian Yang, Yingbo Gao, Alexander Gerstenberger, Jintao Jiang, Ralf Schl\"uter, Hermann Ney | (参考訳) ニューラルネットワークモデルのソフトマックス正規化において,全語彙を横切ることの問題を緩和するために,サンプルベーストレーニング基準を提案し,大語彙語ベースニューラルネットワークモデルを用いて検討した。
これらのトレーニング基準は一般的に、より高速なトレーニングとテストの利点を享受する。
ノイズコントラスト推定は最も一般的な選択肢の1つであるが,近年では,原モデルの出力から意図したクラス後続確率を復元する追加補正ステップを施す限り,他のサンプリングベース基準も良好に動作可能であることを示す。
本研究では,自己正規化重要度サンプリングを提案する。
これまでの研究と比較すると,本研究で考慮された基準は自己正規化されており,さらなる修正を行う必要はない。
ノイズコントラスト推定と比較すると,本手法はアプリケーションの複雑さの観点から直接比較できる。
自己正規化言語モデルトレーニングと格子再構成実験により,本提案の自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示した。 To mitigate the problem of having to traverse over the full vocabulary in the softmax normalization of a neural language model, sampling-based training criteria are proposed and investigated in the context of large vocabulary word-based neural language models. These training criteria typically enjoy the benefit of faster training and testing, at a cost of slightly degraded performance in terms of perplexity and almost no visible drop in word error rate. While noise contrastive estimation is one of the most popular choices, recently we show that other sampling-based criteria can also perform well, as long as an extra correction step is done, where the intended class posterior probability is recovered from the raw model outputs. In this work, we propose self-normalized importance sampling. Compared to our previous work, the criteria considered in this work are self-normalized and there is no need to further conduct a correction step. Compared to noise contrastive estimation, our method is directly comparable in terms of complexity in application. Through self-normalized language model training as well as lattice rescoring experiments, we show that our proposed self-normalized importance sampling is competitive in both research-oriented and production-oriented automatic speech recognition tasks. | 翻訳日:2021-11-12 15:04:28 公開日:2021-11-11 |
# csBoundary:高精細地図のための航空画像における都市規模道路境界検出 csBoundary: City-scale Road-boundary Detection in Aerial Images for High-definition Maps ( http://arxiv.org/abs/2111.06020v1 ) ライセンス: Link先を確認 | Zhenhua Xu, Yuxuan Liu, Lu Gan, Xiangcheng Hu, Yuxiang Sun, Lujia Wang, Ming Liu | (参考訳) high-definition(hd)マップは、自動運転のための静的交通環境の正確な幾何学的および意味的な情報を提供する。
hdマップに含まれている最も重要な情報の一つは、道路エリアと、道路エリア内を走る車両を誘導するオフロードエリアを区別するためである。
しかし、都市規模でのHDマップのアノテート道路境界は労働集約的である。
自動HDマップアノテーションを有効にするために、現在の作業ではセマンティックセグメンテーションや反復グラフを使って道路境界検出を行っている。
しかし、前者はピクセルレベルで動作し、後者は非効率とドリフトの問題に苦しんでいるため、トポロジカルな正確性を保証することができなかった。
上記の問題に対する解決策として,我々は,HDマップアノテーションの都市規模で道路境界を自動的に検出する,csBoundaryと呼ばれる新しいシステムを提案する。
我々のネットワークは、空中画像パッチを入力とし、この画像から連続した道路境界グラフ(すなわち頂点とエッジ)を直接推測する。
都市規模の道路境界グラフを生成するために,各画像パッチから得られたグラフを縫合する。
私たちのcsBoundaryは、公開ベンチマークデータセットで評価され、比較されます。
結果は我々の優位性を示している。
デモビデオはプロジェクトページ \url{https://sites.google.com/view/csboundary/} で公開されている。 High-Definition (HD) maps can provide precise geometric and semantic information of static traffic environments for autonomous driving. Road-boundary is one of the most important information contained in HD maps since it distinguishes between road areas and off-road areas, which can guide vehicles to drive within road areas. But it is labor-intensive to annotate road boundaries for HD maps at the city scale. To enable automatic HD map annotation, current work uses semantic segmentation or iterative graph growing for road-boundary detection. However, the former could not ensure topological correctness since it works at the pixel level, while the latter suffers from inefficiency and drifting issues. To provide a solution to the aforementioned problems, in this letter, we propose a novel system termed csBoundary to automatically detect road boundaries at the city scale for HD map annotation. Our network takes as input an aerial image patch, and directly infers the continuous road-boundary graph (i.e., vertices and edges) from this image. To generate the city-scale road-boundary graph, we stitch the obtained graphs from all the image patches. Our csBoundary is evaluated and compared on a public benchmark dataset. The results demonstrate our superiority. The accompanied demonstration video is available at our project page \url{https://sites.google.com/view/csboundary/}. | 翻訳日:2021-11-12 15:03:05 公開日:2021-11-11 |
# CodEx: 側頭脱青とトモグラフィー再構成のためのモジュラーフレームワーク CodEx: A Modular Framework for Joint Temporal De-blurring and Tomographic Reconstruction ( http://arxiv.org/abs/2111.06069v1 ) ライセンス: Link先を確認 | Soumendu Majee, Selin Aslan, Charles A. Bouman, Doga Gursoy | (参考訳) 多くのCTイメージングアプリケーションでは、時間とともに移動または変化しているオブジェクトからデータを迅速に収集することが重要である。
一般的に、トモグラフィーの取得はステップ・アンド・シューティング(ステップ・アンド・シューティング)であると仮定され、オブジェクトを各所望の角度に回転させ、ビューを取る。
しかし、ステップ・アンド・シューティングの取得は遅く、光子を無駄にすることができるため、実際にはデータ収集中にオブジェクトが連続的に回転する場所でフライスキャンが行われる。
しかし、これは動きのぼんやりしたビューと、重度のモーションアーティファクトによるレコンストラクションをもたらす可能性がある。
本稿では,ハエスキャンで導入された動きのぼかしを効果的に回避できる,関節脱臭とトモグラフィ再構成のためのモジュラーフレームワークであるCodExを紹介する。
本手法は,新規な獲得法と新規な非凸ベイズ再構成アルゴリズムの相乗的組み合わせである。
codexは、リコンストラクションアルゴリズムが反転する既知のバイナリコードで取得をエンコードすることで機能する。
適切に選択されたバイナリコードを使用して測定値をエンコードすれば、反転プロセスの精度が向上する。
CodEx再構成法は,乗算器の交互方向法(ADMM)を用いて,逆問題を反復的デブロアリングと再構成サブプロブレムに分割し,再構成を実用化する。
本手法の有効性を示すため,シミュレーションデータと実験データの両方に再構成結果を示す。 In many computed tomography (CT) imaging applications, it is important to rapidly collect data from an object that is moving or changing with time. Tomographic acquisition is generally assumed to be step-and-shoot, where the object is rotated to each desired angle, and a view is taken. However, step-and-shoot acquisition is slow and can waste photons, so in practice fly-scanning is done where the object is continuously rotated while collecting data. However, this can result in motion-blurred views and consequently reconstructions with severe motion artifacts. In this paper, we introduce CodEx, a modular framework for joint de-blurring and tomographic reconstruction that can effectively invert the motion blur introduced in fly-scanning. The method is a synergistic combination of a novel acquisition method with a novel non-convex Bayesian reconstruction algorithm. CodEx works by encoding the acquisition with a known binary code that the reconstruction algorithm then inverts. Using a well chosen binary code to encode the measurements can improve the accuracy of the inversion process. The CodEx reconstruction method uses the alternating direction method of multipliers (ADMM) to split the inverse problem into iterative deblurring and reconstruction sub-problems, making reconstruction practical to implement. We present reconstruction results on both simulated and experimental data to demonstrate the effectiveness of our method. | 翻訳日:2021-11-12 15:02:42 公開日:2021-11-11 |
# スケーラブルブロックチェーンに基づくフェデレーション学習システムにおける公正性と統合性,プライバシ Fairness, Integrity, and Privacy in a Scalable Blockchain-based Federated Learning System ( http://arxiv.org/abs/2111.06290v1 ) ライセンス: Link先を確認 | Timon R\"uckel and Johannes Sedlmeir and Peter Hofmann | (参考訳) フェデレートされた機械学習(FL)は、クライアントのモデルだけでなく、センシティブなデータ上でモデルを集合的にトレーニングすることができる。
しかし、FLの研究が注目されているにもかかわらず、この概念はいまだに広く採用されていない。
主な理由の1つは、すべての参加するクライアントに対して公平性、完全性、およびプライバシー保護を同時に達成するFLシステムを実装するという大きな課題である。
この問題を解決するために,本稿では,ブロックチェーン技術,局所微分プライバシー,ゼロ知識証明を組み込んだflシステムを提案する。
複数の線形回帰を伴う概念実証の実装は、これらの最先端技術が、スケーラブルで透明なシステムにおける経済的インセンティブ、信頼、機密性の要求を整合させるFLシステムと組み合わせられることを示す。 Federated machine learning (FL) allows to collectively train models on sensitive data as only the clients' models and not their training data need to be shared. However, despite the attention that research on FL has drawn, the concept still lacks broad adoption in practice. One of the key reasons is the great challenge to implement FL systems that simultaneously achieve fairness, integrity, and privacy preservation for all participating clients. To contribute to solving this issue, our paper suggests a FL system that incorporates blockchain technology, local differential privacy, and zero-knowledge proofs. Our implementation of a proof-of-concept with multiple linear regression illustrates that these state-of-the-art technologies can be combined to a FL system that aligns economic incentives, trust, and confidentiality requirements in a scalable and transparent system. | 翻訳日:2021-11-12 15:01:59 公開日:2021-11-11 |
# 機械学習によるキラルフォトニックナノ構造の最適化:進化とニューラルネットワークに基づく設計 Machine Learning-Based Optimization of Chiral Photonic Nanostructures: Evolution- and Neural Network-Based Design ( http://arxiv.org/abs/2111.06272v1 ) ライセンス: Link先を確認 | Oliver Mey and Arash Rahimi-Iman | (参考訳) キラルフォトニクスは、光と物質間の相互作用を操作する新しい経路を開き、非自明なパターンをナノ構造化することでメタ表面と材料を光学的応答に調整する。
分子のキラリティーや光のような物質のキラリティーは、最も単純な場合において円偏光のハンドネスによって与えられるものであり、化学、ナノフォトニクス、光学情報処理の分野で多くの注目を集めている。
本稿では,2つの機械学習手法である進化アルゴリズムとニューラルネットワークを用いたキラルフォトニック構造の設計を行い,誘電体メタサーフェスの光学特性の迅速かつ効率的な最適化を行う。
遷移金属ジカルコゲナイド励起子共鳴の範囲で可視光を得るための設計レシピは、反射光の円偏光度に周波数依存的な変化を示し、これは左右の円偏光強度の差で表される。
本研究は, 二硫化タングステンを有効成分とするキラリティー感光マッターカップリングシナリオのための光学ナノパターン反射体の作製とキャラクタリゼーションを, 谷ホール効果や光学谷コヒーレンスなどの特性を有する有効材料として用いた。 Chiral photonics opens new pathways to manipulate light-matter interactions and tailor the optical response of meta-surfaces and -materials by nanostructuring nontrivial patterns. Chirality of matter, such as that of molecules, and light, which in the simplest case is given by the handedness of circular polarization, have attracted much attention for applications in chemistry, nanophotonics and optical information processing. We report the design of chiral photonic structures using two machine learning methods, the evolutionary algorithm and neural network approach, for rapid and efficient optimization of optical properties for dielectric metasurfaces. The design recipes obtained for visible light in the range of transition-metal dichalcogenide exciton resonances show a frequency-dependent modification in the reflected light's degree of circular polarization, that is represented by the difference between left- and right-circularly polarized intensity. Our results suggest the facile fabrication and characterization of optical nanopatterned reflectors for chirality-sensitive light-matter coupling scenarios employing tungsten disulfide as possible active material with features such as valley Hall effect and optical valley coherence. | 翻訳日:2021-11-12 15:00:23 公開日:2021-11-11 |
# マルチプレイヤー・ジェネラルサムゲームにおける相関平衡の近似的no-regret学習 Near-Optimal No-Regret Learning for Correlated Equilibria in Multi-Player General-Sum Games ( http://arxiv.org/abs/2111.06008v1 ) ライセンス: Link先を確認 | Ioannis Anagnostides, Constantinos Daskalakis, Gabriele Farina, Maxwell Fishelson, Noah Golowich, Tuomas Sandholm | (参考訳) 最近、Daskalakis, Fishelson, and Golowich (DFG) (NeurIPS`21) は、マルチプレイヤーの汎用正規形式ゲームにおける全てのエージェントがOptimistic Multiplicative Weights Update (OMWU) を使用している場合、全てのプレイヤーの外部後悔は、ゲームの繰り返しの後で$O(\textrm{polylog}(T)$であることを示した。
その結果を外部の後悔から内部後悔に拡張し,後悔を交換することで,約相関平衡に収束する非結合学習ダイナミクスを,$\tilde{o}(t^{-1})$で確立する。
これは、Chen and Peng (NeurIPS`20) による$O(T^{-3/4})$の相関平衡に対する事前の収束率よりも大幅に改善され、非回帰フレームワーク内では、$T$のポリ対数因子まで最適である。
これらの結果を得るために,不動点演算を含む学習ダイナミクスの高次滑らか性を確立するための新しい手法を開発した。
具体的には、stltz と lugosi (mach learn`05) の非内在回帰学習ダイナミクスは、組合せ空間上の非外在回帰ダイナミクスによって等価にシミュレートされる。
これにより、多項式サイズのマルコフ連鎖上の定常分布の計算を指数関数型集合上の(かなりよく考えられた)線型変換と交換することができ、dgfのような類似の手法を内部後悔をほぼ最適に束ねることができる。
さらに、Blum and Mansour (BM) (JMLR`07) の古典的アルゴリズムに対して、$O(\textrm{polylog}(T))$ no-swap-regret を定めている。
我々は,dfg のより限定的な組合せ論を回避し,コーシー積分式に基づく手法を導入する。
本論は,BMのほぼ最適後悔の保証に対する明瞭さの隠蔽に加えて,DFGによる手法を拡張し,より関連する学習アルゴリズムの分析に活用する様々な方法についての知見を提供する。 Recently, Daskalakis, Fishelson, and Golowich (DFG) (NeurIPS`21) showed that if all agents in a multi-player general-sum normal-form game employ Optimistic Multiplicative Weights Update (OMWU), the external regret of every player is $O(\textrm{polylog}(T))$ after $T$ repetitions of the game. We extend their result from external regret to internal regret and swap regret, thereby establishing uncoupled learning dynamics that converge to an approximate correlated equilibrium at the rate of $\tilde{O}(T^{-1})$. This substantially improves over the prior best rate of convergence for correlated equilibria of $O(T^{-3/4})$ due to Chen and Peng (NeurIPS`20), and it is optimal -- within the no-regret framework -- up to polylogarithmic factors in $T$. To obtain these results, we develop new techniques for establishing higher-order smoothness for learning dynamics involving fixed point operations. Specifically, we establish that the no-internal-regret learning dynamics of Stoltz and Lugosi (Mach Learn`05) are equivalently simulated by no-external-regret dynamics on a combinatorial space. This allows us to trade the computation of the stationary distribution on a polynomial-sized Markov chain for a (much more well-behaved) linear transformation on an exponential-sized set, enabling us to leverage similar techniques as DGF to near-optimally bound the internal regret. Moreover, we establish an $O(\textrm{polylog}(T))$ no-swap-regret bound for the classic algorithm of Blum and Mansour (BM) (JMLR`07). We do so by introducing a technique based on the Cauchy Integral Formula that circumvents the more limited combinatorial arguments of DFG. In addition to shedding clarity on the near-optimal regret guarantees of BM, our arguments provide insights into the various ways in which the techniques by DFG can be extended and leveraged in the analysis of more involved learning algorithms. | 翻訳日:2021-11-12 14:59:36 公開日:2021-11-11 |
# クラスインフォームド損失関数を用いたオートエンコーダによるデータ複雑性の低減 Reducing Data Complexity using Autoencoders with Class-informed Loss Functions ( http://arxiv.org/abs/2111.06142v1 ) ライセンス: Link先を確認 | David Charte and Francisco Charte and Francisco Herrera | (参考訳) 機械学習アプリケーションで利用可能なデータは、より高い次元と難しいクラスのため、ますます複雑になっています。
ラベル付きデータの複雑性を測定するには、クラスオーバーラップ、分離性、境界形状、およびグループ形態に応じて、さまざまなアプローチが存在する。
多くのテクニックは、より良い機能を見つけるためにデータを変換することができるが、データ複雑さを特に削減することに注力する技術はほとんどない。
ほとんどのデータ変換メソッドは、主に次元的側面を扱い、クラスが何らかの複雑な場合に有用なクラスラベル内で利用可能な情報を残します。
本稿では,クラスラベルを用いた自動エンコーダに基づく複雑性低減手法を提案する。
これにより、Scorer、Skaler、Slicerの3つの異なる新機能学習者が生まれる。
これらはフィッシャーの判別比、クルバック・リーバーの発散、および最小二乗支援ベクトルマシンに基づいている。
それらは二項分類問題の前処理段階として適用できる。
27のデータセットの集合と、複雑性と分類のメトリクスの広範囲にわたる徹底した実験により、クラスインフォームされたオートエンコーダは、他の4つの一般的な教師なし特徴抽出テクニックよりも優れたパフォーマンスを示す。 Available data in machine learning applications is becoming increasingly complex, due to higher dimensionality and difficult classes. There exists a wide variety of approaches to measuring complexity of labeled data, according to class overlap, separability or boundary shapes, as well as group morphology. Many techniques can transform the data in order to find better features, but few focus on specifically reducing data complexity. Most data transformation methods mainly treat the dimensionality aspect, leaving aside the available information within class labels which can be useful when classes are somehow complex. This paper proposes an autoencoder-based approach to complexity reduction, using class labels in order to inform the loss function about the adequacy of the generated variables. This leads to three different new feature learners, Scorer, Skaler and Slicer. They are based on Fisher's discriminant ratio, the Kullback-Leibler divergence and least-squares support vector machines, respectively. They can be applied as a preprocessing stage for a binary classification problem. A thorough experimentation across a collection of 27 datasets and a range of complexity and classification metrics shows that class-informed autoencoders perform better than 4 other popular unsupervised feature extraction techniques, especially when the final objective is using the data for a classification task. | 翻訳日:2021-11-12 14:58:51 公開日:2021-11-11 |
# (参考訳) Masked Autoencodersはスケーラブルな視覚学習ツール Masked Autoencoders Are Scalable Vision Learners ( http://arxiv.org/abs/2111.06377v1 ) ライセンス: CC BY 4.0 | Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll\'ar, Ross Girshick | (参考訳) 本稿では,マスク付きオートエンコーダ(mae)がコンピュータビジョンのためのスケーラブルな自己教師付き学習者であることを示す。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
2つのコアデザインに基づいている。
まず、非対称なエンコーダデコーダアーキテクチャを開発し、(マスクトークンなしで)パッチの可視部分のみで動作するエンコーダと、潜在表現とマスクトークンから元のイメージを再構成する軽量デコーダを開発した。
第二に、入力画像の高い割合、例えば75%をマスキングすると、非自明で有意義な自己監督タスクが生じる。
これら2つの設計を組み合わせることで,大規模モデルを効率的に,効率的にトレーニングすることが可能になります。
例えば、バニラViT-Hugeモデルは、ImageNet-1Kデータのみを使用するメソッドの中で、最高の精度(87.8%)を達成する。
下流タスクにおける転送性能は、教師付き事前トレーニングよりも優れ、有望なスケーリング動作を示す。 This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we develop an asymmetric encoder-decoder architecture, with an encoder that operates only on the visible subset of patches (without mask tokens), along with a lightweight decoder that reconstructs the original image from the latent representation and mask tokens. Second, we find that masking a high proportion of the input image, e.g., 75%, yields a nontrivial and meaningful self-supervisory task. Coupling these two designs enables us to train large models efficiently and effectively: we accelerate training (by 3x or more) and improve accuracy. Our scalable approach allows for learning high-capacity models that generalize well: e.g., a vanilla ViT-Huge model achieves the best accuracy (87.8%) among methods that use only ImageNet-1K data. Transfer performance in downstream tasks outperforms supervised pre-training and shows promising scaling behavior. | 翻訳日:2021-11-12 14:56:13 公開日:2021-11-11 |
# アノテーションフリーレイアウト認識のための合成文書生成装置 Synthetic Document Generator for Annotation-free Layout Recognition ( http://arxiv.org/abs/2111.06016v1 ) ライセンス: Link先を確認 | Natraj Raman, Sameena Shah and Manuela Veloso | (参考訳) ヘッダー、セクション、テーブル、図などを特定するためにドキュメントのレイアウトを分析することは、その内容を理解する上で重要である。
文書画像のレイアウト構造を検出するための深層学習手法は有望である。
しかし、これらの方法は訓練中に多くの注釈付き例を必要とし、それらは費用も時間もかかる。
本稿では,レイアウト要素の空間的位置,範囲,カテゴリをラベル付きで自動生成する合成文書生成装置について述べる。
提案した生成過程は、文書のすべての物理成分をランダム変数として扱い、ベイズネットワークグラフを用いて固有の依存関係をモデル化する。
確率的テンプレートを用いた階層的定式化により,広範なテーマを保持するためのドキュメント間のパラメータ共有が可能となるが,分散特性は視覚的にユニークなサンプルを生成し,複雑で多様なレイアウトをキャプチャする。
人工文書上で純粋に訓練された深層レイアウト検出モデルは,実文書を用いたモデルの性能に適合することを示す。 Analyzing the layout of a document to identify headers, sections, tables, figures etc. is critical to understanding its content. Deep learning based approaches for detecting the layout structure of document images have been promising. However, these methods require a large number of annotated examples during training, which are both expensive and time consuming to obtain. We describe here a synthetic document generator that automatically produces realistic documents with labels for spatial positions, extents and categories of the layout elements. The proposed generative process treats every physical component of a document as a random variable and models their intrinsic dependencies using a Bayesian Network graph. Our hierarchical formulation using stochastic templates allow parameter sharing between documents for retaining broad themes and yet the distributional characteristics produces visually unique samples, thereby capturing complex and diverse layouts. We empirically illustrate that a deep layout detection model trained purely on the synthetic documents can match the performance of a model that uses real documents. | 翻訳日:2021-11-12 14:37:02 公開日:2021-11-11 |
# 視覚変換器に関する調査 A Survey of Visual Transformers ( http://arxiv.org/abs/2111.06091v1 ) ライセンス: Link先を確認 | Yang Liu, Yao Zhang, Yixin Wang, Feng Hou, Jin Yuan, Jiang Tian, Yang Zhang, Zhongchao Shi, Jianping Fan, Zhiqiang He | (参考訳) 注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
この重要な成果に触発されて、Transformerのようなアーキテクチャをコンピュータビジョン(CV)の分野に適用する先駆的な研究が最近行われ、様々なCVタスクにおいてその効果が示された。
コンボリューションニューラルネット(cnn)と比較して、視覚トランスフォーマーはimagenet、coco、ade20kといった複数のベンチマークで印象的なパフォーマンスを達成している。
本稿では,3つの基本的なCVタスク(分類,検出,セグメンテーション)に対して,100以上の視覚変換器を包括的に検討し,その動機,構造,利用シナリオに応じてこれらの手法を体系化する分類法を提案する。
トレーニング設定と指向タスクの違いから,これらのメソッドをさまざまな構成で評価して,さまざまなベンチマークではなく,簡単かつ直感的な比較を行った。
さらに我々は、トランスフォーマーが視覚的およびシーケンシャルなトランスフォーマー間のギャップを埋めるために、高レベルのセマンティックな埋め込みをスラックするなど、多くのアーキテクチャから際立つことができるような、必要不可欠な側面を明らかにした。
最後に、3つの将来的な研究方向が、さらなる投資のために提案されている。 Transformer, an attention-based encoder-decoder architecture, has revolutionized the field of natural language processing. Inspired by this significant achievement, some pioneering works have recently been done on adapting Transformerliked architectures to Computer Vision (CV) fields, which have demonstrated their effectiveness on various CV tasks. Relying on competitive modeling capability, visual Transformers have achieved impressive performance on multiple benchmarks such as ImageNet, COCO, and ADE20k as compared with modern Convolution Neural Networks (CNN). In this paper, we have provided a comprehensive review of over one hundred different visual Transformers for three fundamental CV tasks (classification, detection, and segmentation), where a taxonomy is proposed to organize these methods according to their motivations, structures, and usage scenarios. Because of the differences in training settings and oriented tasks, we have also evaluated these methods on different configurations for easy and intuitive comparison instead of only various benchmarks. Furthermore, we have revealed a series of essential but unexploited aspects that may empower Transformer to stand out from numerous architectures, e.g., slack high-level semantic embeddings to bridge the gap between visual and sequential Transformers. Finally, three promising future research directions are suggested for further investment. | 翻訳日:2021-11-12 14:36:46 公開日:2021-11-11 |
# マルチカメラシステムを用いたオープン手術ツールの分類と手活用 Open surgery tool classification and hand utilization using a multi-camera system ( http://arxiv.org/abs/2111.06098v1 ) ライセンス: Link先を確認 | Kristina Basiev, Adam Goldbraikh, Carla M Pugh and Shlomi Laufer | (参考訳) 目的: この研究の目的は, マルチカメラビデオを用いて手術用ツールを分類し, それぞれの手に保持するツールを特定することである。
マルチカメラシステムはオープン手術ビデオデータの閉塞を防ぐ。
さらに、全手術領域をカバーするトップビューカメラと、手の動きや解剖に焦点を当てたクローズアップカメラとを組み合わせることで、外科手術のワークフローをより包括的に見ることができる。
しかし、マルチカメラデータ融合は、新しい課題をもたらしている。
そこで我々は,グローバルグラウンドの真実を,その可視性を問わないツールとして定義した。
したがって、画像外にあるツールは、システムがビデオで見える変化に素早く反応している間に、長時間記憶されなければならない。
方法: 参加者 (n=48) は模擬開腸修復を行った。
トップビューとクローズアップカメラが使用された。
YOLOv5はツールと手の検出に使用された。
30フレーム/秒(fps)の1秒窓を持つ高周波lstmと、3fpsの40秒窓を持つ低周波lstmを用いて空間的、時間的、マルチカメラ統合を行った。
結果: トップビュー (0.88/0.88),クローズアップ (0.81,0.83), 両カメラ (0.9/0.9), 高fps LSTM (0.92/0.93), 低fps LSTM (0.9/0.91), 最終アーキテクチャはマルチカメラ分類器 (0.93/0.94) であった。
結論: マルチカメラアレイから高fpsと低fpsのシステムを組み合わせることにより, 地上真実の分類能力を向上した。 Purpose: The goal of this work is to use multi-camera video to classify open surgery tools as well as identify which tool is held in each hand. Multi-camera systems help prevent occlusions in open surgery video data. Furthermore, combining multiple views such as a Top-view camera covering the full operative field and a Close-up camera focusing on hand motion and anatomy, may provide a more comprehensive view of the surgical workflow. However, multi-camera data fusion poses a new challenge: a tool may be visible in one camera and not the other. Thus, we defined the global ground truth as the tools being used regardless their visibility. Therefore, tools that are out of the image should be remembered for extensive periods of time while the system responds quickly to changes visible in the video. Methods: Participants (n=48) performed a simulated open bowel repair. A Top-view and a Close-up cameras were used. YOLOv5 was used for tool and hand detection. A high frequency LSTM with a 1 second window at 30 frames per second (fps) and a low frequency LSTM with a 40 second window at 3 fps were used for spatial, temporal, and multi-camera integration. Results: The accuracy and F1 of the six systems were: Top-view (0.88/0.88), Close-up (0.81,0.83), both cameras (0.9/0.9), high fps LSTM (0.92/0.93), low fps LSTM (0.9/0.91), and our final architecture the Multi-camera classifier(0.93/0.94). Conclusion: By combining a system with a high fps and a low fps from the multiple camera array we improved the classification abilities of the global ground truth. | 翻訳日:2021-11-12 14:36:25 公開日:2021-11-11 |
# 自動車衝突予測のための時空間グラフ埋め込み Spatio-Temporal Scene-Graph Embedding for Autonomous Vehicle Collision Prediction ( http://arxiv.org/abs/2111.06123v1 ) ライセンス: Link先を確認 | Arnav V. Malawade, Shih-Yuan Yu, Brandon Hsu, Deepan Muthirayan, Pramod P. Khargonekar, Mohammad A. Al Faruque | (参考訳) 自動運転車(avs)では、早期警報システムは衝突予測に依存して乗員の安全を確保する。
しかし、深層畳み込みネットワークを用いた最先端の手法は衝突のモデル化に失敗するか、高価で低すぎるため、AVエッジハードウェアへの展開には適さない。
このような制約に対処するため,グラフニューラルネット(GNN)とLong Short-Term Memory(LSTM)層を用いた時空間シーングラフ埋め込み手法であるsg2vecを提案する。
sg2vecは,実世界の衝突データセットにおいて,合成データセットの最先端法よりも,8.11%,39.07%,29.47%の精度で衝突を予測できることを実証した。
また、sg2vecは、合成データセットから実世界の運転データセットへ知識を伝達する最先端技術よりも優れていることを示す。
最後に、sg2vecは88.0%の小型モデル、32.4%の消費電力、92.8%のエネルギーを業界標準のnvidia drive px 2プラットフォームにおける最先端の方法よりも少ないエネルギーで推論を9.3倍高速化し、エッジの実装に適していることを実証する。 In autonomous vehicles (AVs), early warning systems rely on collision prediction to ensure occupant safety. However, state-of-the-art methods using deep convolutional networks either fail at modeling collisions or are too expensive/slow, making them less suitable for deployment on AV edge hardware. To address these limitations, we propose sg2vec, a spatio-temporal scene-graph embedding methodology that uses Graph Neural Network (GNN) and Long Short-Term Memory (LSTM) layers to predict future collisions via visual scene perception. We demonstrate that sg2vec predicts collisions 8.11% more accurately and 39.07% earlier than the state-of-the-art method on synthesized datasets, and 29.47% more accurately on a challenging real-world collision dataset. We also show that sg2vec is better than the state-of-the-art at transferring knowledge from synthetic datasets to real-world driving datasets. Finally, we demonstrate that sg2vec performs inference 9.3x faster with an 88.0% smaller model, 32.4% less power, and 92.8% less energy than the state-of-the-art method on the industry-standard Nvidia DRIVE PX 2 platform, making it more suitable for implementation on the edge. | 翻訳日:2021-11-12 14:35:54 公開日:2021-11-11 |
# クリックマター:対話型ヒューマンパーシングへ Clicking Matters:Towards Interactive Human Parsing ( http://arxiv.org/abs/2111.06162v1 ) ライセンス: Link先を確認 | Yutong Gao, Liqian Liang, Congyan Lang, Songhe Feng, Yidong Li, Yunchao Wei | (参考訳) 本研究は,対話型ヒューマンパーシング(Interactive Human Parsing, IHP)に焦点を当て,人間の画像を複数の人体に分割し,ユーザのインタラクションから誘導することを目的とする。
この新しいタスクは、人間解析のクラス認識特性を継承しており、一般的にクラスに依存しない従来のインタラクティブなイメージセグメンテーションアプローチではうまく解決できない。
この新しいタスクに取り組むために、まず、ユーザークリックを利用して、画像中の異なる人間の部分を特定する。
これらのクリックはその後、意味認識のローカライゼーションマップに変換され、RGB画像と結合してセグメンテーションネットワークの入力を形成し、初期解析結果を生成する。
修正プロセスにおいて,ネットワークがユーザの目的をよりよく認識できるようにするため,改良のいくつかの主要な方法を調査し,ランダムサンプリングに基づくクリック拡張が修正の有効性を高める最善の方法であることを明らかにした。
さらに、より優れた最適化のために、クリックの意味関係を効果的に活用できる訓練を強化する意味認識損失(SP-loss)を提案する。
最善の知識として、この研究は対話的な環境下で人間のパースタスクに取り組む最初の試みである。
ベンチマークLIPでは85 % mIoU,PASCAL-Person-Partでは80 % mIoU,Helenでは75 % mIoU,クラス毎に1.95 ,3.02 , 2.84 および 1.09 クリックしか得られなかった。
これらの結果から,人的努力の少ない高品質なパーシングマスクを簡便に取得できることが示唆された。
この研究により、将来的にはより多くの研究者がihpのデータ効率の良いソリューションを開発できることを期待しています。 In this work, we focus on Interactive Human Parsing (IHP), which aims to segment a human image into multiple human body parts with guidance from users' interactions. This new task inherits the class-aware property of human parsing, which cannot be well solved by traditional interactive image segmentation approaches that are generally class-agnostic. To tackle this new task, we first exploit user clicks to identify different human parts in the given image. These clicks are subsequently transformed into semantic-aware localization maps, which are concatenated with the RGB image to form the input of the segmentation network and generate the initial parsing result. To enable the network to better perceive user's purpose during the correction process, we investigate several principal ways for the refinement, and reveal that random-sampling-based click augmentation is the best way for promoting the correction effectiveness. Furthermore, we also propose a semantic-perceiving loss (SP-loss) to augment the training, which can effectively exploit the semantic relationships of clicks for better optimization. To the best knowledge, this work is the first attempt to tackle the human parsing task under the interactive setting. Our IHP solution achieves 85\% mIoU on the benchmark LIP, 80\% mIoU on PASCAL-Person-Part and CIHP, 75\% mIoU on Helen with only 1.95, 3.02, 2.84 and 1.09 clicks per class respectively. These results demonstrate that we can simply acquire high-quality human parsing masks with only a few human effort. We hope this work can motivate more researchers to develop data-efficient solutions to IHP in the future. | 翻訳日:2021-11-12 14:35:27 公開日:2021-11-11 |
# 多変量脳波時系列における健康成果の早期予測 Benefit-aware Early Prediction of Health Outcomes on Multivariate EEG Time Series ( http://arxiv.org/abs/2111.06032v1 ) ライセンス: Link先を確認 | Shubhranshu Shekhar, Dhivya Eswaran, Bryan Hooi, Jonathan Elmer, Christos Faloutsos, Leman Akoglu | (参考訳) 心停止患者がICU(集中治療室)で脳活動を監視している場合、できるだけ早く健康状態を予測するにはどうすればよいか。
早期意思決定は多くのアプリケーションにおいて重要であり、例えば、患者を監視することは早期介入や治療の改善に役立つ。
一方、脳波データの早期予測にはいくつかの課題がある。
(i)被服従不正確性トレードオフ;より多くのデータを観察することは、しばしば正確性を高め、被服従性を犠牲にする。
(ii)大規模(訓練用)とストリーミング(オンライン意思決定)データ処理、及び
(3)多変量(複数の電極による)および多変量(患者の滞在時間の変化による)時系列。
この現実世界のアプリケーションに触発されたBeneFitterは、早期の予測から得られた貯蓄を注入し、誤分類から利益と呼ばれる統一されたドメイン固有ターゲットへとコストを落とします。
これら2つの量を統合することで、1つの目標(すなわち利益)を直接見積もることができる。
利子
(a)効率的かつ高速で、入力シーケンス数に線形なトレーニング時間を持ち、意思決定のためにリアルタイムで操作することができる。
(b)患者データに適した多変量および可変長時系列を扱うことができる。
(c) は有効であり、競合に比べて最大2倍の時間節約が可能となる。 Given a cardiac-arrest patient being monitored in the ICU (intensive care unit) for brain activity, how can we predict their health outcomes as early as possible? Early decision-making is critical in many applications, e.g. monitoring patients may assist in early intervention and improved care. On the other hand, early prediction on EEG data poses several challenges: (i) earliness-accuracy trade-off; observing more data often increases accuracy but sacrifices earliness, (ii) large-scale (for training) and streaming (online decision-making) data processing, and (iii) multi-variate (due to multiple electrodes) and multi-length (due to varying length of stay of patients) time series. Motivated by this real-world application, we present BeneFitter that infuses the incurred savings from an early prediction as well as the cost from misclassification into a unified domain-specific target called benefit. Unifying these two quantities allows us to directly estimate a single target (i.e. benefit), and importantly, dictates exactly when to output a prediction: when benefit estimate becomes positive. BeneFitter (a) is efficient and fast, with training time linear in the number of input sequences, and can operate in real-time for decision-making, (b) can handle multi-variate and variable-length time-series, suitable for patient data, and (c) is effective, providing up to 2x time-savings with equal or better accuracy as compared to competitors. | 翻訳日:2021-11-12 14:33:02 公開日:2021-11-11 |
# fedgreen:グリーンモバイルエッジコンピューティングのための細粒度勾配圧縮によるフェデレーション学習 FedGreen: Federated Learning with Fine-Grained Gradient Compression for Green Mobile Edge Computing ( http://arxiv.org/abs/2111.06146v1 ) ライセンス: Link先を確認 | Peichun Li, Xumin Huang, Miao Pan, Rong Yu | (参考訳) federated learning(fl)は、モバイルエッジコンピューティング(mec)のデバイスが、ローカルデータをアップロードせずに共有モデルを協調的にトレーニングできるようにする。
グラディエント圧縮は通信オーバーヘッドを軽減するためにFLに適用できるが、勾配圧縮を伴う現在のFLは依然として大きな課題に直面している。
グリーンMECをデプロイするために,FedGreenを提案する。このFedGreenは,デバイス全体のエネルギー消費を効率よく制御するために,きめ細かな勾配圧縮によりオリジナルのFLを強化する。
具体的には,flの勾配圧縮を容易にするために,デバイス側勾配低減やサーバ側要素アグリゲーションなどの関連操作を導入する。
公開データセットによると、圧縮された局所勾配の圧縮比に対する寄与について検討する。
その後,各装置の最適圧縮率と演算周波数を導出する学習精度とエネルギー効率のトレードオフ問題を定式化し,解決する。
実験の結果、ベースライン方式と比較して80%のテスト精度が要求されているため、FedGreenはデバイス全体のエネルギー消費量の少なくとも32%を削減している。 Federated learning (FL) enables devices in mobile edge computing (MEC) to collaboratively train a shared model without uploading the local data. Gradient compression may be applied to FL to alleviate the communication overheads but current FL with gradient compression still faces great challenges. To deploy green MEC, we propose FedGreen, which enhances the original FL with fine-grained gradient compression to efficiently control the total energy consumption of the devices. Specifically, we introduce the relevant operations including device-side gradient reduction and server-side element-wise aggregation to facilitate the gradient compression in FL. According to a public dataset, we investigate the contributions of the compressed local gradients with respect to different compression ratios. After that, we formulate and tackle a learning accuracy-energy efficiency tradeoff problem where the optimal compression ratio and computing frequency are derived for each device. Experiments results demonstrate that given the 80% test accuracy requirement, compared with the baseline schemes, FedGreen reduces at least 32% of the total energy consumption of the devices. | 翻訳日:2021-11-12 14:32:39 公開日:2021-11-11 |
# 臨床結果に対するフレキシブル調整による電子健康記録の経時的成層化 Longitudinal patient stratification of electronic health records with flexible adjustment for clinical outcomes ( http://arxiv.org/abs/2111.06152v1 ) ライセンス: Link先を確認 | Oliver Carr, Avelino Javer, Patrick Rockenschaub, Owen Parsons, Robert D\"urichen | (参考訳) 縦断的電子健康記録(EHR)データの利用率の増加は、疾患の理解の向上と新しい表現型の発見につながっている。
クラスタリングアルゴリズムの大半は患者軌跡のみに焦点を当てているが、類似した軌跡を持つ患者は異なる結果をもたらす可能性がある。
軌跡や結果の異なる患者のサブグループを見つけることは、将来の薬物開発を導き、臨床試験への採用を改善することができる。
我々は、再建、結果、クラスタリング損失を用いて、ERHデータをクラスタリングするための繰り返しニューラルネットワークオートエンコーダを開発し、異なるタイプの患者クラスタを見つけるために重み付けできる。
我々のモデルは、データバイアスと結果差の両方から既知のクラスタを発見でき、ベースラインモデルより優れています。
我々は,29,229ドルの糖尿病患者に対するモデル性能を実証し,臨床的意思決定の助けとなりうる,軌跡の異なる患者群と結果の異なる患者群を見出した。 The increase in availability of longitudinal electronic health record (EHR) data is leading to improved understanding of diseases and discovery of novel phenotypes. The majority of clustering algorithms focus only on patient trajectories, yet patients with similar trajectories may have different outcomes. Finding subgroups of patients with different trajectories and outcomes can guide future drug development and improve recruitment to clinical trials. We develop a recurrent neural network autoencoder to cluster EHR data using reconstruction, outcome, and clustering losses which can be weighted to find different types of patient clusters. We show our model is able to discover known clusters from both data biases and outcome differences, outperforming baseline models. We demonstrate the model performance on $29,229$ diabetes patients, showing it finds clusters of patients with both different trajectories and different outcomes which can be utilized to aid clinical decision making. | 翻訳日:2021-11-12 14:32:22 公開日:2021-11-11 |
# (参考訳) ロボット操作のための視覚制御ポリシーへの運動プランナーの蒸留 Distilling Motion Planner Augmented Policies into Visual Control Policies for Robot Manipulation ( http://arxiv.org/abs/2111.06383v1 ) ライセンス: CC BY 4.0 | I-Chun Arthur Liu and Shagun Uppal and Gaurav S. Sukhatme and Joseph J. Lim and Peter Englert and Youngwoon Lee | (参考訳) 現実的で障害のある環境で複雑な操作タスクを学習することは、障害物の存在や高次元の視覚的観察が難しいため、難しい問題である。
先行研究は、運動計画と強化学習を統合して探索問題に取り組む。
しかし、モーションプランナー拡張ポリシーでは状態情報へのアクセスが必要であり、現実の設定では利用できないことが多い。
そこで本研究では,(1)視覚的行動クローン化による動作プランナ依存性の除去と,(2)動作クローン化剤からのスムーズな軌跡の誘導による視覚的強化学習により,状態ベースの運動プランナ拡張ポリシを視覚制御ポリシに蒸留することを提案する。
閉塞環境における3つの操作課題について評価し,様々な強化学習や模倣学習ベースラインと比較した。
その結果、このフレームワークはサンプル効率が高く、最先端のアルゴリズムよりも優れています。
さらに,ドメインのランダム化と相まって,注意をそそらない環境設定へのゼロショット転送が可能となる。
コードとビデオはhttps://clvrai.com/mopa-pdで入手できる。 Learning complex manipulation tasks in realistic, obstructed environments is a challenging problem due to hard exploration in the presence of obstacles and high-dimensional visual observations. Prior work tackles the exploration problem by integrating motion planning and reinforcement learning. However, the motion planner augmented policy requires access to state information, which is often not available in the real-world settings. To this end, we propose to distill a state-based motion planner augmented policy to a visual control policy via (1) visual behavioral cloning to remove the motion planner dependency along with its jittery motion, and (2) vision-based reinforcement learning with the guidance of the smoothed trajectories from the behavioral cloning agent. We evaluate our method on three manipulation tasks in obstructed environments and compare it against various reinforcement learning and imitation learning baselines. The results demonstrate that our framework is highly sample-efficient and outperforms the state-of-the-art algorithms. Moreover, coupled with domain randomization, our policy is capable of zero-shot transfer to unseen environment settings with distractors. Code and videos are available at https://clvrai.com/mopa-pd | 翻訳日:2021-11-12 14:29:49 公開日:2021-11-11 |
# 量子モデル発見 Quantum Model-Discovery ( http://arxiv.org/abs/2111.06376v1 ) ライセンス: Link先を確認 | Niklas Heim, Atiyo Ghosh, Oleksandr Kyriienko, Vincent E. Elfving | (参考訳) 量子コンピューティングは、科学と工学における最も難しい問題をスピードアップする。
量子アルゴリズムは化学からロジスティクス最適化まで幅広い応用において理論的利点を示す。
科学や工学に現れる多くの問題は微分方程式の集合として書き直すことができる。
微分方程式を解くための量子アルゴリズムは、深い量子回路を用いて偏微分方程式(PDE)のような大きな線形系を効率的に解くことができ、フォールトトレラントな量子コンピューティングシステムにおいて証明可能な優位性を示している。
近年,近距離量子デバイスを用いた非線形PDEの解法が提案されている。
最も有望な一般的なアプローチの1つは、PDEを解くための科学機械学習の分野での最近の発展に基づいている。
近未来の量子コンピュータは、データ集合から微分方程式の発見を含む、より一般的な科学的な機械学習タスクに応用できる。
我々は微分可能量子回路(DQC)を用いて演算子のライブラリによってパラメータ化される方程式を解き、データと方程式の組み合わせで回帰を行う。
本結果は,古典的および量子機械学習アプローチのインターフェース上で,量子モデル探索(QMoD)への有望な経路を示す。
2階、常微分方程式および非線形偏微分方程式を含む異なる系において、qmodを用いたパラメータ推定と方程式発見が成功した。 Quantum computing promises to speed up some of the most challenging problems in science and engineering. Quantum algorithms have been proposed showing theoretical advantages in applications ranging from chemistry to logistics optimization. Many problems appearing in science and engineering can be rewritten as a set of differential equations. Quantum algorithms for solving differential equations have shown a provable advantage in the fault-tolerant quantum computing regime, where deep and wide quantum circuits can be used to solve large linear systems like partial differential equations (PDEs) efficiently. Recently, variational approaches to solving non-linear PDEs also with near-term quantum devices were proposed. One of the most promising general approaches is based on recent developments in the field of scientific machine learning for solving PDEs. We extend the applicability of near-term quantum computers to more general scientific machine learning tasks, including the discovery of differential equations from a dataset of measurements. We use differentiable quantum circuits (DQCs) to solve equations parameterized by a library of operators, and perform regression on a combination of data and equations. Our results show a promising path to Quantum Model Discovery (QMoD), on the interface between classical and quantum machine learning approaches. We demonstrate successful parameter inference and equation discovery using QMoD on different systems including a second-order, ordinary differential equation and a non-linear, partial differential equation. | 翻訳日:2021-11-12 14:10:42 公開日:2021-11-11 |
# mmWave信号を用いたドメイン独立・リアルタイムジェスチャー認識に向けて Towards Domain-Independent and Real-Time Gesture Recognition Using mmWave Signal ( http://arxiv.org/abs/2111.06195v1 ) ライセンス: Link先を確認 | Yadong Li, Dongheng Zhang, Jinbo Chen, Jinwei Wan, Dong Zhang, Yang Hu, Qibin Sun, Yan Chen | (参考訳) ミリ波(mmWave)信号を用いた人間のジェスチャー認識は、スマートホームや車載インターフェースなどの魅力的な応用を提供する。
既存の作品は、制御された環境では有望なパフォーマンスを達成しているが、集中的なデータ収集の必要性、新しいドメイン(環境、人、場所)への適応における追加のトレーニング作業、リアルタイム認識のパフォーマンス不足などにより、実用アプリケーションは依然として制限されている。
本稿では,ドメインに依存しないリアルタイムな mmWave ジェスチャー認識システム DI-Gesture を提案する。
具体的には、まず、時空間処理による人間のジェスチャーに対応する信号変化を導出する。
システムのロバスト性を高め,データ収集の労力を削減するため,信号パターンとジェスチャーのバリエーションの相関に基づいてデータ拡張フレームワークを設計する。
さらに,ジェスチャーのセグメンテーションを自動的かつ正確に行う動的ウィンドウ機構を提案し,リアルタイム認識を実現する。
最後に、ジェスチャー分類のためのデータから時空間情報を抽出する軽量ニューラルネットワークを構築する。
大規模な実験の結果、DI-Gestureの精度は97.92%、99.18%、98.76%となっている。
リアルタイムのシナリオでは、di-gesutreの精度は平均推算時間2.87msで97%以上に達し、システムの優れた堅牢性と有効性を示している。 Human gesture recognition using millimeter wave (mmWave) signals provides attractive applications including smart home and in-car interface. While existing works achieve promising performance under controlled settings, practical applications are still limited due to the need of intensive data collection, extra training efforts when adapting to new domains (i.e. environments, persons and locations) and poor performance for real-time recognition. In this paper, we propose DI-Gesture, a domain-independent and real-time mmWave gesture recognition system. Specifically, we first derive the signal variation corresponding to human gestures with spatial-temporal processing. To enhance the robustness of the system and reduce data collecting efforts, we design a data augmentation framework based on the correlation between signal patterns and gesture variations. Furthermore, we propose a dynamic window mechanism to perform gesture segmentation automatically and accurately, thus enable real-time recognition. Finally, we build a lightweight neural network to extract spatial-temporal information from the data for gesture classification. Extensive experimental results show DI-Gesture achieves an average accuracy of 97.92%, 99.18% and 98.76% for new users, environments and locations, respectively. In real-time scenario, the accuracy of DI-Gesutre reaches over 97% with average inference time of 2.87ms, which demonstrates the superior robustness and effectiveness of our system. | 翻訳日:2021-11-12 14:10:20 公開日:2021-11-11 |
# 逆境汚職を伴うカルマンフィルタリング Kalman Filtering with Adversarial Corruptions ( http://arxiv.org/abs/2111.06395v1 ) ライセンス: Link先を確認 | Sitan Chen, Frederic Koehler, Ankur Moitra, Morris Yau | (参考訳) ここでは,線形二次推定の古典的な問題,すなわち騒音測定から線形力学系の軌道の推定について再検討する。
有名なカルマンフィルタは、測定ノイズがガウス的であるときに最適推定器を与えるが、この仮定から逸脱した場合、例えばノイズが重みを帯びている場合など、広く知られている。
多くのアドホックヒューリスティックは、外れ値を扱うために実践的に採用されている。
先駆的な研究において、シックとミッターは、測定ノイズがガウスの既知の無限小摂動であるときに証明可能な保証を与え、大きく未知の摂動に対して同様の保証が得られるかどうかという重要な疑問を提起した。
この研究において、我々は真に堅牢なフィルタを与える: 一定量の測定が逆向きに破損したとしても、線形二次推定の証明可能な最初の強い保証を与える。
このフレームワークはヘビーテールや非定常ノイズプロセスもモデル化できる。
我々のアルゴリズムは、汚職の位置を知る最適なアルゴリズムと競合するという意味でカルマンフィルタを強固にする。
私たちの作業は,測定値の数を見積もる必要のあるものの複雑さとともにスケールする,ベイズ的な状況にあります。
さらに、線形力学系では、情報が時間とともに減衰する。
我々は、異なる時間ステップと異なる時間スケールにまたがる情報を堅牢に抽出する一連の新しい技術を開発した。 Here we revisit the classic problem of linear quadratic estimation, i.e. estimating the trajectory of a linear dynamical system from noisy measurements. The celebrated Kalman filter gives an optimal estimator when the measurement noise is Gaussian, but is widely known to break down when one deviates from this assumption, e.g. when the noise is heavy-tailed. Many ad hoc heuristics have been employed in practice for dealing with outliers. In a pioneering work, Schick and Mitter gave provable guarantees when the measurement noise is a known infinitesimal perturbation of a Gaussian and raised the important question of whether one can get similar guarantees for large and unknown perturbations. In this work we give a truly robust filter: we give the first strong provable guarantees for linear quadratic estimation when even a constant fraction of measurements have been adversarially corrupted. This framework can model heavy-tailed and even non-stationary noise processes. Our algorithm robustifies the Kalman filter in the sense that it competes with the optimal algorithm that knows the locations of the corruptions. Our work is in a challenging Bayesian setting where the number of measurements scales with the complexity of what we need to estimate. Moreover, in linear dynamical systems past information decays over time. We develop a suite of new techniques to robustly extract information across different time steps and over varying time scales. | 翻訳日:2021-11-12 14:09:56 公開日:2021-11-11 |
# Objectosphere を用いたオープンワールド学習環境におけるラマン分光 Raman spectroscopy in open world learning settings using the Objectosphere approach ( http://arxiv.org/abs/2111.06268v1 ) ライセンス: Link先を確認 | Yaroslav Balytskyi, Justin Bendesky, Tristan Paul, Guy Hagen, Kelly McNear | (参考訳) ラマン分光法と機械学習の組み合わせは、迅速で高感度でラベルなしの識別法として臨床現場での使用に有望である。
これらのアプローチは、トレーニングフェーズ中に発生するクラスを含むデータの分類においてうまく機能する。
しかし、実際には、常にスペクトルが取られていない、あるいはまだ知られていない物質が存在し、入力データがトレーニングセットから遠くて、トレーニング段階では見られなかった新しいクラスを含んでいる場合、これらのアルゴリズムの臨床的妥当性を制限するかなりの数の偽陽性が記録される。
本稿では,最近導入されたEntropic Open SetとObjectosphere損失関数を実装することで,これらの障害を克服できることを示す。
この手法の効率性を示すために,40種類の化学クラスからなるラマンスペクトルのデータベースを,アミノ酸からなる20の生物関連クラス,生物関連化学物質からなる10の無関係クラス,およびニューラルネットワークがこれまで見たことのない10のクラスに分けて,他の化学物質から構成した。
この手法により,未知のクラスを効果的に識別し,既知のクラスに対して高い精度を保ちながら,偽陽性の数を劇的に削減し,既知のクラスで高い精度を保ち,実験と臨床のギャップを埋めることが可能となる。 Raman spectroscopy in combination with machine learning has significant promise for applications in clinical settings as a rapid, sensitive, and label-free identification method. These approaches perform well in classifying data that contains classes that occur during the training phase. However, in practice, there are always substances whose spectra have not yet been taken or are not yet known and when the input data are far from the training set and include new classes that were not seen at the training stage, a significant number of false positives are recorded which limits the clinical relevance of these algorithms. Here we show that these obstacles can be overcome by implementing recently introduced Entropic Open Set and Objectosphere loss functions. To demonstrate the efficiency of this approach, we compiled a database of Raman spectra of 40 chemical classes separating them into 20 biologically relevant classes comprised of amino acids, 10 irrelevant classes comprised of bio-related chemicals, and 10 classes that the Neural Network has not seen before, comprised of a variety of other chemicals. We show that this approach enables the network to effectively identify the unknown classes while preserving high accuracy on the known ones, dramatically reducing the number of false positives while preserving high accuracy on the known classes, which will allow this technique to bridge the gap between laboratory experiments and clinical applications. | 翻訳日:2021-11-12 14:09:10 公開日:2021-11-11 |
# ヘイトスピーチ検出のための文字レベルハイパーネットワーク Character-level HyperNetworks for Hate Speech Detection ( http://arxiv.org/abs/2111.06336v1 ) ライセンス: Link先を確認 | Tomer Wullach, Amir Adler, Einat Minkov | (参考訳) ヘイトスピーチの大規模な拡散、特定のサブ人口をターゲットとするヘイトフルコンテンツは、重要な社会的重要性の問題である。
ヘイトスピーチ検出の自動化方法は、通常、最先端のディープラーニング(DL)ベースのテキスト分類器(1億以上のパラメータからなる非常に大規模なトレーニング済みのニューラルネットワークモデル)を使用し、関連するラベル付きデータセットを使用してヘイトスピーチ検出のタスクにこれらのモデルを適応させる。
残念ながら、この目的のために利用可能な限定サイズのラベル付きデータセットは少なくありません。
我々は、この状況を前進させる可能性の高いいくつかの貢献をしている。
本稿では,小型補助ネットワークによって重み付けが制御される特殊なdlネットワークであるヘイトスピーチ検出のためのハイパーネットワークを提案する。
これらのアーキテクチャは単語レベルとは対照的に文字レベルで動作し、人気のあるdl分類器よりも数桁小さい。
さらに,大量の自動生成例を用いたヘイト検出分類器の訓練は,itデータ拡張法として一般的に有用であるが,提案するハイパーネットワークの性能が向上することを示す。
実際、我々は5つの公開ヘイトスピーチデータセットを用いて評価したこのアプローチを用いて、事前学習され、桁違いに大きい最先端の言語モデルと同等または優れたパフォーマンスを達成する。 The massive spread of hate speech, hateful content targeted at specific subpopulations, is a problem of critical social importance. Automated methods for hate speech detection typically employ state-of-the-art deep learning (DL)-based text classifiers-very large pre-trained neural language models of over 100 million parameters, adapting these models to the task of hate speech detection using relevant labeled datasets. Unfortunately, there are only numerous labeled datasets of limited size that are available for this purpose. We make several contributions with high potential for advancing this state of affairs. We present HyperNetworks for hate speech detection, a special class of DL networks whose weights are regulated by a small-scale auxiliary network. These architectures operate at character-level, as opposed to word-level, and are several magnitudes of order smaller compared to the popular DL classifiers. We further show that training hate detection classifiers using large amounts of automatically generated examples in a procedure named as it data augmentation is beneficial in general, yet this practice especially boosts the performance of the proposed HyperNetworks. In fact, we achieve performance that is comparable or better than state-of-the-art language models, which are pre-trained and orders of magnitude larger, using this approach, as evaluated using five public hate speech datasets. | 翻訳日:2021-11-12 14:07:07 公開日:2021-11-11 |
# (参考訳) 間違いから学ぶ -- ニューラルアーキテクチャ検索のためのフレームワーク Learning from Mistakes -- A Framework for Neural Architecture Search ( http://arxiv.org/abs/2111.06353v1 ) ライセンス: CC BY 4.0 | Bhanu Garg, Li Zhang, Pradyumna Sridhara, Ramtin Hosseini, Eric Xing, Pengtao Xie | (参考訳) 間違いから学ぶことは、学習者が間違いを犯したトピックに集中し、理解を深める効果的なヒューマンラーニング手法である。
本稿では,この人間の学習戦略が機械学習に応用できるかどうかを検討する。
そこで本研究では,学習者が修正時の誤りにもっと集中することで学習能力を向上させる学習手法である learning from mistakes (lfm) を提案する。
3段階最適化問題として LFM を定式化する。
1)学習者は,学習する
2) 誤りに着目した学習者が再学習し,
3)学習者は学習を検証する。
LFM問題を解決するための効率的なアルゴリズムを開発した。
CIFAR-10, CIFAR-100, Imagenet 上のニューラルネットワーク探索に LFM フレームワークを適用した。
実験結果は,本モデルの有効性を強く示している。 Learning from one's mistakes is an effective human learning technique where the learners focus more on the topics where mistakes were made, so as to deepen their understanding. In this paper, we investigate if this human learning strategy can be applied in machine learning. We propose a novel machine learning method called Learning From Mistakes (LFM), wherein the learner improves its ability to learn by focusing more on the mistakes during revision. We formulate LFM as a three-stage optimization problem: 1) learner learns; 2) learner re-learns focusing on the mistakes, and; 3) learner validates its learning. We develop an efficient algorithm to solve the LFM problem. We apply the LFM framework to neural architecture search on CIFAR-10, CIFAR-100, and Imagenet. Experimental results strongly demonstrate the effectiveness of our model. | 翻訳日:2021-11-12 14:04:41 公開日:2021-11-11 |
# BOiLS:論理合成のためのベイズ最適化 BOiLS: Bayesian Optimisation for Logic Synthesis ( http://arxiv.org/abs/2111.06178v1 ) ライセンス: Link先を確認 | Antoine Grosnit, Cedric Malherbe, Rasul Tutunov, Xingchen Wan, Jun Wang, Haitham Bou Ammar | (参考訳) 論理合成における回路品質(QoR)の最適化は、指数関数的にサイズの検索空間の探索を必要とする重大な課題である。
専門家が設計した操作は効果的なシーケンスを明らかにするのに役立つが、論理回路の複雑さの増加は自動手順を好む。
機械学習の成功に触発された研究者たちは、ディープラーニングと強化学習をロジック合成アプリケーションに適用した。
しかし、これらの技術は広く普及するのを防ぐため、高いサンプルの複雑さに悩まされる。
効率的でスケーラブルな解を実現するために,現代ベイズ最適化を適用して合成操作の空間をナビゲートする最初のアルゴリズムBOiLSを提案する。
boilsは人間の介入を必要とせず、新たなガウス過程カーネルと信頼領域の制約付き買収を通じて、探索と搾取を効果的にトレードオフする。
EPFLベンチマークの一連の実験では,サンプル効率とQoR値の両方の観点から,BOiLSの最先端性能を実証した。 Optimising the quality-of-results (QoR) of circuits during logic synthesis is a formidable challenge necessitating the exploration of exponentially sized search spaces. While expert-designed operations aid in uncovering effective sequences, the increase in complexity of logic circuits favours automated procedures. Inspired by the successes of machine learning, researchers adapted deep learning and reinforcement learning to logic synthesis applications. However successful, those techniques suffer from high sample complexities preventing widespread adoption. To enable efficient and scalable solutions, we propose BOiLS, the first algorithm adapting modern Bayesian optimisation to navigate the space of synthesis operations. BOiLS requires no human intervention and effectively trades-off exploration versus exploitation through novel Gaussian process kernels and trust-region constrained acquisitions. In a set of experiments on EPFL benchmarks, we demonstrate BOiLS's superior performance compared to state-of-the-art in terms of both sample efficiency and QoR values. | 翻訳日:2021-11-12 13:49:42 公開日:2021-11-11 |
# ビデオセグメンテーションのための難読教師なし学習 Dense Unsupervised Learning for Video Segmentation ( http://arxiv.org/abs/2111.06265v1 ) ライセンス: Link先を確認 | Nikita Araslanov, Simone Schaub-Meyer and Stefan Roth | (参考訳) 本稿では,ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習手法を提案する。
従来の研究と異なり、我々の定式化は、完全な畳み込み方式で、密集した特徴表現を直接学習することができる。
我々は、一様グリッドサンプリングを用いてアンカーの集合を抽出し、ビデオ間レベルと動画内レベルの両方でそれらを曖昧にするためにモデルを訓練する。
しかし、そのようなモデルを訓練する素案は退化解をもたらす。
分割タスクの同値性を類似性変換に適合させる単純な正規化スキームでこれを防止することを提案する。
我々の訓練目標は、効率的な実施を認め、迅速な訓練収束を示す。
確立されたVOSベンチマークでは、トレーニングデータや計算能力が大幅に少ないにもかかわらず、従来の作業のセグメンテーション精度を上回っている。 We present a novel approach to unsupervised learning for video object segmentation (VOS). Unlike previous work, our formulation allows to learn dense feature representations directly in a fully convolutional regime. We rely on uniform grid sampling to extract a set of anchors and train our model to disambiguate between them on both inter- and intra-video levels. However, a naive scheme to train such a model results in a degenerate solution. We propose to prevent this with a simple regularisation scheme, accommodating the equivariance property of the segmentation task to similarity transformations. Our training objective admits efficient implementation and exhibits fast training convergence. On established VOS benchmarks, our approach exceeds the segmentation accuracy of previous work despite using significantly less training data and compute power. | 翻訳日:2021-11-12 13:47:07 公開日:2021-11-11 |
# オブジェクトネスの出現:ビデオからゼロショットセグメンテーションを学ぶ The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos ( http://arxiv.org/abs/2111.06394v1 ) ライセンス: Link先を確認 | Runtao Liu, Zhirong Wu, Stella X. Yu, Stephen Lin | (参考訳) 人間は動く物体を何であるかを知らずに簡単に分割することができる。
連続的な視覚的な観察からその目的が生まれると、私たちはグループ化をモデル化し、ラベルのないビデオから同時に動きます。
我々の前提は、動画は移動コンポーネントによって同じシーンの異なるビューを持ち、適切な領域分割と領域フローは、外部の監視なしにデータ自体からチェックできる相互ビュー合成を可能にすることである。
モデルでは,1つの画像に対して特徴に基づく領域分割を出力する出現経路と,1つの画像に対して動作特徴を出力する動き経路の2つから始める。
その後、セグメントフローと呼ばれる結合表現に結合し、各領域のオフセットをプールし、シーン全体の移動領域の全体的特徴を提供する。
セグメンテーションフローに基づくビュー合成誤差を最小化するためにモデルを訓練することにより,出現経路と運動経路は低レベルエッジや光フローから構築することなく,領域のセグメンテーションとフロー推定を自動的に学習する。
本モデルでは,画像からのゼロショットオブジェクトセグメンテーション,教師なしテスト時間適応によるビデオからのオブジェクトセグメンテーション,教師付き微調整によるセマンティックイメージセグメンテーションなど,外観経路におけるオブジェクトの驚くほどの出現を示す。
私たちの作品は、ビデオからの真にエンドツーエンドのゼロショットオブジェクトセグメンテーションです。
セグメンテーションとトラッキングのための汎用的オブジェクトネスを発達させるだけでなく、拡張工学を使わずに画像ベースのコントラスト学習方法よりも優れている。 Humans can easily segment moving objects without knowing what they are. That objectness could emerge from continuous visual observations motivates us to model grouping and movement concurrently from unlabeled videos. Our premise is that a video has different views of the same scene related by moving components, and the right region segmentation and region flow would allow mutual view synthesis which can be checked from the data itself without any external supervision. Our model starts with two separate pathways: an appearance pathway that outputs feature-based region segmentation for a single image, and a motion pathway that outputs motion features for a pair of images. It then binds them in a conjoint representation called segment flow that pools flow offsets over each region and provides a gross characterization of moving regions for the entire scene. By training the model to minimize view synthesis errors based on segment flow, our appearance and motion pathways learn region segmentation and flow estimation automatically without building them up from low-level edges or optical flows respectively. Our model demonstrates the surprising emergence of objectness in the appearance pathway, surpassing prior works on zero-shot object segmentation from an image, moving object segmentation from a video with unsupervised test-time adaptation, and semantic image segmentation by supervised fine-tuning. Our work is the first truly end-to-end zero-shot object segmentation from videos. It not only develops generic objectness for segmentation and tracking, but also outperforms prevalent image-based contrastive learning methods without augmentation engineering. | 翻訳日:2021-11-12 13:46:54 公開日:2021-11-11 |
# エージェントスペース Agent Spaces ( http://arxiv.org/abs/2111.06005v1 ) ライセンス: Link先を確認 | John C. Raisbeck, Matthew W. Allen, Hakho Lee | (参考訳) 強化学習における探索は最も重要なタスクの1つだが、動的プログラミングパラダイムにおける有限問題以外には明確に定義されていない(第2.4条参照)。
オンライン学習手法にも適用可能な探索の再解釈を提案する。
新しい方向からの探索に近付くことで、この定義にたどり着きます。
動的プログラミングによる単純なマルコフ決定プロセスを解決するために作られた探索の概念は、もはや広く適用されないことを発見した後、調査を再検討する。
ダイナミックな探索手順の終了を延ばす代わりに、その手段を拡張します。
すなわち、プロセスで可能なすべての状態-アクションペアを繰り返しサンプリングするのではなく、エージェント自体を爆発的に修正する行為を定義します。
その結果得られる探索の定義は無限問題や非動的学習法にも適用でき、探索のダイナミックな概念は許容できない。
エージェントの修正が学習にどのように影響するかを理解するため、エージェントの集合の新たな構造について説明する: プロセスで可能な各エージェントの視点を表す距離の集合(フットノート7参照) $d_{a} \in a$。
これらの距離を用いてトポロジーを定義し、強化学習における多くの重要な構造がエージェント空間の収束によって引き起こされるトポロジーの下でうまく振る舞うことを示す。 Exploration is one of the most important tasks in Reinforcement Learning, but it is not well-defined beyond finite problems in the Dynamic Programming paradigm (see Subsection 2.4). We provide a reinterpretation of exploration which can be applied to any online learning method. We come to this definition by approaching exploration from a new direction. After finding that concepts of exploration created to solve simple Markov decision processes with Dynamic Programming are no longer broadly applicable, we reexamine exploration. Instead of extending the ends of dynamic exploration procedures, we extend their means. That is, rather than repeatedly sampling every state-action pair possible in a process, we define the act of modifying an agent to itself be explorative. The resulting definition of exploration can be applied in infinite problems and non-dynamic learning methods, which the dynamic notion of exploration cannot tolerate. To understand the way that modifications of an agent affect learning, we describe a novel structure on the set of agents: a collection of distances (see footnote 7) $d_{a} \in A$, which represent the perspectives of each agent possible in the process. Using these distances, we define a topology and show that many important structures in Reinforcement Learning are well behaved under the topology induced by convergence in the agent space. | 翻訳日:2021-11-12 13:46:08 公開日:2021-11-11 |
# (参考訳) 危機ツイートにおけるきめ細かな位置情報の特定 Identification of Fine-Grained Location Mentions in Crisis Tweets ( http://arxiv.org/abs/2111.06334v1 ) ライセンス: CC BY 4.0 | Sarthak Khanal, Maria Traskowsky, Doina Caragea | (参考訳) 危機的ツイートにおける詳細な位置情報の特定は、ソーシャルメディアから抽出された状況認識情報を行動可能な情報に変換することの中心である。
以前のほとんどの作品は、特定の型を考慮せずに、ジェネリックな位置を特定することに重点を置いてきた。
きめ細かな位置情報識別タスクの進捗を促進するために,2つのつぶやき危機データセットを手作業でアノテートし,特定の位置情報タイプにアノテートする。
第1のデータセットは、さまざまな危機イベントからのツイート、第2のデータセットは、世界的な新型コロナウイルス(covid-19)パンデミックのツイートを含む。
ドメイン内およびドメイン間の両方の設定において、これらのデータセットのシーケンスタグ付けのための最先端ディープラーニングモデルの性能について検討する。 Identification of fine-grained location mentions in crisis tweets is central in transforming situational awareness information extracted from social media into actionable information. Most prior works have focused on identifying generic locations, without considering their specific types. To facilitate progress on the fine-grained location identification task, we assemble two tweet crisis datasets and manually annotate them with specific location types. The first dataset contains tweets from a mixed set of crisis events, while the second dataset contains tweets from the global COVID-19 pandemic. We investigate the performance of state-of-the-art deep learning models for sequence tagging on these datasets, in both in-domain and cross-domain settings. | 翻訳日:2021-11-12 13:44:09 公開日:2021-11-11 |
# マルチタスク強化学習によるロバスト知識グラフ埋め込みに向けて Towards Robust Knowledge Graph Embedding via Multi-task Reinforcement Learning ( http://arxiv.org/abs/2111.06103v1 ) ライセンス: Link先を確認 | Zhao Zhang, Fuzhen Zhuang, Hengshu Zhu, Chao Li, Hui Xiong, Qing He and Yongjun Xu | (参考訳) 近年、知識グラフ(KG)はAI関連のアプリケーションにおいて重要な役割を演じている。
大きなサイズにもかかわらず、既存のKGは完全で包括的ではない。
KGを継続的に強化するためには、自動知識構築と更新機構が通常利用され、必然的に多くのノイズをもたらす。
しかし、既存の知識グラフ埋め込み(KGE)法の多くは、KGの3つの事実はすべて正しいと仮定し、ノイズや知識の矛盾を考慮せずに実体と関係を低次元空間に投影する。
これはKGの低品質かつ信頼性の低い表現につながる。
そこで本稿では,ノイズの多いデータ問題を大幅に軽減できる汎用マルチタスク強化学習フレームワークを提案する。
提案手法では,高質な知識トリプルの選択に強化学習を活用し,ノイズの多い知識をフィルタリングする。
また、意味論的に類似した関係間の相関を最大限に活用するために、類似関係の3重選択過程をマルチタスク学習の集合的な方法で訓練する。
さらに,提案フレームワークにより,一般的なKGEモデルであるTransE,DistMult,ConvE,RotatEを拡張した。
最後に,本手法が既存のKGEモデルを拡張し,ノイズのあるシナリオでKGのより堅牢な表現を提供できることを示す。 Nowadays, Knowledge graphs (KGs) have been playing a pivotal role in AI-related applications. Despite the large sizes, existing KGs are far from complete and comprehensive. In order to continuously enrich KGs, automatic knowledge construction and update mechanisms are usually utilized, which inevitably bring in plenty of noise. However, most existing knowledge graph embedding (KGE) methods assume that all the triple facts in KGs are correct, and project both entities and relations into a low-dimensional space without considering noise and knowledge conflicts. This will lead to low-quality and unreliable representations of KGs. To this end, in this paper, we propose a general multi-task reinforcement learning framework, which can greatly alleviate the noisy data problem. In our framework, we exploit reinforcement learning for choosing high-quality knowledge triples while filtering out the noisy ones. Also, in order to take full advantage of the correlations among semantically similar relations, the triple selection processes of similar relations are trained in a collective way with multi-task learning. Moreover, we extend popular KGE models TransE, DistMult, ConvE and RotatE with the proposed framework. Finally, the experimental validation shows that our approach is able to enhance existing KGE models and can provide more robust representations of KGs in noisy scenarios. | 翻訳日:2021-11-12 13:33:35 公開日:2021-11-11 |
# ウィキデータを用いた中国語多型複合質問 A Chinese Multi-type Complex Questions Answering Dataset over Wikidata ( http://arxiv.org/abs/2111.06086v1 ) ライセンス: Link先を確認 | Jianyun Zou and Min Yang and Lichao Zhang and Yechen Xu and Qifan Pan and Fengqing Jiang and Ran Qin and Shushu Wang and Yifan He and Songfang Huang and Zhou Zhao | (参考訳) 複雑な知識ベース質問回答は、過去10年間に人気のある研究分野である。
近年の公開データセットはこの分野での成果を奨励しているが、主に英語に限られており、少数の質問タイプと関係に限られており、より現実的な設定や英語以外の言語の研究を妨げる。
さらに、最先端のKBQAモデルは、最も人気のある現実世界の知識基盤であるWikidataで訓練されている。
CLC-QuADは,これらの課題に対処するために,ウィキデータ上での最初の大規模複雑な中国語意味解析データセットである。
データセットと合わせて,事実質問,二重意図質問,ブール問題,質問数など,複数タイプの複雑な質問に対して,Wikidataを背景知識とするテキストからSPARQLのベースラインモデルを提案する。
最終的に、このデータセット上でのSOTA KBQAモデルの性能を分析し、中国のKBQAが直面する課題を特定する。 Complex Knowledge Base Question Answering is a popular area of research in the past decade. Recent public datasets have led to encouraging results in this field, but are mostly limited to English and only involve a small number of question types and relations, hindering research in more realistic settings and in languages other than English. In addition, few state-of-the-art KBQA models are trained on Wikidata, one of the most popular real-world knowledge bases. We propose CLC-QuAD, the first large scale complex Chinese semantic parsing dataset over Wikidata to address these challenges. Together with the dataset, we present a text-to-SPARQL baseline model, which can effectively answer multi-type complex questions, such as factual questions, dual intent questions, boolean questions, and counting questions, with Wikidata as the background knowledge. We finally analyze the performance of SOTA KBQA models on this dataset and identify the challenges facing Chinese KBQA. | 翻訳日:2021-11-12 13:33:17 公開日:2021-11-11 |
# ニューラル拡散方程式を用いた気候モデリング Climate Modeling with Neural Diffusion Equations ( http://arxiv.org/abs/2111.06011v1 ) ライセンス: Link先を確認 | Jeehyun Hwang, Jeongwhan Choi, Hwangyong Choi, Kookjin Lee, Dongeun Lee, Noseong Park | (参考訳) 深層学習技術の顕著な発展により、深層学習に基づく気候モデルを構築するための一連の取り組みがあった。
これらの多くはリカレントニューラルネットワークやグラフニューラルネットワークを使用しているが、ニューラル常微分方程式(NODE)と拡散方程式という2つの概念に基づく新しい気候モデルを構築している。
粒子のブラウン運動を含む多くの物理過程は拡散方程式によって記述することができ、その結果、気候のモデル化に広く用いられている。
一方、ニューラル常微分方程式(NODE)は、データからODEの潜在的な支配方程式を学習することである。
提案手法では,これらを一つの枠組みに統合し,ニューラル拡散方程式(NDE)という概念を提案する。
我々のNDEは、拡散方程式と、不確実性をモデル化するためのもう1つの追加のニューラルネットワークを備えており、与えられた気候データセットを最もよく記述した、適切な潜在的統治方程式を学習することができる。
2つの実世界と1つの合成データセットと11のベースラインを用いた実験では、非自明なマージンで既存のベースラインを一貫して上回ります。 Owing to the remarkable development of deep learning technology, there have been a series of efforts to build deep learning-based climate models. Whereas most of them utilize recurrent neural networks and/or graph neural networks, we design a novel climate model based on the two concepts, the neural ordinary differential equation (NODE) and the diffusion equation. Many physical processes involving a Brownian motion of particles can be described by the diffusion equation and as a result, it is widely used for modeling climate. On the other hand, neural ordinary differential equations (NODEs) are to learn a latent governing equation of ODE from data. In our presented method, we combine them into a single framework and propose a concept, called neural diffusion equation (NDE). Our NDE, equipped with the diffusion equation and one more additional neural network to model inherent uncertainty, can learn an appropriate latent governing equation that best describes a given climate dataset. In our experiments with two real-world and one synthetic datasets and eleven baselines, our method consistently outperforms existing baselines by non-trivial margins. | 翻訳日:2021-11-12 13:30:08 公開日:2021-11-11 |
# 近似と局所ミニマを用いたフレキシブル送信ネットワークの理論的理解に向けて Towards Theoretical Understanding of Flexible Transmitter Networks via Approximation and Local Minima ( http://arxiv.org/abs/2111.06027v1 ) ライセンス: Link先を確認 | Jin-Hui Wu, Shao-Qun Zhang, Yuan Jiang, Zhi-Hua Zhou | (参考訳) フレキシブルトランスミッタネットワーク(FTNet)は、最近提案されたバイオプレースブルニューラルネットワークであり、時空間データを扱う際の最先端モデルとの競合性能を実現している。
しかし、FTNetの理論的理解には未解決の問題がある。
本研究では,一層FTNetの理論的性質を近似と局所ミニマの観点から検討する。
軽微な仮定では、次のように示します。
一 FTNetは、普遍近似器である。
二 FTNetの近似複雑性は、フィードフォワード/リカレントアーキテクチャを持つ実数値ニューラルネットワークよりも指数関数的に小さくすることができ、最悪の場合において同じ順序である。
iii) ftnetの任意の局所最小値がグローバル最小値であり、局所探索アルゴリズムがグローバル最小値に収束可能であることを示唆する。
我々の理論的結果は,FTNetが効率的に対象関数を表現でき,FTNetの理論的空白を補完し,FTNetを改良する可能性を示す局所的ミニマを気にしていないことを示唆している。 Flexible Transmitter Network (FTNet) is a recently proposed bio-plausible neural network and has achieved competitive performance with the state-of-the-art models when handling temporal-spatial data. However, there remains an open problem about the theoretical understanding of FTNet. This work investigates the theoretical properties of one-hidden-layer FTNet from the perspectives of approximation and local minima. Under mild assumptions, we show that: i) FTNet is a universal approximator; ii) the approximation complexity of FTNet can be exponentially smaller than those of real-valued neural networks with feedforward/recurrent architectures and is of the same order in the worst case; iii) any local minimum of FTNet is the global minimum, which suggests that it is possible for local search algorithms to converge to the global minimum. Our theoretical results indicate that FTNet can efficiently express target functions and has no concern about local minima, which complements the theoretical blank of FTNet and exhibits the possibility for ameliorating the FTNet. | 翻訳日:2021-11-12 13:29:49 公開日:2021-11-11 |
# エッジクラウドの分極とコラボレーション: 総合的な調査 Edge-Cloud Polarization and Collaboration: A Comprehensive Survey ( http://arxiv.org/abs/2111.06061v1 ) ライセンス: Link先を確認 | Jiangchao Yao, Shengyu Zhang, Yang Yao, Feng Wang, Jianxin Ma, Jianwei Zhang, Yunfei Chu, Luo Ji, Kunyang Jia, Tao Shen, Anpeng Wu, Fengda Zhang, Ziqi Tan, Kun Kuang, Chao Wu, Fei Wu, Jingren Zhou, Hongxia Yang | (参考訳) クラウドコンピューティングによるディープラーニングの成功とエッジチップの急速な開発の影響を受けて、人工知能(ai)の研究は、クラウドコンピューティングとエッジコンピューティングという2つのコンピューティングパラダイムにシフトした。
近年、モデル革新(トランスフォーマー、事前訓練された家族など)、トレーニングデータの爆発、コンピューティング能力の高騰などにより、従来のディープラーニングモデルを上回る、クラウドサーバ上のより高度なaiモデルの開発において、大きな進歩が見られた。
しかしながら、エッジコンピューティング、特にエッジとクラウドのコラボレーティブコンピューティングは、非常に限られたアルゴリズムをデプロイしたリソース制約のIoTシナリオのために、その成功を公表する初期段階にある。
この調査では、クラウドとエッジ両方のAIを体系的にレビューする。
具体的には、クラウドとエッジモデリングの協調学習メカニズムを最初にセットアップし、そのようなメカニズムを実現するアーキテクチャを徹底的にレビューします。
また、事前トレーニングモデル、グラフニューラルネットワーク、強化学習など、現在進行中の最先端AIトピックの可能性と実践経験についても論じる。
最後に,この分野の有望な方向性と課題について論じる。 Influenced by the great success of deep learning via cloud computing and the rapid development of edge chips, research in artificial intelligence (AI) has shifted to both of the computing paradigms, i.e., cloud computing and edge computing. In recent years, we have witnessed significant progress in developing more advanced AI models on cloud servers that surpass traditional deep learning models owing to model innovations (e.g., Transformers, Pretrained families), explosion of training data and soaring computing capabilities. However, edge computing, especially edge and cloud collaborative computing, are still in its infancy to announce their success due to the resource-constrained IoT scenarios with very limited algorithms deployed. In this survey, we conduct a systematic review for both cloud and edge AI. Specifically, we are the first to set up the collaborative learning mechanism for cloud and edge modeling with a thorough review of the architectures that enable such mechanism. We also discuss potentials and practical experiences of some on-going advanced edge AI topics including pretraining models, graph neural networks and reinforcement learning. Finally, we discuss the promising directions and challenges in this field. | 翻訳日:2021-11-12 13:29:30 公開日:2021-11-11 |
# 超次元計算におけるベクトルシンボリックアーキテクチャに関する研究 その1:モデルとデータ変換 A Survey on Hyperdimensional Computing aka Vector Symbolic Architectures, Part I: Models and Data Transformations ( http://arxiv.org/abs/2111.06077v1 ) ライセンス: Link先を確認 | Denis Kleyko, Dmitri A. Rachkovskij, Evgeny Osipov, Abbas Rahimi | (参考訳) この2部にわたる包括的調査は、超次元コンピューティングとベクトルシンボリックアーキテクチャ(hdc/vsa)の名前でよく知られるコンピューティングフレームワークに向けられている。
どちらの名前も高次元の分散表現を使用し、その鍵演算の代数的性質に依存して構造化記号表現とベクトル分散表現の利点を取り入れた計算モデルのファミリーを指す。
HDC/VSAファミリーで注目すべきモデルは、テンソル製品表現、ホログラフィック還元表現、マルチプライ・アダッド・パーミュート、バイナリスパッタコード、スパースバイナリ分散表現であるが、他にもモデルもある。
HDC/VSAは、コンピュータ科学、電気工学、人工知能、数学、認知科学とのつながりを持つ非常に学際的な分野である。
この事実は、この領域を徹底的に概観するのは難しい。
しかし、近年の新たな研究者の流入により、地域の総合的な調査の必要性が極めて重要になっている。
そこで本パートIでは,HDC/VSAの既知の計算モデルや各種入力データ型から高次元分散表現への変換といった重要な側面について検討する。
本調査の第2部では,アプリケーション,認知コンピューティング,アーキテクチャ,今後の作業への方向性について取り上げている。
この調査は、新参者も実践者も役に立つと書かれています。 This two-part comprehensive survey is devoted to a computing framework most commonly known under the names Hyperdimensional Computing and Vector Symbolic Architectures (HDC/VSA). Both names refer to a family of computational models that use high-dimensional distributed representations and rely on the algebraic properties of their key operations to incorporate the advantages of structured symbolic representations and vector distributed representations. Notable models in the HDC/VSA family are Tensor Product Representations, Holographic Reduced Representations, Multiply-Add-Permute, Binary Spatter Codes, and Sparse Binary Distributed Representations but there are other models too. HDC/VSA is a highly interdisciplinary area with connections to computer science, electrical engineering, artificial intelligence, mathematics, and cognitive science. This fact makes it challenging to create a thorough overview of the area. However, due to a surge of new researchers joining the area in recent years, the necessity for a comprehensive survey of the area has become extremely important. Therefore, amongst other aspects of the area, this Part I surveys important aspects such as: known computational models of HDC/VSA and transformations of various input data types to high-dimensional distributed representations. Part II of this survey is devoted to applications, cognitive computing and architectures, as well as directions for future work. The survey is written to be useful for both newcomers and practitioners. | 翻訳日:2021-11-12 13:29:14 公開日:2021-11-11 |
# AlphaDDA:AlphaZeroを用いた動的難易度調整型ゲーム人工知能 AlphaDDA: game artificial intelligence with dynamic difficulty adjustment using AlphaZero ( http://arxiv.org/abs/2111.06266v1 ) ライセンス: Link先を確認 | Kazuhisa Fujita | (参考訳) 人工知能(AI)プレーヤーは、Go、Chess、Othello(Reversi)といったゲームで超人的なスキルを得た。
言い換えれば、aiプレイヤーは人間プレイヤーの対戦相手として強くなりすぎます。
そして、私たちはAIプレイヤーとボードゲームを楽しむことができません。
人間のプレイヤーを楽しませるためには、AIプレイヤーは人間のプレイヤーと自動的にスキルのバランスをとる必要がある。
この問題に対処するため,AlphaZeroに基づく動的困難調整を行うAIプレイヤーであるAlphaDDAを提案する。
AlphaDDAは、AlphaZeroのようなDeep Neural Network(DNN)とMonte Carloツリーサーチで構成される。
AlphaDDAは、DNNを用いてボード状態のみを形成する遊技状態の値を推定し、その値に応じてそのスキルを変更する。
AlphaDDAはAlphaDDAのスキルを、相手について事前の知識なしにゲームの状態だけを使って調整することができる。
この研究では、AlphaDDAがConnect4、6x6 Othelloをプレイし、Othelloは6x6サイズボードを使用し、Othelloは他のAIエージェントと通信する。
他のAIエージェントは、AlphaZero、Monte Carloツリーサーチ、Minimaxアルゴリズム、ランダムプレイヤーである。
この研究は、AlphaDDAがランダムプレイヤーを除く他のAIエージェントとスキルのバランスをとることができることを示している。
AlphaDDAのDDA能力は、ゲームの状態から値の正確な推定から導かれる。
我々は、DNNが状態から値を推定できるような、任意のゲームにAlphaDDAのアプローチを利用することができる。 An artificial intelligence (AI) player has obtained superhuman skill for games like Go, Chess, and Othello (Reversi). In other words, the AI player becomes too strong as an opponent of human players. Then, we will not enjoy playing board games with the AI player. In order to entertain human players, the AI player is required to balance its skill with the human player's one automatically. To address this issue, I propose AlphaDDA, an AI player with dynamic difficulty adjustment based on AlphaZero. AlphaDDA consists of a deep neural network (DNN) and Monte Carlo tree search like AlphaZero. AlphaDDA estimates the value of the game state form only the board state using the DNN and changes its skill according to the value. AlphaDDA can adjust AlphaDDA's skill using only the state of a game without prior knowledge about an opponent. In this study, AlphaDDA plays Connect4, 6x6 Othello, which is Othello using a 6x6 size board, and Othello with the other AI agents. The other AI agents are AlphaZero, Monte Carlo tree search, Minimax algorithm, and a random player. This study shows that AlphaDDA achieves to balance its skill with the other AI agents except for a random player. AlphaDDA's DDA ability is derived from the accurate estimation of the value from the state of a game. We will be able to use the approach of AlphaDDA for any games in that the DNN can estimate the value from the state. | 翻訳日:2021-11-12 13:28:36 公開日:2021-11-11 |
# (参考訳) ニューラルネットワークの学習信号非依存多様体 Learning Signal-Agnostic Manifolds of Neural Fields ( http://arxiv.org/abs/2111.06387v1 ) ライセンス: CC BY 4.0 | Yilun Du, Katherine M. Collins, Joshua B. Tenenbaum, Vincent Sitzmann | (参考訳) ディープニューラルネットワークは、画像、形状、音声信号などのモダリティを越えてデータセットの潜在構造を学ぶために広く使われている。
しかし、既存のモデルは一般的にモダリティに依存しており、異なる信号のクラスを処理するためにカスタムアーキテクチャと目的が必要である。
我々は、画像、形状、オーディオ、およびクロスモーダルオーディオ視覚領域の基盤構造をモダリティに依存しない方法で捉えるために、ニューラルフィールドを利用する。
私たちは、データが存在する低次元の局所線型部分空間を推測することを目的とした、多様体の学習の1つとしてタスクをキャストしました。
GEMと呼ばれる我々のモデルは、多様体、局所線型性、局所アイソメトリのカバレッジを強制することにより、モーダル性にまたがるデータセットの基盤構造を捉えることを学ぶ。
すると、我々の多様体の線形領域に沿って移動して、サンプル間の知覚的に一貫した補間を得ることができ、さらにGEMを使って多様体上の点を復元し、入力画像の多様な完備化だけでなく、オーディオや画像信号のクロスモーダル幻覚を再現することができる。
最後に、GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成することができることを示す。
コードと追加結果はhttps://yilundu.github.io/gem/で入手できる。 Deep neural networks have been used widely to learn the latent structure of datasets, across modalities such as images, shapes, and audio signals. However, existing models are generally modality-dependent, requiring custom architectures and objectives to process different classes of signals. We leverage neural fields to capture the underlying structure in image, shape, audio and cross-modal audiovisual domains in a modality-independent manner. We cast our task as one of learning a manifold, where we aim to infer a low-dimensional, locally linear subspace in which our data resides. By enforcing coverage of the manifold, local linearity, and local isometry, our model -- dubbed GEM -- learns to capture the underlying structure of datasets across modalities. We can then travel along linear regions of our manifold to obtain perceptually consistent interpolations between samples, and can further use GEM to recover points on our manifold and glean not only diverse completions of input images, but cross-modal hallucinations of audio or image signals. Finally, we show that by walking across the underlying manifold of GEM, we may generate new samples in our signal domains. Code and additional results are available at https://yilundu.github.io/gem/. | 翻訳日:2021-11-12 13:26:51 公開日:2021-11-11 |
# 関係推論パターンによる知識グラフの埋め込み Poisoning Knowledge Graph Embeddings via Relation Inference Patterns ( http://arxiv.org/abs/2111.06345v1 ) ライセンス: Link先を確認 | Peru Bhardwaj, John Kelleher, Luca Costabello and Declan O'Sullivan | (参考訳) 本稿では,知識グラフのリンク予測作業における知識グラフ埋め込み(KGE)モデルに対するデータ中毒攻撃の問題点について検討する。
KGEモデルに悪影響を与えるため,知識グラフの対称性,逆転,構成といった関係パターンから得られた帰納的能力を活用することを提案する。
具体的には,対象事実に対するモデル予測信頼度を低下させるため,デコイな事実の集合に対するモデル予測信頼度を改善することを提案する。
そこで我々は,様々な推論パターンを通じ,デコイ事実に対するモデルの予測信頼度を向上させるための相反する追加手法を考案する。
実験により,提案手法は4つのKGEモデルに対して,2つの公開データセットに対して,最先端のベースラインより優れていることが示された。
また、対称性パターンに基づく攻撃は、このパターンに対するKGEモデルの感度を示す全てのモデル-データセットの組み合わせを一般化する。 We study the problem of generating data poisoning attacks against Knowledge Graph Embedding (KGE) models for the task of link prediction in knowledge graphs. To poison KGE models, we propose to exploit their inductive abilities which are captured through the relationship patterns like symmetry, inversion and composition in the knowledge graph. Specifically, to degrade the model's prediction confidence on target facts, we propose to improve the model's prediction confidence on a set of decoy facts. Thus, we craft adversarial additions that can improve the model's prediction confidence on decoy facts through different inference patterns. Our experiments demonstrate that the proposed poisoning attacks outperform state-of-art baselines on four KGE models for two publicly available datasets. We also find that the symmetry pattern based attacks generalize across all model-dataset combinations which indicates the sensitivity of KGE models to this pattern. | 翻訳日:2021-11-12 13:08:14 公開日:2021-11-11 |
# 深層モデルの公理的・階層的・象徴的説明に向けて Towards Axiomatic, Hierarchical, and Symbolic Explanation for Deep Models ( http://arxiv.org/abs/2111.06206v1 ) ライセンス: Link先を確認 | Jie Ren, Mingjie Li, Qihan Ren, Huiqi Deng, Quanshi Zhang | (参考訳) 本稿では、よく訓練された深い推論モデルによって符号化された内部論理を客観的に説明するための階層型およびシンボル型And-Orグラフ(AOG)を提案する。
まず,ゲーム理論における説明モデルの目的性を定義し,深層モデルで符号化されたAnd-Or論理の厳密な表現を開発する。
AOGの説明者の目的性と信頼性は理論的に保証され、実験的に検証される。
さらに,説明の簡潔性を高める手法をいくつか提案する。 This paper proposes a hierarchical and symbolic And-Or graph (AOG) to objectively explain the internal logic encoded by a well-trained deep model for inference. We first define the objectiveness of an explainer model in game theory, and we develop a rigorous representation of the And-Or logic encoded by the deep model. The objectiveness and trustworthiness of the AOG explainer are both theoretically guaranteed and experimentally verified. Furthermore, we propose several techniques to boost the conciseness of the explanation. | 翻訳日:2021-11-12 13:08:01 公開日:2021-11-11 |
# dnnの表現ボトルネックの発見と説明 Discovering and Explaining the Representation Bottleneck of DNNs ( http://arxiv.org/abs/2111.06236v1 ) ライセンス: Link先を確認 | Huiqi Deng, Qihan Ren, Xu Chen, Hao Zhang, Jie Ren, Quanshi Zhang | (参考訳) 本稿では、DNNに符号化された入力変数間の相互作用の複雑さの観点から、ディープニューラルネットワーク(DNN)の特徴表現のボトルネックを考察する。
この目的のために、我々は入力変数間の多階相互作用に注目し、その順序は相互作用の複雑さを表す。
DNNは単純すぎる相互作用と複雑すぎる相互作用の両方を符号化する傾向にあるが、通常は中間複雑性の相互作用を学習できない。
このような現象は、異なるタスクに対して異なるDNNによって広く共有されている。
この現象は、DNNと人間の間の認識ギャップを示し、これを表現ボトルネックと呼ぶ。
我々は,表現ボトルネックの根本的な原因を理論的に証明する。
さらに,特定の複雑性の相互作用の学習を奨励・奨励する損失を提案し,異なる複雑性の相互作用の表現能力を分析する。 This paper explores the bottleneck of feature representations of deep neural networks (DNNs), from the perspective of the complexity of interactions between input variables encoded in DNNs. To this end, we focus on the multi-order interaction between input variables, where the order represents the complexity of interactions. We discover that a DNN is more likely to encode both too simple interactions and too complex interactions, but usually fails to learn interactions of intermediate complexity. Such a phenomenon is widely shared by different DNNs for different tasks. This phenomenon indicates a cognition gap between DNNs and human beings, and we call it a representation bottleneck. We theoretically prove the underlying reason for the representation bottleneck. Furthermore, we propose a loss to encourage/penalize the learning of interactions of specific complexities, and analyze the representation capacities of interactions of different complexities. | 翻訳日:2021-11-12 13:07:53 公開日:2021-11-11 |
# Quran Reciters データセットに基づく Wav2Vec2.0 と HuBERT を用いた効率的な音声識別 Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT Based on the Quran Reciters Dataset ( http://arxiv.org/abs/2111.06331v1 ) ライセンス: Link先を確認 | Aly Moustafa and Salah A. Aly | (参考訳) 現在の認証および信頼性システムは、ユーザを認識または承認するための古典的および生体的手法に依存している。
このような手法には、音声認識、目、指の署名が含まれる。
最近のツールはディープラーニングとトランスフォーマーを使ってより良い結果を得る。
本稿では,Wav2Vec2.0とHuBERT音声表現学習ツールを用いて,アラビア語話者識別のためのディープラーニング構築モデルを開発する。
エンドツーエンドのwav2vec2.0パラダイムは、特徴ベクトルのセットをランダムにマスキングして文脈化音声表現学習を取得し、トランスフォーマーニューラルネットワークを適用する。
我々は、不変ラベル付きクラスを区別できるMPP分類器を用いる。
本研究は,提案モデルの高精度性を確保する実験結果を示す。
この実験により、ある話者に対する任意の波信号が、それぞれWav2Vec2.0とHuBERTの場合の98%と97.1%の精度で識別できる。 Current authentication and trusted systems depend on classical and biometric methods to recognize or authorize users. Such methods include audio speech recognitions, eye, and finger signatures. Recent tools utilize deep learning and transformers to achieve better results. In this paper, we develop a deep learning constructed model for Arabic speakers identification by using Wav2Vec2.0 and HuBERT audio representation learning tools. The end-to-end Wav2Vec2.0 paradigm acquires contextualized speech representations learnings by randomly masking a set of feature vectors, and then applies a transformer neural network. We employ an MLP classifier that is able to differentiate between invariant labeled classes. We show several experimental results that safeguard the high accuracy of the proposed model. The experiments ensure that an arbitrary wave signal for a certain speaker can be identified with 98% and 97.1% accuracies in the cases of Wav2Vec2.0 and HuBERT, respectively. | 翻訳日:2021-11-12 13:07:41 公開日:2021-11-11 |
# ニューラルネットワークと支持ベクトルマシンの等価性について On the Equivalence between Neural Network and Support Vector Machine ( http://arxiv.org/abs/2111.06063v1 ) ライセンス: Link先を確認 | Yilan Chen, Wei Huang, Lam M. Nguyen, Tsui-Wei Weng | (参考訳) 近年の研究では、勾配降下によって訓練された無限広ニューラルネットワーク(NN)の力学は、ニューラルタンジェントカーネル(NTK) \citep{jacot2018neural}によって特徴づけられることが示されている。
この二乗損失の下では、勾配降下によって訓練された無限幅NNは、NTK \citep{arora2019exact} のカーネル回帰と等価である。
しかし、この等価性は現在、リッジ回帰でのみ知られているが、NNと他のカーネルマシン(例えば、サポートベクトルマシン(SVM))との等価性は未だ不明である。
そこで本研究では,NN と SVM の等価性,特にソフトマージン損失によって訓練された無限幅の NN と,下位降下により訓練されたNTK を用いた標準ソフトマージン SVM の確立を提案する。
我々の理論結果は、NNと有限幅の有界正規化KMの広いファミリーの等価性を確立することや、そのような正規化損失関数によって訓練されたすべての有限幅NNがおよそ1KMであることを示すことである。
さらに,本理論は3つの実用的応用を可能にすることを実証する。
(i)対応するKMを介して NN の \textit{non-vacuous} 一般化境界
(ii)無限幅NNのロバスト性証明(既存のロバスト性検証手法は空き境界を提供する)
(iii)従来のカーネル回帰より本質的に頑丈な無限幅nn。
実験のコードは \url{https://github.com/leslie-ch/equiv-nn-svm} で利用可能です。 Recent research shows that the dynamics of an infinitely wide neural network (NN) trained by gradient descent can be characterized by Neural Tangent Kernel (NTK) \citep{jacot2018neural}. Under the squared loss, the infinite-width NN trained by gradient descent with an infinitely small learning rate is equivalent to kernel regression with NTK \citep{arora2019exact}. However, the equivalence is only known for ridge regression currently \citep{arora2019harnessing}, while the equivalence between NN and other kernel machines (KMs), e.g. support vector machine (SVM), remains unknown. Therefore, in this work, we propose to establish the equivalence between NN and SVM, and specifically, the infinitely wide NN trained by soft margin loss and the standard soft margin SVM with NTK trained by subgradient descent. Our main theoretical results include establishing the equivalence between NN and a broad family of $\ell_2$ regularized KMs with finite-width bounds, which cannot be handled by prior work, and showing that every finite-width NN trained by such regularized loss functions is approximately a KM. Furthermore, we demonstrate our theory can enable three practical applications, including (i) \textit{non-vacuous} generalization bound of NN via the corresponding KM; (ii) \textit{non-trivial} robustness certificate for the infinite-width NN (while existing robustness verification methods would provide vacuous bounds); (iii) intrinsically more robust infinite-width NNs than those from previous kernel regression. Our code for the experiments are available at \url{https://github.com/leslie-CH/equiv-nn-svm}. | 翻訳日:2021-11-12 13:07:26 公開日:2021-11-11 |
# ロボット形態の全身視覚自己モデリング Full-Body Visual Self-Modeling of Robot Morphologies ( http://arxiv.org/abs/2111.06389v1 ) ライセンス: Link先を確認 | Boyuan Chen, Robert Kwiatkowski, Carl Vondrick, Hod Lipson | (参考訳) 身体の内部計算モデルは、ロボットや動物が行動の計画や制御を行う能力に基礎を置いている。
これらの「自己モデル」により、ロボットは物理的な現実で試すことなく、複数の将来の行動の結果を考慮できる。
完全なデータ駆動型自己モデリングの最近の進歩により、マシンはタスクに依存しない対話データから直接フォワードキネマティックスを学ぶことができる。
しかし、フォワード-キネマ-ticsモデルは、エンドエフェクタの位置や関節と質量の速度など、形態学の限られた側面のみを予測できる。
主要な課題は、形態学のどの側面が将来のタスクに関係するかを事前に知ることなく、形態学と運動学全体をモデル化することである。
本稿では,フォワードキネマティクスを直接モデル化するのではなく,ロボットの状態に応じた空間占有クエリに答えることのできる,より有用な自己モデリング形式を提案する。
このようなクエリ駆動の自己モデルは、空間領域において連続的であり、メモリ効率が良く、完全に微分可能で、キネマティックな認識である。
物理的実験では、視覚的な自己モデルが作業空間の約1%に正確であることを示し、ロボットが様々な動作計画と制御タスクを実行できるようにする。
視覚的な自己モデリングにより、ロボットは現実世界の損傷を検出し、ローカライズし、回復することができる。
私たちのプロジェクトwebサイトは、https://robot-morphology.cs.columbia.edu/にあります。 Internal computational models of physical bodies are fundamental to the ability of robots and animals alike to plan and control their actions. These "self-models" allow robots to consider outcomes of multiple possible future actions, without trying them out in physical reality. Recent progress in fully data-driven self-modeling has enabled machines to learn their own forward kinematics directly from task-agnostic interaction data. However, forward-kinema\-tics models can only predict limited aspects of the morphology, such as the position of end effectors or velocity of joints and masses. A key challenge is to model the entire morphology and kinematics, without prior knowledge of what aspects of the morphology will be relevant to future tasks. Here, we propose that instead of directly modeling forward-kinematics, a more useful form of self-modeling is one that could answer space occupancy queries, conditioned on the robot's state. Such query-driven self models are continuous in the spatial domain, memory efficient, fully differentiable and kinematic aware. In physical experiments, we demonstrate how a visual self-model is accurate to about one percent of the workspace, enabling the robot to perform various motion planning and control tasks. Visual self-modeling can also allow the robot to detect, localize and recover from real-world damage, leading to improved machine resiliency. Our project website is at: https://robot-morphology.cs.columbia.edu/ | 翻訳日:2021-11-12 13:07:01 公開日:2021-11-11 |
# amazon製品レビューで説明可能な文レベルの感情分析 Explainable Sentence-Level Sentiment Analysis for Amazon Product Reviews ( http://arxiv.org/abs/2111.06070v1 ) ライセンス: Link先を確認 | Xuechun Li, Xueyao Sun, Zewei Xu, Yifan Zhou | (参考訳) 本稿では,Amazonの製品レビューにおける文レベルの感情分析を行い,モデル解釈可能性に関する詳細な分析を行う。
感情分析タスクには、注意機構を備えたBiLSTMモデルを用いる。
解釈可能性の研究において、単文の注意重み分布と主アスペクト項の注意重み分布を考察する。
精度は0.96まで。
そして、アスペクト項は文中の感情的な単語と同じかそれ以上の注意重みを持つことがわかった。 In this paper, we conduct a sentence level sentiment analysis on the product reviews from Amazon and thorough analysis on the model interpretability. For the sentiment analysis task, we use the BiLSTM model with attention mechanism. For the study of interpretability, we consider the attention weights distribution of single sentence and the attention weights of main aspect terms. The model has an accuracy of up to 0.96. And we find that the aspect terms have the same or even more attention weights than the sentimental words in sentences. | 翻訳日:2021-11-12 13:06:36 公開日:2021-11-11 |
# (参考訳) クロスモーダルなオブジェクト追跡: モダリティを意識した表現と統一ベンチマーク Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark ( http://arxiv.org/abs/2111.04264v2 ) ライセンス: CC BY 4.0 | Chenglong Li, Tianhao Zhu, Lei Liu, Xiaonan Si, Zilin Fan, Sulan Zhai | (参考訳) 多くの視覚システムでは、視覚追跡はしばしばrgb画像シーケンスに基づいており、一部のターゲットは低照度条件では無効であり、追跡性能は著しく影響を受ける。
深度データや赤外線データなどの他のモダリティの導入は、個々のソースのイメージング制限を処理する効果的な方法であるが、マルチモーダルイメージングプラットフォームは通常、精巧な設計を必要とし、現在多くの現実世界のアプリケーションに適用できない。
近赤外(NIR)イメージングは、多くの監視カメラにおいて不可欠な部分となり、RGBとNIRを光強度に基づいて切り換えることができる。
これら2つのモダリティは、非常に異なる視覚特性を持つ異質であり、ビジュアルトラッキングに大きな課題をもたらす。
しかし、既存の研究ではこの問題は研究されていない。
本研究では,クロスモーダルオブジェクト追跡の問題に対処し,合計481kフレーム以上の654のクロスモーダル画像シーケンスを含む新たなビデオデータセットを作成し,平均映像長は735フレーム以上である。
クロスモーダル物体追跡の研究開発を促進するため,トラッキングプロセスにおけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識した対象表現を学習するアルゴリズムを提案する。
プラグアンドプレイであり、異なるトラッキングフレームワークに柔軟に組み込むことができる。
提案手法の有効性を2つの代表的な追跡フレームワークを用いて検証し,提案手法の有効性を検証した。
無料のアカデミック利用向けにデータセットをリリースし、データセットダウンロードリンクとコードはまもなくリリースします。 In many visual systems, visual tracking often bases on RGB image sequences, in which some targets are invalid in low-light conditions, and tracking performance is thus affected significantly. Introducing other modalities such as depth and infrared data is an effective way to handle imaging limitations of individual sources, but multi-modal imaging platforms usually require elaborate designs and cannot be applied in many real-world applications at present. Near-infrared (NIR) imaging becomes an essential part of many surveillance cameras, whose imaging is switchable between RGB and NIR based on the light intensity. These two modalities are heterogeneous with very different visual properties and thus bring big challenges for visual tracking. However, existing works have not studied this challenging problem. In this work, we address the cross-modal object tracking problem and contribute a new video dataset, including 654 cross-modal image sequences with over 481K frames in total, and the average video length is more than 735 frames. To promote the research and development of cross-modal object tracking, we propose a new algorithm, which learns the modality-aware target representation to mitigate the appearance gap between RGB and NIR modalities in the tracking process. It is plug-and-play and could thus be flexibly embedded into different tracking frameworks. Extensive experiments on the dataset are conducted, and we demonstrate the effectiveness of the proposed algorithm in two representative tracking frameworks against 17 state-of-the-art tracking methods. We will release the dataset for free academic usage, dataset download link and code will be released soon. | 翻訳日:2021-11-12 11:41:16 公開日:2021-11-11 |
# 医用画像分割用混合トランスu-net Mixed Transformer U-Net For Medical Image Segmentation ( http://arxiv.org/abs/2111.04734v2 ) ライセンス: Link先を確認 | Hongyi Wang, Shiao Xie, Lanfen Lin, Yutaro Iwamoto, Xian-Hua Han, Yen-Wei Chen, Ruofeng Tong | (参考訳) U-Netは医療画像セグメンテーションタスクで大きな成功を収めているが、長距離依存を明示的にモデル化する能力は欠如している。
そのため、視覚トランスフォーマは自己着脱(sa)によって長距離相関を捉えることができるため、近年では代替セグメンテーション構造として登場している。
しかし、トランスフォーマーは通常、大規模な事前学習に頼り、高い計算複雑性を持つ。
さらに、SAはデータセット全体の潜在的な相関を無視し、単一のサンプル内でのみ自己親和性をモデル化できる。
そこで本稿では,この問題を解決するために,混合トランスモジュール (mtm) という新しいトランスモジュールを提案する。
mtmはまず,よく設計された局所グローバルガウス重み付きセルフアテンション (lgg-sa) を用いて,効率的な自己親和性を計算する。
そして、外部注意(EA)を通じてデータサンプル間の相互接続をマイニングする。
MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築する。
提案手法を2つの公開データセットで検証し,提案手法が他の最先端手法よりも優れた性能を実現することを示す。
コードはhttps://github.com/dootmaan/mt-unet。 Though U-Net has achieved tremendous success in medical image segmentation tasks, it lacks the ability to explicitly model long-range dependencies. Therefore, Vision Transformers have emerged as alternative segmentation structures recently, for their innate ability of capturing long-range correlations through Self-Attention (SA). However, Transformers usually rely on large-scale pre-training and have high computational complexity. Furthermore, SA can only model self-affinities within a single sample, ignoring the potential correlations of the overall dataset. To address these problems, we propose a novel Transformer module named Mixed Transformer Module (MTM) for simultaneous inter- and intra- affinities learning. MTM first calculates self-affinities efficiently through our well-designed Local-Global Gaussian-Weighted Self-Attention (LGG-SA). Then, it mines inter-connections between data samples through External Attention (EA). By using MTM, we construct a U-shaped model named Mixed Transformer U-Net (MT-UNet) for accurate medical image segmentation. We test our method on two different public datasets, and the experimental results show that the proposed method achieves better performance over other state-of-the-art methods. The code is available at: https://github.com/Dootmaan/MT-UNet. | 翻訳日:2021-11-12 11:27:21 公開日:2021-11-11 |
# 極小画像認識のためのエピソディックリプレイ蒸留によるインクリメンタルメタラーニング Incremental Meta-Learning via Episodic Replay Distillation for Few-Shot Image Recognition ( http://arxiv.org/abs/2111.04993v2 ) ライセンス: Link先を確認 | Kai Wang, Xialei Liu, Andy Bagdanov, Luis Herranz, Shangling Jui, Joost van de Weijer | (参考訳) ほとんどのメタラーニングアプローチは、基礎知識のエピソディックなメタラーニングに利用可能な非常に大きなラベル付きデータセットの存在を仮定している。
これは、データが不整合クラスを含むタスクの形式で漸進的に到着する、より現実的な連続的な学習パラダイムとは対照的である。
本稿では,クラスを個別タスクで段階的に提示するインクリメンタルメタラーニング(IML)の問題について考察する。
メタラーニングのエピソードをサンプリングする際に,現在のタスクのクラスと前のタスクのクラスのインスタンスを混合する,エピソディックリプレイ蒸留 (erd) と呼ばれる iml のアプローチを提案する。
これらのエピソードは、破滅的な忘れを最小化するために知識蒸留に使用される。
4つのデータセットの実験では、EDRが最先端を超えることが示されている。
特に、より挑戦的な、長いタスクシーケンスの漸進的なメタラーニングシナリオでは、IMLと共同トレーニング上の上限の差を3.5%/10.1%/13.4%から2.6%/2.9%/5.0%に減らし、Tiered-ImageNet / Mini-ImageNet / CIFAR100にそれぞれ適用します。 Most meta-learning approaches assume the existence of a very large set of labeled data available for episodic meta-learning of base knowledge. This contrasts with the more realistic continual learning paradigm in which data arrives incrementally in the form of tasks containing disjoint classes. In this paper we consider this problem of Incremental Meta-Learning (IML) in which classes are presented incrementally in discrete tasks. We propose an approach to IML, which we call Episodic Replay Distillation (ERD), that mixes classes from the current task with class exemplars from previous tasks when sampling episodes for meta-learning. These episodes are then used for knowledge distillation to minimize catastrophic forgetting. Experiments on four datasets demonstrate that ERD surpasses the state-of-the-art. In particular, on the more challenging one-shot, long task sequence incremental meta-learning scenarios, we reduce the gap between IML and the joint-training upper bound from 3.5% / 10.1% / 13.4% with the current state-of-the-art to 2.6% / 2.9% / 5.0% with our method on Tiered-ImageNet / Mini-ImageNet / CIFAR100, respectively. | 翻訳日:2021-11-12 11:27:01 公開日:2021-11-11 |
# 密集したメッシュ型局所画像特徴を有する単眼形状とポーズ Monocular Human Shape and Pose with Dense Mesh-borne Local Image Features ( http://arxiv.org/abs/2111.05319v3 ) ライセンス: Link先を確認 | Shubhendu Jena, Franck Multon, Adnane Boukhayma | (参考訳) ピクセルアライメントによる局所画像特徴を用いた単眼入力による人物形状とポーズ推定のためのグラフ畳み込み手法の改良を提案する。
単一入力カラー画像が与えられた場合、既存のグラフ畳み込みネットワーク(GCN)ベースの人体形状とポーズ推定技術は、すべてのメッシュ頂点に等しく付加された単一の畳み込みニューラルネットワーク(CNN)によって生成されたグローバル画像特徴を用いて、GCNステージを初期化し、テンプレートTポーズメッシュをターゲットポーズに変換する。
対照的に,頂点ごとに局所的な画像特徴を用いるというアイデアを初めて提案する。
これらの特徴は、DensePoseで生成された画素間対応を利用して、CNN画像特徴マップからサンプリングされる。
標準ベンチマークにおける定量および定性的な結果から,局所的な特徴の利用はグローバルな特徴よりも改善され,最先端技術に対する競争性能が向上することが示された。 We propose to improve on graph convolution based approaches for human shape and pose estimation from monocular input, using pixel-aligned local image features. Given a single input color image, existing graph convolutional network (GCN) based techniques for human shape and pose estimation use a single convolutional neural network (CNN) generated global image feature appended to all mesh vertices equally to initialize the GCN stage, which transforms a template T-posed mesh into the target pose. In contrast, we propose for the first time the idea of using local image features per vertex. These features are sampled from the CNN image feature maps by utilizing pixel-to-mesh correspondences generated with DensePose. Our quantitative and qualitative results on standard benchmarks show that using local features improves on global ones and leads to competitive performances with respect to the state-of-the-art. | 翻訳日:2021-11-12 11:26:35 公開日:2021-11-11 |