このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210917となっている論文です。

PDF登録状況(公開日: 20210917)

TitleAuthorsAbstract論文公表日・翻訳日
# 双結合スピンボーソン模型におけるコヒーレントダイナミクス

Coherent dynamics in a dual-coupling spin-boson model ( http://arxiv.org/abs/2004.08974v4 )

ライセンス: Link先を確認
Leonard Ruocco(参考訳) 対称二重ポテンシャル井戸系の基底状態とオーミック振動子浴との同時対角および非対角結合の存在下での粒子トンネルのダイナミクスについて検討した。 非相互作用blip近似を用いて,生理的温度における幅広いシステム環境結合強度のコヒーレンス効果について検討した。 非対角結合機構の存在がトンネル粒子のダイナミクスを著しく変化させ、環境の強い熱揺らぎにもかかわらずコヒーレント振動を発生させることを示した。 粒子の偏光とトンネルエネルギーの両方のゆらぎは、トンネル粒子力学のコヒーレントな性質に競合し、非対角結合は比較的長寿命の振動モードを非コヒーレントな環境で導入する。

We study the dynamics of a particle tunneling between the ground states of a symmetric double potential well system, in the presence of simultaneous diagonal and non-diagonal couplings to an Ohmic oscillator bath. We use the noninteracting-blip approximation to investigate coherence effects across a wide range of system-environment coupling strengths at physiological temperatures. We show how the presence of a non-diagonal coupling mechanism significantly alters the dynamics of the tunneling particle, producing coherent oscillations despite strong thermal fluctuations in the environment. Fluctuations in both the particle's polarization, as well as tunneling energies, lead to competing influences on the coherent nature of tunneling particle dynamics, with non-diagonal couplings introducing a relatively long-lived oscillatory mode in an otherwise incoherent setting.
翻訳日:2023-05-23 00:48:52 公開日:2021-09-17
# フェルミオン散逸相互作用の複雑さと量子コンピューティングへの応用

Complexity of Fermionic Dissipative Interactions and Applications to Quantum Computing ( http://arxiv.org/abs/2005.10840v2 )

ライセンス: Link先を確認
Oles Shtanko, Abhinav Deshpande, Paul S. Julienne, Alexey V. Gorshkov(参考訳) 粒子間の相互作用は通常量子計算の資源であり、量子多体系は既知の古典的アルゴリズムでは難解である。 対照的に、ノイズは一般に量子多体相関に非現実的であり、最終的にシステムは古典的に扱いやすい状態へと導かれる。 この研究は、ペアロスのような2体プロセスで表されるノイズが多体相互作用と同じ役割を担っており、それ以外は古典的シミュレート可能なシステムを量子コンピューティングに普遍化することを示している。 このようなプロセスの詳細を解析し、チューニングパラメータの関数として、シミュラブルシステムと非シミュラブルシステムの間の複雑性遷移を確立する。 我々は、シミュラブルおよび非シミュラブルな二体散逸の重要なクラスを決定する。 最後に, 冷間原子における共振器の消散によって2量子ゲートの性能が向上することを示す。

Interactions between particles are usually a resource for quantum computing, making quantum many-body systems intractable by any known classical algorithm. In contrast, noise is typically considered as being inimical to quantum many-body correlations, ultimately leading the system to a classically tractable state. This work shows that noise represented by two-body processes, such as pair loss, plays the same role as many-body interactions and makes otherwise classically simulable systems universal for quantum computing. We analyze such processes in detail and establish a complexity transition between simulable and nonsimulable systems as a function of a tuning parameter. We determine important classes of simulable and nonsimulable two-body dissipation. Finally, we show how using resonant dissipation in cold atoms can enhance the performance of two-qubit gates.
翻訳日:2023-05-19 03:40:15 公開日:2021-09-17
# ジェネリック行列積状態の古典的な制限は準局所ギブズ的である

Classical restrictions of generic matrix product states are quasi-locally Gibbsian ( http://arxiv.org/abs/2010.11643v2 )

ライセンス: Link先を確認
Yaiza Aragon\'es-Soria, Johan {\AA}berg, Chae-Yeun Park, and Michael J. Kastoryano(参考訳) 一次元格子上の有限量子系の局所正規直交基底(古典的制限)に対するノルム二乗振幅は、格子の連結三分割の古典的条件的相互情報(CMI)が中間領域の幅で急速に減衰している場合、局所ハミルトニアンのギブズ状態(すなわち準局所的ギブズ状態)によって指数関数的によく近似できることを示す。 射影行列積状態に対しては、行列積作用素の集合が「純粋条件」を満たすとき、古典的 CMI が指数関数的に崩壊することを示す。 さらに, 純度条件の違反により, 仮想空間における誤り訂正の概念が一般化され, このような違反の非ジェネリック性が示されることを示した。 純度が典型的特性である確率モデルを構築することにより、この直観をより具体化する。 我々の主要な結果の証明はランダム行列積の理論を広く利用し、他の応用を見出すことができる。

We show that the norm squared amplitudes with respect to a local orthonormal basis (the classical restriction) of finite quantum systems on one-dimensional lattices can be exponentially well approximated by Gibbs states of local Hamiltonians (i.e., are quasi-locally Gibbsian) if the classical conditional mutual information (CMI) of any connected tripartition of the lattice is rapidly decaying in the width of the middle region. For injective matrix product states, we moreover show that the classical CMI decays exponentially, whenever the collection of matrix product operators satisfies a 'purity condition'; a notion previously established in the theory of random matrix products. We furthermore show that violations of the purity condition enables a generalized notion of error correction on the virtual space, thus indicating the non-generic nature of such violations. We make this intuition more concrete by constructing a probabilistic model where purity is a typical property. The proof of our main result makes extensive use of the theory of random matrix products, and may find applications elsewhere.
翻訳日:2023-04-28 01:07:11 公開日:2021-09-17
# 一次元量子滴の統計力学

Statistical mechanics of one-dimensional quantum droplets ( http://arxiv.org/abs/2102.12932v3 )

ライセンス: Link先を確認
T. Mithun, S. I. Mistakidis, P. Schmelcher, P. G. Kevrekidis(参考訳) 変調不安定な1次元量子液滴の統計力学と動的緩和過程について,gross-pitaevskii方程式を用いて検討した。 古典的分割関数を決定するために,半解析的移動積分演算子 (TIO) を用いる。 後者は観測された波動関数の振幅分布を予測し、量子滴を含む創発的ダイナミクスに対する洞察を与える2点相関関数を与える。 得られたTIO結果と、変調不安定な力学の長時間における確率分布と、適切に構築されたランゲヴィン力学の平衡特性を比較した。 この不安定性は、複数の衝突を特徴とする量子液滴の自発的形成につながり、大きな進化の時間に合体することが判明した。 異なる手法による結果は, 液滴が膨張する特殊限度における低温の場合を除き, 良好に一致している。 この極限において、分布は発音されたバイモーダル文字を取得し、TIO溶液とランゲヴィン力学との偏差を示す。

We study the statistical mechanics and the dynamical relaxation process of modulationally unstable one-dimensional quantum droplets described by a modified Gross-Pitaevskii equation. To determine the classical partition function thereof, we leverage the semi-analytical transfer integral operator (TIO) technique. The latter predicts a distribution of the observed wave function amplitudes and yields two-point correlation functions providing insights into the emergent dynamics involving quantum droplets. We compare the ensuing TIO results with the probability distributions obtained at large times of the modulationally unstable dynamics as well as with the equilibrium properties of a suitably constructed Langevin dynamics. We find that the instability leads to the spontaneous formation of quantum droplets featuring multiple collisions and by which are found to coalesce at large evolution times. Our results from the distinct methodologies are in good agreement aside from the case of low temperatures in the special limit where the droplet widens. In this limit, the distribution acquires a pronounced bimodal character, exhibiting a deviation between the TIO solution and the Langevin dynamics.
翻訳日:2023-04-09 22:51:14 公開日:2021-09-17
# 固有状態熱化の時間外相関と微細構造

Out-of-time-order correlations and the fine structure of eigenstate thermalisation ( http://arxiv.org/abs/2103.01161v4 )

ライセンス: Link先を確認
Marlon Brenes, Silvia Pappalardi, Mark T. Mitchison, John Goold and Alessandro Silva(参考訳) 時間外相関器(OTOC)は、相互作用する量子多体系における量子情報力学と熱化を特徴付けるツールとして確立されている。 近年、OTOCの指数関数的な成長は、標準固有状態熱化仮説(ETH)で符号化されたもの以上の相関の存在と関係していると論じられている。 演算子行列要素の統計量とOTOCダイナミクスの詳細な研究とを併用した広範な数値解析により、OTOCはETHの詳細な詳細を解明するための正確なツールであることを示す。 特に、短時間のダイナミクスは相関によって支配されるが、長期飽和挙動は、有効ガウスランダム行列理論の出現に関連する作用素依存エネルギースケール $\omega_{\textrm{goe}}$ を明確に示す。 無限温度環境における局所作用素の和からなる観測可能な一般クラスに対して,$\omega_{\textrm{goe}}$の有限サイズのスケーリングを推定し,検討したモデルに対して線形挙動を求める。

Out-of-time-order correlators (OTOCs) have become established as a tool to characterise quantum information dynamics and thermalisation in interacting quantum many-body systems. It was recently argued that the expected exponential growth of the OTOC is connected to the existence of correlations beyond those encoded in the standard Eigenstate Thermalisation Hypothesis (ETH). We show explicitly, by an extensive numerical analysis of the statistics of operator matrix elements in conjunction with a detailed study of OTOC dynamics, that the OTOC is indeed a precise tool to explore the fine details of the ETH. In particular, while short-time dynamics is dominated by correlations, the long-time saturation behaviour gives clear indications of an operator-dependent energy scale $\omega_{\textrm{GOE}}$ associated to the emergence of an effective Gaussian random matrix theory. We provide an estimation of the finite-size scaling of $\omega_{\textrm{GOE}}$ for the general class of observables composed of sums of local operators in the infinite-temperature regime and found linear behaviour for the models considered.
翻訳日:2023-04-09 14:35:27 公開日:2021-09-17
# 量子ランダムOracleモデルにおけるオンライン抽出可能性

Online-Extractability in the Quantum Random-Oracle Model ( http://arxiv.org/abs/2103.03085v2 )

ライセンス: Link先を確認
Jelle Don, Serge Fehr, Christian Majenz and Christian Schaffner(参考訳) 以下の一般的な結果を示す。 量子乱数モデルにおける量子クエリアルゴリズムが、ある$x$に対して$H(x)$と密接な関係にあると約束される古典的な値$t$を出力するとき、$x$は、ほぼ確実に効率的に抽出できる。 抽出は、ランダムなオラクルの適切なシミュレーションによって行われ、オンラインで動作し、すなわち、直線、すなわち巻き戻しなしで、そしてオンザフライ、すなわちプロトコルの実行中に、邪魔することなく動作する。 この結果の技術的核心は、圧縮されたオラクル(上述のランダムなオラクルをシミュレートするために使われる)の進化を記述するユニタリ演算子のコンピュテータの演算子ノルムと、x$を抽出した測定値との境界である。 汎用的なオンライン抽出結果の2つの応用例を示す。 量子環境でのコミット&オープンな$\Sigma$-protocolsの厳密なオンライン抽出可能性を示し、その証明を容易にするための調整なしに、教科書藤崎・岡本変換の漸近後セキュリティ証明を初めて提供する。

We show the following generic result. Whenever a quantum query algorithm in the quantum random-oracle model outputs a classical value $t$ that is promised to be in some tight relation with $H(x)$ for some $x$, then $x$ can be efficiently extracted with almost certainty. The extraction is by means of a suitable simulation of the random oracle and works online, meaning that it is straightline, i.e., without rewinding, and on-the-fly, i.e., during the protocol execution and without disturbing it. The technical core of our result is a new commutator bound that bounds the operator norm of the commutator of the unitary operator that describes the evolution of the compressed oracle (which is used to simulate the random oracle above) and of the measurement that extracts $x$. We show two applications of our generic online extractability result. We show tight online extractability of commit-and-open $\Sigma$-protocols in the quantum setting, and we offer the first non-asymptotic post-quantum security proof of the textbook Fujisaki-Okamoto transformation, i.e, without adjustments to facilitate the proof.
翻訳日:2023-04-09 02:39:31 公開日:2021-09-17
# 力勾配積分器を用いた量子シミュレーションの最適化

Optimize quantum simulation using a force-gradient integrator ( http://arxiv.org/abs/2103.05876v2 )

ライセンス: Link先を確認
Yi-Tong Zou and Yu-Jiao Bo and Ji-Chong Yang(参考訳) 量子シミュレーションは、その強力な計算能力のため、多くの分野で大きな可能性を示している。 しかし、有限性に制限があるため、ゲート演算の回数に厳しい制限が生じ、最適化されたアルゴリズムを見つける必要がある。 トロッター分解と高次トロッター分解は量子シミュレーションで広く用いられている。 格子QCDにおける力勾配積分器により, 大幅に改善できることがわかった。 例として2つの応用を用いることにより, 力勾配分解は高次トロッター分解を用いたゲート操作の約3分の1まで削減できることを示した。 したがって、力勾配分解は将来の量子シミュレーションの応用において大きな可能性を示す。

Quantum simulation has shown great potential in many fields due to its powerful computational capabilities. However, the limited fidelity can lead to a severe limitation on the number of gate operations, which requires us to find optimized algorithms. Trotter decomposition and high order Trotter decompositions are widely used in quantum simulations. We find that they can be significantly improved by force-gradient integrator in lattice QCD. By using two applications as examples, we show that the force-gradient decomposition can reduce the number of gate operations up to about a third of those using high order Trotter decompositions. Therefore, force-gradient decomposition shows a great prospective in future applications of quantum simulation.
翻訳日:2023-04-08 13:52:20 公開日:2021-09-17
# 三次元量子気体中の双極子相互作用と蒸発冷却のチューニング

Tuning of dipolar interactions and evaporative cooling in a three-dimensional molecular quantum gas ( http://arxiv.org/abs/2103.06246v2 )

ライセンス: Link先を確認
Jun-Ru Li, William G. Tobias, Kyle Matsuda, Calder Miller, Giacomo Valtolina, Luigi De Marco, Reuben R. W. Wang, Lucas Lassabli\`ere, Goulven Qu\'em\'ener, John L. Bohn, Jun Ye(参考訳) 超低温極性分子は長距離、異方性、波長可変の双極子相互作用を持ち、既存のコールドガスプラットフォームでは到達できない量子現象を観測する機会を提供する。 しかし、弾性相互作用による二体損失の優位性により、効率的な蒸発冷却が妨げられている。 近年の研究では、分子を2次元の幾何学に閉じ込めることで制御された相互作用を実証しているが、3次元の3次元で分子相互作用をチューニングするための一般的なアプローチでは、安定な系が欠如している。 ここでは,超低温40K87Rb分子のバルクガス中における可変弾性双極子相互作用を3次元で示す。 この弾性と非弾性の衝突の比の向上は直接の熱分解を可能にする。 熱化速度は、衝突軸と外部電場によって制御される双極子配向の間の角度、異方性双極子相互作用の直接的表現に依存する。 3次元の双極子相互作用による蒸発冷却を実現する。 この研究は、波長可変な長距離相互作用を持つ長寿命バルク量子ガスシステムの完全な制御を示し、集合的量子多体物理学の研究への道を開く。

Ultracold polar molecules possess long-range, anisotropic, and tunable dipolar interactions, providing the opportunities to probe quantum phenomena inaccessible with existing cold gas platforms. However, experimental progress has been hindered by the dominance of two-body loss over elastic interactions, which prevents efficient evaporative cooling. Though recent work has demonstrated controlled interactions by confining molecules to a two-dimensional geometry, a general approach for tuning molecular interactions in a three-dimensional (3D), stable system has been lacking. Here, we demonstrate tunable elastic dipolar interactions in a bulk gas of ultracold 40K87Rb molecules in 3D, facilitated by an electric field-induced shielding resonance which suppresses the reactive loss by a factor of thirty. This improvement in the ratio of elastic to inelastic collisions enables direct thermalization. The thermalization rate depends on the angle between the collisional axis and the dipole orientation controlled by an external electric field, a direct manifestation of the anisotropic dipolar interaction. We achieve evaporative cooling mediated by the dipolar interactions in three dimensions. This work demonstrates full control of a long-lived bulk quantum gas system with tunable long-range interactions, paving the way for the study of collective quantum many-body physics.
翻訳日:2023-04-08 13:33:58 公開日:2021-09-17
# 単一光子絡み合いに基づく認証量子乱数生成器

Certified quantum random number generator based on single-photon entanglement ( http://arxiv.org/abs/2104.04452v3 )

ライセンス: Link先を確認
Nicol\`o Leone, Stefano Azzini, Sonia Mazzucchi, Valter Moretti, Lorenzo Pavesi(参考訳) 量子絡み合い(quantum entanglement)は、多くの科学および暗号アプリケーションで使用される乱数のセキュリティを保証する理想的なリソースである。 しかし、エンタングルメントベースの認証乱数生成器の実装は特に困難である。 ここでは、運動量分極の絡み合った単一光子状態に基づく新しい量子乱数生成器を示す。 単一光子エンタングルメントを用いることで、減衰レーザー源と、線形光学部品のみを使用する単純なセットアップを利用することができる。 後者については、フォトニック量子乱数生成器の半デバイス非依存のモデリングが開発され、生成速度4.4kHzに対応する最小エントロピーが$(2.5\pm 0.5)\%$であることを示す。 システムにおける高い信頼度を犠牲にすると、認定された最小エントロピーは$(30.1 \pm0.5 )\%$に増加し、52.7 kHzとなる。 以上の結果から,簡単な光学的実装と正確なモデリングを組み合わせることで,不完全なデバイスを用いたエンタングルメントに基づく高セキュリティ量子乱数発生器が実現できることがわかった。

Quantum entanglement represents an ideal resource to guarantee the security of random numbers employed in many scientific and cryptographic applications. However, entanglement-based certified random number generators are particularly challenging to implement. Here, we demonstrate a new certified quantum random number generator based on momentum-polarization entangled single photon states. The use of single photon entanglement allows employing an attenuated laser source and a simple setup where only linear optical components are utilized. For the latter, a semi-device-independent modeling of the photonic quantum random number generator is developed, which certifies a minimum entropy of $(2.5\pm 0.5)\%$, corresponding to a generation rate of 4.4 kHz. At the expenses of a higher level of trust in the system, the certified minimum entropy can be increased to $(30.1 \pm0.5 )\%$, implying a generation rate of 52.7 kHz. Our results show that a simple optical implementation combined with an accurate modeling provide an entanglement-based high-security quantum random number generator using imperfect devices.
翻訳日:2023-04-04 07:44:25 公開日:2021-09-17
# 大規模スカラー場と相互作用するUnruh-DeWitt検出器の絡み合いダイナミクス:Unruh効果と反Unruh効果

Entanglement dynamics for Unruh-DeWitt detectors interacting with massive scalar fields: The Unruh and anti-Unruh effects ( http://arxiv.org/abs/2105.14735v2 )

ライセンス: Link先を確認
Yuebing Zhou, Jiawei Hu, Hongwei Yu(参考訳) オープン量子システムの枠組みにおいて、ミンコフスキー真空中の巨大なスカラー場の浴と相互作用する2つの均一に加速されたunruh-dewitt検出器からなる量子系の絡み合いダイナミクスを研究した。 質量のない磁場と結合した量子系の絡み合い進化は、質量のない磁場と結合した量子系のそれよりも常に遅く、しかしながら、磁場によってもたらされる時間的遅延効果は、熱浴の静的量子系の場合とは対照的に、十分に大きな加速によって反作用することができる。 注目すべきは、進化中に生じる量子系の最大コンカレンスは、任意の検出器間分離の加速に伴って増加するが、熱浴中の静的な原子は温度とともに単調に減少し、これは絡み合いの点で反アンルー効果と見なすことができる。

We study, in the framework of open quantum systems, the entanglement dynamics for a quantum system composed of two uniformly accelerated Unruh-Dewitt detectors interacting with a bath of massive scalar fields in the Minkowski vacuum. We find that the entanglement evolution for the quantum system coupled with massive fields is always slower compared with that of the one coupled with massless fields, and this time-delay effect brought by the field being massive can however be counteracted by a large enough acceleration, in contrast to the case of a static quantum system in a thermal bath, where this time delay is not affected by the temperature. Remarkably, the maximal concurrence of the quantum system generated during evolution may increase with acceleration for any inter-detector separation while that for static ones in a thermal bath decreases monotonically with temperature, and this can be considered as an anti-Unruh effect in terms of the entanglement generated.
翻訳日:2023-03-28 06:15:56 公開日:2021-09-17
# 自然パラメトリックダウンコンバージョンに基づく非線形マイケルソン干渉計の干渉線

Interference fringes in a nonlinear Michelson interferometer based on spontaneous parametric down-conversion ( http://arxiv.org/abs/2109.07668v2 )

ライセンス: Link先を確認
Chen Yang, Zhi-Yuan Zhou, Liu-Long Wang, Yan Li, Shi-Kai Liu, Zheng Ge, Xiao-Chun Zhang, Qing Tang, Guang-Can Guo, and Bao-Sen Shi(参考訳) 量子非線形干渉計(QNI)は、可視光子を検出することでサンプルの赤外線物理量を測定することができる。 2階非線形結晶における自発パラメトリックダウンコンバージョンに基づくミシェルソン幾何QNIを系統的に研究した。 qni の単純化された理論モデルを提案する。 QNIに対する干渉可視性、コヒーレンス長、等傾性干渉、等厚性干渉を理論的、実験的に示す。 QNIの適用例として、BBO結晶の2面間の屈折率と角度を等傾斜干渉と等厚干渉を用いて測定する。

Quantum nonlinear interferometers (QNIs) can measure the infrared physical quantities of a sample by detecting visible photons. A QNI with Michelson geometry based on the spontaneous parametric down-conversion in a second-order nonlinear crystal is studied systematically. A simplified theoretical model of the QNI is presented. The interference visibility, coherence length, equal-inclination interference, and equal-thickness interference for the QNI are demonstrated theoretically and experimentally. As an application example of the QNI, the refractive index and the angle between two surfaces of a BBO crystal are measured using equal-inclination interference and equal-thickness interference.
翻訳日:2023-03-14 22:51:26 公開日:2021-09-17
# コヒーレント状態の多頭部対称重ね合わせ

Multi-headed symmetrical superpositions of coherent states ( http://arxiv.org/abs/2109.08056v2 )

ライセンス: Link先を確認
Bo Lan and Xue-xiang Xu(参考訳) 等重量および位相空間回転対称性を持つN個の異なるコヒーレント状態に基づいて、N個のヘッド非コヒーレント重ね合わせ状態 (NHICSSs) とN個のヘッド非コヒーレント重ね合わせ状態 (NHCSSs) を導入する。 これらの N 個のコヒーレント状態は、同じ複素数の N-階根と関連している。 平均光子数,マンデルQパラメータ,二次スキーズ,フォック行列要素,ウィグナー関数など,NHICSSとNHCSSの特性について検討・比較を行った。 これらの状態の中で、2HCSS (Schrodinger cat state) のみが2HCSS効果を示す。 我々の理論的結果は、この分野の研究者の参考に利用できる。

Based on N different coherent states with equal weights and phase-space rotation symmetry, we introduce N-headed incoherent superposition states (NHICSSs) and N-headed coherent superposition states (NHCSSs). These N coherent states are associated with N-order roots of the same complex number. We study and compare properties of NHICSSs and NHCSSs, including average photon number, Mandel Q parameter, quadrature squeezing, Fock matrix elements and Wigner function. Among all these states, only 2HCSS (i.e., Schrodinger cat state) presents quadrature-squeezing effect. Our theoretical results can be used as a reference for researchers in this field.
翻訳日:2023-03-14 20:58:48 公開日:2021-09-17
# 異常点におけるコヒーレント完全吸収の観測

Observation of coherent perfect absorption at an exceptional point ( http://arxiv.org/abs/2109.08353v1 )

ライセンス: Link先を確認
Changqing Wang, William R. Sweeney, A. Douglas Stone, Lan Yang(参考訳) 過去数年間、フォトニクス、音響学、電子工学など、様々な分野における例外点(EP)への関心が高まってきた。 しかし、epは主に物理系の共鳴の縮退に基づいて実現されており、異なる物理的表現を持つ波の吸収特性に関する異なる縮退が発生する。 ここでは、光学的マイクロキャビティの吸収スペクトルの散逸による工学的不均一性によって、物理的に異なる特異点を示す。 共振EPと吸収EPを実現するための条件を実験的に識別する。 さらに、そのようなEPで完全な吸収を達成するために光学損失が最適化されると、理論により予測される吸収スペクトルの異常に拡張されたライン形状が観察される。 このタイプのEPによって実現される異なる散乱特性は、非エルミート特異点の基礎研究と応用の両方に新たな機会をもたらす。

The past few years have witnessed growing interests in exceptional points (EPs) in various domains, including photonics, acoustics and electronics. However, EPs have mainly been realized based on the degeneracy of resonances of physical systems; distinct degeneracies occur relating to the absorption properties of waves, with distinct physical manifestations. Here we demonstrate this physically different kind of exceptional point, by engineering degeneracies in the absorption spectrum of optical microcavities with dissipation. We experimentally distinguish the conditions to realize a resonant EP and an absorbing EP. Furthermore, when the optical loss is optimized to achieve perfect absorption at such an EP, we observe an anomalously broadened lineshape in the absorption spectra, as predicted by theory. The distinct scattering properties enabled by this type of EP creates new opportunities for both the fundamental study and applications of non-Hermitian singularities.
翻訳日:2023-03-14 11:44:37 公開日:2021-09-17
# ヒルベルト空間における非エルミート多体皮膚効果の観察

Observation of non-Hermitian many-body skin effects in Hilbert space ( http://arxiv.org/abs/2109.08334v1 )

ライセンス: Link先を確認
Weixuan Zhang, Fengxiao Di, Hao Yuan, Haiteng Wang, Xingen Zheng, Lu He1, Houjun Sun, and Xiangdong Zhang(参考訳) 非ハーミティニティは既存の物理法則をヘルミティアンの枠組みを超えて大きく拡張し、特異な性質を持つ様々な新しい現象を明らかにする。 これまでのところ、例外点や非エルミート皮膚効果など、エキゾチックな非エルミート効果のほとんどは単粒子系で発見されている。 非エルミート的と多体的相関の相互作用は、より興味深いがより探究的な領域であると期待されている。 問題の複雑さのため、この分野の現在の研究は主に理論レベルにとどまっている。 予測された非エルミート多体相の実験的観察は、まだ大きな課題である。 本稿では,強い相関を持つ非エルミート多体系の最初の実験シミュレーションを報告し,ヒルベルト空間の有効境界に向けての新しいタイプの非エルミート多体皮膚状態を明らかにする。 このような相互作用によって引き起こされる非エルミート多体皮膚効果は、周期格子内の非同一の職業を持つボソニッククラスターの凝集を表す。 特に、3つの相関ボソンの固有状態を設計した3次元電気回路のモードにマッピングすることにより、ヒルベルト空間における非エルミート多体皮膚効果を空間インピーダンス応答の測定により検証する。 我々は,非エルミート多体系における新しい物理効果を開示するだけでなく,実験において他の非エルミート相関位相をさらに調査するための柔軟なプラットフォームを提案する。

Non-Hermiticity greatly expands existing physical laws beyond the Hermitian framework, revealing various novel phenomena with unique properties. Up to now, most exotic nonHermitian effects, such as exceptional points and non-Hermitian skin effects, are discovered in single-particle systems. The interplay between non-Hermitian and manybody correlation is expected to be a more fascinating but much less explored area. Due to the complexity of the problem, current researches in this field mainly stay at the theoretical level. The experimental observation of predicted non-Hermitian manybody phases is still a great challenging. Here, we report the first experimental simulation of strongly correlated non-Hermitian many-body system, and reveal a new type of nonHermitian many-body skin states toward effective boundaries in Hilbert space. Such an interaction-induced non-Hermitian many-body skin effect represents the aggregation of bosonic clusters with non-identical occupations in the periodic lattice. In particular, by mapping eigen-states of three correlated bosons to modes of the designed threedimensional electric circuit, non-Hermitian many-body skin effects in Hilbert space is verified by measuring the spatial impedance response. Our finding not only discloses a new physical effect in the non-Hermitian many-body system, but also suggests a flexible platform to further investigate other non-Hermitian correlated phases in experiments.
翻訳日:2023-03-14 11:44:04 公開日:2021-09-17
# GLASS:IPFSを用いたセキュアかつ分散eGovernanceサービスを目指して

GLASS: Towards Secure and Decentralized eGovernance Services using IPFS ( http://arxiv.org/abs/2109.08566v1 )

ライセンス: Link先を確認
Christos Chrysoulas, Amanda Thomson, Nikolaos Pitropakis, Pavlos Papadopoulos, Owen Lo, William J. Buchanan, George Domalis, Nikos Karacapilidis, Dimitris Tsakalidis, Dimitris Tsolis(参考訳) デジタル化の継続的な進展は、eGovernanceサービスによって直面する官僚的問題に答えを与えている。 このイノベーションは、自動化の時代につながり、攻撃面を拡大し、サイバー攻撃のターゲットとして人気のあるものとなった。 eGovernanceサービスはインターネットを利用しており、現在、ロケーションをコントロールしている人がコンテンツ自体だけでなく、コンテンツの完全性やコンテンツへのアクセスをコントロールしている場所アドレスシステムである。 本稿では,IPFS(InterPlanetary File System)と分散 Ledger 技術と Smart Contracts を組み合わせた分散ソリューション GLASS を提案する。 また、IPFSの性能を測定するテストベッド環境も作成します。

The continuously advancing digitization has provided answers to the bureaucratic problems faced by eGovernance services. This innovation led them to an era of automation it has broadened the attack surface and made them a popular target for cyber attacks. eGovernance services utilize internet, which is currently a location addressed system where whoever controls the location controls not only the content itself, but the integrity of that content, and the access to that content. We propose GLASS, a decentralised solution which combines the InterPlanetary File System (IPFS) with Distributed Ledger technology and Smart Contracts to secure EGovernance services. We also create a testbed environment where we measure the IPFS performance.
翻訳日:2023-03-14 11:37:55 公開日:2021-09-17
# 強調と崩壊:騒音を伴う強結合モデルからの教訓

Dephasing versus collapse: Lessons from the tight-binding model with noise ( http://arxiv.org/abs/2109.08533v1 )

ライセンス: Link先を確認
Marco Hofmann, Barbara Drossel (Technische Universit\"at Darmstadt)(参考訳) 室温での凝縮物質物理学は通常、導体中の電子は空間的に狭い波のパケットとして記述できると仮定する。 有限温度環境がいかに波動関数を局所化できるかはまだ議論されている。 本稿では,変動ポテンシャルによって環境を表現し,そのようなポテンシャルの存在下での1次元強結合モデルを記述するリンドブラッド方程式の異なる解法について検討する。 すべての非ラヴェルリングは位相コヒーレンスが高速に失われるが、その一部だけが狭い波のパケットにつながり、中でも量子状態の拡散はラヴェルリングに繋がる。 驚いたことに、ノイズ強度を増大させる量子状態拡散モデルにおけるウェーブパケット幅の減少は、位相コヒーレンス長よりも遅い。 解析的および数値的な結果の提示に加えて,その現象学的説明も提供する。 我々は、波動関数と環境の間のフィードバックが考慮されない限り、波動関数の観点で開かれた量子系について一意な記述が存在しないと結論づける。 我々はこれを量子古典遷移を理解するための障害と考える。

Condensed matter physics at room temperature usually assumes that electrons in conductors can be described as spatially narrow wave packets - in contrast to what the Schr\"odinger equation would predict. How a finite-temperature environment can localize wave functions is still being debated. Here, we represent the environment by a fluctuating potential and investigate different unravellings of the Lindblad equation that describes the one-dimensional tight-binding model in the presence of such a potential. While all unravellings show a fast loss of phase coherence, only part of them lead to narrow wave packets, among them the quantum-state diffusion unravelling. Surprisingly, the decrease of the wave packet width for the quantum state diffusion model with increasing noise strength is slower than that of the phase coherence length. In addition to presenting analytical and numerical results, we also provide phenomenological explanations for them. We conclude that as long as no feedback between the wave function and the environment is taken into account, there will be no unique description of an open quantum system in terms of wave functions. We consider this to be an obstacle to understanding the quantum-classical transition.
翻訳日:2023-03-14 11:37:41 公開日:2021-09-17
# 単一ニオブ酸リチウムマイクロキューブからの広帯域光子対生成

Broadband photon pair generation from a single lithium niobate microcube ( http://arxiv.org/abs/2109.08489v1 )

ライセンス: Link先を確認
Ngoc My Hanh Duong, Gregoire Saerens, Flavia Timpu, Maria Teresa Buscaglia, Vincenzo Buscaglia, Andrea Morandi, Jolanda S. Muller, Andreas Maeder, Fabian Kaufmann, Alexander Sonltsev, and Rachel Grange(参考訳) 非古典的な光源は、量子通信や量子計算装置の不可欠な部分であるため、非常に求められている。 典型的なソースはコンパクトではなく、位相整合条件のため帯域幅が限られているバルク結晶に依存している。 本研究では, 自発パラメトリックダウンコンバージョンプロセスを通じて, 遠隔通信波長における非定常ニオブ酸リチウムマイクロキューブからの光子対の生成を実証する。 4ミクロン程度の大きさの単一マイクロキューブから得られる最大光子対生成速度は ~80 hz であり、単位体積あたり 1.2 ghz/wm の効率となり、これはかさばる非線形結晶における光子対生成の効率よりも桁違いに高い。 マイクロキューブはソルボサーマル法で合成され、ボトムアップ組立体によるスケーラブルなデバイスの可能性を提供する。 我々の研究は、量子通信、量子コンピューティング、量子気象学における様々な応用のために、ブロードバンド可変性を持つコンパクトな非古典光源の実現において重要な一歩となる。

Nonclassical light sources are highly sought after as they are an integral part of quantum communication and quantum computation devices. Typical sources rely on bulk crystals that are not compact and have limited bandwidth due to phase-matching conditions. In this work, we demonstrate the generation of photon pairs from a free-standing lithium niobate microcube at the telecommunication wavelength through the spontaneous parametric down-conversion process. The maximum photon pair generation rate obtained from a single microcube with the size of ~4 microns is ~80 Hz, resulting in an efficiency of ~1.2 GHz/Wm per unit volume, which is an order of magnitude higher than the efficiency of photon-pair generation in bulky nonlinear crystals. The microcubes are synthesized through a solvothermal method, offering the possibility for scalable devices via bottom-up assembly. Our work constitutes an important step forward in the realization of compact nonclassical light sources with broadband tunability for various applications in quantum communication, quantum computing, and quantum metrology.
翻訳日:2023-03-14 11:36:37 公開日:2021-09-17
# 非線形代数方程式系の量子ニュートン解法

Quantum Newton's method for solving system of nonlinear algebraic equations ( http://arxiv.org/abs/2109.08470v1 )

ライセンス: Link先を確認
Cheng Xue, Yu-Chun Wu, Guo-Ping Guo(参考訳) 量子コンピューティングは線形方程式の解法において指数関数的に有利であるが、非線形方程式の解法を量子コンピューティングで解くことはほとんどない。 ニュートン法に基づく非線形方程式の$N$次元系を解くための量子ニュートン法(QNM)を提案する。 QNMでは、ニュートン法の各反復における線形方程式の系を量子線形系解法を用いて解く。 特定の量子データ構造と、サンプルエラーの$\epsilon_s$を持つ$l_{\infty}$トモグラフィを用いて、qnmの2つのイテレーション間での古典量子データ変換プロセスを実装し、qnmのプロセス全体を構築する。 各イテレーションにおけるQNMの複雑さは$O(\log^4N/\epsilon_s^2)$である。 数値シミュレーションにより、$\epsilon_s>>1/\sqrt{n}$ の場合、qnm は有効であり、qnm の複雑性は$n$ で部分線形であり、最適古典アルゴリズムと比較すると量子優位となる。

While quantum computing provides an exponential advantage in solving system of linear equations, there is little work to solve system of nonlinear equations with quantum computing. We propose quantum Newton's method (QNM) for solving $N$-dimensional system of nonlinear equations based on Newton's method. In QNM, we solve the system of linear equations in each iteration of Newton's method with quantum linear system solver. We use a specific quantum data structure and $l_{\infty}$ tomography with sample error $\epsilon_s$ to implement the classical-quantum data conversion process between the two iterations of QNM, thereby constructing the whole process of QNM. The complexity of QNM in each iteration is $O(\log^4N/\epsilon_s^2)$. Through numerical simulation, we find that when $\epsilon_s>>1/\sqrt{N}$, QNM is still effective, so the complexity of QNM is sublinear with $N$, which provides quantum advantage compared with the optimal classical algorithm.
翻訳日:2023-03-14 11:36:20 公開日:2021-09-17
# 非マルコフ開量子系における非付加的環境の励起力学

Exact dynamics of non-additive environments in non-Markovian open quantum systems ( http://arxiv.org/abs/2109.08442v1 )

ライセンス: Link先を確認
Dominic Gribben, Dominic M. Rouse, Jake Iles-Smith, Aidan Strathearn, Henry Maguire, Peter Kirton, Ahsan Nazir, Erik M. Gauger, and Brendon W. Lovett(参考訳) 量子系が複数の浴槽に強く結合すると、各浴槽の個々の効果を単純に加えるだけではシステムダイナミクスを記述することはできない。 しかし、このようなマルチバス系のダイナミクスをキャプチャするには、非加法効果のいくつかを曖昧にする近似が必要となる。 本稿では、時間発展行列積演算子(TEMPO)表現に基づく、この問題に対処するための数値的かつ効率的な手法を提案する。 非加法的な挙動を示す単純なモデルシステム(振動浴と光浴の両方に結合した2段階の双極子)に適用して実験を行った。 直接結合はしないが, 振動結合が強い場合, 物質系の逆転を招きうるシステムによって媒介される浴槽間の効果的な相互作用が存在する。 我々は, ポラロン変換に基づく方法と反応座標の同定に基づく方法の2つの近似法に対して, マルチバステンポをベンチマーク・検証し, 近似手法が崩壊する強振動・光結合の原理を探求した。 ここでは、量子ゼノ効果が電子系の完全に混合状態につながる新しい状態を明らかにする。

When a quantum system couples strongly to multiple baths then it is generally no longer possible to describe the resulting system dynamics by simply adding the individual effects of each bath. However, capturing such multi-bath system dynamics has up to now required approximations that can obscure some of the non-additive effects. Here we present a numerically-exact and efficient technique for tackling this problem that builds on the time-evolving matrix product operator (TEMPO) representation. We test the method by applying it to a simple model system that exhibits non-additive behaviour: a two-level dipole coupled to both a vibrational and an optical bath. Although not directly coupled, there is an effective interaction between the baths mediated by the system that can lead to population inversion in the matter system when the vibrational coupling is strong. We benchmark and validate multi-bath TEMPO against two approximate methods - one based on a polaron transformation, the other on an identification of a reaction coordinate - before exploring the regime of simultaneously strong vibrational and optical coupling where the approximate techniques break down. Here we uncover a new regime where the quantum Zeno effect leads to a fully mixed state of the electronic system.
翻訳日:2023-03-14 11:36:00 公開日:2021-09-17
# 勾配に基づくアルゴリズムを用いた量子コンピュータの基底状態エネルギー決定

Using gradient-based algorithms to determine ground state energies on a quantum computer ( http://arxiv.org/abs/2109.08420v1 )

ライセンス: Link先を確認
Tomislav Piskor, Florian G. Eich, Jan-Michael Reiner, Sebastian Zanker, Nicolas Vogt, Michael Marthaler, and Frank Wilhelm-Mauch(参考訳) 変分アルゴリズムは、短期量子コンピュータで実装される可能性のある候補である。 変分量子固有ソルバ(vqe)は、量子力学的波動関数のパラメータ化された試行状態を最適化して基底状態エネルギーを得る、顕著な例である。 本研究では, ハミルトンアンサッツ (VHA) の変分について検討し, システムを記述するハミルトニアンの一部となるジェネレータを用いて, 単位回転で修正した非相互作用参照状態によって試行状態が与えられる。 最低エネルギーは、それらのユニタリ回転の角度を最適化することによって得られる。 変分パラメータを最適化する標準的な手順は、勾配に基づくアルゴリズムを使用することである。 しかし、ショットノイズと量子デバイス固有のノイズは、要求される勾配の評価に影響を及ぼす。 本研究では,勾配を求める方法,特に有限差分法とパラメータシフト法が,量子コンピュータのショットノイズとノイズの影響について検討した。 この目的のために、簡単な量子回路と、2-siteおよび6-site Hubbardモデルをシミュレートした。

Variational algorithms are promising candidates to be implemented on near-term quantum computers. The variational quantum eigensolver (VQE) is a prominent example, where a parametrized trial state of the quantum mechanical wave function is optimized to obtain the ground state energy. In our work, we investigate the variational Hamiltonian Ansatz (VHA), where the trial state is given by a non-interacting reference state modified by unitary rotations using generators that are part of the Hamiltonian describing the system. The lowest energy is obtained by optimizing the angles of those unitary rotations. A standard procedure to optimize the variational parameters is to use gradient-based algorithms. However, shot noise and the intrinsic noise of the quantum device affect the evaluation of the required gradients. We studied how different methods for obtaining the gradient, specifically the finite-difference and the parameter-shift rule, are affected by shot noise and noise of the quantum computer. To this end, we simulated a simple quantum circuit, as well as the 2-site and 6-site Hubbard model.
翻訳日:2023-03-14 11:35:40 公開日:2021-09-17
# イオンハバードモデルにおける質量不均衡 : DRMGによる研究

Mass imbalance in the ionic Hubbard model: a DRMG study ( http://arxiv.org/abs/2109.08716v1 )

ライセンス: Link先を確認
D. C. Padilla-Gonz\'alez, R. Franco, J. Silva-Valencia(参考訳) 密度行列再正規化群法によるイオンハバード模型の質量不均衡を1次元で検討した。 このモデルは、スピンギャップが有限であるバンド絶縁体相と反強磁性相を示す。 この量子相転移は、以前の平均場理論の結果とは違って連続であることがわかった。 フォン・ノイマンのブロックエントロピーは臨界点で最大であり、位相図を構築していたという事実である。

We investigated the ionic Hubbard model with mass imbalance in one dimension, using the density matrix renormalization group method. This model exhibits a band insulator phase and an antiferromagnetic one, both with a finite spin gap. We found that this quantum phase transition is continuous, unalike the previous mean-field theory result. The von Neumann block entropy is maximum at the critical points, a fact that we used to build the phase diagram.
翻訳日:2023-03-14 11:28:37 公開日:2021-09-17
# 監視量子回路の絡み合い構造を復号する

Decoding the Entanglement Structure of Monitored Quantum Circuits ( http://arxiv.org/abs/2109.08691v1 )

ライセンス: Link先を確認
Beni Yoshida(参考訳) 単体ゲートと射影測定の両方からなる監視量子回路の出力波動関数を考えると、2つの相補的サブシステムが絡み合っているか否かを問う。 クリフォード回路では、この問題は、様々な絡み合い測度を回復可能性から明示的に計算できる古典的な誤り訂正問題にマッピングできることがわかった。 双対古典符号は、局所演算子と測定されたパウリ演算子の間の時空順序相関関数の時空パターンから構築されており、監視された回路における体積法的な絡み合いは、局所演算子の成長から生じることを示唆している。 また,2つの古典符号の復号化として解釈できる単純な決定論的絡み込み蒸留アルゴリズムを提供することで,量子絡みの検証方法を提案する。 また、論理および安定化作用素の明示的な構成を含む監視されたクリフォード回路の符号化特性についても論じる。 非クリフォード系を含む様々な物理問題への我々のフレームワークの適用についても論じる。 すなわち、体積法相における監視量子回路の絡み合い構造は、初期状態と過去の測定結果に大きく依存していると論じるが、これはスクランブルダイナミクスから切り離された現象のためであり、回路の符号距離と同一視できるある種の多項式長スケールまでである。 また、コード距離とボリュームロー絡みエントロピーに対するサブリーディング貢献との一般的な関係も導出する。 これらの結果のブラックホール物理学への応用についても論じる。

Given an output wavefunction of a monitored quantum circuit consisting of both unitary gates and projective measurements, we ask whether two complementary subsystems are entangled or not. For Clifford circuits, we find that this question can be mapped to a certain classical error-correction problem where various entanglement measures can be explicitly computed from the recoverability. The dual classical code is constructed from spacetime patterns of out-of-time ordered correlation functions among local operators and measured Pauli operators in the past, suggesting that the volume-law entanglement in a monitored circuit emerges from quantum information scrambling, namely the growth of local operators. We also present a method of verifying quantum entanglement by providing a simple deterministic entanglement distillation algorithm, which can be interpreted as decoding of the dual classical code. Discussions on coding properties of a monitored Clifford circuit, including explicit constructions of logical and stabilizer operators, are also presented. Applications of our framework to various physical questions, including non-Clifford systems, are discussed as well. Namely, we argue that the entanglement structure of a monitored quantum circuit in the volume-law phase is largely independent of the initial states and past measurement outcomes except recent ones, due to the decoupling phenomena from scrambling dynamics, up to a certain polynomial length scale which can be identified as the code distance of the circuit. We also derive a general relation between the code distance and the sub-leading contribution to the volume-law entanglement entropy. Applications of these results to black hole physics are discussed as well.
翻訳日:2023-03-14 11:28:14 公開日:2021-09-17
# 等方性超伝導体k$_3$c$_{60}$で観測されたt$_\mathrm{c}$を超える超伝導揺らぎ

Superconducting fluctuations observed far above T$_\mathrm{c}$ in the isotropic superconductor K$_3$C$_{60}$ ( http://arxiv.org/abs/2109.08679v1 )

ライセンス: Link先を確認
Gregor Jotzu, Guido Meier, Alice Cantaluppi, Andrea Cavalleri, Daniele Pontiroli, Mauro Ricc\`o, Arzhang Ardavan, Moon-Sun Nam(参考訳) アルカリドープフラーリドは強い相関を持つ有機超伝導体であり、高い遷移温度、例外的に大きな臨界磁場、その他多くの特異な性質を示す。 モット絶縁相への近接は基礎となる物理学の重要な要素であり、T$_\text{c}$の上の通常の状態における超伝導の前駆体にも影響すると考えられている。 超伝導揺らぎの特性を示すk$_3$c$_{60}$の正常状態における大きな磁気熱電効果(nernst)の観測について報告する。 異常なネルンスト効果は通常の準粒子の背景から80k以下の温度で現れ、 t$_\text{c}$ = 20k をはるかに上回る。 最も低いフィールドと T$_\text{c}$ に近いところでは、効果のスケーリングはガウスのゆらぎに基づくモデルによって捉えられる。 揺らぎを観測する温度は、通常、揺らぎ効果が抑制される3次元等方性系では例外的に高い。

Alkali-doped fullerides are strongly correlated organic superconductors that exhibit high transition temperatures, exceptionally large critical magnetic fields and a number of other unusual properties. The proximity to a Mott insulating phase is thought to be a crucial ingredient of the underlying physics, and may also affect precursors of superconductivity in the normal state above T$_\text{c}$. We report on the observation of a sizeable magneto-thermoelectric (Nernst) effect in the normal state of K$_3$C$_{60}$, which displays the characteristics of superconducting fluctuations. The anomalous Nernst effect emerges from an ordinary quasiparticle background below a temperature of 80K, far above T$_\text{c}$ = 20K. At the lowest fields and close to T$_\text{c}$, the scaling of the effect is captured by a model based on Gaussian fluctuations. The temperature up to which we observe fluctuations is exceptionally high for a three-dimensional isotropic system, where fluctuation effects are usually suppressed.
翻訳日:2023-03-14 11:27:44 公開日:2021-09-17
# コヒーレントフィードバック制御による光量子ビットの決定論的準備

Deterministic preparation of optical qubits with coherent feedback control ( http://arxiv.org/abs/2109.08641v1 )

ライセンス: Link先を確認
Amy Rouillard, Tanita Permaul, Sandeep K. Goyal and Thomas Konrad(参考訳) 光の自由度によるコヒーレントフィードバック制御に基づいて、単一光子または古典的な光状態によって輸送される軌道角運動量と偏光量子ビットの分類法を提案する。 合成方法は線形光学を用い、光線内の任意のoam値+/minus "l"、すなわち空間干渉計のない2レベルoamシステム(swap)に任意の偏光状態の転写を含む。 準備は、システムの潜在的に未知の初期状態から独立して、単位効率で行うことができる。 さらに、計測に基づく量子ビット制御チャネルを光実装のためのコヒーレントフィードバックスキームに変換する方法を示す。

We propose a class of preparation schemes for orbital angular momentum and polarisation qubits carried by single photons or classical states of light based on coherent feedback control by an ancillary degree of freedom of light. The preparation methods use linear optics and include the transcription of an arbitrary polarisation state onto a two-level OAM system (swap) for arbitrary OAM values plus/minus "l" within a light beam, i.e. without spatial interferometer. The preparations can be carried out with unit efficiency independent from the potentially unknown initial state of the system. Moreover, we show how to translate measurement-based qubit control channels into coherent feedback schemes for optical implementation.
翻訳日:2023-03-14 11:27:26 公開日:2021-09-17
# 物理における多項分類の最適設計のためのアクティブラーニング

Active Learning for the Optimal Design of Multinomial Classification in Physics ( http://arxiv.org/abs/2109.08612v1 )

ライセンス: Link先を確認
Yongcheng Ding, Jos\'e D. Mart\'in-Guerrero, Yujing Song, Rafael Magdalena-Benedito, Xi Chen(参考訳) モデルトレーニングのための最適設計は、機械学習において重要なトピックである。 アクティブラーニングは、人工的なラベル付けのための推定モデルに従って、最大不確実性でサンプルをクエリすることで、改良されたモデルを得ることを目的としている。 実験設計のアシスタントとしての能力を解析し,忠実性損失の最小コストで学習のための最大情報を抽出し,実験室におけるラベル付けの運用コストを削減した。 本稿では,量子情報検索と多体物理学における位相境界予測の2つの典型的な応用について述べる。 等価な多重項分類問題では、2%未満のサンプルをラベル付けして99%の正解率を得る。 アクティブラーニングに触発された物理実験は、精度を損なうことなく大幅に予算を削減できると推測する。

Optimal design for model training is a critical topic in machine learning. Active Learning aims at obtaining improved models by querying samples with maximum uncertainty according to the estimation model for artificially labeling; this has the additional advantage of achieving successful performances with a reduced number of labeled samples. We analyze its capability as an assistant for the design of experiments, extracting maximum information for learning with the minimal cost in fidelity loss, or reducing total operation costs of labeling in the laboratory. We present two typical applications as quantum information retrieval in qutrits and phase boundary prediction in many-body physics. For an equivalent multinomial classification problem, we achieve the correct rate of 99% with less than 2% samples labeled. We reckon that active-learning-inspired physics experiments will remarkably save budget without loss of accuracy.
翻訳日:2023-03-14 11:26:29 公開日:2021-09-17
# イベントフロー - ニュースの流れをどう形作るか - 1950-1995年

Event Flow -- How Events Shaped the Flow of the News, 1950-1995 ( http://arxiv.org/abs/2109.08589v1 )

ライセンス: Link先を確認
Melvin Wevers, Jan Kostkan, Kristoffer L. Nielbo(参考訳) 本稿は,1950-1995年の出来事がニュースにどのような影響を与えたかを調べるための情報理論的尺度に依拠する。 さらに、ニュース情報の流れに影響を及ぼすさまざまな方法に基づいて、イベントの分類を提供する(構造化されていない)テキストソースにおけるイベント特徴付け手法を提案する。 その結果,イデオロギー的背景の異なるニュースソースに対するイベント間の関係と影響について,より深く理解することができた。

This article relies on information-theoretic measures to examine how events impacted the news for the period 1950-1995. Moreover, we present a method for event characterization in (unstructured) textual sources, offering a taxonomy of events based on the different ways they impacted the flow of news information. The results give us a better understanding of the relationship between events and their impact on news sources with varying ideological backgrounds.
翻訳日:2023-03-14 11:26:03 公開日:2021-09-17
# Conditional Generative Adversarial Network(CGAN)を用いたバイオメディカルテキスト要約

Biomedical text summarization using Conditional Generative Adversarial Network(CGAN) ( http://arxiv.org/abs/2110.11870v1 )

ライセンス: Link先を確認
Seyed Vahid Moravvej, Abdolreza Mirzaei, Mehran Safayani(参考訳) 医学におけるテキスト要約は、医師が無数の文書から重要な情報にアクセスする時間を短縮するのに役立つ。 本稿では,畳み込みニューラルネットワークを用いた条件付き生成逆数ネットワークに基づく教師付き抽出要約手法を提案する。 文の選択にgreedy法を用いる従来のモデルとは異なり、文の選択に新しいアプローチを用いる。 さらに,要約を改善するバイオメディカル単語埋め込みのためのネットワークを提供する。 本論文の重要な貢献は、識別器に新たな損失関数を導入し、識別器の性能を向上することである。 提案手法は,ROUGE法で決定された最先端手法に匹敵する結果が得られる。 医療データセットにおける実験により,提案手法は,比較モデルよりも平均5%良好に動作し,参照要約に類似していることが示された。

Text summarization in medicine can help doctors for reducing the time to access important information from countless documents. The paper offers a supervised extractive summarization method based on conditional generative adversarial networks using convolutional neural networks. Unlike previous models, which often use greedy methods to select sentences, we use a new approach for selecting sentences. Moreover, we provide a network for biomedical word embedding, which improves summarization. An essential contribution of the paper is introducing a new loss function for the discriminator, making the discriminator perform better. The proposed model achieves results comparable to the state-of-the-art approaches, as determined by the ROUGE metric. Experiments on the medical dataset show that the proposed method works on average 5% better than the competing models and is more similar to the reference summaries.
翻訳日:2023-03-14 11:18:28 公開日:2021-09-17
# 量子コンピュータ上の量子アルゴリズムとしての基本的な機械学習ルーチン

Fundamental Machine Learning Routines as Quantum Algorithms on a Superconducting Quantum Computer ( http://arxiv.org/abs/2109.09522v1 )

ライセンス: Link先を確認
Sristy Sangskriti, Protik Nag, Summit Haque(参考訳) Harrow-Hassidim-Lloydアルゴリズムは、量子デバイス上の線形方程式のシステムを解くことを目的としている。 このアルゴリズムの指数的優位性には4つの注意点がある。 本稿では,これらの特徴が完全に一致しない場合のアルゴリズムの性能に関する数値的研究を行う。 対角行列と非対角行列の間には、アルゴリズムが対角行列の成功確率が高いことを観測する。 同時に、低密度または高濃度の疎エルミート行列ではうまく機能しない。 繰り返すが、Quantum Support Vector Machineアルゴリズムは分類問題に対する有望なアルゴリズムである。 複数ラベル分類問題よりも二項分類問題の方が有効であることが判明した。 そして、パフォーマンスを改善するための多くの機会が残っています。

The Harrow-Hassidim-Lloyd algorithm is intended for solving the system of linear equations on quantum devices. The exponential advantage of the algorithm comes with four caveats. We present a numerical study of the performance of the algorithm when these caveats are not perfectly matched. We observe that, between diagonal and non-diagonal matrices, the algorithm performs with higher success probability for the diagonal matrices. At the same time, it fails to perform well on lower or higher density sparse Hermitian matrices. Again, Quantum Support Vector Machine algorithm is a promising algorithm for classification problem. We have found out that it works better with binary classification problem than multi-label classification problem. And there are many opportunities left for improving the performance.
翻訳日:2023-03-14 11:17:52 公開日:2021-09-17
# オープンドメインキーフレーズ抽出におけるグローバル情報化

Capturing Global Informativeness in Open Domain Keyphrase Extraction ( http://arxiv.org/abs/2004.13639v2 )

ライセンス: Link先を確認
Si Sun, Zhenghao Liu, Chenyan Xiong, Zhiyuan Liu, Jie Bao(参考訳) Open- domain KeyPhrase extract (KPE) は、ドメインや品質制限のないドキュメントからキーフレーズを抽出することを目的としている。 近年、ニューラルネットワークは、与えられた文書の文脈意味論をモデル化する能力があるため、多くのkpeタスクで有望な結果を示している。 しかし、ほとんどのニューラルネットワークKPE法は、オープンドメイン文書からグローバルな情報的キーフレーズの代わりに、ショートやエンティティスタイルのn-gramのような優れたフレーズを持つキーフレーズを抽出することを実証的に示す。 本稿では,学習済み言語モデル上に構築されたオープンドメインKPEアーキテクチャであるJointKPEを提案する。 jointkpeは、文書全体の情報度を推定することで、キーフレーズのランク付けを学び、キーフレーズのチャンキングタスクで共同で訓練し、キーフレーズ候補の句性を保証する。 多様なドメインを持つ2つの大きなKPEデータセット(OpenKPとKP20k)の実験は、オープンドメインシナリオにおける様々な事前訓練された変種に対するJointKPEの有効性を実証している。 さらに分析したところ、従来の神経性KPE法では困難であった長大なキーフレーズの予測において、JointKPEの顕著な利点が明らかとなった。 私たちのコードはhttps://github.com/thunlp/BERT-KPEで公開されています。

Open-domain KeyPhrase Extraction (KPE) aims to extract keyphrases from documents without domain or quality restrictions, e.g., web pages with variant domains and qualities. Recently, neural methods have shown promising results in many KPE tasks due to their powerful capacity for modeling contextual semantics of the given documents. However, we empirically show that most neural KPE methods prefer to extract keyphrases with good phraseness, such as short and entity-style n-grams, instead of globally informative keyphrases from open-domain documents. This paper presents JointKPE, an open-domain KPE architecture built on pre-trained language models, which can capture both local phraseness and global informativeness when extracting keyphrases. JointKPE learns to rank keyphrases by estimating their informativeness in the entire document and is jointly trained on the keyphrase chunking task to guarantee the phraseness of keyphrase candidates. Experiments on two large KPE datasets with diverse domains, OpenKP and KP20k, demonstrate the effectiveness of JointKPE on different pre-trained variants in open-domain scenarios. Further analyses reveal the significant advantages of JointKPE in predicting long and non-entity keyphrases, which are challenging for previous neural KPE methods. Our code is publicly available at https://github.com/thunlp/BERT-KPE.
翻訳日:2022-12-08 22:59:14 公開日:2021-09-17
# egocentric visionの再スケーリング

Rescaling Egocentric Vision ( http://arxiv.org/abs/2006.13256v4 )

ライセンス: Link先を確認
Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Antonino Furnari, Evangelos Kazakos, Jian Ma, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, Michael Wray(参考訳) 本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。 この取り組みは、100時間20MフレームのEPIC-KITCHENS-100で終了し、700の可変長ビデオで90Kアクションを処理し、ヘッドマウントカメラを使用して45の環境で長期の無記述活動をキャプチャする。 EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。 このコレクションは、アクション検出や"時間テスト"の評価といった新たな課題、すなわち、2018年に収集されたデータに基づいてトレーニングされたモデルが、2年後に収集された新しい映像に一般化できるかどうか、といった課題を可能にします。 データセットは、アクション認識(フルかつ弱い監督)、アクション検出、アクション予測、(キャプションからの)クロスモーダル検索、およびアクション認識のための教師なしドメイン適応の6つの課題と一致している。 課題ごとにタスクを定義し、ベースラインと評価メトリクスを提供します。

This paper introduces the pipeline to extend the largest dataset in egocentric vision, EPIC-KITCHENS. The effort culminates in EPIC-KITCHENS-100, a collection of 100 hours, 20M frames, 90K actions in 700 variable-length videos, capturing long-term unscripted activities in 45 environments, using head-mounted cameras. Compared to its previous version, EPIC-KITCHENS-100 has been annotated using a novel pipeline that allows denser (54% more actions per minute) and more complete annotations of fine-grained actions (+128% more action segments). This collection enables new challenges such as action detection and evaluating the "test of time" - i.e. whether models trained on data collected in 2018 can generalise to new footage collected two years later. The dataset is aligned with 6 challenges: action recognition (full and weak supervision), action detection, action anticipation, cross-modal retrieval (from captions), as well as unsupervised domain adaptation for action recognition. For each challenge, we define the task, provide baselines and evaluation metrics
翻訳日:2022-11-17 22:26:30 公開日:2021-09-17
# 因果性学習 : 解釈可能な機械学習の新しい展望

Causality Learning: A New Perspective for Interpretable Machine Learning ( http://arxiv.org/abs/2006.16789v2 )

ライセンス: Link先を確認
Guandong Xu, Tri Dung Duong, Qian Li, Shaowu Liu, Xianzhi Wang(参考訳) 近年,画像認識,テキスト分類,クレジットスコアリング予測,レコメンデーションシステムなど,幅広い分野における機械学習の急速な成長が観察されている。 異なる分野におけるその優れたパフォーマンスにもかかわらず、研究者は、本質的にブラックボックスであり、高い精度を達成するためにより複雑になるあらゆる機械学習(ml)技術の下でのメカニズムを依然として懸念している。 そのため、機械学習モデルの解釈は現在、研究コミュニティの主流となっている。 しかし、従来の解釈可能な機械学習は因果関係ではなく関連性に焦点を当てている。 本稿では,基礎的背景と重要な概念を用いた因果解析の概要を述べるとともに,直近の因果解析手法を要約する。 本稿では,手法品質の評価手法と因果解釈可能性に関するオープン問題についても論じる。

Recent years have witnessed the rapid growth of machine learning in a wide range of fields such as image recognition, text classification, credit scoring prediction, recommendation system, etc. In spite of their great performance in different sectors, researchers still concern about the mechanism under any machine learning (ML) techniques that are inherently black-box and becoming more complex to achieve higher accuracy. Therefore, interpreting machine learning model is currently a mainstream topic in the research community. However, the traditional interpretable machine learning focuses on the association instead of the causality. This paper provides an overview of causal analysis with the fundamental background and key concepts, and then summarizes most recent causal approaches for interpretable machine learning. The evaluation techniques for assessing method quality, and open problems in causal interpretability are also discussed in this paper.
翻訳日:2022-11-16 07:25:02 公開日:2021-09-17
# ラベルオンリー露光におけるメンバーシップリーク

Membership Leakage in Label-Only Exposures ( http://arxiv.org/abs/2007.15528v3 )

ライセンス: Link先を確認
Zheng Li and Yang Zhang(参考訳) 機械学習(ML)は、顔認識や医用画像解析など、さまざまなプライバシクリティカルなアプリケーションで広く採用されている。 しかし、最近の研究では、MLモデルはトレーニングデータに対する攻撃に弱いことが示されている。 データサンプルとモデルが与えられたとき、敵は、そのサンプルがモデルのトレーニングセットの一部であるかどうかを判断することを目的としています。 既存のメンバシップ推論攻撃は、モデルが入力として返す信頼度スコア(scoreベースの攻撃)を活用する。 しかし、モデルが予測されたラベル、すなわち最終的なモデル決定だけを公開すれば、これらの攻撃は容易に軽減できる。 本稿では,決定に基づくメンバシップ推論攻撃を提案し,ラベルのみの露出もメンバシップリークに対して脆弱であることを示す。 特に, 伝達攻撃と境界攻撃という2種類の意思決定に基づく攻撃を展開する。 経験的評価により、我々の意思決定に基づく攻撃は驚くべきパフォーマンスを達成でき、場合によっては過去のスコアベースの攻撃よりも優れています。 さらに,定量的・定性的分析に基づくメンバシップ推論の成功,すなわち,非メンバのサンプルよりもモデルの決定境界に近いモデルのメンバサンプルについて,新たな知見を与える。 最後に、決定に基づく攻撃に対する複数の防御機構を評価し、我々の2種類の攻撃がこれらの防御の多くを回避可能であることを示す。

Machine learning (ML) has been widely adopted in various privacy-critical applications, e.g., face recognition and medical image analysis. However, recent research has shown that ML models are vulnerable to attacks against their training data. Membership inference is one major attack in this domain: Given a data sample and model, an adversary aims to determine whether the sample is part of the model's training set. Existing membership inference attacks leverage the confidence scores returned by the model as their inputs (score-based attacks). However, these attacks can be easily mitigated if the model only exposes the predicted label, i.e., the final model decision. In this paper, we propose decision-based membership inference attacks and demonstrate that label-only exposures are also vulnerable to membership leakage. In particular, we develop two types of decision-based attacks, namely transfer attack, and boundary attack. Empirical evaluation shows that our decision-based attacks can achieve remarkable performance, and even outperform the previous score-based attacks in some cases. We further present new insights on the success of membership inference based on quantitative and qualitative analysis, i.e., member samples of a model are more distant to the model's decision boundary than non-member samples. Finally, we evaluate multiple defense mechanisms against our decision-based attacks and show that our two types of attacks can bypass most of these defenses.
翻訳日:2022-11-05 13:50:15 公開日:2021-09-17
# 音声エコーキャンセリング

Textual Echo Cancellation ( http://arxiv.org/abs/2008.06006v4 )

ライセンス: Link先を確認
Shaojin Ding, Ye Jia, Ke Hu, Quan Wang(参考訳) 本稿では,tts(text-to-speech)再生エコーを重複音声からキャンセリングするためのフレームワークであるtextual echo cancel (tec)を提案する。 このようなシステムは、ユーザーが前のクエリに応答したtts信号を再生している間にデバイスと対話できるため、スマートスピーカーなどのインテリジェントデバイスにおける音声認識性能とユーザエクスペリエンスを大幅に向上させることができる。 本システムでは,ttsのマイクロホン混合信号と音源テキストの両方を入力とするマルチソース対応の新たなシーケンス・ツー・シーケンスモデルを用いて,拡張音声の予測を行う。 実験により,TTS再生のテキスト情報は性能向上に重要であることが示された。 また、テキストシーケンスは、tts再生の生の音響信号よりもはるかに小さく、再生が合成される前であっても、デバイスまたはasrサーバに即座に送信することができる。 そこで,提案手法は,音響エコーキャンセリング (AEC) などの代替手法と比較して,インターネット通信と遅延を効果的に低減する。

In this paper, we propose Textual Echo Cancellation (TEC) - a framework for cancelling the text-to-speech (TTS) playback echo from overlapping speech recordings. Such a system can largely improve speech recognition performance and user experience for intelligent devices such as smart speakers, as the user can talk to the device while the device is still playing the TTS signal responding to the previous query. We implement this system by using a novel sequence-to-sequence model with multi-source attention that takes both the microphone mixture signal and source text of the TTS playback as inputs, and predicts the enhanced audio. Experiments show that the textual information of the TTS playback is critical to enhancement performance. Besides, the text sequence is much smaller in size compared with the raw acoustic signal of the TTS playback, and can be immediately transmitted to the device or ASR server even before the playback is synthesized. Therefore, our proposed approach effectively reduces Internet communication and latency compared with alternative approaches such as acoustic echo cancellation (AEC).
翻訳日:2022-10-30 22:55:29 公開日:2021-09-17
# 3dポイントクラウド上でのディープラーニングの最小逆行例

Minimal Adversarial Examples for Deep Learning on 3D Point Clouds ( http://arxiv.org/abs/2008.12066v4 )

ライセンス: Link先を確認
Jaeyeon Kim, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit Yeung(参考訳) 畳み込みニューラルネットワークの最近の進歩により、3dポイントクラウドのディープラーニングは、オブジェクト認識やセマンティクスセグメンテーションなど、さまざまな3dシーン理解タスクにおいて大きな進歩を遂げている。 しかし、安全クリティカルな環境では、このような深層学習モデルがどのように敵の例に弱いかはよく理解されていない。 本研究では,ポイントクラウドベースのニューラルネットワークに対する敵意攻撃について検討する。 本稿では2つの異なる攻撃戦略を一般化できる対向点雲生成のための統一的な定式化を提案する。 提案手法は, 実例の認識性を考慮しつつ, ポイントクラウドネットワークの分類能力を攻撃し, ポイント操作の最小レベルを確保することで, 逆例を生成する。 実験結果から,本手法は,合成および実世界のデータに対する攻撃成功率の90%を89%以上で達成し,総得点の約4%を演算できることがわかった。

With recent developments of convolutional neural networks, deep learning for 3D point clouds has shown significant progress in various 3D scene understanding tasks, e.g., object recognition, semantic segmentation. In a safety-critical environment, it is however not well understood how such deep learning models are vulnerable to adversarial examples. In this work, we explore adversarial attacks for point cloud-based neural networks. We propose a unified formulation for adversarial point cloud generation that can generalise two different attack strategies. Our method generates adversarial examples by attacking the classification ability of point cloud-based networks while considering the perceptibility of the examples and ensuring the minimal level of point manipulations. Experimental results show that our method achieves the state-of-the-art performance with higher than 89% and 90% of attack success rate on synthetic and real-world data respectively, while manipulating only about 4% of the total points.
翻訳日:2022-10-24 08:01:13 公開日:2021-09-17
# ProCAN: 肺結節分類のための進行成長チャネル注意非局所ネットワーク

ProCAN: Progressive Growing Channel Attentive Non-Local Network for Lung Nodule Classification ( http://arxiv.org/abs/2010.15417v3 )

ライセンス: Link先を確認
Mundher Al-Shabi, Kelvin Shak, Maxine Tan(参考訳) ctスキャン検査における肺癌の分類は,早期発見において最も重要な課題の一つである。 悪性/癌性肺結節を正確に分類できれば、多くの命が救える。 その結果、肺結節を悪性または良性に分類する深層学習モデルが近年提案されている。 それでも、小節の大きさと異質な外観の大きな変化は、このタスクを極めて難しいものにしている。 肺結節分類のためのProCAN(Progressive Growing Channel Attentive Non-Local)ネットワークを提案する。 提案手法は3つの異なる側面からこの問題に対処する。 まず,チャネル毎の注意機能を加えることで,非ローカルネットワークを充実させる。 第二に、カリキュラム学習の原則を適用し、ハードな例よりも簡単な例でモデルをトレーニングします。 第3に、カリキュラム学習中に分類タスクが難しくなるにつれて、我々のモデルは徐々に成長し、手元のタスクを扱う能力を高めます。 提案手法を2つの公開データセットで検討し,その性能を文献の最先端手法と比較した。 その結果、ProCANモデルは最先端の手法より優れ、AUCは98.05%、精度は95.28%であることがわかった。 さらに,提案手法の新規成分の寄与と効果を分析するため,広範なアブレーション研究を行った。

Lung cancer classification in screening computed tomography (CT) scans is one of the most crucial tasks for early detection of this disease. Many lives can be saved if we are able to accurately classify malignant/cancerous lung nodules. Consequently, several deep learning based models have been proposed recently to classify lung nodules as malignant or benign. Nevertheless, the large variation in the size and heterogeneous appearance of the nodules makes this task an extremely challenging one. We propose a new Progressive Growing Channel Attentive Non-Local (ProCAN) network for lung nodule classification. The proposed method addresses this challenge from three different aspects. First, we enrich the Non-Local network by adding channel-wise attention capability to it. Second, we apply Curriculum Learning principles, whereby we first train our model on easy examples before hard ones. Third, as the classification task gets harder during the Curriculum learning, our model is progressively grown to increase its capability of handling the task at hand. We examined our proposed method on two different public datasets and compared its performance with state-of-the-art methods in the literature. The results show that the ProCAN model outperforms state-of-the-art methods and achieves an AUC of 98.05% and an accuracy of 95.28% on the LIDC-IDRI dataset. Moreover, we conducted extensive ablation studies to analyze the contribution and effects of each new component of our proposed method.
翻訳日:2022-10-01 22:45:41 公開日:2021-09-17
# データ拡張を伴うBERTに基づく自己教師型文書クラスタリング

Self-supervised Document Clustering Based on BERT with Data Augment ( http://arxiv.org/abs/2011.08523v3 )

ライセンス: Link先を確認
Haoxiang Shi and Cen Wang(参考訳) コントラスト学習は教師なし学習への有望なアプローチであり、専門的で複雑なモデル設計なしで、よく研究されたディープモデルの利点を継承する。 本稿では,トランスフォーマからの双方向エンコーダ表現に基づいて,自己教師付きコントラスト学習 (scl) と,未教師なしデータ拡張 (uda) を用いた少数ショットコントラスト学習 (fcl) を提案する。 sclは、いくつかのクラスタリング評価尺度の観点から、短いテキストと長いテキストの教師なしクラスタリングアプローチよりも優れている。 FCLは教師付き学習に近い性能を達成し、UDAによるFCLは短文のパフォーマンスをさらに向上する。

Contrastive learning is a promising approach to unsupervised learning, as it inherits the advantages of well-studied deep models without a dedicated and complex model design. In this paper, based on bidirectional encoder representations from transformers, we propose self-supervised contrastive learning (SCL) as well as few-shot contrastive learning (FCL) with unsupervised data augmentation (UDA) for text clustering. SCL outperforms state-of-the-art unsupervised clustering approaches for short texts and those for long texts in terms of several clustering evaluation measures. FCL achieves performance close to supervised learning, and FCL with UDA further improves the performance for short texts.
翻訳日:2022-09-24 15:46:07 公開日:2021-09-17
# ベイズ三重項損失:画像検索における不確実性定量化

Bayesian Triplet Loss: Uncertainty Quantification in Image Retrieval ( http://arxiv.org/abs/2011.12663v3 )

ライセンス: Link先を確認
Frederik Warburg, Martin J{\o}rgensen, Javier Civera, S{\o}ren Hauberg(参考訳) 画像検索における不確かさの定量化は下流の決定に不可欠であるが、依然として難題であり、ほとんど未解決の問題である。 現在の不確実性を推定する手法は、校正が不十分で、計算コストが低く、ヒューリスティックスに基づいている。 本稿では,画像埋め込みを決定論的特徴ではなく確率的特徴とみなす新しい手法を提案する。 我々の2つの主な貢献は、(1)三重項制約に適合し、負よりも正に近いアンカーの確率を評価する可能性、(2)従来のl2正規化を正当化する特徴空間上の先行性である。 計算効率を確保するために、ベイズ三重項損失(bayesian triplet loss)と呼ばれる、最先端の不確実性推定を生成し、現在の最先端手法の予測性能に合致する後方の変分近似を導出する。

Uncertainty quantification in image retrieval is crucial for downstream decisions, yet it remains a challenging and largely unexplored problem. Current methods for estimating uncertainties are poorly calibrated, computationally expensive, or based on heuristics. We present a new method that views image embeddings as stochastic features rather than deterministic features. Our two main contributions are (1) a likelihood that matches the triplet constraint and that evaluates the probability of an anchor being closer to a positive than a negative; and (2) a prior over the feature space that justifies the conventional l2 normalization. To ensure computational efficiency, we derive a variational approximation of the posterior, called the Bayesian triplet loss, that produces state-of-the-art uncertainty estimates and matches the predictive performance of current state-of-the-art methods.
翻訳日:2022-09-21 03:04:22 公開日:2021-09-17
# 少ないラベル付きシーケンスデータのための半教師付き学習:医療ビデオ処理への応用

Semi-Supervised Learning for Sparsely-Labeled Sequential Data: Application to Healthcare Video Processing ( http://arxiv.org/abs/2011.14101v4 )

ライセンス: Link先を確認
Florian Dubost, Erin Hong, Nandita Bhaskhar, Siyi Tang, Daniel Rubin, Christopher Lee-Messer(参考訳) ラベル付きデータは、機械学習モデルのトレーニングと評価にとって重要なリソースである。 しかし、実際のデータセットの多くは部分的にラベル付けされているだけである。 本稿では,映像記録などの逐次データに対するイベント検出性能を向上させるための半教師付き機械学習トレーニング戦略を提案する。 本手法では,イベントの終了時刻のノイズ推定を用いてイベント検出モデルを学習する。 これらの推測がどれほど保守的であるかによって、誤ったラベル付き偽陽性がトレーニングセットに導入されることがある(すなわち、負のシーケンスは正としてラベル付けされる)。 さらに,最終時刻の推測がどれだけ騒がしいかに基づいて,モデルが露出する不正確なラベルの数を推定する数学的モデルを提案する。 最後に,不正確なラベルの比率が高いにもかかわらず,より保守的な近似値の少ないトレーニングデータを活用することで,ニューラルネットワークによる検出性能の向上が期待できることを示す。 我々は,MNISTとCIFAR-10の逐次バージョンを適用し,本手法を実証的に評価し,MNISTの平均精度を12ポイント,CIFARの3.5ポイントで予測した。 そして,提案手法を応用して,てんかん患者の連続映像記録を処理し,発作検出の改善を図り,平均10ポイントの精度でベースラインラベリング法より優れていることを示す。

Labeled data is a critical resource for training and evaluating machine learning models. However, many real-life datasets are only partially labeled. We propose a semi-supervised machine learning training strategy to improve event detection performance on sequential data, such as video recordings, when only sparse labels are available, such as event start times without their corresponding end times. Our method uses noisy guesses of the events' end times to train event detection models. Depending on how conservative these guesses are, mislabeled false positives may be introduced into the training set (i.e., negative sequences mislabeled as positives). We further propose a mathematical model for estimating how many inaccurate labels a model is exposed to, based on how noisy the end time guesses are. Finally, we show that neural networks can improve their detection performance by leveraging more training data with less conservative approximations despite the higher proportion of incorrect labels. We adapt sequential versions of MNIST and CIFAR-10 to empirically evaluate our method, and find that our risk-tolerant strategy outperforms conservative estimates by 12 points of mean average precision for MNIST, and 3.5 points for CIFAR. Then, we leverage the proposed training strategy to tackle a real-life application: processing continuous video recordings of epilepsy patients to improve seizure detection, and show that our method outperforms baseline labeling methods by 10 points of average precision.
翻訳日:2022-09-19 19:39:15 公開日:2021-09-17
# 視覚的類似性とコミュニケーション的文脈はグラフィカルコンベンションの出現を制約する

Visual resemblance and communicative context constrain the emergence of graphical conventions ( http://arxiv.org/abs/2109.13861v1 )

ライセンス: Link先を確認
Robert D. Hawkins, Megumi Sano, Noah D. Goodman, Judith E. Fan(参考訳) フォトリアリスティックなスケッチから図式図まで、描画は視覚的な世界を伝えるための多彩な媒体を提供する。 このような幅広い外観にまたがる画像は、どのように意味を確実に伝えるのか? 視聴者は、参照するエンティティ(画像)にのみ類似する能力に基づいて描画を理解するか、または、これらのエンティティ(記号)との共有だが任意の関連に基づく描画を理解するか? 本稿では,視覚情報と社会情報の両方を統合し,効果的な視覚コミュニケーションを支援する画像意味の認知的説明の証拠を提供する。 この説明を評価するために、被験者のペアが複数の気晴らしオブジェクト間でターゲットオブジェクトのアイデンティティを繰り返し伝達するために、図面を用いたコミュニケーションタスクを用いた。 3つの実験と完全な内部複製のソーシャルキューを操作し、ペアの参加者が、タスクプラクティスや純粋に類似したアカウントだけで説明できるような、より効率的なコミュニケーションのためのレファレント特化およびインタラクション特化戦略を開発した。 さらに,モデルベース画像解析とクラウドソースによるスケッチアノテーションを組み合わせることで,純粋なコンベンションベースアカウントが予測したように,図面が任意性に向かって漂うのではなく,対象対象物に最も特徴的な視覚的特徴を体系的に保存した。 これらの知見は、視覚知覚、コミュニケーション経験、社会的文脈の複雑な相互作用を通じて、図的意味の理論を前進させ、どのようにグラフィカルな慣習が成功するかを示す。

From photorealistic sketches to schematic diagrams, drawing provides a versatile medium for communicating about the visual world. How do images spanning such a broad range of appearances reliably convey meaning? Do viewers understand drawings based solely on their ability to resemble the entities they refer to (i.e., as images), or do they understand drawings based on shared but arbitrary associations with these entities (i.e., as symbols)? In this paper, we provide evidence for a cognitive account of pictorial meaning in which both visual and social information is integrated to support effective visual communication. To evaluate this account, we used a communication task where pairs of participants used drawings to repeatedly communicate the identity of a target object among multiple distractor objects. We manipulated social cues across three experiments and a full internal replication, finding pairs of participants develop referent-specific and interaction-specific strategies for communicating more efficiently over time, going beyond what could be explained by either task practice or a pure resemblance-based account alone. Using a combination of model-based image analyses and crowdsourced sketch annotations, we further determined that drawings did not drift toward arbitrariness, as predicted by a pure convention-based account, but systematically preserved those visual features that were most distinctive of the target object. Taken together, these findings advance theories of pictorial meaning and have implications for how successful graphical conventions emerge via complex interactions between visual perception, communicative experience, and social context.
翻訳日:2021-10-03 10:40:19 公開日:2021-09-17
# PP-LCNet:軽量CPU畳み込みニューラルネットワーク

PP-LCNet: A Lightweight CPU Convolutional Neural Network ( http://arxiv.org/abs/2109.15099v1 )

ライセンス: Link先を確認
Cheng Cui, Tingquan Gao, Shengyu Wei, Yuning Du, Ruoyu Guo, Shuilong Dong, Bin Lu, Ying Zhou, Xueying Lv, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma(参考訳) 本稿では,マルチタスクにおける軽量モデルの性能向上を目的とした,pp-lcnetと呼ばれるmkldnn高速化戦略に基づく軽量cpuネットワークを提案する。 本稿では,遅延がほぼ一定である間,ネットワークの精度を向上させる技術を紹介する。 これらの改良により、PP-LCNetの精度は、同一の推論時間で以前のネットワーク構造を大幅に上回ることができる。 図1に示すように、最も最先端のモデルよりも優れています。 また、コンピュータビジョンの下流タスクでは、オブジェクト検出やセマンティックセグメンテーションなど、非常によく機能します。 すべての実験はPaddlePaddleに基づいて実施されています。 コードと事前トレーニングされたモデルはPaddleClasで利用可能だ。

We propose a lightweight CPU network based on the MKLDNN acceleration strategy, named PP-LCNet, which improves the performance of lightweight models on multiple tasks. This paper lists technologies which can improve network accuracy while the latency is almost constant. With these improvements, the accuracy of PP-LCNet can greatly surpass the previous network structure with the same inference time for classification. As shown in Figure 1, it outperforms the most state-of-the-art models. And for downstream tasks of computer vision, it also performs very well, such as object detection, semantic segmentation, etc. All our experiments are implemented based on PaddlePaddle. Code and pretrained models are available at PaddleClas.
翻訳日:2021-10-03 10:39:50 公開日:2021-09-17
# エキスパートシステムのgap-fill多重選択問題生成アルゴリズム

An Algorithm for Generating Gap-Fill Multiple Choice Questions of an Expert System ( http://arxiv.org/abs/2109.11421v1 )

ライセンス: Link先を確認
Pornpat Sirithumgul, Pimpaka Prasertsilp, Lorne Olfman(参考訳) 本研究は,gap-fill multiple choice questions (mcqs)を自動的に生成するオントロジに基づく設計,テキストマイニング,自然言語処理を含む人工知能アルゴリズムを提案することを目的とした。 本研究のシミュレーションにより,ソフトウェアテストにおけるギャップ満載MCQの生成にアルゴリズムを適用した。 シミュレーションの結果,103のオンライン文書を入力として使用することにより,ソフトウェアテスト領域のさまざまなトピックをカバーする16000以上の有効なギャップ満載MCQを自動的に生成できることがわかった。 最後に,本論文の議論部において,知識エキスパートシステムで用いられる質問プールにおいて,ギャップ満載MCQを生成するために,提案アルゴリズムをどのように適用すべきかを提案する。

This research is aimed to propose an artificial intelligence algorithm comprising an ontology-based design, text mining, and natural language processing for automatically generating gap-fill multiple choice questions (MCQs). The simulation of this research demonstrated an application of the algorithm in generating gap-fill MCQs about software testing. The simulation results revealed that by using 103 online documents as inputs, the algorithm could automatically produce more than 16 thousand valid gap-fill MCQs covering a variety of topics in the software testing domain. Finally, in the discussion section of this paper we suggest how the proposed algorithm should be applied to produce gap-fill MCQs being collected in a question pool used by a knowledge expert system.
翻訳日:2021-09-26 22:33:08 公開日:2021-09-17
# (参考訳) CTスキャンからのRibセグメンテーションのためのRibSegデータセットとストロングポイントクラウドベースライン

RibSeg Dataset and Strong Point Cloud Baselines for Rib Segmentation from CT Scans ( http://arxiv.org/abs/2109.09521v1 )

ライセンス: CC BY 4.0
Jiancheng Yang, Shixuan Gu, Donglai Wei, Hanspeter Pfister, Bingbing Ni(参考訳) CTスキャンにおける手動リブ検査は臨床的に重要であるが,24リブは典型的には細長く,3Dボリュームでは斜めである。 自動リブセグメンテーション法は、リブの測定と可視化によってプロセスを高速化することができる。 しかし、先行技術は主に、一般に利用できない、計算的に非効率な高密度な3Dボリュームを扱う社内ラベル付きデータセットを使用している。 これらの問題に対処するため、公開データセットから490個のCTスキャン(11,719個のリブを含む、ラベル付きリブセグメンテーションベンチマークである \emph{RibSeg} を開発した。 地中真理生成には,既存の形態素に基づくアルゴリズムを用い,手動で解析を行った。 そして,3次元体積のリブの空間性を考慮すると,入力からスパースボクセルをしきい値とし,リブセグメンテーションのための点群ベースライン法を設計した。 提案手法は,最先端のセグメンテーション性能(Dice~$\approx95\%$)を高い効率(10\sim40\times$)で達成する。 PyTorchのRibSegデータセット、コード、モデルはhttps://github.com/M3DV/RibSegで入手できる。

Manual rib inspections in computed tomography (CT) scans are clinically critical but labor-intensive, as 24 ribs are typically elongated and oblique in 3D volumes. Automatic rib segmentation methods can speed up the process through rib measurement and visualization. However, prior arts mostly use in-house labeled datasets that are publicly unavailable and work on dense 3D volumes that are computationally inefficient. To address these issues, we develop a labeled rib segmentation benchmark, named \emph{RibSeg}, including 490 CT scans (11,719 individual ribs) from a public dataset. For ground truth generation, we used existing morphology-based algorithms and manually refined its results. Then, considering the sparsity of ribs in 3D volumes, we thresholded and sampled sparse voxels from the input and designed a point cloud-based baseline method for rib segmentation. The proposed method achieves state-of-the-art segmentation performance (Dice~$\approx95\%$) with significant efficiency ($10\sim40\times$ faster than prior arts). The RibSeg dataset, code, and model in PyTorch are available at https://github.com/M3DV/RibSeg.
翻訳日:2021-09-24 03:02:23 公開日:2021-09-17
# (参考訳) ユニバーサル病変検出のための非対称3次元コンテキストフュージョン

Asymmetric 3D Context Fusion for Universal Lesion Detection ( http://arxiv.org/abs/2109.08684v1 )

ライセンス: CC BY 4.0
Jiancheng Yang, Yi He, Kaiming Kuang, Zudi Lin, Hanspeter Pfister, Bingbing Ni(参考訳) 高性能な3次元医用画像解析には3Dコンテキストのモデリングが不可欠である。 2Dネットワークは大規模2D教師付き事前学習の恩恵を受けるが、3Dコンテキストのキャプチャには弱い。 3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。 新たな手法として,2次元事前学習ネットワークからの変換が可能な 'emph{3D context fusion operator} が,両者の利点を活用し,大きな成功を収めた。 既存の3Dコンテキスト融合演算子は、空間対称、すなわち畳み込みのように各2Dスライス上で同一の操作を行うように設計されている。 しかし、これらの演算子は、特に入力としてわずかに3Dスライスを使用する場合、翻訳と真に同値ではない。 本稿では,異なる重みを使って異なる2次元スライスから3次元コンテキストを融合する,新しい非対称な3次元コンテキスト融合演算子(A3D)を提案する。 特に、A3DはNOT変換同変であるが、計算オーバーヘッドを伴わずに既存の対称文脈融合演算子を著しく上回っている。 我々は,CT(Computed tomography)による広汎な病変検出のための大規模パブリックデータセットであるDeepLesionベンチマークを用いて,提案手法の有効性を検証する。 提案された A3D は対称文脈融合作用素をかなりのマージンで一貫して上回り、DeepLesion 上で新しい 'emph{state of the art' を確立する。 オープンな研究を促進するため、PyTorchのコードとモデルはhttps://github.com/M3DV/AlignShift.comで公開されています。

Modeling 3D context is essential for high-performance 3D medical image analysis. Although 2D networks benefit from large-scale 2D supervised pretraining, it is weak in capturing 3D context. 3D networks are strong in 3D context yet lack supervised pretraining. As an emerging technique, \emph{3D context fusion operator}, which enables conversion from 2D pretrained networks, leverages the advantages of both and has achieved great success. Existing 3D context fusion operators are designed to be spatially symmetric, i.e., performing identical operations on each 2D slice like convolutions. However, these operators are not truly equivariant to translation, especially when only a few 3D slices are used as inputs. In this paper, we propose a novel asymmetric 3D context fusion operator (A3D), which uses different weights to fuse 3D context from different 2D slices. Notably, A3D is NOT translation-equivariant while it significantly outperforms existing symmetric context fusion operators without introducing large computational overhead. We validate the effectiveness of the proposed method by extensive experiments on DeepLesion benchmark, a large-scale public dataset for universal lesion detection from computed tomography (CT). The proposed A3D consistently outperforms symmetric context fusion operators by considerable margins, and establishes a new \emph{state of the art} on DeepLesion. To facilitate open research, our code and model in PyTorch are available at https://github.com/M3DV/AlignShift.
翻訳日:2021-09-24 02:52:04 公開日:2021-09-17
# (参考訳) コンピュータが冗談を言うとき:ユーモラスな見出しの自動生成

When a Computer Cracks a Joke: Automated Generation of Humorous Headlines ( http://arxiv.org/abs/2109.08702v1 )

ライセンス: CC BY 4.0
Khalid Alnajjar and Mika H\"am\"al\"ainen(参考訳) ニュースの自動生成は、過去に新しい機関にとって大きな関心事となっている。 このような自動生成されたニュース記事の見出しは、しばしば準備済みのテンプレートで生成されたため想像に難くない。 我々は,既存の見出しのユーモラスなバージョンを生成できるヘッドライン生成のための,計算的に創造的な手法を提案する。 本システムと人間の判断結果を比較し,人間によるユーモアのタイトルと比較した。 このシステムが生み出した見出しは、人間の評価者による36%のおかしな時間と見なされている。

Automated news generation has become a major interest for new agencies in the past. Oftentimes headlines for such automatically generated news articles are unimaginative as they have been generated with ready-made templates. We present a computationally creative approach for headline generation that can generate humorous versions of existing headlines. We evaluate our system with human judges and compare the results to human authored humorous titles. The headlines produced by the system are considered funny 36\% of the time by human evaluators.
翻訳日:2021-09-24 02:40:31 公開日:2021-09-17
# (参考訳) コカイン依存症のプロテオーム不定型機械学習研究

Proteome-informed machine learning studies of cocaine addiction ( http://arxiv.org/abs/2109.08718v1 )

ライセンス: CC BY 4.0
Kaifu Gao, Dong Chen, Alfred J Robison, and Guo-Wei Wei(参考訳) コカイン依存は薬物使用障害の大部分を占め、世界中の何百万人もの生命を脅かす。 効果的な抗コカイン中毒薬を開発する必要がある。 残念ながら、過去数十年にわたる大規模な取り組みにもかかわらず、FDA(食品医薬品局)による医薬品の認可は行われていない。 主な課題は、コカイン依存の複雑な分子機構であり、コカインによって影響を受けるドーパミントランスポーター(dat)機能の上流と下流のタンパク質間の相乗的相互作用を含んでいる。 しかし、従来のin vivoやin vitroの実験では、非常に多くのタンパク質の役割を扱えず、この分野における革新的な戦略の必要性を強調している。 プロテオームインフォームド機械学習/深層学習(ML/DL)プラットフォームを提案する。 我々は,コカイン依存のためのプロテオミクス蛋白質間相互作用(ppi)ネットワークを構築し解析し,約4400万分子からトレーニングされたオートエンコーダ(ea)モデルを用いて,約6万以上の薬物候補または実験薬を潜在空間で表現する。 我々は,これらの薬剤候補のクロスターゲット分析のための32mlモデルを構築した。 さらに, これらの候補の吸収, 分布, 代謝, 排ガス, 毒性(ADMET)特性について検討した。 私たちのプラットフォームは、何十もの実験薬を含む既存の薬物候補が、我々のクロスターゲットおよびADMETスクリーニングを通過できないことを明らかにしています。 それでも、さらなる最適化のために、ほぼ最適な2つの手がかりを特定した。

Cocaine addiction accounts for a large portion of substance use disorders and threatens millions of lives worldwide. There is an urgent need to come up with efficient anti-cocaine addiction drugs. Unfortunately, no medications have been approved by the Food and Drug Administration (FDA), despite the extensive effort in the past few decades. The main challenge is the intricate molecular mechanisms of cocaine addiction, involving synergistic interactions among proteins upstream and downstream of dopamine transporter (DAT) functions impacted by cocaine. However, traditional in vivo or in vitro experiments can not address the roles of so many proteins, highlighting the need for innovative strategies in the field. We propose a proteome-informed machine learning/deep learning (ML/DL) platform to discover nearly optimal anti-cocaine addiction lead compounds. We construct and analyze proteomic protein-protein interaction (PPI) networks for cocaine dependence to identify 141 involved drug targets and represent over 60,000 associated drug candidates or experimental drugs in the latent space using an autoencoder (EA) model trained from over 104 million molecules. We build 32 ML models for cross-target analysis of these drug candidates for side effects and repurposing potential. We further screen the absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties of these candidates. Our platform reveals that essentially all of the existing drug candidates, including dozens of experimental drugs, fail to pass our cross-target and ADMET screenings. Nonetheless, we have identified two nearly optimal leads for further optimization.
翻訳日:2021-09-24 02:29:14 公開日:2021-09-17
# (参考訳) 教師なしクロスドメイン必須チェーンのための効率的な変分グラフオートエンコーダ

Efficient Variational Graph Autoencoders for Unsupervised Cross-domain Prerequisite Chains ( http://arxiv.org/abs/2109.08722v1 )

ライセンス: CC0 1.0
Irene Li, Vanessa Yan and Dragomir Radev(参考訳) 前提連鎖学習は、人々が新しい知識を効率的に獲得するのに役立つ。 ドメイン内の概念を学習するパスを素早く決定することができるが、他のドメインでそのようなパスを見つけるのは困難である。 本稿では,DAVGAE (Domain-Adversarial Variational Graph Autoencoders) を導入し,ドメイン間連鎖学習を効率的に行う。 我々の新しいモデルは変分グラフオートエンコーダ(VGAE)とドメイン識別器からなる。 vgaeはリンク予測を通じて概念関係を予測するように訓練され、ドメイン判別器はソースとターゲットの両方のドメインデータを入力として取り、ドメインラベルを予測するように訓練される。 最も重要なことに、この手法は入力として単純な同質グラフのみを必要とする。 本モデルは, lecturebankcdデータセット上で評価し, グラフスケールの1/10と1/3の計算時間を用いて, 最近のグラフベースベンチマークを上回った。

Prerequisite chain learning helps people acquire new knowledge efficiently. While people may quickly determine learning paths over concepts in a domain, finding such paths in other domains can be challenging. We introduce Domain-Adversarial Variational Graph Autoencoders (DAVGAE) to solve this cross-domain prerequisite chain learning task efficiently. Our novel model consists of a variational graph autoencoder (VGAE) and a domain discriminator. The VGAE is trained to predict concept relations through link prediction, while the domain discriminator takes both source and target domain data as input and is trained to predict domain labels. Most importantly, this method only needs simple homogeneous graphs as input, compared with the current state-of-the-art model. We evaluate our model on the LectureBankCD dataset, and results show that our model outperforms recent graph-based benchmarks while using only 1/10 of graph scale and 1/3 computation time.
翻訳日:2021-09-24 02:27:24 公開日:2021-09-17
# (参考訳) ChipQA: 時空チップによる非参照ビデオ品質予測

ChipQA: No-Reference Video Quality Prediction via Space-Time Chips ( http://arxiv.org/abs/2109.08726v1 )

ライセンス: CC BY 4.0
Joshua P. Ebenezer, Zaixi Shang, Yongjun Wu, Hai Wei, Sriram Sethuraman, Alan C. Bovik(参考訳) ノン参照ビデオ品質評価(VQA)のための新しいモデルを提案する。 提案手法では,高局所化時空スライス(stチップ)の考え方である時空チップ(stチップ)を用いる。 STチップ(ST Chips)は、ビデオデータのローカライズされたカットで、textit{implicitly} の動きをキャプチャする。 まず、知覚的モチベーションのバンドパスと正規化モデルを用いて、まずビデオデータを処理し、次に、自然ビデオ統計のパラメトリックモデルにどの程度適合するかに基づいて、向き付けされたstチップを選択する。 これらの統計を記述したパラメータは,参照映像を必要とせずに,映像の品質を確実に予測できることを示す。 提案手法は,STビデオの自然さと自然さからの逸脱を暗黙的にモデル化する。 我々は,複数の大規模VQAデータベース上でモデルを訓練・テストし,動作計算を必要とせず,最先端の性能を低コストで実現できることを示す。

We propose a new model for no-reference video quality assessment (VQA). Our approach uses a new idea of highly-localized space-time (ST) slices called Space-Time Chips (ST Chips). ST Chips are localized cuts of video data along directions that \textit{implicitly} capture motion. We use perceptually-motivated bandpass and normalization models to first process the video data, and then select oriented ST Chips based on how closely they fit parametric models of natural video statistics. We show that the parameters that describe these statistics can be used to reliably predict the quality of videos, without the need for a reference video. The proposed method implicitly models ST video naturalness, and deviations from naturalness. We train and test our model on several large VQA databases, and show that our model achieves state-of-the-art performance at reduced cost, without requiring motion computation.
翻訳日:2021-09-24 02:14:48 公開日:2021-09-17
# (参考訳) 教師なしビュー不変の姿勢表現

Unsupervised View-Invariant Human Posture Representation ( http://arxiv.org/abs/2109.08730v1 )

ライセンス: CC BY 4.0
Faegheh Sardari, Bj\"orn Ommer, Majid Mirmehdi(参考訳) 最近のview-invariant action recognition and performance assessmentのアプローチでは、大量のアノテーション付き3dスケルトンデータを使用してビュー不変な特徴を抽出する。 しかし、3dスケルトンデータの取得は、現実的でないにしても、野生のシナリオでは面倒なことがある。 本研究では,3次元関節データを用いずに2次元画像から視点不変な3次元ポーズ表現を抽出する手法を提案する。 本モデルは,異なる視点からの同時フレーム間における人間のポーズの内在的なビュー不変特性と,同じ視点からの拡張フレーム間の同変特性を利用して訓練する。 2つの下流タスクに対する学習されたビュー不変ポーズ表現を評価する。 我々は,RGB画像と深度画像の両方において,NTU RGB+Dにおける最先端の教師なしクロスビュー動作分類精度の改善を示す比較実験を行った。 また、ntu rgb+d から学習表現を転送し、マルチビューの人間動作品質データセット qmar 上で、初めて教師なしのクロスビューとクロスサブジェクトのランク相関結果を得る効率を示し、このデータセットに対する最先端の教師付き結果について限界的に改善する。 また,提案するネットワークの異なる構成要素の寄与を調べるため,アブレーション研究を行った。

Most recent view-invariant action recognition and performance assessment approaches rely on a large amount of annotated 3D skeleton data to extract view-invariant features. However, acquiring 3D skeleton data can be cumbersome, if not impractical, in in-the-wild scenarios. To overcome this problem, we present a novel unsupervised approach that learns to extract view-invariant 3D human pose representation from a 2D image without using 3D joint data. Our model is trained by exploiting the intrinsic view-invariant properties of human pose between simultaneous frames from different viewpoints and their equivariant properties between augmented frames from the same viewpoint. We evaluate the learned view-invariant pose representations for two downstream tasks. We perform comparative experiments that show improvements on the state-of-the-art unsupervised cross-view action classification accuracy on NTU RGB+D by a significant margin, on both RGB and depth images. We also show the efficiency of transferring the learned representations from NTU RGB+D to obtain the first ever unsupervised cross-view and cross-subject rank correlation results on the multi-view human movement quality dataset, QMAR, and marginally improve on the-state-of-the-art supervised results for this dataset. We also carry out ablation studies to examine the contributions of the different components of our proposed network.
翻訳日:2021-09-24 01:47:54 公開日:2021-09-17
# (参考訳) 半スーパービジョンFew-Shotインテント分類とスロットフィリング

Semi-Supervised Few-Shot Intent Classification and Slot Filling ( http://arxiv.org/abs/2109.08754v1 )

ライセンス: CC BY-SA 4.0
Samyadeep Basu, Karine lp Kiun Chong, Amr Sharaf, Alex Fischer, Vishal Rohra, Michael Amoake, Hazem El-Hammamy, Ehi Nosakhare, Vijay Ramani, Benjamin Han(参考訳) インテント分類(IC)とスロットフィリング(SF)は、現代の自然言語理解(NLU)システムにおける2つの基本的なタスクである。 このようなシステムのディープラーニングモデルをトレーニングするために大量のデータを収集し、注釈付けすることは、スケーラブルではありません。 この問題は、プロトタイプネットワークのような高速教師付きメタラーニング技術を用いて、少数の例から学習することで解決できる。 本研究では,協調型IC/SFタスクにおいて,既存の教師付きメタ学習パイプラインに対して,コントラスト学習と教師なしデータ拡張がどのような効果をもたらすかを系統的に検討する。 提案手法は,標準IC/SFベンチマーク(SNIPSおよびATIS)の広範な実験を通じて,標準教師付きメタラーニング手法よりも優れていることを示す。

Intent classification (IC) and slot filling (SF) are two fundamental tasks in modern Natural Language Understanding (NLU) systems. Collecting and annotating large amounts of data to train deep learning models for such systems is not scalable. This problem can be addressed by learning from few examples using fast supervised meta-learning techniques such as prototypical networks. In this work, we systematically investigate how contrastive learning and unsupervised data augmentation methods can benefit these existing supervised meta-learning pipelines for jointly modelled IC/SF tasks. Through extensive experiments across standard IC/SF benchmarks (SNIPS and ATIS), we show that our proposed semi-supervised approaches outperform standard supervised meta-learning methods: contrastive losses in conjunction with prototypical networks consistently outperform the existing state-of-the-art for both IC and SF tasks, while data augmentation strategies primarily improve few-shot IC by a significant margin.
翻訳日:2021-09-24 01:33:05 公開日:2021-09-17
# (参考訳) 局所重み付き平均位相角(LWMPA)に基づくトーンマッピング品質指標(TMQI-3)

Locally Weighted Mean Phase Angle (LWMPA) Based Tone Mapping Quality Index (TMQI-3) ( http://arxiv.org/abs/2109.08774v1 )

ライセンス: CC0 1.0
Inaam Ul Hassan, Abdul Haseeb, Sarwan Ali(参考訳) 高ダイナミックレンジ(hdr)画像は、標準画像に比べてより広い光度を含む画像である。 HDR画像は、標準画像に欠けている構造、オブジェクト、色の詳細と明快さを持っている。 HDR画像は、高輝度、暗い領域、影などのシーンを撮影するのに有用である。 HDR画像は、複数の狭域露光画像を1つの高品質画像に合成する。 これらのHDR画像は標準表示装置では表示できないため、実際の課題はこれらのHDR画像をLow Dynamic Range (LDR)画像に変換することである。 トーンマップ演算子(TMO)を用いてHDR画像からLDR画像への変換を行う。 この変換により、構造、色、自然性、露出において非常に貴重な情報が失われる。 LDR画像における情報の喪失は、直接人間の目には見えないかもしれない。 変換後のLDR画像の精度を計算するために,これまで様々な指標が提案されてきた。 いくつかは耐雑音性がなく、別の色チャンネル(赤、緑、青)で作業し、いくつかは構造を特定する能力がない。 この問題に対処するため,本論文では,目標スコアに基づいてLDR画像の品質を評価するトーンマッピング品質指標(TMQI-3)を提案する。 TMQI-3は耐雑音性があり、構造と自然性を考慮し、3つの色チャネル全てを1つの光度成分に統合する。 これにより、複数のメトリクスを同時に使用する必要がなくなる。 文献から得られた複数のhdrおよびldr画像の結果を算出し,品質指標指標がベースラインモデルよりも優れた性能を示す。

High Dynamic Range (HDR) images are the ones that contain a greater range of luminosity as compared to the standard images. HDR images have a higher detail and clarity of structure, objects, and color, which the standard images lack. HDR images are useful in capturing scenes that pose high brightness, darker areas, and shadows, etc. An HDR image comprises multiple narrow-range-exposure images combined into one high-quality image. As these HDR images cannot be displayed on standard display devices, the real challenge comes while converting these HDR images to Low dynamic range (LDR) images. The conversion of HDR image to LDR image is performed using Tone-mapped operators (TMOs). This conversion results in the loss of much valuable information in structure, color, naturalness, and exposures. The loss of information in the LDR image may not directly be visible to the human eye. To calculate how good an LDR image is after conversion, various metrics have been proposed previously. Some are not noise resilient, some work on separate color channels (Red, Green, and Blue one by one), and some lack capacity to identify the structure. To deal with this problem, we propose a metric in this paper called the Tone Mapping Quality Index (TMQI-3), which evaluates the quality of the LDR image based on its objective score. TMQI-3 is noise resilient, takes account of structure and naturalness, and works on all three color channels combined into one luminosity component. This eliminates the need to use multiple metrics at the same time. We compute results for several HDR and LDR images from the literature and show that our quality index metric performs better than the baseline models.
翻訳日:2021-09-24 01:21:30 公開日:2021-09-17
# (参考訳) ノイズ状態観測に対する分散強化学習のロバスト性を探る

Exploring the Robustness of Distributional Reinforcement Learning against Noisy State Observations ( http://arxiv.org/abs/2109.08776v1 )

ライセンス: CC BY 4.0
Ke Sun, Yi Liu, Yingnan Zhao, Hengshuai Yao, Shangling Jui, Linglong Kong(参考訳) 実際のシナリオでは、エージェントが観察する状態観察には、測定エラーや逆向きのノイズが含まれ、エージェントが最適でない行動をとるように誤解したり、トレーニング中に崩壊することがある。 本稿では,分布強化学習(rl)のトレーニングロバスト性について検討する。本研究は,全回帰の期待値に対して,全体の分布を推定する最先端手法のクラスである。 まず, 有意なマルコフ決定過程~(sn-mdp) を提案し, 期待値と分布値の両方のベルマン作用素の縮小を導出するランダム状態観測ノイズと逆状態観測ノイズの両方を取り込む。 関数近似によるSN-MDPを超えて、ヒストグラムに基づく分布損失の有界勾配ノルムを理論的に特徴づけ、分布RLのより優れたトレーニングロバスト性を考慮した。 また,よりフレキシブルな状態雑音下での時間差~(td)学習のより厳密な収束条件と,影響関数の活用による感度解析を提供する。 最後に、ゲームスイートにおける広範な実験により、分布RLは、様々な状態観測ノイズにまたがる期待に基づくものと比較して、より優れたトレーニングロバスト性を持つことが示された。

In real scenarios, state observations that an agent observes may contain measurement errors or adversarial noises, misleading the agent to take suboptimal actions or even collapse while training. In this paper, we study the training robustness of distributional Reinforcement Learning~(RL), a class of state-of-the-art methods that estimate the whole distribution, as opposed to only the expectation, of the total return. Firstly, we propose State-Noisy Markov Decision Process~(SN-MDP) in the tabular case to incorporate both random and adversarial state observation noises, in which the contraction of both expectation-based and distributional Bellman operators is derived. Beyond SN-MDP with the function approximation, we theoretically characterize the bounded gradient norm of histogram-based distributional loss, accounting for the better training robustness of distribution RL. We also provide stricter convergence conditions of the Temporal-Difference~(TD) learning under more flexible state noises, as well as the sensitivity analysis by the leverage of influence function. Finally, extensive experiments on the suite of games show that distributional RL enjoys better training robustness compared with its expectation-based counterpart across various state observation noises.
翻訳日:2021-09-23 13:27:58 公開日:2021-09-17
# (参考訳) 信頼度推定のための容量抵抗モデルとリカレントニューラルネットワーク : 比較検討

Capacitance Resistance Model and Recurrent Neural Network for Well Connectivity Estimation : A Comparison Study ( http://arxiv.org/abs/2109.08779v1 )

ライセンス: CC BY 4.0
Deepthi Sen(参考訳) 本報告では,水浸し状態下での良好な生産を予測するためのデータ駆動モデルとして,容量抵抗モデル(crm)とリカレントニューラルネットワーク(rnn)を比較した。 どちらのモデルも完全にデータ駆動であり、歴史的データから洪水時の貯水池の挙動を学ぶことを意図している。 このレポートは、関連するGitHubリポジトリから入手可能なCRMモデルのpythonベースの実装の技術的ガイドとなる。

In this report, two commonly used data-driven models for predicting well production under a waterflood setting: the capacitance resistance model (CRM) and recurrent neural networks (RNN) are compared. Both models are completely data-driven and are intended to learn the reservoir behavior during a water flood from historical data. This report serves as a technical guide to the python-based implementation of the CRM model available from the associated GitHub repository.
翻訳日:2021-09-23 13:03:48 公開日:2021-09-17
# (参考訳) 深層学習に基づく都市鉄道路線におけるストップスキッピング戦略の最適化手法

A Deep-Learning Based Optimization Approach to Address Stop-Skipping Strategy in Urban Rail Transit Lines ( http://arxiv.org/abs/2109.08786v1 )

ライセンス: CC BY-SA 4.0
Mohammadjavad Javadinasr, Amir Bahador Parsa, and Abolfazl (Kouros) Mohammadian(参考訳) 駅の旅客需要率の違いは、需要対応サービスを提供するための運用戦略を採用することの重要性を強調している。 本研究は, 乗客の移動時間を改善することを目的として, 都市鉄道路線における最適なストップスキップパターンを決定するためのデータ駆動最適化手法を提案する。 まず,1ヶ月間の時系列スマートカードデータを用いて,長時間短期記憶(lstm)深層学習モデルを用いて,ピーク時の局レベルの需要率を予測した。 この予測は、前回の4時間に基づいており、特にピーク時の真の需要率が、ピーク時の動作終了後にのみ取得可能な後部情報であることを知ることが重要である。 さらに、固定需要率を仮定する代わりにリアルタイム予測を利用することで、その後の分析に有害な予期せぬリアルタイム変化を考慮できる。 そして、最適化モデルへの入力としてLSTMモデルの出力を、パトロンの総走行時間を最小化する目的で統合する。 本稿では,この問題の指数関数的性質を考慮し,好適な時間内に解く ant コロニー最適化手法を提案する。 最後に,提案モデルと解法アルゴリズムの性能を実ケースデータを用いて評価する。 提案手法は,車内時間と待ち時間の両方を改善することにより,サービスの性能を向上させることができることが示唆された。

Different passenger demand rates in transit stations underscore the importance of adopting operational strategies to provide a demand-responsive service. Aiming at improving passengers' travel time, the present study introduces an advanced data-driven optimization approach to determine the optimal stop-skip pattern in urban rail transit lines. In detail, first, using the time-series smart card data for an entire month, we employ a Long Short-Term Memory (LSTM) deep learning model to predict the station-level demand rates for the peak hour. This prediction is based on four preceding hours and is especially important knowing that the true demand rates of the peak hour are posterior information that can be obtained only after the peak hour operation is finished. Moreover, utilizing a real-time prediction instead of assuming fixed demand rates, allows us to account for unexpected real-time changes which can be detrimental to the subsequent analyses. Then, we integrate the output of the LSTM model as an input to an optimization model with the objective of minimizing patrons' total travel time. Considering the exponential nature of the problem, we propose an Ant Colony Optimization technique to solve the problem in a desirable amount of time. Finally, the performance of the proposed models and the solution algorithm is assessed using real case data. The results suggest that the proposed approach can enhance the performance of the service by improving both passengers' in-vehicle time as well as passengers' waiting time.
翻訳日:2021-09-23 12:58:19 公開日:2021-09-17
# 大規模多言語機械翻訳のためのバックトランスレーション

Back-translation for Large-Scale Multilingual Machine Translation ( http://arxiv.org/abs/2109.08712v1 )

ライセンス: Link先を確認
Baohao Liao, Shahram Khadivi, Sanjika Hewavitharana(参考訳) 本稿では,機械翻訳に関する第6回会議(WMT-21)において,大規模多言語機械翻訳における共有タスクへのアプローチについて述べる。 本研究の目的は、普遍的な言語間表現が、より優れた多言語翻訳性能をもたらすという仮説に基づく、単一の多言語翻訳システムの構築である。 バイリンガル翻訳から多言語翻訳まで,様々なバックトランスレーション手法の探索を展開する。 バイリンガル翻訳の検索と異なる制約付きサンプリング法により、より優れた性能が得られる。 また,語彙の影響や合成データの量についても検討する。 意外なことに、語彙のサイズが小さいほどパフォーマンスが良く、英語の広範にわたるデータは、ささやかな改善をもたらす。 私たちは両方の小さなタスクを提出し、2位を達成しました。

This paper illustrates our approach to the shared task on large-scale multilingual machine translation in the sixth conference on machine translation (WMT-21). This work aims to build a single multilingual translation system with a hypothesis that a universal cross-language representation leads to better multilingual translation performance. We extend the exploration of different back-translation methods from bilingual translation to multilingual translation. Better performance is obtained by the constrained sampling method, which is different from the finding of the bilingual translation. Besides, we also explore the effect of vocabularies and the amount of synthetic data. Surprisingly, the smaller size of vocabularies perform better, and the extensive monolingual English data offers a modest improvement. We submitted to both the small tasks and achieved the second place.
翻訳日:2021-09-21 17:00:28 公開日:2021-09-17
# Altruistic Harris Hawks 最適化アルゴリズムを用いた脳MRIの分割

Segmentation of Brain MRI using an Altruistic Harris Hawks' Optimization algorithm ( http://arxiv.org/abs/2109.08688v1 )

ライセンス: Link先を確認
Rajarshi Bandyopadhyay, Rohit Kundu, Diego Oliva, Ram Sarkar(参考訳) デジタル画像が病気の診断、特に後部タスクで分析や疾患の特定に使用される場合、セグメンテーションは医学において必須の要件である。 脳磁気共鳴画像(MRI)の高効率なセグメンテーションは、照射不良や画像の脱取得に関連する他の条件により、放射線技師にとって大きな関心事である。 しきい値付けは、画像のヒストグラムを使用して異なる均質な画素のグループを異なるクラスに分類する一般的なセグメンテーションの方法である。 しかし、計算コストは閾値の数に応じて指数関数的に増加する。 本稿では,進化的メタヒューリスティックを用いてマルチレベルしきい値処理を行う。 これは、カオス的初期化と利他主義の概念を組み合わせたハリス・ホークス最適化(hho)アルゴリズムの改良版である。 さらに、適合度割当には、クロスエントロピー最小化とともに、新しいエントロピー関数を適用し、2つの目的関数に重みを利用するハイブリッド目的関数を用いて、新しいハイブリッドアプローチを形成する。 HHOは元々、数値最適化問題を解くために設計された。 以前、統計結果と比較により、HHOは確立されたメタヒューリスティック技術と比較して非常に有望な結果をもたらすことが示された。 本稿では、この利他主義をHHOアルゴリズムに組み込んで、その活用能力を高める。 本稿では,ハーバード大学医学部wbaデータベースのベンチマーク画像10枚と,brainwebデータセットのベンチマーク画像8枚について,標準評価指標を用いて評価を行った。

Segmentation is an essential requirement in medicine when digital images are used in illness diagnosis, especially, in posterior tasks as analysis and disease identification. An efficient segmentation of brain Magnetic Resonance Images (MRIs) is of prime concern to radiologists due to their poor illumination and other conditions related to de acquisition of the images. Thresholding is a popular method for segmentation that uses the histogram of an image to label different homogeneous groups of pixels into different classes. However, the computational cost increases exponentially according to the number of thresholds. In this paper, we perform the multi-level thresholding using an evolutionary metaheuristic. It is an improved version of the Harris Hawks Optimization (HHO) algorithm that combines the chaotic initialization and the concept of altruism. Further, for fitness assignment, we use a hybrid objective function where along with the cross-entropy minimization, we apply a new entropy function, and leverage weights to the two objective functions to form a new hybrid approach. The HHO was originally designed to solve numerical optimization problems. Earlier, the statistical results and comparisons have demonstrated that the HHO provides very promising results compared with well-established metaheuristic techniques. In this article, the altruism has been incorporated into the HHO algorithm to enhance its exploitation capabilities. We evaluate the proposed method over 10 benchmark images from the WBA database of the Harvard Medical School and 8 benchmark images from the Brainweb dataset using some standard evaluation metrics.
翻訳日:2021-09-21 16:58:37 公開日:2021-09-17
# ニューラルテキストの劣化と露光バイアスの関係

Relating Neural Text Degeneration to Exposure Bias ( http://arxiv.org/abs/2109.08705v1 )

ライセンス: Link先を確認
Ting-Rui Chiang, Yun-Nung Chen(参考訳) この研究は、ニューラルネットワークによるテキスト生成における2つのミステリー(露出バイアスとテキスト変性)の関連に焦点を当てている。 露出バイアスが言及されてから長い時間が経ち、その治療に関する多くの研究が、我々の知識に対して、テキスト生成への影響はまだ検証されていない。 テキスト・デジェネレーションは、広く使われている事前訓練言語モデル GPT-2 が最近、Holtzman et al., 2020) に悩まされている問題である。 テキスト変性の未知の因果関係に動機づけられ,本稿ではこれら2つの謎を関連付ける。 具体的には,テキストの劣化が起こる前に犯した誤りを定量的に定量化する。 そして, GPT-2における隠れ状態の検査により, 誤りの意義について検討した。 以上の結果から,テキストの劣化は露出バイアスによるものである可能性が示唆された。 また,テキスト・デジェネレーションの自己強化機構について考察し,誤りが増幅する理由を説明する。 本研究は,露光バイアスとテキスト変性問題のさらなる調査のためのより具体的な基礎を提供する。

This work focuses on relating two mysteries in neural-based text generation: exposure bias, and text degeneration. Despite the long time since exposure bias was mentioned and the numerous studies for its remedy, to our knowledge, its impact on text generation has not yet been verified. Text degeneration is a problem that the widely-used pre-trained language model GPT-2 was recently found to suffer from (Holtzman et al., 2020). Motivated by the unknown causation of the text degeneration, in this paper we attempt to relate these two mysteries. Specifically, we first qualitatively quantitatively identify mistakes made before text degeneration occurs. Then we investigate the significance of the mistakes by inspecting the hidden states in GPT-2. Our results show that text degeneration is likely to be partly caused by exposure bias. We also study the self-reinforcing mechanism of text degeneration, explaining why the mistakes amplify. In sum, our study provides a more concrete foundation for further investigation on exposure bias and text degeneration problems.
翻訳日:2021-09-21 16:54:23 公開日:2021-09-17
# ANDおよびOR演算子に対するTsetlinマシンの収束性について

On the Convergence of Tsetlin Machines for the AND and the OR Operators ( http://arxiv.org/abs/2109.09488v1 )

ライセンス: Link先を確認
Lei Jiao, Xuan Zhang, Ole-Christoffer Granmo(参考訳) Tsetlin Machine (TM) は命題論理に基づく新しい機械学習アルゴリズムであり、いくつかのパターン認識問題に対して最先端の性能を得た。 これまでの研究では, 1ビット演算とXOR演算に対するTMの収束特性を解析した。 本稿では,基本デジタル操作の解析を完了させるため,入力トレーニングサンプルがそれぞれANDおよびOR演算子に従う場合の収束度を解析する。 解析の結果、TMは、無限時間水平線上のトレーニングデータから学習した AND および OR 演算子にほぼ確実に収束できることが判明した。 および/または演算子の解析は、以前に解析された1ビットおよびxor演算とともに、ブール代数における基本作用素の収束解析を完結させる。

The Tsetlin Machine (TM) is a novel machine-learning algorithm based on propositional logic, which has obtained state-of-the-art performance on several pattern recognition problems. In previous studies, the convergence properties of TM for 1-bit operation and XOR operation have been analyzed. To make the analyses for the basic digital operations complete, in this article, we analyze the convergence when input training samples follow AND and OR operators respectively. Our analyses reveal that the TM can converge almost surely to reproduce AND and OR operators, which are learnt from training data over an infinite time horizon. The analyses on AND and OR operators, together with the previously analysed 1-bit and XOR operations, complete the convergence analyses on basic operators in Boolean algebra.
翻訳日:2021-09-21 16:52:24 公開日:2021-09-17
# DeepPhysics: リアルタイムシミュレーションのための物理を意識したディープラーニングフレームワーク

DeepPhysics: a physics aware deep learning framework for real-time simulation ( http://arxiv.org/abs/2109.09491v1 )

ライセンス: Link先を確認
Alban Odot (MIMESIS), Ryadh Haferssas (MIMESIS), St\'ephane Cotin (MIMESIS)(参考訳) コンピュータ誘導手術から機械工学におけるインタラクティブデザインに至るまで、弾性構造のリアルタイムシミュレーションは多くの応用において不可欠である。 有限要素法はしばしば、これらの問題に関連する偏微分方程式を解くための参照法として用いられる。 しかし、近年、深層学習法は物理学に基づく問題1,2,3を解決するための代替戦略を表現できることが示されている。 本稿では,境界条件と結果の変位場との間の非線形関係をニューラルネットワークで学習する,データ駆動型手法を用いて超弾性材料をシミュレートする手法を提案する。 また,ソリューションの妥当性を保証する手法を提案する。 本稿では、モーダル解析に基づく最適化されたデータセット生成アルゴリズム、物理インフォームド損失関数、ハイブリッドニュートン・ラフソンアルゴリズムの3つの貢献点について述べる。 この方法はカンチレバービームとプロペラの2つのベンチマークに適用される。 その結果, 限られたデータ量でトレーニングしたネットワークアーキテクチャは, 1ミリ秒未満で変位場を予測できることがわかった。 様々なジオメトリ、トポロジー、メッシュ分解能、境界条件の予測は、数センチの振幅の非線形変形に対して数マイクロメートルに正確である。

Real-time simulation of elastic structures is essential in many applications, from computer-guided surgical interventions to interactive design in mechanical engineering. The Finite Element Method is often used as the numerical method of reference for solving the partial differential equations associated with these problems. Yet, deep learning methods have recently shown that they could represent an alternative strategy to solve physics-based problems 1,2,3. In this paper, we propose a solution to simulate hyper-elastic materials using a data-driven approach, where a neural network is trained to learn the non-linear relationship between boundary conditions and the resulting displacement field. We also introduce a method to guarantee the validity of the solution. In total, we present three contributions: an optimized data set generation algorithm based on modal analysis, a physics-informed loss function, and a Hybrid Newton-Raphson algorithm. The method is applied to two benchmarks: a cantilever beam and a propeller. The results show that our network architecture trained with a limited amount of data can predict the displacement field in less than a millisecond. The predictions on various geometries, topologies, mesh resolutions, and boundary conditions are accurate to a few micrometers for non-linear deformations of several centimeters of amplitude.
翻訳日:2021-09-21 16:52:12 公開日:2021-09-17
# 医用画像解析における自己教師あり学習法と応用:調査

Self-supervised learning methods and applications in medical imaging analysis: A survey ( http://arxiv.org/abs/2109.08685v1 )

ライセンス: Link先を確認
Saeed Shurrab, Rehab Duwiari(参考訳) 高品質な注釈付医用画像データセットが利用できることは、医療画像解析の分野で機械学習アプリケーションと衝突し、その進歩を妨げる主要な問題である。 自己指導型学習は、人間のアノテーションを必要とせず、堅牢な表現を学習できる最近の訓練パラダイムであり、注釈付き医療データの不足に対する効果的な解決策とみなすことができる。 本稿では、医用画像解析分野における画像データへの自己教師付き学習アプローチの最先端研究の方向性について概説する。 本稿では,コンピュータビジョン分野からの最新の自己教師型学習手法の集合を医療画像解析に適用し,それらを予測的,生成的,コントラスト的アプローチとして分類する。 さらに, 医学画像解析における自己教師あり学習の分野における最近の研究の40点を取り上げ, この分野の最近のイノベーションに光を当てることを目的としている。 最終的に、この記事はこの分野における将来の研究の方向性で締めくくられる。

The availability of high quality annotated medical imaging datasets is a major problem that collides with machine learning applications in the field of medical imaging analysis and impedes its advancement. Self-supervised learning is a recent training paradigm that enables learning robust representations without the need for human annotation which can be considered as an effective solution for the scarcity in annotated medical data. This article reviews the state-of-the-art research directions in self-supervised learning approaches for image data with concentration on their applications in the field of medical imaging analysis. The article covers a set of the most recent self-supervised learning methods from the computer vision field as they are applicable to the medical imaging analysis and categorize them as predictive, generative and contrastive approaches. Moreover, the article covers (40) of the most recent researches in the field of self-supervised learning in medical imaging analysis aiming at shedding the light on the recent innovation in the field. Ultimately, the article concludes with possible future research directions in the field.
翻訳日:2021-09-21 16:41:54 公開日:2021-09-17
# 転移性リンパ節癌に対する原発性腫瘍および臓器間増生療法

Primary Tumor and Inter-Organ Augmentations for Supervised Lymph Node Colon Adenocarcinoma Metastasis Detection ( http://arxiv.org/abs/2109.09518v1 )

ライセンス: Link先を確認
Apostolia Tsirikoglou, Karin Stacke, Gabriel Eilertsen, Jonas Unger(参考訳) ラベル付きデータの不足は、病理学応用のための正確で堅牢なディープラーニングベースのモデルを開発する上で、大きなボトルネックとなる。 この問題はリンパ節転移の検出において特に顕著であり、腫瘍と非腫瘍の比率が低かったため、病理組織に手間と時間を要する注釈処理がもたらされた。 本研究は,対象領域の限定的あるいは全く表現されていない場合の大腸癌転移検出のためのトレーニングデータの拡張方法について検討する。 トレーニングデータの可用性を限定したクロスバリアント実験を徹底的に検討し,他の組織ですでに利用可能なデータを利用したorgan間アプローチと,原発腫瘍を用いたorgan内アプローチの両方を評価した。 どちらのアプローチも、追加のアノテーションの努力をほとんど、あるいは全く行わない。 以上より,これらのデータ拡張戦略は,転移検出の正確性を高める効果的な方法であるが,最も堅牢性が向上する可能性が示唆された。

The scarcity of labeled data is a major bottleneck for developing accurate and robust deep learning-based models for histopathology applications. The problem is notably prominent for the task of metastasis detection in lymph nodes, due to the tissue's low tumor-to-non-tumor ratio, resulting in labor- and time-intensive annotation processes for the pathologists. This work explores alternatives on how to augment the training data for colon carcinoma metastasis detection when there is limited or no representation of the target domain. Through an exhaustive study of cross-validated experiments with limited training data availability, we evaluate both an inter-organ approach utilizing already available data for other tissues, and an intra-organ approach, utilizing the primary tumor. Both these approaches result in little to no extra annotation effort. Our results show that these data augmentation strategies can be an efficient way of increasing accuracy on metastasis detection, but fore-most increase robustness.
翻訳日:2021-09-21 16:40:27 公開日:2021-09-17
# WMT21品質評価共有タスクのJHU-Microsoft提出

The JHU-Microsoft Submission for WMT21 Quality Estimation Shared Task ( http://arxiv.org/abs/2109.08724v1 )

ライセンス: Link先を確認
Shuoyang Ding, Marcin Junczys-Dowmunt, Matt Post, Christian Federmann, Philipp Koehn(参考訳) 本稿では,WMT 2021の品質評価共有タスクに対するJHU-Microsoft共同提案を提案する。 我々は,目標側の単語レベルの品質評価に着目し,共有タスクのタスク2(後編集作業推定)にのみ参加する。 私たちが試したテクニックは、前方、後方、ラウンドトリップ翻訳、MT出力の擬似後編集を組み合わせたLevenshtein Transformerトレーニングとデータ拡張です。 我々は,広く採用されているOpenKiwi-XLMベースラインと比較して,システムの競争力を示す。 また,本システムは,英語とドイツ語のペアのMT MCC測定値の上位システムでもある。

This paper presents the JHU-Microsoft joint submission for WMT 2021 quality estimation shared task. We only participate in Task 2 (post-editing effort estimation) of the shared task, focusing on the target-side word-level quality estimation. The techniques we experimented with include Levenshtein Transformer training and data augmentation with a combination of forward, backward, round-trip translation, and pseudo post-editing of the MT output. We demonstrate the competitiveness of our system compared to the widely adopted OpenKiwi-XLM baseline. Our system is also the top-ranking system on the MT MCC metric for the English-German language pair.
翻訳日:2021-09-21 16:40:13 公開日:2021-09-17
# JESP内有限状態制御器を用いた無限水平デコポドップの解法

Solving infinite-horizon Dec-POMDPs using Finite State Controllers within JESP ( http://arxiv.org/abs/2109.08755v1 )

ライセンス: Link先を確認
Yang You, Vincent Thomas, Francis Colas and Olivier Buffet(参考訳) 本稿では,分散POMDP(Dec-POMDPs)として形式化された協調計画問題の解決をナッシュ均衡(Nash equilibria,すなわち,各エージェントの方針が他エージェントの(固定された)ポリシーに対する最良の対応である状況)を探索することによって検討する。 JESP(Joint Equilibrium-based Search for Policies)アルゴリズムは、ポリシーツリーに依存する有限水平設定でこれを行うが、有限状態コントローラ(FSC)ポリシー表現を用いて無限水平DEC-POMDPに適応することを提案する。 本稿では,(1)$N-1$固定FSCのDec-POMDPを,ソリューションが$N^\text{th}$エージェントベスト応答である無限水平POMDPに変換する方法,(2)無限水平Dc-POMDPの解法として \infJESP と呼ばれる JESP 変種を提案すること,(3) 優れた解を目指す JESP のヒューリスティック初期化を導入すること,(4) アプローチを評価するための最先端ベンチマーク問題の実験を行うこと,について説明する。

This paper looks at solving collaborative planning problems formalized as Decentralized POMDPs (Dec-POMDPs) by searching for Nash equilibria, i.e., situations where each agent's policy is a best response to the other agents' (fixed) policies. While the Joint Equilibrium-based Search for Policies (JESP) algorithm does this in the finite-horizon setting relying on policy trees, we propose here to adapt it to infinite-horizon Dec-POMDPs by using finite state controller (FSC) policy representations. In this article, we (1) explain how to turn a Dec-POMDP with $N-1$ fixed FSCs into an infinite-horizon POMDP whose solution is an $N^\text{th}$ agent best response; (2) propose a JESP variant, called \infJESP, using this to solve infinite-horizon Dec-POMDPs; (3) introduce heuristic initializations for JESP aiming at leading to good solutions; and (4) conduct experiments on state-of-the-art benchmark problems to evaluate our approach.
翻訳日:2021-09-21 16:35:11 公開日:2021-09-17
# 混合照明シーンのホワイトバランス補正

Auto White-Balance Correction for Mixed-Illuminant Scenes ( http://arxiv.org/abs/2109.08750v1 )

ライセンス: Link先を確認
Mahmoud Afifi, Marcus A. Brubaker, Michael S. Brown(参考訳) 撮影時にカメラハードウェアによりオートホワイトバランス(awb)を適用し、シーン照明によるカラーキャストを除去する。 ホワイトバランスアルゴリズムの大多数は1つの光源がシーンを照らすと仮定しているが、実際のシーンはしばしば混合照明条件を持つ。 本稿では,この混合照明シーンに有効なAWB手法を提案する。 従来のAWBとは一線を画しているため,従来のカメラAWBモジュールと同様,発光量の推定は不要である。 そこで本手法では,撮影シーンを予め定義したホワイトバランス設定の小さなセットでレンダリングする。 この画像の集合を考慮に入れ,最終的な補正画像を生成するためにレンダリング画像のブレンドに使用される重み付けマップを推定する。 提案手法は,単一および混合照明シーン色補正の代替品と比較して有望な結果が得られることを示す。 ソースコードとトレーニングされたモデルは、https://github.com/mahmoudnafifi/mixedillwbで利用可能です。

Auto white balance (AWB) is applied by camera hardware at capture time to remove the color cast caused by the scene illumination. The vast majority of white-balance algorithms assume a single light source illuminates the scene; however, real scenes often have mixed lighting conditions. This paper presents an effective AWB method to deal with such mixed-illuminant scenes. A unique departure from conventional AWB, our method does not require illuminant estimation, as is the case in traditional camera AWB modules. Instead, our method proposes to render the captured scene with a small set of predefined white-balance settings. Given this set of rendered images, our method learns to estimate weighting maps that are used to blend the rendered images to generate the final corrected image. Through extensive experiments, we show this proposed method produces promising results compared to other alternatives for single- and mixed-illuminant scene color correction. Our source code and trained models are available at https://github.com/mahmoudnafifi/mixedillWB.
翻訳日:2021-09-21 16:32:55 公開日:2021-09-17
# WiSoSuper:風と太陽データの超解法ベンチマーク

WiSoSuper: Benchmarking Super-Resolution Methods on Wind and Solar Data ( http://arxiv.org/abs/2109.08770v1 )

ライセンス: Link先を確認
Rupa Kurinchi-Vendhan, Bj\"orn L\"utjens, Ritwik Gupta, Lucien Werner, Dava Newman, Steven Low(参考訳) グリーンエネルギーグリッドへの移行は、再生可能エネルギー発電の配置とスケジューリングを最適化するために、詳細な風と太陽予報に依存する。 しかし, 数値天気予報モデルによる運用予測は空間分解能が10~20kmに限られており, 再生可能エネルギーファームの最適利用と開発につながる。 気象科学者は、解像度を高めるために超解像法を開発してきたが、しばしば単純な補間法や計算コストの高い微分方程式に基づくモデルに依存する。 近年、機械学習に基づくモデル、特に物理インフォームド分解能向上生成対向ネットワーク(PhIREGAN)は、従来のダウンスケーリング手法よりも優れている。 我々は、風と太陽のデータに基づいて、ESRGAN(Super- resolution generative adversarial Network)とEDSR(Deep Super- resolution)ネットワークの強化を含む、先進的なディープラーニングベースの超解法を徹底的かつ拡張可能なベンチマークを提供する。 我々は、風と太陽のデータに対する超解像法をベンチマークするための、新しいパブリック、プロセッシング、機械学習対応データセットでベンチマークに付随する。

The transition to green energy grids depends on detailed wind and solar forecasts to optimize the siting and scheduling of renewable energy generation. Operational forecasts from numerical weather prediction models, however, only have a spatial resolution of 10 to 20-km, which leads to sub-optimal usage and development of renewable energy farms. Weather scientists have been developing super-resolution methods to increase the resolution, but often rely on simple interpolation techniques or computationally expensive differential equation-based models. Recently, machine learning-based models, specifically the physics-informed resolution-enhancing generative adversarial network (PhIREGAN), have outperformed traditional downscaling methods. We provide a thorough and extensible benchmark of leading deep learning-based super-resolution techniques, including the enhanced super-resolution generative adversarial network (ESRGAN) and an enhanced deep super-resolution (EDSR) network, on wind and solar data. We accompany the benchmark with a novel public, processed, and machine learning-ready dataset for benchmarking super-resolution methods on wind and solar data.
翻訳日:2021-09-21 16:32:38 公開日:2021-09-17
# オブジェクトナビゲーションタスクのためのランドマークポリシー最適化

Landmark Policy Optimization for Object Navigation Task ( http://arxiv.org/abs/2109.09512v1 )

ライセンス: Link先を確認
Aleksey Staroverov, Aleksandr I. Panov(参考訳) 本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクを研究する。 最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。 本稿では,標準的なタスク定式化と追加領域知識をランドマークとして取り入れ,これらのランドマークを抽出する階層的手法を提案する。 階層構造では、低レベルは個別に訓練されたアルゴリズムから最も直感的なスキルで構成され、高レベルはどのスキルが必要かを決定する。 提案手法すべてを用いて,実環境シミュレータを用いて0.75成功率を達成した。 シミュレータで再構成された仮想空間でのモデルトレーニングを小さな段階で行った結果,実世界での結果が確認できた。

This work studies object goal navigation task, which involves navigating to the closest object related to the given semantic category in unseen environments. Recent works have shown significant achievements both in the end-to-end Reinforcement Learning approach and modular systems, but need a big step forward to be robust and optimal. We propose a hierarchical method that incorporates standard task formulation and additional area knowledge as landmarks, with a way to extract these landmarks. In a hierarchy, a low level consists of separately trained algorithms to the most intuitive skills, and a high level decides which skill is needed at this moment. With all proposed solutions, we achieve a 0.75 success rate in a realistic Habitat simulator. After a small stage of additional model training in a reconstructed virtual area at a simulator, we successfully confirmed our results in a real-world case.
翻訳日:2021-09-21 16:15:04 公開日:2021-09-17
# オンデバイスニューラル音声合成

On-device neural speech synthesis ( http://arxiv.org/abs/2109.08710v1 )

ライセンス: Link先を確認
Sivanand Achanta, Albert Antony, Ladan Golipour, Jiangchuan Li, Tuomo Raitio, Ramya Rasipuram, Francesco Rossi, Jennifer Shi, Jaimin Upadhyay, David Winarsky, Hepeng Zhang(参考訳) TacotronやWaveRNNのようなテキスト音声合成(TTS)の最近の進歩により、2つのコンポーネントを結合して完全なニューラルネットワークベースのTSシステムを構築することが可能になった。 このようなシステムは、グラファイムや音素入力のみを取り、Mel-spectrogramを中間機能として使用し、直接音声サンプルを生成するため、概念的には単純である。 このシステムは、自然言語に近い品質を達成する。 しかし、システムの高い計算コストと堅牢性の問題により、実世界の音声合成アプリケーションや製品での使用は制限されている。 本稿では,GPUサーバだけでなく,モバイルデバイス上でもこれらのモデルをデプロイ可能な,重要なモデリング改善と最適化戦略を提案する。 提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで高品質な24kHz音声を生成することができる。

Recent advances in text-to-speech (TTS) synthesis, such as Tacotron and WaveRNN, have made it possible to construct a fully neural network based TTS system, by coupling the two components together. Such a system is conceptually simple as it only takes grapheme or phoneme input, uses Mel-spectrogram as an intermediate feature, and directly generates speech samples. The system achieves quality equal or close to natural speech. However, the high computational cost of the system and issues with robustness have limited their usage in real-world speech synthesis applications and products. In this paper, we present key modeling improvements and optimization strategies that enable deploying these models, not only on GPU servers, but also on mobile devices. The proposed system can generate high-quality 24 kHz speech at 5x faster than real time on server and 3x faster than real time on mobile devices.
翻訳日:2021-09-21 16:13:19 公開日:2021-09-17
# 光通信におけるニューラルネットワーク等化器の計算複雑性に関する実験的検討

Experimental Evaluation of Computational Complexity for Different Neural Network Equalizers in Optical Communications ( http://arxiv.org/abs/2109.08711v1 )

ライセンス: Link先を確認
Pedro J. Freire, Yevhenii Osadchuk, Antonio Napoli, Bernhard Spinnler, Wolfgang Schairer, Nelson Costa, Jaroslaw E. Prilepsky, Sergei K. Turitsyn(参考訳) ニューラルネットワークベースの光チャネル等化器に対処し、TWCとSSMFのセットアップ結果を示すニューラルネットワークアーキテクチャの比較分析を行うことにより、その性能と複雑さのトレードオフを定量化する。

Addressing the neural network-based optical channel equalizers, we quantify the trade-off between their performance and complexity by carrying out the comparative analysis of several neural network architectures, presenting the results for TWC and SSMF set-ups.
翻訳日:2021-09-21 16:07:28 公開日:2021-09-17
# 近距離音声認識と遠距離音声認識のためのエンコーダ選択を伴うデュアルエンコーダアーキテクチャ

Dual-Encoder Architecture with Encoder Selection for Joint Close-Talk and Far-Talk Speech Recognition ( http://arxiv.org/abs/2109.08744v1 )

ライセンス: Link先を確認
Felix Weninger, Marco Gaudesi, Ralf Leibold, Roberto Gemello, Puming Zhan(参考訳) 本稿では,より高精度なCTとFTの利点を両立させるために,近い話(CT)と遠話(FT)の連成モデリングのためのデュアルエンコーダASRアーキテクチャを提案する。 鍵となるアイデアは、最適な入力源(CTまたはFT)と対応するエンコーダを選択するエンコーダ選択ネットワークを追加することである。 我々は,CT音声に単一チャネルエンコーダ,FT音声に空間フィルタリングニューラルビームフォーミングを付加したマルチチャネルエンコーダを用い,エンコーダの選択と共同で訓練を行った。 我々は、アテンションベースおよびRNNトランスデューサのエンドツーエンドASRシステムに対するアプローチを検証する。 実験は医療現場の会話音声を用いて行われ、CT装置とマイクアレイと同時に記録される。 その結果,提案するデュアルエンコーダアーキテクチャは,ct と ft の両方の入力を用いた場合,最大 9% の相対 wer 削減が得られることがわかった。

In this paper, we propose a dual-encoder ASR architecture for joint modeling of close-talk (CT) and far-talk (FT) speech, in order to combine the advantages of CT and FT devices for better accuracy. The key idea is to add an encoder selection network to choose the optimal input source (CT or FT) and the corresponding encoder. We use a single-channel encoder for CT speech and a multi-channel encoder with Spatial Filtering neural beamforming for FT speech, which are jointly trained with the encoder selection. We validate our approach on both attention-based and RNN Transducer end-to-end ASR systems. The experiments are done with conversational speech from a medical use case, which is recorded simultaneously with a CT device and a microphone array. Our results show that the proposed dual-encoder architecture obtains up to 9% relative WER reduction when using both CT and FT input, compared to the best single-encoder system trained and tested in matched condition.
翻訳日:2021-09-21 16:07:22 公開日:2021-09-17
# ewashによるソースコードファイルの長距離モデリング:構文階層による拡張ウィンドウアクセス

Long-Range Modeling of Source Code Files with eWASH: Extended Window Access by Syntax Hierarchy ( http://arxiv.org/abs/2109.08780v1 )

ライセンス: Link先を確認
Colin B. Clement, Shuai Lu, Xiaoyu Liu, Michele Tufano, Dawn Drain, Nan Duan, Neel Sundaresan, Alexey Svyatkovskiy(参考訳) 統計的言語モデリングとトランスフォーマによる翻訳は、プログラムの理解と生成タスクで多くのアプリケーションが成功し、現代のソフトウェア開発環境でツールのハイベンチマークを設定している。 しかし、これらのニューラルモデルの有限コンテキストウィンドウは、特定のタスクに対して、大きなファイルやパッケージの関連するコンテキスト全体を活用できないことを意味する。 コンテキストウィンドウの拡張には多くの取り組みがあるが、ソースコードの構文階層を利用してファイルレベルのコンテキスト全体を固定長ウィンドウに組み込むアーキテクチャに依存しないアプローチを導入する。 各ソースファイルの具体的な構文木を使用して構文階層を抽出し、指定されたタスクのスコープをより具体的に、より重要でないビューから選択的に削除することで、それらをコンテキストウィンドウに統合します。 我々は,Python言語におけるコード生成タスクと自然言語とソースコードの合同翻訳について評価し,CodeXGLUEベンチマークでPythonのコード補完と要約を新たに実現した。 正規化リテラルによるコード補完,ファイルレベルのコンテキストで条件付けられたメソッドボディ補完/コード要約といった,ユーザエクスペリエンスによるタスクのための新しいcodexglueベンチマークも導入した。

Statistical language modeling and translation with transformers have found many successful applications in program understanding and generation tasks, setting high benchmarks for tools in modern software development environments. The finite context window of these neural models means, however, that they will be unable to leverage the entire relevant context of large files and packages for any given task. While there are many efforts to extend the context window, we introduce an architecture-independent approach for leveraging the syntactic hierarchies of source code for incorporating entire file-level context into a fixed-length window. Using concrete syntax trees of each source file we extract syntactic hierarchies and integrate them into context window by selectively removing from view more specific, less relevant scopes for a given task. We evaluate this approach on code generation tasks and joint translation of natural language and source code in Python programming language, achieving a new state-of-the-art in code completion and summarization for Python in the CodeXGLUE benchmark. We also introduce new CodeXGLUE benchmarks for user-experience-motivated tasks: code completion with normalized literals, method body completion/code summarization conditioned on file-level context.
翻訳日:2021-09-21 16:07:04 公開日:2021-09-17
# RBFニューラルネットワークを用いた定流量並列マイクロポンプの最適化

The Optimization of the Constant Flow Parallel Micropump Using RBF Neural Network ( http://arxiv.org/abs/2109.08717v1 )

ライセンス: Link先を確認
Chenyang Ma, Boyuan Xu(参考訳) 本研究の目的は, 並列ポンプ室を備え, 受動チェックバルブを組み込んだ定流並列機械変位マイクロポンプの性能を最適化することである。 重要な課題は、左ポンプと右ポンプが吸引と輸血の役割を交互に交わすときの往復運動中に一定の流量に負の影響を及ぼす逆流による圧力パルスを最小化することである。 従来は受動チェックバルブの機械設計でこの問題を解決しようとしていた。 本研究では,教師なし学習と教師なし学習の両方で訓練されたrbfニューラルネットワークを実装することで,制御理論の観点から新たなオーバーラップ時間の概念を提案する。 実験結果から, 圧力パルスは0.15MPaから0.25MPaの範囲で最適化され, 40MPaの最大ポンプ加工圧力と比較して大きな改善が認められた。

The objective of this work is to optimize the performance of a constant flow parallel mechanical displacement micropump, which has parallel pump chambers and incorporates passive check valves. The critical task is to minimize the pressure pulse caused by regurgitation, which negatively impacts the constant flow rate, during the reciprocating motion when the left and right pumps interchange their role of aspiration and transfusion. Previous works attempt to solve this issue via the mechanical design of passive check valves. In this work, the novel concept of overlap time is proposed, and the issue is solved from the aspect of control theory by implementing a RBF neural network trained by both unsupervised and supervised learning. The experimental results indicate that the pressure pulse is optimized in the range of 0.15 - 0.25 MPa, which is a significant improvement compared to the maximum pump working pressure of 40 MPa.
翻訳日:2021-09-21 16:00:46 公開日:2021-09-17
# 機械学習による公転惑星の居住域の解析

Analyzing the Habitable Zones of Circumbinary Planets Using Machine Learning ( http://arxiv.org/abs/2109.08735v1 )

ライセンス: Link先を確認
Zhihui Kong, Jonathan H. Jiang, Remo Burn, Kristen A. Fahy, Zonghong Zhu(参考訳) nasaのケプラー計画やtess計画などによって過去10年間の太陽系外惑星の検出では、連星系や多星系を公転する150以上の太陽系外惑星を含む、太陽系の惑星とは大きく異なる多くの世界が発見されている。 これは太陽系外惑星の多様性に対する我々の理解を広げるだけでなく、複雑な連星系における太陽系外惑星の研究を促進し、その居住可能性を探究する動機を与える。 本研究では,惑星軌道と動的にインフォームドされた居住可能領域に基づいて,周囲惑星の居住可能領域を調査した。 その結果、2連星の質量比と軌道偏心性が惑星系の軌道安定性と居住性に影響を与える重要な要因であることが示唆された。 さらに、惑星軌道と動的にインフォームドされた居住ゾーンは、惑星居住性を居住可能、部分居住可能、非居住の3つのカテゴリに分割する。 したがって、これらの惑星システムを迅速かつ効率的に分類するために、機械学習モデルを訓練する。

Exoplanet detection in the past decade by efforts including NASA's Kepler and TESS missions has discovered many worlds that differ substantially from planets in our own Solar System, including more than 150 exoplanets orbiting binary or multi-star systems. This not only broadens our understanding of the diversity of exoplanets, but also promotes our study of exoplanets in the complex binary systems and provides motivation to explore their habitability. In this study, we investigate the Habitable Zones of circumbinary planets based on planetary trajectory and dynamically informed habitable zones. Our results indicate that the mass ratio and orbital eccentricity of binary stars are important factors affecting the orbital stability and habitability of planetary systems. Moreover, planetary trajectory and dynamically informed habitable zones divide planetary habitability into three categories: habitable, part-habitable and uninhabitable. Therefore, we train a machine learning model to quickly and efficiently classify these planetary systems.
翻訳日:2021-09-21 16:00:31 公開日:2021-09-17
# 深層強化学習に基づく省エネルギー認知NOMA通信のための多次元資源管理

Deep Reinforcement Learning Based Multidimensional Resource Management for Energy Harvesting Cognitive NOMA Communications ( http://arxiv.org/abs/2109.09503v1 )

ライセンス: Link先を確認
Zhaoyuan Shi, Xianzhong Xie, Huabing Lu, Helin Yang, Jun Cai, and Zhiguo Ding(参考訳) エネルギー収穫(EH)、認知無線(CR)、非直交多重アクセス(NOMA)の組み合わせは、今後の第5世代ネットワーク(B5G)のエネルギー効率とスペクトル効率を改善するための有望なソリューションであり、特にIoT(Internet of Things)システムにおける無線センサ通信をサポートする。 しかし、より優れた性能を実現するために、インテリジェントな周波数、時間、エネルギー資源割り当てを実現する方法は、解決すべき重要な問題である。 本稿では,EH-CR-NOMA IoTシステムにおけるジョイントスペクトル,エネルギー,時間資源管理について検討する。 我々の目標は、プライマリユーザ(PU)とSSUの最大充電バッテリ容量、最大送電容量、最大バッファ容量、最小データレートの制約を満たすとともに、すべてのセカンダリセンサユーザ(SSU)のデータパケット損失の最小化である。 この最適化問題の非凸性と無線環境の確率的性質から,深部強化学習(DRL)に基づく分散多次元資源管理アルゴリズムを提案する。 管理対象資源の連続性を考慮すると、各エージェント(SSU)が協調せずに自身の多次元資源を管理することができるディープ決定性ポリシー勾配(DDPG)アルゴリズムを採用する。 さらに、訓練効率と電池性能の保護を改善するため、簡易だが実用的な動作調整器(AA)を導入している。 その結果,提案アルゴリズムの収束速度はDDPGの約4倍であり,パケット損失の平均値(ANPL)はgreedyアルゴリズムの約8倍であることがわかった。

The combination of energy harvesting (EH), cognitive radio (CR), and non-orthogonal multiple access (NOMA) is a promising solution to improve energy efficiency and spectral efficiency of the upcoming beyond fifth generation network (B5G), especially for support the wireless sensor communications in Internet of things (IoT) system. However, how to realize intelligent frequency, time, and energy resource allocation to support better performances is an important problem to be solved. In this paper, we study joint spectrum, energy, and time resource management for the EH-CR-NOMA IoT systems. Our goal is to minimize the number of data packets losses for all secondary sensing users (SSU), while satisfying the constraints on the maximum charging battery capacity, maximum transmitting power, maximum buffer capacity, and minimum data rate of primary users (PU) and SSUs. Due to the non-convexity of this optimization problem and the stochastic nature of the wireless environment, we propose a distributed multidimensional resource management algorithm based on deep reinforcement learning (DRL). Considering the continuity of the resources to be managed, the deep deterministic policy gradient (DDPG) algorithm is adopted, based on which each agent (SSU) can manage its own multidimensional resources without collaboration. In addition, a simplified but practical action adjuster (AA) is introduced for improving the training efficiency and battery performance protection. The provided results show that the convergence speed of the proposed algorithm is about 4 times faster than that of DDPG, and the average number of packet losses (ANPL) is about 8 times lower than that of the greedy algorithm.
翻訳日:2021-09-21 15:57:49 公開日:2021-09-17
# (参考訳) 感情自動認識と感情分析のための倫理表

Ethics Sheet for Automatic Emotion Recognition and Sentiment Analysis ( http://arxiv.org/abs/2109.08256v1 )

ライセンス: CC BY 4.0
Saif M. Mohammad(参考訳) 人生における感情の重要性と広汎性は、感情コンピューティングを非常に重要で活気ある仕事のラインにします。 自動感情認識システム(aer)と感情分析システムは、巨大な進歩の促進者(公衆衛生や商業の改善など)だけでなく、大きな危害(反体制派を抑圧し、有権者を操作するためのもの)にもなり得る。 したがって、情緒的コンピューティングコミュニティは、彼らの創造の倫理的影響に積極的に関与することが不可欠である。 本稿では,AI倫理・感情認識文学から情報を合成し,整理し,AERに関連する倫理的考察を50件提示する。 特に、シートは、AERが一般的にフレーム化されているか、データ、方法、評価に関してしばしば行われる選択に隠れた仮定を具体化する。 プライバシーや社会団体に対するAERの影響に特に注意が払われている。 シートの目的は、AERシステムを構築する前に、なぜ自動化するか、どのように自動化するか、どのようにして成功を判断するかについて、より配慮し、促進することである。 さらに、このシートは感情認識(補足調査記事)に関する有用な序文として機能する。

The importance and pervasiveness of emotions in our lives makes affective computing a tremendously important and vibrant line of work. Systems for automatic emotion recognition (AER) and sentiment analysis can be facilitators of enormous progress (e.g., in improving public health and commerce) but also enablers of great harm (e.g., for suppressing dissidents and manipulating voters). Thus, it is imperative that the affective computing community actively engage with the ethical ramifications of their creations. In this paper, I have synthesized and organized information from AI Ethics and Emotion Recognition literature to present fifty ethical considerations relevant to AER. Notably, the sheet fleshes out assumptions hidden in how AER is commonly framed, and in the choices often made regarding the data, method, and evaluation. Special attention is paid to the implications of AER on privacy and social groups. The objective of the sheet is to facilitate and encourage more thoughtfulness on why to automate, how to automate, and how to judge success well before the building of AER systems. Additionally, the sheet acts as a useful introductory document on emotion recognition (complementing survey articles).
翻訳日:2021-09-21 06:04:16 公開日:2021-09-17
# (参考訳) 散発的合理化による自己学習 : 複発NLUにおける教師説明

Self-training with Few-shot Rationalization: Teacher Explanations Aid Student in Few-shot NLU ( http://arxiv.org/abs/2109.08259v1 )

ライセンス: CC BY 4.0
Meghana Moorthy Bhat, Alessandro Sordoni, Subhabrata Mukherjee(参考訳) 事前学習された言語モデルは、いくつかの自然言語理解タスクで最先端のパフォーマンスを得たが、意思決定プロセスでは極めて不透明である。 最近の研究は、正当化や合理化としてテキストの健全な概念を強調することによって、神経予測を合理化することに重点を置いているが、それらはタスクラベルと各インスタンスの注釈付き合理化だけでなく、何千ものラベル付きトレーニング例に依存している。 このような大規模なアノテーションは、多くのタスクに対して取得できない。 そこで本研究では,タスク固有のラベルや合理性に制限のある自己学習型言語モデルと,有意義なサンプル選択に基づくマルチタスク教師学習フレームワークを開発した。 特に低リソース環境において, 有理化予測を意識させることにより, ニューラルモデルの性能を著しく向上させることができることを示す。 ベンチマークデータセットにおける広範囲な実験により,本手法の有効性が示された。

While pre-trained language models have obtained state-of-the-art performance for several natural language understanding tasks, they are quite opaque in terms of their decision-making process. While some recent works focus on rationalizing neural predictions by highlighting salient concepts in the text as justifications or rationales, they rely on thousands of labeled training examples for both task labels as well as an-notated rationales for every instance. Such extensive large-scale annotations are infeasible to obtain for many tasks. To this end, we develop a multi-task teacher-student framework based on self-training language models with limited task-specific labels and rationales, and judicious sample selection to learn from informative pseudo-labeled examples1. We study several characteristics of what constitutes a good rationale and demonstrate that the neural model performance can be significantly improved by making it aware of its rationalized predictions, particularly in low-resource settings. Extensive experiments in several bench-mark datasets demonstrate the effectiveness of our approach.
翻訳日:2021-09-21 06:03:12 公開日:2021-09-17
# (参考訳) CompilerGym: AI研究のためのロバストで高性能なコンパイラ最適化環境

CompilerGym: Robust, Performant Compiler Optimization Environments for AI Research ( http://arxiv.org/abs/2109.08267v1 )

ライセンス: CC BY 4.0
Chris Cummins, Bram Wasti, Jiadong Guo, Brandon Cui, Jason Ansel, Sahir Gomez, Somya Jain, Jia Liu, Olivier Teytaud, Benoit Steiner, Yuandong Tian, Hugh Leather(参考訳) コンパイラ最適化に人工知能(AI)技術を適用することへの関心は急速に高まっているが、コンパイラの研究には高い参入障壁がある。 他のドメインとは異なり、コンパイラやAI研究者は、迅速なイテレーションとアイデア開発を可能にするデータセットやフレームワークにアクセスできず、始めるにはかなりのエンジニアリング投資が必要になる。 必要なのは、実世界のコンパイラ最適化タスクのための、簡単で再利用可能な実験的なインフラストラクチャで、テクニックを比較するための共通のベンチマークとして機能し、この分野の進歩を加速するためのプラットフォームとして機能することです。 我々は,実世界のコンパイラ最適化タスクのための環境セットであるCompilerGymと,コンパイラ研究者に新しい最適化タスクを公開するツールキットを紹介する。 CompilerGymは、誰でも簡単に使えるパッケージを通じて、プロダクションコンパイラの最適化問題を試すことができる。 我々は人気のあるOpenAI Gymインターフェースの上に構築されており、研究者はPythonと親しみやすいAPIを使ってコンパイラと対話できる。 本稿では,コンパイラギムのアーキテクチャと実装を説明し,3つのコンパイラ環境の最適化空間と計算効率を特徴付け,広範な経験的評価を行う。 以前の作業と比較すると、CompilerGymはより大きなデータセットと最適化スペースを提供し、より計算効率が良く、フォールトトレラントで、基礎となるコンパイラの再現性バグを検出することができる。 誰でもコンパイラーを試すことができるように、その背景に関係なく、私たちはaiとコンパイラ研究領域の進捗を加速することを目指している。

Interest in applying Artificial Intelligence (AI) techniques to compiler optimizations is increasing rapidly, but compiler research has a high entry barrier. Unlike in other domains, compiler and AI researchers do not have access to the datasets and frameworks that enable fast iteration and development of ideas, and getting started requires a significant engineering investment. What is needed is an easy, reusable experimental infrastructure for real world compiler optimization tasks that can serve as a common benchmark for comparing techniques, and as a platform to accelerate progress in the field. We introduce CompilerGym, a set of environments for real world compiler optimization tasks, and a toolkit for exposing new optimization tasks to compiler researchers. CompilerGym enables anyone to experiment on production compiler optimization problems through an easy-to-use package, regardless of their experience with compilers. We build upon the popular OpenAI Gym interface enabling researchers to interact with compilers using Python and a familiar API. We describe the CompilerGym architecture and implementation, characterize the optimization spaces and computational efficiencies of three included compiler environments, and provide extensive empirical evaluations. Compared to prior works, CompilerGym offers larger datasets and optimization spaces, is 27x more computationally efficient, is fault-tolerant, and capable of detecting reproducibility bugs in the underlying compilers. In making it easy for anyone to experiment with compilers - irrespective of their background - we aim to accelerate progress in the AI and compiler research domains.
翻訳日:2021-09-21 05:49:21 公開日:2021-09-17
# (参考訳) 高度に定義されたハイブリッド確率論理プログラムの構文要求

Syntactic Requirements for Well-defined Hybrid Probabilistic Logic Programs ( http://arxiv.org/abs/2109.08283v1 )

ライセンス: CC BY 4.0
Damiano Azzolini, Fabrizio Riguzzi(参考訳) ハイブリッド確率論理プログラムは、離散的かつ連続的な分布を表す事実で拡張された論理プログラミングの表現性のおかげで、いくつかのシナリオを表現できる。 このタイプのプログラムのセマンティクスは、全てのクエリに確率を割り当てることを保証するため、非常に重要である。 ここでは,最近の意味論の提案に従って,具体的構文を説明し,その定義性を維持するために必要な構文的要件を分析する。

Hybrid probabilistic logic programs can represent several scenarios thanks to the expressivity of Logic Programming extended with facts representing discrete and continuous distributions. The semantics for this type of programs is crucial since it ensures that a probability can be assigned to every query. Here, following one recent semantics proposal, we illustrate a concrete syntax, and we analyse the syntactic requirements needed to preserve the well-definedness.
翻訳日:2021-09-21 05:30:31 公開日:2021-09-17
# (参考訳) 論理プログラムを分割する方法

How to Split a Logic Program ( http://arxiv.org/abs/2109.08284v1 )

ライセンス: CC BY 4.0
Rachel Ben-Eliyahu-Zohary (Azrieli College of Engineering, Jerusalem, Israel)(参考訳) Answer Set Programming (ASP)は、様々な現実世界のアプリケーションを解決する方法として成功している。 高速ASPソルバが利用可能であるにもかかわらず、計算解集合は多項式階層の第二レベルにあるため、非常に大きな計算力を必要とする。 解集合計算の高速化は、プログラムを2つの解離部分(下と上)に分割することができれば達成できる。 これにより、トップ部とは独立してボトム部を評価し、ボトム部評価の結果を用いてトップ部を簡素化する。 リフシッツとターナーは分割集合、すなわち分裂を定義する原子の集合の概念を導入した。 本稿では,いくつかの望ましい性質を持つ分割集合を演算する問題を古典探索問題に還元し,多項式時間で解くことができることを示す。 これにより、様々なプログラムにおける分割集合のサイズに関する実験を行い、安定したモデル計算における複雑さの原因の興味深い発見につながる。 また,Head-Cycle-Freeプログラムでは,より広範なプログラムの分割を可能にする分割集合の定義を調整可能であることを示す。

Answer Set Programming (ASP) is a successful method for solving a range of real-world applications. Despite the availability of fast ASP solvers, computing answer sets demands a very large computational power, since the problem tackled is in the second level of the polynomial hierarchy. A speed-up in answer set computation may be attained, if the program can be split into two disjoint parts, bottom and top. Thus, the bottom part is evaluated independently of the top part, and the results of the bottom part evaluation are used to simplify the top part. Lifschitz and Turner have introduced the concept of a splitting set, i.e., a set of atoms that defines the splitting. In this paper, We show that the problem of computing a splitting set with some desirable properties can be reduced to a classic Search Problem and solved in polynomial time. This allows us to conduct experiments on the size of the splitting set in various programs and lead to an interesting discovery of a source of complication in stable model computation. We also show that for Head-Cycle-Free programs, the definition of splitting sets can be adjusted to allow splitting of a broader class of programs.
翻訳日:2021-09-21 05:14:35 公開日:2021-09-17
# (参考訳) 再帰的SHACLのための固定点意味論

Fixpoint Semantics for Recursive SHACL ( http://arxiv.org/abs/2109.08285v1 )

ライセンス: CC BY 4.0
Bart Bogaerts, Maxime Jakubowski(参考訳) SHACLは、RDFグラフの構造制約を表現するためのW3C提案言語である。 この推奨は、再帰的でないshaclのセマンティクスのみを指定するもので、最近では再帰的なshaclスキーマを可能にするためにいくつかの努力がなされている。 本稿では,再帰的SHACLのセマンティクスを定義し,研究するために,非単調推論における長年の研究から教訓を学ぶことができることを論じる。 shaclスキーマから、3値のセマンティクス演算子を直接得ることができることを示す。 近似固定点理論 (AFT) に基づいて構築されたこの演算子は、期待される方法に関連する、サポートされ、安定され、十分に確立されたセマンティクスを含む、様々な意味論を即座に誘導する。 AFT上に構築することで、SHACLに理論結果の豊富なボディが直接利用可能になる。 このように、この短い論文の主な貢献は、再帰的なshaclの研究のための理論的基礎を提供することであり、これは後にw3c勧告の拡張に関するインフォームドな決定を可能にする。

SHACL is a W3C-proposed language for expressing structural constraints on RDF graphs. The recommendation only specifies semantics for non-recursive SHACL; recently, some efforts have been made to allow recursive SHACL schemas. In this paper, we argue that for defining and studying semantics of recursive SHACL, lessons can be learned from years of research in non-monotonic reasoning. We show that from a SHACL schema, a three-valued semantic operator can directly be obtained. Building on Approximation Fixpoint Theory (AFT), this operator immediately induces a wide variety of semantics, including a supported, stable, and well-founded semantics, related in the expected ways. By building on AFT, a rich body of theoretical results becomes directly available for SHACL. As such, the main contribution of this short paper is providing theoretical foundations for the study of recursive SHACL, which can later enable an informed decision for an extension of the W3C recommendation.
翻訳日:2021-09-21 04:57:22 公開日:2021-09-17
# (参考訳) 整数重み付き重み付き条件付きEL{^}bot知識ベース:ASPアプローチ

Weighted Conditional EL{^}bot Knowledge Bases with Integer Weights: an ASP Approach ( http://arxiv.org/abs/2109.08286v1 )

ライセンス: CC BY 4.0
Laura Giordano (DISIT, Universit\`a del Piemonte Orientale, Italy), Daniele Theseider Dupr\'e (DISIT, Universit\`a del Piemonte Orientale, Italy)(参考訳) 近年、多層パーセプトロンの論理的意味論の基礎として、「概念的」なマルチ参照意味論(二つの値とファジィの両方の場合)に基づく記述論理の重み付き知識ベースが検討されている。 本稿では、重み付き条件付き EL^bot 知識ベースを2値のケースで検討し、重み付きKB に対する概念的マルチ参照エンターメントを ASP および Asprin を用いて符号化する。

Weighted knowledge bases for description logics with typicality have been recently considered under a "concept-wise" multipreference semantics (in both the two-valued and fuzzy case), as the basis of a logical semantics of Multilayer Perceptrons. In this paper we consider weighted conditional EL^bot knowledge bases in the two-valued case, and exploit ASP and asprin for encoding concept-wise multipreference entailment for weighted KBs with integer weights.
翻訳日:2021-09-21 04:40:55 公開日:2021-09-17
# (参考訳) 認識論的仕様の意味論の解明

Refining the Semantics of Epistemic Specifications ( http://arxiv.org/abs/2109.08289v1 )

ライセンス: CC BY 4.0
Ezgi Iraz Su (Sinop University)(参考訳) Answer set programming (ASP) は効率的な問題解決手法であり、科学的にも技術的にもいくつかの問題解決者、継続的な研究、様々な分野の実装によって強く支持されている。 しかし、研究者らは長年、ASPの言語における内省的推論の必要性を認めてきたが、この研究会場は近年まであまり注目されなかった。 さらに、文献におけるaspの既存の認識論的拡張は、単純な非循環的認識論的プログラムであっても意図しない結果が提案されているという事実から、広くは認められておらず、さらに重要なことに、研究者はいくつかの批判的プログラムに対して異なる推論を持っている。 この目的のために、cabalarらは最近、そのようなプログラムの意味論的な提案を正式に支持し、結果を標準化するために、認識プログラムの構造的特性をいくつか特定した。 それでも、これらのプロパティの健全性はまだ議論中であり、aspコミュニティからも広く受け入れられていない。 したがって、まだパラダイムを真に理解し、成熟した形式主義を持ち、理解可能なモデルの形式的正当化を提供する原則を決定する時間があるようだ。 本稿では,既存のセマンティクスアプローチ,満足度の高いセマンティクスが満足すべき基準,そしてそれらの改善方法に焦点を当てる。 我々はまた、プログラムの実際の振る舞いを明らかにするために、相補論理(HT)のよく知られた命題をてんかんHTに拡張する。 最後に,Cabalar らによる最近の形式主義である Autoepistemic ASP の反射的拡張とみなすことができる,てんかん性ASP に対する少し新しい意味論を提案する。

Answer set programming (ASP) is an efficient problem-solving approach, which has been strongly supported both scientifically and technologically by several solvers, ongoing active research, and implementations in many different fields. However, although researchers acknowledged long ago the necessity of epistemic operators in the language of ASP for better introspective reasoning, this research venue did not attract much attention until recently. Moreover, the existing epistemic extensions of ASP in the literature are not widely approved either, due to the fact that some propose unintended results even for some simple acyclic epistemic programs, new unexpected results may possibly be found, and more importantly, researchers have different reasonings for some critical programs. To that end, Cabalar et al. have recently identified some structural properties of epistemic programs to formally support a possible semantics proposal of such programs and standardise their results. Nonetheless, the soundness of these properties is still under debate, and they are not widely accepted either by the ASP community. Thus, it seems that there is still time to really understand the paradigm, have a mature formalism, and determine the principles providing formal justification of their understandable models. In this paper, we mainly focus on the existing semantics approaches, the criteria that a satisfactory semantics is supposed to satisfy, and the ways to improve them. We also extend some well-known propositions of here-and-there logic (HT) into epistemic HT so as to reveal the real behaviour of programs. Finally, we propose a slightly novel semantics for epistemic ASP, which can be considered as a reflexive extension of Cabalar et al.'s recent formalism called autoepistemic ASP.
翻訳日:2021-09-21 04:26:57 公開日:2021-09-17
# (参考訳) 解集合プログラミングによる木組学習法から説明可能なルール集合を生成する

Generating Explainable Rule Sets from Tree-Ensemble Learning Methods by Answer Set Programming ( http://arxiv.org/abs/2109.08290v1 )

ライセンス: CC BY 4.0
Akihiro Takemura, Katsumi Inoue(参考訳) 本稿では,木組学習者から Answer Set Programming (ASP) を用いて説明可能なルールセットを生成する手法を提案する。 そこで本研究では,ルール構築において基本決定木の分割構造を利用する分解的手法を採用し,ASPで符号化されたパターンマイニング手法を用いて興味深いルールを抽出した。 ユーザ定義の制約と好みを asp で宣言的に表現して,透過的かつ柔軟なルールセット生成を可能にする方法と,ルールをモデルをより理解するための説明として使用できる方法を示す。 実世界のデータセットと一般的なtree-ensembleアルゴリズムによる実験的評価は、このアプローチが幅広い分類タスクに適用できることを示している。

We propose a method for generating explainable rule sets from tree-ensemble learners using Answer Set Programming (ASP). To this end, we adopt a decompositional approach where the split structures of the base decision trees are exploited in the construction of rules, which in turn are assessed using pattern mining methods encoded in ASP to extract interesting rules. We show how user-defined constraints and preferences can be represented declaratively in ASP to allow for transparent and flexible rule set generation, and how rules can be used as explanations to help the user better understand the models. Experimental evaluation with real-world datasets and popular tree-ensemble algorithms demonstrates that our approach is applicable to a wide range of classification tasks.
翻訳日:2021-09-21 03:59:02 公開日:2021-09-17
# (参考訳) Natlog: ニューロシンボリックタッチを備えた軽量論理型プログラミング言語

Natlog: a Lightweight Logic Programming Language with a Neuro-symbolic Touch ( http://arxiv.org/abs/2109.08291v1 )

ライセンス: CC BY 4.0
Paul Tarau (University of North Texas)(参考訳) 本稿では,Prologの統一型実行モデルを共有する軽量論理型言語であるNatlogを紹介する。 概念実証のNatlog実装はPythonベースのディープラーニングエコシステムに密に埋め込まれており、基底項データセットのコンテンツ駆動インデックス化に重点を置いています。 シンボリックインデックス化アルゴリズムのオーバーライドとして、同じ関数をニューラルネットワークに委譲し、natlogの解決エンジンに根拠事実を提供することができます。 私たちのオープンソース実装は、https://pypi.org/project/natlog/ でPythonパッケージとして利用可能です。

We introduce Natlog, a lightweight Logic Programming language, sharing Prolog's unification-driven execution model, but with a simplified syntax and semantics. Our proof-of-concept Natlog implementation is tightly embedded in the Python-based deep-learning ecosystem with focus on content-driven indexing of ground term datasets. As an overriding of our symbolic indexing algorithm, the same function can be delegated to a neural network, serving ground facts to Natlog's resolution engine. Our open-source implementation is available as a Python package at https://pypi.org/project/natlog/ .
翻訳日:2021-09-21 03:42:21 公開日:2021-09-17
# (参考訳) exp(aspc) : 選択原子と制約規則を用いたaspプログラムの説明

exp(ASPc) : Explaining ASP Programs with Choice Atoms and Constraint Rules ( http://arxiv.org/abs/2109.08292v1 )

ライセンス: CC BY 4.0
Ly Ly Trieu (New Mexico State University), Tran Cao Son (New Mexico State University), Marcello Balduccini (Saint Joseph's University)(参考訳) 本稿では,リテラルlに対する説明グラフを生成するシステムであるexp(asp)の強化について述べる。このシステムは,通常の論理プログラムpの解集合aが与えられ,lがaとpに与えられた理由を説明する。新しいシステムであるexp(aspc)は,選択規則をサポートし,制約規則を利用して選択や制約に関する情報を含む説明グラフを提供するという点で,exp(asp)と異なる。

We present an enhancement of exp(ASP), a system that generates explanation graphs for a literal l - an atom a or its default negation ~a - given an answer set A of a normal logic program P, which explain why l is true (or false) given A and P. The new system, exp(ASPc), differs from exp(ASP) in that it supports choice rules and utilizes constraint rules to provide explanation graphs that include information about choices and constraints.
翻訳日:2021-09-21 03:23:45 公開日:2021-09-17
# (参考訳) sat符号化到達可能性制約を用いたpicatのグラフ合成問題のモデル化と解法

Modeling and Solving Graph Synthesis Problems Using SAT-Encoded Reachability Constraints in Picat ( http://arxiv.org/abs/2109.08293v1 )

ライセンス: CC BY 4.0
Neng-Fa Zhou (CUNY Brooklyn College & Graduate Center)(参考訳) 多くの制約満足度問題は、ある到達可能性制約を満たす部分グラフの合成を含む。 本稿では,最近のlp/cpプログラミングコンペから選択した4つの問題に対するpicatのプログラムについて述べる。 プログラムは、picat言語のモデリング能力と効果的なエンコーディングを付与された最先端satソルバの解法効率を示す。

Many constraint satisfaction problems involve synthesizing subgraphs that satisfy certain reachability constraints. This paper presents programs in Picat for four problems selected from the recent LP/CP programming competitions. The programs demonstrate the modeling capabilities of the Picat language and the solving efficiency of the cutting-edge SAT solvers empowered with effective encodings.
翻訳日:2021-09-21 03:08:56 公開日:2021-09-17
# (参考訳) 倫理的監視と対話評価のための論理型マルチエージェントシステム

A Logic-based Multi-agent System for Ethical Monitoring and Evaluation of Dialogues ( http://arxiv.org/abs/2109.08294v1 )

ライセンス: CC BY 4.0
Abeer Dyoub (DISIM, University of L'Aquila, Italy), Stefania Costantini (DISIM, University of L'Aquila, Italy), Ivan Letteri (DISIM, University of L'Aquila, Italy), Francesca A. Lisi (DIB & CILA, University of Bari "Aldo Moro", Italy)(参考訳) 対話システムは、人間と機械の相互作用に関する様々な実用目的のために設計されたツールである。 これらのシステムは、その行動がユーザー(特に子供について)に大きな影響を及ぼす可能性があるため、倫理的基盤の上に構築されるべきである。 本研究の目的は,対話システムの倫理的監視と評価を目的としたマルチエージェントシステム(MAS)のアーキテクチャとプロトタイプの実装である。 オンライン顧客サービスチャットポイントにおけるチャットエージェント(人間/人工)倫理行動の監視・評価を行うためのプロトタイプアプリケーションを開発・提示する。 本研究の今後の課題と課題について論じる。

Dialogue Systems are tools designed for various practical purposes concerning human-machine interaction. These systems should be built on ethical foundations because their behavior may heavily influence a user (think especially about children). The primary objective of this paper is to present the architecture and prototype implementation of a Multi Agent System (MAS) designed for ethical monitoring and evaluation of a dialogue system. A prototype application, for monitoring and evaluation of chatting agents' (human/artificial) ethical behavior in an online customer service chat point w.r.t their institution/company's codes of ethics and conduct, is developed and presented. Future work and open issues with this research are discussed.
翻訳日:2021-09-21 02:41:43 公開日:2021-09-17
# (参考訳) DiscASP: 会話型ソーシャルボットへの応用と関連する概念を見つけるためのグラフベースのASPシステム

DiscASP: A Graph-based ASP System for Finding Relevant Consistent Concepts with Applications to Conversational Socialbots ( http://arxiv.org/abs/2109.08297v1 )

ライセンス: CC BY 4.0
Fang Li (University of Texas at Dallas), Huaduo Wang (University of Texas at Dallas), Kinjal Basu (University of Texas at Dallas), Elmer Salazar (University of Texas at Dallas), Gopal Gupta (University of Texas at Dallas)(参考訳) 我々は、会話型AIシステムにおいて、特に会話型ソーシャルボットの実現において、関連する一貫した概念を見つけるという問題を考察する。 様々なトピックに関する常識知識は、回答セットプログラムとして表現できる。 しかし,会話を前進させるためには,会話の進行に有効な,現在議論されている話題の「周辺」に一貫した知識を見出すという,関連する一貫した概念を見つけるという問題を解決する必要がある。 伝統的なaspソルバは、様々な原子(概念)間のすべての関連を取り除き、関連する一貫した概念を見つけるために使用できない回答集合全体を生成する。 同様に、目標指向のaspの実装は、クエリに直接関係する概念を見つけるだけである。 本研究では,あるトピックに関連する部分的一貫したモデルを見出すDisdisASPシステムを提案する。 DiscASPは、解集合プログラムの安定モデルを見つけるための新しいグラフベースのアルゴリズムに基づいている。 本稿では,DiscASPアルゴリズムとその実装とその対話型ソーシャルボット開発への応用について述べる。

We consider the problem of finding relevant consistent concepts in a conversational AI system, particularly, for realizing a conversational socialbot. Commonsense knowledge about various topics can be represented as an answer set program. However, to advance the conversation, we need to solve the problem of finding relevant consistent concepts, i.e., find consistent knowledge in the "neighborhood" of the current topic being discussed that can be used to advance the conversation. Traditional ASP solvers will generate the whole answer set which is stripped of all the associations between the various atoms (concepts) and thus cannot be used to find relevant consistent concepts. Similarly, goal-directed implementations of ASP will only find concepts directly relevant to a query. We present the DiscASP system that will find the partial consistent model that is relevant to a given topic in a manner similar to how a human will find it. DiscASP is based on a novel graph-based algorithm for finding stable models of an answer set program. We present the DiscASP algorithm, its implementation, and its application to developing a conversational socialbot.
翻訳日:2021-09-21 02:33:49 公開日:2021-09-17
# (参考訳) 応答集合型プログラミングを用いた逐次データ構造知識からの並列プログラム生成

Generating Concurrent Programs From Sequential Data Structure Knowledge Using Answer Set Programming ( http://arxiv.org/abs/2109.08298v1 )

ライセンス: CC BY 4.0
Sarat Chandra Varanasi (The University of Texas at Dallas), Neeraj Mittal (The University of Texas at Dallas), Gopal Gupta (The University of Texas at Dallas)(参考訳) 逐次データ構造仕様と並列動作に関する知識を与えられた並列データ構造操作を自動設計する問題に取り組む。 最も単純な場合であっても、並列コードの設計は簡単ではない。 人間はしばしば、逐次バージョンをそれぞれの同時バージョンに変換することで、同時データ構造操作を設計する。 これは、データ構造、シーケンシャルな振る舞い、並行実行中のスレッドインタラクション、共有メモリ同期プリミティブを理解する必要がある。 自動コモンセンス推論を用いてこの設計プロセスを機械化する。 データ構造記述は代数演算のシーケンシャルコードと並行して公理として提供されると仮定する。 この情報は、リンクリストの辞書操作やバイナリ検索ツリーなどのデータ構造のための並列コードを自動的に導き出すために使用される。 私たちの場合の知識は、解答セットプログラミング(ASP)を使って表現されます。 aspはポインタデータ構造の1次理論、ランタイムスレッドインタラクション、共有メモリ同期の簡潔なモデリングを可能にする。 我々の推論者は、確実に安全な並行コードを構築しながら、人間の推論者と同じ判断を体系的に行うことができる。 逐次データ構造を等価な並列バージョンに変換する上で,いくつかの推論課題を提示する。 すべての推論タスクはaspでエンコードされ、推論者はシーケンシャルコードを並列コードに変換するために適切な判断を行うことができます。 私たちの知る限りでは、シーケンシャルプログラムを並列コードに変換するのにCommonsense reasoningを使うのは、私たちの仕事が初めてです。 我々はまた、最先端のaspソルバに依存し、並行コードを生成するための推論タスクを実行するツールも開発した。

We tackle the problem of automatically designing concurrent data structure operations given a sequential data structure specification and knowledge about concurrent behavior. Designing concurrent code is a non-trivial task even in simplest of cases. Humans often design concurrent data structure operations by transforming sequential versions into their respective concurrent versions. This requires an understanding of the data structure, its sequential behavior, thread interactions during concurrent execution and shared memory synchronization primitives. We mechanize this design process using automated commonsense reasoning. We assume that the data structure description is provided as axioms alongside the sequential code of its algebraic operations. This information is used to automatically derive concurrent code for that data structure, such as dictionary operations for linked lists and binary search trees. Knowledge in our case is expressed using Answer Set Programming (ASP), and we employ deduction and abduction -- just as humans do -- in the reasoning involved. ASP allows for succinct modeling of first order theories of pointer data structures, run-time thread interactions and shared memory synchronization. Our reasoner can systematically make the same judgments as a human reasoner, while constructing provably safe concurrent code. We present several reasoning challenges involved in transforming the sequential data structure into its equivalent concurrent version. All the reasoning tasks are encoded in ASP and our reasoner can make sound judgments to transform sequential code into concurrent code. To the best of our knowledge, our work is the first one to use commonsense reasoning to automatically transform sequential programs into concurrent code. We also have developed a tool that we describe that relies on state-of-the-art ASP solvers and performs the reasoning tasks involved to generate concurrent code.
翻訳日:2021-09-21 02:15:54 公開日:2021-09-17
# (参考訳) マルチエージェント経路探索問題に対する柔軟かつ説明可能な解法

Flexible and Explainable Solutions for Multi-Agent Path Finding Problems ( http://arxiv.org/abs/2109.08299v1 )

ライセンス: CC BY 4.0
Aysu Bogatarkan(参考訳) MAPF問題(Multi-agent path find)は、複数のエージェント(例えば、自律倉庫など)が互いに衝突しない環境(例えば、自律倉庫)において、複数のエージェント(例えば、ロボット)の経路を見つけることを目的とした組合せ探索問題である。 MAPFの現実的な応用には、柔軟性(MAPFのバリエーションの解決など)と説明可能性が必要である。 本研究では,これらの課題に対処し,mapfとその変種に対する柔軟かつ説明可能な解決法を提案する。

The multi-agent path finding (MAPF) problem is a combinatorial search problem that aims at finding paths for multiple agents (e.g., robots) in an environment (e.g., an autonomous warehouse) such that no two agents collide with each other, and subject to some constraints on the lengths of paths. The real-world applications of MAPF require flexibility (e.g., solving variations of MAPF) as well as explainability. In this study, both of these challenges are addressed and some flexible and explainable solutions for MAPF and its variants are introduced.
翻訳日:2021-09-21 01:59:47 公開日:2021-09-17
# (参考訳) 総合的マルチエージェントてんかん計画

Comprehensive Multi-Agent Epistemic Planning ( http://arxiv.org/abs/2109.08301v1 )

ライセンス: CC BY 4.0
Francesco Fabiano (University of Udine)(参考訳) ここ数年、人工知能の概念は、日々の生活といくつかの作業シナリオの両方に関して、さまざまなタスクの中心になってきた。 これらのタスクの中で、自動計画は常にAI研究コミュニティの中心にある。 特に、この写本は、MEP(Multi-Adnt Epistemic Planning)として知られる特殊な計画に重点を置いている。 エピステミックプランニング(EP: Epistemic Planning)とは、エージェントが知識/理解状態の空間に理由を持ち、開始状態から望ましい状態に到達する計画を見つけようとする、自動的な計画環境を指す。 その一般的な形式であるmep問題には、世界の状況とエージェント間の情報の流れの両方を判断する必要がある複数のエージェントが含まれている。 MEP問題に対処するために、いくつかのツールが開発され、様々なアプローチが問題空間の深い理解につながっているが、それぞれのツールにはいくつかの能力がなく、情報フローの包括的な調査ができない。 そのため、我々の研究の目的は、エージェントの知識/信頼の相互作用と更新の完全な特徴付けが可能な環境を定式化することです。 特に,マルチエージェント認識計画のための新たなアクションベース言語を定義し,それに基づく認識プランナーの実装を目標としている。 このソルバは、経済、安全保障、正義、政治など、さまざまなドメインを推論できるほど柔軟で、他人の知識や信条を考慮すれば、勝利戦略に繋がることのできるツールを提供するべきである。

Over the last few years, the concept of Artificial Intelligence has become central in different tasks concerning both our daily life and several working scenarios. Among these tasks automated planning has always been central in the AI research community. In particular, this manuscript is focused on a specialized kind of planning known as Multi-agent Epistemic Planning (MEP). Epistemic Planning (EP) refers to an automated planning setting where the agent reasons in the space of knowledge/beliefs states and tries to find a plan to reach a desirable state from a starting one. Its general form, the MEP problem, involves multiple agents who need to reason about both the state of the world and the information flows between agents. To tackle the MEP problem several tools have been developed and, while the diversity of approaches has led to a deeper understanding of the problem space, each proposed tool lacks some abilities and does not allow for a comprehensive investigation of the information flows. That is why, the objective of our work is to formalize an environment where a complete characterization of the agents' knowledge/beliefs interaction and update is possible. In particular, we aim to achieve such goal by defining a new action-based language for multi-agent epistemic planning and to implement an epistemic planner based on it. This solver should provide a tool flexible enough to reason on different domains, e.g., economy, security, justice and politics, where considering others' knowledge/beliefs could lead to winning strategies.
翻訳日:2021-09-21 01:51:27 公開日:2021-09-17
# (参考訳) 回答セットプログラミングにおける製品構成

Product Configuration in Answer Set Programming ( http://arxiv.org/abs/2109.08304v1 )

ライセンス: CC BY 4.0
Seemran Mishra (University of Potsdam, Germany)(参考訳) これは、応答セットプログラミング(asp)でインタラクティブな構成システムを構築するための基盤となる構成知識表現に関する予備的な作業である。 製品構成問題の主要な概念は、自転車構成の例で特定され、議論される。 ファクトフォーマットは、ドメイン固有で、他のシステムからマップできる製品知識を表現するために開発されます。 最後に、設定問題の概念を表すドメインに依存しないASPエンコーディングが提供される。

This is a preliminary work on configuration knowledge representation which serves as a foundation for building interactive configuration systems in Answer Set programming (ASP). The major concepts of the product configuration problem are identified and discussed with a bike configuration example. A fact format is developed for expressing product knowledge that is domain-specific and can be mapped from other systems. Finally, a domain-independent ASP encoding is provided that represents the concepts in the configuration problem.
翻訳日:2021-09-21 01:38:44 公開日:2021-09-17
# (参考訳) 解集合プログラミングにおける時間的行動の形式化

Formalisation of Action with Durations in Answer Set Programming ( http://arxiv.org/abs/2109.08305v1 )

ライセンス: CC BY 4.0
Etienne Tignon(参考訳) 本稿では,ポツダム大学の博士課程生であるT. Schaubの指導の下,私が現在行っている研究について論じる。 私は現在ASP.NETのアクション記述を調べています。 より正確に言うと、私のゴールは、ASP.NETの持続時間でアクションを表現する方法を探ることです。 現時点では、さまざまなエージェントやコンテキストの速度を表す方法を模索している、MAPF(Multi-Agent Path Finding)に注目しています。 持続時間に取り組む前に、asp.netのさまざまなアクションの表現を調査して比較したかったのです。 そこで私は、mapf問題に取り組む異なる単純なエンコーディングを比較し始めた。 単純なコードでも、選択や仮定が作成に使われています。 私の仕事の目的は、これらの設計決定の結果をパフォーマンスと知識表現の観点から示すことです。 私の知る限りでは、この話題に関する現在の研究はない。 さらに、持続時間を表現し、関連する問題を解決するさまざまな方法を模索しています。 以前説明したように、それらを比較するつもりでした。 また、このことは、持続時間で問題を解決する革新的な効果的な方法を見つけるのにも役立ちたいです。

In this paper, I will discuss the work I am currently doing as a Ph.D. student at the University of Potsdam, under the tutoring of T. Schaub. I'm currently looking into action description in ASP. More precisely, my goal is to explore how to represent actions with durations in ASP, in different contexts. Right now, I'm focused on Multi-Agent Path Finding (MAPF), looking at how to represent speeds for different agents and contexts. Before tackling duration, I wanted to explore and compare different representations of action taking in ASP. For this, I started comparing different simple encodings tackling the MAPF problem. Even in simple code, choices and assumptions have been made in their creations. The objective of my work is to present the consequences of those design decisions in terms of performance and knowledge representation. As far as I know, there is no current research on this topic. Besides that, I'm also exploring different ways to represent duration and to solve related problems. I planed to compare them the same way I described before. I also want this to help me find innovative and effective ways to solve problems with duration.
翻訳日:2021-09-21 01:24:29 公開日:2021-09-17
# (参考訳) 空間モーダル論理を用いた決定木学習

Decision Tree Learning with Spatial Modal Logics ( http://arxiv.org/abs/2109.08325v1 )

ライセンス: CC BY 4.0
Giovanni Pagliarini (Dept. of Mathematics and Computer Science, University of Ferrara, Italy, Dept. of Mathematical, Physical and Computer Sciences, University of Parma, Italy), Guido Sciavicco (Dept. of Mathematics and Computer Science, University of Ferrara, Italy)(参考訳) 記号学習は、解釈可能なモデリングに対する最も単純なアプローチであるが、その応用は単一の構造設計の選択によって妨げられている。 近年,特に時間依存データに対して,より仮説的な記号学習法が登場し始めている。 これらの手法は、時間的決定木のような強力な学習アルゴリズムにおけるモーダル時間論理の表現力を利用しており、その分類能力は、明示的な知識表現を持つモデルを生成する。 空間データの場合,同じアプローチを意図して,本稿では次のように述べる。 一 空間決定木学習の理論を提示すること。 二 古典的C4.5アルゴリズムに基づいて、厳密に拡張した空間決定木学習アルゴリズムの原型的実装を記述すること。 iii) 利用可能なデータセット上で,複数の種類の画像分類問題に対して,空間決定木の予測力と古典命題決定木の予測力を比較する一連の実験を行う。 私たちの結果は、提案モデルから空間モデルへのパフォーマンスの明確な改善を示し、さらに高いレベルの解釈可能性を示している。

Symbolic learning represents the most straightforward approach to interpretable modeling, but its applications have been hampered by a single structural design choice: the adoption of propositional logic as the underlying language. Recently, more-than-propositional symbolic learning methods have started to appear, in particular for time-dependent data. These methods exploit the expressive power of modal temporal logics in powerful learning algorithms, such as temporal decision trees, whose classification capabilities are comparable with the best non-symbolic ones, while producing models with explicit knowledge representation. With the intent of following the same approach in the case of spatial data, in this paper we: i) present a theory of spatial decision tree learning; ii) describe a prototypical implementation of a spatial decision tree learning algorithm based, and strictly extending, the classical C4.5 algorithm; and iii) perform a series of experiments in which we compare the predicting power of spatial decision trees with that of classical propositional decision trees in several versions, for a multi-class image classification problem, on publicly available datasets. Our results are encouraging, showing clear improvements in the performances from the propositional to the spatial models, which in turn show higher levels of interpretability.
翻訳日:2021-09-21 01:14:44 公開日:2021-09-17
# (参考訳) デュアルパスU-netを用いた3次元乳房超音波の質量分離

Mass Segmentation in Automated 3-D Breast Ultrasound Using Dual-Path U-net ( http://arxiv.org/abs/2109.08330v1 )

ライセンス: CC BY 4.0
Hamed Fayyaz, Ehsan Kozegar, Tao Tan, Mohsen Soryani(参考訳) 3次元乳房検診(ABUS)は,乳がん検診におけるマンモグラフィーの補助効果として提案されている乳房検診の新たな基礎システムである。 ABUSは高密度の乳房ではパフォーマンスが向上する一方、ABUS画像の読影は枯渇し、時間を要する。 そのため,画像の解釈にはコンピュータ支援検出システムが必要である。 マスセグメンテーションはコンピュータ支援検出システムにおいて重要な役割を担い、全体的な性能に影響を与える。 マスセグメンテーションは、質量の大きさ、形状、テクスチャが多種多様であるため、難しい課題である。 さらに、不均衡なデータセットはセグメンテーションを難しくする。 本稿では,深層学習に基づく新しいマスセグメンテーション手法を提案する。 この研究で画像セグメンテーションに使用されるディープネットワークは,近年,高密度セグメンテーションに広く利用されているU-netにインスパイアされている。 このシステムの性能は、悪性度38と良性病変12を含む50マスのデータセットを用いて決定された。 提案手法では,0.74の2段階教師付きエッジベース法と0.65の適応領域成長法を上回り,0.82のセグメント化を実現した。

Automated 3-D breast ultrasound (ABUS) is a newfound system for breast screening that has been proposed as a supplementary modality to mammography for breast cancer detection. While ABUS has better performance in dense breasts, reading ABUS images is exhausting and time-consuming. So, a computer-aided detection system is necessary for interpretation of these images. Mass segmentation plays a vital role in the computer-aided detection systems and it affects the overall performance. Mass segmentation is a challenging task because of the large variety in size, shape, and texture of masses. Moreover, an imbalanced dataset makes segmentation harder. A novel mass segmentation approach based on deep learning is introduced in this paper. The deep network that is used in this study for image segmentation is inspired by U-net, which has been used broadly for dense segmentation in recent years. The system's performance was determined using a dataset of 50 masses including 38 malign and 12 benign lesions. The proposed segmentation method attained a mean Dice of 0.82 which outperformed a two-stage supervised edge-based method with a mean Dice of 0.74 and an adaptive region growing method with a mean Dice of 0.65.
翻訳日:2021-09-20 23:59:07 公開日:2021-09-17
# (参考訳) ビデオレコメンデーションのためのマルチモーダル感性データセット

A Multimodal Sentiment Dataset for Video Recommendation ( http://arxiv.org/abs/2109.08333v1 )

ライセンス: CC BY 4.0
Hongxuan Tang, Hao Liu, Xinyan Xiao, Hua Wu(参考訳) 近年,マルチモーダル感情分析が目覚ましい進歩を遂げており,その開発に多くのデータセットが提案されている。 一般に、現在のマルチモーダル感情分析データセットは、通常、ポジティブ、ネガティブなど、伝統的な感情/感情のシステムに従う。 しかし,映像レコメンデーションのシナリオに適用した場合,視覚感覚や言語理解の観点から映像の異なるコンテンツを表現するために,従来の感情・感情システムを活用することは困難である。 そこで本稿では,DuVideoSenti と呼ばれるマルチモーダル感情分析データセットを提案するとともに,レコメンデーションシーンにおける映像の感情スタイルを記述した新たな感情システムを提案する。 具体的には、duvideosentiはbaiduに表示された5,630本のビデオからなり、各ビデオにはユーザのリアルなビデオ感覚を記述した感傷的なスタイルラベルが手作業で注釈付けされる。 さらに,UNIMOをDuVideoSentiのベースラインとして提案する。 実験の結果、duvideosentiはマルチモーダル感情分析に新たな課題をもたらし、ビデオ理解とマルチモーダル融合のためのアプローチを評価するための新しいベンチマークとして使用できることが示された。 また,提案するduvideosentiは,マルチモーダル感情分析の開発とビデオレコメンデーションへの応用をさらに改善することを期待している。

Recently, multimodal sentiment analysis has seen remarkable advance and a lot of datasets are proposed for its development. In general, current multimodal sentiment analysis datasets usually follow the traditional system of sentiment/emotion, such as positive, negative and so on. However, when applied in the scenario of video recommendation, the traditional sentiment/emotion system is hard to be leveraged to represent different contents of videos in the perspective of visual senses and language understanding. Based on this, we propose a multimodal sentiment analysis dataset, named baiDu Video Sentiment dataset (DuVideoSenti), and introduce a new sentiment system which is designed to describe the sentimental style of a video on recommendation scenery. Specifically, DuVideoSenti consists of 5,630 videos which displayed on Baidu, each video is manually annotated with a sentimental style label which describes the user's real feeling of a video. Furthermore, we propose UNIMO as our baseline for DuVideoSenti. Experimental results show that DuVideoSenti brings new challenges to multimodal sentiment analysis, and could be used as a new benchmark for evaluating approaches designed for video understanding and multimodal fusion. We also expect our proposed DuVideoSenti could further improve the development of multimodal sentiment analysis and its application to video recommendations.
翻訳日:2021-09-20 23:47:33 公開日:2021-09-17
# (参考訳) Dropoutのドリームランド:学習シミュレータから現実への一般化

Dropout's Dream Land: Generalization from Learned Simulators to Reality ( http://arxiv.org/abs/2109.08342v1 )

ライセンス: CC BY 4.0
Zac Wellmer, James T. Kwok(参考訳) 世界モデルは環境をシミュレートするために使用される生成モデルである。 世界モデルは強化学習環境の空間的および時間的表現を学習できることが証明されている。 場合によっては、World Modelはエージェントが自分の夢の中で完全に学習する機会を提供する。 本研究では、夢環境から現実環境(dream2real)への一般化能力の向上について検討する。 本稿では,ニューラルネットワークのドリーム環境から現実に移行するコントローラの能力を改善するための一般的なアプローチを提案する。 これらの改善は、ドメインのランダム化からインスピレーションを得て得られるもので、基本的なアイデアは、手元のタスクを根本的に変えることなく、できるだけ多くのシミュレータをランダム化することだ。 一般的にドメインランダム化は、設定可能なパラメータを持つプレビルドシミュレータへのアクセスを前提としているが、多くの場合、利用できない。 ドロップアウトを使ってワールドモデルをトレーニングすることで、夢の環境はほぼ無限の異なる夢の環境を作り出すことができる。 従来のドロップアウトは、推論時にドロップアウトを使用しないか、複数のサンプルマスク(Monte-Carlo Dropout)によって生成された予測を平均化する。 DropoutのDream Landは、それぞれのユニークなマスクを活用して、多様なドリーム環境を作り出す。 実験の結果,Dropout's Dream Landは,夢と現実のギャップを埋める有効な手法であることがわかった。 さらに,広範囲にわたるアブレーション研究も実施している。

A World Model is a generative model used to simulate an environment. World Models have proven capable of learning spatial and temporal representations of Reinforcement Learning environments. In some cases, a World Model offers an agent the opportunity to learn entirely inside of its own dream environment. In this work we explore improving the generalization capabilities from dream environments to real environments (Dream2Real). We present a general approach to improve a controller's ability to transfer from a neural network dream environment to reality at little additional cost. These improvements are gained by drawing on inspiration from Domain Randomization, where the basic idea is to randomize as much of a simulator as possible without fundamentally changing the task at hand. Generally, Domain Randomization assumes access to a pre-built simulator with configurable parameters but oftentimes this is not available. By training the World Model using dropout, the dream environment is capable of creating a nearly infinite number of different dream environments. Previous use cases of dropout either do not use dropout at inference time or averages the predictions generated by multiple sampled masks (Monte-Carlo Dropout). Dropout's Dream Land leverages each unique mask to create a diverse set of dream environments. Our experimental results show that Dropout's Dream Land is an effective technique to bridge the reality gap between dream environments and reality. Furthermore, we additionally perform an extensive set of ablation studies.
翻訳日:2021-09-20 23:39:10 公開日:2021-09-17
# (参考訳) Comfetch: Sketchingによるメモリ制限されたクライアント上の大規模ネットワークのフェデレーション学習

Comfetch: Federated Learning of Large Networks on Memory-Constrained Clients via Sketching ( http://arxiv.org/abs/2109.08346v1 )

ライセンス: CC BY 4.0
Tahseen Rabbani, Brandon Feng, Yifan Yang, Arjun Rajkumar, Amitabh Varshney, Furong Huang(参考訳) 連合学習(federated learning)の一般的なアプリケーションは、多くのクライアントを使用してディープニューラルネットワークをトレーニングする。 最近の取り組みは通信の複雑さを減らすことに重点を置いているが、既存のアルゴリズムでは、各クライアントが現在および完全なパラメータセットをダウンロードできると仮定している。 本研究では,グローバルアーキテクチャの圧縮バージョンを用いた大規模ネットワークのトレーニングを行うための新しいアルゴリズムComfetchを提案し,通信コストとローカルメモリコストを削減した。 本研究では, 深層畳み込みネットワークやLSTMなどの大規模ネットワークを, スケッチしたエージェントの訓練を通じて学習できることを実験的に実証する。 結果として得られたグローバルモデルは、最先端のfetchsgdや古典的なfedavgと比較すると、競争力のあるテスト精度を示す。

A popular application of federated learning is using many clients to train a deep neural network, the parameters of which are maintained on a central server. While recent efforts have focused on reducing communication complexity, existing algorithms assume that each participating client is able to download the current and full set of parameters, which may not be a practical assumption depending on the memory constraints of clients such as mobile devices. In this work, we propose a novel algorithm Comfetch, which allows clients to train large networks using compressed versions of the global architecture via Count Sketch, thereby reducing communication and local memory costs. We provide a theoretical convergence guarantee and experimentally demonstrate that it is possible to learn large networks, such as a deep convolutional network and an LSTM, through federated agents training on their sketched counterparts. The resulting global models exhibit competitive test accuracy when compared against the state-of-the-art FetchSGD and the classical FedAvg, both of which require clients to download the full architecture.
翻訳日:2021-09-20 23:21:48 公開日:2021-09-17
# (参考訳) 正規化を組み込んだ言語モデルのタスク適応型事前学習

Task-adaptive Pre-training of Language Models with Word Embedding Regularization ( http://arxiv.org/abs/2109.08354v1 )

ライセンス: CC BY 4.0
Kosuke Nishida, Kyosuke Nishida, Sen Yoshida(参考訳) 事前学習言語モデル(PTLM)は、大量のテキストリソースを用いた事前学習を通じて、ドメインに依存しない言語知識を取得する。 さらなる事前訓練は、事前訓練されたコーパスでカバーされていない領域にptlmを適用するのに有効である。 本稿では,ドメイン適応のためのPTLMの静的単語埋め込みに着目し,ドメイン固有の単語の意味を教える。 本稿では,単語埋め込み規則付きタスク適応型事前学習(TAPTER)を提案する。 TAPTERは、ターゲットドメインで取得した単語埋め込みに近いPTLMの静的単語埋め込みをfastTextで実行することにより、追加の事前トレーニングを実行する。 TAPTERは下流タスクのトレーニングデータを除いて追加のコーパスを必要としない。 我々は,TAPTERが標準微調整とBioASQ(バイオメディカルドメインでの質問応答)およびSQuAD(ウィキペディアドメイン)におけるタスク適応型事前学習の性能を向上させることを確認した。

Pre-trained language models (PTLMs) acquire domain-independent linguistic knowledge through pre-training with massive textual resources. Additional pre-training is effective in adapting PTLMs to domains that are not well covered by the pre-training corpora. Here, we focus on the static word embeddings of PTLMs for domain adaptation to teach PTLMs domain-specific meanings of words. We propose a novel fine-tuning process: task-adaptive pre-training with word embedding regularization (TAPTER). TAPTER runs additional pre-training by making the static word embeddings of a PTLM close to the word embeddings obtained in the target domain with fastText. TAPTER requires no additional corpus except for the training data of the downstream task. We confirmed that TAPTER improves the performance of the standard fine-tuning and the task-adaptive pre-training on BioASQ (question answering in the biomedical domain) and on SQuAD (the Wikipedia domain) when their pre-training corpora were not dominated by in-domain data.
翻訳日:2021-09-20 22:47:41 公開日:2021-09-17
# (参考訳) Gated Cross Attention を用いた薬物・標的相互作用の解釈可能なフレームワーク

An Interpretable Framework for Drug-Target Interaction with Gated Cross Attention ( http://arxiv.org/abs/2109.08360v1 )

ライセンス: CC BY 4.0
Yeachan Kim, Bonggun Shin(参考訳) silico prediction of drug-target interaction (dti) では、創薬過程のタイムラインとコストを大幅に削減できるため、創薬に重要である。 特に、ディープラーニングに基づくDTIアプローチは、予測の精度と低コストの観点から有望な結果を示している。 しかし、予測結果の解釈可能性や、薬物と標的の間の特徴レベルの相互作用にはほとんど注意を払わない。 本研究では,対話サイトに対して適切な手がかりを提供する新しい解釈可能なフレームワークを提案する。 そこで我々は,これらの特徴間の明示的な相互作用を構築することにより,薬物と標的の特徴を相互に関与するゲート型クロスアテンション機構を精巧に設計する。 この方法のゲーティング機能は、神経モデルが薬物やタンパク質の配列全体にわたるサルエント領域に焦点を合わせ、注意マップである機能からの副産物が解釈可能な因子として機能することを可能にする。 実験の結果,2つのDTIデータセットにおける提案手法の有効性が示された。 さらに、ゲート交叉は変異に敏感に反応し得ることを示し、この結果は変異タンパク質を標的とした新規薬物の同定に関する洞察を与える可能性がある。

In silico prediction of drug-target interactions (DTI) is significant for drug discovery because it can largely reduce timelines and costs in the drug development process. Specifically, deep learning-based DTI approaches have been shown promising results in terms of accuracy and low cost for the prediction. However, they pay little attention to the interpretability of their prediction results and feature-level interactions between a drug and a target. In this study, we propose a novel interpretable framework that can provide reasonable cues for the interaction sites. To this end, we elaborately design a gated cross-attention mechanism that crossly attends drug and target features by constructing explicit interactions between these features. The gating function in the method enables neural models to focus on salient regions over entire sequences of drugs and proteins, and the byproduct from the function, which is the attention map, could serve as interpretable factors. The experimental results show the efficacy of the proposed method in two DTI datasets. Additionally, we show that gated cross-attention can sensitively react to the mutation, and this result could provide insights into the identification of novel drugs targeting mutant proteins.
翻訳日:2021-09-20 22:37:32 公開日:2021-09-17
# (参考訳) CodeQA: ソースコード理解のための質問回答データセット

CodeQA: A Question Answering Dataset for Source Code Comprehension ( http://arxiv.org/abs/2109.08365v1 )

ライセンス: CC BY 4.0
Chenxiao Liu, Xiaojun Wan(参考訳) ソースコードの理解を目的として,自由形式の質問応答データセットであるcodeqaを提案する。 CodeQAには、119,778の問合せペアを持つJavaデータセットと、70,085の問合せペアを持つPythonデータセットが含まれている。 自然で忠実な質問や回答を得るために、構文ルールと意味分析を実装し、コードコメントを質問対に変換する。 本稿では,構築過程とデータセットの系統的解析を行う。 データセット上でのいくつかの神経ベースラインによる実験結果を示し,考察した。 質問応答と機械読解に関する研究は急速に進展するが、コード質問応答に注意を向ける先行研究はほとんどない。 この新しいデータセットは、ソースコード理解のための有用な研究ベンチマークとして機能する。

We propose CodeQA, a free-form question answering dataset for the purpose of source code comprehension: given a code snippet and a question, a textual answer is required to be generated. CodeQA contains a Java dataset with 119,778 question-answer pairs and a Python dataset with 70,085 question-answer pairs. To obtain natural and faithful questions and answers, we implement syntactic rules and semantic analysis to transform code comments into question-answer pairs. We present the construction process and conduct systematic analysis of our dataset. Experiment results achieved by several neural baselines on our dataset are shown and discussed. While research on question-answering and machine reading comprehension develops rapidly, few prior work has drawn attention to code question answering. This new dataset can serve as a useful research benchmark for source code comprehension.
翻訳日:2021-09-20 22:24:21 公開日:2021-09-17
# (参考訳) 視覚的注意予測のためのバイオインスパイアされたオーディオ・ビジュアルキュース統合

Bio-Inspired Audio-Visual Cues Integration for Visual Attention Prediction ( http://arxiv.org/abs/2109.08371v1 )

ライセンス: CC BY 4.0
Yuan Yuan, Hailong Ning, and Bin Zhao(参考訳) 視覚注意予測(VAP)手法は、視覚タスクにおいて重要かつ必須であるシーンを認識するための人間の選択的な注意機構をシミュレートする。 既存の手法のほとんどは視覚的な手がかりしか考慮していないが、付随する音声情報は無視し、シーンの理解に補完的な情報を提供できる。 実際、聴覚と視覚の手がかりの間には強い関係があり、人間はこれらの手がかりを同時に感知することで周囲のシーンを知覚する。 このことから,バイオインスパイアされた視覚情報統合手法がVAPタスクに提案され,視覚のモダリティを補助することで視覚の注意マップをより正確に予測するためのオーディオモダリティが検討されている。 提案手法は以下の3つの部分からなる。 1)音声視覚符号化 2)音声・視覚的位置、及び 3)複数キュー集約部。 まず,音質を改良したSoundNetアーキテクチャを採用し,空間的位置情報と時間的動き情報の両方を含む視覚的特徴を学習する3D ResNet-50アーキテクチャを改良した。 次に、オーディオ視覚情報間の対応を学習して、映像中の音源を特定するように、オーディオ視覚位置情報部を工夫する。 第3に、最終視覚注意マップを生成する前に、オーディオ視覚情報とセンタバイアスとを適応的に集約するマルチキュー集約部を考案する。 大規模な実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難解な視線追跡データセットで行われ、最先端の視覚的注意モデルよりも大幅に優れている。

Visual Attention Prediction (VAP) methods simulates the human selective attention mechanism to perceive the scene, which is significant and imperative in many vision tasks. Most existing methods only consider visual cues, while neglect the accompanied audio information, which can provide complementary information for the scene understanding. In fact, there exists a strong relation between auditory and visual cues, and humans generally perceive the surrounding scene by simultaneously sensing these cues. Motivated by this, a bio-inspired audio-visual cues integration method is proposed for the VAP task, which explores the audio modality to better predict the visual attention map by assisting vision modality. The proposed method consists of three parts: 1) audio-visual encoding, 2) audio-visual location, and 3) multi-cues aggregation parts. Firstly, a refined SoundNet architecture is adopted to encode audio modality for obtaining corresponding features, and a modified 3D ResNet-50 architecture is employed to learn visual features, containing both spatial location and temporal motion information. Secondly, an audio-visual location part is devised to locate the sound source in the visual scene by learning the correspondence between audio-visual information. Thirdly, a multi-cues aggregation part is devised to adaptively aggregate audio-visual information and center-bias prior to generate the final visual attention map. Extensive experiments are conducted on six challenging audiovisual eye-tracking datasets, including DIEM, AVAD, Coutrot1, Coutrot2, SumMe, and ETMD, which shows significant superiority over state-of-the-art visual attention models.
翻訳日:2021-09-20 22:08:46 公開日:2021-09-17
# (参考訳) PIRenderer: セマンティック・ニューラルレンダリングによる制御可能な画像生成

PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering ( http://arxiv.org/abs/2109.08379v1 )

ライセンス: CC BY 4.0
Yurui Ren and Ge Li and Yuanqi Chen and Thomas H. Li and Shan Liu(参考訳) 既存の顔の動きを制御してポートレート画像を生成することは、ソーシャルメディア産業にとって大きな成果をもたらす重要な課題である。 使いやすさと直感的な制御のためには、意味論的に意味があり、完全に不整合したパラメータを修正として使う必要がある。 しかし、既存の技術の多くは、そのような細かな制御や間接的な編集方法、すなわち他の個人の動きを模倣する手段を提供していない。 本稿では,3次元形態素顔モデル(3DMM)のパラメータを用いて顔の動きを制御するために,ポートレート画像ニューラルレンダ(PIRenderer)を提案する。 提案モデルでは,直観的な修正により正確な動きを持つフォトリアリスティックなポートレート画像を生成することができる。 直接的および間接的な編集タスクの実験は、このモデルの優位性を示している。 また,このモデルをさらに拡張し,音声入力から逐次動作を抽出することにより,音声駆動の表情再現タスクに取り組む。 本モデルは,単一の参照画像と駆動音声ストリームのみから,説得力のある動画を生成可能であることを示す。 ソースコードはhttps://github.com/RenYurui/PIRender.comで公開されています。

Generating portrait images by controlling the motions of existing faces is an important task of great consequence to social media industries. For easy use and intuitive control, semantically meaningful and fully disentangled parameters should be used as modifications. However, many existing techniques do not provide such fine-grained controls or use indirect editing methods i.e. mimic motions of other individuals. In this paper, a Portrait Image Neural Renderer (PIRenderer) is proposed to control the face motions with the parameters of three-dimensional morphable face models (3DMMs). The proposed model can generate photo-realistic portrait images with accurate movements according to intuitive modifications. Experiments on both direct and indirect editing tasks demonstrate the superiority of this model. Meanwhile, we further extend this model to tackle the audio-driven facial reenactment task by extracting sequential motions from audio inputs. We show that our model can generate coherent videos with convincing movements from only a single reference image and a driving audio stream. Our source code is available at https://github.com/RenYurui/PIRender.
翻訳日:2021-09-20 21:43:14 公開日:2021-09-17
# (参考訳) より近づくために: アスペクトを意見とリンクすることを学ぶ

To be Closer: Learning to Link up Aspects with Opinions ( http://arxiv.org/abs/2109.08382v1 )

ライセンス: CC BY 4.0
Yuxiang Zhou, Lejian Liao, Yang Gao, Zhanming Jie, Wei Lu(参考訳) 依存性解析木はアスペクトベース感情分析(ABSA)における意見語の検出に有用である。 しかし、オフザシェルフ依存パーサから得られる木は静的であり、ABSAでは準最適である可能性がある。 これは、構文木が意見語とアスペクト語の相互作用を捉えるように設計されていないためである。 本研究では,アスペクト中心のツリー構造を学習することで,アスペクトと対応する意見語の距離を短くすることを目的とする。 アスペクトと意見語は、標準的な依存構文木と比較して、そのような木構造に沿って近いことが期待される。 学習プロセスにより、木構造はアスペクトと意見語を適応的に相関させ、ABSAタスクの極性をよりよく識別することができる。 我々は5つの側面に基づく感情データセットの実験を行い、提案モデルは近年の強いベースラインを大きく上回っている。 さらに,本研究では,SemEval Restaurant14データセットにおいて,アスペクトと意見語の平均距離を少なくとも19%短縮することを示した。

Dependency parse trees are helpful for discovering the opinion words in aspect-based sentiment analysis (ABSA). However, the trees obtained from off-the-shelf dependency parsers are static, and could be sub-optimal in ABSA. This is because the syntactic trees are not designed for capturing the interactions between opinion words and aspect words. In this work, we aim to shorten the distance between aspects and corresponding opinion words by learning an aspect-centric tree structure. The aspect and opinion words are expected to be closer along such tree structure compared to the standard dependency parse tree. The learning process allows the tree structure to adaptively correlate the aspect and opinion words, enabling us to better identify the polarity in the ABSA task. We conduct experiments on five aspect-based sentiment datasets, and the proposed model significantly outperforms recent strong baselines. Furthermore, our thorough analysis demonstrates the average distance between aspect and opinion words are shortened by at least 19% on the standard SemEval Restaurant14 dataset.
翻訳日:2021-09-20 21:24:45 公開日:2021-09-17
# (参考訳) ガイド付き多視点可視化設計のためのセマンティックスナッピング

Semantic Snapping for Guided Multi-View Visualization Design ( http://arxiv.org/abs/2109.08384v1 )

ライセンス: CC0 1.0
Yngve S. Kristiansen, Laura Garrison and Stefan Bruckner(参考訳) 視覚情報ディスプレイは通常、基礎となるデータの理解を容易にするために使用される複数の視覚化で構成されている。 一般的な例としてダッシュボードがあり、金融、プロセス監視、ビジネスインテリジェンスといったドメインで頻繁に使用される。 しかし、ユーザーは既存のガイドラインを意識せず、そのようなマルチビューの視覚化を作成する際にエキスパートデザインの知識を欠いている可能性がある。 本稿では,非専門家が既存のビューのセットから効果的なマルチビューの可視化をデザインするための手法であるsemantic snappingを提案する。 特定のビューがキャンバス上に置かれる場合、それは、その幾何学的レイアウトではなく、データ次元がチャネルにどのようにマッピングされるかといった視覚的エンコーディング自体の側面に基づいて、残りのビューと"一致"する。 本手法では, コンフリクト, 誤解を招く, 曖昧な設計を検知し, 提案するためにオンザフライ方式を用い, 代替案の提案を行う。 このアプローチでは、ビジュアライゼーションを構成する際に遭遇する共通の落とし穴を避けるためにユーザを誘導することができる。 提案する事例と事例研究は,我々のアプローチの有用性と妥当性を示すものである。

Visual information displays are typically composed of multiple visualizations that are used to facilitate an understanding of the underlying data. A common example are dashboards, which are frequently used in domains such as finance, process monitoring and business intelligence. However, users may not be aware of existing guidelines and lack expert design knowledge when composing such multi-view visualizations. In this paper, we present semantic snapping, an approach to help non-expert users design effective multi-view visualizations from sets of pre-existing views. When a particular view is placed on a canvas, it is "aligned" with the remaining views -- not with respect to its geometric layout, but based on aspects of the visual encoding itself, such as how data dimensions are mapped to channels. Our method uses an on-the-fly procedure to detect and suggest resolutions for conflicting, misleading, or ambiguous designs, as well as to provide suggestions for alternative presentations. With this approach, users can be guided to avoid common pitfalls encountered when composing visualizations. Our provided examples and case studies demonstrate the usefulness and validity of our approach.
翻訳日:2021-09-20 21:08:12 公開日:2021-09-17
# (参考訳) 資本がないときに「ner and pos」を再現する

reproducing "ner and pos when nothing is capitalized" ( http://arxiv.org/abs/2109.08396v1 )

ライセンス: CC BY 4.0
Andreas Kuster, Jakub Filipek, Viswa Virinchi Muppirala(参考訳) キャピタライゼーションは、名前付きエンティティ認識(NER)や音声タグ(POS)など、多くのNLPタスクにおいて重要な機能である。 我々は、トレーニングデータとテストデータでケーシングがミスマッチした場合の大幅なパフォーマンス低下を緩和する方法を示す論文の結果を再現しようと試みている。 特に、データセットの50%を低くすることで、元の論文の主張と一致する最高のパフォーマンスが得られることを示す。 また、再現しようとする実験のほとんどすべてにおいて、パフォーマンスがわずかに低下していることを示し、パフォーマンスに影響を与える隠れた要因がいくつかある可能性を示唆した。 最後に、作業はすべてパブリックなgithubリポジトリで公開しています。

Capitalization is an important feature in many NLP tasks such as Named Entity Recognition (NER) or Part of Speech Tagging (POS). We are trying to reproduce results of paper which shows how to mitigate a significant performance drop when casing is mismatched between training and testing data. In particular we show that lowercasing 50% of the dataset provides the best performance, matching the claims of the original paper. We also show that we got slightly lower performance in almost all experiments we have tried to reproduce, suggesting that there might be some hidden factors impacting our performance. Lastly, we make all of our work available in a public github repository.
翻訳日:2021-09-20 20:49:47 公開日:2021-09-17
# (参考訳) 資源の再利用:日常的な問題解決から危機管理へ

Repurposing of Resources: from Everyday Problem Solving through to Crisis Management ( http://arxiv.org/abs/2109.08425v1 )

ライセンス: CC BY 4.0
Antonis Bikakis, Luke Dickens, Anthony Hunter, and Rob Miller(参考訳) 物体や過程を再利用する人間の能力は普遍的であるが、人間の知性のよく理解された側面ではない。 調理時の食材不足や、DIYの際の道具不足など、日常的な状況で再購入が行われる。 また、危機管理を必要とする前例のない危機的状況でも発生する。 自然災害の後、戦時中は、避難や食料の流通などに利用可能な材料や工程を再利用しなければならない。 再購入は、職業的生活(例えば、臨床医は、しばしばライセンス外から薬を再利用する)や社会的課題(例えば、廃品の新しい役割を見つけること)にも同様に重要である。 再購入の重要性にもかかわらず、この話題は学術的な注目を集めていない。 毎日の活動や薬物の補充、自然災害といった様々なドメインの例を考慮し、プロセスの原理的特徴を特定し、モデリングやシミュレーションに関わるいくつかの技術的な課題を記述した。 我々は、代替の事例、すなわち、不足するリソースの代替となるものを見つけること、および既存のリソースに対する新しい役割を特定することを考える。 これらのアイデアは, 汎用的な再資源化理論へと発展し, 実際に再資源化を支援するツールを開発するために, 常識的推論, 議論, 存在論的推論, および様々な機械学習手法に基づくAI手法の開発につながる可能性がある。

The human ability to repurpose objects and processes is universal, but it is not a well-understood aspect of human intelligence. Repurposing arises in everyday situations such as finding substitutes for missing ingredients when cooking, or for unavailable tools when doing DIY. It also arises in critical, unprecedented situations needing crisis management. After natural disasters and during wartime, people must repurpose the materials and processes available to make shelter, distribute food, etc. Repurposing is equally important in professional life (e.g. clinicians often repurpose medicines off-license) and in addressing societal challenges (e.g. finding new roles for waste products,). Despite the importance of repurposing, the topic has received little academic attention. By considering examples from a variety of domains such as every-day activities, drug repurposing and natural disasters, we identify some principle characteristics of the process and describe some technical challenges that would be involved in modelling and simulating it. We consider cases of both substitution, i.e. finding an alternative for a missing resource, and exploitation, i.e. identifying a new role for an existing resource. We argue that these ideas could be developed into general formal theory of repurposing, and that this could then lead to the development of AI methods based on commonsense reasoning, argumentation, ontological reasoning, and various machine learning methods, to develop tools to support repurposing in practice.
翻訳日:2021-09-20 20:40:46 公開日:2021-09-17
# (参考訳) エントロピーパワーの不等式を用いたシンクホーン距離の一般化されたタラグラン不等式

Generalized Talagrand Inequality for Sinkhorn Distance using Entropy Power Inequality ( http://arxiv.org/abs/2109.08430v1 )

ライセンス: CC BY 4.0
Shuchan Wang, Photios A. Stavrou and Mikael Skoglund(参考訳) 本稿では,エントロピー最適輸送とエントロピーパワーの不等式(EPI)の関係について検討する。 まず、最適輸送写像の無限小変位凸性を利用するHWI型不等式を証明する。 第二に、表現の数値項に対応するEPIの飽和度を用いて2つのタラグラッド型不等式を導出する。 この項は多種多様な分布に対して評価されるが、ガウス分布やコーシー分布の場合、この項は明示的な形で見られる。 本結果は,Sinkhorn 距離のガウス的タラグランド不等式を強い対数対数の場合に拡張することを示す。

In this paper, we study the connection between entropic optimal transport and entropy power inequality (EPI). First, we prove an HWI-type inequality making use of the infinitesimal displacement convexity of optimal transport map. Second, we derive two Talagrand-type inequalities using the saturation of EPI that corresponds to a numerical term in our expression. We evaluate for a wide variety of distributions this term whereas for Gaussian and i.i.d. Cauchy distributions this term is found in explicit form. We show that our results extend previous results of Gaussian Talagrand inequality for Sinkhorn distance to the strongly log-concave case.
翻訳日:2021-09-20 20:23:15 公開日:2021-09-17
# (参考訳) TS-MULE:時系列予測モデルに対する局所解釈可能なモデルに依存しない説明

TS-MULE: Local Interpretable Model-Agnostic Explanations for Time Series Forecast Models ( http://arxiv.org/abs/2109.08438v1 )

ライセンス: CC BY 4.0
Udo Schlegel, Duy Vo Lam, Daniel A. Keim, Daniel Seebacher(参考訳) 時系列予測は、最先端のパフォーマンスを達成するブラックボックスモデルによる天気から故障予測まで、必要なタスクである。 しかし、理解とデバッグは保証されない。 LIME アプローチを拡張する時系列に特有な局所代理モデル記述法である TS-MULE を提案する。 我々の拡張LIMEは時系列データを分割し摂動する様々な方法で動作します。 本稿では,サロゲートアトリビューションの品質を向上させるために,時系列の6つのサンプリングセグメンテーション手法を提案し,その性能を3つのディープラーニングモデルアーキテクチャと3つの共通多変量時系列データセットで実証する。

Time series forecasting is a demanding task ranging from weather to failure forecasting with black-box models achieving state-of-the-art performances. However, understanding and debugging are not guaranteed. We propose TS-MULE, a local surrogate model explanation method specialized for time series extending the LIME approach. Our extended LIME works with various ways to segment and perturb the time series data. In our extension, we present six sampling segmentation approaches for time series to improve the quality of surrogate attributions and demonstrate their performances on three deep learning model architectures and three common multivariate time series datasets.
翻訳日:2021-09-20 20:08:01 公開日:2021-09-17
# (参考訳) 自然言語による論理推論のためのニューラル統一

Neural Unification for Logic Reasoning over Natural Language ( http://arxiv.org/abs/2109.08460v1 )

ライセンス: CC BY 4.0
Gabriele Picco, Hoang Thanh Lam, Marco Luca Sbodio, Vanessa Lopez Garcia(参考訳) 自動定理証明 (automated theorem proving, atp) は、いくつかの予想(列)が一連の公理(事実と規則)の論理的帰結であることを示すことができるコンピュータプログラムの開発を扱う。 ATPはいくつかの成功し、予想と公理が正式に提供される(例えば、一階論理公式として形式化される)。 近年のアプローチ(clark et al., 2020)では、自然言語(英語)で表現された公理を導出するためのトランスフォーマーベースのアーキテクチャが提案されている。 この予想はバイナリテキスト分類器によって検証され、トランスフォーマーモデルは公理が与えられた予想の真理値を予測するように訓練される。 RuleTaker のアプローチ (Clark et al., 2020) は精度と一般化の両面で魅力的な結果をもたらし、モデルが十分に深いクエリ(少なくとも3つの推論ステップ)で訓練された場合、トランスフォーマーは最大5つの推論ステップを必要とするクエリの大多数 (97.6%) に正しく答えることができることを示した。 本研究では,よく知られた推論手順である後方連鎖法を模倣することで,モデルが浅いものにのみ訓練された場合でも,深い問い合わせに答えることができることを示す,一般化の観点で最先端結果を達成するニューラル・ユニファイザ(neural unifier)と相対的トレーニング手順を提案する。 このアプローチは、様々なベンチマークデータを用いた実験で実証されている。

Automated Theorem Proving (ATP) deals with the development of computer programs being able to show that some conjectures (queries) are a logical consequence of a set of axioms (facts and rules). There exists several successful ATPs where conjectures and axioms are formally provided (e.g. formalised as First Order Logic formulas). Recent approaches, such as (Clark et al., 2020), have proposed transformer-based architectures for deriving conjectures given axioms expressed in natural language (English). The conjecture is verified through a binary text classifier, where the transformers model is trained to predict the truth value of a conjecture given the axioms. The RuleTaker approach of (Clark et al., 2020) achieves appealing results both in terms of accuracy and in the ability to generalize, showing that when the model is trained with deep enough queries (at least 3 inference steps), the transformers are able to correctly answer the majority of queries (97.6%) that require up to 5 inference steps. In this work we propose a new architecture, namely the Neural Unifier, and a relative training procedure, which achieves state-of-the-art results in term of generalisation, showing that mimicking a well-known inference procedure, the backward chaining, it is possible to answer deep queries even when the model is trained only on shallow ones. The approach is demonstrated in experiments using a diverse set of benchmark data.
翻訳日:2021-09-20 19:59:54 公開日:2021-09-17
# (参考訳) GoG:ビジュアルダイアログのための関係対応グラフオーバーグラフネットワーク

GoG: Relation-aware Graph-over-Graph Network for Visual Dialog ( http://arxiv.org/abs/2109.08475v1 )

ライセンス: CC BY 4.0
Feilong Chen, Xiuyi Chen, Fandong Meng, Peng Li, Jie Zhou(参考訳) 与えられた画像について人間と有意義な会話をすることを目的としたビジュアルダイアログは、モデルが視覚コンテンツ、ダイアログ履歴、現在の質問に複雑な依存関係を推論する必要があるという課題である。 画像やダイアログ内のオブジェクト間の暗黙の関係をモデル化するために、グラフニューラルネットワークが最近適用されている。 しかし 彼らはその重要性を無視し 1) 対話履歴のコア参照関係と質問表現のための単語間の依存関係関係 2) 画像の表示は,完全表示された質問に基づいて行う。 そこで,視覚対話のための新しい関係対応グラフオーバーグラフネットワーク(GoG)を提案する。 具体的には、GoGは3つの連続グラフから構成される。 1) 対話履歴間の相互参照関係を捉えることを目的としたhグラフ 2) 対話履歴のコア参照解決に基づく単語間の係り受け関係の把握による質問の完全理解を目的とした歴史対応Qグラフ 3)完全な質問表現に基づく画像内のオブジェクト間の関係の把握を目的とした質問認識I-Graph。 追加の機能表現モジュールとして、既存の視覚対話モデルにGoGを追加します。 実験の結果, 生成的および判別的設定において, モデルが強いベースラインを上回ることがわかった。

Visual dialog, which aims to hold a meaningful conversation with humans about a given image, is a challenging task that requires models to reason the complex dependencies among visual content, dialog history, and current questions. Graph neural networks are recently applied to model the implicit relations between objects in an image or dialog. However, they neglect the importance of 1) coreference relations among dialog history and dependency relations between words for the question representation; and 2) the representation of the image based on the fully represented question. Therefore, we propose a novel relation-aware graph-over-graph network (GoG) for visual dialog. Specifically, GoG consists of three sequential graphs: 1) H-Graph, which aims to capture coreference relations among dialog history; 2) History-aware Q-Graph, which aims to fully understand the question through capturing dependency relations between words based on coreference resolution on the dialog history; and 3) Question-aware I-Graph, which aims to capture the relations between objects in an image based on fully question representation. As an additional feature representation module, we add GoG to the existing visual dialogue model. Experimental results show that our model outperforms the strong baseline in both generative and discriminative settings by a significant margin.
翻訳日:2021-09-20 19:44:34 公開日:2021-09-17
# (参考訳) 視覚対話生成のための視覚接地型マルチモーダルインクリメンタルトランス

Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation ( http://arxiv.org/abs/2109.08478v1 )

ライセンス: CC BY 4.0
Feilong Chen, Fandong Meng, Xiuyi Chen, Peng Li, Jie Zhou(参考訳) 視覚環境の理解に基づく一連の一貫性のある質問に答える必要があるため、視覚対話は難しい課題である。 これまでの研究では、空間的な画像特徴やオブジェクトレベルの画像特徴に暗黙的に関与することで、マルチモーダルなコリファレンスの暗黙的な探索に焦点を当てるが、テキストコンテンツのエンティティに関連付けられた視覚コンテンツに明示的にオブジェクトを配置することの重要性を無視している。 そこで本稿では, 視覚的グラウンドリングと多モードインクリメンタルトランスフォーマの2つの重要な部分からなるMITVGという, {\bf V}isual {\bf G} を包含した, {\bf M}ultimodal {\bf I}ncremental {\bf T}ransformerを提案する。 視覚的な接地は、テキストエンティティによって導かれる画像内の関連オブジェクトを明示的に特定することを目的としている。 マルチモーダルインクリメンタルトランスフォーマーは、対話の順序に応じて、多段的な対話履歴と視覚的なシーンをステップバイステップでエンコードし、文脈的かつ視覚的にコヒーレントな応答を生成する。 VisDial v0.9 と v1.0 のデータセットによる実験結果から,提案モデルが優れていることを示す。

Visual dialogue is a challenging task since it needs to answer a series of coherent questions on the basis of understanding the visual environment. Previous studies focus on the implicit exploration of multimodal co-reference by implicitly attending to spatial image features or object-level image features but neglect the importance of locating the objects explicitly in the visual content, which is associated with entities in the textual content. Therefore, in this paper we propose a {\bf M}ultimodal {\bf I}ncremental {\bf T}ransformer with {\bf V}isual {\bf G}rounding, named MITVG, which consists of two key parts: visual grounding and multimodal incremental transformer. Visual grounding aims to explicitly locate related objects in the image guided by textual entities, which helps the model exclude the visual content that does not need attention. On the basis of visual grounding, the multimodal incremental transformer encodes the multi-turn dialogue history combined with visual scene step by step according to the order of the dialogue and then generates a contextually and visually coherent response. Experimental results on the VisDial v0.9 and v1.0 datasets demonstrate the superiority of the proposed model, which achieves comparable performance.
翻訳日:2021-09-20 19:25:16 公開日:2021-09-17
# (参考訳) cardisort: クロスベンダーによる心臓mr画像の自動ソートのための畳み込みニューラルネットワーク

CardiSort: a convolutional neural network for cross vendor automated sorting of cardiac MR images ( http://arxiv.org/abs/2109.08479v1 )

ライセンス: CC BY 4.0
Ruth P Lim, Stefan Kachel, Adriana DM Villa, Leighton Kearney, Nuno Bettencourt, Alistair A Young, Amedeo Chiribiri, Cian M Scannell(参考訳) 目的: 臨床後処理効率を向上させるため, 心臓MRI画像のシーケンシャルタイプと画像平面で分類する画像ベース自動深層学習法を開発する。 方法: 多心室MRI検査は, 4センターと3ベンダーから回顧的に収集した。 画像配列(n=17)と平面(n=10)で35配列を分類する2頭畳み込みニューラルネットワーク('cardisort')を訓練した。 単一センター画像(n=234例)に対するsvt,マルチセンター画像(n=479例,3センター)を用いたマルチベンダ訓練(mvt)を行った。 モデル精度は,SVTおよびMVTの保持試験セットにおいて,専門の放射線技師による手動地上真実ラベルと比較した。 mvt (mvtexternal, mvtexternal) の外部検証は, 2 ベンダ (n=80 例) の未発見磁石システムから得られたデータを用いて行った。 結果: SVT (85.2%, 93.2%), MVT (96.5%, 98.1%) では, 高頻度および平面精度が観察された。 MVTexternalのシーケンス精度は92.7%、平面精度は93.0%であった。 一般的なシーケンスと従来の心臓面の精度は高かった。 灌流画像などの中心領域における取得パラメータの変動が大きいクラスやシーケンスに対して, 粗い精度が観察された。 結論: 深層学習ネットワークは,MRI研究をコンポーネントシーケンスと平面に分類し,外部の検証を行うために,マルチベンダデータに基づいて開発された。 改良によって、完全に自動化された後処理パイプラインにおける重要な第一歩である自動シーケンス選択を有効にすることで、ワークフローを改善する可能性がある。

Objectives: To develop an image-based automatic deep learning method to classify cardiac MR images by sequence type and imaging plane for improved clinical post-processing efficiency. Methods: Multi-vendor cardiac MRI studies were retrospectively collected from 4 centres and 3 vendors. A two-head convolutional neural network ('CardiSort') was trained to classify 35 sequences by imaging sequence (n=17) and plane (n=10). Single vendor training (SVT) on single centre images (n=234 patients) and multi-vendor training (MVT) with multicentre images (n = 479 patients, 3 centres) was performed. Model accuracy was compared to manual ground truth labels by an expert radiologist on a hold-out test set for both SVT and MVT. External validation of MVT (MVTexternal) was performed on data from 3 previously unseen magnet systems from 2 vendors (n=80 patients). Results: High sequence and plane accuracies were observed for SVT (85.2% and 93.2% respectively), and MVT (96.5% and 98.1% respectively) on the hold-out test set. MVTexternal yielded sequence accuracy of 92.7% and plane accuracy of 93.0%. There was high accuracy for common sequences and conventional cardiac planes. Poor accuracy was observed for underrepresented classes and sequences where there was greater variability in acquisition parameters across centres, such as perfusion imaging. Conclusions: A deep learning network was developed on multivendor data to classify MRI studies into component sequences and planes, with external validation. With refinement, it has potential to improve workflow by enabling automated sequence selection, an important first step in completely automated post-processing pipelines.
翻訳日:2021-09-20 19:09:32 公開日:2021-09-17
# (参考訳) 屋内マッピングのための深層強化と教師付き学習の統合

Integrating Deep Reinforcement and Supervised Learning to Expedite Indoor Mapping ( http://arxiv.org/abs/2109.08490v1 )

ライセンス: CC BY 4.0
Elchanan Zwecher, Eran Iceland, Sean R. Levy, Shmuel Y. Hayoun, Oren Gal, and Ariel Barel(参考訳) 屋内環境のマッピングの課題は解決される。 運動計画問題を解くための典型的なヒューリスティックアルゴリズムはフロンティアに基づく手法であり、環境が完全に未知である場合に特に有効である。 しかしながら、環境のアーキテクチャ的特徴に関する以前の統計データが利用可能である場合、そのようなアルゴリズムは最適とはほど遠い。 さらに、より多くの領域が露出するにつれて、計算時間が大幅に増加する可能性がある。 本稿では,これらの欠点を克服する2つの方法を提案する。 一つは、深層強化学習による運動プランナーの訓練である。 2つ目は、事前訓練された生成深部ニューラルネットワークがマップ予測器として機能することである。 それぞれが学習した環境構造統計を利用して意思決定を改善するのに役立ち、どちらもニューラルネットワークとして実現され、一定の計算時間を確保する。 両手法を組み合わせることで,フロンティアをベースとした移動計画に比べて最大75%短縮できることを示す。

The challenge of mapping indoor environments is addressed. Typical heuristic algorithms for solving the motion planning problem are frontier-based methods, that are especially effective when the environment is completely unknown. However, in cases where prior statistical data on the environment's architectonic features is available, such algorithms can be far from optimal. Furthermore, their calculation time may increase substantially as more areas are exposed. In this paper we propose two means by which to overcome these shortcomings. One is the use of deep reinforcement learning to train the motion planner. The second is the inclusion of a pre-trained generative deep neural network, acting as a map predictor. Each one helps to improve the decision making through use of the learned structural statistics of the environment, and both, being realized as neural networks, ensure a constant calculation time. We show that combining the two methods can shorten the mapping time, compared to frontier-based motion planning, by up to 75%.
翻訳日:2021-09-20 19:01:14 公開日:2021-09-17
# (参考訳) 目にするものと見えないもの - ロボットセンシングから蓄積した群集構造に迫る

What we see and What we don't see: Imputing Occluded Crowd Structures from Robot Sensing ( http://arxiv.org/abs/2109.08494v1 )

ライセンス: CC BY 4.0
Javad Amirian, Jean-Bernard Hayet, Julien Pettre(参考訳) 混み合った環境での移動ロボットのナビゲーションについて考察する。 我々は,ロボットの周囲の空間,盲点における人間の占有度を,知覚能力の範囲を超えて推定する問題に対処する。 この問題は、ロボットの群集のナビゲーション効率と安全性に重要な影響があるにもかかわらず、かなり未解決であり、周囲の群集状態の推定と予測を必要とする。 そこで本研究では,ロボットの周囲にいる感覚の少ない人々の状態や,群集活動のこれまでの観測に基づいて,人間の存在を推定する最初の方法を提案する。

We consider the navigation of mobile robots in crowded environments, for which onboard sensing of the crowd is typically limited by occlusions. We address the problem of inferring the human occupancy in the space around the robot, in blind spots, beyond the range of its sensing capabilities. This problem is rather unexplored in spite of the important impact it has on the robot crowd navigation efficiency and safety, which requires the estimation and the prediction of the crowd state around it. In this work, we propose the first solution to sample predictions of possible human presence based on the state of a fewer set of sensed people around the robot as well as previous observations of the crowd activity.
翻訳日:2021-09-20 18:49:31 公開日:2021-09-17
# (参考訳) 学習指標のマイクロアーキテクチャ解析

Micro-architectural Analysis of a Learned Index ( http://arxiv.org/abs/2109.08495v1 )

ライセンス: CC BY 4.0
Mikkel M{\o}ller Andersen, P{\i}nar T\"oz\"un(参考訳) 2018年にThe Case for Learned Index Structuresが出版されて以来、異なるドメインと異なる機能を持つ学習インデックスに焦点を当てた研究が増えている。 B+Treesのような従来のインデックス構造に代わる学習インデックスの有効性はすでにいくつかの研究で実証されているが、以前の研究はスループットやインデックスサイズといったハイレベルなパフォーマンス指標に重点を置いていた。 本稿では,従来の指標と比較して,学習指標が微構造レベルでどのように振る舞うかを深く研究することを目的とする。 具体的には、先述した学習インデックス構造であるalexに注目した。alexは、機械学習モデルの階層構造からなる、ツリーベースのインメモリインデックス構造である。 学習インデックスに関する当初の提案とは異なり、ALEXはアップデートと挿入を可能にするためにゼロから設計されている。 したがって、学習インデックスを使用して、よりダイナミックなワークロードを可能にする。 本研究では、ALEXの微構造解析を行い、その挙動を学習モデル(ARTとB+Tree)に基づいていない木に基づく指標構造と比較する。 以上の結果から,ALEXはメモリストールによってバインドされていることが明らかとなった。 ARTやB+Treeと比較して、ALEXはストールが少なく、異なるワークロード間でのインストラクションあたりのサイクル値が低い。 一方、ALEXのアウトオブバウンドインサートを処理するために必要なインストラクションの量は、書き込み重負荷に対するリクエスト毎の命令(10X)を大幅に増加させる可能性がある。 しかし、マイクロアーキテクチャの挙動は、この命令フットプリントの増加は高い命令レベルの並列性を示し、従って全体の実行時間に悪影響を及ぼさないことを示している。

Since the publication of The Case for Learned Index Structures in 2018, there has been a rise in research that focuses on learned indexes for different domains and with different functionalities. While the effectiveness of learned indexes as an alternative to traditional index structures such as B+Trees have already been demonstrated by several studies, previous work tend to focus on higher-level performance metrics such as throughput and index size. In this paper, our goal is to dig deeper and investigate how learned indexes behave at a micro-architectural level compared to traditional indexes. More specifically, we focus on previously proposed learned index structure ALEX, which is a tree-based in-memory index structure that consists of a hierarchy of machine learned models. Unlike the original proposal for learned indexes, ALEX is designed from the ground up to allow updates and inserts. Therefore, it enables more dynamic workloads using learned indexes. In this work, we perform a micro-architectural analysis of ALEX and compare its behavior to the tree-based index structures that are not based on learned models, i.e., ART and B+Tree. Our results show that ALEX is bound by memory stalls, mainly stalls due to data misses from the last-level cache. Compared to ART and B+Tree, ALEX exhibits fewer stalls and a lower cycles-per-instruction value across different workloads. On the other hand, the amount of instructions required to handle out-of-bound inserts in ALEX can increase the instructions needed per request significantly (10X) for write-heavy workloads. However, the micro-architectural behavior shows that this increase in the instruction footprint exhibit high instruction-level parallelism, and, therefore, does not negatively impact the overall execution time.
翻訳日:2021-09-20 18:37:10 公開日:2021-09-17
# (参考訳) ニューラルコモンセンス知識と記号論理則を用いた会話型マルチホップ推論

Conversational Multi-Hop Reasoning with Neural Commonsense Knowledge and Symbolic Logic Rules ( http://arxiv.org/abs/2109.08544v1 )

ライセンス: CC BY 4.0
Forough Arabshahi, Jennifer Lee, Antoine Bosselut, Yejin Choi, Tom Mitchell(参考訳) 会話エージェントが直面する課題の1つは、ユーザのコマンドの予測されていない推定を識別できないことである。 本稿では,これを実現するために,会話エージェントのためのゼロショットコモンセンス推論システムを提案する。 if-(state), then-(action), because-(goal) の一般的なテンプレートを満たすユーザコマンドからの無言の推測を明らかにする。 我々の推論者は、背景知識の源泉として、最先端のトランスフォーマーベースの生成コモンセンス知識ベース(KB)を使用している。 本稿では,シンボリック論理規則を用いて検索空間を大幅に削減するニューラルネットワークkbから,マルチホップ推論チェインを抽出するための,新しい反復的知識クエリ機構を提案する。 これまで集められたKBと同様、私たちの常識KBは知識の欠如がちです。 そこで本研究では,人間ユーザに対してコンテキスト型クエリを生成・提示する動的質問生成戦略により,不足した知識を対話的に人間ユーザから引き出す手法を提案する。 我々は,SOTAと比較して35%高い成功率を達成できるユーザによるユーザスタディにより,モデルを評価した。

One of the challenges faced by conversational agents is their inability to identify unstated presumptions of their users' commands, a task trivial for humans due to their common sense. In this paper, we propose a zero-shot commonsense reasoning system for conversational agents in an attempt to achieve this. Our reasoner uncovers unstated presumptions from user commands satisfying a general template of if-(state), then-(action), because-(goal). Our reasoner uses a state-of-the-art transformer-based generative commonsense knowledge base (KB) as its source of background knowledge for reasoning. We propose a novel and iterative knowledge query mechanism to extract multi-hop reasoning chains from the neural KB which uses symbolic logic rules to significantly reduce the search space. Similar to any KBs gathered to date, our commonsense KB is prone to missing knowledge. Therefore, we propose to conversationally elicit the missing knowledge from human users with our novel dynamic question generation strategy, which generates and presents contextualized queries to human users. We evaluate the model with a user study with human users that achieves a 35% higher success rate compared to SOTA.
翻訳日:2021-09-20 18:18:40 公開日:2021-09-17
# (参考訳) 生体情報抽出のためのスロット充填

Slot Filling for Biomedical Information Extraction ( http://arxiv.org/abs/2109.08564v1 )

ライセンス: CC BY 4.0
Yannis Papanikolaou, Francine Bennett(参考訳) テキストからの情報抽出(ie)とは、構造化されていないテキストから構造化された知識を抽出する作業を指す。 タスクは通常、名前付きエンティティ認識や関係抽出のような一連のサブタスクで構成される。 エンティティとリレーショナルタイプ固有のトレーニングデータをソーシングすることは、上記のサブタスクにおける大きなボトルネックである。本研究では、生物医学的ieのタスクにスロット充填アプローチを導入し、エンティティとリレーショナル特有のトレーニングデータの必要性を効果的に置き換え、ゼロショット設定の処理を可能にする。 本稿では,Tranformer ベースのバイエンコーダ Dense Passage Retrieval と Transformer ベースのリーダモデルを組み合わせることで,バイオメディカルテキストから関係を抽出する手法を提案する。 検索と読解の両方のための生体医学的スロット充填データセットを組み立て、我々のアプローチが多くの単純なベースラインを上回ることを示す一連の実験を行いました。 また、標準およびゼロショット設定のためのエンドツーエンドのアプローチも評価します。 私たちの研究は、関連するトレーニングデータがなくとも、生物医学的なieタスクの解決方法に関する新たな視点を提供します。 私たちのコード、モデル、事前訓練済みデータはhttps://github.com/healx/biomed-slot-filling.comで利用可能です。

Information Extraction (IE) from text refers to the task of extracting structured knowledge from unstructured text. The task typically consists of a series of sub-tasks such as Named Entity Recognition and Relation Extraction. Sourcing entity and relation type specific training data is a major bottleneck in the above sub-tasks.In this work we present a slot filling approach to the task of biomedical IE, effectively replacing the need for entity and relation-specific training data, allowing to deal with zero-shot settings. We follow the recently proposed paradigm of coupling a Tranformer-based bi-encoder, Dense Passage Retrieval, with a Transformer-based reader model to extract relations from biomedical text. We assemble a biomedical slot filling dataset for both retrieval and reading comprehension and conduct a series of experiments demonstrating that our approach outperforms a number of simpler baselines. We also evaluate our approach end-to-end for standard as well as zero-shot settings. Our work provides a fresh perspective on how to solve biomedical IE tasks, in the absence of relevant training data. Our code, models and pretrained data are available at https://github.com/healx/biomed-slot-filling.
翻訳日:2021-09-20 17:58:57 公開日:2021-09-17
# (参考訳) 不均衡データセットに対する自己監督型ニューラルネットワーク探索

Self-Supervised Neural Architecture Search for Imbalanced Datasets ( http://arxiv.org/abs/2109.08580v1 )

ライセンス: CC BY-SA 4.0
Aleksandr Timofeev, Grigorios G. Chrysos, Volkan Cevher(参考訳) neural architecture search (nas)は、アノテートされたラベル付きデータセットでトレーニングされた場合、最先端の結果を提供する。 しかし、データの注釈付けやサンプルのバランスの取れた数さえも、医学領域など、さまざまな分野の実践者にとって豪華である。 そのために,3倍のコントリビューションを持つNASベースのフレームワークを提案する。 (a) 自己組織化シナリオ、すなわちアーキテクチャを決定するためにラベルを必要としないことに焦点を当て、 b)データセットが不均衡であると仮定する。 (c) リソース制約されたセットアップ、すなわち単一のGPU(例えばGoogle Colab)上で実行できるように、各コンポーネントを設計する。 我々のコンポーネントは、近年の自己教師型学習 -\citep{zbontar2021barlow}、自己教師型NAS~\citep{kaplan2020self}の上に構築され、不均衡データセットの場合、それらを拡張します。 我々は,CIFAR-10の不均衡なバージョンに対して実験を行い,提案手法が標準的なニューラルネットワークより優れていることを示す。 自然に不均衡なデータセットに対する仮定を検証するために、ChestMNISTとCOVID-19 X線の実験も行います。 結果は,提案手法が不均衡なデータセットでどのように使用できるかを示すとともに,単一のGPU上で完全に動作可能であることを示す。 コードは href{https://github.com/TimofeevAlex/ssnas_im Balanced}{here} で入手できる。

Neural Architecture Search (NAS) provides state-of-the-art results when trained on well-curated datasets with annotated labels. However, annotating data or even having balanced number of samples can be a luxury for practitioners from different scientific fields, e.g., in the medical domain. To that end, we propose a NAS-based framework that bears the threefold contributions: (a) we focus on the self-supervised scenario, i.e., where no labels are required to determine the architecture, and (b) we assume the datasets are imbalanced, (c) we design each component to be able to run on a resource constrained setup, i.e., on a single GPU (e.g. Google Colab). Our components build on top of recent developments in self-supervised learning~\citep{zbontar2021barlow}, self-supervised NAS~\citep{kaplan2020self} and extend them for the case of imbalanced datasets. We conduct experiments on an (artificially) imbalanced version of CIFAR-10 and we demonstrate our proposed method outperforms standard neural networks, while using $27\times$ less parameters. To validate our assumption on a naturally imbalanced dataset, we also conduct experiments on ChestMNIST and COVID-19 X-ray. The results demonstrate how the proposed method can be used in imbalanced datasets, while it can be fully run on a single GPU. Code is available \href{https://github.com/TimofeevAlex/ssnas_imbalanced}{here}.
翻訳日:2021-09-20 17:48:09 公開日:2021-09-17
# (参考訳) シングルビデオから生成可能なディバース生成

Diverse Generation from a Single Video Made Possible ( http://arxiv.org/abs/2109.08591v1 )

ライセンス: CC BY 4.0
Niv Haim, Ben Feinstein, Niv Granot, Assaf Shocher, Shai Bagon, Tali Dekel, Michal Irani(参考訳) 最も高度なビデオ生成および操作方法は、大量のビデオのコレクションで訓練される。 そのため、トレーニング中のビデオダイナミクスの種類に制限される。 この制限を克服するために、単一のビデオでトレーニングされたGANが最近提案された。 これらは、多様なビデオダイナミックスに柔軟性を提供するが、単一の小さなインプットビデオのトレーニングには数日を要するため、現実的ではない。 本稿では,1つの自然なビデオから高速かつ実用的なビデオ生成と操作を行う手法を提案する。 本手法はフルhdビデオクリップにも数分以内に適用できる。 我々のアプローチは、最近の高度なパッチアレスト近傍アプローチ [Granot et al. 2021] にインスパイアされ、実行時と視覚的品質の両方において、シングルイメージのGANを著しく上回りました。 ここでは,このアプローチを画像からビデオに一般化し,従来の時空パッチベース手法を新たな生成的ビデオモデルとして採用する。 生成した画像パッチを近接するアプローチに適応し、一本の動画で大量の時空パッチに効率よく対処する。 本手法は, 単一ビデオGANよりもリアルで高品質な結果を生成する(定量的, 質的評価による確認)。 さらに、不均等に高速である(実行時間は数日から秒に短縮される)。 多様なビデオ生成以外にも,時空間ビデオの再ターゲティング,映像構造アナロジー,条件付きビデオインペインティングなど,いくつかの難解なビデオ応用例を示す。

Most advanced video generation and manipulation methods train on a large collection of videos. As such, they are restricted to the types of video dynamics they train on. To overcome this limitation, GANs trained on a single video were recently proposed. While these provide more flexibility to a wide variety of video dynamics, they require days to train on a single tiny input video, rendering them impractical. In this paper we present a fast and practical method for video generation and manipulation from a single natural video, which generates diverse high-quality video outputs within seconds (for benchmark videos). Our method can be further applied to Full-HD video clips within minutes. Our approach is inspired by a recent advanced patch-nearest-neighbor based approach [Granot et al. 2021], which was shown to significantly outperform single-image GANs, both in run-time and in visual quality. Here we generalize this approach from images to videos, by casting classical space-time patch-based methods as a new generative video model. We adapt the generative image patch nearest neighbor approach to efficiently cope with the huge number of space-time patches in a single video. Our method generates more realistic and higher quality results than single-video GANs (confirmed by quantitative and qualitative evaluations). Moreover, it is disproportionally faster (runtime reduced from several days to seconds). Other than diverse video generation, we demonstrate several other challenging video applications, including spatio-temporal video retargeting, video structural analogies and conditional video-inpainting.
翻訳日:2021-09-20 17:36:13 公開日:2021-09-17
# (参考訳) スペイン語の語彙借入分類におけるSTILTsの有用性

The futility of STILTs for the classification of lexical borrowings in Spanish ( http://arxiv.org/abs/2109.08607v1 )

ライセンス: CC BY 4.0
Javier de la Rosa(参考訳) IberLEF 2021の第1版は、スペインの報道機関に出現し、最近スペイン語に輸入された語彙的借入を検出することに焦点を当てた借入の自動検出(ADoBo)タスクを共有した。 本研究では,既存の事前学習型トランスフォーマーベース言語モデルを用いて,中間ラベル付きデータタスク(STILT)を音声(POS)の一部,名前付きエンティティ認識(NER),コードスイッチング,およびトークンレベルでの借入の分類に対する言語識別アプローチから補修訓練を行った。 実験結果から,STILTは多言語モデルを直接微調整するよりも改良されていないことが示唆された。 しかし、少数の言語のサブセットで訓練された多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。

The first edition of the IberLEF 2021 shared task on automatic detection of borrowings (ADoBo) focused on detecting lexical borrowings that appeared in the Spanish press and that have recently been imported into the Spanish language. In this work, we tested supplementary training on intermediate labeled-data tasks (STILTs) from part of speech (POS), named entity recognition (NER), code-switching, and language identification approaches to the classification of borrowings at the token level using existing pre-trained transformer-based language models. Our extensive experimental results suggest that STILTs do not provide any improvement over direct fine-tuning of multilingual models. However, multilingual models trained on small subsets of languages perform reasonably better than multilingual BERT but not as good as multilingual RoBERTa for the given dataset.
翻訳日:2021-09-20 17:19:10 公開日:2021-09-17
# (参考訳) データ駆動型オフポリシー推定器の選択:オンラインコンテンツ配信サービスにおけるユーザマーケティングの応用

Data-Driven Off-Policy Estimator Selection: An Application in User Marketing on An Online Content Delivery Service ( http://arxiv.org/abs/2109.08621v1 )

ライセンス: CC BY 4.0
Yuta Saito, Takuma Udagawa, and Kei Tateno(参考訳) オフ政治評価(Off-policy Evaluation、OPE)とは、オンラインA/Bテストを行うことなく、異なる政策によって生成された歴史的データを用いて意思決定ポリシーのパフォーマンスを推定する手法である。 正確なOPEは、医療、マーケティング、レコメンデータシステムといった分野において、人間の生活を損なったり、ユーザーエクスペリエンスを損なうような、貧弱な実行ポリシーの展開を避けるために不可欠である。 したがって、理論的背景を持つ多くのOPE手法が提案されている。 このトレンドに対する新たな課題のひとつは、アプリケーション設定毎に適切な推定器が異なる可能性があることだ。 特定の用途や目的のために使用すると見積もる実践者にとって、しばしば不明である。 多くの候補の中から適切な推定値を求めるために,データ駆動型推定値選択手法を用いて,政策外の業績推定値を求める。 概念実証として,実世界のオンラインコンテンツ配信サービス上でクーポン処理ポリシーを評価するための最適な推定器を選択する。 実験では,結果変数の異なる定義で適切な推定器が変化しうることを最初に観察し,OPEの実世界の応用において正確な推定器選択が重要であることを示した。 そして, 推定器選択手法を用いて, 各目的に適した推定器を容易に発見できることを実証した。

Off-policy evaluation (OPE) is the method that attempts to estimate the performance of decision making policies using historical data generated by different policies without conducting costly online A/B tests. Accurate OPE is essential in domains such as healthcare, marketing or recommender systems to avoid deploying poor performing policies, as such policies may hart human lives or destroy the user experience. Thus, many OPE methods with theoretical backgrounds have been proposed. One emerging challenge with this trend is that a suitable estimator can be different for each application setting. It is often unknown for practitioners which estimator to use for their specific applications and purposes. To find out a suitable estimator among many candidates, we use a data-driven estimator selection procedure for off-policy policy performance estimators as a practical solution. As proof of concept, we use our procedure to select the best estimator to evaluate coupon treatment policies on a real-world online content delivery service. In the experiment, we first observe that a suitable estimator might change with different definitions of the outcome variable, and thus the accurate estimator selection is critical in real-world applications of OPE. Then, we demonstrate that, by utilizing the estimator selection procedure, we can easily find out suitable estimators for each purpose.
翻訳日:2021-09-20 17:11:38 公開日:2021-09-17
# (参考訳) 分類に基づく品質推定: 実世界のアプリケーションのための小さく効率的なモデル

Classification-based Quality Estimation: Small and Efficient Models for Real-world Applications ( http://arxiv.org/abs/2109.08627v1 )

ライセンス: CC BY 4.0
Shuo Sun, Ahmed El-Kishky, Vishrav Chaudhary, James Cross, Francisco Guzm\'an, Lucia Specia(参考訳) 機械翻訳の文レベル品質評価(QE)は、伝統的に回帰タスクとして定式化されており、QEモデルの性能は、典型的にはピアソンと人間のラベルの相関によって測定される。 近年のQEモデルは、人間の判断と従来見られなかったレベルの相関を達成しているが、計算コストが高く、現実のアプリケーションでは利用できないような、多言語対応の言語モデルに依存している。 本研究では,QE のモデル圧縮手法の評価を行い,他の NLP タスクに人気があるにもかかわらず,この回帰環境では性能が劣ることを示した。 回帰タスクにおいてsoma結果を達成するためには,全モデルパラメータ化が必要となる。 しかしながら、qeの下流への応用を考えると、連続範囲でのモデルの表現力のレベルは不要であり、qeを分類問題として再フレーミングし、分類メトリクスを用いたqeモデルを評価することは、実世界のアプリケーションにおける実際のパフォーマンスをよりよく反映することを示している。

Sentence-level Quality estimation (QE) of machine translation is traditionally formulated as a regression task, and the performance of QE models is typically measured by Pearson correlation with human labels. Recent QE models have achieved previously-unseen levels of correlation with human judgments, but they rely on large multilingual contextualized language models that are computationally expensive and make them infeasible for real-world applications. In this work, we evaluate several model compression techniques for QE and find that, despite their popularity in other NLP tasks, they lead to poor performance in this regression setting. We observe that a full model parameterization is required to achieve SoTA results in a regression task. However, we argue that the level of expressiveness of a model in a continuous range is unnecessary given the downstream applications of QE, and show that reframing QE as a classification problem and evaluating QE models using classification metrics would better reflect their actual performance in real-world applications.
翻訳日:2021-09-20 17:07:54 公開日:2021-09-17
# (参考訳) ディープラーニングを用いた自律視覚に基づく衝突回避型uav着陸

Autonomous Vision-based UAV Landing with Collision Avoidance using Deep Learning ( http://arxiv.org/abs/2109.08628v1 )

ライセンス: CC BY 4.0
Tianpei Liao, Amal Haridevan, Yibo Liu, Jinjun Shan(参考訳) 複数のUAVが同じプラットフォーム上で通信することなく同時に着陸する際に衝突するリスクがある。 この研究は、視覚に基づく自律着陸を実現し、深層学習に基づく手法を用いて着陸過程における衝突回避を実現する。

There is a risk of collision when multiple UAVs land simultaneously without communication on the same platform. This work accomplishes vision-based autonomous landing and uses a deep-learning-based method to realize collision avoidance during the landing process.
翻訳日:2021-09-20 16:53:39 公開日:2021-09-17
# (参考訳) 接地型自然言語命令:大規模言語モデルは空間情報をキャプチャできるか?

Grounding Natural Language Instructions: Can Large Language Models Capture Spatial Information? ( http://arxiv.org/abs/2109.08634v1 )

ライセンス: CC BY 4.0
Julia Rozanova, Deborah Ferreira, Krishna Dubba, Weiwei Cheng, Dell Zhang, Andre Freitas(参考訳) インテリジェントなプロセス自動化のために設計されたモデルは、ユーザーインターフェイス要素をグラウンド化できることが要求される。 このインタフェース要素の接地作業は、自然言語の命令を対象の参照元にリンクすることに集中する。 BERTや類似のトレーニング済み言語モデルは、いくつかのNLPタスクで優れているが、UIグラウンドドメインでは広く研究されていない。 この研究は、BERT、RoBERTa、LayoutLMの3つのトランスフォーマーベースモデルのグラウンドディング能力のテストと検証に重点を置いている。 私たちの主な焦点は、これらのモデルの空間的推論スキルである。 学習された空間機能は、特に自然言語命令でターゲットの方向を識別する能力を示すため、uiの接地設定に転送可能であるように見える。

Models designed for intelligent process automation are required to be capable of grounding user interface elements. This task of interface element grounding is centred on linking instructions in natural language to their target referents. Even though BERT and similar pre-trained language models have excelled in several NLP tasks, their use has not been widely explored for the UI grounding domain. This work concentrates on testing and probing the grounding abilities of three different transformer-based models: BERT, RoBERTa and LayoutLM. Our primary focus is on these models' spatial reasoning skills, given their importance in this domain. We observe that LayoutLM has a promising advantage for applications in this domain, even though it was created for a different original purpose (representing scanned documents): the learned spatial features appear to be transferable to the UI grounding setting, especially as they demonstrate the ability to discriminate between target directions in natural language instructions.
翻訳日:2021-09-20 16:48:30 公開日:2021-09-17
# (参考訳) 不特定商品を戦略エージェントに割り当てる:純ナッシュ均衡と公正

Allocating Indivisible Goods to Strategic Agents: Pure Nash Equilibria and Fairness ( http://arxiv.org/abs/2109.08644v1 )

ライセンス: CC BY 4.0
Georgios Amanatidis, Georgios Birmpas, Federico Fusco, Philip Lazos, Stefano Leonardi, Rebecca Reiffenh\"auser(参考訳) 我々は,付加価値関数を持つ戦略エージェント群に対して,不可分な商品群を公平に割り当てる問題を考える。 したがって、私たちの設定のメカニズムは、エージェントの本当の値ではなく、報告された値を入力するアルゴリズムであると仮定します。 私たちの主な目標は、すべてのインスタンスに対して純粋なnash平衡を持つメカニズムが存在するか、同時に、これらの平衡に対応する割り当てに対する公平性保証を提供するかを検討することです。 本研究は,1つの善(EF1)まで,1つの善(EFX)まで,うらやましい自由(EF1)の2つの緩和に焦点を合わせ,上記の疑問に肯定的に答える。 特に,非ストラテジックな設定でそのようなアロケーションを生成することが知られているアルゴリズムとして,ラウンドロビン (EF1 のエージェントの割り当て) とプラウトとラフガーデンのカット・アンド・チョースアルゴリズム (SIAM Journal of Discrete Mathematics, 2020) がある。 ラウンドロビンでは、全ての純粋なナッシュ平衡が、根底にある真の値に関してEF1であるアロケーションを誘導するのに対し、プラウトとラフガーデンのアルゴリズムでは、対応するアロケーションは EFX だけでなく、非ストラテジックな設定では、このアルゴリズムには当てはまらない最大シェアフェアネスを満たすことを示す。 さらに、後者の結果の弱いバージョンは、すべてのefx割り当てを誘導する純粋なnash平衡を常に有する2つのエージェントの任意のメカニズムを保持できることを示した。

We consider the problem of fairly allocating a set of indivisible goods to a set of strategic agents with additive valuation functions. We assume no monetary transfers and, therefore, a mechanism in our setting is an algorithm that takes as input the reported -- rather than the true -- values of the agents. Our main goal is to explore whether there exist mechanisms that have pure Nash equilibria for every instance and, at the same time, provide fairness guarantees for the allocations that correspond to these equilibria. We focus on two relaxations of envy-freeness, namely envy-freeness up to one good (EF1), and envy-freeness up to any good (EFX), and we positively answer the above question. In particular, we study two algorithms that are known to produce such allocations in the non-strategic setting: Round-Robin (EF1 allocations for any number of agents) and a cut-and-choose algorithm of Plaut and Roughgarden [SIAM Journal of Discrete Mathematics, 2020] (EFX allocations for two agents). For Round-Robin we show that all of its pure Nash equilibria induce allocations that are EF1 with respect to the underlying true values, while for the algorithm of Plaut and Roughgarden we show that the corresponding allocations not only are EFX but also satisfy maximin share fairness, something that is not true for this algorithm in the non-strategic setting! Further, we show that a weaker version of the latter result holds for any mechanism for two agents that always has pure Nash equilibria which all induce EFX allocations.
翻訳日:2021-09-20 16:38:15 公開日:2021-09-17
# (参考訳) ガウスマルコフ確率場に基づくミニマックス凹ペナルティによるスパースグラフの学習

Learning Sparse Graph with Minimax Concave Penalty under Gaussian Markov Random Fields ( http://arxiv.org/abs/2109.08666v1 )

ライセンス: CC BY 4.0
Tatsuya Koyakumaru, Masahiro Yukawa, Eduardo Pavez, and Antonio Ortega(参考訳) 本稿では,データからスパースグラフを学ぶための凸解析フレームワークを提案する。 我々の問題定式化は、いわゆる組合せグラフラプラシアンフレームワークを用いたグラフィカルラッソの拡張に触発されているが、重要な違いは、より解釈性の良いグラフを得るために$\ell_1$ノルムの代わりに非凸を用いることである。 具体的には、回帰問題に対して$\ell_1$よりも低い推定バイアスでスパース解が得られることが知られている弱凸ミニマックス円錐ペナルティ($\ell_1$ノルムとHuber関数の差)を用いる。 このフレームワークでは、グラフラプラシアンは、その上三角部分に対応するベクトルの線型変換によって、最適化において置き換えられる。 モローの分解に依存した再構成により、コスト関数に二次関数を導入することで全体の凸性が保証されることを示す。 この問題は、証明可能な収束の許容条件を示す原始二分割法によって効率よく解ける。 数値的な例では、提案手法は、既存のグラフ学習法をCPU時間で大幅に上回っている。

This paper presents a convex-analytic framework to learn sparse graphs from data. While our problem formulation is inspired by an extension of the graphical lasso using the so-called combinatorial graph Laplacian framework, a key difference is the use of a nonconvex alternative to the $\ell_1$ norm to attain graphs with better interpretability. Specifically, we use the weakly-convex minimax concave penalty (the difference between the $\ell_1$ norm and the Huber function) which is known to yield sparse solutions with lower estimation bias than $\ell_1$ for regression problems. In our framework, the graph Laplacian is replaced in the optimization by a linear transform of the vector corresponding to its upper triangular part. Via a reformulation relying on Moreau's decomposition, we show that overall convexity is guaranteed by introducing a quadratic function to our cost function. The problem can be solved efficiently by the primal-dual splitting method, of which the admissible conditions for provable convergence are presented. Numerical examples show that the proposed method significantly outperforms the existing graph learning methods with reasonable CPU time.
翻訳日:2021-09-20 15:54:31 公開日:2021-09-17
# (参考訳) 対話における制約のないユーザ嗜好の取り扱い

Towards Handling Unconstrained User Preferences in Dialogue ( http://arxiv.org/abs/2109.08650v1 )

ライセンス: CC BY 4.0
Suraj Pandey, Svetlana Stoyanchev, Rama Doddipatla(参考訳) 場所探索のようなスキーマ駆動の対話情報ナビゲーションシステムに入力されるユーザは通常、データベースフィールドに対応する予め定義された好みのセットまたはスロットを指定することを制限する基礎となるデータベースによって制限される。 ユーザが予め定義されたスキーマにマッチしない制約のない好みを指定する柔軟性を持つ、より自然な情報ナビゲーション対話インターフェースを想定する。 ユーザ要求に関連するエンティティを識別するために,構造化されていない知識からの情報検索を提案する。 我々は、ケンブリッジのレストランデータベースを、各レストランについて構造化されていない知識スニペット(Webからのレビューと情報)で更新し、関連ラベルと一連のクエリスニペットペアに注釈を付ける。 アノテーション付きデータセットを用いてスニペット関連分類器の訓練と評価を行い、推奨精度を評価する。 プリトレーニングトランスモデルをエンコーダとして、教師なし/教師なし分類器が.661/.856の重み付けf1を達成することを示す。

A user input to a schema-driven dialogue information navigation system, such as venue search, is typically constrained by the underlying database which restricts the user to specify a predefined set of preferences, or slots, corresponding to the database fields. We envision a more natural information navigation dialogue interface where a user has flexibility to specify unconstrained preferences that may not match a predefined schema. We propose to use information retrieval from unstructured knowledge to identify entities relevant to a user request. We update the Cambridge restaurants database with unstructured knowledge snippets (reviews and information from the web) for each of the restaurants and annotate a set of query-snippet pairs with a relevance label. We use the annotated dataset to train and evaluate snippet relevance classifiers, as a proxy to evaluating recommendation accuracy. We show that with a pretrained transformer model as an encoder, an unsupervised/supervised classifier achieves a weighted F1 of .661/.856.
翻訳日:2021-09-20 15:24:12 公開日:2021-09-17
# (参考訳) 命題応答集合プログラムのための集合意味論

Aggregate Semantics for Propositional Answer Set Programs ( http://arxiv.org/abs/2109.08662v1 )

ライセンス: CC BY 4.0
Mario Alviano, Wolfgang Faber, Martin Gebser(参考訳) Answer Set Programming (ASP)は、知識表現と推論のパラダイムとして1990年代後半に登場した。 ASPの魅力は、強力なオフザシェルフ解決システムとともに、表現力のあるハイレベルモデリング言語の上に構築されます。 モデリング言語に集約式を組み込むユーティリティは、最初のASP解決システムの開始とほぼ同時に実現されているが、集約の一般的な意味論とその効率的な実装は長年にわたる課題であった。 集約は、データベースシステムや、asp.net .net の主要な前駆体の一つであるデダクティブデータベース言語であるdatalogで提案され、広く使われている。 しかし、アグリゲーションの使用は、まだDatalogで制限されていた(再帰を許可するか、モノトンアグリゲーションのみを許可する)が、ASP.NETのコンテキストにおいて、いくつかの制限のないアグリゲーションを統合する方法は進化した。 本調査では,提案するASPプログラムに対して提案された主要な集合的セマンティクスを提示し,比較することにより,開発現場で取り上げる。 計算複雑性や表現力といった重要な性質を強調し,説明例によって異なるアプローチの能力と限界を概説する。

Answer Set Programming (ASP) emerged in the late 1990ies as a paradigm for Knowledge Representation and Reasoning. The attractiveness of ASP builds on an expressive high-level modeling language along with the availability of powerful off-the-shelf solving systems. While the utility of incorporating aggregate expressions in the modeling language has been realized almost simultaneously with the inception of the first ASP solving systems, a general semantics of aggregates and its efficient implementation have been long-standing challenges. Aggregates have been proposed and widely used in database systems, and also in the deductive database language Datalog, which is one of the main precursors of ASP. The use of aggregates was, however, still restricted in Datalog (by either disallowing recursion or only allowing monotone aggregates), while several ways to integrate unrestricted aggregates evolved in the context of ASP. In this survey, we pick up at this point of development by presenting and comparing the main aggregate semantics that have been proposed for propositional ASP programs. We highlight crucial properties such as computational complexity and expressive power, and outline the capabilities and limitations of different approaches by illustrative examples.
翻訳日:2021-09-20 15:07:29 公開日:2021-09-17
# 言語モデル圧縮のための拡張言語文脈

Distilling Linguistic Context for Language Model Compression ( http://arxiv.org/abs/2109.08359v1 )

ライセンス: Link先を確認
Geondo Park, Gyeongman Kim, Eunho Yang(参考訳) 計算コストが高くメモリ集約型ニューラルネットワークは、最近の言語表現学習の成功の背後にある。 知識蒸留は、資源不足の環境でそのような広大な言語モデルを展開するための主要な技術であり、知識を制約なく学習した個々の単語表現に伝達する。 本稿では,言語表現が相対的に位置付けられ,全体として意味的知識を持つという最近の観察に触発されて,文脈的知識を表現の2つのタイプである単語関係と層変換関係を通じて伝達する,言語表現学習のための新たな知識蒸留目標を提案する。 言語モデルの他の蒸留技術とは異なり、我々の文脈蒸留は教師と学生の間の建築的変化に何の制約も与えていない。 提案手法は,様々な大きさのアーキテクチャだけでなく,最近提案されている適応サイズプルーニング手法であるdynabertと組み合わせて,言語理解タスクの難解なベンチマークにおいて有効であることを検証した。

A computationally expensive and memory intensive neural network lies behind the recent success of language representation learning. Knowledge distillation, a major technique for deploying such a vast language model in resource-scarce environments, transfers the knowledge on individual word representations learned without restrictions. In this paper, inspired by the recent observations that language representations are relatively positioned and have more semantic knowledge as a whole, we present a new knowledge distillation objective for language representation learning that transfers the contextual knowledge via two types of relationships across representations: Word Relation and Layer Transforming Relation. Unlike other recent distillation techniques for the language models, our contextual distillation does not have any restrictions on architectural changes between teacher and student. We validate the effectiveness of our method on challenging benchmarks of language understanding tasks, not only in architectures of various sizes, but also in combination with DynaBERT, the recently proposed adaptive size pruning method.
翻訳日:2021-09-20 14:53:38 公開日:2021-09-17
# Primer: 言語モデリングのための効率的なトランスフォーマーの探索

Primer: Searching for Efficient Transformers for Language Modeling ( http://arxiv.org/abs/2109.08668v1 )

ライセンス: Link先を確認
David R. So, Wojciech Ma\'nke, Hanxiao Liu, Zihang Dai, Noam Shazeer, Quoc V. Le(参考訳) 大規模トランスフォーマーモデルは、近年の自然言語処理の進歩の中心である。 しかし、これらのモデルのトレーニングと推論コストは急速に増加し、違法に高価になっている。 ここでは、より効率的な変種を探すことにより、トランスフォーマーのコストを削減することを目的とする。 従来の手法と比較して、我々の検索はTransformer TensorFlowプログラムを定義するプリミティブよりも低いレベルで実行される。 我々は、オリジナルのトランスフォーマーや他の自動回帰言語モデリングの変種よりも少ないトレーニングコストを持つアーキテクチャである primer を特定した。 プライマーの改良は主に、ReLUアクティベーションを近似し、Q、K、Vの各投射に深い畳み込み層を追加するという2つの単純な修正によるものである。 実験では、計算規模が大きくなるにつれて変圧器に対するプライマーの利益が増大し、最適なモデルサイズにおける品質に関してパワー法則に従うことが示されている。 また、Primerを異なるコードベースにドロップして、追加のチューニングなしでトレーニングを大幅にスピードアップできることを実証的に検証しています。 例えば、500Mのパラメータサイズで、PrimerはC4の自動回帰言語モデリングのオリジナルのT5アーキテクチャを改善し、トレーニングコストを4倍に削減した。 さらに、訓練コストの低減は、プライマーが目標とするワンショット性能に到達するために計算量を大幅に削減することを意味する。 例えば、GPT-3 XLと同様の1.9Bパラメータ設定では、Primerはトレーニング計算の1/3を使用してTransformerと同じワンショットのパフォーマンスを達成する。 私たちは、再現性を支援するために、私たちのモデルといくつかの比較をT5でオープンソースにしています。

Large Transformer models have been central to recent advances in natural language processing. The training and inference costs of these models, however, have grown rapidly and become prohibitively expensive. Here we aim to reduce the costs of Transformers by searching for a more efficient variant. Compared to previous approaches, our search is performed at a lower level, over the primitives that define a Transformer TensorFlow program. We identify an architecture, named Primer, that has a smaller training cost than the original Transformer and other variants for auto-regressive language modeling. Primer's improvements can be mostly attributed to two simple modifications: squaring ReLU activations and adding a depthwise convolution layer after each Q, K, and V projection in self-attention. Experiments show Primer's gains over Transformer increase as compute scale grows and follow a power law with respect to quality at optimal model sizes. We also verify empirically that Primer can be dropped into different codebases to significantly speed up training without additional tuning. For example, at a 500M parameter size, Primer improves the original T5 architecture on C4 auto-regressive language modeling, reducing the training cost by 4X. Furthermore, the reduced training cost means Primer needs much less compute to reach a target one-shot performance. For instance, in a 1.9B parameter configuration similar to GPT-3 XL, Primer uses 1/3 of the training compute to achieve the same one-shot performance as Transformer. We open source our models and several comparisons in T5 to help with reproducibility.
翻訳日:2021-09-20 14:53:22 公開日:2021-09-17
# 認知エージェントの知識源としての言語モデル

Language Models as a Knowledge Source for Cognitive Agents ( http://arxiv.org/abs/2109.08270v1 )

ライセンス: Link先を確認
Robert E. Wray, III and James R. Kirk and John E. Laird(参考訳) 言語モデル (LM) は大量のコーパスで訓練された文補完エンジンである。 LMは自然言語処理において重要なブレークスルーとして現れており、質問応答、要約、自然言語推論など、文の完成以上の機能を提供する。 これらの能力の多くは認知システムに潜在的な応用をもたらすが、特にタスク学習において、言語モデルをタスク知識の源として活用することは、重要な短期的利益をもたらす。 言語モデルとそれらを適用した様々なタスクを紹介し、言語モデルから知識を抽出する方法について検討する。 得られた分析は、認知システムのための新しい知識源として言語モデルを使用する際の課題と機会を概説する。 また、認知システムが提供する能力を用いて、言語モデルからの知識抽出を改善する方法も特定する。 成功への中心となるのは、認知エージェントが、LMに暗黙的な知識の抽象モデルを学ぶ能力と、高品質な知識を効果的に効率的に抽出する方法である。 本稿では,仮想的なロボットエージェントを紹介し,言語モデルがタスク知識を拡張し,その性能を向上させる方法と,エージェントが言語モデル内の知識を活用できる知識や手法について述べる。

Language models (LMs) are sentence-completion engines trained on massive corpora. LMs have emerged as a significant breakthrough in natural-language processing, providing capabilities that go far beyond sentence completion including question answering, summarization, and natural-language inference. While many of these capabilities have potential application to cognitive systems, exploiting language models as a source of task knowledge, especially for task learning, offers significant, near-term benefits. We introduce language models and the various tasks to which they have been applied and then review methods of knowledge extraction from language models. The resulting analysis outlines both the challenges and opportunities for using language models as a new knowledge source for cognitive systems. It also identifies possible ways to improve knowledge extraction from language models using the capabilities provided by cognitive systems. Central to success will be the ability of a cognitive agent to itself learn an abstract model of the knowledge implicit in the LM as well as methods to extract high-quality knowledge effectively and efficiently. To illustrate, we introduce a hypothetical robot agent and describe how language models could extend its task knowledge and improve its performance and the kinds of knowledge and methods the agent can use to exploit the knowledge within a language model.
翻訳日:2021-09-20 14:52:28 公開日:2021-09-17
# sentiprompt:アスペクトベース感情分析のための感情知識強化プロンプトチューニング

SentiPrompt: Sentiment Knowledge Enhanced Prompt-Tuning for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2109.08306v1 )

ライセンス: Link先を確認
Chengxi Li, Feiyu Gao, Jiajun Bu, Lu Xu, Xiang Chen, Yu Gu, Zirui Shao, Qi Zheng, Ningyu Zhang, Yongpan Wang, Zhi Yu(参考訳) アスペクトベースの感情分析(ABSA)は、アスペクトを抽出し、対応する感情極性を分類し、感情の原因として意見を見つけることを目的とした、よりきめ細かい感情分析タスクである。 最新の研究は、エンドツーエンドフレームワークでabsaタスクを統一的に解決する傾向がある。 しかし、これらのフレームワークはタスク適応的な変更なしに下流タスクから微調整される。 特に、彼らはタスク関連の知識をうまく使用したり、アスペクトと意見の言葉の関係を明示的にモデル化したりせず、より良いパフォーマンスを妨げる。 本稿では,統合フレームワークで言語モデルをチューニングするための感情知識強化プロンプトを用いたsentipromptを提案する。 我々は,三重項からの一貫性と極性判定テンプレートの構築を通じて,側面,意見,極性に関する感情知識を迅速かつ明示的に項関係をモデル化する。 実験の結果,三重項抽出,ペア抽出,アスペクト項抽出において,感情分類による強いベースラインを有意なマージンで上回ることができた。

Aspect-based sentiment analysis (ABSA) is an emerging fine-grained sentiment analysis task that aims to extract aspects, classify corresponding sentiment polarities and find opinions as the causes of sentiment. The latest research tends to solve the ABSA task in a unified way with end-to-end frameworks. Yet, these frameworks get fine-tuned from downstream tasks without any task-adaptive modification. Specifically, they do not use task-related knowledge well or explicitly model relations between aspect and opinion terms, hindering them from better performance. In this paper, we propose SentiPrompt to use sentiment knowledge enhanced prompts to tune the language model in the unified framework. We inject sentiment knowledge regarding aspects, opinions, and polarities into prompt and explicitly model term relations via constructing consistency and polarity judgment templates from the ground truth triplets. Experimental results demonstrate that our approach can outperform strong baselines on Triplet Extraction, Pair Extraction, and Aspect Term Extraction with Sentiment Classification by a notable margin.
翻訳日:2021-09-20 14:52:10 公開日:2021-09-17
# 階層的テキスト分類のためのパス適応マスク機構を備えた階層認識t5

Hierarchy-Aware T5 with Path-Adaptive Mask Mechanism for Hierarchical Text Classification ( http://arxiv.org/abs/2109.08585v1 )

ライセンス: Link先を確認
Wei Huang, Chen Liu, Yihua Zhao, Xinyun Yang, Zhaoming Pan, Zhimin Zhang, Guiquan Liu(参考訳) 階層型テキスト分類(HTC)は,階層型空間で編成されたテキストラベルを予測することを目的としており,自然言語処理の研究に欠かせない重要な課題である。 既存の手法は通常、階層構造全体をエンコードし、ロバストなラベル依存モデルの構築に失敗する。 本稿では,HTC向けの新しいPAMM-HiA-T5モデルを提案する。パス適応マスク機構を備えた階層型T5モデルは,上位ラベルの知識を低レベルラベルに構築するだけでなく,ラベル予測にパス依存情報も導入する。 具体的には,マルチレベルシーケンシャルなラベル構造を生成し,階層的依存関係を多層的に活用し,ブロードファースト検索(bfs)とt5モデルを用いた。 そこで我々は,各経路におけるラベル依存性予測をさらに改善するために,ラベルの経路情報を識別し,他の経路からのノイズ源を除去する独自のパス適応マスク機構(PAMM)を提案する。 3つのベンチマークデータセットに関する総合的な実験により、新しいPAMM-HiA-T5モデルは、特にマクロF1におけるHTCの最先端アプローチを大きく上回っていることが示された。 アブレーション研究はt5ではなくイノベーティブなアプローチが主な改善点であることを示している。

Hierarchical Text Classification (HTC), which aims to predict text labels organized in hierarchical space, is a significant task lacking in investigation in natural language processing. Existing methods usually encode the entire hierarchical structure and fail to construct a robust label-dependent model, making it hard to make accurate predictions on sparse lower-level labels and achieving low Macro-F1. In this paper, we propose a novel PAMM-HiA-T5 model for HTC: a hierarchy-aware T5 model with path-adaptive mask mechanism that not only builds the knowledge of upper-level labels into low-level ones but also introduces path dependency information in label prediction. Specifically, we generate a multi-level sequential label structure to exploit hierarchical dependency across different levels with Breadth-First Search (BFS) and T5 model. To further improve label dependency prediction within each path, we then propose an original path-adaptive mask mechanism (PAMM) to identify the label's path information, eliminating sources of noises from other paths. Comprehensive experiments on three benchmark datasets show that our novel PAMM-HiA-T5 model greatly outperforms all state-of-the-art HTC approaches especially in Macro-F1. The ablation studies show that the improvements mainly come from our innovative approach instead of T5.
翻訳日:2021-09-20 14:51:50 公開日:2021-09-17
# セサミストリートの新しい学生: BERTから学習できるオーダーアウェアマトリックスの埋め込み

New Students on Sesame Street: What Order-Aware Matrix Embeddings Can Learn from BERT ( http://arxiv.org/abs/2109.08449v1 )

ライセンス: Link先を確認
Lukas Galke, Isabelle Cuber, Christoph Meyer, Henrik Ferdinand N\"olscher, Angelina Sonderecker, Ansgar Scherp(参考訳) 大規模事前訓練型言語モデル(PreLM)は、すべてのベンチマークで自然言語処理に革命をもたらしている。 しかし、そのサイズは低リソースや大規模アプリケーションでは禁止されている。 一般的なアプローチでは, 同一構造蒸留やプルーニングによりPreLMのサイズを小さくするが, より効率的なオーダーアウェアな埋込みモデルへのPreLMの蒸留について検討する。 GLUEベンチマークの結果から,BERT から学んだ埋め込み中心の学生は,QQP と RTE で DistilBERT に匹敵する成績を示し,ELMO の得点と一致または超え,言語的受容性の検出に遅れがみられた。

Large-scale pretrained language models (PreLMs) are revolutionizing natural language processing across all benchmarks. However, their sheer size is prohibitive in low-resource or large-scale applications. While common approaches reduce the size of PreLMs via same-architecture distillation or pruning, we explore distilling PreLMs into more efficient order-aware embedding models. Our results on the GLUE benchmark show that embedding-centric students, which have learned from BERT, yield scores comparable to DistilBERT on QQP and RTE, often match or exceed the scores of ELMo, and only fall behind on detecting linguistic acceptability.
翻訳日:2021-09-20 14:50:54 公開日:2021-09-17
# 低リソース環境下でのジョブ表現抽出と分類のためのブースティングトランス

Boosting Transformers for Job Expression Extraction and Classification in a Low-Resource Setting ( http://arxiv.org/abs/2109.08597v1 )

ライセンス: Link先を確認
Lukas Lange and Heike Adel and Jannik Str\"otgen(参考訳) 本稿では,低リソース環境下での変圧器モデルの改善の可能性を検討する。 特に,MEDDOPROFコンペティションにおける3つのサブタスクのうち,最初の2つ,すなわちスペイン語臨床テキストにおけるジョブ表現の抽出と分類に取り組むためのアプローチを提案する。 言語もドメインの専門家も、多言語xlm-rトランスフォーマーモデルを実験し、これらの低リソース情報抽出タスクをシーケンスラベル問題として扱う。 トランスフォーマーモデルを強化するために、ドメインおよび言語適応型事前学習、転送学習、戦略的データスプリットについて検討する。 XLM-Rモデルと比較して,これらの手法を最大5.3F1点まで改善した。 我々の最良のモデルは、それぞれ最初の2つのタスクに対して83.2と79.3のF1を達成する。

In this paper, we explore possible improvements of transformer models in a low-resource setting. In particular, we present our approaches to tackle the first two of three subtasks of the MEDDOPROF competition, i.e., the extraction and classification of job expressions in Spanish clinical texts. As neither language nor domain experts, we experiment with the multilingual XLM-R transformer model and tackle these low-resource information extraction tasks as sequence-labeling problems. We explore domain- and language-adaptive pretraining, transfer learning and strategic datasplits to boost the transformer model. Our results show strong improvements using these methods by up to 5.3 F1 points compared to a fine-tuned XLM-R model. Our best models achieve 83.2 and 79.3 F1 for the first two tasks, respectively.
翻訳日:2021-09-20 14:50:40 公開日:2021-09-17
# ルーティング問題に対する最適化強化学習

Learning Enhanced Optimisation for Routing Problems ( http://arxiv.org/abs/2109.08345v1 )

ライセンス: Link先を確認
Nasrin Sultana, Jeffrey Chan, Tabinda Sarwar, Babak Abbasi, A. K. Qin(参考訳) ディープラーニングアプローチはルーティング問題を解決する上で有望な結果を示している。 しかし、機械学習と運用研究アルゴリズムの間には、まだソリューションの品質にかなりのギャップがある。 近年,機械学習とオペレーショナルリサーチアルゴリズムの強みを融合させる新たな研究ラインが導入されている。 特に、探索摂動演算子は解を改善するために使われてきた。 それにもかかわらず、摂動の使用は品質ソリューションを保証できないかもしれない。 本稿では、ペナルティ項と強化学習を用いて探索作業を適応的に調整するルーティング問題に対する学習に基づくアプローチであるL2GLS(Learning to Guide Local Search)を提案する。 L2GLSは、局所探索(LS)演算子の強度とペナルティ項を組み合わせ、局所最適から逃れる。 ルーティング問題には多くの実用的な応用があり、多くの場合、フィールドを最適化する学習で導入された多くの既存のアルゴリズムに対して、依然として難しい大きなインスタンスをプリセットする。 L2GLSは、他の機械学習手法よりも大きなTSPとCVRPに対して、最先端の新たな結果が得られることを示す。

Deep learning approaches have shown promising results in solving routing problems. However, there is still a substantial gap in solution quality between machine learning and operations research algorithms. Recently, another line of research has been introduced that fuses the strengths of machine learning and operational research algorithms. In particular, search perturbation operators have been used to improve the solution. Nevertheless, using the perturbation may not guarantee a quality solution. This paper presents "Learning to Guide Local Search" (L2GLS), a learning-based approach for routing problems that uses a penalty term and reinforcement learning to adaptively adjust search efforts. L2GLS combines local search (LS) operators' strengths with penalty terms to escape local optimals. Routing problems have many practical applications, often presetting larger instances that are still challenging for many existing algorithms introduced in the learning to optimise field. We show that L2GLS achieves the new state-of-the-art results on larger TSP and CVRP over other machine learning methods.
翻訳日:2021-09-20 14:50:13 公開日:2021-09-17
# 複雑なミスパターンを有する交通データインプットのための動的時空間グラフ畳み込みニューラルネットワーク

Dynamic Spatiotemporal Graph Convolutional Neural Networks for Traffic Data Imputation with Complex Missing Patterns ( http://arxiv.org/abs/2109.08357v1 )

ライセンス: Link先を確認
Yuebing Liang, Zhan Zhao, Lijun Sun(参考訳) データ不足は、インテリジェントな輸送システムにおけるトラフィックデータ収集の必然的かつユビキタスな問題である。 第一に、既存のアプローチでは、交通データにおける複雑な時空間的依存関係、特に時間とともに進化する動的空間的依存関係を捉えることができない。 これらの研究のギャップを埋めるため,我々は動的時空間グラフ畳み込みニューラルネットワーク(dstgcn)と呼ばれる新しいディープラーニングフレームワークを提案する。 このモデルは、繰り返しアーキテクチャとグラフベースの畳み込みを組み合わせて、時空間依存性をモデル化する。 さらに,リアルタイム交通情報と道路ネットワーク構造から動的空間依存性をモデル化するグラフ構造推定手法を提案する。 2つの公共交通速度データセットに基づく広範囲な実験を行い,4種類の欠落パターンを用いて,提案モデルと最先端ディープラーニングアプローチを比較した。 以上の結果から,提案モデルが既存のディープラーニングモデルよりも優れており,グラフ構造推定手法がモデル性能に寄与していることが示唆された。 さらに,提案モデルとテンソル因子化モデルを比較し,異なるトレーニングスキームとデータ可用性の下で異なるモデルファミリーにまたがる異なる行動を見出す。

Missing data is an inevitable and ubiquitous problem for traffic data collection in intelligent transportation systems. Despite extensive research regarding traffic data imputation, there still exist two limitations to be addressed: first, existing approaches fail to capture the complex spatiotemporal dependencies in traffic data, especially the dynamic spatial dependencies evolving with time; second, prior studies mainly focus on randomly missing patterns while other more complex missing scenarios are less discussed. To fill these research gaps, we propose a novel deep learning framework called Dynamic Spatiotemporal Graph Convolutional Neural Networks (DSTGCN) to impute missing traffic data. The model combines the recurrent architecture with graph-based convolutions to model the spatiotemporal dependencies. Moreover, we introduce a graph structure estimation technique to model the dynamic spatial dependencies from real-time traffic information and road network structure. Extensive experiments based on two public traffic speed datasets are conducted to compare our proposed model with state-of-the-art deep learning approaches in four types of missing patterns. The results show that our proposed model outperforms existing deep learning models in all kinds of missing scenarios and the graph structure estimation technique contributes to the model performance. We further compare our proposed model with a tensor factorization model and find distinct behaviors across different model families under different training schemes and data availability.
翻訳日:2021-09-20 14:49:59 公開日:2021-09-17
# Integer Actionsを用いたソフトアクター批判

Soft Actor-Critic With Integer Actions ( http://arxiv.org/abs/2109.08512v1 )

ライセンス: Link先を確認
Ting-Han Fan, Yubo Wang(参考訳) 強化学習は離散的行動の下でよく研究されている。 整数アクションの設定は業界で人気があるが、高次元のためまだ難しい。 そこで本研究では,SAC(Soft Actor-Critic)アルゴリズムの整数再パラメータ化による強化学習について検討する。 整数作用のキーとなる観察は、それらの離散構造が可視性を用いて単純化できることである。 したがって、提案した整数再パラメータ化は1ホット符号化を必要とせず、低次元である。 実験の結果,提案したSACは,ロボット制御タスクの連続動作バージョンや,配電系統制御タスクの近似ポリシ最適化よりも優れていることがわかった。

Reinforcement learning is well-studied under discrete actions. Integer actions setting is popular in the industry yet still challenging due to its high dimensionality. To this end, we study reinforcement learning under integer actions by incorporating the Soft Actor-Critic (SAC) algorithm with an integer reparameterization. Our key observation for integer actions is that their discrete structure can be simplified using their comparability property. Hence, the proposed integer reparameterization does not need one-hot encoding and is of low dimensionality. Experiments show that the proposed SAC under integer actions is as good as the continuous action version on robot control tasks and outperforms Proximal Policy Optimization on power distribution systems control tasks.
翻訳日:2021-09-20 14:49:36 公開日:2021-09-17
# AdaLoss: 計算効率が高く、確率収束性適応勾配法

AdaLoss: A computationally-efficient and provably convergent adaptive gradient method ( http://arxiv.org/abs/2109.08282v1 )

ライセンス: Link先を確認
Xiaoxia Wu and Yuege Xie and Simon Du and Rachel Ward(参考訳) 本研究では,勾配降下法において,損失関数の情報を直接利用してステップを調整できる適応学習率スケジュール「adaloss」を提案する。 我々はこのスケジュールが線形回帰の線形収束を楽しむことを証明した。 さらに,2層超パラメータニューラルネットワークの文脈において,非凸状態に対する線形収束保証を提供する。 2層ネットワークの第一隠れ層の幅が十分に大きい場合(多項的に)、アダロスは多項式時間でロバストに \emph{to the global minimum} 収束する。 LSTMモデルによるテキストの明確化と制御問題へのポリシー勾配の適用を考慮し,理論的結果を数値的に検証し,数値実験の範囲を広げる。

We propose a computationally-friendly adaptive learning rate schedule, "AdaLoss", which directly uses the information of the loss function to adjust the stepsize in gradient descent methods. We prove that this schedule enjoys linear convergence in linear regression. Moreover, we provide a linear convergence guarantee over the non-convex regime, in the context of two-layer over-parameterized neural networks. If the width of the first-hidden layer in the two-layer networks is sufficiently large (polynomially), then AdaLoss converges robustly \emph{to the global minimum} in polynomial time. We numerically verify the theoretical results and extend the scope of the numerical experiments by considering applications in LSTM models for text clarification and policy gradients for control problems.
翻訳日:2021-09-20 14:48:30 公開日:2021-09-17
# ミニマックスパスによるネットワーク基盤のオンライン学習

Online Learning of Network Bottlenecks via Minimax Paths ( http://arxiv.org/abs/2109.08467v1 )

ライセンス: Link先を確認
Niklas {\AA}kerblom, Fazeleh Sadat Hoseini, Morteza Haghir Chehreghani(参考訳) 本稿では,ミニマックス経路抽出によるネットワークのボトルネック同定について検討する。 多くの現実世界のネットワークは、十分な知識が事前に得られない確率的な重みを持っている。 したがって、このタスクを、トンプソンサンプリングの組合せ版を適用し、対応するベイズ的後悔の上限を確立する組合せ半帯域問題としてモデル化する。 問題の計算的難易度により、元の目的を近似した別の問題定式化を考案する。 最後に,実世界指向型および非指向型ネットワーク上での近似定式化により,トンプソンサンプリングの性能を実験的に評価した。

In this paper, we study bottleneck identification in networks via extracting minimax paths. Many real-world networks have stochastic weights for which full knowledge is not available in advance. Therefore, we model this task as a combinatorial semi-bandit problem to which we apply a combinatorial version of Thompson Sampling and establish an upper bound on the corresponding Bayesian regret. Due to the computational intractability of the problem, we then devise an alternative problem formulation which approximates the original objective. Finally, we experimentally evaluate the performance of Thompson Sampling with the approximate formulation on real-world directed and undirected networks.
翻訳日:2021-09-20 14:48:16 公開日:2021-09-17
# 知識と報酬:予測報酬キャッシュリングによる最適探索の学習

Knowledge is reward: Learning optimal exploration by predictive reward cashing ( http://arxiv.org/abs/2109.08518v1 )

ライセンス: Link先を確認
Luca Ambrogioni(参考訳) 知性の一般的な概念と情報の収集と利用の間には強い関連がある。 ベイズ適応探索の理論は、複雑な情報収集タスクを訓練する機械にとって魅力的な最適性フレームワークを提供する。 しかし、結果の最適制御問題の計算複雑性は、理論の主流となる深層AI研究への拡散を制限している。 本稿では,ベイズ適応問題の本質的な数学的構造を利用して,搾取と探索政策の学習を分離しながら,報酬構造をより密にすることで問題を劇的に単純化する。 この単純化の鍵となるのは、現在利用可能な情報の価値を定量化するために使われる、クロスバリューという新しい概念(すなわち、環境において最適な行動をとることの値)から来ている。 これにより、現在の情報状態から予測できる全ての将来の報酬を"キャッシュイン"する、新しいより密度の高い報酬構造が得られる。 実験では,標準的なRLアルゴリズムが故障した場合に,形状やヒューリスティックなボーナスを使わずに,難易度の高い情報収集タスクを学習できるようにする。

There is a strong link between the general concept of intelligence and the ability to collect and use information. The theory of Bayes-adaptive exploration offers an attractive optimality framework for training machines to perform complex information gathering tasks. However, the computational complexity of the resulting optimal control problem has limited the diffusion of the theory to mainstream deep AI research. In this paper we exploit the inherent mathematical structure of Bayes-adaptive problems in order to dramatically simplify the problem by making the reward structure denser while simultaneously decoupling the learning of exploitation and exploration policies. The key to this simplification comes from the novel concept of cross-value (i.e. the value of being in an environment while acting optimally according to another), which we use to quantify the value of currently available information. This results in a new denser reward structure that "cashes in" all future rewards that can be predicted from the current information state. In a set of experiments we show that the approach makes it possible to learn challenging information gathering tasks without the use of shaping and heuristic bonuses in situations where the standard RL algorithms fail.
翻訳日:2021-09-20 14:48:08 公開日:2021-09-17
# 微分乗算器の修正法による私的フェデレーション学習における公平性強化

Enforcing fairness in private federated learning via the modified method of differential multipliers ( http://arxiv.org/abs/2109.08604v1 )

ライセンス: Link先を確認
Borja Rodr\'iguez-G\'alvez and Filip Granqvist and Rogier van Dalen and Matt Seigel(参考訳) 差分プライバシーによるフェデレーション学習、あるいはプライベートフェデレーション学習は、ユーザのプライバシを尊重しながら機械学習モデルをトレーニングする戦略を提供する。 しかしながら、差分プライバシーは、ノイズの存在下での学習が困難であるため、非表現群におけるモデルの性能を不均等に低下させる可能性がある。 機械学習モデルの公平性を強制する既存のアプローチでは、アルゴリズムがユーザのデータにアクセスできる集中型設定が検討されている。 本稿では,ユーザのデータがデバイスを離れないプライベートフェデレーション学習において,グループフェアネスを強制するアルゴリズムを提案する。 まず, 偏乗法の修正法を, 公平性制約を伴う経験的リスク最小化に拡張し, 中央設定で公平性を強制するアルゴリズムを提供する。 そして、このアルゴリズムをプライベートなフェデレーション学習設定に拡張する。 提案されたアルゴリズムであるfpflは、成人データセットのフェデレーションバージョンとフェムニズムデータセットの"unfair"バージョンでテストされている。 これらのデータセットに対する実験は、プライベートフェデレーション学習がトレーニングされたモデルにおける不公平性を如何にアクセントし、FPFLがそのような不公平性を緩和できるかを示している。

Federated learning with differential privacy, or private federated learning, provides a strategy to train machine learning models while respecting users' privacy. However, differential privacy can disproportionately degrade the performance of the models on under-represented groups, as these parts of the distribution are difficult to learn in the presence of noise. Existing approaches for enforcing fairness in machine learning models have considered the centralized setting, in which the algorithm has access to the users' data. This paper introduces an algorithm to enforce group fairness in private federated learning, where users' data does not leave their devices. First, the paper extends the modified method of differential multipliers to empirical risk minimization with fairness constraints, thus providing an algorithm to enforce fairness in the central setting. Then, this algorithm is extended to the private federated learning setting. The proposed algorithm, FPFL, is tested on a federated version of the Adult dataset and an "unfair" version of the FEMNIST dataset. The experiments on these datasets show how private federated learning accentuates unfairness in the trained models, and how FPFL is able to mitigate such unfairness.
翻訳日:2021-09-20 14:47:52 公開日:2021-09-17
# 画像キャプションのためのクロス修正注意に基づく検討モデル

Cross Modification Attention Based Deliberation Model for Image Captioning ( http://arxiv.org/abs/2109.08411v1 )

ライセンス: Link先を確認
Zheng Lian, Yanan Zhang, Haichang Li, Rui Wang, Xiaohui Hu(参考訳) 画像キャプションのための従来のエンコーダ・デコーダフレームワークは、通常、対象の記述文単語を時間順に予測する単一パス復号処理を採用している。 この枠組みの大きな成功にもかかわらず、2つの深刻な欠点に悩まされている。 まず、予測した単語の誤りを訂正できないため、その後の予測を誤解し、エラー蓄積問題を引き起こす可能性がある。 第2に、このようなフレームワークは、すでに生成された単語のみを活用できるが、将来の単語は利用できないため、言語情報に関するグローバルな計画能力が欠如している。 これらの制限を克服するために,ドラフトモデルとして機能するシングルパス復号化モデルが最初に入力画像に従ってドラフトキャプションを生成し,検討モデルが磨き処理を行い,ドラフトキャプションを洗練して画像記述を改善する,ユニバーサル2パス復号化フレームワークを提案する。 さらに,異なるモダリティ間の相補性に着想を得て,画像特徴のセマンティック表現を強化し,キャプション中の誤り情報をフィルタリングする新しいクロス・モーダル・アテンション(cma)モジュールを提案する。 我々は,CMA と,そのデコーダを統合し,CMA-DM (Cross Modification Attention based Deliberation Model) と命名する。 我々は,すべての学習可能なコンポーネントをスクラッチからトレードオフ係数で最適化することで,提案フレームワークを訓練する。 MS COCOデータセットを用いた実験により,本手法は単一パス復号化ベースラインよりも大幅に向上し,他の最先端の2パス復号化手法と比較して競合性能が向上することを示した。

The conventional encoder-decoder framework for image captioning generally adopts a single-pass decoding process, which predicts the target descriptive sentence word by word in temporal order. Despite the great success of this framework, it still suffers from two serious disadvantages. Firstly, it is unable to correct the mistakes in the predicted words, which may mislead the subsequent prediction and result in error accumulation problem. Secondly, such a framework can only leverage the already generated words but not the possible future words, and thus lacks the ability of global planning on linguistic information. To overcome these limitations, we explore a universal two-pass decoding framework, where a single-pass decoding based model serving as the Drafting Model first generates a draft caption according to an input image, and a Deliberation Model then performs the polishing process to refine the draft caption to a better image description. Furthermore, inspired from the complementarity between different modalities, we propose a novel Cross Modification Attention (CMA) module to enhance the semantic expression of the image features and filter out error information from the draft captions. We integrate CMA with the decoder of our Deliberation Model and name it as Cross Modification Attention based Deliberation Model (CMA-DM). We train our proposed framework by jointly optimizing all trainable components from scratch with a trade-off coefficient. Experiments on MS COCO dataset demonstrate that our approach obtains significant improvements over single-pass decoding baselines and achieves competitive performances compared with other state-of-the-art two-pass decoding based methods.
翻訳日:2021-09-20 14:47:12 公開日:2021-09-17
# SaCoFa: プロセスマイニングのためのセマンティックス対応制御フロー匿名化

SaCoFa: Semantics-aware Control-flow Anonymization for Process Mining ( http://arxiv.org/abs/2109.08501v1 )

ライセンス: Link先を確認
Stephan A. Fahrenkrog-Petersen, Martin Kabierski, Fabian R\"osel, Han van der Aa, Matthias Weidlich(参考訳) プライバシ保存プロセスマイニングは、プロセス利害関係者の機密情報の保護を保証しながら、イベントログを使用したビジネスプロセスの分析を可能にする。 この目的のために、既存の手法は、分析のためにトレース変動の頻度分布などのイベントログの特性を抽出するクエリの結果にノイズを加えるが、ノイズ挿入はプロセスの意味を無視し、元のログに存在しないトレースを生成する可能性がある。 これは問題です。 そこで本稿では,プロセス意味論を取り入れたプライバシ保護について論じる。公開データの有用性を低下させ,ノイズの識別を容易にする。 一般的なトレース変数クエリでは、指数関数機構に基づいて、クエリ結果の差分プライバシを確保するためにセマンティック制約が組み込まれていることを示す。 実験により、我々のセマンティクスを意識した匿名化は、既存のアプローチよりもはるかに高い実用性を持つイベントログをもたらすことが示された。

Privacy-preserving process mining enables the analysis of business processes using event logs, while giving guarantees on the protection of sensitive information on process stakeholders. To this end, existing approaches add noise to the results of queries that extract properties of an event log, such as the frequency distribution of trace variants, for analysis.Noise insertion neglects the semantics of the process, though, and may generate traces not present in the original log. This is problematic. It lowers the utility of the published data and makes noise easily identifiable, as some traces will violate well-known semantic constraints.In this paper, we therefore argue for privacy preservation that incorporates a process semantics. For common trace-variant queries, we show how, based on the exponential mechanism, semantic constraints are incorporated to ensure differential privacy of the query result. Experiments demonstrate that our semantics-aware anonymization yields event logs of significantly higher utility than existing approaches.
翻訳日:2021-09-20 14:46:42 公開日:2021-09-17
# 正規化グラディエントブースティングによるコンテキスト対応製品レコメンデーション

Context-aware Retail Product Recommendation with Regularized Gradient Boosting ( http://arxiv.org/abs/2109.08561v1 )

ライセンス: Link先を確認
Sourya Dipta Das, Ayan Basak(参考訳) FARFETCH Fashion Recommendation Challengeでは,推薦インプレッションにおいて,様々な商品がユーザに提示される順序を予測する必要があった。 データは2つのフェーズ – 検証フェーズとテストフェーズ – で提供されました。 検証フェーズには、製品がクリックされたかどうかを示すバイナリ列を含むラベル付きトレーニングセットがあった。 データセットには5000,000以上のレコメンデーションイベント、45万の製品、23万のユニークなユーザが含まれている。 FARFETCHプラットフォームの実際のユーザ間の、真の、偏見のない、匿名化されたインタラクションを表す。 最終評価は第2フェーズのパフォーマンスに応じて行われた。 この課題には合計167名の参加者が参加し,最終評価では0.4658のmrで6位を獲得した。 我々は、製品とユーザコンテキストの類似性を考慮し、製品をより効果的にランク付けする独自のコンテキスト認識システムを設計した。 評価後、テストセットのmrr 0.4784で我々のアプローチを微調整することができた。

In the FARFETCH Fashion Recommendation challenge, the participants needed to predict the order in which various products would be shown to a user in a recommendation impression. The data was provided in two phases - a validation phase and a test phase. The validation phase had a labelled training set that contained a binary column indicating whether a product has been clicked or not. The dataset comprises over 5,000,000 recommendation events, 450,000 products and 230,000 unique users. It represents real, unbiased, but anonymised, interactions of actual users of the FARFETCH platform. The final evaluation was done according to the performance in the second phase. A total of 167 participants participated in the challenge, and we secured the 6th rank during the final evaluation with an MRR of 0.4658 on the test set. We have designed a unique context-aware system that takes the similarity of a product to the user context into account to rank products more effectively. Post evaluation, we have been able to fine-tune our approach with an MRR of 0.4784 on the test set, which would have placed us at the 3rd position.
翻訳日:2021-09-20 14:46:04 公開日:2021-09-17
# 教師アンサンブルのプライベートアグリゲーションに関する公平性分析

A Fairness Analysis on Private Aggregation of Teacher Ensembles ( http://arxiv.org/abs/2109.08630v1 )

ライセンス: Link先を確認
Cuong Tran, My H. Dinh, Kyle Beiter, Ferdinando Fioretto(参考訳) PATE(Private Aggregation of Teacher Ensembles)は、機械学習の重要なフレームワークである。 教師として使用する複数の学習モデルを組み合わせることで、教師間の騒がしい投票によって選択されたアウトプットを予測する。 結果として得られたモデルは、差分プライバシーを満足し、半教師付き設定やデータラベルの保護を望む場合に、高品質なプライベートモデルを学習するのに効果的であることが示されている。 本稿では,プライバシ保護の枠組みが偏見や不公平を増すか否かを問うとともに,PATEが個人やグループ間で精度の相違をもたらすことを示す。 本稿では,アルゴリズムやデータ特性が不均等な影響の原因となっているか,なぜ異なるグループに不均等に影響を与えているのかを分析し,これらの影響を緩和するためのガイドラインを提案する。 提案手法はいくつかのデータセットと設定で評価される。

The Private Aggregation of Teacher Ensembles (PATE) is an important private machine learning framework. It combines multiple learning models used as teachers for a student model that learns to predict an output chosen by noisy voting among the teachers. The resulting model satisfies differential privacy and has been shown effective in learning high-quality private models in semisupervised settings or when one wishes to protect the data labels. This paper asks whether this privacy-preserving framework introduces or exacerbates bias and unfairness and shows that PATE can introduce accuracy disparity among individuals and groups of individuals. The paper analyzes which algorithmic and data properties are responsible for the disproportionate impacts, why these aspects are affecting different groups disproportionately, and proposes guidelines to mitigate these effects. The proposed approach is evaluated on several datasets and settings.
翻訳日:2021-09-20 14:45:47 公開日:2021-09-17
# 製造システムにおける認知デジタル双生児のためのグラフ学習

Graph Learning for Cognitive Digital Twins in Manufacturing Systems ( http://arxiv.org/abs/2109.08632v1 )

ライセンス: Link先を確認
Trier Mortlock, Deepan Muthirayan, Shih-Yuan Yu, Pramod P. Khargonekar, Mohammad A. Al Faruque(参考訳) 将来の製造には、シミュレーションプラットフォームと仮想化と産業プロセスの物理データを結ぶ複雑なシステムが必要である。 デジタル双生児には、物理的双生児、デジタル双生児、そして両者の接続が組み込まれている。 特に製造においてデジタルツインを使うことの利点は、製造ライフサイクル全体にわたって効率を上げることができるため、豊富である。 デジタルツインの概念は、多くの技術の発展によって実現され、時代とともに洗練され、能力が増している。 本稿では、デジタル双生児の次の段階として認知デジタル双生児を詳述し、産業4.0のビジョンの実現に寄与する。 認知的デジタル双生児は、既存の製造システムから引き出された暗黙の知識を創造的、効果的、効果的に活用することができる。 また、企業全体(大規模)のパフォーマンスを改善しながら、より自律的な意思決定とコントロールを可能にします。 本稿では,デジタル双生児の認知機能を実現するためのグラフ学習について述べる。 グラフ学習を利用した製品設計段階における認知デジタル双生児の実現に向けた新しいアプローチを提案する。

Future manufacturing requires complex systems that connect simulation platforms and virtualization with physical data from industrial processes. Digital twins incorporate a physical twin, a digital twin, and the connection between the two. Benefits of using digital twins, especially in manufacturing, are abundant as they can increase efficiency across an entire manufacturing life-cycle. The digital twin concept has become increasingly sophisticated and capable over time, enabled by rises in many technologies. In this paper, we detail the cognitive digital twin as the next stage of advancement of a digital twin that will help realize the vision of Industry 4.0. Cognitive digital twins will allow enterprises to creatively, effectively, and efficiently exploit implicit knowledge drawn from the experience of existing manufacturing systems. They also enable more autonomous decisions and control, while improving the performance across the enterprise (at scale). This paper presents graph learning as one potential pathway towards enabling cognitive functionalities in manufacturing digital twins. A novel approach to realize cognitive digital twins in the product design stage of manufacturing that utilizes graph learning is presented.
翻訳日:2021-09-20 14:45:32 公開日:2021-09-17
# ジオタグ写真を用いた多層視覚類似性に基づくパーソナライズドツーリズムの推薦

Multi-Level Visual Similarity Based Personalized Tourist Attraction Recommendation Using Geo-Tagged Photos ( http://arxiv.org/abs/2109.08275v1 )

ライセンス: Link先を確認
Ling Chen, Dandan Lyu, Shanshan Yu, and Gencai Chen(参考訳) ジオタグ写真ベースの観光アトラクションレコメンデーションは、利用者が撮影した写真から旅行好みを発見することで、適切な観光アトラクションを推奨する。 しかし,既存の視覚コンテンツベース手法では,写真のユーザや観光客のアトラクション情報を十分に活用して視覚的特徴を抽出することはできず,異なる写真の意義を区別することができない。 本稿では,ジオタグ写真(MEAL)を用いた多層視認性に基づくパーソナライズされた観光アトラクションを提案する。 食事は、写真と対話行動データの視覚コンテンツを利用して、利用者と観光客のアトラクションの最終的な埋め込みを取得し、訪問確率を予測するために使用される。 具体的には,写真のユーザ情報と観光アトラクション情報とを交差させることで,4つの視覚的類似度を定義し,写真の視覚コンテンツを埋め込むために対応するクインタプレットロスを導入する。 また、異なる写真の重要さを捉えるために、ユーザや観光地を視覚的に表現するために自己認識機構を利用する。 Flickrからクロールしたデータセットについて実験を行い,本手法の利点を実証した。

Geo-tagged photo based tourist attraction recommendation can discover users' travel preferences from their taken photos, so as to recommend suitable tourist attractions to them. However, existing visual content based methods cannot fully exploit the user and tourist attraction information of photos to extract visual features, and do not differentiate the significances of different photos. In this paper, we propose multi-level visual similarity based personalized tourist attraction recommendation using geo-tagged photos (MEAL). MEAL utilizes the visual contents of photos and interaction behavior data to obtain the final embeddings of users and tourist attractions, which are then used to predict the visit probabilities. Specifically, by crossing the user and tourist attraction information of photos, we define four visual similarity levels and introduce a corresponding quintuplet loss to embed the visual contents of photos. In addition, to capture the significances of different photos, we exploit the self-attention mechanism to obtain the visual representations of users and tourist attractions. We conducted experiments on a dataset crawled from Flickr, and the experimental results proved the advantage of this method.
翻訳日:2021-09-20 14:44:32 公開日:2021-09-17
# 半監督左心房分節に対するクロスドメインデータを用いた適応的階層的二重整合性

Adaptive Hierarchical Dual Consistency for Semi-Supervised Left Atrium Segmentation on Cross-Domain Data ( http://arxiv.org/abs/2109.08311v1 )

ライセンス: Link先を確認
Jun Chen, Heye Zhang, Raad Mohiaddin, Tom Wong, David Firmin, Jennifer Keegan, and Guang Yang(参考訳) 半教師付き学習は、ラベル付きデータが不十分な左房分割モデル学習において大きな意味を持つ。 ドメイン間データに対する半教師付き学習の一般化は、モデルの堅牢性をさらに向上させる上で重要である。 しかし、様々なデータ領域間の分布差とサンプルミスマッチは、半教師付き学習の一般化を妨げる。 本研究では,AHDC(Adaptive Hierarchical Dual Consistency)を用いて,クロスドメインデータに基づく半教師付きLAセグメンテーションを提案する。 AHDCは主に双方向適応推論モジュール(BAI)と階層的デュアル一貫性学習モジュール(HDC)で構成されている。 BAIは2つの異なる領域間の分布の違いとサンプルミスマッチを克服する。 主に2つのマッピングネットワークを逆向きに学習し、相互適応により2つのマッチしたドメインを得る。 hdcは、得られたマッチング領域に基づくクロスドメイン半教師付きセグメンテーションのための階層的二重学習パラダイムを検討する。 主にドメイン内およびドメイン間の両方で補完情報をマイニングするための2つのデュアルモデリングネットワークを構築している。 ドメイン内学習では、相補的モデリング情報を利用するために、双対モデリング対象に一貫性制約を適用する。 ドメイン間学習では、2つのデュアルモデリングネットワークによってモデル化されたlasに一貫性制約を適用し、異なるデータドメイン間の補完的知識を利用する。 今回提案したAHDCは, 異なる中心部からの3D遅延心筋MR(LGE-CMR)データセットと3DCTデータセットを用いて, 評価を行った。 他の最先端手法と比較して,提案したAHDCは高いセグメンテーション精度を実現し,クロスドメイン半教師付きLAセグメンテーションの能力を示した。

Semi-supervised learning provides great significance in left atrium (LA) segmentation model learning with insufficient labelled data. Generalising semi-supervised learning to cross-domain data is of high importance to further improve model robustness. However, the widely existing distribution difference and sample mismatch between different data domains hinder the generalisation of semi-supervised learning. In this study, we alleviate these problems by proposing an Adaptive Hierarchical Dual Consistency (AHDC) for the semi-supervised LA segmentation on cross-domain data. The AHDC mainly consists of a Bidirectional Adversarial Inference module (BAI) and a Hierarchical Dual Consistency learning module (HDC). The BAI overcomes the difference of distributions and the sample mismatch between two different domains. It mainly learns two mapping networks adversarially to obtain two matched domains through mutual adaptation. The HDC investigates a hierarchical dual learning paradigm for cross-domain semi-supervised segmentation based on the obtained matched domains. It mainly builds two dual-modelling networks for mining the complementary information in both intra-domain and inter-domain. For the intra-domain learning, a consistency constraint is applied to the dual-modelling targets to exploit the complementary modelling information. For the inter-domain learning, a consistency constraint is applied to the LAs modelled by two dual-modelling networks to exploit the complementary knowledge among different data domains. We demonstrated the performance of our proposed AHDC on four 3D late gadolinium enhancement cardiac MR (LGE-CMR) datasets from different centres and a 3D CT dataset. Compared to other state-of-the-art methods, our proposed AHDC achieved higher segmentation accuracy, which indicated its capability in the cross-domain semi-supervised LA segmentation.
翻訳日:2021-09-20 14:44:11 公開日:2021-09-17
# MRI再建のためのディープラーニング手法の検討

A review of deep learning methods for MRI reconstruction ( http://arxiv.org/abs/2109.08618v1 )

ライセンス: Link先を確認
Arghya Pal, Yogesh Rathi(参考訳) ディープラーニングの幅広い応用の成功に続いて、ニューラルネットワークベースの機械学習技術は、MRI(MRI)の獲得と再構築戦略の加速に大きな関心を集めている。 コンピュータビジョンと画像処理のための深層学習技術に触発された多くのアイデアが、MRIの高速化のための圧縮センシングの精神における非線形画像再構成に成功している。 この分野の急速に成長する性質を考えると、文献で報告されている多くの深層学習手法の統合と要約が不可欠であり、一般にその分野の理解を深める必要がある。 本稿では,並列イメージングの改善に特に提案されているニューラルネットワークに基づくアプローチの最近の進歩の概要について述べる。 一般的な背景と並列MRIの導入は、k空間に基づく再構成手法の古典的な見方からもたらされる。 改良された正規化器を導入するイメージドメインベースの技術は、ニューラルネットワークを用いた補間戦略の改善に焦点を当てたk空間ベースの手法とともにカバーされる。 この分野は、毎年何千もの論文が公表されて急速に進化していますが、本レビューでは、公開データセットで優れたパフォーマンスを示す方法の幅広いカテゴリをカバーしようとしています。 制約やオープン問題についても論じ、近年ではコミュニティ向けのオープンデータセットやベンチマークを作成する取り組みも検討されている。

Following the success of deep learning in a wide range of applications, neural network-based machine-learning techniques have received significant interest for accelerating magnetic resonance imaging (MRI) acquisition and reconstruction strategies. A number of ideas inspired by deep learning techniques for computer vision and image processing have been successfully applied to nonlinear image reconstruction in the spirit of compressed sensing for accelerated MRI. Given the rapidly growing nature of the field, it is imperative to consolidate and summarize the large number of deep learning methods that have been reported in the literature, to obtain a better understanding of the field in general. This article provides an overview of the recent developments in neural-network based approaches that have been proposed specifically for improving parallel imaging. A general background and introduction to parallel MRI is also given from a classical view of k-space based reconstruction methods. Image domain based techniques that introduce improved regularizers are covered along with k-space based methods which focus on better interpolation strategies using neural networks. While the field is rapidly evolving with thousands of papers published each year, in this review, we attempt to cover broad categories of methods that have shown good performance on publicly available data sets. Limitations and open problems are also discussed and recent efforts for producing open data sets and benchmarks for the community are examined.
翻訳日:2021-09-20 14:43:42 公開日:2021-09-17
# 補助損失と情報ボトルネックによるリアルなポイントゴーアナビゲーション

Realistic PointGoal Navigation via Auxiliary Losses and Information Bottleneck ( http://arxiv.org/abs/2109.08677v1 )

ライセンス: Link先を確認
Guillermo Grande, Dhruv Batra, Erik Wijmans(参考訳) 本研究は, 地対地定位へのアクセスを必要とせず, 作動・センサノイズ下で, 目立たない環境下で目標座標にナビゲートする, 現実的なポイントゴーアナビゲーションを訓練するための新しいアーキテクチャとトレーニングパラダイムを提案する。 Specifically, we find that the primary challenge under this setting is learning localization -- when stripped of idealized localization, agents fail to stop precisely at the goal despite reliably making progress towards it. To address this we introduce a set of auxiliary losses to help the agent learn localization. Further, we explore the idea of treating the precise location of the agent as privileged information -- it is unavailable during test time, however, it is available during training time in simulation. エージェントは,情報ボトルネックを介し,訓練中に地中ローカライズリーディングへのアクセスを制限した。 この設定下では、エージェントは、この特権情報を使用するためのペナルティを負い、学習に不可欠である場合にのみ、この情報を活用するようエージェントに促す。 これにより、エージェントはまずナビゲーションを学習し、トレーニングでこれらの2つの目的を混同するのではなく、ローカライゼーションを学ぶことができる。 提案手法は,半理想化(コンパス+gpsを伴わない無ノイズシミュレーション)と現実的な(ノイズシミュレーションの追加)の両方で評価する。 具体的には、半理想化設定における既存ベースラインを18\%/21\%spl/success、現実設定で15\%/20\%splで上回る。 改良されたSuccessとSPLメトリクスは、強力なナビゲーションポリシーを維持しながら、エージェントが正確に自己ローカライズする能力の向上を示している。 実装はhttps://github.com/NicoGrande/habitat-pointnav-via-ibで確認できます。

We propose a novel architecture and training paradigm for training realistic PointGoal Navigation -- navigating to a target coordinate in an unseen environment under actuation and sensor noise without access to ground-truth localization. Specifically, we find that the primary challenge under this setting is learning localization -- when stripped of idealized localization, agents fail to stop precisely at the goal despite reliably making progress towards it. To address this we introduce a set of auxiliary losses to help the agent learn localization. Further, we explore the idea of treating the precise location of the agent as privileged information -- it is unavailable during test time, however, it is available during training time in simulation. We grant the agent restricted access to ground-truth localization readings during training via an information bottleneck. Under this setting, the agent incurs a penalty for using this privileged information, encouraging the agent to only leverage this information when it is crucial to learning. This enables the agent to first learn navigation and then learn localization instead of conflating these two objectives in training. We evaluate our proposed method both in a semi-idealized (noiseless simulation without Compass+GPS) and realistic (addition of noisy simulation) settings. Specifically, our method outperforms existing baselines on the semi-idealized setting by 18\%/21\% SPL/Success and by 15\%/20\% SPL in the realistic setting. Our improved Success and SPL metrics indicate our agent's improved ability to accurately self-localize while maintaining a strong navigation policy. Our implementation can be found at https://github.com/NicoGrande/habitat-pointnav-via-ib.
翻訳日:2021-09-20 14:43:24 公開日:2021-09-17
# 並列有限バッファシステムにおけるスケジューリング:遅延フィードバックによる最適決定

Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under Delayed Feedback ( http://arxiv.org/abs/2109.08548v1 )

ライセンス: Link先を確認
Anam Tahir, Bastian Alt, Amr Rizk, Heinz Koeppl(参考訳) 並列キューシステムにおけるスケジューリング決定は、データセンタークラスタでのジョブルーティング、マルチパス通信、ビッグデータシステムなど、多くのコンピューティングおよび通信システムの寸法と操作の基礎となる基本的な問題として生じる。 本質的には、スケジューラは、各到着ジョブを、ロードバランシング、低遅延、低損失率などの最適化目標を目指して、おそらくは異種サーバの1つにマップする。 ここでの最適なスケジューリング決定を見つける上での難しさの1つは、スケジューラがその決定の影響を部分的にのみ観察することである。 本稿では、遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。 本稿では,スケーラブルなモンテカルロ木探索アルゴリズムを用いて,最適に近いスケジューリングポリシをリアルタイムに見つけるためのシミュレーションモデルを提案する。 提案手法は,Join-the-Shortest-Queue,Join-the-Shortest-Queue(d),Shortest-Expected-Delayなど,他の限られた情報スケジューリング手法よりも優れていることを示す。 最後に,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。

Scheduling decisions in parallel queuing systems arise as a fundamental problem, underlying the dimensioning and operation of many computing and communication systems, such as job routing in data center clusters, multipath communication, and Big Data systems. In essence, the scheduler maps each arriving job to one of the possibly heterogeneous servers while aiming at an optimization goal such as load balancing, low average delay or low loss rate. One main difficulty in finding optimal scheduling decisions here is that the scheduler only partially observes the impact of its decisions, e.g., through the delayed acknowledgements of the served jobs. In this paper, we provide a partially observable (PO) model that captures the scheduling decisions in parallel queuing systems under limited information of delayed acknowledgements. We present a simulation model for this PO system to find a near-optimal scheduling policy in real-time using a scalable Monte Carlo tree search algorithm. We numerically show that the resulting policy outperforms other limited information scheduling strategies such as variants of Join-the-Most-Observations and has comparable performance to full information strategies like: Join-the-Shortest-Queue, Join-the- Shortest-Queue(d) and Shortest-Expected-Delay. Finally, we show how our approach can optimise the real-time parallel processing by using network data provided by Kaggle.
翻訳日:2021-09-20 14:42:59 公開日:2021-09-17
# 層にまたがる類似表現のクラスターを示す微調整トランスフォーマー

Fine-Tuned Transformers Show Clusters of Similar Representations Across Layers ( http://arxiv.org/abs/2109.08406v1 )

ライセンス: Link先を確認
Jason Phang, Haokun Liu, Samuel R. Bowman(参考訳) 下流自然言語理解(NLU)タスクのためのBERTのような微調整済み言語エンコーダの成功にもかかわらず、ニューラルネットワークが微調整後にどのように変化するかはいまだに理解されていない。 本研究では,学習表現の比較手法であるセンタード・カーネルアライメント(cka)を用いて,レイヤ間のタスク調整モデルにおける表現の類似性を測定する。 12のNLUタスクを対象とした実験では、細調整されたRoBERTaとALBERTモデル内の表現の類似性において一貫したブロック対角構造が発見され、初期層と後期層のクラスタ内では強い類似性があるが、それらの間にはない。 後段のレイヤ表現の類似性は、後段のレイヤがタスクパフォーマンスにわずかに寄与することを示し、さらにチューニングを行なわずとも、細調整されたトランスフォーマの上位数層が性能を損なうことなく破棄可能であることを実験で検証する。

Despite the success of fine-tuning pretrained language encoders like BERT for downstream natural language understanding (NLU) tasks, it is still poorly understood how neural networks change after fine-tuning. In this work, we use centered kernel alignment (CKA), a method for comparing learned representations, to measure the similarity of representations in task-tuned models across layers. In experiments across twelve NLU tasks, we discover a consistent block diagonal structure in the similarity of representations within fine-tuned RoBERTa and ALBERT models, with strong similarity within clusters of earlier and later layers, but not between them. The similarity of later layer representations implies that later layers only marginally contribute to task performance, and we verify in experiments that the top few layers of fine-tuned Transformers can be discarded without hurting performance, even with no further tuning.
翻訳日:2021-09-20 14:42:15 公開日:2021-09-17
# 連立機械・ヒューマンチャットハンドオフとサービス満足度分析のための役割選択型共有ネットワーク

A Role-Selected Sharing Network for Joint Machine-Human Chatting Handoff and Service Satisfaction Analysis ( http://arxiv.org/abs/2109.08412v1 )

ライセンス: Link先を確認
Jiawei Liu, Kaisong Song, Yangyang Kang, Guoxiu He, Zhuoren Jiang, Changlong Sun, Wei Lu, Xiaozhong Liu(参考訳) しかしチャットボットは、予期せぬ会話の複雑さとデータの疎遠さのために、さまざまなドメインで人気を集めている。 近年、チャットボットの故障を予測し、チャットボットの品質を高めるための人間とアルゴリズムのコラボレーションを可能にするMHCH(Machine-Human Chatting Handoff)が、産業や学界から注目を集めている。 本研究では,対話満足度推定とハンドオフ予測を1つのマルチタスク学習フレームワークに統合した新しいモデル,ロール選択共有ネットワーク(rssn)を提案する。 ダイアログマイニング以前の取り組みとは異なり、ローカルユーザの満足度を橋渡しとして活用することで、グローバル満足度検出器とハンドオフ予測器は、重要な情報を効果的に交換することができる。 具体的には、共有エンコーダの後、役割情報によって2つのタスク間の関係と相互作用を分離する。 2つの公開データセットに対する大規模な実験は、我々のモデルの有効性を示す。

Chatbot is increasingly thriving in different domains, however, because of unexpected discourse complexity and training data sparseness, its potential distrust hatches vital apprehension. Recently, Machine-Human Chatting Handoff (MHCH), predicting chatbot failure and enabling human-algorithm collaboration to enhance chatbot quality, has attracted increasing attention from industry and academia. In this study, we propose a novel model, Role-Selected Sharing Network (RSSN), which integrates both dialogue satisfaction estimation and handoff prediction in one multi-task learning framework. Unlike prior efforts in dialog mining, by utilizing local user satisfaction as a bridge, global satisfaction detector and handoff predictor can effectively exchange critical information. Specifically, we decouple the relation and interaction between the two tasks by the role information after the shared encoder. Extensive experiments on two public datasets demonstrate the effectiveness of our model.
翻訳日:2021-09-20 14:41:55 公開日:2021-09-17
# 低リソース抽象要約のためのマルチタスク学習の探索

Exploring Multitask Learning for Low-Resource AbstractiveSummarization ( http://arxiv.org/abs/2109.08565v1 )

ライセンス: Link先を確認
Ahmed Magooda, Mohamed Elaraby, Diane Litman(参考訳) 本稿では,小型学習コーパスの文脈における抽象要約におけるマルチタスク学習の効果について検討する。 特に,マルチタスク学習による抽象的要約の目標タスクの強化を目的として,4つの異なるタスク(extractive summarization, language modeling, concept detection, paraphrase detection)を個別と組み合わせて取り入れた。 多くのタスクの組み合わせに対して、マルチタスク設定で訓練されたモデルが抽象的な要約のためにのみ訓練されたモデルより優れており、追加の要約データが導入されていないことを示す。 さらに、包括的探索を行い、特定のタスク(例えば、paraphrase検出)が、他のタスクと組み合わせた場合だけでなく、異なるアーキテクチャやトレーニングコーパスを使用する場合にも、抽象的な要約に一貫して役立つことを見出します。

This paper explores the effect of using multitask learning for abstractive summarization in the context of small training corpora. In particular, we incorporate four different tasks (extractive summarization, language modeling, concept detection, and paraphrase detection) both individually and in combination, with the goal of enhancing the target task of abstractive summarization via multitask learning. We show that for many task combinations, a model trained in a multitask setting outperforms a model trained only for abstractive summarization, with no additional summarization data introduced. Additionally, we do a comprehensive search and find that certain tasks (e.g. paraphrase detection) consistently benefit abstractive summarization, not only when combined with other tasks but also when using different architectures and training corpora.
翻訳日:2021-09-20 14:41:39 公開日:2021-09-17
# 抽象要約のためのデータ合成・拡張・カリキュラムによるデータスカースネスの緩和

Mitigating Data Scarceness through Data Synthesis, Augmentation and Curriculum for Abstractive Summarization ( http://arxiv.org/abs/2109.08569v1 )

ライセンス: Link先を確認
Ahmed Magooda, Diane Litman(参考訳) 本稿では,抽象的な要約モデルを改善するための3つの簡単なデータ操作手法(合成,拡張,カリキュラム)について検討する。 本稿では,パラフレージングを用いたデータ合成手法,サンプル混合を用いたデータ拡張手法,および特異性と抽象性に基づく2つの新しい難易度指標を用いたカリキュラム学習を紹介する。 これらの3つの手法は、2つの要約モデルと2つの異なる小さなデータセットの抽象的な要約を改善するのに役立つことを示す実験を行う。 さらに,これらの技術は分離および組み合わせによる性能向上に有効であることを示す。

This paper explores three simple data manipulation techniques (synthesis, augmentation, curriculum) for improving abstractive summarization models without the need for any additional data. We introduce a method of data synthesis with paraphrasing, a data augmentation technique with sample mixing, and curriculum learning with two new difficulty metrics based on specificity and abstractiveness. We conduct experiments to show that these three techniques can help improve abstractive summarization across two summarization models and two different small datasets. Furthermore, we show that these techniques can improve performance when applied in isolation and when combined.
翻訳日:2021-09-20 14:41:22 公開日:2021-09-17
# CommonsenseはSarcasmの検出に役立つか?

Does Commonsense help in detecting Sarcasm? ( http://arxiv.org/abs/2109.08588v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury and Snigdha Chaturvedi(参考訳) sarcasm検出は、製品レビューにおける感情識別、ユーザフィードバック、オンラインフォーラムなど、いくつかのnlpタスクにおいて重要である。 言語、文脈、世界の知識を深く理解する必要がある課題である。 本稿では,コモンセンスの知識を取り入れることで,サルカズムの検出に有効かどうかを考察する。 本研究では,事前学習された言語モデル組込みを入力として,グラフ畳み込みネットワークを用いた予測プロセスに常識知識を組み込む。 3つのサルカズム検出データセットを用いた実験により,本手法がベースラインモデルより優れていないことが示された。 我々は,commonsenseサポートが価値を付加し,分類を損なう箇所を分析するために,徹底した実験を行う。 私たちの実装は、https://github.com/brcsomnath/commonsense-sarcasmで公開しています。

Sarcasm detection is important for several NLP tasks such as sentiment identification in product reviews, user feedback, and online forums. It is a challenging task requiring a deep understanding of language, context, and world knowledge. In this paper, we investigate whether incorporating commonsense knowledge helps in sarcasm detection. For this, we incorporate commonsense knowledge into the prediction process using a graph convolution network with pre-trained language model embeddings as input. Our experiments with three sarcasm detection datasets indicate that the approach does not outperform the baseline model. We perform an exhaustive set of experiments to analyze where commonsense support adds value and where it hurts classification. Our implementation is publicly available at: https://github.com/brcsomnath/commonsense-sarcasm.
翻訳日:2021-09-20 14:41:11 公開日:2021-09-17
# テキスト分類のためのデモグラフィック情報の逆スクレイビング

Adversarial Scrubbing of Demographic Information for Text Classification ( http://arxiv.org/abs/2109.08613v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Sayan Ghosh, Yiyuan Li, Junier B. Oliva, Shashank Srivastava and Snigdha Chaturvedi(参考訳) 言語モデルによって学習される文脈表現は、しばしば望ましくない属性、例えばユーザーの人口統計学的関連をエンコードし、無関係な対象タスクのために訓練される。 このような望ましくない属性をスクラブし、ターゲットタスクのパフォーマンスを維持しながら公平な表現を学ぶことを目指している。 本稿では,文脈表現を曖昧にするために,逆学習フレームワーク "Adversarial Scrubber" (ADS) を提案する。 我々は,特定の条件下で人口統計情報を漏らさずに,枠組みが収束することを示す理論的解析を行う。 最小記述長 (mdl) 法を用いてデバイアス性能を評価することにより, 従来の評価手法を拡張する。 8つのデータセットで実験的に評価したところ、ADSはターゲットタスクについて最大限に情報を提供しながら、人口属性に関する最小限の情報で表現を生成する。

Contextual representations learned by language models can often encode undesirable attributes, like demographic associations of the users, while being trained for an unrelated target task. We aim to scrub such undesirable attributes and learn fair representations while maintaining performance on the target task. In this paper, we present an adversarial learning framework "Adversarial Scrubber" (ADS), to debias contextual representations. We perform theoretical analysis to show that our framework converges without leaking demographic information under certain conditions. We extend previous evaluation techniques by evaluating debiasing performance using Minimum Description Length (MDL) probing. Experimental evaluations on 8 datasets show that ADS generates representations with minimal information about demographic attributes while being maximally informative about the target task.
翻訳日:2021-09-20 14:41:02 公開日:2021-09-17
# CKMorph:中央クルド人のための総合的形態解析装置

CKMorph: A Comprehensive Morphological Analyzer for Central Kurdish ( http://arxiv.org/abs/2109.08615v1 )

ライセンス: Link先を確認
Morteza Naserzade, Aso Mahmudi, Hadi Veisi, Hawre Hosseini, Mohammad MohammadAmini(参考訳) 形態素解析器は、特に形態素言語に対する多くの自然言語処理アプリケーションにおいて重要な要素であり、入力語をその構成形態素に分割し、形態素の役割を識別する。 本稿では,豊富な形態を持つ低リソース言語であるCentral Kurdish(CK)の総合的な形態解析手法を提案する。 現存する限られた文献に基づいて、我々はまず言語の形態的および形態的規則の包括的収集と体系的分類を行った。 さらに,約10,000の動詞,名詞,形容詞,名前付き実体,その他の語幹を含む生成語彙を手作業で収集,ラベル付けした。 有限状態トランスデューサに基づくCKMorph Analyzerの実装には,これらのルールセットとリソースを使用した。 将来の研究のためのベンチマークを提供するため,分析器の精度とカバレッジを評価するために,手動でラベル付け,公開テストセットを収集した。 CKMorphは精度テストセットの95.9%を正確に分析することができ、文脈に応じて1000のCKワードが形態学的に分析された。 さらに、CKMorphはカバーテストセットの4.22M CKトークンの95.5%の少なくとも1つの分析を行った。 CK動詞データベースやテストセットを含むアプリケーションとリソースのデモはhttps://github.com/CKMorph.comで公開公開されている。

A morphological analyzer, which is a significant component of many natural language processing applications especially for morphologically rich languages, divides an input word into all its composing morphemes and identifies their morphological roles. In this paper, we introduce a comprehensive morphological analyzer for Central Kurdish (CK), a low-resourced language with a rich morphology. Building upon the limited existing literature, we first assembled and systematically categorized a comprehensive collection of the morphological and morphophonological rules of the language. Additionally, we collected and manually labeled a generative lexicon containing nearly 10,000 verb, noun and adjective stems, named entities, and other types of word stems. We used these rule sets and resources to implement CKMorph Analyzer based on finite-state transducers. In order to provide a benchmark for future research, we collected, manually labeled, and publicly shared test sets for evaluating accuracy and coverage of the analyzer. CKMorph was able to correctly analyze 95.9% of the accuracy test set, containing 1,000 CK words morphologically analyzed according to the context. Moreover, CKMorph gave at least one analysis for 95.5% of 4.22M CK tokens of the coverage test set. The demonstration of the application and resources including CK verb database and test sets are openly accessible at https://github.com/CKMorph.
翻訳日:2021-09-20 14:40:48 公開日:2021-09-17
# rng-kbqa: 知識ベース質問応答のための反復ランキングの改善

RnG-KBQA: Generation Augmented Iterative Ranking for Knowledge Base Question Answering ( http://arxiv.org/abs/2109.08678v1 )

ライセンス: Link先を確認
Xi Ye, Semih Yavuz, Kazuma Hashimoto, Yingbo Zhou, Caiming Xiong(参考訳) 既存のKBQAアプローチは、i.d.テストデータ上での強いパフォーマンスにもかかわらず、見えないKBスキーマ項目に関する問題への一般化に苦慮することが多い。 以前のランキングベースのアプローチは一般化に成功していますが、カバレッジの問題に苦しんでいます。 本稿では,KBQAのランク・アンド・ジェネレートアプローチであるRnG-KBQAについて述べる。 本手法は,まずコントラストランカを用いて,知識グラフの検索により得られた候補論理型をランク付けする。 次に、質問と最終論理形式を構成する上位候補に基づいて、調整された生成モデルを導入する。 我々はgrailqaとwebqspデータセットで最新の結果を得る。 特に,本手法はgrailqaのリーダボードにおいて,従来の最先端技術を大きく上回っている。 さらに、RnG-KBQAは、オラクルエンティティリンクを使用するものを含め、一般的なWebQSPベンチマークにおいて、すべての以前のアプローチよりも優れています。 実験により, 評価と生成の相互作用の有効性が示され, 提案手法は全設定において優れた性能を示し, 特にゼロショットの一般化が向上した。

Existing KBQA approaches, despite achieving strong performance on i.i.d. test data, often struggle in generalizing to questions involving unseen KB schema items. Prior ranking-based approaches have shown some success in generalization, but suffer from the coverage issue. We present RnG-KBQA, a Rank-and-Generate approach for KBQA, which remedies the coverage issue with a generation model while preserving a strong generalization capability. Our approach first uses a contrastive ranker to rank a set of candidate logical forms obtained by searching over the knowledge graph. It then introduces a tailored generation model conditioned on the question and the top-ranked candidates to compose the final logical form. We achieve new state-of-the-art results on GrailQA and WebQSP datasets. In particular, our method surpasses the prior state-of-the-art by a large margin on the GrailQA leaderboard. In addition, RnG-KBQA outperforms all prior approaches on the popular WebQSP benchmark, even including the ones that use the oracle entity linking. The experimental results demonstrate the effectiveness of the interplay between ranking and generation, which leads to the superior performance of our proposed approach across all settings with especially strong improvements in zero-shot generalization.
翻訳日:2021-09-20 14:40:25 公開日:2021-09-17
# GraFormer: 3D Pose推定のためのグラフ畳み込み変換器

GraFormer: Graph Convolution Transformer for 3D Pose Estimation ( http://arxiv.org/abs/2109.08364v1 )

ライセンス: Link先を確認
Weixi Zhao and Yunjie Tian and Qixiang Ye and Jianbin Jiao and Weiqiang Wang(参考訳) 2次元関節間の関係の活用は重要な役割を担っているが、2次元から3次元のポーズ推定において半発達したままである。 そこで本稿では, 3次元ポーズ推定のためのグラフ畳み込みを組み合わせた新しいトランスフォーマーであるgraformerを提案する。 提案されたGraFormerは、2つの繰り返し積み重ねられたコアモジュール、GraAttentionとChebGConvブロックで構成されている。 GraAttentionは、すべての2次元関節が、後のモジュールに不可欠な特徴をもたらすジョイントのグラフ構造情報を弱めることなく、大域的受容領域で相互作用することができる。 接合の明らかな関係をモデル化するバニラグラフの畳み込みとは異なり、ChebGConvブロックは2次元関節を高次球面で相互作用させ、それらの暗黙の関係を定式化する。 GraFormerの優位性を実証的に示すために、人気のあるベンチマークにまたがって広範な実験を行った。 具体的には、GraFormerは18$\%$パラメータを使用しながら、Human3.6Mデータセットのテクニックの状態を上回ります。 コードはhttps://github.com/graformer/graformerで入手できる。

Exploiting relations among 2D joints plays a crucial role yet remains semi-developed in 2D-to-3D pose estimation. To alleviate this issue, we propose GraFormer, a novel transformer architecture combined with graph convolution for 3D pose estimation. The proposed GraFormer comprises two repeatedly stacked core modules, GraAttention and ChebGConv block. GraAttention enables all 2D joints to interact in global receptive field without weakening the graph structure information of joints, which introduces vital features for later modules. Unlike vanilla graph convolutions that only model the apparent relationship of joints, ChebGConv block enables 2D joints to interact in the high-order sphere, which formulates their hidden implicit relations. We empirically show the superiority of GraFormer through conducting extensive experiments across popular benchmarks. Specifically, GraFormer outperforms state of the art on Human3.6M dataset while using 18$\%$ parameters. The code is available at https://github.com/Graformer/GraFormer .
翻訳日:2021-09-20 14:40:04 公開日:2021-09-17
# ロバストなビデオ表情認識のための表現スニペットトランスフォーマー

Expression Snippet Transformer for Robust Video-based Facial Expression Recognition ( http://arxiv.org/abs/2109.08409v1 )

ライセンス: Link先を確認
Yuanyuan Liu, Wenbin Wang, Chuanxu Feng, Haoyu Zhang, Zhe Chen, Yibing Zhan(参考訳) 最近のtransformerの成功は、ビデオベースの表情認識(fer)を含む様々な視覚理解タスクに新しい方向を与えている。 視覚関係を効果的にモデル化することで、Transformerは複雑なパターンを記述する能力を示した。 しかし、トランスフォーマーは、多くのビデオの表情が小さすぎて意味のある空間的-時間的関係を抽出できないため、微妙な表情の動きに気付きにくい。 そこで本研究では,各動画を少数の顔の動きを含む一連の表現スニペットに分解し,表現スニペットトランスフォーマー(EST)を用いて,スニペット内とスニペット間の関係をモデル化するトランスフォーマーの能力を増強する手法を提案する。 特に,スニペット内モデリングにおいて,スニペットの微妙な顔の動きのエンコーディングを強化するために,注意増強スニペット特徴抽出器(AA-SFE)を考案した。 さらに,Snippet間モデリングでは,シャッフルスニペット順序予測(SSOP)とそれに対応する損失を導入し,シャッフルスニペット順序の同定のためにトランスフォーマーを訓練することにより,その後のスニペット間の微妙な動き変化のモデル化を改善する。 4つの挑戦的データセット(BU-3DFE, MMI, AFEW, DFEW)に対する大規模な実験は、ESTが他のCNNベースの手法よりも優れていることを示す。

The recent success of Transformer has provided a new direction to various visual understanding tasks, including video-based facial expression recognition (FER). By modeling visual relations effectively, Transformer has shown its power for describing complicated patterns. However, Transformer still performs unsatisfactorily to notice subtle facial expression movements, because the expression movements of many videos can be too small to extract meaningful spatial-temporal relations and achieve robust performance. To this end, we propose to decompose each video into a series of expression snippets, each of which contains a small number of facial movements, and attempt to augment the Transformer's ability for modeling intra-snippet and inter-snippet visual relations, respectively, obtaining the Expression snippet Transformer (EST). In particular, for intra-snippet modeling, we devise an attention-augmented snippet feature extractor (AA-SFE) to enhance the encoding of subtle facial movements of each snippet by gradually attending to more salient information. In addition, for inter-snippet modeling, we introduce a shuffled snippet order prediction (SSOP) head and a corresponding loss to improve the modeling of subtle motion changes across subsequent snippets by training the Transformer to identify shuffled snippet orders. Extensive experiments on four challenging datasets (i.e., BU-3DFE, MMI, AFEW, and DFEW) demonstrate that our EST is superior to other CNN-based methods, obtaining state-of-the-art performance.
翻訳日:2021-09-20 14:39:46 公開日:2021-09-17
# 3D仮想環境を計測する:移動可能な3Dオブジェクト

Messing Up 3D Virtual Environments: Transferable Adversarial 3D Objects ( http://arxiv.org/abs/2109.08465v1 )

ライセンス: Link先を確認
Enrico Meloni, Matteo Tiezzi, Luca Pasqualini, Marco Gori, Stefano Melacci(参考訳) ここ数年、科学コミュニティは、3D仮想環境への目覚ましい関心を示し、リアルな仮想世界で機械学習ベースのモデルをトレーニングし、テストした。 一方、これらの環境は、機械学習アルゴリズムの弱点の研究や、機械学習モデルが3Dの敵攻撃に対して堅牢性を得るためにトレーニング設定をシミュレートする手段にもなり得る。 一方, 大規模コミュニティからの貢献を許す公的な環境において, ベンチマークプロセスの無効化を図り, 相手条件の創出を目指す人たちも, 人気が高まっている。 既存のAdversarial Machine Learningアプローチのほとんどは静的イメージに重点を置いており、3D環境の扱い方や、それを観察する分類器を騙すために3Dオブジェクトをどのように変更すべきかの研究はほとんど行われていない。 本稿では, 容易にアクセス可能な要素からなるツールチェーンを用いて, テクスチャを変更することで, 対向3Dオブジェクトの製作方法を検討する。 そこで本研究では,市販の限定サロゲートレンダラーを用いて,レンダリングプロセスのパラメータに関する勾配を計算し,より高度な3Dエンジンへの攻撃をある程度の精度で行うことが可能であることを示す。 本研究では,ターゲットエンジンで有効と推定されるテクスチャ要素の変更に焦点を合わせるために,2種類のレンダラを相互に結合するサリエンシーに基づく攻撃を提案する。

In the last few years, the scientific community showed a remarkable and increasing interest towards 3D Virtual Environments, training and testing Machine Learning-based models in realistic virtual worlds. On one hand, these environments could also become a mean to study the weaknesses of Machine Learning algorithms, or to simulate training settings that allow Machine Learning models to gain robustness to 3D adversarial attacks. On the other hand, their growing popularity might also attract those that aim at creating adversarial conditions to invalidate the benchmarking process, especially in the case of public environments that allow the contribution from a large community of people. Most of the existing Adversarial Machine Learning approaches are focused on static images, and little work has been done in studying how to deal with 3D environments and how a 3D object should be altered to fool a classifier that observes it. In this paper, we study how to craft adversarial 3D objects by altering their textures, using a tool chain composed of easily accessible elements. We show that it is possible, and indeed simple, to create adversarial objects using off-the-shelf limited surrogate renderers that can compute gradients with respect to the parameters of the rendering process, and, to a certain extent, to transfer the attacks to more advanced 3D engines. We propose a saliency-based attack that intersects the two classes of renderers in order to focus the alteration to those texture elements that are estimated to be effective in the target engine, evaluating its impact in popular neural classifiers.
翻訳日:2021-09-20 14:39:17 公開日:2021-09-17
# ActionCLIP: ビデオアクション認識のための新しいパラダイム

ActionCLIP: A New Paradigm for Video Action Recognition ( http://arxiv.org/abs/2109.08472v1 )

ライセンス: Link先を確認
Mengmeng Wang, Jiazheng Xing and Yong Liu(参考訳) ビデオアクション認識の標準的アプローチは、古典的かつ標準的な1対nの投票タスクを神経モデルに指示する。 それらは事前に定義されたカテゴリの固定セットを予測するように訓練され、見当たらない概念を持つ新しいデータセットの転送能力を制限する。 本稿では,単に数にマッピングするのではなく,ラベルテキストの意味情報に重きを置くことにより,行動認識の新しい視点を提案する。 具体的には、このタスクをマルチモーダル学習フレームワーク内のビデオテキストマッチング問題としてモデル化し、よりセマンティック言語による映像表現を強化し、さらなるラベル付きデータやパラメータの要求なしにゼロショットアクション認識を可能にする。 さらに,ラベルテキストの欠如に対処し,膨大なWebデータを活用するために,この多モーダル学習フレームワークに基づく行動認識手法を提案し,これを「事前学習,即時学習,微調整」と呼ぶ。 このパラダイムはまず、大量のWeb画像テキストやビデオテキストデータを事前学習することで、強力な表現を学習する。 そして、アクション認識タスクは、プロンプトエンジニアリングによる事前学習問題のように振る舞う。 最後に、ターゲットデータセットのエンドツーエンドの微調整により、強力なパフォーマンスが得られる。 本稿では,新しいパラダイムであるActionCLIPのインスタンス化について述べる。これは,優れたゼロショット/フェーショット転送能力を持つだけでなく,一般的なアクション認識タスクでも最高性能に達し,VT-B/16をバックボーンとしてKinetics-400上で83.8%の精度を実現している。 コードはhttps://github.com/sallymmx/ActionCLIP.gitで入手できる。

The canonical approach to video action recognition dictates a neural model to do a classic and standard 1-of-N majority vote task. They are trained to predict a fixed set of predefined categories, limiting their transferable ability on new datasets with unseen concepts. In this paper, we provide a new perspective on action recognition by attaching importance to the semantic information of label texts rather than simply mapping them into numbers. Specifically, we model this task as a video-text matching problem within a multimodal learning framework, which strengthens the video representation with more semantic language supervision and enables our model to do zero-shot action recognition without any further labeled data or parameters requirements. Moreover, to handle the deficiency of label texts and make use of tremendous web data, we propose a new paradigm based on this multimodal learning framework for action recognition, which we dub "pre-train, prompt and fine-tune". This paradigm first learns powerful representations from pre-training on a large amount of web image-text or video-text data. Then it makes the action recognition task to act more like pre-training problems via prompt engineering. Finally, it end-to-end fine-tunes on target datasets to obtain strong performance. We give an instantiation of the new paradigm, ActionCLIP, which not only has superior and flexible zero-shot/few-shot transfer ability but also reaches a top performance on general action recognition task, achieving 83.8% top-1 accuracy on Kinetics-400 with a ViT-B/16 as the backbone. Code is available at https://github.com/sallymmx/ActionCLIP.git
翻訳日:2021-09-20 14:38:50 公開日:2021-09-17
# 歴史的登録の行為分割のための画像ベースモデルにおけるキーワード位置を含む

Including Keyword Position in Image-based Models for Act Segmentation of Historical Registers ( http://arxiv.org/abs/2109.08477v1 )

ライセンス: Link先を確認
M\'elodie Boillet, Martin Maarand, Thierry Paquet and Christopher Kermorvant(参考訳) 複雑な画像のセマンティック領域へのセグメンテーションは、Deep Learningの出現とともにここ数年、関心が高まっている。 最近まで、文書の視覚的外観に焦点をあて、テキストコンテンツが提供する豊富な情報を無視してきた歴史文書分析の方法がほとんどであった。 しかし、複雑な文書を意味領域に分割することは、視覚的な特徴と、最近のモデルが視覚情報とテキスト情報の両方を埋め込むだけでは不可能である。 本稿では,歴史的レジスタを行動などの構造的・意味的な単位に分割するための視覚的・テキスト的情報の利用に焦点を当てる。 行為は、人口統計情報(洗礼、結婚または死)や王室の決定(寄付または恩赦)などの貴重な知識を含む文書記録である。 本稿では,キーフレーズを含むテキスト行の位置を付加した文書画像のリッチ化のための簡単なパイプラインを提案し,これらの画像上で標準的な画像ベースレイアウト解析システムを実行することで,大幅な向上が期待できることを示す。 本研究では,テキスト列の位置や内容が自動認識システムで抽出された実使用条件において,テキスト情報付加時の行動検出率が38%から74%に増加することを示す。

The segmentation of complex images into semantic regions has seen a growing interest these last years with the advent of Deep Learning. Until recently, most existing methods for Historical Document Analysis focused on the visual appearance of documents, ignoring the rich information that textual content can offer. However, the segmentation of complex documents into semantic regions is sometimes impossible relying only on visual features and recent models embed both visual and textual information. In this paper, we focus on the use of both visual and textual information for segmenting historical registers into structured and meaningful units such as acts. An act is a text recording containing valuable knowledge such as demographic information (baptism, marriage or death) or royal decisions (donation or pardon). We propose a simple pipeline to enrich document images with the position of text lines containing key-phrases and show that running a standard image-based layout analysis system on these images can lead to significant gains. Our experiments show that the detection of acts increases from 38 % of mAP to 74 % when adding textual information, in real use-case conditions where text lines positions and content are extracted with an automatic recognition system.
翻訳日:2021-09-20 14:38:24 公開日:2021-09-17
# 視点ボトルネックを用いた3次元立体解析

Pointly-supervised 3D Scene Parsing with Viewpoint Bottleneck ( http://arxiv.org/abs/2109.08553v1 )

ライセンス: Link先を確認
Liyi Luo, Beiwen Tian, Hao Zhao and Guyue Zhou(参考訳) 3Dポイントクラウドのセマンティック理解は、様々なロボティクス応用において重要である。 本稿では,ポイントワイズ・セマンティック・アノテーションが高価であることを考えると,非常に少ないラベルを持つモデル学習の課題に対処する。 主な問題は、多くの未ラベルのポイントをどのように活用するかである。 そこで本研究では,視点ボトルネックと呼ばれる自己教師型3次元表現学習フレームワークを提案する。 異なる視点の下で点雲に適用される相互情報に基づく目的を最適化する。 原則分析により,視点ボトルネックは大規模ポイントクラウドデータに適したエレガントなサーロゲート損失関数をもたらすことが示された。 対照的な学習に基づく以前の芸術と比較すると、視点のボトルネックはサンプル次元ではなく特徴次元に作用する。 このパラダイムシフトには、実装やチューニングが容易で、ネガティブなサンプルは必要とせず、目標のダウンストリームタスクでパフォーマンスが向上する、といういくつかのメリットがあります。 提案手法は,ScanNetの公開ベンチマーク上で,ポイント教師付き設定で評価する。 我々は同等の解の中で最良の量的結果を得る。 一方,様々な難易度場面の質的検証を行った。 彼らは、我々のモデルがロボティクスのアプリケーションにかなり良いシーン解析結果をもたらすことを実証した。 私たちのコード、データ、モデルは公開されます。

Semantic understanding of 3D point clouds is important for various robotics applications. Given that point-wise semantic annotation is expensive, in this paper, we address the challenge of learning models with extremely sparse labels. The core problem is how to leverage numerous unlabeled points. To this end, we propose a self-supervised 3D representation learning framework named viewpoint bottleneck. It optimizes a mutual-information based objective, which is applied on point clouds under different viewpoints. A principled analysis shows that viewpoint bottleneck leads to an elegant surrogate loss function that is suitable for large-scale point cloud data. Compared with former arts based upon contrastive learning, viewpoint bottleneck operates on the feature dimension instead of the sample dimension. This paradigm shift has several advantages: It is easy to implement and tune, does not need negative samples and performs better on our goal down-streaming task. We evaluate our method on the public benchmark ScanNet, under the pointly-supervised setting. We achieve the best quantitative results among comparable solutions. Meanwhile we provide an extensive qualitative inspection on various challenging scenes. They demonstrate that our models can produce fairly good scene parsing results for robotics applications. Our code, data and models will be made public.
翻訳日:2021-09-20 14:38:03 公開日:2021-09-17
# シンプルなエンティティ中心の質問がDense Retrieversに挑戦

Simple Entity-Centric Questions Challenge Dense Retrievers ( http://arxiv.org/abs/2109.08535v1 )

ライセンス: Link先を確認
Christopher Sciavolino, Zexuan Zhong, Jinhyuk Lee, Danqi Chen(参考訳) 近年,厳密な検索モデルの成功により,少数の教師付きトレーニング例を用いてスパースモデルを上回ったオープンドメイン質問応答が急速に普及している。 しかし,本論文では,現在の密度モデルが検索の聖杯ではないことを実証する。 私たちはまず、Wikidataの事実に基づいた、単純でエンティティに富んだ質問の集合であるEntityQuestionsを構築します(例えば、Arve Fursetはどこで生まれたのか?)。 この問題を調査し, 学習中に質問パターンが明示的に観察されない限り, 密集したレトリバーが共通の実体にのみ一般化できることを明らかにする。 我々はこの問題に対処するための2つの簡単な解決策について議論する。 まず,データ拡張が一般化問題を解くことができないことを示す。 第2に,よりロバストなパッセージエンコーダは,特殊な質問エンコーダを用いた質問適応を促進する。 私たちは、さまざまな入力分布でうまく機能する、堅牢で普遍的な密集したレトリバーを作成するという課題に光を当てられることを願っています。

Open-domain question answering has exploded in popularity recently due to the success of dense retrieval models, which have surpassed sparse models using only a few supervised training examples. However, in this paper, we demonstrate current dense models are not yet the holy grail of retrieval. We first construct EntityQuestions, a set of simple, entity-rich questions based on facts from Wikidata (e.g., "Where was Arve Furset born?"), and observe that dense retrievers drastically underperform sparse methods. We investigate this issue and uncover that dense retrievers can only generalize to common entities unless the question pattern is explicitly observed during training. We discuss two simple solutions towards addressing this critical problem. First, we demonstrate that data augmentation is unable to fix the generalization problem. Second, we argue a more robust passage encoder helps facilitate better question adaptation using specialized question encoders. We hope our work can shed light on the challenges in creating a robust, universal dense retriever that works well across different input distributions.
翻訳日:2021-09-20 14:37:48 公開日:2021-09-17
# リアルタイム入札・勧告におけるオフライン強化学習の高速化:シミュレーションの可能性

Accelerating Offline Reinforcement Learning Application in Real-Time Bidding and Recommendation: Potential Use of Simulation ( http://arxiv.org/abs/2109.08331v1 )

ライセンス: Link先を確認
Haruka Kiyohara, Kosuke Kawakami, Yuta Saito(参考訳) オンライン広告のレコメンダシステム(recsys)とリアルタイム入札(rtb)では,バンディットと強化学習(rl)を用いた逐次意思決定の最適化を試みることが多い。 これらのアプリケーションでは、オフライン強化学習(オフラインrl)とオフポリシー評価(ope)は、オンラインインタラクションを危険にさらすことなくログデータのみを使用して安全なポリシー最適化を可能にするため、有用である。 本稿では,特にRecSys と RTB において,オフライン RL と OPE の実用的な研究を加速するためにシミュレーションを利用する可能性について検討する。 具体的には、シミュレーションがオフラインRLとOPEの実証的研究にどのように役立つかについて議論する。 我々は,オフラインRLとOPEの実証研究において,シミュレーションを効果的に活用すべきという立場を取る。 実世界のデータのみを使用した実験が望ましいという反論に対して,まず,実世界の実験における根本的なリスクと再現可能性の問題について指摘する。 次に,これらの課題をシミュレーションを用いて解決する方法について述べる。 さらに,実世界およびシミュレーションに基づく実験の利点を取り入れて,その立場を防御する方法を示す。 最後に、公開シミュレーションプラットフォームに関して、RecSysおよびRTBにおけるオフラインRLおよびOPEの実践的研究をさらに促進するためのオープンな課題を示す。 この問題の解決策として、現在進行中のオープンソースプロジェクトとその潜在的なユースケースを示します。 オフラインRLとOPEのためのシミュレーションベースの評価プラットフォームの構築と活用は、RecSysとRTBコミュニティにとって大きな関心と関係があると考えています。

In recommender systems (RecSys) and real-time bidding (RTB) for online advertisements, we often try to optimize sequential decision making using bandit and reinforcement learning (RL) techniques. In these applications, offline reinforcement learning (offline RL) and off-policy evaluation (OPE) are beneficial because they enable safe policy optimization using only logged data without any risky online interaction. In this position paper, we explore the potential of using simulation to accelerate practical research of offline RL and OPE, particularly in RecSys and RTB. Specifically, we discuss how simulation can help us conduct empirical research of offline RL and OPE. We take a position to argue that we should effectively use simulations in the empirical research of offline RL and OPE. To refute the counterclaim that experiments using only real-world data are preferable, we first point out the underlying risks and reproducibility issue in real-world experiments. Then, we describe how these issues can be addressed by using simulations. Moreover, we show how to incorporate the benefits of both real-world and simulation-based experiments to defend our position. Finally, we also present an open challenge to further facilitate practical research of offline RL and OPE in RecSys and RTB, with respect to public simulation platforms. As a possible solution for the issue, we show our ongoing open source project and its potential use case. We believe that building and utilizing simulation-based evaluation platforms for offline RL and OPE will be of great interest and relevance for the RecSys and RTB community.
翻訳日:2021-09-20 14:36:21 公開日:2021-09-17
# 垂直連合学習におけるモデルフェアネスの達成

Achieving Model Fairness in Vertical Federated Learning ( http://arxiv.org/abs/2109.08344v1 )

ライセンス: Link先を確認
Changxin Liu Zirui Zhou Yang Shi, Jian Pei, Lingyang Chu, Yong Zhang(参考訳) 重複しない機能を持つ複数の企業がプライベートデータやモデルパラメータを公開せずに機械学習モデルを強化できる垂直連合学習(VFL)が最近注目を集めている。 他の機械学習アルゴリズムと同様に、VFLは公平性の問題に悩まされる。 この問題に取り組むため,本研究では,公正なvflフレームワークを提案する。 まず,学習課題を制約付き最適化問題としてモデル化する,VFLにおける公正モデルトレーニングの問題を体系的に定式化する。 これを解決するために、同値な二重形式を考慮し、各データパーティが通信ラウンド毎に複数の並列化ローカル更新を実行し、通信ラウンドの数を効果的に削減する非同期勾配座標差上昇アルゴリズムを開発する。 このアルゴリズムは, 弱条件下での通信ラウンドにおいて, 二重目的物の$\delta$-stationary 点が$\mathcal{O}(\delta^{-4})$であることを示す。 最後に、3つのベンチマークデータセットに対する広範な実験により、フェアモデルのトレーニングにおいて、我々の手法の優れた性能を示す。

Vertical federated learning (VFL), which enables multiple enterprises possessing non-overlapped features to strengthen their machine learning models without disclosing their private data and model parameters, has received increasing attention lately. Similar to other machine learning algorithms, VFL suffers from fairness issues, i.e., the learned model may be unfairly discriminatory over the group with sensitive attributes. To tackle this problem, we propose a fair VFL framework in this work. First, we systematically formulate the problem of training fair models in VFL, where the learning task is modeled as a constrained optimization problem. To solve it in a federated manner, we consider its equivalent dual form and develop an asynchronous gradient coordinate-descent ascent algorithm, where each data party performs multiple parallelized local updates per communication round to effectively reduce the number of communication rounds. We prove that the algorithm finds a $\delta$-stationary point of the dual objective in $\mathcal{O}(\delta^{-4})$ communication rounds under mild conditions. Finally, extensive experiments on three benchmark datasets demonstrate the superior performance of our method in training fair models.
翻訳日:2021-09-20 14:35:50 公開日:2021-09-17
# 高精度, 解釈可能, 高速アニメーション: AnIterative, Sparse, Nonconvex Approach

Accurate, Interpretable, and Fast Animation: AnIterative, Sparse, and Nonconvex Approach ( http://arxiv.org/abs/2109.08356v1 )

ライセンス: Link先を確認
Stevo Rackovic, Claudia Soares, Dusan Jakovetic and Zoranka Desnica(参考訳) デジタル人間のアニメーションは、人間の顔の高品質な3Dモデルに依存している。 フェイスリグは正確でなければならず、同時に高速に計算できる。 最も一般的なリギングモデルのひとつがblendshapeモデルである。 顔アニメーションにおける非凸逆リグ問題を解くための新しいアルゴリズムを提案する。 我々のアプローチはモデルベースであるが、従来のモデルベースアプローチとは対照的に、高次リグモデルに対する線形近似の代わりに二次的手法を用いる。 これにより、ソリューションの精度が平均で8%向上し、経験的な結果によって確認されたことにより、結果のパラメータベクトルの空間性が向上する -- アニメーションアーティストによる解釈可能性の重要な特徴である。 提案手法は,空間正規化を伴う非凸制約問題に適用したレバンス・マルカート (LM) アルゴリズムに基づいている。 イテレートの複雑さを減らすために、さらに、メジャー化最小化(mm)のパラダイムが実行され、各アルゴリズムの反復でパラメータで分離可能な問題を解決するのが容易になる。 このアルゴリズムは,多数のアニメーションデータセット,プロプライエタリ,オープンソースで評価され,線形リグ近似に基づく標準的な手法と比較して,本手法の優位性を示す。 我々のアルゴリズムは特定の問題をターゲットにしているが、追加の信号処理アプリケーションがあるかもしれない。

Digital human animation relies on high-quality 3D models of the human face: rigs. A face rig must be accurate and, at the same time, fast to compute. One of the most common rigging models is the blendshape model. We propose a novel algorithm for solving the nonconvex inverse rig problem in facial animation. Our approach is model-based, but in contrast with previous model-based approaches, we use a quadratic instead of the linear approximation to the higher order rig model. This increases the accuracy of the solution by 8 percent on average and, confirmed by the empirical results, increases the sparsity of the resulting parameter vector -- an important feature for interpretability by animation artists. The proposed solution is based on a Levenberg-Marquardt (LM) algorithm, applied to a nonconvex constrained problem with sparsity regularization. In order to reduce the complexity of the iterates, a paradigm of Majorization Minimization (MM) is further invoked, which leads to an easy to solve problem that is separable in the parameters at each algorithm iteration. The algorithm is evaluated on a number of animation datasets, proprietary and open-source, and the results indicate the superiority of our method compared to the standard approach based on the linear rig approximation. Although our algorithm targets the specific problem, it might have additional signal processing applications.
翻訳日:2021-09-20 14:35:33 公開日:2021-09-17
# アリババの時系列売上予測のための知識誘導型トランスフォーマー

From Known to Unknown: Knowledge-guided Transformer for Time-Series Sales Forecasting in Alibaba ( http://arxiv.org/abs/2109.08381v1 )

ライセンス: Link先を確認
Xinyuan Qi, Hou Kai, Tong Liu, Zhongzhong Yu, Sihao Hu, Wenwu Ou(参考訳) 時系列予測(TSF)は、電力消費計画や販売予測など、多くの実世界のアプリケーションにおいて基本的に必要である。 電子商取引では、正確な時系列販売予測(TSSF)が経済的利益を著しく増大させる可能性がある。 eコマースにおけるTSSFは、何百万もの製品の将来の販売を予測することを目的としている。 商品の傾向と季節性は様々であり、プロモーション活動は販売に大きな影響を与えている。 上記の困難に加えて、歴史統計以外の将来的な知識も事前に知ることができる。 このような将来の知識は、将来のプロモーション活動が現在の売り上げに与える影響を反映し、より良い精度を達成するのに役立つかもしれない。 しかし、既存のtsf手法の多くは、歴史情報に基づいて未来を予測するだけである。 本研究は,今後の知識の欠落を補うものである。 予測のための将来の知識を導入する以外は、過去の情報、現在の要因、将来の知識を利用して将来の販売を予測する双方向トランスフォーマーに基づくAliformerを提案する。 具体的には,知識の一貫性を活かし,タイミング情報の伝達を誘導する知識誘導型セルフアテンション層を設計する。 また,将来的な知識の活用に重きを置くために,将来重視のトレーニング戦略を提案する。 4つの公開ベンチマークデータセットとtmallから提案された大規模産業データセットに関する広範囲な実験により、aliformerは最先端のtsfメソッドよりも優れた性能を発揮することが示されている。 aliformerはtmall産業テーブルワークで商品選択のためにデプロイされ、データセットは承認次第リリースされる。

Time series forecasting (TSF) is fundamentally required in many real-world applications, such as electricity consumption planning and sales forecasting. In e-commerce, accurate time-series sales forecasting (TSSF) can significantly increase economic benefits. TSSF in e-commerce aims to predict future sales of millions of products. The trend and seasonality of products vary a lot, and the promotion activity heavily influences sales. Besides the above difficulties, we can know some future knowledge in advance except for the historical statistics. Such future knowledge may reflect the influence of the future promotion activity on current sales and help achieve better accuracy. However, most existing TSF methods only predict the future based on historical information. In this work, we make up for the omissions of future knowledge. Except for introducing future knowledge for prediction, we propose Aliformer based on the bidirectional Transformer, which can utilize the historical information, current factor, and future knowledge to predict future sales. Specifically, we design a knowledge-guided self-attention layer that uses known knowledge's consistency to guide the transmission of timing information. And the future-emphasized training strategy is proposed to make the model focus more on the utilization of future knowledge. Extensive experiments on four public benchmark datasets and one proposed large-scale industrial dataset from Tmall demonstrate that Aliformer can perform much better than state-of-the-art TSF methods. Aliformer has been deployed for goods selection on Tmall Industry Tablework, and the dataset will be released upon approval.
翻訳日:2021-09-20 14:35:14 公開日:2021-09-17
# データクラスタリングにおける識別的類似性

Discriminative Similarity for Data Clustering ( http://arxiv.org/abs/2109.08675v1 )

ライセンス: Link先を確認
Yingzhen Yang, Ping Li(参考訳) 類似度に基づくクラスタリング手法は、データ間のペアの類似度に応じて、データをクラスタに分離する。 本稿では,データクラスタリングにおける識別的類似性を学ぶ新しい手法である判別的類似性(cds)によるクラスタリングを提案する。 CDSは、各データパーティションから教師なし類似性に基づく分類器を学習し、データパーティションに関連する学習された分類器の一般化誤差を最小限にして、データの最適分割を探索する。 ラデマッハ複雑性による一般化解析により、教師なし類似性に基づく分類器の一般化誤差は、異なるクラスのデータ間の識別的類似性の和として表される。 導出した識別的類似性は、カーネル密度分類のための統合二乗誤差によっても引き起こせることが証明された。 提案する識別的類似性の性能を評価するために, カーネルを類似関数として用いた新たなクラスタリング法, 教師なしカーネル分類(CDSK)によるCDSを提案する。

Similarity-based clustering methods separate data into clusters according to the pairwise similarity between the data, and the pairwise similarity is crucial for their performance. In this paper, we propose Clustering by Discriminative Similarity (CDS), a novel method which learns discriminative similarity for data clustering. CDS learns an unsupervised similarity-based classifier from each data partition, and searches for the optimal partition of the data by minimizing the generalization error of the learnt classifiers associated with the data partitions. By generalization analysis via Rademacher complexity, the generalization error bound for the unsupervised similarity-based classifier is expressed as the sum of discriminative similarity between the data from different classes. It is proved that the derived discriminative similarity can also be induced by the integrated squared error bound for kernel density classification. In order to evaluate the performance of the proposed discriminative similarity, we propose a new clustering method using a kernel as the similarity function, CDS via unsupervised kernel classification (CDSK), with its effectiveness demonstrated by experimental results.
翻訳日:2021-09-20 14:34:50 公開日:2021-09-17
# ThriftyDAgger: インタラクティブな模倣学習のためのノベルティとリスクゲーティング

ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive Imitation Learning ( http://arxiv.org/abs/2109.08273v1 )

ライセンス: Link先を確認
Ryan Hoque, Ashwin Balakrishna, Ellen Novoseller, Albert Wilcox, Daniel S. Brown, Ken Goldberg(参考訳) 効果的なロボット学習は、しばしばオンラインの人間からのフィードバックと介入を必要とする。これは、対話的な模倣学習における中心的な課題を生じさせる: 人間の監督者に対する学習の促進と負担の制限の両方に、介入のタイミングと長さを制御することは可能か? 本稿では,人的介入を希望する予算を与えられた人的監督者に対して積極的に問合せを行うアルゴリズムであるthriftydaggerを提案する。 ThriftyDAgger は,(1) ロボットが模倣する参照行動を持たない,あるいは(2) ロボットがタスク完了に対する信頼度が低い,新規な状態においてのみ介入を要請するために,学習されたスイッチングポリシを使用する。 後者を検出するために,現状のロボット政策の下でリスクを推定する新しい指標を提案する。 シミュレーション実験と物理的ケーブルルーティング実験により,ThriftyDAggerの介入基準は,従来のアルゴリズムよりも効率よくタスク性能とオーバヘッド負荷のバランスをとることが示唆された。 ThriftyDAggerは実行時にも適用でき、シミュレーションと物理タスクの両方で100%の成功率を達成することができる。 また,ThriftyDAggerは,3ロボット群を制御しながら集中作業を行うユーザスタディ (N=10) により,次の最良アルゴリズムと比較して,人間とロボットのパフォーマンスを58%,ロボットを80%向上させ,オーバヘッド負担を軽減した。

Effective robot learning often requires online human feedback and interventions that can cost significant human time, giving rise to the central challenge in interactive imitation learning: is it possible to control the timing and length of interventions to both facilitate learning and limit burden on the human supervisor? This paper presents ThriftyDAgger, an algorithm for actively querying a human supervisor given a desired budget of human interventions. ThriftyDAgger uses a learned switching policy to solicit interventions only at states that are sufficiently (1) novel, where the robot policy has no reference behavior to imitate, or (2) risky, where the robot has low confidence in task completion. To detect the latter, we introduce a novel metric for estimating risk under the current robot policy. Experiments in simulation and on a physical cable routing experiment suggest that ThriftyDAgger's intervention criteria balances task performance and supervisor burden more effectively than prior algorithms. ThriftyDAgger can also be applied at execution time, where it achieves a 100% success rate on both the simulation and physical tasks. A user study (N=10) in which users control a three-robot fleet while also performing a concentration task suggests that ThriftyDAgger increases human and robot performance by 58% and 80% respectively compared to the next best algorithm while reducing supervisor burden.
翻訳日:2021-09-20 14:34:32 公開日:2021-09-17
# 動的ロボットシナリオのための効率的な状態表現学習

Efficient State Representation Learning for Dynamic Robotic Scenarios ( http://arxiv.org/abs/2109.08642v1 )

ライセンス: Link先を確認
Zhaorun Chen, Liang Gong, Te Sun, Binhao Chen, Shenghan Xie, David Filliat and Natalia D\'iaz-Rodr\'iguez(参考訳) ディープラーニングの急速な進歩は、エンドツーエンドの強化学習(RL)を加速させるが、特にロボットシナリオのような高次元空間での直接適用は、高いサンプル効率に悩まされている。 そのため、複雑な感覚データから低次元状態へのタスク関連特徴の符号化を特に学習するために、状態表現学習(SRL)を提案する。 しかし、SRLの広範な実装は通常、観測状態マッピングを別々に学習する分離戦略によって行われるため、過度に適合しがちである。 このような問題に対処するために、SRLを元のRLスケールに統合する抽象表現によるポリシー最適化という新しいアルゴリズムを提案する。 まず、SRLモデルの更新を支援するためにRL損失に取り組み、強化学習の需要を満たすために州が進化できるようにし、良好な物理的解釈を維持する。 次に,両モデルが効率的に適応できるように,動的パラメータ調整機構を導入する。 第3に、SRLモデルのトレーニングに専門家によるデモンストレーションを活用するために、ドメイン類似と呼ばれる新しい先行モデルを導入する。 最後に、学習過程を監視するために状態グラフによるリアルタイムアクセスを提供する。 その結果,本アルゴリズムは,サンプル効率と最終報酬の観点から,PPOのベースラインとデカップリング戦略よりも優れていた。 そこで本モデルは,高次元のタスクを効率的に処理し,スクラッチから直接実生活ロボットの訓練を容易にする。

While the rapid progress of deep learning fuels end-to-end reinforcement learning (RL), direct application, especially in high-dimensional space like robotic scenarios still suffers from high sample efficiency. Therefore State Representation Learning (SRL) is proposed to specifically learn to encode task-relevant features from complex sensory data into low-dimensional states. However, the pervasive implementation of SRL is usually conducted by a decoupling strategy in which the observation-state mapping is learned separately, which is prone to over-fit. To handle such problem, we present a new algorithm called Policy Optimization via Abstract Representation which integrates SRL into the original RL scale. Firstly, We engage RL loss to assist in updating SRL model so that the states can evolve to meet the demand of reinforcement learning and maintain a good physical interpretation. Secondly, we introduce a dynamic parameter adjustment mechanism so that both models can efficiently adapt to each other. Thirdly, we introduce a new prior called domain resemblance to leverage expert demonstration to train the SRL model. Finally, we provide a real-time access by state graph to monitor the course of learning. Results show that our algorithm outperforms the PPO baselines and decoupling strategies in terms of sample efficiency and final rewards. Thus our model can efficiently deal with tasks in high dimensions and facilitate training real-life robots directly from scratch.
翻訳日:2021-09-20 14:34:04 公開日:2021-09-17
# LoGG3D-Net:3D位置認識のためのローカルガイド付きグローバルディスクリプタ学習

LoGG3D-Net: Locally Guided Global Descriptor Learning for 3D Place Recognition ( http://arxiv.org/abs/2109.08336v1 )

ライセンス: Link先を確認
Kavisha Vidanapathirana, Milad Ramezani, Peyman Moghadam, Sridha Sridharan, Clinton Fookes(参考訳) 検索に基づく位置認識は,構築済みの地図やslam(global data association for concurrent localization and mapping)内で再局在化を実現するための効率的かつ効果的なソリューションである。 このようなアプローチの精度は、抽出されたシーンレベルの表現の品質に大きく依存する。 入力ポイントクラウドからグローバルディスクリプタを学習するエンドツーエンドソリューションは、有望な結果を示しているが、そのようなアプローチは、ローカルな特徴レベルで望ましいプロパティを強制する能力に制限されている。 本稿では,追加の訓練信号(局所的一貫性損失)の導入により,再訪者間で一貫性のある局所的特徴の学習をネットワークに誘導できることを実証する。 私たちは、LoGG3D-Netと呼ばれるエンドツーエンドのトレーニング可能なアーキテクチャでアプローチを定式化します。 2つの大規模公開ベンチマーク (KITTI と MulRan) 実験により,我々の手法は,ほぼリアルタイムに動作しながら,平均$F1_{max}$スコアが0.939$と$0.968$であることを示す。

Retrieval-based place recognition is an efficient and effective solution for enabling re-localization within a pre-built map or global data association for Simultaneous Localization and Mapping (SLAM). The accuracy of such an approach is heavily dependent on the quality of the extracted scene-level representation. While end-to-end solutions, which learn a global descriptor from input point clouds, have demonstrated promising results, such approaches are limited in their ability to enforce desirable properties at the local feature level. In this paper, we demonstrate that the inclusion of an additional training signal (local consistency loss) can guide the network to learning local features which are consistent across revisits, hence leading to more repeatable global descriptors resulting in an overall improvement in place recognition performance. We formulate our approach in an end-to-end trainable architecture called LoGG3D-Net. Experiments on two large-scale public benchmarks (KITTI and MulRan) show that our method achieves mean $F1_{max}$ scores of $0.939$ and $0.968$ on KITTI and MulRan, respectively while operating in near real-time.
翻訳日:2021-09-20 14:32:57 公開日:2021-09-17
# Transformer-Unet:Unetによる生画像処理

Transformer-Unet: Raw Image Processing with Unet ( http://arxiv.org/abs/2109.08417v1 )

ライセンス: Link先を確認
Youyang Sha, Yonghong Zhang, Xuquan Ji and Lei Hu(参考訳) 医用画像のセグメンテーションは, バイオメディカル画像解析において重要な役割を担っている。 良好なセグメンテーションの結果は、医師の判断を助け、患者の経験をさらに改善することができる。 医療画像分析で利用可能な多くのパイプラインの中で、Unetはエンコーダとデコーダの結合を追加することで生の機能を維持できるため、最も人気のあるニューラルネットワークの1つである。 平均すると、自然言語処理タスクを支配する人気モデルとして、トランスフォーマーがコンピュータビジョンタスクに導入され、オブジェクト検出、画像分類、セマンティックセグメンテーションタスクにおいて有望な結果が見られた。 したがって、トランスフォーマーとunetの組み合わせは、個別に働く両方の方法よりも効率的であるはずである。 本稿では,unetの機能マップの代わりにrawイメージにトランスフォーマーモジュールを追加することでトランスフォーマー不均一性を提案し,それに応じてct82データセットでネットワークをテストする。 実験では、エンド・ツー・エンドのネットワークを形成し、従来の多くのunetベースのアルゴリズムよりもセグメンテーション結果を得る。 本論文では,我々のネットワークを実証し,実験結果を示す。

Medical image segmentation have drawn massive attention as it is important in biomedical image analysis. Good segmentation results can assist doctors with their judgement and further improve patients' experience. Among many available pipelines in medical image analysis, Unet is one of the most popular neural networks as it keeps raw features by adding concatenation between encoder and decoder, which makes it still widely used in industrial field. In the mean time, as a popular model which dominates natural language process tasks, transformer is now introduced to computer vision tasks and have seen promising results in object detection, image classification and semantic segmentation tasks. Therefore, the combination of transformer and Unet is supposed to be more efficient than both methods working individually. In this article, we propose Transformer-Unet by adding transformer modules in raw images instead of feature maps in Unet and test our network in CT82 datasets for Pancreas segmentation accordingly. We form an end-to-end network and gain segmentation results better than many previous Unet based algorithms in our experiment. We demonstrate our network and show our experimental results in this paper accordingly.
翻訳日:2021-09-20 14:32:31 公開日:2021-09-17
# LOF:光フローに基づく構造認識線追跡

LOF: Structure-Aware Line Tracking based on Optical Flow ( http://arxiv.org/abs/2109.08466v1 )

ライセンス: Link先を確認
Meixiang Quan, Zheng Chai, Xiao Liu(参考訳) 線は点よりも環境に関する幾何的な情報を提供するため、最近の視覚オドメトリー(vo)では線が広く使われている。 線付きVOは線追跡結果を用いて探索とマップを行うため、VOでは線追跡が重要な要素である。 最先端の線追跡手法は大きな進歩を遂げているが,線検出や予測線分に依存している。 本稿では,上述の依存性を緩和し,計算効率の高い線分を完全かつ正確かつ堅牢に追跡するために,光フロー(lof)に基づく構造認識線追跡アルゴリズムを提案する。 まず,線形光フロー計算に適した線上に画素をサンプリングする勾配に基づく手法を提案する。 そこで, サンプル点間の構造的関係を十分に活用し, 他の対象が占有する点に対するサンプル点の影響を効果的に除去し, 2段階構造認識線分アライメント法を提案する。 さらに,アライメントラインセグメントの向き,位置,エンドポイントを洗練するためのラインリファインメント手法を提案する。 提案したLOFは, ライントラッキング精度, 堅牢性, 効率において最先端性能を向上し, また, ライン付きVOシステムの位置精度とロバスト性も向上することを示した。

Lines provide the significantly richer geometric structural information about the environment than points, so lines are widely used in recent Visual Odometry (VO) works. Since VO with lines use line tracking results to locate and map, line tracking is a crucial component in VO. Although the state-of-the-art line tracking methods have made great progress, they are still heavily dependent on line detection or the predicted line segments. In order to relieve the dependencies described above to track line segments completely, accurately, and robustly at higher computational efficiency, we propose a structure-aware Line tracking algorithm based entirely on Optical Flow (LOF). Firstly, we propose a gradient-based strategy to sample pixels on lines that are suitable for line optical flow calculation. Then, in order to align the lines by fully using the structural relationship between the sampled points on it and effectively removing the influence of sampled points on it occluded by other objects, we propose a two-step structure-aware line segment alignment method. Furthermore, we propose a line refinement method to refine the orientation, position, and endpoints of the aligned line segments. Extensive experimental results demonstrate that the proposed LOF outperforms the state-of-the-art performance in line tracking accuracy, robustness, and efficiency, which also improves the location accuracy and robustness of VO system with lines.
翻訳日:2021-09-20 14:32:13 公開日:2021-09-17
# テンポラルアンサーセットプログラミングのためのオートマタ技術

Automata Techniques for Temporal Answer Set Programming ( http://arxiv.org/abs/2109.08279v1 )

ライセンス: Link先を確認
Susana Hahn(参考訳) 解集合プログラミング(asp)の時間的および動的拡張は動的問題に対処する上で重要な役割を果たす。 私のPh.D.研究では、オートマタ理論と動的論理の関係を利用して、ASPソルバClingOにオートマタベースの技術を加えることで、この種の問題に対処します。

Temporal and dynamic extensions of Answer Set Programming (ASP) have played an important role in addressing dynamic problems, as they allow the use of temporal operators to reason with dynamic scenarios in a very effective way. In my Ph.D. research, I intend to exploit the relationship between automata theory and dynamic logic to add automata-based techniques to the ASP solver CLINGO helping us to deal with theses type of problems.
翻訳日:2021-09-20 14:31:49 公開日:2021-09-17
# 解集合プログラミングの定量的およびストリーム拡張

Quantitative and Stream Extensions of Answer Set Programming ( http://arxiv.org/abs/2109.08281v1 )

ライセンス: Link先を確認
Rafael Kiesel (Vienna University of Technology)(参考訳) 解答セットプログラミングは、制約、ストリーミングドメイン、および解答セットに関連する量について推論する機能によって別々に拡張されている。 本稿では,論理と重み付け論理の強みを生かして,拡張の3つの方向をすべて組み込んだ汎用フレームワークの導入と解析を行う。

Answer Set Programming has separately been extended with constraints, to the streaming domain, and with capabilities to reason over the quantities associated with answer sets. We propose the introduction and analysis of a general framework that incorporates all three directions of extension by exploiting the strengths of Here-and-There Logic and Weighted Logic.
翻訳日:2021-09-20 14:31:40 公開日:2021-09-17
# Carl-Lead: 対照的な深層強化学習によるライダーによるエンドツーエンド自動運転

Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive Deep Reinforcement Learning ( http://arxiv.org/abs/2109.08473v1 )

ライセンス: Link先を確認
Peide Cai, Sukai Wang, Hengli Wang, Ming Liu(参考訳) 非規制交差点における都市群集の自律運転は困難であり、他の車両の動的な閉塞や不確かさを慎重に考慮すべきである。 従来の手法はヒューリスティックであり、手作りのルールとパラメータに基づいているが、新しい状況ではスケールが貧弱である。 したがって、すべての予測可能なシナリオでルールを設計、維持するために高い労働コストを必要とする。 近年,深部強化学習(DRL)は都市交通のシナリオにおいて有望な成果を上げている。 しかし、DRLはサンプル非効率であることが知られており、これまでのほとんどの研究は、騒音や閉塞を考慮せずに、地上のトラックの位置や車両の動きなどの完全な観測を前提としている。 本研究では、DRLを用いて、不完全な部分観察を自然に考慮するライダーベースのエンドツーエンド駆動ポリシーを訓練する。 さらに,教師なしのコントラスト表現学習を補助タスクとして活用し,サンプル効率を向上させる。 比較評価の結果,本手法は最新lidar(sota)のエンド・ツー・エンド運転ネットワークよりも高い成功率を達成し,注意深く調整したルールベース方式よりも安全性と効率性が向上し,ベースラインよりも新しいシナリオへの一般化が図られた。 デモビデオはhttps://caipeide.github.io/carl-lead/で見ることができる。

Autonomous driving in urban crowds at unregulated intersections is challenging, where dynamic occlusions and uncertain behaviors of other vehicles should be carefully considered. Traditional methods are heuristic and based on hand-engineered rules and parameters, but scale poorly in new situations. Therefore, they require high labor cost to design and maintain rules in all foreseeable scenarios. Recently, deep reinforcement learning (DRL) has shown promising results in urban driving scenarios. However, DRL is known to be sample inefficient, and most previous works assume perfect observations such as ground-truth locations and motions of vehicles without considering noises and occlusions, which might be a too strong assumption for policy deployment. In this work, we use DRL to train lidar-based end-to-end driving policies that naturally consider imperfect partial observations. We further use unsupervised contrastive representation learning as an auxiliary task to improve the sample efficiency. The comparative evaluation results reveal that our method achieves higher success rates than the state-of-the-art (SOTA) lidar-based end-to-end driving network, better trades off safety and efficiency than the carefully tuned rule-based method, and generalizes better to new scenarios than the baselines. Demo videos are available at https://caipeide.github.io/carl-lead/.
翻訳日:2021-09-20 14:31:33 公開日:2021-09-17
# レベルセットかグラデーションラインか? モーダルクラスタリングの統一的視点

Level Sets or Gradient Lines? A Unifying View of Modal Clustering ( http://arxiv.org/abs/2109.08362v1 )

ライセンス: Link先を確認
Ery Arias-Castro and Wanli Qiao(参考訳) 本稿は,1970年代に出現した2つの重要なクラスタリング手法と,ハルディガンが提唱したレベルセットやクラスタツリーによるクラスタリングと,福永とホステラーが提唱した勾配線や勾配流によるクラスタリングの2つの重要な対応性を確立する。

The paper establishes a strong correspondence, if not an equivalence, between two important clustering approaches that emerged in the 1970's: clustering by level sets or cluster tree as proposed by Hartigan and clustering by gradient lines or gradient flow as proposed by Fukunaga and Hosteler.
翻訳日:2021-09-20 14:30:42 公開日:2021-09-17
# Cram\'er-Rao および van Tree を用いた LTI 状態空間モデルに対する非漸近推定下界

Non asymptotic estimation lower bounds for LTI state space models with Cram\'er-Rao and van Trees ( http://arxiv.org/abs/2109.08582v1 )

ライセンス: Link先を確認
Boualem Djehiche and Othmane Mazhar(参考訳) 未知の共分散のガウス励起を持つ線形時間不変(LTI)状態空間モデルに対する推定問題について検討する。 予測推定誤差と最小二乗推定器の平均二乗推定リスクと最小二乗推定リスクに対して漸近的でない下界を与える。 これらの境界は、動力学の行列が単位円上に固有値を持たないとき、明示的な定数でシャープであり、その場合のレート最適である。 提案手法は, 平均二乗推定リスクと一般騒音共分散系を想定し, 既存の下限を下限まで拡張し, 改善する。 我々の導出には、共変数の対応する乗算過程に対する再スケールサンプルの共分散と偏差に対する新しい濃度結果、小さなフィッシャー情報の単位作用素球上の事前の微分幾何学的構成、行列値推定器へのCram\'er-Raoとvan Treesinequalityの拡張が含まれる。

We study the estimation problem for linear time-invariant (LTI) state-space models with Gaussian excitation of an unknown covariance. We provide non asymptotic lower bounds for the expected estimation error and the mean square estimation risk of the least square estimator, and the minimax mean square estimation risk. These bounds are sharp with explicit constants when the matrix of the dynamics has no eigenvalues on the unit circle and are rate-optimal when they do. Our results extend and improve existing lower bounds to lower bounds in expectation of the mean square estimation risk and to systems with a general noise covariance. Instrumental to our derivation are new concentration results for rescaled sample covariances and deviation results for the corresponding multiplication processes of the covariates, a differential geometric construction of a prior on the unit operator ball of small Fisher information, and an extension of the Cram\'er-Rao and van Treesinequalities to matrix-valued estimators.
翻訳日:2021-09-20 14:30:34 公開日:2021-09-17
# 忘れがたいこと: 認定マシンアンラーニングに対する毒殺攻撃

Hard to Forget: Poisoning Attacks on Certified Machine Unlearning ( http://arxiv.org/abs/2109.08266v1 )

ライセンス: Link先を確認
Neil G. Marchant, Benjamin I. P. Rubinstein, Scott Alfeld(参考訳) 消去する権利は、学習モデルのような下流製品に広がる厳格な解釈によって、組織が保持するデータからユーザーの情報を削除することを必要とする。 特定のユーザのデータをスクラッチから再トレーニングすることで、結果モデルへの影響は完全に排除されるが、高い計算コストが伴う。 マシン"アンラーニング"は、完全な再トレーニングによって発生するコストを軽減します。代わりに、モデルは漸進的に更新されます。 未学習モデルと再訓練モデルの区別不能性に関するプライバシの保証に向けて急速に進歩してきたが、現在の形式化は計算に実用的な限界をもたらさない。 本稿では,攻撃者がこの監視をいかに活用できるかを実証し,機械学習によって導入された新しい攻撃面を強調する。 我々は,データ削除の計算コストを増大させようとする攻撃者を考える。 戦略的に設計されたトレーニングデータが削除時に完全に再トレーニングをトリガーする、認定されたマシンアンラーニングに対する毒殺攻撃を導出し、実証的に調査する。

The right to erasure requires removal of a user's information from data held by organizations, with rigorous interpretations extending to downstream products such as learned models. Retraining from scratch with the particular user's data omitted fully removes its influence on the resulting model, but comes with a high computational cost. Machine "unlearning" mitigates the cost incurred by full retraining: instead, models are updated incrementally, possibly only requiring retraining when approximation errors accumulate. Rapid progress has been made towards privacy guarantees on the indistinguishability of unlearned and retrained models, but current formalisms do not place practical bounds on computation. In this paper we demonstrate how an attacker can exploit this oversight, highlighting a novel attack surface introduced by machine unlearning. We consider an attacker aiming to increase the computational cost of data removal. We derive and empirically investigate a poisoning attack on certified machine unlearning where strategically designed training data triggers complete retraining when removed.
翻訳日:2021-09-20 14:29:56 公開日:2021-09-17
# 移動モード検出のためのオープンGPSトラジェクトリデータセットとベンチマーク

An open GPS trajectory dataset and benchmark for travel mode detection ( http://arxiv.org/abs/2109.08527v1 )

ライセンス: Link先を確認
Jinyu Chen, Haoran Zhang, Xuan Song, Ryosuke Shibasaki(参考訳) トラベルモード検出はGPS軌道関連処理の分野でホットな話題となっている。 古い学者は検出の精度を向上させるために多くの数学的方法を開発した。 これらの研究のうち、ほとんど全ての方法がトレーニングのために基礎的真理データセットを必要とする。 多くの研究は、カスタマイズされた方法でトレーニングのためにGPSトラジェクトリデータセットを収集することを選択している。 現在、トラベルモードでマークされたオープンGPSデータセットは存在しない。 もし存在するなら、モデル開発における多くの労力を節約するだけでなく、モデルの性能を比較するのにも役立ちます。 本研究では,旅行モードと移動モード検出のためのベンチマークでマークされたGPSトラジェクトリデータセットを提案する。 データセットは、日本で7人のボランティアが収集し、1ヶ月の期間をカバーする。 交通モードは徒歩から鉄道まで様々である。 ルーチンの一部は、異なる時間帯で繰り返され、異なる道路や旅行条件を経験する。 大規模GPSトラジェクトリデータセットにおける歩行と自転車の走行を区別するためのケーススタディも提供する。

Travel mode detection has been a hot topic in the field of GPS trajectory-related processing. Former scholars have developed many mathematical methods to improve the accuracy of detection. Among these studies, almost all of the methods require ground truth dataset for training. A large amount of the studies choose to collect the GPS trajectory dataset for training by their customized ways. Currently, there is no open GPS dataset marked with travel mode. If there exists one, it will not only save a lot of efforts in model developing, but also help compare the performance of models. In this study, we propose and open GPS trajectory dataset marked with travel mode and benchmark for the travel mode detection. The dataset is collected by 7 independent volunteers in Japan and covers the time period of a complete month. The travel mode ranges from walking to railway. A part of routines are traveled repeatedly in different time slots to experience different road and travel conditions. We also provide a case study to distinguish the walking and bike trips in a massive GPS trajectory dataset.
翻訳日:2021-09-20 14:29:37 公開日:2021-09-17
# マルチロボットナビゲーションのための分散グローバル接続メンテナンス:強化学習アプローチ

Decentralized Global Connectivity Maintenance for Multi-Robot Navigation: A Reinforcement Learning Approach ( http://arxiv.org/abs/2109.08536v1 )

ライセンス: Link先を確認
Minghao Li, Yingrui Jie, Yang Kong, Hui Cheng(参考訳) 接続性維持のためのマルチロボットナビゲーションの問題は、マルチロボットアプリケーションでは難しい。 この研究は、接続を維持しながら未知の環境でマルチロボットチームをナビゲートする方法を調査します。 複数のロボット間で共有される分散型ポリシーを開発するための強化学習(RL)手法を提案する。 距離センサーと他のロボットの位置を考慮し、ナビゲーションの制御コマンドを生成し、ロボットチームのグローバルな接続性を維持することを目的としている。 我々は、制約としてRLフレームワークに接続性に関する懸念を組み込み、ポリシー最適化の探索複雑性を低減するために行動クローニングを導入する。 このポリシーは、ランダムなシミュレーションシナリオで複数のロボットが収集したすべての遷移データを最適化する。 接続制約と行動クローニングの異なる組み合わせを比較することで,提案手法の有効性を検証した。 また,シミュレーションとホロノミックロボット実験の両方において,我々の方針が未知のシナリオに一般化できることを示した。

The problem of multi-robot navigation of connectivity maintenance is challenging in multi-robot applications. This work investigates how to navigate a multi-robot team in unknown environments while maintaining connectivity. We propose a reinforcement learning (RL) approach to develop a decentralized policy, which is shared among multiple robots. Given range sensor measurements and the positions of other robots, the policy aims to generate control commands for navigation and preserve the global connectivity of the robot team. We incorporate connectivity concerns into the RL framework as constraints and introduce behavior cloning to reduce the exploration complexity of policy optimization. The policy is optimized with all transition data collected by multiple robots in random simulated scenarios. We validate the effectiveness of the proposed approach by comparing different combinations of connectivity constraints and behavior cloning. We also show that our policy can generalize to unseen scenarios in both simulation and holonomic robots experiments.
翻訳日:2021-09-20 14:29:24 公開日:2021-09-17
# 定量化による未知視下での公正度測定

Measuring Fairness under Unawareness via Quantification ( http://arxiv.org/abs/2109.08549v1 )

ライセンス: Link先を確認
Alessandro Fabris, Andrea Esuli, Alejandro Moreo, Fabrizio Sebastiani(参考訳) 教師付き学習によって訓練されたモデルは、ハイテイクな領域にますます展開され、予測が人々に関する決定を知らせると、必然的に(肯定的または否定的に)彼らの生活に影響を及ぼす。 結果として、これらのモデルを開発する担当者は、異なる集団に対する彼らの影響を慎重に評価し、人種や性別などのセンシティブな人口特性が特定のグループのメンバーに不公平な処置を与えないことを保証する必要がある。 これを行うためには、モデルの影響を評価する部分における人口統計特性の認識が不可欠である。 残念ながら、これらの属性の収集は、データ最小化とプライバシに関する業界慣行や法律と矛盾することが多い。 このような理由から、トレーニングされたモデルのグループフェアネスを測定するのは難しいかもしれません。 本研究では,グループレベルの有病率推定を直接提供することを目的とした教師あり学習課題である定量化の手法を用いて,センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。 グループフェアネスの推定を無意識で複雑にし,それらを5つの異なる実験プロトコルに形式化し,グループフェアネスの異なる推定器の有効性を評価する。 また, 個人レベルで機密属性を推測する潜在的なモデル誤用の問題を検討し, 定量化アプローチが, 個人の機密属性を推論する(望ましくない)目的から集団フェアネスを測定する(望ましくない)目的を分離するのに適していることを示す。

Models trained by means of supervised learning are increasingly deployed in high-stakes domains, and, when their predictions inform decisions about people, they inevitably impact (positively or negatively) on their lives. As a consequence, those in charge of developing these models must carefully evaluate their impact on different groups of people and ensure that sensitive demographic attributes, such as race or sex, do not result in unfair treatment for members of specific groups. For doing this, awareness of demographic attributes on the part of those evaluating model impacts is fundamental. Unfortunately, the collection of these attributes is often in conflict with industry practices and legislation on data minimization and privacy. For this reason, it may be hard to measure the group fairness of trained models, even from within the companies developing them. In this work, we tackle the problem of measuring group fairness under unawareness of sensitive attributes, by using techniques from quantification, a supervised learning task concerned with directly providing group-level prevalence estimates (rather than individual-level class labels). We identify five important factors that complicate the estimation of fairness under unawareness and formalize them into five different experimental protocols under which we assess the effectiveness of different estimators of group fairness. We also consider the problem of potential model misuse to infer sensitive attributes at an individual level, and demonstrate that quantification approaches are suitable for decoupling the (desirable) objective of measuring group fairness from the (undesirable) objective of inferring sensitive attributes of individuals.
翻訳日:2021-09-20 14:29:09 公開日:2021-09-17
# ニューラルネットワークを用いたリアルタイムロボット遠隔操作のためのライダージェスチャー認識

Neural Network Based Lidar Gesture Recognition for Realtime Robot Teleoperation ( http://arxiv.org/abs/2109.08263v1 )

ライセンス: Link先を確認
Simon Chamorro, Jack Collier, Fran\c{c}ois Grondin(参考訳) 動作変動に頑健な移動ロボット制御のための,低複雑さなライダージェスチャー認識システムを提案する。 本システムでは,ポーズ推定モジュールとジェスチャ分類器からなるモジュラーアプローチを採用している。 既存のステレオベースポーズ推定システムを用いて訓練された畳み込みニューラルネットワークを用いて、ライダースキャンからポーズ推定を推定する。 ジェスチャー分類はLong Short-Term Memory Networkを用いて行われ、推定された身体ポーズのシーケンスを入力としてジェスチャーを予測する。 パイプラインを2つのモジュールに分割することで,ライダースキャンやステレオ画像,あるいはボディキーポイントを抽出できる任意のモダリティといった,入力の次元性が低減される。 lidarの使用はシステムの堅牢性に寄与し、ほとんどの屋外環境で動作し、照明条件とは無関係であり、ロボットの周囲360度の入力を検出することができる。 lidarベースのポーズ推定器とジェスチャー分類器は、データ拡張と自動ラベリング技術を使用し、最小限のデータ収集を必要とし、手動ラベリングの必要性を避ける。 本システムの各モジュールについて実験結果を報告し,実世界のロボット遠隔操作環境でテストすることでその効果を実証する。

We propose a novel low-complexity lidar gesture recognition system for mobile robot control robust to gesture variation. Our system uses a modular approach, consisting of a pose estimation module and a gesture classifier. Pose estimates are predicted from lidar scans using a Convolutional Neural Network trained using an existing stereo-based pose estimation system. Gesture classification is accomplished using a Long Short-Term Memory network and uses a sequence of estimated body poses as input to predict a gesture. Breaking down the pipeline into two modules reduces the dimensionality of the input, which could be lidar scans, stereo imagery, or any other modality from which body keypoints can be extracted, making our system lightweight and suitable for mobile robot control with limited computing power. The use of lidar contributes to the robustness of the system, allowing it to operate in most outdoor conditions, to be independent of lighting conditions, and for input to be detected 360 degrees around the robot. The lidar-based pose estimator and gesture classifier use data augmentation and automated labeling techniques, requiring a minimal amount of data collection and avoiding the need for manual labeling. We report experimental results for each module of our system and demonstrate its effectiveness by testing it in a real-world robot teleoperation setting.
翻訳日:2021-09-20 14:28:43 公開日:2021-09-17
# 強化学習による産業用iot機器の協調的ランダムアクセス

Coordinated Random Access for Industrial IoT With Correlated Traffic By Reinforcement-Learning ( http://arxiv.org/abs/2109.08389v1 )

ライセンス: Link先を確認
Alberto Rech, Stefano Tomasin(参考訳) 本稿では,産業用インターネット・オブ・シング(iiot)シナリオのための協調型ランダムアクセス方式を提案する。 これは例えば、外部イベントが複数のMTDで同時にデータ生成をトリガーする時に発生する。 タイムはフレームに分割され、それぞれスロットに分割され、各MTDは、MTDと現在の再送信数の両方に固有の確率密度関数(PDF)を持つ1つのスロットをランダムに選択する。 PDFはパケット衝突の確率を最小限に抑えるためにローカルに最適化されている。 最適化問題は、不完全情報を持つ繰り返しマルコフゲームとしてモデル化され、各MTDに線形報酬応答アルゴリズムを使用し、決定論的(準最適)スロット割り当てに確実に収束する。 提案手法をスロット付きアロハとmin-maxのペアワイズ相関ランダムアクセス方式の両方と比較し,トラフィック強度を適度に保った高いネットワークスループットを実現することを示す。

We propose a coordinated random access scheme for industrial internet-of-things (IIoT) scenarios, with machine-type devices (MTDs) generating sporadic correlated traffic. This occurs, e.g., when external events trigger data generation at multiple MTDs simultaneously. Time is divided into frames, each split into slots and each MTD randomly selects one slot for (re)transmission, with probability density functions (PDFs) specific of both the MTD and the number of the current retransmission. PDFs are locally optimized to minimize the probability of packet collision. The optimization problem is modeled as a repeated Markov game with incomplete information, and the linear reward-inaction algorithm is used at each MTD, which provably converges to a deterministic (suboptimal) slot assignment. We compare our solution with both the slotted ALOHA and the min-max pairwise correlation random access schemes, showing that our approach achieves a higher network throughput with moderate traffic intensity.
翻訳日:2021-09-20 14:28:01 公開日:2021-09-17
# 好奇心は必要か? キュリオス探査における創発的行動の有用性について

Is Curiosity All You Need? On the Utility of Emergent Behaviours from Curious Exploration ( http://arxiv.org/abs/2109.08603v1 )

ライセンス: Link先を確認
Oliver Groth, Markus Wulfmeier, Giulia Vezzani, Vibhavari Dasagi, Tim Hertweck, Roland Hafner, Nicolas Heess, Martin Riedmiller(参考訳) 好奇心に基づく報酬スキームは、複雑でスパース、あるいは長いホリゾンタスクの解の発見を容易にする強力な探索メカニズムを提供することができる。 しかし、エージェントが未探索の空間に到達し、目的が新しい分野への報酬に適応することを学ぶと、常に変化する目的によって上書きされるため、多くの行動が消えてしまう。 我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、このテクニックの潜在能力を最大限活用することができず、有用なスキルを欠いていると論じる。 代わりに、好奇心に基づく学習中に現れる行動の維持に焦点を移すことを提案する。 我々は,これらの自己発見行動がエージェントのレパートリーにおいて,関連する課題を解決する貴重なスキルとなることを示唆する。 本実験は, 学習過程における行動の連続的な変化と, 伝達タスクの発見動作を再利用するための簡単なポリシースナップショット法の利点を実証する。

Curiosity-based reward schemes can present powerful exploration mechanisms which facilitate the discovery of solutions for complex, sparse or long-horizon tasks. However, as the agent learns to reach previously unexplored spaces and the objective adapts to reward new areas, many behaviours emerge only to disappear due to being overwritten by the constantly shifting objective. We argue that merely using curiosity for fast environment exploration or as a bonus reward for a specific task does not harness the full potential of this technique and misses useful skills. Instead, we propose to shift the focus towards retaining the behaviours which emerge during curiosity-based learning. We posit that these self-discovered behaviours serve as valuable skills in an agent's repertoire to solve related tasks. Our experiments demonstrate the continuous shift in behaviour throughout training and the benefits of a simple policy snapshot method to reuse discovered behaviour for transfer tasks.
翻訳日:2021-09-20 14:27:43 公開日:2021-09-17
# (参考訳) ranknas: ペアワイズランキングによる効率的なニューラルネットワーク検索

RankNAS: Efficient Neural Architecture Search by Pairwise Ranking ( http://arxiv.org/abs/2109.07383v2 )

ライセンス: CC BY 4.0
Chi Hu, Chenglong Wang, Xiangnan Ma, Xia Meng, Yinqiao Li, Tong Xiao, Jingbo Zhu, Changliang Li(参考訳) 本稿では,課題をランキング問題として定式化することにより,ニューラルネットワーク探索(nas)の効率問題に対処する。 以前の手法では、アーキテクチャの正確なパフォーマンスを推定するために多くのトレーニング例を必要としていたが、実際の目標は「良い」候補と「悪い」候補の区別を見つけることである。 ここでは、パフォーマンス予測に頼らない。 代わりに,ペアランキングを用いたパフォーマンスランキング手法(RankNAS)を提案する。 より少ないトレーニング例を使って、効率的なアーキテクチャ検索を可能にする。 さらに,探索空間を創り出し,より有望な候補に集中するためのアーキテクチャ選択手法を開発した。 機械翻訳と言語モデリングタスクに関する大規模な実験により、RangNASは最先端のNASシステムよりも桁違いに高速で高性能なアーキテクチャを設計できることが示された。

This paper addresses the efficiency challenge of Neural Architecture Search (NAS) by formulating the task as a ranking problem. Previous methods require numerous training examples to estimate the accurate performance of architectures, although the actual goal is to find the distinction between "good" and "bad" candidates. Here we do not resort to performance predictors. Instead, we propose a performance ranking method (RankNAS) via pairwise ranking. It enables efficient architecture search using much fewer training examples. Moreover, we develop an architecture selection method to prune the search space and concentrate on more promising candidates. Extensive experiments on machine translation and language modeling tasks show that RankNAS can design high-performance architectures while being orders of magnitude faster than state-of-the-art NAS systems.
翻訳日:2021-09-20 12:27:57 公開日:2021-09-17
# (参考訳) opv2v:車間通信を用いた認知のためのオープンベンチマークデータセットと融合パイプライン

OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with Vehicle-to-Vehicle Communication ( http://arxiv.org/abs/2109.07644v2 )

ライセンス: CC BY 4.0
Runsheng Xu, Hao Xiang, Xin Xia, Xu Han, Jinlong Liu, Jiaqi Ma(参考訳) 近年,自動運転車における車両間通信による認識性能の向上が注目されているが,ベンチマークアルゴリズムに適したオープンデータセットが存在しないため,協調的知覚技術の開発・評価が困難になっている。 そこで本研究では,車両間知覚のための最初の大規模オープンシミュレーションデータセットを提案する。 70以上の興味深いシーン、11,464フレーム、232,913個の注釈付き3d車両のバウンディングボックスがあり、カルラの8つの町とロサンゼルスのカルバーシティのデジタルタウンから収集されている。 次に,16種類の実装モデルを用いた総合ベンチマークを構築し,最先端lidar検出アルゴリズムを用いた情報融合戦略(早期,後期,中間融合)の評価を行った。 さらに,複数の連結車両からの情報を集約する新しいAttentive Intermediate Fusionパイプラインを提案する。 実験の結果,提案パイプラインは既存の3次元LiDAR検出器と容易に統合でき,高い圧縮速度でも優れた性能が得られることがわかった。 より多くの研究者がVager-to-Vehicleの知覚を調査できるように、データセット、ベンチマークメソッド、および関連するすべてのコードをhttps://mobility-lab.seas.ucla.edu/opv2v/でリリースします。

Employing Vehicle-to-Vehicle communication to enhance perception performance in self-driving technology has attracted considerable attention recently; however, the absence of a suitable open dataset for benchmarking algorithms has made it difficult to develop and assess cooperative perception technologies. To this end, we present the first large-scale open simulated dataset for Vehicle-to-Vehicle perception. It contains over 70 interesting scenes, 11,464 frames, and 232,913 annotated 3D vehicle bounding boxes, collected from 8 towns in CARLA and a digital town of Culver City, Los Angeles. We then construct a comprehensive benchmark with a total of 16 implemented models to evaluate several information fusion strategies~(i.e. early, late, and intermediate fusion) with state-of-the-art LiDAR detection algorithms. Moreover, we propose a new Attentive Intermediate Fusion pipeline to aggregate information from multiple connected vehicles. Our experiments show that the proposed pipeline can be easily integrated with existing 3D LiDAR detectors and achieve outstanding performance even with large compression rates. To encourage more researchers to investigate Vehicle-to-Vehicle perception, we will release the dataset, benchmark methods, and all related codes in https://mobility-lab.seas.ucla.edu/opv2v/.
翻訳日:2021-09-20 12:11:38 公開日:2021-09-17
# (参考訳) PDBench:タンパク質配列設計のための計算手法の評価

PDBench: Evaluating Computational Methods for Protein Sequence Design ( http://arxiv.org/abs/2109.07925v2 )

ライセンス: CC BY-SA 4.0
Leonardo V. Castorina, Rokas Petrenas, Kartic Subr and Christopher W. Wood(参考訳) タンパク質は、太陽エネルギーを化学エネルギーに変換し、DNAを複製し、高性能な材料、センシングなど、あらゆる生物系において重要なプロセスを実行する。 さまざまな機能が自然界でサンプル化されていますが、タンパク質宇宙のごく一部を占めています。 もしこの未探索のタンパク質構造プールを利用することができたら、人類が直面する環境や医療上の課題に取り組むために応用できる有用な性質を持つ新しいタンパク質を探すことができる。 これがタンパク質設計の目的である。 配列設計はタンパク質設計の重要な側面であり、これを実現する多くの方法が開発されている。 近年,分類問題としてのディープラーニング手法が強力なアプローチとして登場している。 報告された性能の改善に加えて、物理ベースの手法に対する大きな利点は、計算負担がユーザから開発者へとシフトし、設計方法へのアクセシビリティが向上することである。 この傾向にもかかわらず、これらのモデルの評価と比較のためのツールは非常に一般的である。 本稿の目的は,評価のタイムリーな問題に対処することと,その影響を加速する具体的な評価基準について,機械学習コミュニティ内でスポットライトを当てることである。 そこで本研究では, 深層学習に基づく手法の性能評価のための, 厳密なベンチマークセットを提案する。 我々の堅牢なベンチマークは、その性能と実用性を評価するのに欠かせない設計手法の振る舞いに関する生物学的知見を提供する。 既存の5つのモデルと2つの新しいモデルを比較した。 最後に,これらのモデルによって生成される設計を,最先端構造予測アルゴリズムであるAlphaFold2を用いて検証し,それらが意図した3次元形状に折り畳まれるかどうかを判断する。

Proteins perform critical processes in all living systems: converting solar energy into chemical energy, replicating DNA, as the basis of highly performant materials, sensing and much more. While an incredible range of functionality has been sampled in nature, it accounts for a tiny fraction of the possible protein universe. If we could tap into this pool of unexplored protein structures, we could search for novel proteins with useful properties that we could apply to tackle the environmental and medical challenges facing humanity. This is the purpose of protein design. Sequence design is an important aspect of protein design, and many successful methods to do this have been developed. Recently, deep-learning methods that frame it as a classification problem have emerged as a powerful approach. Beyond their reported improvement in performance, their primary advantage over physics-based methods is that the computational burden is shifted from the user to the developers, thereby increasing accessibility to the design method. Despite this trend, the tools for assessment and comparison of such models remain quite generic. The goal of this paper is to both address the timely problem of evaluation and to shine a spotlight, within the Machine Learning community, on specific assessment criteria that will accelerate impact. We present a carefully curated benchmark set of proteins and propose a number of standard tests to assess the performance of deep learning based methods. Our robust benchmark provides biological insight into the behaviour of design methods, which is essential for evaluating their performance and utility. We compare five existing models with two novel models for sequence prediction. Finally, we test the designs produced by these models with AlphaFold2, a state-of-the-art structure-prediction algorithm, to determine if they are likely to fold into the intended 3D shapes.
翻訳日:2021-09-20 11:58:30 公開日:2021-09-17
# (参考訳) ROS-X-Habitat: ROSエコシステムをエボダイドAIでブリッジする

ROS-X-Habitat: Bridging the ROS Ecosystem with Embodied AI ( http://arxiv.org/abs/2109.07703v2 )

ライセンス: CC BY 4.0
Guanxiong Chen, Haoyu Yang and Ian M. Mitchell(参考訳) ROS-X-HabitatはAI Habitatプラットフォームを橋渡しし、強化学習エージェントをROSを介して他のロボットリソースに組み込むソフトウェアインターフェースである。 このインターフェースは、エンボディエージェントとシミュレータ間の標準化された通信プロトコルを提供するだけでなく、物理ベースのシミュレーションも提供する。 このインターフェースにより、ロボットは別のシミュレーション環境でHabitat RLエージェントをトレーニングしたり、Habitat Sim内で独自のロボットアルゴリズムを開発することができる。 サイリコ実験を通じて,ros-x-habitatが生息域エージェントのナビゲーション性能とシミュレーション速度にほとんど影響を与えないこと,rosマッピング,計画およびナビゲーションツールの標準セットが居住域シミュレータで動作できること,居住域エージェントが標準のrosシミュレータガゼボで動作できることを実証した。

We introduce ROS-X-Habitat, a software interface that bridges the AI Habitat platform for embodied reinforcement learning agents with other robotics resources via ROS. This interface not only offers standardized communication protocols between embodied agents and simulators, but also enables physics-based simulation. With this interface, roboticists are able to train their own Habitat RL agents in another simulation environment or to develop their own robotic algorithms inside Habitat Sim. Through in silico experiments, we demonstrate that ROS-X-Habitat has minimal impact on the navigation performance and simulation speed of Habitat agents; that a standard set of ROS mapping, planning and navigation tools can run in the Habitat simulator, and that a Habitat agent can run in the standard ROS simulator Gazebo.
翻訳日:2021-09-20 11:43:23 公開日:2021-09-17
# 人間の精液運動の自動予測のための機械学習フレームワーク

A Machine Learning Framework for Automatic Prediction of Human Semen Motility ( http://arxiv.org/abs/2109.08049v2 )

ライセンス: Link先を確認
Sandra Ottl and Shahin Amiriparian and Maurice Gerczuk and Bj\"orn Schuller(参考訳) 本稿では,Simula Research Laboratoryが収集したビセムデータセットから採取したヒト精液を,精子の運動性に関する機械学習手法で自動的に評価する。 いくつかの回帰モデルは、所定のサンプル中の進行性、非進行性、不運動性精子の割合(0〜100)を自動的に予測するように訓練される。 ビデオサンプルは3つの異なる特徴抽出法、特にカスタム・ムーブメント統計、変位特徴、運動性特化統計に採用されている。 さらに、線形サポートベクトル回帰器(SVR)、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)の4つの機械学習モデルが、自動運動予測のタスクのために抽出された特徴について訓練されている。 crocker-grierアルゴリズムを使って精子細胞を教師なしの方法で追跡し、検出されたトラックごとに個々の平均二乗変位特徴を抽出することで、運動性を予測する最良の結果が得られる。 これらの特徴は、単語の袋のアプローチを適用してヒストグラム表現に集約される。 最後に、この特徴表現に基づいて線形SVRをトレーニングする。 同じデータセットとスプリットを使用したmedico multimedia for medicine challengeのベストな提案と比較すると、平均絶対誤差(mae)は8.83から7.31に削減できる。 再現性のために、GitHubで実験のソースコードを提供しています。

In this paper, human semen samples from the visem dataset collected by the Simula Research Laboratory are automatically assessed with machine learning methods for their quality in respect to sperm motility. Several regression models are trained to automatically predict the percentage (0 to 100) of progressive, non-progressive, and immotile spermatozoa in a given sample. The video samples are adopted for three different feature extraction methods, in particular custom movement statistics, displacement features, and motility specific statistics have been utilised. Furthermore, four machine learning models, including linear Support Vector Regressor (SVR), Multilayer Perceptron (MLP), Convolutional Neural Network (CNN), and Recurrent Neural Network (RNN), have been trained on the extracted features for the task of automatic motility prediction. Best results for predicting motility are achieved by using the Crocker-Grier algorithm to track sperm cells in an unsupervised way and extracting individual mean squared displacement features for each detected track. These features are then aggregated into a histogram representation applying a Bag-of-Words approach. Finally, a linear SVR is trained on this feature representation. Compared to the best submission of the Medico Multimedia for Medicine challenge, which used the same dataset and splits, the Mean Absolute Error (MAE) could be reduced from 8.83 to 7.31. For the sake of reproducibility, we provide the source code for our experiments on GitHub.
翻訳日:2021-09-20 11:26:02 公開日:2021-09-17
# ビデオにおける時間文接地に関する調査

A Survey on Temporal Sentence Grounding in Videos ( http://arxiv.org/abs/2109.08039v2 )

ライセンス: Link先を確認
Xiaohan Lan, Yitian Yuan, Xin Wang, Zhi Wang and Wenwu Zhu(参考訳) ビデオ中の時間文グラウンドング(TSGV)は、与えられた文問合せに関する未編集ビデオから1つの対象セグメントをローカライズすることを目的としており、ここ数年研究コミュニティで注目が集まっている。 時間的行動の局所化のタスクと異なり、tsgvは自然言語による複雑なアクティビティを事前に定義されたアクションカテゴリから制限することなく見つけることができるため、より柔軟である。 一方、TSGVは2つのモード(テキストとビデオ)間のセマンティックアライメントにテキストと視覚の両方の理解を必要とするため、より難しい。 本調査では,TSGVの概要について概観する。 一 既存の方法の分類を要約すること。 ii) tsgvで使用する評価プロトコル(すなわち、データセットとメトリクス)の詳細な説明と、 三 更なる調査のための現在のベンチマーク設計の潜在的な問題及び研究の方向性を詳細に検討すること。 我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。 具体的には,2段階の手法,エンドツーエンドの手法,強化学習に基づく手法,弱教師付き手法の4つのカテゴリに分類することで,既存のTSGVアプローチについて議論する。 次に、現在の研究進捗を評価するためのベンチマークデータセットと評価指標を示す。 最後に,TSGVにおける最先端の研究を推し進めるであろう,現在の評価プロトコルで不適切に解決された潜在的な問題を指摘することによって,TSGVのいくつかの制限について論じる。 さらに、TSGVに基づいた新しい実践的な設定を備えた3つの典型的なタスクを含む、いくつかの有望な方向性に関する洞察も共有しています。

Temporal sentence grounding in videos(TSGV), which aims to localize one target segment from an untrimmed video with respect to a given sentence query, has drawn increasing attentions in the research community over the past few years. Different from the task of temporal action localization, TSGV is more flexible since it can locate complicated activities via natural languages, without restrictions from predefined action categories. Meanwhile, TSGV is more challenging since it requires both textual and visual understanding for semantic alignment between two modalities(i.e., text and video). In this survey, we give a comprehensive overview for TSGV, which i) summarizes the taxonomy of existing methods, ii) provides a detailed description of the evaluation protocols(i.e., datasets and metrics) to be used in TSGV, and iii) in-depth discusses potential problems of current benchmarking designs and research directions for further investigations. To the best of our knowledge, this is the first systematic survey on temporal sentence grounding. More specifically, we first discuss existing TSGV approaches by grouping them into four categories, i.e., two-stage methods, end-to-end methods, reinforcement learning-based methods, and weakly supervised methods. Then we present the benchmark datasets and evaluation metrics to assess current research progress. Finally, we discuss some limitations in TSGV through pointing out potential problems improperly resolved in the current evaluation protocols, which may push forwards more cutting edge research in TSGV. Besides, we also share our insights on several promising directions, including three typical tasks with new and practical settings based on TSGV.
翻訳日:2021-09-20 11:25:40 公開日:2021-09-17
# 21世紀の大病発生のモデル化--因果的アプローチ

Modelling Major Disease Outbreaks in the 21st Century: A Causal Approach ( http://arxiv.org/abs/2109.07266v2 )

ライセンス: Link先を確認
Aboli Marathe, Saloni Parekh, Harsh Sakhrani(参考訳) 地球規模の事象のダイナミクスをモデル化しようとする疫学者は、疾患の発生など異常と関連する要因を特定する上で大きな課題に直面している。 本稿では,グローバルな開発指標をマーカーとして,感染症の発生に敏感な最も重要な開発セクターを特定する手法を提案する。 我々は,これらの指標と疾患発生の因果関係を統計的に評価し,最も頻度の高い指標を見つけるために,統計手法を用いる。 統計解析に加えて,データインプテーション手法を用いて生の現実世界のデータセットを有意義なデータに変換し,因果推論を行った。 インジケータ間の因果関係の検出に様々なアルゴリズムを適用することが,本研究の課題である。 国間の政府政策の格差が因果連鎖の相違の原因となっているにもかかわらず、いくつかの指標は21世紀に世界中での疾病の発生に敏感な決定要因として現れる。

Epidemiologists aiming to model the dynamics of global events face a significant challenge in identifying the factors linked with anomalies such as disease outbreaks. In this paper, we present a novel method for identifying the most important development sectors sensitive to disease outbreaks by using global development indicators as markers. We use statistical methods to assess the causative linkages between these indicators and disease outbreaks, as well as to find the most often ranked indicators. We used data imputation techniques in addition to statistical analysis to convert raw real-world data sets into meaningful data for causal inference. The application of various algorithms for the detection of causal linkages between the indicators is the subject of this research. Despite the fact that disparities in governmental policies between countries account for differences in causal linkages, several indicators emerge as important determinants sensitive to disease outbreaks over the world in the 21st Century.
翻訳日:2021-09-20 11:25:13 公開日:2021-09-17