このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220427となっている論文です。

PDF登録状況(公開日: 20220427)

TitleAuthorsAbstract論文公表日・翻訳日
# グルシンシリンダにおける量子幾何閉じ込めと動的伝達

Quantum Geometric Confinement and Dynamical Transmission in Grushin Cylinder ( http://arxiv.org/abs/2003.07128v3 )

ライセンス: Link先を確認
Matteo Gallone, Alessandro Michelangeli, Eugenio Pozzoli(参考訳) 無限不足指数を与える計量のクラスにおいて、グルーシンタイプの不完全リーマン計量を備えた無限シリンダ上で最小に定義されたラプラス・ベルトラミ作用素の自己随伴実現を分類する。 このような実現は自然に、特異点から離れたシュルンディンガー量子粒子の幾何学的閉じ込め、あるいは特異点を越えての動的伝達を支配しているハミルトニアンとして解釈される。 特に、特異点における明示的な局所境界条件によって与えられるすべての物理的意味のある拡張を特徴づける。 我々の一般的な分類の中では、最近の文献で以前に特定された顕著な拡張、すなわち最も精細で最も透過的な拡張を回収する。

We classify the self-adjoint realisations of the Laplace-Beltrami operator minimally defined on an infinite cylinder equipped with an incomplete Riemannian metric of Grushin type, in the class of metrics yielding an infinite deficiency index. Such realisations are naturally interpreted as Hamiltonians governing the geometric confinement of a Schr\"{o}dinger quantum particle away from the singularity, or the dynamical transmission across the singularity. In particular, we characterise all physically meaningful extensions qualified by explicit local boundary conditions at the singularity. Within our general classification we retrieve those distinguished extensions previously identified in the recent literature, namely the most confining and the most transmitting one.
翻訳日:2023-05-29 00:23:47 公開日:2022-04-27
# 時間的対世界的確率的地域ハミルトン : 複雑性と符号計算の問題

Termwise versus globally stoquastic local Hamiltonians: questions of complexity and sign-curing ( http://arxiv.org/abs/2007.11964v2 )

ライセンス: Link先を確認
Marios Ioannou, Stephen Piddock, Milad Marvian, Joel Klassen and Barbara M. Terhal(参考訳) 我々は局所ハミルトニアンに対する大域的および項的確率性の区別を解明し、いくつかの複雑性の結果を証明する。 確率的局所ハミルトニアン問題は、大域的ハミルトニアンに対しても$\textbf{StoqMA}$完全であることが示される。 局所ハミルトニアンが全体的確率的か否かを判断する複雑さについて検討する。 特に、固定基底で大域的確率性を決定するための $\textbf{conp}$-hardness と、シングルキュービット変換の下で大域的確率性を決定する $\sigma_2^p$ hardness を証明する。 最後の結果として、Clifford変換が乱 1D $XYZ$ Hamiltonians のクラスにサインキュアできることを示すことによって、サインカリング変換のクラスを拡張した。

We elucidate the distinction between global and termwise stoquasticity for local Hamiltonians and prove several complexity results. We show that the stoquastic local Hamiltonian problem is $\textbf{StoqMA}$-complete even for globally stoquastic Hamiltonians. We study the complexity of deciding whether a local Hamiltonian is globally stoquastic or not. In particular, we prove $\textbf{coNP}$-hardness of deciding global stoquasticity in a fixed basis and $\Sigma_2^p$-hardness of deciding global stoquasticity under single-qubit transformations. As a last result, we expand the class of sign-curing transformations by showing how Clifford transformations can sign-cure a class of disordered 1D $XYZ$ Hamiltonians.
翻訳日:2023-05-08 10:58:38 公開日:2022-04-27
# ホーエンベルク・コーンの定理の不確実性関係

Uncertainty relations for the Hohenberg-Kohn theorem ( http://arxiv.org/abs/2010.01656v3 )

ライセンス: Link先を確認
Purnima Ghale(参考訳) 電荷密度は自然界における多体波動関数をいかに制約するか? ホヘンベルク=コーンの非相対論的相互作用を持つ多体シュル・オーディンガー系に対する定理はよく知られており、'emph{reductio-ad-absurdum} を用いて証明された。 ここでは、相互作用する多体問題において有効な正準作用素を得る。 (一)粒子間の相互作用を媒介し、ポテンシャルエネルギーに寄与する局所電界 (ii)運動エネルギーに寄与する粒子モーメント(momenta)。 これらの作用素の交換は電荷密度分布をもたらす。 したがって、相互作用する多粒子系の量子揺らぎは電荷密度によって制限され、電荷密度に結合して外部ポテンシャルが量子力学的多体波動関数をチューニングするメカニズムを提供する。 初期実験として、相互作用する多粒子系の全エネルギーに対する関数形式を求め、一様密度極限において量子モンテカルロシミュレーションと有望な一致を求める。

How does charge density constrain many-body wavefunctions in nature? The Hohenberg-Kohn theorem for non-relativistic, interacting many-body Schr\"odinger systems is well-known and was proved using \emph{reductio-ad-absurdum}; however, the physical mechanism or principle which enables this theorem in nature has not been understood. Here, we obtain effective canonical operators in the interacting many-body problem -- (i) the local electric field, which mediates interaction between particles, and contributes to the potential energy; and (ii) the particle momenta, which contribute to the kinetic energy. The commutation of these operators results in the charge density distribution. Thus, quantum fluctuations of interacting many-particle systems are constrained by charge density, providing a mechanism by which an external potential, by coupling to the charge density, tunes the quantum-mechanical many-body wavefunction. As an initial test, we obtain the functional form for total energy of interacting many-particle systems, and in the uniform density limit, find promising agreement with Quantum Monte Carlo simulations.
翻訳日:2023-04-30 00:29:26 公開日:2022-04-27
# 位相的不動点モデルに対する統一図解的アプローチ

A unified diagrammatic approach to topological fixed point models ( http://arxiv.org/abs/2011.12064v3 )

ライセンス: Link先を確認
A. Bauer, J. Eisert, C. Wille(参考訳) 固定点モデルを記述するための体系的な数学的言語を導入し、その研究を物質の位相相に適用する。 このフレームワークはステートサムモデルや格子トポロジカル量子場理論を思い起こさせるが、テンソルネットワークの観点で形式化され統一されている。 位相的に順序付けられた位相の基底状態を研究するための既存のテンソルネットワークとは対照的に、形式論におけるテンソルネットワークはユークリッド時空における離散経路積分を表す。 この言語は、各虚時進化のトロッター化を通じて、他のアプローチよりもモデルを定義するハミルトニアンとより直接的に関係している。 簡単な例で定式化を導入し、2+1次元のモデルの既知の族を最も一般的な形で表現し、弱いホップ代数に基づく弦-ネットモデルとキタエフ量子双対を表現する。 フォーマリズムの汎用性を解明するために、物質のフェルミオン相をどのように記述できるかを示し、3+1次元の位相的不動点モデルの枠組みを提供する。

We introduce a systematic mathematical language for describing fixed point models and apply it to the study to topological phases of matter. The framework is reminiscent of state-sum models and lattice topological quantum field theories, but is formalised and unified in terms of tensor networks. In contrast to existing tensor network ansatzes for the study of ground states of topologically ordered phases, the tensor networks in our formalism represent discrete path integrals in Euclidean space-time. This language is more directly related to the Hamiltonian defining the model than other approaches, via a Trotterization of the respective imaginary time evolution. We introduce our formalism by simple examples, and demonstrate its full power by expressing known families of models in 2+1 dimensions in their most general form, namely string-net models and Kitaev quantum doubles based on weak Hopf algebras. To elucidate the versatility of our formalism, we also show how fermionic phases of matter can be described and provide a framework for topological fixed point models in 3+1 dimensions.
翻訳日:2023-04-23 06:40:53 公開日:2022-04-27
# 波動関数は知識と現実を同時に表現できるか?

Could wavefunctions simultaneously represent knowledge and reality? ( http://arxiv.org/abs/2101.06436v4 )

ライセンス: Link先を確認
Jonte R. Hance, John Rarity, and James Ladyman(参考訳) 量子力学の解釈の議論において、「ontic」と「epistemic」という用語は、存在するものに関連する意味で、それぞれ認知または知識に関するものとしてしばしば用いられる。 この用語は、量子力学における波動関数を、オントロジカルモデルフレームワークの文脈において$\psi$-ontic あるいは$\psi$-epistemic とするハリガンとスペッケンスによって与えられる公式な定義としばしば関連付けられている。 形式的定義は矛盾するので、波動関数は$\psi$-epistemic あるいは $\psi$-ontic でもよいが両方ではない。 しかし、認識論と音論解釈の非公式な考えは、現実と知識の両方を表わす波動関数を除外するものではないと主張する。 pusey-barrett-rudolphの定理や他の多くの問題の影響は、我々の分析から再検討されるかもしれない。

In discussion of the interpretation of quantum mechanics the terms `ontic' and `epistemic' are often used in the sense of pertaining to what exists, and pertaining to cognition or knowledge respectively. The terms are also often associated with the formal definitions given by Harrigan and Spekkens for the wavefunction in quantum mechanics to be $\psi$-ontic or $\psi$-epistemic in the context of the ontological models framework. The formal definitions are contradictories, so that the wavefunction can be either $\psi$-epistemic or $\psi$-ontic but not both. However, we argue, nothing about the informal ideas of epistemic and ontic interpretations rules out wavefunctions representing both reality and knowledge. The implications of the Pusey-Barrett-Rudolph theorem and many other issues may be rethought in the light of our analysis.
翻訳日:2023-04-15 01:03:09 公開日:2022-04-27
# パルス駆動制御Vゲートと超伝導量子デバイスへの応用

Pulse-engineered Controlled-V gate and its applications on superconducting quantum device ( http://arxiv.org/abs/2102.06117v3 )

ライセンス: Link先を確認
Takahiko Satoh, Shun Oomura, Michihiko Sugawara, and Naoki Yamamoto(参考訳) 本稿では、IBM超伝導量子デバイス用OpenPulse設計キットを用いて、制御Vゲート(CVゲート)を制御X(CXまたはCNOTゲート)へのゲート時間の半分程度に実装でき、その結果、CVのCXベースの実装と比較して65.5倍のゲート時間を削減できることを示した。 次に, カルタン分解理論に基づいて, CVゲートを2つまたは3つだけ実装した2ビットゲートの集合を特徴付け, パルス駆動CVゲートを用いることで, ゲート時間を短縮し, CXベースのゲートの忠実度を2つの実例で示すように, これらのゲートを実装できる。 さらに,パルス制御cvゲートをゲート時間と平均出力状態忠実度の両方で実装することにより,線形結合型3量子トッフォリゲートの改良を示す。 これらの結果は,基本ゲートセット設計のための追加オプションとして,演算時間を短縮し,実際のデバイス上で実行される数個の量子アルゴリズムの精度を向上するCVゲート実装手法の重要性を示唆している。

In this paper, we demonstrate that, by employing OpenPulse design kit for IBM superconducting quantum devices, the controlled-V gate (CV gate) can be implemented in about half the gate time to the controlled-X (CX or CNOT gate) and consequently 65.5\% reduced gate time compared to the CX-based implementation of CV. Then, based on the theory of Cartan decomposition, we characterize the set of all two-qubit gates implemented with only two or three CV gates; using pulse-engineered CV gates enables us to implement these gates with shorter gate time and possibly better gate fidelity than the CX-based one, as actually demonstrated in two examples. Moreover, we showcase the improvement of linearly-coupled three-qubit Toffoli gate, by implementing it with the pulse-engineered CV gate, both in gate time and the averaged output-state fidelity. These results imply the importance of our CV gate implementation technique, which, as an additional option for the basis gate set design, may shorten the overall computation time and consequently improve the precision of several quantum algorithms executed on a real device.
翻訳日:2023-04-11 12:01:38 公開日:2022-04-27
# サウジの親が子どものスマートデバイスアプリケーションに関するプライバシーの懸念

Saudi Parents' Privacy Concerns about Their Children's Smart Device Applications ( http://arxiv.org/abs/2105.13634v3 )

ライセンス: Link先を確認
Eman Alashwali and Fatimah Alashwali(参考訳) 本稿では、サウジアラビアの親が子どものスマートデバイスアプリケーション(apps)に関するプライバシーの懸念について調査する。 この目的のために調査を行い、119の回答を分析した。 以上の結果から,サウジアラビアの親は,スマートデバイスアプリを使用する際に,子どものプライバシーに関する懸念が高いことが示された。 しかし、アプリの機密データへのアクセス要求などのプライバシー問題よりも、アプリのコンテンツに対する懸念が高かった。 さらに、親の懸念は、年齢に不適なアプリを含む子供用インストールアプリの大部分と一致せず、親の指導を必要とし、位置情報などの機密データへのアクセスを要求する。 また、サウジアラビアの両親の実践や懸念についても、西欧(主にイギリス)や中国の両親が以前の報告で報告したものと比較し、いくつかの側面について論じる。 興味深いパターンを見つけ、新しい関係を確立しました。 例えば、サウジアラビアと西洋の両親は、中国の親よりも高いレベルのプライバシーの懸念を示している。 最後に、14のプライバシプラクティスと、ハイクラスとロークラス(親の教育、技術的背景、収入)に対する懸念をテストし、ハイクラスとロークラスの間に重大な違いがあるかどうかを確認した(これらの違いを「デジタル格差」で表す)。 42 つのテスト (14 つのプロパティ x 3 クラス) のうち 7 つのテストのみにおいて, 上位クラスと下位クラスの間に有意な差が認められた。 これは全体としてはポジティブな傾向ですが、これらのギャップを埋めることに取り組むことが重要です。 本研究の結果は、特にサウジにおいて、両親、開発者、研究者、規制当局、政策立案者が利用できる改善とレコメンデーションの分野を特定する上で重要な知見となる。

In this paper, we investigate Saudi parents' privacy concerns regarding their children's smart device applications (apps). To this end, we conducted a survey and analysed 119 responses. Our results show that Saudi parents expressed a high level of concern regarding their children's privacy when using smart device apps. However, they expressed higher concerns about apps' content than privacy issues such as apps' requests to access sensitive data. Furthermore, parents' concerns are not in line with most of the children's installed apps, which contain apps inappropriate for their age, require parental guidance, and request access to sensitive data such as location. We also discuss several aspects of Saudi parents' practices and concerns compared to those reported by Western (mainly from the UK) and Chinese parents in previous reports. We found interesting patterns and established new relationships. For example, Saudi and Western parents show higher levels of privacy concerns than Chinese parents. Finally, we tested 14 privacy practices and concerns against high versus low socioeconomic classes (parents' education, technical background, and income) to find whether there are significant differences between high and low classes (we denote these differences by "digital divide"). Out of 42 tests (14 properties x 3 classes) we found significant differences between high and low classes in 7 tests only. While this is a positive trend overall, it is important to work on bridging these gaps. The results of this paper provide key findings to identify areas of improvement and recommendations, especially for Saudis, which can be used by parents, developers, researchers, regulators, and policy makers.
翻訳日:2023-03-29 04:46:29 公開日:2022-04-27
# ウィグナー負性率の統計力学からのマジック状態プロトコルの制約

Constraints on magic state protocols from the statistical mechanics of Wigner negativity ( http://arxiv.org/abs/2106.15527v2 )

ライセンス: Link先を確認
Nikolaos Koukoulekidis, David Jennings(参考訳) 魔法の状態は普遍的なフォールトトレラント量子計算を実現するためのスキームにおいて重要な要素である。 マジック状態の理論は、この計算要素を単調によって定量化し、これらの状態が効率的に有用な形式に変換されるかを決定する。 本稿では,クリフォード回路で処理された奇数素数次元のquditに対するウィグナー負のマジック状態を記述するために,メジャー化に基づく統計力学的枠組みを開発した。 偏極化により、ウィグナー表現における障害の定量化と、マジック蒸留における上限の導出が可能であることを示す。 これらの境界は、マナやソーマのような他の境界よりも厳密であることが示され、温度依存やハミルトニアン系のようなハードウェア物理学を組み込むのに使うことができる。 また,single-shot r\'{e}nyiエントロピーのサブセットは,準分布上では十分に定義され,データ処理において完全に意味を持ち,信号魔法のような負の値を得ることができることを示した。 マジック状態のマナは、ウィグナー分布のシャノンエントロピーに近づくにつれてこれらの r\'{e}nyi エントロピーの発散の尺度であり、この設定で蒸留の下限がどのように得られるかを議論する。 準分布に対するこのメジャー化の使用は、非古典性の研究に応用され、古典統計力学の文脈において新しい疑問を提起する。

Magic states are key ingredients in schemes to realize universal fault-tolerant quantum computation. Theories of magic states attempt to quantify this computational element via monotones and determine how these states may be efficiently transformed into useful forms. Here, we develop a statistical mechanical framework based on majorization to describe Wigner negative magic states for qudits of odd prime dimension processed under Clifford circuits. We show that majorization allows us to both quantify disorder in the Wigner representation and derive upper bounds for magic distillation. These bounds are shown to be tighter than other bounds, such as from mana and thauma, and can be used to incorporate hardware physics, such as temperature dependence and system Hamiltonians. We also show that a subset of single-shot R\'{e}nyi entropies remain well-defined on quasi-distributions, are fully meaningful in terms of data processing and can acquire negative values that signal magic. We find that the mana of a magic state is the measure of divergence of these R\'{e}nyi entropies as one approaches the Shannon entropy for Wigner distributions, and discuss how distillation lower bounds could be obtained in this setting. This use of majorization for quasi-distributions could find application in other studies of non-classicality, and raises novel questions in the context of classical statistical mechanics.
翻訳日:2023-03-24 19:34:52 公開日:2022-04-27
# パラメトリック結合ネットワークの合成

Synthesis of parametrically-coupled networks ( http://arxiv.org/abs/2109.11628v4 )

ライセンス: Link先を確認
Ofer Naaman, Jose Aumentado(参考訳) パラメトリック結合回路(パラメトリック増幅器、周波数変換器、パラメトリック非相互デバイス)の記述をバンドパスフィルタとインピーダンスマッチングネットワークで統一するために共通の言語が使用できることを示す。 これにより、ゲイン、帯域幅、リターン損失、アイソレーションなどの所定の転送特性を持つパラメトリック結合デバイスの設計において、マイクロ波工学からのネットワーク合成手法を簡単に適用することができる。 本稿では,結合モード理論とフィルタ合成の基本的実用的側面を概観し,マルチポールネットワーク,広帯域パラメトリックネットワーク,非相反ネットワークの設計に適用する方法を示す。 我々はこの議論を様々な例と参考設計で補う。

We show that a common language can be used to unify the description of parametrically-coupled circuits--parametric amplifiers, frequency converters, and parametric nonreciprocal devices--with that of band-pass filter and impedance matching networks. This enables one to readily adapt network synthesis methods from microwave engineering in the design of parametrically-coupled devices having prescribed transfer characteristics, e.g. gain, bandwidth, return loss, and isolation. We review basic practical aspects of coupled mode theory and filter synthesis, and then show how to apply both, on an equal footing, to the design of multi-pole, broadband parametric and non-reciprocal networks. We supplement the discussion with a range of examples and reference designs.
翻訳日:2023-03-14 09:14:12 公開日:2022-04-27
# 絡み合いに基づく時間ビン符号化による同時量子鍵分布のためのスケーラブルネットワーク

A scalable network for simultaneous pairwise quantum key distribution via entanglement-based time-bin coding ( http://arxiv.org/abs/2110.13795v3 )

ライセンス: Link先を確認
Erik Fitzke, Lucas Bialowons, Till Dolejsky, Maximilian Tippmann, Oleg Nikiforov, Felix Wissel, Matthias Gunkel and Thomas Walther(参考訳) 本稿では,スケーラブルな星型量子鍵分布(qkd)光ファイバネットワークを提案する。 広帯域光子対の波長分割多重化(wdm)を用いて,複数対の参加者間の鍵交換を同時に行う。 我々のQKDシステムは、BBM92タイムビン符号化を用いた4人の参加者による最初の絡み合いベースのネットワークであり、光子到着時間に基づくクロック回復のみでタイミング同期を実現する最初のネットワークである。 参加者の任意の組み合わせによる同時2部鍵交換を実証し、量子ビット誤り率(qber)自体を使って干渉計の位相を小さな温度調整で安定化できることを示した。 鍵分布はネットワーク内の偏光変動に敏感であり、環境条件が厳しい場合でも、配置繊維を用いた鍵分布を可能にする。 我々は、100ghzチャネル間隔のwdm用標準アレイ導波路格子を用いて、ネットワークを34名まで容易に拡張でき、波長選択スイッチで再構成可能なネットワーク接続が可能であることを示す。 フィールドテストでは、QBERが108kmの総繊維長に対して4.5%の6.3ビット/秒のセキュアな鍵レートと26.8kmの展開繊維を高安定性で2人の被験者の間で実証した。 本システムでは,受信モジュールの比較的単純な設計を特徴とし,100km以上の距離から100人以上のユーザまで,信頼ノードのないQKDネットワークのスケールアップを可能にする。 このようなネットワークにより、メトロポリタンスケールのセキュアな通信基盤を確立することができる。

We present a scalable star-shaped quantum key distribution (QKD) optical fiber network. We use wavelength-division demultiplexing (WDM) of broadband photon pairs to establish key exchange between multiple pairs of participants simultaneously. Our QKD system is the first entanglement-based network of four participants using BBM92 time-bin coding and the first network achieving timing synchronization solely by clock recovery based on the photon arrival times. We demonstrate simultaneous bipartite key exchange between any possible combination of participants and show that the quantum bit error rate (QBER) itself can be used to stabilize the phase in the interferometers by small temperature adjustments. The key distribution is insensitive to polarization fluctuations in the network, enabling key distribution using deployed fibers even under challenging environmental conditions. We show that our network can be readily extended to 34 participants by using a standard arrayed-waveguide grating for WDM with 100 GHz channel spacing and that reconfigurable network connections are possible with a wavelength-selective switch. In a field test we demonstrate secure key rates of 6.3 bit/s with a QBER of 4.5% over a total fiber length of 108 km with 26.8 km of deployed fiber between two participants with high stability. Our system features a relatively simple design of the receiver modules and enables scaling QKD networks without a trusted nodes to distances up to more than 100 km and to more than 100 users. With such a network, a secure communication infrastructure on a metropolitan scale can be established.
翻訳日:2023-03-10 05:33:02 公開日:2022-04-27
# 連続モニタリングにおける量子熱力学--一般的な枠組み

Quantum thermodynamics under continuous monitoring: a general framework ( http://arxiv.org/abs/2112.02019v2 )

ライセンス: Link先を確認
Gonzalo Manzano and Roberta Zambrini(参考訳) 平衡から引き出された量子系の熱力学は、量子情報や統計物理学と結びつき、古典的でないシグネチャに焦点を合わせ、過去10年間に注目が集まっている。 第1のアプローチは、アンサンブル上の平均熱力学量を扱うことができるが、進化中の量子および環境変動の影響を確立するためには、オープンシステムの連続的な量子測定が必要である。 ここでは、非平衡進化を継続的に監視している量子系に対する熱力学の確立と解釈のための一般的な理論的枠組みを紹介する。 量子軌道の定式化とその熱力学シナリオへの一貫した応用について検討し、仕事、熱、エントロピー生成などの主要な量を確率レベルで定義できる。 可逆性とゆらぎ定理との関係についても最近の発展とともに論じ、一般的な理論的枠組みを説明するための簡単な例を挙げる。

The thermodynamics of quantum systems driven out of equilibrium has attracted increasing attention in last the decade, in connection with quantum information and statistical physics, and with a focus on non-classical signatures. While a first approach can deal with average thermodynamics quantities over ensembles, in order to establish the impact of quantum and environmental fluctuations during the evolution, a continuous quantum measurement of the open system is required. Here we provide an introduction to the general theoretical framework to establish and interpret thermodynamics for quantum systems whose nonequilibrium evolution is continuously monitored. We review the formalism of quantum trajectories and its consistent application to the thermodynamic scenario, where main quantities such as work, heat, and entropy production can be defined at the stochastic level. The connection to irreversibility and fluctuation theorems is also discussed, together with some recent developments, and we provide some simple examples to illustrate the general theoretical framework.
翻訳日:2023-03-05 23:56:47 公開日:2022-04-27
# 進化的強化学習のためのサロゲート支援制御系

A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning ( http://arxiv.org/abs/2201.00129v2 )

ライセンス: Link先を確認
Yuxing Wang, Tiantian Zhang, Yongzhe Chang, Bin Liang, Xueqian Wang, Bo Yuan(参考訳) 強化学習(RL)と進化的アルゴリズム(EA)の統合は、2つのパラダイムの多様性と堅牢性を同時に活用することを目的としている。 近年,この原理に基づくハイブリッド学習フレームワークは,様々なロボット制御課題において大きな成功を収めている。 しかし、これらの手法では、遺伝的集団の政策は実際の環境との相互作用を通じて評価され、計算コストの高い問題に適用性が制限される。 本研究では,コストの高い政策評価を部分的に置き換えることで,EAの計算負担を軽減するために,既存のフレームワークに統合可能な,新規で効率的なモジュールであるSurrogate-assisted Controller (SC)を提案する。 このモジュールを適用する際の重要な課題は、サロゲートによって導入された偽のミニマによって最適化プロセスが誤解されるのを防ぐことである。 この問題に対処するために、SCがハイブリッドフレームワークのワークフローを制御するための2つの戦略を提案する。 OpenAI Gymプラットフォームによる6つの継続的制御タスクの実験は、SCがフィットネス評価のコストを大幅に削減できるだけでなく、協調学習と進化プロセスを備えたオリジナルのハイブリッドフレームワークのパフォーマンスも向上できることを示している。

The integration of Reinforcement Learning (RL) and Evolutionary Algorithms (EAs) aims at simultaneously exploiting the sample efficiency as well as the diversity and robustness of the two paradigms. Recently, hybrid learning frameworks based on this principle have achieved great success in various challenging robot control tasks. However, in these methods, policies from the genetic population are evaluated via interactions with the real environments, limiting their applicability in computationally expensive problems. In this work, we propose Surrogate-assisted Controller (SC), a novel and efficient module that can be integrated into existing frameworks to alleviate the computational burden of EAs by partially replacing the expensive policy evaluation. The key challenge in applying this module is to prevent the optimization process from being misled by the possible false minima introduced by the surrogate. To address this issue, we present two strategies for SC to control the workflow of hybrid frameworks. Experiments on six continuous control tasks from the OpenAI Gym platform show that SC can not only significantly reduce the cost of fitness evaluations, but also boost the performance of the original hybrid frameworks with collaborative learning and evolutionary processes.
翻訳日:2023-03-02 17:22:57 公開日:2022-04-27
# システムバス分離に適応したSmolyakアルゴリズム:大振幅運動を有するカプセル化分子への応用

A Smolyak algorithm adapted to a system-bath separation: application to an encapsulated molecule with large amplitude motions ( http://arxiv.org/abs/2201.05857v3 )

ライセンス: Link先を確認
Ahai Chen, David M. Benoit, Yohann Scribano, Andr\'e Nauts, David Lauvergnat(参考訳) 厳密な量子シミュレーションのために,システムバス分離に適応したスモラックアルゴリズムを提案する。 この手法はスパースグリッド法とシステムバスの概念をハミルトニアンの形式に制限を加えることなく特定の構成で組み合わせることで、「システム」部分の励起遷移の高効率な収束を実現する。 本手法は,smolyakアルゴリズムの多年次収束問題を克服するための汎用的な方法を提供し,100度以上の自由度を有するフロッピー分子のシミュレーションを可能にし,2種類のケージモードを含むsiiクラスレートハイドレート中でのh$_2$ cagedのシミュレーションにより,本手法の有効性を示す。 遷移エネルギーは、水分子の正常なモードの数を増やすことで収束する。 以上の結果から, H$_2$分子の翻訳および回転の両遷移(j=1$)の3重項分裂が確認された。 さらに、硬いケージ内のものに対して、翻訳遷移がわずかに増加することを示す。

A Smolyak algorithm adapted to system-bath separation is proposed for rigorous quantum simulations. This technique combines a sparse grid method with the system-bath concept in a specific configuration without limitations on the form of the Hamiltonian, thus achieving a highly efficient convergence of the excitation transitions for the "system" part. Our approach provides a general way to overcome the perennial convergence problem for the standard Smolyak algorithm and enables the simulation of floppy molecules with more than a hundred degrees of freedom.The efficiency of the present method is illustrated on the simulation of H$_2$ caged in an sII clathrate hydrate including two kinds of cage modes. The transition energies are converged by increasing the number of normal modes of water molecules. Our results confirm the triplet splittings of both translational and rotational ($j=1$) transitions of the H$_2$ molecule. Furthermore, they show a slight increase of the translational transitions with respect to the ones in a rigid cage.
翻訳日:2023-03-01 02:40:41 公開日:2022-04-27
# 2+1)dにおける一様加速ブラウン振動子:温度依存散逸と周波数シフト

Uniformly accelerated Brownian oscillator in (2+1)D: temperature-dependent dissipation and frequency shift ( http://arxiv.org/abs/2201.08287v2 )

ライセンス: Link先を確認
Dimitris Moustos(参考訳) 2+1)次元ミンコフスキー時空における無質量量子スカラー場に結合する調和振動子としてモデル化されたウンルー・デウィット検出器を考える。 我々は、検出器をオープン量子系として扱い、その時間発展を記述する量子ランゲヴィン方程式を用いて、周波数非依存のスペクトル密度を特徴とし、確率的な力として機能する。 ミンコフスキー真空中を一定加速度で移動する点状検出器と、ウンルー温度の温熱貯水池に浸漬した慣性検出器について検討し、両症例間の非等価性がダイナミクスに与える影響について検討した。 その結果,加速検出器の散逸速度とフィールドバスへのカップリングによる周波数変化は,いずれも加速温度に依存することがわかった。 興味深いことに、これは熱浴における慣性運動だけでなく、散逸や周波数シフトが温度依存性を示すことが分かっていないオープンシステムにおける任意の類似量子ブラウン運動モデルと対照的である。 いずれにせよ, ゆらぎ散逸定理は検出器-磁場系に対して依然として成り立ち, 弱結合限界では加速検出器は遅くともウンルー温度で熱平衡状態に駆動される。

We consider an Unruh-DeWitt detector modeled as a harmonic oscillator that is coupled to a massless quantum scalar field in the (2+1)-dimensional Minkowski spacetime. We treat the detector as an open quantum system and employ a quantum Langevin equation to describe its time evolution, with the field, which is characterized by a frequency-independent spectral density, acting as a stochastic force. We investigate a point-like detector moving with constant acceleration through the Minkowski vacuum and an inertial one immersed in a thermal reservoir at the Unruh temperature, exploring the implications of the well-known non-equivalence between the two cases on their dynamics. We find that both the accelerated detector's dissipation rate and the shift of its frequency caused by the coupling to the field bath depend on the acceleration temperature. Interestingly enough this is not only in contrast to the case of inertial motion in a heat bath but also to any analogous quantum Brownian motion model in open systems, where dissipation and frequency shifts are not known to exhibit temperature dependencies. Nonetheless, we show that the fluctuating-dissipation theorem still holds for the detector-field system and in the weak-coupling limit an accelerated detector is driven at late times to a thermal equilibrium state at the Unruh temperature.
翻訳日:2023-02-28 08:09:11 公開日:2022-04-27
# 自己共役拡張スキームと量子ハミルトンへの応用

Self-adjoint extension schemes and modern applications to quantum Hamiltonians ( http://arxiv.org/abs/2201.10205v3 )

ライセンス: Link先を確認
Matteo Gallone and Alessandro Michelangeli(参考訳) This monograph contains revised and enlarged materials from previous lecture notes of undergraduate and graduate courses and seminars delivered by both authors over the last years on a subject that is central both in abstract operator theory and in applications to quantum mechanics: to decide whether a given densely defined and symmetric operator on Hilbert space admits a unique self-adjoint realisation, namely its operator closure, or whether instead it admits an infinite multiplicity of distinct self-adjoint extensions, and in the latter case to classify them and characterise their main features (operator and quadratic form domains, spectrum, etc.) This is at the same time a very classical, well established field, corresponding to the first part of the monograph, and a territory of novel, modern applications, a selection of which, obviously subjective to some extent, but also driven by a pedagogical criterion, is presented in depth in the second part. A number of models are discussed, which are receiving today new or renewed interest in mathematical physics, in particular from the point of view of realising certain operators of interests self-adjointly, classifying their self-adjoint extensions as actual quantum Hamiltonians, studying their spectral and scattering properties, and the like, but also from the point of view of intermediate technical questions that have theoretical interest per se, such as characterising the corresponding operator closures and adjoints.

This monograph contains revised and enlarged materials from previous lecture notes of undergraduate and graduate courses and seminars delivered by both authors over the last years on a subject that is central both in abstract operator theory and in applications to quantum mechanics: to decide whether a given densely defined and symmetric operator on Hilbert space admits a unique self-adjoint realisation, namely its operator closure, or whether instead it admits an infinite multiplicity of distinct self-adjoint extensions, and in the latter case to classify them and characterise their main features (operator and quadratic form domains, spectrum, etc.) This is at the same time a very classical, well established field, corresponding to the first part of the monograph, and a territory of novel, modern applications, a selection of which, obviously subjective to some extent, but also driven by a pedagogical criterion, is presented in depth in the second part. A number of models are discussed, which are receiving today new or renewed interest in mathematical physics, in particular from the point of view of realising certain operators of interests self-adjointly, classifying their self-adjoint extensions as actual quantum Hamiltonians, studying their spectral and scattering properties, and the like, but also from the point of view of intermediate technical questions that have theoretical interest per se, such as characterising the corresponding operator closures and adjoints.
翻訳日:2023-02-27 22:49:00 公開日:2022-04-27
# SupermarQ: スケーラブルな量子ベンチマークスイート

SupermarQ: A Scalable Quantum Benchmark Suite ( http://arxiv.org/abs/2202.11045v3 )

ライセンス: Link先を確認
Teague Tomesh, Pranav Gokhale, Victory Omole, Gokul Subramanian Ravi, Kaitlin N. Smith, Joshua Viszlai, Xin-Chuan Wu, Nikos Hardavellas, Margaret R. Martonosi, Frederic T. Chong(参考訳) 新しい計算パラダイムとしての量子コンピュータの出現には、期待される革命的変化の範囲とタイムラインに関する憶測が伴っている。 量子コンピューティングはまだ初期段階であるが、量子計算を実装するために使われる様々なアーキテクチャは、性能を確実に測定し比較することが困難である。 この問題は、アプリケーションレベルのメトリクスを使用してパフォーマンスを測定するスケーラブルでハードウェアに依存しない量子ベンチマークスイートであるSupermarQの導入を動機付けています。 SupermarQは、古典的なベンチマーク手法から量子領域への手法を体系的に適用する最初の試みである。 我々は、カバレッジを定量化するための機能ベクトルのセットを定義し、さまざまなドメインからアプリケーションを選択して、スイートが実際のワークロードを表すことを保証し、IBM、IonQ、AQT@LBNLプラットフォームからベンチマーク結果を収集します。 今後は、量子ベンチマークは、オープンソースで絶えず進化するベンチマークスイート上に構築された、大規模なコミュニティ間の取り組みを網羅することを期待します。 この方向への重要なステップとしてSupermarQを紹介します。

The emergence of quantum computers as a new computational paradigm has been accompanied by speculation concerning the scope and timeline of their anticipated revolutionary changes. While quantum computing is still in its infancy, the variety of different architectures used to implement quantum computations make it difficult to reliably measure and compare performance. This problem motivates our introduction of SupermarQ, a scalable, hardware-agnostic quantum benchmark suite which uses application-level metrics to measure performance. SupermarQ is the first attempt to systematically apply techniques from classical benchmarking methodology to the quantum domain. We define a set of feature vectors to quantify coverage, select applications from a variety of domains to ensure the suite is representative of real workloads, and collect benchmark results from the IBM, IonQ, and AQT@LBNL platforms. Looking forward, we envision that quantum benchmarking will encompass a large cross-community effort built on open source, constantly evolving benchmark suites. We introduce SupermarQ as an important step in this direction.
翻訳日:2023-02-24 05:51:52 公開日:2022-04-27
# 4成分相対論的2次多体摂動エネルギーの確率的評価:2次スケーリング相関法

Stochastic evaluation of four-component relativistic second-order many-body perturbation energies: A potentially quadratic-scaling correlation method ( http://arxiv.org/abs/2203.05632v3 )

ライセンス: Link先を確認
J. C\'esar Cruz, Jorge Garza, Takeshi Yanai, So Hirata(参考訳) 相対論的ディラック・ハートリー・フォックエネルギーに対する2次多体摂動補正は、4成分スピノルとクーロンポテンシャルの13次元積を統合することにより確率的に評価される。 電子座標の実空間における積分はモンテカルロ法 (MC) とメトロポリス法 (Metropolis sample) で行うが、虚時間領域におけるMC積分は逆CDF法 (cumulative distribution function) で行う。 空間的にコンパクトだが重い分子に対する所定の相対統計誤差に達する計算コストは、立方体よりも悪く、おそらく電子の数や基底関数と2倍になる。 これは、従来の決定論的二階多体摂動法に比べて大きな改善である。 また、このアルゴリズムは簡単かつ効率的に並列化でき、固定ジョブサイズで64から4096プロセッサの92%の強力なスケーラビリティを示す。

A second-order many-body perturbation correction to the relativistic Dirac-Hartree-Fock energy is evaluated stochastically by integrating 13-dimensional products of four-component spinors and Coulomb potentials. The integration in the real space of electron coordinates is carried out by the Monte Carlo (MC) method with the Metropolis sampling, whereas the MC integration in the imaginary-time domain is performed by the inverse-CDF (cumulative distribution function) method. The computational cost to reach a given relative statistical error for spatially compact but heavy molecules is observed to be no worse than cubic and possibly quadratic with the number of electrons or basis functions. This is a vast improvement over the quintic scaling of the conventional, deterministic second-order many-body perturbation method. The algorithm is also easily and efficiently parallelized with demonstrated 92% strong scalability going from 64 to 4096 processors for a fixed job size.
翻訳日:2023-02-22 11:40:06 公開日:2022-04-27
# 金属表面近傍の光学的に薄い利得媒体における反転のないラシングとラシング

Lasing versus lasing without inversion in an optically thin gain medium near a metal surface ( http://arxiv.org/abs/2203.06452v2 )

ライセンス: Link先を確認
V.G. Bordo(参考訳) 金属表面に配置された活性中心の光学的薄層における発振の理論を第一原理から展開する。 このアプローチは、活性中心における双極子振動に対するフィードバックを提供する反射面の近傍の局所場の厳密な説明に基づいている。 その結果, ゲイン媒体の厚みは浸漬条件において重要な役割を担い, 逆転することなく従来の浸漬から浸漬への切替を制御できることが判明した。 電離波長(1532nm)の放射を発生可能な金面に接するエルビウムドープガラスについて数値計算を行う。

A theory of lasing in an optically thin layer of active centers disposed at a metal surface is developed from first principles. The approach is based on a rigorous account of the local field in a close vicinity of a reflective surface which provides a feedback for dipole oscillations in active centers. It is demonstrated that the gain medium thickness plays a crucial role in the lasing condition and controls a switching from conventional lasing to lasing without inversion. The numerical calculations are carried out for erbium doped glass bordering a gold surface where radiation at telecom wavelength (1532 nm) can be generated.
翻訳日:2023-02-22 07:27:21 公開日:2022-04-27
# オンライン学習に基づくWeb行動に及ぼすCOVID-19の影響調査

Investigating the impact of COVID-19 on Online Learning-based Web Behavior ( http://arxiv.org/abs/2205.01060v1 )

ライセンス: Link先を確認
Nirmalya Thakur, Saumick Pradhan, Chia Y. Han(参考訳) 新型コロナウイルス(covid-19)は、世界中で何十年も見られていないパンデミックだ。 新型コロナウイルス(covid-19)の世界的な拡大により、2020年に世界中のほぼすべての地域でいくつかの学校、大学、大学が閉鎖され、オンラインやリモート学習に切り替えられた。 この結果、教育者も学生もこれまで以上にインターネットに時間を費やすようになり、これら2つのグループがオンライン学習に適応するための情報、ツール、アプリケーション、フレームワークを調査、学習、熟知していると広く要約されている。 本稿では、オンライン学習に関連するWeb行動データに対するCOVID-19の影響をさらに調査し分析し、関連する関心や課題、ニーズを解釈する。 この調査は、Googleが世界でもっとも人気のある検索エンジンであるとして、Google検索ベースのウェブ行動データの調査に特化している。 オンライン学習ベースのweb行動に関するcovid-19の影響は、covid-19の感染者数で上位20か国で調査され、その結果はオープンアクセスデータセットとして公表されている。 さらに,オンライン学習に関連するWeb行動データの動向を解釈するために,これらの国の教育システムに対するCOVID-19の影響を事例として考察した。

COVID-19, a pandemic that the world has not seen in decades, has resulted in presenting a multitude of unprecedented challenges for student learning across the globe. The global surge in COVID-19 cases resulted in several schools, colleges, and universities closing in 2020 in almost all parts of the world and switching to online or remote learning, which has impacted student learning in different ways. This has resulted in both educators and students spending more time on the internet than ever before, which may be broadly summarized as both these groups investigating, learning, and familiarizing themselves with information, tools, applications, and frameworks to adapt to online learning. This paper takes an explorative approach to further investigate and analyze the impact of COVID-19 on such web behavior data related to online learning to interpret the associated interests, challenges, and needs. The study specifically focused on investigating Google Search-based web behavior data as Google is the most popular search engine globally. The impact of COVID-19 related to online learning-based web behavior on Google was studied for the top 20 worst affected countries in terms of the total number of COVID-19 cases, and the findings have been published as an open-access dataset. Furthermore, to interpret the trends in web behavior data related to online learning, the paper discusses a case study in terms of the impact of COVID-19 on the education system of one of these countries.
翻訳日:2023-02-19 16:37:36 公開日:2022-04-27
# 電子実験室ノート:怠け者アプローチ

Electronic Laboratory Notebook: A lazy approach ( http://arxiv.org/abs/2205.01058v1 )

ライセンス: Link先を確認
Simon Schubotz, Moritz Schubotz, G\"unter K Auernhammer(参考訳) 現代の研究室では、優れた研究データ管理が不可欠です。 高度に特定されたり、適切にカスタマイズするために重要な努力を必要とする様々なソリューションが存在する。 本稿では,データ駆動型推論研究における個人と少数の研究者を対象とした統合ソリューションを提案する。 電子研究室の本はメモとファイルから生成し、1つまたは複数の実験で生成します。 生成された電子実験室の本は、djangoベースのウェブサイトで提示される。 メタデータの自動収集は、手動で基本メタデータを入力する反復作業において、研究室作業者の文書化作業を大幅に削減し、ヒューマンエラーを防止する。 熟練したユーザは、アクティブなコミュニティと優れたドキュメントを備えた広く使われているオープンソースソフトウェアライブラリを採用するため、電子実験室のソフトウェアを自身のニーズに迅速に適応させることができる。

Good research data management is essential in modern-day lab work. Various solutions exist that are either highly specific or need a significant effort to be customized appropriately. This paper presents an integrated solution for individuals and small groups of researchers in data-driven deductive research. Our electronic lab book generates itself out of notes and files, which are generated by one or several experiments. The generated electronic lab book is then presented on a Django-based website. The automated gathering of metadata significantly reduces the documentation effort for the lab worker and prevents human error in the repetitive task of manually entering basic meta-data. The skilled user can quickly adapt the electronic lab book software to his needs because the software employs widely used open-source software libraries with active communities and excellent documentation.
翻訳日:2023-02-19 16:37:12 公開日:2022-04-27
# 時間を通してのエコー:イタリアのワクチン論争の進化

Echoes through Time: Evolution of the Italian COVID-19 Vaccination Debate ( http://arxiv.org/abs/2204.12943v1 )

ライセンス: Link先を確認
Giuseppe Crupi, Yelena Mejova, Michele Tizzani, Daniela Paolotti, Andre Panisson(参考訳) Twitterは国内でも最も人気のあるソーシャルメディアプラットフォームの一つだが、パンデミック前の予防接種前の議論は分極化され、エコーチャンバーにサイロ化されている。 したがって、この言説の性質を理解することは必須であり、予防接種をためらう個人に特に焦点をあて、医療上の決定が地域社会や国全体に影響を及ぼす可能性がある。 イタリアでは、新型コロナウイルス(covid-19)パンデミックで予防接種に関する議論がどう変わったのか、そして2020-2021年の前例のない出来事は、この話題に関するエコーチェンバーを壊すことができたのか。 2019年9月から2021年11月までのTwitterデータセットを使用して、ワクチン接種に関する偏極状態を調べます。 本稿では,異なる期間の支持ネットワークにおいて,最大のコミュニティを見つけるための階層的クラスタリング手法を提案し,スタンスを共有するユーザのコミュニティを手作業で生成することを示す。 これらのネットワークの構造、およびそれらの相互作用のテキスト的内容を調べると、サポーターと遠慮する個人の間には、予防接種キャンペーンを通じて続く大きな隔たりがあることが分かる。 しかし, ワクチンサポーターやワクチンを嫌う人たちの話題に共通性が高まり, 両者が合意する可能性のある共通の事実が浮き彫りになってきた。 それでも私たちは、未解決の陰謀(ワクチンのマイクロチップ)から公衆衛生政策の議論(パスポート制限)まで、迷信のコミュニティが提起する一連の懸念に気付きました。 我々は、公衆衛生決定や公式メッセージが公開される前に、予防接種に関する懸念を明らかにするため、この議論を引き続き監視することを推奨する。

Twitter is one of the most popular social media platforms in the country, but pre-pandemic vaccination debate has been shown to be polarized and siloed into echo chambers. It is thus imperative to understand the nature of this discourse, with a specific focus on the vaccination hesitant individuals, whose healthcare decisions may affect their communities and the country at large. In this study we ask, how has the Italian discussion around vaccination changed during the COVID-19 pandemic, and have the unprecedented events of 2020-2021 been able to break the echo chamber around this topic? We use a Twitter dataset spanning September 2019 - November 2021 to examine the state of polarization around vaccination. We propose a hierarchical clustering approach to find the largest communities in the endorsement networks of different time periods, and manually illustrate that it produces communities of users sharing a stance. Examining the structure of these networks, as well as textual content of their interactions, we find the stark division between supporters and hesitant individuals to continue throughout the vaccination campaign. However, we find an increasing commonality in the topical focus of the vaccine supporters and vaccine hesitant, pointing to a possible common set of facts the two sides may agree on. Still, we discover a series of concerns voiced by the hesitant community, ranging from unfounded conspiracies (microchips in vaccines) to public health policy discussion (vaccine passport limitations). We recommend an ongoing surveillance of this debate, especially to uncover concerns around vaccination before the public health decisions and official messaging are made public.
翻訳日:2023-02-19 16:31:44 公開日:2022-04-27
# 現代における合理性-最近の調査

Rationality in current era -- A recent survey ( http://arxiv.org/abs/2204.12872v1 )

ライセンス: Link先を確認
Dibakar Das(参考訳) 合理性は数十年間興味深い話題だった。 異なる主題にまたがる合理性の定義の範囲さえ様々である。 いくつかの理論(例えばゲーム理論)は最初、エージェント(例えば人間)が完全に有理的であるという根拠に基づいて進化した。 完全合理性の解釈の一つは、エージェントは常に期待されたユーティリティを最大化する最適な決定をするということである。 しかしその後、この仮定は緩和され、エージェントが最適な決定を下すのを防ぐための計算資源とバイアスの制限がある有界な合理性を含むようになった。 しかし、近年の(量子)コンピューティング、人工知能(AI)、科学、技術などの進歩により、合理性の概念は機械知能によって強化され、エージェントがより高い正則性で最適な決定を下すことができると考えられる。 しかし、この話題については異説がある。 この論文は、これらの異なる見解に関する最近の調査(過去5年間)を推し進めようとするものである。 これらの見解は3つの学派に分けられる。 最初の学校はAIの進歩に懐疑的であり、人間の知性は常にマシンインテリジェンスに取って代わられると信じている。 第2の思考学派は、AIの出現とコンピューティングの進歩が、有界な合理性を理解するのに役立つと考えている。 第3の思考学派は、境界有理性の境界はAIやその他の様々な分野の進歩によって拡張されると考えている。 この調査はさらなる研究の出発点になることを期待している。

Rationality has been an intriguing topic for several decades. Even the scope of definition of rationality across different subjects varies. Several theories (e.g., game theory) initially evolved on the basis that agents (e.g., humans) are perfectly rational. One interpretation of perfect rationality is that agents always make the optimal decision which maximizes their expected utilities. However, subsequently this assumption was relaxed to include bounded rationality where agents have limitations in terms of computing resources and biases which prevents them to take the optimal decision. However, with recent advances in (quantum) computing, artificial intelligence (AI), science and technology etc., has led to the thought that perhaps the concept of rationality would be augmented with machine intelligence which will enable agents to take decision optimally with higher regularity. However, there are divergent views on this topic. The paper attempts to put forward a recent survey (last five years) of research on these divergent views. These viewsmay be grouped into three schools of thoughts. The first school is the one which is sceptical of progress of AI and believes that human intelligencewill always supersede machine intelligence. The second school of thought thinks that advent of AI and advances in computing will help in better understanding of bounded rationality. Third school of thought believes that bounds of bounded rationality will be extended by advances in AI and various other fields. This survey hopes to provide a starting point for further research.
翻訳日:2023-02-19 16:31:13 公開日:2022-04-27
# 分散ウェブにおける毒性とモデル共有の可能性

Toxicity in the Decentralized Web and the Potential for Model Sharing ( http://arxiv.org/abs/2204.12709v1 )

ライセンス: Link先を確認
Haris Bin Zia, Aravindh. Raman, Ignacio Castro, Ishaku Hassan Anaobi, Emiliano De Cristofaro, Nishanth Sastry, Gareth Tyson(参考訳) dw(decentralized web)は、web上の透明性とオープン性の向上を目的としたテクノロジを包含する、進化した概念である。 DWは、さまざまなサービス(マイクロブログ、画像共有、ビデオストリーミングなど)を提供するために、ピアツーピア方式で連携する独立したサーバ(別名インスタンス)に依存している。 しかし、この分散されたコンテキストにおける有害なコンテンツモデレーションは困難である。 これは、毒性を定義できる中心的な実体や、普遍的な分類器を構築するのに使用できるデータの大きな中央プールがないためである。 したがって、DWが有害物質を調整・拡散するために誤用されている例がいくつかあることは驚きではない。 Pleroma(人気のDWマイクロブログサービス)上の117Kユーザの9.9Mポストのデータセットを使用して、有毒なコンテンツの存在を定量化する。 有毒な内容が広まり、インスタンス間で急速に広がることが分かっています。 入力毎のコンテンツモデレーションの自動化は,十分なトレーニングデータやラベル付けに必要な労力が不足していることから困難である。 そこで我々は,有害成分を効果的に検出し,平均1インテンス当たりマクロf1スコア0.89を得るモデル共有システムmodpairを提案し,評価する。

The "Decentralised Web" (DW) is an evolving concept, which encompasses technologies aimed at providing greater transparency and openness on the web. The DW relies on independent servers (aka instances) that mesh together in a peer-to-peer fashion to deliver a range of services (e.g. micro-blogs, image sharing, video streaming). However, toxic content moderation in this decentralised context is challenging. This is because there is no central entity that can define toxicity, nor a large central pool of data that can be used to build universal classifiers. It is therefore unsurprising that there have been several high-profile cases of the DW being misused to coordinate and disseminate harmful material. Using a dataset of 9.9M posts from 117K users on Pleroma (a popular DW microblogging service), we quantify the presence of toxic content. We find that toxic content is prevalent and spreads rapidly between instances. We show that automating per-instance content moderation is challenging due to the lack of sufficient training data available and the effort required in labelling. We therefore propose and evaluate ModPair, a model sharing system that effectively detects toxic content, gaining an average per-instance macro-F1 score 0.89.
翻訳日:2023-02-19 16:30:19 公開日:2022-04-27
# AI/ML革新のためのフレームワーク

Framework for disruptive AI/ML Innovation ( http://arxiv.org/abs/2204.12641v1 )

ライセンス: Link先を確認
Wim Verleyen and William McGinnis(参考訳) このフレームワークにより、c suiteのエグゼクティブリーダーは、ビジネスプランを定義し、ai/mlソリューションを構築するための技術的依存関係を管理することができる。 このフレームワークのビジネスプランは、戦略を定義し、コストを分析するためにコンポーネントと背景情報を提供します。 さらに、ビジネスプランは、AI/MLイノベーションとAI/MLソリューションの基礎を表している。 したがって、このフレームワークはAI/MLの管理と投資のためのメニューを提供する。 最後に、このフレームワークは、AI/MLイノベーションの学際的で総合的な視点で構築されており、AI/MLの技術進歩と調和して、ビジネス戦略の進歩の上に構築されている。 このフレームワークにはバリューチェーン、サプライチェーン、エコシステム戦略が含まれている。

This framework enables C suite executive leaders to define a business plan and manage technological dependencies for building AI/ML Solutions. The business plan of this framework provides components and background information to define strategy and analyze cost. Furthermore, the business plan represents the fundamentals of AI/ML Innovation and AI/ML Solutions. Therefore, the framework provides a menu for managing and investing in AI/ML. Finally, this framework is constructed with an interdisciplinary and holistic view of AI/ML Innovation and builds on advances in business strategy in harmony with technological progress for AI/ML. This framework incorporates value chain, supply chain, and ecosystem strategies.
翻訳日:2023-02-19 16:29:57 公開日:2022-04-27
# レーザー支援双極子-双極子相互作用を持つリドバーグ原子の量子ホール状態

Quantum Hall states for Rydberg atoms with laser-assisted dipole-dipole interactions ( http://arxiv.org/abs/2204.07086v2 )

ライセンス: Link先を確認
Tian-Hua Yang, Bao-Zong Wang, Xin-Chi Zhou, Xiong-Jun Liu(参考訳) 双極子-双極子相互作用を持つリドバーグ原子は、エキゾチックな量子多体物理学を探求する興味深いプラットフォームを提供する。 本稿では,レーザー支援双極子-双極子相互作用を用いた2次元アレー配置によるリドバーグ原子の合成磁場を実現する新しい手法を提案する。 外部有効ゼーマン分解勾配が存在する場合には、隣接するリドベルグ原子間の勾配方向の双極子-双極子相互作用が抑制されるが、ラマン光を照射してエネルギー差を補うことができる。 このスキームにより、複雑なスピン交換結合モデルのための制御可能な一様磁場を生成し、外部の合成磁場にハードコアボソン結合にマッピングすることができる。 硬質コアボソンの高チューニング可能な平坦チャーンバンドが得られ、さらに、ボゾン分数量子ホール状態は実験的に実現可能である。 この研究は、Rydberg原子を用いた高sought-after-bosonic topological orderの実現への道を開く。

Rydberg atoms with dipole-dipole interactions provide intriguing platforms to explore exotic quantum many-body physics. Here we propose a novel scheme with laser-assisted dipole-dipole interactions to realize synthetic magnetic field for Rydberg atoms in a two-dimensional array configuration, which gives rise to the exotic bosonic topological states. In the presence of an external effective Zeeman splitting gradient, the dipole-dipole interaction between neighboring Rydberg atoms along the gradient direction is suppressed, but can be assisted when Raman lights are applied to compensate the energy difference. With this scheme we generate a controllable uniform magnetic field for the complex spin-exchange coupling model, which can be mapped to hard core bosons coupling to an external synthetic magnetic field. The highly tunable flat Chern bands of the hard core bosons are then obtained and moreover, the bosonic fractional quantum Hall states can be achieved with experimental feasibility. This work opens an avenue for the realization of the highly-sought-after bosonic topological orders using Rydberg atoms.
翻訳日:2023-02-17 00:09:12 公開日:2022-04-27
# クロック量子ビット磁気分子対の電気的2量子ビットゲート

Electrical two-qubit gates within a pair of clock-qubit magnetic molecules ( http://arxiv.org/abs/2204.09592v2 )

ライセンス: Link先を確認
Aman Ullah, Ziqi Hu, Jesus Cerd\'a, Juan Arag\'o, Alejandro Gaita-Ari\~no(参考訳) how$_{10}$分子スピン量子ビットにおけるコヒーレンス強化は、クロック遷移(cts)を用いて証明されている。 最近では、CTの操作中に、2種類の同一だが反転関連分子を含む結晶内で、特定の方向を指しているHoW$_{10}$分子に電場を選択的に対応させることが示されている。 ここでは、2つの近傍のCTで保護されたHoW$_{10}$ qubitsの量子ゲートを希薄結晶内で絡み合わせるために電場を用いることの可能性について理論的に検討する。 我々は、T_1$,$T_2$の熱的進化を見積もって、CTはフォノンの観点からも最適な操作点であり、スピンバスとフォノンバスデコヒーレンスの両方から保護される2キュービットの操作空間内でコヒーレント制御を実現するために、マイクロ波と電界のパルス列を組み合わせる方法を示す。 最後に、2つのクロック分子間の相互作用から生じる高度に保護された1量子ビットのサブスペースを見出した。

Enhanced coherence in HoW$_{10}$ molecular spin qubits has been demonstrated by use of Clock Transitions (CTs). More recently it was shown that, while operating at the CTs, it was possible to use an electrical field to selectively address HoW$_{10}$ molecules pointing in a given direction, within a crystal that contains two kinds of identical but inversion-related molecules. Herein we theoretically explore the possibility of employing the electric field to effect entangling two-qubit quantum gates among two neighbouring CT-protected HoW$_{10}$ qubits within a diluted crystal. We estimate the thermal evolution of $T_1$, $T_2$, find that CTs are also optimal operating points from the point of view of phonons, and lay out how to combine a sequence of microwave and electric field pulses to achieve coherent control within a 2-qubit operating space that is protected both from spin-bath and from phonon-bath decoherence. Finally, we found a highly protected 1-qubit subspace resulting from the interaction between two clock molecules.
翻訳日:2023-02-16 06:12:50 公開日:2022-04-27
# 量子カオスとH\'enon-Heilesモデル:ジャッキー・ケルマン関数を用いたディラックの変分アプローチ

Quantum chaos and H\'enon-Heiles model: Dirac's variational approach with Jackiw-Kerman function ( http://arxiv.org/abs/2204.11330v2 )

ライセンス: Link先を確認
C.-L. Ho, C.-I. Chou(参考訳) 単純半古典的 H'enon-Heiles モデルはディラックの時間依存変分原理に基づいて構成される。 実効的な半古典的ハミルトニアンは、ジャッキー・ケルマン形式のHatree型2体トライアル波動関数を用いて得られる。 数値的な結果は、量子効果が古典的H\'enon-Heilesモデルの非カオス領域のカオスを実際に引き起こせることを示している。

A simple semiclassical H\'enon-Heiles model is constructed based on Dirac's time-dependent variational principle. We obtain an effective semiclassical Hamiltonian using a Hatree-type two-body trial wavefunction in the Jackiw-Kerman form. Numerical results show that quantum effects can in fact induce chaos in the non-chaotic regions of the classical H\'enon-Heiles model.
翻訳日:2023-02-15 20:16:08 公開日:2022-04-27
# オーディオ帯域における量子光マイクロホン

A Quantum Optical Microphone in the Audio Band ( http://arxiv.org/abs/2204.12429v2 )

ライセンス: Link先を確認
Raphael Nold, Charles Babin, Joel Schmidt, Tobias Linkewitz, Mar\'ia T. P\'erez Zaballos, Rainer St\"ohr, Roman Kolesov, Vadim Vorobyov, Daniil M. Lukin, R\"udiger Boppert, Stefanie Barz, Jelena Vu\v{c}kovi\'c, Christof M. Gebhardt, Florian Kaiser, J\"org Wrachtrup(参考訳) 高精度な光学測定を行う能力は、科学と工学に最重要である。 レーザー干渉計は、ショットノイズによって最終的に制限された精度で相互作用のないセンシングを可能にする。 量子光学センサはこの限界を超えることができるが、単光または多光子のスキームは実験的なサンプリングレートが低いため、圧縮光のアプローチは複雑な光学セットアップと洗練された時間ゲーティングを必要とする。 本稿では、測定精度の量子長所を維持しつつ、標準強度測定による光位相シフトを推定する簡易な方法を提案する。 この装置のロバスト性と高いサンプリング率を生かして,量子光マイクロホンを音声帯域に実装した。 その性能は、45人の被験者で標準化された音声認識テストにおいて、古典的なレーザーマイクロホンに対してベンチマークされる。 量子記録された単語は、音声認識閾値を$-0.57\, \text{dB}_{\text{SPL}}$で改善し、量子アドバンテージを可聴化する。 これらの結果は、量子非線形干渉法における応用への扉を開くだけでなく、量子現象が人間によって経験されることも示している。

The ability to perform high-precision optical measurements is paramount to science and engineering. Laser interferometry enables interaction-free sensing with a precision ultimately limited by shot noise. Quantum optical sensors can surpass this limit, but single- or multi-photon schemes are challenged by low experimental sampling rates, while squeezed-light approaches require complex optical setups and sophisticated time gating. Here, we introduce a simple method that infers optical phase shifts through standard intensity measurements while still maintaining the quantum advantage in the measurement precision. Capitalising on the robustness and high sampling rates of our device, we implement a quantum optical microphone in the audio band. Its performance is benchmarked against a classical laser microphone in a standardised medically-approved speech recognition test on 45 subjects. We find that quantum-recorded words improve the speech recognition threshold by $-0.57\, \text{dB}_{\text{SPL}}$, thus making the quantum advantage audible. Not only do these results open the door towards applications in quantum nonlinear interferometry, but they also show that quantum phenomena can be experienced by humans.
翻訳日:2023-02-15 11:56:27 公開日:2022-04-27
# 乱れた原子線における相互作用誘起運動端の観察

Observation of interaction-induced mobility edge in a disordered atomic wire ( http://arxiv.org/abs/2204.12730v1 )

ライセンス: Link先を確認
Yunfei Wang, Jia-Hui Zhang, Yuqing Li, Jizhou Wu, Wenliang Liu, Feng Mei, Ying Hu, Liantuan Xiao, Jie Ma, Cheng Chin, Suotang Jia(参考訳) 局所化と拡張励起を分離する臨界エネルギーであるモビリティエッジは、量子局在を理解するための重要な概念である。 量子ローカライゼーションのパラダイムである Aubry-Andr\'{e} (AA) モデルは、自然に自己双対性による移動エッジを許容しない。 cs原子の量子気体の運動量状態格子を用いて非線形aaモデルを合成し、相互作用によって引き起こされる移動性エッジの実験的な証拠を提供する。 異なるエネルギー固有状態の局所的な拡張遷移を同定することにより、移動-端相図を構築する。 低エネルギー領域や高エネルギー領域におけるモビリティエッジの位置は、反発的または魅力的な相互作用によって調整可能である。 我々の観察は理論とよく一致しており、一般化されたaaモデルによる相互作用誘起モビリティエッジの解釈を支持している。 我々の研究は、無秩序システムにおける量子輸送と位相遷移を工学する新しい可能性も提供する。

Mobility edge, a critical energy separating localized and extended excitations, is a key concept for understanding quantum localization. Aubry-Andr\'{e} (AA) model, a paradigm for exploring quantum localization, does not naturally allow mobility edges due to self-duality. Using the momentum-state lattice of quantum gas of Cs atoms to synthesize a nonlinear AA model, we provide experimental evidence for mobility edge induced by interactions. By identifying the extended-to-localized transition of different energy eigenstates, we construct a mobility-edge phase diagram. The location of mobility edge in the low- or high-energy region is tunable via repulsive or attractive interactions. Our observation is in good agreement with the theory, and supports an interpretation of such interaction-induced mobility edge via a generalized AA model. Our work also offers new possibilities to engineer quantum transport and phase transitions in disordered systems.
翻訳日:2023-02-15 09:25:51 公開日:2022-04-27
# より広い断面を有するナノリボンの連続体内および外部における境界状態:新しい再帰的S-行列法

Bound states in and out of the continuum in nanoribbons with wider sections: A novel recursive S-matrix method ( http://arxiv.org/abs/2204.12692v1 )

ライセンス: Link先を確認
Ricardo Y. D\'iaz and Carlos Ram\'irez(参考訳) 半無限鉛を含む一般強結合ハミルトニアンの有界状態を求める新しい手法を報告する。 本手法は再帰的S行列法に基づいており,そのサブシステムのS行列から一般システムのS行列を反復的に計算することができる。 本稿では,s行列のテイラー級数を用いることで,s行列のエネルギーとエネルギーの結合状態,すなわちこの関係を成すエネルギーを高い精度と効率で決定できる条件を定式化する。 この手法により、連続体の(BIC)および(BOC)における境界状態エネルギーと波動関数の発見が可能となる。 幅の広いナノリボンの結合状態は正方形とハニカム格子で計算される。 この方法を用いて、グラフェンナノリボンの2つの量子ドット状構造における結合状態の検証を行い、別の手法を用いてbicsを持つと報告されている。 しかし、この新しい解析により、これらのBICは二重であり、一方は偶数、もう一方は奇数波動関数を持ち、わずかに分離されたエネルギーを持つことが明らかとなった。 このようにして、新しいBICを効率よく発見し、以前報告したBICの精度を向上させるために、新しい手法を用いることができる。

We report a novel method to find bound states in general tight-binding Hamiltonians with semi-infinite leads. The method is based on the recursive S-matrix method, which allows us to compute iteratively the S-matrix of a general system in terms of the S-matrices of its subsystems. We establish the condition that the S-matrices of the subsystems must accomplish to have a bound state at energy E. Energies that accomplish this relation, can be determined with high accuracy and efficiency by using the Taylor series of the S-matrices. The method allows us to find bound states energies and wavefunctions in (BIC) and out (BOC) of the continuum, including degenerate ones. Bound states in nanoribbons with wider sections are computed for square and honeycomb lattices. Using this method, we verify the bound states in a graphene nanoribbon with two quantum-dot-like structures which has been reported to have BICs by using another technique. However, this new analysis reveals that such BICs are double, one with even and the other with odd wavefunction, with slightly separated energies. In this way, the new method can be used to efficiently find new BICs and to improve precision in previously reported ones.
翻訳日:2023-02-15 09:25:01 公開日:2022-04-27
# 量子輸送計算の性能向上:S-行列に基づく分割・対数法

Improved performance in quantum transport calculations: A divide-and-conquer method based on S-matrices ( http://arxiv.org/abs/2204.12689v1 )

ライセンス: Link先を確認
Mauricio J. Rodr\'iguez, Carlos Ram\'irez(参考訳) 本稿では,一般強結合構造の散乱行列を再帰的に求める分割・対数アルゴリズムを提案する。 散乱行列はランダウアーの公式を用いてメソスコピック系の輸送特性を直接計算することができる。 本手法は,正方形,三角形,ハニカム格子におけるアルゴリズムの性能を解析することにより,他の最先端再帰的および非再帰的手法と比較して著しく改善することを示す。

We propose a divide-and-conquer algorithm to find recursively the Scattering matrix of general tight-binding structures. The Scattering matrix allows a direct calculation of transport properties in mesoscopic systems by using the Landauer formula. The method is exact, and by analyzing the performance of the algorithm in square, triangular and honeycomb lattices, we show a significant improvement in comparison to other state-of-the-art recursive and non-recursive methods.
翻訳日:2023-02-15 09:24:38 公開日:2022-04-27
# ワニエにおける相関金属二粒子結合状態-スタークフラットバンド

Correlated metallic two-particle bound states in Wannier--Stark flatbands ( http://arxiv.org/abs/2204.12652v1 )

ライセンス: Link先を確認
Arindam Mallick, Alexei Andreanov, Sergej Flach(参考訳) 空間次元 $d \geq 2$ の単純なブラベイ格子上のタイト結合単粒子モデルは、直流電界に露出すると、ワニエ・スターク・フラットバンドの形成による輸送が完全に欠如する(phys)。 Rev. Res. 013174 (2021)] である。 単粒子状態は、指数関数よりも速く、因子的に局所化する。 ここでは, 局所化を部分的に持ち上げる粒子同士の相互作用を導入し, 直流磁場に垂直な方向に伝播する金属二粒子結合状態を得る。 この効果をハバード相互作用を持つ正方格子を用いて実証する。 相互作用の強さ(u)$ $\ll$ hopping strength $(t)$ $\ll$ field strength $(\mathcal{f})$ において摂動理論を適用し、場に垂直な方向における境界状態の群速度の推定値を得る。 2粒子群速度は$U {(t/\mathcal{F})}^\nu$としてスケールする。 我々は、指数$\nu$の直流磁場方向および非摂動フラットバンドの選択に関する支配的な2粒子構成への依存性を計算する。 数値シミュレーションにより摂動解析による予測が確認された。

Tight-binding single-particle models on simple Bravais lattices in space dimension $d \geq 2$, when exposed to commensurate DC fields, result in the complete absence of transport due to the formation of Wannier--Stark flatbands [Phys. Rev. Res. $\textbf{3}$, 013174 (2021)]. The single-particle states localize in a factorial manner, i.e., faster than exponential. Here, we introduce interaction among two such particles that partially lifts the localization and results in metallic two-particle bound states that propagate in the directions perpendicular to the DC field. We demonstrate this effect using a square lattice with Hubbard interaction. We apply perturbation theory in the regime of interaction strength $(U)$ $\ll$ hopping strength $(t)$ $\ll$ field strength $(\mathcal{F})$, and obtain estimates for the group velocity of the bound states in the direction perpendicular to the field. The two-particle group velocity scales as $U {(t/\mathcal{F})}^\nu$. We calculate the dependence of the exponent $\nu$ on the DC field direction and on the dominant two-particle configurations related to the choices of unperturbed flatbands. Numerical simulations confirm our predictions from the perturbative analysis.
翻訳日:2023-02-15 09:24:20 公開日:2022-04-27
# ニューラルネットワーク量子状態:システムレビュー

Neural-Network Quantum States: A Systematic Review ( http://arxiv.org/abs/2204.12966v1 )

ライセンス: Link先を確認
David R. Vivas, Javier Madro\~nero, Victor Bucheli, Luis O. G\'omez, John H. Reina(参考訳) いわゆる現代AI革命は、物理学を含む社会科学、人間科学、自然科学のあらゆる領域に到達した。 量子多体物理学の文脈において、機械学習との交わりは、多くの出版物から派生した近年のセミナル貢献の出現とともに、高い影響の学際的な研究分野を構成している。 そのような研究分野の特定の研究分野はいわゆるニューラルネットワーク量子状態(neural-network quantum states)であり、量子多体系の解に対する強力な変分計算方法論であり、確立された伝統的な形式主義と競合することが証明されている。 本稿では,ニューラルネットワーク量子状態に関する文献を体系的にレビューする。

The so-called contemporary AI revolution has reached every corner of the social, human and natural sciences -- physics included. In the context of quantum many-body physics, its intersection with machine learning has configured a high-impact interdisciplinary field of study; with the arise of recent seminal contributions that have derived in a large number of publications. One particular research line of such field of study is the so-called Neural-Network Quantum States, a powerful variational computational methodology for the solution of quantum many-body systems that has proven to compete with well-established, traditional formalisms. Here, a systematic review of literature regarding Neural-Network Quantum States is presented.
翻訳日:2023-02-15 09:19:31 公開日:2022-04-27
# 熱放射が物質中に放出されるときの光子リサイクルからの非相互放射率、部分コヒーレンス、および内部エネルギーの増幅

Non-reciprocal emissivity, partial coherence, and amplification of internal energy from photon recycling when thermal radiation is sourced within matter ( http://arxiv.org/abs/2204.12877v1 )

ライセンス: Link先を確認
Geoff B Smith, Angus R Gentle, Matthew D Arnold(参考訳) 有限温度で基底状態モードに励起される光子は、生成以来、光子相、寿命、距離の間で分割される。 これらの分布は、生成した光子の界面からの距離をある程度設定する。 各周波数での励起光子は、モード密度と内部エネルギー寄与を決定する各モード伝播指数によって設定された位相速度を持つ。 界面を斜めに打った後に放出される全ての光子は屈折する。 出口強度は、内部減衰が弱い場合を除いて不可逆である。 低温減衰指数は小さく、可逆性は近似的である。 温度が上がるにつれて屈折方向は変化する。 総放射は、他の熱入力のない非平衡状態に遷移した後も可逆的に留まる。 平衡では、光子を生成・消滅する励起密度は光子密度と平衡し、放射率は指数と内部入射方向の両方に依存する。 純水および結晶性シリカからのモデル出口強度は強い共鳴強度を含み、データを正確に一致させる。 液体や化合物の内部で形成される固有共鳴は、分子振動や格子歪みの非調和成分を含む局所励起と混成する光子モードに起因する。 彼らはリモートセンシングに見られる多くの共鳴スペクトル強度を説明する。 各ハイブリッド発振器は、モードエネルギーによって分離されたレベル間でエネルギーが変動するフォトニック仮想境界状態である。 屈折は固体の角度変化を誘発し、しばしば異常な屈折を引き起こすが、内部反射光子の熱リサイクルは強度と内部エネルギーを変化させる。 外部温度勾配下での光子密度勾配によるフォノン抵抗による内部熱流束の増大も予測される。

Photons excited into ground state modes at finite temperature display partitioning among photon phases, lifetimes and distances travelled since creation. These distributions set the distance from an interface a created photon has some chance of emission. Excited photons at each frequency have a phase velocity set by each mode propagation index which determines mode density and internal energy contribution. All photons emitted after striking an interface obliquely are refracted. Their exit intensities are then irreversible except when weak internal attenuation occurs. At low temperature attenuation index is small so reversibility is approximate. As temperature rises refraction direction varies. Total emission remains reversible after transitioning through a non equilibrium state with no other heat inputs. In equilibrium the densities of excitations that create and annihilate photons are in balance with photon densities while emissivity depends on both indices and internal incident direction. Modelled exit intensities from pure water and crystalline silica contain strong resonant intensities and match data accurately. Intrinsic resonances formed within liquids and compounds are due to photon modes hybridising with localized excitations, including molecular oscillations and the anharmonic component of lattice distortions. They explain the many resonant spectral intensities seen in remote sensing. Each hybrid oscillator is a photonic virtual bound state whose energy fluctuates between levels separated by mode energy. Refraction induces solid angle changes and often anomalous refraction while thermal recycling of internally reflected photons modifies intensities and internal energy. Enhanced internal heat flux from phonon drag by photon density gradients under an external temperature gradient is also predicted.
翻訳日:2023-02-15 09:19:08 公開日:2022-04-27
# コイン演算子の修正による量子ランダムウォーク探索アルゴリズムにおけるゲート数削減

Reducing number of gates in quantum random walk search algorithm via modification of coin operators ( http://arxiv.org/abs/2204.12858v1 )

ライセンス: Link先を確認
Hristo Tonchev and Petar Danev(参考訳) 本稿では,一般家庭内反射法と追加位相乗算器の両方でトラバースコインを構築する際に,量子ランダムウォーク探索アルゴリズムの回路を単純化する方法を検討する。 対応するパラメータ間の適切な関係が実現されると、このアルゴリズムは位相の偏差に対してより頑健になる。 この修正マーキング硬貨は不要であり、上記の最適化から安定性への利点はすべて保存されている。 より堅牢な量子アルゴリズムを得るために、そのようなウォークコインを構築する方法を明確に示している。

This paper examines a way to simplify the circuit of quantum random walk search algorithm, when the traversing coin is constructed by both generalized Householder reflection and an additional phase multiplier. If an appropriate relation between corresponding parameters is realized, our algorithm becomes more robust to deviations in the phases. In this modification marking coin is not needed, and all advantages from above mentioned optimization to the stability, are preserved. It is shown explicitly how to construct such walk coin in order to obtain more robust quantum algorithm.
翻訳日:2023-02-15 09:18:46 公開日:2022-04-27
# 忠実なコヒーレント状態

Faithful coherent states ( http://arxiv.org/abs/2204.12804v1 )

ライセンス: Link先を確認
Jun Li and Lin Chen(参考訳) 忠実なコヒーレント状態の概念を忠実なコヒーレンス証言に基づいて提案する。 忠実なコヒーレント状態を検出するための基準は、単一および二成分系のユニタリ変換の下で忠実性に基づく基準のサブクラスに制限することができる。 これらのユニタリ変換は量子ゲートと回路を用いて実現でき、忠実なコヒーレンス状態とコヒーレンス蒸留、コヒーレンスの最大相対エントロピーの接続を確立することができる。

We propose the notion of faithful coherent states based on the fidelity-based coherence witness. The criterion for detecting faithful coherent states can be restricted to a subclass of fidelity-based criterion under unitary transformations for single and bipartite systems. We can realize these unitary transformations by using quantum gates and circuits, and establish the connection of faithful coherence states and coherence distillation, maximum relative entropy of coherence.
翻訳日:2023-02-15 09:17:20 公開日:2022-04-27
# 最小時間量子制御と量子ブラヒストローネ方程式

Minimum-Time Quantum Control and the Quantum Brachistochrone Equation ( http://arxiv.org/abs/2204.12792v1 )

ライセンス: Link先を確認
Jing Yang and Adolfo del Campo(参考訳) 最小時間量子制御プロトコルは、量子ブラチストロン形式(Carlini, Hosoya, Koike, and Okudaira, Phys. Rev. Lett. 96, 06053, (2006)]から得られる。 そこで本研究では,境界条件が固定された変分法を暗黙的に適用した。 我々は、真の量子ブラキストローネ問題は、古典的なブラキストローネ問題とは対照的に、可動エンドポイントを持つ変分問題を含んでいると主張する。 この定式化は量子ブラヒストローンの方程式の導出を単純化するだけでなく、境界効果のためにエンドポイントで追加の制約を導入する。 完全量子ブラキストロン方程式の一般解を示し、その主な特徴について論じる。 これを用いることで,制約下における進化の速度が制約のない場合に比べて低下することを証明する。 さらに、量子ブラヒストローネ方程式の解法が、一般に非線形微分方程式によって支配されるラグランジュ乗算体の力学の解法と密接な関係にあることを見出した。 その数値積分により、時間-極端軌跡を生成することができる。 さらに、制限作用素が閉部分環を形成するとき、ラグランジュ乗数は定数となり、最適ハミルトニアンは簡潔な形式を取る。 量子ブラヒストローネ問題に対する解析的可解モデルの新たなクラスは、多体量子システムに適用する可能性を開き、量子速度制限のような幾何学に関連する概念を探求し、量子状態と量子情報処理のためのゲート準備を著しく前進させる。

Minimum-time quantum control protocols can be obtained from the quantum brachistochrone formalism [Carlini, Hosoya, Koike, and Okudaira, Phys. Rev. Lett. 96, 06053, (2006)]. We point out that the original treatment implicitly applied the variational calculus with fixed boundary conditions. We argue that the genuine quantum brachistochrone problem involves a variational problem with a movable endpoint, contrary to the classical brachistochrone problem. This formulation not only simplifies the derivation of the quantum brachistochrone equation but introduces an additional constraint at the endpoint due to the boundary effect. We present the general solution to the full quantum brachistochrone equation and discuss its main features. Using it, we prove that the speed of evolution under constraints is reduced with respect to the unrestricted case. In addition, we find that solving the quantum brachistochrone equation is closely connected to solving the dynamics of the Lagrange multipliers, which is in general governed by nonlinear differential equations. Their numerical integration allows generating time-extremal trajectories. Furthermore, when the restricted operators form a closed subalgebra, the Lagrange multipliers become constant and the optimal Hamiltonian takes a concise form. The new class of analytically solvable models for the quantum brachistochrone problem opens up the possibility of applying it to many-body quantum systems, exploring notions related to geometry such as quantum speed limits, and advancing significantly the quantum state and gate preparation for quantum information processing.
翻訳日:2023-02-15 09:17:14 公開日:2022-04-27
# ニュートリノセンシングのためのマクロ物体の量子重ね合わせの要求

Requirements on Quantum Superpositions of Macro-Objects for Sensing Neutrinos ( http://arxiv.org/abs/2204.13095v1 )

ライセンス: Link先を確認
Eva Kilian, Marko Toro\v{s}, Frank F. Deppisch, Ruben Saakyan, Sougato Bose(参考訳) 弱相互作用する相対論的粒子の流れの検出器として、2つの空間分離された局所状態の量子重ね合わせにおけるマクロシステムについて検討した。 我々は、中性電流ニュートリノ核散乱による固体物体からのMeVスケールエネルギー散乱を伴うニュートリノの明示的な例を用いてこれを行う。 反ニュートリノ源を核分裂炉と仮定し、推定フラックスとコヒーレントな弾性ニュートリノ-核核断面積を利用して空間分離 ${\delta}$x を制約し、センシングシステムの時間的発展を記述する。 特に、十分な冷却と背景抑制の下で10^{-14}$mで分離された空間成分の重ね合わせに置かれた単一のグラムスケールの質量に対して、量子重ね合わせ成分間の潜在的測定可能な相対位相を求める。

We examine a macroscopic system in a quantum superposition of two spatially separated localized states as a detector for a stream of weakly interacting relativistic particles. We do this using the explicit example of neutrinos with MeV-scale energy scattering from a solid object via neutral-current neutrino-nucleus scattering. Presuming the (anti-)neutrino source to be a nuclear fission reactor, we utilize the estimated flux and coherent elastic neutrino-nucleus cross section to constrain the spatial separation ${\Delta}$x and describe the temporal evolution of the sensing system. Particularly, we find that a potentially measurable relative phase between quantum superposed components is obtained for a single gram scale mass placed in a superposition of spatial components separated by $10^{-14}$m under sufficient cooling and background suppression.
翻訳日:2023-02-15 09:09:15 公開日:2022-04-27
# 空洞結合長寿命双極子における光位相測定のためのボソニック対生成とスクイージング

Bosonic pair production and squeezing for optical phase measurements in long-lived dipoles coupled to a cavity ( http://arxiv.org/abs/2204.13090v1 )

ライセンス: Link先を確認
Bhuvanesh Sundar, Diego Barberena, Asier Pineiro Orioli, Anjun Chu, James K. Thompson, Ana Maria Rey, Robert J. Lewis-Swan(参考訳) 非駆動光キャビティに結合した多層内部構造を持つ長寿命ダイポールの大きな配列を用いてボソニックペアの生成をシミュレートする。 共通のキャビティモードを介して仮想光子の交換によって生じる原子間の絡み合いは指数関数的に速くなり、有効ボソニック二次の2モードスクイージング(tms)によって記述される。 実効ボソニックモデルとダイポールの自然なスピン記述とのマッピングにより、電子状態の直接的大域回転と集団測定により光学ホモダイン測定の類似性を実現することができ、これを光位相(2アンサンブル間の共通および微分)の量子的検出に利用することを提案する。 sr原子に基づく特定の実装について検討し、このセンシングプロトコルがキャビティプラットフォーム固有のデコヒーレンス源に対して堅牢であることを示す。 提案手法は, 原子系における連続的な可変絡み合いの観測と, 次世代光原子時計への応用のためのユニークな機会を開くことができる。

We propose to simulate bosonic pair creation using large arrays of long-lived dipoles with multilevel internal structure coupled to an undriven optical cavity. Entanglement between the atoms, generated by the exchange of virtual photons through a common cavity mode, grows exponentially fast and is described by two-mode squeezing (TMS) of effective bosonic quadratures. The mapping between an effective bosonic model and the natural spin description of the dipoles allows us to realize the analog of optical homodyne measurements via straightforward global rotations and population measurements of the electronic states, and we propose to exploit this for quantum-enhanced sensing of an optical phase (common and differential between two ensembles). We discuss a specific implementation based on Sr atoms and show that our sensing protocol is robust to sources of decoherence intrinsic to cavity platforms. Our proposal can open unique opportunities for the observation of continuous variable entanglement in atomic systems and associated applications in next-generation optical atomic clocks.
翻訳日:2023-02-15 09:09:01 公開日:2022-04-27
# 動的昇降を伴うプロト・クイッパーの双集合強化カテゴリーモデル

A biset-enriched categorical model for Proto-Quipper with dynamic lifting ( http://arxiv.org/abs/2204.13039v1 )

ライセンス: Link先を確認
Peng Fu, Kohei Kishida, Neil J. Ross, Peter Selinger(参考訳) quipperとproto-quipperは、回路記述言語としての性質上、プログラムが回路を生成し、回路が実行される2つのランタイムを含む量子プログラミング言語のファミリーである。 したがって、この言語は、回路生成時に知られているパラメータと、回路実行時に知られている状態の2つの種類のデータを区別する。 回路の次の部分の発生を制御するためには、測定結果が望ましい場合もある。 したがって、言語は測定結果などの状態をパラメータに変える必要があり、これは動的リフトと呼ばれる操作である。 本稿の目的は、我々が"bisets"と呼ぶ一般的なカテゴリ構造を提供することによって、ランタイム間の相互作用をモデル化することである。 ビセットエンリッチ構造は、2つのランタイムとそれらのインタラクションの適切なセマンティクスを実現し、動的浮揚を伴うproto-quipperの変種をモデル化することを示す。 本稿では,この言語の具体的な分類的意味論を取り上げ,その一方で,構文,型システム,操作的意味論,抽象的分類的意味論を扱う。

Quipper and Proto-Quipper are a family of quantum programming languages that, by their nature as circuit description languages, involve two runtimes: one at which the program generates a circuit and one at which the circuit is executed, normally with probabilistic results due to measurements. Accordingly, the language distinguishes two kinds of data: parameters, which are known at circuit generation time, and states, which are known at circuit execution time. Sometimes, it is desirable for the results of measurements to control the generation of the next part of the circuit. Therefore, the language needs to turn states, such as measurement outcomes, into parameters, an operation we call dynamic lifting. The goal of this paper is to model this interaction between the runtimes by providing a general categorical structure enriched in what we call "bisets". We demonstrate that the biset-enriched structure achieves a proper semantics of the two runtimes and their interaction, by showing that it models a variant of Proto-Quipper with dynamic lifting. The present paper deals with the concrete categorical semantics of this language, whereas a companion paper [FKRS2022a] deals with the syntax, type system, operational semantics, and abstract categorical semantics.
翻訳日:2023-02-15 09:08:24 公開日:2022-04-27
# 量子マッピングと設計

Quantum mappings and designs ( http://arxiv.org/abs/2204.13008v1 )

ライセンス: Link先を確認
Grzegorz Rajchel-Mieldzio\'c(参考訳) 計算に量子デバイスを使うためには,理論記述の複雑さを理解する必要がある。 この目的のために、マッピングと設計の観点から量子力学の理解に有用ないくつかの新しい構成を提供する。 古典的領域と量子領域に関連する一様性問題は、例えば次元 4 のすべての行列に対して、特定のケースで解決される。 さらに,多成分の場合の力の絡み合いに関する明示的な公式も提供する。 最も重要なのは、この論文は4つのサブシステムの極端に絡み合った状態が、それぞれ6つのレベルで完全に構築される道を示し、詳しく説明していることだ。 最後に、量子ラテン四角形と量子スドク(sudoq)の「量子性」の尺度として濃度の研究を行う。 最高濃度の配列は、特殊特性の量子測定の族を与える。 SudoQ設計と相互に偏りのないベースとの関係が示されている。

In order to use quantum devices for computations, it is necessary to understand the intricacies of the theoretical description. To this end, we provide several novel constructions useful for the comprehension of quantum mechanics from the perspective of mappings and designs. The unistochasticity problem, which relates the classical and the quantum domain, is solved in specific cases, e.g. for all matrices of dimension 4. Furthermore, we provide an explicit formula for entangling power in the multipartite case. Most importantly, the thesis presents and elaborates on the path that lead to the recent construction of absolutely maximally entangled state of four subsystems six levels each. Finally, we study cardinality as a measure of "quantumness" of quantum Latin squares and quantum Sudoku (SudoQ). Arrays of the highest cardinality yield families of quantum measurements of special properties. A connection between SudoQ designs and mutually unbiased bases is demonstrated.
翻訳日:2023-02-15 09:07:36 公開日:2022-04-27
# 量子チャネルの半群に対する吸収と不動点

Absorption and Fixed Points for Semigroups of Quantum Channels ( http://arxiv.org/abs/2204.12987v1 )

ライセンス: Link先を確認
Federico Girotti(参考訳) 本稿では,量子チャネルの半群の不動点に関するいくつかの結果をレビューし,精査する。 Noncommutative potential theory enables us to show that the set of fixed points of a recurrent semigroup is a W*-algebra; aside from the intrinsic interest of this result, it brings an improvement in the study of fixed points by means of absorption operators (a noncommutative generalization of absorption probabilities): under the assumption of absorbing recurrent space (hence allowing non-trivial transient space) we can provide a description of the fixed points set and a probabilistic characterization of when it is a W*-algebra in terms of absorption operators. さらに、ヒルベルト空間の直交極小不変領域への分解を許さない再帰半群の例を示すことができる(古典マルコフ連鎖や量子チャネルの正再帰半群の場合と相反する)。

In the present work we review and refine some results about fixed points of semigroups of quantum channels. Noncommutative potential theory enables us to show that the set of fixed points of a recurrent semigroup is a W*-algebra; aside from the intrinsic interest of this result, it brings an improvement in the study of fixed points by means of absorption operators (a noncommutative generalization of absorption probabilities): under the assumption of absorbing recurrent space (hence allowing non-trivial transient space) we can provide a description of the fixed points set and a probabilistic characterization of when it is a W*-algebra in terms of absorption operators. Moreover we are able to exhibit an example of a recurrent semigroup which does not admit a decomposition of the Hilbert space into orthogonal minimal invariant domains (contrarily to the case of classical Markov chains and positive recurrent semigroups of quantum channels).
翻訳日:2023-02-15 09:07:24 公開日:2022-04-27
# 時間分割多重アクセスプロトコルのオンライン分散進化最適化

Online Distributed Evolutionary Optimization of Time Division Multiple Access Protocols ( http://arxiv.org/abs/2204.13190v1 )

ライセンス: Link先を確認
Anil Yaman, Tim van der Lee, Giovanni Iacca(参考訳) 安価で小型の電子回路が登場し、ユビキタスネットワーキングは前例のないほど複雑でスケール性があり、スマート産業やスマートビルディング、スマートシティといった現代的なアプリケーションの中核となっている。 ネットワーク性能の重要な要素はプロトコルスタックであり、ネットワーク内のノードがどのように情報を交換するかを決定する一連のルールとデータ形式である。 システム仕様とネットワーク環境の厳密な仮定から始まり、ネットワークプロトコルを(オフラインで)合成するための正式なテクニックを考案する努力が続けられている。 しかし、オフライン設計は、数値的な複雑さによって、あるいは環境が未知であり、仕様が利用できないという事実のために、最新のネットワークアプリケーションに適用することは困難である。 このような場合、オンラインプロトコルの設計と適応は、よりスケーラブルで堅牢なソリューションを提供する可能性がある。 それにもかかわらず、今のところオンラインの自動プロトコル設計に向けた試みはわずかである。 本稿では,ネットワークプロトコルを創発的特性として想定する。ネットワークプロトコルは,ネットワークプロトコルをスクラッチから構築し,ノードローカル強化信号を用いて,実行時,実行時に,実行時に進化させる環境駆動分散ヒルクライミングアルゴリズムによって実現される。 我々は,3状態時間分割多重アクセス (tdma) 媒体アクセス制御 (mac) プロトコルを用いてこのアプローチをテストし,様々なスケールのネットワークや様々な設定でその出現を観察した。 また,エネルギー消費とプロトコル性能の観点から,分散ヒルクライミングが異なるトレードオフに達する可能性を示す。

With the advent of cheap, miniaturized electronics, ubiquitous networking has reached an unprecedented level of complexity, scale and heterogeneity, becoming the core of several modern applications such as smart industry, smart buildings and smart cities. A crucial element for network performance is the protocol stack, namely the sets of rules and data formats that determine how the nodes in the network exchange information. A great effort has been put to devise formal techniques to synthesize (offline) network protocols, starting from system specifications and strict assumptions on the network environment. However, offline design can be hard to apply in the most modern network applications, either due to numerical complexity, or to the fact that the environment might be unknown and the specifications might not available. In these cases, online protocol design and adaptation has the potential to offer a much more scalable and robust solution. Nevertheless, so far only a few attempts have been done towards online automatic protocol design. Here, we envision a protocol as an emergent property of a network, obtained by an environment-driven Distributed Hill Climbing algorithm that uses node-local reinforcement signals to evolve, at runtime and without any central coordination, a network protocol from scratch. We test this approach with a 3-state Time Division Multiple Access (TDMA) Medium Access Control (MAC) protocol and we observe its emergence in networks of various scales and with various settings. We also show how Distributed Hill Climbing can reach different trade-offs in terms of energy consumption and protocol performance.
翻訳日:2023-02-15 09:01:20 公開日:2022-04-27
# 量子計算のための可分符号

Divisible Codes for Quantum Computation ( http://arxiv.org/abs/2204.13176v1 )

ライセンス: Link先を確認
Jingzhen Hu, Qingzhong Liang, Robert Calderbank(参考訳) 可除符号は、符号語重みが1より大きい共通の因子を共有する性質によって定義される。 これらは通信やセンシングのための信号の設計に使われており、論理ゲートによって変換される量子情報を保護するためにどのように使用されるのかを考察する。 CSS コード $\mathcal{C}$ が与えられた場合、この条件は、逆対角演算子 $U_Z$ が $\mathcal{C}$ を保存し、$U_L$ を誘導するのに必要で十分である。 CSSコード内の$Z$-stabilizersのグループ$\mathcal{C}$は、古典的な$[n, k_1]$バイナリコード$\mathcal{C}_1$の双対によって決定され、$X$-stabilizersのグループは、$\mathcal{C}_1$に含まれる古典的な$[n, k_2]$バイナリコード$\mathcal{C}_2$によって決定される。 対角形物理演算子 $u_z$ が css コード $\mathcal{c}$ を修正するという要求は、$\mathcal{c}_2$ のコセットにおける重みの合同の制約をもたらす。 これらの制約は分別可能な符号に最適であり、2つまたは3つの重みを持つ古典符号の広範な文献を利用する機会を表している。 二次形式で定義される1次リードミュラー符号のコセットを用いてcss符号の新しいファミリーを構築する。 我々は、(ディクソン正規形式に基づく)コセットウェイト分布を導出する標準的な方法の簡単な代替手段を提供する。 最後に,Eastin-Knill理論を回避し,QECCが論理ゲートのみを通じて論理ゲートの普遍的集合を実装できないというアプローチを開発する。 基本的な考え方は、内部量子ビットに$N_1$、外部量子ビットに$N_2$の安定化符号を設計し、内部量子ビットにフォールトトレラントゲートの普遍的なセットを組み立てることである。

Divisible codes are defined by the property that codeword weights share a common divisor greater than one. They are used to design signals for communications and sensing, and this paper explores how they can be used to protect quantum information as it is transformed by logical gates. Given a CSS code $\mathcal{C}$, we derive conditions that are both necessary and sufficient for a transversal diagonal physical operator $U_Z$ to preserve $\mathcal{C}$ and induce $U_L$. The group of $Z$-stabilizers in a CSS code $\mathcal{C}$ is determined by the dual of a classical $[n, k_1]$ binary code $\mathcal{C}_1$, and the group of $X$-stabilizers is determined by a classical $[n, k_2]$ binary code $\mathcal{C}_2$ that is contained in $\mathcal{C}_1$. The requirement that a diagonal physical operator $U_Z$ fixes a CSS code $\mathcal{C}$ leads to constraints on the congruence of weights in cosets of $\mathcal{C}_2$. These constraints are a perfect fit to divisible codes, and represent an opportunity to take advantage of the extensive literature on classical codes with two or three weights. We construct new families of CSS codes using cosets of the first order Reed Muller code defined by quadratic forms. We provide a simple alternative to the standard method of deriving the coset weight distributions (based on Dickson normal form) that may be of independent interest. Finally, we develop an approach to circumventing the Eastin-Knill Theorem which states that no QECC can implement a universal set of logical gates through transversal gates alone. The essential idea is to design stabilizer codes in layers, with $N_1$ inner qubits and $N_2$ outer qubits, and to assemble a universal set of fault tolerant gates on the inner qubits.
翻訳日:2023-02-15 09:00:53 公開日:2022-04-27
# シリコン中のテレコム単一光子放射体のウェハスケールナノファブリケーション

Wafer-scale nanofabrication of telecom single-photon emitters in silicon ( http://arxiv.org/abs/2204.13173v1 )

ライセンス: Link先を確認
M. Hollenbach, N. Klingner, N. S. Jagtap, L. Bischoff, C. Fowley, U. Kentsch, G. Hlawacek, A. Erbe, N. V. Abrosimov, M. Helm, Y. Berenc\'en, G. V. Astakhov(参考訳) 数百万の量子ビットをスケールするための非常に有望な経路は、決定論的光子源、再構成可能な光学素子、単一光子検出器を同じシリコンチップ上にモノリシックに統合する量子フォトニック集積回路(PIC)を使用することである。 光通信OバンドにおけるG中心やW中心のような単一光子エミッタの分離は、近年シリコンで実現されている。 しかし、以前の全てのケースでは、単一光子エミッタはランダムな場所で制御不能に生成され、スケーラビリティが妨げられた。 本稿では,集束イオンビーム(fib)を用いたシリコンウェハ中の単一gおよびw中心の制御可能な生成を50%以上の確率で報告する。 また,ナノスケール上の所望の位置で単一通信エミッタを作製するために,相補的金属酸化物半導体(cmos)技術と互換性のあるスケーラブルな広ビーム注入プロトコルを実装した。 その結果,100nm以下の技術ノードを持つ工業用フォトニック量子プロセッサの明確かつ容易に利用可能な経路が解き放たれた。

A highly promising route to scale millions of qubits is to use quantum photonic integrated circuits (PICs), where deterministic photon sources, reconfigurable optical elements, and single-photon detectors are monolithically integrated on the same silicon chip. The isolation of single-photon emitters, such as the G centers and W centers, in the optical telecommunication O-band, has recently been realized in silicon. In all previous cases, however, single-photon emitters were created uncontrollably in random locations, preventing their scalability. Here, we report the controllable fabrication of single G and W centers in silicon wafers using focused ion beams (FIB) with a probability exceeding 50%. We also implement a scalable, broad-beam implantation protocol compatible with the complementary-metal-oxide-semiconductor (CMOS) technology to fabricate single telecom emitters at desired positions on the nanoscale. Our findings unlock a clear and easily exploitable pathway for industrial-scale photonic quantum processors with technology nodes below 100 nm.
翻訳日:2023-02-15 09:00:05 公開日:2022-04-27
# ForeSight: 適応型マルチCandidate評価によるNISQプログラムのSWAP削減

ForeSight: Reducing SWAPs in NISQ Programs via Adaptive Multi-Candidate Evaluations ( http://arxiv.org/abs/2204.13142v1 )

ライセンス: Link先を確認
Poulami Das, Suhas K. Vittal, Moinuddin Qureshi(参考訳) 短期量子コンピュータはノイズが多く、キュービット間の接続が限られている。 非隣接キュービット間で2量子ゲートを実行するためには、SWAP操作を導入する必要がある。 SWAPは、プログラムのゲートの数と深さを増やし、エラーに対してさらに脆弱になる。 さらに、プログラム内の将来のゲートに対するSWAP選択に影響を与えるキュービットをリロケーションする。 したがって、コンパイラは、現在の操作のオーバーヘッドを最小限に抑えるだけでなく、将来のゲートにもSWAPルートを選択する必要がある。 既存のコンパイラは、現在の操作で最少のSWAPを持つパスを選択する傾向があるが、選択したSWAP候補が将来のSWAPに与える影響は評価しない。 また、現在の運用のSWAP候補に収束して、将来のゲートのSWAP経路を決定するだけで、将来の運用のSWAP候補探索スペースを厳しく制限する。 提案するコンパイラであるForeSightは、複数のSWAP候補を同時に評価し、SWAP選択を遅延させ、将来のSWAP決定への影響を分析し、サブ最適候補に対する早期収束を回避する。 さらに、ForeSightは、将来のゲートのSWAPを削減できる可能性があれば、現在のオペレーションのSWAPルートを少し長めに評価し、プログラムのSWAPを世界規模で削減する。 コンパイルが進むにつれて、ForeSightはソリューション空間に新たなSWAP候補を動的に追加し、より弱い候補を排除する。 これにより、コンパイルの複雑さを抑えながら、プログラムレベルでSWAPオーバーヘッドを削減することができる。 3つのデバイスにまたがる100のベンチマークによる評価では、foresightは平均で17%、ベストケースで81%のスワップオーバーヘッドを、ベースラインと比較して削減しています。 ForeSightは数分かかり、大規模なプログラムにスケーラブルになる。

Near-term quantum computers are noisy and have limited connectivity between qubits. Compilers are required to introduce SWAP operations in order to perform two-qubit gates between non-adjacent qubits. SWAPs increase the number of gates and depth of programs, making them even more vulnerable to errors. Moreover, they relocate qubits which affect SWAP selections for future gates in a program. Thus, compilers must select SWAP routes that not only minimize the overheads for the current operation, but also for future gates. Existing compilers tend to select paths with the fewest SWAPs for the current operations, but do not evaluate the impact of the relocations from the selected SWAP candidate on future SWAPs. Also, they converge on SWAP candidates for the current operation and only then decide SWAP routes for future gates, thus severely restricting the SWAP candidate search space for future operations. We propose ForeSight, a compiler that simultaneously evaluates multiple SWAP candidates for several operations into the future, delays SWAP selections to analyze their impact on future SWAP decisions and avoids early convergence on sub-optimal candidates. Moreover, ForeSight evaluates slightly longer SWAP routes for current operations if they have the potential to reduce SWAPs for future gates, thus reducing SWAPs for the program globally. As compilation proceeds, ForeSight dynamically adds new SWAP candidates to the solution space and eliminates the weaker ones. This allows ForeSight to reduce SWAP overheads at program-level while keeping the compilation complexity tractable. Our evaluations with a hundred benchmarks across three devices show that ForeSight reduces SWAP overheads by 17% on average and 81% in the best-case, compared to the baseline. ForeSight takes minutes, making it scalable to large programs.
翻訳日:2023-02-15 08:59:38 公開日:2022-04-27
# 低ランク+スパース行列の圧縮センシング

Compressed sensing of low-rank plus sparse matrices ( http://arxiv.org/abs/2007.09457v2 )

ライセンス: Link先を確認
Jared Tanner and Simon Vary(参考訳) 低ランクマトリクスとスパースマトリクスの和としてマトリクスを表現することは、ロバストなpca(candes et al., 2011; chandrasekaran et al., 2009)として普及したデータのグローバルおよびローカルな特徴を捉える柔軟なモデルである。 圧縮センシング、行列補完、およびそれらの変種 (Eldar and Kutyniok, 2012; Foucart and Rauhut, 2013) は、低複雑性モデルを満たすデータは、周囲次元よりもモデル複雑さに比例した多くの測定値から効率的に測定および回収できることを確立した。 この写本は、ランク-$r$マトリクスと$s$-スパースマトリクスの和として表現できる$m\times n$行列が$\mathcal{o}(r(m+n-r)+s)\log(mn/s)$の線形測定から計算的に扱いやすい方法で復元できることを示す同様の保証を発達させる。 より具体的には、低ランク+スパース行列集合が閉であることは、低ランク成分の不整合が$\mu<\sqrt{mn}/(r\sqrt{s})$として上界であることから証明し、従って、上記の行列の制限等長定数は、問題のサイズから独立して、$p/mn$, $s/p$, $r(m+n-r)/p$ が固定される。 さらに, 半定値プログラミングと2つのハードしきい値勾配勾配アルゴリズム, NIHT, NAHTは, 測定演算子のRCCが十分に小さい場合, 測定行列に収束することを示した。 これらの結果はまた、ロバストなpcaの凸および非凸な定式化と、汚職の漸近的に最適な分数である$\alpha=\mathcal{o}\left(1/(\mu r) \right)$、ここでは$s = \alpha^2 mn$ が成立し、汚損の分数を$\alpha$ で上界することで各列と行に分散させることを必要とせず、既知の保証を改善することも証明できる。 これらの結果を示す数値実験により, 合成問題, 動的フォアグラウンド/静的バックグラウンド分離, マルチスペクトルイメージングが得られた。

Expressing a matrix as the sum of a low-rank matrix plus a sparse matrix is a flexible model capturing global and local features in data popularized as Robust PCA (Candes et al., 2011; Chandrasekaran et al., 2009). Compressed sensing, matrix completion, and their variants (Eldar and Kutyniok, 2012; Foucart and Rauhut, 2013) have established that data satisfying low complexity models can be efficiently measured and recovered from a number of measurements proportional to the model complexity rather than the ambient dimension. This manuscript develops similar guarantees showing that $m\times n$ matrices that can be expressed as the sum of a rank-$r$ matrix and a $s$-sparse matrix can be recovered by computationally tractable methods from $\mathcal{O}(r(m+n-r)+s)\log(mn/s)$ linear measurements. More specifically, we establish that the low-rank plus sparse matrix set is closed provided the incoherence of the low-rank component is upper bounded as $\mu<\sqrt{mn}/(r\sqrt{s})$, and subsequently, the restricted isometry constants for the aforementioned matrices remain bounded independent of problem size provided $p/mn$, $s/p$, and $r(m+n-r)/p$ remain fixed. Additionally, we show that semidefinite programming and two hard threshold gradient descent algorithms, NIHT and NAHT, converge to the measured matrix provided the measurement operator's RIC's are sufficiently small. These results also provably solve convex and non-convex formulation of Robust PCA with the asymptotically optimal fraction of corruptions $\alpha=\mathcal{O}\left(1/(\mu r) \right)$, where $s = \alpha^2 mn$, and improve the previously best known guarantees by not requiring that the fraction of corruptions is spread in every column and row by being upper bounded by $\alpha$. Numerical experiments illustrating these results are shown for synthetic problems, dynamic-foreground/static-background separation, and multispectral imaging.
翻訳日:2022-11-09 06:11:31 公開日:2022-04-27
# seqdialn:統合視覚言語表現空間におけるシーケンシャルビジュアルダイアログネットワーク

SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation Space ( http://arxiv.org/abs/2008.00397v2 )

ライセンス: Link先を確認
Liu Yang(参考訳) 本研究では,情報の流れとして視覚対話を定式化し,各情報を単一の対話ラウンドの視覚言語的共同表現で符号化する。 この定式化に基づき,視覚対話タスクを順序付き視覚言語ベクトルからなるシーケンス問題と考える。 実現のために,多モード特徴(画像とテキスト)を融合する軽量vison言語結合表現生成器として,高密度対称コアテンションネットワークを用いることにより,より優れた計算とデータ効率を実現する。 本稿では,2つの逐次ダイアログネットワーク (SeqDialN) を提案する。第1に情報伝達 (IP) にLSTM,第2に多段階推論 (MR) に改良型トランスフォーマを用いる。 我々のアーキテクチャは、マルチモーダルな特徴融合の複雑さと推論の複雑さを分離し、推論エンジンをシンプルに設計することができる。 IPベースのSeqDialNは、単純な2層LSTM設計で、優れたパフォーマンスを実現するベースラインです。 一方、MRベースのSeqDialNは、Transformerの自己アテンションスタックを通じて意味論/ヒストリー表現を繰り返し洗練し、ビジュアルダイアログタスクで有望な結果を生成する。 visdial v1.0 テスト-std データセットでは、最良の単一生成型 seqdialn は 62.54% ndcg と 48.63% の mrr を達成し、アンサンブル生成型 seqdialn は 63.78% ndcg と 49.98% のmrr を達成し、新しい最先端生成型ビジュアルダイアログモデルを設定した。 濃密なアノテーションで識別するSeqDialNを微調整し、72.41% NDCG と 55.11% MRR に性能を向上する。 本稿では,モデルコンポーネントの有効性を実証するために実施した広範囲な実験について論じる。 また、関連する会話ラウンドからの推論プロセスの可視化を行い、微調整手法について議論する。 私たちのコードはhttps://github.com/xiaoxiaoheimei/SeqDialNで利用可能です。

In this work, we formulate a visual dialog as an information flow in which each piece of information is encoded with the joint visual-linguistic representation of a single dialog round. Based on this formulation, we consider the visual dialog task as a sequence problem consisting of ordered visual-linguistic vectors. For featurization, we use a Dense Symmetric Co-Attention network as a lightweight vison-language joint representation generator to fuse multimodal features (i.e., image and text), yielding better computation and data efficiencies. For inference, we propose two Sequential Dialog Networks (SeqDialN): the first uses LSTM for information propagation (IP) and the second uses a modified Transformer for multi-step reasoning (MR). Our architecture separates the complexity of multimodal feature fusion from that of inference, which allows simpler design of the inference engine. IP based SeqDialN is our baseline with a simple 2-layer LSTM design that achieves decent performance. MR based SeqDialN, on the other hand, recurrently refines the semantic question/history representations through the self-attention stack of Transformer and produces promising results on the visual dialog task. On VisDial v1.0 test-std dataset, our best single generative SeqDialN achieves 62.54% NDCG and 48.63% MRR; our ensemble generative SeqDialN achieves 63.78% NDCG and 49.98% MRR, which set a new state-of-the-art generative visual dialog model. We fine-tune discriminative SeqDialN with dense annotations and boost the performance up to 72.41% NDCG and 55.11% MRR. In this work, we discuss the extensive experiments we have conducted to demonstrate the effectiveness of our model components. We also provide visualization for the reasoning process from the relevant conversation rounds and discuss our fine-tuning methods. Our code is available at https://github.com/xiaoxiaoheimei/SeqDialN
翻訳日:2022-11-03 19:21:04 公開日:2022-04-27
# (参考訳) RigoBERTa: スペイン語の最先端言語モデル

RigoBERTa: A State-of-the-Art Language Model For Spanish ( http://arxiv.org/abs/2205.10233v1 )

ライセンス: CC BY 4.0
Alejandro Vaca Serrano, Guillem Garcia Subies, Helena Montoro Zamorano, Nuria Aldama Garcia, Doaa Samy, David Betancur Sanchez, Antonio Moreno Sandoval, Marta Guerrero Nieto, Alvaro Barbero Jimenez(参考訳) 本稿では,スペイン語の言語モデルであるRigoBERTaについて述べる。 RigoBERTaは、重要な特徴を持つ異なるサブコーパスから形成された、よく訓練されたコーパスであるRigoCorpus上でトレーニングされている。 これはDeBERTaアーキテクチャに従っており、BERTやRoBERTaと同様の大きさの他のアーキテクチャよりもいくつかの利点がある。 RigoBERTaのパフォーマンスは、他の利用可能なスペイン語モデル、すなわちMaria、BERTIN、BETOと比較して13のNLUタスクで評価されている。 RigoBERTaは13タスク中10タスクで3つのモデルを上回っ、新しい"State-of-the-Art"結果を達成した。

This paper presents RigoBERTa, a State-of-the-Art Language Model for Spanish. RigoBERTa is trained over RigoCorpus, a well-curated corpus formed up from different subcorpora with key features. It follows the DeBERTa architecture, which has several advantages over other architectures of similar size as BERT or RoBERTa. RigoBERTa performance is assessed over 13 NLU tasks in comparison with other available Spanish language models, namely, MarIA, BERTIN and BETO. RigoBERTa outperformed the three models in 10 out of the 13 tasks, achieving new "State-of-the-Art" results.
翻訳日:2022-06-06 10:05:46 公開日:2022-04-27
# (参考訳) エクソスケルトン技術に対する世論・見解・展望の考察

An Approach to Investigate Public Opinion, Views, and Perspectives Towards Exoskeleton Technology ( http://arxiv.org/abs/2205.09151v1 )

ライセンス: CC BY 4.0
Nirmalya Thakur, Cat Luong, and Chia Y. Han(参考訳) 過去10年間、外骨格は、人間の能力、スタミナ、可能性、パフォーマンスを多種多様な方法で増強するため、生活支援、軍、医療、消防、産業など、様々な分野や応用分野に大きな影響を与えてきた。 この広範囲な応用性と応用の観点からは、人-ロボット、人間-機械、人間-テクノロジーの相互作用の有効性を解釈する上で有効なエクソスケトンに対する世論、見解、視点を調査・分析することが重要である。 今日のインターネット・オブ・エコノミーの時代は、インターネット上でこれまで以上に多くの時間を過ごす人々によって特徴づけられ、関連するウェブ行動、特にソーシャルメディアからのマイニングと分析によって、人々の意見、見解、トピックやトピックの集合に対する視点を理解することができる可能性を持っている。 そこで本稿は,現代のインターネット時代におけるweb行動に基づくビッグデータマイニングの可能性を活かして,外骨格に関するこの研究課題に取り組むことを目的としている。 twitterは、世界規模でもっとも人気のあるソーシャルメディアプラットフォームの1つであり、ユーザ数と、プラットフォーム上でユーザによって費やされる時間の両方によって特徴付けられる - この研究は、exoskeleton技術に対する世論、見解、観点を解釈するために、twitterのweb行動を調査することに焦点を当てたものだ。 提案手法の有効性を評価するために,エキソスケトンに関連する約20,000のツイートを用いた。 その結果, 提案手法の有効性を実証し, 関連するツイートから, 世論, 見解, 視点を解釈し, 分析する上での有効性について考察した。

Over the last decade, exoskeletons have had an extensive impact on different disciplines and application domains such as assisted living, military, healthcare, firefighting, and industries, on account of their diverse and dynamic functionalities to augment human abilities, stamina, potential, and performance in a multitude of ways. In view of this wide-scale applicability and use-cases of exoskeletons, it is crucial to investigate and analyze the public opinion, views, and perspectives towards exoskeletons which would help to interpret the effectiveness of the underlining human-robot, human-machine, and human-technology interactions. The Internet of Everything era of today's living, characterized by people spending more time on the internet than ever before, holds the potential for the investigation of the same by mining and analyzing relevant web behavior, specifically from social media, that can be interpreted to understand public opinion, views, and perspectives towards a topic or set of topics. Therefore, this paper aims to address this research challenge related to exoskeletons by utilizing the potential of web behavior-based Big Data mining in the modern-day Internet of Everything era. As Twitter is one of the most popular social media platforms on a global scale - characterized by both the number of users and the amount of time spent by its users on the platform - this work focused on investigating web behavior on Twitter to interpret the public opinion, views, and perspectives towards exoskeleton technology. A total of approximately 20,000 tweets related to exoskeletons were used to evaluate the effectiveness of the proposed approach. The results presented and discussed uphold the efficacy of the proposed approach to interpret and analyze the public opinion, views, and perspectives towards exoskeletons from the associated tweets.
翻訳日:2022-05-22 19:06:04 公開日:2022-04-27
# (参考訳) 重み付き順序分割ネットワークを用いた位相信号処理

Topological Signal Processing using the Weighted Ordinal Partition Network ( http://arxiv.org/abs/2205.08349v1 )

ライセンス: CC BY 4.0
Audun Myers, Firas A. Khasawneh, Elizabeth Munch(参考訳) 時系列解析で生じる最も重要な問題の1つは、分岐または変化点検出である。 つまり、異なるパラメータ上の時系列の集合が与えられたとき、基盤となる力学系の構造はいつ変わったのか? このタスクでは、データの形状や構造に関する情報を符号化するトポロジカルデータ解析(TDA)の分野に目を向ける。 トポロジカル信号処理(TSP)と呼ばれるTDAのツールを信号処理タスクに利用するという考えは、Takensの埋め込みによって生成される点雲の永続的ホモロジーを計算する標準パイプラインを通じて近年注目されている。 しかし、この手順は、このケースで生成された単純複体は大きいが、大量の冗長データを持つため、計算時間によって制限される。 そこで,本稿では,動的システムが状態空間の特定の領域間を通過した際の情報を表す順序分割ネットワーク (ordinal partition network,opn) を構築するアトラクタの構造を符号化する手法について述べる。 その結果、構造が基礎となるアトラクタに関する情報をエンコードする重み付きグラフとなる。 我々の以前の研究は、TDAに許容できる方法でOPNの情報をパッケージ化する方法を見つけ始めましたが、その作業はネットワーク構造のみを使用し、追加の重み付け情報をエンコードするものは何もありませんでした。 本稿では,重み付きOPNをTDAで解析するためのパイプラインを構築し,このフレームワークがシステム内のノイズや摂動に対してよりレジリエンスを提供し,動的状態検出の精度を向上させることを示す。

One of the most important problems arising in time series analysis is that of bifurcation, or change point detection. That is, given a collection of time series over a varying parameter, when has the structure of the underlying dynamical system changed? For this task, we turn to the field of topological data analysis (TDA), which encodes information about the shape and structure of data. The idea of utilizing tools from TDA for signal processing tasks, known as topological signal processing (TSP), has gained much attention in recent years, largely through a standard pipeline that computes the persistent homology of the point cloud generated by the Takens' embedding. However, this procedure is limited by computation time since the simplicial complex generated in this case is large, but also has a great deal of redundant data. For this reason, we turn to a more recent method for encoding the structure of the attractor, which constructs an ordinal partition network (OPN) representing information about when the dynamical system has passed between certain regions of state space. The result is a weighted graph whose structure encodes information about the underlying attractor. Our previous work began to find ways to package the information of the OPN in a manner that is amenable to TDA; however, that work only used the network structure and did nothing to encode the additional weighting information. In this paper, we take the next step: building a pipeline to analyze the weighted OPN with TDA and showing that this framework provides more resilience to noise or perturbations in the system and improves the accuracy of the dynamic state detection.
翻訳日:2022-05-22 18:53:14 公開日:2022-04-27
# 組込み型ニューラルセルオートマタ

Empowered Neural Cellular Automata ( http://arxiv.org/abs/2205.06771v1 )

ライセンス: Link先を確認
Caitlin Grasso and Josh Bongard(参考訳) 情報理論の適合関数は、一般的に有用なタスク非依存の振る舞いを生み出すために人気が高まっている。 エンパワーメントと呼ばれるそのような普遍的な機能の一つは、エージェントがその感覚運動器システムを通して環境に作用するコントロールの量を計測する。 具体的には、エンパワーメントはエージェントのアクションとその受信されたセンサ状態の間の相互情報を後日最大化しようとする。 伝統的に、エンパワーメントはロボットのような従来の感知器に応用されてきた。 そこで我々は,ニューラルセルオートマトン(NCA)を具現化した分散型マルチエージェント・センサモレータシステムへのアプローチを拡張した。 形態形成, 成長, 維持を行うため, NCAの進化における二次的な目的としてのエンパワーメントの追加は, 形態形成単独の進化よりも高い適合性をもたらすことを示した。 その結果,形態形成とエンパワーメントには相乗的関係がある可能性が示唆された。 すなわち、開発期間中に隣接する細胞間の協調を間接的に選択することは、発達過程自体に有益である。 このような発見は、単一細胞から多細胞標的形態への成長の間、細胞間のコミュニケーションの潜在的メカニズムを提供することによって、発達生物学に応用することができる。 実験のソースコードは、以下のとおりである。

Information-theoretic fitness functions are becoming increasingly popular to produce generally useful, task-independent behaviors. One such universal function, dubbed empowerment, measures the amount of control an agent exerts on its environment via its sensorimotor system. Specifically, empowerment attempts to maximize the mutual information between an agent's actions and its received sensor states at a later point in time. Traditionally, empowerment has been applied to a conventional sensorimotor apparatus, such as a robot. Here, we expand the approach to a distributed, multi-agent sensorimotor system embodied by a neural cellular automaton (NCA). We show that the addition of empowerment as a secondary objective in the evolution of NCA to perform the task of morphogenesis, growing and maintaining a pre-specified shape, results in higher fitness compared to evolving for morphogenesis alone. Results suggest there may be a synergistic relationship between morphogenesis and empowerment. That is, indirectly selecting for coordination between neighboring cells over the duration of development is beneficial to the developmental process itself. Such a finding may have applications in developmental biology by providing potential mechanisms of communication between cells during growth from a single cell to a multicellular, target morphology. Source code for the experiments in this paper can be found at: \url{https://github.com/caitlingrasso/empowered-nca}.
翻訳日:2022-05-22 12:15:51 公開日:2022-04-27
# (参考訳) 未知のエージェント選好による漁業市場のオンライン学習

Online Learning in Fisher Markets with Unknown Agent Preferences ( http://arxiv.org/abs/2205.00825v1 )

ライセンス: CC BY 4.0
Devansh Jalota and Yinyu Ye(参考訳) フィッシャー市場では、エージェント(利用者)は公共事業を最大化する商品を購入するために(人工的な)通貨の予算を使い、生産者は市場がクリアするような容量制限のある商品に価格を設定する。 そのような市場の均衡価格は通常、ユーザの好みを中央集権的な社会福祉目標に集約する凸プログラム(例えばアイゼンバーグ=ゲールプログラム)の解によって計算される。 しかしながら、凸プログラムを用いた平衡価格の計算は、全てのユーザが同時に存在し、各ユーザの予算とユーティリティ機能に関する完全な情報に依存する静的市場において、すべてのトランザクションが発生することを前提としている。 実際に,利用者のユーティリティや予算に関する情報が不明であり,市場投入の時間が経つにつれて利用者が到着する傾向にあるため,利用者が順次市場に参入するフィッシャー市場のオンライン版について検討する。 我々は、ユーザがプライベートに知られているユーティリティと予算パラメータを持つ線形ユーティリティを分散$\mathcal{d}$から描画する設定にフォーカスする。 この設定では,ユーザプライバシを保ちつつ,o(\sqrt{n})$の後悔とキャパシティ違反を実現した,シンプルかつ効果的な価格設定アルゴリズムを開発し,そこでは,n$は到着するユーザ数と商品の容量をo(n)$とする。 ここでは,オンラインアロケーションポリシとオフライン託宣の目標であるEisenberg-Galeプログラムの最適性ギャップを,ユーザの予算とユーティリティに関する完全な情報で表現する。 提案手法の有効性を確立するために,期待均衡価格を分布上の完全情報で設定したアルゴリズムでさえ,$\Omega(\sqrt{n})$よりもよい後悔と制約違反を達成できないことを示す。 最後に,いくつかのベンチマークに対して,提案手法の性能を示す数値実験を行った。

In a Fisher market, agents (users) spend a budget of (artificial) currency to buy goods that maximize their utilities, and producers set prices on capacity-constrained goods such that the market clears. The equilibrium prices in such a market are typically computed through the solution of a convex program, e.g., the Eisenberg-Gale program, that aggregates users' preferences into a centralized social welfare objective. However, the computation of equilibrium prices using convex programs assumes that all transactions happen in a static market wherein all users are present simultaneously and relies on complete information on each user's budget and utility function. Since, in practice, information on users' utilities and budgets is unknown and users tend to arrive over time in the market, we study an online variant of Fisher markets, wherein users enter the market sequentially. We focus on the setting where users have linear utilities with privately known utility and budget parameters drawn i.i.d. from a distribution $\mathcal{D}$. In this setting, we develop a simple yet effective algorithm to set prices that preserves user privacy while achieving a regret and capacity violation of $O(\sqrt{n})$, where $n$ is the number of arriving users and the capacities of the goods scale as $O(n)$. Here, our regret measure represents the optimality gap in the objective of the Eisenberg-Gale program between the online allocation policy and that of an offline oracle with complete information on users' budgets and utilities. To establish the efficacy of our approach, we show that even an algorithm that sets expected equilibrium prices with perfect information on the distribution $\mathcal{D}$ cannot achieve both a regret and constraint violation of better than $\Omega(\sqrt{n})$. Finally, we present numerical experiments to demonstrate the performance of our approach relative to several benchmarks.
翻訳日:2022-05-09 00:45:47 公開日:2022-04-27
# スマートアンテナを用いた無線LANセンシング

Wireless LAN sensing with smart antennas ( http://arxiv.org/abs/2205.00973v1 )

ライセンス: Link先を確認
Marco Santoboni, Riccardo Bersan, Stefano Savazzi, Alberto Zecchin, Vittorio Rampa Daniele Piazza(参考訳) 本稿では,パターン再構成可能なアンテナを内蔵した無線ローカルエリアネットワークデバイス(wi-fi)を用いた動作検出問題を対象としている。 モーションセンシングは、ビームステアリング技術をサポートするスマートアンテナから発生した周囲WiFi信号の身体による変化を監視し、アンテナ放射パターンを予め定義された場所へチャネル化することで得られる。 まず、信号とチャネル状態情報(CSI)処理と衛生について論じる。 次に、アングル・オブ・アーリバル(AoA)モニタリングに基づく動き検出アルゴリズムについて述べる。 提案アルゴリズムは大規模スマートホーム環境内で実験的に検証される。

The paper targets the problem of human motion detection using Wireless Local Area Network devices (WiFi) equipped with pattern reconfigurable antennas. Motion sensing is obtained by monitoring the body-induced alterations of the ambient WiFi signals originated from smart antennas supporting the beam-steering technology, thus allowing to channelize the antenna radiation pattern to pre-defined spots of interest. We first discuss signal and Channel State Information (CSI) processing and sanitization. Next, we describe the motion detection algorithm based on Angle-of-Arrival (AoA) monitoring. Proposed algorithms are validated experimentally inside a large size smart home environment.
翻訳日:2022-05-08 23:37:35 公開日:2022-04-27
# (参考訳) Buchwald-Hartwig と Suzuki-Miyaura 反応収率予測のためのマルチモーダルトランスモデル

Multimodal Transformer-based Model for Buchwald-Hartwig and Suzuki-Miyaura Reaction Yield Prediction ( http://arxiv.org/abs/2204.14062v1 )

ライセンス: CC BY 4.0
Shimaa Baraka and Ahmed M. El Kerdawy(参考訳) 化学反応の収率を予測することは、高い収率の反応に優先順位を与えることにより湿式実験を減らすなど、多くの面で有用である。 本研究では, 化学反応収率の予測に多型入力を用いたことを検討した。 簡単な分子インプット線入力システム (SMILES) と計算化学記述子をモデル入力として使用した。 このモデルは、事前訓練された双方向トランスフォーマーベースのエンコーダ(BERT)と、回帰ヘッドを備えた多層パーセプトロン(MLP)から構成され、収量を予測する。 Buchwald-Hartwig と Suzuki-Miyaura の2つの高スループット実験データセットを実験した。 実験では、SMILESや化学記述子のみを入力として使用するシステムと比較して、両方のデータセットの予測が改善された。 また、Buchwald-Hartwigのサンプル外のデータセット分割でモデルのパフォーマンスをテストし、最先端技術で同等の結果を得た。 収率の予測に加えて,モデルが最適(最大収率)反応条件を示唆する能力を示した。 このモデルでは、最適収率の94%を達成する条件を示唆することができた。 これは、このモデルが高価な実験なしでウェットラボで最高の結果を得るのに役立つことを証明している。

Predicting the yield percentage of a chemical reaction is useful in many aspects such as reducing wet-lab experimentation by giving the priority to the reactions with a high predicted yield. In this work we investigated the use of multiple type inputs to predict chemical reaction yield. We used simplified molecular-input line-entry system (SMILES) as well as calculated chemical descriptors as model inputs. The model consists of a pre-trained bidirectional transformer-based encoder (BERT) and a multi-layer perceptron (MLP) with a regression head to predict the yield. We experimented on two high throughput experimentation (HTE) datasets for Buchwald-Hartwig and Suzuki-Miyaura reactions. The experiments show improvements in the prediction on both datasets compared to systems using only SMILES or chemical descriptors as input. We also tested the model's performance on out-of-sample dataset splits of Buchwald-Hartwig and achieved comparable results with the state-of-the-art. In addition to predicting the yield, we demonstrated the model's ability to suggest the optimum (highest yield) reaction conditions. The model was able to suggest conditions that achieves 94% of the optimum reported yields. This proves the model to be useful in achieving the best results in the wet lab without expensive experimentation.
翻訳日:2022-05-03 10:28:57 公開日:2022-04-27
# (参考訳) チャネルプルーニング型yolov5-based deep learningアプローチによる屋外障害物の迅速・高精度検出

Channel Pruned YOLOv5-based Deep Learning Approach for Rapid and Accurate Outdoor Obstacles Detection ( http://arxiv.org/abs/2204.13699v1 )

ライセンス: CC BY 4.0
Zeqian Li, Keyu Qiu, Zhibin Yu(参考訳) 1段階のアルゴリズムは、大規模データで訓練する必要があるターゲット検出システムで広く使われている。 ほとんどの場合、リアルタイムと正確性の両方でうまく機能します。 しかし、畳み込み構造のため、より多くの計算能力とメモリ消費が必要になる。 そこで本研究では,対象検出ネットワークにプルーニング戦略を適用し,パラメータ数とモデルサイズを削減した。 本手法の実用性を示すため,実験用のYOLOv5モデルを選択し,モデルの効果を示すための屋外障害物のデータセットを提供する。 この特定のデータセットでは、最良の状況では、ネットワークモデルの体積が元のモデルに比べて49.7%減少し、推論時間が52.5%減少する。 また、プルーニングによって引き起こされる精度の低下を補うために、データ処理手法を使用する。

One-stage algorithm have been widely used in target detection systems that need to be trained with massive data. Most of them perform well both in real-time and accuracy. However, due to their convolutional structure, they need more computing power and greater memory consumption. Hence, we applied pruning strategy to target detection networks to reduce the number of parameters and the size of model. To demonstrate the practicality of the pruning method, we select the YOLOv5 model for experiments and provide a data set of outdoor obstacles to show the effect of model. In this specific data set, in the best circumstances, the volume of the network model is reduced by 49.7% compared with the original model, and the reasoning time is reduced by 52.5%. Meanwhile, it also uses data processing methods to compensate for the drop in accuracy caused by pruning.
翻訳日:2022-05-03 10:24:23 公開日:2022-04-27
# ループにおける人間の役割

Human's Role in-the-Loop ( http://arxiv.org/abs/2204.14192v1 )

ライセンス: Link先を確認
Avigdor Gal, Roee Shraga(参考訳) データ統合は、様々なソースから高速に到達し、様々なレベルの正確性を示す、大量のデータを扱う必要性により、最近困難になってきた。 この挑戦的な設定は、しばしばビッグデータと呼ばれ、既存のテクニックの多く、特に人間集約的で時代遅れなものをレンダリングします。 ビッグデータはまた、モノのインターネット、クラウドコンピューティング、ディープラーニングといった技術的進歩を生み出し、それゆえ、新しい、エキサイティングで挑戦的な研究課題を提供する。 データの可用性と機械学習技術の改善を踏まえ、このブログは、人間と機械の伝統的な役割が変化しているかどうかを判断することを目的として、マッチングにおける認知タスクの達成における人間と機械の役割について論じる。 このような調査は、人間と機械の両方のリソースを、新しくて革新的な方法でより良く利用するための手段になるとわれわれは考えている。 我々は、変化の可能な2つのモード、すなわち人間のアウトと人間について論じる。 人間は、人間のマッチング性能を超越しようとするとき、機械学習アルゴリズムを使用して、ボックス外の潜在マッチング推論を探索することを目指している。 アウトオブボックスの思考を追求することは、機械学習とディープラーニングがマッチングに関与します。 人間は、マッチングプロセスにおいて、アルゴリズム的マッチングに対称的な役割を持つ人間を割り当てることで、マッチングループに人間を巻き込む方法を模索している。

Data integration has been recently challenged by the need to handle large volumes of data, arriving at high velocity from a variety of sources, which demonstrate varying levels of veracity. This challenging setting, often referred to as big data, renders many of the existing techniques, especially those that are human-intensive, obsolete. Big data also produces technological advancements such as Internet of things, cloud computing, and deep learning, and accordingly, provides a new, exciting, and challenging research agenda. Given the availability of data and the improvement of machine learning techniques, this blog discusses the respective roles of humans and machines in achieving cognitive tasks in matching, aiming to determine whether traditional roles of humans and machines are subject to change. Such investigation, we believe, will pave a way to better utilize both human and machine resources in new and innovative manners. We shall discuss two possible modes of change, namely humans out and humans in. Humans out aim at exploring out-of-the-box latent matching reasoning using machine learning algorithms when attempting to overpower human matcher performance. Pursuing out-of-the-box thinking, machine and deep learning can be involved in matching. Humans in explores how to better involve humans in the matching loop by assigning human matchers with a symmetric role to algorithmic matcher in the matching process.
翻訳日:2022-05-02 15:01:41 公開日:2022-04-27
# リスクのある学生を予測するための重要なLMS特徴の同定

Identifying Critical LMS Features for Predicting At-risk Students ( http://arxiv.org/abs/2204.13700v1 )

ライセンス: Link先を確認
Ying Guo, Cengiz Gunay, Sairam Tangirala, David Kerven, Wei Jin, Jamye Curry Savage and Seungjin Lee(参考訳) 高等教育において学習管理システム(LMS)が不可欠となり、教育機関が学生の成功を促進する上で重要な役割を担っている。 伝統的に、LMSは教育コンテンツの管理、報告、配信において後続の機関で使われてきた。 本稿では、データログを用いてデータ分析を行い、学術的にリスクの高い学生を識別するLMSをさらに活用する。 データによる洞察により、教育機関や教育機関は、学術的にリスクの高い学生をターゲットにした教育介入を開発し、実施することができる。 私たちは、2019年秋、2020年春、2020年秋に、Brightspace LMSが作成した匿名データログを使用しました。 教師付き機械学習アルゴリズムを用いて、学生の最終コース性能を予測し、90%以上の精度でいくつかのアルゴリズムが良好に動作した。 SHAP値法は,予測モデルにおける特徴の相対的重要性を評価するために用いられた。 教師なし学習は、LMSとの相互作用・関与の類似性に基づいて、学生を異なるクラスタにグループ分けするためにも用いられた。 Number_Of_Assignment_SubmissionsとContent_Completedの2つの最も重要な特徴を特定した。 さらに重要なことは、我々の研究は基礎を築き、LMSに組み込むことができるリアルタイムデータ分析メトリクスを開発するためのフレームワークを提供します。

Learning management systems (LMSs) have become essential in higher education and play an important role in helping educational institutions to promote student success. Traditionally, LMSs have been used by postsecondary institutions in administration, reporting, and delivery of educational content. In this paper, we present an additional use of LMS by using its data logs to perform data-analytics and identify academically at-risk students. The data-driven insights would allow educational institutions and educators to develop and implement pedagogical interventions targeting academically at-risk students. We used anonymized data logs created by Brightspace LMS during fall 2019, spring 2020, and fall 2020 semesters at our college. Supervised machine learning algorithms were used to predict the final course performance of students, and several algorithms were found to perform well with accuracy above 90%. SHAP value method was used to assess the relative importance of features used in the predictive models. Unsupervised learning was also used to group students into different clusters based on the similarities in their interaction/involvement with LMS. In both of supervised and unsupervised learning, we identified two most-important features (Number_Of_Assignment_Submissions and Content_Completed). More importantly, our study lays a foundation and provides a framework for developing a real-time data analytics metric that may be incorporated into a LMS.
翻訳日:2022-05-02 14:36:16 公開日:2022-04-27
# (参考訳) 非一様ハイパーグラフの非追跡スペクトルクラスタリング

Nonbacktracking spectral clustering of nonuniform hypergraphs ( http://arxiv.org/abs/2204.13586v1 )

ライセンス: CC BY 4.0
Philip Chodrow, Nicole Eikmeier, and Jamie Haddock(参考訳) スペクトル法は、グラフ行列上の固有ベクトル計算を通じてグラフをクラスタリングするための、拡張可能なグローバルなフレームワークを提供する。 エンティティが任意のサイズのエッジで相互作用するハイパーグラフデータは、行列表現やスペクトルクラスタリングの課題を提起する。 非一様ハイパーグラフに対するスペクトルクラスタリングをハイパーグラフ非追跡演算子を用いて検討する。 この作用素の定義とその基本特性をレビューした後、固有ペアのより高速な計算を可能にするイハラ・バス型の定理を証明した。 次に、線形化信念伝搬によるハイパーグラフ確率ブロックモデルにおける推論の交互化アルゴリズムを提案し、いくつかの過去の結果を形式化し拡張する証明を提供する。 異なるサイズの相互作用がクラスタ構造に関する異なる情報を運ぶ場合、グラフベースよりもハイパーグラフ法の利点を裏付ける実データと合成データで実験を行う。 本アルゴリズムの解析により,超グラフ確率ブロックモデルにおけるスペクトル法の限界と検出可能性について,いくつかの推測を導出する。

Spectral methods offer a tractable, global framework for clustering in graphs via eigenvector computations on graph matrices. Hypergraph data, in which entities interact on edges of arbitrary size, poses challenges for matrix representations and therefore for spectral clustering. We study spectral clustering for nonuniform hypergraphs based on the hypergraph nonbacktracking operator. After reviewing the definition of this operator and its basic properties, we prove a theorem of Ihara-Bass type to enable faster computation of eigenpairs. We then propose an alternating algorithm for inference in a hypergraph stochastic blockmodel via linearized belief-propagation, offering proofs that both formalize and extend several previous results. We perform experiments in real and synthetic data that underscore the benefits of hypergraph methods over graph-based ones when interactions of different sizes carry different information about cluster structure. Through an analysis of our algorithm, we pose several conjectures about the limits of spectral methods and detectability in hypergraph stochastic blockmodels writ large.
翻訳日:2022-04-30 07:25:56 公開日:2022-04-27
# (参考訳) 機械学習による早期意思決定研究の課題

Open challenges for Machine Learning based Early Decision-Making research ( http://arxiv.org/abs/2204.13111v1 )

ライセンス: CC BY 4.0
Alexis Bondu, Youssef Achenchabe, Albert Bifet, Fabrice Cl\'erot, Antoine Cornu\'ejols, Joao Gama, Georges H\'ebrail, Vincent Lemaire, Pierre-Fran\c{c}ois Marteau(参考訳) より多くのアプリケーションが早期決定を必要としており、つまり、部分的に観測されたデータからできるだけ早く取り除かれる。 しかし、後に決定が下されるほど、手書きの問題の記述が時間とともに豊かになるため、精度が向上する傾向にある。 このようなアールネスと決定の正確さの妥協は、初期の時系列分類の分野において特に研究されてきた。 本稿では,機械学習に基づく早期意思決定(ml-edm)と呼ばれる,より一般的な問題を提案する。 ML-EDM問題の定義後、この分野のさらなる研究のために10の課題を特定し、科学コミュニティに提案する。 これらの課題は、本論文で論じた、重要なアプリケーション視点を開放する。

More and more applications require early decisions, i.e. taken as soon as possible from partially observed data. However, the later a decision is made, the more its accuracy tends to improve, since the description of the problem to hand is enriched over time. Such a compromise between the earliness and the accuracy of decisions has been particularly studied in the field of Early Time Series Classification. This paper introduces a more general problem, called Machine Learning based Early Decision Making (ML-EDM), which consists in optimizing the decision times of models in a wide range of settings where data is collected over time. After defining the ML-EDM problem, ten challenges are identified and proposed to the scientific community to further research in this area. These challenges open important application perspectives, discussed in this paper.
翻訳日:2022-04-30 07:25:01 公開日:2022-04-27
# (参考訳) SSR-GNN:グラフニューラルネットワークを用いたストロークベースのスケッチ表現

SSR-GNNs: Stroke-based Sketch Representation with Graph Neural Networks ( http://arxiv.org/abs/2204.13153v1 )

ライセンス: CC BY 4.0
Sheng Cheng, Yi Ren, Yezhou Yang(参考訳) 本稿では,スケッチの頂点にストローク情報,すなわちスケッチの一部がエンコードされ,エッジ上のストローク間情報を符号化したスケッチのグラフ表現について,認知的研究に従う。 グラフ表現は、分類タスクのためのグラフニューラルネットワークのトレーニングを促進し、翻訳と回転攻撃に対する最先端と同等の精度と堅牢性を実現し、またグラフ頂点やトポロジー、すなわちストロークの修正と追加に対する強力な攻撃を、逆のトレーニングに頼らずに達成する。 スケッチ、例えばグラフトランスフォーマーに関する事前の研究は、空間変換に不変でない頂点上のストロークの制御点を符号化している。 逆に、制御点間の対距離を用いて頂点と辺を符号化し、不変性を達成する。 1ショット分類のための既存の生成スケッチモデルと比較して,本手法は実行時の統計的推測に依存しない。 最後に、提案した表現は、既存のデータセットから分離可能ながら構造的に類似した新しいスケッチを生成することができる。

This paper follows cognitive studies to investigate a graph representation for sketches, where the information of strokes, i.e., parts of a sketch, are encoded on vertices and information of inter-stroke on edges. The resultant graph representation facilitates the training of a Graph Neural Networks for classification tasks, and achieves accuracy and robustness comparable to the state-of-the-art against translation and rotation attacks, as well as stronger attacks on graph vertices and topologies, i.e., modifications and addition of strokes, all without resorting to adversarial training. Prior studies on sketches, e.g., graph transformers, encode control points of stroke on vertices, which are not invariant to spatial transformations. In contrary, we encode vertices and edges using pairwise distances among control points to achieve invariance. Compared with existing generative sketch model for one-shot classification, our method does not rely on run-time statistical inference. Lastly, the proposed representation enables generation of novel sketches that are structurally similar to while separable from the existing dataset.
翻訳日:2022-04-30 07:24:06 公開日:2022-04-27
# (参考訳) ニューラルネットワークにおける注意のメカニズム:その行き方と行き方

Attention Mechanism in Neural Networks: Where it Comes and Where it Goes ( http://arxiv.org/abs/2204.13154v1 )

ライセンス: CC BY 4.0
Derya Soydaner(参考訳) 昔、機械学習の文献では、人間の視覚システムに触発されたメカニズムをニューラルネットワークに組み込むというアイデアが紹介された。 このアイデアは注目メカニズムと呼ばれ、長い開発期間を経ています。 今日では、様々な作業でこの考えに多くの作品が注がれている。 最近は目覚ましいパフォーマンスが実演されている。 本研究の目的は,近年のトレンドまで,ニューラルネットワークによる注目アイデアの実装方法を探究する初期の成果の概要を提供することである。 このレビューでは、異なるタスクに関するこの進歩における重要なマイルストーンを強調している。 このようにして、本研究の目的は、研究者が現在の発展を探求し、注意を超えた新しいアプローチにインスピレーションを得るためのロードマップを提供することである。

A long time ago in the machine learning literature, the idea of incorporating a mechanism inspired by the human visual system into neural networks was introduced. This idea is named the attention mechanism, and it has gone through a long development period. Today, many works have been devoted to this idea in a variety of tasks. Remarkable performance has recently been demonstrated. The goal of this paper is to provide an overview from the early work on searching for ways to implement attention idea with neural networks until the recent trends. This review emphasizes the important milestones during this progress regarding different tasks. By this way, this study aims to provide a road map for researchers to explore the current development and get inspired for novel approaches beyond the attention.
翻訳日:2022-04-30 07:08:11 公開日:2022-04-27
# (参考訳) 人物再同定

Person Re-Identification ( http://arxiv.org/abs/2204.13158v1 )

ライセンス: CC BY 4.0
Mustafa Ebrahim Chasmai and Tamajit Banerjee(参考訳) 人物再識別 (re-id) はコンピュータビジョンに基づく監視アプリケーションにおいて重要な問題であり、異なる方向や視野の異なるカメラから撮影された異なる監視写真の人物を識別することを目的としている。 インテリジェントなビデオ監視の需要が高まっているため、Re-IDはコンピュータビジョンコミュニティに大きな関心を集めている。 本研究では,いくつかのオープンベンチマークにおいて,既存のRe-ID手法を用いて,技術性能の状態を検証した。 提案するデータセット上で,定性的かつ定量的にその性能を分析し,その結果を改善する方法を提案する。 この研究はIIT DelhiのCOL780の最終プロジェクトに提出された報告書である。

Person Re-Identification (Re-ID) is an important problem in computer vision-based surveillance applications, in which one aims to identify a person across different surveillance photographs taken from different cameras having varying orientations and field of views. Due to the increasing demand for intelligent video surveillance, Re-ID has gained significant interest in the computer vision community. In this work, we experiment on some existing Re-ID methods that obtain state of the art performance in some open benchmarks. We qualitatively and quantitaively analyse their performance on a provided dataset, and then propose methods to improve the results. This work was the report submitted for COL780 final project at IIT Delhi.
翻訳日:2022-04-30 06:50:54 公開日:2022-04-27
# (参考訳) 勾配ブースティングによる学習用ストームサージ

Learning Storm Surge with Gradient Boosting ( http://arxiv.org/abs/2204.13168v1 )

ライセンス: CC BY 4.0
Benjamin Pachev, Eirik Valseth, Clint Dawson(参考訳) 暴風雨は沿岸地域にとって大きな自然災害であり、大きな被害と生命の喪失の原因となっている。 長期的なリスクの評価と緊急管理判断の指導には,高潮の正確かつ効率的なモデルが必要である。 ADCIRC(Advanced CIRCulation)モデルのような高忠実な海洋循環モデルでは、嵐の急増を正確に予測できるが、計算コストは非常に高い。 その結果、近年、嵐サージのためのデータ駆動サーロゲートモデルの開発に多くの取り組みがなされている。 これらのモデルは精度が良く、非常に効率的であるが、小さな地理的領域と一定の出力位置に限られることが多い。 勾配ブースティングに基づく高潮高潮予測のための新しいサロゲートモデルを開発した。 多くのサロゲートアプローチとは異なり、このモデルは一定の出力位置や特定の地理的領域に明示的に制限されていない。 このモデルは、テキサス海岸に上陸する446の合成嵐のデータベースで訓練されており、平均絶対誤差は0.25メートルである。 さらに、Huricanes Ike (2008) とHarvey (2017) でモデルのテストを行う。

Storm surge is a major natural hazard for coastal regions, responsible both for significant property damage and loss of life. Accurate, efficient models of storm surge are needed both to assess long-term risk and to guide emergency management decisions. While high-fidelity ocean circulation models such as the ADvanced CIRCulation (ADCIRC) model can accurately predict storm surge, they are very computationally expensive. Consequently, there have been a number of efforts in recent years to develop data-driven surrogate models for storm surge. While these models can attain good accuracy and are highly efficient, they are often limited to a small geographical region and a fixed set of output locations. We develop a novel surrogate model for peak storm surge prediction based on gradient boosting. Unlike most surrogate approaches, our model is not explicitly constrained to a fixed set of output locations or specific geographical region. The model is trained with a database of 446 synthetic storms that make landfall on the Texas coast and obtains a mean absolute error of 0.25 meters. We additionally present a test of the model on Hurricanes Ike (2008) and Harvey (2017).
翻訳日:2022-04-30 06:42:45 公開日:2022-04-27
# (参考訳) 悪意のある広告url検出フレームワークにおける敵対的攻撃分析

An Adversarial Attack Analysis on Malicious Advertisement URL Detection Framework ( http://arxiv.org/abs/2204.13172v1 )

ライセンス: CC BY 4.0
Ehsan Nowroozi, Abhishek, Mohammadreza Mohammadi, Mauro Conti(参考訳) 悪意のある広告URLは、サイバー攻撃の源であり、業界と学界の両方でこの問題に対処する必要性が高まっているため、セキュリティ上のリスクをもたらす。 一般に、攻撃者は電子メール、広告リンク、その他の通信手段によって攻撃ベクターをユーザーに届け、悪意のあるウェブサイトに誘導して機密情報を盗み、詐欺する。 既存の悪意のあるurl検出技術は制限され、見えない機能やテストデータへの一般化を扱う。 本研究では,新しい語彙的特徴とwebスクラッピング特徴を抽出し,機械学習を用いて不正広告url検出システムを構築した。 6種類の機能の組み合わせは、不正URL分類における難易度を正確に克服する。 異なる統計特性に基づいて、検出、予測、分類タスクに12の異なるフォーマットデータセットを使用する。 我々は、一致しないデータセットの予測分析を拡張した。 本研究では,ランダムフォレスト,勾配ブースト,xgboost,adaboostの4つの機械学習手法の性能解析を行った。 提案手法では,精度99.63%の精度を維持しつつ,0.0037 以下の偽陰性率を達成できる。 さらに,視覚解析のためのK-Meansアルゴリズムを用いた新しい教師なしクラスタリング手法を考案した。 本稿では,限られた知識攻撃シナリオを用いて決定木に基づくモデルの脆弱性を分析する。 探索攻撃を考慮し,検出モデルに対するゼロ次最適化攻撃を実装した。

Malicious advertisement URLs pose a security risk since they are the source of cyber-attacks, and the need to address this issue is growing in both industry and academia. Generally, the attacker delivers an attack vector to the user by means of an email, an advertisement link or any other means of communication and directs them to a malicious website to steal sensitive information and to defraud them. Existing malicious URL detection techniques are limited and to handle unseen features as well as generalize to test data. In this study, we extract a novel set of lexical and web-scrapped features and employ machine learning technique to set up system for fraudulent advertisement URLs detection. The combination set of six different kinds of features precisely overcome the obfuscation in fraudulent URL classification. Based on different statistical properties, we use twelve different formatted datasets for detection, prediction and classification task. We extend our prediction analysis for mismatched and unlabelled datasets. For this framework, we analyze the performance of four machine learning techniques: Random Forest, Gradient Boost, XGBoost and AdaBoost in the detection part. With our proposed method, we can achieve a false negative rate as low as 0.0037 while maintaining high accuracy of 99.63%. Moreover, we devise a novel unsupervised technique for data clustering using K- Means algorithm for the visual analysis. This paper analyses the vulnerability of decision tree-based models using the limited knowledge attack scenario. We considered the exploratory attack and implemented Zeroth Order Optimization adversarial attack on the detection models.
翻訳日:2022-04-30 06:30:54 公開日:2022-04-27
# (参考訳) 窒素河川汚染源同定における次元低減法・信号分離法の適用について

On the Use of Dimension Reduction or Signal Separation Methods for Nitrogen River Pollution Source Identification ( http://arxiv.org/abs/2204.13182v1 )

ライセンス: CC BY 4.0
G\"uray Hatipo\u{g}lu(参考訳) 河川における現在および今後の汚染源の特定は, 健全な環境管理に不可欠である。 この目的のために, 物理モデル, 安定同位体分析および混合法, 質量収支法, 時系列解析, 土地被覆解析, 空間統計に基づいて, クラスタリング可能な多くの手法が提案された。 もう一つの非常に一般的な方法は主成分分析であり、絶対主成分スコアなどの修正も行う。 これらは河川への窒素侵入の源泉識別問題に適用されている。 この原稿は、理論的な背景と仮定から、PCAが窒素汚染源を明らかにする強力な方法であるかどうかを確認している。 さらに、独立成分分析と因子分析というやや類似した手法も検討される。

Identification of the current and expected future pollution sources to rivers is crucial for sound environmental management. For this purpose numerous approaches were proposed that can be clustered under physical based models, stable isotope analysis and mixing methods, mass balance methods, time series analysis, land cover analysis, and spatial statistics. Another extremely common method is Principal Component Analysis, as well as its modifications, such as Absolute Principal Component Score. they have been applied to the source identification problems for nitrogen entry to rivers. This manuscript is checking whether PCA can really be a powerful method to uncover nitrogen pollution sources considering its theoretical background and assumptions. Moreover, slightly similar techniques, Independent Component Analysis and Factor Analysis will also be considered.
翻訳日:2022-04-30 06:10:12 公開日:2022-04-27
# (参考訳) アルツハイマー病診断のための多変量脳画像の解釈可能なグラフ畳み込みネットワーク

Interpretable Graph Convolutional Network of Multi-Modality Brain Imaging for Alzheimer's Disease Diagnosis ( http://arxiv.org/abs/2204.13188v1 )

ライセンス: CC BY 4.0
Houliang Zhou, Lifang He, Yu Zhang, Li Shen, Brian Chen(参考訳) 特定の神経疾患に関連する脳領域の同定は、バイオマーカーおよび診断研究において非常に重要である。 本稿では,多モード脳画像データを用いたアルツハイマー病(AD)の同定と分類のための解釈可能なグラフ畳み込みネットワーク(GCN)フレームワークを提案する。 具体的には、グラディエントクラス活性化マッピング(Grad-CAM)技術を拡張し、GCNが認識する最も差別的な特徴を脳接続パターンから定量化する。 次に,健康管理領域 (hc) , 軽度認知障害 (mci) およびad群における特徴の差異を検出することで, 関心領域 (rois) を同定した。 VBM-MRI, FDG-PET, AV45-PET を含む3種類の画像データを用いてADNIデータベース上で実験を行い,本手法により得られたROI特徴が臨床スコア予測と病状診断の両方のパフォーマンス向上に有効であることを示した。 また、ADおよびMCIに関連するバイオマーカーの同定に成功した。

Identification of brain regions related to the specific neurological disorders are of great importance for biomarker and diagnostic studies. In this paper, we propose an interpretable Graph Convolutional Network (GCN) framework for the identification and classification of Alzheimer's disease (AD) using multi-modality brain imaging data. Specifically, we extended the Gradient Class Activation Mapping (Grad-CAM) technique to quantify the most discriminative features identified by GCN from brain connectivity patterns. We then utilized them to find signature regions of interest (ROIs) by detecting the difference of features between regions in healthy control (HC), mild cognitive impairment (MCI), and AD groups. We conducted the experiments on the ADNI database with imaging data from three modalities, including VBM-MRI, FDG-PET, and AV45-PET, and showed that the ROI features learned by our method were effective for enhancing the performances of both clinical score prediction and disease status identification. It also successfully identified biomarkers associated with AD and MCI.
翻訳日:2022-04-30 06:02:51 公開日:2022-04-27
# (参考訳) 自然言語インタフェースの反事実的説明

Counterfactual Explanations for Natural Language Interfaces ( http://arxiv.org/abs/2204.13192v1 )

ライセンス: CC BY 4.0
George Tolkachev, Stephen Mell, Steve Zdancewic, Osbert Bastani(参考訳) 自然言語インターフェースに直面する重要な課題は、ユーザが基盤となるシステムの能力を理解することを可能にすることだ。 そこで本研究では,意味解析に基づく自然言語インタフェースの説明生成手法を提案する。 提案手法は,ユーザに対して,目的達成のために発話を最小限に修正する方法について説明する,ポストホックな説明である。 特に,ユーザが希望する目標のデモンストレーションとともに発話を提供し,その目標を達成することを保証された発話のパラフレーズを合成する。 2つのユーザスタディにおいて、我々のアプローチはユーザパフォーマンスを大幅に改善し、ユーザの意図とより密に一致した説明を生成することを実証した。

A key challenge facing natural language interfaces is enabling users to understand the capabilities of the underlying system. We propose a novel approach for generating explanations of a natural language interface based on semantic parsing. We focus on counterfactual explanations, which are post-hoc explanations that describe to the user how they could have minimally modified their utterance to achieve their desired goal. In particular, the user provides an utterance along with a demonstration of their desired goal; then, our algorithm synthesizes a paraphrase of their utterance that is guaranteed to achieve their goal. In two user studies, we demonstrate that our approach substantially improves user performance, and that it generates explanations that more closely match the user's intent compared to two ablations.
翻訳日:2022-04-30 05:53:29 公開日:2022-04-27
# (参考訳) ELM: 長期学習のための埋め込みとログマージン

ELM: Embedding and Logit Margins for Long-Tail Learning ( http://arxiv.org/abs/2204.13208v1 )

ライセンス: CC BY 4.0
Wittawat Jitkrittum, Aditya Krishna Menon, Ankit Singh Rawat, Sanjiv Kumar(参考訳) 長期学習はスキューラベル分布下での学習の問題であり、標準学習者には課題となる。 この問題に対する最近のいくつかのアプローチは、ロジット空間に適切なマージンを付与することを提案した。 このような手法はSVMの背後にある導出原理の直感的な類似であり、線形モデルやニューラルモデルにも等しく適用できる。 しかし、神経モデルに適用された場合、そのような手法は学習された埋め込みの幾何学を明示的に制御しない。 尾クラスの埋め込みは拡散し、その結果これらのクラスに対する一般化が不十分になるため、これは潜在的に準最適である可能性がある。 我々は,ロジット空間におけるマージンを強制し,埋め込み分布を定式化する統一的アプローチであるembedment and logit margins (elm)を提案する。 これは、ロングテール学習の損失と、計量埋め込みと対比学習に関する文献における提案を結びつける。 理論的には,提案するELM目標の最小化が一般化ギャップの低減に役立つことを示す。 elmメソッドは経験的にうまく機能することが示され、テールクラスの埋め込みがよりタイトになる。

Long-tail learning is the problem of learning under skewed label distributions, which pose a challenge for standard learners. Several recent approaches for the problem have proposed enforcing a suitable margin in logit space. Such techniques are intuitive analogues of the guiding principle behind SVMs, and are equally applicable to linear models and neural models. However, when applied to neural models, such techniques do not explicitly control the geometry of the learned embeddings. This can be potentially sub-optimal, since embeddings for tail classes may be diffuse, resulting in poor generalization for these classes. We present Embedding and Logit Margins (ELM), a unified approach to enforce margins in logit space, and regularize the distribution of embeddings. This connects losses for long-tail learning to proposals in the literature on metric embedding, and contrastive learning. We theoretically show that minimising the proposed ELM objective helps reduce the generalisation gap. The ELM method is shown to perform well empirically, and results in tighter tail class embeddings.
翻訳日:2022-04-30 05:46:02 公開日:2022-04-27
# (参考訳) 協調システムのための異なるAIインタラクション設計におけるユーザ知覚・協調体験・ユーザエンゲージメントの理解

Understanding User Perceptions, Collaborative Experience and User Engagement in Different Human-AI Interaction Designs for Co-Creative Systems ( http://arxiv.org/abs/2204.13217v1 )

ライセンス: CC BY 4.0
Jeba Rezwana and Mary Lou Maher(参考訳) human-ai co-creativityは、人間とaiがパートナーとして共有されたクリエイティブプロダクトで協力することを伴う。 創造的なコラボレーションでは、コミュニケーションは協力者にとって不可欠な要素です。 多くの既存の共同作成システムでは、ユーザーは通常ボタンやスライダーを使用して、AIと通信することができる。 通常は、共同創造システムのAIは人間と通信することができないため、ツールではなくパートナーとして認識される可能性を制限する。 本稿では、38人の参加者を対象に、AIと人間とのコミュニケーションのない2つのインタラクション設計が、ユーザエンゲージメント、協調体験、共同創造型AIのユーザ認識に与える影響を調査する。 この研究は、デザイン作業中にデザインインスピレーションとしてスケッチに貢献する共同創造システムの2つのプロトタイプとのユーザインタラクションを含んでいる。 その結果、ai対人コミュニケーションを組み込んだシステムとのコラボレーション体験とユーザエンゲージメントが向上した。 ユーザは、AIがユーザと通信するとき、より信頼性が高く、個人的で、インテリジェントである、と認識する。 この発見は効果的な共同創造システムの設計に利用することができ、その洞察は人間とAIのインタラクションやコラボレーションを含む他の分野に伝達することができる。

Human-AI co-creativity involves humans and AI collaborating on a shared creative product as partners. In a creative collaboration, communication is an essential component among collaborators. In many existing co-creative systems users can communicate with the AI, usually using buttons or sliders. Typically, the AI in co-creative systems cannot communicate back to humans, limiting their potential to be perceived as partners rather than just a tool. This paper presents a study with 38 participants to explore the impact of two interaction designs, with and without AI-to-human communication, on user engagement, collaborative experience and user perception of a co-creative AI. The study involves user interaction with two prototypes of a co-creative system that contributes sketches as design inspirations during a design task. The results show improved collaborative experience and user engagement with the system incorporating AI-to-human communication. Users perceive co-creative AI as more reliable, personal, and intelligent when the AI communicates to users. The findings can be used to design effective co-creative systems, and the insights can be transferred to other fields involving human-AI interaction and collaboration.
翻訳日:2022-04-30 05:18:16 公開日:2022-04-27
# (参考訳) 具体的ナビゲーションのためのオフライン視覚表現学習

Offline Visual Representation Learning for Embodied Navigation ( http://arxiv.org/abs/2204.13226v1 )

ライセンス: CC BY 4.0
Karmesh Yadav, Ram Ramrakhya, Arjun Majumdar, Vincent-Pierre Berges, Sachit Kuhar, Dhruv Batra, Alexei Baevski, Oleksandr Maksymets(参考訳) 観察と移動が必要なエンボディエージェントの視覚表現をどうやって学習するか? 状態クオは、生体内でタブラララサ、すなわち、スクラッチから視覚表現を学習し、動きを学習し、補助的なタスク(例えば、2つの連続した観察の間に取られた行動を予測する)で増強される可能性がある。 本稿では,(1)屋内環境(omnidata)の大規模事前レンダリング画像を用いた自己教師付き学習(ssl)による視覚表現のオフライン事前学習,(2)長期学習スケジュールによる画像拡張を伴う特定タスクにおける視覚表現のオンライン微調整,という2段階の戦略がより効果的であることを示す。 この手法をオフライン視覚表現学習(OVRL)と呼ぶ。 我々は3つの異なる3Dデータセット(Gibson, HM3D, MP3D)、2つのタスク(ImageNav, ObjectNav)、2つのポリシー学習アルゴリズム(RL, IL)で大規模な実験を行い、OVRL表現が芸術の状況において、29.2%から54.2%(+25%絶対, 86%相対)、ObjectNavでは18.1%から23.2%(+5.1%絶対, 28%相対)で大幅に改善されていることを発見した。 重要なことに、両方の結果は、事前トレーニング中に見られなかったデータセットに一般化した同じビジュアルエンコーダによって達成された。 事前トレーニングの利点は、長い微調整スケジュールで時々減少(または完全に消失)するが、エージェントが20億フレームの経験を訓練するにつれて、ovrlのパフォーマンス向上は(減少しない)増加し続ける。

How should we learn visual representations for embodied agents that must see and move? The status quo is tabula rasa in vivo, i.e. learning visual representations from scratch while also learning to move, potentially augmented with auxiliary tasks (e.g. predicting the action taken between two successive observations). In this paper, we show that an alternative 2-stage strategy is far more effective: (1) offline pretraining of visual representations with self-supervised learning (SSL) using large-scale pre-rendered images of indoor environments (Omnidata), and (2) online finetuning of visuomotor representations on specific tasks with image augmentations under long learning schedules. We call this method Offline Visual Representation Learning (OVRL). We conduct large-scale experiments - on 3 different 3D datasets (Gibson, HM3D, MP3D), 2 tasks (ImageNav, ObjectNav), and 2 policy learning algorithms (RL, IL) - and find that the OVRL representations lead to significant across-the-board improvements in state of art, on ImageNav from 29.2% to 54.2% (+25% absolute, 86% relative) and on ObjectNav from 18.1% to 23.2% (+5.1% absolute, 28% relative). Importantly, both results were achieved by the same visual encoder generalizing to datasets that were not seen during pretraining. While the benefits of pretraining sometimes diminish (or entirely disappear) with long finetuning schedules, we find that OVRL's performance gains continue to increase (not decrease) as the agent is trained for 2 billion frames of experience.
翻訳日:2022-04-30 05:00:54 公開日:2022-04-27
# 不確かさ線形システムのためのニューラルネットワーク制御

Neural network controllers for uncertain linear systems ( http://arxiv.org/abs/2204.13209v1 )

ライセンス: Link先を確認
Filippo Fabiani, Paul J. Goulart(参考訳) 可変構造をもつ制御器や最小選択ポリシーに基づく制御器を含む,線形系に対する従来の安定化制御器の信頼性ニューラルネットワーク(NN)に基づく近似設計について検討する。 直交線形単位 (relu) に基づく近似が従来の制御器を置き換える場合, 閉ループの安定性とポリトピーシステムの性能を証明する体系的手法を開発した。 reluベースと従来のコントローラベースのステート・トゥ・インプットマッピング間のエラー関数を特徴付ける、最悪のケース近似誤差とリプシッツ定数を含む安定性を確保するのに十分な条件を提供し、これらの量を正確に計算できるオフラインで混合整数最適化に基づく方法も提供する。

We consider the design of reliable neural network (NN)-based approximations of traditional stabilizing controllers for linear systems affected by polytopic uncertainty, including controllers with variable structure and those based on a minimal selection policy. We develop a systematic procedure to certify the closed-loop stability and performance of a polytopic system when a rectified linear unit (ReLU)-based approximation replaces such traditional controllers. We provide sufficient conditions to ensure stability involving the worst-case approximation error and the Lipschitz constant characterizing the error function between ReLU-based and traditional controller-based state-to-input mappings, and further provide offline, mixed-integer optimization-based methods that allow us to compute those quantities exactly.
翻訳日:2022-04-29 15:30:48 公開日:2022-04-27
# 無限不均衡なロジスティック回帰に対する漸近推論

Asymptotic Inference for Infinitely Imbalanced Logistic Regression ( http://arxiv.org/abs/2204.13231v1 )

ライセンス: Link先を確認
Dorian Goldman, Bo Zhang(参考訳) 本稿では,多数クラスのサイズが非有界で少数クラスが有限である場合,ロジスティック回帰における勾配パラメータの2次展開を導出することにより,Owen (2007) の作業を拡張する。 より正確には、第二次項が正規分布に収束し、その分散を明示的に計算することが示され、これは意外にも、軽度正規性仮定の下での配置ではなく、少数類点の平均にのみ依存する。 多数クラスが通常分布する場合には、制限勾配の分散は、多数クラス分布に対する少数クラスの点の平均のz-スコアに指数関数的に依存することを示す。 我々はモンテカルロシミュレーションで結果を確認した。

In this paper we extend the work of Owen (2007) by deriving a second order expansion for the slope parameter in logistic regression, when the size of the majority class is unbounded and the minority class is finite. More precisely, we demonstrate that the second order term converges to a normal distribution and explicitly compute its variance, which surprisingly once again depends only on the mean of the minority class points and not their arrangement under mild regularity assumptions. In the case that the majority class is normally distributed, we illustrate that the variance of the the limiting slope depends exponentially on the z-score of the average of the minority class's points with respect to the majority class's distribution. We confirm our results by Monte Carlo simulations.
翻訳日:2022-04-29 14:51:28 公開日:2022-04-27
# 医療におけるモデル入力と出力アラートが意思決定に及ぼす影響について

Exploring How Anomalous Model Input and Output Alerts Affect Decision-Making in Healthcare ( http://arxiv.org/abs/2204.13194v1 )

ライセンス: Link先を確認
Marissa Radensky, Dustin Burson, Rajya Bhaiya, Daniel S. Weld(参考訳) 人間-AIインタラクションの分野での重要な目標は、AIシステムの決定をより適切に信頼することである。 ユーザがより適切な信頼から特に恩恵を受ける可能性のある状況は、AIが異常な入力を受けたり、異常な出力を提供したりすることである。 私たちの知る限りでは、異常アラートがAIの適切な信頼にどのように貢献するかを理解するための最初の取り組みである。 4人の放射線科医と4人の医師によるホルマティブ・ミックス・メソドックス研究において、異常な入力に対するAI警告、非常に高い信頼性と低い信頼、そして異常なサリエンシマップの説明が、肺炎の胸部X線を評価するためのAI臨床決定支援システム(CDSS)のモックアップによるユーザ体験にどのように影響するかを考察した。 我々は,4つの異常警報が非放射線学者によって望まれていることを示す証拠を見出した。 本研究は,高信頼度・低信頼度警報がAICDSSモックアップに携わる33名の放射線技師の精度および適切な信頼度に与える影響について調査した。 これらのアラートはユーザの正確さや経験を向上するものではありません。

An important goal in the field of human-AI interaction is to help users more appropriately trust AI systems' decisions. A situation in which the user may particularly benefit from more appropriate trust is when the AI receives anomalous input or provides anomalous output. To the best of our knowledge, this is the first work towards understanding how anomaly alerts may contribute to appropriate trust of AI. In a formative mixed-methods study with 4 radiologists and 4 other physicians, we explore how AI alerts for anomalous input, very high and low confidence, and anomalous saliency-map explanations affect users' experience with mockups of an AI clinical decision support system (CDSS) for evaluating chest x-rays for pneumonia. We find evidence suggesting that the four anomaly alerts are desired by non-radiologists, and the high-confidence alerts are desired by both radiologists and non-radiologists. In a follow-up user study, we investigate how high- and low-confidence alerts affect the accuracy and thus appropriate trust of 33 radiologists working with AI CDSS mockups. We observe that these alerts do not improve users' accuracy or experience and discuss potential reasons why.
翻訳日:2022-04-29 14:51:16 公開日:2022-04-27
# 機械学習の透明性に対する規範的および記述的アプローチ

Prescriptive and Descriptive Approaches to Machine-Learning Transparency ( http://arxiv.org/abs/2204.13582v1 )

ライセンス: Link先を確認
David Adkins, Bilal Alsallakh, Adeel Cheema, Narine Kokhlikyan, Emily McReynolds, Pushkar Mishra, Chavez Procope, Jeremy Sawruk, Erin Wang, Polina Zvyagina(参考訳) 機械学習(ML)システムやそれらに依存するデータセットやモデルに関する重要な事実を伝えるために、特殊なドキュメンテーション技術が開発されている。 Datasheets、FactSheets、Model Cardsといったテクニックは、主に記述的なアプローチを採用し、システムコンポーネントに関するさまざまな詳細を提供している。 上記の情報は、製品開発者や外部の専門家にとって、MLシステムが要件を満たしているかどうかを評価するのに不可欠だが、他のステークホルダーは、それが実行不可能であると考えているかもしれない。 特に、MLエンジニアは、バグを修正したり、システムのパフォーマンスを改善するために潜在的な欠点を軽減するためのガイダンスが必要である。 このようなガイダンスを規範的に提供するためのアプローチを調査する。 さらに,一般的なML手法や手法の規範的な資料を提供することで,MLシステムの透明性と再現性を高めることを目的とした,メソッドカードと呼ばれる予備的なアプローチを提案する。 提案手法を,小型オブジェクト検出の例で紹介し,モデル開発者に対して,メソッドカードがいかに重要な配慮を伝達できるかをデモした。 さらに,メソッドカードに基づくml技術者のユーザエクスペリエンス向上への道筋についても強調する。

Specialized documentation techniques have been developed to communicate key facts about machine-learning (ML) systems and the datasets and models they rely on. Techniques such as Datasheets, FactSheets, and Model Cards have taken a mainly descriptive approach, providing various details about the system components. While the above information is essential for product developers and external experts to assess whether the ML system meets their requirements, other stakeholders might find it less actionable. In particular, ML engineers need guidance on how to mitigate potential shortcomings in order to fix bugs or improve the system's performance. We survey approaches that aim to provide such guidance in a prescriptive way. We further propose a preliminary approach, called Method Cards, which aims to increase the transparency and reproducibility of ML systems by providing prescriptive documentation of commonly-used ML methods and techniques. We showcase our proposal with an example in small object detection, and demonstrate how Method Cards can communicate key considerations for model developers. We further highlight avenues for improving the user experience of ML engineers based on Method Cards.
翻訳日:2022-04-29 14:49:22 公開日:2022-04-27
# 説明・公平感・判断の関係について

On the Relationship Between Explanations, Fairness Perceptions, and Decisions ( http://arxiv.org/abs/2204.13156v1 )

ライセンス: Link先を確認
Jakob Schoeffer, Maria De-Arteaga, Niklas Kuehl(参考訳) aiベースのシステムのレコメンデーションは誤りか不公平かが知られている。 したがって、人間は最終決定者となることがしばしば提案される。 以前の研究は、人間の意思決定者が意思決定の質を高め、偏見を和らげる、すなわち人間とAIの相補性を促進するために、説明が不可欠であると主張している。 これらのメリットを具現化するためには、人間はAIレコメンデーションを適切に頼り、意思決定の分配的公正性を高めるために必要なアルゴリズムレコメンデーションを無効にすべきである。 しかし、この文献は、説明が実際にそのような相補性をもたらすかどうかに関する決定的な実証的な証拠を提供していない。 この作品では、 (a)説明、公平感、信頼、分配的公平性の関係を明確化する概念的枠組みを提供する。 (b)説明と公正の交点における矛盾した研究結果の理解(一見)に当てはめ、 (c) 研究質問の定式化及び実験の設計に関する結束的含意を導出する。

It is known that recommendations of AI-based systems can be incorrect or unfair. Hence, it is often proposed that a human be the final decision-maker. Prior work has argued that explanations are an essential pathway to help human decision-makers enhance decision quality and mitigate bias, i.e., facilitate human-AI complementarity. For these benefits to materialize, explanations should enable humans to appropriately rely on AI recommendations and override the algorithmic recommendation when necessary to increase distributive fairness of decisions. The literature, however, does not provide conclusive empirical evidence as to whether explanations enable such complementarity in practice. In this work, we (a) provide a conceptual framework to articulate the relationships between explanations, fairness perceptions, reliance, and distributive fairness, (b) apply it to understand (seemingly) contradictory research findings at the intersection of explanations and fairness, and (c) derive cohesive implications for the formulation of research questions and the design of experiments.
翻訳日:2022-04-29 14:21:56 公開日:2022-04-27
# HRDA:コンテキスト対応高解像度ドメイン適応セマンティックセマンティックセグメンテーション

HRDA: Context-Aware High-Resolution Domain-Adaptive Semantic Segmentation ( http://arxiv.org/abs/2204.13132v1 )

ライセンス: Link先を確認
Lukas Hoyer, Dengxin Dai, Luc Van Gool(参考訳) unsupervised domain adaptation(uda)は、ソースドメイン(例えば合成データ)でトレーニングされたモデルをターゲットドメイン(例えば実世界データ)に適応させることを目的としている。 この研究は、実世界のピクセルワイドアノテーションが特に取得するコストが高いため、セマンティックセグメンテーションのためのUDAに焦点を当てている。 セマンティックセグメンテーションのためのudaメソッドは通常gpuメモリ集約であるため、ほとんどの以前のメソッドはダウンスケールイメージのみで動作する。 低解像度の予測はしばしば細部を保存できないため、我々はこの設計に疑問を呈する。 高解像度画像のランダムな作物を訓練する代わりに、この問題を緩和するが、長距離のドメインロバストなコンテキスト情報を捉えることは困難である。 そこで我々は,UDAのマルチレゾリューショントレーニング手法であるHRDAを提案し,細かなセグメンテーションの詳細と大規模な低レゾリューションの作物の強度を組み合わせ,GPUメモリのフットプリントを管理しつつ,長期のコンテキスト依存性を学習規模で把握する。 HRDAは小さなオブジェクトへの適応と細かなセグメンテーションの詳細の保存を可能にする。 GTA-to-Cityscapesは5.5 mIoU、Synthia-to-Cityscapesは4.9 mIoU、それぞれ前例のない73.8 mIoUと65.8 mIoUである。 実装はhttps://github.com/lhoyer/hrdaで利用可能である。

Unsupervised domain adaptation (UDA) aims to adapt a model trained on the source domain (e.g. synthetic data) to the target domain (e.g. real-world data) without requiring further annotations on the target domain. This work focuses on UDA for semantic segmentation as real-world pixel-wise annotations are particularly expensive to acquire. As UDA methods for semantic segmentation are usually GPU memory intensive, most previous methods operate only on downscaled images. We question this design as low-resolution predictions often fail to preserve fine details. The alternative of training with random crops of high-resolution images alleviates this problem but falls short in capturing long-range, domain-robust context information. Therefore, we propose HRDA, a multi-resolution training approach for UDA, that combines the strengths of small high-resolution crops to preserve fine segmentation details and large low-resolution crops to capture long-range context dependencies with a learned scale attention, while maintaining a manageable GPU memory footprint. HRDA enables adapting small objects and preserving fine segmentation details. It significantly improves the state-of-the-art performance by 5.5 mIoU for GTA-to-Cityscapes and 4.9 mIoU for Synthia-to-Cityscapes, resulting in unprecedented 73.8 and 65.8 mIoU, respectively. The implementation is available at https://github.com/lhoyer/HRDA.
翻訳日:2022-04-29 13:57:13 公開日:2022-04-27
# 近近距離分類器の改良

An Improved Nearest Neighbour Classifier ( http://arxiv.org/abs/2204.13141v1 )

ライセンス: Link先を確認
Eric Setterqvist, Natan Kruglyak, Robert Forchheimer(参考訳) 画像のNearest Neighbour(WNN)分類器のウィンドウ版について述べる。 その構成は人工ニューラルネットワークのアーキテクチャにインスパイアされているが、基礎となる理論フレームワークは近似理論に基づいている。 WNNは手書き桁の画像のデータセットMNISTとEMNISTについて説明する。 WNNのパラメータを校正するために、まず古典的なMNISTデータセットについて検討する。 次に、これらのパラメータを挑戦的なEMNISTデータセットに適用する。 WNNはEMNISTの画像の0.42%を誤って分類しており、したがって人間や浅いANNの予測よりも大幅に上回っていることが示されている。

A windowed version of the Nearest Neighbour (WNN) classifier for images is described. While its construction is inspired by the architecture of Artificial Neural Networks, the underlying theoretical framework is based on approximation theory. We illustrate WNN on the datasets MNIST and EMNIST of images of handwritten digits. In order to calibrate the parameters of WNN, we first study it on the classical MNIST dataset. We then apply WNN with these parameters to the challenging EMNIST dataset. It is demonstrated that WNN misclassifies 0.42% of the images of EMNIST and therefore significantly outperforms predictions by humans and shallow ANNs that both have more than 1.3% of errors.
翻訳日:2022-04-29 13:56:43 公開日:2022-04-27
# 畳み込みニューラルネットワークを用いた最悪の動的配電網騒音予測

Worst-Case Dynamic Power Distribution Network Noise Prediction Using Convolutional Neural Network ( http://arxiv.org/abs/2204.13109v1 )

ライセンス: Link先を確認
Xiao Dong, Yufei Chen, Xunzhao Yin, Cheng Zhuo(参考訳) 最悪の動的PDNノイズ分析は、チップの性能と信頼性を確保するためにPDNサインオフにおいて重要なステップである。 しかし、PDNのサイズが増大し、シナリオが増加するにつれて、異なるテストベクトルの最悪のノイズをチェックするためにフルスタックのPDNシミュレーションを実行するのは非常に時間と時間を要する。 近年、様々な研究がサプライノイズ予測のための機械学習に基づく手法を提案しており、その多くが依然として大きな訓練オーバーヘッド、非効率性、非スケーリング性に悩まされている。 そこで本稿では,最悪ケースの動的PDN雑音予測のための,効率的かつスケーラブルなフレームワークを提案する。 このフレームワークは、まずPDNと入力電流ベクトルの空間的および時間的冗長性を低減し、次いで効率的な特徴抽出と新しい畳み込みニューラルネットワークアーキテクチャを用いて、最悪のケースの動的PDNノイズを予測する。 実験結果から,提案手法は商用ツールと最先端の機械学習手法に一貫して優れており,相対誤差は0.63-1.02%,速度は25-69$\times$であることがわかった。

Worst-case dynamic PDN noise analysis is an essential step in PDN sign-off to ensure the performance and reliability of chips. However, with the growing PDN size and increasing scenarios to be validated, it becomes very time- and resource-consuming to conduct full-stack PDN simulation to check the worst-case noise for different test vectors. Recently, various works have proposed machine learning based methods for supply noise prediction, many of which still suffer from large training overhead, inefficiency, or non-scalability. Thus, this paper proposed an efficient and scalable framework for the worst-case dynamic PDN noise prediction. The framework first reduces the spatial and temporal redundancy in the PDN and input current vector, and then employs efficient feature extraction as well as a novel convolutional neural network architecture to predict the worst-case dynamic PDN noise. Experimental results show that the proposed framework consistently outperforms the commercial tool and the state-of-the-art machine learning method with only 0.63-1.02% mean relative error and 25-69$\times$ speedup.
翻訳日:2022-04-29 13:48:06 公開日:2022-04-27
# AutoLossGen:Recommenderシステムのための自動損失関数生成

AutoLossGen: Automatic Loss Function Generation for Recommender Systems ( http://arxiv.org/abs/2204.13160v1 )

ライセンス: Link先を確認
Zelong Li, Jianchao Ji, Yingqiang Ge, Yongfeng Zhang(参考訳) レコメンデーションシステムでは、良い損失がモデル性能を大幅に改善する可能性があるため、損失関数の選択が重要である。 しかし、問題の複雑さのため、手動でよい損失を設計することは大きな課題です。 以前の仕事の大部分は、重要な専門知識と人的努力を必要とする手作りの損失機能に焦点を当てていた。 本稿では,機械学習の最近の発展に触発されて,自動損失関数生成フレームワークであるautolossgenを提案する。 具体的には、強化学習を駆使して損失関数を生成するコントローラモデルを開発し、反復的かつ反復的な最適化スケジュールを開発し、コントローラモデルとレコメンダモデルのパラメータを更新する。 レコメンダシステムにおける自動損失生成の課題の一つは、レコメンデーションデータセットの極端なスパースである。 この問題を解決するため,効率よく効果的な損失発生のための報酬フィルタリング機構を更に開発する。 実験結果から,提案するフレームワークは,異なる推薦モデルやデータセットに対して適切な損失関数を作成することができ,生成した損失は,一般的に使用されるベースライン損失よりも優れたレコメンデーション性能が得られることが示された。 さらに、生成された損失のほとんどは転送可能であり、すなわち、あるモデルとデータセットに基づいて生成された損失は、別のモデルやデータセットでもうまく機能する。 ソースコードはhttps://github.com/rutgerswiselab/autolossgenで入手できる。

In recommendation systems, the choice of loss function is critical since a good loss may significantly improve the model performance. However, manually designing a good loss is a big challenge due to the complexity of the problem. A large fraction of previous work focuses on handcrafted loss functions, which needs significant expertise and human effort. In this paper, inspired by the recent development of automated machine learning, we propose an automatic loss function generation framework, AutoLossGen, which is able to generate loss functions directly constructed from basic mathematical operators without prior knowledge on loss structure. More specifically, we develop a controller model driven by reinforcement learning to generate loss functions, and develop iterative and alternating optimization schedule to update the parameters of both the controller model and the recommender model. One challenge for automatic loss generation in recommender systems is the extreme sparsity of recommendation datasets, which leads to the sparse reward problem for loss generation and search. To solve the problem, we further develop a reward filtering mechanism for efficient and effective loss generation. Experimental results show that our framework manages to create tailored loss functions for different recommendation models and datasets, and the generated loss gives better recommendation performance than commonly used baseline losses. Besides, most of the generated losses are transferable, i.e., the loss generated based on one model and dataset also works well for another model or dataset. Source code of the work is available at https://github.com/rutgerswiselab/AutoLossGen.
翻訳日:2022-04-29 13:17:31 公開日:2022-04-27
# fedshuffle: フェデレーション学習におけるローカルワークのより良い利用のためのレシピ

FedShuffle: Recipes for Better Use of Local Work in Federated Learning ( http://arxiv.org/abs/2204.13169v1 )

ライセンス: Link先を確認
Samuel Horv\'ath and Maziar Sanjabi and Lin Xiao and Peter Richt\'arik and Michael Rabbat(参考訳) クライアント間のアグリゲーションの前にいくつかのローカルアップデートを適用するというプラクティスは、連合学習(fl)におけるコミュニケーションボトルネックを克服するアプローチとして成功したことが実証的に示されている。 本研究では,特にヘテロジニアス・レジームにおいて,flの局所的な更新をよりよく利用する一般的なレシピであるfeedshuffleを提案する。 多くの先行作品とは異なり、feedshuffleはデバイス毎のアップデート数の均一性を前提としない。 われわれのFedShuffleレシピは4つのシンプルで強靭な材料から成り立っている。 1)データの局所的なシャッフル 2)地域学習率の調整 3)重み付けの更新、及び 4) 運動量分散の低減(Cutkosky and Orabona, 2019)。 本研究では,フェドシャッフルの包括的理論解析を行い,理論上,実証的に両手法が,不均質な fl 構成(例えば fedavg (mcmahan et al., 2017) において均質な更新を仮定する fl 法に存在する客観的関数ミスマッチに苦しむことはないことを示した。 さらに、上記の材料を組み合わせることで、FedShuffleは以前このミスマッチを解決するために提案されていたFedNova(Wang et al., 2020)を改善している。 また,モーメント分散の低減を伴うFedShuffleは,ヘッセン類似性仮定の下で非局所的手法により改善可能であることを示す。 最後に、合成および実世界のデータセットに関する実験を通じて、FedShuffleで使用される4つの成分のそれぞれがFLでのローカルアップデートの使用を改善する方法について説明する。

The practice of applying several local updates before aggregation across clients has been empirically shown to be a successful approach to overcoming the communication bottleneck in Federated Learning (FL). In this work, we propose a general recipe, FedShuffle, that better utilizes the local updates in FL, especially in the heterogeneous regime. Unlike many prior works, FedShuffle does not assume any uniformity in the number of updates per device. Our FedShuffle recipe comprises four simple-yet-powerful ingredients: 1) local shuffling of the data, 2) adjustment of the local learning rates, 3) update weighting, and 4) momentum variance reduction (Cutkosky and Orabona, 2019). We present a comprehensive theoretical analysis of FedShuffle and show that both theoretically and empirically, our approach does not suffer from the objective function mismatch that is present in FL methods which assume homogeneous updates in heterogeneous FL setups, e.g., FedAvg (McMahan et al., 2017). In addition, by combining the ingredients above, FedShuffle improves upon FedNova (Wang et al., 2020), which was previously proposed to solve this mismatch. We also show that FedShuffle with momentum variance reduction can improve upon non-local methods under a Hessian similarity assumption. Finally, through experiments on synthetic and real-world datasets, we illustrate how each of the four ingredients used in FedShuffle helps improve the use of local updates in FL.
翻訳日:2022-04-29 13:16:53 公開日:2022-04-27
# TransHER:超楕円体制限を用いた知識グラフの翻訳

TransHER: Translating Knowledge Graph Embedding with Hyper-Ellipsoidal Restriction ( http://arxiv.org/abs/2204.13221v1 )

ライセンス: Link先を確認
Yizhi Li, Wei Fan, Chao Liu, Chenghua Lin, Jiang Qian(参考訳) 知識グラフ埋め込み手法は,大規模データセットにおけるロバストな性能と効率性から,知識グラフ補完(リンク予測)において重要である。 最先端の方法の1つであるPairREは、知識グラフにおける複素関係(すなわち、1-to-N、N-to-1、N-to-N)をモデル化するために2つの別個のベクトルを利用する。 しかし、そのような手法は、超楕円面上のエンティティを厳格に制限し、エンティティ分布の最適化を制限し、知識グラフの完備化を阻害する。 そこで本研究では,分離した超楕円体に制限される頭部と尾部の関係特異的な翻訳を利用するスコア関数トランスヘルを提案する。 特に、三重項を与えられたモデルでは、まずエンティティを2つの別々の超楕円体にマッピングし、その1つについて関係特異的な翻訳を行う。 関係特化翻訳により、TransHERはより直接的な最適化ガイダンスと複雑な関係を持つエンティティの意味的特性を学ぶことができる。 実験結果から,TransHERは最先端のパフォーマンスを実現し,異なる領域やスケールのデータセットに一般化可能であることが示された。 すべてのコードが公開される予定だ。

Knowledge graph embedding methods are important for knowledge graph completion (link prediction) due to their robust performance and efficiency on large-magnitude datasets. One state-of-the-art method, PairRE, leverages two separate vectors for relations to model complex relations (i.e., 1-to-N, N-to-1, and N-to-N) in knowledge graphs. However, such a method strictly restricts entities on the hyper-ellipsoid surface and thus limits the optimization of entity distribution, which largely hinders the performance of knowledge graph completion. To address this problem, we propose a novel score function TransHER, which leverages relation-specific translations between head and tail entities restricted on separate hyper-ellipsoids. Specifically, given a triplet, our model first maps entities onto two separate hyper-ellipsoids and then conducts a relation-specific translation on one of them. The relation-specific translation provides TransHER with more direct guidance in optimization and the ability to learn semantic characteristics of entities with complex relations. Experimental results show that TransHER can achieve state-of-the-art performance and generalize to datasets in different domains and scales. All our code will be publicly available.
翻訳日:2022-04-29 12:47:00 公開日:2022-04-27
# r-mbo:多目的ベイズ最適化における選好導入のためのマルチサーロゲートアプローチ

R-MBO: A Multi-surrogate Approach for Preference Incorporation in Multi-objective Bayesian Optimisation ( http://arxiv.org/abs/2204.13166v1 )

ライセンス: Link先を確認
Tinkle Chugh(参考訳) 実世界の多目的最適化問題の多くは計算コストの高い関数評価に依存している。 多目的ベイズ最適化(BO)は計算時間を緩和し、パレート最適解の近似集合を見つけるために用いられる。 多くの実世界の問題において、意思決定者は目的関数を好みます。 多目的boに選好を組み込む1つのアプローチは、スカラー関数を使用して単一のサーロゲートモデル(モノサーロゲートアプローチ)を構築することである。 このアプローチには2つの大きな制限がある。 第一に、スキャラライジング関数と目的関数のフィットネスランドスケープは似ていないかもしれない。 第二に、スカラー関数分布がガウス的であると仮定し、例えば期待改善のような取得関数の閉形式表現を用いることができる。 これらの制約を各目的関数上に独立代理モデルを構築することで克服し、スカラー化関数の分布がガウス的でないことを示す。 一般化値分布を用いて分布を近似する。 本稿では,多目的boにおける意思決定者の選好として望ましい目的関数値(あるいは参照点)を取り入れたa-priori multi-surrogateアプローチを提案する。 ベンチマークおよび実世界の最適化問題に対する既存のモノサーロゲートアプローチとの比較は,提案手法の可能性を示している。

Many real-world multi-objective optimisation problems rely on computationally expensive function evaluations. Multi-objective Bayesian optimisation (BO) can be used to alleviate the computation time to find an approximated set of Pareto optimal solutions. In many real-world problems, a decision-maker has some preferences on the objective functions. One approach to incorporate the preferences in multi-objective BO is to use a scalarising function and build a single surrogate model (mono-surrogate approach) on it. This approach has two major limitations. Firstly, the fitness landscape of the scalarising function and the objective functions may not be similar. Secondly, the approach assumes that the scalarising function distribution is Gaussian, and thus a closed-form expression of an acquisition function e.g., expected improvement can be used. We overcome these limitations by building independent surrogate models (multi-surrogate approach) on each objective function and show that the distribution of the scalarising function is not Gaussian. We approximate the distribution using Generalised value distribution. We present an a-priori multi-surrogate approach to incorporate the desirable objective function values (or reference point) as the preferences of a decision-maker in multi-objective BO. The results and comparison with the existing mono-surrogate approach on benchmark and real-world optimisation problems show the potential of the proposed approach.
翻訳日:2022-04-29 12:21:29 公開日:2022-04-27
# すべてのラベルを使用する:階層型マルチラベルコントラスト学習フレームワーク

Use All The Labels: A Hierarchical Multi-Label Contrastive Learning Framework ( http://arxiv.org/abs/2204.13207v1 )

ライセンス: Link先を確認
Shu Zhang and Ran Xu and Caiming Xiong and Chetan Ramaiah(参考訳) 現在の対照的な学習フレームワークは、表現を学ぶために単一の監督信号を活用することに重点を置いている。 本稿では,利用可能なラベルを全て活用し,クラス間の階層的関係を保存できる階層的マルチラベル表現学習フレームワークを提案する。 対照損失に対して階層的ペナルティを共同で適用し,階層的制約を強制する,新たな階層的損失保存方式を導入する。 損失関数はデータ駆動であり、任意のマルチラベル構造に自動的に適応する。 いくつかのデータセットの実験では、関係保存の埋め込みは様々なタスクでうまく機能し、ベースラインの監督と自己監督のアプローチよりも優れています。 コードはhttps://github.com/salesforce/hierarchicalcontrastivelearningで入手できる。

Current contrastive learning frameworks focus on leveraging a single supervisory signal to learn representations, which limits the efficacy on unseen data and downstream tasks. In this paper, we present a hierarchical multi-label representation learning framework that can leverage all available labels and preserve the hierarchical relationship between classes. We introduce novel hierarchy preserving losses, which jointly apply a hierarchical penalty to the contrastive loss, and enforce the hierarchy constraint. The loss function is data driven and automatically adapts to arbitrary multi-label structures. Experiments on several datasets show that our relationship-preserving embedding performs well on a variety of tasks and outperform the baseline supervised and self-supervised approaches. Code is available at https://github.com/salesforce/hierarchicalContrastiveLearning.
翻訳日:2022-04-29 12:21:07 公開日:2022-04-27
# 適応バイアス推定によるフェデレーション学習におけるクライアントドリフト最小化

Minimizing Client Drift in Federated Learning via Adaptive Bias Estimation ( http://arxiv.org/abs/2204.13170v1 )

ライセンス: Link先を確認
Farshid Varno, Marzie Saghayi, Laya Rafiee, Sharut Gupta, Stan Matwin, Mohammad Havaei(参考訳) Federated Learningでは、多くのクライアントが協力して、データを共有せずにモデルをトレーニングします。 クライアントモデルはローカルに最適化され、サーバと呼ばれる中央ハブを介して通信される。 大きな課題は、クライアントのデータ間の不均一性に対処し、グローバルな目的に関して局所的な最適化を逸脱させることである。 このドリフトを推定し除去するために,近年,分散低減手法が統合学習最適化に取り入れられている。 しかし、既存の解は、クライアントのドリフトを不正確な近似に導く最適化軌道を通して、その推定の誤差を伝搬し、最終的にそれらを適切に除去できない。 本稿では,クライアントのドリフトを効率的に低減する適応アルゴリズムを導入することでこの問題に対処する。 フェデレートラーニングに分散低減を適用する以前の研究と比較すると、我々のアプローチは通信帯域幅、計算、記憶のレベルが小さいか同じである。 さらに、従来の作業でよく見られる不安定性の問題に対処する。これは、我々のアプローチを大規模なフェデレート学習設定のためのより実用的なソリューションにする見積もりのノルムの増加に起因する。 実験の結果,本アルゴリズムの収束速度は,フェデレーション学習ベンチマークのベースラインと比較して有意に速く,高い精度が得られることがわかった。

In Federated Learning a number of clients collaborate to train a model without sharing their data. Client models are optimized locally and are communicated through a central hub called server. A major challenge is to deal with heterogeneity among clients' data which causes the local optimization to drift away with respect to the global objective. In order to estimate and therefore remove this drift, variance reduction techniques have been incorporated into Federated Learning optimization recently. However, the existing solutions propagate the error of their estimations, throughout the optimization trajectory which leads to inaccurate approximations of the clients' drift and ultimately failure to remove them properly. In this paper, we address this issue by introducing an adaptive algorithm that efficiently reduces clients' drift. Compared to the previous works on adapting variance reduction to Federated Learning, our approach uses less or the same level of communication bandwidth, computation or memory. Additionally, it addresses the instability problem--prevalent in prior work, caused by increasing norm of the estimates which makes our approach a much more practical solution for large scale Federated Learning settings. Our experimental results demonstrate that the proposed algorithm converges significantly faster and achieves higher accuracy compared to the baselines in an extensive set of Federated Learning benchmarks.
翻訳日:2022-04-29 12:20:45 公開日:2022-04-27
# ハイパーグラフコントラスト協調フィルタリング

Hypergraph Contrastive Collaborative Filtering ( http://arxiv.org/abs/2204.12200v2 )

ライセンス: Link先を確認
Lianghao Xia and Chao Huang and Yong Xu and Jiashu Zhao and Dawei Yin and Jimmy Xiangji Huang(参考訳) 協調フィルタリング(CF)は,ユーザや項目を遅延表現空間にパラメータ化するための基本パラダイムとして,インタラクションデータからの相関パターンとして登場した。 CF技術の中でも、PinSageやLightGCNといったGNNベースのレコメンドシステムの開発は最先端のパフォーマンスを提供している。 しかし、既存のソリューションでは2つの重要な課題が十分に検討されていない。 i) より深いグラフベースのcfアーキテクチャによる過剰なスムーシング効果は、識別不能なユーザ表現と推奨結果の低下を引き起こす可能性がある。 二 監督信号(すなわち、ユーザとコンテンツの相互作用)は通常、cfパラダイムの表現力を制限する現実に分散して分布する。 これらの課題に対処するために,ハイパーグラフ強化クロスビューコントラスト学習アーキテクチャを用いて,局所的およびグローバルな協調関係を共同でキャプチャする,新たな自己監督型推薦フレームワークHypergraph Contrastive Collaborative Filtering (HCCF)を提案する。 特に、デザインされたハイパーグラフ構造学習は、GNNベースのCFパラダイムの識別能力を高め、ユーザ間の複雑な高次依存関係を包括的にキャプチャする。 さらに,hccfモデルはハイパーグラフ構造エンコーディングと自己教師付き学習を効果的に統合し,ハイパーグラフ強調自己識別に基づくレコメンダシステムの表現品質を高める。 3つのベンチマークデータセットに対する大規模な実験は、様々な最先端のレコメンデーション手法よりもモデルの優位性と、スパースユーザーインタラクションデータに対する堅牢性を示している。 私たちのモデル実装コードはhttps://github.com/akaxlh/hccfで利用可能です。

Collaborative Filtering (CF) has emerged as fundamental paradigms for parameterizing users and items into latent representation space, with their correlative patterns from interaction data. Among various CF techniques, the development of GNN-based recommender systems, e.g., PinSage and LightGCN, has offered the state-of-the-art performance. However, two key challenges have not been well explored in existing solutions: i) The over-smoothing effect with deeper graph-based CF architecture, may cause the indistinguishable user representations and degradation of recommendation results. ii) The supervision signals (i.e., user-item interactions) are usually scarce and skewed distributed in reality, which limits the representation power of CF paradigms. To tackle these challenges, we propose a new self-supervised recommendation framework Hypergraph Contrastive Collaborative Filtering (HCCF) to jointly capture local and global collaborative relations with a hypergraph-enhanced cross-view contrastive learning architecture. In particular, the designed hypergraph structure learning enhances the discrimination ability of GNN-based CF paradigm, so as to comprehensively capture the complex high-order dependencies among users. Additionally, our HCCF model effectively integrates the hypergraph structure encoding with self-supervised learning to reinforce the representation quality of recommender systems, based on the hypergraph-enhanced self-discrimination. Extensive experiments on three benchmark datasets demonstrate the superiority of our model over various state-of-the-art recommendation methods, and the robustness against sparse user interaction data. Our model implementation codes are available at https://github.com/akaxlh/HCCF.
翻訳日:2022-04-29 11:09:16 公開日:2022-04-27
# (参考訳) 動的多重グラフ注意による長期時空間予測

Long-term Spatio-temporal Forecasting via Dynamic Multiple-Graph Attention ( http://arxiv.org/abs/2204.11008v2 )

ライセンス: CC BY 4.0
Wei Shao, Zhiling Jin, Shuo Wang, Yufan Kang, Xiao Xiao, Hamid Menouar, Zhaofeng Zhang, Junshan Zhang, Flora Salim(参考訳) 駐車勧告や大気汚染監視などの現実のユビキタスアプリケーションの多くは、正確な長期時空間予測(LSTF)の恩恵を受けている。 LSTFは、空間的領域と時間的領域、文脈的情報、データ固有のパターン間の長期的な依存関係を利用する。 近年,マルチグラフニューラルネットワーク(mgnn)の予測性能向上の可能性が明らかにされている。 しかし, 従来のMGNN法は, 一般性の低いレベル, 文脈情報の不十分な利用, 不均衡グラフ融合アプローチといった問題により, LSTFに直接適用できない。 これらの問題に対処するため,各ノードのコンテキスト情報と長期時空間データ依存構造を表現するグラフモデルを構築した。 複数のグラフにまたがって情報を融合するために,グラフ内のノードとグラフ間のノードの相関を空間的注意とグラフ注意機構を介して特徴付ける,動的多グラフ融合モジュールを提案する。 さらに、異なるグラフにおける各ノードの重要性を示すトレーニング可能な重みテンソルを導入する。 2つの大規模データセットに対する大規模な実験により、LSTF予測タスクにおける既存のグラフニューラルネットワークモデルの性能が大幅に向上することを示した。

Many real-world ubiquitous applications, such as parking recommendations and air pollution monitoring, benefit significantly from accurate long-term spatio-temporal forecasting (LSTF). LSTF makes use of long-term dependency between spatial and temporal domains, contextual information, and inherent pattern in the data. Recent studies have revealed the potential of multi-graph neural networks (MGNNs) to improve prediction performance. However, existing MGNN methods cannot be directly applied to LSTF due to several issues: the low level of generality, insufficient use of contextual information, and the imbalanced graph fusion approach. To address these issues, we construct new graph models to represent the contextual information of each node and the long-term spatio-temporal data dependency structure. To fuse the information across multiple graphs, we propose a new dynamic multi-graph fusion module to characterize the correlations of nodes within a graph and the nodes across graphs via the spatial attention and graph attention mechanisms. Furthermore, we introduce a trainable weight tensor to indicate the importance of each node in different graphs. Extensive experiments on two large-scale datasets demonstrate that our proposed approaches significantly improve the performance of existing graph neural network models in LSTF prediction tasks.
翻訳日:2022-04-29 07:46:13 公開日:2022-04-27
# (参考訳) 腫瘍微小環境における腫瘍免疫的空間関係の解明のための新しい枠組み

A Novel Framework for Characterization of Tumor-Immune Spatial Relationships in Tumor Microenvironment ( http://arxiv.org/abs/2204.12283v2 )

ライセンス: CC BY 4.0
Mahmudul Hasan, Jakub R. Kaczmarzyk, David Paredes, Lyanne Oblein, Jaymie Oentoro, Shahira Abousamra, Michael Horowitz, Dimitris Samaras, Chao Chen, Tahsin Kurc, Kenneth R. Shroyer, Joel Saltz(参考訳) 近くの細胞の組成に対する腫瘍生物学の影響を理解するには、しばしば生物学的に異なる腫瘍領域の影響を特徴づける必要がある。 バイオマーカーは生物学的に異なる腫瘍領域をラベル付けするために開発されたが、空間範囲の違いと異なるラベル付き領域の分布のために課題が生じる。 本稿では,腫瘍境界近傍の細胞に対する異なる腫瘍領域の影響を体系的に調査するための枠組みを提案する。 本フレームワークを膵癌における多発性免疫組織化学(mIHC)研究に適用し,生物学的に異なる腫瘍領域が腫瘍微小環境における免疫応答に与える影響を示す。 さらに,提案するフレームワークは,大規模なスライド画像解析に拡張可能であることを示す。

Understanding the impact of tumor biology on the composition of nearby cells often requires characterizing the impact of biologically distinct tumor regions. Biomarkers have been developed to label biologically distinct tumor regions, but challenges arise because of differences in the spatial extent and distribution of differentially labeled regions. In this work, we present a framework for systematically investigating the impact of distinct tumor regions on cells near the tumor borders, accounting their cross spatial distributions. We apply the framework to multiplex immunohistochemistry (mIHC) studies of pancreatic cancer and show its efficacy in demonstrating how biologically different tumor regions impact the immune response in the tumor microenvironment. Furthermore, we show that the proposed framework can be extended to largescale whole slide image analysis.
翻訳日:2022-04-29 07:33:07 公開日:2022-04-27
# (参考訳) 深層学習モデルにおけるSHAP(SHapley Additive Explanations)の安定性に及ぼす背景データサイズの影響に関する実証的研究

An empirical study of the effect of background data size on the stability of SHapley Additive exPlanations (SHAP) for deep learning models ( http://arxiv.org/abs/2204.11351v2 )

ライセンス: CC BY 4.0
Han Yuan, Mingxuan Liu, Lican Kang, Chenkui Miao, Ying Wu(参考訳) 今日では、機械学習(ML)モデルが特定の推論を行う理由の解釈は、そのような推論の正確さと同じくらい重要である。 決定木のようなMLモデルは、人間によって直接解釈できる固有の解釈可能性を持っている。 しかし、artificial neural networks (ann)のような他のものは、推論メカニズムを明らかにするために外部の方法に依存している。 SHAP(SHapley Additive exPlanations)は、ANNを解釈する際にバックグラウンドデータセットを必要とする外部メソッドの1つである。 一般的に、バックグラウンドデータセットはトレーニングデータセットからランダムにサンプリングされたインスタンスで構成される。 しかし、サンプリングサイズとそのシャップへの影響は未解明のままである。 MIMIC-IIIデータセットに関する実証的研究では,ランダムサンプリングから取得した異なる背景データセットを使用すると,SHAP値と変数ランクが変動し,SHAPからのワンショット解釈を疑わしく信頼できないことを示す。 幸いなことに、背景データセットサイズの増加に伴い、そのような変動は減少する。 また、SHAP変数ランキングの安定性評価におけるU字型は、中等度に重要な変数よりも、最も重要かつ最も重要でない変数のランク付けに信頼性が高いことを示す。 以上の結果から,背景データがSHAP結果に与える影響を考慮し,背景サンプルサイズが大きくなるにつれてSHAP安定性が向上することが示唆された。

Nowadays, the interpretation of why a machine learning (ML) model makes certain inferences is as crucial as the accuracy of such inferences. Some ML models like the decision tree possess inherent interpretability that can be directly comprehended by humans. Others like artificial neural networks (ANN), however, rely on external methods to uncover the deduction mechanism. SHapley Additive exPlanations (SHAP) is one of such external methods, which requires a background dataset when interpreting ANNs. Generally, a background dataset consists of instances randomly sampled from the training dataset. However, the sampling size and its effect on SHAP remain to be unexplored. In our empirical study on the MIMIC-III dataset, we show that the two core explanations - SHAP values and variable rankings fluctuate when using different background datasets acquired from random sampling, indicating that users cannot unquestioningly trust the one-shot interpretation from SHAP. Luckily, such fluctuation decreases with the increase of the background dataset size. Also, we notice an U-shape in the stability assessment of SHAP variable rankings, demonstrating that SHAP is more reliable in ranking the most and least important variables compared to moderately important ones. Overall, our results suggest that users should take into account how background data affects SHAP results, with improved SHAP stability as the background sample size increases.
翻訳日:2022-04-29 07:14:09 公開日:2022-04-27
# (参考訳) ダイナミック・エビデンシャル・フュージョンを用いた信頼度多視点分類

Trusted Multi-View Classification with Dynamic Evidential Fusion ( http://arxiv.org/abs/2204.11423v2 )

ライセンス: CC BY 4.0
Zongbo Han, Changqing Zhang, Huazhu Fu, and Joey Tianyi Zhou(参考訳) 既存のマルチビュー分類アルゴリズムは、様々なビューを活用して精度を高めることに重点を置いている。 有効ではあるが、マルチビュー統合と最終決定、特にノイズ、腐敗、分散データの信頼性を確保することも重要である。 異なるサンプルに対する各ビューの信頼性を動的に評価することで、信頼性の高い統合が可能になる。 これは不確実性推定によって達成できる。 そこで本研究では,複数の視点をエビデンスレベルで動的に統合することで,多視点学習のための新しいパラダイムを提供する,信頼型多視点分類(TMC)と呼ばれる新しい多視点分類アルゴリズムを提案する。 提案したTMCは,各視点からの証拠を考慮し,分類信頼性を向上させることができる。 具体的には、クラス確率の分布を特徴づける変分ディリクレを導入し、異なる視点から証拠をパラメータ化し、デンプスター・シェーファー理論と統合する。 統合学習フレームワークは正確な不確実性を誘導し、ノイズや腐敗の可能性に対して信頼性と堅牢性の両方をモデルに与える。 理論および実験の結果から,提案モデルの精度,ロバスト性,信頼性が検証された。

Existing multi-view classification algorithms focus on promoting accuracy by exploiting different views, typically integrating them into common representations for follow-up tasks. Although effective, it is also crucial to ensure the reliability of both the multi-view integration and the final decision, especially for noisy, corrupted and out-of-distribution data. Dynamically assessing the trustworthiness of each view for different samples could provide reliable integration. This can be achieved through uncertainty estimation. With this in mind, we propose a novel multi-view classification algorithm, termed trusted multi-view classification (TMC), providing a new paradigm for multi-view learning by dynamically integrating different views at an evidence level. The proposed TMC can promote classification reliability by considering evidence from each view. Specifically, we introduce the variational Dirichlet to characterize the distribution of the class probabilities, parameterized with evidence from different views and integrated with the Dempster-Shafer theory. The unified learning framework induces accurate uncertainty and accordingly endows the model with both reliability and robustness against possible noise or corruption. Both theoretical and experimental results validate the effectiveness of the proposed model in accuracy, robustness and trustworthiness.
翻訳日:2022-04-29 07:03:53 公開日:2022-04-27
# (参考訳) エグゼクティブ機能:後見要約による知覚の再サンプリングとリラベル化のための対比的価値ポリシー?

Executive Function: A Contrastive Value Policy for Resampling and Relabeling Perceptions via Hindsight Summarization? ( http://arxiv.org/abs/2204.12639v1 )

ライセンス: CC BY 4.0
Chris Lengerich, Ben Lengerich(参考訳) 我々は,初原理から数発の連続学習タスクを開発し,オンラインのプロンプトエンジニアリング問題のように,後続の要約による認識データの再サンプリングと再ラベルを行うコントラッシブバリューポリシとして,実行機能に対する進化的モチベーションと行動のメカニズムを仮説化した。 これは、学習文法の帰納バイアスを持つメモリポリシーと事前学習ネットワークを使用することで実現可能となり、進化的生存を最大化するために訓練される。 本稿では,このモデルを用いて意識の流れとして仮説テストを実施し,人間の数発の学習と神経解剖学の観察を説明する。

We develop the few-shot continual learning task from first principles and hypothesize an evolutionary motivation and mechanism of action for executive function as a contrastive value policy which resamples and relabels perception data via hindsight summarization to minimize attended prediction error, similar to an online prompt engineering problem. This is made feasible by the use of a memory policy and a pretrained network with inductive biases for a grammar of learning and is trained to maximize evolutionary survival. We show how this model of executive function can be used to implement hypothesis testing as a stream of consciousness and may explain observations of human few-shot learning and neuroanatomy.
翻訳日:2022-04-29 00:13:42 公開日:2022-04-27
# (参考訳) CLI使用例の生成: トランスフォーマーは役に立つか?

Generating Examples From CLI Usage: Can Transformers Help? ( http://arxiv.org/abs/2204.12648v1 )

ライセンス: CC BY 4.0
Roshanak Zilouchian Moghaddam, Spandan Garg, Colin B. Clement, Yevhen Mohylevskyy, Neel Sundaresan(参考訳) 現代のソフトウェアにおける継続的な進化は、しばしばドキュメント、チュートリアル、例が変化したインターフェースやフレームワークと同期しないようにする。 時代遅れのドキュメンテーションや例を参考にすると、プログラムが失敗するか、効率が悪くなり、安全性が低下する。 これに対してプログラマは,StackOverflowなどのWeb上の他のリソースに対して,ソフトウェアの記述をガイドする例を定期的に行わなくてはなりません。 この不便でエラーを起こしやすいプロセスは、ソフトウェアの使用データに機械学習を適用することで改善できると認識している。 本稿では,大規模テレメトリデータと文書コーパスに機械学習を応用し,ドキュメント改善に有効な適切な複雑な例を生成する実践システムを提案する。 我々は、機能ベースとトランスフォーマーベースの機械学習の両方のアプローチを議論し、本システムが使用済みの機能について100%のカバレッジを達成し、リリース毎に最新の例を提供し、ソフトウェアオーナが提出するprの数を68%以上削減できることを実証する。 また、Azure Cloud Command Line Interface(Azure CLI)のためにプロダクション品質システムがデプロイされたことを3年間に学んだ貴重な教訓も公開しています。

Continuous evolution in modern software often causes documentation, tutorials, and examples to be out of sync with changing interfaces and frameworks. Relying on outdated documentation and examples can lead programs to fail or be less efficient or even less secure. In response, programmers need to regularly turn to other resources on the web such as StackOverflow for examples to guide them in writing software. We recognize that this inconvenient, error-prone, and expensive process can be improved by using machine learning applied to software usage data. In this paper, we present our practical system which uses machine learning on large-scale telemetry data and documentation corpora, generating appropriate and complex examples that can be used to improve documentation. We discuss both feature-based and transformer-based machine learning approaches and demonstrate that our system achieves 100% coverage for the used functionalities in the product, providing up-to-date examples upon every release and reduces the numbers of PRs submitted by software owners writing and editing documentation by >68%. We also share valuable lessons learnt during the 3 years that our production quality system has been deployed for Azure Cloud Command Line Interface (Azure CLI).
翻訳日:2022-04-29 00:02:48 公開日:2022-04-27
# (参考訳) 5 W と 1 H のアプローチによる異なる国におけるオンライン学習の創発性の検討

Investigating the Emergence of Online Learning in Different Countries using the 5 W's and 1 H Approach ( http://arxiv.org/abs/2204.12650v1 )

ライセンス: CC BY 4.0
Nirmalya Thakur, Isabella Hall, and Chia Y. Han(参考訳) 過去10年間のインターネット・オブ・オールズ(Internet of Everything)のライフスタイルの台頭は、世界中のほぼすべての国でオンライン学習の普及と普及に大きな影響を与えた。 e-learning 3.0は、今後数年間でほぼすべての分野において、世界中で学習の標準となることが期待されている。 あらゆるライフスタイルのインターネットを活用したセマンティックWebの普及は、E-learning 3.0の新たなパラダイムをシームレスかつ迅速に採用する上で、大きな役割を果たすことが期待されている。 そこで本研究では,世界各国におけるオンライン学習の出現を調査するために,セマンティックWeb行動データのマルチモーダル成分を探索的に分析する。 この研究は、関連するweb行動データを調査して、5 wと1 h -- who, what, when, why, and how related with online learningを解釈するものだった。 2021年のe-learning indexの研究に基づいて、経済協力開発機構の加盟国であるすべての国を対象に研究を行った。 その結果,各国におけるオンライン学習の出現を,関連する公的な認識,クエリ,意見,行動,視点の観点から解釈する上での助けとなった。 さらに、この分野での研究開発を支援するために、これらの38カ国すべてで採掘されたオンライン学習に関連するWeb行動ベースのビッグデータをデータセットとして公開し、https://dx.doi.org/10.21227/xbvs-0198で利用可能にしました。

The rise of the Internet of Everything lifestyle in the last decade has had a significant impact on the increased emergence and adoption of online learning in almost all countries across the world. E-learning 3.0 is expected to become the norm of learning globally in almost all sectors in the next few years. The pervasiveness of the Semantic Web powered by the Internet of Everything lifestyle is expected to play a huge role towards seamless and faster adoption of the emerging paradigms of E-learning 3.0. Therefore, this paper presents an exploratory study to analyze multimodal components of Semantic Web behavior data to investigate the emergence of online learning in different countries across the world. The work specifically involved investigating relevant web behavior data to interpret the 5 W's and 1 H - Who, What, When Where, Why, and How related to online learning. Based on studying the E-learning Index of 2021, the study was performed for all the countries that are member states of the Organization for Economic Cooperation and Development. The results presented and discussed help to interpret the emergence of online learning in each of these countries in terms of the associated public perceptions, queries, opinions, behaviors, and perspectives. Furthermore, to support research and development in this field, we have published the web behavior-based Big Data related to online learning that was mined for all these 38 countries, in the form of a dataset, which is avail-able at https://dx.doi.org/10.21227/xbvs-0198.
翻訳日:2022-04-28 23:48:41 公開日:2022-04-27
# (参考訳) コールドスタート問題に対するレコメンダシステムにおける自己セレンディピティー選択の生成

Generating Self-Serendipity Preference in Recommender Systems for Addressing Cold Start Problems ( http://arxiv.org/abs/2204.12651v1 )

ライセンス: CC BY 4.0
Yuanbo Xu, Yongjian Yang, En Wang(参考訳) 古典的な精度指向のレコメンダシステム(RS)は、ユーザーが慣れ親しんだ、繰り返し、予測可能なレコメンデーションに苦しむとき、コールドスタート問題とフィルタバブル問題に直面し、退屈で満足できない。 以上の問題に対処するため,セレンディピティー指向rssは,ユーザの歴史的相互作用から著しく逸脱した魅力や価値ある項目を推薦するために提案されている。 本稿では、ユーザの自己セレンディピティー嗜好を生成する新しいセレンディピティー指向のレコメンデーションシステム(\textbf{G}enerative \textbf{S}elf-\textbf{S}erendipity \textbf{R}ecommender \textbf{S}ystem, \textbf{GS$^2$-RS})を考案し、レコメンデーション性能を向上させる。 具体的には、ユーザの興味や満足度を抽出し、仮想的だが信頼できる隣人の好みを自己から生成し、自己セレンディピティーの好みを達成する。 次に、これらの嗜好をRSモデルの追加情報として評価行列に注入する。 gs$^2$-rs はコールドスタート問題に対処できるだけでなく、フィルタバブル問題を緩和するための多様な適切な推奨を提供する。 ベンチマークデータセットに対する大規模な実験により、提案したGS$^2$-RSモデルは、セレンディピティー測定における最先端のベースラインアプローチを、安定した精度性能で大幅に上回ることを示した。

Classical accuracy-oriented Recommender Systems (RSs) typically face the cold-start problem and the filter-bubble problem when users suffer the familiar, repeated, and even predictable recommendations, making them boring and unsatisfied. To address the above issues, serendipity-oriented RSs are proposed to recommend appealing and valuable items significantly deviating from users' historical interactions and thus satisfying them by introducing unexplored but relevant candidate items to them. In this paper, we devise a novel serendipity-oriented recommender system (\textbf{G}enerative \textbf{S}elf-\textbf{S}erendipity \textbf{R}ecommender \textbf{S}ystem, \textbf{GS$^2$-RS}) that generates users' self-serendipity preferences to enhance the recommendation performance. Specifically, this model extracts users' interest and satisfaction preferences, generates virtual but convincible neighbors' preferences from themselves, and achieves their self-serendipity preference. Then these preferences are injected into the rating matrix as additional information for RS models. Note that GS$^2$-RS can not only tackle the cold-start problem but also provides diverse but relevant recommendations to relieve the filter-bubble problem. Extensive experiments on benchmark datasets illustrate that the proposed GS$^2$-RS model can significantly outperform the state-of-the-art baseline approaches in serendipity measures with a stable accuracy performance.
翻訳日:2022-04-28 23:36:55 公開日:2022-04-27
# (参考訳) 新型コロナウイルスによる米国での遠隔学習型Googleショッピングの動向

Trends in Remote Learning-based Google Shopping in the United States due to COVID-19 ( http://arxiv.org/abs/2204.12654v1 )

ライセンス: CC BY 4.0
Isabella Hall, Nirmalya Thakur, and Chia Y. Han(参考訳) 米国は、重症急性呼吸器症候群ウイルス(SARS-CoV-2)や新型コロナウイルス(COVID-19)の感染者数や死亡件数で最悪の被害を受けた国だ。 2020年3月13日、新型コロナウイルス(covid-19)による入院・死亡に伴う感染症の急増と、その時点での明確な治療法の欠如により、米国では国家非常事態宣言が宣言された。 新型コロナウイルスの急速な拡大を防ぐため、いくつかの州は緊急事態宣言の直後に在宅勤務とリモートワークのガイドラインを宣言した。 このようなガイドラインにより、50の州すべてにおいて、私立と公立の両方の学校、カレッジ、大学は、かなりの期間、遠隔またはオンラインの教育形態に切り替えた。 その結果、米国で最も広く使われている検索エンジンであるGoogleは、遠隔学習ベースのソフトウェア、システム、アプリケーション、およびガジェットのオンラインショッピングが、米国全50州からの教育者および学生によって急増した。 本稿は,2020年3月13日以降に発生した遠隔学習に関するgoogleショッピングの動向を,全50州の学校,大学,大学において調査,分析し,分析することを目的とする。 この研究は、Google Trendsを使って実施された。Google Shoppingベースのオンラインアクティビティの追跡と調査を支援する。 その結果と議論の結果、リモートラーニングベースのGoogle Shoppingに関する最も関心がオレゴン州から記録され、その後にイリノイ、フロリダ、テキサス、カリフォルニア、その他の州が続いた。

The United States of America has been the worst affected country in terms of the number of cases and deaths on account of the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) or COVID-19, a highly transmissible and pathogenic coronavirus that started spreading globally in late 2019. On account of the surge of infections, accompanied by hospitalizations and deaths due to COVID-19, and lack of a definitive cure at that point, a national emergency was declared in the United States on March 13, 2020. To prevent the rapid spread of the virus, several states declared stay at home and remote work guidelines shortly after this declaration of an emergency. Such guidelines caused schools, colleges, and universities, both private and public, in all the 50-United States to switch to remote or online forms of teaching for a significant period of time. As a result, Google, the most widely used search engine in the United States, experienced a surge in online shopping of remote learning-based software, systems, applications, and gadgets by both educators and students from all the 50-United States, due to both these groups responding to the associated needs and demands related to switching to remote teaching and learning. This paper aims to investigate, analyze, and interpret these trends of Google Shopping related to remote learning that emerged since March 13, 2020, on account of COVID-19 and the subsequent remote learning adoption in almost all schools, colleges, and universities, from all the 50-United States. The study was performed using Google Trends, which helps to track and study Google Shopping-based online activity emerging from different geolocations. The results and discussions show that the highest interest related to Remote Learning-based Google Shopping was recorded from Oregon, which was followed by Illinois, Florida, Texas, California, and the other states.
翻訳日:2022-04-28 23:24:07 公開日:2022-04-27
# (参考訳) 知識ベース質問応答に対するクエリグラフ選択の改善

Better Query Graph Selection for Knowledge Base Question Answering ( http://arxiv.org/abs/2204.12662v1 )

ライセンス: CC BY 4.0
Yonghui Jia and Wenliang Chen(参考訳) 本稿では,知識ベース質問回答(KBQA)の性能向上を目的とした意味解析に基づく新しい手法を提案する。 具体的には、知識ベース(KB)から回答を取得するために、候補セットから最適なクエリグラフを選択する方法に焦点を当てる。 提案手法では,まず,クエリグラフを線形化して,問合せのシーケンスペアを形成する。 これにより、BERTのような成熟したシーケンスモデリングを使ってシーケンスペアをエンコードすることができます。 次に、候補クエリグラフのソートにランキング手法を用いる。 従来の研究とは対照的に,本手法では,グラフと質問のセマンティックな相互作用を効率的にモデル化し,グローバルな視点から候補グラフをランク付けすることができる。 実験の結果,本システムは複雑問合せにおいて最高性能,web問合せでは2番目に優れた性能を得た。

This paper presents a novel approach based on semantic parsing to improve the performance of Knowledge Base Question Answering (KBQA). Specifically, we focus on how to select an optimal query graph from a candidate set so as to retrieve the answer from knowledge base (KB). In our approach, we first propose to linearize the query graph into a sequence, which is used to form a sequence pair with the question. It allows us to use mature sequence modeling, such as BERT, to encode the sequence pair. Then we use a ranking method to sort candidate query graphs. In contrast to the previous studies, our approach can efficiently model semantic interactions between the graph and the question as well as rank the candidate graphs from a global view. The experimental results show that our system achieves the top performance on ComplexQuestions and the second best performance on WebQuestions.
翻訳日:2022-04-28 23:12:27 公開日:2022-04-27
# (参考訳) 分散最適化アルゴリズムのクラスを理解する:マルチレートフィードバック制御の観点から

Understanding A Class of Decentralized and Federated Optimization Algorithms: A Multi-Rate Feedback Control Perspective ( http://arxiv.org/abs/2204.12663v1 )

ライセンス: CC BY 4.0
Xinwei Zhang, Mingyi Hong, Nicola Elia(参考訳) 分散アルゴリズムは、機械学習、信号処理、制御といった多くのアプリケーションにおいて、ますます重要な役割を担っている。 様々なアプリケーションのための新しいアルゴリズムの開発と分析に多大な研究努力が注がれている。 本研究では,分散最適化アルゴリズムを理解し,解析し,設計するための新たな視点を提供する。 マルチレートフィードバック制御のレンズを通して、一般的な分散/フェデレーションスキームを含む幅広い分散アルゴリズムが、おそらくは分散勾配降下、勾配追跡、フェデレーション平均化といった複数のサンプリングレートで、ある種の連続時間フィードバック制御システムを離散化することができることを示した。 この重要な観察によって、アルゴリズムクラス全体の収束を分析する汎用フレームワークを開発できるだけでなくなります。 さらに重要なのは、新しい分散アルゴリズムを設計する興味深い方法にもつながることだ。 フレームワークの背後にある理論を開発し、そのフレームワークが実際にどのように使われるかを強調する例を示します。

Distributed algorithms have been playing an increasingly important role in many applications such as machine learning, signal processing, and control. Significant research efforts have been devoted to developing and analyzing new algorithms for various applications. In this work, we provide a fresh perspective to understand, analyze, and design distributed optimization algorithms. Through the lens of multi-rate feedback control, we show that a wide class of distributed algorithms, including popular decentralized/federated schemes, can be viewed as discretizing a certain continuous-time feedback control system, possibly with multiple sampling rates, such as decentralized gradient descent, gradient tracking, and federated averaging. This key observation not only allows us to develop a generic framework to analyze the convergence of the entire algorithm class. More importantly, it also leads to an interesting way of designing new distributed algorithms. We develop the theory behind our framework and provide examples to highlight how the framework can be used in practice.
翻訳日:2022-04-28 23:01:29 公開日:2022-04-27
# (参考訳) Dual Probabilistic Modeling を用いたロバスト顔消毒

Robust Face Anti-Spoofing with Dual Probabilistic Modeling ( http://arxiv.org/abs/2204.12685v1 )

ライセンス: CC BY 4.0
Yuanhan Zhang, Yichao Wu, Zhenfei Yin, Jing Shao, Ziwei Liu(参考訳) フェイス・アンチ・スプーフィング(FAS)の分野は、深層学習の急増とともに大きな進歩をみせた。 データ駆動性のため、既存のFASメソッドはデータセットのノイズに敏感であり、学習プロセスのハードルとなる。 しかし、FASにおけるノイズモデリングを考える研究はほとんどない。 本研究では,ラベルとデータの観点からのノイズ問題を自動的に確率論的に解決することで,このギャップを埋めようとしている。 具体的には、DPM-LQ(ラベル品質認識学習)とDPM-DQ(データ品質認識学習)という2つの専用モジュールを備えた、DPM(Dual Probabilistic Modeling)と呼ばれる統合フレームワークを提案する。 どちらのモジュールも、データとラベルがコヒーレントな確率分布を形成するべきだという仮定に基づいて設計されている。 DPM-LQは、ノイズのあるセマンティックラベルの分布に過度に適合することなく、ロバストな特徴表現を生成することができる。 DPM-DQは、その品質分布に基づいてノイズデータの予測信頼度を補正することにより、推論中に‘False Reject’や‘False Accept’からデータノイズを除去することができる。 どちらのモジュールも、シームレスかつ効率的に既存のディープネットワークに組み込むことができる。 さらに, 意味的アノテーションを必要とせず, 実用的な騒音問題に対処できる一般化dpmを提案する。 広範な実験によって この確率的モデリングが 1)精度が著しく向上し、 2) 実世界のデータセットのノイズに対してモデルを堅牢にする。 提案するdpmは,複数の標準fasベンチマークで最先端のパフォーマンスを実現する。

The field of face anti-spoofing (FAS) has witnessed great progress with the surge of deep learning. Due to its data-driven nature, existing FAS methods are sensitive to the noise in the dataset, which will hurdle the learning process. However, very few works consider noise modeling in FAS. In this work, we attempt to fill this gap by automatically addressing the noise problem from both label and data perspectives in a probabilistic manner. Specifically, we propose a unified framework called Dual Probabilistic Modeling (DPM), with two dedicated modules, DPM-LQ (Label Quality aware learning) and DPM-DQ (Data Quality aware learning). Both modules are designed based on the assumption that data and label should form coherent probabilistic distributions. DPM-LQ is able to produce robust feature representations without overfitting to the distribution of noisy semantic labels. DPM-DQ can eliminate data noise from `False Reject' and `False Accept' during inference by correcting the prediction confidence of noisy data based on its quality distribution. Both modules can be incorporated into existing deep networks seamlessly and efficiently. Furthermore, we propose the generalized DPM to address the noise problem in practical usage without the need of semantic annotations. Extensive experiments demonstrate that this probabilistic modeling can 1) significantly improve the accuracy, and 2) make the model robust to the noise in real-world datasets. Without bells and whistles, our proposed DPM achieves state-of-the-art performance on multiple standard FAS benchmarks.
翻訳日:2022-04-28 22:59:46 公開日:2022-04-27
# (参考訳) 姿勢分類のための談話関係を用いた遠隔微調整

Distant finetuning with discourse relations for stance classification ( http://arxiv.org/abs/2204.12693v1 )

ライセンス: CC BY 4.0
Lifeng Jin, Kun Xu, Linfeng Song, Dong Yu(参考訳) 議論における議論の理解と偽ニュースの検出のための重要な課題であるスタンス分類課題に対するアプローチは、個別の議論トピックを扱うモデルに依存してきた。 本稿では,話題とは無関係なシステムを学習するために,原文から銀ラベルを用いたデータを抽出し,スタンス分類のモデルを微調整する新しい手法を提案する。 この抽出は、スタンス情報を提供するための信頼性と正確な情報源として示される特定の談話関係情報に依存する。 また,最もノイズが多い段階から最もノイズが少ない段階まで,微調整に使用されるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。 詳細な実験によると、自動アノテーション付きデータセットと3段階のトレーニングは、スタンス分類におけるモデルパフォーマンスを向上させる。 私たちのアプローチは、nlpcc 2021のスタンス分類トラックにおいて、aiディベータのための共通タスク議論テキスト理解において、26チーム中1位にランク付けし、このアプローチの有効性を確認した。

Approaches for the stance classification task, an important task for understanding argumentation in debates and detecting fake news, have been relying on models which deal with individual debate topics. In this paper, in order to train a system independent from topics, we propose a new method to extract data with silver labels from raw text to finetune a model for stance classification. The extraction relies on specific discourse relation information, which is shown as a reliable and accurate source for providing stance information. We also propose a 3-stage training framework where the noisy level in the data used for finetuning decreases over different stages going from the most noisy to the least noisy. Detailed experiments show that the automatically annotated dataset as well as the 3-stage training help improve model performance in stance classification. Our approach ranks 1st among 26 competing teams in the stance classification track of the NLPCC 2021 shared task Argumentative Text Understanding for AI Debater, which confirms the effectiveness of our approach.
翻訳日:2022-04-28 22:41:01 公開日:2022-04-27
# (参考訳) UBERT:UMLSメタテーゼにおける大規模同期予測のための新しい言語モデル

UBERT: A Novel Language Model for Synonymy Prediction at Scale in the UMLS Metathesaurus ( http://arxiv.org/abs/2204.12716v1 )

ライセンス: CC0 1.0
Thilini Wijesiriwardene, Vinh Nguyen, Goonmeet Bajaj, Hong Yung Yip, Vishesh Javangula, Yuqing Mao, Kin Wah Fung, Srinivasan Parthasarathy, Amit P. Sheth, Olivier Bodenreider(参考訳) UMLS Metathesaurusは200以上のバイオメディカルソースの語彙を統合している。 metathesaurus構築過程において、同義語は人間の編集者によって概念にまとめられ、語彙的類似性アルゴリズムによって支援される。 このプロセスはエラーを起こし、時間がかかる。 近年,UMLS語彙アライメント(UVA)タスクのためのディープラーニングモデル(LexLM)が開発されている。 本研究は,元来のnext sentence prediction (nsp)タスクを置き換える教師付き同義語予測 (supervised synonymy prediction, sp) タスクを通じてumls用語を事前学習した,bertベースの言語モデルであるubertを紹介する。 UMLSメタテーゼ構築プロセスにおけるUBERTの有効性をUMLS語彙アライメント(UVA)タスクを用いて評価する。 以上の結果から,UBERT は LexLM や BERT をベースとしたバイオメディカルモデルよりも優れていた。 UBERTの性能の鍵となるのは、UBERT用に特別に開発された同義的予測タスク、UVAタスクへのトレーニングデータの厳密なアライメント、および事前訓練されたUBERTに使用されるモデルの類似性である。

The UMLS Metathesaurus integrates more than 200 biomedical source vocabularies. During the Metathesaurus construction process, synonymous terms are clustered into concepts by human editors, assisted by lexical similarity algorithms. This process is error-prone and time-consuming. Recently, a deep learning model (LexLM) has been developed for the UMLS Vocabulary Alignment (UVA) task. This work introduces UBERT, a BERT-based language model, pretrained on UMLS terms via a supervised Synonymy Prediction (SP) task replacing the original Next Sentence Prediction (NSP) task. The effectiveness of UBERT for UMLS Metathesaurus construction process is evaluated using the UMLS Vocabulary Alignment (UVA) task. We show that UBERT outperforms the LexLM, as well as biomedical BERT-based models. Key to the performance of UBERT are the synonymy prediction task specifically developed for UBERT, the tight alignment of training data to the UVA task, and the similarity of the models used for pretrained UBERT.
翻訳日:2022-04-28 22:28:11 公開日:2022-04-27
# (参考訳) 行動認識事前学習のための人間中心・タスク依存型マルチタスク表現学習

Human-Centered Prior-Guided and Task-Dependent Multi-Task Representation Learning for Action Recognition Pre-Training ( http://arxiv.org/abs/2204.12729v1 )

ライセンス: CC BY-SA 4.0
Guanhong Wang, Keyu Lu, Yang Zhou, Zhanhao He and Gaoang Wang(参考訳) 近年,自己教師付き行動認識の進歩が進んでいる。 既存のアプローチのほとんどは、外観や動きの一貫性など、ビデオ間の対比関係を強調している。 しかし、既存の事前学習方法には2つの大きな問題が残っている。 1) 学習された表現は中立であり,特定の業務について情報的でない。 2)マルチタスク学習に基づく事前学習は、異なるタスクの一貫性の欠如による最適化ソリューションにつながることがある。 上記の課題に対処するため,人間中心の事前知識を活用し,タスク依存表現を用いて複数のタスク間の衝突を回避する,新しい行動認識事前学習フレームワークを提案する。 具体的には,人間の解析モデルから知識を抽出し,表現の意味的能力を高める。 さらに,知識蒸留とコントラスト学習を組み合わせることで,タスク依存型マルチタスクフレームワークを構成する。 UCF101 と HMDB51 という2つの一般的な行動認識タスクのベンチマークにおいて,提案手法の有効性を検証する。

Recently, much progress has been made for self-supervised action recognition. Most existing approaches emphasize the contrastive relations among videos, including appearance and motion consistency. However, two main issues remain for existing pre-training methods: 1) the learned representation is neutral and not informative for a specific task; 2) multi-task learning-based pre-training sometimes leads to sub-optimal solutions due to inconsistent domains of different tasks. To address the above issues, we propose a novel action recognition pre-training framework, which exploits human-centered prior knowledge that generates more informative representation, and avoids the conflict between multiple tasks by using task-dependent representations. Specifically, we distill knowledge from a human parsing model to enrich the semantic capability of representation. In addition, we combine knowledge distillation with contrastive learning to constitute a task-dependent multi-task framework. We achieve state-of-the-art performance on two popular benchmarks for action recognition task, i.e., UCF101 and HMDB51, verifying the effectiveness of our method.
翻訳日:2022-04-28 22:16:25 公開日:2022-04-27
# (参考訳) マルチパス注意によるマルチヘッド畳み込みニューラルネットワークによる画像認識の改善

A Multi-Head Convolutional Neural Network With Multi-path Attention improves Image Denoising ( http://arxiv.org/abs/2204.12736v1 )

ライセンス: CC BY 4.0
Jiahong Zhang, Meijun Qu, Ye Wang, Lihong Cao(参考訳) 近年,畳み込みニューラルネットワーク(CNN)やアテンション機構が画像認識に広く使われ,良好な性能を実現している。 しかし、以前の作品ではノイズの多い画像を受け取るために主に1つの頭部を使用しており、抽出された特徴の豊かさを制限している。 そこで本論文では,MHCNNと呼ばれる複数の頭部を持つ新しいCNNを提案する。 MHCNNは回転した画像の特徴を同時に利用してノイズを取り除く。 また,これらの特徴を効果的に統合するための新しいマルチパスアテンション機構(MPA)を提案する。 ピクセルレベル、チャネルレベル、パッチレベルの機能を扱う以前のアテンションメカニズムとは異なり、MPAは画像レベルの機能に焦点を当てている。 実験により、MHCNNは付加的な白色ガウス雑音(AWGN)と実世界の雑音を呈する他の最先端CNNモデルを上回ることが示された。 ピーク信号対雑音比(PSNR)は、DnCNN、BRDNet、RIDNet、PAN-Net、CSANNなどの他のネットワークよりも高い。 また,MPA機構を組み込んだMHをプラグ可能な部品として用いることも実証された。

Recently, convolutional neural networks (CNNs) and attention mechanisms have been widely used in image denoising and achieved satisfactory performance. However, the previous works mostly use a single head to receive the noisy image, limiting the richness of extracted features. Therefore, a novel CNN with multiple heads (MH) named MHCNN is proposed in this paper, whose heads will receive the input images rotated by different rotation angles. MH makes MHCNN simultaneously utilize features of rotated images to remove noise. We also present a novel multi-path attention mechanism (MPA) to integrate these features effectively. Unlike previous attention mechanisms that handle pixel-level, channel-level, and patch-level features, MPA focuses on features at the image level. Experiments show MHCNN surpasses other state-of-the-art CNN models on additive white Gaussian noise (AWGN) denoising and real-world image denoising. Its peak signal-to-noise ratio (PSNR) results are higher than other networks, such as DnCNN, BRDNet, RIDNet, PAN-Net, and CSANN. It is also demonstrated that the proposed MH with MPA mechanism can be used as a pluggable component.
翻訳日:2022-04-28 22:03:34 公開日:2022-04-27
# (参考訳) 移動障害物の最小変位運動計画

Minimum Displacement Motion Planning for Movable Obstacles ( http://arxiv.org/abs/2204.12740v1 )

ライセンス: CC BY 4.0
Antony Thomas and Fulvio Mastrogiovanni(参考訳) 本稿では,障害物を最小の量で変位させ,実現可能な経路を求める最小変位運動計画問題を提案する。 ロボットと障害物の交差度を計測する指標を定義し,これをロボットと障害物の重なりを解析する。 実際のロボットダイナミクスを利用して、プランナーはまず障害物を通り抜けてロボットと障害物の交差点を最小化する経路を見つける。 この計量は、障害を反復的に変位させ、実現可能な経路を達成するために用いられる。 提案した問題をうまく示すいくつかの例が提示されている。

This paper presents a minimum displacement motion planning problem wherein obstacles are displaced by a minimum amount to find a feasible path. We define a metric for robot-obstacle intersection that measures the extent of the intersection and use this to penalize robot-obstacle overlaps. Employing the actual robot dynamics, the planner first finds a path through the obstacles that minimizes the robot-obstacle intersections. The metric is then used to iteratively displace the obstacles to achieve a feasible path. Several examples are provided that successfully demonstrates the proposed problem.
翻訳日:2022-04-28 21:48:35 公開日:2022-04-27
# (参考訳) 制御可能な画像合成による自己教師付きテキスト消去

Self-Supervised Text Erasing with Controllable Image Synthesis ( http://arxiv.org/abs/2204.12743v1 )

ライセンス: CC BY 4.0
Gangwei Jiang, Shiyao Wang, Tiezheng Ge, Yuning Jiang, Ying Wei, Defu Lian(参考訳) シーンテキストの消去に関する最近の取り組みは有望な成果を示している。 しかし、既存のメソッドは堅牢なモデルを得るためにリッチで費用のかかるアノテーションを必要とするため、実用的なアプリケーションの使用は制限される。 そこで本研究では,実世界のテキストを正確に消去し,地上の真実を解消してトレーニング画像の合成を共同で学習する,STE(Self-supervised Text Erasing)フレームワークを提案する。 まず,2つの合成機構に基づいて,多種多様なテキストを用いた合成画像を生成する。 合成データと実世界のデータとのテキストスタイルギャップを橋渡しするために、特別に設計された2つの報酬のガイダンスにより、スタイルパラメータを選択して合成メカニズムを制御するポリシーネットワークを構築する。 地上を消去した合成訓練画像は、粗い消去ネットワークを訓練するために供給される。 より良い消去出力を得るため、背景テクスチャを回復するための改良段階を強制するために三重項消去損失を設計する。 さらに,テキスト付き60k高分解能ポスターを含む新しいデータセット(posterase)を提供するとともに,テキスト消去作業をより困難にする。 提案手法はPosterEraseと広く使われているSCUT-Enstextデータセットで広く評価されている。 特にPosterEraseでは,既存の教師なしベースラインに比べて20.9%の相対的な性能でFIDの5.07を達成している。

Recent efforts on scene text erasing have shown promising results. However, existing methods require rich yet costly label annotations to obtain robust models, which limits the use for practical applications. To this end, we study an unsupervised scenario by proposing a novel Self-supervised Text Erasing (STE) framework that jointly learns to synthesize training images with erasure ground-truth and accurately erase texts in the real world. We first design a style-aware image synthesis function to generate synthetic images with diverse styled texts based on two synthetic mechanisms. To bridge the text style gap between the synthetic and real-world data, a policy network is constructed to control the synthetic mechanisms by picking style parameters with the guidance of two specifically designed rewards. The synthetic training images with erasure ground-truth are then fed to train a coarse-to-fine erasing network. To produce better erasing outputs, a triplet erasure loss is designed to enforce the refinement stage to recover background textures. Moreover, we provide a new dataset (called PosterErase), which contains 60K high-resolution posters with texts and is more challenging for the text erasing task. The proposed method has been extensively evaluated with both PosterErase and the widely-used SCUT-Enstext dataset. Notably, on PosterErase, our unsupervised method achieves 5.07 in terms of FID, with a relative performance of 20.9% over existing supervised baselines.
翻訳日:2022-04-28 21:39:47 公開日:2022-04-27
# (参考訳) DraftRec: マルチプレイヤーオンラインバトルアリーナゲームにおける勝利のための個人化されたドラフトレコメンデーション

DraftRec: Personalized Draft Recommendation for Winning in Multi-Player Online Battle Arena Games ( http://arxiv.org/abs/2204.12750v1 )

ライセンス: CC BY 4.0
Hojoon Lee, Dongyoon Hwang, Hyunseung Kim, Byungkun Lee, Jaegul Choo(参考訳) 本稿では,moba(multiplayer online battle arena)ゲームに対するパーソナライズされたキャラクタレコメンデーションシステムについて述べる。 MOBAゲームでは、プレイヤーはドラフトステージを通過し、仮想キャラクターを交互に選択する。 ドラフトでは、プレイヤーはキャラクターの好みだけでなく、チームのキャラクターの組み合わせの相乗効果と能力も考慮してキャラクターを選択する。 しかし、草案作成の複雑さは、初心者が自己のチャンピオン選好を考慮しつつ、チームのキャラクターに基づいて適切なキャラクターを選択するのを困難にさせる。 そこで本稿では,各プレイヤーのチャンピオン選好とプレイヤー間のインタラクションを考慮し,キャラクターを推薦する新しい階層モデルである draftrec を提案する。 DraftRecはプレイヤーネットワークとマッチネットワークの2つのネットワークで構成されている。 プレイヤーネットワークは個々のプレイヤーのチャンピオン選好をキャプチャし、マッチネットワークはプレイヤーとそれぞれのチャンピオンの間の複雑な関係を統合する。 我々は,手作業で収集した280,000試合のleague of legendsと5万試合のdota2からモデルをトレーニングし,評価した。 提案手法は,キャラクタレコメンデーションおよびマッチング結果予測タスクにおいて,最先端の性能を達成した。 さらに、総合的なユーザ調査では、DraftRecが説得力があり満足できるレコメンデーションを提供していることが確認されている。 私たちのコードとデータセットはhttps://github.com/dojeon-ai/draftrecで利用可能です。

This paper presents a personalized character recommendation system for Multiplayer Online Battle Arena (MOBA) games which are considered as one of the most popular online video game genres around the world. When playing MOBA games, players go through a draft stage, where they alternately select a virtual character to play. When drafting, players select characters by not only considering their character preferences, but also the synergy and competence of their team's character combination. However, the complexity of drafting induces difficulties for beginners to choose the appropriate characters based on the characters of their team while considering their own champion preferences. To alleviate this problem, we propose DraftRec, a novel hierarchical model which recommends characters by considering each player's champion preferences and the interaction between the players. DraftRec consists of two networks: the player network and the match network. The player network captures the individual player's champion preference, and the match network integrates the complex relationship between the players and their respective champions. We train and evaluate our model from a manually collected 280,000 matches of League of Legends and a publicly available 50,000 matches of Dota2. Empirically, our method achieved state-of-the-art performance in character recommendation and match outcome prediction task. Furthermore, a comprehensive user survey confirms that DraftRec provides convincing and satisfying recommendations. Our code and dataset are available at https://github.com/dojeon-ai/DraftRec.
翻訳日:2022-04-28 21:21:34 公開日:2022-04-27
# (参考訳) ゼロショット高密度検索の検討

A Thorough Examination on Zero-shot Dense Retrieval ( http://arxiv.org/abs/2204.12755v1 )

ライセンス: CC BY 4.0
Ruiyang Ren, Yingqi Qu, Jing Liu, Wayne Xin Zhao, Qifei Wu, Yuchen Ding, Hua Wu, Haifeng Wang, Ji-Rong Wen(参考訳) 近年は、強力な事前学習言語モデル(PLM)に基づく高密度検索(DR)が著しく進歩している。 DRモデルはいくつかのベンチマークデータセットで優れたパフォーマンスを達成しているが、従来のスパース検索モデル(例えばBM25)ほどゼロショット検索では競合しない。 しかし、関連する文献では、ゼロショット検索に関する詳細かつ包括的な研究が不足している。 本稿では, drモデルのゼロショット能力について, 初めて徹底的に検討する。 重要要因を特定し,ゼロショット検索性能にどのように影響するかを分析することを目的とした。 特に、ソーストレーニングセットに関連するいくつかの重要な要因の効果について論じ、ターゲットデータセットからの潜在的なバイアスを分析し、既存のゼロショットdrmモデルのレビューと比較を行う。 本研究は,ゼロショットDRモデルをよりよく理解し,開発するための重要な証拠を提供する。

Recent years have witnessed the significant advance in dense retrieval (DR) based on powerful pre-trained language models (PLM). DR models have achieved excellent performance in several benchmark datasets, while they are shown to be not as competitive as traditional sparse retrieval models (e.g., BM25) in a zero-shot retrieval setting. However, in the related literature, there still lacks a detailed and comprehensive study on zero-shot retrieval. In this paper, we present the first thorough examination of the zero-shot capability of DR models. We aim to identify the key factors and analyze how they affect zero-shot retrieval performance. In particular, we discuss the effect of several key factors related to source training set, analyze the potential bias from the target dataset, and review and compare existing zero-shot DR models. Our findings provide important evidence to better understand and develop zero-shot DR models.
翻訳日:2022-04-28 21:01:19 公開日:2022-04-27
# (参考訳) 連続更新QAのためのプラグアンドプレイ適応

Plug-and-Play Adaptation for Continuously-updated QA ( http://arxiv.org/abs/2204.12785v1 )

ライセンス: CC BY 4.0
Kyungjae Lee, Wookje Han, Seung-won Hwang, Hwaran Lee, Joonsuk Park, Sang-Woo Lee(参考訳) 言語モデル(LM)は暗黙の知識ベース(KB)として大きな可能性を示している。 実際に使うためには、LMの知識を定期的に更新する必要がある。 しかし、kbsとしてlmsの有効性を評価する既存のタスクは、複数の大規模な更新を適切に考慮していない。 この目的のために,我々はまず,lmsに複数の大規模更新を行うタスク連続更新qa(cuqa)を提案し,既存の知識を保ちながら知識の追加と更新を成功させる上で,その性能を測定する。 次に、更新を効果的に処理するプラグインモジュールをLMに提示する。 zsRE QAおよびNQデータセットを用いた実験により,本手法が既存手法より優れていることが示された。 提案手法は,細調整ベースラインに比べて,更新/忘れ率の点で4倍効率が高いことがわかった。

Language models (LMs) have shown great potential as implicit knowledge bases (KBs). And for their practical use, knowledge in LMs need to be updated periodically. However, existing tasks to assess LMs' efficacy as KBs do not adequately consider multiple large-scale updates. To this end, we first propose a novel task--Continuously-updated QA (CuQA)--in which multiple large-scale updates are made to LMs, and the performance is measured with respect to the success in adding and updating knowledge while retaining existing knowledge. We then present LMs with plug-in modules that effectively handle the updates. Experiments conducted on zsRE QA and NQ datasets show that our method outperforms existing approaches. We find that our method is 4x more effective in terms of updates/forgets ratio, compared to a fine-tuning baseline.
翻訳日:2022-04-28 20:43:00 公開日:2022-04-27
# (参考訳) SPARQLセマンティックパーシングのためのモダンベースライン

Modern Baselines for SPARQL Semantic Parsing ( http://arxiv.org/abs/2204.12793v1 )

ライセンス: CC BY 4.0
Debayan Banerjee, Pranav Ajit Nair, Jivat Neet Kaur, Ricardo Usbeck, Chris Biemann(参考訳) 本研究では,自然言語質問からSPARQLクエリを生成するタスクに着目し,知識グラフ(KG)上で実行することができる。 我々は、金の実体と関係が提供されており、残りのタスクは、SPARQL語彙と入力トークンと共にそれらを正しい順序でアレンジし、正しいSPARQLクエリを生成することであると仮定する。 事前学習された言語モデル(plm)は、これまでこのタスクについて深く検討されていないので、bert embeddedsでbart、t5、pgns(pointer generator networks)を実験し、このタスクのためにplm時代の新しいベースラインを探します。 T5は特別な入力トークン化を必要とするが,LC-QuAD 1.0およびLC-QuAD 2.0データセット上でのアートパフォーマンスの状態を生成し,タスク固有モデルよりも優れていることを示す。 さらに、入力の一部を出力クエリにコピーする必要がある問題に対するセマンティック解析を可能にし、KGセマンティック解析における新しいパラダイムを可能にする。

In this work, we focus on the task of generating SPARQL queries from natural language questions, which can then be executed on Knowledge Graphs (KGs). We assume that gold entity and relations have been provided, and the remaining task is to arrange them in the right order along with SPARQL vocabulary, and input tokens to produce the correct SPARQL query. Pre-trained Language Models (PLMs) have not been explored in depth on this task so far, so we experiment with BART, T5 and PGNs (Pointer Generator Networks) with BERT embeddings, looking for new baselines in the PLM era for this task, on DBpedia and Wikidata KGs. We show that T5 requires special input tokenisation, but produces state of the art performance on LC-QuAD 1.0 and LC-QuAD 2.0 datasets, and outperforms task-specific models from previous works. Moreover, the methods enable semantic parsing for questions where a part of the input needs to be copied to the output query, thus enabling a new paradigm in KG semantic parsing.
翻訳日:2022-04-28 20:30:16 公開日:2022-04-27
# (参考訳) 知識ベース質問応答のためのクエリグラフのランク付け方法

A Method of Query Graph Reranking for Knowledge Base Question Answering ( http://arxiv.org/abs/2204.12808v1 )

ライセンス: CC BY 4.0
Yonghui Jia, Wenliang Chen(参考訳) 本稿では,知識ベース質問回答(KBQA)において,知識グラフのサブグラフである最適問合せグラフをより適切に選択し,入力質問に対する回答を検索する手法を提案する。 既存のメソッドは、top-1のパフォーマンスとtop-n結果のoracleスコアとの間に大きなギャップがあるという深刻な問題に苦しんでいる。 この問題に対処するため,提案手法はクエリグラフランキングとクエリグラフ再ランクの2つのステップに分割する。 最初のステップでは、各質問にトップnのクエリグラフを提供します。 次に,回答型の情報と組み合わせて,トップnのクエリグラフを再引用する。 その結果,提案手法はwebquestionsデータセットで最高の結果,complexquestionsデータセットで2番目に優れた結果が得られることがわかった。

This paper presents a novel reranking method to better choose the optimal query graph, a sub-graph of knowledge graph, to retrieve the answer for an input question in Knowledge Base Question Answering (KBQA). Existing methods suffer from a severe problem that there is a significant gap between top-1 performance and the oracle score of top-n results. To address this problem, our method divides the choosing procedure into two steps: query graph ranking and query graph reranking. In the first step, we provide top-n query graphs for each question. Then we propose to rerank the top-n query graphs by combining with the information of answer type. Experimental results on two widely used datasets show that our proposed method achieves the best results on the WebQuestions dataset and the second best on the ComplexQuestions dataset.
翻訳日:2022-04-28 20:17:21 公開日:2022-04-27
# (参考訳) パフォーマンスが不十分な場合-臨床意思決定支援の多分野的視点

When Performance is not Enough -- A Multidisciplinary View on Clinical Decision Support ( http://arxiv.org/abs/2204.12810v1 )

ライセンス: CC BY 4.0
Roland Roller, Klemens Budde, Aljoscha Burchardt, Peter Dabrock, Sebastian M\"oller, Bilgin Osmanodja, Simon Ronicke, David Samhammer, Sven Schmeier(参考訳) 医療における機械学習に関する科学的な出版物は、多くの場合、新しい方法の実装とパフォーマンスの向上に関するものである。 しかし、このような短命な改善以外にも、医療の持続可能な進歩に到達したいのであれば、もっと考慮する必要があります。 このようなシステムを実際に実装し、ドメインの専門家が利用できるようにするのには何が必要か。 本研究は,コンピュータ科学者を対象として,医療意思決定支援システムにおける機械学習に関する多分野の視点を示し,情報技術,医療,倫理的側面をカバーする。 ネフローロジーにおけるリスク予測システムの実装とともに、パイロットプロジェクトで学んだ課題と教訓が提示される。

Scientific publications about machine learning in healthcare are often about implementing novel methods and boosting the performance - at least from a computer science perspective. However, beyond such often short-lived improvements, much more needs to be taken into consideration if we want to arrive at a sustainable progress in healthcare. What does it take to actually implement such a system, make it usable for the domain expert, and possibly bring it into practical usage? Targeted at Computer Scientists, this work presents a multidisciplinary view on machine learning in medical decision support systems and covers information technology, medical, as well as ethical aspects. Along with an implemented risk prediction system in nephrology, challenges and lessons learned in a pilot project are presented.
翻訳日:2022-04-28 19:55:07 公開日:2022-04-27
# (参考訳) catrans: マイナショットセグメンテーションのためのコンテキストとアフィニティトランスフォーマ

CATrans: Context and Affinity Transformer for Few-Shot Segmentation ( http://arxiv.org/abs/2204.12817v1 )

ライセンス: CC BY 4.0
Shan Zhang, Tianyi Wu, Sitong Wu, Guodong Guo(参考訳) Few-shot segmentation (FSS) は、注釈付きサポート画像が不足している場合に、新しいカテゴリを分割することを目的としている。 FSSの要点は、外見とコンテキストの大きなバリエーションに対して堅牢でありながら、クエリセグメンテーションのためのサポートとクエリイメージの間に密接な相関関係を集約する方法である。 この目的のために、以前のトランスフォーマーベースの手法は、サポートクエリペア間のコンテキスト類似性または親和性マップに基づいて、グローバルコンセンサスを探索する。 本研究では, 階層型アーキテクチャにおいて, 提案する新しいコンテキスト・アフィニティ変換器(CATrans)を用いて, コンテキスト・アフィニティ情報を効果的に統合する。 具体的には、Relation-guided Context Transformer (RCT)は、サポートからより情報的なサポート機能によって条件付けられたクエリイメージまで、コンテキスト情報を伝達する。 サポートとクエリペア間の大きな特徴の区別が文脈知識伝達の障壁をもたらすという観測に基づいて、relation-guided affinity transformer(rat)は、自己親和性がより信頼性の高いクロス親和性に責任を持つfssの補助情報として注意意識親和性を測定する。 提案手法の有効性を実証する実験を行い,最先端手法を上回った。

Few-shot segmentation (FSS) aims to segment novel categories given scarce annotated support images. The crux of FSS is how to aggregate dense correlations between support and query images for query segmentation while being robust to the large variations in appearance and context. To this end, previous Transformer-based methods explore global consensus either on context similarity or affinity map between support-query pairs. In this work, we effectively integrate the context and affinity information via the proposed novel Context and Affinity Transformer (CATrans) in a hierarchical architecture. Specifically, the Relation-guided Context Transformer (RCT) propagates context information from support to query images conditioned on more informative support features. Based on the observation that a huge feature distinction between support and query pairs brings barriers for context knowledge transfer, the Relation-guided Affinity Transformer (RAT) measures attention-aware affinity as auxiliary information for FSS, in which the self-affinity is responsible for more reliable cross-affinity. We conduct experiments to demonstrate the effectiveness of the proposed model, outperforming the state-of-the-art methods.
翻訳日:2022-04-28 19:43:37 公開日:2022-04-27
# (参考訳) LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools for Sentiment Analysis as Semantic Dependency Parsing

LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools for Sentiment Analysis as Semantic Dependency Parsing ( http://arxiv.org/abs/2204.12820v1 )

ライセンス: CC BY 4.0
Iago Alonso-Alonso, David Vilares and Carlos G\'omez-Rodr\'iguez(参考訳) 本稿では,バイアフィン意味依存構文解析,大規模事前学習言語モデル,公開翻訳モデルを用いた構造化感情分析の問題について述べる。 モノリンガル設定については、次のように検討した。 (i)一本の木堤での訓練、 (II)言語間の言語モデルで適切に処理可能な異なる言語からのツリーバンクをトレーニングすることでセットアップを緩和する。 ゼロショットのセットアップと指定されたターゲットツリーバンクには、次のように依存しています。 (i)他の言語で利用可能な木バンクの単語レベルでの翻訳で、騒々しく、文法的ではないが注釈付きデータを得る(ライセンスが許す限りのリリース)。 (ii)これらの変換木バンクをマージしてトレーニングデータを得る。 評価後の段階では、英語の全ての木々バンクをマージし、単語レベルの翻訳を使用しない言語横断モデルも訓練し、より良い結果を得た。 結果より, 単言語・言語間設定では8位, 9位にランクインした。

This paper addressed the problem of structured sentiment analysis using a bi-affine semantic dependency parser, large pre-trained language models, and publicly available translation models. For the monolingual setup, we considered: (i) training on a single treebank, and (ii) relaxing the setup by training on treebanks coming from different languages that can be adequately processed by cross-lingual language models. For the zero-shot setup and a given target treebank, we relied on: (i) a word-level translation of available treebanks in other languages to get noisy, unlikely-grammatical, but annotated data (we release as much of it as licenses allow), and (ii) merging those translated treebanks to obtain training data. In the post-evaluation phase, we also trained cross-lingual models that simply merged all the English treebanks and did not use word-level translations, and yet obtained better results. According to the official results, we ranked 8th and 9th in the monolingual and cross-lingual setups.
翻訳日:2022-04-28 19:29:47 公開日:2022-04-27
# (参考訳) xaiの5gセキュリティに関する調査 : 技術的側面,利用事例,課題,研究の方向性

A Survey on XAI for Beyond 5G Security: Technical Aspects, Use Cases, Challenges and Research Directions ( http://arxiv.org/abs/2204.12822v1 )

ライセンス: CC BY 4.0
Thulitha Senevirathna, Zujany Salazar, Vinh Hoa La, Samuel Marchal, Bartlomiej Siniarski, Madhusanka Liyanage, and Shen Wang(参考訳) 5Gの商用化の進展により、5G(B5G)無線アクセス技術を超える次世代のために、より信頼性が高く、高速で、インテリジェントな通信システムの必要性が考えられている。 人工知能(AI)と機械学習(ML)は、サービス層アプリケーションで非常に人気があるだけでなく、IoTデバイスやエッジコンピューティング、クラウドベースのインフラストラクチャなど、B5Gネットワークの多くの面で必須のイネーブラーとして提案されている。 しかしながら、b5gセキュリティの既存の調査のほとんどは、ai/mlモデルのパフォーマンスとその正確性に重点を置いているが、モデルの判断の責任と信頼性を見落としていることが多い。 説明可能なAI(XAI)メソッドは、システム開発者がAI/MLブラックボックスモデルの内部動作を特定することを可能にする、有望なテクニックである。 B5GのセキュリティドメインでXAIを使用することの目標は、システムのセキュリティの意思決定プロセスが、自動化されたアクションに責任を負わせる利害関係者に対して透明で理解しやすいようにすることです。 RANやゼロタッチネットワーク管理、E2EスライシングといったB5G技術など、今後のB5G時代のあらゆる面において、この調査はXAIの役割と、一般ユーザーが最終的に楽しむであろうユースケースを強調している。 さらに,最近の取り組みから得られた教訓と今後の研究方向性を,現在実施中のxai関連プロジェクトから紹介する。

With the advent of 5G commercialization, the need for more reliable, faster, and intelligent telecommunication systems are envisaged for the next generation beyond 5G (B5G) radio access technologies. Artificial Intelligence (AI) and Machine Learning (ML) are not just immensely popular in the service layer applications but also have been proposed as essential enablers in many aspects of B5G networks, from IoT devices and edge computing to cloud-based infrastructures. However, most of the existing surveys in B5G security focus on the performance of AI/ML models and their accuracy, but they often overlook the accountability and trustworthiness of the models' decisions. Explainable AI (XAI) methods are promising techniques that would allow system developers to identify the internal workings of AI/ML black-box models. The goal of using XAI in the security domain of B5G is to allow the decision-making processes of the security of systems to be transparent and comprehensible to stakeholders making the systems accountable for automated actions. In every facet of the forthcoming B5G era, including B5G technologies such as RAN, zero-touch network management, E2E slicing, this survey emphasizes the role of XAI in them and the use cases that the general users would ultimately enjoy. Furthermore, we presented the lessons learned from recent efforts and future research directions on top of the currently conducted projects involving XAI.
翻訳日:2022-04-28 19:13:35 公開日:2022-04-27
# (参考訳) 大規模3次元再構成のためのパワーバンドル調整

Power Bundle Adjustment for Large-Scale 3D Reconstruction ( http://arxiv.org/abs/2204.12834v1 )

ライセンス: CC BY 4.0
Simon Weber and Nikolaus Demmel and Daniel Cremers(参考訳) 本稿では,大規模バンドル調整問題を解くための拡張型アルゴリズムの設計と実装について述べる。 我々のアプローチであるPower Bundle Adjustmentは、逆シュア補体のパワー級数展開に基づいている。 これにより、逆展開法と呼ばれる新しい解の族が始まる。 提案手法が従来の直接的および反復的手法に挑戦する実世界のBALデータセットを示す。 正規方程式の解は、非常に高い精度に到達しても著しく加速される。 最後に重要なのは、最近発表された分散バンドル調整フレームワークを補完することです。 提案するパワーバンドル調整をサブプロブレムソルバとして使用することで,分散最適化の速度と精度が大幅に向上することを示す。

We present the design and the implementation of a new expansion type algorithm to solve large-scale bundle adjustment problems. Our approach -- called Power Bundle Adjustment -- is based on the power series expansion of the inverse Schur complement. This initiates a new family of solvers that we call inverse expansion methods. We show with the real-world BAL dataset that the proposed solver challenges the traditional direct and iterative methods. The solution of the normal equation is significantly accelerated, even for reaching a very high accuracy. Last but not least, our solver can also complement a recently presented distributed bundle adjustment framework. We demonstrate that employing the proposed Power Bundle Adjustment as a sub-problem solver greatly improves speed and accuracy of the distributed optimization.
翻訳日:2022-04-28 19:12:15 公開日:2022-04-27
# (参考訳) トランスフォーマーを用いた共有メモリ環境における並列化の学習

Learning to Parallelize in a Shared-Memory Environment with Transformers ( http://arxiv.org/abs/2204.12835v1 )

ライセンス: CC BY 4.0
Re'em Harel, Yuval Pinter, Gal Oren(参考訳) 過去数年間、世界はマルチコアとマルチコアの共有メモリアーキテクチャに切り替えてきた。 その結果,ソフトウェアアプリケーションに共有メモリ並列化方式を導入することで,これらのアーキテクチャを活用する必要性が高まっている。 OpenMPはこのようなスキームを実装した最も包括的なAPIであり、可読性のあるインターフェースが特徴である。 それでも、並列共有メモリ管理における広範な落とし穴のため、コードにOpenMPを導入することは難しい。 このタスクの実行を容易にするために、OpenMPディレクティブをコードに自動的に挿入する多くのソース・トゥ・ソース(S2S)コンパイラが長年にわたって作成されてきた。 入力形式に対するロバスト性に制限があるのに加えて、これらのコンパイラは、並列化可能なコードの配置と適切なディレクティブの生成において、十分なカバレッジと精度を達成できない。 本研究では,S2Sコンパイラを完全に置き換えるために,ML技術,特に自然言語処理(NLP)の最近の進歩を活用することを提案する。 この目標のために、オープンompのデータベース(corpus)を作成します。 Open-OMPには28,000以上のコードスニペットがあり、その半数はOpenMPディレクティブを含んでおり、残りの半分は高い確率で並列化を必要としない。 コーパスを使用して、並列化が必要なコードセグメントを自動的に分類し、個別のOpenMP節を提案する。 これらのタスクのためにPragFormerという名前のトランスフォーマーモデルをトレーニングし、OpenMPディレクティブの全体的なニーズの分類と、プライベートおよびリダクション節の導入の両方において、統計的に訓練されたベースラインと自動S2S並列化コンパイラよりも優れていることを示す。 私たちのソースコードとデータベースは、https://github.com/Scientific-Computing-Lab-NRCN/PragFormer.comで利用可能です。

In past years, the world has switched to many-core and multi-core shared memory architectures. As a result, there is a growing need to utilize these architectures by introducing shared memory parallelization schemes to software applications. OpenMP is the most comprehensive API that implements such schemes, characterized by a readable interface. Nevertheless, introducing OpenMP into code is challenging due to pervasive pitfalls in management of parallel shared memory. To facilitate the performance of this task, many source-to-source (S2S) compilers have been created over the years, tasked with inserting OpenMP directives into code automatically. In addition to having limited robustness to their input format, these compilers still do not achieve satisfactory coverage and precision in locating parallelizable code and generating appropriate directives. In this work, we propose leveraging recent advances in ML techniques, specifically in natural language processing (NLP), to replace S2S compilers altogether. We create a database (corpus), Open-OMP, specifically for this goal. Open-OMP contains over 28,000 code snippets, half of which contain OpenMP directives while the other half do not need parallelization at all with high probability. We use the corpus to train systems to automatically classify code segments in need of parallelization, as well as suggest individual OpenMP clauses. We train several transformer models, named PragFormer, for these tasks, and show that they outperform statistically-trained baselines and automatic S2S parallelization compilers in both classifying the overall need for an OpenMP directive and the introduction of private and reduction clauses. Our source code and database are available at: https://github.com/Scientific-Computing-Lab-NRCN/PragFormer.
翻訳日:2022-04-28 18:59:23 公開日:2022-04-27
# (参考訳) query2particles: 素粒子埋め込みによる知識グラフ推論

Query2Particles: Knowledge Graph Reasoning with Particle Embeddings ( http://arxiv.org/abs/2204.12847v1 )

ライセンス: CC BY 4.0
Jiaxin Bai, Zihao Wang, Hongming Zhang, Yangqiu Song(参考訳) 不完全知識グラフ(KG)上の複雑な論理的クエリとエッジの欠如に答えることは、知識グラフ推論の基本的な重要な課題である。 クエリとエンティティを同一の埋め込み空間に共同で符号化することで,これらのクエリに応答する。 そして、エンティティの埋め込みとクエリの埋め込みの類似性に応じて、回答エンティティが選択される。 複素クエリに対する答えは、サブクエリ上の論理演算の組み合わせから得られるので、答えエンティティの埋め込みは常に埋め込み空間におけるユニモーダル分布に従うとは限らない。 したがって、ベクトルや超矩形といった単一の集中した問合せ表現を用いて、埋め込み空間から多様な回答のセットを同時に取り出すのは困難である。 そこで本研究では,複雑なKGクエリ応答法であるQuery2Particles (Q2P)を提案する。 Q2Pは各クエリを複数のベクトルにエンコードする。 そうすることで、候補の答えは、エンティティ埋め込みと任意の粒子埋め込みの間の最大類似性を用いて、埋め込み空間上の異なる領域から取り出すことができる。 一方、対応するニューラルネットワーク操作は、任意の一階述語論理クエリに対する推論をサポートするように定義される。 実験の結果,Query2Particlesは,FB15k,FB15K-237,NELL知識グラフ上での複雑なクエリ応答タスクに対して,最先端のパフォーマンスを実現することがわかった。

Answering complex logical queries on incomplete knowledge graphs (KGs) with missing edges is a fundamental and important task for knowledge graph reasoning. The query embedding method is proposed to answer these queries by jointly encoding queries and entities to the same embedding space. Then the answer entities are selected according to the similarities between the entity embeddings and the query embedding. As the answers to a complex query are obtained from a combination of logical operations over sub-queries, the embeddings of the answer entities may not always follow a uni-modal distribution in the embedding space. Thus, it is challenging to simultaneously retrieve a set of diverse answers from the embedding space using a single and concentrated query representation such as a vector or a hyper-rectangle. To better cope with queries with diversified answers, we propose Query2Particles (Q2P), a complex KG query answering method. Q2P encodes each query into multiple vectors, named particle embeddings. By doing so, the candidate answers can be retrieved from different areas over the embedding space using the maximal similarities between the entity embeddings and any of the particle embeddings. Meanwhile, the corresponding neural logic operations are defined to support its reasoning over arbitrary first-order logic queries. The experiments show that Query2Particles achieves state-of-the-art performance on the complex query answering tasks on FB15k, FB15K-237, and NELL knowledge graphs.
翻訳日:2022-04-28 18:38:54 公開日:2022-04-27
# (参考訳) ヒートマップクラスタリングによる深部ニューラルネットワークのバックドア攻撃検出

Detecting Backdoor Poisoning Attacks on Deep Neural Networks by Heatmap Clustering ( http://arxiv.org/abs/2204.12848v1 )

ライセンス: CC BY 4.0
Lukas Schulth, Christian Berghoff, Matthias Neu(参考訳) ニューラルネットワークによる予測は、いわゆる毒殺攻撃によって不正に変更される可能性がある。 特殊な事件は 裏口の毒殺攻撃だ。 適切な検出法を検討し,ヒートマップクラスタリングと呼ばれる新しい手法を提案する。 そこで,最先端説明可能なai手法による熱マップに対して,k$-meansクラスタリングアルゴリズムを適用した。 目標は、データセット内の無毒データから有毒データを分離することだ。 我々は、この手法を、$k$-meansクラスタリングを使用するActivation Clusteringと呼ばれる類似の手法と比較するが、ニューラルネットワークの特定の隠れレイヤの活性化に応用する。 本研究は,標準バックドア中毒攻撃,ラベル持続毒攻撃,ラベル持続毒攻撃,振幅ステッカーの低減によるラベル持続毒攻撃の両手法の性能を検証した。 ヒートマップクラスタリングは、アクティベーションクラスタリングよりも一貫して優れたパフォーマンスを示す。 しかし,ラベルに耐性のある中毒攻撃を考慮すると,後者は検出性能も良好である。

Predicitions made by neural networks can be fraudulently altered by so-called poisoning attacks. A special case are backdoor poisoning attacks. We study suitable detection methods and introduce a new method called Heatmap Clustering. There, we apply a $k$-means clustering algorithm on heatmaps produced by the state-of-the-art explainable AI method Layer-wise relevance propagation. The goal is to separate poisoned from un-poisoned data in the dataset. We compare this method with a similar method, called Activation Clustering, which also uses $k$-means clustering but applies it on the activation of certain hidden layers of the neural network as input. We test the performance of both approaches for standard backdoor poisoning attacks, label-consistent poisoning attacks and label-consistent poisoning attacks with reduced amplitude stickers. We show that Heatmap Clustering consistently performs better than Activation Clustering. However, when considering label-consistent poisoning attacks, the latter method also yields good detection performance.
翻訳日:2022-04-28 18:24:57 公開日:2022-04-27
# (参考訳) プライバシー予算を公平かつ賢明に使い

Spending Privacy Budget Fairly and Wisely ( http://arxiv.org/abs/2204.12903v1 )

ライセンス: CC BY 4.0
Lucas Rosenblatt and Joshua Allen and Julia Stoyanovich(参考訳) 差分プライベート(dp)合成データ生成は、生産的パートナーシップを促進する手段としてデータへのアクセスを改善するための実用的な方法である。 DP固有の問題のひとつは、"プライバシ予算"が一般的に、データセットのフィーチャを均等に分散していることだ。 これは実際のデータと統計学的に同等であるが、合成データの予測品質に不可欠な条件付き確率と限界を過小評価することができる。 さらに、予測品質の損失はデータセット全体で一様ではなく、少数派グループに対応するサブセットがより高い損失を被る可能性がある。 本稿では,dpデータにトレーニングされたモデルの予測精度を最大化するために,プライバシ予算を「任意」に分配するアンサンブル手法を開発し,グループ間の精度の潜在的な差を限定し,不平等を低減させる。 当社の手法は,プライバシ予算の割り当て方法と,グループ毎の機能重要度と公平性に関連するパフォーマンス目標が,その割り当てに組み込まれる可能性に関する洞察に基づいています。 これらの知見は、我々の手法を社会的文脈に適応させ、データ所有者が予測分析のためにバランスのとれた合成データを作成できるようにする。

Differentially private (DP) synthetic data generation is a practical method for improving access to data as a means to encourage productive partnerships. One issue inherent to DP is that the "privacy budget" is generally "spent" evenly across features in the data set. This leads to good statistical parity with the real data, but can undervalue the conditional probabilities and marginals that are critical for predictive quality of synthetic data. Further, loss of predictive quality may be non-uniform across the data set, with subsets that correspond to minority groups potentially suffering a higher loss. In this paper, we develop ensemble methods that distribute the privacy budget "wisely" to maximize predictive accuracy of models trained on DP data, and "fairly" to bound potential disparities in accuracy across groups and reduce inequality. Our methods are based on the insights that feature importance can inform how privacy budget is allocated, and, further, that per-group feature importance and fairness-related performance objectives can be incorporated in the allocation. These insights make our methods tunable to social contexts, allowing data owners to produce balanced synthetic data for predictive analysis.
翻訳日:2022-04-28 18:12:23 公開日:2022-04-27
# (参考訳) 半3次元ニューラルネットワークを用いたCT画像からの心内膜組織分画

Epicardial Adipose Tissue Segmentation from CT Images with A Semi-3D Neural Network ( http://arxiv.org/abs/2204.12904v1 )

ライセンス: CC BY 4.0
Marin Ben\v{c}evi\'c, Marija Habijan, Irena Gali\'c(参考訳) 心外脂肪組織(epipial adipose tissue)は、心臓壁と心周囲保護層の間に位置する脂肪組織の一種である。 心膜脂肪組織の体積と厚さは各種の心血管疾患と関連している。 独立した心血管疾患の危険因子であることが示されている。 CTスキャンによる心膜脂肪組織の自動的および信頼性の高い測定により,疾患リスクの評価が向上し,全身性心膜脂肪組織研究のための大規模CT画像データセットの処理が可能となった。 本稿では,深層ニューラルネットワークを用いたct画像からの心内膜脂肪組織の完全自動セグメンテーション手法を提案する。 提案ネットワークは、入力画像にスライス深度情報を埋め込んだU-Netベースのアーキテクチャを用いて、心外膜組織セグメンテーションを得るための関心領域をセグメンテーションする。 画像強化はモデルの堅牢性を高めるために使用される。 提案手法のクロスバリデーションにより20例のCTでDiceスコアが0.86となった。

Epicardial adipose tissue is a type of adipose tissue located between the heart wall and a protective layer around the heart called the pericardium. The volume and thickness of epicardial adipose tissue are linked to various cardiovascular diseases. It is shown to be an independent cardiovascular disease risk factor. Fully automatic and reliable measurements of epicardial adipose tissue from CT scans could provide better disease risk assessment and enable the processing of large CT image data sets for a systemic epicardial adipose tissue study. This paper proposes a method for fully automatic semantic segmentation of epicardial adipose tissue from CT images using a deep neural network. The proposed network uses a U-Net-based architecture with slice depth information embedded in the input image to segment a pericardium region of interest, which is used to obtain an epicardial adipose tissue segmentation. Image augmentation is used to increase model robustness. Cross-validation of the proposed method yields a Dice score of 0.86 on the CT scans of 20 patients.
翻訳日:2022-04-28 17:55:11 公開日:2022-04-27
# (参考訳) 自動アナログ/無線周波数回路パラメータ最適化のためのドメイン知識注入深層学習

Domain Knowledge-Infused Deep Learning for Automated Analog/Radio-Frequency Circuit Parameter Optimization ( http://arxiv.org/abs/2204.12948v1 )

ライセンス: CC BY 4.0
Weidong Cao, Mouhacine Benosman, Xuan Zhang, Rui Ma(参考訳) アナログ回路の設計自動化は長年の課題である。 本稿では,グラフ学習により強化された強化学習手法により,事前レイアウト段階におけるアナログ回路パラメータ最適化,すなわち所望の回路仕様を満たすデバイスパラメータの探索を自動化する。 従来の手法とは異なり、我々のアプローチはアナログ回路設計(例えば回路トポロジと回路仕様間の結合)のドメイン知識に頼ってこの問題に取り組む人間の専門家にインスパイアされている。 このような重要なドメイン知識をマルチモーダルネットワークによるポリシートレーニングに組み込むことで、回路パラメータと設計目標との複雑な関係を学習し、最適化プロセスにおける最適な決定を可能にする。 模範回路の実験結果から, 既存の最適性能手法の人間レベルの設計精度 (99%) 1.5倍の効率を実現した。 また, 回路性能最適化において, 仕様の把握や最適性が向上することを示す。 さらに、従来のアナログ回路の設計における事前学習法の限界を破って、新興半導体技術における高周波回路の設計にも適用される。

The design automation of analog circuits is a longstanding challenge. This paper presents a reinforcement learning method enhanced by graph learning to automate the analog circuit parameter optimization at the pre-layout stage, i.e., finding device parameters to fulfill desired circuit specifications. Unlike all prior methods, our approach is inspired by human experts who rely on domain knowledge of analog circuit design (e.g., circuit topology and couplings between circuit specifications) to tackle the problem. By originally incorporating such key domain knowledge into policy training with a multimodal network, the method best learns the complex relations between circuit parameters and design targets, enabling optimal decisions in the optimization process. Experimental results on exemplary circuits show it achieves human-level design accuracy (99%) 1.5X efficiency of existing best-performing methods. Our method also shows better generalization ability to unseen specifications and optimality in circuit performance optimization. Moreover, it applies to design radio-frequency circuits on emerging semiconductor technologies, breaking the limitations of prior learning methods in designing conventional analog circuits.
翻訳日:2022-04-28 17:46:26 公開日:2022-04-27
# (参考訳) セールスコールのためのエンドツーエンド対話要約システム

An End-to-End Dialogue Summarization System for Sales Calls ( http://arxiv.org/abs/2204.12951v1 )

ライセンス: CC BY-SA 4.0
Abedelkadir Asi, Song Wang, Roy Eisenstadt, Dean Geckt, Yarin Kuper, Yi Mao, Royi Ronen(参考訳) 営業電話の要約は、営業担当者が手動で行う日常業務である。 本稿では,ユーザエージェント設定用に微調整された生成モデルと,対話型要約キュレーションプロセスのためのヒューマン・イン・ザ・ループユーザエクスペリエンスを組み合わせた生産システムを提案する。 長い入力対話,コンテンツ検証,ラベル付きデータの欠如,品質評価を含む実世界における対話要約タスクの難解な側面について述べる。 本稿では,gpt-3をオフラインデータラベラーとして活用し,データ不足のトレーニングと,産業環境でのプライバシ制約に対応する方法を示す。 実験は、公開データセットの要約とコンテンツ検証タスクに取り組む際に、モデルによる大幅な改善を示しています。

Summarizing sales calls is a routine task performed manually by salespeople. We present a production system which combines generative models fine-tuned for customer-agent setting, with a human-in-the-loop user experience for an interactive summary curation process. We address challenging aspects of dialogue summarization task in a real-world setting including long input dialogues, content validation, lack of labeled data and quality evaluation. We show how GPT-3 can be leveraged as an offline data labeler to handle training data scarcity and accommodate privacy constraints in an industrial setting. Experiments show significant improvements by our models in tackling the summarization and content validation tasks on public datasets.
翻訳日:2022-04-28 17:31:55 公開日:2022-04-27
# (参考訳) 極端グローブ:テール推論による理論的に正確な分散単語埋め込み

Extremal GloVe: Theoretically Accurate Distributed Word Embedding by Tail Inference ( http://arxiv.org/abs/2204.13009v1 )

ライセンス: CC BY 4.0
Hao Wang(参考訳) Word2VecやGloVeのような分散単語埋め込みは、産業環境で広く採用されている。 GloVeの主な技術応用は推薦システムと自然言語処理である。 GloVeの背後にある基本的な理論は、単語発生数とコーパス内の最大単語数とのパワー比を計算する重み付き最小クォール式における重み付け関数の選択に依存する。 しかし、GloVe の初期定式化は理論的には2つの側面において健全ではない、すなわち重み付け関数とその出力指数はアドホックである。 本稿では,極値解析の理論を利用して,GloVeの理論的に正確なバージョンを提案する。 重み付き最小二乗損失関数を期待損失関数として再構成し、パワー指数を正確に選択することにより、理論上正確なグローブ版を作成する。 本稿では,アルゴリズムの競合性を実証し,提案した最適パラメータによるGloVeの初期定式化をパラダイムの特別な場合とみなせることを示す。

Distributed word embeddings such as Word2Vec and GloVe have been widely adopted in industrial context settings. Major technical applications of GloVe include recommender systems and natural language processing. The fundamental theory behind GloVe relies on the selection of a weighting function in the weighted least squres formulation that computes the powered ratio of word occurrence count and the maximum word count in the corpus. However, the initial formulation of GloVe is not theoretically sound in two aspects, namely the selection of the weighting function and its power exponent is ad-hoc. In this paper, we utilize the theory of extreme value analysis and propose a theoretically accurate version of GloVe. By reformulating the weighted least squares loss function as the expected loss function and accurately choosing the power exponent, we create a theoretically accurate version of GloVe. We demonstrate the competitiveness of our algorithm and show that the initial formulation of GloVe with the suggested optimal parameter can be viewed as a special case of our paradigm.
翻訳日:2022-04-28 17:20:14 公開日:2022-04-27
# (参考訳) NLU++:タスク指向対話における自然言語理解のための汎用データセット

NLU++: A Multi-Label, Slot-Rich, Generalisable Dataset for Natural Language Understanding in Task-Oriented Dialogue ( http://arxiv.org/abs/2204.13021v1 )

ライセンス: CC BY 4.0
I\~nigo Casanueva, Ivan Vuli\'c, Georgios Spithourakis, Pawe{\l} Budzianowski(参考訳) 本稿では,タスク指向対話(ToD)システムにおける自然言語理解(NLU)のための新しいデータセットであるNLU++について述べる。 NLU++は2つのドメイン(BANKINGとHOTELS)に分割されており、現在の一般的なNLUデータセットよりもいくつかの重要な改善が行われている。 nlu++は、大きな挑戦的な \textit{multi-intent} 文セットを持つきめ細かいドメインオントロジーを提供し、複雑なユーザー目標を伝達する複雑なインテントに結合できる \textit{intent modules} の概念を導入し、検証する。 オントロジーは \textit{domain-specific} と \textit{generic} (ドメイン・ユニバーサル) のインテントモジュールに分割され、ドメイン間で重複し、アノテーション付き例のクロスドメイン再利用を促進する。 データセットの設計は、産業用ToDシステムで見られる問題にインスパイアされ、そして \textbf{4)} は、対話NLUの専門家によって収集され、フィルタリングされ、慎重に注釈付けされ、高品質な注釈付きデータが得られる。 最後に、NLU++上で現在最先端のNLUモデルをベンチマークし、特に低データ状態におけるデータセットの難易度、'インテリジェントなモジュール化'の有効性を示し、ToD NLUに関するさらなる研究を呼びかける。

We present NLU++, a novel dataset for natural language understanding (NLU) in task-oriented dialogue (ToD) systems, with the aim to provide a much more challenging evaluation environment for dialogue NLU models, up to date with the current application and industry requirements. NLU++ is divided into two domains (BANKING and HOTELS) and brings several crucial improvements over current commonly used NLU datasets. \textbf{1)} NLU++ provides fine-grained domain ontologies with a large set of challenging \textit{multi-intent} sentences, introducing and validating the idea of \textit{intent modules} that can be combined into complex intents that convey complex user goals, combined with finer-grained and thus more challenging slot sets. \textbf{2)} The ontology is divided into \textit{domain-specific} and \textit{generic} (i.e., domain-universal) intent modules that overlap across domains, promoting cross-domain reusability of annotated examples. \textbf{3)} The dataset design has been inspired by the problems observed in industrial ToD systems, and \textbf{4)} it has been collected, filtered and carefully annotated by dialogue NLU experts, yielding high-quality annotated data. Finally, we benchmark a series of current state-of-the-art NLU models on NLU++; the results demonstrate the challenging nature of the dataset, especially in low-data regimes, the validity of `intent modularisation', and call for further research on ToD NLU.
翻訳日:2022-04-28 17:15:42 公開日:2022-04-27
# (参考訳) 世界モデルにおけるオブジェクトへのバインディングアクション

Binding Actions to Objects in World Models ( http://arxiv.org/abs/2204.13022v1 )

ライセンス: CC BY 4.0
Ondrej Biza, Robert Platt, Jan-Willem van de Meent, Lawson L. S. Wong and Thomas Kipf(参考訳) 本研究では,オブジェクトに対するアクションの結合に関する問題を,アクションアテンション機構を用いて検討する。 5つの環境における構造化世界モデルの文脈で評価する,オブジェクトへのアクションの結合,ソフトな注意,ハードな注意の2つの注意機構を提案する。 本実験は,オブジェクトベースグリッドワールド環境における個々のオブジェクトの分離学習を支援する。 さらに,ロボット操作作業で訓練した要因付き世界モデルのソフトアテンションにより性能が向上することを示す。 学習されたアクションの注意重み付けは、環境の操作対象に注目したファクタリングされた世界モデルを理解するのに使うことができる。

We study the problem of binding actions to objects in object-factored world models using action-attention mechanisms. We propose two attention mechanisms for binding actions to objects, soft attention and hard attention, which we evaluate in the context of structured world models for five environments. Our experiments show that hard attention helps contrastively-trained structured world models to learn to separate individual objects in an object-based grid-world environment. Further, we show that soft attention increases performance of factored world models trained on a robotic manipulation task. The learned action attention weights can be used to interpret the factored world model as the attention focuses on the manipulated object in the environment.
翻訳日:2022-04-28 16:50:29 公開日:2022-04-27
# (参考訳) TimeBERT: 時間情報による事前学習言語表現の強化

TimeBERT: Enhancing Pre-Trained Language Representations with Temporal Information ( http://arxiv.org/abs/2204.13032v1 )

ライセンス: CC BY 4.0
Jiexin Wang, Adam Jatowt, Masatoshi Yoshikawa(参考訳) タイムは、自然言語処理において広く活用され、例えば時間的情報検索において、関連性評価のためにクエリやドキュメントの時間的情報を特定する必要があるなど、強い影響を持つテキスト文書の重要な側面である。 イベントの順序付けのようなイベント関連タスクは、イベントの時間的情報を決定する必要がある。 本研究では,事前学習中に時間情報を統合する手法について検討し,時間関連タスクの性能向上を図る。 同期文書コレクション(BooksCorpus と English Wikipedia)をトレーニングコーパスとして利用するBERTと比較して,時間的情報がニュース記事の最も重要な特徴の1つであるため,単語表現構築に長時間の時間的ニュースコレクションを使用する。 次に、タイムアウェアな言語表現を構築するために、2つの異なる時間信号を利用する2つの新しい事前学習タスクを通して、ニュース記事の時間的収集に基づいて訓練された新しい言語表現モデルであるTimeBERTを紹介する。 実験の結果、TimeBERTはBERTや他の既存のトレーニング済みモデルより一貫して優れており、異なる下流のNLPタスクや、どの時間が重要かというアプリケーションに対してかなりの利益があることがわかった。

Time is an important aspect of text documents, which has been widely exploited in natural language processing and has strong influence, for example, in temporal information retrieval, where the temporal information of queries or documents need to be identified for relevance estimation. Event-related tasks like event ordering, which aims to order events by their occurrence time, also need to determine the temporal information of events. In this work, we investigate methods for incorporating temporal information during pre-training, to further improve the performance on time-related tasks. Compared with BERT which utilizes synchronic document collections (BooksCorpus and English Wikipedia) as the training corpora, we use long-span temporal news collection for building word representations, since temporal information constitutes one of the most significant features of news articles. We then introduce TimeBERT, a novel language representation model trained on a temporal collection of news articles via two new pre-training tasks, which harness two distinct temporal signals to construct time-aware language representation. The experimental results show that TimeBERT consistently outperforms BERT and other existing pre-trained models, with substantial gains on different downstream NLP tasks or applications for which time is of importance.
翻訳日:2022-04-28 16:39:23 公開日:2022-04-27
# (参考訳) TERMinator:第三次反復モチーフを用いた構造ベースタンパク質設計のためのニューラルネットワークフレームワーク

TERMinator: A Neural Framework for Structure-Based Protein Design using Tertiary Repeating Motifs ( http://arxiv.org/abs/2204.13048v1 )

ライセンス: CC BY 4.0
Alex J. Li, Vikram Sundar, Gevorg Grigoryan, Amy E. Keating(参考訳) 計算タンパク質の設計は、新しい分子構造、バインダー、触媒を無数の用途にもたらす可能性がある。 バックボーン座標に基づく最近のニューラルグラフベースモデルは、ネイティブシーケンス回復タスクにおいて例外的なパフォーマンスを示し、設計に有望なフレームワークである。 第3次モチーフ(TERM)を用いたタンパク質配列のモデリングのための統計的枠組みは、タンパク質の繰り返し構造のコンパクトな単位であり、タンパク質設計タスクにおいて優れた性能を示した。 本研究では, TERM由来のデータを用いた神経タンパク質設計フレームワークの特徴について検討する。 我々のグラフベースアーキテクチャであるTERMinatorは、TERMベースおよび座標ベース情報を組み込んで、シーケンス空間上でPottsモデルを出力する。 TERMinatorは、ネイティブシークエンスリカバリタスクの最先端モデルよりも優れており、TERMベースの機能と座標ベースの機能を併用することは、タンパク質設計に有用である。

Computational protein design has the potential to deliver novel molecular structures, binders, and catalysts for myriad applications. Recent neural graph-based models that use backbone coordinate-derived features show exceptional performance on native sequence recovery tasks and are promising frameworks for design. A statistical framework for modeling protein sequence landscapes using Tertiary Motifs (TERMs), compact units of recurring structure in proteins, has also demonstrated good performance on protein design tasks. In this work, we investigate the use of TERM-derived data as features in neural protein design frameworks. Our graph-based architecture, TERMinator, incorporates TERM-based and coordinate-based information and outputs a Potts model over sequence space. TERMinator outperforms state-of-the-art models on native sequence recovery tasks, suggesting that utilizing TERM-based and coordinate-based features together is beneficial for protein design.
翻訳日:2022-04-28 16:20:24 公開日:2022-04-27
# (参考訳) Bisimulationはゴール・コンディション強化学習におけるアナロジーを作る

Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2204.13060v1 )

ライセンス: CC BY-SA 4.0
Philippe Hansen-Estruch, Amy Zhang, Ashvin Nair, Patrick Yin, Sergey Levine(参考訳) リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。 伝統的に、目標条件付きrlでは、エージェントは到達しようとする正確な目標を提供する。 しかし、タスクを実行する前に目標の設定を知ることは現実的ではないことが多い。 よりスケーラブルなフレームワークによって、エージェントに類似したタスクの例を提供し、エージェントに現在の状態に対する目標を推測させることができます。 我々は,機能的等分散を捉え,新たな目標を達成するためのスキルの再利用を可能にする,goal-conditioned bisimulationと呼ばれる新しい状態抽象化を提案する。 この抽象化の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。 さらに,この学習表現は,ゴール条件付きタスクだけでなく,状態のみの報酬関数によって記述される下流タスクにも適していることを示す。 ビデオはhttps://sites.google.com/view/gc-bisimulationで見ることができる。

Building generalizable goal-conditioned agents from rich observations is a key to reinforcement learning (RL) solving real world problems. Traditionally in goal-conditioned RL, an agent is provided with the exact goal they intend to reach. However, it is often not realistic to know the configuration of the goal before performing a task. A more scalable framework would allow us to provide the agent with an example of an analogous task, and have the agent then infer what the goal should be for its current state. We propose a new form of state abstraction called goal-conditioned bisimulation that captures functional equivariance, allowing for the reuse of skills to achieve new goals. We learn this representation using a metric form of this abstraction, and show its ability to generalize to new goals in simulation manipulation tasks. Further, we prove that this learned representation is sufficient not only for goal conditioned tasks, but is amenable to any downstream task described by a state-only reward function. Videos can be found at https://sites.google.com/view/gc-bisimulation.
翻訳日:2022-04-28 16:08:12 公開日:2022-04-27
# (参考訳) 注意誘導グラフ畳み込みを用いた手と物体の協調学習

Collaborative Learning for Hand and Object Reconstruction with Attention-guided Graph Convolution ( http://arxiv.org/abs/2204.13062v1 )

ライセンス: CC0 1.0
Tze Ho Elden Tse, Kwang In Kim, Ales Leonardis, Hyung Jin Chang(参考訳) 相互作用中の手や物体のポーズや形状を推定すると、拡張現実や仮想現実を含む多くの応用が見つかる。 手動およびオブジェクト再構成のための既存のアプローチは、明確に定義された物理的制約と既知のオブジェクトを必要とし、アプリケーションドメインを制限します。 本アルゴリズムはオブジェクトモデルに非依存であり,手動オブジェクト間相互作用を規定する物理規則を学習する。 これは手と(潜在的に未知の)物体の形状と物理的相互作用を自動的に推測する必要がある。 我々は,深層ネットワークの2つの領域が相互に学習する協調学習戦略を提案することにより,この課題に対処しようとする。 具体的には、ハンドメッシュ情報をオブジェクトブランチに転送し、その逆をハンドブランチに転送する。 結果として生じる最適化(トレーニング)問題は不安定になり得ます。 (i)相互咬合を識別し集中する注意誘導グラフ畳み込み (二)支店間の情報の伝達を容易にする無監督連想損失 4つの広く使われているベンチマークを用いた実験により、3dポーズ推定における最先端の精度を超え、密集した3d手や物体形状を回復できることが示されている。 上記の各技術要素はアブレーション研究に有意義に貢献する。

Estimating the pose and shape of hands and objects under interaction finds numerous applications including augmented and virtual reality. Existing approaches for hand and object reconstruction require explicitly defined physical constraints and known objects, which limits its application domains. Our algorithm is agnostic to object models, and it learns the physical rules governing hand-object interaction. This requires automatically inferring the shapes and physical interaction of hands and (potentially unknown) objects. We seek to approach this challenging problem by proposing a collaborative learning strategy where two-branches of deep networks are learning from each other. Specifically, we transfer hand mesh information to the object branch and vice versa for the hand branch. The resulting optimisation (training) problem can be unstable, and we address this via two strategies: (i) attention-guided graph convolution which helps identify and focus on mutual occlusion and (ii) unsupervised associative loss which facilitates the transfer of information between the branches. Experiments using four widely-used benchmarks show that our framework achieves beyond state-of-the-art accuracy in 3D pose estimation, as well as recovers dense 3D hand and object shapes. Each technical component above contributes meaningfully in the ablation study.
翻訳日:2022-04-28 15:36:44 公開日:2022-04-27
# (参考訳) 教育可能な推論システムを目指して

Towards Teachable Reasoning Systems ( http://arxiv.org/abs/2204.13074v1 )

ライセンス: CC BY 4.0
Bhavana Dalvi, Oyvind Tafjord, Peter Clark(参考訳) 私たちのゴールは質問応答システム(qa)で、ユーザが忠実な回答説明と対話し、エラーを訂正することで、システムが時間とともに改善できるようにします。 第一に生成された推論の連鎖は、システムの内部的信念によってどのように答えが示唆されるかを示しています。 第二に、ユーザーは説明と対話して誤ったモデル信念を特定し、修正を行うことができる。 第3に、そのような補正の動的なメモリでモデルを増強する。 メモリからの検索は、新しいタイプのメモリベースの継続的学習である、同様の新しい状況で以前のミスを避けるために、qaの追加コンテキストとして使用される。 私たちの知る限りでは、これは(答えは推論から従う)忠実で真理に満ちた連鎖を生成する最初のシステムである(連鎖は自己クエリによって確かめられるように、システム自身の信念を反映する)。 評価では、生成されたチェーンの過半数(65%以上)が、ハイパフォーマンスなベースラインよりもはるかに優れた、一連の事実から回答がどのように続くかを明確に示していると判断する。 また、シミュレーションフィードバックを用いることで、システム(EntailmentWriterと呼ばれる)は時間とともに継続的に改善し、トレーニングサンプルの25%しか上り行の1%(すべての例にフィードバック)に到達できないことが分かりました。 実際のユーザでも同じような傾向が見られます。 これは、ユーザがシステムの時間的パフォーマンスを検査、デバッグ、修正、改善できるインタラクティブな環境で、言語モデルを使用する新たな機会を示唆する。

Our goal is a teachable reasoning system for question-answering (QA), where a user can interact with faithful answer explanations, and correct errors so that the system improves over time. Our approach is three-fold: First, generated chains of reasoning show how answers are implied by the system's own internal beliefs. Second, users can interact with the explanations to identify erroneous model beliefs and provide corrections. Third, we augment the model with a dynamic memory of such corrections. Retrievals from memory are used as additional context for QA, to help avoid previous mistakes in similar new situations - a novel type of memory-based continuous learning. To our knowledge, this is the first system to generate chains that are both faithful (the answer follows from the reasoning) and truthful (the chain reflects the system's own beliefs, as ascertained by self-querying). In evaluation, users judge that a majority (65%+) of generated chains clearly show how an answer follows from a set of facts - substantially better than a high-performance baseline. We also find that using simulated feedback, our system (called EntailmentWriter) continually improves with time, requiring feedback on only 25% of training examples to reach within 1% of the upper-bound (feedback on all examples). We observe a similar trend with real users. This suggests new opportunities for using language models in an interactive setting where users can inspect, debug, correct, and improve a system's performance over time.
翻訳日:2022-04-28 15:16:33 公開日:2022-04-27
# FlowGNN:マルチキューストリーミングによるユニバーサルグラフニューラルネットワーク推論のためのデータフローアーキテクチャ

FlowGNN: A Dataflow Architecture for Universal Graph Neural Network Inference via Multi-Queue Streaming ( http://arxiv.org/abs/2204.13103v1 )

ライセンス: Link先を確認
Rishov Sarkar, Stefan Abi-Karam, Yuqi He, Lakshmi Sathidevi, Cong Hao(参考訳) グラフニューラルネットワーク(GNN)は、量子化学、薬物発見、高エネルギー物理学などのグラフ関連問題に広く適用可能であるため、最近人気が高まっている。 しかし、効率的な加速器の開発と新しいGNNモデルの迅速な作成との間にギャップがあるため、新しいGNNモデルの需要と高速推論を同時に行うことは困難である。 従来の技術は、グラフ畳み込みネットワーク(GCN)など、GNNの特定のクラスのアクセラレーションに重点を置いていたが、既存のGNNモデルや新しいGNNモデルをサポートする汎用性に欠けていた。 一方、ほとんどの作業はデータローカリティを活用するためにグラフ前処理に依存しており、リアルタイムアプリケーションには適さない。 本稿では,GNNアクセラレーションのための汎用データフローアーキテクチャであるFlowGNNを提案する。 コントリビューションは3倍です。 まず,メッセージパッシング機構を備えた幅広いgnnモデルを柔軟にサポートする,新しいスケーラブルなデータフローアーキテクチャを提案する。 このアーキテクチャは、ノード埋め込み、エッジ埋め込み、メッセージパッシングの同時計算に最適化された構成可能なデータフローを特徴としている。 また,モデル固有のコンポーネントの豊富なライブラリを提案する。 第2に、グラフ前処理なしで超高速なリアルタイムGNN推論を提供することにより、グラフ構造を動的に変化させることができない。 第3に、Xilinx Alveo U50 FPGAボード上でのアーキテクチャを検証するとともに、オンボードのエンドツーエンド性能を測定する。 我々は、CPU(6226R)に対して51-254x、GPU(A6000)に対して1.3-477x(バッチサイズ1から1024)の高速化を実現し、2つのデータセットでSOTA GNNアクセラレータI-GCNを1.03x、1.25xで上回った。 実装コードとオンボード計測はgithubで公開されている。

Graph neural networks (GNNs) have recently exploded in popularity thanks to their broad applicability to graph-related problems such as quantum chemistry, drug discovery, and high energy physics. However, meeting demand for novel GNN models and fast inference simultaneously is challenging because of the gap between developing efficient accelerators and the rapid creation of new GNN models. Prior art focuses on the acceleration of specific classes of GNNs, such as Graph Convolutional Network (GCN), but lacks the generality to support a wide range of existing or new GNN models. Meanwhile, most work rely on graph pre-processing to exploit data locality, making them unsuitable for real-time applications. To address these limitations, in this work, we propose a generic dataflow architecture for GNN acceleration, named FlowGNN, which can flexibly support the majority of message-passing GNNs. The contributions are three-fold. First, we propose a novel and scalable dataflow architecture, which flexibly supports a wide range of GNN models with message-passing mechanism. The architecture features a configurable dataflow optimized for simultaneous computation of node embedding, edge embedding, and message passing, which is generally applicable to all models. We also propose a rich library of model-specific components. Second, we deliver ultra-fast real-time GNN inference without any graph pre-processing, making it agnostic to dynamically changing graph structures. Third, we verify our architecture on the Xilinx Alveo U50 FPGA board and measure the on-board end-to-end performance. We achieve a speed-up of up to 51-254x against CPU (6226R) and 1.3-477x against GPU (A6000) (with batch sizes 1 through 1024); we also outperform the SOTA GNN accelerator I-GCN by 1.03x and 1.25x across two datasets. Our implementation code and on-board measurement are publicly available on GitHub.
翻訳日:2022-04-28 14:49:36 公開日:2022-04-27
# 弾性幾何整合3次元形状マッチングのためのスケーラブルコンビネート解法

A Scalable Combinatorial Solver for Elastic Geometrically Consistent 3D Shape Matching ( http://arxiv.org/abs/2204.12805v1 )

ライセンス: Link先を確認
Paul Roetzer and Paul Swoboda and Daniel Cremers and Florian Bernard(参考訳) 3次元形状間の幾何学的一貫性のある写像の空間をグローバルに最適化するためのスケーラブルな組合せアルゴリズムを提案する。 windheuser et al. (iccv 2011) によって提案された数学的にエレガントな形式を使い、3次元形状マッチングは向き保存微分同相の空間上の整数線形プログラムとして定式化された。 これまで、結果の定式化は複雑な制約構造と大きなサイズのために実用性に制限があった。 そこで本研究では,従来の解法に比べて数桁早いラグランジュ双対問題と組み合わされた新しい素数ヒューリスティックを提案する。 これにより、以前よりかなり多くの三角形を持つ形状を扱えるようになる。 多様なデータセットで魅力的な結果を示し、完全な形状が得られなくても2つの部分的な形状をマッチングする難しい設定に対処できることを示した。 私たちのコードはhttp://github.com/paul0noah/sm-combで公開されています。

We present a scalable combinatorial algorithm for globally optimizing over the space of geometrically consistent mappings between 3D shapes. We use the mathematically elegant formalism proposed by Windheuser et al. (ICCV 2011) where 3D shape matching was formulated as an integer linear program over the space of orientation-preserving diffeomorphisms. Until now, the resulting formulation had limited practical applicability due to its complicated constraint structure and its large size. We propose a novel primal heuristic coupled with a Lagrange dual problem that is several orders of magnitudes faster compared to previous solvers. This allows us to handle shapes with substantially more triangles than previously solvable. We demonstrate compelling results on diverse datasets, and, even showcase that we can address the challenging setting of matching two partial shapes without availability of complete shapes. Our code is publicly available at http://github.com/paul0noah/sm-comb .
翻訳日:2022-04-28 14:49:01 公開日:2022-04-27
# SVDによるDeepONetの柔軟性と解釈性の向上

SVD Perspectives for Augmenting DeepONet Flexibility and Interpretability ( http://arxiv.org/abs/2204.12670v1 )

ライセンス: Link先を確認
Simone Venturi and Tiernan Casey(参考訳) ディープオペレータネットワーク(deeponets)は、複雑なダイナミクスの高速かつ正確なエミュレーションのための強力なアーキテクチャである。 それらの顕著な一般化機能は、主に射影に基づく属性によって実現されるので、特異値分解(SVD)から導かれる低ランク技術との接続について検討する。 適切な直交分解(POD)-ニューラルネットワークの背景にある概念のいくつかは、DeepONetの設計とトレーニングのフェーズを改善することができる。 これらのアイデアはSVD-DeepONetという方法論の拡張につながります。 さらに、複数のSVD解析により、DeepONetはその射影に基づく属性から、対称性によって特徴づけられるダイナミクスを表現するのに強い非効率性を引き継いでいることがわかった。 シフトPODの研究に触発されたflexDeepONetは、移動参照フレームを生成し、動的の剛性成分を分離するための事前変換ネットワークに依存するアーキテクチャ拡張である。 このようにして、物理学は回転、翻訳、ストレッチのない潜在空間上で表現することができ、正確な投影を低次元の基底に行うことができる。 柔軟性と解釈性に加えて、提案された視点はDeepONetの一般化能力と計算効率を高める。 例えば、flexdeeponetは、バニラアーキテクチャよりも95%のトレーニング可能なパラメータに依存することで、燃焼化学アプリケーションにおける19変数のダイナミクスを正確に測定できることを示した。 我々は,DeepONetとSVDベースの手法が相互に相互に利益をもたらすことを議論する。 特に、複数のデータソースと多面的知識を非構造化データと物理インフォームド制約の両方の形で活用することにおける前者の柔軟性は、PODやPCAのような方法論の適用性を大幅に拡張する可能性がある。

Deep operator networks (DeepONets) are powerful architectures for fast and accurate emulation of complex dynamics. As their remarkable generalization capabilities are primarily enabled by their projection-based attribute, we investigate connections with low-rank techniques derived from the singular value decomposition (SVD). We demonstrate that some of the concepts behind proper orthogonal decomposition (POD)-neural networks can improve DeepONet's design and training phases. These ideas lead us to a methodology extension that we name SVD-DeepONet. Moreover, through multiple SVD analyses, we find that DeepONet inherits from its projection-based attribute strong inefficiencies in representing dynamics characterized by symmetries. Inspired by the work on shifted-POD, we develop flexDeepONet, an architecture enhancement that relies on a pre-transformation network for generating a moving reference frame and isolating the rigid components of the dynamics. In this way, the physics can be represented on a latent space free from rotations, translations, and stretches, and an accurate projection can be performed to a low-dimensional basis. In addition to flexibility and interpretability, the proposed perspectives increase DeepONet's generalization capabilities and computational efficiencies. For instance, we show flexDeepONet can accurately surrogate the dynamics of 19 variables in a combustion chemistry application by relying on 95% less trainable parameters than the ones of the vanilla architecture. We argue that DeepONet and SVD-based methods can reciprocally benefit from each other. In particular, the flexibility of the former in leveraging multiple data sources and multifidelity knowledge in the form of both unstructured data and physics-informed constraints has the potential to greatly extend the applicability of methodologies such as POD and PCA.
翻訳日:2022-04-28 14:45:49 公開日:2022-04-27
# 放物型偏微分方程式に関連したグリーン関数の学習

Learning Green's functions associated with parabolic partial differential equations ( http://arxiv.org/abs/2204.12789v1 )

ライセンス: Link先を確認
Nicolas Boull\'e, Seick Kim, Tianyi Shi, Alex Townsend(参考訳) 任意の空間次元$n\geq 1$の放物型偏微分方程式(PDE)から入力出力対が与えられたとき、関連するグリーン関数$G$を学習するための理論的に厳密なスキームを導出する。 これまで、パラボリックな演算子に関連するグリーンの関数を厳密に学習することは、科学的な機械学習の分野において大きな課題だった。 By combining the hierarchical low-rank structure of $G$ together with the randomized singular value decomposition, we construct an approximant to $G$ that achieves a relative error of $\smash{\mathcal{O}(\Gamma_\epsilon^{-1/2}\epsilon)}$ in the $L^1$-norm with high probability by using at most $\smash{\mathcal{O}(\epsilon^{-\frac{n+2}{2}}\log(1/\epsilon))}$ input-output training pairs, where $\Gamma_\epsilon$ is a measure of the quality of the training dataset for learning $G$, and $\epsilon>0$ is sufficiently small. その過程で、bebendorf と hackbusch の低ランク理論を、次元 1\leq n\leq 3$ の楕円型 pdes から任意の次元の放物型 pdes へと拡張し、放物型 pdes に付随するグリーン関数は、整域上の低ランク構造を許容することを示した。

Given input-output pairs from a parabolic partial differential equation (PDE) in any spatial dimension $n\geq 1$, we derive the first theoretically rigorous scheme for learning the associated Green's function $G$. Until now, rigorously learning Green's functions associated with parabolic operators has been a major challenge in the field of scientific machine learning because $G$ may not be square-integrable when $n>1$, and time-dependent PDEs have transient dynamics. By combining the hierarchical low-rank structure of $G$ together with the randomized singular value decomposition, we construct an approximant to $G$ that achieves a relative error of $\smash{\mathcal{O}(\Gamma_\epsilon^{-1/2}\epsilon)}$ in the $L^1$-norm with high probability by using at most $\smash{\mathcal{O}(\epsilon^{-\frac{n+2}{2}}\log(1/\epsilon))}$ input-output training pairs, where $\Gamma_\epsilon$ is a measure of the quality of the training dataset for learning $G$, and $\epsilon>0$ is sufficiently small. Along the way, we extend the low-rank theory of Bebendorf and Hackbusch from elliptic PDEs in dimension $1\leq n\leq 3$ to parabolic PDEs in any dimensions, which shows that Green's functions associated with parabolic PDEs admit a low-rank structure on well-separated domains.
翻訳日:2022-04-28 14:45:21 公開日:2022-04-27
# 大規模MIMO位置決めのための教師付きコントラストCSI表現学習

Supervised Contrastive CSI Representation Learning for Massive MIMO Positioning ( http://arxiv.org/abs/2204.12796v1 )

ライセンス: Link先を確認
Junquan Deng, Wei Shi, Jianzhao Zhang, Xianyu Zhang, and Chuan Zhang(参考訳) チャネル状態情報(csi)を利用した大規模mimo測位には類似度指標が不可欠である。 本稿では,深層畳み込みニューラルネットワーク~(DCNN)とコントラスト学習を用いたMIMO CSI類似性学習手法を提案する。 トレーニングデータセットから引き出された複数の正および負のcsiサンプルを考慮して、コントラスト損失関数を設計する。 DCNNエンコーダは、この損失を利用して、正のサンプルをアンカーのエンコーダに近い点にマッピングし、負のサンプルのエンコーダをアンカーのエンコーダから表現空間に遠ざけるように訓練する。 実世界のcsiデータセットにおける指紋に基づく測位の評価結果から,学習した類似度指標は,他の既知の方法と比較して,測位精度が有意に向上することが示された。

Similarity metric is crucial for massive MIMO positioning utilizing channel state information~(CSI). In this letter, we propose a novel massive MIMO CSI similarity learning method via deep convolutional neural network~(DCNN) and contrastive learning. A contrastive loss function is designed considering multiple positive and negative CSI samples drawn from a training dataset. The DCNN encoder is trained using the loss so that positive samples are mapped to points close to the anchor's encoding, while encodings of negative samples are kept away from the anchor's in the representation space. Evaluation results of fingerprint-based positioning on a real-world CSI dataset show that the learned similarity metric improves positioning accuracy significantly compared with other known state-of-the-art methods.
翻訳日:2022-04-28 14:44:51 公開日:2022-04-27
# ハイブリッド電気自動車の電池消費予測の不確かさ

Uncertainty-Aware Prediction of Battery Energy Consumption for Hybrid Electric Vehicles ( http://arxiv.org/abs/2204.12825v1 )

ライセンス: Link先を確認
Jihed Khiari, Cristina Olaverri-Monreal(参考訳) 自動車の使い勝手はエネルギー消費に大きく依存している。 特に、電気(EV)、ハイブリッド(HEV)、プラグインハイブリッド(PHEV)車両の大量導入を妨げる主な要因の1つは、走行時のエネルギーの可利用性について不確実な場合に発生する範囲不安である。 そこで本研究では,バッテリエネルギー消費をモデル化する機械学習手法を提案する。 予測の不確実性を減らすことにより、この手法は車両の性能に対する信頼性を高め、使用性を高めることができる。 ほとんどの関連する研究は、エネルギー消費に影響を与える電池の物理モデルや化学モデルに焦点を当てている。 我々は,バッテリ関連属性を含む実世界のデータセットに依存するデータ駆動アプローチを提案する。 従来の手法に比べて,予測の不確実性や精度が向上した。

The usability of vehicles is highly dependent on their energy consumption. In particular, one of the main factors hindering the mass adoption of electric (EV), hybrid (HEV), and plug-in hybrid (PHEV) vehicles is range anxiety, which occurs when a driver is uncertain about the availability of energy for a given trip. To tackle this problem, we propose a machine learning approach for modeling the battery energy consumption. By reducing predictive uncertainty, this method can help increase trust in the vehicle's performance and thus boost its usability. Most related work focuses on physical and/or chemical models of the battery that affect the energy consumption. We propose a data-driven approach which relies on real-world datasets including battery related attributes. Our approach showed an improvement in terms of predictive uncertainty as well as in accuracy compared to traditional methods.
翻訳日:2022-04-28 14:44:33 公開日:2022-04-27
# 非自律力学系同定のための多目的物理誘導リカレントニューラルネットワーク

Multi-Objective Physics-Guided Recurrent Neural Networks for Identifying Non-Autonomous Dynamical Systems ( http://arxiv.org/abs/2204.12972v1 )

ライセンス: Link先を確認
Oliver Sch\"on, Ricarda-Samantha G\"otte, Julia Timmermann(参考訳) モデリングの労力とモデルの正確性の間のトレードオフは、システム識別において依然として大きな関心事であるが、データ駆動型メソッドへの依存は、物理的実用性を完全に無視する結果となることが多い。 この問題に対処するために、制御下の非自律システムモデリングのための物理誘導ハイブリッドアプローチを提案する。 従来の物理モデルから始まり、リカレントニューラルネットワークによって拡張され、物理的に妥当なモデルを生成する洗練された多目的戦略を用いてトレーニングされる。 純粋にデータ駆動方式では満足な結果が得られないが,実データを用いた実験により,物理モデルと比較して精度が大幅に向上した。

While trade-offs between modeling effort and model accuracy remain a major concern with system identification, resorting to data-driven methods often leads to a complete disregard for physical plausibility. To address this issue, we propose a physics-guided hybrid approach for modeling non-autonomous systems under control. Starting from a traditional physics-based model, this is extended by a recurrent neural network and trained using a sophisticated multi-objective strategy yielding physically plausible models. While purely data-driven methods fail to produce satisfying results, experiments conducted on real data reveal substantial accuracy improvements by our approach compared to a physics-based model.
翻訳日:2022-04-28 14:44:20 公開日:2022-04-27
# 深層学習は人間の視覚的長期記憶の効率と一致してオブジェクトの詳細を保存できるのか?

Can deep learning match the efficiency of human visual long-term memory to store object details? ( http://arxiv.org/abs/2204.13061v1 )

ライセンス: Link先を確認
A. Emin Orhan(参考訳) 心理学の古典的な実験で実証されたように、人間は単一の露出後も、詳細な視覚情報を長期記憶に保存する能力が非常に大きい。 例えば、Standing (1973) は、人間が認識テストの数日前に一度だけ見た何千もの写真を高精度に認識できることを示した。 ディープラーニングでは、モデルに新しい情報を組み込む主要な方法は、モデルのパラメータ空間における勾配降下である。 本稿では,人間の視覚的長期記憶の効率と勾配勾配による深層学習が一致し,より厳密な定量的比較に新たな情報を組み込むことができるかどうかを問う。 最良の場合であっても、勾配降下による学習モデルでは、人間がたった1回の露出で達成した認識メモリ性能に到達するために、同じ視覚材料に約10の露出を必要とするように見える。 事前トレーニングとより大きなモデルサイズによって引き起こされる事前知識はパフォーマンスを向上させるが、これらの改善は1回の露光であまり目立たない(改善が明らかになるにはいくつかの露出が必要)ため、事前トレーニングデータサイズやモデルサイズをスケールアップするだけでは、モデルが人間のレベルのメモリ効率に達するには不十分である可能性がある。

Humans have a remarkably large capacity to store detailed visual information in long-term memory even after a single exposure, as demonstrated by classic experiments in psychology. For example, Standing (1973) showed that humans could recognize with high accuracy thousands of pictures that they had seen only once a few days prior to a recognition test. In deep learning, the primary mode of incorporating new information into a model is through gradient descent in the model's parameter space. This paper asks whether deep learning via gradient descent can match the efficiency of human visual long-term memory to incorporate new information in a rigorous, head-to-head, quantitative comparison. We answer this in the negative: even in the best case, models learning via gradient descent appear to require approximately 10 exposures to the same visual materials in order to reach a recognition memory performance humans achieve after only a single exposure. Prior knowledge induced via pretraining and bigger model sizes improve performance, but these improvements are not very visible after a single exposure (it takes a few exposures for the improvements to become apparent), suggesting that simply scaling up the pretraining data size or model size might not be enough for the model to reach human-level memory efficiency.
翻訳日:2022-04-28 14:44:07 公開日:2022-04-27
# データに基づく価格差別:情報理論の限界と最小限の戦略

Data-based price discrimination: information theoretic limitations and a minimax optimal strategy ( http://arxiv.org/abs/2204.12723v1 )

ライセンス: Link先を確認
Haitian Xie, Ying Zhu(参考訳) 本稿では,古典的価格理論とデータベース価格理論とのギャップについて考察する。 我々は,有限サンプルの観測に基づいて,買い手の型を連続した価格判別の問題に焦点をあてる。 我々の最初の一連の結果は、データベースの価格戦略と理論上の最適3次価格差別(3PD)戦略との相違に対する最悪のシナリオにおいて、分布(サンプルが引かれる場所)から導かれる分布(一様価格戦略)との明確な下限を提供する。 その結果、データベースの価格戦略に基づく収益と、理論的に最適な3PD戦略に基づく収益との間には必然的なギャップがある。 次に、実装が容易なデータベースの3pdと均一な価格戦略を提案し、それぞれの収益と理論上の最適3pd(一様価格)戦略に基づく収益のギャップが、最下位の定数(サンプルサイズ$n$とは無関係)の条件に合致するという意味で、それぞれの戦略がミニマックス最適であることを示す。 サンプルサイズn$が十分大きい場合に限って,3PD戦略が均一な価格戦略よりも収益性が高いことを示す。 言い換えれば、$n$がしきい値以下であれば、均一な価格戦略は3PD戦略よりも優れた収益である。 さらに,我々のミニマックス最適3pd(一様価格)戦略による福祉と,理論的最適3pd(一様価格)戦略に基づく福祉とのギャップに対する上限を提供する。

This paper studies the gap between the classical pricing theory and the data-based pricing theory. We focus on the problem of price discrimination with a continuum of buyer types based on a finite sample of observations. Our first set of results provides sharp lower bounds in the worst-case scenario for the discrepancy between any data-based pricing strategies and the theoretical optimal third-degree price discrimination (3PD) strategy (respectively, uniform pricing strategy) derived from the distribution (where the sample is drawn) ranging over a large class of distributions. Consequently, there is an inevitable gap between revenues based on any data-based pricing strategy and the revenue based on the theoretical optimal 3PD (respectively, uniform pricing) strategy. We then propose easy-to-implement data-based 3PD and uniform pricing strategies and show each strategy is minimax optimal in the sense that the gap between their respective revenue and the revenue based on the theoretical optimal 3PD (respectively, uniform pricing) strategy matches our worst-case lower bounds up to constant factors (that are independent of the sample size $n$). We show that 3PD strategies are revenue superior to uniform pricing strategies if and only if the sample size $n$ is large enough. In other words, if $n$ is below a threshold, uniform pricing strategies are revenue superior to 3PD strategies. We further provide upper bounds for the gaps between the welfare generated by our minimax optimal 3PD (respectively, uniform pricing) strategy and the welfare based on the theoretical optimal 3PD (respectively, uniform pricing) strategy.
翻訳日:2022-04-28 14:42:58 公開日:2022-04-27
# (参考訳) 野生で頭が水に浸かる

Few-Shot Head Swapping in the Wild ( http://arxiv.org/abs/2204.13100v1 )

ライセンス: CC BY 4.0
Changyong Shu, Hemao Wu, Hang Zhou, Jiaming Liu, Zhibin Hong, Changxing Ding, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang(参考訳) ヘッドスワップタスクは、様々なエンターテイメントシナリオにおいて非常に重要なターゲット本体にソースヘッドを完璧に配置することを目的としている。 顔のスワップは注目されているが、頭部スワップの作業は、特に数ショットの環境では、ほとんど行われていない。 ヘッドモデリングとバックグラウンドブレンドに特有のニーズがあるため、本質的には困難である。 本稿では,2つの微妙に設計されたモジュールを通して,野生で数発の頭部交換が可能なヘッドスワッパー(HeSer)を提案する。 まず、マルチスケール情報を調べることにより、ターゲットからソースヘッドへポーズ及び表情情報を階層的に移動させるヘッド2ヘッドライナーが考案される。 次に、スワップ法における肌色変化や頭部後方ミスマッチの課題に対処するため、ヘッド2シーンブレンダを導入し、顔の肌色を同時に変更し、頭周りの背景のミスマッチした隙間を埋める。 特にシームレスなブレンディングは、Semantic-Guided Color Reference CreationとBlending UNetの助けを借りて実現されている。 大規模な実験により,様々な場面で優れた頭部スワッピング結果が得られた。

The head swapping task aims at flawlessly placing a source head onto a target body, which is of great importance to various entertainment scenarios. While face swapping has drawn much attention, the task of head swapping has rarely been explored, particularly under the few-shot setting. It is inherently challenging due to its unique needs in head modeling and background blending. In this paper, we present the Head Swapper (HeSer), which achieves few-shot head swapping in the wild through two delicately designed modules. Firstly, a Head2Head Aligner is devised to holistically migrate pose and expression information from the target to the source head by examining multi-scale information. Secondly, to tackle the challenges of skin color variations and head-background mismatches in the swapping procedure, a Head2Scene Blender is introduced to simultaneously modify facial skin color and fill mismatched gaps in the background around the head. Particularly, seamless blending is achieved with the help of a Semantic-Guided Color Reference Creation procedure and a Blending UNet. Extensive experiments demonstrate that the proposed method produces superior head swapping results in a variety of scenes.
翻訳日:2022-04-28 14:41:31 公開日:2022-04-27
# 文法誘導型遺伝的プログラミングによる一般化型マルチグリッド型ヘルムホルツプリコンディショナーの開発

Evolving Generalizable Multigrid-Based Helmholtz Preconditioners with Grammar-Guided Genetic Programming ( http://arxiv.org/abs/2204.12846v1 )

ライセンス: Link先を確認
Jonas Schmitt, Harald K\"ostler(参考訳) 非定値ヘルムホルツ方程式の解法は多くの物理現象の理解に不可欠であるだけでなく、数値的な手法の応用を成功させるためには、非常に難しいベンチマーク問題でもある。 本稿では,多目的文法誘導型遺伝的プログラミングを用いたヘルムホルツ問題に対する効率的事前条件付き反復解法を提案する。 本手法は,各離散化レベルでの演算列を調整したマルチグリッドプリコンディショナの構築を可能にする,新しい文脈自由文法に基づいている。 与えられた領域をよく一般化する解法を見出すために,次なる問題難易度適応のカスタム手法を提案し,不調な問題インスタンスに対するプリコンディショナーの効率性を評価する。 本研究では,2次元不定値ヘルムホルツ問題に対するマルチグリッド型プリコンディショナーを進化させ,100万以上の未知数を持つ線形方程式系まで,複数のウェーブナンバーの人間が設計した手法に匹敵する手法の有効性を示す。

Solving the indefinite Helmholtz equation is not only crucial for the understanding of many physical phenomena but also represents an outstandingly-difficult benchmark problem for the successful application of numerical methods. Here we introduce a new approach for evolving efficient preconditioned iterative solvers for Helmholtz problems with multi-objective grammar-guided genetic programming. Our approach is based on a novel context-free grammar, which enables the construction of multigrid preconditioners that employ a tailored sequence of operations on each discretization level. To find solvers that generalize well over the given domain, we propose a custom method of successive problem difficulty adaption, in which we evaluate a preconditioner's efficiency on increasingly ill-conditioned problem instances. We demonstrate our approach's effectiveness by evolving multigrid-based preconditioners for a two-dimensional indefinite Helmholtz problem that outperform several human-designed methods for different wavenumbers up to systems of linear equations with more than a million unknowns.
翻訳日:2022-04-28 14:22:04 公開日:2022-04-27
# データアシストハイブリッド制御による連続時間近似動的プログラミングの高速化

Accelerated Continuous-Time Approximate Dynamic Programming via Data-Assisted Hybrid Control ( http://arxiv.org/abs/2204.12707v1 )

ライセンス: Link先を確認
Daniel E. Ochoa, Jorge I. Poveda(参考訳) 本稿では,連続時間システムにおける最適制御問題のオンライン解決のための新しいクローズドループアーキテクチャを提案する。 具体的には,アクター・クリティックな構造に動的モーメントを組み込んだ最初のアルゴリズムを導入し,アフィン構造を持つ連続時間動植物を制御する。 アルゴリズムに動的運動量を導入することにより,閉ループ系の収束特性を加速し,従来の勾配拡散法に比べて優れた過渡性能が得られる。 また,過去の記録データの存在を十分に豊富な情報特性で活用することにより,従来,批評家や俳優の残留者に課されていた励磁条件の持続性を損なう。 連続運動量に基づくダイナミクスは、機械学習の文献で使われている再起動テクニックをエミュレートする周期的な離散時間リセットも含んでいるので、ハイブリッド力学系理論のツールを活用して閉ループ系の漸近安定性特性を確立する。 結果は数値的な例で示します。

We introduce a new closed-loop architecture for the online solution of approximate optimal control problems in the context of continuous-time systems. Specifically, we introduce the first algorithm that incorporates dynamic momentum in actor-critic structures to control continuous-time dynamic plants with an affine structure in the input. By incorporating dynamic momentum in our algorithm, we are able to accelerate the convergence properties of the closed-loop system, achieving superior transient performance compared to traditional gradient-descent based techniques. In addition, by leveraging the existence of past recorded data with sufficiently rich information properties, we dispense with the persistence of excitation condition traditionally imposed on the regressors of the critic and the actor. Given that our continuous-time momentum-based dynamics also incorporate periodic discrete-time resets that emulate restarting techniques used in the machine learning literature, we leverage tools from hybrid dynamical systems theory to establish asymptotic stability properties for the closed-loop system. We illustrate our results with a numerical example.
翻訳日:2022-04-28 14:21:42 公開日:2022-04-27
# 機械学習展開文脈におけるフローベースプログラミングの実証評価

An Empirical Evaluation of Flow Based Programming in the Machine Learning Deployment Context ( http://arxiv.org/abs/2204.12781v1 )

ライセンス: Link先を確認
Andrei Paleyes, Christian Cabrera, Neil D. Lawrence(参考訳) データ駆動技術が普及するにつれて、ソフトウェアエンジニアは機械学習(ML)アルゴリズムのようなデータ駆動手法を使用してビジネス問題を解決するタスクに直面していることが多い。 大規模なソフトウェアシステムへのMLのデプロイは、標準的なエンジニアリングプラクティスによって対処されない新たな課題をもたらし、結果として、ビジネスはMLデプロイメントプロジェクトの失敗の頻度を観察する。 データ指向アーキテクチャ(DOA、Data Oriented Architecture)は、データサイエンティストやソフトウェア開発者を支援する新しいアプローチである。 しかし、DOAシステムが実際にどのように実装されるべきかについては明確になっていない。 本稿では,フローベースプログラミング(FBP)をDOAアプリケーション作成のパラダイムとして考える。 我々は、典型的なデータサイエンスプロジェクトを表す4つのアプリケーション上で、MLデプロイメントの文脈において、FBPを実証的に評価する。 サービス指向アーキテクチャ(SOA)をベースラインとして使用しています。 評価は、さまざまなアプリケーションドメイン、MLデプロイメントステージ、コード品質メトリクスに関して行われます。 その結果、FBPはデータ収集やデータサイエンスのタスクに適したパラダイムであり、SOAと比較するとデータ収集と発見をシンプルにすることができます。 DOAの標準設計パラダイムとしてFBPの採用を促進するために、FBPの利点と対処すべきギャップについて論じる。

As use of data driven technologies spreads, software engineers are more often faced with the task of solving a business problem using data-driven methods such as machine learning (ML) algorithms. Deployment of ML within large software systems brings new challenges that are not addressed by standard engineering practices and as a result businesses observe high rate of ML deployment project failures. Data Oriented Architecture (DOA) is an emerging approach that can support data scientists and software developers when addressing such challenges. However, there is a lack of clarity about how DOA systems should be implemented in practice. This paper proposes to consider Flow-Based Programming (FBP) as a paradigm for creating DOA applications. We empirically evaluate FBP in the context of ML deployment on four applications that represent typical data science projects. We use Service Oriented Architecture (SOA) as a baseline for comparison. Evaluation is done with respect to different application domains, ML deployment stages, and code quality metrics. Results reveal that FBP is a suitable paradigm for data collection and data science tasks, and is able to simplify data collection and discovery when compared with SOA. We discuss the advantages of FBP as well as the gaps that need to be addressed to increase FBP adoption as a standard design paradigm for DOA.
翻訳日:2022-04-28 14:21:13 公開日:2022-04-27
# 有限深さ機械:ニューラルネットワークの形式化に向けて

Machines of finite depth: towards a formalization of neural networks ( http://arxiv.org/abs/2204.12786v1 )

ライセンス: Link先を確認
Pietro Vertechi and Mattia G. Bergomi(参考訳) We provide a unifying framework where artificial neural networks and their architectures can be formally described as particular cases of a general mathematical construction--machines of finite depth. Unlike neural networks, machines have a precise definition, from which several properties follow naturally. Machines of finite depth are modular (they can be combined), efficiently computable and differentiable. The backward pass of a machine is again a machine and can be computed without overhead using the same procedure as the forward pass. We prove this statement theoretically and practically, via a unified implementation that generalizes several classical architectures--dense, convolutional, and recurrent neural networks with a rich shortcut structure--and their respective backpropagation rules.

We provide a unifying framework where artificial neural networks and their architectures can be formally described as particular cases of a general mathematical construction--machines of finite depth. Unlike neural networks, machines have a precise definition, from which several properties follow naturally. Machines of finite depth are modular (they can be combined), efficiently computable and differentiable. The backward pass of a machine is again a machine and can be computed without overhead using the same procedure as the forward pass. We prove this statement theoretically and practically, via a unified implementation that generalizes several classical architectures--dense, convolutional, and recurrent neural networks with a rich shortcut structure--and their respective backpropagation rules.
翻訳日:2022-04-28 14:20:54 公開日:2022-04-27
# (参考訳) セマンティックセグメンテーションのための物体部品の自己教師付き学習

Self-Supervised Learning of Object Parts for Semantic Segmentation ( http://arxiv.org/abs/2204.13101v1 )

ライセンス: CC BY 4.0
Adrian Ziegler, Yuki M. Asano(参考訳) 自己教師あり学習の進歩は、強固な一般イメージ表現学習法をもたらした。 しかしこれまでは主に画像レベルの学習に力を入れてきた。 逆に、教師なし画像分割のようなタスクは、空間的に異なる表現を必要とするため、この傾向から恩恵を受けていない。 しかし、密表現の学習は困難であり、教師なしの文脈では、モデルが様々な潜在的な対象カテゴリに対応する表現を学習する方法が明確でない。 本稿では,オブジェクト部分の自己教師型学習がこの問題の解決法である,と論じる。 オブジェクト部品は、オブジェクト定義とは無関係に優先順位を持つが、後続のオブジェクトを形成するためにグループ化することができる。 この目的のために,最近提案されている視覚トランスフォーマーの物体への出席能力と,空間トークンの微調整のための空間密集型クラスタリングタスクを組み合わせる。 提案手法は,3つの意味セグメンテーションベンチマークの最先端を17%-3%上回り,様々なオブジェクト定義の下での表現が汎用性を示す。 最後に、これを完全教師なしセグメンテーションに拡張し、テスト時でもラベル情報を完全に使用しないことを回避し、コミュニティ検出に基づいて発見されたオブジェクト部品を自動的にマージする簡単な方法がかなりの利益をもたらすことを示した。

Progress in self-supervised learning has brought strong general image representation learning methods. Yet so far, it has mostly focused on image-level learning. In turn, tasks such as unsupervised image segmentation have not benefited from this trend as they require spatially-diverse representations. However, learning dense representations is challenging, as in the unsupervised context it is not clear how to guide the model to learn representations that correspond to various potential object categories. In this paper, we argue that self-supervised learning of object parts is a solution to this issue. Object parts are generalizable: they are a priori independent of an object definition, but can be grouped to form objects a posteriori. To this end, we leverage the recently proposed Vision Transformer's capability of attending to objects and combine it with a spatially dense clustering task for fine-tuning the spatial tokens. Our method surpasses the state-of-the-art on three semantic segmentation benchmarks by 17%-3%, showing that our representations are versatile under various object definitions. Finally, we extend this to fully unsupervised segmentation - which refrains completely from using label information even at test-time - and demonstrate that a simple method for automatically merging discovered object parts based on community detection yields substantial gains.
翻訳日:2022-04-28 14:18:53 公開日:2022-04-27
# BBBD:Occlusion Detection and Order Recoveryのためのバウンディングボックスベース検出器

BBBD: Bounding Box Based Detector for Occlusion Detection and Order Recovery ( http://arxiv.org/abs/2204.12841v1 )

ライセンス: Link先を確認
Kaziwa Saleh, Zoltan Vamossy(参考訳) オクルージョンハンドリングは、オブジェクト検出とセグメンテーション、そしてシーン理解の課題の1つである。 なぜなら、物体は様々な程度、角度、位置で隠されているときに異なる形で現れるからである。 したがって、対象とそれらの順序の間の咬合の存在を決定することは、意味理解の基本的な要件である。 既存の作業は、主にディープラーニングベースのモデルを使用して、画像中のインスタンスの順序や閉塞検出を検索する。 これはラベル付きoccludedデータを必要とし、時間がかかります。 本稿では,訓練なしで両方の操作を行うことができ,モード分割マスクのみを必要とする簡易かつ高速な手法を提案する。 閉塞検出では、2つの物体を完全にスキャンする代わりに、境界ボックス間の交差領域のみに焦点を当てる。 同様に、同じ領域内のセグメンテーションマスクを用いて、深度秩序を回復する。 COCOAデータセットで試験すると, 基準値よりも8%, 5%の精度が得られ, オーダーリカバリとオクルージョン検出の精度が向上した。

Occlusion handling is one of the challenges of object detection and segmentation, and scene understanding. Because objects appear differently when they are occluded in varying degree, angle, and locations. Therefore, determining the existence of occlusion between objects and their order in a scene is a fundamental requirement for semantic understanding. Existing works mostly use deep learning based models to retrieve the order of the instances in an image or for occlusion detection. This requires labelled occluded data and it is time consuming. In this paper, we propose a simpler and faster method that can perform both operations without any training and only requires the modal segmentation masks. For occlusion detection, instead of scanning the two objects entirely, we only focus on the intersected area between their bounding boxes. Similarly, we use the segmentation mask inside the same area to recover the depth-ordering. When tested on COCOA dataset, our method achieves +8% and +5% more accuracy than the baselines in order recovery and occlusion detection respectively.
翻訳日:2022-04-28 14:16:36 公開日:2022-04-27
# 衛星画像による都市開発予測

Forecasting Urban Development from Satellite Images ( http://arxiv.org/abs/2204.12875v1 )

ライセンス: Link先を確認
Nando Metzger(参考訳) 新たな建物がいつ出現するかを予測することは、未解決のニッチなトピックであるが、都市計画、農業、資源管理、さらには自律飛行といった分野に関係している。 本稿では,衛星画像とニューラルネットワークの訓練手順を用いて,この課題を実現する手法を提案する。 ステージAでは、DeepLapv3+のバックボーンが、変更検出タスクの解決を目的としたSiameseネットワークアーキテクチャを通じて事前トレーニングされる。 ステージbでは、バックボーンを最初の入力イメージのみに依存する変更予測モデルに転送します。 また、将来の変化の正確な時間範囲を予測する予測モデルにバックボーンを転送する。 実験では、960km2の空間拡張と24ヶ月のフレームを備えたSpaceNet7データセットを使用しました。 トレーニング戦略は、ImageNetデータセットの従来の事前トレーニングよりも一貫して優れています。 特に24ヶ月の長期予測では,F1スコアは16%ではなく24%であった。 さらに, 今後の建築建設時期の予測において, 提案手法は良好であった。 ここで、より細かい時間窓を予測することで、タスクの難易度を高めることで、カスタム事前トレーニングの強みが特に顕著になります。

Forecasting where and when new buildings will emerge is a rather unexplored niche topic, but relevant in disciplines such as urban planning, agriculture, resource management, and even autonomous flight. In this work, we present a method that accomplishes this task using satellite images and a custom neural network training procedure. In stage A, a DeepLapv3+ backbone is pretrained through a Siamese network architecture aimed at solving a building change detection task. In stage B, we transfer the backbone into a change forecasting model that relies solely on the initial input image. We also transfer the backbone into a forecasting model predicting the correct time range of the future change. For our experiments, we use the SpaceNet7 dataset with 960 km2 spatial extension and 24 monthly frames. We found that our training strategy consistently outperforms the traditional pretraining on the ImageNet dataset. Especially with longer forecasting ranges of 24 months, we observe F1 scores of 24% instead of 16%. Furthermore, we found that our method performed well in forecasting the times of future building constructions. Hereby, the strengths of our custom pretraining become especially apparent when we increase the difficulty of the task by predicting finer time windows.
翻訳日:2022-04-28 14:16:23 公開日:2022-04-27
# Gleo-Det: 局所エントロピー最適化型深部畳み込み型特徴誘導検出器

Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy Optimization for Salient Points ( http://arxiv.org/abs/2204.12884v1 )

ライセンス: Link先を確認
Chao Li, Yanan You, Wenli Zhou(参考訳) 機能検出は画像マッチングの重要な手順であり、教師なしの特徴検出手法は、損失関数を定義するための繰り返し可能性要件に基づくものや、パイプラインの最適化を駆動するために記述子マッチングを使用しようとするものなど、最近研究されていることのほとんどである。 前者の場合、平均二乗誤差(mse)は通常、訓練に強い制約を与えず、崩壊した解にモデルを簡単に留めることができる。 後者の場合、ダウンサンプリング操作と受容フィールドの拡張により、局所ディスクリプタでは詳細が失われる可能性があるため、制約が十分ではない。 上記の問題を考慮し,三つの側面を含む両概念を組み合わせることを提案する。 1) 深い畳み込み特徴のガイダンスを伴い, 再現性の要求に基づいて細かな制約を実現することを提案する。 2) MSEによる最適化が限られている問題に対処するために,ソフトクロスエントロピーと自己情報の両方を用いてエントロピーに基づくコスト関数を利用する。 3) 畳み込み特徴の指導により, コスト関数を正と負の両方から定義する。 最後に,提案する各修正の効果について検討し,本手法が最先端手法よりも競争力のある結果が得られることを示す。

Feature detection is an important procedure for image matching, where unsupervised feature detection methods are the detection approaches that have been mostly studied recently, including the ones that are based on repeatability requirement to define loss functions, and the ones that attempt to use descriptor matching to drive the optimization of the pipelines. For the former type, mean square error (MSE) is usually used which cannot provide strong constraint for training and can make the model easy to be stuck into the collapsed solution. For the later one, due to the down sampling operation and the expansion of receptive fields, the details can be lost for local descriptors can be lost, making the constraint not fine enough. Considering the issues above, we propose to combine both ideas, which including three aspects. 1) We propose to achieve fine constraint based on the requirement of repeatability while coarse constraint with guidance of deep convolution features. 2) To address the issue that optimization with MSE is limited, entropy-based cost function is utilized, both soft cross-entropy and self-information. 3) With the guidance of convolution features, we define the cost function from both positive and negative sides. Finally, we study the effect of each modification proposed and experiments demonstrate that our method achieves competitive results over the state-of-the-art approaches.
翻訳日:2022-04-28 14:16:07 公開日:2022-04-27
# CapOnImage: コンテキスト駆動のDense-Captioning on Image

CapOnImage: Context-driven Dense-Captioning on Image ( http://arxiv.org/abs/2204.12974v1 )

ライセンス: Link先を確認
Yiqi Gao, Xinglin Hou, Yuanmeng Zhang, Tiezheng Ge, Yuning Jiang, Peng Wang(参考訳) 既存の画像キャプションシステムは、プレゼンテーション中の画像から空間的に切り離された画像の物語キャプションを生成することを目的としている。 しかし、テキストは、キーポイントを強調し、画像の魅力を高めるために、画像の装飾としても使用できる。 本研究では,画像の異なる場所で,文脈情報に基づいて密なキャプションを生成することを目的とした,キャプション・オン・イメージ(caponimage)と呼ばれる新しいタスクを提案する。 周囲の視覚的コンテキストをフル活用し,各場所に適したキャプションを生成するために,テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを用いたマルチモーダル事前学習モデルを提案する。 モデルでは,近傍の場所に対する冗長なキャプションを生成できるため,近隣の場所への埋め込みをコンテキストとして拡張する。 この新しいタスクでは、CapOnImage2Mと呼ばれる大規模なベンチマークも導入しています。 他の画像キャプションモデルと比較すると,本モデルはキャプション精度と多様性の両方において最高の結果が得られる。 将来の研究を促進するために、コードとデータセットを公開します。

Existing image captioning systems are dedicated to generating narrative captions for images, which are spatially detached from the image in presentation. However, texts can also be used as decorations on the image to highlight the key points and increase the attractiveness of images. In this work, we introduce a new task called captioning on image (CapOnImage), which aims to generate dense captions at different locations of the image based on contextual information. To fully exploit the surrounding visual context to generate the most suitable caption for each location, we propose a multi-modal pre-training model with multi-level pre-training tasks that progressively learn the correspondence between texts and image locations from easy to difficult. Since the model may generate redundant captions for nearby locations, we further enhance the location embedding with neighbor locations as context. For this new task, we also introduce a large-scale benchmark called CapOnImage2M, which contains 2.1 million product images, each with an average of 4.8 spatially localized captions. Compared with other image captioning model variants, our model achieves the best results in both captioning accuracy and diversity aspects. We will make code and datasets public to facilitate future research.
翻訳日:2022-04-28 14:15:41 公開日:2022-04-27
# DearKD:ビジョントランスのためのデータ効率の良い早期知識蒸留

DearKD: Data-Efficient Early Knowledge Distillation for Vision Transformers ( http://arxiv.org/abs/2204.12997v1 )

ライセンス: Link先を確認
Chen Xianing, Cao Qiong, Zhong Yujie, Zhang Jing, Gao Shenghua, Tao Dacheng(参考訳) トランスフォーマーは、自己着脱を伴う強力なモデリング能力のため、コンピュータビジョンにうまく適用できる。 しかし、トランスの優れた性能は、膨大なトレーニング画像に大きく依存する。 これにより、データ効率の良いトランスソリューションが緊急に必要となる。 本研究では,変換器が必要とするデータ効率を改善するために,DearKDと呼ばれる早期知識蒸留フレームワークを提案する。 私たちのDearKDは、2段階のフレームワークで、まずCNNの初期中間層から誘導バイアスを蒸留し、その後、蒸留なしでトレーニングによってフルプレイする。 さらに、DearKDは、実際の画像が利用できない極端なデータフリーケースにも容易に適用できます。 そこで本研究では,deepinversionに基づく境界保存型領域内損失法を提案する。 ImageNet、部分的なImageNet、データフリー設定、その他の下流タスクに関する大規模な実験は、そのベースラインと最先端メソッドよりもDearKDの方が優れていることを証明している。

Transformers are successfully applied to computer vision due to their powerful modeling capacity with self-attention. However, the excellent performance of transformers heavily depends on enormous training images. Thus, a data-efficient transformer solution is urgently needed. In this work, we propose an early knowledge distillation framework, which is termed as DearKD, to improve the data efficiency required by transformers. Our DearKD is a two-stage framework that first distills the inductive biases from the early intermediate layers of a CNN and then gives the transformer full play by training without distillation. Further, our DearKD can be readily applied to the extreme data-free case where no real images are available. In this case, we propose a boundary-preserving intra-divergence loss based on DeepInversion to further close the performance gap against the full-data counterpart. Extensive experiments on ImageNet, partial ImageNet, data-free setting and other downstream tasks prove the superiority of DearKD over its baselines and state-of-the-art methods.
翻訳日:2022-04-28 14:15:20 公開日:2022-04-27
# コントラスト学習ビデオ検索モデルにおける関連性に基づくマージン

Relevance-based Margin for Contrastively-trained Video Retrieval Models ( http://arxiv.org/abs/2204.13001v1 )

ライセンス: Link先を確認
Alex Falcon and Swathikiran Sudhakaran and Giuseppe Serra and Sergio Escalera and Oswald Lanz(参考訳) 自然言語クエリを用いたビデオ検索は、プライベートメディアギャラリーのインテリジェントアクセスからwebスケールのビデオ検索まで、現実のアプリケーションとの関連性から注目を集めている。 ビデオとテキストの相似性を共同埋め込み空間で学ぶことが主流のアプローチである。 そのため、類似品を近く、類似品を遠くに並べて埋め込み空間を整理するので、対比的損失が用いられることが多い。 この枠組みは、基本的項目のランクのみに焦点を当てているため、競争上のリコール率につながる。 しかし、複数の項目が類似のセマンティクスを共有するため、インテリジェントな検索システムを考える際には、ランキングの質を評価することが最も重要である。 さらに、上記のフレームワークは固定マージンを使用して類似アイテムと異種アイテムを分離し、すべての非基底アイテムを等しく無関係として扱う。 本稿では,ある項目が与えられたクエリにどの程度関連があるか,すなわち関連性に基づくマージンが,nDCG と mAP によって測定されたランキングリストの質を,学習中に使用するマージンの変化により容易に向上させる,という変数マージンを提案する。 EPIC-Kitchens-100とYouCook2で異なるモデルを用いた手法の利点を示す。 固定マージンを慎重に調整したとしても、私たちのテクニック(ハイパーパラメータとしてマージンを持っていない)は、よりよいパフォーマンスを達成できます。 最後に、広範囲にわたるアブレーション研究と定性的分析は、我々のアプローチの堅牢性を支持する。 コードは \url{https://github.com/aranciokov/RelevanceMargin-ICMR22} でリリースされる。

Video retrieval using natural language queries has attracted increasing interest due to its relevance in real-world applications, from intelligent access in private media galleries to web-scale video search. Learning the cross-similarity of video and text in a joint embedding space is the dominant approach. To do so, a contrastive loss is usually employed because it organizes the embedding space by putting similar items close and dissimilar items far. This framework leads to competitive recall rates, as they solely focus on the rank of the groundtruth items. Yet, assessing the quality of the ranking list is of utmost importance when considering intelligent retrieval systems, since multiple items may share similar semantics, hence a high relevance. Moreover, the aforementioned framework uses a fixed margin to separate similar and dissimilar items, treating all non-groundtruth items as equally irrelevant. In this paper we propose to use a variable margin: we argue that varying the margin used during training based on how much relevant an item is to a given query, i.e. a relevance-based margin, easily improves the quality of the ranking lists measured through nDCG and mAP. We demonstrate the advantages of our technique using different models on EPIC-Kitchens-100 and YouCook2. We show that even if we carefully tuned the fixed margin, our technique (which does not have the margin as a hyper-parameter) would still achieve better performance. Finally, extensive ablation studies and qualitative analysis support the robustness of our approach. Code will be released at \url{https://github.com/aranciokov/RelevanceMargin-ICMR22}.
翻訳日:2022-04-28 14:15:05 公開日:2022-04-27
# ユニバーサルホワイトフレームを用いた対向的パッチ攻撃者に対する防御

Defending Against Person Hiding Adversarial Patch Attack with a Universal White Frame ( http://arxiv.org/abs/2204.13004v1 )

ライセンス: Link先を確認
Youngjoon Yu, Hong Joo Lee, Hakmin Lee, and Yong Man Ro(参考訳) 物体検出はコンピュータビジョンの分野で大きな注目を集め、多くのビジョンシステムにおいて必須のコンポーネントとして登場してきた。 ディープラーニングの時代、多くの高性能物体検出ネットワークが提案されている。 これらの検出ネットワークは高い性能を示すが、敵パッチ攻撃に弱い。 制限領域における画素の変更は、物理世界の検出ネットワークを容易に騙すことができる。 特に、自動運転や監視システムなど、多くの安全クリティカルなアプリケーションにおいて、人力攻撃が深刻な問題として浮上している。 敵のパッチ攻撃から防御する必要があるが、人力攻撃から守るための努力はごくわずかである。 そこで本稿では,従来の手法ではモデルを最適化しつつ,防御パターンを最適化することで人力攻撃を緩和する新たな防御戦略を提案する。 提案手法では、画像の外側に「ユニバーサル・ホワイト・フレーム」(UWF)と呼ばれるフレーム形状のパターンを最適化して配置する。 敵のパッチ攻撃から守るために、UWFは3つの特性を持つべきである (i)敵パッチの効果を抑制すること。 (ii)当初の予測を維持すること、及び (三)画像にかかわらず該当する。 上記の特性を満たすために,敵パッチに対して防御可能な新しいパターン最適化アルゴリズムを提案する。 包括的実験により,提案手法が敵対的パッチ攻撃に対して効果的に防御できることを実証する。

Object detection has attracted great attention in the computer vision area and has emerged as an indispensable component in many vision systems. In the era of deep learning, many high-performance object detection networks have been proposed. Although these detection networks show high performance, they are vulnerable to adversarial patch attacks. Changing the pixels in a restricted region can easily fool the detection network in the physical world. In particular, person-hiding attacks are emerging as a serious problem in many safety-critical applications such as autonomous driving and surveillance systems. Although it is necessary to defend against an adversarial patch attack, very few efforts have been dedicated to defending against person-hiding attacks. To tackle the problem, in this paper, we propose a novel defense strategy that mitigates a person-hiding attack by optimizing defense patterns, while previous methods optimize the model. In the proposed method, a frame-shaped pattern called a 'universal white frame' (UWF) is optimized and placed on the outside of the image. To defend against adversarial patch attacks, UWF should have three properties (i) suppressing the effect of the adversarial patch, (ii) maintaining its original prediction, and (iii) applicable regardless of images. To satisfy the aforementioned properties, we propose a novel pattern optimization algorithm that can defend against the adversarial patch. Through comprehensive experiments, we demonstrate that the proposed method effectively defends against the adversarial patch attack.
翻訳日:2022-04-28 14:14:36 公開日:2022-04-27
# 単一ソースドメイン一般化のための視覚的腐敗に対する注意一貫性

Attention Consistency on Visual Corruptions for Single-Source Domain Generalization ( http://arxiv.org/abs/2204.13091v1 )

ライセンス: Link先を確認
Ilke Cugu, Massimiliano Mancini, Yanbei Chen, Zeynep Akata(参考訳) 単一分布上で訓練された視覚認識モデルを、未知の入力分布(すなわちドメイン)に一般化するには、トレーニングセットにおける過剰な相関に頑健にする必要がある。 本研究では,新しいドメインをシミュレートするためにトレーニングイメージを変更し,同じサンプルの異なるビューに対して一貫した視覚的注意を課することで,この目標を達成する。 最初の目的は視覚的腐敗によってシンプルかつ効果的に達成できることに気づきました。 具体的には、imagenet-cベンチマークの19の破損とフーリエ変換に基づく3つの追加変換を用いて、トレーニング画像の内容を変更する。 これらの腐敗はオブジェクトの位置を保つため、同じトレーニングサンプルのオリジナル版と破損版のクラスアクティベーションマップが一致していることを保証するために、注意一貫性の損失を提案する。 われわれのモデルAttention Consistency on Visual Corruptions (ACVC) と名付けた。 本稿では,ACVCが,PACS,COCO,大規模DomainNetの3つの単一ソース領域一般化ベンチマークにおいて,その技術の現状を一貫して達成していることを示す。

Generalizing visual recognition models trained on a single distribution to unseen input distributions (i.e. domains) requires making them robust to superfluous correlations in the training set. In this work, we achieve this goal by altering the training images to simulate new domains and imposing consistent visual attention across the different views of the same sample. We discover that the first objective can be simply and effectively met through visual corruptions. Specifically, we alter the content of the training images using the nineteen corruptions of the ImageNet-C benchmark and three additional transformations based on Fourier transform. Since these corruptions preserve object locations, we propose an attention consistency loss to ensure that class activation maps across original and corrupted versions of the same training sample are aligned. We name our model Attention Consistency on Visual Corruptions (ACVC). We show that ACVC consistently achieves the state of the art on three single-source domain generalization benchmarks, PACS, COCO, and the large-scale DomainNet.
翻訳日:2022-04-28 14:14:17 公開日:2022-04-27
# 3Dマジックミラー : 因果的視点による1枚の画像からの再現

3D Magic Mirror: Clothing Reconstruction from a Single Image via a Causal Perspective ( http://arxiv.org/abs/2204.13096v1 )

ライセンス: Link先を確認
Zhedong Zheng and Jiayin Zhu and Wei Ji and Yi Yang and Tat-Seng Chua(参考訳) 本研究では,1枚の2次元画像から人間の衣服の形状やテクスチャを復元する,自己監督型3D衣料再構築法について検討する。 既存の手法と比較して,(1)従来のテンプレートベースの手法は,ファッションイメージで一般的であるハンドバッグやドレスなどの非剛性衣料品のモデル化に制限されており,(2)アノテーションの難易度や時間的コストから3次元の地中メッシュは一般にアクセスできない,という3つの課題が残っている。 (3) カメラ視点, 形状, テクスチャ, 照明の4因子を同時に最適化することは依然として困難である。 本質的に曖昧さは、リモートカメラで大きな形状のジレンマや、近接カメラで小さな形状のジレンマなど、モデルのトレーニングを損なう。 上記の制約に対処するために,3次元アノテーションを使わずに2次元画像から3次元非剛体オブジェクトを適応的に再構成する因果認識型自己教師学習法を提案する。 特に、カメラの位置、形状、テクスチャ、照明の4つの暗黙的変数の固有の曖昧さを解決するために、既存の作品を研究し、モデルを構築するための説明可能な構造因果写像(SCM)を導入する。 提案するモデル構造は,カメラ推定および形状予測における先行テンプレートを明示的に考慮した因果写像の精神に従う。 最適化では,2つの期待最大化ループ,すなわち因果介入ツールをアルゴリズムに深く組み込んで,(1)4つのエンコーダをアンタングルし,(2)以前のテンプレート更新を支援する。 ATRとMarket-HQの2つの2Dファッションベンチマークの大規模な実験は、提案手法が高忠実度3D再構築をもたらす可能性を示唆している。 さらに,鳥の詳細なデータセット,すなわちCUBを用いて提案手法のスケーラビリティを検証する。

This research aims to study a self-supervised 3D clothing reconstruction method, which recovers the geometry shape, and texture of human clothing from a single 2D image. Compared with existing methods, we observe that three primary challenges remain: (1) the conventional template-based methods are limited to modeling non-rigid clothing objects, e.g., handbags and dresses, which are common in fashion images; (2) 3D ground-truth meshes of clothing are usually inaccessible due to annotation difficulties and time costs. (3) It remains challenging to simultaneously optimize four reconstruction factors, i.e., camera viewpoint, shape, texture, and illumination. The inherent ambiguity compromises the model training, such as the dilemma between a large shape with a remote camera or a small shape with a close camera. In an attempt to address the above limitations, we propose a causality-aware self-supervised learning method to adaptively reconstruct 3D non-rigid objects from 2D images without 3D annotations. In particular, to solve the inherent ambiguity among four implicit variables, i.e., camera position, shape, texture, and illumination, we study existing works and introduce an explainable structural causal map (SCM) to build our model. The proposed model structure follows the spirit of the causal map, which explicitly considers the prior template in the camera estimation and shape prediction. When optimization, the causality intervention tool, i.e., two expectation-maximization loops, is deeply embedded in our algorithm to (1) disentangle four encoders and (2) help the prior template update. Extensive experiments on two 2D fashion benchmarks, e.g., ATR, and Market-HQ, show that the proposed method could yield high-fidelity 3D reconstruction. Furthermore, we also verify the scalability of the proposed method on a fine-grained bird dataset, i.e., CUB.
翻訳日:2022-04-28 14:13:28 公開日:2022-04-27
# ファウショット異常検出による転がり軸受のメタラーニングによる早期故障検出

Meta-Learning Based Early Fault Detection for Rolling Bearings via Few-Shot Anomaly Detection ( http://arxiv.org/abs/2204.12637v1 )

ライセンス: Link先を確認
Wenbin Song, Di Wu, Weiming Shen and Benoit Boulet(参考訳) 転がり軸受の早期故障検出(EFD)は、健康状態のわずかなずれを認識し、機械系の安定性に寄与する。 実際には、EFDを実行するために非常に限られたターゲットベアリングデータが利用可能であり、新しいベアリングのEFDタスクに適応することが困難である。 この問題に対処するために、多くの転送学習に基づくEFD法は、履歴データを利用して転送可能なドメイン知識を学習し、新しいターゲットベアリング上で早期故障検出を行う。 しかしながら、既存のほとんどの手法は、異なる作業条件における分布のドリフトのみを考慮するが、同じ作業条件下でのベアリングの違いを無視する。 UtUVを考慮した限定目標データによるEFDの設定は、Few-shot Anomaly Detectionタスクとして定式化することができる。 そこで本研究では,UtUVを考慮したメタラーニングに基づく新しいEFD手法を提案する。 提案手法は,リレーショナル・ネットワーク(RN)に基づく一般的なメトリクスを学習し,通常のデータと新たな到達目標ベアリングデータとの類似性を測定する。 また,提案手法では,誤報を減らすために健康状態埋め込み戦略を用いる。 提案手法の性能を2つの軸受データセットで検証した。 その結果,提案手法は,誤報の少ないベースラインよりも早く初期故障を検知できることがわかった。

Early fault detection (EFD) of rolling bearings can recognize slight deviation of the health states and contribute to the stability of mechanical systems. In practice, very limited target bearing data are available to conduct EFD, which makes it hard to adapt to the EFD task of new bearings. To address this problem, many transfer learning based EFD methods utilize historical data to learn transferable domain knowledge and conduct early fault detection on new target bearings. However, most existing methods only consider the distribution drift across different working conditions but ignore the difference between bearings under the same working condition, which is called Unit-to-Unit Variability (UtUV). The setting of EFD with limited target data considering UtUV can be formulated as a Few-shot Anomaly Detection task. Therefore, this paper proposes a novel EFD method based on meta-learning considering UtUV. The proposed method can learn a generic metric based on Relation Network (RN) to measure the similarity between normal data and the new arrival target bearing data. Besides, the proposed method utilizes a health state embedding strategy to decrease false alarms. The performance of proposed method is tested on two bearing datasets. The results show that the proposed method can detect incipient faults earlier than the baselines with lower false alarms.
翻訳日:2022-04-28 14:12:13 公開日:2022-04-27
# フェデレーション学習における大規模モデル学習のための不均質アンサンブル知識伝達

Heterogeneous Ensemble Knowledge Transfer for Training Large Models in Federated Learning ( http://arxiv.org/abs/2204.12703v1 )

ライセンス: Link先を確認
Yae Jee Cho and Andre Manoel and Gauri Joshi and Robert Sim and Dimitrios Dimitriadis(参考訳) フェデレートラーニング(FL)は、エッジデバイスがプライベートデータを中央集約サーバに公開することなく、協調的にモデルを学習できるようにする。 既存のFLアルゴリズムの多くは、クライアントとサーバにまたがってデプロイされるのと同じアーキテクチャのモデルを必要とするため、クライアントの限られたシステムリソースのために大規模なモデルをトレーニングすることができない。 本研究では,小規模モデル(アーキテクチャによって異なる)をクライアント上でトレーニングし,サーバでより大きなモデルをトレーニングする,feed-etと呼ばれる新しいアンサンブル知識伝達手法を提案する。 従来のアンサンブル学習とは異なり、flではアンサンブルはクライアントの高度に異質なデータでトレーニングすることができる。 この性質を認識したFed-ETは、アンサンブル内の多様性を利用して一般化を改善しつつ、アンサンブルから信頼性の高いコンセンサスを効率的に抽出する多様性正則化を伴う重み付きコンセンサス蒸留スキームを使用する。 我々は,feed-etの直観を支持する異種データセット上でトレーニングされた重み付きモデルのアンサンブルの一般化を示す。 画像および言語タスクに関する実験により,feed-etは,通信パラメータの少ない他のflアルゴリズムよりも大幅に優れており,高データヘテロゲニティにも頑健であることが示された。

Federated learning (FL) enables edge-devices to collaboratively learn a model without disclosing their private data to a central aggregating server. Most existing FL algorithms require models of identical architecture to be deployed across the clients and server, making it infeasible to train large models due to clients' limited system resources. In this work, we propose a novel ensemble knowledge transfer method named Fed-ET in which small models (different in architecture) are trained on clients, and used to train a larger model at the server. Unlike in conventional ensemble learning, in FL the ensemble can be trained on clients' highly heterogeneous data. Cognizant of this property, Fed-ET uses a weighted consensus distillation scheme with diversity regularization that efficiently extracts reliable consensus from the ensemble while improving generalization by exploiting the diversity within the ensemble. We show the generalization bound for the ensemble of weighted models trained on heterogeneous datasets that supports the intuition of Fed-ET. Our experiments on image and language tasks show that Fed-ET significantly outperforms other state-of-the-art FL algorithms with fewer communicated parameters, and is also robust against high data-heterogeneity.
翻訳日:2022-04-28 14:11:53 公開日:2022-04-27
# LiftPool:階層型グラフ表現学習のためのリフティングベースのグラフプール

LiftPool: Lifting-based Graph Pooling for Hierarchical Graph Representation Learning ( http://arxiv.org/abs/2204.12881v1 )

ライセンス: Link先を確認
Mingxing Xu, Wenrui Dai, Chenglin Li, Junni Zou, and Hongkai Xiong(参考訳) グラフプーリングは階層的なグラフ表現学習を容易にするためにグラフニューラルネットワーク(GNN)としてますます検討されている。 既存のグラフプーリング手法は、2つの段階、すなわち上位ノードを選択し、残りのノードを取り除いて粗いグラフ表現を構築する。 しかしながら、除去されたノードの局所的な構造情報は、ノード(位置)とその特徴(信号)の固有の結合のため、これらの方法で必然的にドロップされる。 本稿では,グラフプーリングにおける局所構造情報を最大に保存することで階層グラフ表現を改善するため,liftpoolという3段階拡張手法を提案する。 LiftPoolは、グラフ粗化の前にグラフリフトの追加ステージを導入して、削除されたノードのローカル情報を保存し、ノード削除と機能削減のプロセスを分離する。 具体的には、各ノードが削除される際、隣接ノードから集約されたグローバル情報を減算してローカル情報を得る。 その後、このローカル情報を整列して保存ノードに伝播し、グラフ粗化時の情報損失を軽減する。 さらに,提案するリフトプールが局所化され,置換不変であることを示す。 提案するグラフ昇降構造は,既存のダウンサンプリングベースのグラフプーリング手法と統合される。 ベンチマークグラフデータセットの評価では、LiftPoolはグラフ分類のタスクにおいて最先端のグラフプーリング手法を大幅に上回っている。

Graph pooling has been increasingly considered for graph neural networks (GNNs) to facilitate hierarchical graph representation learning. Existing graph pooling methods commonly consist of two stages, i.e., selecting the top-ranked nodes and removing the rest nodes to construct a coarsened graph representation. However, local structural information of the removed nodes would be inevitably dropped in these methods, due to the inherent coupling of nodes (location) and their features (signals). In this paper, we propose an enhanced three-stage method via lifting, named LiftPool, to improve hierarchical graph representation by maximally preserving the local structural information in graph pooling. LiftPool introduces an additional stage of graph lifting before graph coarsening to preserve the local information of the removed nodes and decouple the processes of node removing and feature reduction. Specifically, for each node to be removed, its local information is obtained by subtracting the global information aggregated from its neighboring preserved nodes. Subsequently, this local information is aligned and propagated to the preserved nodes to alleviate information loss in graph coarsening. Furthermore, we demonstrate that the proposed LiftPool is localized and permutation-invariant. The proposed graph lifting structure is general to be integrated with existing downsampling-based graph pooling methods. Evaluations on benchmark graph datasets show that LiftPool substantially outperforms the state-of-the-art graph pooling methods in the task of graph classification.
翻訳日:2022-04-28 14:11:29 公開日:2022-04-27
# Beyond Duplicates: 問題追跡システムにおけるリンクタイプ理解と予測

Beyond Duplicates: Towards Understanding and Predicting Link Types in Issue Tracking Systems ( http://arxiv.org/abs/2204.12893v1 )

ライセンス: Link先を確認
Clara Marie L\"uders, Abir Bouraffa and Walid Maalej(参考訳) ソフトウェアプロジェクトはjiraのようなイシュートラッキングシステム(it)を使用してイシューを追跡し、それを取り巻くワークフローを整理する。 問題は、しばしば、デフォルトのJIRAリンクタイプDuplicate、Relate、Block、Subtaskなど、異なるリンクを介して接続される。 従来の研究は主に重複リンクの分析と予測に重点を置いてきたが、本研究は、他の様々なリンクタイプ、その頻度、およびより信頼性の高いリンクタイプ予測に対する特性を理解することを目的としている。 このために15のパブリックJIRAリポジトリで698,790の問題を接続する607,208のリンクを調査した。 デフォルト型に加えて、カスタム型は依存、インクルード、分割、および原因も共通していた。 リポジトリで使用される75のリンクタイプはすべて、ジェネリックリレーション、重複、コンポジション、テンポラル/因果、ワークフローの5つの一般的なカテゴリに手動でグループ化しました。 対応するグラフの構造を比較すると,いくつかの傾向が見られた。 例えば、重複リンクは2つのコンポーネントを持つ単純な問題グラフを表すことが多く、構成リンクは最も高い階層木構造(97.7%)を示す。 驚いたことに、一般関係リンクは重複や時間/因果関係よりも非常に高い推移性スコアを持つ。 リンクタイプの違いと人気の高さから,JIRAデータセットの文献からの2つの最先端重複検出手法の堅牢性を評価した。 現在のディープラーニングアプローチは,ほぼすべてのリポジトリの重複とリンクを混同していることが分かりました。 平均的な分類精度は1つのアプローチで6%、もう1つのアプローチで12%低下した。 他のリンクタイプでトレーニングセットを拡張することは、この問題を部分的に解決しているようだ。 研究と実践における知見とその意義について論じる。

Software projects use Issue Tracking Systems (ITS) like JIRA to track issues and organize the workflows around them. Issues are often inter-connected via different links such as the default JIRA link types Duplicate, Relate, Block, or Subtask. While previous research has mostly focused on analyzing and predicting duplication links, this work aims at understanding the various other link types, their prevalence, and characteristics towards a more reliable link type prediction. For this, we studied 607,208 links connecting 698,790 issues in 15 public JIRA repositories. Besides the default types, the custom types Depend, Incorporate, Split, and Cause were also common. We manually grouped all 75 link types used in the repositories into five general categories: General Relation, Duplication, Composition, Temporal / Causal, and Workflow. Comparing the structures of the corresponding graphs, we observed several trends. For instance, Duplication links tend to represent simpler issue graphs often with two components and Composition links present the highest amount of hierarchical tree structures (97.7%). Surprisingly, General Relation links have a significantly higher transitivity score than Duplication and Temporal / Causal links. Motivated by the differences between the link types and by their popularity, we evaluated the robustness of two state-of-the-art duplicate detection approaches from the literature on the JIRA dataset. We found that current deep-learning approaches confuse between Duplication and other links in almost all repositories. On average, the classification accuracy dropped by 6% for one approach and 12% for the other. Extending the training sets with other link types seems to partly solve this issue. We discuss our findings and their implications for research and practice.
翻訳日:2022-04-28 14:09:49 公開日:2022-04-27
# 音声認識のための自己教師付き学習は話者認識になぜ役立つのか?

Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition? ( http://arxiv.org/abs/2204.12765v1 )

ライセンス: Link先を確認
Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Zhuo Chen, Peidong Wang, Gang Liu, Jinyu Li, Jian Wu, Xiangzhan Yu, Furu Wei(参考訳) 近年,自己教師付き学習(SSL)は,事前学習対象が音声認識用に設計されている場合でも,話者認識において高い性能を示した。 本稿では,話者検証(SV)などの話者関連課題における自己教師型学習の成功につながる要因について,慎重に設計した一連の実験を通して検討する。 我々のVoxceleb-1データセットにおける実験結果から、SSL to SVタスクの利点は、マスクの予測損失、データスケール、モデルサイズの組み合わせによるものであることが示唆されている。 さらに,話者認識性能に対する自己教師付き学習の有効性を理解するために,統合勾配帰属法とロスランドスケープ可視化を用いた。

Recently, self-supervised learning (SSL) has demonstrated strong performance in speaker recognition, even if the pre-training objective is designed for speech recognition. In this paper, we study which factor leads to the success of self-supervised learning on speaker-related tasks, e.g. speaker verification (SV), through a series of carefully designed experiments. Our empirical results on the Voxceleb-1 dataset suggest that the benefit of SSL to SV task is from a combination of mask speech prediction loss, data scale, and model size, while the SSL quantizer has a minor impact. We further employ the integrated gradients attribution method and loss landscape visualization to understand the effectiveness of self-supervised learning for speaker recognition performance.
翻訳日:2022-04-28 14:09:24 公開日:2022-04-27
# 教師学習を用いた超高速音声分離モデル

Ultra Fast Speech Separation Model with Teacher Student Learning ( http://arxiv.org/abs/2204.12777v1 )

ライセンス: Link先を確認
Sanyuan Chen, Yu Wu, Zhuo Chen, Jian Wu, Takuya Yoshioka, Shujie Liu, Jinyu Li, Xiangzhan Yu(参考訳) 近年,自己着脱機構を用いた長依存性モデリング能力の強化により,トランスフォーマは音声分離に成功している。 しかしTransformerは、エッジデバイスへのデプロイを妨げるディープエンコーダ層のために、実行時のコストが重い傾向にある。 エンコーダ層が少ない小さなトランスフォーマーモデルの方が計算効率がよいが、性能劣化の傾向にある。 本稿では,教師の学習(T-S学習)に優れた性能と効率を実現するために,超高速音声分離変換器モデルを提案する。 本研究では,T-S層学習と目標シフト機構を導入し,小学生モデルを指導し,大規模教師モデルから中間表現を学習する。 提案するt-s学習法は,スクラッチから学習した小型トランスモデルと比較して,多チャンネル音声と単一チャンネル音声の分離において,単語誤り率 (wer) を5%以上削減する。 よりラベルなしの音声データを用いて,超高速音声分離モデルにより,10%以上の相対 wer 削減を達成している。

Transformer has been successfully applied to speech separation recently with its strong long-dependency modeling capacity using a self-attention mechanism. However, Transformer tends to have heavy run-time costs due to the deep encoder layers, which hinders its deployment on edge devices. A small Transformer model with fewer encoder layers is preferred for computational efficiency, but it is prone to performance degradation. In this paper, an ultra fast speech separation Transformer model is proposed to achieve both better performance and efficiency with teacher student learning (T-S learning). We introduce layer-wise T-S learning and objective shifting mechanisms to guide the small student model to learn intermediate representations from the large teacher model. Compared with the small Transformer model trained from scratch, the proposed T-S learning method reduces the word error rate (WER) by more than 5% for both multi-channel and single-channel speech separation on LibriCSS dataset. Utilizing more unlabeled speech data, our ultra fast speech separation models achieve more than 10% relative WER reduction.
翻訳日:2022-04-28 14:09:10 公開日:2022-04-27
# 密度保存型深部クラウド圧縮

Density-preserving Deep Point Cloud Compression ( http://arxiv.org/abs/2204.12684v1 )

ライセンス: Link先を確認
Yun He, Xinlin Ren, Danhang Tang, Yinda Zhang, Xiangyang Xue, Yanwei Fu(参考訳) 点雲の局所密度は局所的詳細を表現する上で重要であるが、既存の点雲圧縮法では見過ごされている。 そこで本研究では,局所密度情報を保存する新しい深点クラウド圧縮手法を提案する。 エンコーダはポイントをサンプリングし、ポイントワイドな特徴を学習し、デコーダはこれらの特徴を使ってポイントをサンプリングする。 具体的には,3つの埋め込み(密度埋め込み,局所位置埋め込み,祖先埋め込み)で局所幾何学と密度を符号化することを提案する。 復号中、各点のアップサンプリング係数と、アップサンプリングされた点の方向とスケールを明示的に予測する。 既存手法におけるクラスタ化点問題を軽減するため,新しいサブポイント畳み込み層と,適応スケールのアップサンプリングブロックを設計した。 さらに,本手法は,通常のような点の属性も圧縮できる。 SemanticKITTIとShapeNetの大規模定性的および定量的結果から,本手法が最先端の速度歪みトレードオフを実現することを示す。

Local density of point clouds is crucial for representing local details, but has been overlooked by existing point cloud compression methods. To address this, we propose a novel deep point cloud compression method that preserves local density information. Our method works in an auto-encoder fashion: the encoder downsamples the points and learns point-wise features, while the decoder upsamples the points using these features. Specifically, we propose to encode local geometry and density with three embeddings: density embedding, local position embedding and ancestor embedding. During the decoding, we explicitly predict the upsampling factor for each point, and the directions and scales of the upsampled points. To mitigate the clustered points issue in existing methods, we design a novel sub-point convolution layer, and an upsampling block with adaptive scale. Furthermore, our method can also compress point-wise attributes, such as normal. Extensive qualitative and quantitative results on SemanticKITTI and ShapeNet demonstrate that our method achieves the state-of-the-art rate-distortion trade-off.
翻訳日:2022-04-28 14:07:09 公開日:2022-04-27
# 音声関連顔行動単位とマルチモーダル表現融合に基づく音声による音声ヘッド生成

Talking Head Generation Driven by Speech-Related Facial Action Units and Audio- Based on Multimodal Representation Fusion ( http://arxiv.org/abs/2204.12756v1 )

ライセンス: Link先を確認
Sen Chen and Zhilei Liu and Jiaxing Liu and Longbiao Wang(参考訳) トークヘッド生成は、任意の顔画像と対応するオーディオクリップを入力して、口唇同期のトークヘッドビデオを合成する。 既存の方法は、相互モーダル情報の相互作用や関係だけでなく、口筋の局所的な駆動情報も無視する。 本研究では,マルチモーダル融合モジュールとして,拡張された非因果的時間的畳み込み自己保持ネットワークを含む新たな生成フレームワークを提案し,クロスモーダル特徴の関係学習を促進する。 さらに,提案手法では,音声および音声関連顔行動単位(aus)を駆動情報として用いる。 音声関連AU情報は口の動きをより正確に導くことができる。 音声は音声関連AUと強く相関しているため,音声関連AU情報を予測するためのAUモジュールを提案する。 我々は、事前訓練されたAU分類器を用いて、生成された画像が正しいAU情報を含むことを保証する。 GRIDおよびTCD-TIMITデータセットにおける提案モデルの有効性を検証する。 また,各成分の寄与を検証するため,アブレーション試験を行った。 定量的および定性的実験の結果,本手法は画像品質とリップシンク精度の両方で既存手法よりも優れていた。

Talking head generation is to synthesize a lip-synchronized talking head video by inputting an arbitrary face image and corresponding audio clips. Existing methods ignore not only the interaction and relationship of cross-modal information, but also the local driving information of the mouth muscles. In this study, we propose a novel generative framework that contains a dilated non-causal temporal convolutional self-attention network as a multimodal fusion module to promote the relationship learning of cross-modal features. In addition, our proposed method uses both audio- and speech-related facial action units (AUs) as driving information. Speech-related AU information can guide mouth movements more accurately. Because speech is highly correlated with speech-related AUs, we propose an audio-to-AU module to predict speech-related AU information. We utilize pre-trained AU classifier to ensure that the generated images contain correct AU information. We verify the effectiveness of the proposed model on the GRID and TCD-TIMIT datasets. An ablation study is also conducted to verify the contribution of each component. The results of quantitative and qualitative experiments demonstrate that our method outperforms existing methods in terms of both image quality and lip-sync accuracy.
翻訳日:2022-04-28 14:06:50 公開日:2022-04-27
# MeVer DeepFake Detection Service: 野生でのの開発と展開から学んだ教訓

The MeVer DeepFake Detection Service: Lessons Learnt from Developing and Deploying in the Wild ( http://arxiv.org/abs/2204.12816v1 )

ライセンス: Link先を確認
Spyridon Baxevanakis, Giorgos Kordopatis-Zilos, Panagiotis Galopoulos, Lazaros Apostolidis, Killian Levacher, Ipek B. Schlicht, Denis Teyssou, Ioannis Kompatsiaris, Symeon Papadopoulos(参考訳) 近年のジェネレーション手法の改善により、DeepFakesは視覚的品質の向上、使い易い生成ツールの増加、ソーシャルメディアによる急速な普及により主流になってきた。 この事実は社会に深刻な脅威をもたらし、社会の結束を弱め、民主主義に影響を及ぼす可能性がある。 この脅威を軽減するために、多くのDeepFake検出スキームが文献で紹介されているが、野生で使用可能なWebサービスを提供するものはごくわずかである。 本稿では,画像やビデオの深層学習操作を検出するWebサービスであるMeVer DeepFakeについて紹介する。 本稿では、モデルアンサンブルスキームを含む処理パイプラインの設計と実装について述べ、透明性のためのモデルカードをサービスに提供する。 実験の結果、当社のサービスは3つのベンチマークデータセット上で堅牢に動作し、Adversarial Attacksに対して脆弱であることがわかった。 最後に,研究システムを本番環境に展開する際の経験と教訓を概説し,他の学術・産業チームにとって有用であることを期待する。

Enabled by recent improvements in generation methodologies, DeepFakes have become mainstream due to their increasingly better visual quality, the increase in easy-to-use generation tools and the rapid dissemination through social media. This fact poses a severe threat to our societies with the potential to erode social cohesion and influence our democracies. To mitigate the threat, numerous DeepFake detection schemes have been introduced in the literature but very few provide a web service that can be used in the wild. In this paper, we introduce the MeVer DeepFake detection service, a web service detecting deep learning manipulations in images and video. We present the design and implementation of the proposed processing pipeline that involves a model ensemble scheme, and we endow the service with a model card for transparency. Experimental results show that our service performs robustly on the three benchmark datasets while being vulnerable to Adversarial Attacks. Finally, we outline our experience and lessons learned when deploying a research system into production in the hopes that it will be useful to other academic and industry teams.
翻訳日:2022-04-28 14:06:31 公開日:2022-04-27
# 画像品質向上のためのコンフォーマーとブラインドノイズ学生

Conformer and Blind Noisy Students for Improved Image Quality Assessment ( http://arxiv.org/abs/2204.12819v1 )

ライセンス: Link先を確認
Marcos V. Conde, Maxime Burchi, Radu Timofte(参考訳) 画像復元,強調,生成のための生成モデルは生成画像の品質を大幅に向上させた。 驚くべきことに、これらのモデルは人間の目にとって他の方法よりも快適な画像を生成するが、PSNRやSSIMのような従来の知覚品質指標を使用して、知覚品質スコアを低くすることができる。 したがって、人の平均意見スコア(mos)とよく一致すべき新しいアルゴリズムの性能を反映する定量的指標を開発する必要がある。 知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。 しかし、一般的には歪んだ画像や生成された画像のみが利用可能である。 本稿では,トランスフォーマティブベースフルリファレンス iqa モデルの性能について検討する。 また,疑似ラベルデータを用いた教師モデルから視覚障害者モデルへの半教師付き知識蒸留に基づく iqa の手法を提案する。 提案手法は,ntire 2022の知覚的画像品質評価課題において,総合的参照モデルが4位,ブラインドノイズの学生が70名中3位,各トラックが3位であった。

Generative models for image restoration, enhancement, and generation have significantly improved the quality of the generated images. Surprisingly, these models produce more pleasant images to the human eye than other methods, yet, they may get a lower perceptual quality score using traditional perceptual quality metrics such as PSNR or SSIM. Therefore, it is necessary to develop a quantitative metric to reflect the performance of new algorithms, which should be well-aligned with the person's mean opinion score (MOS). Learning-based approaches for perceptual image quality assessment (IQA) usually require both the distorted and reference image for measuring the perceptual quality accurately. However, commonly only the distorted or generated image is available. In this work, we explore the performance of transformer-based full-reference IQA models. We also propose a method for IQA based on semi-supervised knowledge distillation from full-reference teacher models into blind student models using noisy pseudo-labeled data. Our approaches achieved competitive results on the NTIRE 2022 Perceptual Image Quality Assessment Challenge: our full-reference model was ranked 4th, and our blind noisy student was ranked 3rd among 70 participants, each in their respective track.
翻訳日:2022-04-28 14:06:12 公開日:2022-04-27
# 低ランクはスパースネス: 空間スペクトルによる全変分法とハイパースペクトル認知

Low-rank Meets Sparseness: An Integrated Spatial-Spectral Total Variation Approach to Hyperspectral Denoising ( http://arxiv.org/abs/2204.12879v1 )

ライセンス: Link先を確認
Haijin Zeng, Shaoguang Huang, Yongyong Chen, Hiep Luong, and Wilfried Philips(参考訳) 空間スペクトルトータル変動(SSTV)は画像構造の局所的な滑らかさを定量化できるため、ハイパースペクトル画像(HSI)処理タスクで広く利用されている。 本質的に、SSTVは空間およびスペクトル方向に沿って計算された勾配写像のスパース構造を仮定する。 実際、これらの勾配テンソルはスパースであるばかりでなく、(ほぼ)fft下の低ランクであり、数値実験や理論解析によって検証されている。 そこで本研究では,勾配マップ(LRSTV)の疎度と低ランクの先行特性を同時に特徴付ける新しいテレビレギュラー化を提案する。 新しい正規化は勾配写像自体にスパーシティを課すだけでなく、スペクトル次元に沿ってフーリエ変換後の勾配写像の階数をペナリゼーションする。 これは自然に勾配写像のスパーシティとローランク事前値を符号化するので、元の画像の固有構造をより忠実に反映することが期待できる。 さらに,従来の SSTV を置き換えるために LRSTV を用い,その性能向上のために HSI 処理モデルに組み込む。 混合雑音を伴う複数の公開データセットの実験結果から,提案モデルがPSNRを1.5dB改善できることが示された。

Spatial-Spectral Total Variation (SSTV) can quantify local smoothness of image structures, so it is widely used in hyperspectral image (HSI) processing tasks. Essentially, SSTV assumes a sparse structure of gradient maps calculated along the spatial and spectral directions. In fact, these gradient tensors are not only sparse, but also (approximately) low-rank under FFT, which we have verified by numerical tests and theoretical analysis. Based on this fact, we propose a novel TV regularization to simultaneously characterize the sparsity and low-rank priors of the gradient map (LRSTV). The new regularization not only imposes sparsity on the gradient map itself, but also penalize the rank on the gradient map after Fourier transform along the spectral dimension. It naturally encodes the sparsity and lowrank priors of the gradient map, and thus is expected to reflect the inherent structure of the original image more faithfully. Further, we use LRSTV to replace conventional SSTV and embed it in the HSI processing model to improve its performance. Experimental results on multiple public data-sets with heavy mixed noise show that the proposed model can get 1.5dB improvement of PSNR.
翻訳日:2022-04-28 14:05:56 公開日:2022-04-27
# (参考訳) 借用学習 -- 知識グラフ補完のための無補間エンティティペアのための関係表現

Learning to Borrow -- Relation Representation for Without-Mention Entity-Pairs for Knowledge Graph Completion ( http://arxiv.org/abs/2204.13097v1 )

ライセンス: CC BY 4.0
Huda Hakami, Mona Hakami, Angrosh Mandya and Danushka Bollegala(参考訳) テキストコーパスを知識グラフ(KG)と統合して知識グラフ埋め込み(KGE)を改善する作業は,テキストコーパス内の文に共起するエンティティに対して,優れたパフォーマンスを得ることができた。 このような文(エンティティペアのテキスト参照)は、2つのエンティティ間でLexicalized Dependency Paths(LDP)として表現される。 しかし、LPPを用いて単一の文で共起しないエンティティ間の関係を表現することは不可能である。 本稿では、コーパス中の文(つまり、エンティティペア)に共起するエンティティペア(つまり、エンティティペア)からldpsを借用して、コーパス内の任意の文に共起しないエンティティペア(つまり、エンティティペアに言及せずに)を表現する手法を提案する。 本稿では,事前学習されたエンティティ埋め込みと文脈化されたldp表現を用いて,ldpの適合性を評価するための教師付き借用方法であるsuperborrowを提案する。 実験の結果, SuperBorrow は TransE, DistMult, ComplEx, RotatE など, 広く使われている複数の KGE 手法のリンク予測性能を改善した。

Prior work on integrating text corpora with knowledge graphs (KGs) to improve Knowledge Graph Embedding (KGE) have obtained good performance for entities that co-occur in sentences in text corpora. Such sentences (textual mentions of entity-pairs) are represented as Lexicalised Dependency Paths (LDPs) between two entities. However, it is not possible to represent relations between entities that do not co-occur in a single sentence using LDPs. In this paper, we propose and evaluate several methods to address this problem, where we borrow LDPs from the entity pairs that co-occur in sentences in the corpus (i.e. with mention entity pairs) to represent entity pairs that do not co-occur in any sentence in the corpus (i.e. without mention entity pairs). We propose a supervised borrowing method, SuperBorrow, that learns to score the suitability of an LDP to represent a without-mention entity pair using pre-trained entity embeddings and contextualised LDP representations. Experimental results show that SuperBorrow improves the link prediction performance of multiple widely-used prior KGE methods such as TransE, DistMult, ComplEx and RotatE.
翻訳日:2022-04-28 14:03:59 公開日:2022-04-27
# CREER:関係抽出とエンティティ認識のための大規模コーパス

CREER: A Large-Scale Corpus for Relation Extraction and Entity Recognition ( http://arxiv.org/abs/2204.12710v1 )

ライセンス: Link先を確認
Yu-Siou Tang and Chung-Hsien Wu(参考訳) 本稿では、豊富な英語文法と意味属性を付加した大規模なコーパスであるCREERデータセットの設計と使用について述べる。 CREERデータセットはStanford CoreNLPアノテーションを使用して、Wikipediaのプレーンテキストからリッチ言語構造をキャプチャする。 このデータセットは広く使われている言語およびセマンティックアノテーションに従い、ほとんどの自然言語処理タスクだけでなくデータセットのスケーリングにも使用できる。 この大規模な教師付きデータセットは、今後のNLPタスクのパフォーマンス向上の基礎となる。

We describe the design and use of the CREER dataset, a large corpus annotated with rich English grammar and semantic attributes. The CREER dataset uses the Stanford CoreNLP Annotator to capture rich language structures from Wikipedia plain text. This dataset follows widely used linguistic and semantic annotations so that it can be used for not only most natural language processing tasks but also scaling the dataset. This large supervised dataset can serve as the basis for improving the performance of NLP tasks in the future.
翻訳日:2022-04-28 13:33:54 公開日:2022-04-27
# Propose-and-Refine:Nested Named Entity Recognitionのための2段階セット予測ネットワーク

Propose-and-Refine: A Two-Stage Set Prediction Network for Nested Named Entity Recognition ( http://arxiv.org/abs/2204.12732v1 )

ライセンス: Link先を確認
Shuhui Wu, Yongliang Shen, Zeqi Tan, Weiming Lu(参考訳) Nested Name entity recognition (nested NER)は自然言語処理における基本的なタスクである。 スパン表現を持つネストされたエンティティを検出するために、スパンベースの様々な方法が提案されている。 しかしながら、スパンベースの手法では、スパンと他のエンティティやフレーズの関係を考慮せず、nerタスクで役に立ちます。 さらに、スパンベースの手法は列挙長の制限により長いエンティティを予測するのに苦労する。 そこで本研究では,ネストナーのための2段階セット予測ネットワークであるsuggested-and-refine network (pnrnet)を提案する。 提案段階では,大まかなエンティティ予測をエンティティ提案として生成するために,スパンベースの予測器を用いる。 洗練された段階では、提案は相互に相互作用し、よりリッチな文脈情報を提案表現に組み込む。 洗練された提案表現はエンティティ境界とクラスの再予測に使用される。 このようにして、粗い提案における誤差を排除でき、境界予測はスパン列挙長制限によってもはや制約されない。 さらに,文の階層構造をモデル化し,トークンレベルの表現よりも豊かな文脈情報を提供するマルチスケール文表現を構築した。 PnRNetは4つのネストされたNERデータセットと1つのフラットなNERデータセットで最先端のパフォーマンスを実現する。

Nested named entity recognition (nested NER) is a fundamental task in natural language processing. Various span-based methods have been proposed to detect nested entities with span representations. However, span-based methods do not consider the relationship between a span and other entities or phrases, which is helpful in the NER task. Besides, span-based methods have trouble predicting long entities due to limited span enumeration length. To mitigate these issues, we present the Propose-and-Refine Network (PnRNet), a two-stage set prediction network for nested NER. In the propose stage, we use a span-based predictor to generate some coarse entity predictions as entity proposals. In the refine stage, proposals interact with each other, and richer contextual information is incorporated into the proposal representations. The refined proposal representations are used to re-predict entity boundaries and classes. In this way, errors in coarse proposals can be eliminated, and the boundary prediction is no longer constrained by the span enumeration length limitation. Additionally, we build multi-scale sentence representations, which better model the hierarchical structure of sentences and provide richer contextual information than token-level representations. Experiments show that PnRNet achieves state-of-the-art performance on four nested NER datasets and one flat NER dataset.
翻訳日:2022-04-28 13:33:46 公開日:2022-04-27
# グローバル制御, ローカル理解: 感情支援対話のためのグローバル・ローカル階層グラフネットワーク

Control Globally, Understand Locally: A Global-to-Local Hierarchical Graph Network for Emotional Support Conversation ( http://arxiv.org/abs/2204.12749v1 )

ライセンス: Link先を確認
Wei Peng, Yue Hu, Luxi Xing, Yuqiang Xie, Yajing Sun, Yunpeng Li(参考訳) 感情支援会話は、新しい挑戦的なタスクであるヘルプシーカーの感情的な苦痛を減らすことを目的としている。 このシステムでは,援助希望者の感情的苦痛の原因を探究し,支援的反応を提供する心理的意図を理解する必要がある。 しかし、既存の方法は主に逐次的文脈情報に注目し、世界的原因との階層的関係や会話の背後にある局所的な心理的意図を無視し、感情的支援の能力が弱くなる。 本稿では,マルチソースエンコーダ,階層グラフ推論器,グローバルガイドデコーダからなる,マルチソース情報(グローバル原因,ローカル意図,ダイアログ履歴)をキャプチャし,それらの間の階層関係をモデル化するグローバル-ローカル階層グラフネットワークを提案する。 さらに,新しい学習目的は,世界的原因の意味情報を監視することにある。 感情支援会話データセットであるESConvの実験結果から,提案したGLHGが,自動評価と人的評価の最先端性能を達成したことが確認された。

Emotional support conversation aims at reducing the emotional distress of the help-seeker, which is a new and challenging task. It requires the system to explore the cause of help-seeker's emotional distress and understand their psychological intention to provide supportive responses. However, existing methods mainly focus on the sequential contextual information, ignoring the hierarchical relationships with the global cause and local psychological intention behind conversations, thus leads to a weak ability of emotional support. In this paper, we propose a Global-to-Local Hierarchical Graph Network to capture the multi-source information (global cause, local intentions and dialog history) and model hierarchical relationships between them, which consists of a multi-source encoder, a hierarchical graph reasoner, and a global-guide decoder. Furthermore, a novel training objective is designed to monitor semantic information of the global cause. Experimental results on the emotional support conversation dataset, ESConv, confirm that the proposed GLHG has achieved the state-of-the-art performance on the automatic and human evaluations.
翻訳日:2022-04-28 13:33:28 公開日:2022-04-27
# 階層型トランスフォーマーを用いたコード混合言語セマンティクスの包括的理解

A Comprehensive Understanding of Code-mixed Language Semantics using Hierarchical Transformer ( http://arxiv.org/abs/2204.12753v1 )

ライセンス: Link先を確認
Ayan Sengupta, Tharun Suresh, Md Shad Akhtar, and Tanmoy Chakraborty(参考訳) 多言語コミュニティにおけるテキストベースのコミュニケーションの一般的な方法として、オンラインソーシャルメディアにおけるコードミキシングが研究の対象となっている。 コード混合言語のセマンティクスと形態を学ぶことは、データの不足とロバストで言語不変な表現学習技術の活用不可能のため、依然として重要な課題である。 形態的に豊かな言語は、文字、サブワード、単語レベルの埋め込みの恩恵を受けることができる。 本稿では,コード混合言語のセマンティクスを学習するための階層型トランスフォーマーアーキテクチャ(HIT)について検討する。 HITは、コード混在テキストのセマンティック構造と構文構造を同時に理解するために、多面的自己注意と外部製品注意コンポーネントで構成されている。 提案手法は,インドの6言語(ベンガル語,グジャラート語,ヒンディー語,タミル語,テルグ語,マラヤラム語)とスペイン語で,9つのNLPタスクを17データセットで評価した。 ヒットモデルは、すべてのタスクで最先端のコード混合表現学習と多言語言語モデルを上回る。 さらに,マスク型言語モデリングに基づく事前学習,ゼロショット学習,トランスファー学習手法を用いて,ヒットアーキテクチャの一般化可能性を示す。 実験の結果,事前学習目標が下流タスクの性能を大幅に向上させることが示された。

Being a popular mode of text-based communication in multilingual communities, code-mixing in online social media has became an important subject to study. Learning the semantics and morphology of code-mixed language remains a key challenge, due to scarcity of data and unavailability of robust and language-invariant representation learning technique. Any morphologically-rich language can benefit from character, subword, and word-level embeddings, aiding in learning meaningful correlations. In this paper, we explore a hierarchical transformer-based architecture (HIT) to learn the semantics of code-mixed languages. HIT consists of multi-headed self-attention and outer product attention components to simultaneously comprehend the semantic and syntactic structures of code-mixed texts. We evaluate the proposed method across 6 Indian languages (Bengali, Gujarati, Hindi, Tamil, Telugu and Malayalam) and Spanish for 9 NLP tasks on 17 datasets. The HIT model outperforms state-of-the-art code-mixed representation learning and multilingual language models in all tasks. We further demonstrate the generalizability of the HIT architecture using masked language modeling-based pre-training, zero-shot learning, and transfer learning approaches. Our empirical results show that the pre-training objectives significantly improve the performance on downstream tasks.
翻訳日:2022-04-28 13:33:09 公開日:2022-04-27
# SkillSpan: 英語の求人投稿からハードとソフトのスキル抽出

SkillSpan: Hard and Soft Skill Extraction from English Job Postings ( http://arxiv.org/abs/2204.12811v1 )

ライセンス: Link先を確認
Mike Zhang, Kristian N{\o}rgaard Jensen, Sif Dam Sonniks, Barbara Plank(参考訳) スキル抽出(SE)は、労働市場のダイナミクスに関する洞察を得るのに役立つ重要かつ広く研究されている課題である。 利用可能なデータセットは少なく、事前に定義されたスキルインベントリから、スパンレベルやラベルにクラウドソースされたラベルが含まれている。 このギャップを解決するために、14.5K文と12.5Kアノテーション付きスパンからなる新しいSEデータセットであるSKILLSPANを紹介する。 それぞれのガイドラインを3つの異なるソースから作成し、ドメインの専門家によるハードとソフトのスキルにアノテートしています。 BERTベースラインを紹介する(Devlin et al., 2019)。 このベースラインを改善するために、長期にわたって最適化された言語モデル(joshi et al., 2020; beltagy et al., 2020)、求人ドメインでの継続的な事前トレーニング(han and eisenstein, 2019; gururangan et al., 2020)、マルチタスク学習(caruana, 1997)を実験する。 その結果、ドメイン適応モデルは非適応モデルよりも優れ、シングルタスクはマルチタスク学習よりも優れていた。

Skill Extraction (SE) is an important and widely-studied task useful to gain insights into labor market dynamics. However, there is a lacuna of datasets and annotation guidelines; available datasets are few and contain crowd-sourced labels on the span-level or labels from a predefined skill inventory. To address this gap, we introduce SKILLSPAN, a novel SE dataset consisting of 14.5K sentences and over 12.5K annotated spans. We release its respective guidelines created over three different sources annotated for hard and soft skills by domain experts. We introduce a BERT baseline (Devlin et al., 2019). To improve upon this baseline, we experiment with language models that are optimized for long spans (Joshi et al., 2020; Beltagy et al., 2020), continuous pre-training on the job posting domain (Han and Eisenstein, 2019; Gururangan et al., 2020), and multi-task learning (Caruana, 1997). Our results show that the domain-adapted models significantly outperform their non-adapted counterparts, and single-task outperforms multi-task learning.
翻訳日:2022-04-28 13:32:45 公開日:2022-04-27
# DialogVED:対話応答生成のための訓練済み遅延可変エンコーダデコーダモデル

DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for Dialog Response Generation ( http://arxiv.org/abs/2204.13031v1 )

ライセンス: Link先を確認
Wei Chen, Yeyun Gong, Song Wang, Bolun Yao, Weizhen Qi, Zhongyu Wei, Xiaowu Hu, Bartuer Zhou, Yi Mao, Weizhu Chen, Biao Cheng, Nan Duan(参考訳) オープンドメインでのダイアログ応答生成は、関連する多様な応答を生成することが主な課題となる重要な研究トピックである。 本稿では、拡張エンコーダデコーダプレトレーニングフレームワークに連続潜時変数を導入し、応答の関連性と多様性を高めるためのダイアログ事前学習フレームワークDialogVEDを提案する。 大きなダイアログコーパス(Reddit)の助けを借りて、トレーニング言語モデル(LM)と変分オートエンコーダ(VAE)の文献で使用される以下の4つのタスクを使用してモデルを事前訓練する。 1) マスキング言語モデル 2) 応答生成 3) 語小数予測,及び 4) KL分散低減。 また、事前学習したモデルのパフォーマンスを改善するために、ダイアログのターン構造をモデル化するために追加パラメータを追加します。 応答生成のためのPersonaChat,DailyDialog,DSTC7-AVSDベンチマークの実験を行った。 実験の結果,これらすべてのデータセットにおいて,新たな最先端結果が得られた。

Dialog response generation in open domain is an important research topic where the main challenge is to generate relevant and diverse responses. In this paper, we propose a new dialog pre-training framework called DialogVED, which introduces continuous latent variables into the enhanced encoder-decoder pre-training framework to increase the relevance and diversity of responses. With the help of a large dialog corpus (Reddit), we pre-train the model using the following 4 tasks, used in training language models (LMs) and Variational Autoencoders (VAEs) literature: 1) masked language model; 2) response generation; 3) bag-of-words prediction; and 4) KL divergence reduction. We also add additional parameters to model the turn structure in dialogs to improve the performance of the pre-trained model. We conduct experiments on PersonaChat, DailyDialog, and DSTC7-AVSD benchmarks for response generation. Experimental results show that our model achieves the new state-of-the-art results on all these datasets.
翻訳日:2022-04-28 13:30:58 公開日:2022-04-27
# 最小記述長による代表属性星の発見

Discovering Representative Attribute-stars via Minimum Description Length ( http://arxiv.org/abs/2204.12704v1 )

ライセンス: Link先を確認
Jiahong Liu, Min Zhou, Philippe Fournier-Viger, Menglin Yang, Lujia Pan, Mourad Nouioua(参考訳) グラフは多くの領域でよく見られるデータ型です。 データを理解し、意思決定をサポートするために、グラフに興味深いパターンを見つけるために多くの技術が提案されている。 しかし、一般的には、その実用上の使用を妨げる2つの制限がある:(1) 設定が難しい複数のパラメータを持ち、(2) ノードの属性間の関係を無視しながら複雑なサブグラフの識別に重点を置いている。 データを理解し、意思決定をサポートするために、グラフに興味深いパターンを見つけるために多くの技術が提案されている。 しかし、一般的には、(1)設定が難しいが結果に大きな影響を及ぼす複数のパラメータを持ち、(2)ノードの属性間の関係を無視しながら複雑なサブグラフを識別することに注力する、という2つの制限がある。 これらの問題に対処するために、条件エントロピーの概念と最小記述長原理を用いて、属性間の強い相関を示す星形パターンを識別するCSPM(Compressing Star Pattern Miner)というパラメータフリーアルゴリズムを提案する。 いくつかのベンチマークデータセットで実施された実験は、cspmが洞察力があり解釈可能なパターンを示し、実行時に効率的であることを示している。 さらに、2つの実世界のアプリケーションに対する定量的評価により、CSPMは、最大30.68倍の精度でグラフ属性完了モデルの精度を向上し、通信アラームデータにおける重要なパターンを明らかにすることに成功した。

Graphs are a popular data type found in many domains. Numerous techniques have been proposed to find interesting patterns in graphs to help understand the data and support decision-making. However, there are generally two limitations that hinder their practical use: (1) they have multiple parameters that are hard to set but greatly influence results, (2) and they generally focus on identifying complex subgraphs while ignoring relationships between attributes of nodes.Graphs are a popular data type found in many domains. Numerous techniques have been proposed to find interesting patterns in graphs to help understand the data and support decision-making. However, there are generally two limitations that hinder their practical use: (1) they have multiple parameters that are hard to set but greatly influence results, (2) and they generally focus on identifying complex subgraphs while ignoring relationships between attributes of nodes. To address these problems, we propose a parameter-free algorithm named CSPM (Compressing Star Pattern Miner) which identifies star-shaped patterns that indicate strong correlations among attributes via the concept of conditional entropy and the minimum description length principle. Experiments performed on several benchmark datasets show that CSPM reveals insightful and interpretable patterns and is efficient in runtime. Moreover, quantitative evaluations on two real-world applications show that CSPM has broad applications as it successfully boosts the accuracy of graph attribute completion models by up to 30.68\% and uncovers important patterns in telecommunication alarm data.
翻訳日:2022-04-28 13:30:18 公開日:2022-04-27
# MM-TTA:3次元セマンティックセグメンテーションのためのマルチモーダルテスト時間適応

MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation ( http://arxiv.org/abs/2204.12667v1 )

ライセンス: Link先を確認
Inkyu Shin, Yi-Hsuan Tsai, Bingbing Zhuang, Samuel Schulter, Buyu Liu, Sparsh Garg, In So Kweon, Kuk-Jin Yoon(参考訳) テスト時適応アプローチは、最近、ソースドメインデータにアクセスせずにドメインシフトを処理するための実用的なソリューションとして現れました。 本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。 既存の手法を直接適用すると,マルチモーダル入力が協調的に考慮されないため,テスト時に性能が不安定になることが多い。 各モードが他のモダリティに対して正規化された自己スーパーバイザ信号を提供するマルチモダリティの利点をフル活用できるフレームワークを設計するために,モダリティ内およびモダリティ間の相補的な2つのモジュールを提案する。 まず、イントラ-PG(Intra-PG)を導入し、ソースデータに基づいて事前学習されるが、異なるペースでターゲットデータで更新される2つのモデルからの情報を集約することにより、各モード内で信頼できる擬似ラベルを得る。 第二に、提案する一貫性スキームに基づいて、異なるモダリティからより信頼性の高い擬似ラベルを適応的に選択する。 3次元セマンティックセグメンテーションのための多数の多モードテスト時間適応シナリオにおいて、正規化された擬似ラベルが安定した自己学習信号を生成することを示す。 プロジェクトのwebサイトはhttps://www.nec-labs.com/~mas/mm-tta。

Test-time adaptation approaches have recently emerged as a practical solution for handling domain shift without access to the source domain data. In this paper, we propose and explore a new multi-modal extension of test-time adaptation for 3D semantic segmentation. We find that directly applying existing methods usually results in performance instability at test time because multi-modal input is not considered jointly. To design a framework that can take full advantage of multi-modality, where each modality provides regularized self-supervisory signals to other modalities, we propose two complementary modules within and across the modalities. First, Intra-modal Pseudolabel Generation (Intra-PG) is introduced to obtain reliable pseudo labels within each modality by aggregating information from two models that are both pre-trained on source data but updated with target data at different paces. Second, Inter-modal Pseudo-label Refinement (Inter-PR) adaptively selects more reliable pseudo labels from different modalities based on a proposed consistency scheme. Experiments demonstrate that our regularized pseudo labels produce stable self-learning signals in numerous multi-modal test-time adaptation scenarios for 3D semantic segmentation. Visit our project website at https://www.nec-labs.com/~mas/MM-TTA.
翻訳日:2022-04-28 13:27:41 公開日:2022-04-27
# 説明可能な条件付きテキスト・ツー・イメージGANのための最適潜時符号選択

Optimized latent-code selection for explainable conditional text-to-image GANs ( http://arxiv.org/abs/2204.12678v1 )

ライセンス: Link先を確認
Zhenxing Zhang and Lambert Schomaker(参考訳) テキスト対画像生成のタスクは,条件付き生成型adversarial network (gans) の進歩により著しい進歩を遂げている。 しかし、既存の条件付きテキストから画像へのgansアプローチは、主に画像品質と意味的関連性の両方を改善することに集中しているが、現実世界のアプリケーションにおいて重要な役割を果たすモデルの説明可能性を無視している。 本稿では,条件付きテキスト・ツー・イメージGANモデルの潜在空間と意味空間を深く理解するための様々な手法を提案する。 潜在符号のペアワイズ線形補間と'言語'線形補間を導入し、そのモデルが潜在空間内で学んだことや'言語'埋め込みを研究する。 その後、線形補間を三隅に条件付けられた三角補間まで拡張し、さらにモデルを解析する。 その後、画像品質研究のための合成サンプルとそれに対応する潜時符号を含むグッド/バッドデータセットを構築した。 このデータセットに基づいて,線形SVMを用いて,優れた潜伏コードを見つけるためのフレームワークを提案する。 提案手法の有効性を定性的に証明する2つのベンチマークデータセットで訓練された最近のダイバーガン生成器の実験結果について, 潜時ベクトルに対する${good}$/${bad}$クラスを予測した場合, 94\%以上の精度で検証した。 Good/Badデータセットはhttps://zenodo.org/record/5850224#で公開されている。 YeGMwP7MKUk。

The task of text-to-image generation has achieved remarkable progress due to the advances in the conditional generative adversarial networks (GANs). However, existing conditional text-to-image GANs approaches mostly concentrate on improving both image quality and semantic relevance but ignore the explainability of the model which plays a vital role in real-world applications. In this paper, we present a variety of techniques to take a deep look into the latent space and semantic space of the conditional text-to-image GANs model. We introduce pairwise linear interpolation of latent codes and `linguistic' linear interpolation to study what the model has learned within the latent space and `linguistic' embeddings. Subsequently, we extend linear interpolation to triangular interpolation conditioned on three corners to further analyze the model. After that, we build a Good/Bad data set containing unsuccessfully and successfully synthetic samples and corresponding latent codes for the image-quality research. Based on this data set, we propose a framework for finding good latent codes by utilizing a linear SVM. Experimental results on the recent DiverGAN generator trained on two benchmark data sets qualitatively prove the effectiveness of our presented techniques, with a better than 94\% accuracy in predicting ${Good}$/${Bad}$ classes for latent vectors. The Good/Bad data set is publicly available at https://zenodo.org/record/5850224#.YeGMwP7MKUk.
翻訳日:2022-04-28 13:27:16 公開日:2022-04-27
# 組込みパッチを組み込んだ逆転事例の伝達性向上

Improving the Transferability of Adversarial Examples with Restructure Embedded Patches ( http://arxiv.org/abs/2204.12680v1 )

ライセンス: Link先を確認
Huipeng Zhou, Yu-an Tan, Yajie Wang, Haoran Lyu, Shangbo Wu and Yuanzhang Li(参考訳) 視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて印象的な性能を示した。 しかし、ViTsが生成する逆の例は、異なる構造を持つ他のネットワークへの転送が困難である。 最近の攻撃方法はvitsアーキテクチャの特異性や自己付着機構を考慮せず、vitsによって生成された逆さまのサンプルの移動性を低下させる。 入力の組込みパッチを再構築することにより、ViTのユニークな自己保持機構を攻撃する。 再構成された組み込みパッチにより、自己アテンション機構はより多様なパッチ接続を得ることができ、vitがオブジェクトに対する関心領域を維持するのに役立つ。 そこで本稿では, 自己注意パッチ再構成(SAPR)と呼ばれる, ViT のユニークな自己注意機構に対する攻撃手法を提案する。 本手法は, 自己アテンションに基づくネットワークや勾配移動可能性に基づく攻撃手法にも適用可能である。 異なる構造を持つブラックボックスモデルの攻撃伝達性を評価する。 その結果,提案手法は,転送性が高く画像品質の高いホワイトボックスvits上で逆例を生成することがわかった。 我々の研究は、White-box ViTsを用いた他のブラックボックスモデルに対する攻撃の可能性を示す。

Vision transformers (ViTs) have demonstrated impressive performance in various computer vision tasks. However, the adversarial examples generated by ViTs are challenging to transfer to other networks with different structures. Recent attack methods do not consider the specificity of ViTs architecture and self-attention mechanism, which leads to poor transferability of the generated adversarial samples by ViTs. We attack the unique self-attention mechanism in ViTs by restructuring the embedded patches of the input. The restructured embedded patches enable the self-attention mechanism to obtain more diverse patches connections and help ViTs keep regions of interest on the object. Therefore, we propose an attack method against the unique self-attention mechanism in ViTs, called Self-Attention Patches Restructure (SAPR). Our method is simple to implement yet efficient and applicable to any self-attention based network and gradient transferability-based attack methods. We evaluate attack transferability on black-box models with different structures. The result show that our method generates adversarial examples on white-box ViTs with higher transferability and higher image quality. Our research advances the development of black-box transfer attacks on ViTs and demonstrates the feasibility of using white-box ViTs to attack other black-box models.
翻訳日:2022-04-28 13:26:52 公開日:2022-04-27
# 時空の特異性からのグラッピング:スタイルGANから低次元ラテント空間におけるマイクロモーションの復号

Grasping the Arrow of Time from the Singularity: Decoding Micromotion in Low-dimensional Latent Spaces from StyleGAN ( http://arxiv.org/abs/2204.12696v1 )

ライセンス: Link先を確認
Qiucheng Wu, Yifan Jiang, Junru Wu, Kai Wang, Gong Zhang, Humphrey Shi, Zhangyang Wang, Shiyu Chang(参考訳) StyleGANの潜在空間のゆがみは、現実的で制御可能な画像編集の道を開いたが、StyleGANは静的画像のみにトレーニングされたため、時間運動について何か知っているだろうか? StyleGANの潜伏空間における動きの特徴を研究するために,従来の事前学習型StyleGAN-v2モデルの潜伏空間から抽出した低ランク空間において,一連の意味的,自然的,多目的な局所運動(表現,頭部運動,老化効果など「マイクロモーション」と呼ばれる)が,短いテキストやビデオクリップの形で適切な「アンカー」のガイダンスを用いて表現できることを仮定し,実証する。 1つのターゲット顔画像から、低ランク空間から編集方向をデコードし、そのマイクロモーション特徴を、潜伏した特徴に対するアフィン変換として表すことができる。 さらに驚くべきことに、単一のターゲットの顔から学んだようなマイクロモーションサブスペースは、油絵、漫画、彫刻の顔など、非常に異なる領域の顔でさえも、痛みなく他の見えない顔画像に移すことができる。 局所的な特徴幾何は、ある種類のマイクロモーションに対応し、異なる顔の被写体間で整列していることが示され、したがって、StyleGAN-v2は、そのマイクロモーションによって引き起こされる被写体外特徴の変化を「秘かに」認識している。 我々は,低次元マイクロモーションサブスペース技術を用いて顔を直接かつ無力に操作し,高ロバスト性,低計算オーバーヘッド,印象的なドメイン転送性を示す,様々な成功例を示す。 私たちのコードはhttps://github.com/wuqiuche/micromotion-styleganで利用可能です。

The disentanglement of StyleGAN latent space has paved the way for realistic and controllable image editing, but does StyleGAN know anything about temporal motion, as it was only trained on static images? To study the motion features in the latent space of StyleGAN, in this paper, we hypothesize and demonstrate that a series of meaningful, natural, and versatile small, local movements (referred to as "micromotion", such as expression, head movement, and aging effect) can be represented in low-rank spaces extracted from the latent space of a conventionally pre-trained StyleGAN-v2 model for face generation, with the guidance of proper "anchors" in the form of either short text or video clips. Starting from one target face image, with the editing direction decoded from the low-rank space, its micromotion features can be represented as simple as an affine transformation over its latent feature. Perhaps more surprisingly, such micromotion subspace, even learned from just single target face, can be painlessly transferred to other unseen face images, even those from vastly different domains (such as oil painting, cartoon, and sculpture faces). It demonstrates that the local feature geometry corresponding to one type of micromotion is aligned across different face subjects, and hence that StyleGAN-v2 is indeed "secretly" aware of the subject-disentangled feature variations caused by that micromotion. We present various successful examples of applying our low-dimensional micromotion subspace technique to directly and effortlessly manipulate faces, showing high robustness, low computational overhead, and impressive domain transferability. Our codes are available at https://github.com/wuqiuche/micromotion-StyleGAN.
翻訳日:2022-04-28 13:26:31 公開日:2022-04-27
# ストリートシーン画像とディープラーニングを用いた郊外自転車レーンのマッピング

Mapping suburban bicycle lanes using street scene images and deep learning ( http://arxiv.org/abs/2204.12701v1 )

ライセンス: Link先を確認
Tyler Saxton(参考訳) オンロード自転車レーンはサイクリストの安全を改善し、アクティブな輸送とレクリエーションのためにサイクリングに参加することを奨励している。 多くの地方自治体がインフラの一部を担当しており、公式地図や自転車レーンのデータセットは時代遅れで不完全である可能性がある。 crowdsourced"データベースでさえも、特に大都市以外では大きなギャップがある可能性がある。 本論文は,各道路からストリートシーン画像のサンプルを採取し,自転車レーンのシンボル認識を訓練した深層学習モデルを適用することで,サーベイエリアにおける自転車レーンの地図を作成する手法を提案する。 次に、自転車レーン標識を検出する座標リストを、自転車レーン経路を記録する道路網の地理空間データに関連付ける。 この手法はメルボルン郊外の測量エリアの地図の作成に応用された。 公式の州政府のデータセットであるOpenStreetMapやGoogle Mapsの"自転車"層に記録されていない自転車レーンを特定できた。

On-road bicycle lanes improve safety for cyclists, and encourage participation in cycling for active transport and recreation. With many local authorities responsible for portions of the infrastructure, official maps and datasets of bicycle lanes may be out-of-date and incomplete. Even "crowdsourced" databases may have significant gaps, especially outside popular metropolitan areas. This thesis presents a method to create a map of bicycle lanes in a survey area by taking sample street scene images from each road, and then applying a deep learning model that has been trained to recognise bicycle lane symbols. The list of coordinates where bicycle lane markings are detected is then correlated to geospatial data about the road network to record bicycle lane routes. The method was applied to successfully build a map for a survey area in the outer suburbs of Melbourne. It was able to identify bicycle lanes not previously recorded in the official state government dataset, OpenStreetMap, or the "biking" layer of Google Maps.
翻訳日:2022-04-28 13:25:53 公開日:2022-04-27
# ロバスト・高精度車両速度認識のためのデータセット

Dataset for Robust and Accurate Leading Vehicle Velocity Recognition ( http://arxiv.org/abs/2204.12717v1 )

ライセンス: Link先を確認
Genya Ogawa (1), Toru Saito (1), Noriyuki Aoi (2) ((1) Subaru Corporation, (2) Signate Inc.)(参考訳) カメラを用いた周辺環境の認識は、高度な運転支援システムや自動運転において重要な技術であり、近年ではディープラーニングなどの機械学習アプローチによって認識技術がしばしば解決されている。 機械学習は、学習と評価のためにデータセットを必要とする。 通常の運転環境に加えて、雨天や夜間などのカメラにとって困難な環境におけるデータも、現実世界で堅牢な認識技術を開発することが不可欠である。 我々は、先行車両の速度認識をターゲットとして、この技術をベンチマークできるデータセットを構築した。 このタスクは、高度な運転支援システムと自律運転にとって重要なタスクである。 データセットはhttps://signate.jp/competitions/657で利用可能である。

Recognition of the surrounding environment using a camera is an important technology in Advanced Driver-Assistance Systems and Autonomous Driving, and recognition technology is often solved by machine learning approaches such as deep learning in recent years. Machine learning requires datasets for learning and evaluation. To develop robust recognition technology in the real world, in addition to normal driving environment, data in environments that are difficult for cameras such as rainy weather or nighttime are essential. We have constructed a dataset that one can benchmark the technology, targeting the velocity recognition of the leading vehicle. This task is an important one for the Advanced Driver-Assistance Systems and Autonomous Driving. The dataset is available at https://signate.jp/competitions/657
翻訳日:2022-04-28 13:25:37 公開日:2022-04-27
# Pre-NAS: 予測型進化型ニューラルネットワーク検索

PRE-NAS: Predictor-assisted Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2204.12726v1 )

ライセンス: Link先を確認
Yameng Peng, Andy Song, Vic Ciesielski, Haytham M. Fayek, Xiaojun Chang(参考訳) ニューラルネットワークにおけるアーキテクチャエンジニアリングを自動化することを目的としている。 これは検索空間内の全ての可能なネットワークの集合から複数の候補ネットワークを評価するために高い計算オーバーヘッドを必要とすることが多い。 ネットワークの性能予測は、全ての候補ネットワークを評価する必要性を軽減し、この高い計算オーバーヘッドを軽減することができる。 このような予測器の開発には、通常、多くの評価されたアーキテクチャが必要となる。 本稿では,進化型NAS戦略である予測型E-NAS(Predictor-assisted E-NAS, PRE-NAS)を提案する。 pre-nasは新しい進化的探索戦略を活用し、世代間の高忠実度重み継承を統合する。 重量共有による評価のバイアスに悩まされるワンショット戦略とは異なり、プレNASの子孫候補はトポロジカルに均質であり、バイアスを回避し、より正確な予測をもたらす。 NAS-Bench-201とDARTSの探索実験により、プレNASは最先端のNAS法より優れていることが示された。 0.6日間の単一のgpu検索だけで、競合アーキテクチャは、それぞれcifar-10とimagenetで2.40%と24%のテストエラー率を達成しているpre-nasによって見つけることができる。

Neural architecture search (NAS) aims to automate architecture engineering in neural networks. This often requires a high computational overhead to evaluate a number of candidate networks from the set of all possible networks in the search space during the search. Prediction of the networks' performance can alleviate this high computational overhead by mitigating the need for evaluating every candidate network. Developing such a predictor typically requires a large number of evaluated architectures which may be difficult to obtain. We address this challenge by proposing a novel evolutionary-based NAS strategy, Predictor-assisted E-NAS (PRE-NAS), which can perform well even with an extremely small number of evaluated architectures. PRE-NAS leverages new evolutionary search strategies and integrates high-fidelity weight inheritance over generations. Unlike one-shot strategies, which may suffer from bias in the evaluation due to weight sharing, offspring candidates in PRE-NAS are topologically homogeneous, which circumvents bias and leads to more accurate predictions. Extensive experiments on NAS-Bench-201 and DARTS search spaces show that PRE-NAS can outperform state-of-the-art NAS methods. With only a single GPU searching for 0.6 days, competitive architecture can be found by PRE-NAS which achieves 2.40% and 24% test error rates on CIFAR-10 and ImageNet respectively.
翻訳日:2022-04-28 13:25:27 公開日:2022-04-27
# 自動運転車の操舵角度予測:トランスフォーマーを再び車に変える

Self-Driving Car Steering Angle Prediction: Let Transformer Be a Car Again ( http://arxiv.org/abs/2204.12748v1 )

ライセンス: Link先を確認
Chingis Oinar and Eunmin Kim(参考訳) 自動運転車は今後数十年で大きな経済的影響を被ると予想されている。 Udacity https://www.udacity.com/は、完全にオープンソースの自動運転車を開発している。 そのため、様々な競技会を定期的に開催し、そのうちの1つは角度予測タスクの運営に充てられた。 本研究では、Udacity Self-driving Car Challenge 2を探索し、この課題について広範な研究を行う。 以前のチームのソリューションに関する洞察を提供する。 さらに,いくつかのチームからインスパイアされた新しいアーキテクチャを提案する。 パフォーマンスを報告し、他のチームのソリューションと同様に、複数のベースラインアーキテクチャと比較します。 当社の作業はGitHubで公開していますが,Udacityコミュニティにとって有用であることを願っています。

Self-driving vehicles are expected to be a massive economic influence over the coming decades. Udacity https://www.udacity.com/ has been working on a completely open-source self driving car. Thus, it regularly organizes various competitions, one of which was dedicated to steering angle prediction task. In this work, we perform an extensive study on this particular task by exploring the Udacity Self-driving Car Challenge 2. We provide insights on the previous teams' solutions. Moreover, we propose our new architecture that is inspired by some of the teams. We report our performance and compare it with multiple baseline architectures as well as other teams' solutions. We make our work available on GitHub and hope it is useful for the Udacity community and brings insights for future works https://github.com/chingisooinar/AI_self-driving-car
翻訳日:2022-04-28 13:25:06 公開日:2022-04-27
# (参考訳) 高次元ロバストベイズ学習のためのヒンフ補正を用いた変分カルマンフィルタ

Variational Kalman Filtering with Hinf-Based Correction for Robust Bayesian Learning in High Dimensions ( http://arxiv.org/abs/2204.13089v1 )

ライセンス: CC BY 4.0
Niladri Das, Jed A. Duersch, and Thomas A. Catanach(参考訳) 本稿では, 線形ガウス系に対するロバストな変動目標とHinf-normに基づく補正の適用により, 逐次変分推論フィルタ(VIF)の収束の問題に対処する。 状態空間やパラメータ空間の次元が大きくなるにつれて、大規模システムに対する密度共分散行列によるフルカルマン更新を実行するには、ストレージと計算の複雑さが増大し、現実的ではない。 VIFアプローチは平均場ガウス変分推定に基づいて、通常対角共分散近似の形で共分散への変分近似を通じて、この重みを減少させる。 課題は、シーケンシャルVIFステップによって導入されたバイアスの収束と修正を維持することである。 我々は、データの同化に伴って最適なカルマンフィルタに十分な近接を維持しつつ、実現可能性を向上させるフレームワークを望んでいる。 この目的を達成するために、ヒンフノルムに基づく最適化は、ロバスト性を改善するためにVIF共分散行列を乱す。 これにより、連続的な変分推論とhinfに基づく最適化ステップを用いる新しいvif-hinf再帰が得られる。 本手法の開発について検討し,提案フィルタの有効性を示す数値例を示す。

In this paper, we address the problem of convergence of sequential variational inference filter (VIF) through the application of a robust variational objective and Hinf-norm based correction for a linear Gaussian system. As the dimension of state or parameter space grows, performing the full Kalman update with the dense covariance matrix for a large scale system requires increased storage and computational complexity, making it impractical. The VIF approach, based on mean-field Gaussian variational inference, reduces this burden through the variational approximation to the covariance usually in the form of a diagonal covariance approximation. The challenge is to retain convergence and correct for biases introduced by the sequential VIF steps. We desire a framework that improves feasibility while still maintaining reasonable proximity to the optimal Kalman filter as data is assimilated. To accomplish this goal, a Hinf-norm based optimization perturbs the VIF covariance matrix to improve robustness. This yields a novel VIF- Hinf recursion that employs consecutive variational inference and Hinf based optimization steps. We explore the development of this method and investigate a numerical example to illustrate the effectiveness of the proposed filter.
翻訳日:2022-04-28 13:24:25 公開日:2022-04-27
# AdaCoach: カスタマーサービスエージェントをトレーニングするための仮想コーチ

AdaCoach: A Virtual Coach for Training Customer Service Agents ( http://arxiv.org/abs/2204.12935v1 )

ライセンス: Link先を確認
Shuang Peng, Shuai Zhu, Minghui Yang, Haozhou Huang, Dan Liu, Zujie Wen, Xuelian Li, Biao Fan(参考訳) オンラインビジネスの発展に伴い、カスタマーサービスエージェントは徐々に企業と顧客の間のインターフェースとして重要な役割を果たすようになる。 ほとんどの企業は、カスタマサービスエージェントの採用とトレーニングに多くの時間と労力を費やしています。 そこで本研究では,新たに採用したサービスエージェントの能力向上を図るために,カスタマサービスエージェントのトレーニングを行う仮想コーチであるadacoachを提案する。 AdaCoachは、助けを求める実際の顧客をシミュレートし、顧客サービスエージェントとの対話を積極的に開始するように設計されている。 さらに、AdaCoachは自動対話評価モデルを使用して、トレーニングプロセスにおける顧客エージェントのパフォーマンスを評価する。 我々は,最近のNLP技術を用いて,デプロイシステムにおける実行時の効率性を確保する。 私たちの知る限りでは、人間とコンピュータのインタラクションを通じてカスタマーサービスエージェントを訓練する最初のシステムです。 これまでこのシステムは、すでに50万あまりのシミュレーション訓練をサポートし、1000あまりの有資格顧客サービスエージェントを育ててきた。

With the development of online business, customer service agents gradually play a crucial role as an interface between the companies and their customers. Most companies spend a lot of time and effort on hiring and training customer service agents. To this end, we propose AdaCoach: A Virtual Coach for Training Customer Service Agents, to promote the ability of newly hired service agents before they get to work. AdaCoach is designed to simulate real customers who seek help and actively initiate the dialogue with the customer service agents. Besides, AdaCoach uses an automated dialogue evaluation model to score the performance of the customer agent in the training process, which can provide necessary assistance when the newly hired customer service agent encounters problems. We apply recent NLP technologies to ensure efficient run-time performance in the deployed system. To the best of our knowledge, this is the first system that trains the customer service agent through human-computer interaction. Until now, the system has already supported more than 500,000 simulation training and cultivated over 1000 qualified customer service agents.
翻訳日:2022-04-28 13:14:37 公開日:2022-04-27
# global trackは、カメラネットワークでの人物検索を支援する

Global Trajectory Helps Person Retrieval in a Camera Network ( http://arxiv.org/abs/2204.12900v1 )

ライセンス: Link先を確認
Xin Zhang and Xiaohua Xie and Jianhuang Lai and Wei-Shi Zheng(参考訳) オーバラップしないカメラネットワークで撮影されたビデオからクエリを検索することに関心がある。 既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。 この問題に対処するために,時間情報と空間情報を統合したクロスカメラトラジェクトリ生成に基づく人物検索の枠組みを提案する。 歩行者軌跡を得るために,歩行者の歩行習慣とカメラ間の経路配置を統合し,共同確率分布を形成するクロスカメラ時空間モデルを提案する。 スパースサンプリングされた歩行者データを用いて、カメラネットワーク内のこのような時空間モデルを特定できる。 時空間モデルに基づき、条件付きランダム場モデルにより特定の歩行者のクロスカメラ軌跡を抽出でき、制限された非負行列分解によりさらに最適化することができる。 最後に, トラジェクトリ・リランク技術を提案し, 人の検索結果を改善する。 提案手法の有効性を検証するため,実際の監視シナリオ,すなわちPerson Trajectory Datasetに基づいて,クロスカメラ歩行者軌跡の最初のデータセットを構築した。 実験により提案手法の有効性とロバスト性を検証した。

We are concerned about retrieving a query person from the videos taken by a non-overlapping camera network. Existing methods often rely on pure visual matching or consider temporal constraint, but ignore the spatial information of the camera network. To address this problem, we propose a framework of person retrieval based on cross-camera trajectory generation which integrates both temporal and spatial information. To obtain the pedestrian trajectories, we propose a new cross-camera spatio-temporal model that integrates the walking habits of pedestrians and the path layout between cameras, forming a joint probability distribution. Such a spatio-temporal model among a camera network can be specified using sparsely sampled pedestrian data. Based on the spatio-temporal model, the cross-camera trajectories of a specific pedestrian can be extracted by the conditional random field model, and further optimized by the restricted nonnegative matrix factorization. Finally, a trajectory re-ranking technology is proposed to improve the person retrieval results. To verify the effectiveness of our approach, we build the first dataset of cross-camera pedestrian trajectories over an actual monitoring scenario, namely the Person Trajectory Dataset. Extensive experiments have verified the effectiveness and robustness of the proposed method.
翻訳日:2022-04-28 13:14:21 公開日:2022-04-27
# 記号問題に対する一般化強化学習のための関係抽象化

Relational Abstractions for Generalized Reinforcement Learning on Symbolic Problems ( http://arxiv.org/abs/2204.12665v1 )

ライセンス: Link先を確認
Rushang Karia, Siddharth Srivastava(参考訳) 記号的状態空間を持つ問題における強化学習は、長い地平線上の推論の必要性から困難である。 本稿では,関係の抽象化と深層学習を併用して,そのような問題に対する一般化可能なQ-関数を学習する手法を提案する。 学習されたq関数は、異なるオブジェクト名とオブジェクト量を持つ関連する問題、つまり全く異なる状態空間に効率的に転送することができる。 学習された一般化Q-関数は、明示的な手書きのカリキュラムを使わずに、関連する問題へのゼロショット転送に利用できることを示す。 本手法は,学習した知識を多数のオブジェクトを含むより大きな問題インスタンスへ効率的にゼロショット転送することを容易にする。

Reinforcement learning in problems with symbolic state spaces is challenging due to the need for reasoning over long horizons. This paper presents a new approach that utilizes relational abstractions in conjunction with deep learning to learn a generalizable Q-function for such problems. The learned Q-function can be efficiently transferred to related problems that have different object names and object quantities, and thus, entirely different state spaces. We show that the learned generalized Q-function can be utilized for zero-shot transfer to related problems without an explicit, hand-coded curriculum. Empirical evaluations on a range of problems show that our method facilitates efficient zero-shot transfer of learned knowledge to much larger problem instances containing many objects.
翻訳日:2022-04-28 13:10:53 公開日:2022-04-27
# GTNet: ツリーベースのディープラーニングアーキテクチャ

GTNet: A Tree-Based Deep Graph Learning Architecture ( http://arxiv.org/abs/2204.12802v1 )

ライセンス: Link先を確認
Nan Wu, Chaofan Wang(参考訳) 本稿では,グラフのツリー表現を起源とする新しい汎用メッセージパッシングスキームを備えた,ディープグラフ学習アーキテクチャであるgraph tree networks(gtnets)を提案する。 ツリー表現では、メッセージは葉ノードから根ノードへ上向きに伝播し、各ノードは子ノードから情報を受け取る前に初期情報を保存する(neighbors)。 木内のメッセージパッシングの性質に従って一般的な伝搬規則を定式化し、初期特徴と隣接ノードの更新特徴を集約してノードの特徴を更新する。 このGTNetアーキテクチャでは、グラフツリー注意ネットワーク(GTAN)とグラフツリー畳み込みネットワーク(GTCN)の2つのグラフ表現学習モデルが提案されている。 バニラグラフ注意ネットワーク(GAT)やグラフ畳み込みネットワーク(GCN)とは異なり、提案されたGTANとGTCNモデルは、包括的な実験や厳密な理論的分析によって実証されるように、深く進むことができる。

We propose Graph Tree Networks (GTNets), a deep graph learning architecture with a new general message passing scheme that originates from the tree representation of graphs. In the tree representation, messages propagate upward from the leaf nodes to the root node, and each node preserves its initial information prior to receiving information from its child nodes (neighbors). We formulate a general propagation rule following the nature of message passing in the tree to update a node's feature by aggregating its initial feature and its neighbor nodes' updated features. Two graph representation learning models are proposed within this GTNet architecture - Graph Tree Attention Network (GTAN) and Graph Tree Convolution Network (GTCN), with experimentally demonstrated state-of-the-art performance on several popular benchmark datasets. Unlike the vanilla Graph Attention Network (GAT) and Graph Convolution Network (GCN) which have the "over-smoothing" issue, the proposed GTAN and GTCN models can go deep as demonstrated by comprehensive experiments and rigorous theoretical analysis.
翻訳日:2022-04-28 13:10:41 公開日:2022-04-27
# 複合匿名遅延フィードバックを用いた境界メモリ逆バンディット

Bounded Memory Adversarial Bandits with Composite Anonymous Delayed Feedback ( http://arxiv.org/abs/2204.12764v1 )

ライセンス: Link先を確認
Zongqi Wan, Xiaoming Sun, Jialin Zhang(参考訳) 複合匿名遅延フィードバックによる逆バンディット問題について検討した。 この設定では、アクションの損失は$d$コンポーネントに分割され、アクションが選択された後に連続するラウンドに展開される。 そして各ラウンドにおいて、アルゴリズムは最新の$d$ラウンドからの損失の集計を観察する。 先行研究は、難易度の高い敵の設定に焦点をあて、難易度の高い非公開設定を調査する。 損失シーケンスがメモリ境界である場合でも、非公開設定が$\Omega(T)$疑似後悔を引き起こすことを示す。 しかし,損失シーケンスがメモリ境界であるという仮定で,多くの逆バンディット問題に対して,$o(T)$ポリシーを後悔するラッパーアルゴリズムを提案する。 特に、$k$-armed banditとbandit convexの最適化には、$\mathcal{o}(t^{2/3})$ policy regret boundがあります。 また、$K$-armed banditの一致した下限も証明する。 我々の下限は、損失シーケンスが不明確だが遅延は未公表である場合でも機能する。 これは \cite{wang2021adaptive} で提案された開問題に答え、非公約遅延が$\tilde{\Omega}(T^{2/3})$ regret を発生させるのに十分であることを示す。

We study the adversarial bandit problem with composite anonymous delayed feedback. In this setting, losses of an action are split into $d$ components, spreading over consecutive rounds after the action is chosen. And in each round, the algorithm observes the aggregation of losses that come from the latest $d$ rounds. Previous works focus on oblivious adversarial setting, while we investigate the harder non-oblivious setting. We show non-oblivious setting incurs $\Omega(T)$ pseudo regret even when the loss sequence is bounded memory. However, we propose a wrapper algorithm which enjoys $o(T)$ policy regret on many adversarial bandit problems with the assumption that the loss sequence is bounded memory. Especially, for $K$-armed bandit and bandit convex optimization, we have $\mathcal{O}(T^{2/3})$ policy regret bound. We also prove a matching lower bound for $K$-armed bandit. Our lower bound works even when the loss sequence is oblivious but the delay is non-oblivious. It answers the open problem proposed in \cite{wang2021adaptive}, showing that non-oblivious delay is enough to incur $\tilde{\Omega}(T^{2/3})$ regret.
翻訳日:2022-04-28 13:10:22 公開日:2022-04-27
# 教師付き機械学習アルゴリズムの性能と解釈可能性の比較--実証的研究

Performance and Interpretability Comparisons of Supervised Machine Learning Algorithms: An Empirical Study ( http://arxiv.org/abs/2204.12868v1 )

ライセンス: Link先を確認
Alice J. Liu, Linwei Hu, Jie Chen, Vijayan Nair(参考訳) 本稿では,構造化データおよび表データに対する予測能力とモデル解釈の観点から,教師あり機械学習アルゴリズム3つの性能を比較する。 アルゴリズムは、scikit-learnによるextreme gradient boosting machines(xgb)とrandom forests(rfs)と、tensorflowのfeedforward neural networks(ffnn)の実装である。 本論文は, モデル複雑性と予測器間の相関構造を広範囲に網羅するシミュレーション研究から, 実験結果に支えられた総合的な結論を各セクションで提示する。 サンプルサイズの異なる連続応答と二分応答の両方を検討した。 全体的に、xgbとffnnは競争力があり、ffnnは滑らかなモデルでパフォーマンスが向上し、木ベースのブースティングアルゴリズムはスムースでないモデルでパフォーマンスが向上した。 この結論は、予測性能、重要な変数の同定、部分依存プロット(pdp)によって測定された正しい入出力関係の決定に一般的に当てはまる。 FFNNは一般的に、トレーニングとテストデータセットのパフォーマンスの違いによって測定されるように、過度に適合しない。 しかし、xgbとの差はしばしば小さくなかった。 RFは一般には良好に機能せず,文献で確認された。 いずれのモデルもPDPで見られるバイアスの程度は異なるが、RFでは特に問題があった。 バイアスの程度は, 予測値, 応答型, データセットのサンプルサイズと相関して変化した。 概して、木に基づくモデルは、予測子分布の尾部で適合したモデルを過度に正規化する傾向があった。 最後に、予想通り、バイナリデータやより大きなサンプルと比較して、継続的なレスポンスでパフォーマンスが向上した。

This paper compares the performances of three supervised machine learning algorithms in terms of predictive ability and model interpretation on structured or tabular data. The algorithms considered were scikit-learn implementations of extreme gradient boosting machines (XGB) and random forests (RFs), and feedforward neural networks (FFNNs) from TensorFlow. The paper is organized in a findings-based manner, with each section providing general conclusions supported by empirical results from simulation studies that cover a wide range of model complexity and correlation structures among predictors. We considered both continuous and binary responses of different sample sizes. Overall, XGB and FFNNs were competitive, with FFNNs showing better performance in smooth models and tree-based boosting algorithms performing better in non-smooth models. This conclusion held generally for predictive performance, identification of important variables, and determining correct input-output relationships as measured by partial dependence plots (PDPs). FFNNs generally had less over-fitting, as measured by the difference in performance between training and testing datasets. However, the difference with XGB was often small. RFs did not perform well in general, confirming the findings in the literature. All models exhibited different degrees of bias seen in PDPs, but the bias was especially problematic for RFs. The extent of the biases varied with correlation among predictors, response type, and data set sample size. In general, tree-based models tended to over-regularize the fitted model in the tails of predictor distributions. Finally, as to be expected, performances were better for continuous responses compared to binary data and with larger samples.
翻訳日:2022-04-28 13:09:59 公開日:2022-04-27
# 単一画像からの頭部ポーズ推定のためのollivier-ricci曲率

Ollivier-Ricci Curvature For Head Pose Estimation From a Single Image ( http://arxiv.org/abs/2204.13006v1 )

ライセンス: Link先を確認
Lucia Cascone and Riccardo Distasi and Michele Nappi(参考訳) ヘッドポーズ推定は、注意や人間の行動分析など、多くの現実世界のアプリケーションにとって重要な課題である。 本稿では,ネットワーク曲率の概念を適用し,単一の画像から頭部ポーズを推定することを目的とする。 実世界では、多くの複雑なネットワークは互いによく結びついているノード群を持ち、重要な機能的役割を持つ。 同様に、顔のランドマークの相互作用は重み付きグラフでモデル化された複雑な力学系として表現できる。 したがって、これらのシステムの機能性は、基礎となるグラフのトポロジーと幾何と本質的に結びついている。 本稿では,xgboost回帰モデルへの入力として重み付きグラフ上のolivier-ricci曲率(orc)の幾何学的概念を用いて,orcの固有幾何学的基礎がポーズのプール内の基底となる共通構造の発見に自然なアプローチを与えることを示す。 BIWI、AFLW2000、Pointing'04データセットの実験では、ORC_XGB法はランドマークベースとイメージオンリーの両方の最先端の手法と比較してよく機能している。

Head pose estimation is a crucial challenge for many real-world applications, such as attention and human behavior analysis. This paper aims to estimate head pose from a single image by applying notions of network curvature. In the real world, many complex networks have groups of nodes that are well connected to each other with significant functional roles. Similarly, the interactions of facial landmarks can be represented as complex dynamic systems modeled by weighted graphs. The functionalities of such systems are therefore intrinsically linked to the topology and geometry of the underlying graph. In this work, using the geometric notion of Ollivier-Ricci curvature (ORC) on weighted graphs as input to the XGBoost regression model, we show that the intrinsic geometric basis of ORC offers a natural approach to discovering underlying common structure within a pool of poses. Experiments on the BIWI, AFLW2000 and Pointing'04 datasets show that the ORC_XGB method performs well compared to state-of-the-art methods, both landmark-based and image-only.
翻訳日:2022-04-28 13:09:23 公開日:2022-04-27
# 非均一ウェイトスケーリングによるドロップアウト推論

Dropout Inference with Non-Uniform Weight Scaling ( http://arxiv.org/abs/2204.13047v1 )

ライセンス: Link先を確認
Zhaoyuan Yang and Arpit Jain(参考訳) 正規化としてのドロップアウトは、ニューラルネットワークのトレーニングの過剰フィットを防ぐために広く使われている。 トレーニング中、ユニットとその接続はランダムにドロップされ、元のモデルから多くの異なるサブモデルをサンプリングすると見なされる。 テスト時、重量スケーリングとモンテカルロ近似は出力を近似する2つの広く応用されたアプローチである。 どちらのアプローチも、すべてのサブモデルが低バイアスの複雑な学習者である場合にうまく機能する。 しかし、本研究では、いくつかのサブモデルが高バイアスモデルに近づき、一様でないウェイトスケーリングが推論のより優れた近似となるシナリオを実証する。

Dropout as regularization has been used extensively to prevent overfitting for training neural networks. During training, units and their connections are randomly dropped, which could be considered as sampling many different submodels from the original model. At test time, weight scaling and Monte Carlo approximation are two widely applied approaches to approximate the outputs. Both approaches work well practically when all submodels are low-bias complex learners. However, in this work, we demonstrate scenarios where some submodels behave closer to high-bias models and a non-uniform weight scaling is a better approximation for inference.
翻訳日:2022-04-28 13:07:38 公開日:2022-04-27
# メタウェイトレギュレータによる適応型テキストマッチング

Adaptable Text Matching via Meta-Weight Regulator ( http://arxiv.org/abs/2204.12668v1 )

ライセンス: Link先を確認
Bo Zhang, Chen Zhang, Fang Ma, Dawei Song(参考訳) ニューラルテキストマッチングモデルは、質問応答や自然言語推論などの様々なアプリケーションで使われており、優れた性能を示している。 しかし、これらのニューラルモデルは適応性が限られており、異なるデータセットや異なるタスクからテスト例に遭遇した場合のパフォーマンスが低下する。 多くの場合、ターゲットのデータセットやタスクで利用可能なラベル付きデータ量は限られていますが、リッチなラベル付きソースデータセットやタスクへのアクセスは可能です。 しかし、豊富なソースデータに基づいてトレーニングされたモデルを数ショットのターゲットデータセットやタスクに適用することは困難である。 この課題に取り組むために,メタ重み付けレギュレータ(mwr)を提案する。これは,対象の損失と関連性に基づいて,ソースサンプルに重み付けを割り当てることを学ぶメタ学習手法である。 具体的には、mwrはまず、一様重み付けされたソース例でモデルを訓練し、損失関数を介して対象例におけるモデルの有効性を測定する。 反復的に(メタ)勾配降下を行うことで、高次勾配が元の例に伝播する。 これらの勾配は、対象の性能に関連する方法で、ソース例の重み付けを更新するために使用される。 mwrはモデルに依存しないため、任意のバックボーン神経モデルに適用することができる。 様々なバックボーンテキストマッチングモデルを用いて、広く使われている4つのデータセットと2つのタスクを用いて大規模な実験を行う。 その結果,提案手法は既存の多くの適応手法を著しく上回り,数ショット設定でのニューラルテキストマッチングモデルのクロスデータセットおよびクロスタスク適応性を効果的に向上することを示した。

Neural text matching models have been used in a range of applications such as question answering and natural language inference, and have yielded a good performance. However, these neural models are of a limited adaptability, resulting in a decline in performance when encountering test examples from a different dataset or even a different task. The adaptability is particularly important in the few-shot setting: in many cases, there is only a limited amount of labeled data available for a target dataset or task, while we may have access to a richly labeled source dataset or task. However, adapting a model trained on the abundant source data to a few-shot target dataset or task is challenging. To tackle this challenge, we propose a Meta-Weight Regulator (MWR), which is a meta-learning approach that learns to assign weights to the source examples based on their relevance to the target loss. Specifically, MWR first trains the model on the uniformly weighted source examples, and measures the efficacy of the model on the target examples via a loss function. By iteratively performing a (meta) gradient descent, high-order gradients are propagated to the source examples. These gradients are then used to update the weights of source examples, in a way that is relevant to the target performance. As MWR is model-agnostic, it can be applied to any backbone neural model. Extensive experiments are conducted with various backbone text matching models, on four widely used datasets and two tasks. The results demonstrate that our proposed approach significantly outperforms a number of existing adaptation methods and effectively improves the cross-dataset and cross-task adaptability of the neural text matching models in the few-shot setting.
翻訳日:2022-04-28 13:07:29 公開日:2022-04-27
# コンタクトリッチマニピュレーションの高速化ロボット学習 : カリキュラム学習研究

Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum Learning Study ( http://arxiv.org/abs/2204.12844v1 )

ライセンス: Link先を確認
Cristian C. Beltran-Hernandez, Damien Petit, Ixchel G. Ramirez-Alpizar, Kensuke Harada(参考訳) 強化学習(RL)パラダイムは、ロボットタスクの自動化に不可欠なツールである。 RLの進歩にもかかわらず、高価な大量のロボットが環境と対話する必要があるため、業界ではまだ広く採用されていない。 カリキュラム学習(cl)は、学習を促進するために提案されている。 しかし、ほとんどの研究は、ビデオゲームからロボット玩具タスクまで、シミュレーション環境でのみ評価されている。 本稿では,Domain Randomization(DR)と組み合わせたカリキュラム学習に基づく,コンタクトリッチな操作タスクのロボット学習の高速化に関する研究を行う。 挿入タスクのような位置制御ロボットを用いて複雑な産業組み立てタスクに取り組む。 そこで本研究では,本研究では,前回の研究に比較して,トレーニング時間(例)の5分の1未満で,drのみを使用する(clは使用しない)手法を著しく上回る手法を提案する。 また,玩具作業によるシミュレーションでのみトレーニングを行う場合においても,実世界ロボットに移行可能な方針を学習できることを示した。 学習した政策は、実世界の複雑な産業用挿入作業で最大86\%の成功率を達成し、訓練中には見られなかった(許容値$\pm 0.01~mm$)。

The Reinforcement Learning (RL) paradigm has been an essential tool for automating robotic tasks. Despite the advances in RL, it is still not widely adopted in the industry due to the need for an expensive large amount of robot interaction with its environment. Curriculum Learning (CL) has been proposed to expedite learning. However, most research works have been only evaluated in simulated environments, from video games to robotic toy tasks. This paper presents a study for accelerating robot learning of contact-rich manipulation tasks based on Curriculum Learning combined with Domain Randomization (DR). We tackle complex industrial assembly tasks with position-controlled robots, such as insertion tasks. We compare different curricula designs and sampling approaches for DR. Based on this study, we propose a method that significantly outperforms previous work, which uses DR only (No CL is used), with less than a fifth of the training time (samples). Results also show that even when training only in simulation with toy tasks, our method can learn policies that can be transferred to the real-world robot. The learned policies achieved success rates of up to 86\% on real-world complex industrial insertion tasks (with tolerances of $\pm 0.01~mm$) not seen during the training.
翻訳日:2022-04-28 13:06:46 公開日:2022-04-27
# 逆多重クラス分類のマルチマルジナル最適輸送定式化

The Multimarginal Optimal Transport Formulation of Adversarial Multiclass Classification ( http://arxiv.org/abs/2204.12676v1 )

ライセンス: Link先を確認
Nicolas Garcia Trillos, Matt Jacobs, Jakwang Kim(参考訳) 我々は,敵対的多クラス分類問題の一家系について研究し,以下の点において等価な改定を行う。 1)本論文で導入された一般化されたバリーセンター問題の家系及び 2) 境界数の数が元の分類問題におけるクラス数に等しいようなマルチマルジナル最適輸送問題の族。 これらの新しい理論的な結果は、多クラス分類における逆学習問題のリッチな幾何学的構造を示し、最近の結果は二分分類に制限されている。 この結果の直接的な計算的意味は、バリセンタ問題とその双対、あるいはMOT問題とその双対を解くことにより、元の逆問題に対する最適ロバストな分類規則と最適逆戦略を回復できるということである。 合成および実データによる例は、我々の結果を示している。

We study a family of adversarial multiclass classification problems and provide equivalent reformulations in terms of: 1) a family of generalized barycenter problems introduced in the paper and 2) a family of multimarginal optimal transport problems where the number of marginals is equal to the number of classes in the original classification problem. These new theoretical results reveal a rich geometric structure of adversarial learning problems in multiclass classification and extend recent results restricted to the binary classification setting. A direct computational implication of our results is that by solving either the barycenter problem and its dual, or the MOT problem and its dual, we can recover the optimal robust classification rule and the optimal adversarial strategy for the original adversarial problem. Examples with synthetic and real data illustrate our results.
翻訳日:2022-04-28 13:04:39 公開日:2022-04-27
# SCGC : 自己監督型コントラストグラフクラスタリング

SCGC : Self-Supervised Contrastive Graph Clustering ( http://arxiv.org/abs/2204.12656v1 )

ライセンス: Link先を確認
Gayan K. Kulatilleke, Marius Portmann, Shekhar S. Chandra(参考訳) グラフクラスタリングはネットワーク内のグループやコミュニティを検出する。 オートエンコーダ(AE)のようなディープラーニング手法は効果的なクラスタリングや下流表現を抽出するが、豊富な構造情報を組み込むことはできない。 グラフニューラルネットワーク(GNN)はグラフ構造を符号化することに成功したが、畳み込みやアテンションの変種に基づく典型的なGNNは、過度なスムース化に悩まされ、ノイズ、ヘテロフィリーなどの計算コストがかかり、一般的には完全なグラフが存在する必要がある。 その代わりに、識別ノード表現と反復的に洗練されたソフトクラスタラベルを学習するために、対比損失信号を介してグラフ構造を強制するセルフスーパービジョン・コントラストグラフクラスタリング(SCGC)を提案する。 また,より効率的な,より新しいインフルエンサー・コントラスト(iac)損失により,よりリッチな構造情報を融合し,元のモデルパラメータの半分を和らげるscgc*を提案する。 SCGC(*)は単純な線形単位で高速であり、従来のGNNの畳み込みや注意を完全に排除するが、効率的に構造を組み込む。 層状深度は不必要であり、過密、不正確な縁、不均一である。 バッチ処理、多くの従来のGNNモデルでの制限、簡単に並列化可能である。 画像やセンサデータ,テキスト,引用ネットワークなど,幅広いベンチマークグラフデータセットにおいて,最先端よりも大幅に改善した。 具体的には、ariの20%、dblpのnmiの18%、トレーニング時間の55%、全体的な推論時間の81%削減である。 私たちのコードは、https://github.com/gayanku/SCGCで利用可能です。

Graph clustering discovers groups or communities within networks. Deep learning methods such as autoencoders (AE) extract effective clustering and downstream representations but cannot incorporate rich structural information. While Graph Neural Networks (GNN) have shown great success in encoding graph structure, typical GNNs based on convolution or attention variants suffer from over-smoothing, noise, heterophily, are computationally expensive and typically require the complete graph being present. Instead, we propose Self-Supervised Contrastive Graph Clustering (SCGC), which imposes graph-structure via contrastive loss signals to learn discriminative node representations and iteratively refined soft cluster labels. We also propose SCGC*, with a more effective, novel, Influence Augmented Contrastive (IAC) loss to fuse richer structural information, and half the original model parameters. SCGC(*) is faster with simple linear units, completely eliminate convolutions and attention of traditional GNNs, yet efficiently incorporates structure. It is impervious to layer depth and robust to over-smoothing, incorrect edges and heterophily. It is scalable by batching, a limitation in many prior GNN models, and trivially parallelizable. We obtain significant improvements over state-of-the-art on a wide range of benchmark graph datasets, including images, sensor data, text, and citation networks efficiently. Specifically, 20% on ARI and 18% on NMI for DBLP; overall 55% reduction in training time and overall, 81% reduction on inference time. Our code is available at : https://github.com/gayanku/SCGC
翻訳日:2022-04-28 13:03:40 公開日:2022-04-27
# 水産画像に注釈をつけるための反復ラベル付け手法

An Iterative Labeling Method for Annotating Fisheries Imagery ( http://arxiv.org/abs/2204.12934v1 )

ライセンス: Link先を確認
Zhiyong Zhang, Pushyami Kaveti, Hanumant Singh, Abigail Powell, Erica Fruh, M. Elizabeth Clarke(参考訳) 本稿では,クラウドソーシングインタフェースを活用可能な複数のトレーニングおよび生産ループでデータセットを反復することで,ラベル付き画像データセットに収束可能な漁業関連データの方法論を提案する。 本研究では,Seabed 自律水中車両を用いて収集した2つの画像データに対して,アルゴリズムとその結果を示す。 第1のデータセットは2,026枚のラベルのない画像からなり、第2のデータセットは21,968枚の画像からなる。 我々の結果は、小さなサブセットでトレーニングを行い、それを反復してラベル付きデータのより大きなセットを構築することで、少数のイテレーションで完全に注釈付きデータセットに収束できることを示している。 専門家によってラベル付けされたデータセットの場合でさえ、この方法論の1回のイテレーションで、オーバーラップ、非常に小さい、あるいは水中画像に関連するコントラスト制限によって隠された魚に関連するラベルの複雑な例を見つけることにより、ラベルを改善する。

In this paper, we present a methodology for fisheries-related data that allows us to converge on a labeled image dataset by iterating over the dataset with multiple training and production loops that can exploit crowdsourcing interfaces. We present our algorithm and its results on two separate sets of image data collected using the Seabed autonomous underwater vehicle. The first dataset comprises of 2,026 completely unlabeled images, while the second consists of 21,968 images that were point annotated by experts. Our results indicate that training with a small subset and iterating on that to build a larger set of labeled data allows us to converge to a fully annotated dataset with a small number of iterations. Even in the case of a dataset labeled by experts, a single iteration of the methodology improves the labels by discovering additional complicated examples of labels associated with fish that overlap, are very small, or obscured by the contrast limitations associated with underwater imagery.
翻訳日:2022-04-28 13:03:09 公開日:2022-04-27
# スケーラブル粒子によるEMの代替

Scalable particle-based alternatives to EM ( http://arxiv.org/abs/2204.12965v1 )

ライセンス: Link先を確認
Juan Kuntz, Adam M. Johansen(参考訳) 無限次元空間上の自由エネルギー汎関数の最適化としてemが取り組んだ問題(neal and hinton, 1998)に基づいて、em の幅広いクラスに適用可能な3つの実用的な粒子ベースの代替案を得る。 これら3つは、関数に付随する勾配流の直接的離散化によって導出される。 新たなアルゴリズムは高次元設定によく対応し、数値実験において既存の最先端手法より優れている。

Building on (Neal and Hinton, 1998), where the problem tackled by EM is recast as the optimization of a free energy functional on an infinite-dimensional space, we obtain three practical particle-based alternatives to EM applicable to broad classes of models. All three are derived through straightforward discretizations of gradient flows associated with the functional. The novel algorithms scale well to high-dimensional settings and outperform existing state-of-the-art methods in numerical experiments.
翻訳日:2022-04-28 13:02:33 公開日:2022-04-27
# ランダム化のない高速オンラインキャリブレーション:間隔予測と2つの選択のパワー

Faster online calibration without randomization: interval forecasts and the power of two choices ( http://arxiv.org/abs/2204.13087v1 )

ライセンス: Link先を確認
Chirag Gupta, Aaditya Ramdas(参考訳) 本研究では,敵性によって生成された二分列の確率的予測を校正する問題について検討する。 フォスターとヴォーラの独創的な論文(1998年)に続いて、自然は、予測者が展開できるランダム化を除いて、予測者のすべての活動を見る適応的な敵としてしばしばモデル化される。 いくつかの論文では、$\epsilon$-calibrationエラーレートが$O(1/\sqrt{T})$に達するようなランダム化予測戦略を提案しており、これは一般には厳密である。 一方で、ランダム化なしでは校正が不可能であることや、自然が予測者のランダム化を見る場合、どちらの場合でも校正誤差は$\omega(1)$である可能性があることが知られている。 2つの選択の力」と不正確な確率理論の等しく独創的な研究に触発され、標準オンラインキャリブレーション問題の小さな変種を研究した。 敵は、近くの確率予測を2つ、またはそれと同程度の小さな幅の間隔予測するオプションを与え、明らかな結果に最も近いエンドポイントを用いて校正を判定する。 この2つの選択のパワー、または不正確な予測は、予測器にかなりの力で一致し、より速い$\epsilon$-calibration rate of $O(1/T)$は、ランダム化をデプロイしなくても達成できることを示す。

We study the problem of making calibrated probabilistic forecasts for a binary sequence generated by an adversarial nature. Following the seminal paper of Foster and Vohra (1998), nature is often modeled as an adaptive adversary who sees all activity of the forecaster except the randomization that the forecaster may deploy. A number of papers have proposed randomized forecasting strategies that achieve an $\epsilon$-calibration error rate of $O(1/\sqrt{T})$, which we prove is tight in general. On the other hand, it is well known that it is not possible to be calibrated without randomization, or if nature also sees the forecaster's randomization; in both cases the calibration error could be $\Omega(1)$. Inspired by the equally seminal works on the "power of two choices" and imprecise probability theory, we study a small variant of the standard online calibration problem. The adversary gives the forecaster the option of making two nearby probabilistic forecasts, or equivalently an interval forecast of small width, and the endpoint closest to the revealed outcome is used to judge calibration. This power of two choices, or imprecise forecast, accords the forecaster with significant power -- we show that a faster $\epsilon$-calibration rate of $O(1/T)$ can be achieved even without deploying any randomization.
翻訳日:2022-04-28 13:01:29 公開日:2022-04-27
# データ駆動適応同時機械翻訳

Data-Driven Adaptive Simultaneous Machine Translation ( http://arxiv.org/abs/2204.12672v1 )

ライセンス: Link先を確認
Guangxu Xun, Mingbo Ma, Yuchen Bian, Xingyu Cai, Jiaji Huang, Renjie Zheng, Junkun Chen, Jiahong Yuan, Kenneth Church, Liang Huang(参考訳) 同時翻訳(simulmt)では、翻訳品質とレイテンシのバランスをとるためのシンプルさと有効性のおかげで、最も広く使われている戦略がwait-kポリシーである。 しかし、wait-kには2つの大きな制限がある。 (a)状況に応じて遅延を適応的に調整できない固定ポリシーであり、 (b)フルセンテンス翻訳よりもはるかに遅い。 これらの問題を緩和するために,適応プレフィックスとプレフィックスのペアでトレーニングコーパスを増強することにより,適応型SimulMTの新規かつ効率的なトレーニング手法を提案する。 2つの言語対の実験により、我々の手法は翻訳品質とレイテンシの点で、全ての強力なベースラインを上回ります。

In simultaneous translation (SimulMT), the most widely used strategy is the wait-k policy thanks to its simplicity and effectiveness in balancing translation quality and latency. However, wait-k suffers from two major limitations: (a) it is a fixed policy that can not adaptively adjust latency given context, and (b) its training is much slower than full-sentence translation. To alleviate these issues, we propose a novel and efficient training scheme for adaptive SimulMT by augmenting the training corpus with adaptive prefix-to-prefix pairs, while the training complexity remains the same as that of training full-sentence translation models. Experiments on two language pairs show that our method outperforms all strong baselines in terms of translation quality and latency.
翻訳日:2022-04-28 13:00:40 公開日:2022-04-27
# 文重要度推定とフォーカスによる文書レベル関係抽出

Document-Level Relation Extraction with Sentences Importance Estimation and Focusing ( http://arxiv.org/abs/2204.12679v1 )

ライセンス: Link先を確認
Wang Xu, Kehai Chen, Lili Mou, Tiejun Zhao(参考訳) 文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。 最近の研究は典型的に、すべての実体対の関係を予測するために、シーケンスまたはグラフベースのモデルで文書全体を表現している。 しかし、そのようなモデルは頑健ではなく、奇異な振る舞いを示しており、テスト文書全体が入力として入力されたときに正しく予測されるが、非証拠文が削除された時にエラーが発生する。 そこで,我々は文重要度スコアと文重み付け損失をデザインし,文重み付けモデルに証拠文に焦点を当てるよう促す,docreのための文重要度推定・集中(sief)フレームワークを提案する。 2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。 さらに、SIEFは一般的なフレームワークであり、様々な基本DocREモデルと組み合わせると有効であることが示されている。

Document-level relation extraction (DocRE) aims to determine the relation between two entities from a document of multiple sentences. Recent studies typically represent the entire document by sequence- or graph-based models to predict the relations of all entity pairs. However, we find that such a model is not robust and exhibits bizarre behaviors: it predicts correctly when an entire test document is fed as input, but errs when non-evidence sentences are removed. To this end, we propose a Sentence Importance Estimation and Focusing (SIEF) framework for DocRE, where we design a sentence importance score and a sentence focusing loss, encouraging DocRE models to focus on evidence sentences. Experimental results on two domains show that our SIEF not only improves overall performance, but also makes DocRE models more robust. Moreover, SIEF is a general framework, shown to be effective when combined with a variety of base DocRE models.
翻訳日:2022-04-28 13:00:28 公開日:2022-04-27
# G^2$: グラウンドグラフによる知識接地対話の強化

$G^2$: Enhance Knowledge Grounded Dialogue via Ground Graph ( http://arxiv.org/abs/2204.12681v1 )

ライセンス: Link先を確認
Yizhe Yang, Yang Gao, Jiawei Li and Heyan Huang(参考訳) 知識接地対話システムは、与えられた知識文書から情報を伝える応答を生成するように設計されている。 しかし、現在のseq2seqモデルでは、複雑な文書から知識を取得し、明示的な意味構造を必要とせずに正しい応答を行うためにそれを統合することは困難である。 これらの課題に対処するために、対話コンテキストと知識文書の両方の意味構造をモデル化し、タスクの知識選択と統合を容易にする新しいグラフ構造(G^2$)を提案する。 また、知識基盤応答生成を向上させるため、グラウンドグラフ認識変換器(G^2AT$)を提案する。 実験結果から,提案手法は従来手法よりも10\%以上,20\%以上の精度で応答生成や事実整合性に優れていた。 さらに,我々の構造認識アプローチは資源制限状況において優れた一般化能力を示す。

Knowledge grounded dialogue system is designed to generate responses that convey information from given knowledge documents. However, it's a challenge for the current Seq2Seq model to acquire knowledge from complex documents and integrate it to perform correct responses without the aid of an explicit semantic structure. To address these issues, we present a novel graph structure, Ground Graph ($G^2$), which models the semantic structure of both dialogue contexts and knowledge documents to facilitate knowledge selection and integration for the task. Besides, a Ground Graph Aware Transformer ($G^2AT$) is proposed to enhance knowledge grounded response generation. Empirical results show that our proposed model outperforms previous state-of-the-art methods with more than 10\% and 20\% gains on response generation and factual consistency. Furthermore, our structure-aware approach shows excellent generalization ability in resource-limited situations.
翻訳日:2022-04-28 13:00:12 公開日:2022-04-27
# データセットのバランスの限界について:スプリアス相関に対する失われた戦い

On the Limitations of Dataset Balancing: The Lost Battle Against Spurious Correlations ( http://arxiv.org/abs/2204.12708v1 )

ライセンス: Link先を確認
Roy Schwartz and Gabriel Stanovsky(参考訳) 最近の研究によると、NLPのディープラーニングモデルは、単純な特徴と特定の出力ラベルの間の低レベルの相関に非常に敏感であり、過剰適合と一般化の欠如をもたらす。 この問題を軽減するために、データセットのバランスを取るために、新しいインスタンスを追加したり、"easy"インスタンスをフィルタリングすることで(Sakaguchiら、2020年)、シングルワード相関を完全に排除する最近の提案(Gardnerら、2021年)が一般的である。 この意見書では、これらの努力にもかかわらず、ますます強力なモデルが、より小さなスプリットな相関を利用しており、その結果、すべての単一単語の特徴のバランスさえも、これらの相関を緩和するには不十分である。 並行して、真にバランスの取れたデータセットは「赤ちゃんを風呂に投げ出す」ことに縛られ、常識と世界の知識をエンコードする重要なシグナルを見逃す。 データセットのバランシングの代替として,よりリッチなコンテキストによるデータセットの拡張,モデルによるユーザへの回避とインタラクション,大規模な微調整からゼロショットあるいは少数ショットのセットアップへの転換などを挙げる。

Recent work has shown that deep learning models in NLP are highly sensitive to low-level correlations between simple features and specific output labels, leading to overfitting and lack of generalization. To mitigate this problem, a common practice is to balance datasets by adding new instances or by filtering out "easy" instances (Sakaguchi et al., 2020), culminating in a recent proposal to eliminate single-word correlations altogether (Gardner et al., 2021). In this opinion paper, we identify that despite these efforts, increasingly-powerful models keep exploiting ever-smaller spurious correlations, and as a result even balancing all single-word features is insufficient for mitigating all of these correlations. In parallel, a truly balanced dataset may be bound to "throw the baby out with the bathwater" and miss important signal encoding common sense and world knowledge. We highlight several alternatives to dataset balancing, focusing on enhancing datasets with richer contexts, allowing models to abstain and interact with users, and turning from large-scale fine-tuning to zero- or few-shot setups.
翻訳日:2022-04-28 12:59:56 公開日:2022-04-27
# (参考訳) first do no harm: 安全で倫理的なaiのための反事実的客観的機能

First do no harm: counterfactual objective functions for safe & ethical AI ( http://arxiv.org/abs/2204.12993v1 )

ライセンス: CC BY 4.0
Jonathan G. Richens, Rory Beard, Daniel H. Thompson(参考訳) 現実世界で安全かつ倫理的に行動するためには、エージェントは害について推論し、有害な行為を避ける必要がある。 本稿では,害の統計的定義と,害をアルゴリズム的決定に分解する枠組みについて述べる。 我々は、害は基本的に反事実量であり、標準的な機械学習アルゴリズムが特定の環境で有害なポリシーを追求することが保証されていることを示す。 これを解決するために, 危険を確実に軽減する対物目的関数のファミリーを導出する。 最適な薬物投与量を特定するための統計モデルを用いて,我々のアプローチを実証する。 因果治療効果を用いた最適線量同定は有害な治療決定をもたらすが,本アルゴリズムは効果を犠牲にすることなく,極めて有害な線量を特定する。 以上の結果から,反実的推論が安全かつ倫理的AIの重要な要素であることが示唆された。

To act safely and ethically in the real world, agents must be able to reason about harm and avoid harmful actions. In this paper we develop the first statistical definition of harm and a framework for factoring harm into algorithmic decisions. We argue that harm is fundamentally a counterfactual quantity, and show that standard machine learning algorithms are guaranteed to pursue harmful policies in certain environments. To resolve this, we derive a family of counterfactual objective functions that robustly mitigate for harm. We demonstrate our approach with a statistical model for identifying optimal drug doses. While identifying optimal doses using the causal treatment effect results in harmful treatment decisions, our counterfactual algorithm identifies doses that are far less harmful without sacrificing efficacy. Our results show that counterfactual reasoning is a key ingredient for safe and ethical AI.
翻訳日:2022-04-28 12:58:31 公開日:2022-04-27
# (参考訳) 自己学習による単眼3次元物体検出のための教師なし領域適応

Unsupervised Domain Adaptation for Monocular 3D Object Detection via Self-Training ( http://arxiv.org/abs/2204.11590v2 )

ライセンス: CC BY 4.0
Zhenyu Li, Zehui Chen, Ang Li, Liangji Fang, Qinhong Jiang, Xianming Liu, Junjun Jiang(参考訳) モノクロ3Dオブジェクト検出(Monocular 3D)は、ディープラーニング技術と大規模自動運転データセットの出現によって、前例のない成功を収めた。 しかしながら、ターゲットドメインにラベルがないため、パフォーマンスの大幅な低下は、実践的なクロスドメインデプロイメントの未熟な課題である。 本稿では、まず、ドメインの幾何的不一致に起因する深さシフト問題であるmono3dにおけるドメイン間隙の重要要因を包括的に検討する。 次に,mono3d 上の教師なしドメイン適応のための新しい自己学習フレームワーク stmono3d を提案する。 深度シフトを緩和するために,カメラパラメータの絡み合いを解消し,領域の幾何一貫性を保証する幾何アライメントアライメント多スケールトレーニング戦略を導入する。 そこで本研究では,対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発した。 擬似ラベルのリッチな情報を提供するエンド・ツー・エンドのフレームワークの恩恵を受け、インスタンスレベルの疑似自信を考慮して、ターゲットドメインのトレーニングプロセスの有効性を向上させるための品質対応の監督戦略を提案する。 さらに、FNおよびFP擬似サンプルを扱うために、ポジティブフォーカストレーニング戦略とダイナミックしきい値を提案する。 STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。 われわれの知る限りでは、これはMono3Dの効果的なUDA手法を探求する最初の研究である。

Monocular 3D object detection (Mono3D) has achieved unprecedented success with the advent of deep learning techniques and emerging large-scale autonomous driving datasets. However, drastic performance degradation remains an unwell-studied challenge for practical cross-domain deployment as the lack of labels on the target domain. In this paper, we first comprehensively investigate the significant underlying factor of the domain gap in Mono3D, where the critical observation is a depth-shift issue caused by the geometric misalignment of domains. Then, we propose STMono3D, a new self-teaching framework for unsupervised domain adaptation on Mono3D. To mitigate the depth-shift, we introduce the geometry-aligned multi-scale training strategy to disentangle the camera parameters and guarantee the geometry consistency of domains. Based on this, we develop a teacher-student paradigm to generate adaptive pseudo labels on the target domain. Benefiting from the end-to-end framework that provides richer information of the pseudo labels, we propose the quality-aware supervision strategy to take instance-level pseudo confidences into account and improve the effectiveness of the target-domain training process. Moreover, the positive focusing training strategy and dynamic threshold are proposed to handle tremendous FN and FP pseudo samples. STMono3D achieves remarkable performance on all evaluated datasets and even surpasses fully supervised results on the KITTI 3D object detection dataset. To the best of our knowledge, this is the first study to explore effective UDA methods for Mono3D.
翻訳日:2022-04-28 12:17:32 公開日:2022-04-27
# 条件付き生成モデルを用いた伝達学習

Transfer Learning with Pre-trained Conditional Generative Models ( http://arxiv.org/abs/2204.12833v1 )

ライセンス: Link先を確認
Shin'ya Yamaguchi, Sekitoshi Kanai, Atsutoshi Kumagai, Daiki Chijiwa, Hisashi Kashima(参考訳) トランスファー学習は、新しいターゲットタスクでディープニューラルネットワークをトレーニングする上で重要である。 電流伝達学習法は一般に少なくとも一方を仮定する (i)ソースとターゲットタスクラベル空間は重複しなければならない。 (ii) ソースデータセットが利用可能で、 (iii)ターゲットネットワークアーキテクチャはソースアーキテクチャと整合性がある。 しかしながら、これらすべての仮定は、ターゲットタスクがソースタスクと同じラベルを持つことは滅多になく、ソースデータセットへのアクセスはライセンスとストレージコストによって制限され、ターゲットアーキテクチャは各タスクに特化されることがしばしばあるため、現実的な設定では保持が難しい。 これらの仮定を使わずにソース知識を伝達するために,擬似事前学習(PP)と擬似半教師学習(P-SSL)の2段階からなる深層生成モデルを用いた伝達学習手法を提案する。 PPは、条件付きソース生成モデルを用いて、合成データセットでターゲットアーキテクチャを訓練する。 P-SSLはSSLアルゴリズムをラベル付きターゲットデータとラベルなしの擬似サンプルに適用する。 実験の結果,本手法はスクラッチトレーニングと知識蒸留のベースラインを上回ることができることがわかった。

Transfer learning is crucial in training deep neural networks on new target tasks. Current transfer learning methods generally assume at least one of (i) source and target task label spaces must overlap, (ii) source datasets are available, and (iii) target network architectures are consistent with source ones. However, these all assumptions are difficult to hold in practical settings because the target task rarely has the same labels as the source task, the source dataset access is restricted due to licensing and storage costs, and the target architecture is often specialized to each task. To transfer source knowledge without these assumptions, we propose a transfer learning method that uses deep generative models and is composed of the following two stages: pseudo pre-training (PP) and pseudo semi-supervised learning (P-SSL). PP trains a target architecture with a synthesized dataset by using conditional source generative models. P-SSL applies SSL algorithms to labeled target data and unlabeled pseudo samples, which are generated by cascading the source classifier and generative models to condition them with target samples. Our experimental results indicate that our method can outperform baselines of scratch training and knowledge distillation.
翻訳日:2022-04-28 12:16:38 公開日:2022-04-27
# MAPLE-Edge: エッジデバイス用のランタイムレイテンシ予測器

MAPLE-Edge: A Runtime Latency Predictor for Edge Devices ( http://arxiv.org/abs/2204.12950v1 )

ライセンス: Link先を確認
Saeejith Nair, Saad Abbasi, Alexander Wong, Mohammad Javad Shafiee(参考訳) neural architecture search (nas)は、より効率的なニューラルネットワークアーキテクチャ、特にモバイルおよび組み込み視覚アプリケーションの自動発見を可能にした。 最近の研究では、わずか数サンプルで未確認のハードウェアデバイス上でのレイテンシを迅速に推定する方法が提案されているが、TensorRTやエッジデバイスなど、最適化されたグラフを使用してランタイム上でのレイテンシを推定するという課題にはほとんど焦点が当てられていない。 そこで本研究では,汎用ハードウェアのための最先端遅延予測器であるmapleのエッジデバイス指向拡張であるmaple-edgeを提案する。 mapleと比較すると、maple-edgeは、すべてのlinuxカーネルで広く利用可能なcpuパフォーマンスカウンタセットを使用して、ランタイムとターゲットデバイスプラットフォームを記述できるが、最適化されたエッジデバイスランタイムにおける以前の最先端のベースラインメソッドに対する最大49.6%の精度向上を達成している。 また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、ハードウェア実行時記述子を用いて、演算子遅延によってパフォーマンスカウンタを正規化するトリックを適用することで、MAPLE-Edgeは実行時を効果的に一般化できることを示した。 最後に、所望の精度よりも低いランタイムに対して、ターゲットデバイスから追加のサンプルを収集することで性能を向上できることを示し、さらに90のサンプルを約40%のゲインに変換した。

Neural Architecture Search (NAS) has enabled automatic discovery of more efficient neural network architectures, especially for mobile and embedded vision applications. Although recent research has proposed ways of quickly estimating latency on unseen hardware devices with just a few samples, little focus has been given to the challenges of estimating latency on runtimes using optimized graphs, such as TensorRT and specifically for edge devices. In this work, we propose MAPLE-Edge, an edge device-oriented extension of MAPLE, the state-of-the-art latency predictor for general purpose hardware, where we train a regression network on architecture-latency pairs in conjunction with a hardware-runtime descriptor to effectively estimate latency on a diverse pool of edge devices. Compared to MAPLE, MAPLE-Edge can describe the runtime and target device platform using a much smaller set of CPU performance counters that are widely available on all Linux kernels, while still achieving up to +49.6% accuracy gains against previous state-of-the-art baseline methods on optimized edge device runtimes, using just 10 measurements from an unseen target device. We also demonstrate that unlike MAPLE which performs best when trained on a pool of devices sharing a common runtime, MAPLE-Edge can effectively generalize across runtimes by applying a trick of normalizing performance counters by the operator latency, in the measured hardware-runtime descriptor. Lastly, we show that for runtimes exhibiting lower than desired accuracy, performance can be boosted by collecting additional samples from the target device, with an extra 90 samples translating to gains of nearly +40%.
翻訳日:2022-04-28 12:16:18 公開日:2022-04-27
# 因果機械学習による農地適性評価に向けて

Towards assessing agricultural land suitability with causal machine learning ( http://arxiv.org/abs/2204.12956v1 )

ライセンス: Link先を確認
Georgios Giannarakis, Vasileios Sitokonstantinou, Roxanne Suzette Lorilla, Charalampos Kontoes(参考訳) 特定の経営慣行を適用するための農地の適合性を理解することは、気候変動に対する持続可能で弾力的な農業にとって非常に重要である。 因果機械学習の分野における最近の進展は、観察された特徴のセットによって記述されたサンプルについて、関心結果に対する介入の影響の推定を可能にする。 本研究では,土壌観測を活用し,農業の土地適合度を地理空間的インパクトアセスメント問題として枠組化する拡張性データ駆動フレームワークを導入し,農業慣行が農業に与えた影響を土地適合度スコアと指導的意思決定に役立てる。 これを因果的機械学習タスクとして定式化し、このアプローチが変化する気候における農業計画にどのように役立つかについて議論する。 具体的には,2010年から2020年までベルギーのフランダース地域において,作物種図から"crop rotation"と"landscape crop diversity"の農業経営実践を抽出し,気候・土地利用データを考慮して,ダブル機械学習を用いてネットプライマリ生産性(npp)に対する不均一な影響を推定した。 植生の多様性がNPPに悪影響を及ぼすのに対して, 作物の回転が重要でないことが判明した。 最後に、両プラクティスの空間におけるかなりの効果の不均一性を観察し、解析する。

Understanding the suitability of agricultural land for applying specific management practices is of great importance for sustainable and resilient agriculture against climate change. Recent developments in the field of causal machine learning enable the estimation of intervention impacts on an outcome of interest, for samples described by a set of observed characteristics. We introduce an extensible data-driven framework that leverages earth observations and frames agricultural land suitability as a geospatial impact assessment problem, where the estimated effects of agricultural practices on agroecosystems serve as a land suitability score and guide decision making. We formulate this as a causal machine learning task and discuss how this approach can be used for agricultural planning in a changing climate. Specifically, we extract the agricultural management practices of "crop rotation" and "landscape crop diversity" from crop type maps, account for climate and land use data, and use double machine learning to estimate their heterogeneous effect on Net Primary Productivity (NPP), within the Flanders region of Belgium from 2010 to 2020. We find that the effect of crop rotation was insignificant, while landscape crop diversity had a small negative effect on NPP. Finally, we observe considerable effect heterogeneity in space for both practices and analyze it.
翻訳日:2022-04-28 12:15:46 公開日:2022-04-27
# アスペクト感情三重項抽出のためのspan-level bidirectional cross-attention framework

Span-level Bidirectional Cross-attention Framework for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2204.12674v1 )

ライセンス: Link先を確認
Yuqi Chen, Keming Chen, Xian Sun, Zequn Zhang(参考訳) Aspect Sentiment Triplet extract (ASTE) は、アスペクト項、感情、意見項をレビュー文から抽出することを目的とした、新しいきめ細かい感情分析タスクである。 近年,全スパン予測を活用し,asteタスクの満足度向上を実現するスパンレベルモデルが提案されている。 しかしながら、これらの手法によって生成されたスパンは全て、必然的に少なくとも1つのトークンを他のトークンと共有しており、これらのスパンの類似性には類似している。 さらに、アスペクト項または意見項が感情三重項をトリガーできるため、情報をより包括的かつ適切に利用することは困難である。 これらの懸念に対処するため,我々はスパンレベルの双方向クロスアテンションフレームワークを提案する。 具体的には、共有トークンとアスペクトと意見デコーダからなる双方向の横断配置構造で、アスペクト・トゥ・オピニオン方向と意見・アスペクト方向の両方でスパンレベルの表現をデコードするように、同様のスパン分離損失を設計する。 区別されたスパン表現と双方向デコード構造により、我々のモデルはより正確かつ効率的に感情三重項を抽出できる。 実験結果から,本フレームワークは最先端の手法よりも優れており,複数括弧で三重項を予測し,複数括弧で三重項を抽出する性能が向上していることがわかった。

Aspect Sentiment Triplet Extraction (ASTE) is a new fine-grained sentiment analysis task that aims to extract triplets of aspect terms, sentiments, and opinion terms from review sentences. Recently, span-level models achieve gratifying results on ASTE task by taking advantage of whole span predictions. However, all the spans generated by these methods inevitably share at least one token with some others, and these method suffer from the similarity of these spans due to their similar distributions. Moreover, since either the aspect term or opinion term can trigger a sentiment triplet, it is challenging to make use of the information more comprehensively and adequately. To address these concerns, we propose a span-level bidirectional cross-attention framework. Specifically, we design a similar span separation loss to detach the spans with shared tokens and a bidirectional cross-attention structure that consists of aspect and opinion decoders to decode the span-level representations in both aspect-to-opinion and opinion-to-aspect directions. With differentiated span representations and bidirectional decoding structure, our model can extract sentiment triplets more precisely and efficiently. Experimental results show that our framework significantly outperforms state-of-the-art methods, achieving better performance in predicting triplets with multi-token entities and extracting triplets in sentences with multi-triplets.
翻訳日:2022-04-28 12:15:08 公開日:2022-04-27
# 構造スコープから学ぶ:ハイブリッドグラフ畳み込みネットワークによるアスペクトレベル感度解析の改善

Learn from Structural Scope: Improving Aspect-Level Sentiment Analysis with Hybrid Graph Convolutional Networks ( http://arxiv.org/abs/2204.12784v1 )

ライセンス: Link先を確認
Lvxiaowei Xu, Xiaoxuan Pang, Jianwang Wu, Ming Cai, Jiawei Peng(参考訳) アスペクトレベルの感情分析は、文中の特定のターゲットに対する感情極性を決定することを目的としている。 この課題の主な課題は、ターゲットと感情の関係を効果的にモデル化し、無関係なターゲットからノイズの多い意見語を除外することである。 近年の取り組みは、単語レベルやフレーズレベルの観点から、目標感性対や意見を通して関係を捉えている。 目的と感情が語句・句・文構造の文法的階層に沿う関係を本質的に確立していることから,学習プロセスのより優れた指導に包括的構文情報を活用することが望まれる。 そこで本稿では,特定の対象に関連する構造的テキスト領域を概説するスコープの概念を紹介する。 構造スコープを共同で学習し,感情の極性を予測するために,構成木と依存木から情報を合成するハイブリッドグラフ畳み込みネットワーク(HGCN)を提案する。 4つの公開データセットの実験結果は、HGCNモデルが現在の最先端ベースラインより優れていることを示している。

Aspect-level sentiment analysis aims to determine the sentiment polarity towards a specific target in a sentence. The main challenge of this task is to effectively model the relation between targets and sentiments so as to filter out noisy opinion words from irrelevant targets. Most recent efforts capture relations through target-sentiment pairs or opinion spans from a word-level or phrase-level perspective. Based on the observation that targets and sentiments essentially establish relations following the grammatical hierarchy of phrase-clause-sentence structure, it is hopeful to exploit comprehensive syntactic information for better guiding the learning process. Therefore, we introduce the concept of Scope, which outlines a structural text region related to a specific target. To jointly learn structural Scope and predict the sentiment polarity, we propose a hybrid graph convolutional network (HGCN) to synthesize information from constituency tree and dependency tree, exploring the potential of linking two syntax parsing methods to enrich the representation. Experimental results on four public datasets illustrate that our HGCN model outperforms current state-of-the-art baselines.
翻訳日:2022-04-28 12:14:40 公開日:2022-04-27
# 事前学習型言語モデルからの模擬知識の探索

Probing Simile Knowledge from Pre-trained Language Models ( http://arxiv.org/abs/2204.12807v1 )

ライセンス: Link先を確認
Weijie Chen, Yongzhu Chang, Rongsheng Zhang, Jiashu Pu, Guandan Chen, Le Zhang, Yadong Xi, Yijiang Chen, Chang Su(参考訳) シミュレーション解釈(SI)とシミュレーション生成(SG)は、モデルが予測を生成するのに十分な世界知識を必要とするため、NLPにとって難しい課題である。 従来、多くの手作りの資源を使って知識をモデルに取り入れてきた。 近年,PLM(Pre-trained Language Model)ベースのアプローチは,大規模コーパスから一般的な知識を習得し,NLPのデファクトスタンダードとなっている。 PLMに埋め込まれた知識は、SIやSGタスクに有用かもしれない。 それにもかかわらず、それを探求する研究はほとんどない。 本稿では,plm からの simile 知識を調査し,si と sg のタスクを初めて一元的フレームワークである simile triple completion で解く。 我々のフレームワークのバックボーンは、手動のパターンでマスキング文を構築し、マスキング位置の候補単語を予測することである。 本フレームワークでは,マスキング言語モデル(MLM)の損失を考慮した2次学習プロセス(形容名詞学習)を採用し,マスキング位置における候補単語の予測の多様性を高める。 さらに,パターンアンサンブル (PE) とパターン探索 (PS) を適用し,予測語の品質を向上させる。 最後に,siタスクとsgタスクの両方におけるフレームワークの有効性を,自動評価とヒューマン評価によって実証する。

Simile interpretation (SI) and simile generation (SG) are challenging tasks for NLP because models require adequate world knowledge to produce predictions. Previous works have employed many hand-crafted resources to bring knowledge-related into models, which is time-consuming and labor-intensive. In recent years, pre-trained language models (PLMs) based approaches have become the de-facto standard in NLP since they learn generic knowledge from a large corpus. The knowledge embedded in PLMs may be useful for SI and SG tasks. Nevertheless, there are few works to explore it. In this paper, we probe simile knowledge from PLMs to solve the SI and SG tasks in the unified framework of simile triple completion for the first time. The backbone of our framework is to construct masked sentences with manual patterns and then predict the candidate words in the masked position. In this framework, we adopt a secondary training process (Adjective-Noun mask Training) with the masked language model (MLM) loss to enhance the prediction diversity of candidate words in the masked position. Moreover, pattern ensemble (PE) and pattern search (PS) are applied to improve the quality of predicted words. Finally, automatic and human evaluations demonstrate the effectiveness of our framework in both SI and SG tasks.
翻訳日:2022-04-28 12:14:20 公開日:2022-04-27
# (参考訳) 接地した一階記号的計画表現の学習

Learning First-Order Symbolic Planning Representations That Are Grounded ( http://arxiv.org/abs/2204.11902v2 )

ライセンス: CC BY 4.0
Andr\'es Occhipinti Liberman, Blai Bonet, Hector Geffner(参考訳) 非構造化データから一階計画(アクション)モデルを学習するための2つの主要なアプローチが開発され、状態空間の構造からクリップなアクションスキーマを生成する組合せアプローチと、画像で表される状態からアクションスキーマを生成するディープラーニングアプローチである。 前者のアプローチの利点は、学習されたアクションスキーマが手書きのスキーマに似ていることである。後者の利点は、学習された表現(述語)が画像に基づいており、結果として、画像の観点で新しいインスタンスを与えることができることである。 本研究では,解析画像に基づく一階計画モデルの学習のための新しい定式化を開発し,この2つのアプローチの利点を組み合わせた。 パースされた画像は、単純なO2D言語(オブジェクトは2D)で与えられると仮定され、それは、"left"、"above"、"shape"など、少数の単項述語とバイナリ述語を含む。 学習後、新しいプランニングインスタンスはパースされたイメージのペア、初期状況の1つ、目標の1つで与えられる。 学習と計画の実験はblocks、sokoban、ipc grid、hanoiなどいくつかのドメインで報告されている。

Two main approaches have been developed for learning first-order planning (action) models from unstructured data: combinatorial approaches that yield crisp action schemas from the structure of the state space, and deep learning approaches that produce action schemas from states represented by images. A benefit of the former approach is that the learned action schemas are similar to those that can be written by hand; a benefit of the latter is that the learned representations (predicates) are grounded on the images, and as a result, new instances can be given in terms of images. In this work, we develop a new formulation for learning crisp first-order planning models that are grounded on parsed images, a step to combine the benefits of the two approaches. Parsed images are assumed to be given in a simple O2D language (objects in 2D) that involves a small number of unary and binary predicates like "left", "above", "shape", etc. After learning, new planning instances can be given in terms of pairs of parsed images, one for the initial situation and the other for the goal. Learning and planning experiments are reported for several domains including Blocks, Sokoban, IPC Grid, and Hanoi.
翻訳日:2022-04-28 12:13:31 公開日:2022-04-27
# (参考訳) ネットワークカスケードにおける計算の自然発生

Spontaneous Emergence of Computation in Network Cascades ( http://arxiv.org/abs/2204.11956v2 )

ライセンス: CC BY 4.0
Galen Wilkerson, Sotiris Moschoyiannis, Henrik Jeldtoft Jensen(参考訳) 雪崩支援ネットワークによるニューロンネットワークの計算と計算は、物理学、コンピュータ科学(統計学や機械学習と同様に計算理論)、神経科学の分野に関心がある。 ここでは,複雑なブール関数の計算が,論理オートマトン(モチーフ)によって計算された接続性とアンタゴニズム(阻害)の関数として閾値ネットワークで自然に発生することを示す。 本稿では,モチーフの計算複雑性とモチーフによる関数確率によるランク順序付けと関数空間の対称性との関係について述べる。 また,ここで観察した抑制の最適分画は,最適な情報処理に関する計算的神経科学の成果を裏付けることを示した。

Neuronal network computation and computation by avalanche supporting networks are of interest to the fields of physics, computer science (computation theory as well as statistical or machine learning) and neuroscience. Here we show that computation of complex Boolean functions arises spontaneously in threshold networks as a function of connectivity and antagonism (inhibition), computed by logic automata (motifs) in the form of computational cascades. We explain the emergent inverse relationship between the computational complexity of the motifs and their rank-ordering by function probabilities due to motifs, and its relationship to symmetry in function space. We also show that the optimal fraction of inhibition observed here supports results in computational neuroscience, relating to optimal information processing.
翻訳日:2022-04-28 11:17:56 公開日:2022-04-27
# (参考訳) Fr'echet運動距離を用いた合成運動の品質評価

Evaluating the Quality of a Synthesized Motion with the Fr\'echet Motion Distance ( http://arxiv.org/abs/2204.12318v2 )

ライセンス: CC BY 4.0
Antoine Maiorca, Youngwoo Yoon and Thierry Dutoit(参考訳) Fr'echet運動距離を用いた合成運動の品質評価

Evaluating the Quality of a Synthesized Motion with the Fr\'echet Motion Distance
翻訳日:2022-04-28 11:06:15 公開日:2022-04-27
# メタ重み付けを用いた名前付きエンティティ認識のためのロバスト自己提示

Robust Self-Augmentation for Named Entity Recognition with Meta Reweighting ( http://arxiv.org/abs/2204.11406v2 )

ライセンス: Link先を確認
Linzhi Wu, Pengjun Xie, Jie Zhou, Meishan Zhang, Chunping Ma, Guangwei Xu, Min Zhang(参考訳) 最近、低リソースシナリオにおける名前付きエンティティ認識(ner)のパフォーマンスを改善するための研究への関心が高まっている。 トーケン置換とミキサップは、特定の専門的な取り組みで効果的な性能を達成することができるNERのための2つの実現可能なヘテロジニアス自己増強技術である。 明らかなことに、自己示唆は潜在的に騒がしい拡張データをもたらす可能性がある。 これまでの研究は主に、特定の自己拡張のノイズを個別に減らすためのヒューリスティックな規則に基づく制約に頼ってきた。 本稿では,NERの2つの自己拡張手法を再検討し,これらの不均一な手法の統一的メタリフレッシング戦略を提案し,自然統合を実現する。 本手法は容易に拡張可能であり,特定の自己提示法にほとんど努力を要さない。 異なる中国語と英語のNERベンチマーク実験により、トークン置換法とミキサップ法とそれらの統合法が効果的な性能向上をもたらすことを示した。 メタリウェイト機構に基づき、余分な努力を伴わずに自己増強技術の利点を高めることができる。

Self-augmentation has been received increasing research interest recently to improve named entity recognition (NER) performance in low-resource scenarios. Token substitution and mixup are two feasible heterogeneous self-augmentation techniques for NER that can achieve effective performance with certain specialized efforts. Noticeably, self-augmentation may introduce potentially noisy augmented data. Prior research has mainly resorted to heuristic rule based constraints to reduce the noise for specific self-augmentation individually. In this paper, we revisit the two self-augmentation methods for NER, and propose a unified meta-reweighting strategy for these heterogeneous methods to achieve a natural integration. Our method is easily extensible, imposing little effort on a specific self-augmentation method. Experiments on different Chinese and English NER benchmarks demonstrate that our token substitution and mixup method, as well as their integration, can obtain effective performance improvement. Based on the meta-reweighting mechanism, we can enhance the advantages of the self-augmentation techniques without extra efforts.
翻訳日:2022-04-28 11:02:18 公開日:2022-04-27
# グラフニューラルネットワークのための強化因果説明器

Reinforced Causal Explainer for Graph Neural Networks ( http://arxiv.org/abs/2204.11028v2 )

ライセンス: Link先を確認
Xiang Wang, Yingxin Wu, An Zhang, Fuli Feng, Xiangnan He, Tat-Seng Chua(参考訳) グラフニューラルネットワーク(gnns)の探索には説明可能性が不可欠であり、“なぜgnnモデルは特定の予測を行うのか? 特徴属性は入力グラフの説明部分グラフをハイライトする一般的な手法であり、GNNモデルをその予測に導くことが妥当である。 様々な帰属法は、エッジの帰属として勾配的または注意的スコアを活用し、説明としてトップ帰属スコアを持つサルエントエッジを選択する。 選択されたエッジは線形的に独立しているため、エッジ間の依存関係は、特に連立効果など、ほとんど探索されていないままである。 我々は、この仮定の明白な欠点を、説明文を不信かつ冗長なものにする。 この課題に対処するために、強化学習エージェントReinforced Causal Explainer (RC-Explainer)を提案する。 説明サブグラフは、以前に選択されたサブグラフを接続するために、有能なエッジを追加することによって、順次構築される。 技術的には、そのポリシーネットワークはエッジ追加のアクションを予測し、その予測に対するアクションの因果効果を定量化する報酬を得る。 このような報酬は、新しく追加されたエッジと以前に追加されたエッジの依存関係を考慮し、彼らが協力し、より良い説明を追求する連合を形成するかどうかを反映している。 このように、rc-explainer は忠実で簡潔な説明を生成でき、見当たらないグラフに対するより良い一般化力を持つ。 3つのグラフ分類データセットで異なるgnnを説明するとき、rc-explainerはsomaアプローチの予測精度とコントラストを向上し、健全性チェックと視覚的検査を安全にパスする。 コードはhttps://github.com/xiangwang1223/reinforced_causal_explainerで入手できる。

Explainability is crucial for probing graph neural networks (GNNs), answering questions like "Why the GNN model makes a certain prediction?". Feature attribution is a prevalent technique of highlighting the explanatory subgraph in the input graph, which plausibly leads the GNN model to make its prediction. Various attribution methods exploit gradient-like or attention scores as the attributions of edges, then select the salient edges with top attribution scores as the explanation. However, most of these works make an untenable assumption - the selected edges are linearly independent - thus leaving the dependencies among edges largely unexplored, especially their coalition effect. We demonstrate unambiguous drawbacks of this assumption - making the explanatory subgraph unfaithful and verbose. To address this challenge, we propose a reinforcement learning agent, Reinforced Causal Explainer (RC-Explainer). It frames the explanation task as a sequential decision process - an explanatory subgraph is successively constructed by adding a salient edge to connect the previously selected subgraph. Technically, its policy network predicts the action of edge addition, and gets a reward that quantifies the action's causal effect on the prediction. Such reward accounts for the dependency of the newly-added edge and the previously-added edges, thus reflecting whether they collaborate together and form a coalition to pursue better explanations. As such, RC-Explainer is able to generate faithful and concise explanations, and has a better generalization power to unseen graphs. When explaining different GNNs on three graph classification datasets, RC-Explainer achieves better or comparable performance to SOTA approaches w.r.t. predictive accuracy and contrastivity, and safely passes sanity checks and visual inspections. Codes are available at https://github.com/xiangwang1223/reinforced_causal_explainer.
翻訳日:2022-04-28 11:02:02 公開日:2022-04-27
# 演奏者:心血管疾患検出用デジタルバイオマーカーのための新しいppg-ecgリコンストラクショントランスフォーマ

Performer: A Novel PPG to ECG Reconstruction Transformer For a Digital Biomarker of Cardiovascular Disease Detection ( http://arxiv.org/abs/2204.11795v2 )

ライセンス: Link先を確認
Ella Lan(参考訳) 心臓血管疾患(CVD)は死因の上位1つとなり、これらの死亡の4分の3は低所得層で発生している。 心電図(Electrocardiography、ECG)は、心活動を測定する電気測定装置であり、CVDを診断するための金標準である。 しかし、ECGはユーザーの参加を必要とするため、継続的な心臓モニタリングには適さない。 一方、光胸腺造影(PPG)の収集は容易であるが、精度の制限により臨床応用は制限される。 本研究では,新しいトランスフォーマーベースのアーキテクチャであるPerformerを発明し,CVD検出のための複数のモダリティとして,PSGからECGを再構成し,新しいデジタルバイオマーカーであるPSGを作成する。 このアーキテクチャは、バイオメディカル波形のトランスフォーマーシーケンスを初めて実行し、容易にアクセス可能なPSGとよく研究されたECGの基盤の利点を生かした。 シフトパッチベースの注意(Shifted Patch-based Attention, SPA)は、様々なシーケンス長を階層的な段階としてトレーニングに取り込み、シフトパッチ機構を通じてクロスパッチ接続をキャプチャすることで、信号特性を最大化する。 このアーキテクチャは、PSGからECGを再構築するための 0.29 RMSE の最先端性能を生成し、MIMIC III データセットでの CVD の平均 95.9% と PPG-BP データセットでの糖尿病の 75.9% を達成している。 performerは、新しいデジタルバイオマーカーと共に、継続的な心臓モニタリングのための低コストで非侵襲的なソリューションを提供するが、容易に抽出できるppgデータを必要とせず、アクセス不能なecgデータを再構築できる。 概念実証として、PEARL(プロトタイプ)と名付けられたイヤリングウェアラブルは、POSC(point-of-care)ヘルスケアシステムをスケールアップするために設計された。

Cardiovascular diseases (CVDs) have become the top one cause of death; three-quarters of these deaths occur in lower-income communities. Electrocardiography (ECG), an electrical measurement capturing the cardiac activities, is a gold-standard to diagnose CVDs. However, ECG is infeasible for continuous cardiac monitoring due to its requirement for user participation. Meanwhile, photoplethysmography (PPG) is easy to collect, but the limited accuracy constrains its clinical usage. In this research, a novel Transformer-based architecture, Performer, is invented to reconstruct ECG from PPG and to create a novel digital biomarker, PPG along with its reconstructed ECG, as multiple modalities for CVD detection. This architecture, for the first time, performs Transformer sequence to sequence translation on biomedical waveforms, while also utilizing the advantages of the easily accessible PPG and the well-studied base of ECG. Shifted Patch-based Attention (SPA) is created to maximize the signal features by fetching the various sequence lengths as hierarchical stages into the training while also capturing cross-patch connections through the shifted patch mechanism. This architecture generates a state-of-the-art performance of 0.29 RMSE for reconstructing ECG from PPG, achieving an average of 95.9% diagnosis for CVDs on the MIMIC III dataset and 75.9% for diabetes on the PPG-BP dataset. Performer, along with its novel digital biomarker, offers a low-cost and non-invasive solution for continuous cardiac monitoring, only requiring the easily extractable PPG data to reconstruct the not-as-accessible ECG data. As a prove of concept, an earring wearable, named PEARL (prototype), is designed to scale up the point-of-care (POC) healthcare system.
翻訳日:2022-04-28 11:01:30 公開日:2022-04-27
# コントラスト学習による癌ドライバ遺伝子の差分発現予測

Contrastive learning-based computational histopathology predict differential expression of cancer driver genes ( http://arxiv.org/abs/2204.11994v2 )

ライセンス: Link先を確認
Haojie Huang, Gongming Zhou, Xuejun Liu, Lei Deng, Chen Wu, Dachuan Zhang and Hui Liu(参考訳) 癌の診断に使用される主な検査は、デジタル病理解析である。 近年,病理画像からの深層学習による特徴抽出は遺伝的変異や腫瘍環境を検出することができるが,腫瘍細胞における遺伝子発現の相違に焦点をあてる研究は少ない。 本稿では,全スライド画像(wsis)から微分遺伝子発現を推定する,自己教師付きコントラスト学習フレームワークであるhistcodeを提案する。 大規模無注釈WSIに対する対照的な学習を利用して,潜伏空間におけるスライドレベルの病理組織学的特徴を導出し,腫瘍診断と鑑別された癌ドライバ遺伝子の予測に移行した。 広範な実験の結果,腫瘍診断における他の最先端モデルよりも優れており,遺伝子発現の予測も効果的であった。 興味深いことに、高い折りたたみ遺伝子をより正確に予測できることがわかった。 病理画像から情報的特徴を抽出する能力を直感的に示すため,画像タイルの注意点で彩色したwsisを空間的に可視化した。 腫瘍と壊死領域は,経験豊富な病理医のアノテーションと非常に一致していた。 さらに, リンパ球特異的遺伝子発現パターンによって生成された空間熱マップは, 手動でラベル付けしたWSIと一致していた。

Digital pathological analysis is run as the main examination used for cancer diagnosis. Recently, deep learning-driven feature extraction from pathology images is able to detect genetic variations and tumor environment, but few studies focus on differential gene expression in tumor cells. In this paper, we propose a self-supervised contrastive learning framework, HistCode, to infer differential gene expressions from whole slide images (WSIs). We leveraged contrastive learning on large-scale unannotated WSIs to derive slide-level histopathological feature in latent space, and then transfer it to tumor diagnosis and prediction of differentially expressed cancer driver genes. Our extensive experiments showed that our method outperformed other state-of-the-art models in tumor diagnosis tasks, and also effectively predicted differential gene expressions. Interestingly, we found the higher fold-changed genes can be more precisely predicted. To intuitively illustrate the ability to extract informative features from pathological images, we spatially visualized the WSIs colored by the attentive scores of image tiles. We found that the tumor and necrosis areas were highly consistent with the annotations of experienced pathologists. Moreover, the spatial heatmap generated by lymphocyte-specific gene expression patterns was also consistent with the manually labeled WSI.
翻訳日:2022-04-28 11:00:53 公開日:2022-04-27
# 視覚トランスフォーマーのロバスト性理解

Understanding The Robustness in Vision Transformers ( http://arxiv.org/abs/2204.12451v2 )

ライセンス: Link先を確認
Daquan Zhou, Zhiding Yu, Enze Xie, Chaowei Xiao, Anima Anandkumar, Jiashi Feng, Jose M. Alvarez(参考訳) 近年の研究では、視覚変換器(ViT)が様々な汚職に対して強い堅牢性を示すことが示されている。 この性質は部分的に自己着脱機構に起因するが、体系的な理解が不足している。 本稿では,ロバスト表現の学習における自己意識の役割について検討する。 本研究は,視覚トランスフォーマーにおける視覚グループ化の興味をそそる性質を動機とし,中レベル表現の改善による自己着脱がロバスト性を促進する可能性を示唆する。 さらに,注意チャネル処理設計を組み込んだ完全注意ネットワーク(fans)のファミリを提案する。 様々な階層バックボーン上で設計を包括的に検証する。 我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、87.1%の精度と35.8%のmCEを達成する。 また,下流課題であるセマンティクスセグメンテーションとオブジェクト検出において,最先端の正確性とロバスト性を示す。 コードはhttps://github.com/NVlabs/FAN.comから入手できる。

Recent studies show that Vision Transformers(ViTs) exhibit strong robustness against various corruptions. Although this property is partly attributed to the self-attention mechanism, there is still a lack of systematic understanding. In this paper, we examine the role of self-attention in learning robust representations. Our study is motivated by the intriguing properties of the emerging visual grouping in Vision Transformers, which indicates that self-attention may promote robustness through improved mid-level representations. We further propose a family of fully attentional networks (FANs) that strengthen this capability by incorporating an attentional channel processing design. We validate the design comprehensively on various hierarchical backbones. Our model achieves a state of-the-art 87.1% accuracy and 35.8% mCE on ImageNet-1k and ImageNet-C with 76.8M parameters. We also demonstrate state-of-the-art accuracy and robustness in two downstream tasks: semantic segmentation and object detection. Code will be available at https://github.com/NVlabs/FAN.
翻訳日:2022-04-28 10:58:26 公開日:2022-04-27
# 二重ストリーミングデータによるオンラインディープラーニング

Online Deep Learning from Doubly-Streaming Data ( http://arxiv.org/abs/2204.11793v2 )

ライセンス: Link先を確認
Heng Lian and John Scovil Atwood and Bojian Hou and Jian Wu and Yi He(参考訳) 本稿では,データストリームが常に進化する特徴空間によって記述され,新しい特徴や古い特徴が消えていくという,二重ストリームデータによる新たなオンライン学習問題を考察する。 この問題の課題は2つあります 1) 絶え間なく流れ込むデータサンプルは、時間とともに変化したパターンを持ち、学習者がそれをオンザフライで適応させる必要がある。 2) 新たな特徴はごく少数のサンプルによって説明され, 誤り予測を行う傾向の弱い学習者が現れる。 この課題を克服するための有効なアイデアは、進化する機能空間間の関係を確立することであり、オンライン学習者は、古い機能から学んだ知識を活用して、新しい機能の学習性能を向上させることができる。 残念ながら、このアイデアは複雑な機能間相互作用を持つ高次元メディアストリームにはスケールアップせず、オンライン性(浅い学習者のバイアス)と表現力(深い学習者が必要)のトレードオフに苦しむ。 そこで我々は,従来の特徴空間と新しい特徴空間の情報を要約し,中間的特徴マッピング関係を構築するために,共有潜在部分空間が発見された新しいOLD^3Sパラダイムを提案する。 OLD^3Sの重要な特徴は、学習可能なセマンティクスとしてモデルキャパシティを扱い、オンライン形式で入力データストリームの複雑さと非線形性に応じて最適なモデル深度とパラメータを共同で生成することである。 理論解析と実証研究はともに,提案の有効性と有効性を実証する。

This paper investigates a new online learning problem with doubly-streaming data, where the data streams are described by feature spaces that constantly evolve, with new features emerging and old features fading away. The challenges of this problem are two folds: 1) Data samples ceaselessly flowing in may carry shifted patterns over time, requiring learners to update hence adapt on-the-fly. 2) Newly emerging features are described by very few samples, resulting in weak learners that tend to make error predictions. A plausible idea to overcome the challenges is to establish relationship between the pre-and-post evolving feature spaces, so that an online learner can leverage the knowledge learned from the old features to better the learning performance on the new features. Unfortunately, this idea does not scale up to high-dimensional media streams with complex feature interplay, which suffers an tradeoff between onlineness (biasing shallow learners) and expressiveness(requiring deep learners). Motivated by this, we propose a novel OLD^3S paradigm, where a shared latent subspace is discovered to summarize information from the old and new feature spaces, building intermediate feature mapping relationship. A key trait of OLD^3S is to treat the model capacity as a learnable semantics, yields optimal model depth and parameters jointly, in accordance with the complexity and non-linearity of the input data streams in an online fashion. Both theoretical analyses and empirical studies substantiate the viability and effectiveness of our proposal.
翻訳日:2022-04-28 10:58:08 公開日:2022-04-27
# 視覚的ドローン群を用いた協調目標探索--適応型カリキュラム組込み多段階強化学習アプローチ

Collaborative Target Search with a Visual Drone Swarm: An Adaptive Curriculum Embedded Multi-stage Reinforcement Learning Approach ( http://arxiv.org/abs/2204.12181v2 )

ライセンス: Link先を確認
Jiaping Xiao, Phumrapee Pisutsin and Mir Feroskhan(参考訳) ドローンにターゲット検索機能を搭載することは、災害管理シナリオやスマート倉庫配送システムでの利用に望ましい。 単一のドローンを配置する代わりに、障害物間の操作で互いに協調できるインテリジェントなドローン群は、ターゲット検索を短時間で達成する上でより効果的である。 本研究では,データ効率向上のための強化学習手法である適応カリキュラム埋め込み型多段階学習(ACEMSL)を提案し,視覚ドローン群を用いた協調目標探索の課題,すなわち3次元スパース報酬空間探索と協調行動要求に対処する。 具体的には,学習で得られた成功率に応じて課題難易度を適応的に調整できる適応型組込みカリキュラムを開発する。 一方、多段階学習では、ACEMSLはコラボレーティブなドローン群に対して、データ効率のトレーニングとチーム毎の報酬配分を可能にする。 本手法の有効性と一般化はシミュレーションと実飛行試験を用いて検証した。

Equipping drones with target search capabilities is desirable for applications in disaster management scenarios and smart warehouse delivery systems. Instead of deploying a single drone, an intelligent drone swarm that can collaborate with one another in maneuvering among obstacles will be more effective in accomplishing the target search in a shorter amount of time. In this work, we propose a data-efficient reinforcement learning-based approach, Adaptive Curriculum Embedded Multi-Stage Learning (ACEMSL), to address the challenges of carrying out a collaborative target search with a visual drone swarm, namely the 3D sparse reward space exploration and the collaborative behavior requirement. Specifically, we develop an adaptive embedded curriculum, where the task difficulty level can be adaptively adjusted according to the success rate achieved in training. Meanwhile, with multi-stage learning, ACEMSL allows data-efficient training and individual-team reward allocation for the collaborative drone swarm. The effectiveness and generalization capability of our approach are validated using simulations and actual flight tests.
翻訳日:2022-04-28 10:57:44 公開日:2022-04-27
# エンド・ツー・エンドオーディオが復活:効率的な音声分類ネットワークに向けた強化

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network ( http://arxiv.org/abs/2204.11479v2 )

ライセンス: Link先を確認
Avi Gazneli, Gadi Zimerman, Tal Ridnik, Gilad Sharir, Asaf Noy(参考訳) 効率的なアーキテクチャとエンドツーエンドの画像分類タスクの多くの拡張が提案され、よく研究されているが、オーディオ分類の最先端の技術は、大きなデータセットから微調整された大きなアーキテクチャとともに、オーディオ信号の多数の表現に依存している。 音声のライトウェイトな特性と新しい音声拡張を利用することで、強力な一般化能力を持つ効率的なエンドツーエンドネットワークを提供することができた。 各種音響分類セットの実験は, 各種設定における最先端結果の達成により, 提案手法の有効性とロバスト性を示す。 公開コードは利用可能である。

While efficient architectures and a plethora of augmentations for end-to-end image classification tasks have been suggested and heavily investigated, state-of-the-art techniques for audio classifications still rely on numerous representations of the audio signal together with large architectures, fine-tuned from large datasets. By utilizing the inherited lightweight nature of audio and novel audio augmentations, we were able to present an efficient end-to-end network with strong generalization ability. Experiments on a variety of sound classification sets demonstrate the effectiveness and robustness of our approach, by achieving state-of-the-art results in various settings. Public code will be available.
翻訳日:2022-04-28 10:57:26 公開日:2022-04-27
# 標準医用画像の統計を学習する生成型adversarial networkの能力評価

Assessing the ability of generative adversarial networks to learn canonical medical image statistics ( http://arxiv.org/abs/2204.12007v2 )

ライセンス: Link先を確認
Varun A. Kelkar, Dimitrios S. Gotsis, Frank J. Brooks, Prabhat KC, Kyle J. Myers, Rongping Zeng and Mark A. Anastasio(参考訳) 近年, 医用画像合成, 修復, 再構築, 翻訳, 客観的画像品質評価など, 医用画像の潜在的な応用において, GAN (Generative Adversarial Network) が大いに人気を集めている。 高解像度で知覚的にリアルな画像を生成するという驚くべき進歩にもかかわらず、現代のGANが下流の医療画像アプリケーションに意味のある統計を確実に学習しているかどうかは不明だ。 本研究では,画像品質の客観的評価に関連する標準確率的画像モデル(SIM)の統計を,最先端のGANで学習する能力について検討する。 GANは、特定の医療用SIMの基本的1次・2次統計を考慮し、知覚的品質の高い画像を生成することに成功したが、これらのSIMに関連する画像ごとの統計を正しく学習することはできず、画像品質の客観的指標の観点から医療用画像GANを評価する緊急の必要性を強調した。

In recent years, generative adversarial networks (GANs) have gained tremendous popularity for potential applications in medical imaging, such as medical image synthesis, restoration, reconstruction, translation, as well as objective image quality assessment. Despite the impressive progress in generating high-resolution, perceptually realistic images, it is not clear if modern GANs reliably learn the statistics that are meaningful to a downstream medical imaging application. In this work, the ability of a state-of-the-art GAN to learn the statistics of canonical stochastic image models (SIMs) that are relevant to objective assessment of image quality is investigated. It is shown that although the employed GAN successfully learned several basic first- and second-order statistics of the specific medical SIMs under consideration and generated images with high perceptual quality, it failed to correctly learn several per-image statistics pertinent to the these SIMs, highlighting the urgent need to assess medical image GANs in terms of objective measures of image quality.
翻訳日:2022-04-28 10:57:14 公開日:2022-04-27