このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220513となっている論文です。

PDF登録状況(公開日: 20220513)

TitleAuthorsAbstract論文公表日・翻訳日
# 信頼できないネットワークにおけるグラフ状態の検証

Verification of graph states in an untrusted network ( http://arxiv.org/abs/2007.13126v2 )

ライセンス: Link先を確認
Anupama Unnikrishnan, Damian Markham(参考訳) グラフ状態は、量子計算、通信、誤り訂正、気象学などのスキームの基礎を形成する多部量子状態の大規模なクラスである。 本研究では,信頼できない情報源が生成し,不当な当事者のネットワーク間で共有されるグラフ状態の検証について検討する。 これは、様々な分散タスクに対するグラフ状態の適用の証明に影響を及ぼす。 本稿では,クラスタ状態,GHZ状態,サイクルグラフ状態など,有用なグラフ状態の大規模なファミリーに対して,グローバルに効率的なプロトコルを提案する。 一般的なグラフ状態の場合、セキュリティパラメータに関する効率性は維持されるが、グラフ状態のサイズによってコストが増加する。 プロトコルは実用的であり、グラフ状態のコピー、局所測定、古典的な通信のみを必要とする。

Graph states are a large class of multipartite entangled quantum states that form the basis of schemes for quantum computation, communication, error correction, metrology, and more. In this work, we consider verification of graph states generated by an untrusted source and shared between a network of possibly dishonest parties. This has implications in certifying the application of graph states for various distributed tasks. We present a protocol which is globally efficient for a large family of useful graph states, including cluster states, GHZ states, cycle graph states and more. For general graph states, efficiency with respect to the security parameter is maintained, though there is a cost increase with the size of the graph state. The protocols are practical, requiring only multiple copies of the graph state, local measurements and classical communication.
翻訳日:2023-05-08 04:39:01 公開日:2022-05-13
# 量子分析ディフレッシュ

Quantum Analytic Descent ( http://arxiv.org/abs/2008.13774v4 )

ライセンス: Link先を確認
B\'alint Koczor, Simon C. Benjamin(参考訳) 変分アルゴリズムは、短期量子コンピュータに特に関係があるが、非自明なパラメータ最適化を必要とする。 ここでは、エネルギーのランドスケープが任意の参照点の周りの局所領域において、ある単純な形式を持つ必要があると仮定し、古典モデルによってその全体にわたって効率的に近似することができることを前提として、これらの観察を厳密で複雑性理論的な議論で支援する。 この近似関数を古典的に解析することで、必要であればより洗練された関数を決定する前に、(推定)最小値に「ジャンプ」することが出来る。 最適測定戦略を導出し、一般に「ジャンプ」の漸近的資源コストが1つの勾配ベクトル評価のみに対応することを証明する。

Variational algorithms have particular relevance for near-term quantum computers but require non-trivial parameter optimisations. Here we propose Analytic Descent: Given that the energy landscape must have a certain simple form in the local region around any reference point, it can be efficiently approximated in its entirety by a classical model -- we support these observations with rigorous, complexity-theoretic arguments. One can classically analyse this approximate function in order to directly `jump' to the (estimated) minimum, before determining a more refined function if necessary. We derive an optimal measurement strategy and generally prove that the asymptotic resource cost of a `jump' corresponds to only a single gradient vector evaluation.
翻訳日:2023-05-04 05:23:57 公開日:2022-05-13
# 重力場と量子参照フレームの重ね合わせに対するアインシュタインの等価原理

Einstein's Equivalence principle for superpositions of gravitational fields and quantum reference frames ( http://arxiv.org/abs/2012.13754v3 )

ライセンス: Link先を確認
Flaminia Giacomini, \v{C}aslav Brukner(参考訳) 物理学の全ての法則が任意の局所慣性系における特殊相対論的形式を取るという同値性の原理は、一般相対性理論の核にある。 基本状態のため、この原理は重力効果と量子効果の両方が関係する系で物理法則を定式化する上で非常に強力な指針となるかもしれない。 しかし、その定式化は、参照フレームが古典的なシステム(ロッドとクロック)から抽象化され、時空の背景がよく定義されることを暗黙的に前提としている。 他の物理系と量子関係にある量子系が参照フレームとして、また古典時空構造の重ね合わせとして取り扱われる場合、それが継続するかどうかは明らかでない。 ここでは、曲面時空の重ね合わせで量子系を記述するために関係形式を導入することにより、両方の問題に取り組む。 我々は、曲面時空における量子系の量子参照フレーム(QRF)へのユニタリ変換を構築し、その重畳を行う。 どちらの場合も、計量が局所的なミンコフスキーアンに見えるように QRF が見つかる。 したがって、局所的な測度では、時空が平らであるか湾曲しているか、あるいはそのような時空の重ね合わせで区別できない。 この変換は量子局所慣性フレームを識別する。 また、時空における量子粒子のダイナミクスをエンコードする時空経路積分を発見し、自由落下粒子の状態が可能な全ての古典測地線の無限和として表現できることを示した。 次に、そのような自由落下量子粒子のフェルミ正規座標へのQRF変換を構築し、計量が局所的なミンコフスキー変換であることを示す。 これらの結果は、重力場の重ね合わせにおいて等価性の原理をQRFに拡張する。 この原理の検証は、将来の量子重力理論の固い概念的根拠を確立するための実りある道を開くかもしれない。

The Principle of Equivalence, stating that all laws of physics take their special-relativistic form in any local inertial frame, lies at the core of General Relativity. Because of its fundamental status, this principle could be a very powerful guide in formulating physical laws at regimes where both gravitational and quantum effects are relevant. However, its formulation implicitly presupposes that reference frames are abstracted from classical systems (rods and clocks) and that the spacetime background is well defined. It is unclear if it continues to hold when quantum systems, which can be in a quantum relationship with other physical systems, are taken as reference frames, and in a superposition of classical spacetime structures. Here, we tackle both questions by introducing a relational formalism to describe quantum systems in a superposition of curved spacetimes. We build a unitary transformation to the quantum reference frame (QRF) of a quantum system in curved spacetime, and in a superposition thereof. In both cases, a QRF can be found such that the metric looks locally minkowskian. Hence, one cannot distinguish, with a local measurement, if the spacetime is flat or curved, or in a superposition of such spacetimes. This transformation identifies a Quantum Local Inertial Frame. We also find a spacetime path-integral encoding the dynamics of a quantum particle in spacetime and show that the state of a freely falling particle can be expressed as an infinite sum of all possible classical geodesics. We then build the QRF transformation to the Fermi normal coordinates of such freely falling quantum particle and show that the metric is locally minkowskian. These results extend the Principle of Equivalence to QRFs in a superposition of gravitational fields. Verifying this principle may pave a fruitful path to establishing solid conceptual grounds for a future theory of quantum gravity.
翻訳日:2023-04-19 05:55:06 公開日:2022-05-13
# ジョセフソン量子スピン熱力学

Josephson quantum spin thermodynamics ( http://arxiv.org/abs/2105.01726v2 )

ライセンス: Link先を確認
Subhajit Pal, Colin Benjamin(参考訳) 1Dジョセフソン接合ループはスピンフリップでドーピングされ、2つの熱貯水池に取り付けられ、熱エンジンや冷蔵庫、ジュールポンプ、あるいはコールドポンプとしても機能する。 量子熱エンジンとして動作する場合、この装置の効率は最近のジョセフソン熱エンジンの提案を上回っている。 さらに、量子冷凍機として、この装置の性能係数は、以前に提案されたジョセフソン接合型冷凍機よりもはるかに高い。 さらに、この装置は、貯水池の温度を調整するか、ジョセフソン接合ループに閉じたフラックスを介して、エンジンモードから冷凍機モードまたは他のモード、すなわちジュールポンプまたはコールドポンプに調整することができる。 スピンフリップ散乱の存在下では, 貯水池の温度を変化させることなく, ジョセフソン接合ループの閉束を変更するだけで, エンジンモードから他の動作モードに調整することができる。 これは他の提案に対して有利である可能性がある。 これにより、提案されたデバイスはアプリケーションに関してはるかに汎用性が高い。

A 1D Josephson junction loop, doped with a spin-flipper and attached to two thermal reservoirs, operates as a heat engine or a refrigerator, a Joule pump, or even a cold pump. When operating as a quantum heat engine, the efficiency of this device exceeds that of some recent Josephson heat engine proposals. Further, as a quantum refrigerator, the coefficient of performance of this device is much higher than previously proposed Josephson junction-based refrigerators. In addition, this device can be tuned from engine mode to refrigerator mode or any other mode, i.e., Joule pump or cold pump, by either tuning the temperature of reservoirs or via the flux enclosed in the Josephson junction loop. In the presence of spin-flip scattering, we can tune our device from engine mode to other operating modes by only changing the enclosed flux in the Josephson junction loop without changing the temperatures of the reservoirs. This is potentially an advantage with respect to other proposals. This makes the proposed device much more versatile as regards possible applications.
翻訳日:2023-04-01 15:14:46 公開日:2022-05-13
# グループ構造を超えたユニタリチャネル識別:逐次的および不確定因数順序戦略の利点

Unitary channel discrimination beyond group structures: Advantages of sequential and indefinite-causal-order strategies ( http://arxiv.org/abs/2105.13369v3 )

ライセンス: Link先を確認
Jessica Bavaresco, Mio Murao, Marco T\'ulio Quintino(参考訳) ユニタリチャネルのみを含む最小エラーチャネル識別タスクでは、シーケンシャル戦略が並列チャネルよりも優れていることを示す。 さらに,無期限因果順序を伴う一般的な戦略が,このタスクに有利であることを示す。 しかし,群を形成するユニタリチャネルの均一に分散した集合を識別するタスクに対して,並列戦略は一般戦略と比較しても,実際は最適であることを示す。 また,量子スイッチに基づく戦略は,単一チャネルの識別において逐次戦略を上回らないことを示す。 最後に、チャネル識別に適した最も一般的な戦略に対して、任意の数のコピーを持つ任意のユニタリチャネルの集合を識別できる最大確率の絶対上限を導出する。 私たちの境界は、群 k-設計を形成するユニタリチャネルの集合によって飽和しているため、きつい。

For minimum-error channel discrimination tasks that involve only unitary channels, we show that sequential strategies may outperform the parallel ones. Additionally, we show that general strategies that involve indefinite causal order are also advantageous for this task. However, for the task of discriminating a uniformly distributed set of unitary channels that forms a group, we show that parallel strategies are, indeed, optimal, even when compared to general strategies. We also show that strategies based on the quantum switch cannot outperform sequential strategies in the discrimination of unitary channels. Finally, we derive an absolute upper bound for the maximal probability of successfully discriminating any set of unitary channels with any number of copies for the most general strategies that are suitable for channel discrimination. Our bound is tight since it is saturated by sets of unitary channels forming a group k-design.
翻訳日:2023-03-29 07:05:46 公開日:2022-05-13
# 量子プラズモニックセンシングによる運動パラメータの測定

Measuring kinetic parameters using quantum plasmonic sensing ( http://arxiv.org/abs/2107.06214v2 )

ライセンス: Link先を確認
K. T. Mpofu, C. Lee, G. E. M. Maguire, H. G. Kruger and M. S. Tame(参考訳) 運動過程を記述するパラメータの測定は、分子間相互作用の研究において重要である。 これは、ウイルスと細胞、抗体のワクチン、特定の疾患の薬物など、異なる生物学的実体が相互にどのように相互作用するかという物理的なメカニズムをより深く理解することを可能にする。 本研究では,量子センシング技術を用いて分子間相互作用の運動パラメータを理論的に評価する。 私たちが検討しているセンサーはプラズモニック共鳴センサーで、ラベルのないフォトニックセンサーで、研究や産業でもっとも広く使われているセンサーの1つです。 最初のタイプの相互作用は、抗体IgG1と相互作用する抗原BSAであり、大きなセンサー応答を提供する。 第2のタイプは、腫瘍増殖抑制剤ベンゼンスルホンアミドと相互作用する炭酸脱水酵素であり、小さなセンサー応答を生成する。 いずれの相互作用においても, 2モードフォック状態, 圧縮真空状態, 圧縮変位状態の利用を検討する。 これらの量子状態は、古典的な光で得られたものと比較して、運動パラメータの測定精度を向上する。 この結果は、生命科学の運動学を研究するためのより正確な量子ベースのセンサーの設計に役立つかもしれない。

The measurement of parameters that describe kinetic processes is important in the study of molecular interactions. It enables a deeper understanding of the physical mechanisms underlying how different biological entities interact with each other, such as viruses with cells, vaccines with antibodies, or new drugs with specific diseases. In this work, we study theoretically the use of quantum sensing techniques for measuring the kinetic parameters of molecular interactions. The sensor we consider is a plasmonic resonance sensor -- a label-free photonic sensor that is one of the most widely used in research and industry. The first type of interaction we study is the antigen BSA interacting with antibody IgG1, which provides a large sensor response. The second type is the enzyme carbonic anhydrase interacting with the tumor growth inhibitor benzenesulfonamide, which produces a small sensor response. For both types of interaction we consider the use of two-mode Fock states, squeezed vacuum states and squeezed displaced states. We find that these quantum states offer an enhancement in the measurement precision of kinetic parameters when compared to that obtained with classical light. The results may help in the design of more precise quantum-based sensors for studying kinetics in the life sciences.
翻訳日:2023-03-22 11:36:39 公開日:2022-05-13
# スパース量子コードの論理誤差率について

On the logical error rate of sparse quantum codes ( http://arxiv.org/abs/2108.10645v4 )

ライセンス: Link先を確認
Patricio Fuentes, Josu Etxezarreta Martinez, Pedro M. Crespo, and Javier Garcia-Frias(参考訳) 量子パラダイムは、量子誤り訂正符号の性能を改善するデジェネラシーとして知られる現象を示す。 しかし、このメカニズムの効果は、スパース量子符号の性能を評価する際に無視されることもあり、論理的エラー率は常に正しく報告されるとは限らない。 本稿では,従来からの論理誤差率計算手法を考察し,古典的符号化戦略に触発された効率の良いコセットベース手法を提案する。 さらに,提案手法はカルダーバンク・ソール・ステアン符号の系統に対して計算上有利であることを示す。 我々は,この手法を用いて,分散量子コードの特定のファミリーにおいて,退化エラーが頻繁に発生することを証明し,その性能を正確に報告することの重要性を強調する。 また,本論文で提案する復号化戦略は,スパース量子符号の性能向上のための重要なツールであることも明らかにした。

The quantum paradigm presents a phenomenon known as degeneracy that should improve the performance of quantum error correcting codes. However, the effects of this mechanism are sometimes ignored when evaluating the performance of sparse quantum codes and the logical error rate is not always correctly reported. In this paper, we discuss previously existing methods to compute the logical error rate and we present an efficient coset-based method inspired by classical coding strategies to estimate degenerate errors. Additionally, we show that the proposed method presents a computational advantage for the family of Calderbank-Shor-Steane codes. We use this method to prove that degenerate errors are frequent in a specific family of sparse quantum codes, which stresses the importance of accurately reporting their performance. Our results also reveal that the modified decoding strategies proposed in the literature are an important tool to improve the performance of sparse quantum codes.
翻訳日:2023-03-17 07:47:51 公開日:2022-05-13
# 量子コンピューティング フロケバンド構造

Quantum computing Floquet band structures ( http://arxiv.org/abs/2112.04276v2 )

ライセンス: Link先を確認
Benedikt Fauseweh, Jian-Xin Zhu(参考訳) 量子システムは、時間周期の外部フィールドを使用して動的に制御できるため、将来性のある技術応用を備えたフロケット工学の概念が導かれる。 Floquetバンド構造の計算は、基底状態特性や単一時間依存軌道の計算よりも難しく、ヒルベルト空間次元と指数関数的にスケールする。 特に低周波数限界の強い相関系では、トランケーションに基づく古典的アプローチが故障する。 本稿では,Floquetモードとバンド構造を決定する2つの量子アルゴリズムを提案する。 時間領域と周波数領域におけるフロッケモードの定義特性とパラメータ化された量子回路の表現性を組み合わせて古典的アプローチの限界を克服する。 我々はアルゴリズムをベンチマークし、短期量子ハードウェアに関連する重要な特性を解析する。

Quantum systems can be dynamically controlled using time-periodic external fields, leading to the concept of Floquet engineering, with promising technological applications. Computing Floquet band structures is harder than only computing ground state properties or single time-dependent trajectories, and scales exponentially with the Hilbert space dimension. Especially for strongly correlated systems in the low frequency limit, classical approaches based on truncation break down. Here, we present two quantum algorithms to determine effective Floquet modes and band structures. We combine the defining properties of Floquet modes in time and frequency domains with the expressiveness of parameterized quantum circuits to overcome the limitations of classical approaches. We benchmark our algorithms and provide an analysis of the key properties relevant for near-term quantum hardware.
翻訳日:2023-03-05 03:13:02 公開日:2022-05-13
# ダイヤモンド中の$\rm {}^{29}SiV^{-}$核スピンの間接制御

Indirect Control of the $\rm {}^{29}SiV^{-}$ Nuclear Spin in Diamond ( http://arxiv.org/abs/2203.10283v2 )

ライセンス: Link先を確認
Hyma H. Vallabhapurapu, Chris Adambukulam, Andre Saraiva, Arne Laucht(参考訳) ダイヤモンドの中心にある$^{29}$SiV$^{-}$中心の電子スピンのコヒーレント制御と光学的読み出しは、メモリノードやスピン量子ビットとしての実装にエキサイティングな期待をもって、文献で実証されている。 核スピンは、長いコヒーレンス時間のために量子情報処理の多くの応用にさらに適しているかもしれない。 従来のNMR技術を用いた$^{29}$SiV$^{-}$核スピンの制御は、核スピンの低いジャイロ磁気比のために遅いキロヘルツ速度で実現可能である。 本研究では、電子スピン軌道効果を用いた間接制御が、$^{29}$Si核スピンの高速かつメガヘルツ制御にどのように応用できるかを理論的に示す。 我々は、核スピンの先行周波数がゲート時間に与える影響と、全ての光核スピン制御のエキサイティングな可能性について論じる。

Coherent control and optical readout of the electron spin of the $^{29}$SiV$^{-}$ center in diamond has been demonstrated in literature, with exciting prospects for implementations as memory nodes and spin qubits. Nuclear spins may be even better suited for many applications in quantum information processing due to their long coherence times. Control of the $^{29}$SiV$^{-}$ nuclear spin using conventional NMR techniques is feasible, albeit at slow kilohertz rates due to the nuclear spin's low gyromagnetic ratio. In this work we theoretically demonstrate how indirect control using the electron spin-orbit effect can be employed for high-speed, megahertz control of the $^{29}$Si nuclear spin. We discuss the impact of the nuclear spin precession frequency on gate times and the exciting possibility of all optical nuclear spin control.
翻訳日:2023-02-21 08:43:20 公開日:2022-05-13
# オープン量子システムにおける浮動状態

Floquet States in Open Quantum Systems ( http://arxiv.org/abs/2203.16358v2 )

ライセンス: Link先を確認
Takashi Mori(参考訳) フロッケ工学において、周期駆動は熱平衡に到達できない新しい物質相を実現するために用いられる。 この目的のために、フロケ理論は静的有効ハミルトニアンを得るためのレシピを提供する。 既存の作品の多くは閉体系を扱っているが、自然界に普遍的な散逸の効果を考えることは重要である。 周期駆動と散逸の相互作用を理解することは、非平衡統計物理学の基本的な問題であるだけでなく、実験的な進歩によって制御可能な方法で散逸を工学できるという事実から、関心が高まりつつある。 本稿では,開束系に対する量子マスター方程式の形式論に関する詳細な説明を行い,平衡統計力学がフロケット状態に適用できるかどうかを考察する最近の研究を強調する。

In Floquet engineering, periodic driving is used to realize novel phases of matter which are inaccessible in thermal equilibrium. For this purpose, the Floquet theory provides us a recipe of obtaining a static effective Hamiltonian. Although many existing works have treated closed systems, it is important to consider the effect of dissipation, which is ubiquitous in nature. Understanding interplay of periodic driving and dissipation is not only a fundamental problem of nonequilibrium statistical physics, but also receiving growing interest because of the fact that experimental advances have allowed us to engineer dissipation in a controllable manner. In this review, we give a detailed exposition on the formalism of quantum master equations for open Floquet systems and highlight recent works investigating whether equilibrium statistical mechanics applies to Floquet states.
翻訳日:2023-02-20 07:04:45 公開日:2022-05-13
# the art of compensation: ハイブリッドチームが集団的リスクジレンマを解決する方法

The art of compensation: how hybrid teams solve collective risk dilemmas ( http://arxiv.org/abs/2205.06632v1 )

ライセンス: Link先を確認
In\^es Terrucha, Elias Fern\'andez Domingos, Francisco C. Santos, Pieter Simoens and Tom Lenaerts(参考訳) 人類が協力する能力が我々の種の繁栄にどのように影響したかは広く知られている。 しかし、人間と機械のハイブリッド化が進むにつれ、私たちの社会的相互作用におけるAIエージェントの導入がこの協調能力にどのように影響するかは、まだ不明である。 集団的災害を避けるためにグループの十分なメンバーが協力しなければならないワンショット集団的リスクジレンマの文脈において,適応型と固定型の両方のエージェントからなるハイブリッド集団における協調の進化ダイナミクスを考察する。 具体的には、まず最初に、後者の振る舞いを補うために行動に適応する方法を示す。 特にリスクが高い場合は、(技術的に)固定されたエージェントが協力する機会が少なくなるほど、適応的な人口が協力するモチベーションが高まる。 固定行動エージェントが協調政策を実行する場合、適応エージェントが費用対効果の共有を避ける方法を示すことにより、本研究はバランスの取れないハイブリッド世界に向けて示唆する。 これは、我々の社会に協力的なAIエージェントを導入することが、人間の努力を損なう可能性があることを意味している。 それでも、コストレスな人工協調は現実的ではなく、協調作業を行うAIシステムを展開することよりも、ハイブリッドシステム内のすべてのメンバ間で協力を共有するメカニズムに注力する必要があることに注意する必要がある。

It is widely known how the human ability to cooperate has influenced the thriving of our species. However, as we move towards a hybrid human-machine future, it is still unclear how the introduction of AI agents in our social interactions will affect this cooperative capacity. Within the context of the one-shot collective risk dilemma, where enough members of a group must cooperate in order to avoid a collective disaster, we study the evolutionary dynamics of cooperation in a hybrid population made of both adaptive and fixed-behavior agents. Specifically, we show how the first learn to adapt their behavior to compensate for the behavior of the latter. The less the (artificially) fixed agents cooperate, the more the adaptive population is motivated to cooperate, and vice-versa, especially when the risk is higher. By pinpointing how adaptive agents avoid their share of costly cooperation if the fixed-behavior agents implement a cooperative policy, our work hints towards an unbalanced hybrid world. On one hand, this means that introducing cooperative AI agents within our society might unburden human efforts. Nevertheless, it is important to note that costless artificial cooperation might not be realistic, and more than deploying AI systems that carry the cooperative effort, we must focus on mechanisms that nudge shared cooperation among all members in the hybrid system.
翻訳日:2023-02-19 16:51:38 公開日:2022-05-13
# これをツイートしましょうか? Twitter上での公衆衛生メッセージの受信予測のための生成応答モデル

Should we tweet this? Generative response modeling for predicting reception of public health messaging on Twitter ( http://arxiv.org/abs/2204.04353v2 )

ライセンス: Link先を確認
Abraham Sanders, Debjani Ray-Majumder, John S. Erickson, Kristin P. Bennett(参考訳) ソーシャルメディア上で公衆衛生機関からメッセージに反応する方法は、特にCOVID-19のような世界的な危機において、重要な健康問題に対する公衆の認識に洞察を与えることができる。 米国疾病予防管理センター(cdc)や世界保健機関(who)のようなハイインパクトな組織にとって、これらの認識がメッセージの受信と健康政策の推奨にどのように影響するかを理解するのに有用である。 公衆衛生メッセージの2つのデータセットと、covid-19とワクチンに関するtwitterからの回答を収集し、これらのメッセージの受信可能性を調べるための予測方法を紹介する。 具体的には、生成モデル(GPT-2)を用いて、予測可能な将来の反応を直接予測し、重要な健康ガイダンスの受信を最適化する方法を実証する。 最後に,本モデルが実際の公衆衛生反応における意味と感情を捉えていることを結論付けるために,広範な統計テストを用いた新しい評価手法を提案する。

The way people respond to messaging from public health organizations on social media can provide insight into public perceptions on critical health issues, especially during a global crisis such as COVID-19. It could be valuable for high-impact organizations such as the US Centers for Disease Control and Prevention (CDC) or the World Health Organization (WHO) to understand how these perceptions impact reception of messaging on health policy recommendations. We collect two datasets of public health messages and their responses from Twitter relating to COVID-19 and Vaccines, and introduce a predictive method which can be used to explore the potential reception of such messages. Specifically, we harness a generative model (GPT-2) to directly predict probable future responses and demonstrate how it can be used to optimize expected reception of important health guidance. Finally, we introduce a novel evaluation scheme with extensive statistical testing which allows us to conclude that our models capture the semantics and sentiment found in actual public health responses.
翻訳日:2023-02-19 16:13:48 公開日:2022-05-13
# アルゴリズム社会における説明責任:機械学習における関係性、責任性、ロバスト性

Accountability in an Algorithmic Society: Relationality, Responsibility, and Robustness in Machine Learning ( http://arxiv.org/abs/2202.05338v3 )

ライセンス: Link先を確認
A. Feder Cooper and Emanuel Moss and Benjamin Laufer and Helen Nissenbaum(参考訳) 1996年,コンピュータ社会におけるアカウンタビリティ [95] は,コンピュータシステムへの連続関数のユビキタスな委譲による社会におけるカウンタビリティの侵食に関する宣言を発した。 Nissenbaum [95]は、コンピュータ化が提示した説明責任に対する4つの障壁について説明した。 nissenbaum氏の最初の論文は、モラル哲学の障壁に関する議論を基礎としている。我々はこの分析を、最近の関係説明責任フレームワークに関する奨学金とともに、データ駆動アルゴリズムシステムで実践される統合モラル、リレーショナルフレームワークのインスタンス化がいかに困難であるかを議論する。 我々は、それをするために障壁を弱める方法を議論することで締めくくります。

In 1996, Accountability in a Computerized Society [95] issued a clarion call concerning the erosion of accountability in society due to the ubiquitous delegation of consequential functions to computerized systems. Nissenbaum [95] described four barriers to accountability that computerization presented, which we revisit in relation to the ascendance of data-driven algorithmic systems--i.e., machine learning or artificial intelligence--to uncover new challenges for accountability that these systems present. Nissenbaum's original paper grounded discussion of the barriers in moral philosophy; we bring this analysis together with recent scholarship on relational accountability frameworks and discuss how the barriers present difficulties for instantiating a unified moral, relational framework in practice for data-driven algorithmic systems. We conclude by discussing ways of weakening the barriers in order to do so.
翻訳日:2023-02-19 14:50:28 公開日:2022-05-13
# マトリックスの絡み合い

Matrix Entanglement ( http://arxiv.org/abs/2204.06472v2 )

ライセンス: Link先を確認
Vaibhav Gautam, Masanori Hanada, Antal Jevicki and Cheng Peng(参考訳) ゲージ/重力双対性において、ゲージ理論側の行列自由度は創発幾何学において重要な役割を果たす。 本稿では,重力面の絡み合いを行列の自由度間の絡み合いとして記述する方法について述べる。 私たちのアプローチは「行列の絡み合い」と呼ばれ、最近提案・議論された「対象空間の絡み合い」とは異なる。 我々は、このアプローチが重要な役割を果たす量子状態のクラスをいくつか考慮する。 ファジィ球面に適用すると、行列の絡み合いは、通常の空間的絡み合いを、正規化された設定で非摂動的に2ブレーンまたは5ブレーンの世界体積理論で定義することができる。 別の応用として、ads5*s5の小さなブラックホールは、熱浴に付着せずに蒸発することができる。 部分的に抑圧された州の制限された自由度が重要な役割を担っている。

In gauge/gravity duality, matrix degrees of freedom on the gauge theory side play important roles for the emergent geometry. In this paper, we discuss how the entanglement on the gravity side can be described as the entanglement between matrix degrees of freedom. Our approach, which we call 'matrix entanglement', is different from 'target-space entanglement' proposed and discussed recently by several groups. We consider several classes of quantum states to which our approach can play important roles. When applied to fuzzy sphere, matrix entanglement can be used to define the usual spatial entanglement in two-brane or five-brane world-volume theory nonperturbatively in a regularized setup. Another application is to a small black hole in AdS5*S5 that can evaporate without being attached to a heat bath, for which our approach suggests a gauge theory origin of the Page curve. The confined degrees of freedom in the partially-deconfined states play the important roles.
翻訳日:2023-02-17 02:44:34 公開日:2022-05-13
# ショアアルゴリズムにおける連続的フラクチャーと確率推定 -詳細と自己完結処理-

Continued Fractions and Probability Estimations in the Shor Algorithm -- A Detailed and Self-Contained Treatise ( http://arxiv.org/abs/2205.01925v2 )

ライセンス: Link先を確認
Johanna Barzen, Frank Leymann(参考訳) 素因数分解のためのshorのアルゴリズムは、量子部分と古典部分からなるハイブリッドアルゴリズムである。 古典的部分の主な焦点は連続的な分数解析である。 この表現はしばしば短く、数論に関する教科書を指している。 本稿では,このギャップを埋めるために,連続分数の理論による関連する結果と証明を(テキストブックよりも詳細であっても)詳細に提示し,shorのアルゴリズムの完全な理解を可能にする。 同様に、収束者が素因数を決定するのに必要な時間を提供する確率の推定の詳細な計算も提供する。

The algorithm of Shor for prime factorization is a hybrid algorithm consisting of a quantum part and a classical part. The main focus of the classical part is a continued fraction analysis. The presentation of this is often short, pointing to text books on number theory. In this contribution, we present the relevant results and proofs from the theory of continued fractions in detail (even in more detail than in text books) filling the gap to allow a complete comprehension of the algorithm of Shor. Similarly, we provide a detailed computation of the estimation of the probability that convergents will provide the period required for determining a prime factor.
翻訳日:2023-02-14 09:16:23 公開日:2022-05-13
# 粒子はいつ到着しますか。

When does a particle arrive? ( http://arxiv.org/abs/2205.02219v3 )

ライセンス: Link先を確認
Simone Roncallo, Krzysztof Sacha and Lorenzo Maccone(参考訳) 本論文では, 検出器における量子粒子の到着時刻を計測するために, 文献に現れた様々な提案を比較した。 異なる提案が非等価で実験的に判別可能な予測を与える複数のレジームが存在することを示す。 この分析は将来の実験的テストの道を開く。

We compare the different proposals that have appeared in the literature to describe a measurement of the time of arrival of a quantum particle at a detector. We show that there are multiple regimes where different proposals give inequivalent, experimentally discriminable, predictions. This analysis paves the way for future experimental tests.
翻訳日:2023-02-14 08:57:22 公開日:2022-05-13
# 電流キャリング量子ドットシミュレータにおける電荷時間結晶の創発と動的安定性

Emergence and Dynamical Stability of Charge Time-Crystal in a Current-Carrying Quantum Dot Simulator ( http://arxiv.org/abs/2205.06441v1 )

ライセンス: Link先を確認
Subhajit Sarkar and Yonatan Dubi(参考訳) 周期的に駆動されるオープン量子システムは、量子情報処理アプリケーションで期待されている非平衡量子現象である離散時間結晶挙動を示す。 時間結晶度の測定は現在、原子キャビティ系とスピン系における(マグネト-)光学実験に限られており、間接測定となっている。 理論的には、量子ドットアレイ上でシミュレートできるスピンレスハバードはしごからの電荷電流において、時間結晶性を直接測定できることが示される。 システムを動的にチューニングし, 時間結晶相に戻すことで, 外部からの強制に対して頑健性が証明できることを示す。 これらの結果は、現在のナノスケールシステムにおける時間結晶現象をシミュレートするための、さらなる理論的および実験的取り組みの動機となった。

Periodically-driven open quantum systems that never thermalize exhibit a discrete time-crystal behavior, a non-equilibrium quantum phenomenon that has shown promise in quantum information processing applications. Measurements of time-crystallinity are currently limited to (magneto-) optical experiments in atom-cavity systems and spin-systems making it an indirect measurement. We theoretically show that time-crystallinity can be measured directly in the charge-current from a spin-less Hubbard ladder, which can be simulated on a quantum-dot array. We demonstrate that one can dynamically tune the system out and then back into the time-crystal phase, proving its robustness against external forcings. These findings motivate further theoretical and experimental efforts to simulate the time-crystal phenomena in current-carrying nano-scale systems.
翻訳日:2023-02-13 07:08:43 公開日:2022-05-13
# 製品計測による量子グラフ状態の学習

Learning quantum graph states with product measurements ( http://arxiv.org/abs/2205.06432v1 )

ライセンス: Link先を確認
Yingkai Ouyang and Marco Tomamichel(参考訳) 我々は、未知の$n$-qubit量子グラフ状態の同一コピーを製品測定で学習する問題を考察する。 これらのグラフ状態は対応するグラフを持ち、すべての頂点はちょうど$d$隣接頂点を持つ。 本稿では、これらのグラフ状態の複数の同一コピー上で製品計測を用いて学習する明示的なアルゴリズムについて詳述する。 $n \gg d$ と $N = O(d \log(1/\epsilon) + d^2 \log n ) のとき、$ は確率 1- \epsilon$ のグラフ状態を正しく学習する。 チャネル符号化理論から、グラフ状態上の任意の関節測定において、この精度を達成する学習アルゴリズムには少なくとも$\Omega(\log (1/\epsilon) + d \log n)$ copy if $d=o(\sqrt n)$ が必要であることが分かる。 また、各グラフ状態が各キュービット上で同一かつ独立な非分極誤差に遭遇した場合、$N$のバウンダリも提供します。

We consider the problem of learning $N$ identical copies of an unknown $n$-qubit quantum graph state with product measurements. These graph states have corresponding graphs where every vertex has exactly $d$ neighboring vertices. Here, we detail an explicit algorithm that uses product measurements on multiple identical copies of such graph states to learn them. When $n \gg d$ and $N = O(d \log(1/\epsilon) + d^2 \log n ),$ this algorithm correctly learns the graph state with probability at least $1- \epsilon$. From channel coding theory, we find that for arbitrary joint measurements on graph states, any learning algorithm achieving this accuracy requires at least $\Omega(\log (1/\epsilon) + d \log n)$ copies when $d=o(\sqrt n)$. We also supply bounds on $N$ when every graph state encounters identical and independent depolarizing errors on each qubit.
翻訳日:2023-02-13 07:08:29 公開日:2022-05-13
# cp分解に基づくジェネリックマルチ量子ビットの局所ユニタリ等価性

Local unitary equivalence of generic multi-qubits based on the CP decomposition ( http://arxiv.org/abs/2205.06422v1 )

ライセンス: Link先を確認
Jingmei Chang, Naihuan Jing(参考訳) CANDECOMP/PARAFAC(CP)分解は、行列の高次テンソルへのスペクトル分解の一般化である。 本稿では、CP分解を用いて高階テンソルのユニタリ同値を研究し、一般高階テンソルに対する局所ユニタリ同値のいくつかの不変量を構築する。 この新しい手法により,3$-qubit状態の係数テンソルを解析し,CP分解の観点から一般三部体状態の局所的ユニタリ同値に対する必要十分かつ十分な基準を求める。 また、この手法を一般化して、一般の多成分quditsに対する局所ユニタリ同値の不変量を得る。

The CANDECOMP/PARAFAC (CP) decomposition is a generalization of the spectral decomposition of matrices to higher-order tensors. In this paper we use the CP decomposition to study unitary equivalence of higher order tensors and construct several invariants of local unitary equivalence for general higher order tensors. Based on this new method, we study the coefficient tensors of $3$-qubit states and obtain a necessary and sufficient criterion for local unitary equivalence of general tripartite states in terms of the CP decomposition. We also generalize this method to obtain some invariants of local unitary equivalence for general multi-partite qudits.
翻訳日:2023-02-13 07:07:48 公開日:2022-05-13
# 三成分量子系の量子ディスコード

Quantum discords of tripartite quantum systems ( http://arxiv.org/abs/2205.06414v1 )

ライセンス: Link先を確認
Jianming Zhou, Xiaoli Hu, Naihuan Jing(参考訳) バイパルタイト系の量子不協和は、非古典的相関の最もよく知られた尺度の1つであり、重要な量子資源である。 最近の研究は[Phys. Lett 2020, 124:110401]に現れ、量子不協和はマルチパーティライト系に一般化された。 本稿では,14個のパラメータを持つ三成分状態に対する量子ディスコードの解析解を与える。

The quantum discord of bipartite systems is one of the best-known measures of non-classical correlations and an important quantum resource. In the recent work appeared in [Phys. Rev. Lett 2020, 124:110401], the quantum discord has been generalized to multipartite systems. In this paper, we give analytic solutions of the quantum discord for tripartite states with fourteen parameters.
翻訳日:2023-02-13 07:07:36 公開日:2022-05-13
# ヘルツベルク・テラー振動子結合を用いた非コンドン分光の相関駆動・散逸方程式

Correlated driving-and-dissipation equation for non-Condon spectroscopy with the Herzberg-Teller vibronic coupling ( http://arxiv.org/abs/2205.06413v1 )

ライセンス: Link先を確認
Jie Fang, Zi-Hao Chen, Yao Wang, Rui-Xue Xu, YiJing Yan(参考訳) 相関駆動散逸方程式(corelated driving-and-dissipation equation, CODDE)は最適化された完全2階量子散逸法である。 しかし、統計準粒子量子散逸形式である運動方程式(dissipaton-equation-of-motion theory)の助けを借りて、CODDEから実際にハイブリダイズされた浴場力学を抽出することができる。 1{ディシパトン理論として扱われ、コッデは双極子場相互作用におけるヘルツベルグ-テラービブロンカップリングを扱うためにうまく拡張される。 デモは、モデルダイマーシステムの非コンドン分光で実施される。

Correlated driving-and-dissipation equation (CODDE) is an optimized complete second-order quantum dissipation approach, which is originally concerned with the reduced system dynamics only. However, one can actually extract the hybridized bath dynamics from CODDE with the aid of dissipaton-equation-of-motion theory, a statistical quasi-particle quantum dissipation formalism. Treated as an one{dissipaton theory, CODDE is successfully extended to deal with the Herzberg-Teller vibronic couplings in dipole-field interactions. Demonstrations will be carried out on the non-Condon spectroscopies of a model dimer system.
翻訳日:2023-02-13 07:07:26 公開日:2022-05-13
# 絡み目のない半量子プライベート比較測定

Measure-resend semi-quantum private comparison without entanglement ( http://arxiv.org/abs/2205.06408v1 )

ライセンス: Link先を確認
Tian-Yu Ye, Chong-Qiang Ye(参考訳) 本稿では,量子第三者(TP)の助けを借りて,従来の2人のユーザがプライベートシークレットの等価性を比較できる初期準備量子リソースとして2粒子積状態を用いて,半量子プライベート比較(SQPC)プロトコルを測度特性で設計することに成功した。 量子TPは、自分自身で誤動作を許されるが、どちらのユーザーとも共謀できないという意味では、半正直である。 出力の正確性と外部攻撃に対するセキュリティと参加者攻撃の両方を保証できる。 従来のsqpcプロトコルと比較して,本プロトコルの利点は,初期準備された量子資源として2粒子の積状態のみを使用し,単光子測定を行うにはtpのみが必要であり,量子エンタングルメントスワップは不要である。 我々のプロトコルは現在の量子技術で実現できる。

In this paper, we successfully design the semi-quantum private comparison (SQPC) protocol with the measure-resend characteristic by using two-particle product states as the initial prepared quantum resource which allows two classical users to compare the equality of their private secrets under the help of a quantum third party (TP). The quantum TP is semi-honest in the sense that he is allowed to misbehave on his own but cannot conspire with either of users. Both the output correctness and the security against the outside attack and the participant attack can be guaranteed. Compared with the previous SQPC protocols, the advantage of our protocol lies in that it only employs two-particle product states as the initial prepared quantum resource, only requires TP to perform single-photon measurements and does not need quantum entanglement swapping. Our protocol can be realized with current quantum technologies.
翻訳日:2023-02-13 07:07:11 公開日:2022-05-13
# dレベル単一粒子状態とサイズ関係の多面的量子プライベート比較

Multi-party quantum private comparison of size relation with d-level single-particle states ( http://arxiv.org/abs/2205.06406v1 )

ライセンス: Link先を確認
Chong-Qiang Ye, Tian-Yu Ye(参考訳) 本稿では,dレベル単一粒子状態を用いて,2つの半高位第三者と1つの半高位第三者との比較を行う,新しい2つの量子プライベート比較プロトコルを構築した。 ここでは、各プロトコルは1回の実行で同等ではなく、n個のパーティから秘密整数のサイズ関係を比較することができる。 それぞれのプロトコルにおいて、すべての第三者は、彼女が自分自身で誤った振る舞いをする可能性があるという意味では、半正直であると仮定されるが、他人と共謀することは許されない。 各プロトコルは外部攻撃と参加者攻撃の両方に抵抗することができる。 特に、各党の秘密の整数は、他の党や第三者に知られてはならない。 2つのサードパーティによるプロトコルは、通信がなく、各パーティ間で事前共有鍵がないため、見知らぬ環境で動作可能である。 提案されたサードパーティとのプロトコルは、すべてのパーティが事前に共通の秘密鍵を共有する必要があるため、知り合い環境で動作可能である。

In this paper, by using d-level single-particle states, two novel multi-party quantum private comparison protocols for size relation comparison with two semi-honest third parties and one semi-honest third party are constructed, respectively. Here, each protocol can compare the size relation of secret integers from n parties rather than just the equality within one time execution. In each protocol, every third party is assumed to be semi-honest in the sense that she may misbehave on her own but is not allowed to collude with anyone else; and each party employs the qudit shifting operation to encode her secret integer. Each protocol can resist both the outside attack and the participant attack. Specially, each party's secret integer can be kept unknown to other parties and the third parties. The proposed protocol with two third parties is workable in a stranger environment, as there are no communication and no pre-shared key between each pair of party. The proposed protocol with one third party is workable in an acquaintance environment, as all parties need to share a common private key beforehand.
翻訳日:2023-02-13 07:06:56 公開日:2022-05-13
# Hardy と Clauser-Horne-Shimony-Holt の幾何学的関係

The geometric link between Hardy and Clauser-Horne-Shimony-Holt ( http://arxiv.org/abs/2205.06606v1 )

ライセンス: Link先を確認
Johannes Seiler, Thomas Strohm and Wolfgang P. Schleich(参考訳) ハーディ非局所性条件は,CHSH不等式に制約を加えることと等価であることを示す。 我々はCHSHの不等式違反の幾何学的最適化をこれらの追加制約に適応させ、ハーディ条件が三角形の2辺の長さ差の最適化に等しいことを示す。 さらに,異なる制約の効果についても検討する。

We show that the Hardy nonlocality condition is equivalent to the violation of the CHSH inequality with additional constraints. We adapt the geometrical optimization of the violation of the CHSH inequality to these additional constraints and show that the Hardy condition is equivalent to optimizing the length difference of two sides in a triangle. Furthermore, we discuss the effects of the different constraints.
翻訳日:2023-02-13 07:01:41 公開日:2022-05-13
# 完全因果化アドベンチャー:非境界状態への有望なアプローチ

Exact Factorization Adventures: A Promising Approach for Non-bound States ( http://arxiv.org/abs/2205.06601v1 )

ライセンス: Link先を確認
Evaristo Villaseco Arribas, Federica Agostini, and Neepa T. Maitra(参考訳) 分子内の非結合状態のダイナミクスをモデル化するには、電子運動が原子核の動きや逆数にどのように影響するかを正確に記述する必要がある。 精密因子化 (clear factorization, xf) アプローチは、核サブシステムまたは電子サブシステムに作用するポテンシャルを提供し、他のサブシステムとの正確な結合の効果を含むという、ユニークな視点を提供する。 異なる領域におけるxfアイデアの様々な応用と、これらのポテンシャルの特徴が2つの異なるレーザー駆動解離機構の解釈にどのように役立つかを簡単に検討する。 本稿では,最近開発されたxf型混合量子古典近似における結合項の評価について,結合を模倣する真の結合軌道や補助軌道を用いる場合と,表面ホッピングフレームワークと厳密に派生した結合軌道混合量子古典的手法の両方における結合項の効果について詳細に検討する。

Modeling the dynamics of non-bound states in molecules requires an accurate description of how electronic motion affects nuclear motion and vice-versa. The exact factorization (XF) approach offers a unique perspective, in that it provides potentials that act on the nuclear subsystem or electronic subsystem, which contain the effects of the coupling to the other subsystem in an exact way. We briefly review the various applications of the XF idea in different realms, and how features of these potentials aid in the interpretation of two different laser-driven dissociation mechanisms. We present a detailed study of the different ways the coupling terms in recently-developed XF-based mixed quantum-classical approximations are evaluated, where either truly coupled trajectories, or auxiliary trajectories that mimic the coupling are used, and discuss their effect in both a surface-hopping framework as well as the rigorously-derived coupled-trajectory mixed quantum-classical approach.
翻訳日:2023-02-13 07:01:25 公開日:2022-05-13
# スペクトル復調法による高速走査窒素空力磁気測定

Fast scanning nitrogen-vacancy magnetometry by spectrum demodulation ( http://arxiv.org/abs/2205.06579v1 )

ライセンス: Link先を確認
P. Welter, B. A. Josteinsson, S. Josephy, A. Wittmann, A. Morales, G. Puebla-Hellmann, and C. L. Degen(参考訳) 走査型窒素空心磁力計におけるデータ取得速度を大幅に向上させるスペクトル復調法を示す。 本手法は、高速で広帯域の周波数スイープによる電子スピン共鳴の周期的励起と光発光信号の位相同期検出を組み合わせたものである。 この方法は周波数フィードバックによって拡張でき、スピン共鳴のリアルタイム追跡を実現することができる。 高速走査磁気測定は、強磁性体や強磁性体など、信号のダイナミックレンジが大きい試料に特に有用である。 我々は,反強磁性体$\alpha$-Fe$_2$O$_3$(ヘマタイト)を最大100\,Hz,画像分解能を1メガピクセル以上でマッピングすることで,この手法を実証する。

We demonstrate a spectrum demodulation technique for greatly speeding up the data acquisition rate in scanning nitrogen-vacancy center magnetometry. Our method relies on a periodic excitation of the electron spin resonance by fast, wide-band frequency sweeps combined with a phase-locked detection of the photo-luminescence signal. The method can be extended by a frequency feedback to realize real-time tracking of the spin resonance. Fast scanning magnetometry is especially useful for samples where the signal dynamic range is large, of order millitesla, like for ferro- or ferrimagnets. We demonstrate our method by mapping stray fields above the model antiferromagnet $\alpha$-Fe$_2$O$_3$ (hematite) at pixel rates of up to 100\,Hz and an image resolution exceeding one megapixel.
翻訳日:2023-02-13 07:00:43 公開日:2022-05-13
# 動的運動不変量を用いた可変結合トランスモンの量子制御

Quantum control of tunable-coupling transmons using dynamical invariants of motion ( http://arxiv.org/abs/2205.06555v1 )

ライセンス: Link先を確認
Hilario Espin\'os, Iv\'an Panadero, Juan Jos\'e Garc\'ia-Ripoll, Erik Torrontegui(参考訳) 可変結合を持つ2つのトランスモンキュービット間の高速断熱型czゲートの実装を解析した。 ゲート制御法は動的不変量の理論に基づいており、デコヒーレンスに対するリークとロバスト性を減少させる。 このゲートは6つの最低エネルギー状態を持つ実効ハミルトニアンを用いて、$|11\rangle$と$|20\rangle$の間の共鳴の説明に基づいている。 不変量法の修正により、この有効モデルの高次摂動補正を考慮に入れることができる。 これによりゲート忠実度は他の準断熱プロトコルよりも数桁高くなり、ゲートタイムは理論上の限界に近づく。

We analyse the implementation of a fast nonadiabatic CZ gate between two transmon qubits with tuneable coupling. The gate control method is based on a theory of dynamical invariants which leads to reduced leakage and robustness against decoherence. The gate is based on a description of the resonance between the $|11\rangle$ and $|20\rangle$ using an effective Hamiltonian with the 6 lowest energy states. A modification of the invariants method allows us to take into account the higher-order perturbative corrections of this effective model. This enables a gate fidelity several orders of magnitude higher than other quasiadiabatic protocols, with gate times that approach the theoretical limit.
翻訳日:2023-02-13 07:00:28 公開日:2022-05-13
# マルチタイム計測による非マルコフ開量子進化の再構成

Reconstructing Non-Markovian Open Quantum Evolution From Multi-time Measurements ( http://arxiv.org/abs/2205.06521v1 )

ライセンス: Link先を確認
Chu Guo(参考訳) 非マルコフ開量子力学を行う量子システムにおいて,システムと環境が結合した最小の環境を再構築するマルチタイム計測に基づくトモグラフィーアルゴリズムを提示する。 再構成されたオープン量子進化モデルは、時間に依存しないと仮定された場合、システムの将来のダイナミクスを予測するために使用できる。 再構成の複雑さを特徴づける非マルコフ開量子力学のメモリサイズとメモリ複雑性を定義する。

For a quantum system undergoing non-Markovian open quantum dynamics, we demonstrate a tomography algorithm based on multi-time measurements of the system, which reconstructs a minimal environment coupled to the system, such that the system plus environment undergoes unitary evolution and that the reduced dynamics of the system is identical to the observed dynamics of it. The reconstructed open quantum evolution model can be used to predict any future dynamics of the system when it is further assumed to be time-independent. We define the memory size and memory complexity for the non-Markovian open quantum dynamics which characterize the complexity of the reconstruction.
翻訳日:2023-02-13 06:59:58 公開日:2022-05-13
# 自傷性感覚刺激による非予測的コーピングを可能にするエンボディメント

Embodiment Enables Non-Predictive Ways of Coping with Self-Caused Sensory Stimuli ( http://arxiv.org/abs/2205.06446v1 )

ライセンス: Link先を確認
James Garner and Matthew Egbert(参考訳) 生体システムは、適応行動を容易にするために感覚データを処理します。 与えられたセンサーは、内部活動の結果、または純粋に外部(環境)の源によって刺激される。 これらの入力は別々に処理されていることは明らかです。 この違いの正統的な説明は、脳が運動活動をもたらすシグナルを送ると、その信号のコピーを使って運動活動の知覚結果を予測することである。 予測された感覚入力は実際の感覚入力から減算され、刺激が減衰する。 この概念を批判的に評価し,非予測的解がいつ実現可能かを検討するために,自己起因型センサモジュレータダイナミクスを用いた簡易な具体化システムの計算モデルを実装し,このモデルにおいてコントローラがどのようにタスクを成功させるかを解析する。 これらの単純なシステムでは、自己因果入力を予測・フィルタリングする解よりも、自己因果入力を制御する行動を制御する解が出現する傾向がある。 場合によっては、解はこれらの自己原因入力の存在に依存する。

Living systems process sensory data to facilitate adaptive behaviour. A given sensor can be stimulated as the result of internally driven activity, or by purely external (environmental) sources. It is clear that these inputs are processed differently - have you ever tried tickling yourself? The canonical explanation of this difference is that when the brain sends a signal that would result in motor activity, it uses a copy of that signal to predict the sensory consequences of the resulting motor activity. The predicted sensory input is then subtracted from the actual sensory input, resulting in attenuation of the stimuli. To critically evaluate this idea, and investigate when non-predictive solutions may be viable, we implement a computational model of a simple embodied system with self-caused sensorimotor dynamics, and analyse how controllers successfully accomplish tasks in this model. We find that in these simple systems, solutions that regulate behaviour to control self-caused sensory inputs tend to emerge, rather than solutions which predict and filter out self-caused inputs. In some cases, solutions depend on the presence of these self-caused inputs.
翻訳日:2023-02-13 06:59:12 公開日:2022-05-13
# 偏光および空間モード自由度における単一光子を用いた半量子鍵分布

Semi-quantum key distribution with single photons in both polarization and spatial-mode degrees of freedom ( http://arxiv.org/abs/2205.06813v1 )

ライセンス: Link先を確認
Tian-Yu Ye, Hong-Kun Li, Jia-Li Hu(参考訳) 本稿では、偏光と空間モード自由度の両方の単一光子に基づく、新しい半量子鍵分布(sqkd)プロトコルを考案し、1つの量子コミュニケートと1つの古典コミュニケートの間の生の鍵を確立する。 提案されたsqkdプロトコルは、初期量子リソースとして1種類の量子状態のみを採用する。 詳細なセキュリティ分析により、インターセプト・リセンド攻撃、測度・リセンド攻撃、トロイの木馬攻撃、エンタングル・アタックといったeveの積極的な攻撃に抵抗できることが示されている。 提案されたSQKDプロトコルは、量子資源として偏光度と空間モード自由度の両方において単一の光子しか必要とせず、単一光子測定を用いる。 したがって、偏光度と空間モード自由度の両方における単一光子の調製と測定は、現在の量子技術で容易に達成できるため、優れた実現性を有する。

In this paper, a novel semi-quantum key distribution (SQKD) protocol is designed based on single photons in both polarization and spatial-mode degrees of freedom, which allows to establish a raw key between one quantum communicant and one classical communicant. The proposed SQKD protocol only adopts one kind of quantum state as the initial quantum resource. The detailed security analysis shows that it can resist Eve's active attacks, such as the intercept-resend attack, the measure-resend attack, the Trojan horse attack and the entangle-measure attack. The proposed SQKD protocol only needs single photons in both polarization and spatial-mode degrees of freedom as quantum resource and employs single-photon measurements. Thus, it has excellent feasibility, since the preparation and the measurement of a single photon in both polarization and spatial-mode degrees of freedom can be easily acheived with present quantum technologies.
翻訳日:2023-02-13 06:52:16 公開日:2022-05-13
# 弱計測と投影計測による時系列量子貯留層計算

Time Series Quantum Reservoir Computing with Weak and Projective Measurements ( http://arxiv.org/abs/2205.06809v1 )

ライセンス: Link先を確認
Pere Mujal, Rodrigo Mart\'inez-Pe\~na, Gian Luca Giorgi, Miguel C. Soriano and Roberta Zambrini(参考訳) 量子機械学習は、最近の量子貯水池コンピューティング(QRC)で提案されているように、データ処理のための有望な道であり、シーケンシャルな時間的データ分析の目的でもある。 いくつかのプラットフォームとノイズ中間スケール量子デバイスで動作可能なため、QRCはタイムリーなトピックとなっている。 しかし、まだ解決されていない課題は、シーケンシャルな時系列処理に必要な貯水池メモリを保持し、大きなヒルベルト空間で提供される量子優位性を保存する一方で、現実的なプロトコルに量子計測を効率的に組み込む方法である。 本研究では,理論的予測と数値解析により,異なる測定プロトコルを提案し,資源の観点からその効率を評価する。 本研究では,貯水池の量子性を利用して,2つの測定プロトコルを用いたメモリおよび予測タスクの理想的な性能が得られることを示す。 1つは、貯水池のフェーディングメモリによって決定されたダイナミクスの巻き戻し部分と、入力シーケンスの対応するデータを記憶し、もう1つは、必要なメモリを妨害することなく、情報を正確に抽出できるトレードオフでオンラインに動作している弱い測定値を用いる。 本研究は,効率のよいプロトコルの条件を確立し,量子システムを用いたオンライン時系列処理の実現可能性を示す。

Quantum machine learning represents a promising avenue for data processing, also for purposes of sequential temporal data analysis, as recently proposed in quantum reservoir computing (QRC). The possibility to operate on several platforms and noise intermediate-scale quantum devices makes QRC a timely topic. A challenge that has not been addressed yet, however, is how to efficiently include quantum measurement in realistic protocols, while retaining the reservoir memory needed for sequential time series processing and preserving the quantum advantage offered by large Hilbert spaces. In this work, we propose different measurement protocols and assess their efficiency in terms of resources, through theoretical predictions and numerical analysis. We show that it is possible to exploit the quantumness of the reservoir and to obtain ideal performance both for memory and forecasting tasks with two successful measurement protocols. One consists in rewinding part of the dynamics determined by the fading memory of the reservoir and storing the corresponding data of the input sequence, while the other employs weak measurements operating online at the trade-off where information can be extracted accurately and without hindering the needed memory. Our work establishes the conditions for efficient protocols, being the fading memory time a key factor, and demonstrates the possibility of performing genuine online time-series processing with quantum systems.
翻訳日:2023-02-13 06:51:59 公開日:2022-05-13
# 非線形性をもたない超放射光

Squeezed light generated with hyperradiance without nonlinearity ( http://arxiv.org/abs/2205.06752v1 )

ライセンス: Link先を確認
Jun Li and Chengjie Zhu and Yaping Yang(参考訳) 高速光キャビティと2つのコヒーレントに駆動された2レベル量子ビットからなる線形系において、高放射光を伴う励起光は量子干渉によって誘導される。 キャビティ内の立波の頂部とトラフに2つのクビットをそれぞれ配置した場合(すなわち、キャビティと逆の結合係数を持つ)、強い結合と弱い駆動条件下で、高放射能状態において、圧縮光が生成されることを示す。 同時に、クリシュコの基準は光子数が偶数か奇数であるときに単調に上下に交互に変化する。 また、駆動フィールドとキュービット間の周波数変調圧力を調整することにより、絞り光の直交角度を制御することができる。 これは様々な量子系で実装できるが、原子や単一モードのキャビティ内の量子ドットのような2段階のシステムに限定されない。

We propose that the squeezed light accompanied by hyperradiance is induced by quantum interference in a linear system consisting of a high quality optical cavity and two coherently driven two-level qubits. When two qubits are placed at the crest and trough of the standing wave in the cavity respectively (i.e., they have the opposite coupling coefficient to the cavity), we show that squeezed light is generated in the hyperradiance regime under the conditions of strong coupling and weak driving. Simultaneously, the Klyshko's criterion alternates up and down at unity when the photon number is even or odd. Moreover, the orthogonal angles of the squeezed light can be controlled by adjusting the frequency detuning pressure between the driving field and the qubits. It can be implemented in a variety of quantum systems, including but not limited to two-level systems such as atoms, quantum dots in single-mode cavities.
翻訳日:2023-02-13 06:51:34 公開日:2022-05-13
# 多重振幅制御雑音に対する確率的最適制御

Provably Optimal Control for Multiplicative Amplitude Control Noise ( http://arxiv.org/abs/2205.06741v1 )

ライセンス: Link先を確認
Colin J. Trout and Kevin Schultz and Paraj Titum and Leigh Norris and Gregory Quiroz and and B. David Clader(参考訳) 本稿では,時間相関乗法制御ノイズの影響を受け,量子系の最適制御系列を得る手法を提案する。 本研究では,[Phys. Rev. Research 3, 033229(2021)]で導入された回路レベルのノイズモデルを用いて,そのようなシーケンスを凸最適化問題にマッピングし,その凸性から従う最適性を保証する。 また,本手法は,より一般的なオフ軸時間相関雑音にも適合することを示す。 予測可能な最適性を失うにもかかわらず、このシナリオで数値的に最適化された制御シーケンスは、制御ノイズが強調された寄与に対して強い場合、ほぼ最適性能を達成することができる。 このアプローチは、イオントラップベースの量子コンピュータや高速制御の限界など、制御における振幅のドリフトによるノイズがデファーズに対して強いシステムにおける最適な量子論理ゲートの開発を可能にする。

We provide a technique to obtain provably optimal control sequences for quantum systems under the influence of time-correlated multiplicative control noise. Utilizing the circuit-level noise model introduced in [Phys. Rev. Research 3, 033229(2021)], we show that we can map the problem of finding such a sequence to a convex optimization problem with guaranteed optimality that follows from the convexity. We also show that this technique is compatible with more general off-axis time-correlated dephasing noise. In spite of losing provable optimality, numerically optimized control sequences under this scenario can still achieve nearly optimal performance when the control noise is strong relative to the dephasing contribution. This approach will enable the development of optimal quantum logic gates in systems where noise due to amplitude drifts in the control is strong relative to dephasing such as in ion-trap based quantum computers or in the limit of fast control.
翻訳日:2023-02-13 06:51:18 公開日:2022-05-13
# 動的写像と対称性

Dynamical maps and symmetroids ( http://arxiv.org/abs/2205.06734v1 )

ライセンス: Link先を確認
Florio M. Ciaglia, Fabio Di Cosmo, Alberto Ibort and Giuseppe Marmo(参考訳) 正準シンメトロイド $\mathcal{S}(G)$ を群イド $G$ に関連付けることから、量子力学への群イド的アプローチにおける動的写像を記述する問題に対処する。 標準シンメトロイド $\mathcal{s}(g)$ 上のハール測度を誘導した後、関連するフォン・ノイマン群代数が構成される。 左正則表現は群型 $g$ の群型代数上の線型写像を定義でき、与えられた関数の部分集合は完全正の写像に関連付けられる。 簡単な例もいくつか紹介されている。

Starting from the canonical symmetroid $\mathcal{S}(G)$ associated with a groupoid $G$, the issue of describing dynamical maps in the groupoidal approach to Quantum Mechanics is addressed. After inducing a Haar measure on the canonical symmetroid $\mathcal{S}(G)$, the associated von-Neumann groupoid algebra is constructed. It is shown that the left-regular representation allows to define linear maps on the groupoid-algebra of the groupoid $G$ and given subsets of functions are associated with completely positive maps. Some simple examples are also presented.
翻訳日:2023-02-13 06:51:00 公開日:2022-05-13
# 2次元qcdにおける空間的絡み合い:renyiとryu-takayanagi entropies

Spatial entanglement in two dimensional QCD: Renyi and Ryu-Takayanagi entropies ( http://arxiv.org/abs/2205.06724v1 )

ライセンス: Link先を確認
Yizhuang Liu, Maciej A. Nowak, Ismail Zahed(参考訳) 真空状態におけるレプリカ分割関数の一般式(ゲージ場の有無にかかわらずフェルミオンと相互作用する理論の大きいクラス)を導出し、光面の等時間公式を用いる。 この結果は2次元qcdにおける相互作用するディラックフェルミオンの空間的絡み合いの解析に用いられる。 特に赤外遮断依存性とゲージ不変性の問題に注意が払われる。 一区間のレニイエントロピーは、虹色の服を着たクォークプロパゲーターによって${\cal O}(N_c)$を注文される。 次数 ${\cal o}(1)$ への貢献は、中心電荷に何の寄与も無く、対角および外殻のメソニックt行列から従うことが示されている。 この構造は、光前線のメソニック状態にまで拡張され、大きな光前線分離のためにパーソニックPDFのモーメントを探索する。 真空中および小区間において,renyiエントロピーから続く空間エンタングルメントエントロピーは,2次元qcdのソフトウォールads$_3$モデルを用いて,隆高柳幾何学エントロピーと一致していることが示されている。

We derive a general formula for the replica partition function in the vacuum state, for a large class of interacting theories with fermions, with or without gauge fields, using the equal-time formulation on the light front. The result is used to analyze the spatial entanglement of interacting Dirac fermions in two-dimensional QCD. A particular attention is paid to the issues of infrared cut-off dependence and gauge invariance. The Renyi entropy for a single interval, is given by the rainbow dressed quark propagator to order ${\cal O}(N_c)$. The contributions to order ${\cal O}(1)$, are shown to follow from the off-diagonal and off mass-shell mesonic T-matrix, with no contribution to the central charge. The construction is then extended to mesonic states on the light front, and shown to probe the moments of the partonic PDFs for large light-front separations. In the vacuum and for small and large intervals, the spatial entanglement entropy following from the Renyi entropy, is shown to be in agreement with the Ryu-Takayanagi geometrical entropy, using a soft-wall AdS$_3$ model of two-dimensional QCD.
翻訳日:2023-02-13 06:50:47 公開日:2022-05-13
# 偏光輸送の混合特性の解明:光速に近づく弾道運動への拡散の促進から

Unveiling the mixed nature of polaritonic transport: From enhanced diffusion to ballistic motion approaching the speed of light ( http://arxiv.org/abs/2205.06683v1 )

ライセンス: Link先を確認
M. Balasubrahmaniyam, Arie Simkovich, Adina Golombek, Guy Ankonina and Tal Schwartz(参考訳) 近年、分子系における励起子と電荷キャリアの輸送が光子とのコヒーレントカップリングによって強化され、ポラリトンとして知られるハイブリッド励起が形成されることが明らかになっている。 このような強化は、技術的には大きな意味を持つが、これらのシステムにおける複合光物質励起の促進機構と輸送特性は、いまだ解明されていない。 ここでは、表面結合型光波の超高速時空間ダイナミクスを自己結合分子層に強く結合し、エネルギー/運動空間で完全に解決する。 本研究は,ポラリトンのハイブリッド性に起因する複雑な挙動を明らかにする。 光と物質のコヒーレントな混合によって引き起こされる分子障害と長距離相関のバランスは拡散輸送と弾道輸送の間の移動遷移につながり、ポラリトンの光-物質組成を変化させることで制御できることがわかった。 さらに,光との結合により分子励起子の拡散係数が6桁向上し,光速の3分の2の速度で弾道流につながることも直接実証した。

In recent years it has become clear that the transport of excitons and charge carriers in molecular systems can be enhanced by coherent coupling with photons, giving rise to the formation of hybrid excitations known as polaritons. Such enhancement has far-reaching technological implications, however, the enhancement mechanism and the transport nature of these composite light-matter excitations in such systems still remain elusive. Here we map the ultrafast spatiotemporal dynamics of surface-bound optical waves strongly coupled to a self-assembled molecular layer and fully resolve them in energy/momentum space. Our studies reveal intricate behavior which stems from the hybrid nature of polaritons. We find that the balance between the molecular disorder and long-range correlations induced by the coherent mixing between light and matter leads to a mobility transition between diffusive and ballistic transport, which can be controlled by varying the light-matter composition of the polaritons. Furthermore, we directly demonstrate that the coupling with light can enhance the diffusion coefficient of molecular excitons by six orders of magnitude and even lead to ballistic flow at two-thirds the speed of light.
翻訳日:2023-02-13 06:50:22 公開日:2022-05-13
# 3種類のl$-fuzzy $\beta$-covering-based rough setについて

On three types of $L$-fuzzy $\beta$-covering-based rough sets ( http://arxiv.org/abs/2206.11025v1 )

ライセンス: Link先を確認
Wei Li, Bin Yang, Junsheng Qiao(参考訳) 本稿では、主に3種類の $L$-fuzzy $\beta$-covering-based rough set model を構築し、これら3組の $L$-fuzzy $\beta$-covering-based rough approximation operator の公理集合、行列表現、相互依存性について検討する。 まず、3組の$L$-fuzzy $\beta$-covering-based rough approximation operatorを提案し、それぞれ交叉次数と部分集合次数の一般化である$\beta$-degreeや$\beta$-subsethood次数といった概念を導入する。 そして、これらのl$-fuzzy$\beta$-covering-based rough approximation演算子のそれぞれに対する公理集合について検討する。 第三に、3種類の $L$-fuzzy $\beta$-covering-based rough approximation operator の行列表現を与え、行列上の演算を通して$L$-fuzzy $\beta$-covering-based lower and upper rough approximation operator を計算するのが有効である。 最後に、約$L$-fuzzy $\beta$-coveringに基づく3組の粗近似作用素の相互依存性について、既約元と独立元の概念を用いて研究する。 言い換えれば、2つの$L$-fuzzy $\beta$-coveringsが同じ下層および上層の粗近似演算を生成できる必要十分条件を示す。

In this paper, we mainly construct three types of $L$-fuzzy $\beta$-covering-based rough set models and study the axiom sets, matrix representations and interdependency of these three pairs of $L$-fuzzy $\beta$-covering-based rough approximation operators. Firstly, we propose three pairs of $L$-fuzzy $\beta$-covering-based rough approximation operators by introducing the concepts such as $\beta$-degree of intersection and $\beta$-subsethood degree, which are generalizations of degree of intersection and subsethood degree, respectively. And then, the axiom set for each of these $L$-fuzzy $\beta$-covering-based rough approximation operator is investigated. Thirdly, we give the matrix representations of three types of $L$-fuzzy $\beta$-covering-based rough approximation operators, which make it valid to calculate the $L$-fuzzy $\beta$-covering-based lower and upper rough approximation operators through operations on matrices. Finally, the interdependency of the three pairs of rough approximation operators based on $L$-fuzzy $\beta$-covering is studied by using the notion of reducible elements and independent elements. In other words, we present the necessary and sufficient conditions under which two $L$-fuzzy $\beta$-coverings can generate the same lower and upper rough approximation operations.
翻訳日:2023-02-13 06:43:32 公開日:2022-05-13
# 相対論的時間反転の代替解釈と時間矢印

Alternative interpretation of relativistic time-reversal and the time arrow ( http://arxiv.org/abs/2205.13417v1 )

ライセンス: Link先を確認
T. Zalialiutdinov, D. Solovyev, D. Chubukov, S. Chekhovskoi and L. Labzowsky(参考訳) 4次元の時空における4次元回転は CPT 変換と同値であることが知られている(C は電荷共役、P は空間反転、T は時間反転)。 t-反転の標準的な定義は、時間変数の符号の変更と、粒子の初期状態(粒子系)の最終的な状態への置換を含み、その逆である。 時間反転操作は粒子の状態を変化させるので、粒子の波動関数は、空間パリティの場合のように、対応する作用素の固有値の固有関数ではない。 CPT変換とは異なり、別個のP、T、C変換は任意の4回転に還元できない。 拡張ローレンツ群は、対応する光円錐から時間軸を引き出すことのないすべての分離 c, p, t 変換を取り入れている。 後者の制限は、時間反転の標準定義に含まれる。 現在の通信では、この制限は無視する。 これにより "time arrow" 演算子を導入し、新しい量子数 "time arrow" 値で全ての粒子を特徴付けることができる。 全ての粒子の波動関数は「時間矢印」値に等しい固有値を持つ作用素の固有関数である。 時間矢印」の値と逆の「時間矢印」の値を持つ粒子は、別の宇宙(反ユニバース)を形成する。 反ユニバースの存在は、原理的には実験室(原子)実験によって確認することができる。 反一元論は暗黒物質の役割の候補とも考えられる。

It is well-known that the 4-rotation in the 4-dimensional space-time is equivalent to the CPT-transformation (C is the charge conjugation, P is the space inversion and T is the time-reversal). The standard definition of the T-reversal includes the change of the sign of time variable and replacement of the initial state of the particle (system of particles) by the final state and vice versa. Since the time-reversal operation changes the state of a particle, the particle's wave function cannot be the eigenfunction of the corresponding operator with a certain eigenvalue, as in the case of space parity. Unlike the CPT-transformation, the separate P, T, or C transformations cannot be reduced to any 4-rotation. The extended Lorentz group incorporates all the separate C, P, or T transformations which do not bring the time axis out of the corresponding light cone. The latter restriction is included in the standard definition of the time-reversal. In the present communication, we ignore this restriction. This allows to introduce the "time arrow" operator and characterize every particle by the new quantum number - "time arrow" value. The wave functions of all particles are eigenfunctions of this operator with eigenvalues equal to "time arrow" values. The particles with the "time arrow" values opposite to the "time arrow" value in our universe form another universe (anti-universe). The existence of anti-universe can be confirmed, in principle, by laboratory (atomic) experiments. The anti-universe may be also considered as a candidate to the role of dark matter.
翻訳日:2023-02-13 06:43:01 公開日:2022-05-13
# ノイズチャネル存在下でのハイブリッド量子アルゴリズムによる車両ルーティング問題の解析

Analysis of The Vehicle Routing Problem Sovled via Hybrid Quantum Algorithms in Presence of Noisy Channels ( http://arxiv.org/abs/2205.07630v1 )

ライセンス: Link先を確認
Nishikanta Mohanty, Bikash K. Behera and Christopher Ferrie(参考訳) 車両ルーティング問題 (VRP) は、科学と産業で何十年にもわたって研究の関心を集めてきたNPハード最適化問題である。 目標は、最適な効率で一定数の顧客に商品を届けるための車両の経路を計画することである。 古典的ツールや手法は最適大域解に到達するよい近似を与える。 量子コンピューティングと量子機械学習は、量子効果の固有のスピードアップのため、問題の組合せ最適化を高速に解くための新しいアプローチを提供する。 VRPの多くのソリューションは、量子近似最適化アルゴリズムや2次非制約バイナリ最適化のようなハイブリッドアルゴリズムを用いて、異なる量子コンピューティングプラットフォームで提供されている。 本研究では, 固定アンサッツ上の変分量子固有解法を用いて, 3都市と4都市の基本的なVRP解法を構築する。 この研究はさらに、ノイズ量子チャネルのいくつかの例で解のロバスト性を評価するために拡張されている。 量子アルゴリズムの性能は、どのノイズモデルが使われているかに大きく依存している。 一般に、ノイズは有害であるが、異なるノイズ源間で等しくそうではない。

The Vehicle routing problem (VRP) is an NP-hard optimization problem that has been an interest of research for decades in science and industry. The objective is to plan routes of vehicles to deliver goods to a fixed number of customers with optimal efficiency. Classical tools and methods provide good approximations to reach the optimal global solution. Quantum computing and quantum machine learning provide a new approach to solving combinatorial optimization of problems faster due to inherent speedups of quantum effects. Many solutions of VRP are offered across different quantum computing platforms using hybrid algorithms such as quantum approximate optimization algorithm and quadratic unconstrained binary optimization. In this work, we build a basic VRP solver for 3 and 4 cities using the variational quantum eigensolver on a fixed ansatz. The work is further extended to evaluate the robustness of the solution in several examples of noisy quantum channels. We find that the performance of the quantum algorithm depends heavily on what noise model is used. In general, noise is detrimental, but not equally so among different noise sources.
翻訳日:2023-02-13 06:42:39 公開日:2022-05-13
# 偏光および空間モード自由度における単一光子を用いた情報漏洩耐性量子対話

Information leakage resistant quantum dialogue with single photons in both polarization and spatial-mode degrees of freedom ( http://arxiv.org/abs/2205.06930v1 )

ライセンス: Link先を確認
Tian-Yu Ye, Hong-Kun Li, Jia-Li Hu(参考訳) 本稿では、偏光と空間モード自由度の両方における単一光子に基づく新しい量子対話(qd)プロトコルを提案する。 提案したQDプロトコルでは、符号化に用いる空間モード自由度と偏光度の両方における単一光子の初期状態が、2つの通信者間でプライベートに共有される。 これにより、情報漏洩問題を回避することができる。 さらに,提案するqdプロトコルは,トロイの木馬攻撃,インターセプト・リセンド攻撃,測度・リセンド攻撃,エンタングル・アタックなど,イヴのいくつかの有名なアクティブアタックにも耐えうることを示す。 提案したQDプロトコルは、量子資源として偏光度と空間モード自由度の両方でのみ単一光子を必要とし、単一光子測定を採用する。 結果として、偏光度と空間モード自由度の両方における単一光子の調製と測定は、現在の実験技術で実現可能である。

In this paper, a novel quantum dialogue (QD) protocol is proposed based on single photons in both polarization and spatial-mode degrees of freedom. In the proposed QD protocol, the initial states of single photons in both polarization and spatial-mode degrees of freedom used for encoding are privately shared between two communicants through the direct transmissions of their auxiliary counterparts from one communicant to another. As a result, the information leakage problem is avoided. Moreover, the detailed security analysis also shows that the proposed QD protocol can resist Eve's several famous active attacks, such as the Trojan horse attack, the intercept-resend attack, the measure-resend attack and the entangle-measure attack. The proposed QD protocol only needs single photons in both polarization and spatial-mode degrees of freedom as quantum resource and adopts single-photon measurements. As a result, it is feasible in practice as the preparation and the measurement of a single photon in both polarization and spatial-mode degrees of freedom can be accomplished with current experimental techniques.
翻訳日:2023-02-13 06:42:23 公開日:2022-05-13
# AlGaAsOIにおける量子フォトニックツールボックスの拡張

Expanding the Quantum Photonic Toolbox in AlGaAsOI ( http://arxiv.org/abs/2205.06912v1 )

ライセンス: Link先を確認
Joshua E. Castro, Trevor J. Steiner, Lillian Thiel, Alex Dinkelacker, Corey McDonald, Paolo Pintus, Lin Chang, John E. Bowers, Galan Moody(参考訳) AlGaAsOIは、大きな$\chi^\left(2\right)$および$\chi^\left(3\right)$光非線形性、広い波長可変バンドギャップ、低い導波路伝搬損失、大きな熱光学係数を示し、量子フォトニクス統合のためのエキサイティングなプラットフォームとなっている。 アルガアッソイに超ブライトな量子光源が確立され、次のステップはチップ規模の量子フォトニック回路の重要な構成要素を開発することである。 ここでは,エッジカプラ,3dbスプリッタ,波長可変干渉計,導波路交差を,シリコンと窒化ケイ素の量子フォトニックプラットフォームに匹敵する性能で示すことで,algaasoiの量子フォトニックツールボックスを拡張する。 実演として,光量子量子量子ビットを非平衡干渉計で多重化し,光量子量子計算と情報応用の超効率的かつ高速チップスケールの実証を行う。

Aluminum gallium arsenide-on-insulator (AlGaAsOI) exhibits large $\chi^\left(2\right)$ and $\chi^\left(3\right)$ optical nonlinearities, a wide tunable bandgap, low waveguide propagation loss, and a large thermo-optic coefficient, making it an exciting platform for integrated quantum photonics. With ultrabright sources of quantum light established in AlGaAsOI, the next step is to develop the critical building blocks for chip-scale quantum photonic circuits. Here we expand the quantum photonic toolbox for AlGaAsOI by demonstrating edge couplers, 3-dB splitters, tunable interferometers, and waveguide crossings with performance comparable to or exceeding silicon and silicon-nitride quantum photonic platforms. As a demonstration, we demultiplex photonic qubits through an unbalanced interferometer, paving the route toward ultra-efficient and high-rate chip-scale demonstrations of photonic quantum computation and information applications.
翻訳日:2023-02-13 06:41:34 公開日:2022-05-13
# 効率的な命令駆動信号合成とコヒーレントビット制御のためのスケーラブルマイクロアーキテクチャ

A Scalable Microarchitecture for Efficient Instruction-Driven Signal Synthesis and Coherent Qubit Control ( http://arxiv.org/abs/2205.06851v1 )

ライセンス: Link先を確認
Nader Khammassi, Randy W. Morris, Shavindra Premaratne, Florian Luthi, Felix Borjans, Satoshi Suzuki, Robert Flory, Linda Patricia Osuna Ibarra, Lester Lampert, Anne Y. Matsuura(参考訳) 量子アルゴリズムの実行には、キュービットに作用する実際の量子演算へのワークロードの変換をサポートする専用の量子命令セットを備えた量子コンピュータアーキテクチャが必要である。 最先端の量子ビット制御設定は通常、任意波形生成器(awgs)などの汎用試験機器を使用して、限られた波形やパルスを生成する。 これらの波形は、実行前にプリ計算され、保存され、実行中に制御パルスを生成するために使用される。 禁止費用とスケーラビリティの制限に加えて、これらの機器は命令セットアーキテクチャ(ISA)が存在しないためにプログラム性に乏しい。 パルス記憶のための限られたメモリは、最終的にサポートされた量子演算の総数を決定する。 本稿では,フレキシブルisaを用いて,ナノ秒精度の量子ビット制御信号を動的に生成する直接ディジタル合成(dds)パイプラインを駆動するスケーラブルな量子ビット制御システムを提案する。 設計されたキュービットコントローラは、制御チャネルの密度が高く、スケーラブルな設計、プログラム性の向上、そして最先端システムに比べて低コストである。 本稿では,新しいqubitコントローラの機能,アーキテクチャと命令セット,コヒーレントなqubit制御の実験結果について述べる。

Execution of quantum algorithms requires a quantum computer architecture with a dedicated quantum instruction set that is capable of supporting translation of workloads into actual quantum operations acting on the qubits. State-of-the-art qubit control setups typically utilize general purpose test instruments such as arbitrary waveform generators (AWGs) to generate a limited set of waveforms or pulses. These waveforms are precomputed and stored prior to execution, and then used to produce control pulses during execution. Besides their prohibitive cost and limited scalability, such instruments suffer from poor programmability due to the absence of an instruction set architecture (ISA). Limited memory for pulse storage ultimately determines the total number of supported quantum operations. In this work, we present a scalable qubit control system that enables efficient qubit control using a flexible ISA to drive a direct digital synthesis (DDS) pipeline producing nanosecond-accurate qubit control signals dynamically. The designed qubit controller provides a higher density of control channels, a scalable design, better programmability, and lower cost compared to state-of-the-art systems. In this work, we discuss the new qubit controller's capabilities, its architecture and instruction set, and present experimental results for coherent qubit control.
翻訳日:2023-02-13 06:41:01 公開日:2022-05-13
# グラフ畳み込みネットワークのための微分可能グラフモジュール(DGM)

Differentiable Graph Module (DGM) for Graph Convolutional Networks ( http://arxiv.org/abs/2002.04999v4 )

ライセンス: Link先を確認
Anees Kazi, Luca Cosmo, Seyed-Ahmad Ahmadi, Nassir Navab and Michael Bronstein(参考訳) グラフディープラーニングは、成功しているディープニューラルネットワークアーキテクチャを非ユークリッド構造化データに一般化できる強力なml概念として最近登場した。 このような手法は、社会科学、生物医学、素粒子物理学からコンピュータビジョン、グラフィックス、化学まで幅広い応用分野において有望な結果を示している。 現在のグラフニューラルネットワークアーキテクチャの大多数の制限の1つは、それらはしばしばトランスダクティブな設定に制限され、基礎となるグラフが {\em known} かつ {\em fixed} であるという仮定に依存していることである。 しばしば、この仮定は、グラフが騒がしいか、部分的に、あるいは完全に未知であるかもしれないため、正しくない。 そのような場合、特にトレーニング時にグラフにいくつかのノードが存在しない帰納的設定において、データから直接グラフを推測するのに役立つだろう。 さらに、グラフの学習は、推論された構造が下流タスクの横で補完的な洞察を提供するため、それ自体が終わりになる可能性がある。 本稿では,ダウンストリームタスクに最適なグラフのエッジ確率を予測する学習可能な関数である微分可能グラフモジュール(dgm)を提案する。 dgmは畳み込みグラフニューラルネットワーク層と組み合わせて、エンドツーエンドでトレーニングすることができる。 医療分野(ダイザイス予測)、脳画像(年齢予測)、コンピュータグラフィックス(3dポイントクラウドセグメンテーション)、コンピュータビジョン(ゼロショット学習)のアプリケーションから幅広い評価を行う。 本モデルは,トランスダクティブ設定とインダクティブ設定の両方において,ベースラインよりも大幅に改善され,最先端の結果が得られることを示す。

Graph deep learning has recently emerged as a powerful ML concept allowing to generalize successful deep neural architectures to non-Euclidean structured data. Such methods have shown promising results on a broad spectrum of applications ranging from social science, biomedicine, and particle physics to computer vision, graphics, and chemistry. One of the limitations of the majority of current graph neural network architectures is that they are often restricted to the transductive setting and rely on the assumption that the underlying graph is {\em known} and {\em fixed}. Often, this assumption is not true since the graph may be noisy, or partially and even completely unknown. In such cases, it would be helpful to infer the graph directly from the data, especially in inductive settings where some nodes were not present in the graph at training time. Furthermore, learning a graph may become an end in itself, as the inferred structure may provide complementary insights next to the downstream task. In this paper, we introduce Differentiable Graph Module (DGM), a learnable function that predicts edge probabilities in the graph which are optimal for the downstream task. DGM can be combined with convolutional graph neural network layers and trained in an end-to-end fashion. We provide an extensive evaluation of applications from the domains of healthcare (disease prediction), brain imaging (age prediction), computer graphics (3D point cloud segmentation), and computer vision (zero-shot learning). We show that our model provides a significant improvement over baselines both in transductive and inductive settings and achieves state-of-the-art results.
翻訳日:2023-01-02 01:35:53 公開日:2022-05-13
# 病気予測のための潜在グラフ学習

Latent-Graph Learning for Disease Prediction ( http://arxiv.org/abs/2003.13620v2 )

ライセンス: Link先を確認
Luca Cosmo, Anees Kazi, Seyed-Ahmad Ahmadi, Nassir Navab and Michael Bronstein(参考訳) 近年、GCN(Graph Convolutional Networks)は、コンピュータ支援診断(CADx)と疾患予測のための強力な機械学習ツールであることが証明されている。 これらのモデルの主要な構成要素は、グラフ隣接行列がペアワイズ患者類似性を表すような人口グラフを構築することである。 これまで、類似度指標は手動で定義され、通常は人口統計や臨床検査などのメタ機能に基づいていた。 しかし、GCNはグラフ構造に非常に敏感であるため、計量の定義には注意深いチューニングが必要である。 本稿では、CADx領域において、GCNの下流における病気分類の課題に向けて、単一の最適なグラフを学習できることを初めて示す。 そこで本稿では,動的かつ局所化されたグラフプラニングのための,エンドツーエンドの学習可能なグラフ学習アーキテクチャを提案する。 一般的に用いられているスペクトルGCNアプローチとは異なり、我々のGCNは空間的かつ誘導的であり、これまで見られなかった患者も推測できる。 医学におけるCADxの2つの問題に対する学習グラフを用いて,有意な分類改善を示す。 さらに、医療応用におけるGCNによるより正確で堅牢な推論におけるグラフ学習の重要性について、人工的なデータセットを用いて、この結果を説明し、視覚化する。

Recently, Graph Convolutional Networks (GCNs) have proven to be a powerful machine learning tool for Computer-Aided Diagnosis (CADx) and disease prediction. A key component in these models is to build a population graph, where the graph adjacency matrix represents pair-wise patient similarities. Until now, the similarity metrics have been defined manually, usually based on meta-features like demographics or clinical scores. The definition of the metric, however, needs careful tuning, as GCNs are very sensitive to the graph structure. In this paper, we demonstrate for the first time in the CADx domain that it is possible to learn a single, optimal graph towards the GCN's downstream task of disease classification. To this end, we propose a novel, end-to-end trainable graph learning architecture for dynamic and localized graph pruning. Unlike commonly employed spectral GCN approaches, our GCN is spatial and inductive, and can thus infer previously unseen patients as well. We demonstrate significant classification improvements with our learned graph on two CADx problems in medicine. We further explain and visualize this result using an artificial dataset, underlining the importance of graph learning for more accurate and robust inference with GCNs in medical applications.
翻訳日:2022-12-19 05:20:17 公開日:2022-05-13
# ポイントクラウド上でのドメイン適応のための自己教師付き学習

Self-Supervised Learning for Domain Adaptation on Point-Clouds ( http://arxiv.org/abs/2003.12641v5 )

ライセンス: Link先を確認
Idan Achituve, Haggai Maron and Gal Chechik(参考訳) 自己教師付き学習(SSL)は、ラベルのないデータから有用な表現を学習する技術である。 画像やビデオのドメイン適応(DA)に効果的に適用されている。 3次元知覚問題における領域適応にどのように活用できるかは、まだ不明である。 ここでは、ポイントクラウド上でのDAのためのSSLに関する最初の研究について述べる。 我々は、シム・トゥ・リアル変換で発生する変形にインスパイアされた、新しいプレテキストタスクである変形再構成のファミリーを導入する。 また,PCM(Point cloud Mixup)と呼ばれるMixUp方式により,ラベル付きクラウドデータの新たなトレーニング手順を提案する。 ドメイン適応型データセットの分類とセグメンテーションの評価は、既存のメソッドとベースラインメソッドを大きく改善することを示している。

Self-supervised learning (SSL) is a technique for learning useful representations from unlabeled data. It has been applied effectively to domain adaptation (DA) on images and videos. It is still unknown if and how it can be leveraged for domain adaptation in 3D perception problems. Here we describe the first study of SSL for DA on point clouds. We introduce a new family of pretext tasks, Deformation Reconstruction, inspired by the deformations encountered in sim-to-real transformations. In addition, we propose a novel training procedure for labeled point cloud data motivated by the MixUp method called Point cloud Mixup (PCM). Evaluations on domain adaptations datasets for classification and segmentation, demonstrate a large improvement over existing and baseline methods.
翻訳日:2022-12-18 13:31:41 公開日:2022-05-13
# セマンティックセグメンテーションのための距離誘導チャネルウェイト

Distance Guided Channel Weighting for Semantic Segmentation ( http://arxiv.org/abs/2004.12679v4 )

ライセンス: Link先を確認
Xuanyi Liu, Lanyun Zhu, Shiping Zhu, Li Luo(参考訳) 近年の研究では、ディープニューラルネットワークを用いた高チャネル数で特徴をキャプチャすることで、複数のコンピュータビジョンタスクのパフォーマンス向上に成功している。 しかし、抽出された特徴のチャネルの多くは差別的ではなく、多くの冗長な情報を含んでいる。 本稿では,DGCW (Distance Guided Channel Weighting) モジュールを導入することで,この問題に対処する。 dgcwモジュールは、各画素の特徴ベクトルの異なるチャネルを重み付けて、他の画素との関係をモデル化することで特徴の識別性を高める、画素毎のコンテキスト抽出方式で構築されている。 特徴マップに含まれる低識別情報を無視しながら、高識別情報を完全に活用し、長距離依存性を捉えることができる。 さらに,ベースラインセグメンテーションネットワークにdgcwモジュールを組み込むことにより,dgcwnet( distance guided channel weighting network)を提案する。 DGCWNetの有効性を示す大規模な実験を行った。 特に、Cityscapesで81.6%のmIoUを達成し、トレーニング用の微妙なアノテートデータのみを処理し、Pascal ContextとADE20Kという2つのセマンティックセグメンテーションデータセットで満足なパフォーマンスを得る。 コードは近くhttps://github.com/lanyunzhu/dgcwnetで入手できる。

Recent works have achieved great success in improving the performance of multiple computer vision tasks by capturing features with a high channel number utilizing deep neural networks. However, many channels of extracted features are not discriminative and contain a lot of redundant information. In this paper, we address above issue by introducing the Distance Guided Channel Weighting (DGCW) Module. The DGCW module is constructed in a pixel-wise context extraction manner, which enhances the discriminativeness of features by weighting different channels of each pixel's feature vector when modeling its relationship with other pixels. It can make full use of the high-discriminative information while ignore the low-discriminative information containing in feature maps, as well as capture the long-range dependencies. Furthermore, by incorporating the DGCW module with a baseline segmentation network, we propose the Distance Guided Channel Weighting Network (DGCWNet). We conduct extensive experiments to demonstrate the effectiveness of DGCWNet. In particular, it achieves 81.6% mIoU on Cityscapes with only fine annotated data for training, and also gains satisfactory performance on another two semantic segmentation datasets, i.e. Pascal Context and ADE20K. Code will be available soon at https://github.com/LanyunZhu/DGCWNet.
翻訳日:2022-12-09 05:29:32 公開日:2022-05-13
# 画素と出力レベルのアライメントによるセマンティックセグメンテーションのための超解域適応ネットワーク

Super-Resolution Domain Adaptation Networks for Semantic Segmentation via Pixel and Output Level Aligning ( http://arxiv.org/abs/2005.06382v4 )

ライセンス: Link先を確認
Junfeng Wu, Zhenjie Tang, Congan Xu, Enhai Liu, Long Gao, Wenjun Yan(参考訳) 近年、unsupervised domain adaptation (uda) がセマンティックセグメンテーションタスクにおけるドメインシフト問題に対処するために注目を集めている。 従来のUDA法は有望な性能を達成しているが、ソース領域とターゲット領域の分散ギャップ、特にリモートセンシング画像の解像度のずれに悩まされている。 この問題に対処するため、本稿では、新しいエンドツーエンドセマンティックセマンティックセマンティクスネットワーク、すなわち、超解法ドメイン適応ネットワーク(SRDA-Net)を設計する。 SRDA-Netは、超解像度タスクとドメイン適応タスクを同時に達成することができ、通常、様々な解像度画像を含むリモートセンシング画像のセマンティックセグメンテーションの必要性を満たす。 提案するSRDA-Netは,高分解能画像の回復とセグメンテーションマップの予測に焦点を当てたSRSモデルと,画素のどのドメインが属するかを判定する画素レベルドメイン分類器(PDC)と,画素のどのドメインが属しているかを識別する出力空間ドメイン分類器(ODC)の3つの部分から構成される。 提案手法は,2つの分類器でsrsを最適化することで,ソース領域とターゲット領域の解像度差を解消するだけでなく,意味セグメンテーションタスクの性能を向上させることができる。 解像度の異なる2つのリモートセンシングデータセットの実験結果は、srda-netが精度と視覚品質の点で最先端の手法に対して有利に機能することを示している。 コードとモデルはhttps://github.com/tangzhenjie/srda-netで入手できる。

Recently, Unsupervised Domain Adaptation (UDA) has attracted increasing attention to address the domain shift problem in the semantic segmentation task. Although previous UDA methods have achieved promising performance, they still suffer from the distribution gaps between source and target domains, especially the resolution discrepany in the remote sensing images. To address this problem, this paper designs a novel end-to-end semantic segmentation network, namely Super-Resolution Domain Adaptation Network (SRDA-Net). SRDA-Net can simultaneously achieve the super-resolution task and the domain adaptation task, thus satisfying the requirement of semantic segmentation for remote sensing images which usually involve various resolution images. The proposed SRDA-Net includes three parts: a Super-Resolution and Segmentation (SRS) model which focuses on recovering high-resolution image and predicting segmentation map, a Pixel-level Domain Classifier (PDC) for determining which domain the pixel belongs to, and an Output-space Domain Classifier (ODC) for distinguishing which domain the pixel contribution is from. By jointly optimizing SRS with two classifiers, the proposed method can not only eliminates the resolution difference between source and target domains, but also improve the performance of the semantic segmentation task. Experimental results on two remote sensing datasets with different resolutions demonstrate that SRDA-Net performs favorably against some state-of-the-art methods in terms of accuracy and visual quality. Code and models are available at https://github.com/tangzhenjie/SRDA-Net.
翻訳日:2022-12-03 13:15:54 公開日:2022-05-13
# 変分ハイパーエンコーディングネットワーク

Variational Hyper-Encoding Networks ( http://arxiv.org/abs/2005.08482v2 )

ライセンス: Link先を確認
Phuoc Nguyen, Truyen Tran, Sunil Gupta, Santu Rana, Hieu-Chi Dam, Svetha Venkatesh(参考訳) 分布の分布を符号化するHyperVAEというフレームワークを提案する。 ターゲット分布がVAEでモデル化された場合、そのニューラルネットワークパラメータ \theta は超レベルVAEでモデル化された分布 p(\theta) から引き出される。 ガウス混合モデルを用いて、パラメータ \theta を低次元ガウス分布に暗黙的に符号化する変分推論を提案する。 対象分布が与えられると、潜在コードの後方分布を予測し、行列ネットワークデコーダを用いて後方分布q(\theta)を生成する。 HyperVAEは、ターゲットネットワークパラメータとしてスケールとバイアスベクトルだけを生成する一般的なハイパーネットワークプラクティスとは対照的に、パラメータ \theta をフルにエンコードすることができる。 したがって、HyperVAEは潜在空間における各タスクのモデルに関するより多くの情報を保存する。 我々は、最小記述長(MDL)原理を用いてHyperVAEについて議論し、HyperVAEの一般化に役立つことを示す。 密度推定タスクにおけるHyperVAEの評価,外乱検出,新しいデザインクラスの検出を行い,その有効性を示した。

We propose a framework called HyperVAE for encoding distributions of distributions. When a target distribution is modeled by a VAE, its neural network parameters \theta is drawn from a distribution p(\theta) which is modeled by a hyper-level VAE. We propose a variational inference using Gaussian mixture models to implicitly encode the parameters \theta into a low dimensional Gaussian distribution. Given a target distribution, we predict the posterior distribution of the latent code, then use a matrix-network decoder to generate a posterior distribution q(\theta). HyperVAE can encode the parameters \theta in full in contrast to common hyper-networks practices, which generate only the scale and bias vectors as target-network parameters. Thus HyperVAE preserves much more information about the model for each task in the latent space. We discuss HyperVAE using the minimum description length (MDL) principle and show that it helps HyperVAE to generalize. We evaluate HyperVAE in density estimation tasks, outlier detection and discovery of novel design classes, demonstrating its efficacy.
翻訳日:2022-12-01 22:54:08 公開日:2022-05-13
# ニューラルポイントクラウド統合のための自己サンプリング

Self-Sampling for Neural Point Cloud Consolidation ( http://arxiv.org/abs/2008.06471v3 )

ライセンス: Link先を確認
Gal Metzer, Rana Hanocka, Raja Giryes, Daniel Cohen-Or(参考訳) 本稿では,入力点クラウドのみから学習するニューラルポイントクラウドの統合技術を紹介する。 ローカルパッチを通じて形状を分析する他のポイントアップサンプリング手法とは異なり、本研究ではグローバルサブセットから学習する。 ディープニューラルネットワークのトレーニングに使用されるグローバルサブセットを、入力ポイントクラウドに繰り返し自己サンプリングします。 具体的には、所望の連結基準(例えば、スパース領域におけるシャープポイントやポイントの生成)に従って、ソースとターゲットのサブセットを定義する。 ネットワークはソースからターゲットサブセットへのマッピングを学習し、暗黙的にポイントクラウドの統合を学ぶ。 推論中、ネットワークは入力から無作為な点のサブセットで供給され、それは統合された点集合を合成するために置き換わる。 我々は、ニューラルネットワークの帰納バイアスを利用してノイズや外れ値を排除する。 ネットワークの共有重みは、全体の形状に最適化され、非局所統計を学習し、局所スケールのジオメトリの繰り返しを利用する。 具体的には、ネットワークは、固定された局所カーネルの集合内の基底形状表面の分布を符号化し、基礎形状表面の最良の説明をもたらす。 様々な形状から点集合を集約し、外れ値やノイズを解消する能力を示す。

We introduce a novel technique for neural point cloud consolidation which learns from only the input point cloud. Unlike other point upsampling methods which analyze shapes via local patches, in this work, we learn from global subsets. We repeatedly self-sample the input point cloud with global subsets that are used to train a deep neural network. Specifically, we define source and target subsets according to the desired consolidation criteria (e.g., generating sharp points or points in sparse regions). The network learns a mapping from source to target subsets, and implicitly learns to consolidate the point cloud. During inference, the network is fed with random subsets of points from the input, which it displaces to synthesize a consolidated point set. We leverage the inductive bias of neural networks to eliminate noise and outliers, a notoriously difficult problem in point cloud consolidation. The shared weights of the network are optimized over the entire shape, learning non-local statistics and exploiting the recurrence of local-scale geometries. Specifically, the network encodes the distribution of the underlying shape surface within a fixed set of local kernels, which results in the best explanation of the underlying shape surface. We demonstrate the ability to consolidate point sets from a variety of shapes, while eliminating outliers and noise.
翻訳日:2022-10-30 17:09:57 公開日:2022-05-13
# AutoMat: 高速計算電気化学システムディスカバリ

AutoMat: Accelerated Computational Electrochemical systems Discovery ( http://arxiv.org/abs/2011.04426v4 )

ライセンス: Link先を確認
Emil Annevelink, Rachel Kurchin, Eric Muckley, Lance Kavalsky, Vinay I. Hegde, Valentin Sulzer, Shang Zhu, Jiankun Pu, David Farina, Matthew Johnson, Dhairya Gandhi, Adarsh Dave, Hongyi Lin, Alan Edelman, Bharath Ramsundar, James Saal, Christopher Rackauckas, Viral Shah, Bryce Meredig, Venkatasubramanian Viswanathan(参考訳) 大規模な電気化は気候危機に対処するのに不可欠であるが、化学産業と輸送の両方を完全に電気化する科学的、技術的課題が残っている。 どちらの分野でも、新しい電気化学材料は重要だが、その開発は人間の時間集約的な実験とエラーと計算コストの高い第一原理、メソスケール、連続体シミュレーションに大きく依存している。 第一原理から連続的なデバイスモデリングまで、スケールにわたる自動入力生成とシミュレーション管理の両方を導入することで、これらの計算ステップを加速する自動ワークフロー、automattoを提案する。 さらに、機械学習サロゲートや自動ロボット実験「ループ内」など、多要素予測をシームレスに統合する方法を示す。 自動フレームワークは設計スペース検索技術で実装されており、いくつかのメトリクスでデバイスのパフォーマンスを最適化する設計機能を暗黙的に学習することで、材料発見パイプライン全体を劇的に加速する。 電気触媒とエネルギー貯蔵の例を用いてAutoMatの利点を論じ,得られた教訓を強調した。

Large-scale electrification is vital to addressing the climate crisis, but several scientific and technological challenges remain to fully electrify both the chemical industry and transportation. In both of these areas, new electrochemical materials will be critical, but their development currently relies heavily on human-time-intensive experimental trial and error and computationally expensive first-principles, meso-scale and continuum simulations. We present an automated workflow, AutoMat, that accelerates these computational steps by introducing both automated input generation and management of simulations across scales from first principles to continuum device modeling. Furthermore, we show how to seamlessly integrate multi-fidelity predictions such as machine learning surrogates or automated robotic experiments "in-the-loop". The automated framework is implemented with design space search techniques to dramatically accelerate the overall materials discovery pipeline by implicitly learning design features that optimize device performance across several metrics. We discuss the benefits of AutoMat using examples in electrocatalysis and energy storage and highlight lessons learned.
翻訳日:2022-09-30 06:13:09 公開日:2022-05-13
# カラー画像および映像の非局所ロバスト四元行列補完

Non-Local Robust Quaternion Matrix Completion for Color Images and Videos Inpainting ( http://arxiv.org/abs/2011.08675v3 )

ライセンス: Link先を確認
Zhigang Jia and Qiyu Jin and Michael K. Ng and Xile Zhao(参考訳) 画像非局所的自己相似性(NSS)は、局所的パッチが画像全体に多くの非局所的類似パッチを持つことを示し、最近提案された画像処理のための機械学習アルゴリズムに広く応用されている。 しかし、文学におけるその動作原理に関する理論的分析はない。 本稿では,NSSとカラー画像の低ランク性との間に潜在的な因果関係を見出した。 自然色画像の明示的なnssモデルを学ぶために,新しいパッチグループに基づくnss事前スキームを提案する。 パッチ行列の数値的低ランク性も厳密に証明されている。 NSSベースのQMCアルゴリズムは、高階カラー画像に対する最適な低ランク近似を計算し、その結果、PSNRとSSIMの高い測定結果、特に視覚的品質が向上する。 四元数テンソル表現に基づくカラービデオ塗装問題の解法として,新しいテンソルNASに基づくQMC法を提案する。 カラー画像とビデオの数値実験は、最先端の手法に対するNASベースのQMCの利点を示している。

The image nonlocal self-similarity (NSS) prior refers to the fact that a local patch often has many nonlocal similar patches to it across the image and has been widely applied in many recently proposed machining learning algorithms for image processing. However, there is no theoretical analysis on its working principle in the literature. In this paper, we discover a potential causality between NSS and low-rank property of color images, which is also available to grey images. A new patch group based NSS prior scheme is proposed to learn explicit NSS models of natural color images. The numerical low-rank property of patched matrices is also rigorously proved. The NSS-based QMC algorithm computes an optimal low-rank approximation to the high-rank color image, resulting in high PSNR and SSIM measures and particularly the better visual quality. A new tensor NSS-based QMC method is also presented to solve the color video inpainting problem based on quaternion tensor representation. The numerical experiments on color images and videos indicate the advantages of NSS-based QMC over the state-of-the-art methods.
翻訳日:2022-09-24 17:58:59 公開日:2022-05-13
# Removingによる説明: モデル記述のための統一フレームワーク

Explaining by Removing: A Unified Framework for Model Explanation ( http://arxiv.org/abs/2011.14878v2 )

ライセンス: Link先を確認
Ian Covert, Scott Lundberg, Su-In Lee(参考訳) 研究者は様々なモデル説明手法を提案しているが、ほとんどの方法がどう関連しているか、ある方法が他の方法よりも好ましいのかは定かではない。 本稿では,各特徴量の影響を定量化するために,特徴量除去をシミュレートする原理に基づく新しい統一手法,除去に基づく説明について述べる。 これらの手法は様々な点で異なるため、各手法を3次元に沿って特徴付ける枠組みを開発する。 1) メソッドが機能をどのように削除するか 2)その方法が説明するモデル行動と, 3) それぞれの特徴の影響を要約する方法。 我々のフレームワークは、SHAP、LIME、Meaningful Perturbations、permutation testなど、最も広く使われているアプローチを含む26の既存メソッドを統合する。 新たに理解された説明手法のクラスは、説明可能性の文献にほとんど見落とされたツールを用いて、豊富なつながりを持つ。 認知心理学における削除に基づく説明をアンカーするために,特徴除去は減算的反事実推論の単純な応用であることを示す。 協調ゲーム理論のアイデアは、異なる手法間の関係とトレードオフに光を当て、全ての削除ベースの説明が情報理論的な解釈を持つ条件を導出する。 この分析を通じて,モデル説明ツールの理解を深める統一フレームワークを開発し,今後の説明可能性研究が構築できる強力な理論的基盤を提供する。

Researchers have proposed a wide variety of model explanation approaches, but it remains unclear how most methods are related or when one method is preferable to another. We describe a new unified class of methods, removal-based explanations, that are based on the principle of simulating feature removal to quantify each feature's influence. These methods vary in several respects, so we develop a framework that characterizes each method along three dimensions: 1) how the method removes features, 2) what model behavior the method explains, and 3) how the method summarizes each feature's influence. Our framework unifies 26 existing methods, including several of the most widely used approaches: SHAP, LIME, Meaningful Perturbations, and permutation tests. This newly understood class of explanation methods has rich connections that we examine using tools that have been largely overlooked by the explainability literature. To anchor removal-based explanations in cognitive psychology, we show that feature removal is a simple application of subtractive counterfactual reasoning. Ideas from cooperative game theory shed light on the relationships and trade-offs among different methods, and we derive conditions under which all removal-based explanations have information-theoretic interpretations. Through this analysis, we develop a unified framework that helps practitioners better understand model explanation tools, and that offers a strong theoretical foundation upon which future explainability research can build.
翻訳日:2022-09-22 23:07:35 公開日:2022-05-13
# 欠落したデータによるクラスタリング: rubinのルールと同等か?

Clustering with missing data: which equivalent for Rubin's rules? ( http://arxiv.org/abs/2011.13694v2 )

ライセンス: Link先を確認
Vincent Audigier, Nd\`eye Niang(参考訳) 多重計算(MI)は、欠落した値を扱う一般的な方法である。 しかし、MI後にクラスタリングを適用するのに適した方法は、まだ不明である。 データが不完全である場合のクラスタリングの不安定性を評価するには? 両質問に答えて,MIを用いたデータ不足によるクラスタリングの完全なビューを提案する。 分割プーリングの問題は,ブートストラップ理論に基づいて観測データと欠落データに係わる不安定性を評価する方法について,コンセンサスクラスタリングを用いて解決する。 分割のプーリングと不安定性評価の新しいルールは理論的に議論され、シミュレーションによって広く研究されている。 分割プーリングは、データの欠落によって不安定性を測定しながら、データの分析可能性を大きくする。実際のデータセットに示すように、クラスタリングが計算モデルに依存していることの評価と、データが不完全であるときにクラスタ数を選択する便利な方法である。

Multiple imputation (MI) is a popular method for dealing with missing values. However, the suitable way for applying clustering after MI remains unclear: how to pool partitions? How to assess the clustering instability when data are incomplete? By answering both questions, this paper proposed a complete view of clustering with missing data using MI. The problem of partitions pooling is here addressed using consensus clustering while, based on the bootstrap theory, we explain how to assess the instability related to observed and missing data. The new rules for pooling partitions and instability assessment are theoretically argued and extensively studied by simulation. Partitions pooling improves accuracy, while measuring instability with missing data enlarges the data analysis possibilities: it allows assessment of the dependence of the clustering to the imputation model, as well as a convenient way for choosing the number of clusters when data are incomplete, as illustrated on a real data set.
翻訳日:2022-09-20 02:39:27 公開日:2022-05-13
# cminmax: n-次元凸ポリトープの角を求める高速アルゴリズム

cMinMax: A Fast Algorithm to Find the Corners of an N-dimensional Convex Polytope ( http://arxiv.org/abs/2011.14035v3 )

ライセンス: Link先を確認
Dimitrios Chamzas, Constantinos Chamzas and Konstantinos Moustakas(参考訳) ここ数年、拡張現実と仮想現実(ar-vr)の新興分野は、大きく成長している。 同時に、コンピューティングパワーが要求される低コストな高品質arシステムを開発する傾向がある。 これらのリアルタイムフレームレートおよび3Dアプリケーションで特徴点が広く使用されるため、高速特徴検出器が必要である。 コーナーは特別な特徴であり、しばしば拡張現実(AR)におけるマーカーアライメントの第1ステップとして使用される。 コーナーは、画像登録と認識、追跡、slam、ロボットパス発見、および2dまたは3dオブジェクトの検出と検索にも使用される。 したがって、多くのコーナー検出アルゴリズムがあるが、そのほとんどは計算量が多いので、どんな複雑でもリアルタイムに利用できない。 多くの場合、画像の境界は凸多角形である。 この特殊なケースに対して、我々はcMinMaxという特定のアルゴリズムを開発した。 提案アルゴリズムは、広く使われているハリスコーナー検出アルゴリズムと比較して約5倍高速である。 inadditionは高度に並列化可能である。 このアルゴリズムは、拡張現実システムや計算効率のよいリアルタイム特徴検出器が必要なアプリケーションにおけるマーカーの高速な登録に適しており、N次元多面体にも拡張することができる。

During the last years, the emerging field of Augmented & Virtual Reality (AR-VR) has seen tremendousgrowth. At the same time there is a trend to develop low cost high-quality AR systems where computing poweris in demand. Feature points are extensively used in these real-time frame-rate and 3D applications, thereforeefficient high-speed feature detectors are necessary. Corners are such special features and often are used as thefirst step in the marker alignment in Augmented Reality (AR). Corners are also used in image registration andrecognition, tracking, SLAM, robot path finding and 2D or 3D object detection and retrieval. Therefore thereis a large number of corner detection algorithms but most of them are too computationally intensive for use inreal-time applications of any complexity. Many times the border of the image is a convex polygon. For thisspecial, but quite common case, we have developed a specific algorithm, cMinMax. The proposed algorithmis faster, approximately by a factor of 5 compared to the widely used Harris Corner Detection algorithm. Inaddition is highly parallelizable. The algorithm is suitable for the fast registration of markers in augmentedreality systems and in applications where a computationally efficient real time feature detector is necessary.The algorithm can also be extended to N-dimensional polyhedrons.
翻訳日:2022-09-19 19:48:57 公開日:2022-05-13
# 脳プログラミングの原理の形式化(脳原理プログラミング)

Formalization of the principles of brain Programming (Brain Principles Programming) ( http://arxiv.org/abs/2206.03487v1 )

ライセンス: Link先を確認
E.E. Vityaev, A.G. Kolonin, A.A. Molchanov(参考訳) モノグラフ“Strong Artificial Intelligence. On the Approaches to Superintelligence”には、汎用人工知能(AGI)の概要が含まれている。 人為的な研究領域として、脳原理プログラミング(bpp:brain principles programming) -- 脳の普遍的なメカニズム(原理)の形式化と情報処理があり、神経組織のあらゆるレベルで実装されている。 このモノグラフは、圏論の観点からこれらの原則の形式化を含んでいる。 しかし、この形式化は情報を扱うアルゴリズムを開発するのに十分ではない。 本稿では,BPPの記述とモデル化のために,認知機能をモデル化し,よく知られた生理学,心理学,その他の自然科学理論に基づく数学的モデルとアルゴリズムを適用することを提案する。 P.K.アノキン関数脳系の理論、エレノア・ロッシュ原型分類理論、因果モデルのボブ・レーダー理論、そして「自然」分類である。 その結果、bppの形式化が得られ、アルゴリズムの動作を示すコンピュータ実験が提示される。

In the monograph "Strong artificial intelligence. On the Approaches to Superintelligence" contains an overview of general artificial intelligence (AGI). As an anthropomorphic research area, it includes Brain Principles Programming (BPP) -- the formalization of universal mechanisms (principles) of the brain work with information, which are implemented at all levels of the organization of nervous tissue. This monograph contains a formalization of these principles in terms of category theory. However, this formalization is not enough to develop algorithms for working with information. In this paper, for the description and modeling of BPP, it is proposed to apply mathematical models and algorithms developed earlier, which modeling cognitive functions and base on well-known physiological, psychological and other natural science theories. The paper uses mathematical models and algorithms of the following theories: P.K.Anokhin Theory of Functional Brain Systems, Eleanor Rosch prototypical categorization theory, Bob Rehder theory of causal models and "natural" classification. As a result, a formalization of BPP is obtained and computer experiments demonstrating the operation of algorithms are presented.
翻訳日:2022-06-12 09:31:00 公開日:2022-05-13
# (参考訳) ニューロシンボリック脳

The Neuro-Symbolic Brain ( http://arxiv.org/abs/2205.13440v1 )

ライセンス: CC BY 4.0
Robert Liz\'ee(参考訳) ニューラルネットワークはシンボルの明確な場所のない分散表現を促進する。 それにもかかわらず、我々は、フィードバックスパイクニューラルネットワークにおいて、自給性アトラクションとしてスパースランダムノイズを訓練することで、シンボルを製造することを提案する。 このようにして、プライマリアトラクターと呼ぶものの多くを生成し、それらをサポートするネットワークは、シンボル値を持つレジスタのようなもので、それらをレジスタと呼ぶ。 記号と同様に、素誘引子は原子であり、内部構造を持たない。 さらに、スパイクニューロンによって自然に実装された入賞機構により、レジスタはノイズ信号内で素誘引器を回復することができる。 この教科を用いると、2つの連結レジスタ、入力1と出力1を考慮すれば、入力にアクティブなアトラクターに対して出力にアクティブなアトラクターをヘビアン規則で1枚のショットにバインドすることができる。 したがって、アトラクタが入力にアクティブな場合、その信号がより多くの結合でぼやけても、そのバウンドアトラクタを出力に誘導し、勝者総フィルタリング部はバウンドプライムアトラクタを回収することができる。 ただし、容量は限られている。 ワンショットでアンバイドすることも可能で、その結合によって取り込まれるキャパシティを復元することもできる。 このメカニズムはワーキングメモリの基礎となり、プライムアトラクタを変数に変換する。 また、ランダムな2次ネットワークを用いて、2つのレジスタが保持するプライマリアトラクタをマージし、第3レジスタが保持するプライマリアトラクタを1ショットでバインドし、ハッシュテーブルを事実上実装する。 さらに、あるレジスタの内容が別のレジスタに移動するようにレジスタからなるレジスタスイッチボックスを導入する。 次に、スパイクニューロンを用いて、上記に基づいておもちゃのシンボルコンピューターを構築する。 この技術は、構造的先行コストで外挿、再利用、サンプル効率のよいディープラーニングネットワークを設計する方法を提案する。

Neural networks promote a distributed representation with no clear place for symbols. Despite this, we propose that symbols are manufactured simply by training a sparse random noise as a self-sustaining attractor in a feedback spiking neural network. This way, we can generate many of what we shall call prime attractors, and the networks that support them are like registers holding a symbolic value, and we call them registers. Like symbols, prime attractors are atomic and devoid of any internal structure. Moreover, the winner-take-all mechanism naturally implemented by spiking neurons enables registers to recover a prime attractor within a noisy signal. Using this faculty, when considering two connected registers, an input one and an output one, it is possible to bind in one shot using a Hebbian rule the attractor active on the output to the attractor active on the input. Thus, whenever an attractor is active on the input, it induces its bound attractor on the output; even though the signal gets blurrier with more bindings, the winner-take-all filtering faculty can recover the bound prime attractor. However, the capacity is still limited. It is also possible to unbind in one shot, restoring the capacity taken by that binding. This mechanism serves as a basis for working memory, turning prime attractors into variables. Also, we use a random second-order network to amalgamate the prime attractors held by two registers to bind the prime attractor held by a third register to them in one shot, de facto implementing a hash table. Furthermore, we introduce the register switch box composed of registers to move the content of one register to another. Then, we use spiking neurons to build a toy symbolic computer based on the above. The technics used suggest ways to design extrapolating, reusable, sample-efficient deep learning networks at the cost of structural priors.
翻訳日:2022-06-06 07:51:34 公開日:2022-05-13
# (参考訳) ナレッジグラフ 質問 データセットとその一般化:将来の研究に十分か?

Knowledge Graph Question Answering Datasets and Their Generalizability: Are They Enough for Future Research? ( http://arxiv.org/abs/2205.06573v1 )

ライセンス: CC BY 4.0
Longquan Jiang, Ricardo Usbeck(参考訳) 知識グラフ(KGQA)に関する既存のアプローチは、弱い一般化性を持っている。 これはしばしば、基礎となるデータセットの標準 i.d. の仮定による。 近年、KGQAの一般化の3つのレベル、すなわち構成的、ゼロショットが定義されている。 5つの異なる知識グラフ(KGs)に対して、よく知られた25のKGQAデータセットを分析した。 この定義によれば、既存のオンラインKGQAデータセットの多くは、一般化可能なKGQAシステムのトレーニングには適していないか、あるいは、データセットが廃止および時代遅れのKGに基づいているかを示す。 新しいデータセットの生成はコストのかかるプロセスであり、小さな研究グループや企業に代わるものではない。 本研究では,利用可能なKGQAデータセットを再分割し,コストや手作業を伴わずに一般化を評価するための緩和手法を提案する。 我々は,3つのKGQAデータセット(LC-QuAD,LC-QuAD 2.0,QALD-9)で仮説を検証した。 KGQAデータセットの再分割実験は、その一般化性に対する効果を示す。 18の利用可能なデータセットにアクセスするためのコードと統一された方法は、https://github.com/semantic-systems/KGQA-datasetsとhttps://github.com/semantic-systems/KGQA-datasets-generalizationでオンライン公開されている。

Existing approaches on Question Answering over Knowledge Graphs (KGQA) have weak generalizability. That is often due to the standard i.i.d. assumption on the underlying dataset. Recently, three levels of generalization for KGQA were defined, namely i.i.d., compositional, zero-shot. We analyze 25 well-known KGQA datasets for 5 different Knowledge Graphs (KGs). We show that according to this definition many existing and online available KGQA datasets are either not suited to train a generalizable KGQA system or that the datasets are based on discontinued and out-dated KGs. Generating new datasets is a costly process and, thus, is not an alternative to smaller research groups and companies. In this work, we propose a mitigation method for re-splitting available KGQA datasets to enable their applicability to evaluate generalization, without any cost and manual effort. We test our hypothesis on three KGQA datasets, i.e., LC-QuAD, LC-QuAD 2.0 and QALD-9). Experiments on re-splitted KGQA datasets demonstrate its effectiveness towards generalizability. The code and a unified way to access 18 available datasets is online at https://github.com/semantic-systems/KGQA-datasets as well as https://github.com/semantic-systems/KGQA-datasets-generalization.
翻訳日:2022-06-06 07:50:08 公開日:2022-05-13
# 近傍ファジィ被覆に基づく粗集合モデルとその意思決定への応用

Some neighborhood-related fuzzy covering-based rough set models and their applications for decision making ( http://arxiv.org/abs/2205.10125v1 )

ライセンス: Link先を確認
Gongao Qi, Bin Yang, Wei Li(参考訳) ファジィ粗集合 (FRS) はデータマイニングプロセスに大きな影響を与え、ファジィ論理作用素はFRS理論の発展に重要な役割を果たしている。 本稿では,より複雑なデータ環境にfrs理論をさらに一般化するために,重なり関数によるファジィ被覆に基づくファジィ近傍作用素の4つのタイプを提案する。 一方、元のファジィ被覆から導出したファジィ被覆を定義し、有限ファジィ被覆に基づく重なり関数に基づくファジィ近傍作用素の等式についても検討した。 第2に、同値関係により新しい演算子を17群に分割できることを証明し、これらの17種類の演算子の部分順序関係についても論じる。 さらに、D'eerらによって与えられる$ t$-normベースのファジィ近傍演算子との比較を行い、様々なファジィ論理演算子に基づいて異なるファジィ近傍演算子を用いて定義される2種類の近傍ファジィ被覆型粗集合モデルについて述べる。 さらに、グループ化と部分順序関係についても論じる。 最後に, 生体合成ナノマテリアル選択問題を解くために, 新たなファジィ・トップス法を提案し, 9つの異なる方法との比較により, 新たなアプローチの合理性と適用性を検証する。

Fuzzy rough set (FRS) has a great effect on data mining processes and the fuzzy logical operators play a key role in the development of FRS theory. In order to further generalize the FRS theory to more complicated data environments, we firstly propose four types of fuzzy neighborhood operators based on fuzzy covering by overlap functions and their implicators in this paper. Meanwhile, the derived fuzzy coverings from an original fuzzy covering are defined and the equalities among overlap function-based fuzzy neighborhood operators based on a finite fuzzy covering are also investigated. Secondly, we prove that new operators can be divided into seventeen groups according to equivalence relations, and the partial order relations among these seventeen classes of operators are discussed, as well. Go further, the comparisons with $ t$-norm-based fuzzy neighborhood operators given by D'eer et al. are also made and two types of neighborhood-related fuzzy covering-based rough set models, which are defined via different fuzzy neighborhood operators that are on the basis of diverse kinds of fuzzy logical operators proposed. Furthermore, the groupings and partially order relations are also discussed. Finally, a novel fuzzy TOPSIS methodology is put forward to solve a biosynthetic nanomaterials select issue, and the rationality and enforceability of our new approach is verified by comparing its results with nine different methods.
翻訳日:2022-05-29 20:37:22 公開日:2022-05-13
# 粘性原子蒸気中のプラズマチャネルのシュリーレンイメージングのための機械学習手法

Machine learning methods for Schlieren imaging of a plasma channel in tenuous atomic vapor ( http://arxiv.org/abs/2205.12731v1 )

ライセンス: Link先を確認
G\'abor B\'ir\'o, Mih\'aly Pocsai, Imre Ferenc Barna, Joshua T. Moody and G\'abor Demeter(参考訳) 原子蒸気中のプラズマチャネルの幾何学的寸法を測定するためのシュリーレン撮像装置の使用について検討した。 近接共振プローブ光を用いて天性蒸気中のプラズマチャネルを撮像し、画像から定量的情報を抽出するための機械学習技術をテストする。 深層ニューラルネットワークを訓練するために, シミュレーションされた信号のデータベースを構築し, シュリーレン画像から, プラズマチャネルの位置, 半径, 最大イオン化率, およびプラズマチャネルのコアと結合蒸気との間の遷移領域の幅を, 確実にかつ高精度に抽出できることを実証した。 本研究では,複数のニューラルネットワークアーキテクチャを教師あり学習でテストし,測定過程で生じる実験パラメータのわずかな変化に対して,ネットワークから供給されるパラメータ推定がレジリエントであることを示す。

We investigate the usage of a Schlieren imaging setup to measure the geometrical dimensions of a plasma channel in atomic vapor. Near resonant probe light is used to image the plasma channel in a tenuous vapor and machine learning techniques are tested for extracting quantitative information from the images. By building a database of simulated signals with a range of plasma parameters for training Deep Neural Networks, we demonstrate that they can extract from the Schlieren images reliably and with high accuracy the location, the radius and the maximum ionization fraction of the plasma channel as well as the width of the transition region between the core of the plasma channel and the unionized vapor. We test several different neural network architectures with supervised learning and show that the parameter estimations supplied by the networks are resilient with respect to slight changes of the experimental parameters that may occur in the course of a measurement.
翻訳日:2022-05-29 20:36:55 公開日:2022-05-13
# 医用画像における構造分割のためのグローバルバイナリマスクの活用

Leveraging Global Binary Masks for Structure Segmentation in Medical Images ( http://arxiv.org/abs/2205.09107v1 )

ライセンス: Link先を確認
Mahdieh Kazemimoghadam, Zi Yang, Lin Ma, Mingli Chen, Weiguo Lu and Xuejun Gu(参考訳) 医用画像セグメンテーションのための深層学習(DL)モデルは,入力画像の強度変化の影響を強く受けており,主に画像の強度情報を利用した推論による一般化が欠如している。 十分なトレーニングデータを取得することは、モデルのアプリケーションを制限する別の課題である。 医療画像における臓器の解剖学的形状と位置情報の一貫性を活用することを提案した。 我々は,臓器分割のためのグローバルなバイナリマスクを通して,解剖学的パターンを再現する枠組みを導入した。 2)グローバルバイナリマスクは,トレーニングデータ不足を軽減するための位置/形状の手がかりとして機能する追加チャネルとして,臓器の位置と形状情報を排他的に符号化する唯一のモデル(U-Net)入力であった。 脳と心臓のct画像の2つのデータセットをそれぞれ26:10:10と12:3:5に分割し、トレーニング、検証、テストを行った。 グローバルな二乗マスクを専門に訓練した結果、ディースのスコアは0.77(0.06)と0.85(0.04)となり、平均ユークリッド距離は3.12(1.43)mmと2.5(0.93)mmであり、それぞれ脳と心臓の構造における基底真理の中心である。 結果として、驚くべき位置と形状の情報がグローバルバイナリマスクを通じて符号化されていることが示される。 グローバル・バイナリ・マスクを組み込むことで、訓練データの小さなサブセットでct画像のみを訓練したモデルと比較して精度が著しく向上し、脳と心臓データセットの1-8のトレーニングケースでは、それぞれ4.3-125.3%と1.3-48.1%向上した。 この結果から,グローバルなバイナリマスクを用いた一般化可能なモデルの構築と,データ不足のトレーニングを補完するメリットが示唆された。

Deep learning (DL) models for medical image segmentation are highly influenced by intensity variations of input images and lack generalization due to primarily utilizing pixels' intensity information for inference. Acquiring sufficient training data is another challenge limiting models' applications. We proposed to leverage the consistency of organs' anatomical shape and position information in medical images. We introduced a framework leveraging recurring anatomical patterns through global binary masks for organ segmentation. Two scenarios were studied.1) Global binary masks were the only model's (i.e. U-Net) input, forcing exclusively encoding organs' position and shape information for segmentation/localization.2) Global binary masks were incorporated as an additional channel functioning as position/shape clues to mitigate training data scarcity. Two datasets of the brain and heart CT images with their ground-truth were split into (26:10:10) and (12:3:5) for training, validation, and test respectively. Training exclusively on global binary masks led to Dice scores of 0.77(0.06) and 0.85(0.04), with the average Euclidian distance of 3.12(1.43)mm and 2.5(0.93)mm relative to the center of mass of the ground truth for the brain and heart structures respectively. The outcomes indicate that a surprising degree of position and shape information is encoded through global binary masks. Incorporating global binary masks led to significantly higher accuracy relative to the model trained on only CT images in small subsets of training data; the performance improved by 4.3-125.3% and 1.3-48.1% for 1-8 training cases of the brain and heart datasets respectively. The findings imply the advantages of utilizing global binary masks for building generalizable models and to compensate for training data scarcity.
翻訳日:2022-05-22 11:19:15 公開日:2022-05-13
# (参考訳) mmW-NOMAにおける深部強化学習:連系パワーアロケーションとハイブリッドビームフォーミング

Deep Reinforcement Learning in mmW-NOMA: Joint Power Allocation and Hybrid Beamforming ( http://arxiv.org/abs/2205.06814v1 )

ライセンス: CC BY 4.0
Abbas Akbarpour-Kasgari, Mehrdad Ardebilipour(参考訳) 次世代無線通信におけるデータレートの高需要はミリメートル波(mmw)周波数帯における非直交多重アクセス(noma)アプローチによって保証される。 ビットレートの高要求を保証するためには、ジョイントパワーアロケーションとビームフォーミングによるビットレートを維持しながら、他のユーザへの干渉を減らす必要がある。 さらに、ミリ波周波数帯域は、実装と性能のトレードオフにより、ビームフォーミングのハイブリッド構造を同時に規定する。 本稿では, 深層強化学習(DRL, Deep Reinforcement Learning)と呼ばれる機械学習と制御理論の最近の進歩を通じて, mmW-NOMAシステムの連系電力配分とハイブリッドビームフォーミングについて述べる。 アクター批判現象を利用して、即時報酬を測定し、ネットワーク全体のQ値を最大化する新しいアクションを提供する。 さらに,本手法の安定性向上のために,全報酬と行動エントロピーを同時に最大化するソフトアクタ・クリティカル(SAC)アプローチを採用した。 即時報酬は、すべてのユーザーの率の柔らかい重み付けの和に基づいて定義されている。 ソフト重み付けは、各ユーザの達成率と割り当てられたパワーに基づいて行われる。 さらに、ユーザと基地局(BS)間のチャネル応答は環境状態として定義され、アクション空間はデジタルおよびアナログビームフォーミングウェイトに関係し、各ユーザに対して電力を割り当てる。 シミュレーションの結果は、ユーザの総和率の観点から、TDMA(Time-Division Multiple Access)やNon-Line of Sight(NLOS)-NOMA(Non-Line of Sight)よりも提案手法の方が優れていることを示す。 この性能は,チャネル応答に対する提案手法の協調最適化と非依存性によって引き起こされる。

High demand of data rate in the next generation of wireless communication could be ensured by Non-Orthogonal Multiple Access (NOMA) approach in the millimetre-wave (mmW) frequency band. Decreasing the interference on the other users while maintaining the bit rate via joint power allocation and beamforming is mandatory to guarantee the high demand of bit-rate. Furthermore, mmW frequency bands dictates the hybrid structure for beamforming because of the trade-off in implementation and performance, simultaneously. In this paper, joint power allocation and hybrid beamforming of mmW-NOMA systems is brought up via recent advances in machine learning and control theory approaches called Deep Reinforcement Learning (DRL). Actor-critic phenomena is exploited to measure the immediate reward and providing the new action to maximize the overall Q-value of the network. Additionally, to improve the stability of the approach, we have utilized Soft Actor-Critic (SAC) approach where overall reward and action entropy is maximized, simultaneously. The immediate reward has been defined based on the soft weighted summation of the rate of all the users. The soft weighting is based on the achieved rate and allocated power of each user. Furthermore, the channel responses between the users and base station (BS) is defined as the state of environment, while action space is involved of the digital and analog beamforming weights and allocated power to each user. The simulation results represent the superiority of the proposed approach rather than the Time-Division Multiple Access (TDMA) and Non-Line of Sight (NLOS)-NOMA in terms of sum-rate of the users. It's outperformance is caused by the joint optimization and independency of the proposed approach to the channel responses.
翻訳日:2022-05-20 05:33:57 公開日:2022-05-13
# (参考訳) KnowGraph-PM:半導体サプライチェーンの知識グラフに基づく価格モデル

KnowGraph-PM: a Knowledge Graph based Pricing Model for Semiconductors Supply Chains ( http://arxiv.org/abs/2205.07627v1 )

ライセンス: CC BY 4.0
Nour Ramzy, Soren Auer, Javad Chamanara, Hans Ehm(参考訳) 半導体サプライチェーンは、サプライチェーン、いわゆるブルウィップ効果の上昇に伴って増加する大きな需要変動によって説明される。 半導体メーカーは、キャパシティ利用を最適化し、リードタイムを短くし、これを活用して収益を生み出すことを目指している。 さらに、競争の激しい市場では、企業は動的価格などの収益管理戦略を適用しながら顧客関係を維持しようとしている。 価格変更は顧客との衝突を引き起こす可能性がある。 本稿では,知識グラフに基づく動的価格モデルであるKnowGraph-PMを提案する。 セマンティクスモデルは、より高速なデリバリーとより短いリードタイムの可能性をプレミアム価格の定義に用い、顧客プロファイルに基づく利益の増加を伴います。 ナレッジグラフは、顧客クラスや場所といった顧客関連の情報を顧客注文データに統合することができる。 価格アルゴリズムは、顧客プロファイルと注文行動に依存するSPARQLクエリとして実現され、対応する価格プレミアムを決定する。 価格アルゴリズムを適用した後の収益を計算し,そのアプローチを評価する。 SPARQLクエリに翻訳する能力質問に基づいて、生成された知識グラフを検証する。 セマンティクスデータの統合によって、顧客対応の収益管理が可能になることを実証する。

Semiconductor supply chains are described by significant demand fluctuation that increases as one moves up the supply chain, the so-called bullwhip effect. To counteract, semiconductor manufacturers aim to optimize capacity utilization, to deliver with shorter lead times and exploit this to generate revenue. Additionally, in a competitive market, firms seek to maintain customer relationships while applying revenue management strategies such as dynamic pricing. Price change potentially generates conflicts with customers. In this paper, we present KnowGraph-PM, a knowledge graph-based dynamic pricing model. The semantic model uses the potential of faster delivery and shorter lead times to define premium prices, thus entail increased profits based on the customer profile. The knowledge graph enables the integration of customer-related information, e.g., customer class and location to customer order data. The pricing algorithm is realized as a SPARQL query that relies on customer profile and order behavior to determine the corresponding price premium. We evaluate the approach by calculating the revenue generated after applying the pricing algorithm. Based on competency questions that translate to SPARQL queries, we validate the created knowledge graph. We demonstrate that semantic data integration enables customer-tailored revenue management.
翻訳日:2022-05-20 05:19:10 公開日:2022-05-13
# (参考訳) 深部ニューラルネットワークを用いた多変種COVID-19モデル

Multi-variant COVID-19 model with heterogeneous transmission rates using deep neural networks ( http://arxiv.org/abs/2205.06834v1 )

ライセンス: CC BY 4.0
K.D. Olumoyin, A.Q.M. Khaliq, K.M. Furati(参考訳) 2021年以降、多くの米国州で変異型が報告されている。 新型コロナウイルス(COVID-19)との闘いにおいて、医薬品や非医薬品の緩和策の存在下で、各変種に対する時間変化の伝達速度の不均一性を研究することが義務づけられている。 我々は,B.1.617.2デルタ変種とSARS-CoV-2の伝送特性の違いを明らかにするために,サセプティブル・エフェクト・インフェクト・インフェクト・リカバード数学モデルを開発した。 モデルの有効性に関する理論的結果について論じる。 ディープニューラルネットワークを利用して、各変種に対する時間変動異種伝送率を学習する深層学習アルゴリズムを開発した。 このモデルのアルゴリズムの精度は、アメリカ合衆国フロリダ州、アラバマ州、テネシー州、ミズーリ州のcovid-19変種のデータ駆動シミュレーションでエラーメトリクスを用いて示される。 長期記憶神経ネットワークと適応型神経ファジィ推論システムを用いて, 日常症例の短期的予測を行った。

Mutating variants of COVID-19 have been reported across many US states since 2021. In the fight against COVID-19, it has become imperative to study the heterogeneity in the time-varying transmission rates for each variant in the presence of pharmaceutical and non-pharmaceutical mitigation measures. We develop a Susceptible-Exposed-Infected-Recovered mathematical model to highlight the differences in the transmission of the B.1.617.2 delta variant and the original SARS-CoV-2. Theoretical results for the well-posedness of the model are discussed. A Deep neural network is utilized and a deep learning algorithm is developed to learn the time-varying heterogeneous transmission rates for each variant. The accuracy of the algorithm for the model is shown using error metrics in the data-driven simulation for COVID-19 variants in the US states of Florida, Alabama, Tennessee, and Missouri. Short-term forecasting of daily cases is demonstrated using long short term memory neural network and an adaptive neuro-fuzzy inference system.
翻訳日:2022-05-20 05:10:49 公開日:2022-05-13
# (参考訳) モバイルデバイス上でのイベントベースのコンピュータビジョンのためのフレームワーク

A Framework for Event-based Computer Vision on a Mobile Device ( http://arxiv.org/abs/2205.06836v1 )

ライセンス: CC BY 4.0
Gregor Lenz, Serge Picaud, Sio-Hoi Ieng(参考訳) イベントカメラから直接携帯電話にデータをストリームする,初めて公開されたAndroidフレームワークを提示する。 今日のモバイルデバイスは、これまで以上に幅広いワークロードを処理し、デバイスをより賢く、よりユーザーフレンドリーで、セキュアにするセンサーを多用しています。 特に従来のカメラは、こうしたタスクにおいて中心的な役割を果たすが、記録される冗長な情報の量は処理にコストがかかるため、継続的に記録することはできない。 一方、バイオインスパイアされたイベントカメラは、視覚シーンの変化しか記録せず、顔検出、ジェスチャー認識、視線追跡などのモバイルタスクに特に適合する、有望な低電力アプリケーションを示している。 私たちのプロトタイプデバイスは、このようなイベントカメラをバッテリー駆動のハンドヘルドデバイスに組み込むための第一歩です。 モバイルフレームワークは、イベントをリアルタイムでストリーミングし、携帯電話上で常時オンおよびオンデマンドのセンシングを可能にする。 同期von neumannハードウェアによる非同期イベントカメラ出力のリアライズには,イベントのバッファリングとバッチ処理がモバイルアプリケーションに与える影響を検討する。 提案手法は,遅延とスループットの観点から評価し,ジェスチャ認識,アパーチャロバストな光学フロー,イベントからのグレーレベル画像再構成など,イベントバイイベントと事前トレーニングされたニューラルネットワークの手法を併用したコンピュータビジョンタスクの例を示す。 コードはhttps://github.com/neuromorphic-paris/frogで入手できる。

We present the first publicly available Android framework to stream data from an event camera directly to a mobile phone. Today's mobile devices handle a wider range of workloads than ever before and they incorporate a growing gamut of sensors that make devices smarter, more user friendly and secure. Conventional cameras in particular play a central role in such tasks, but they cannot record continuously, as the amount of redundant information recorded is costly to process. Bio-inspired event cameras on the other hand only record changes in a visual scene and have shown promising low-power applications that specifically suit mobile tasks such as face detection, gesture recognition or gaze tracking. Our prototype device is the first step towards embedding such an event camera into a battery-powered handheld device. The mobile framework allows us to stream events in real-time and opens up the possibilities for always-on and on-demand sensing on mobile phones. To liaise the asynchronous event camera output with synchronous von Neumann hardware, we look at how buffering events and processing them in batches can benefit mobile applications. We evaluate our framework in terms of latency and throughput and show examples of computer vision tasks that involve both event-by-event and pre-trained neural network methods for gesture recognition, aperture robust optical flow and grey-level image reconstruction from events. The code is available at https://github.com/neuromorphic-paris/frog
翻訳日:2022-05-19 12:09:51 公開日:2022-05-13
# (参考訳) irb-nlp at semeval-2022 task 1: 単語と意味表現の関係を探る

IRB-NLP at SemEval-2022 Task 1: Exploring the Relationship Between Words and Their Semantic Representations ( http://arxiv.org/abs/2205.06840v1 )

ライセンス: CC BY 4.0
Damir Koren\v{c}i\'c, Ivan Grubi\v{s}i\'c(参考訳) 単語とその記述,あるいは単語とその埋め込みの関係はどのようなものか? 記述と埋め込みの両方が単語の意味表現である。 しかし、これらの表現にオリジナルの単語からどのような情報が残っているのか? さらに重要なのは、これらの2つの表現は、どの単語に関する情報を共有しているか? 定義モデリングと逆辞書は、これらの疑問に対処する2つの反対の学習課題である。 定義モデリングタスクの目標は、単語埋め込みの中に置かれる情報の力を調べ、単語の意味を人間的に理解できる方法で表現することである。 逆に、Reverse Dictionaryタスクはその定義から直接単語の埋め込みを予測する能力を探求する。 本稿では,これら2つの課題に対処することにより,単語とその意味表現の関係を探究する。 本研究は,CODWOEデータセットを用いた記述的,探索的,予測的データ分析に基づいて行った。 本稿では,セムエスバル-2022 CODWOE課題をいくつかのサブタスクで達成した,定義モデリング・リバース辞書タスクのためのシステムの概要について述べる。 予測モデルとデータ分析に関する実験結果が,今後の単語表現とその関係の探索に有用であることを期待する。

What is the relation between a word and its description, or a word and its embedding? Both descriptions and embeddings are semantic representations of words. But, what information from the original word remains in these representations? Or more importantly, which information about a word do these two representations share? Definition Modeling and Reverse Dictionary are two opposite learning tasks that address these questions. The goal of the Definition Modeling task is to investigate the power of information laying inside a word embedding to express the meaning of the word in a humanly understandable way -- as a dictionary definition. Conversely, the Reverse Dictionary task explores the ability to predict word embeddings directly from its definition. In this paper, by tackling these two tasks, we are exploring the relationship between words and their semantic representations. We present our findings based on the descriptive, exploratory, and predictive data analysis conducted on the CODWOE dataset. We give a detailed overview of the systems that we designed for Definition Modeling and Reverse Dictionary tasks, and that achieved top scores on SemEval-2022 CODWOE challenge in several subtasks. We hope that our experimental results concerning the predictive models and the data analyses we provide will prove useful in future explorations of word representations and their relationships.
翻訳日:2022-05-19 11:54:37 公開日:2022-05-13
# (参考訳) 建物自動化システムセンサデータを用いた非凝縮ボイラの故障検出

Fault Detection for Non-Condensing Boilers using Simulated Building Automation System Sensor Data ( http://arxiv.org/abs/2205.08418v1 )

ライセンス: CC BY-SA 4.0
Rony Shohet, Mohamed Kandil (1), J.J. McArthur (1), ((1) Department Architectural Science, Ryerson University, Toronto, Canada)(参考訳) 建設性能はコミッショニング後に著しく低下し、エネルギー消費が増加し、温室効果ガスが排出される結果となった。 既存のセンサネットワークとIoTデバイスを使用した継続的コミッショニングは、システムの劣化を継続的に識別し、実際のビルディングパフォーマンスに適応するためのコントロール戦略を再調整することで、この無駄を最小限にする可能性がある。 温室効果ガス排出に対する大きな貢献があるため、暖房用ガスボイラーシステムの性能は極めて重要である。 ボイラ性能研究のレビューは,MATLAB/Simulinkエミュレータに統合された一連の共通故障および劣化性能条件の開発に利用されている。 その結果、14個の非凝縮ボイラーのそれぞれに対して約10,000の定常性能のラベル付きデータセットが得られた。 収集したデータは,K-アネレスト近傍,決定木,ランダムフォレスト,サポートベクトルマシンを用いた断層分類の訓練と試験に使用される。 その結果, 支持ベクトル機械法による予測精度は90%を超え, 分類精度が低いため複数のボイラーにまたがる一般化は不可能であった。

Building performance has been shown to degrade significantly after commissioning, resulting in increased energy consumption and associated greenhouse gas emissions. Continuous Commissioning using existing sensor networks and IoT devices has the potential to minimize this waste by continually identifying system degradation and re-tuning control strategies to adapt to real building performance. Due to its significant contribution to greenhouse gas emissions, the performance of gas boiler systems for building heating is critical. A review of boiler performance studies has been used to develop a set of common faults and degraded performance conditions, which have been integrated into a MATLAB/Simulink emulator. This resulted in a labeled dataset with approximately 10,000 simulations of steady-state performance for each of 14 non-condensing boilers. The collected data is used for training and testing fault classification using K-nearest neighbour, Decision tree, Random Forest, and Support Vector Machines. The results show that the Support Vector Machines method gave the best prediction accuracy, consistently exceeding 90%, and generalization across multiple boilers is not possible due to low classification accuracy.
翻訳日:2022-05-19 11:32:11 公開日:2022-05-13
# (参考訳) テキスト資源を用いたアルゴリズム知識グラフの自動構築の試み

An Approach for Automatic Construction of an Algorithmic Knowledge Graph from Textual Resources ( http://arxiv.org/abs/2205.06854v1 )

ライセンス: CC BY 4.0
Jyotima Patel and Biswanath Dutta(参考訳) 様々な研究分野で大きな成長を遂げている。 この開発には新しい問題が伴っている。 これらの問題を効率的に、かつ最適な方法で解くために、アルゴリズムは科学文献の研究者によって作成され、記述される。 科学的アルゴリズムは、多くの領域で既存の研究の理解と再利用に不可欠である。 しかし、アルゴリズムを見つけることは一般的に難しい。 また、ドキュメントが切り離されているため、類似したアルゴリズムの比較も難しい。 アルゴリズムに関する情報は、主にwebサイトやコードコメントなどに存在する。 アルゴリズムを表現するための構造化メタデータがない。 その結果、しばしば冗長あるいは類似のアルゴリズムが公開され、研究者らは既存のアルゴリズムを再利用したり拡張したりせずに、ゼロから構築する。 本稿では,非構造化データからアルゴリズム問題に対する知識グラフ(kg)を自動的に作成する手法を提案する。 より明確かつ広範囲に情報をキャプチャするため、アルゴリズムKGは、アルゴリズムメタデータに追加のコンテキストと説明可能性を与える。

There is enormous growth in various fields of research. This development is accompanied by new problems. To solve these problems efficiently and in an optimized manner, algorithms are created and described by researchers in the scientific literature. Scientific algorithms are vital for understanding and reusing existing work in numerous domains. However, algorithms are generally challenging to find. Also, the comparison among similar algorithms is difficult because of the disconnected documentation. Information about algorithms is mostly present in websites, code comments, and so on. There is an absence of structured metadata to portray algorithms. As a result, sometimes redundant or similar algorithms are published, and the researchers build them from scratch instead of reusing or expanding upon the already existing algorithm. In this paper, we introduce an approach for automatically developing a knowledge graph (KG) for algorithmic problems from unstructured data. Because it captures information more clearly and extensively, an algorithm KG will give additional context and explainability to the algorithm metadata.
翻訳日:2022-05-19 10:29:37 公開日:2022-05-13
# (参考訳) コビッド関連Redditの感性分析

Sentiment Analysis of Covid-related Reddits ( http://arxiv.org/abs/2205.06863v1 )

ライセンス: CC BY 4.0
Yilin Yang, Tomas Fieg, Marina Sokolova(参考訳) 本稿では、Redditのr/Canadaおよびr/UnitedkingdomサブレディットからのCovid-19関連メッセージの知覚分析に焦点を当てる。 手動アノテーションと3つの機械学習アルゴリズムを用いて、これらのメッセージで伝えられた感情を分析する。 VADERとTextBlobを使って、機械学習の実験のためにメッセージをラベル付けします。 以上の結果から,最短・最長のメッセージの削除は,3つのアルゴリズムによる肯定的感情分類とFスコアに対するVADERとTextBlobの合意を改善することが示された。

This paper focuses on Sentiment Analysis of Covid-19 related messages from the r/Canada and r/Unitedkingdom subreddits of Reddit. We apply manual annotation and three Machine Learning algorithms to analyze sentiments conveyed in those messages. We use VADER and TextBlob to label messages for Machine Learning experiments. Our results show that removal of shortest and longest messages improves VADER and TextBlob agreement on positive sentiments and F-score of sentiment classification by all the three algorithms
翻訳日:2022-05-19 10:15:46 公開日:2022-05-13
# (参考訳) ハマー損失に基づくスーパーラーナーと医療支出への応用

A Huber loss-based super learner with applications to healthcare expenditures ( http://arxiv.org/abs/2205.06870v1 )

ライセンス: CC BY 4.0
Ziyue Wu, David Benkeser(参考訳) 医療支出の複雑な分布は、単一のモデルによる統計モデリングに困難をもたらす。 さまざまな候補モデルを組み合わせたアンサンブル手法であるSuper Learningは,コスト見積のための有望な代替手段であり,単一のモデルに対するメリットを示している。 しかし、スーパーラーニングへの標準的なアプローチは、医療費データなどの極端な値が存在する環境では、パフォーマンスが劣る可能性がある。 本稿では,2乗誤差損失と絶対損失を組み合わせ,アウトレーヤの影響を下げる「ロバスト」損失関数であるHuber損失に基づく超学習者を提案する。 我々は、この手法の有限サンプルおよび漸近性能上の境界を確立するオラクル不等式を導出する。 提案手法は,ハバーリスクの最適化と,平均二乗誤差の最適化が究極の目標となる有限サンプル設定の両方に利用できることを示す。 後者のシナリオでは,フーバー損失をインデックス化するロバスト化パラメータの値のグリッド探索を行う2つの方法を提案する。 シミュレーションと実データ解析は,提案手法によるコスト予測と因果効果推定において有意な有限サンプルゲインを示す。

Complex distributions of the healthcare expenditure pose challenges to statistical modeling via a single model. Super learning, an ensemble method that combines a range of candidate models, is a promising alternative for cost estimation and has shown benefits over a single model. However, standard approaches to super learning may have poor performance in settings where extreme values are present, such as healthcare expenditure data. We propose a super learner based on the Huber loss, a "robust" loss function that combines squared error loss with absolute loss to down-weight the influence of outliers. We derive oracle inequalities that establish bounds on the finite-sample and asymptotic performance of the method. We show that the proposed method can be used both directly to optimize Huber risk, as well as in finite-sample settings where optimizing mean squared error is the ultimate goal. For this latter scenario, we provide two methods for performing a grid search for values of the robustification parameter indexing the Huber loss. Simulations and real data analysis demonstrate appreciable finite-sample gains in cost prediction and causal effect estimation using our proposed method.
翻訳日:2022-05-19 10:10:24 公開日:2022-05-13
# (参考訳) 顔画像を用いた顔認識課題の改善

Using Augmented Face Images to Improve Facial Recognition Tasks ( http://arxiv.org/abs/2205.06873v1 )

ライセンス: CC BY 4.0
Shuo Cheng and Guoxian Song and Wan-Chun Ma and Chao Wang and Linjie Luo(参考訳) 機械学習モデルトレーニングにおいて,gan画像を用いて特定の属性(通常は表現不足)を補完するフレームワークを提案する。 これにより、顔認識タスクの属性よりも推論品質が向上します。

We present a framework that uses GAN-augmented images to complement certain specific attributes, usually underrepresented, for machine learning model training. This allows us to improve inference quality over those attributes for the facial recognition tasks.
翻訳日:2022-05-19 10:09:18 公開日:2022-05-13
# (参考訳) PathologyBERT - 事前訓練Vs. 病理領域の新しいトランスフォーマ言語モデル

PathologyBERT -- Pre-trained Vs. A New Transformer Language Model for Pathology Domain ( http://arxiv.org/abs/2205.06885v1 )

ライセンス: CC0 1.0
Thiago Santos, Amara Tariq, Susmita Das, Kavyasree Vayalpati, Geoffrey H. Smith, Hari Trivedi, Imon Banerjee(参考訳) 病理テキストマイニングは、がんの亜型定義における報告の多様性と常に新しい発見を考えると、難しい課題である。 しかし、大規模病理データベースのテキストマイニングの成功は、類似性に基づく治療選択、症例同定、予後予測、監視、臨床試験スクリーニング、リスク階層化などの「ビッグデータ」癌の研究を進める上で重要な役割を果たす。 より特定の臨床領域のための言語モデルの開発には関心が高まっているが、病理領域における迅速なデータマイニング開発をサポートする、病理特有の言語空間は存在しない。 文献では、元のトークン化器を維持しながら特殊コーパスの一般的なトランスフォーマーモデルを微調整するアプローチがいくつかあるが、専門用語を必要とする分野では、これらのモデルは適切に機能しないことが多い。 筆者らは347,173例の病理組織学的検体をトレーニングし,Huggingfaceリポジトリで公開されているPathologyBERTを提案する。 病理コーパスにおけるトランスフォーマモデルの事前学習は,非特異的言語モデルと比較して自然言語理解(nlu)と乳がん診断分類のパフォーマンス向上をもたらすことを示す。

Pathology text mining is a challenging task given the reporting variability and constant new findings in cancer sub-type definitions. However, successful text mining of a large pathology database can play a critical role to advance 'big data' cancer research like similarity-based treatment selection, case identification, prognostication, surveillance, clinical trial screening, risk stratification, and many others. While there is a growing interest in developing language models for more specific clinical domains, no pathology-specific language space exist to support the rapid data-mining development in pathology space. In literature, a few approaches fine-tuned general transformer models on specialized corpora while maintaining the original tokenizer, but in fields requiring specialized terminology, these models often fail to perform adequately. We propose PathologyBERT - a pre-trained masked language model which was trained on 347,173 histopathology specimen reports and publicly released in the Huggingface repository. Our comprehensive experiments demonstrate that pre-training of transformer model on pathology corpora yields performance improvements on Natural Language Understanding (NLU) and Breast Cancer Diagnose Classification when compared to nonspecific language models.
翻訳日:2022-05-19 10:03:40 公開日:2022-05-13
# (参考訳) 遠隔監視によるテキスト匿名化モデルのブートストラップ

Bootstrapping Text Anonymization Models with Distant Supervision ( http://arxiv.org/abs/2205.06895v1 )

ライセンス: CC BY 4.0
Anthi Papadopoulou, Pierre Lison, Lilja {\O}vrelid, Ildik\'o Pil\'an(参考訳) 本稿では,遠隔監視に基づくテキスト匿名化モデルのブートストラップ手法を提案する。 手動でラベル付けされたトレーニングデータを必要とするのではなく、さまざまな個人について公開されていると思われる背景情報を表現した知識グラフに頼っている。 この知識グラフは、これらの個人のサブセットに関する個人データを含むテキスト文書を自動的に注釈化する。 より正確には、この方法は、テキスト文書と知識グラフで表現された背景情報の両方にアクセスする敵を仮定して、$k$-匿名性を保証するために、どのテキストスパンをマスクすべきかを決定する。 得られたラベル付き文書のコレクションは、テキスト匿名化のための訓練済み言語モデルを微調整するためのトレーニングデータとして使用される。 このアプローチをウィキデータから抽出した知識グラフとwikipediaの短い伝記テキストを用いて示す。 RoBERTaベースのモデルと手動で注釈付けした553のサマリーによる評価結果は、このアプローチの可能性を示しているが、知識グラフがノイズまたは不完全である場合に生じる可能性のあるいくつかの問題も明らかにしている。 その結果、ほとんどのシーケンスラベリング問題とは対照的に、テキスト匿名化タスクはいくつかの代替ソリューションを許容する可能性がある。

We propose a novel method to bootstrap text anonymization models based on distant supervision. Instead of requiring manually labeled training data, the approach relies on a knowledge graph expressing the background information assumed to be publicly available about various individuals. This knowledge graph is employed to automatically annotate text documents including personal data about a subset of those individuals. More precisely, the method determines which text spans ought to be masked in order to guarantee $k$-anonymity, assuming an adversary with access to both the text documents and the background information expressed in the knowledge graph. The resulting collection of labeled documents is then used as training data to fine-tune a pre-trained language model for text anonymization. We illustrate this approach using a knowledge graph extracted from Wikidata and short biographical texts from Wikipedia. Evaluation results with a RoBERTa-based model and a manually annotated collection of 553 summaries showcase the potential of the approach, but also unveil a number of issues that may arise if the knowledge graph is noisy or incomplete. The results also illustrate that, contrary to most sequence labeling problems, the text anonymization task may admit several alternative solutions.
翻訳日:2022-05-19 09:53:58 公開日:2022-05-13
# (参考訳) 微分可能プログラミング:ディープラーニングの一般化、特徴化、限界

Differentiable programming: Generalization, characterization and limitations of deep learning ( http://arxiv.org/abs/2205.06898v1 )

ライセンス: CC BY 4.0
Adri\'an Hern\'andez, Gilles Millerioux and Jos\'e M. Amig\'o(参考訳) 過去数年間、ディープラーニングモデルはいくつかの認知タスクにうまく適用されてきた。 神経科学にインスパイアされたこれらのモデルは、微分可能なプログラムの具体的な例である。 本稿では,微分可能プログラムの定義と動機付けを行うとともに,問題の構造を微分可能プログラムに組み込むことを可能にするプログラム特性について述べる。 我々は、グラフデータセットの特定の問題に対して、より一般的なものからより具体的なものまで、様々な種類の微分可能プログラムを分析し、それらの特徴を用いてその構造と知識を評価する。 最後に、人工知能の進歩における重要な課題である深層学習と微分可能プログラムの固有の制限について論じ、可能な解決策を分析する。

In the past years, deep learning models have been successfully applied in several cognitive tasks. Originally inspired by neuroscience, these models are specific examples of differentiable programs. In this paper we define and motivate differentiable programming, as well as specify some program characteristics that allow us to incorporate the structure of the problem in a differentiable program. We analyze different types of differentiable programs, from more general to more specific, and evaluate, for a specific problem with a graph dataset, its structure and knowledge with several differentiable programs using those characteristics. Finally, we discuss some inherent limitations of deep learning and differentiable programs, which are key challenges in advancing artificial intelligence, and then analyze possible solutions
翻訳日:2022-05-19 09:36:10 公開日:2022-05-13
# (参考訳) ユニバーサルトレーニング後バックドア検出

Universal Post-Training Backdoor Detection ( http://arxiv.org/abs/2205.06900v1 )

ライセンス: CC BY 4.0
Hang Wang, Zhen Xiang, David J. Miller, George Kesidis(参考訳) バックドア攻撃(英語: Backdoor attack, BA)は、ディープニューラルネットワーク分類器に対する重要な攻撃の一種であり、バックドアパターン(BP)が埋め込まれた場合、1つ以上のソースクラスのテストサンプルをアタッカーのターゲットクラスに(ミス)分類する。 本報告では,訓練後のバックドア防御シナリオを文献でよく検討し,訓練した分類器がバックドア攻撃を受けたかどうかを,訓練セットにアクセスせずに検出することを目的としている。 我々の知る限り、既存の訓練後バックドアディフェンスは全てBP型と推定されるBA向けに設計されており、各BP型には特定の埋め込み機能がある。 攻撃者が使用する実際のBPタイプ(ディフェンダーとは知られていない)がディフェンダーが想定するBPタイプとは異なる場合に失敗する可能性がある。 対照的に、BP型を仮定することなく任意のタイプのBPでBAを検出する普遍的なポストトレーニングディフェンスを提案する。 我々の検出器は、BP型とは独立にBAがソフトマックス層よりも前の分類器の出力のランドスケープに与える影響を活用している。 各クラスについて、ランダムベクトルの集合を用いて最大マージン統計を推定し、これらの統計に教師なし異常検出器を適用することで検出推論を行う。 したがって,本検出器は正規のクリーンサンプルを必要とせず,任意のソースクラスを持つBAを効率的に検出できるため,既存の学習方法と比較しても進歩している。 これらの検出手法の利点は、4つのデータセット、3種類のBP、および様々な攻撃構成において実証された。 最後に,検出が完了するとBA軽減のための新しい一般手法を提案する。

A Backdoor attack (BA) is an important type of adversarial attack against deep neural network classifiers, wherein test samples from one or more source classes will be (mis)classified to the attacker's target class when a backdoor pattern (BP) is embedded. In this paper, we focus on the post-training backdoor defense scenario commonly considered in the literature, where the defender aims to detect whether a trained classifier was backdoor attacked, without any access to the training set. To the best of our knowledge, existing post-training backdoor defenses are all designed for BAs with presumed BP types, where each BP type has a specific embedding function. They may fail when the actual BP type used by the attacker (unknown to the defender) is different from the BP type assumed by the defender. In contrast, we propose a universal post-training defense that detects BAs with arbitrary types of BPs, without making any assumptions about the BP type. Our detector leverages the influence of the BA, independently of the BP type, on the landscape of the classifier's outputs prior to the softmax layer. For each class, a maximum margin statistic is estimated using a set of random vectors; detection inference is then performed by applying an unsupervised anomaly detector to these statistics. Thus, our detector is also an advance relative to most existing post-training methods by not needing any legitimate clean samples, and can efficiently detect BAs with arbitrary numbers of source classes. These advantages of our detector over several state-of-the-art methods are demonstrated on four datasets, for three different types of BPs, and for a variety of attack configurations. Finally, we propose a novel, general approach for BA mitigation once a detection is made.
翻訳日:2022-05-19 09:22:46 公開日:2022-05-13
# (参考訳) ビジネス電話会話における呼検出のための生産システムの構築

Developing a Production System for Purpose of Call Detection in Business Phone Conversations ( http://arxiv.org/abs/2205.06904v1 )

ライセンス: CC BY 4.0
Elena Khasanova, Pooja Hiranandani, Shayna Gardiner, Cheng Chen, Xue-Yong Fu, Simon Corston-Oliver(参考訳) 電話を受けるコンタクトセンターのエージェントにとって、最も重要な情報は、与えられた呼び出しの理由である。 エージェントは、顧客が電話している理由を知らない場合、呼び出しに対してサポートを提供できない。 本稿では,英語のビジネスコール書面中のPurpose of Call文をリアルタイムに検出する商用システムの実装について述べる。 本稿では、コールステートメントの目的の種類とそれに関連する言語パターンの詳細な分析を行い、一連のルールからニューラルネットワークモデルへのブートストラップによるリッチなトレーニングデータ収集のアプローチについて論じ、トランスフォーマベースの分類器と一連のルールからなるハイブリッドモデルを記述する。 このモデルは実生活データでテストした場合、様々なタイプのビジネスコールで平均88.6 F1を達成した。 我々は、システムの開発とデプロイにおける課題と設計決定を反映する。

For agents at a contact centre receiving calls, the most important piece of information is the reason for a given call. An agent cannot provide support on a call if they do not know why a customer is calling. In this paper we describe our implementation of a commercial system to detect Purpose of Call statements in English business call transcripts in real time. We present a detailed analysis of types of Purpose of Call statements and language patterns related to them, discuss an approach to collect rich training data by bootstrapping from a set of rules to a neural model, and describe a hybrid model which consists of a transformer-based classifier and a set of rules by leveraging insights from the analysis of call transcripts. The model achieved 88.6 F1 on average in various types of business calls when tested on real life data and has low inference time. We reflect on the challenges and design decisions when developing and deploying the system.
翻訳日:2022-05-19 08:56:48 公開日:2022-05-13
# (参考訳) モデル更新におけるエキスパートフィードバック導入の展望

Perspectives on Incorporating Expert Feedback into Model Updates ( http://arxiv.org/abs/2205.06905v1 )

ライセンス: CC BY 4.0
Valerie Chen, Umang Bhatt, Hoda Heidari, Adrian Weller, Ameet Talwalkar(参考訳) 機械学習(ML)実践者は、非技術専門家の価値観と目標に沿ったモデルの開発にますます取り組まれている。 しかし、実践者がドメインの専門知識をML更新に変換する方法については、十分に考慮されていない。 本稿では,実践者と専門家のインタラクションを体系的に捉える方法について考察する。 専門家のフィードバックタイプと実践者の更新を一致させる分類法を考案する。 実践者は、観察レベルまたはドメインレベルの専門家からフィードバックを受け取り、このフィードバックをデータセット、損失関数、パラメータ空間のアップデートに変換することができる。 我々は、このフィードバック更新分類を説明するため、MLおよび人間とコンピュータの相互作用による既存の研究をレビューし、非技術専門家からのフィードバックを取り入れるための不十分な考慮点を強調した。 提案された分類学とその後の調査から自然に生じる一連のオープンな質問に終わる。

Machine learning (ML) practitioners are increasingly tasked with developing models that are aligned with non-technical experts' values and goals. However, there has been insufficient consideration on how practitioners should translate domain expertise into ML updates. In this paper, we consider how to capture interactions between practitioners and experts systematically. We devise a taxonomy to match expert feedback types with practitioner updates. A practitioner may receive feedback from an expert at the observation- or domain-level, and convert this feedback into updates to the dataset, loss function, or parameter space. We review existing work from ML and human-computer interaction to describe this feedback-update taxonomy, and highlight the insufficient consideration given to incorporating feedback from non-technical experts. We end with a set of open questions that naturally arise from our proposed taxonomy and subsequent survey.
翻訳日:2022-05-19 08:47:00 公開日:2022-05-13
# (参考訳) モデル幅圧縮のための構造ドロップアウト

Structural Dropout for Model Width Compression ( http://arxiv.org/abs/2205.06906v1 )

ライセンス: CC BY 4.0
Julian Knodt(参考訳) 既存のmlモデルは非常に過度にパラメータ化されており、所定のタスクに必要なリソースをはるかに多く使用しています。 以前の研究では、より大きなモデルからの知識をもっと小さなモデルに蒸留するなど、モデルをオフラインで圧縮することを検討した。 これは圧縮に有効であるが、モデルが圧縮できる量を測定するための経験的な方法を提供しておらず、圧縮されたモデルごとに追加のトレーニングを必要とする。 本稿では,オリジナルモデルと圧縮モデルのセットに対して,単一のトレーニングセッションのみを必要とする手法を提案する。 提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。 この順序を学習した後、最も精度を保ちながら、推定時に重要でない特徴を刈り取ることができ、パラメータサイズを大幅に削減できる。 本研究では,完全連結層の構造的ドロップアウトに焦点をあてるが,概念は畳み込み層や注意層などの無秩序な特徴を持つ任意の層に適用できる。 構造的なドロップアウトは追加のpruning/retrainingを必要としないが、隠れたサイズごとに追加の検証が必要になる。 推論時に、非専門家は、要求に最も適したメモリ対精度のトレードオフを、高度に圧縮されたモデルとより正確なモデルで選択することができる。

Existing ML models are known to be highly over-parametrized, and use significantly more resources than required for a given task. Prior work has explored compressing models offline, such as by distilling knowledge from larger models into much smaller ones. This is effective for compression, but does not give an empirical method for measuring how much the model can be compressed, and requires additional training for each compressed model. We propose a method that requires only a single training session for the original model and a set of compressed models. The proposed approach is a "structural" dropout that prunes all elements in the hidden state above a randomly chosen index, forcing the model to learn an importance ordering over its features. After learning this ordering, at inference time unimportant features can be pruned while retaining most accuracy, reducing parameter size significantly. In this work, we focus on Structural Dropout for fully-connected layers, but the concept can be applied to any kind of layer with unordered features, such as convolutional or attention layers. Structural Dropout requires no additional pruning/retraining, but requires additional validation for each possible hidden sizes. At inference time, a non-expert can select a memory versus accuracy trade-off that best suits their needs, across a wide range of highly compressed versus more accurate models.
翻訳日:2022-05-19 08:25:56 公開日:2022-05-13
# (参考訳) マルチモーダル会話型ai:データセットとアプローチに関する調査

Multimodal Conversational AI: A Survey of Datasets and Approaches ( http://arxiv.org/abs/2205.06907v1 )

ライセンス: CC BY 4.0
Anirudh Sundar and Larry Heck(参考訳) 人間として、私たちはすべての感覚やモダリティ(音、視覚、タッチ、匂い、味)で世界を体験します。 私たちはこれらのモダリティ、特に視覚と触覚を使って、特定の意味を伝え、解釈します。 マルチモーダル表現は会話の中心であり、豊富なモダリティのセットは互いに増幅し、しばしば補償する。 マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。 本稿では,マルチモーダル対話研究の目的を動機づけ,定義し,数学的に定式化する。 我々は,マルチモーダル表現,融合,アライメント,翻訳,共学習という目的を達成するために必要な研究の分類法を提供する。 我々は,各研究領域の最先端データセットとアプローチを調査し,その限界仮定を強調した。 最後に,マルチモーダル協調学習をマルチモーダル対話型ai研究の有望な方向性と捉えた。

As humans, we experience the world with all our senses or modalities (sound, sight, touch, smell, and taste). We use these modalities, particularly sight and touch, to convey and interpret specific meanings. Multimodal expressions are central to conversations; a rich set of modalities amplify and often compensate for each other. A multimodal conversational AI system answers questions, fulfills tasks, and emulates human conversations by understanding and expressing itself via multiple modalities. This paper motivates, defines, and mathematically formulates the multimodal conversational research objective. We provide a taxonomy of research required to solve the objective: multimodal representation, fusion, alignment, translation, and co-learning. We survey state-of-the-art datasets and approaches for each research area and highlight their limiting assumptions. Finally, we identify multimodal co-learning as a promising direction for multimodal conversational AI research.
翻訳日:2022-05-19 08:12:20 公開日:2022-05-13
# (参考訳) XAIにおけるグローバル・サウスの背景における説明可能性

Grounding Explainability Within the Context of Global South in XAI ( http://arxiv.org/abs/2205.06919v1 )

ライセンス: CC BY-SA 4.0
Deepa Singh, Michal Slupczynski, Ajit G. Pillai, Vinoth Pandian Sermuga Pandian(参考訳) 本稿では,社会技術システムが運用する社会的文脈において,AIにおける説明可能性に関するより広範な理解を構築することを提案する。 説明可能性とaiに関して、特にインドにおける「グローバル・サウス」における根拠付き説明可能性に対する我々の理解を形作るとともに、グローバル・サウス・コンテキストにおけるさらなる研究の必要性を表現します。

In this position paper, we propose building a broader and deeper understanding around Explainability in AI by 'grounding' it in social contexts, the socio-technical systems operate in. We situate our understanding of grounded explainability in the 'Global South' in general and India in particular and express the need for more research within the global south context when it comes to explainability and AI.
翻訳日:2022-05-19 07:41:23 公開日:2022-05-13
# (参考訳) 汎用機械翻訳を超えて : 適切なユーザ信頼のためのコンテキスト特異的実証研究の必要性

Beyond General Purpose Machine Translation: The Need for Context-specific Empirical Research to Design for Appropriate User Trust ( http://arxiv.org/abs/2205.06920v1 )

ライセンス: CC BY 4.0
Wesley Hanwen Deng, Nikita Mehandru, Samantha Robertson, Niloufar Salehi(参考訳) 機械翻訳(MT)は、人々が言語障壁を克服するのに役立つ可能性があり、病院などのハイテイクなシナリオで広く利用されている。 しかし,MTを確実かつ安全に使用するためには,MT出力をいつ信頼するか,また不完全な翻訳結果の品質を評価する方法を理解する必要がある。 本稿では,MTシステムの信頼性の校正を支援する研究の方向性について論じる。 われわれは20人の臨床医と半構造化インタビューを行い、言語障壁を越えて患者とコミュニケーションし、MTシステムをどのように利用しているかを調べた。 本研究は,ユーザとMTツール間の適切な信頼を構築する上での課題に対処するための重要な第一歩として,MTシステムが実際にどのように利用されているかに関する実証的研究を提唱する。

Machine Translation (MT) has the potential to help people overcome language barriers and is widely used in high-stakes scenarios, such as in hospitals. However, in order to use MT reliably and safely, users need to understand when to trust MT outputs and how to assess the quality of often imperfect translation results. In this paper, we discuss research directions to support users to calibrate trust in MT systems. We share findings from an empirical study in which we conducted semi-structured interviews with 20 clinicians to understand how they communicate with patients across language barriers, and if and how they use MT systems. Based on our findings, we advocate for empirical research on how MT systems are used in practice as an important first step to addressing the challenges in building appropriate trust between users and MT tools.
翻訳日:2022-05-19 07:37:02 公開日:2022-05-13
# (参考訳) 機械学習の実践者(Try To)がフェアネスツールキットを使う方法を探る

Exploring How Machine Learning Practitioners (Try To) Use Fairness Toolkits ( http://arxiv.org/abs/2205.06922v1 )

ライセンス: CC BY 4.0
Wesley Hanwen Deng, Manish Nagireddy, Michelle Seng Ah Lee, Jatinder Singh, Zhiwei Steven Wu, Kenneth Holstein, Haiyi Zhu(参考訳) 近年,ML実践者がシステムの不公平さを評価し,対処することを目的とした,オープンソースのMLフェアネスツールキットが数多く開発されている。 しかし、ML実践者が実際にこれらのツールキットをどのように使っているかは、ほとんど研究されていない。 本稿では,産業実践者が既存のフェアネスツールキットでどのように機能するかについて,詳細な実証調査を行った。 特に,参加者がフェアネスツールキットをどのように学習し,活用するかを理解するために,シンク・アラウド・インタビューを実施し,匿名のオンライン調査を通じて調査を行った。 フェアネスツールキットが実践者のニーズに対処し、ツールキットを効果的かつ責任を持って利用する上で足場を構築するためのいくつかの機会を特定した。 これらの知見に基づいて,mlフェアネスの取り組みに関する実践者のコンテクスト化,コミュニケーション,コラボレーションを支援する,将来のオープンソースフェアネスツールキットの設計への示唆を強調する。

Recent years have seen the development of many open-source ML fairness toolkits aimed at helping ML practitioners assess and address unfairness in their systems. However, there has been little research investigating how ML practitioners actually use these toolkits in practice. In this paper, we conducted the first in-depth empirical exploration of how industry practitioners (try to) work with existing fairness toolkits. In particular, we conducted think-aloud interviews to understand how participants learn about and use fairness toolkits, and explored the generality of our findings through an anonymous online survey. We identified several opportunities for fairness toolkits to better address practitioner needs and scaffold them in using toolkits effectively and responsibly. Based on these findings, we highlight implications for the design of future open-source fairness toolkits that can support practitioners in better contextualizing, communicating, and collaborating around ML fairness efforts.
翻訳日:2022-05-19 07:21:08 公開日:2022-05-13
# 長距離航路船の軌道構成と航路推定時間:確率密度に基づく走査法

Constructing Trajectory and Predicting Estimated Time of Arrival for Long Distance Travelling Vessels: A Probability Density-based Scanning Approach ( http://arxiv.org/abs/2205.07945v1 )

ライセンス: Link先を確認
Deqing Zhai and Xiuju Fu and Xiao Feng Yin and Haiyan Xu and Wanbing Zhang and Ning Li(参考訳) 本研究は, 確率密度に基づく軌道構築手法を提案し, 平均到達時間予測 (eta) という典型的な用途を用いて検証する。 ETA予測は、確率密度に基づく軌道の抽出情報によって与えられる物理と数学的法則に基づいている。 ETA予測誤差は平均0.106日 (2.544時間) で、標準偏差は0.549日 (13.176時間) であり、提案手法はシンガポールとオーストラリアの港の間で選択された全軌跡に対して0.959R-Squaredの精度で92.08%である。

In this study, a probability density-based approach for constructing trajectories is proposed and validated through an typical use-case application: Estimated Time of Arrival (ETA) prediction given origin-destination pairs. The ETA prediction is based on physics and mathematical laws given by the extracted information of probability density-based trajectories constructed. The overall ETA prediction errors are about 0.106 days (i.e. 2.544 hours) on average with 0.549 days (i.e. 13.176 hours) standard deviation, and the proposed approach has an accuracy of 92.08% with 0.959 R-Squared value for overall trajectories between Singapore and Australia ports selected.
翻訳日:2022-05-18 13:28:06 公開日:2022-05-13
# トロイの木馬BERTの注意異常に関する研究

A Study of the Attention Abnormality in Trojaned BERTs ( http://arxiv.org/abs/2205.08305v1 )

ライセンス: Link先を確認
Weimin Lyu, Songzhu Zheng, Tengfei Ma, Chao Chen(参考訳) トロイの木馬の攻撃は深刻なセキュリティ上の懸念を引き起こす。 本稿では,Trojaned BERTモデルの基礎メカニズムについて検討する。 我々は,トロイの木馬模型の注意焦点漂流挙動,すなわち有毒な入力に遭遇した場合,トリガートークンは文脈に関係なく注意焦点をハイジャックする。 我々はこの現象を定性的かつ定量的に分析し、トロイの木馬機構に関する洞察を明らかにする。 この観察に基づいて, トロイの木馬モデルとクリーンモデルとを区別するための注意に基づくトロイの木馬検出器を提案する。 我々の知る限りでは、この論文はトロイの木馬機構を分析し、トランスフォーマーの注意に基づくトロイの木馬検出器を開発する最初の論文である。

Trojan attacks raise serious security concerns. In this paper, we investigate the underlying mechanism of Trojaned BERT models. We observe the attention focus drifting behavior of Trojaned models, i.e., when encountering an poisoned input, the trigger token hijacks the attention focus regardless of the context. We provide a thorough qualitative and quantitative analysis of this phenomenon, revealing insights into the Trojan mechanism. Based on the observation, we propose an attention-based Trojan detector to distinguish Trojaned models from clean ones. To the best of our knowledge, this is the first paper to analyze the Trojan mechanism and to develop a Trojan detector based on the transformer's attention.
翻訳日:2022-05-18 13:09:30 公開日:2022-05-13
# ファウショット学習のための事前学習モデルのアップデート再考

Revisiting the Updates of a Pre-trained Model for Few-shot Learning ( http://arxiv.org/abs/2205.07874v1 )

ライセンス: Link先を確認
Yujin Kim, Jaehoon Oh, Sungnyun Kim, Se-Young Yun(参考訳) 最近の数発の学習アルゴリズムのほとんどは転送学習に基づいており、大量のソースデータを用いてモデルを事前訓練し、その後少量のターゲットデータを用いて事前訓練されたモデルを更新する。 トランスファーベースの少数ショット学習では、普遍的および改良された表現のために洗練された事前学習法が広く研究されている。 しかし、事前学習されたモデルの更新に関する研究はほとんどない。 本稿では、ソースとターゲットデータの分散シフトを考慮した2つの一般的な更新手法、微調整(ネットワーク全体を更新する)と線形探索(線形分類器のみを更新する)を比較した。 分布シフトによらず,試料数の増加に伴い,微調整は線形プローブよりも優れていることがわかった。 次に,事前学習モデルの微調整におけるデータ拡張の有効性と非効率性について検討する。 本研究の基本的な分析は,プレトレーニング済みモデルの更新に関する詳細を慎重に検討することが必要であることを示す。

Most of the recent few-shot learning algorithms are based on transfer learning, where a model is pre-trained using a large amount of source data, and the pre-trained model is updated using a small amount of target data afterward. In transfer-based few-shot learning, sophisticated pre-training methods have been widely studied for universal and improved representation. However, there is little study on updating pre-trained models for few-shot learning. In this paper, we compare the two popular updating methods, fine-tuning (i.e., updating the entire network) and linear probing (i.e., updating only the linear classifier), considering the distribution shift between the source and target data. We find that fine-tuning is better than linear probing as the number of samples increases, regardless of distribution shift. Next, we investigate the effectiveness and ineffectiveness of data augmentation when pre-trained models are fine-tuned. Our fundamental analyses demonstrate that careful considerations of the details about updating pre-trained models are required for better few-shot performance.
翻訳日:2022-05-18 12:59:59 公開日:2022-05-13
# 劣化適応を用いた3次元MRI超解像の教師なし表現学習

Unsupervised Representation Learning for 3D MRI Super Resolution with Degradation Adaptation ( http://arxiv.org/abs/2205.06891v1 )

ライセンス: Link先を確認
Jianan Liu, Hao Li, Tao Huang, Euijoon Ahn, Adeel Razi, Wei Xiang(参考訳) 高分解能(HR)MRIは、医師の診断と画像誘導治療を支援するために重要であるが、長期の取得により臨床環境では入手が困難である。 そこで, 深層学習に基づく超解像(SR)技術を用いてHRMRI画像の再構成を行い, 取得時間を短縮した。 しかしながら、そのようなニューラルネットワークのトレーニングには、通常、画像取得の前後で患者の動きのために取得が困難である、HRと低解像度(LR)画像のペアを必要とする。 硬組織の剛体運動は画像登録によって補正できるが、変形した軟組織のアライメントは困難であり、そのような真正なHRとLR画像ペアでニューラルネットワークを訓練することは不可能である。 そのため、従来の研究の多くは、HR画像と合成LR画像を用いてSR再構成を提案したが、合成LR画像と合成LR画像との劣化表現の違いは、真のLR画像からのSR再構成の性能を抑制する。 上記の問題を緩和するために,新しい無教師劣化適応ネットワーク (udean) を提案する。 本モデルは,劣化学習ネットワークとsr再構成ネットワークの2つの構成要素からなる。 劣化学習ネットワークは、不整合又は不整合LR画像の劣化表現に対処してHR画像をダウンサンプリングし、SR再構成ネットワークは、ダウンサンプリングされたHR画像から元のHR画像へのマッピングを学習する。 その結果、SR再構成ネットワークは、LR画像からSR画像を生成し、HR画像に匹敵する品質を実現することができる。 実験の結果,本手法は最先端モデルよりも優れており,実際の臨床現場で応用できる可能性が示唆された。

High-resolution (HR) MRI is critical in assisting the doctor's diagnosis and image-guided treatment, but is hard to obtain in a clinical setting due to long acquisition time. Therefore, the research community investigated deep learning-based super-resolution (SR) technology to reconstruct HR MRI images with shortened acquisition time. However, training such neural networks usually requires paired HR and low-resolution (LR) in-vivo images, which are difficult to acquire due to patient movement during and between the image acquisition. Rigid movements of hard tissues can be corrected with image-registration, whereas the alignment of deformed soft tissues is challenging, making it impractical to train the neural network with such authentic HR and LR image pairs. Therefore, most of the previous studies proposed SR reconstruction by employing authentic HR images and synthetic LR images downsampled from the HR images, yet the difference in degradation representations between synthetic and authentic LR images suppresses the performance of SR reconstruction from authentic LR images. To mitigate the aforementioned problems, we propose a novel Unsupervised DEgradation Adaptation Network (UDEAN). Our model consists of two components: the degradation learning network and the SR reconstruction network. The degradation learning network downsamples the HR images by addressing the degradation representation of the misaligned or unpaired LR images, and the SR reconstruction network learns the mapping from the downsampled HR images to their original HR images. As a result, the SR reconstruction network can generate SR images from the LR images and achieve comparable quality to the HR images. Experimental results show that our method outperforms the state-of-the-art models and can potentially be applied in real-world clinical settings.
翻訳日:2022-05-17 18:02:59 公開日:2022-05-13
# ベイズ学習による制御設計のロバスト性

Robustness of Control Design via Bayesian Learning ( http://arxiv.org/abs/2205.06896v1 )

ライセンス: Link先を確認
Nardos Ayele Ashenafi and Wankun Sirichotiyakul and Aykut C. Satici(参考訳) 教師あり学習の領域では、ベイズ学習は入力とパラメータの摂動の下で堅牢な予測能力を示した。 これらの知見に触発されて,制御探索課題におけるベイズ学習の頑健性を示す。 我々は,1次元開ループ不安定確率系を安定化する線形制御系を求める。 制御器を推定する2つの方法を比較する。第1(決定論的)は系のパラメータと状態の完全な知識を仮定し、第2は双方の不確実性を考慮し、制御器の後方分布を計算するためにベイズ学習を用いる。

In the realm of supervised learning, Bayesian learning has shown robust predictive capabilities under input and parameter perturbations. Inspired by these findings, we demonstrate the robustness properties of Bayesian learning in the control search task. We seek to find a linear controller that stabilizes a one-dimensional open-loop unstable stochastic system. We compare two methods to deduce the controller: the first (deterministic) one assumes perfect knowledge of system parameter and state, the second takes into account uncertainties in both and employs Bayesian learning to compute a posterior distribution for the controller.
翻訳日:2022-05-17 18:01:24 公開日:2022-05-13
# ガウス過程回帰ネットワークを用いた恒星活動のモデル化

Modelling stellar activity with Gaussian process regression networks ( http://arxiv.org/abs/2205.06627v1 )

ライセンス: Link先を確認
J. D. Camacho, J. P. Faria and P. T. P. Viana(参考訳) 恒星の光球活動は太陽系外惑星の検出とキャラクタリゼーションを制限することが知られている。 特に、太陽のような恒星周辺の地球のような惑星の研究には、放射速度(rv)測定に影響を及ぼす恒星活動現象を正確にモデル化できるデータ分析方法が必要である。 ガウス過程回帰ネットワーク(gprns)は、ベイズニューラルネットワークの構造的性質とガウス過程の非パラメトリックな柔軟性を組み合わせた同時時系列解析の原理的アプローチを提供する。 3年間にわたるHARPS-N太陽分光観測を用いて、この枠組みがRVデータと従来の恒星活動指標を共同でモデル化できることを実証した。 我々は、最も単純なgprn構成のみを考えるが、太陽rvデータの振る舞いを少なくとも以前公開された方法と同じくらい正確に記述することができる。 我々は、RVと恒星活動時系列の相関関係を数日の間隔で最大に確認し、接近する太陽活動最小値に付随する時系列における非定常挙動の証拠を見いだした。

Stellar photospheric activity is known to limit the detection and characterisation of extra-solar planets. In particular, the study of Earth-like planets around Sun-like stars requires data analysis methods that can accurately model the stellar activity phenomena affecting radial velocity (RV) measurements. Gaussian Process Regression Networks (GPRNs) offer a principled approach to the analysis of simultaneous time-series, combining the structural properties of Bayesian neural networks with the non-parametric flexibility of Gaussian Processes. Using HARPS-N solar spectroscopic observations encompassing three years, we demonstrate that this framework is capable of jointly modelling RV data and traditional stellar activity indicators. Although we consider only the simplest GPRN configuration, we are able to describe the behaviour of solar RV data at least as accurately as previously published methods. We confirm the correlation between the RV and stellar activity time series reaches a maximum at separations of a few days, and find evidence of non-stationary behaviour in the time series, associated with an approaching solar activity minimum.
翻訳日:2022-05-17 17:33:48 公開日:2022-05-13
# マルウェア開集合認識のための関数コールグラフ変換を用いた表現学習

Representation learning with function call graph transformations for malware open set recognition ( http://arxiv.org/abs/2205.06918v1 )

ライセンス: Link先を確認
Jingyun Jia, Philip K. Chan(参考訳) オープンセット認識(OSR)問題は、セキュリティなど、多くの機械学習(ML)アプリケーションにおいて課題となっている。 新しい未知のマルウェアファミリーが定期的に発生するため、MLシステムにおけるトレーニングプロセスの全クラスをカバーするサンプルを排出することは困難である。 高度なマルウェア分類システムは、未知のクラスに敏感なまま、既知のクラスを正しく分類する必要がある。 本稿では,マルウェア分類におけるOSR問題に対する自己教師付き事前学習手法を提案する。 プリテキスト処理を容易にするために,関数呼び出しグラフ(FCG)に基づくマルウェア表現のための2つの変換を提案する。 また,未知クラスに対する最適しきい値を求めるための統計的しきい値法を提案する。 さらに,提案した事前学習プロセスは,OSR問題に対する下流損失関数の異なる性能を改善することができることを示す。

Open set recognition (OSR) problem has been a challenge in many machine learning (ML) applications, such as security. As new/unknown malware families occur regularly, it is difficult to exhaust samples that cover all the classes for the training process in ML systems. An advanced malware classification system should classify the known classes correctly while sensitive to the unknown class. In this paper, we introduce a self-supervised pre-training approach for the OSR problem in malware classification. We propose two transformations for the function call graph (FCG) based malware representations to facilitate the pretext task. Also, we present a statistical thresholding approach to find the optimal threshold for the unknown class. Moreover, the experiment results indicate that our proposed pre-training process can improve different performances of different downstream loss functions for the OSR problem.
翻訳日:2022-05-17 17:31:03 公開日:2022-05-13
# スイッチングコストを考慮した最適パラメータフリーオンライン学習

Optimal Parameter-free Online Learning with Switching Cost ( http://arxiv.org/abs/2205.06846v1 )

ライセンス: Link先を確認
Zhiyu Zhang, Ashok Cutkosky, Ioannis Ch. Paschalidis(参考訳) オンライン学習におけるパラメータ自由度とは、後ろ向きの最適決定に対するアルゴリズムの適応性を指す。 本稿では,パラメータフリーで要求される楽観的な更新をペナルティ化したアルゴリズムを,スイッチングコストの存在下で設計し,微妙な設計トレードオフをもたらす。 提案手法は,オンライン線形最適化のための単純かつ強力なアルゴリズムであり,スイッチングコストを伴い,既存サブオプティマティブ・プリットバウンド [zcp22a] を最適レートに改善する。 得られた利益をエキスパート設定に拡張し、逐次投資タスクを通じてアルゴリズムの実用性を実証する。

Parameter-freeness in online learning refers to the adaptivity of an algorithm with respect to the optimal decision in hindsight. In this paper, we design such algorithms in the presence of switching cost - the latter penalizes the optimistic updates required by parameter-freeness, leading to a delicate design trade-off. Based on a novel dual space scaling strategy, we propose a simple yet powerful algorithm for Online Linear Optimization (OLO) with switching cost, which improves the existing suboptimal regret bound [ZCP22a] to the optimal rate. The obtained benefit is extended to the expert setting, and the practicality of our algorithm is demonstrated through a sequential investment task.
翻訳日:2022-05-17 16:53:45 公開日:2022-05-13
# 近負の区別:人間評価データセットにセカンドライフを与える

Near-Negative Distinction: Giving a Second Life to Human Evaluation Datasets ( http://arxiv.org/abs/2205.06871v1 )

ライセンス: Link先を確認
Philippe Laban and Chien-Sheng Wu and Wenhao Liu and Caiming Xiong(参考訳) 自然言語生成(NLG)タスクの進捗を正確に評価することは困難であり、モデルの出力を他のタスクよりも優先する人間の評価がしばしば必要である。 しかし、人間の評価は通常費用がかかり、再現が難しく、再利用できない。 本論文では,従来のアノテーションをNNDテストに再利用するNLG(Near-Negative Distinction, NND)の簡易自動評価手法を提案する。 NNDテストでは、NLGモデルは既知の誤りのあるほぼ負の候補よりも高品質な出力候補に高い確率で配置しなければならない。 モデルパフォーマンスは、モデルが通過するNNDテストの数と、モデルが失敗するタスク固有のエラーの分布によって確立される。 3つのNLGタスク(質問生成、質問応答、要約)の実験を通して、NNDは標準的なNLG評価指標よりも高い相関性が得られることを示す。 次に、細粒度モデル解析やモデルトレーニングダイナミクスの研究など、4つの実践シナリオでNNDの評価を説明する。 NNDは人間のアノテーションに第2の命を与え,低コストなNLG評価を提供する可能性が示唆された。

Precisely assessing the progress in natural language generation (NLG) tasks is challenging, and human evaluation to establish preference in a model's output over another is often necessary. However, human evaluation is usually costly, difficult to reproduce, and non-reusable. In this paper, we propose a new and simple automatic evaluation method for NLG called Near-Negative Distinction (NND) that repurposes prior human annotations into NND tests. In an NND test, an NLG model must place higher likelihood on a high-quality output candidate than on a near-negative candidate with a known error. Model performance is established by the number of NND tests a model passes, as well as the distribution over task-specific errors the model fails on. Through experiments on three NLG tasks (question generation, question answering, and summarization), we show that NND achieves higher correlation with human judgments than standard NLG evaluation metrics. We then illustrate NND evaluation in four practical scenarios, for example performing fine-grain model analysis, or studying model training dynamics. Our findings suggest NND can give a second life to human annotations and provide low-cost NLG evaluation.
翻訳日:2022-05-17 15:52:24 公開日:2022-05-13
# ニューラルネットワークモデルのための特性誘導フレームワーク

A Property Induction Framework for Neural Language Models ( http://arxiv.org/abs/2205.06910v1 )

ライセンス: Link先を確認
Kanishka Misra, Julia Taylor Rayz, Allyson Ettinger(参考訳) 言語の経験が私たちの概念的知識にどの程度貢献できるか? この問題の計算的な調査は、概念や特性に関する情報をエンコードし、引き出すための強力なニューラルネットワークモデル(LM) -- テキスト入力によってのみ通知される -- の能力に光を当てている。 そこで,本研究では,ニューラルネットワーク言語モデル(lms)を用いて特性誘導を行う枠組みを提案する。この手法では,人間が1つ以上の概念(ロビン)から他の概念(スパロウ,カナリア)へ新たな特性知識(セサミイド骨)を一般化する。 人間で観察される特性誘導のパターンは、人間の概念的知識の性質と組織にかなりの光を当てている。 この知見に触発されて,私たちのフレームワークを用いて,LMの特性誘導を探索し,それらの表現に分類学的バイアスが存在することを示唆し,カテゴリメンバーシップに基づいて新規プロパティを一般化する帰納的嗜好を示す。

To what extent can experience from language contribute to our conceptual knowledge? Computational explorations of this question have shed light on the ability of powerful neural language models (LMs) -- informed solely through text input -- to encode and elicit information about concepts and properties. To extend this line of research, we present a framework that uses neural-network language models (LMs) to perform property induction -- a task in which humans generalize novel property knowledge (has sesamoid bones) from one or more concepts (robins) to others (sparrows, canaries). Patterns of property induction observed in humans have shed considerable light on the nature and organization of human conceptual knowledge. Inspired by this insight, we use our framework to explore the property inductions of LMs, and find that they show an inductive preference to generalize novel properties on the basis of category membership, suggesting the presence of a taxonomic bias in their representations.
翻訳日:2022-05-17 15:52:07 公開日:2022-05-13
# Neural-Flyは強風下でのアジャイル飛行の迅速な学習を可能にする

Neural-Fly Enables Rapid Learning for Agile Flight in Strong Winds ( http://arxiv.org/abs/2205.06908v1 )

ライセンス: Link先を確認
Michael O'Connell, Guanya Shi, Xichen Shi, Kamyar Azizzadenesheli, Anima Anandkumar, Yisong Yue, Soon-Jo Chung(参考訳) ダイナミック高速風における安全かつ正確な飛行操作の実行は、無人航空機(UAV)の継続的なコモディティ化において重要である。 しかし、風条件と航空機の操縦性への影響はよく分かっていないため、従来の制御設計手法を用いた効果的なロボット制御器の設計は困難である。 我々は、ディープラーニングを通じて事前学習された表現を組み込むことで、オンライン適応を迅速に行う学習ベースのアプローチであるNeural-Flyを提案する。 ニューラルフライは、異なる風条件における空気力学が共通の表現を共有し、風固有の部分は低次元空間にあるという2つの重要な観測に基づく。 そのためにNeural-Flyは、ドメイン逆不変メタラーニング(DAIML)という学習アルゴリズムを使って、12分間のフライトデータだけで共有表現を学習する。 学習された表現を基底として、Neural-Flyは合成適応法則を用いて基底要素を混合する線形係数の集合を更新する。 風速43.6km/h (12.1m/秒)のcaltech実天候風洞で発生する挑戦的な風条件下で評価すると、ニューラルフライは最先端の非線形・適応型コントローラよりもかなり小さい追尾誤差で正確な飛行制御を実現する。 強い経験的性能に加えて、Neural-Flyの指数的安定性は堅牢性を保証する。 最後に、我々の制御設計は風の状態を外挿し、オンボードセンサーのみを搭載した屋外飛行に有効であることが示され、性能の低下を最小限に抑えながらドローンを移動できる。

Executing safe and precise flight maneuvers in dynamic high-speed winds is important for the ongoing commoditization of uninhabited aerial vehicles (UAVs). However, because the relationship between various wind conditions and its effect on aircraft maneuverability is not well understood, it is challenging to design effective robot controllers using traditional control design methods. We present Neural-Fly, a learning-based approach that allows rapid online adaptation by incorporating pretrained representations through deep learning. Neural-Fly builds on two key observations that aerodynamics in different wind conditions share a common representation and that the wind-specific part lies in a low-dimensional space. To that end, Neural-Fly uses a proposed learning algorithm, domain adversarially invariant meta-learning (DAIML), to learn the shared representation, only using 12 minutes of flight data. With the learned representation as a basis, Neural-Fly then uses a composite adaptation law to update a set of linear coefficients for mixing the basis elements. When evaluated under challenging wind conditions generated with the Caltech Real Weather Wind Tunnel, with wind speeds up to 43.6 kilometers/hour (12.1 meters/second), Neural-Fly achieves precise flight control with substantially smaller tracking error than state-of-the-art nonlinear and adaptive controllers. In addition to strong empirical performance, the exponential stability of Neural-Fly results in robustness guarantees. Last, our control design extrapolates to unseen wind conditions, is shown to be effective for outdoor flights with only onboard sensors, and can transfer across drones with minimal performance degradation.
翻訳日:2022-05-17 15:16:51 公開日:2022-05-13
# AVCAffe: リモートワークにおける認知的負荷と影響の大規模オーディオ・ビジュアルデータセット

AVCAffe: A Large Scale Audio-Visual Dataset of Cognitive Load and Affect for Remote Work ( http://arxiv.org/abs/2205.06887v1 )

ライセンス: Link先を確認
Pritam Sarkar, Aaron Posen, Ali Etemad(参考訳) AVCAffeは認知負荷とAffect属性からなる最初のオーディオ・ビジュアルデータセットである。 AVCAffeはビデオ会議プラットフォーム上で遠隔作業シナリオをシミュレートすることで記録します。 AVCAffeは、英語で収集された(インターネットから収集されていない)感情データセットとしては最大である。 18歳から57歳までの異なる18カ国から106人の参加者を募集し,男女比のバランスを取っている。 AVCAffeは、合計で108時間のビデオで構成され、58,000回以上のクリップに相当し、また、心的要求、時間的要求、努力などの認知的負荷特性に対するタスクベースの自己報告された真実ラベルも備えている。 avcaffeは、特に影響と認知負荷を分類するのが本質的に難しいため、ディープラーニング研究コミュニティにとって難しいベンチマークであると考えています。 さらに,遠隔作業ミーティングの自己管理を支援する学習システムの構築と,遠隔作業が認知的負荷と情緒的状態に与える影響に関する仮説のさらなる検討により,既存のタイムリーなギャップを埋める。

We introduce AVCAffe, the first Audio-Visual dataset consisting of Cognitive load and Affect attributes. We record AVCAffe by simulating remote work scenarios over a video-conferencing platform, where subjects collaborate to complete a number of cognitively engaging tasks. AVCAffe is the largest originally collected (not collected from the Internet) affective dataset in English language. We recruit 106 participants from 18 different countries of origin, spanning an age range of 18 to 57 years old, with a balanced male-female ratio. AVCAffe comprises a total of 108 hours of video, equivalent to more than 58,000 clips along with task-based self-reported ground truth labels for arousal, valence, and cognitive load attributes such as mental demand, temporal demand, effort, and a few others. We believe AVCAffe would be a challenging benchmark for the deep learning research community given the inherent difficulty of classifying affect and cognitive load in particular. Moreover, our dataset fills an existing timely gap by facilitating the creation of learning systems for better self-management of remote work meetings, and further study of hypotheses regarding the impact of remote work on cognitive load and affective states.
翻訳日:2022-05-17 14:59:04 公開日:2022-05-13
# リコメンダとエンジニアリングシステムのための大規模シークエンシャルラーニング

Large-Scale Sequential Learning for Recommender and Engineering Systems ( http://arxiv.org/abs/2205.06893v1 )

ライセンス: Link先を確認
Aleksandra Burashnikova(参考訳) 本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。 提案手法の実証的効率を示すために,レコメンダシステムとエネルギーシステム領域における意思決定への応用について検討する。 前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。 提案手法は,非クリック項目のシーケンスとユーザ毎のクリック項目からなるブロックに対して,対方向のランキングロスを最小化するものである。 また,長期記憶が予測精度に与える影響についても検討する。 SAROSは、品質指標に基づく高い競争力と有望な結果を示し、確率勾配降下やバッチ古典的アプローチよりも損失収束の点で高速である。 電力系統に関しては,真の事象位置に近い線における誤分類に着目した故障線検出アルゴリズムを提案する。 提案手法は, 電力網の故障検出のための畳み込みニューラルネットワークに基づく初期手法と比較して, 統計的に有意な結果を示す。

In this thesis, we focus on the design of an automatic algorithms that provide personalized ranking by adapting to the current conditions. To demonstrate the empirical efficiency of the proposed approaches we investigate their applications for decision making in recommender systems and energy systems domains. For the former, we propose novel algorithm called SAROS that take into account both kinds of feedback for learning over the sequence of interactions. The proposed approach consists in minimizing pairwise ranking loss over blocks constituted by a sequence of non-clicked items followed by the clicked one for each user. We also explore the influence of long memory on the accurateness of predictions. SAROS shows highly competitive and promising results based on quality metrics and also it turn out faster in terms of loss convergence than stochastic gradient descent and batch classical approaches. Regarding power systems, we propose an algorithm for faulted lines detection based on focusing of misclassifications in lines close to the true event location. The proposed idea of taking into account the neighbour lines shows statistically significant results in comparison with the initial approach based on convolutional neural networks for faults detection in power grid.
翻訳日:2022-05-17 14:25:29 公開日:2022-05-13
# サンプル情報理論一般化境界の形式的制限

Formal limitations of sample-wise information-theoretic generalization bounds ( http://arxiv.org/abs/2205.06915v1 )

ライセンス: Link先を確認
Hrayr Harutyunyan, Greg Ver Steeg, Aram Galstyan(参考訳) 最も厳密な情報理論の一般化境界は、学習された仮説と 'emph{single} トレーニングの例の間の平均情報に依存する。 しかし、これらのサンプルワイド境界は \emph{expected} 一般化ギャップのためにのみ導出される。 期待される 'emph{squared} 一般化ギャップでさえ、そのようなサンプル情報理論境界は存在しないことを示す。 PAC-Bayes とシングルドロー境界も同様である。 驚くべきことに、例のペアの情報に依存するpac-bayes、single-draw、および期待される2乗一般化ギャップ境界が存在する。

Some of the tightest information-theoretic generalization bounds depend on the average information between the learned hypothesis and a \emph{single} training example. However, these sample-wise bounds were derived only for \emph{expected} generalization gap. We show that even for expected \emph{squared} generalization gap no such sample-wise information-theoretic bounds exist. The same is true for PAC-Bayes and single-draw bounds. Remarkably, PAC-Bayes, single-draw and expected squared generalization gap bounds that depend on information in pairs of examples exist.
翻訳日:2022-05-17 14:25:13 公開日:2022-05-13
# 2つの流れの物語:Langevin Flowの協調学習とエネルギーモデルへの正規化

A Tale of Two Flows: Cooperative Learning of Langevin Flow and Normalizing Flow Toward Energy-Based Model ( http://arxiv.org/abs/2205.06924v1 )

ライセンス: Link先を確認
Jianwen Xie, Yaxuan Zhu, Jun Li, Ping Li(参考訳) 本稿では,共同合成例に基づいて2つのモデルが反復的に更新される2つの生成フローモデルの協調学習について検討する。 第1のフローモデルは、インバータブル変換の列を適用することによって、初期単純密度を目標密度に変換する正規化フローである。 第2のフローモデルはランゲヴィンフローであり、勾配に基づくMCMCの有限ステップをエネルギーベースのモデルに向けて走る。 我々は,エネルギーベースモデルのmcmc連鎖を初期化するために,正規化フローを非モルト化サンプルとしてエネルギーベースのモデルを訓練する生成フレームワークの提案から始める。 各学習イテレーションにおいて, 正規化フロー初期化とLangevinフロー修正を併用して, 現在のエネルギーベースモデルに向けた合成例を生成する。 次に, 合成サンプルをエネルギーベースモデルから公平なサンプルとして扱い, モデルパラメータを最大確率学習勾配で更新し, 正規化フローは移動可能性の最大化によって合成サンプルから直接学習する。 短時間の非混合MCMCのシナリオでは、エネルギーベースモデルの推定は最大可能性の摂動に従うことが示され、短いランゲヴィンフローと正規化フローは、我々がクープフローと呼ぶ2フロー発生器を形成する。 本稿では,情報幾何学によるCoopFlowアルゴリズムのアンダースタティングを行い,モーメントマッチング推定器に収束する上で有効な生成器であることを示す。 訓練されたCoopFlowは、現実的なイメージを合成し、画像を再構成し、画像間の補間を行うことができることを示す。

This paper studies the cooperative learning of two generative flow models, in which the two models are iteratively updated based on the jointly synthesized examples. The first flow model is a normalizing flow that transforms an initial simple density to a target density by applying a sequence of invertible transformations. The second flow model is a Langevin flow that runs finite steps of gradient-based MCMC toward an energy-based model. We start from proposing a generative framework that trains an energy-based model with a normalizing flow as an amortized sampler to initialize the MCMC chains of the energy-based model. In each learning iteration, we generate synthesized examples by using a normalizing flow initialization followed by a short-run Langevin flow revision toward the current energy-based model. Then we treat the synthesized examples as fair samples from the energy-based model and update the model parameters with the maximum likelihood learning gradient, while the normalizing flow directly learns from the synthesized examples by maximizing the tractable likelihood. Under the short-run non-mixing MCMC scenario, the estimation of the energy-based model is shown to follow the perturbation of maximum likelihood, and the short-run Langevin flow and the normalizing flow form a two-flow generator that we call CoopFlow. We provide an understating of the CoopFlow algorithm by information geometry and show that it is a valid generator as it converges to a moment matching estimator. We demonstrate that the trained CoopFlow is capable of synthesizing realistic images, reconstructing images, and interpolating between images.
翻訳日:2022-05-17 14:25:05 公開日:2022-05-13
# 画像から確率的解剖学的形状へ:深い変動ボトルネックアプローチ

From Images to Probabilistic Anatomical Shapes: A Deep Variational Bottleneck Approach ( http://arxiv.org/abs/2205.06862v1 )

ライセンス: Link先を確認
Jadie Adams and Shireen Elhabian(参考訳) 3次元医用画像から直接の統計的形状モデリング(SSM)は、病理の検出、疾患の診断、人口レベルの形態解析を行うための未利用ツールである。 ディープラーニングフレームワークは、従来のSSMワークフローにおける専門家主導のマニュアルと計算オーバーヘッドを減らすことで、医療実践におけるSSMの採用の可能性を高めている。 しかしながら、そのようなフレームワークを臨床実践に翻訳するには、ニューラルネットワークが機密性のある臨床的意思決定に信頼できない過信的な予測を生成できるため、キャリブレーションされた不確実性対策が必要である。 モデルトレーニングから独立して計算された主成分分析(PCA)に基づく形状表現を用いて,アレータリックな(データに依存しない)不確実性を伴う形状の予測を行う。 この制約は、予め定義された形状記述子を3D画像からのみ推定する学習タスクを制限し、この形状表現と出力(形状)空間の間に線形関係を課す。 本稿では,形状記述子の符号化を指示することなく,画像から直接解剖の確率的形状を予測しながら,これらの仮定を緩和する変動情報ボトルネック理論に基づく基本的枠組みを提案する。 ここで、潜在表現は学習タスクの文脈で学習され、よりスケーラブルでフレキシブルなモデルとなり、データの非線形性をよりよくキャプチャする。 さらに、このモデルは自己正規化され、限られたトレーニングデータによってより一般化される。 実験により,提案手法は最先端手法よりも精度が向上し,校正精度が向上することを示した。

Statistical shape modeling (SSM) directly from 3D medical images is an underutilized tool for detecting pathology, diagnosing disease, and conducting population-level morphology analysis. Deep learning frameworks have increased the feasibility of adopting SSM in medical practice by reducing the expert-driven manual and computational overhead in traditional SSM workflows. However, translating such frameworks to clinical practice requires calibrated uncertainty measures as neural networks can produce over-confident predictions that cannot be trusted in sensitive clinical decision-making. Existing techniques for predicting shape with aleatoric (data-dependent) uncertainty utilize a principal component analysis (PCA) based shape representation computed in isolation from the model training. This constraint restricts the learning task to solely estimating pre-defined shape descriptors from 3D images and imposes a linear relationship between this shape representation and the output (i.e., shape) space. In this paper, we propose a principled framework based on the variational information bottleneck theory to relax these assumptions while predicting probabilistic shapes of anatomy directly from images without supervised encoding of shape descriptors. Here, the latent representation is learned in the context of the learning task, resulting in a more scalable, flexible model that better captures data non-linearity. Additionally, this model is self-regularized and generalizes better given limited training data. Our experiments demonstrate that the proposed method provides improved accuracy and better calibrated aleatoric uncertainty estimates than state-of-the-art methods.
翻訳日:2022-05-17 14:22:05 公開日:2022-05-13
# nlg評価の非構造化--評価実践と前提とその意義

Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and Their Implications ( http://arxiv.org/abs/2205.06828v1 )

ライセンス: Link先を確認
Kaitlyn Zhou, Su Lin Blodgett, Adam Trischler, Hal Daum\'e III, Kaheer Suleman, Alexandra Olteanu(参考訳) 同様のことをテキストで表現する方法は数多くあり、自然言語生成(NLG)システムの評価が困難になる。 この難しさを複合化するためには、デプロイメント設定に応じて、さまざまな品質基準を評価する必要がある。 nlg評価の展望はよく理解されているが、実践者の目標、仮定、制約は、何、いつ、どのように評価するかに関する決定を、しばしば部分的に、暗黙的に、あるいは全く述べられていない。 NLG実践者の形式的半構造化面接調査(N=18)と実践者の広範なサンプル調査(N=61)を組み合わせることで,NLG評価を形成する目標,コミュニティプラクティス,前提,制約を明らかにし,その意義と倫理的考察を具現化する。

There are many ways to express similar things in text, which makes evaluating natural language generation (NLG) systems difficult. Compounding this difficulty is the need to assess varying quality criteria depending on the deployment setting. While the landscape of NLG evaluation has been well-mapped, practitioners' goals, assumptions, and constraints -- which inform decisions about what, when, and how to evaluate -- are often partially or implicitly stated, or not stated at all. Combining a formative semi-structured interview study of NLG practitioners (N=18) with a survey study of a broader sample of practitioners (N=61), we surface goals, community practices, assumptions, and constraints that shape NLG evaluations, examining their implications and how they embody ethical considerations.
翻訳日:2022-05-17 14:00:43 公開日:2022-05-13
# ImageSig:超軽量画像認識のためのシグネチャ変換

ImageSig: A signature transform for ultra-lightweight image recognition ( http://arxiv.org/abs/2205.06929v1 )

ライセンス: Link先を確認
Mohamed R. Ibrahim and Terry Lyons(参考訳) 本稿では,画像認識のための新しい軽量手法を提案する。 ImageSigは計算シグネチャに基づいており、畳み込み構造やアテンションベースのエンコーダを必要としない。 それが達成した著者には印象的です。 a)64 x 64 rgb画像の精度で,最先端の手法の多くを越え,同時に行うこと b) FLOPS, 電力, メモリフットプリントを桁違いに少なくする。 事前訓練されたモデルは44.2KBまで小さくすることができる。 imagesigはraspberry piやjetson-nanoといったハードウェアで前例のないパフォーマンスを示している。 ImageSigは複数のチャンネルで画像をストリームとして扱う。 これらのストリームは空間方向によってパラメータ化される。 我々は,時間的ストリームを超えた静的画像上のストリームライクなデータや視覚タスクに対して,シグネチャと粗い経路理論の機能に寄与する。 非常に少ないパラメータと小さなサイズモデルでは、同じチップ上に多くの「検出器」を組み立てることが可能であり、その上、機能取得は一度実行され、プロセスが加速する異なるタスクのモデル間で共有される。 これは、エネルギー効率とエッジに埋め込まれたAIの進歩に寄与する。

This paper introduces a new lightweight method for image recognition. ImageSig is based on computing signatures and does not require a convolutional structure or an attention-based encoder. It is striking to the authors that it achieves: a) an accuracy for 64 X 64 RGB images that exceeds many of the state-of-the-art methods and simultaneously b) requires orders of magnitude less FLOPS, power and memory footprint. The pretrained model can be as small as 44.2 KB in size. ImageSig shows unprecedented performance on hardware such as Raspberry Pi and Jetson-nano. ImageSig treats images as streams with multiple channels. These streams are parameterized by spatial directions. We contribute to the functionality of signature and rough path theory to stream-like data and vision tasks on static images beyond temporal streams. With very few parameters and small size models, the key advantage is that one could have many of these "detectors" assembled on the same chip; moreover, the feature acquisition can be performed once and shared between different models of different tasks - further accelerating the process. This contributes to energy efficiency and the advancements of embedded AI at the edge.
翻訳日:2022-05-17 13:58:17 公開日:2022-05-13
# 非線形ダイナミクスモデリングのための物理誘導ニューラルネットワーク

Physics guided neural networks for modelling of non-linear dynamics ( http://arxiv.org/abs/2205.06858v1 )

ライセンス: Link先を確認
Haakon Robinson, Suraj Pawar, Adil Rasheed, Omer San(参考訳) 現在の人工知能の波の成功の一部は、人間の介入を最小限に抑える大規模なデータセットから複雑なパターンを学ぶのに非常に効果的であることが証明されたディープニューラルネットワークに起因している。 しかし、データ効率が低く、ハイパーパラメータや初期化に敏感であるため、複雑な力学系でこれらのモデルをトレーニングすることは困難である。 この研究は、DNNの中間層に部分的に既知の情報を注入することで、モデルの精度を向上し、モデルの不確実性を低減し、トレーニング中に収束性を向上させることを示す。 これらの物理誘導ニューラルネットワークの価値は、ロトカ・ボルテラ、ダフィング、ファン・デル・ポル、ロレンツ、ヘノン・ヘイルズの5つの非線形系理論でよく知られた方程式で表される幅広い非線形力学系のダイナミクスを学習することによって証明された。

The success of the current wave of artificial intelligence can be partly attributed to deep neural networks, which have proven to be very effective in learning complex patterns from large datasets with minimal human intervention. However, it is difficult to train these models on complex dynamical systems from data alone due to their low data efficiency and sensitivity to hyperparameters and initialisation. This work demonstrates that injection of partially known information at an intermediate layer in a DNN can improve model accuracy, reduce model uncertainty, and yield improved convergence during the training. The value of these physics-guided neural networks has been demonstrated by learning the dynamics of a wide variety of nonlinear dynamical systems represented by five well-known equations in nonlinear systems theory: the Lotka-Volterra, Duffing, Van der Pol, Lorenz, and Henon-Heiles systems.
翻訳日:2022-05-17 13:55:41 公開日:2022-05-13
# 自己教師付きコントラスト学習の幾何学的理解に向けて

Toward a Geometrical Understanding of Self-supervised Contrastive Learning ( http://arxiv.org/abs/2205.06926v1 )

ライセンス: Link先を確認
Romain Cosentino, Anirvan Sengupta, Salman Avestimehr, Mahdi Soltanolkotabi, Antonio Ortega, Ted Willke, Mariano Tepper(参考訳) 自己教師付き学習(SSL)は、現在、人間のアノテーションがなければ、転送学習に有効なデータ表現を作成するための最重要技術のひとつである。 彼らの成功にもかかわらず、これらの表現の根底にある幾何学は、より堅牢で信頼性があり、解釈可能なモデルへの探求を難なくしている。 特に主流のssl技術は、エンコーダとプロジェクタという2つのカスケードニューラルネットワークを備えた、特定のディープニューラルネットワークアーキテクチャに依存している。 転送学習に使用する場合、その表現がエンコーダよりも一般化しにくいことを示す経験的な結果から、プロジェクタは破棄される。 本稿では,この奇妙な現象を調査し,データ拡張ポリシーの強みがデータ埋め込みに与える影響を解析する。 エンコーダ,プロジェクタ,およびデータ拡張強度の非自明な関係を見出す。さらに大きな拡張ポリシーでは,プロジェクタはエンコーダではなく,より強く駆動され,拡張に不変となる。 これにより、エンコーダ表現におけるデータ多様体接面のノイズ推定である低次元空間に投影することを学習することで、データに関する重要な情報を排除することができる。 この分析は、理論的および経験的結果を伴う幾何学的視点を通して証明される。

Self-supervised learning (SSL) is currently one of the premier techniques to create data representations that are actionable for transfer learning in the absence of human annotations. Despite their success, the underlying geometry of these representations remains elusive, which obfuscates the quest for more robust, trustworthy, and interpretable models. In particular, mainstream SSL techniques rely on a specific deep neural network architecture with two cascaded neural networks: the encoder and the projector. When used for transfer learning, the projector is discarded since empirical results show that its representation generalizes more poorly than the encoder's. In this paper, we investigate this curious phenomenon and analyze how the strength of the data augmentation policies affects the data embedding. We discover a non-trivial relation between the encoder, the projector, and the data augmentation strength: with increasingly larger augmentation policies, the projector, rather than the encoder, is more strongly driven to become invariant to the augmentations. It does so by eliminating crucial information about the data by learning to project it into a low-dimensional space, a noisy estimate of the data manifold tangent plane in the encoder representation. This analysis is substantiated through a geometrical perspective with theoretical and empirical results.
翻訳日:2022-05-17 13:55:22 公開日:2022-05-13
# (参考訳) ELODI:Positive-Congruent Trainingのためのロジット差分抑制

ELODI: Ensemble Logit Difference Inhibition for Positive-Congruent Training ( http://arxiv.org/abs/2205.06265v2 )

ライセンス: CC BY 4.0
Yue Zhao, Yantao Shen, Yuanjun Xiong, Shuo Yang, Wei Xia, Zhuowen Tu, Bernt Schiele, Stefano Soatto(参考訳) 負のフリップは、レガシーモデルを新しいものに置き換えた場合に、分類システムで発生するエラーである。 正フリップ率(NFR)を下げる既存の方法は、モデル蒸留による全体的な精度を犠牲にするか、推論コストを禁ずるアンサンブルを使用するかのいずれかである。 本稿では,単一モデルの推論コストにおいて,誤り率とNFRの両方でパラゴン性能を実現する分類システムを訓練する方法を提案する。 本研究では, 一般蒸留目的であるロジット差抑制法(ldi)を導入し, 通常の蒸留法と一致させることなく, 新旧モデル間のロジットの変化をペナライズする。 LDIは、NFRとともにエラー率を減らすためのモデル柔軟性を提供する。 この方法はLDIの参照モデルとして同質アンサンブルを使用するため、Ensemble LDI(ELODI)と呼ばれる。 参照モデルは、推論時に単一のモデルに置換することができる。 この手法では、負のフリップは一般に決定境界に近づかないが、エローディによって減少するロジット間の距離の偏差が大きいという観測を活用している。

Negative flips are errors introduced in a classification system when a legacy model is replaced with a new one. Existing methods to reduce the negative flip rate (NFR) either do so at the expense of overall accuracy using model distillation, or use ensembles, which multiply inference cost prohibitively. We present a method to train a classification system that achieves paragon performance in both error rate and NFR, at the inference cost of a single model. Our method introduces a generalized distillation objective, Logit Difference Inhibition (LDI), that penalizes changes in the logits between the new and old model, without forcing them to coincide as in ordinary distillation. LDI affords the model flexibility to reduce error rate along with NFR. The method uses a homogeneous ensemble as the reference model for LDI, hence the name Ensemble LDI, or ELODI. The reference model can then be substituted with a single model at inference time. The method leverages the observation that negative flips are typically not close to the decision boundary, but often exhibit large deviations in the distance among their logits, which are reduced by ELODI.
翻訳日:2022-05-17 12:17:37 公開日:2022-05-13
# (参考訳) PoisonedEncoder: コントラスト学習におけるラベルなし事前学習データ

PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in Contrastive Learning ( http://arxiv.org/abs/2205.06401v1 )

ライセンス: CC BY 4.0
Hongbin Liu, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) コントラスト学習は、画像エンコーダが様々な下流タスクの汎用特徴抽出器として使用できるように、大量のラベルのないデータを用いて画像エンコーダを事前学習する。 本研究では, コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。 特に、攻撃者は、複数の目標下流タスクに対して、汚染されたエンコーダに基づいて構築された下流分類器を同時に攻撃者長線、任意のクリーン入力を攻撃者長線、任意のクラスに分類する。 我々は,2段階の最適化問題としてデータ中毒攻撃を定式化し,その解法が毒の入力の集合であることを示す。 複数のデータセットに対する評価の結果,ポゾンデエンコーダは,非攻撃的入力に対して有毒なエンコーダ上に構築された下流分類器のテスト精度を維持しつつ,高い攻撃成功率を達成できた。 また,前処理1回,内処理3回,後処理1回を含む,PoisonedEncoderに対する5つの防御効果を評価した。 以上の結果から,これらの防御は,攻撃成功率を低下させる可能性があるが,エンコーダの有用性を犠牲にしたり,大規模なクリーンな事前トレーニングデータセットが必要となる。

Contrastive learning pre-trains an image encoder using a large amount of unlabeled data such that the image encoder can be used as a general-purpose feature extractor for various downstream tasks. In this work, we propose PoisonedEncoder, a data poisoning attack to contrastive learning. In particular, an attacker injects carefully crafted poisoning inputs into the unlabeled pre-training data, such that the downstream classifiers built based on the poisoned encoder for multiple target downstream tasks simultaneously classify attacker-chosen, arbitrary clean inputs as attacker-chosen, arbitrary classes. We formulate our data poisoning attack as a bilevel optimization problem, whose solution is the set of poisoning inputs; and we propose a contrastive-learning-tailored method to approximately solve it. Our evaluation on multiple datasets shows that PoisonedEncoder achieves high attack success rates while maintaining the testing accuracy of the downstream classifiers built upon the poisoned encoder for non-attacker-chosen inputs. We also evaluate five defenses against PoisonedEncoder, including one pre-processing, three in-processing, and one post-processing defenses. Our results show that these defenses can decrease the attack success rate of PoisonedEncoder, but they also sacrifice the utility of the encoder or require a large clean pre-training dataset.
翻訳日:2022-05-16 23:43:47 公開日:2022-05-13
# (参考訳) 自然言語処理のための量子カーネルの設計と実装

Design and Implementation of a Quantum Kernel for Natural Language Processing ( http://arxiv.org/abs/2205.06409v1 )

ライセンス: CC BY 4.0
Matt Wright(参考訳) 自然言語処理(英: Natural Language Processing、NLP)は、人間の言語をコンピュータで利用できるようにする分野であり、記号言語の意味を表現するために数学的モデルを適用することに依存する。 そのようなモデルの一つであるDisCoCatは、個々の単語の意味と構成の性質の両方を表現する方法を定義している。 このモデルは量子コンピュータ上で自然に実装することができ、場の量子NLP(QNLP)につながる。 最近の実験では、量子符号化文の期待値を用いて、テキストからクラスラベルへのマッピングに量子機械学習技術を用いた。 文の類似性を計算する理論的研究は行われているが、非現実的な量子メモリストアに依存している。 この論文の主な目標は、DisCoCatモデルを利用して、NLPタスクのサポートベクトルマシン(SVM)で使用できる量子ベースのカーネル関数を設計することである。 2つの類似性尺度が研究された。 (i)遷移振幅アプローチ及び遷移振幅アプローチ (ii)SWAPテスト。 単語の埋め込みを訓練し、両方のモデルの性能を評価するために、従来の作業から分類タスクを意味する単純なNLPを用いた。 Pythonモジュールのlambeqとその関連ソフトウェアスタックは実装に使用された。 以前の研究から明らかなモデルは単語埋め込みの訓練に使われ、93.09 \pm 0.01$%のテスト精度を達成した。 どちらのSVM変種も、アプローチに対して9,5.72 \pm 0.01$%の高いテスト精度を達成した。 (i)および9.7.14 \pm 0.01$% (ii) SWAPテストは、実量子デバイス ibmq_guadalupe で定義されたノイズモデルの下でシミュレートされた。 明示的なモデルは911.94 \pm 0.01$%の精度を達成し、SWAPテストSVMは96.7%のテストデータセットで達成した。 これらの結果は,我々の提案するカーネル化QNLPパラダイムのさらなる研究の動機となっている。

Natural language processing (NLP) is the field that attempts to make human language accessible to computers, and it relies on applying a mathematical model to express the meaning of symbolic language. One such model, DisCoCat, defines how to express both the meaning of individual words as well as their compositional nature. This model can be naturally implemented on quantum computers, leading to the field quantum NLP (QNLP). Recent experimental work used quantum machine learning techniques to map from text to class label using the expectation value of the quantum encoded sentence. Theoretical work has been done on computing the similarity of sentences but relies on an unrealized quantum memory store. The main goal of this thesis is to leverage the DisCoCat model to design a quantum-based kernel function that can be used by a support vector machine (SVM) for NLP tasks. Two similarity measures were studied: (i) the transition amplitude approach and (ii) the SWAP test. A simple NLP meaning classification task from previous work was used to train the word embeddings and evaluate the performance of both models. The Python module lambeq and its related software stack was used for implementation. The explicit model from previous work was used to train word embeddings and achieved a testing accuracy of $93.09 \pm 0.01$%. It was shown that both the SVM variants achieved a higher testing accuracy of $95.72 \pm 0.01$% for approach (i) and $97.14 \pm 0.01$% for (ii). The SWAP test was then simulated under a noise model defined by the real quantum device, ibmq_guadalupe. The explicit model achieved an accuracy of $91.94 \pm 0.01$% while the SWAP test SVM achieved 96.7% on the testing dataset, suggesting that the kernelized classifiers are resilient to noise. These are encouraging results and motivate further investigations of our proposed kernelized QNLP paradigm.
翻訳日:2022-05-16 23:19:54 公開日:2022-05-13
# (参考訳) ドメイン一般化のためのテスト時間フーリエ型校正

Test-time Fourier Style Calibration for Domain Generalization ( http://arxiv.org/abs/2205.06427v1 )

ライセンス: CC BY 4.0
Xingchen Zhao, Chang Liu, Anthony Sicilia, Seong Jae Hwang, Yun Fu(参考訳) ソースドメインの集合で学習した機械学習モデルを未知のターゲットドメインに一般化するという課題は難しい。 多くのドメイン一般化(DG)手法は有望な結果を得たが、主にテスト時にターゲットドメインを操作することなく、列車時にソースドメインに依存する。 したがって、これらのメソッドがソースドメインに過剰に適合し、ターゲットドメインでパフォーマンスが低下する可能性がある。 ドメインがスタイルと強く結びついているという観察によって、ソースとターゲットのスタイルのギャップを減らすことがモデルの一般化可能性を高めると論じる。 トレーニング中にターゲットドメインにアクセスできないというジレンマを解決するために,テスト中のターゲットドメインスタイルを調整するためのTF-Cal(Test-time Fourier Style Calibration)を導入する。 スタイルにアクセスするために、フーリエ変換を用いて特徴を振幅(スタイル)特徴と位相(意味)特徴に分解する。 さらに,TF-Calを補完するAAF(Augment Amplitude Features)を提案する。 いくつかのDGベンチマークと医用画像のセグメンテーションデータセットによる大規模な実験により,本手法が最先端の手法より優れていることが示された。

The topic of generalizing machine learning models learned on a collection of source domains to unknown target domains is challenging. While many domain generalization (DG) methods have achieved promising results, they primarily rely on the source domains at train-time without manipulating the target domains at test-time. Thus, it is still possible that those methods can overfit to source domains and perform poorly on target domains. Driven by the observation that domains are strongly related to styles, we argue that reducing the gap between source and target styles can boost models' generalizability. To solve the dilemma of having no access to the target domain during training, we introduce Test-time Fourier Style Calibration (TF-Cal) for calibrating the target domain style on the fly during testing. To access styles, we utilize Fourier transformation to decompose features into amplitude (style) features and phase (semantic) features. Furthermore, we present an effective technique to Augment Amplitude Features (AAF) to complement TF-Cal. Extensive experiments on several popular DG benchmarks and a segmentation dataset for medical images demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2022-05-16 23:18:40 公開日:2022-05-13
# (参考訳) 低コストで制御可能で解釈可能なタスク指向チャットボット: 実世界のアフターセールサービスを例に

A Low-Cost, Controllable and Interpretable Task-Oriented Chatbot: With Real-World After-Sale Services as Example ( http://arxiv.org/abs/2205.06436v1 )

ライセンス: CC BY 4.0
Xiangyu Xi and Chenxu Lv and Yuncheng Hua and Wei Ye and Chaobo Sun and Shuaipeng Liu and Fan Yang and Guanglu Wan(参考訳) 業界で広く使われているが、従来のタスク指向対話システムは3つのボトルネックを抱えている。 (i)難しいオントロジーの構築(例えば、意図及びスロット) (二 制御性及び解釈性に乏しいこと。) (iii)アノテーション・ハングリー。 本稿では,木構造タスクFlowを構築し,タスクFlowをコアコンポーネントとするタスク指向チャットボットを構築する,ダイアログアクションというシンプルな概念で発話を表現することを提案する。 大規模な対話からTaskFlowを自動的に構築し、オンラインにデプロイするフレームワークが提示される。 実世界のアフターセールカスタマサービスに関する実験では,taskflowが主要なニーズを満足すると同時に,開発者の負担を効果的に軽減できることが示されています。

Though widely used in industry, traditional task-oriented dialogue systems suffer from three bottlenecks: (i) difficult ontology construction (e.g., intents and slots); (ii) poor controllability and interpretability; (iii) annotation-hungry. In this paper, we propose to represent utterance with a simpler concept named Dialogue Action, upon which we construct a tree-structured TaskFlow and further build task-oriented chatbot with TaskFlow as core component. A framework is presented to automatically construct TaskFlow from large-scale dialogues and deploy online. Our experiments on real-world after-sale customer services show TaskFlow can satisfy the major needs, as well as reduce the developer burden effectively.
翻訳日:2022-05-16 23:04:54 公開日:2022-05-13
# (参考訳) NEAT強化学習ネットワークにおけるモジュール性

Modularity in NEAT Reinforcement Learning Networks ( http://arxiv.org/abs/2205.06451v1 )

ライセンス: CC BY 4.0
Humphrey Munn, Marcus Gallagher(参考訳) モジュール化は、多くのよく機能する構造化システムにとって不可欠であり、複雑さを管理する有用な手段です [8]。 機械学習アルゴリズムが生成するニューラルネットワークのモジュラリティの分析は、そのようなアルゴリズムの動作と、モジュラリティをパフォーマンスを改善するためにどのように活用できるかについての貴重な洞察を提供することができる。 しかし、この性質はしばしば神経進化学の文献で見過ごされているため、多くの学習アルゴリズムのモジュラー性は不明である。 この特性は、ネットワークトポロジを最適化するNEATの能力により、標準的なシミュレーションベンチマーク制御問題に対して、一般的なアルゴリズムであるNeuroEvolution of Augmenting Topologies (NEAT)に基づいて評価された。 本稿では,問題に依存する速度と収束率によって,ネットワークのモジュール性が急速に向上していることを示す。 興味深いことに、NEATはネットワークの適合度が収束してもモジュラーネットワークが増加する傾向にある。 検討されたパラメータ空間におけるネットワークモジュラリティの理想的なレベルは、他のネットワーク変数に大きく依存しており、モジュラリティがネットワーク性能と直接的な関係を持つという理論を廃止している。 この結果は,モジュール性が直接的に向上しなかったことを実証することで,さらに証明されている。

Modularity is essential to many well-performing structured systems, as it is a useful means of managing complexity [8]. An analysis of modularity in neural networks produced by machine learning algorithms can offer valuable insight into the workings of such algorithms and how modularity can be leveraged to improve performance. However, this property is often overlooked in the neuroevolutionary literature, so the modular nature of many learning algorithms is unknown. This property was assessed on the popular algorithm "NeuroEvolution of Augmenting Topologies" (NEAT) for standard simulation benchmark control problems due to NEAT's ability to optimise network topology. This paper shows that NEAT networks seem to rapidly increase in modularity over time with the rate and convergence dependent on the problem. Interestingly, NEAT tends towards increasingly modular networks even when network fitness converges. It was shown that the ideal level of network modularity in the explored parameter space is highly dependent on other network variables, dispelling theories that modularity has a straightforward relationship to network performance. This is further proven in this paper by demonstrating that rewarding modularity directly did not improve fitness.
翻訳日:2022-05-16 22:51:25 公開日:2022-05-13
# (参考訳) R5: Reinforceed and Recurrent Relational Reasoningによるルール発見

R5: Rule Discovery with Reinforced and Recurrent Relational Reasoning ( http://arxiv.org/abs/2205.06454v1 )

ライセンス: CC BY 4.0
Shengyao Lu, Bang Liu, Keith G. Mills, Shangling Jui, Di Niu(参考訳) 体系性(Systematicity)、すなわち、既知の部品や規則を再結合して、関係データを推論しながら新しいシーケンスを形成する能力は、マシンインテリジェンスにとって重要である。 強い体系性を持つモデルは、小規模タスクを訓練し、大規模タスクに一般化することができる。 本稿では,関係グラフデータに基づく強化学習に基づく関係推論フレームワークR5を提案する。 r5は強い体系性を持ち、ノイズデータに対して堅牢である。 モンテカルロ木探索によるリレーショナル予測とルールマイニングのためのバックトラック書き換え機構を備えたポリシー値ネットワークで構成されている。 2つのコンポーネントを交互に適用することにより、R5はデータから一連の明示的なルールを徐々に学習し、説明可能で一般化可能な関係予測を行う。 複数のデータセットに対して広範な評価を行う。 実験結果から,R5は接地真理則の発見において高いリコール率を達成しつつ,関係予測タスクにおける様々な埋め込みベースおよびルール誘導ベースラインよりも優れていた。

Systematicity, i.e., the ability to recombine known parts and rules to form new sequences while reasoning over relational data, is critical to machine intelligence. A model with strong systematicity is able to train on small-scale tasks and generalize to large-scale tasks. In this paper, we propose R5, a relational reasoning framework based on reinforcement learning that reasons over relational graph data and explicitly mines underlying compositional logical rules from observations. R5 has strong systematicity and being robust to noisy data. It consists of a policy value network equipped with Monte Carlo Tree Search to perform recurrent relational prediction and a backtrack rewriting mechanism for rule mining. By alternately applying the two components, R5 progressively learns a set of explicit rules from data and performs explainable and generalizable relation prediction. We conduct extensive evaluations on multiple datasets. Experimental results show that R5 outperforms various embedding-based and rule induction baselines on relation prediction tasks while achieving a high recall rate in discovering ground truth rules.
翻訳日:2022-05-16 22:42:42 公開日:2022-05-13
# (参考訳) ViT5:ベトナム語生成のための事前訓練されたテキスト-テキスト変換器

ViT5: Pretrained Text-to-Text Transformer for Vietnamese Language Generation ( http://arxiv.org/abs/2205.06457v1 )

ライセンス: CC BY 4.0
Long Phan, Hieu Tran, Hieu Nguyen, Trieu H. Trinh(参考訳) ベトナム語のトランスフォーマーを用いたエンコーダデコーダモデルViT5を提案する。 t5スタイルの自己教師付き事前訓練により、vit5は高品質で多様なベトナム語のテキストのコーパスで訓練される。 我々はvit5を2つの下流テキスト生成タスク(抽象テキスト要約と名前付きエンティティ認識)でベンチマークする。 抽象テキスト要約は、その豊かで膨大なデータソースのおかげで、英語で広く研究されてきたが、ベトナムでは、非常に低いリソース言語である同じタスクについて最小限の研究がなされている。 本研究ではベトナムの抽象的な要約と名前付きエンティティ認識の両方について徹底的な実験を行い、ViT5の性能を他の多くの事前訓練されたトランスフォーマーベースのエンコーダデコーダモデルと比較した。 実験の結果,ViT5は既存のモデルよりも大幅に優れ,ベトナム語のテキスト要約における最先端の結果が得られた。 Named Entity Recognitionのタスクでは、ViT5は事前訓練されたエンコーダベースのTransformerモデルによる以前の最良の結果と競合する。 さらなる分析により、異なる設定でのダウンストリームパフォーマンスの自己教師付き事前トレーニングにおけるコンテキスト長の重要性が示されている。

We present ViT5, a pretrained Transformer-based encoder-decoder model for the Vietnamese language. With T5-style self-supervised pretraining, ViT5 is trained on a large corpus of high-quality and diverse Vietnamese texts. We benchmark ViT5 on two downstream text generation tasks, Abstractive Text Summarization and Named Entity Recognition. Although Abstractive Text Summarization has been widely studied for the English language thanks to its rich and large source of data, there has been minimal research into the same task in Vietnamese, a much lower resource language. In this work, we perform exhaustive experiments on both Vietnamese Abstractive Summarization and Named Entity Recognition, validating the performance of ViT5 against many other pretrained Transformer-based encoder-decoder models. Our experiments show that ViT5 significantly outperforms existing models and achieves state-of-the-art results on Vietnamese Text Summarization. On the task of Named Entity Recognition, ViT5 is competitive against previous best results from pretrained encoder-based Transformer models. Further analysis shows the importance of context length during the self-supervised pretraining on downstream performance across different settings.
翻訳日:2022-05-16 22:10:40 公開日:2022-05-13
# (参考訳) 入射再投射ネットワークによる単眼的人体デジタル化

Monocular Human Digitization via Implicit Re-projection Networks ( http://arxiv.org/abs/2205.06468v1 )

ライセンス: CC BY 4.0
Min-Gyu Park, Ju-Mi Kang, Je Woo Kim, Ju Hong Yoon(参考訳) 画像から3次元モデルを生成する手法を提案する。 フレームワークの鍵となるのは、両面の直交深度マップとカラー画像が単一の視点で投影された画像から予測できることである。 私たちのフレームワークは3つのネットワークで構成されています。 第1のネットワークは、通常の地図を予測して、衣服や顔領域のしわなどの幾何学的詳細を復元する。 第2のネットワークは、予測された正規地図を用いて、フロント及びバックビューのシェード削除画像を予測する。 最後のマルチヘッドネットワークは、通常の地図と日陰のない画像の両方を取り込み、マルチヘッドアテンションゲートを介して測光情報と幾何情報を選択的に融合しながら深度マップを予測する。 実験の結果,最先端手法に対する各種評価指標を用いて,視覚的に有望な結果と競争力を示すことができた。

We present an approach to generating 3D human models from images. The key to our framework is that we predict double-sided orthographic depth maps and color images from a single perspective projected image. Our framework consists of three networks. The first network predicts normal maps to recover geometric details such as wrinkles in the clothes and facial regions. The second network predicts shade-removed images for the front and back views by utilizing the predicted normal maps. The last multi-headed network takes both normal maps and shade-free images and predicts depth maps while selectively fusing photometric and geometric information through multi-headed attention gates. Experimental results demonstrate that our method shows visually plausible results and competitive performance in terms of various evaluation metrics over state-of-the-art methods.
翻訳日:2022-05-16 22:00:23 公開日:2022-05-13
# (参考訳) l-Leaks: ログによるメンバシップ推論攻撃

l-Leaks: Membership Inference Attacks with Logits ( http://arxiv.org/abs/2205.06469v1 )

ライセンス: CC BY 4.0
Shuhao Li, Yajie Wang, Yuanzhang Li, Yu-an Tan(参考訳) 機械学習(ML)は過去数十年で前例のない進歩を遂げた。 しかし、トレーニングデータの記憶力のため、MLは様々な攻撃、特にモデルのトレーニングデータを推測することを目的としたメンバーシップ推論攻撃(MIA)の影響を受けやすい。 これまでのところ、ML分類器に対するメンバーシップ推論攻撃のほとんどは、ターゲットモデルと同じ構造を持つシャドウモデルを利用している。 しかし、実験の結果、シャドウモデルがターゲットモデルのネットワーク構造について明確でない場合、これらの攻撃は容易に軽減できることが示された。 本稿では,対象モデルに対するブラックボックスアクセスに基づく攻撃について述べる。 我々は攻撃を \textbf{l-leaks} と命名する。 l-Leaksは、確立されたシャドウモデルがターゲットモデルと十分に類似している場合、敵はシャドウモデルの情報を利用してターゲットサンプルのメンバシップを予測するという直感に従っており、訓練されたターゲットモデルのロジットには貴重なサンプル知識が含まれている。 ターゲットモデルのロジットを学習し、シャドウモデルをターゲットモデルに近いものにすることでシャドウモデルを構築する。 次に、シャドーモデルは、ターゲットモデルのメンバサンプルに十分な信頼性を持つ。 また,シャドウモデルの異なるネットワーク構造が攻撃結果に与える影響についても考察する。 異なるネットワークやデータセット上での実験では、どちらの攻撃も高いパフォーマンスを実現している。

Machine Learning (ML) has made unprecedented progress in the past several decades. However, due to the memorability of the training data, ML is susceptible to various attacks, especially Membership Inference Attacks (MIAs), the objective of which is to infer the model's training data. So far, most of the membership inference attacks against ML classifiers leverage the shadow model with the same structure as the target model. However, empirical results show that these attacks can be easily mitigated if the shadow model is not clear about the network structure of the target model. In this paper, We present attacks based on black-box access to the target model. We name our attack \textbf{l-Leaks}. The l-Leaks follows the intuition that if an established shadow model is similar enough to the target model, then the adversary can leverage the shadow model's information to predict a target sample's membership.The logits of the trained target model contain valuable sample knowledge. We build the shadow model by learning the logits of the target model and making the shadow model more similar to the target model. Then shadow model will have sufficient confidence in the member samples of the target model. We also discuss the effect of the shadow model's different network structures to attack results. Experiments over different networks and datasets demonstrate that both of our attacks achieve strong performance.
翻訳日:2022-05-16 21:48:33 公開日:2022-05-13
# (参考訳) 3次元および4次元医用画像における左心房細動の分節化と解析

A Survey of Left Atrial Appendage Segmentation and Analysis in 3D and 4D Medical Images ( http://arxiv.org/abs/2205.06486v1 )

ライセンス: CC BY 4.0
Hrvoje Leventi\'c, Marin Ben\v{c}evi\'c, Danilo Babin, Marija Habijan, Irena Gali\'c(参考訳) 心房細動(英: atrial fibrillation, AF)は、脳卒中の主な危険因子の一つである心血管疾患である。 AFによる脳梗塞の大部分は左心房補助(LAA)由来の血栓によるものである。 LAA閉塞は脳卒中リスクを低減する効果的な方法である。 プロシージャ前画像と分析を用いた手順の策定は, 有益である。 この分析は、手動で2Dスライスにアタッチメントを分割することで行うのが一般的である。 自動LAAセグメンテーション法は、専門家の時間を節約し、洞察に富んだ3D可視化と正確な自動測定を提供することで医療処置を支援する。 いくつかの半自動的手法が提案されている。 本稿では,CT,MRI,心エコー画像を含む3次元および4次元の医用画像に対するLAA自動分割法について概説する。 我々は,手法をヒューリスティックおよびモデルに基づく手法に分類し,半自動および完全自動の手法に分類する。 提案手法を要約・比較し,その有効性を評価し,現状の課題と克服へのアプローチを提示する。

Atrial fibrillation (AF) is a cardiovascular disease identified as one of the main risk factors for stroke. The majority of strokes due to AF are caused by clots originating in the left atrial appendage (LAA). LAA occlusion is an effective procedure for reducing stroke risk. Planning the procedure using pre-procedural imaging and analysis has shown benefits. The analysis is commonly done by manually segmenting the appendage on 2D slices. Automatic LAA segmentation methods could save an expert's time and provide insightful 3D visualizations and accurate automatic measurements to aid in medical procedures. Several semi- and fully-automatic methods for segmenting the appendage have been proposed. This paper provides a review of automatic LAA segmentation methods on 3D and 4D medical images, including CT, MRI, and echocardiogram images. We classify methods into heuristic and model-based methods, as well as into semi- and fully-automatic methods. We summarize and compare the proposed methods, evaluate their effectiveness, and present current challenges in the field and approaches to overcome them.
翻訳日:2022-05-16 21:35:36 公開日:2022-05-13
# (参考訳) 深部強化学習によるmmW-NOMAダウンリンクシステムの連系パワーアロケーションとビームフォーマ

Joint Power Allocation and Beamformer for mmW-NOMA Downlink Systems by Deep Reinforcement Learning ( http://arxiv.org/abs/2205.06489v1 )

ライセンス: CC BY 4.0
Abbas Akbarpour-Kasgari, Mehrdad Ardebilipour(参考訳) 次世代無線通信におけるデータレートの高需要はミリメートル波(mmw)周波数帯における非直交多重アクセス(noma)アプローチによって保証される。 mmW-NOMAシステムの連系電力配分とビームフォーミングは最適化手法によって達成される。 この目的のために、我々は、ポリシー生成によってユーザの最適化された総和率につながる、Deep Reinforcement Learning(DRL)アプローチを利用した。 アクター批判現象を利用して、即時報酬を測定し、ネットワーク全体のQ値を最大化する新しいアクションを提供する。 即時報酬は、各ユーザに対する最小保証率と消費電力の合計を制約として、2人のユーザの割合の合計に基づいて定義されている。 シミュレーション結果は,tdma (time-division multiple access) やユーザ総率の観点からのnoma最適化戦略よりも,提案手法が優れていることを示す。

The high demand for data rate in the next generation of wireless communication could be ensured by Non-Orthogonal Multiple Access (NOMA) approach in the millimetre-wave (mmW) frequency band. Joint power allocation and beamforming of mmW-NOMA systems is mandatory which could be met by optimization approaches. To this end, we have exploited Deep Reinforcement Learning (DRL) approach due to policy generation leading to an optimized sum-rate of users. Actor-critic phenomena are utilized to measure the immediate reward and provide the new action to maximize the overall Q-value of the network. The immediate reward has been defined based on the summation of the rate of two users regarding the minimum guaranteed rate for each user and the sum of consumed power as the constraints. The simulation results represent the superiority of the proposed approach rather than the Time-Division Multiple Access (TDMA) and another NOMA optimized strategy in terms of sum-rate of users.
翻訳日:2022-05-16 21:22:12 公開日:2022-05-13
# (参考訳) rtmapsを用いたマルチadasデータ融合のための局所動的マップ

RTMaps-based Local Dynamic Map for multi-ADAS data fusion ( http://arxiv.org/abs/2205.06497v1 )

ライセンス: CC BY 4.0
Marcos Nieto, Mikel Garcia, Itziar Urbieta, Oihana Otaegui(参考訳) ローカル・ダイナミック・マップ(LDM)の実装はまだ初期段階であり、LDM標準はデータベース内で情報がどのように構成されるかのみを定義し、異なるレイヤ間で情報を融合またはリンクするメカニズムは未定義のままである。 車両内のリアルタイムデータベースとしてのワーキング LDM コンポーネントは、車内の情報の中心となるリアルタイム LDM データベースを供給し、他のコンポーネント(例えば、意思決定システム)に融合して構造化された情報を公開する、マルチADAS システムの魅力的なソリューションである。 本稿では,rtmapsミドルウェアを用いたリアルタイムldmコンポーネントの実装手法について述べる。rtmapsミドルウェアを車両にデプロイしたデータベースとして,道路側ユニット(rsu)にも実装し,融合戦略を導く3つの柱(標準の利用(ドメイン間の変換),複数のadasソースを統一するためのミドルウェア,セマンティクス概念によるデータのリンク)を用いて実装する。

Work on Local Dynamic Maps (LDM) implementation is still in its early stages, as the LDM standards only define how information shall be structured in databases, while the mechanism to fuse or link information across different layers is left undefined. A working LDM component, as a real-time database inside the vehicle is an attractive solution to multi-ADAS systems, which may feed a real-time LDM database that serves as a central point of information inside the vehicle, exposing fused and structured information to other components (e.g., decision-making systems). In this paper we describe our approach implementing a real-time LDM component using the RTMaps middleware, as a database deployed in a vehicle, but also at road-side units (RSU), making use of the three pillars that guide a successful fusion strategy: utilisation of standards (with conversions between domains), middlewares to unify multiple ADAS sources, and linkage of data via semantic concepts.
翻訳日:2022-05-16 21:14:29 公開日:2022-05-13
# (参考訳) DualCF:非現実的説明から効率的なモデル抽出攻撃

DualCF: Efficient Model Extraction Attack from Counterfactual Explanations ( http://arxiv.org/abs/2205.06504v1 )

ライセンス: CC BY 4.0
Yongjie Wang, Hangwei Qian, Chunyan Miao(参考訳) クラウドサービスプロバイダがMLaaS(Machine-Learning-as-a-Service)プラットフォームをローンチした。 予測出力に加えて、これらのAPIは、対実的説明(CF)など、より人間的に理解可能な方法で他の情報を提供することもできる。 しかしながら、このような余分な情報は、クラウドモデルの内部機能を盗むことを目的とした、抽出攻撃に対して、必然的にクラウドモデルがより脆弱になる。 しかし、クラウドモデルのブラックボックスの性質から、代替モデルが高い忠実度に達する前に、既存の攻撃戦略によって必然的に大量のクエリが必要となる。 本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,シンプルで効率的なクエリ手法を提案する。 これは,現在の問合せ戦略が決定境界シフト問題に苦しむのを,代用モデルトレーニングに遠距離問合せと近距離cfsを取り入れることに起因している。 そこで我々は,CF だけでなく,CF (CCF) を代替モデルのトレーニングサンプルのペアとして扱うことで実現した,上記の問題を回避するための DualCF 戦略を提案する。 合成データと実世界のデータセットの両方で、広範囲で包括的な実験評価が行われる。 実験結果から,DualCFはより少ないクエリで効率よく高忠実度モデルを生成できることを示す。

Cloud service providers have launched Machine-Learning-as-a-Service (MLaaS) platforms to allow users to access large-scale cloudbased models via APIs. In addition to prediction outputs, these APIs can also provide other information in a more human-understandable way, such as counterfactual explanations (CF). However, such extra information inevitably causes the cloud models to be more vulnerable to extraction attacks which aim to steal the internal functionality of models in the cloud. Due to the black-box nature of cloud models, however, a vast number of queries are inevitably required by existing attack strategies before the substitute model achieves high fidelity. In this paper, we propose a novel simple yet efficient querying strategy to greatly enhance the querying efficiency to steal a classification model. This is motivated by our observation that current querying strategies suffer from decision boundary shift issue induced by taking far-distant queries and close-to-boundary CFs into substitute model training. We then propose DualCF strategy to circumvent the above issues, which is achieved by taking not only CF but also counterfactual explanation of CF (CCF) as pairs of training samples for the substitute model. Extensive and comprehensive experimental evaluations are conducted on both synthetic and real-world datasets. The experimental results favorably illustrate that DualCF can produce a high-fidelity model with fewer queries efficiently and effectively.
翻訳日:2022-05-16 21:10:12 公開日:2022-05-13
# (参考訳) 二重復号による字幕と字幕の同時生成

Joint Generation of Captions and Subtitles with Dual Decoding ( http://arxiv.org/abs/2205.06522v1 )

ライセンス: CC BY 4.0
Jitao Xu, Fran\c{c}ois Buet, Josep Crego, Elise Bertin-Lem\'ee, Fran\c{c}ois Yvon(参考訳) 音声・視覚コンテンツの増加に伴い、国際的な視聴者の期待に応えて自動キャプション・サブティット・ソリューションを開発する必要性が、スループットを向上し、関連するポストプロダクションコストを削減できる唯一の方法として現れている。 自動キャプションとサブタイピングは、互いに適切なレベルの一貫性と同期を達成するために、ビデオ信号と密接に連携する必要があることが多い。 本研究では,これら2つのタスク間の強い結合を実現するために,二重復号方式を評価し,モデルサイズやトレーニングの複雑さといった付加的なコストをほとんど必要とせず,妥当性と一貫性がどの程度向上しているかを示す。

As the amount of audio-visual content increases, the need to develop automatic captioning and subtitling solutions to match the expectations of a growing international audience appears as the only viable way to boost throughput and lower the related post-production costs. Automatic captioning and subtitling often need to be tightly intertwined to achieve an appropriate level of consistency and synchronization with each other and with the video signal. In this work, we assess a dual decoding scheme to achieve a strong coupling between these two tasks and show how adequacy and consistency are increased, with virtually no additional cost in terms of model size and training complexity.
翻訳日:2022-05-16 20:34:06 公開日:2022-05-13
# (参考訳) ニューラルコード補完の生産性評価

Productivity Assessment of Neural Code Completion ( http://arxiv.org/abs/2205.06537v1 )

ライセンス: CC BY 4.0
Albert Ziegler, Eirini Kalliamvakou, Shawn Simister, Ganesh Sittampalam, Alice Li, Andrew Rice, Devon Rifkin, and Edward Aftandilian(参考訳) ニューラルコード合成は、スニペット生成が人間のソフトウェア開発ワークフローへの統合を考えるのに十分な精度に達している。 商用製品は、直接測定することなく、プログラマの生産性を向上させることを目指している。 このケーススタディでは、GitHub Copilotのユーザに対して、生産性への影響について質問し、直接測定可能なユーザデータに対する認識の反映を見つけようとしました。 提案が受け入れられる割合は、コード内の完了の持続性に関するより具体的な指標ではなく、開発者の生産性に対する認識を後押ししていることが分かりました。

Neural code synthesis has reached a point where snippet generation is accurate enough to be considered for integration into human software development workflows. Commercial products aim to increase programmers' productivity, without being able to measure it directly. In this case study, we asked users of GitHub Copilot about its impact on their productivity, and sought to find a reflection of their perception in directly measurable user data. We find that the rate with which shown suggestions are accepted, rather than more specific metrics regarding the persistence of completions in the code over time, drives developers' perception of productivity.
翻訳日:2022-05-16 20:21:30 公開日:2022-05-13
# (参考訳) 胚のステージ識別における注意モデルとポストホックな説明法の比較

Comparison of attention models and post-hoc explanation methods for embryo stage identification: a case study ( http://arxiv.org/abs/2205.06546v1 )

ライセンス: CC BY 4.0
Tristan Gomez, Thomas Fr\'eour, Harold Mouch\`ere(参考訳) In Vitro Fertilization (IVF)のためのAIベースのソリューションの開発に重要な制限は、ディープラーニングアーキテクチャの複雑さのため、ほとんどの最先端モデルのブラックボックスの性質である。 解釈可能なAIの必要性は、IVF分野だけでなく、一般のディープラーニングコミュニティでも高まっている。 この傾向は文献で始まり、著者は汎用的な説明法を評価するために客観的なメトリクスを設計することに集中している。 本稿では,最近提案された胚段階同定問題に適用された目的的忠実度指標の挙動について検討する。 評価指標を用いて注意モデルとポストホック法をベンチマークし,さらに,(1)指標がモデルランキングの全体的な一致度が低いこと,(2)メトリックアプローチにより,ポストホック法や注意モデルが好まれること,を実証的に示す。 最後に、忠実性を定義することの難しさと、好まれるアプローチの種類との関係を理解する必要性について、一般的なコメントで締めくくります。

An important limitation to the development of AI-based solutions for In Vitro Fertilization (IVF) is the black-box nature of most state-of-the-art models, due to the complexity of deep learning architectures, which raises potential bias and fairness issues. The need for interpretable AI has risen not only in the IVF field but also in the deep learning community in general. This has started a trend in literature where authors focus on designing objective metrics to evaluate generic explanation methods. In this paper, we study the behavior of recently proposed objective faithfulness metrics applied to the problem of embryo stage identification. We benchmark attention models and post-hoc methods using metrics and further show empirically that (1) the metrics produce low overall agreement on the model ranking and (2) depending on the metric approach, either post-hoc methods or attention models are favored. We conclude with general remarks about the difficulty of defining faithfulness and the necessity of understanding its relationship with the type of approach that is favored.
翻訳日:2022-05-16 20:06:22 公開日:2022-05-13
# (参考訳) フェアフェイス認識のためのメタバランスネットワーク

Meta Balanced Network for Fair Face Recognition ( http://arxiv.org/abs/2205.06548v1 )

ライセンス: CC BY 4.0
Mei Wang, Yaobin Zhang, Weihong Deng(参考訳) 近年、深部顔認識は目覚ましい進歩を遂げているが、肌のトーンに基づく差別や、現実のシナリオへの展開に疑問を呈する議論が起きている。 本稿では,データとアルゴリズムの両面から,このバイアスを体系的かつ科学的に研究することを目的とする。 まず、皮膚科医がFitzpatrick Skin Type分類システムとPersonal Typology Angleを承認し、既存の顔認識アルゴリズムや商用APIの肌色に対するバイアスの度合いを効果的に定量化するIDSデータベース(Identity Shades:IDS)と呼ばれるベンチマークを提出する。 さらに、トレーニングデータのバイアスを取り除くために、BUPT-GlobalfaceデータセットとBUPT-Balancedfaceデータセットと呼ばれる2つのスキントーン対応トレーニングデータセットを提供する。 最後に、アルゴリズムバイアスを軽減するために、メタバランスネットワーク(meta balanced network, mbn)と呼ばれる新しいメタ学習アルゴリズムを提案する。 マージンを決定するために, クリーンかつアンバイアスなメタセット上でのメタスキューネス損失を最適化し, 後方方向の自動微分を利用して, 現行マージンの2次勾配降下ステップを実行する。 大規模な実験により、MBNは偏見を緩和し、顔認識において異なる肌のトーンを持つ人々に対してよりバランスのとれたパフォーマンスを学ぶ。 提案されたデータセットはhttp://www.whdeng.cn/rfw/index.htmlで利用可能である。

Although deep face recognition has achieved impressive progress in recent years, controversy has arisen regarding discrimination based on skin tone, questioning their deployment into real-world scenarios. In this paper, we aim to systematically and scientifically study this bias from both data and algorithm aspects. First, using the dermatologist approved Fitzpatrick Skin Type classification system and Individual Typology Angle, we contribute a benchmark called Identity Shades (IDS) database, which effectively quantifies the degree of the bias with respect to skin tone in existing face recognition algorithms and commercial APIs. Further, we provide two skin-tone aware training datasets, called BUPT-Globalface dataset and BUPT-Balancedface dataset, to remove bias in training data. Finally, to mitigate the algorithmic bias, we propose a novel meta-learning algorithm, called Meta Balanced Network (MBN), which learns adaptive margins in large margin loss such that the model optimized by this loss can perform fairly across people with different skin tones. To determine the margins, our method optimizes a meta skewness loss on a clean and unbiased meta set and utilizes backward-on-backward automatic differentiation to perform a second order gradient descent step on the current margins. Extensive experiments show that MBN successfully mitigates bias and learns more balanced performance for people with different skin tones in face recognition. The proposed datasets are available at http://www.whdeng.cn/RFW/index.html.
翻訳日:2022-05-16 19:53:33 公開日:2022-05-13
# (参考訳) Oracle文字認識のための教師なし構造・テクスチャ分離ネットワーク

Unsupervised Structure-Texture Separation Network for Oracle Character Recognition ( http://arxiv.org/abs/2205.06549v1 )

ライセンス: CC BY 4.0
Mei Wang, Weihong Deng, Cheng-Lin Liu(参考訳) オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。 しかし、実世界のスキャンされたoracleデータはまれであり、スキャンされたoracleの文字の自動認識が困難なタスクになるようなアノテーションの専門家はほとんどいない。 そこで本研究では,手書きのオラクルデータからスキャンされたドメインへの知識伝達のための教師なしドメイン適応を探求する。 そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。 まず、STSNは、特徴を生成モデルにより構造(グリフ)とテクスチャ(ノイズ)に切り離し、次に、重騒音による負の影響を回避できるように、手書きおよびスキャンされたデータを構造特徴空間に整列させる。 第二に、学習したテクスチャをドメイン間で交換することで変換を行い、最終分類のための分類器を訓練して、変換されたスキャンされた文字のラベルを予測する。 これは絶対的な分離を保証するだけでなく、学習した特徴の識別能力を高める。 oracle-241データセットに関する広範な実験は、stsnが他の適応方法よりも優れており、長い埋葬や不注意な発掘によって汚染された場合でも、スキャンされたデータの認識性能が向上していることを示している。

Oracle bone script is the earliest-known Chinese writing system of the Shang dynasty and is precious to archeology and philology. However, real-world scanned oracle data are rare and few experts are available for annotation which make the automatic recognition of scanned oracle characters become a challenging task. Therefore, we aim to explore unsupervised domain adaptation to transfer knowledge from handprinted oracle data, which are easy to acquire, to scanned domain. We propose a structure-texture separation network (STSN), which is an end-to-end learning framework for joint disentanglement, transformation, adaptation and recognition. First, STSN disentangles features into structure (glyph) and texture (noise) components by generative models, and then aligns handprinted and scanned data in structure feature space such that the negative influence caused by serious noises can be avoided when adapting. Second, transformation is achieved via swapping the learned textures across domains and a classifier for final classification is trained to predict the labels of the transformed scanned characters. This not only guarantees the absolute separation, but also enhances the discriminative ability of the learned features. Extensive experiments on Oracle-241 dataset show that STSN outperforms other adaptation methods and successfully improves recognition performance on scanned data even when they are contaminated by long burial and careless excavation.
翻訳日:2022-05-16 19:18:10 公開日:2022-05-13
# (参考訳) 医用画像セグメンテーションのためのコントラスト領域異方性の検討

Contrastive Domain Disentanglement for Generalizable Medical Image Segmentation ( http://arxiv.org/abs/2205.06551v1 )

ライセンス: CC BY 4.0
Ran Gu, Jiangshan Lu, Jingyang Zhang, Wenhui Lei, Xiaofan Zhang, Guotai Wang, Shaoting Zhang(参考訳) 畳み込みニューラルネットワークは,医用画像のセグメンテーションにおいて顕著な性能を発揮するためには,識別的特徴の効率的な利用が不可欠であると同時に,複数の領域をまたがるモデル一般化においても重要である。 残念なことに、最近のディスタングルネットワークのほとんどは、提供されたデータ分散の制限のため、未取得のドメインデータセットに直接適用できない。 この障害に対処するため,医療画像分割のためのコントラシブ・ドメイン・ディスタングル(CDD)ネットワークを提案する。 まず,医療画像から解剖学的表現因子とモダリティ表現因子に分解する異角形ネットワークを導入する。 次に、異なるドメインが互いに離れている間、同じドメインからのモダリティ表現を可能な限り近い場所に配布するよう促すスタイルの対照的な損失を提案する。 最後に,モデル一般化トレーニングのための新しいドメインをランダムに生成できるドメイン拡張戦略を提案する。 光カップとディスクセグメンテーションのための多地点画像データセットの実験結果から、CDDは優れたモデル一般化を有することが示された。 提案するcddは,ドメイン一般化セグメンテーションにおいて,最先端のメソッドを数種類上回っている。

Efficiently utilizing discriminative features is crucial for convolutional neural networks to achieve remarkable performance in medical image segmentation and is also important for model generalization across multiple domains, where letting model recognize domain-specific and domain-invariant information among multi-site datasets is a reasonable strategy for domain generalization. Unfortunately, most of the recent disentangle networks are not directly adaptable to unseen-domain datasets because of the limitations of offered data distribution. To tackle this deficiency, we propose Contrastive Domain Disentangle (CDD) network for generalizable medical image segmentation. We first introduce a disentangle network to decompose medical images into an anatomical representation factor and a modality representation factor. Then, a style contrastive loss is proposed to encourage the modality representations from the same domain to distribute as close as possible while different domains are estranged from each other. Finally, we propose a domain augmentation strategy that can randomly generate new domains for model generalization training. Experimental results on multi-site fundus image datasets for optic cup and disc segmentation show that the CDD has good model generalization. Our proposed CDD outperforms several state-of-the-art methods in domain generalizable segmentation.
翻訳日:2022-05-16 18:44:00 公開日:2022-05-13
# (参考訳) リアルカーソリューションのための仮想乗客:合成データセット

Virtual passengers for real car solutions: synthetic datasets ( http://arxiv.org/abs/2205.06556v1 )

ライセンス: CC BY 4.0
Paola Natalia Canas, Juan Diego Ortega, Marcos Nieto and Oihana Otaegui(参考訳) 合成データの生成を含むストラテジーは、実際のデータを取得することは、論理的に複雑で、非常に高価、あるいは遅いため、実現し始めている。 データのキャプチャだけでなく、アノテーションも複雑になる可能性がある。 インテリジェントシステムのトレーニングのための高忠実度データを実現するため,我々は3Dシナリオを構築した。 我々のアプローチでは、シーンにランダム性を加えるためにパラメータを設定および変更することが可能であり、この方法ではデータセットの構築において非常に重要であるデータの変動が許される。 さらに、アノテーションタスクは、多くのリソースを節約できる、キャプチャ後のタスクではなく、データ生成の実行にすでに含まれています。 本稿では,実データキャプチャの代替として,運転者や乗客の監視を目的とした合成データ生成のプロセスと概念について述べる。

Strategies that include the generation of synthetic data are beginning to be viable as obtaining real data can be logistically complicated, very expensive or slow. Not only the capture of the data can lead to complications, but also its annotation. To achieve high-fidelity data for training intelligent systems, we have built a 3D scenario and set-up to resemble reality as closely as possible. With our approach, it is possible to configure and vary parameters to add randomness to the scene and, in this way, allow variation in data, which is so important in the construction of a dataset. Besides, the annotation task is already included in the data generation exercise, rather than being a post-capture task, which can save a lot of resources. We present the process and concept of synthetic data generation in an automotive context, specifically for driver and passenger monitoring purposes, as an alternative to real data capturing.
翻訳日:2022-05-16 18:33:48 公開日:2022-05-13
# (参考訳) 大規模ストリーミングデータによるレイテンシ保証による噂の検出

Detecting Rumours with Latency Guarantees using Massive Streaming Data ( http://arxiv.org/abs/2205.06580v1 )

ライセンス: CC BY 4.0
Thanh Tam Nguyen, Thanh Trung Huynh, Hongzhi Yin, Matthias Weidlich, Thanh Thi Nguyen, Thai Son Mai, Quoc Viet Hung Nguyen(参考訳) 今日のソーシャルネットワークは、大量のデータストリームを継続的に生成し、噂が広まり始めるとすぐに、噂の検出の出発点となる。 しかし、ソーシャルネットワークが出力する高速度ストリーミングデータの量を考えると、現代のアルゴリズムでは満たせない、厳密なレイテンシ境界が噂されている。 そこで本研究では,遅延の大きいすべての噂よりも,ほとんどの噂を素早く検出する最善の噂検出法を提案する。 この目的のために,提案手法は,精度の低下を最小限に抑えつつ,入力データの一部を破棄する効率的な負荷シェディングと噂パターンのグラフマッチングを併用する。 大規模実世界のデータセットを用いた実験は、さまざまなストリーミング条件下での実行時性能と検出精度の観点から、このアプローチの堅牢性を示している。

Today's social networks continuously generate massive streams of data, which provide a valuable starting point for the detection of rumours as soon as they start to propagate. However, rumour detection faces tight latency bounds, which cannot be met by contemporary algorithms, given the sheer volume of high-velocity streaming data emitted by social networks. Hence, in this paper, we argue for best-effort rumour detection that detects most rumours quickly rather than all rumours with a high delay. To this end, we combine techniques for efficient, graph-based matching of rumour patterns with effective load shedding that discards some of the input data while minimising the loss in accuracy. Experiments with large-scale real-world datasets illustrate the robustness of our approach in terms of runtime performance and detection accuracy under diverse streaming conditions.
翻訳日:2022-05-16 18:23:57 公開日:2022-05-13
# (参考訳) 韻律リセットを伴う確率環境におけるアップサイドダウン強化学習

Upside-Down Reinforcement Learning Can Diverge in Stochastic Environments With Episodic Resets ( http://arxiv.org/abs/2205.06595v1 )

ライセンス: CC BY 4.0
Miroslav \v{S}trupl, Francesco Faccio, Dylan R. Ashley, J\"urgen Schmidhuber, Rupesh Kumar Srivastava(参考訳) Upside-Down Reinforcement Learning (UDRL)は、価値関数を必要とせず、教師付き学習のみを使用するRL問題を解決するアプローチである。 Goal-Conditional Supervised Learning (GCSL) - UDRLの簡易版と見なすことができる - が目標達成性能の低い境界を最適化することをGhoshらは証明した。 これにより、そのようなアルゴリズムは、特定のよく知られたrlアルゴリズムと同様に、任意の環境における最適ポリシーへの収束を保証できるという期待が高まる。 ここでは、特定のエピソードなUDRLアルゴリズム(eUDRL、GCSLを含む)について、これはそうではなく、この制限の原因であることを示す。 そこで我々はまず,再帰的ポリシー更新としてeUDRLの有用な書き直しを導入する。 この定式化は、幅広い確率的環境に対する最適ポリシーへの収束を阻害するのに役立つ。 最後に、eUDRLが分岐する非常に単純な環境の具体例を示す。 本論文の主な目的は負の結果を示すことであり、最も優れた反例は最も単純なものであるため、全ての議論を有限(離散)環境に限定し、関数近似や限定サンプルサイズの問題を無視している。

Upside-Down Reinforcement Learning (UDRL) is an approach for solving RL problems that does not require value functions and uses only supervised learning, where the targets for given inputs in a dataset do not change over time. Ghosh et al. proved that Goal-Conditional Supervised Learning (GCSL) -- which can be viewed as a simplified version of UDRL -- optimizes a lower bound on goal-reaching performance. This raises expectations that such algorithms may enjoy guaranteed convergence to the optimal policy in arbitrary environments, similar to certain well-known traditional RL algorithms. Here we show that for a specific episodic UDRL algorithm (eUDRL, including GCSL), this is not the case, and give the causes of this limitation. To do so, we first introduce a helpful rewrite of eUDRL as a recursive policy update. This formulation helps to disprove its convergence to the optimal policy for a wide class of stochastic environments. Finally, we provide a concrete example of a very simple environment where eUDRL diverges. Since the primary aim of this paper is to present a negative result, and the best counterexamples are the simplest ones, we restrict all discussions to finite (discrete) environments, ignoring issues of function approximation and limited sample size.
翻訳日:2022-05-16 17:55:43 公開日:2022-05-13
# (参考訳) faststmf: スパースデータに対する効率的な熱帯行列分解アルゴリズム

FastSTMF: Efficient tropical matrix factorization algorithm for sparse data ( http://arxiv.org/abs/2205.06619v1 )

ライセンス: CC BY-SA 4.0
Amra Omanovi\'c, Polona Oblak and Toma\v{z} Curk(参考訳) 行列分解(matrix factorization)は、機械学習で最も一般的な方法の1つで、最近、熱帯セミリングを用いた予測タスクに非線形性を導入することで恩恵を受けている。 非線形性は極値と分布により適合し、標準線型代数で見られるものとは異なる高分散パターンを見つけることができる。 しかし, 種々の熱帯行列分解法の最適化プロセスは遅い。 本研究では,sparse tropical matrix factorization (stmf) に基づく新しいfaststmf法を提案する。 我々は,TCGAデータベースから合成および実遺伝子発現データに対するFastSTMFの有効性を評価し,FastSTMFがSTMFの精度と実行時間の両方で優れていることを示した。 NMFと比較して、FastSTMFはいくつかのデータセットで性能が良く、NMFとして過度に適合する傾向がある。 この研究は、新しい最適化プロセスを用いて、他の多くの半環に基づく他の行列因数分解手法の開発の基礎を定めている。

Matrix factorization, one of the most popular methods in machine learning, has recently benefited from introducing non-linearity in prediction tasks using tropical semiring. The non-linearity enables a better fit to extreme values and distributions, thus discovering high-variance patterns that differ from those found by standard linear algebra. However, the optimization process of various tropical matrix factorization methods is slow. In our work, we propose a new method FastSTMF based on Sparse Tropical Matrix Factorization (STMF), which introduces a novel strategy for updating factor matrices that results in efficient computational performance. We evaluated the efficiency of FastSTMF on synthetic and real gene expression data from the TCGA database, and the results show that FastSTMF outperforms STMF in both accuracy and running time. Compared to NMF, we show that FastSTMF performs better on some datasets and is not prone to overfitting as NMF. This work sets the basis for developing other matrix factorization techniques based on many other semirings using a new proposed optimization process.
翻訳日:2022-05-16 17:38:38 公開日:2022-05-13
# (参考訳) 事前学習多言語モデルを用いた翻訳形式制御

Controlling Translation Formality Using Pre-trained Multilingual Language Models ( http://arxiv.org/abs/2205.06644v1 )

ライセンス: CC BY 4.0
Elijah Rippeth and Sweta Agrawal and Marine Carpuat(参考訳) 本稿では、メリーランド大学が発声言語翻訳の形式性制御に関する特別課題である \iwslt への提案について述べる。 対象言語と形式性の出力を同時に制御することで,この問題に対して \textit{single multilingual model} がどの程度対処できるかを検討する。 その結果、この戦略は、専用翻訳モデルによって達成された翻訳品質と形式制御にアプローチできることを示した。 しかし、基礎となる事前学習言語モデルと微調整サンプルの性質は結果に大きな影響を及ぼす。

This paper describes the University of Maryland's submission to the Special Task on Formality Control for Spoken Language Translation at \iwslt, which evaluates translation from English into 6 languages with diverse grammatical formality markers. We investigate to what extent this problem can be addressed with a \textit{single multilingual model}, simultaneously controlling its output for target language and formality. Results show that this strategy can approach the translation quality and formality control achieved by dedicated translation models. However, the nature of the underlying pre-trained language model and of the finetuning samples greatly impact results.
翻訳日:2022-05-16 17:14:50 公開日:2022-05-13
# (参考訳) 多目的遺伝的変化予測のための局所注意グラフベース変換器

Local Attention Graph-based Transformer for Multi-target Genetic Alteration Prediction ( http://arxiv.org/abs/2205.06672v1 )

ライセンス: CC BY 4.0
Daniel Reisenb\"uchler, Sophia J. Wagner, Melanie Boxberg, Tingying Peng(参考訳) 古典的な多重インスタンス学習(mil)メソッドは、しばしばインスタンス間の同一かつ独立した分散仮定に基づいているため、個々のエンティティを超えて、潜在的に豊富なコンテキスト情報を無視する。 一方,グローバルな自己アテンションモジュールを持つトランスフォーマーは,すべてのインスタンス間の相互依存性をモデル化するために提案されている。 大規模全スライド画像(wsis)において,自己注意を用いたグローバルリレーションモデリングは必要か,あるいは局所的レジームに対する自己注意計算を適切に制限できるか,という疑問を呈する。 任意の大きさの適応的局所環境においてインスタンスを明示的にコンテキスト化することにより,帰納的バイアスを導入する。 さらに、効率よく適応した損失関数により、複数のバイオマーカーの結合解析のための表現型WSI埋め込みを学習することができる。 LA-MILは消化器癌に対する突然変異予測において最先端の結果を得られ,大腸癌に対するマイクロサテライト不安定性などの重要なバイオマーカーの既存モデルよりも優れていた。 このことは、局所自己着在性がグローバルモジュールと同等の依存性を十分にモデル化することを示唆している。 私たちの実装が公開される。

Classical multiple instance learning (MIL) methods are often based on the identical and independent distributed assumption between instances, hence neglecting the potentially rich contextual information beyond individual entities. On the other hand, Transformers with global self-attention modules have been proposed to model the interdependencies among all instances. However, in this paper we question: Is global relation modeling using self-attention necessary, or can we appropriately restrict self-attention calculations to local regimes in large-scale whole slide images (WSIs)? We propose a general-purpose local attention graph-based Transformer for MIL (LA-MIL), introducing an inductive bias by explicitly contextualizing instances in adaptive local regimes of arbitrary size. Additionally, an efficiently adapted loss function enables our approach to learn expressive WSI embeddings for the joint analysis of multiple biomarkers. We demonstrate that LA-MIL achieves state-of-the-art results in mutation prediction for gastrointestinal cancer, outperforming existing models on important biomarkers such as microsatellite instability for colorectal cancer. This suggests that local self-attention sufficiently models dependencies on par with global modules. Our implementation will be published.
翻訳日:2022-05-16 16:59:30 公開日:2022-05-13
# (参考訳) MOPaC: 部分合意を伴う多国間交渉のための多重プロトコル

MOPaC: The Multiple Offers Protocol for Multilateral Negotiations with Partial Consensus ( http://arxiv.org/abs/2205.06678v1 )

ライセンス: CC BY 4.0
Pradeep K. Murukannaiah and Catholijn M. Jonker(参考訳) 多国間交渉のための既存のプロトコルは、交渉当事者間の完全な合意を必要とする。 対照的に、交渉相手のサブセットのみが合意に達することができる部分的なコンセンサスを可能にする多国間交渉のプロトコルを提案する。 我々はそのようなプロトコルを必要とする問題を動機付け、プロトコルを正式に記述する。

Existing protocols for multilateral negotiation require a full consensus among the negotiating parties. In contrast, we propose a protocol for multilateral negotiation that allows partial consensus, wherein only a subset of the negotiating parties can reach an agreement. We motivate problems that require such a protocol and describe the protocol formally.
翻訳日:2022-05-16 16:43:55 公開日:2022-05-13
# (参考訳) ディープフェイク映像検出における時間依存性の効果

The Effectiveness of Temporal Dependency in Deepfake Video Detection ( http://arxiv.org/abs/2205.06684v1 )

ライセンス: CC BY 4.0
Will Rowan and Nick Pears(参考訳) ディープフェイク(deepfakes)は、悪意のある目的のために個人の偽のビデオを生成する合成画像生成の一種である。 得られたビデオは、誤報を広めたり、メディアへの信頼を減らしたり、脅迫の一形態として利用することができる。 これらの脅威はディープフェイクビデオ検出の自動化方法を必要とする。 本稿では,時間的情報がディープラーニングモデルの深度検出性能を向上させるかを検討する。 そこで本研究では,新しいアプローチと既存のアプローチを,その定義特性によって分類するフレームワークを提案する。 これらは自動あるいは手動による機能抽出と、フレーム間の時間的関係:依存または独立である。 このフレームワークを用いて,モデルのディープフェイク検出性能に対する時間依存性の影響を調べる。 時間依存性は,自動特徴選択によるモデルの実像の分類において,統計的に有意な(p < 0.05)増加を生じさせ,時空間情報が深層映像検出モデルの性能を向上させることを示した。

Deepfakes are a form of synthetic image generation used to generate fake videos of individuals for malicious purposes. The resulting videos may be used to spread misinformation, reduce trust in media, or as a form of blackmail. These threats necessitate automated methods of deepfake video detection. This paper investigates whether temporal information can improve the deepfake detection performance of deep learning models. To investigate this, we propose a framework that classifies new and existing approaches by their defining characteristics. These are the types of feature extraction: automatic or manual, and the temporal relationship between frames: dependent or independent. We apply this framework to investigate the effect of temporal dependency on a model's deepfake detection performance. We find that temporal dependency produces a statistically significant (p < 0.05) increase in performance in classifying real images for the model using automatic feature selection, demonstrating that spatio-temporal information can increase the performance of deepfake video detection models.
翻訳日:2022-05-16 16:41:04 公開日:2022-05-13
# (参考訳) インプシットシンクホーンの識別のための統一フレームワーク

A Unified Framework for Implicit Sinkhorn Differentiation ( http://arxiv.org/abs/2205.06688v1 )

ライセンス: CC BY 4.0
Marvin Eisenberger, Aysim Toker, Laura Leal-Taix\'e, Florian Bernard, Daniel Cremers(参考訳) Sinkhorn演算子はコンピュータビジョンや関連分野で最近人気が高まっている。 主な理由は、ディープラーニングフレームワークへの統合が容易であることだ。 本稿では,各ニューラルネットワークの効率的な学習を可能にするために,暗黙的微分によってシンクホーン層の解析勾配を求めるアルゴリズムを提案する。 以前の作業と比較して、このフレームワークはspinhorn演算子の最も一般的な定式化に基づいている。 これはあらゆる種類の損失関数を許容するが、目標容量とコスト行列は共同で区別される。 さらに、近似入力に対する結果アルゴリズムの誤差境界を構築する。 最後に,多くのアプリケーションにおいて,自動微分をアルゴリズムに置き換えれば,得られる勾配の安定性と精度が向上することを示す。 さらに、特にGPUメモリなどのリソースが不足している場合、計算効率が向上することを示す。

The Sinkhorn operator has recently experienced a surge of popularity in computer vision and related fields. One major reason is its ease of integration into deep learning frameworks. To allow for an efficient training of respective neural networks, we propose an algorithm that obtains analytical gradients of a Sinkhorn layer via implicit differentiation. In comparison to prior work, our framework is based on the most general formulation of the Sinkhorn operator. It allows for any type of loss function, while both the target capacities and cost matrices are differentiated jointly. We further construct error bounds of the resulting algorithm for approximate inputs. Finally, we demonstrate that for a number of applications, simply replacing automatic differentiation with our algorithm directly improves the stability and accuracy of the obtained gradients. Moreover, we show that it is computationally more efficient, particularly when resources like GPU memory are scarce.
翻訳日:2022-05-16 16:27:17 公開日:2022-05-13
# (参考訳) ロボットの衣服の折り畳みに関する合成データからキーポイントを学習する

Learning Keypoints from Synthetic Data for Robotic Cloth Folding ( http://arxiv.org/abs/2205.06714v1 )

ライセンス: CC BY 4.0
Thomas Lips, Victor-Louis De Gusseme, Francis wyffels(参考訳) ロボット布の操作はその変形性から困難であり、完全な状態を決定することは不可能である。 しかし、布の折り畳みについては、いくつかの意味キーポイントの位置を知るだけでよい。 畳み込みニューラルネットワーク(CNN)は、これらのキーポイントを検出するために使用できるが、大量の注釈付きデータを必要とするため、収集に費用がかかる。 そこで我々は,これらのキーポイント検出器を合成データから学習し,低コストなデータ収集を実現することを提案する。 本稿では,タオルの画像を手続き的に生成し,それをCNNの訓練に用いる。 本研究では, 片手ロボットにおけるタオルの折り畳み性能を評価し, グリップ成功率は77%, 折り畳み成功率は53%であった。 筆者らは,布の折り畳みや関連タスクの合成データからキーポイント検出器を学習することが,有望な研究方向であり,いくつかの失敗を議論し,今後の課題に関連付けることを結論付けた。 CNNアーキテクチャとトレーニング設定の詳細は、https://github.com/tlpss/workshop-icra-2022-cloth-keypoints.gitにある。

Robotic cloth manipulation is challenging due to its deformability, which makes determining its full state infeasible. However, for cloth folding, it suffices to know the position of a few semantic keypoints. Convolutional neural networks (CNN) can be used to detect these keypoints, but require large amounts of annotated data, which is expensive to collect. To overcome this, we propose to learn these keypoint detectors purely from synthetic data, enabling low-cost data collection. In this paper, we procedurally generate images of towels and use them to train a CNN. We evaluate the performance of this detector for folding towels on a unimanual robot setup and find that the grasp and fold success rates are 77% and 53%, respectively. We conclude that learning keypoint detectors from synthetic data for cloth folding and related tasks is a promising research direction, discuss some failures and relate them to future work. A video of the system, as well as the codebase, more details on the CNN architecture and the training setup can be found at https://github.com/tlpss/workshop-icra-2022-cloth-keypoints.git.
翻訳日:2022-05-16 16:26:17 公開日:2022-05-13
# (参考訳) 非順序データにおける教師なし異常検出のための視覚インスパイアニューラルネットワーク

A Vision Inspired Neural Network for Unsupervised Anomaly Detection in Unordered Data ( http://arxiv.org/abs/2205.06716v1 )

ライセンス: CC BY 4.0
Nassir Mohammad(参考訳) 教師なし機械学習の分野における根本的な問題は、関心の希少かつ異常な観察に対応する異常の検出である。 異常は直感的に、異常または矛盾するものと理解され、その発生がすぐに注意を喚起する。 より形式的な異常は、事前関心の集団化に関して発生を期待する観察に基づく適切な確率変数モデリングであり、パラメータフリーな知覚異常検出アルゴリズムを開発するために、そのような定義と理解が用いられてきた。 本研究は、知覚アルゴリズムが用いたアプローチと、神経生理学と計算神経科学におけるこれまでの数十年の研究、特に網膜および視覚野における情報処理との重要かつ実践的な関係を確立することを目的とする。 このアルゴリズムは、予期せぬ観察を異常として信号する学習を行う教師なしニューラルネットワークのカーネルを形成するニューロンモデルとして概念化されている。 ネットワークとニューロンの表示特性は、即時知性、並列処理、冗長性、大域的劣化、コントラスト不変性、パラメータフリーな計算、動的しきい値、非線形処理を含む生物学的プロセスで観察される。 このネットワークを具体的応用として, 単変量および多変量データの異常検出のための頑健かつ正確なモデルを構築した。

A fundamental problem in the field of unsupervised machine learning is the detection of anomalies corresponding to rare and unusual observations of interest; reasons include for their rejection, accommodation or further investigation. Anomalies are intuitively understood to be something unusual or inconsistent, whose occurrence sparks immediate attention. More formally anomalies are those observations-under appropriate random variable modelling-whose expectation of occurrence with respect to a grouping of prior interest is less than one; such a definition and understanding has been used to develop the parameter-free perception anomaly detection algorithm. The present work seeks to establish important and practical connections between the approach used by the perception algorithm and prior decades of research in neurophysiology and computational neuroscience; particularly that of information processing in the retina and visual cortex. The algorithm is conceptualised as a neuron model which forms the kernel of an unsupervised neural network that learns to signal unexpected observations as anomalies. Both the network and neuron display properties observed in biological processes including: immediate intelligence; parallel processing; redundancy; global degradation; contrast invariance; parameter-free computation, dynamic thresholds and non-linear processing. A robust and accurate model for anomaly detection in univariate and multivariate data is built using this network as a concrete application.
翻訳日:2022-05-16 16:15:36 公開日:2022-05-13
# (参考訳) 間欠的クライアント可用性と時変通信制約下での連合学習

Federated Learning Under Intermittent Client Availability and Time-Varying Communication Constraints ( http://arxiv.org/abs/2205.06730v1 )

ライセンス: CC BY 4.0
Monica Ribero and Haris Vikalo and Gustavo De Veciana(参考訳) フェデレーション学習システムは、潜在的に異種なデータを多数のクライアントに分散する設定において、グローバルモデルのトレーニングを容易にする。 このようなシステムは、断続的なクライアントの可用性および/または時間変化の通信制約を伴う設定で動作する。 その結果、連合学習システムによって訓練されたグローバルモデルは、高可用性のクライアントに偏りが生じる可能性がある。 本稿では,グローバルモデル収束に対するクライアントサンプリング分散の影響を漸近的に最小化し,連合学習の性能を向上させる,可用性依存型クライアント選択戦略を動的に学習する非バイアスアルゴリズムであるf3astを提案する。 提案アルゴリズムは, 間欠的に利用可能なクライアントに対して, 通信制約下での様々な設定で検証し, CIFAR100とシェークスピアデータセットを用いて, 合成データおよび現実的なベンチマーク実験で有効性を示した。 cifar100では186%,fedavgでは8%,fedadamでは8%,シェークスピアでは7%であった。

Federated learning systems facilitate training of global models in settings where potentially heterogeneous data is distributed across a large number of clients. Such systems operate in settings with intermittent client availability and/or time-varying communication constraints. As a result, the global models trained by federated learning systems may be biased towards clients with higher availability. We propose F3AST, an unbiased algorithm that dynamically learns an availability-dependent client selection strategy which asymptotically minimizes the impact of client-sampling variance on the global model convergence, enhancing performance of federated learning. The proposed algorithm is tested in a variety of settings for intermittently available clients under communication constraints, and its efficacy demonstrated on synthetic data and realistically federated benchmarking experiments using CIFAR100 and Shakespeare datasets. We show up to 186% and 8% accuracy improvements over FedAvg, and 8% and 7% over FedAdam on CIFAR100 and Shakespeare, respectively.
翻訳日:2022-05-16 16:14:32 公開日:2022-05-13
# (参考訳) マイナショット学習の包括的調査 : 進化、応用、挑戦、機会

A Comprehensive Survey of Few-shot Learning: Evolution, Applications, Challenges, and Opportunities ( http://arxiv.org/abs/2205.06743v1 )

ライセンス: CC BY 4.0
Yisheng Song, Ting Wang, Subrota K Mondal, Jyoti Prakash Sahoo(参考訳) 効果的な学習方法としてFSL(Few-shot Learning)が登場し,大きな可能性を示している。 FSLタスクに取り組むための最近の創造的な作業にもかかわらず、少数のサンプルから、あるいはゼロのサンプルから有効な情報を素早く学習することは、依然として深刻な課題である。 本研究では,過去3年間に発行されたFSLに関する200以上の最新の論文を網羅的に調査し,FSLの最近の進歩のタイムリーかつ包括的概要と,既存の作品の長所と短所を公平に比較することを目的とした。 概念的混乱を避けるために,我々はまず,少数ショット学習,転帰学習,メタラーニングなど,類似した概念のセットを詳しく比較する。 さらに,FSLの課題に応じて,知識の抽象化レベルに応じて既存の作業を分類する新たな分類法を提案する。 この調査を充実させるために、各節において、これらのトピックに関する最近の進歩に関する詳細な分析と洞察に富んだ議論を提供する。 さらに、コンピュータビジョンを例として、さまざまな研究ホットスポットをカバーするFSLの重要応用を強調した。 最後に,技術進化の傾向に関する独自の知見と今後の研究機会について,フォローアップ研究へのガイダンスの提供を期待する。

Few-shot learning (FSL) has emerged as an effective learning method and shows great potential. Despite the recent creative works in tackling FSL tasks, learning valid information rapidly from just a few or even zero samples still remains a serious challenge. In this context, we extensively investigated 200+ latest papers on FSL published in the past three years, aiming to present a timely and comprehensive overview of the most recent advances in FSL along with impartial comparisons of the strengths and weaknesses of the existing works. For the sake of avoiding conceptual confusion, we first elaborate and compare a set of similar concepts including few-shot learning, transfer learning, and meta-learning. Furthermore, we propose a novel taxonomy to classify the existing work according to the level of abstraction of knowledge in accordance with the challenges of FSL. To enrich this survey, in each subsection we provide in-depth analysis and insightful discussion about recent advances on these topics. Moreover, taking computer vision as an example, we highlight the important application of FSL, covering various research hotspots. Finally, we conclude the survey with unique insights into the technology evolution trends together with potential future research opportunities in the hope of providing guidance to follow-up research.
翻訳日:2022-05-16 15:45:43 公開日:2022-05-13
# (参考訳) ニューラルネットワークを用いた薄肉2次元押出格子の構造と特性関係の検討

Exploring the structure-property relations of thin-walled, 2D extruded lattices using neural networks ( http://arxiv.org/abs/2205.06761v1 )

ライセンス: CC BY 4.0
Junyan He, Shashank Kushwaha, Diab Abueidda, Iwona Jasiuk(参考訳) 本稿では,断面と高さを特徴とする動的縦圧縮下における薄肉格子の構造特性関係について検討する。 これらの関係は、エネルギー吸収を含む機械的応答に関する設計の異なる幾何学的特徴の相互作用を解明する。 我々は,異なる格子設計を生成するための組合せ型キーベース設計システムを提案し,その応答をジョンソン-クック材料モデルでシミュレートするために有限要素法を用いた。 オートエンコーダを用いて、格子の断面画像を潜在設計特徴ベクトルに符号化し、予測を生成するためにニューラルネットワークモデルに供給した。 トレーニングされたモデルはキーベース設計システムにおける格子エネルギー吸収曲線を正確に予測することができ、転送学習を通じてシステム外の新しい設計に拡張することができる。

This paper investigates the structure-property relations of thin-walled lattices under dynamic longitudinal compression, characterized by their cross-sections and heights. These relations elucidate the interactions of different geometric features of a design on mechanical response, including energy absorption. We proposed a combinatorial, key-based design system to generate different lattice designs and used the finite element method to simulate their response with the Johnson-Cook material model. Using an autoencoder, we encoded the cross-sectional images of the lattices into latent design feature vectors, which were supplied to the neural network model to generate predictions. The trained models can accurately predict lattice energy absorption curves in the key-based design system and can be extended to new designs outside of the system via transfer learning.
翻訳日:2022-05-16 15:05:37 公開日:2022-05-13
# (参考訳) EyeDAS:tereoblindness syndromeに対する自律走行車の認識の確保

EyeDAS: Securing Perception of Autonomous Cars Against the Stereoblindness Syndrome ( http://arxiv.org/abs/2205.06765v1 )

ライセンス: CC BY 4.0
Efrat Levy, Ben Nassi, Raz Swissa and Yuval Elovici(参考訳) 物体が2dまたは3dの物体であるかどうかを検知する能力は、運転者、乗客、歩行者などの安全を危険にさらすなど、自動運転において極めて重要である。 2次元物体と3次元物体を区別する手法(例えば、生存度検出法)は、物体に依存したり、自律運転に関連する制約(例えば、車両が動いている最中のリアルタイム意思決定の必要性)を考慮していないため、自律運転には適さない。 本稿では,物体検出装置(OD)をステレオブラインドネス症候群(すなわち,2次元物体と3次元物体を区別できない)の脅威に対して確保することを目的とした,新しい数発学習方式であるEyeDASを提案する。 運転席からダッシュカメラで撮影した7本のYouTubeビデオ映像から2000個のオブジェクトを抽出し,EyeDASのリアルタイム性能を評価する。 対策としてEyeDASを7種類の最先端ODに適用すると、EyeDASは2D誤分類率を71.42-100%から2.4%に下げることができた(TPRは1.0)。 また、EyeDASはベースライン法よりも優れ、0.999以上のAUCと1.0のTPRを0.024のFPRで達成している。

The ability to detect whether an object is a 2D or 3D object is extremely important in autonomous driving, since a detection error can have life-threatening consequences, endangering the safety of the driver, passengers, pedestrians, and others on the road. Methods proposed to distinguish between 2 and 3D objects (e.g., liveness detection methods) are not suitable for autonomous driving, because they are object dependent or do not consider the constraints associated with autonomous driving (e.g., the need for real-time decision-making while the vehicle is moving). In this paper, we present EyeDAS, a novel few-shot learning-based method aimed at securing an object detector (OD) against the threat posed by the stereoblindness syndrome (i.e., the inability to distinguish between 2D and 3D objects). We evaluate EyeDAS's real-time performance using 2,000 objects extracted from seven YouTube video recordings of street views taken by a dash cam from the driver's seat perspective. When applying EyeDAS to seven state-of-the-art ODs as a countermeasure, EyeDAS was able to reduce the 2D misclassification rate from 71.42-100% to 2.4% with a 3D misclassification rate of 0% (TPR of 1.0). We also show that EyeDAS outperforms the baseline method and achieves an AUC of over 0.999 and a TPR of 1.0 with an FPR of 0.024.
翻訳日:2022-05-16 14:51:57 公開日:2022-05-13
# チャネル容量に基づくデータ駆動上界

Data-Driven Upper Bounds on Channel Capacity ( http://arxiv.org/abs/2205.06471v1 )

ライセンス: Link先を確認
Christian H\"ager, Erik Agrell(参考訳) 我々は、未知のチャネル法則と連続出力アルファベットを用いて、メモリレスチャネルの容量の上限を推定する問題を考察する。 入力分布上の最大化をチャネル出力上の参照分布上の最小化に置き換えるキャパシティの二重表現を利用する新しいデータ駆動アルゴリズムを提案する。 条件付きチャネルと基準分布の間の所要のばらつきの最大化を効率的に計算するために、チャネル入力を付加パラメータとして取り込む改良された相互情報ニューラル推定器を用いる。 我々は,異なるメモリレスチャネルに対するアプローチを評価し,推定上界がチャネル容量あるいはよく知られた下界に密接に収束していることを示す。

We consider the problem of estimating an upper bound on the capacity of a memoryless channel with unknown channel law and continuous output alphabet. A novel data-driven algorithm is proposed that exploits the dual representation of capacity where the maximization over the input distribution is replaced with a minimization over a reference distribution on the channel output. To efficiently compute the required divergence maximization between the conditional channel and the reference distribution, we use a modified mutual information neural estimator that takes the channel input as an additional parameter. We evaluate our approach on different memoryless channels and show that the estimated upper bounds closely converge either to the channel capacity or to best-known lower bounds.
翻訳日:2022-05-16 14:38:33 公開日:2022-05-13
# スパイクソーティングアルゴリズムの形式化とハードウェア評価に向けて

Toward A Formalized Approach for Spike Sorting Algorithms and Hardware Evaluation ( http://arxiv.org/abs/2205.06514v1 )

ライセンス: Link先を確認
Tim Zhang, Corey Lammie, Mostafa Rahimi Azghadi, Amirali Amirsoleimani, Majid Ahmadi, Roman Genov(参考訳) スパイク分類アルゴリズムは、神経細胞集団の細胞外記録を単一単位スパイク活動に分離するために用いられる。 スパイクソートアルゴリズムを実装するカスタマイズハードウェアの開発は急成長している。 しかし、ソフトウェアとハードウェア実装の直接比較を容易にするため、体系的なアプローチと標準化された評価基準が欠如している。 本稿では,SSOER (Synthetic Simulations of Extracellular Recordings) と題する,標準化された基準の集合と,SNR (Signal-to-Noise Ratios) の異なる既存の合成データセットを集約して構築した合成データセットを定式化した。 さらに,今後の比較のためのベンチマークを行い,特徴抽出のための離散ウェーブレット変換 (dwt) を用いたシミュレート抵抗ランダムアクセスメモリ (rram) in-memory computing (imc) システムの評価を行う。 約10.72mWを消費し、22nm FDSOI補体金属-酸化物-半導体(CMOS)プロセスにおいて0.66mm$^2$の面積を占める。

Spike sorting algorithms are used to separate extracellular recordings of neuronal populations into single-unit spike activities. The development of customized hardware implementing spike sorting algorithms is burgeoning. However, there is a lack of a systematic approach and a set of standardized evaluation criteria to facilitate direct comparison of both software and hardware implementations. In this paper, we formalize a set of standardized criteria and a publicly available synthetic dataset entitled Synthetic Simulations Of Extracellular Recordings (SSOER), which was constructed by aggregating existing synthetic datasets with varying Signal-To-Noise Ratios (SNRs). Furthermore, we present a benchmark for future comparison, and use our criteria to evaluate a simulated Resistive Random-Access Memory (RRAM) In-Memory Computing (IMC) system using the Discrete Wavelet Transform (DWT) for feature extraction. Our system consumes approximately (per channel) 10.72mW and occupies an area of 0.66mm$^2$ in a 22nm FDSOI Complementary Metal-Oxide-Semiconductor (CMOS) process.
翻訳日:2022-05-16 14:38:22 公開日:2022-05-13
# ACM Multimedia 2022 Computational Paralinguistics Challenge: Vocalisations, Stuttering, Activity, and Mosquitoes

The ACM Multimedia 2022 Computational Paralinguistics Challenge: Vocalisations, Stuttering, Activity, & Mosquitoes ( http://arxiv.org/abs/2205.06799v1 )

ライセンス: Link先を確認
Bj\"orn W. Schuller, Anton Batliner, Shahin Amiriparian, Christian Bergler, Maurice Gerczuk, Natalie Holz, Pauline Larrouy-Maestri, Sebastian P. Bayerl, Korbinian Riedhammer, Adria Mallol-Ragolta, Maria Pateraki, Harry Coppock, Ivan Kiskin, Marianne Sinka, Stephen Roberts(参考訳) acm multimedia 2022 computational paralinguistics challenge(acmマルチメディア2022 計算パラ言語学チャレンジ)は、明確に定義された条件下での研究競争で初めて4つの異なる問題に対処した: 発声と発声サブチャレンジにおいて、人間の非言語的な発声と音声の分類を行う必要があり、アクティビティサブチャレンジは、スマートウォッチのセンサーデータから、音声以外の人間の活動を認識することを目的としており、蚊サブチャレンジでは蚊を検知する必要がある。 本稿では,通常の比較・boaw機能,audeepツールキット,deepspectrumツールキットを用いたcnnからの深層特徴抽出,エンドツーエンドシーケンシャルモデリング,log-mel-128-bnnを用いたサブチャンジ,ベースライン特徴抽出,分類器について述べる。

The ACM Multimedia 2022 Computational Paralinguistics Challenge addresses four different problems for the first time in a research competition under well-defined conditions: In the Vocalisations and Stuttering Sub-Challenges, a classification on human non-verbal vocalisations and speech has to be made; the Activity Sub-Challenge aims at beyond-audio human activity recognition from smartwatch sensor data; and in the Mosquitoes Sub-Challenge, mosquitoes need to be detected. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the usual ComPaRE and BoAW features, the auDeep toolkit, and deep feature extraction from pre-trained CNNs using the DeepSpectRum toolkit; in addition, we add end-to-end sequential modelling, and a log-mel-128-BNN.
翻訳日:2022-05-16 14:38:04 公開日:2022-05-13
# 主エージェント仮説検定

Principal-Agent Hypothesis Testing ( http://arxiv.org/abs/2205.06812v1 )

ライセンス: Link先を確認
Stephen Bates, Michael I. Jordan, Michael Sklar, Jake A. Soloff(参考訳) FDA(プリンシパル)と製薬会社(エージェント)の関係を考える。 製薬会社は利益を上げるために製品を売ることを望んでおり、fdaは有効な薬のみを公に公開することを望んでいる。 この薬の有効性はFDAには分かっていないので、医薬品会社はFDAに効力を示すために費用がかかる裁判を行わなければならない。 批判的に、有効性を確立するために使用される統計プロトコルは、戦略的で利害関係にある製薬会社の行動に影響を与え、より低い統計証拠は、薬局が有効性の低い薬についてより多くの治験を行うように動機づける。 統計プロトコルと製薬会社のインセンティブとの相互作用は、このシステムを理解し、高い社会的ユーティリティでプロトコルを設計する上で不可欠である。 本研究では, 統計的証拠に基づいて, 主役とエージェントが, 支払契約を締結する方法について論じる。 製品の品質に関するより強力な証拠がある場合、プリンシパルはエージェントがより大きな利益を得るのを許可する。 我々は,エージェントの戦略行動にロバストな契約の設計方法を示し,戦略行動が存在する場合に最適な契約を導出する。

Consider the relationship between the FDA (the principal) and a pharmaceutical company (the agent). The pharmaceutical company wishes to sell a product to make a profit, and the FDA wishes to ensure that only efficacious drugs are released to the public. The efficacy of the drug is not known to the FDA, so the pharmaceutical company must run a costly trial to prove efficacy to the FDA. Critically, the statistical protocol used to establish efficacy affects the behavior of a strategic, self-interested pharmaceutical company; a lower standard of statistical evidence incentivizes the pharmaceutical company to run more trials for drugs that are less likely to be effective, since the drug may pass the trial by chance, resulting in large profits. The interaction between the statistical protocol and the incentives of the pharmaceutical company is crucial to understanding this system and designing protocols with high social utility. In this work, we discuss how the principal and agent can enter into a contract with payoffs based on statistical evidence. When there is stronger evidence for the quality of the product, the principal allows the agent to make a larger profit. We show how to design contracts that are robust to an agent's strategic actions, and derive the optimal contract in the presence of strategic behavior.
翻訳日:2022-05-16 14:37:44 公開日:2022-05-13
# (参考訳) マルチエージェント強化学習を用いた無線ネットワークの分散伝送制御

Distributed Transmission Control for Wireless Networks using Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.06800v1 )

ライセンス: CC BY 4.0
Collin Farquhar, Prem Sagar Pattanshetty Vasanth Kumar, Anu Jagannath, Jithin Jagannath(参考訳) 本稿では,複数エージェント強化学習のレンズを通して,分散無線通信ネットワークにおける伝送制御,すなわち送信タイミングの問題について検討する。 送信の制御やスケジューリングに強化学習を用いる作業の多くは集中制御機構を使用しているが、我々のアプローチは完全に分散している。 各送信ノードは独立した強化学習エージェントであり、他のエージェントが行う動作について直接知識を持っていない。 エージェントのサブセットしか一度に送信できない場合を考えると、各エージェントは他のエージェントと協調して行動することを学ぶ必要がある。 エージェントは、特定の数のステップを将来的に送信することを決定できるが、この決定は、他のエージェントと通信されないため、適切なタイミングで送信しようとする個々のエージェントのタスクである。 我々は、異なる行動空間の効果を研究することによって、この協調行動を達成する。 私たちは物理層を知らないので、アプローチは多くの種類のネットワークに適用できます。 このようなアプローチは,独立エージェントによるマルチエージェント強化学習を使用する他のドメインでは有用かもしれない。

We examine the problem of transmission control, i.e., when to transmit, in distributed wireless communications networks through the lens of multi-agent reinforcement learning. Most other works using reinforcement learning to control or schedule transmissions use some centralized control mechanism, whereas our approach is fully distributed. Each transmitter node is an independent reinforcement learning agent and does not have direct knowledge of the actions taken by other agents. We consider the case where only a subset of agents can successfully transmit at a time, so each agent must learn to act cooperatively with other agents. An agent may decide to transmit a certain number of steps into the future, but this decision is not communicated to the other agents, so it the task of the individual agents to attempt to transmit at appropriate times. We achieve this collaborative behavior through studying the effects of different actions spaces. We are agnostic to the physical layer, which makes our approach applicable to many types of networks. We submit that approaches similar to ours may be useful in other domains that use multi-agent reinforcement learning with independent agents.
翻訳日:2022-05-16 14:36:29 公開日:2022-05-13
# HPCシステムにおける計算流体力学の深部強化学習

Deep Reinforcement Learning for Computational Fluid Dynamics on HPC Systems ( http://arxiv.org/abs/2205.06502v1 )

ライセンス: Link先を確認
Marius Kurz, Philipp Offenh\"auser, Dominic Viola, Oleksandr Shcherbakov, Michael Resch, Andrea Beck(参考訳) 強化学習(Reinforcement Learning, RL)は、動的システムの文脈における制御戦略の考案に非常に適している。 そのような力学系の顕著な例は流体力学を支配する方程式系である。 最近の研究結果は、例えば乱流モデリングの分野では、RL強化計算流体力学(CFD)の解法が現在の技術状況を超える可能性があることを示唆している。 しかし、教師付き学習では、トレーニングデータをオフラインで生成することができるが、RLはトレーニング中に一定の実行時インタラクションとCFDソルバとのデータ交換を必要とする。 RL強化CFDのポテンシャルを利用するには、CFDソルバとRLアルゴリズムの相互作用を高速コンピューティング(HPC)ハードウェア上で効率的に実装する必要がある。 そこで本研究では,hpcシステムにおける機械学習ワークフローと最新のcfdソルバとのギャップを埋めるスケーラブルなrlフレームワークとしてrelexiを提案する。 Relexiはモジュール性を考慮して構築されており、SmartSimライブラリが提供するインメモリデータ転送によって、さまざまなHPCソルバを容易に統合することができる。 ここでは、relexiフレームワークが数千のコア上で数百の並列環境にスケールアップできることを実証する。 これにより、最新のHPCリソースを活用して、より大きな問題を有効にするか、ターンアラウンド時間を短縮することができる。 最後に、大規模渦シミュレーションにおいて最適渦粘度選択の制御戦略を見出すことにより、RL強化CFDソルバの可能性を示す。

Reinforcement learning (RL) is highly suitable for devising control strategies in the context of dynamical systems. A prominent instance of such a dynamical system is the system of equations governing fluid dynamics. Recent research results indicate that RL-augmented computational fluid dynamics (CFD) solvers can exceed the current state of the art, for example in the field of turbulence modeling. However, while in supervised learning, the training data can be generated a priori in an offline manner, RL requires constant run-time interaction and data exchange with the CFD solver during training. In order to leverage the potential of RL-enhanced CFD, the interaction between the CFD solver and the RL algorithm thus have to be implemented efficiently on high-performance computing (HPC) hardware. To this end, we present Relexi as a scalable RL framework that bridges the gap between machine learning workflows and modern CFD solvers on HPC systems providing both components with its specialized hardware. Relexi is built with modularity in mind and allows easy integration of various HPC solvers by means of the in-memory data transfer provided by the SmartSim library. Here, we demonstrate that the Relexi framework can scale up to hundreds of parallel environment on thousands of cores. This allows to leverage modern HPC resources to either enable larger problems or faster turnaround times. Finally, we demonstrate the potential of an RL-augmented CFD solver by finding a control strategy for optimal eddy viscosity selection in large eddy simulations.
翻訳日:2022-05-16 14:17:25 公開日:2022-05-13
# 協調的薬物発見:推論レベルのデータ保護の観点から

Collaborative Drug Discovery: Inference-level Data Protection Perspective ( http://arxiv.org/abs/2205.06506v1 )

ライセンス: Link先を確認
Balazs Pejo, Mina Remeli, Adam Arany, Mathieu Galtier, Gergely Acs(参考訳) 製薬業界は、データ資産を活用して、協調機械学習プラットフォームを通じて薬物発見を仮想化することができる。 一方で、参加者のトレーニングデータの意図しない漏洩から生じる無視できないリスクがあるため、そのようなプラットフォームが安全かつプライバシ保護であることは不可欠である。 本稿では,創薬前段階における協調モデリングのためのプライバシーリスク評価について述べる。 最先端の推論攻撃の短い分類の後、いくつかのシナリオを採用およびカスタマイズしました。 最後に、このような攻撃を軽減するために、関連するプライバシー保護技術をいくつか説明し、実験します。

Pharmaceutical industry can better leverage its data assets to virtualize drug discovery through a collaborative machine learning platform. On the other hand, there are non-negligible risks stemming from the unintended leakage of participants' training data, hence, it is essential for such a platform to be secure and privacy-preserving. This paper describes a privacy risk assessment for collaborative modeling in the preclinical phase of drug discovery to accelerate the selection of promising drug candidates. After a short taxonomy of state-of-the-art inference attacks we adopt and customize several to the underlying scenario. Finally we describe and experiments with a handful of relevant privacy protection techniques to mitigate such attacks.
翻訳日:2022-05-16 14:17:03 公開日:2022-05-13
# 加速度計による心停止時の循環状態の分類

Accelerometry-based classification of circulatory states during out-of-hospital cardiac arrest ( http://arxiv.org/abs/2205.06540v1 )

ライセンス: Link先を確認
Wolfgang J. Kern, Simon Orlob, Andreas Bohn, Wolfgang Toller, Jan Wnent, Jan-Thorsten Gr\"asner, Martin Holler(参考訳) 目的: 心停止治療中は, 通常手動による脈拍検査による自然循環の確実な検出が患者の生存に不可欠であり, 実際は困難である。 方法: 実世界の除細動器の4秒間スニペットと心電図データから, 心停止治療中の循環状態を自動予測する機械学習アルゴリズムを開発した。 このアルゴリズムは、ドイツの蘇生登録簿の917件の事例に基づいて訓練され、医師の手作業による注釈によって真理ラベルが作成された。 これは、加速度計と心電図データの相関を部分的に反映した14の特徴に基づくカーネル化されたサポートベクトルマシン分類器を使用する。 結果: テストデータセットでは, 提案アルゴリズムの精度は94.4 (93.6, 95.2)%, 感度は95.0 (93.9, 96.1)%, 特異性は93.9 (92.7, 95.1)%であった。 結論と意義: 応用において, このアルゴリズムは, 質管理のためのふりかえりアノテーションの簡略化や, 心停止治療中の循環状態を臨床医が評価できるように支援するために用いられる。

Objective: During cardiac arrest treatment, a reliable detection of spontaneous circulation, usually performed by manual pulse checks, is both vital for patient survival and practically challenging. Methods: We developed a machine learning algorithm to automatically predict the circulatory state during cardiac arrest treatment from 4-second-long snippets of accelerometry and electrocardiogram data from real-world defibrillator records. The algorithm was trained based on 917 cases from the German Resuscitation Registry, for which ground truth labels were created by a manual annotation of physicians. It uses a kernelized Support Vector Machine classifier based on 14 features, which partially reflect the correlation between accelerometry and electrocardiogram data. Results: On a test data set, the proposed algorithm exhibits an accuracy of 94.4 (93.6, 95.2)%, a sensitivity of 95.0 (93.9, 96.1)%, and a specificity of 93.9 (92.7, 95.1)%. Conclusion and significance: In application, the algorithm may be used to simplify retrospective annotation for quality management and, moreover, to support clinicians to assess circulatory state during cardiac arrest treatment.
翻訳日:2022-05-16 14:16:52 公開日:2022-05-13
# 一般活性化関数とプールを持つディープニューラルネットワークの収束

Convergence of Deep Neural Networks with General Activation Functions and Pooling ( http://arxiv.org/abs/2205.06570v1 )

ライセンス: Link先を確認
Wentao Huang, Yuesheng Xu, Haizhang Zhang(参考訳) 深層ニューラルネットワークは、高次元の複雑な関数を表現する強力なシステムであり、ディープラーニングにおいて重要な役割を果たす。 深層ニューラルネットワークの収束は、ディープラーニングの数学的基礎を構築する上で基本的な問題である。 最近の2つの研究(arXiv:2107.12530, 2109.13542)において、深部ReLUネットワークと深部畳み込みニューラルネットワークの収束について検討した。 そこでは整流線形単位(relu)活性化のみが研究され,重要なプーリング戦略は考慮されなかった。 本研究は, 深部ニューラルネットワークの収束度を, 漏洩ReLUとシグモイド関数の2つの重要な活性化関数に対して無限大となる傾向として検討する。 プールも研究される。 その結果、arXiv:2107.12530, 2109.13542 で確立された十分条件は、漏洩した ReLU ネットワークにはまだ十分であることが証明された。 シグモイド関数のような収縮活性化関数に対して、深部ニューラルネットワークの一様収束のためのより弱い条件を確立する。

Deep neural networks, as a powerful system to represent high dimensional complex functions, play a key role in deep learning. Convergence of deep neural networks is a fundamental issue in building the mathematical foundation for deep learning. We investigated the convergence of deep ReLU networks and deep convolutional neural networks in two recent researches (arXiv:2107.12530, 2109.13542). Only the Rectified Linear Unit (ReLU) activation was studied therein, and the important pooling strategy was not considered. In this current work, we study the convergence of deep neural networks as the depth tends to infinity for two other important activation functions: the leaky ReLU and the sigmoid function. Pooling will also be studied. As a result, we prove that the sufficient condition established in arXiv:2107.12530, 2109.13542 is still sufficient for the leaky ReLU networks. For contractive activation functions such as the sigmoid function, we establish a weaker sufficient condition for uniform convergence of deep neural networks.
翻訳日:2022-05-16 14:16:31 公開日:2022-05-13
# 差分プライベート機械学習におけるアーキテクチャと特徴選択の重要性について

On the Importance of Architecture and Feature Selection in Differentially Private Machine Learning ( http://arxiv.org/abs/2205.06720v1 )

ライセンス: Link先を確認
Wenxuan Bao, Luke A. Bauer, and Vincent Bindschaedler(参考訳) 差分プライベート機械学習の典型的なワークフローにおける落とし穴について検討する。 差分プライベート学習アルゴリズムを"ドロップイン"方式で使用することで、どの機能エンジニアリング操作を使用するか、どの機能を選択するか、ニューラルネットワークアーキテクチャを使用するかを選択した場合、差分プライバシ(DP)ノイズの影響を考慮せずに、過度に複雑でパフォーマンスの悪いモデルが得られる。 言い換えれば、dpノイズの影響を予測すれば、よりシンプルで正確な代替モデルが同じプライバシー保証のために訓練されたことになる。 我々はこの現象を理論と実験を通じて体系的に研究する。 理論面では、説明的枠組みを提供し、差分プライバシーを満たすためのノイズの追加から自然に発生する現象を証明する。 実験では、様々なデータセット、モデルの種類、タスク、ニューラルネットワークアーキテクチャを用いて、実際にこの現象がどのように現れるかを実証する。 また,問題に寄与する要因を分析し,実践者が異なるプライバシを持つトレーニングモデルに従える具体的な知見を抽出した。 最後に,機能選択とニューラルネットワークアーキテクチャ探索のためのプライバシアウェアアルゴリズムを提案する。 それらの差分プライバシー特性を分析し、実証的に評価する。

We study a pitfall in the typical workflow for differentially private machine learning. The use of differentially private learning algorithms in a "drop-in" fashion -- without accounting for the impact of differential privacy (DP) noise when choosing what feature engineering operations to use, what features to select, or what neural network architecture to use -- yields overly complex and poorly performing models. In other words, by anticipating the impact of DP noise, a simpler and more accurate alternative model could have been trained for the same privacy guarantee. We systematically study this phenomenon through theory and experiments. On the theory front, we provide an explanatory framework and prove that the phenomenon arises naturally from the addition of noise to satisfy differential privacy. On the experimental front, we demonstrate how the phenomenon manifests in practice using various datasets, types of models, tasks, and neural network architectures. We also analyze the factors that contribute to the problem and distill our experimental insights into concrete takeaways that practitioners can follow when training models with differential privacy. Finally, we propose privacy-aware algorithms for feature selection and neural network architecture search. We analyze their differential privacy properties and evaluate them empirically.
翻訳日:2022-05-16 14:16:11 公開日:2022-05-13
# 生成逆ネットワークを用いたデータ拡張による天文時系列分類の改善

Improving Astronomical Time-series Classification via Data Augmentation with Generative Adversarial Networks ( http://arxiv.org/abs/2205.06758v1 )

ライセンス: Link先を確認
Germ\'an Garc\'ia-Jara, Pavlos Protopapas and Pablo A. Est\'evez(参考訳) 最新の技術進歩により、大きな空域を持つ望遠鏡は毎晩何百万もの天文警報を発し、迅速かつ自動的に分類しなければならない。 現在、分類は、既存の天体の注釈数と高度にバランスの取れないクラス分布によって性能が制限された教師付き機械学習アルゴリズムで構成されている。 本研究では,可変星から様々な合成光曲線を生成するために,gans(generative adversarial network)に基づくデータ拡張手法を提案する。 Fr'echet Inception Distance が明らかにしていない GAN-overfitting ケースを同定し, 再サンプリング手法と評価指標を用いて, 不均衡データセットにおける生成モデルの品質を評価する。 提案モデルは,カタリーナとズウィッキーの過渡的施設調査から得られた2つのデータセットに適用した。 実データのみを使用する場合において、合成データを用いたトレーニングや実データによるテストにおいて、変光星の分類精度が大幅に向上する。

Due to the latest advances in technology, telescopes with significant sky coverage will produce millions of astronomical alerts per night that must be classified both rapidly and automatically. Currently, classification consists of supervised machine learning algorithms whose performance is limited by the number of existing annotations of astronomical objects and their highly imbalanced class distributions. In this work, we propose a data augmentation methodology based on Generative Adversarial Networks (GANs) to generate a variety of synthetic light curves from variable stars. Our novel contributions, consisting of a resampling technique and an evaluation metric, can assess the quality of generative models in unbalanced datasets and identify GAN-overfitting cases that the Fr\'echet Inception Distance does not reveal. We applied our proposed model to two datasets taken from the Catalina and Zwicky Transient Facility surveys. The classification accuracy of variable stars is improved significantly when training with synthetic data and testing with real data with respect to the case of using only real data.
翻訳日:2022-05-16 14:15:49 公開日:2022-05-13
# (参考訳) 核リッジ回帰の線形構造を超えた鋭い漸近性

Sharp Asymptotics of Kernel Ridge Regression Beyond the Linear Regime ( http://arxiv.org/abs/2205.06798v1 )

ライセンス: CC BY 4.0
Hong Hu and Yue M. Lu(参考訳) kernel ridge regression (krr) の一般化性能は、サンプルサイズ $n$ と基礎となる次元 $d$ とのスケーリング関係に大きく依存する多相パターンを示している。 この現象は、KRR がサンプルサイズが大きくなるにつれて、次々に複雑さを増す関数を学習するという事実によるもので、$d^{k-1}\ll n\ll d^{k}$ の場合、$k$ 未満の多項式のみが学習される。 本稿では, 臨界遷移領域におけるKRRの性能を, $n \asymp d^k$, for $k\in\mathbb{Z}^{+}$で急激な漸近的に評価する。 我々の漸近的特徴は、学習過程全体の正確な画像を提供し、一般化性能に対する様々なパラメータ(カーネル関数の選択を含む)の影響を明らかにする。 特に,krrの学習曲線は,異なる多項式スケーリング系における偏分散トレードオフにより,繊細な「二重降下」挙動を持つことが示された。

The generalization performance of kernel ridge regression (KRR) exhibits a multi-phased pattern that crucially depends on the scaling relationship between the sample size $n$ and the underlying dimension $d$. This phenomenon is due to the fact that KRR sequentially learns functions of increasing complexity as the sample size increases; when $d^{k-1}\ll n\ll d^{k}$, only polynomials with degree less than $k$ are learned. In this paper, we present sharp asymptotic characterization of the performance of KRR at the critical transition regions with $n \asymp d^k$, for $k\in\mathbb{Z}^{+}$. Our asymptotic characterization provides a precise picture of the whole learning process and clarifies the impact of various parameters (including the choice of the kernel function) on the generalization performance. In particular, we show that the learning curves of KRR can have a delicate "double descent" behavior due to specific bias-variance trade-offs at different polynomial scaling regimes.
翻訳日:2022-05-16 14:14:22 公開日:2022-05-13
# 不確実性定量のためのディープカーネル付きハイブリッドデータ駆動物理制約ガウスプロセス回帰フレームワーク

A hybrid data driven-physics constrained Gaussian process regression framework with deep kernel for uncertainty quantification ( http://arxiv.org/abs/2205.06494v1 )

ライセンス: Link先を確認
Cheng Chang and Tieyong Zeng(参考訳) ガウス過程回帰 (GPR) は不確実性定量化 (UQ) などの様々な応用においてよく知られた機械学習手法である。 しかし、GPRは本質的にデータ駆動方式であり、十分に大きなデータセットを必要とする。 適切な物理制約(例えば偏微分方程式で表される)を組み込むことができれば、データの量は大幅に削減され、精度がさらに向上する。 本研究では,ハイブリッドなデータ駆動物理制約付きガウスプロセス回帰フレームワークを提案する。 物理知識をボルツマン・ギブス分布でエンコードし、最大可能性(ML)アプローチでモデルを導出する。 深層カーネル学習法を適用した。 提案モデルは,GPRの共分散関数の一部として機能するディープニューラルネットワークのトレーニングを通じて,データと物理の制約から学習する。 提案モデルでは,高次元問題において良好な結果が得られ,その不確実性を正確に伝播する。

Gaussian process regression (GPR) has been a well-known machine learning method for various applications such as uncertainty quantifications (UQ). However, GPR is inherently a data-driven method, which requires sufficiently large dataset. If appropriate physics constraints (e.g. expressed in partial differential equations) can be incorporated, the amount of data can be greatly reduced and the accuracy further improved. In this work, we propose a hybrid data driven-physics constrained Gaussian process regression framework. We encode the physics knowledge with Boltzmann-Gibbs distribution and derive our model through maximum likelihood (ML) approach. We apply deep kernel learning method. The proposed model learns from both data and physics constraints through the training of a deep neural network, which serves as part of the covariance function in GPR. The proposed model achieves good results in high-dimensional problem, and correctly propagate the uncertainty, with very limited labelled data provided.
翻訳日:2022-05-16 14:11:53 公開日:2022-05-13
# スペクトルドリフト検出による精密変化点検出

Precise Change Point Detection using Spectral Drift Detection ( http://arxiv.org/abs/2205.06507v1 )

ライセンス: Link先を確認
Fabian Hinder, Andr\'e Artelt, Valerie Vaquet, Barbara Hammer(参考訳) 概念ドリフトの概念は、データ生成が時間とともに変化する現象を指しており、結果として機械学習モデルが不正確になり、調整が必要である可能性がある。 本稿では,教師なし学習における変化点検出の問題について考察する。 多くの教師なしのアプローチは、2つの時間窓のサンプル分布のばらつきに依存する。 この手順は小さなウィンドウでうるさいため、偽陽性を誘発する傾向があり、ウィンドウで複数のドリフトイベントを扱うことができない。 本稿では,分布のカーネル埋め込みのスペクトル特性を利用するドリフト誘起信号の構造特性に依存する。 そこで我々は,新しい教師なしドリフト検出アルゴリズムを導出し,その数学的性質を調査し,いくつかの実験でその有用性を示す。

The notion of concept drift refers to the phenomenon that the data generating distribution changes over time; as a consequence machine learning models may become inaccurate and need adjustment. In this paper we consider the problem of detecting those change points in unsupervised learning. Many unsupervised approaches rely on the discrepancy between the sample distributions of two time windows. This procedure is noisy for small windows, hence prone to induce false positives and not able to deal with more than one drift event in a window. In this paper we rely on structural properties of drift induced signals, which use spectral properties of kernel embedding of distributions. Based thereon we derive a new unsupervised drift detection algorithm, investigate its mathematical properties, and demonstrate its usefulness in several experiments.
翻訳日:2022-05-16 14:11:39 公開日:2022-05-13
# DRBM-ClustNet: データクラスタリングのための深い制限付きボルツマン-コホーネンアーキテクチャ

DRBM-ClustNet: A Deep Restricted Boltzmann-Kohonen Architecture for Data Clustering ( http://arxiv.org/abs/2205.06697v1 )

ライセンス: Link先を確認
J. Senthilnath, Nagaraj G, Sumanth Simha C, Sushant Kulkarni, Meenakumari Thapa, Indiramma M, J\'on Atli Benediktsson(参考訳) DRBM-ClustNetと呼ばれるデータクラスタリングのためのベイジアンDeep Restricted Boltzmann-Kohonenアーキテクチャを提案する。 このコアクラスタリングエンジンは、ラベルのないデータを処理するためのDeep Restricted Boltzmann Machine (DRBM) で構成され、非相関性があり、互いに大きなばらつきを持つ新機能を作成する。 次に、ベイズ情報基準(bic)を用いてクラスタ数を予測し、続いてコホーネンネットワークベースのクラスタリング層を用いる。 ラベルなしデータの処理は、非線形分離データセットの効率的なクラスタリングのための3段階で行われる。 最初の段階では、DRBMは$d$次元の特徴ベクトルを$n$次元に投影することにより、非常に複雑なデータ表現をキャプチャすることで非線形特徴抽出を行う。 ほとんどのクラスタリングアルゴリズムは、事前決定すべきクラスタ数を必要とするため、bicを使用する第2ステージのクラスタ数を自動化する。 第3段階では、BICから派生したクラスタの数は、DRBMから得られた特徴抽出データのクラスタリングを行うKohonenネットワークの入力となる。 この方法は、クラスタ数の事前仕様、局所最適収束、非線形データセットでのクラスタリング精度の低下といったクラスタリングアルゴリズムの一般的な欠点を克服する。 本研究では、2つの合成データセット、UCI Machine Learningレポジトリからの15のベンチマークデータセット、DRBM-ClustNetの分析に4つの画像データセットを使用する。 提案手法は,クラスタリングの精度に基づいて評価し,他の最先端クラスタリング手法と比較した。 その結果,DRBM-ClustNetは最先端クラスタリングアルゴリズムよりも優れていた。

A Bayesian Deep Restricted Boltzmann-Kohonen architecture for data clustering termed as DRBM-ClustNet is proposed. This core-clustering engine consists of a Deep Restricted Boltzmann Machine (DRBM) for processing unlabeled data by creating new features that are uncorrelated and have large variance with each other. Next, the number of clusters are predicted using the Bayesian Information Criterion (BIC), followed by a Kohonen Network-based clustering layer. The processing of unlabeled data is done in three stages for efficient clustering of the non-linearly separable datasets. In the first stage, DRBM performs non-linear feature extraction by capturing the highly complex data representation by projecting the feature vectors of $d$ dimensions into $n$ dimensions. Most clustering algorithms require the number of clusters to be decided a priori, hence here to automate the number of clusters in the second stage we use BIC. In the third stage, the number of clusters derived from BIC forms the input for the Kohonen network, which performs clustering of the feature-extracted data obtained from the DRBM. This method overcomes the general disadvantages of clustering algorithms like the prior specification of the number of clusters, convergence to local optima and poor clustering accuracy on non-linear datasets. In this research we use two synthetic datasets, fifteen benchmark datasets from the UCI Machine Learning repository, and four image datasets to analyze the DRBM-ClustNet. The proposed framework is evaluated based on clustering accuracy and ranked against other state-of-the-art clustering methods. The obtained results demonstrate that the DRBM-ClustNet outperforms state-of-the-art clustering algorithms.
翻訳日:2022-05-16 14:11:28 公開日:2022-05-13
# 確実に安全な強化学習:理論的および実験的比較

Provably Safe Reinforcement Learning: A Theoretical and Experimental Comparison ( http://arxiv.org/abs/2205.06750v1 )

ライセンス: Link先を確認
Hanna Krasowski, Jakob Thumm, Marlon M\"uller, Xiao Wang, Matthias Althoff(参考訳) 強化学習(RL)アルゴリズムの安全性の確保は多くの実世界のタスクに不可欠である。 しかし、バニラrlはエージェントの安全性を保証しない。 近年,RLの安全性を保証する手法が提案されている。 我々の知る限りでは、これらの証明可能な安全なRL法を包括的に比較することはできない。 そこで本研究では,既存の有理安全 rl 法を分類し,連続的および離散的作用空間の理論的基礎を提案する。 さらに,逆振り子を用いたRLの評価を行った。 実験では、確実に安全なRL法のみが安全性を保証することが示された。

Ensuring safety of reinforcement learning (RL) algorithms is crucial for many real-world tasks. However, vanilla RL does not guarantee safety for an agent. In recent years, several methods have been proposed to provide safety guarantees for RL. To the best of our knowledge, there is no comprehensive comparison of these provably safe RL methods. We therefore introduce a categorization for existing provably safe RL methods, and present the theoretical foundations for both continuous and discrete action spaces. Additionally, we evaluate provably safe RL on an inverted pendulum. In the experiments, it is shown that indeed only provably safe RL methods guarantee safety.
翻訳日:2022-05-16 14:11:00 公開日:2022-05-13
# 分子グラフのためのエンボディ・シンボリックコントラストグラフ自己教師付き学習

Embodied-Symbolic Contrastive Graph Self-Supervised Learning for Molecular Graphs ( http://arxiv.org/abs/2205.06783v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) Dual embodied-symbolic concept representationsはディープラーニングとシンボリックAI統合の基礎である。 本稿では,分子グラフ表現学習における二重エンボディ・シンボリックな概念表現の活用について論じる。 具体化表現は分子グラフから学び、記号表現は対応する化学知識グラフ(kg)から学習される。 我々はケミカルKGを用いて、記号的(意味的な)知識で分子グラフを強化し、その強化された分子グラフを生成する。 分子グラフとその意味的に拡張された分子グラフを同じ意味クラスの例として扱い、そのペアを例ベースのコントラストSSLにおいて正のペアとして利用する。

Dual embodied-symbolic concept representations are the foundation for deep learning and symbolic AI integration. We discuss the use of dual embodied-symbolic concept representations for molecular graph representation learning, specifically with exemplar-based contrastive self-supervised learning (SSL). The embodied representations are learned from molecular graphs, and the symbolic representations are learned from the corresponding Chemical knowledge graph (KG). We use the Chemical KG to enhance molecular graphs with symbolic (semantic) knowledge and generate their augmented molecular graphs. We treat a molecular graph and its semantically augmented molecular graph as exemplars of the same semantic class, and use the pairs as positive pairs in exemplar-based contrastive SSL.
翻訳日:2022-05-16 14:10:54 公開日:2022-05-13
# 構音障害と高齢者音声認識のためのパーソナライズされたadversarial data augmentation

Personalized Adversarial Data Augmentation for Dysarthric and Elderly Speech Recognition ( http://arxiv.org/abs/2205.06445v1 )

ライセンス: Link先を確認
Zengrui Jin, Mengzhe Geng, Jiajun Deng, Tianzi Wang, Shujie Hu, Guinan Li, Xunying Liu(参考訳) 通常の音声を対象とする自動音声認識(ASR)技術の急速な進歩にもかかわらず、外科的・高齢者的音声の正確な認識はいまだに非常に難しい課題である。 これらのユーザの間で頻繁に見られるモビリティの問題から,ASRシステム開発のための大量のデータ収集は困難である。 この目的のために、データ拡張技術は重要な役割を果たす。 従来のスペクトル輪郭の発話速度や全体形状のみを変化させる既存のデータ拡張技術とは対照的に、新しい話者依存型(sd)生成逆ネットワーク(gan)に基づくデータ拡張アプローチを用いて、老年者および正常者間の精細な分光時間差をモデル化する。 これらは両方を柔軟に許容します a) 平行音声データが利用可能である場合、時間的又は速度的に乱される正常音声スペクトルを、障害のある話者のそれに近いものに修正すること。 b)非並列データの場合,SVDは対象の高齢者話者の音声スペクトルベースの特徴を分解し,時間的ベースと再分解し,最先端のTDNNとコンフォーマーASRシステムトレーニングのための拡張データを生成する。 英語uaspeechとtorgo dysarthric speech corpora、英語認知症バンクpitとカントン語jccocc mocaの高齢者音声データセットの4つのタスクについて実験を行った。 提案したGANベースのデータ拡張アプローチは、TORGOとDementiaBankのデータに対するWER削減をそれぞれ0.91%と3.0%(9.61%と6.4%)まで改善する。 LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。

Despite the rapid progress of automatic speech recognition (ASR) technologies targeting normal speech, accurate recognition of dysarthric and elderly speech remains highly challenging tasks to date. It is difficult to collect large quantities of such data for ASR system development due to the mobility issues often found among these users. To this end, data augmentation techniques play a vital role. In contrast to existing data augmentation techniques only modifying the speaking rate or overall shape of spectral contour, fine-grained spectro-temporal differences between dysarthric, elderly and normal speech are modelled using a novel set of speaker dependent (SD) generative adversarial networks (GAN) based data augmentation approaches in this paper. These flexibly allow both: a) temporal or speed perturbed normal speech spectra to be modified and closer to those of an impaired speaker when parallel speech data is available; and b) for non-parallel data, the SVD decomposed normal speech spectral basis features to be transformed into those of a target elderly speaker before being re-composed with the temporal bases to produce the augmented data for state-of-the-art TDNN and Conformer ASR system training. Experiments are conducted on four tasks: the English UASpeech and TORGO dysarthric speech corpora; the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets. The proposed GAN based data augmentation approaches consistently outperform the baseline speed perturbation method by up to 0.91% and 3.0% absolute (9.61% and 6.4% relative) WER reduction on the TORGO and DementiaBank data respectively. Consistent performance improvements are retained after applying LHUC based speaker adaptation.
翻訳日:2022-05-16 14:08:58 公開日:2022-05-13
# マルチドメインマルチデバイスASRシステムの統一モデリング

Unified Modeling of Multi-Domain Multi-Device ASR Systems ( http://arxiv.org/abs/2205.06655v1 )

ライセンス: Link先を確認
Soumyajit Mitra, Swayambhu Nath Ray, Bharat Padi, Arunasish Sen, Raghavendra Bilgi, Harish Arsikere, Shalini Ghosh, Ajay Srinivasamurthy, Sri Garimella(参考訳) 現代の自動音声認識(ASR)システムは、異なるデバイス間で異なるユーザ発話タイプに対して高い精度を得るために、ドメイン固有のモデルのポートフォリオを使用することが多い。 本稿では、ドメイン埋め込み、ドメインエキスパート、エキスパートの混在、敵の訓練を組み合わせて、異なるドメイン単位のドメインモデルを統一モデルに統合する革新的なアプローチを提案する。 統合モデル全体の正確性に寄与する上で、これらのイノベーションのメリットを示すために、慎重にアブレーション研究を実施しています。 実験の結果,提案手法はドメイン単位のモデルごとに慎重に調整し,パラメータ数がほとんど増加しないベースラインモデルに対して最大10%の相対的なゲインが得られることがわかった。

Modern Automatic Speech Recognition (ASR) systems often use a portfolio of domain-specific models in order to get high accuracy for distinct user utterance types across different devices. In this paper, we propose an innovative approach that integrates the different per-domain per-device models into a unified model, using a combination of domain embedding, domain experts, mixture of experts and adversarial training. We run careful ablation studies to show the benefit of each of these innovations in contributing to the accuracy of the overall unified model. Experiments show that our proposed unified modeling approach actually outperforms the carefully tuned per-domain models, giving relative gains of up to 10% over a baseline model with negligible increase in the number of parameters.
翻訳日:2022-05-16 14:08:25 公開日:2022-05-13
# 拡散MRIにおけるスパース表現にインスパイアされた微細構造推定変換器

A microstructure estimation Transformer inspired by sparse representation for diffusion MRI ( http://arxiv.org/abs/2205.06450v1 )

ライセンス: Link先を確認
Tianshu Zheng, Cong Sun, Weihao Zheng, Wen Shi, Haotian Li, Yi Sun, Yi Zhang, Guangbin Wang, Chuyang Ye, Dan Wu(参考訳) 拡散磁気共鳴イメージング(dMRI)は、複雑で非線形な生体物理モデルに基づく組織微細構造を特徴づける重要なツールである。 ミクロ組織を最適化技術で解くことは、誤差を推定し、q空間に密集したサンプリングを必要とする。 ディープラーニングに基づくアプローチは、これらの制限を克服するために提案されている。 そこで本研究では,トランスフォーマの優れた性能に動機づけられた学習ベースのフレームワーク,すなわち,ダウンサンプリングされたq空間データを用いたdmriに基づく微細構造推定のためのスパース符号化(metsc)を用いた微細構造推定トランスを提案する。 大規模なトレーニングデータ要件の制限に対処しながらTransformerを活用するために,スパースコーディング技術を用いてTransformerにインダクティブバイアス(モデルバイアス)を明示的に導入し,トレーニングプロセスを容易にする。 このようにして、metscは、埋め込みステージ、スパース表現ステージ、マッピングステージの3つのステージで構成される。 埋め込みステージは、voxelが効果的に表現されるように信号を符号化するトランスベース構造である。 スパース表現段階において、反復ハードしきい値(iht)過程を展開するスパース再構成問題を解決することにより辞書を構築する。 マッピングステージは本質的には、重みも学習される正規化辞書係数の重み付き和に基づいて、第2段の出力からミクロ構造パラメータを計算するデコーダである。 我々は,VIM(Intravoxel Incoherent Motion)モデルとNODDI(Neneurite orientationvariance and density imaging)モデルを含む,低サンプリングQ空間データを用いた2つのdMRIモデルについて検討を行った。 提案手法は,最大11.25倍の高速化を実現し,他の最先端学習法を上回った。

Diffusion magnetic resonance imaging (dMRI) is an important tool in characterizing tissue microstructure based on biophysical models, which are complex and highly non-linear. Resolving microstructures with optimization techniques is prone to estimation errors and requires dense sampling in the q-space. Deep learning based approaches have been proposed to overcome these limitations. Motivated by the superior performance of the Transformer, in this work, we present a learning-based framework based on Transformer, namely, a Microstructure Estimation Transformer with Sparse Coding (METSC) for dMRI-based microstructure estimation with downsampled q-space data. To take advantage of the Transformer while addressing its limitation in large training data requirements, we explicitly introduce an inductive bias - model bias into the Transformer using a sparse coding technique to facilitate the training process. Thus, the METSC is composed with three stages, an embedding stage, a sparse representation stage, and a mapping stage. The embedding stage is a Transformer-based structure that encodes the signal to ensure the voxel is represented effectively. In the sparse representation stage, a dictionary is constructed by solving a sparse reconstruction problem that unfolds the Iterative Hard Thresholding (IHT) process. The mapping stage is essentially a decoder that computes the microstructural parameters from the output of the second stage, based on the weighted sum of normalized dictionary coefficients where the weights are also learned. We tested our framework on two dMRI models with downsampled q-space data, including the intravoxel incoherent motion (IVIM) model and the neurite orientation dispersion and density imaging (NODDI) model. The proposed method achieved up to 11.25 folds of acceleration in scan time and outperformed the other state-of-the-art learning-based methods.
翻訳日:2022-05-16 14:08:13 公開日:2022-05-13
# 軽量CNN用スパース方向フィルタ辞書によるブラインド画像の描画

Blind Image Inpainting with Sparse Directional Filter Dictionaries for Lightweight CNNs ( http://arxiv.org/abs/2205.06597v1 )

ライセンス: Link先を確認
Jenny Schmalfuss and Erik Scheurer and Heng Zhao and Nikolaos Karantzas and Andr\'es Bruhn and Demetrio Labate(参考訳) 近年、ディープラーニングアーキテクチャに基づくブラインド塗装アルゴリズムは、画像の品質と実行時間の両方において、モデルベースの手法よりも優れたパフォーマンスを示している。 しかしながら、ニューラルネットワーク戦略には理論的な説明が欠けているのが一般的であり、モデルに基づく手法の根底にあるよく理解された理論とは対照的である。 本研究では、変換領域法とスパース近似から理論的に確立された概念をCNNベースのブラインド画像インペイント手法に統合することにより、両方のアプローチの利点を利用する。 そこで本研究では,線形に要素を重み付け可能なフィルタ辞書を応用した,畳み込みカーネルの学習手法を提案する。 数値実験はこのアプローチの競争力を示す。 その結果,従来のcnnに比べて塗装品質が向上しただけでなく,軽量ネットワーク設計におけるネットワークコンバージェンスも大幅に向上した。

Blind inpainting algorithms based on deep learning architectures have shown a remarkable performance in recent years, typically outperforming model-based methods both in terms of image quality and run time. However, neural network strategies typically lack a theoretical explanation, which contrasts with the well-understood theory underlying model-based methods. In this work, we leverage the advantages of both approaches by integrating theoretically founded concepts from transform domain methods and sparse approximations into a CNN-based approach for blind image inpainting. To this end, we present a novel strategy to learn convolutional kernels that applies a specifically designed filter dictionary whose elements are linearly combined with trainable weights. Numerical experiments demonstrate the competitiveness of this approach. Our results show not only an improved inpainting quality compared to conventional CNNs but also significantly faster network convergence within a lightweight network design.
翻訳日:2022-05-16 14:06:02 公開日:2022-05-13
# スリムなビデオコーデック

Slimmable Video Codec ( http://arxiv.org/abs/2205.06754v1 )

ライセンス: Link先を確認
Zhaocheng Liu, Luis Herranz, Fei Yang, Saiping Zhang, Shuai Wan, Marta Mrak and Marc G\'orriz Blanch(参考訳) ニューラルビデオ圧縮は、トレーニング可能な多層ニューラルネットワークと機械学習を組み合わせた新しいパラダイムとして登場し、競争速度歪み(RD)のパフォーマンスを実現しているが、大きなメモリと計算要求を伴う重いニューラルネットワークアーキテクチャのため、依然として実行不可能である。 さらに、モデルは通常、1つのRDトレードオフに最適化される。 最近のスリム化可能な画像コーデックは、RD性能を損なうことなく、モデル容量を動的に調整し、メモリと計算の要求を適切に低減することができる。 本稿では,スリム化可能なビデオコーデック(SlimVC)を提案し,スリム化可能な時間エントロピーモデルをスリム化可能なオートエンコーダに統合する。 より複雑なアーキテクチャにもかかわらず、スリム化はレート、メモリフットプリント、計算コスト、レイテンシを制御するための強力なメカニズムであり、いずれも実用的なビデオ圧縮の重要な要件であることを示す。

Neural video compression has emerged as a novel paradigm combining trainable multilayer neural networks and machine learning, achieving competitive rate-distortion (RD) performances, but still remaining impractical due to heavy neural architectures, with large memory and computational demands. In addition, models are usually optimized for a single RD tradeoff. Recent slimmable image codecs can dynamically adjust their model capacity to gracefully reduce the memory and computation requirements, without harming RD performance. In this paper we propose a slimmable video codec (SlimVC), by integrating a slimmable temporal entropy model in a slimmable autoencoder. Despite a significantly more complex architecture, we show that slimming remains a powerful mechanism to control rate, memory footprint, computational cost and latency, all being important requirements for practical video compression.
翻訳日:2022-05-16 14:05:47 公開日:2022-05-13
# 物理形ニューラルネットワークのハイパーパラメータチューニング:ヘルムホルツ問題への応用

Hyper-parameter tuning of physics-informed neural networks: Application to Helmholtz problems ( http://arxiv.org/abs/2205.06704v1 )

ライセンス: Link先を確認
Paul Escapil-Inchausp\'e and Gonzalo A. Ruz(参考訳) 物理インフォームドニューラルネットワーク [Raissi et al., J. Comput. Phys. 278 (2019) 686-707] を前方物理問題に適用する。 最適なピン構成を見つけるために,ガウス過程に基づくベイズ最適化によるハイパーパラメータチューニング手順を導入する。 この手順を有界領域のヘルムホルツ問題に適用し、以下の点に注目して徹底的な研究を行う。 (i)演奏 (ii)コロケーションポイント密度$r$および (iii)$\kappa$の頻度で、その方法の適用性と必要性を確認する。 有限要素法との比較を含む2次元および3次元の数値実験を行う。

We consider physics-informed neural networks [Raissi et al., J. Comput. Phys. 278 (2019) 686-707] for forward physical problems. In order to find optimal PINNs configuration, we introduce a hyper-parameter tuning procedure via Gaussian processes-based Bayesian optimization. We apply the procedure to Helmholtz problems for bounded domains and conduct a thorough study, focusing on: (i) performance, (ii) the collocation points density $r$ and (iii) the frequency $\kappa$, confirming the applicability and necessity of the method. Numerical experiments are performed in two and three dimensions, including comparison to finite element methods.
翻訳日:2022-05-16 14:05:09 公開日:2022-05-13
# (参考訳) KG-SP: オープンワールドコンポジションゼロショット学習のための知識ガイド付きシンプルなプリミティブ

KG-SP: Knowledge Guided Simple Primitives for Open World Compositional Zero-Shot Learning ( http://arxiv.org/abs/2205.06784v1 )

ライセンス: CC BY 4.0
Shyamgopal Karthik, Massimiliano Mancini, Zeynep Akata(参考訳) オープンワールド・コンポジションゼロショット・ラーニング(OW-CZSL)の目標は、トレーニング中にサブセットのみを与えられ、未確認のコンポジションに先行しない状態で、画像中の状態とオブジェクトのコンポジションを認識することである。 この設定では、モデルは巨大な出力空間で動作し、可能なすべての状態オブジェクト合成を含む。 従来の研究は合成の埋め込みを共同で学習することでこの問題に対処するが、ここでは単純なCZSLベースラインを再検討し、プリミティブ、すなわち状態とオブジェクトを独立に予測する。 モデルがプリミティブな特徴を開発することを保証するため、状態とオブジェクトの分類器に別個の非線形特徴抽出器を装備する。 さらに, 出力空間から不可能な構成を除去するために, 外部知識を用いて各構成の有効性を推定する。 最後に、トレーニング中にオブジェクトまたは状態ラベルのみを利用可能とし、不足ラベルを推定するために、事前の使用が可能な、新しい設定、すなわち、部分監督下のCZSL(pCZSL)を提案する。 我々のモデルであるKG-SP(Knowledge-Guided Simple Primitives)はOW-CZSLとpCZSLの両方で最先端の技術を達成し、半教師付き学習技術と組み合わせても、近年の競争相手を上回っている。 コードはhttps://github.com/explainableml/kg-sp。

The goal of open-world compositional zero-shot learning (OW-CZSL) is to recognize compositions of state and objects in images, given only a subset of them during training and no prior on the unseen compositions. In this setting, models operate on a huge output space, containing all possible state-object compositions. While previous works tackle the problem by learning embeddings for the compositions jointly, here we revisit a simple CZSL baseline and predict the primitives, i.e. states and objects, independently. To ensure that the model develops primitive-specific features, we equip the state and object classifiers with separate, non-linear feature extractors. Moreover, we estimate the feasibility of each composition through external knowledge, using this prior to remove unfeasible compositions from the output space. Finally, we propose a new setting, i.e. CZSL under partial supervision (pCZSL), where either only objects or state labels are available during training, and we can use our prior to estimate the missing labels. Our model, Knowledge-Guided Simple Primitives (KG-SP), achieves state of the art in both OW-CZSL and pCZSL, surpassing most recent competitors even when coupled with semi-supervised learning techniques. Code available at: https://github.com/ExplainableML/KG-SP.
翻訳日:2022-05-16 14:03:40 公開日:2022-05-13
# 教師なし異常検出と局所化のための自己監督型マスキング

Self-Supervised Masking for Unsupervised Anomaly Detection and Localization ( http://arxiv.org/abs/2205.06568v1 )

ライセンス: Link先を確認
Chaoqin Huang, Qinwei Xu, Yanfeng Wang, Yu Wang, and Ya Zhang(参考訳) 近年,マルチメディアデータの異常検出と局所化が機械学習コミュニティで注目されている。 医療診断や産業的欠陥検出のような現実世界の応用では、異常は画像のごく一部にのみ存在する。 再構成に基づく異常検出アーキテクチャを局所化異常に拡張するため,ランダムマスキングによる自己教師あり学習手法を提案する。 SSMは、塗布ネットワークのトレーニングを強化するだけでなく、推測時のマスク予測の効率を大幅に向上させる。 ランダムマスキングにより、各画像は多様なトレーニング三重奏団に拡張され、オートエンコーダはトレーニング中に様々な大きさのマスクで再構築することができる。 推論における異常検出と局所化の効率と有効性を改善するため,我々は,正常な領域を徐々に発見し,最終的に異常領域を発見できる新しいプログレッシブマスク改良手法を提案する。 提案するssm法は, 異常検出と異常局在の両方において, それぞれ98.3%が網膜oct, 93.9%がmvtec adであった。

Recently, anomaly detection and localization in multimedia data have received significant attention among the machine learning community. In real-world applications such as medical diagnosis and industrial defect detection, anomalies only present in a fraction of the images. To extend the reconstruction-based anomaly detection architecture to the localized anomalies, we propose a self-supervised learning approach through random masking and then restoring, named Self-Supervised Masking (SSM) for unsupervised anomaly detection and localization. SSM not only enhances the training of the inpainting network but also leads to great improvement in the efficiency of mask prediction at inference. Through random masking, each image is augmented into a diverse set of training triplets, thus enabling the autoencoder to learn to reconstruct with masks of various sizes and shapes during training. To improve the efficiency and effectiveness of anomaly detection and localization at inference, we propose a novel progressive mask refinement approach that progressively uncovers the normal regions and finally locates the anomalous regions. The proposed SSM method outperforms several state-of-the-arts for both anomaly detection and anomaly localization, achieving 98.3% AUC on Retinal-OCT and 93.9% AUC on MVTec AD, respectively.
翻訳日:2022-05-16 13:40:31 公開日:2022-05-13
# Open-Eye:AI合成顔の識別で人的パフォーマンスを研究するオープンプラットフォーム

Open-Eye: An Open Platform to Study Human Performance on Identifying AI-Synthesized Faces ( http://arxiv.org/abs/2205.06680v1 )

ライセンス: Link先を確認
Hui Guo, Shu Hu, Xin Wang, Ming-Ching Chang, Siwei Lyu(参考訳) AI合成顔は、実際の顔と区別することが視覚的に難しい。 偽のソーシャルメディアアカウントのプロフィール画像として使われており、社会に悪影響を及ぼしている。 AI合成顔を検出する自動手法の開発は進展しているが、AI合成顔検出の人間のパフォーマンスを研究するためのオープンプラットフォームは存在しない。 本研究では,AI合成顔検出の人的パフォーマンスを研究するために,Open-eyeというオンラインプラットフォームを開発した。 本稿では,オープンアイの設計とワークフローについて述べる。

AI-synthesized faces are visually challenging to discern from real ones. They have been used as profile images for fake social media accounts, which leads to high negative social impacts. Although progress has been made in developing automatic methods to detect AI-synthesized faces, there is no open platform to study the human performance of AI-synthesized faces detection. In this work, we develop an online platform called Open-eye to study the human performance of AI-synthesized face detection. We describe the design and workflow of the Open-eye in this paper.
翻訳日:2022-05-16 13:40:08 公開日:2022-05-13
# オープンセット半教師付き学習における知識蒸留

Knowledge Distillation Meets Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2205.06701v1 )

ライセンス: Link先を確認
Jing Yang, Xiatian Zhu, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos(参考訳) 既存の知識蒸留法は主に教師の予測と中間活性化の蒸留に焦点を当てている。 しかし、深層モデルの最も重要な要素の1つである構造化表現は、概ね見過ごされている。 本研究では,教師から対象学生へ意味論的に表現的知識を蒸留することに特化した,新しい「em \modelname{}} ({\bf\em \shortname{})} 法を提案する。 鍵となる考え方は、教師の分類器を意味的批判として活用し、教師と生徒の両方の表現を評価し、全ての特徴次元の高次構造化情報を用いて意味的知識を蒸留することである。 これは、学生の表現を教師の分類器に渡すことによって計算されるクロスネットワークロジットの概念を導入することで達成される。 さらに,複合的な視点における意味空間の基礎として見受けられるクラスの集合を考えると,広く利用可能な任意のラベルなしのトレーニングデータの有効活用を可能にするために,unseenクラスに \shortname{} をスケールする。 問題レベルでは、これはopen-set semi-supervised learning (ssl) による知識蒸留と興味深い関係を確立する。 大規模実験により, 粗い物体分類と微粒な顔認識タスクにおいて, 従来の最先端の知識蒸留法よりも優れており, 同時に, 事実上重要なバイナリネットワーク蒸留法も少ないことがわかった。 より現実的なオープンセットSSL設定では、既存のOf-Distribution(OOD)サンプル検出よりも知識蒸留の方が一般的に有効であることを明らかにし、提案した‘shortname{}’は以前の蒸留とSSLの競合よりも優れている。 ソースコードは \url{https://github.com/jingyang2017/srd\_ossl} で入手できる。

Existing knowledge distillation methods mostly focus on distillation of teacher's prediction and intermediate activation. However, the structured representation, which arguably is one of the most critical ingredients of deep models, is largely overlooked. In this work, we propose a novel {\em \modelname{}} ({\bf\em \shortname{})} method dedicated for distilling representational knowledge semantically from a pretrained teacher to a target student. The key idea is that we leverage the teacher's classifier as a semantic critic for evaluating the representations of both teacher and student and distilling the semantic knowledge with high-order structured information over all feature dimensions. This is accomplished by introducing a notion of cross-network logit computed through passing student's representation into teacher's classifier. Further, considering the set of seen classes as a basis for the semantic space in a combinatorial perspective, we scale \shortname{} to unseen classes for enabling effective exploitation of largely available, arbitrary unlabeled training data. At the problem level, this establishes an interesting connection between knowledge distillation with open-set semi-supervised learning (SSL). Extensive experiments show that our \shortname{} outperforms significantly previous state-of-the-art knowledge distillation methods on both coarse object classification and fine face recognition tasks, as well as less studied yet practically crucial binary network distillation. Under more realistic open-set SSL settings we introduce, we reveal that knowledge distillation is generally more effective than existing Out-Of-Distribution (OOD) sample detection, and our proposed \shortname{} is superior over both previous distillation and SSL competitors. The source code is available at \url{https://github.com/jingyang2017/SRD\_ossl}.
翻訳日:2022-05-16 13:40:00 公開日:2022-05-13
# カーネル型補間アーキテクチャのパラメータ削減のためのマルチエンコーダネットワーク

Multi-encoder Network for Parameter Reduction of a Kernel-based Interpolation Architecture ( http://arxiv.org/abs/2205.06723v1 )

ライセンス: Link先を確認
Issa Khalifeh, Marc Gorriz Blanch, Ebroul Izquierdo, Marta Mrak(参考訳) ビデオフレーム補間は、既存のフレームから新しいフレームを合成する。 畳み込みニューラルネットワーク(cnns)は、この分野における最近の進歩の最前線にある。 一般的なCNNベースのアプローチの1つは、インプットフレームに生成したカーネルを適用して補間フレームを得ることである。 補間法がもたらすすべての利点にもかかわらず、これらのネットワークの多くは多くのパラメータを必要とする。 モデルのサイズを減らすことは一般的にパフォーマンスに悪影響を及ぼす。 本稿では,一般的なフローレスカーネルネットワーク(Adaptive Collaboration of Flows)のパラメータ削減手法を提案する。 本手法では,最も多くのパラメータを必要とするレイヤを除去し,より小さなエンコーダで置き換えることにより,ネットワークのパラメータ数を削減し,元の手法よりも優れた性能を実現する。 これは、各エンコーダに入力画像から異なる特徴を学習させるローテーションをデプロイすることで実現される。 設計選択を正当化するためにアブレーションを行い,本手法がフル長ビデオでどのように動作するかを評価する。

Video frame interpolation involves the synthesis of new frames from existing ones. Convolutional neural networks (CNNs) have been at the forefront of the recent advances in this field. One popular CNN-based approach involves the application of generated kernels to the input frames to obtain an interpolated frame. Despite all the benefits interpolation methods offer, many of these networks require a lot of parameters, with more parameters meaning a heavier computational burden. Reducing the size of the model typically impacts performance negatively. This paper presents a method for parameter reduction for a popular flow-less kernel-based network (Adaptive Collaboration of Flows). Through our technique of removing the layers that require the most parameters and replacing them with smaller encoders, we reduce the number of parameters of the network and even achieve better performance compared to the original method. This is achieved by deploying rotation to force each individual encoder to learn different features from the input images. Ablations are conducted to justify design choices and an evaluation on how our method performs on full-length videos is presented.
翻訳日:2022-05-16 13:39:29 公開日:2022-05-13
# scribble2d5:scribbleアノテーションによるボリューム画像分割

Scribble2D5: Weakly-Supervised Volumetric Image Segmentation via Scribble Annotations ( http://arxiv.org/abs/2205.06779v1 )

ライセンス: Link先を確認
Qiuhui Chen, Yi Hong(参考訳) 近年,ピクセル/ボクセルレベルでのラベル表示や時間消費に比べて,このようなアノテーションの入手がはるかに容易であるため,スクリブルのような弱いアノテーションを用いた画像分割が注目されている。 しかし、スクリブルには関心領域(ROI)の構造情報がないため、既存のスクリブルベースの手法では境界のローカライゼーションが不十分である。 さらに, 画像スライスに直接適用した場合, ボリューム情報を十分に活用しない2次元画像セグメンテーションのために設計されている。 本稿では,3次元異方性画像セグメンテーションに取り組み,境界予測を改善するスクリブルベースのボリューム画像セグメンテーションScribble2D5を提案する。 これを実現するために,提案するラベル伝搬モジュールを用いて2.5次元アテンションunetを拡張し,スクリブルから意味情報を拡張し,roi境界を学習し形状を定式化する静的境界予測とアクティブ境界予測を組み合わせた。 3つの公開データセットに関する大規模な実験は、Scribble2D5が現在のスクリブルベースのメソッドを大幅に上回っており、完全に教師されたデータセットのパフォーマンスにアプローチしていることを示している。 私たちのコードはオンラインで入手できる。

Recently, weakly-supervised image segmentation using weak annotations like scribbles has gained great attention, since such annotations are much easier to obtain compared to time-consuming and label-intensive labeling at the pixel/voxel level. However, because scribbles lack structure information of region of interest (ROI), existing scribble-based methods suffer from poor boundary localization. Furthermore, most current methods are designed for 2D image segmentation, which do not fully leverage the volumetric information if directly applied to image slices. In this paper, we propose a scribble-based volumetric image segmentation, Scribble2D5, which tackles 3D anisotropic image segmentation and improves boundary prediction. To achieve this, we augment a 2.5D attention UNet with a proposed label propagation module to extend semantic information from scribbles and a combination of static and active boundary prediction to learn ROI's boundary and regularize its shape. Extensive experiments on three public datasets demonstrate Scribble2D5 significantly outperforms current scribble-based methods and approaches the performance of fully-supervised ones. Our code is available online.
翻訳日:2022-05-16 13:37:05 公開日:2022-05-13
# VQFR:ベクトル量子辞書と並列デコーダによるブラインド顔復元

VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel Decoder ( http://arxiv.org/abs/2205.06803v1 )

ライセンス: Link先を確認
Yuchao Gu, Xintao Wang, Liangbin Xie, Chao Dong, Gen Li, Ying Shan, Ming-Ming Cheng(参考訳) 生成的顔前部と幾何学的前部は、最近、目隠し顔の復元に高品質な結果を示しているが、入力に忠実な細かい顔の詳細を作成することは難しい課題である。 古典辞書に基づく手法と最近のベクトル量子化(VQ)技術により,VQに基づく顔復元手法-VQFRを提案する。 vqfrは高品質の顔から抽出した高品質低レベル機能バンクを活用し、リアルな顔詳細を復元するのに役立つ。 しかしながら、VQコードブックの簡単な適用は、忠実な詳細とアイデンティティ保存によって良い結果を得ることはできない。 そこで我々はさらに2つの特別なネットワーク設計を導入する。 1). まず、VQコードブックの圧縮パッチサイズを調査し、適切な圧縮パッチサイズで設計されたVQコードブックが品質と忠実さのバランスをとるために重要であることを確認する。 2). VQコードブックから生成されたリアルな詳細を「汚染」せず、入力から低レベルの特徴をさらに融合させるため、テクスチャデコーダとメインデコーダからなる並列デコーダを提案する。 これら2つのデコーダは、変形可能な畳み込みを伴うテクスチャワープモジュールと対話する。 顔詳細辞書としてのvqコードブックと並列デコーダ設計を備えており、提案するvqfrは、従来の方法に忠実さを維持しつつ、顔詳細の復元品質を大きく向上させることができる。 コードはhttps://github.com/TencentARC/VQFRで入手できる。

Although generative facial prior and geometric prior have recently demonstrated high-quality results for blind face restoration, producing fine-grained facial details faithful to inputs remains a challenging problem. Motivated by the classical dictionary-based methods and the recent vector quantization (VQ) technique, we propose a VQ-based face restoration method -- VQFR. VQFR takes advantage of high-quality low-level feature banks extracted from high-quality faces and can thus help recover realistic facial details. However, the simple application of the VQ codebook cannot achieve good results with faithful details and identity preservation. Therefore, we further introduce two special network designs. 1). We first investigate the compression patch size in the VQ codebook and find that the VQ codebook designed with a proper compression patch size is crucial to balance the quality and fidelity. 2). To further fuse low-level features from inputs while not "contaminating" the realistic details generated from the VQ codebook, we proposed a parallel decoder consisting of a texture decoder and a main decoder. Those two decoders then interact with a texture warping module with deformable convolution. Equipped with the VQ codebook as a facial detail dictionary and the parallel decoder design, the proposed VQFR can largely enhance the restored quality of facial details while keeping the fidelity to previous methods. Codes will be available at https://github.com/TencentARC/VQFR.
翻訳日:2022-05-16 13:36:42 公開日:2022-05-13
# AEON:NLP検査症例の自動評価方法

AEON: A Method for Automatic Evaluation of NLP Test Cases ( http://arxiv.org/abs/2205.06439v1 )

ライセンス: Link先を確認
Jen-tse Huang, Jianping Zhang, Wenxuan Wang, Pinjia He, Yuxin Su, Michael R. Lyu(参考訳) 手動テストオラクル構築の労働集約性のため、自然言語処理(NLP)ソフトウェアの信頼性を高めるために様々な自動テスト技術が提案されている。 理論上、これらのテクニックは既存のテストケース(例えば、ラベル付き文)を変異させ、生成されたものと同じ意味または類似の意味を持ち、したがって同じラベルを持つと仮定する。 しかし、実際には、生成されたテストケースの多くは同様の意味を保たず、不自然な(文法エラーなど)ため、偽のアラーム率が高く、不自然なテストケースにつながる。 評価の結果,最先端(SOTA)アプローチによる検査症例の44%が誤報であることがわかった。 これらのテストケースは広範囲な手動チェック作業を必要とし、NLPソフトウェアを改善する代わりに、モデルトレーニングに使用するとNLPソフトウェアを劣化させることもできる。 そこで本研究では,NLPテストケースの自動評価のためのAEONを提案する。 生成されたテストケースごとに、意味的類似性と言語自然性に基づいてスコアを出力する。 3つの典型的なNLPタスクにまたがる5つのデータセット上で,4つの一般的なテスト手法によって生成されたテストケースを評価するために,AEONを使用している。 その結果,AEONはヒトの判断に最適であることがわかった。 特に、AEONは、セマンティック不整合テストケースの検出において、最高の平均精度を達成し、最高のベースラインメトリックを10%上回る。 さらに、AEONは、不自然なテストケースを見つけるための平均的な精度も高く、ベースラインを15%以上越えている。 さらに、AEONが優先するテストケースによるモデルトレーニングは、より正確で堅牢なモデルをもたらし、AEONがNLPソフトウェアを改善する可能性を示している。

Due to the labor-intensive nature of manual test oracle construction, various automated testing techniques have been proposed to enhance the reliability of Natural Language Processing (NLP) software. In theory, these techniques mutate an existing test case (e.g., a sentence with its label) and assume the generated one preserves an equivalent or similar semantic meaning and thus, the same label. However, in practice, many of the generated test cases fail to preserve similar semantic meaning and are unnatural (e.g., grammar errors), which leads to a high false alarm rate and unnatural test cases. Our evaluation study finds that 44% of the test cases generated by the state-of-the-art (SOTA) approaches are false alarms. These test cases require extensive manual checking effort, and instead of improving NLP software, they can even degrade NLP software when utilized in model training. To address this problem, we propose AEON for Automatic Evaluation Of NLP test cases. For each generated test case, it outputs scores based on semantic similarity and language naturalness. We employ AEON to evaluate test cases generated by four popular testing techniques on five datasets across three typical NLP tasks. The results show that AEON aligns the best with human judgment. In particular, AEON achieves the best average precision in detecting semantic inconsistent test cases, outperforming the best baseline metric by 10%. In addition, AEON also has the highest average precision of finding unnatural test cases, surpassing the baselines by more than 15%. Moreover, model training with test cases prioritized by AEON leads to models that are more accurate and robust, demonstrating AEON's potential in improving NLP software.
翻訳日:2022-05-16 13:36:18 公開日:2022-05-13
# OFEDQIT: 量子化と断続的伝達によるコミュニケーション効率の高いオンラインフェデレーション学習

OFedQIT: Communication-Efficient Online Federated Learning via Quantization and Intermittent Transmission ( http://arxiv.org/abs/2205.06491v1 )

ライセンス: Link先を確認
Jonghwan Park, Dohyeok Kwon, Songnam hong(参考訳) オンラインフェデレーションラーニング(OFL)は,ローカルデータのプライバシを維持しながら,複数のクライアントに送信される分散ストリーミングデータから,一連の非線形関数(あるいはモデル)を協調的に学習する,有望なフレームワークである。 本稿では,オンライン勾配降下法(OGD)をデファクト集約法(FedAvg)に組み込むことにより,まずバニラ法(OedAvg)を構築した。 最適な漸近性能にもかかわらず、OfedAvgは通信オーバーヘッドと長い学習遅延に悩まされている。 これらの欠点に対処するために,確率的量子化と断続的伝送を用いた通信効率の高いOFLアルゴリズム(OFedQIT)を提案する。 我々の主な貢献は、$T$タイムスロットのOfedQITが、任意の実データ(非IIDデータを含む)に対して、最適なサブ線形リセットを$\mathcal{O}(\sqrt{T})$で達成し、通信オーバヘッドを大幅に削減できることを理論的に証明することである。 さらに、ネットワーク内の少数のクライアント(高速な処理時間と高品質の通信チャネル)が一度に参加しても、この最適性は保証される。 分析の結果,OfedQITは優れた学習精度を維持しつつ,OfedAvgの欠点に対処できることがわかった。 実データを用いた実験により,オンライン分類と回帰タスクにおけるアルゴリズムの有効性を実証した。

Online federated learning (OFL) is a promising framework to collaboratively learn a sequence of non-linear functions (or models) from distributed streaming data incoming to multiple clients while keeping the privacy of their local data. In this framework, we first construct a vanilla method (named OFedAvg) by incorporating online gradient descent (OGD) into the de facto aggregation method (named FedAvg). Despite its optimal asymptotic performance, OFedAvg suffers from heavy communication overhead and long learning delay. To tackle these shortcomings, we propose a communication-efficient OFL algorithm (named OFedQIT) by means of a stochastic quantization and an intermittent transmission. Our major contribution is to theoretically prove that OFedQIT over $T$ time slots can achieve an optimal sublinear regret bound $\mathcal{O}(\sqrt{T})$ for any real data (including non-IID data) while significantly reducing the communication overhead. Furthermore, this optimality is still guaranteed even when a small fraction of clients (having faster processing time and high-quality communication channel) in a network are participated at once. Our analysis reveals that OFedQIT successfully addresses the drawbacks of OFedAvg while maintaining superior learning accuracy. Experiments with real datasets demonstrate the effectiveness of our algorithm on various online classification and regression tasks.
翻訳日:2022-05-16 13:35:26 公開日:2022-05-13
# (参考訳) 誰の話だ? 音声翻訳における人名処理

Who Are We Talking About? Handling Person Names in Speech Translation ( http://arxiv.org/abs/2205.06755v1 )

ライセンス: CC BY-SA 4.0
Marco Gaido, Matteo Negri and Marco Turchi(参考訳) 近年の研究では、自動音声認識(ASR)と同様の音声翻訳システム(ST)が、人物名を扱いにくいことが示されている。 この欠点は、入力の意味をひどく歪めるようなエラーにつながるだけでなく、人名のような名前付きエンティティの翻訳が不可欠であるアプリケーションシナリオ(コンピュータによる解釈など)におけるそのようなシステムの採用を妨げます。 本稿では、まずASR/STシステムの出力を分析し、人名転写/翻訳の失敗の原因を特定する。 トレーニングデータの頻度に加えて、対象者の国籍を重要な要因として挙げる。 そして,複数言語モデルの作成によりこの問題を軽減し,さらにstシステムを改良し,書き起こしと翻訳を共同生成させ,前者よりも前者を優先させる。 全体として、我々のソリューションは、3つの言語ペア(en->es,fr,it)に対して平均47.8%のトークンレベルの人物名精度を相対的に向上させる。

Recent work has shown that systems for speech translation (ST) -- similarly to automatic speech recognition (ASR) -- poorly handle person names. This shortcoming does not only lead to errors that can seriously distort the meaning of the input, but also hinders the adoption of such systems in application scenarios (like computer-assisted interpreting) where the translation of named entities, like person names, is crucial. In this paper, we first analyse the outputs of ASR/ST systems to identify the reasons of failures in person name transcription/translation. Besides the frequency in the training data, we pinpoint the nationality of the referred person as a key factor. We then mitigate the problem by creating multilingual models, and further improve our ST systems by forcing them to jointly generate transcripts and translations, prioritising the former over the latter. Overall, our solutions result in a relative improvement in token-level person name accuracy by 47.8% on average for three language pairs (en->es,fr,it).
翻訳日:2022-05-16 13:34:06 公開日:2022-05-13
# 人間の行動のモデリング その1-学習と信念のアプローチ

Modeling Human Behavior Part I -- Learning and Belief Approaches ( http://arxiv.org/abs/2205.06485v1 )

ライセンス: Link先を確認
Andrew Fuchs and Andrea Passarella and Marco Conti(参考訳) 人間の行動をモデル化し理解したいという明確な願望がある。 この話題を扱った研究のトレンドは、人的推論が人的推論の前提であると考える人が多いという明確な仮定を示している。 このように、ゲーム理論、心の理論、機械学習などのトピックはすべて、人間の推論の構成要素とされる概念を統合している。 これらは人間の行動の複製と理解の両方を試みる技術として機能する。 さらに、次世代の自律的で適応的なシステムには、主にAIエージェントと人間がチームとして一緒に働く。 これを可能にするために、自律エージェントは、人間の行動の実用的なモデルを埋め込む能力が必要であり、それは、人間のモデルを「学習」する技術として複製するだけでなく、ユーザーの行動を理解し、行動を予測するために、真の共生で行動することを可能にする。 本論文の主な目的は、人間の行動の定量的モデルを扱う2つの領域における最も重要なアプローチの簡潔かつ体系的なレビューを提供することである。 特に私たちは (一 強化学習等の探索及びフィードバックを通じて行動のモデル又は方針を学ぶ技術 (ii)必ずしも試行錯誤で学習することなく、信念やバイアスといった人間の推論のメカニズムを直接モデル化する。

There is a clear desire to model and comprehend human behavior. Trends in research covering this topic show a clear assumption that many view human reasoning as the presupposed standard in artificial reasoning. As such, topics such as game theory, theory of mind, machine learning, etc. all integrate concepts which are assumed components of human reasoning. These serve as techniques to attempt to both replicate and understand the behaviors of humans. In addition, next generation autonomous and adaptive systems will largely include AI agents and humans working together as teams. To make this possible, autonomous agents will require the ability to embed practical models of human behavior, which allow them not only to replicate human models as a technique to "learn", but to to understand the actions of users and anticipate their behavior, so as to truly operate in symbiosis with them. The main objective of this paper it to provide a succinct yet systematic review of the most important approaches in two areas dealing with quantitative models of human behaviors. Specifically, we focus on (i) techniques which learn a model or policy of behavior through exploration and feedback, such as Reinforcement Learning, and (ii) directly model mechanisms of human reasoning, such as beliefs and bias, without going necessarily learning via trial-and-error.
翻訳日:2022-05-16 13:15:42 公開日:2022-05-13
# 個人化プライバシ決定のための自己認識型パーソナルアシスタント

A Self-aware Personal Assistant for Making Personalized Privacy Decisions ( http://arxiv.org/abs/2205.06544v1 )

ライセンス: Link先を確認
Gonul Ayci, Murat Sensoy, Arzucan \"Ozg\"Ur, Pinar Yolum(参考訳) オンラインソーシャルネットワークのような多くのソフトウェアシステムは、ユーザーが自身の情報を共有することができる。 共有のアクションは単純ですが、プライバシに関する精巧な思考プロセスが必要です。 共有すべきコンテンツごとにこれらについて考えるのは面倒です。 この問題に対処する最近のアプローチは、ユーザが時間とともにプライベートであることを学習し、プライベートやパブリックなどのプライバシラベルを、ユーザが共有を考えている個々のコンテンツに推奨することで、ユーザを支援するパーソナルアシスタントを構築する。 しかし、プライバシーは本質的に曖昧で、非常に個人的なものだ。 プライバシー決定を推奨する既存のアプローチは、プライバシーのこれらの側面に十分対応していない。 理想的には、パーソナルアシスタントはユーザーのプライバシーの理解を考慮して、特定のユーザーに基づいてレコメンデーションを調整できるべきです。 さらに、パーソナルアシスタントは、いつ推薦が不確実になるかを判断し、ユーザが自身で決定を下す必要がある。 そこで本稿では,自明なディープラーニングを用いて,プライバシーラベルに基づくコンテンツ分類を行うパーソナルアシスタントを提案する。 パーソナルアシスタントの重要な特徴は、その決定においてその不確実性を明示的にモデル化し、その答えを知らないと判断し、不確実性が高ければ推薦を控えることである。 リスク要因や自身のラベルなど、ユーザのプライバシに対する自身の理解をファクタリングすることで、パーソナルアシスタントはユーザ毎のレコメンデーションをパーソナライズすることができる。 提案するパーソナルアシスタントをよく知られたデータセットを用いて評価する。 私たちのパーソナルアシスタントは、不確実性のあるケースを正確に識別し、ユーザのニーズに合わせてパーソナライズし、ユーザのプライバシの保護に役立ちます。

Many software systems, such as online social networks enable users to share information about themselves. While the action of sharing is simple, it requires an elaborate thought process on privacy: what to share, with whom to share, and for what purposes. Thinking about these for each piece of content to be shared is tedious. Recent approaches to tackle this problem build personal assistants that can help users by learning what is private over time and recommending privacy labels such as private or public to individual content that a user considers sharing. However, privacy is inherently ambiguous and highly personal. Existing approaches to recommend privacy decisions do not address these aspects of privacy sufficiently. Ideally, a personal assistant should be able to adjust its recommendation based on a given user, considering that user's privacy understanding. Moreover, the personal assistant should be able to assess when its recommendation would be uncertain and let the user make the decision on her own. Accordingly, this paper proposes a personal assistant that uses evidential deep learning to classify content based on its privacy label. An important characteristic of the personal assistant is that it can model its uncertainty in its decisions explicitly, determine that it does not know the answer, and delegate from making a recommendation when its uncertainty is high. By factoring in the user's own understanding of privacy, such as risk factors or own labels, the personal assistant can personalize its recommendations per user. We evaluate our proposed personal assistant using a well-known data set. Our results show that our personal assistant can accurately identify uncertain cases, personalize them to its user's needs, and thus helps users preserve their privacy well.
翻訳日:2022-05-16 13:15:22 公開日:2022-05-13
# 術中手術スキルの映像による評価

Video-based assessment of intraoperative surgical skill ( http://arxiv.org/abs/2205.06416v1 )

ライセンス: Link先を確認
Sanchit Hira, Digvijay Singh, Tae Soo Kim, Shobhit Gupta, Gregory Hager, Shameema Sikder, S. Swaroop Vedula(参考訳) 目的: 本研究の目的は, 手術室における手術技能の映像ベース評価における最先端手法の総合的分析を提供することである。 方法: 白内障手術における重要なステップであるcapsulorhexisの99ビデオのデータセットを用いて,前述した手術スキル評価のための特徴量ベース手法をベンチトップ設定で評価した。 さらに,RGBビデオを用いて直接スキル評価を行う2つの深層学習手法を提案する。 まず,楽器の先端をキーポイントとして予測し,時間的畳み込みニューラルネットワークを用いて外科的スキルを学ぶ。 第2の方法は,フレームワイズエンコーダ(2次元畳み込みニューラルネットワーク)と時間モデル(リカレントニューラルネットワーク)を併用した手術スキル評価のための新しいアーキテクチャを提案する。 5倍のクロスバリデーションにより,各手法における特性曲線,感度,特異性,予測値の操作領域を報告する。 結果:二分的スキル分類(専門対初心者)の課題に対して,ディープニューラルネットワークに基づく手法は従来の時空間的関心点に基づく手法よりも高いAUCを示す。 注意機構を用いたニューラルネットワークアプローチも高い感度と特異性を示した。 結論: 深層学習法は手術室における手術技術の評価に必要である。 注意機構を用いてRGBビデオから直接スキルを評価するネットワークの内部妥当性を,他のデータセットの外部妥当性として評価すべきである。

Purpose: The objective of this investigation is to provide a comprehensive analysis of state-of-the-art methods for video-based assessment of surgical skill in the operating room. Methods: Using a data set of 99 videos of capsulorhexis, a critical step in cataract surgery, we evaluate feature based methods previously developed for surgical skill assessment mostly under benchtop settings. In addition, we present and validate two deep learning methods that directly assess skill using RGB videos. In the first method, we predict instrument tips as keypoints, and learn surgical skill using temporal convolutional neural networks. In the second method, we propose a novel architecture for surgical skill assessment that includes a frame-wise encoder (2D convolutional neural network) followed by a temporal model (recurrent neural network), both of which are augmented by visual attention mechanisms. We report the area under the receiver operating characteristic curve, sensitivity, specificity, and predictive values with each method through 5-fold cross-validation. Results: For the task of binary skill classification (expert vs. novice), deep neural network based methods exhibit higher AUC than the classical spatiotemporal interest point based methods. The neural network approach using attention mechanisms also showed high sensitivity and specificity. Conclusion: Deep learning methods are necessary for video-based assessment of surgical skill in the operating room. Our findings of internal validity of a network using attention mechanisms to assess skill directly using RGB videos should be evaluated for external validity in other data sets.
翻訳日:2022-05-16 13:14:25 公開日:2022-05-13
# FRIH: きめ細かい領域認識画像調和

FRIH: Fine-grained Region-aware Image Harmonization ( http://arxiv.org/abs/2205.06448v1 )

ライセンス: Link先を確認
Jinlong Peng, Zekun Luo, Liang Liu, Boshen Zhang, Tao Wang, Yabiao Wang, Ying Tai, Chengjie Wang, Weiyao Lin(参考訳) イメージ調和は、複合画像の前景と背景をより現実的な外観にすることを目的としている。 既存の手法では前景全体に対して同じ調和処理を行う。 しかし、移植された前景には常に異なる外観パターンがある。 既存のソリューションはすべて、各色ブロックの違いを無視し、特定の詳細を失う。 そこで本稿では,FRIH(Fentral-Aware Image Harmonization)をエンドツーエンドにトレーニングする,新たなグローバルな2段階化フレームワークを提案する。 第1段階では、全入力フォアグラウンドマスクを用いてグローバル粗粒調和を行う。 第2段階では,入力前景マスクを合成画像中の対応する画素RGB値によって複数のサブマスクに適応的にクラスタリングする。 各サブマスクと粗調整画像とをそれぞれ連結して軽量カスケードモジュールに供給し、地域対応の局所的特徴に応じてグローバル調和性能を調整する。 さらに,全てのカスケードデコーダ層の特徴を融合予測モジュールに融合して最終結果を生成することにより,異なる調和度を包括的に活用し,融合予測モジュールの設計を行った。 ベルとホイッスルがなければ、FRIHアルゴリズムは軽量モデルでiHarmony4データセット(PSNRは38.19dB)上で最高の性能を達成する。 我々のモデルのパラメータは11.98mで、既存の方法よりはるかに低い。

Image harmonization aims to generate a more realistic appearance of foreground and background for a composite image. Existing methods perform the same harmonization process for the whole foreground. However, the implanted foreground always contains different appearance patterns. All the existing solutions ignore the difference of each color block and losing some specific details. Therefore, we propose a novel global-local two stages framework for Fine-grained Region-aware Image Harmonization (FRIH), which is trained end-to-end. In the first stage, the whole input foreground mask is used to make a global coarse-grained harmonization. In the second stage, we adaptively cluster the input foreground mask into several submasks by the corresponding pixel RGB values in the composite image. Each submask and the coarsely adjusted image are concatenated respectively and fed into a lightweight cascaded module, adjusting the global harmonization performance according to the region-aware local feature. Moreover, we further designed a fusion prediction module by fusing features from all the cascaded decoder layers together to generate the final result, which could utilize the different degrees of harmonization results comprehensively. Without bells and whistles, our FRIH algorithm achieves the best performance on iHarmony4 dataset (PSNR is 38.19 dB) with a lightweight model. The parameters for our model are only 11.98 M, far below the existing methods.
翻訳日:2022-05-16 13:13:41 公開日:2022-05-13
# FontNet:フォント合成におけるフォントデザイナーのパフォーマンスのギャップを埋める

FontNet: Closing the gap to font designer performance in font synthesis ( http://arxiv.org/abs/2205.06512v1 )

ライセンス: Link先を確認
Ammar Ul Hassan Muhammad, Jaeyoung Choi(参考訳) 手動フォント設計はドメインの専門知識を必要とし、作業集約的で時間のかかる仕事であるため、フォント合成は近年非常に活発な話題となっている。 既存のフォント合成法には、大きな参照画像を持つ未観測フォントスタイルを微調整する必要があるが、最近の数ショットフォント合成法は特定の言語システム用に設計されているか、使用を制限する低解像度の画像で操作されている。 本稿では,組込み空間におけるフォントスタイルを学習することで,このフォント合成問題に取り組む。 そこで本研究では,フォントの類似度の測定値と距離が直接一致する埋め込み空間において,フォントスタイルを分離し,入力画像を所定の観察または観察されていないフォントスタイルに変換するモデルである fontnet を提案する。 さらに,任意の言語システムに適用可能なネットワークアーキテクチャとトレーニング手順を設計し,高解像度フォント画像を生成する。 このアプローチにより,提案手法は質的および定量的実験において,既存の最先端フォント生成手法を上回っている。

Font synthesis has been a very active topic in recent years because manual font design requires domain expertise and is a labor-intensive and time-consuming job. While remarkably successful, existing methods for font synthesis have major shortcomings; they require finetuning for unobserved font style with large reference images, the recent few-shot font synthesis methods are either designed for specific language systems or they operate on low-resolution images which limits their use. In this paper, we tackle this font synthesis problem by learning the font style in the embedding space. To this end, we propose a model, called FontNet, that simultaneously learns to separate font styles in the embedding space where distances directly correspond to a measure of font similarity, and translates input images into the given observed or unobserved font style. Additionally, we design the network architecture and training procedure that can be adopted for any language system and can produce high-resolution font images. Thanks to this approach, our proposed method outperforms the existing state-of-the-art font generation methods on both qualitative and quantitative experiments.
翻訳日:2022-05-16 13:13:21 公開日:2022-05-13
# ビデオ質問応答のための構文ハイパーグラフを用いた意味合成のモデル化

Modeling Semantic Composition with Syntactic Hypergraph for Video Question Answering ( http://arxiv.org/abs/2205.06530v1 )

ライセンス: Link先を確認
Zenan Xu, Wanjun Zhong, Qinliang Su, Zijing Ou and Fuwei Zhang(参考訳) ビデオ質問応答における重要な課題は、テキストの概念と対応する視覚オブジェクト間の相互意味的アライメントを実現する方法である。 既存の手法は主に、単語表現をビデオ領域と整合させようとしている。 しかしながら、単語表現は、一般的に特定の単語の合成によって記述されるテキスト概念の完全な記述を伝達できないことが多い。 この問題に対処するため,本研究では,まず,既成のツールを用いて各質問に対する構文依存ツリーを構築し,意味のある単語合成の抽出を誘導する手法を提案する。 抽出された構成に基づいて、単語をノードとして、合成をハイパーエッジとして見ることで、ハイパーグラフをさらに構築する。 ハイパーグラフ畳み込みネットワーク(HCN)は、単語合成の初期表現を学ぶために使用される。 その後,テキスト空間と視覚的意味空間のクロスモーダル意味アライメントを行うために,最適なトランスポートベース手法を提案する。 クロスモダリティの影響を反映するため、クロスモダリティ情報は初期表現に組み込まれ、クロスモダリティ認識構文hcn(cross-modality-aware syntactic hcn)と呼ばれるモデルに繋がる。 3つのベンチマークによる実験結果から,本手法は強いベースラインよりも優れていた。 さらに分析により,各成分の有効性を実証し,意味的構成の異なるレベルをモデル化し,無関係な情報のフィルタリングに長けていることを示す。

A key challenge in video question answering is how to realize the cross-modal semantic alignment between textual concepts and corresponding visual objects. Existing methods mostly seek to align the word representations with the video regions. However, word representations are often not able to convey a complete description of textual concepts, which are in general described by the compositions of certain words. To address this issue, we propose to first build a syntactic dependency tree for each question with an off-the-shelf tool and use it to guide the extraction of meaningful word compositions. Based on the extracted compositions, a hypergraph is further built by viewing the words as nodes and the compositions as hyperedges. Hypergraph convolutional networks (HCN) are then employed to learn the initial representations of word compositions. Afterwards, an optimal transport based method is proposed to perform cross-modal semantic alignment for the textual and visual semantic space. To reflect the cross-modal influences, the cross-modal information is incorporated into the initial representations, leading to a model named cross-modality-aware syntactic HCN. Experimental results on three benchmarks show that our method outperforms all strong baselines. Further analyses demonstrate the effectiveness of each component, and show that our model is good at modeling different levels of semantic compositions and filtering out irrelevant information.
翻訳日:2022-05-16 13:13:03 公開日:2022-05-13
# (参考訳) マルチエージェント強化学習における創発的bartering行動

Emergent Bartering Behaviour in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.06760v1 )

ライセンス: CC BY 4.0
Michael Bradley Johanson, Edward Hughes, Finbarr Timbers, Joel Z. Leibo(参考訳) 人工知能の進歩は、しばしば現実世界の状況を便利に研究できる形で抽象化する新しい環境の開発に起因している。 本稿は,小学校のミクロ経済学に触発された発想に基づく環境に貢献する。 エージェントは、空間的に複雑な世界でリソースを生産し、互いに取引し、彼らが好むリソースを消費することを学ぶ。 マイクロエコノミクスの需給シフトによって予測される方向において, 創発的な生産, 消費, 価格の挙動が環境条件に応答することを示す。 また,各エージェントの商品に対する創発的価格が空間的に異なる設定を示し,現地の商品の豊富さを反映している。 価格格差が生じた後、一部のエージェントは、価格の異なる地域間で商品を輸送するニッチ(ニッチ)を発見する。 最後に, 一連のアブレーション実験において, 環境報酬, 物々交換行動, エージェント・アーキテクチャ, および販売可能な商品を消費する能力の選択が, この経済行動の出現を助長するか阻害するかについて検討した。 この研究は、シミュレーション社会におけるマルチエージェントインタラクションを通じて人間のような人工知能を構築することを目的とした研究プログラムの環境開発部門の一部である。 初等ミクロ経済学の基礎的な現象が学習から自動的に現れるためには,どのような環境特性が必要かを探索することにより,従来のマルチエージェント強化学習作業と異なる環境に到達した。 例えば、モデルには異質な味覚と身体能力が含まれており、エージェントはコミュニケーションの基盤として互いに交渉する。

Advances in artificial intelligence often stem from the development of new environments that abstract real-world situations into a form where research can be done conveniently. This paper contributes such an environment based on ideas inspired by elementary Microeconomics. Agents learn to produce resources in a spatially complex world, trade them with one another, and consume those that they prefer. We show that the emergent production, consumption, and pricing behaviors respond to environmental conditions in the directions predicted by supply and demand shifts in Microeconomics. We also demonstrate settings where the agents' emergent prices for goods vary over space, reflecting the local abundance of goods. After the price disparities emerge, some agents then discover a niche of transporting goods between regions with different prevailing prices -- a profitable strategy because they can buy goods where they are cheap and sell them where they are expensive. Finally, in a series of ablation experiments, we investigate how choices in the environmental rewards, bartering actions, agent architecture, and ability to consume tradable goods can either aid or inhibit the emergence of this economic behavior. This work is part of the environment development branch of a research program that aims to build human-like artificial general intelligence through multi-agent interactions in simulated societies. By exploring which environment features are needed for the basic phenomena of elementary microeconomics to emerge automatically from learning, we arrive at an environment that differs from those studied in prior multi-agent reinforcement learning work along several dimensions. For example, the model incorporates heterogeneous tastes and physical abilities, and agents negotiate with one another as a grounded form of communication.
翻訳日:2022-05-16 13:12:40 公開日:2022-05-13
# テキスト分類のためのインターロックフリーマルチスペクトル合理化

Interlock-Free Multi-Aspect Rationalization for Text Classification ( http://arxiv.org/abs/2205.06756v1 )

ライセンス: Link先を確認
Shuangqi Li, Diego Antognini, Boi Faltings(参考訳) テキスト分類作業では説明が重要である。 一般的な説明の1つがrationalesであり、これは予測に十分であり、人間にとって意味のある入力テキストのテキストスニペットである。 合理化に関する多くの研究は、選択的合理化フレームワークに基づいており、最近、相互ロックのダイナミクスによって問題になっていることが示されている。 本稿では,複数の出力に対して複数の有理数を生成することを目的としたマルチアスペクト設定におけるインターロック問題に対処する。 より具体的には、より意味論的に多様な理性を生み出すのに役立つ自己教師付きコントラスト損失を付加した多段階学習手法を提案する。 ビールレビューデータセットにおける実験結果から,本手法は合理化性能が著しく向上することが示された。

Explanation is important for text classification tasks. One prevalent type of explanation is rationales, which are text snippets of input text that suffice to yield the prediction and are meaningful to humans. A lot of research on rationalization has been based on the selective rationalization framework, which has recently been shown to be problematic due to the interlocking dynamics. In this paper, we show that we address the interlocking problem in the multi-aspect setting, where we aim to generate multiple rationales for multiple outputs. More specifically, we propose a multi-stage training method incorporating an additional self-supervised contrastive loss that helps to generate more semantically diverse rationales. Empirical results on the beer review dataset show that our method improves significantly the rationalization performance.
翻訳日:2022-05-16 13:10:35 公開日:2022-05-13
# 深層残留ネットワークの収束解析

Convergence Analysis of Deep Residual Networks ( http://arxiv.org/abs/2205.06571v1 )

ライセンス: Link先を確認
Wentao Huang and Haizhang Zhang(参考訳) さまざまな強力なディープニューラルネットワークアーキテクチャは、過去20年におけるディープラーニングのエキサイティングな成功に大きな貢献をした。 中でもDeep Residual Networks(ResNets)は,多くのディープラーニングコンペで優勝し,コンピュータビジョンにおいて大きな有用性を示したことから,特に重要である。 また、ResNetsは、ディープラーニングの発展史において、非常に深いニューラルネットワークの最初のクラスだった。 深い再ネットの収束を理解することは数学的に興味深く、実際的な意味である。 本研究では,ディープResNetの収束度を,ネットワークのパラメータの観点から無限大の傾向を示す。 この目的に向けて,まず,近距離接続を用いた一般深層ニューラルネットワークのマトリックス・ベクトル記述と,アクティベーションドメインとアクティベーション行列の概念を用いてネットワークの明示的な表現を定式化する。 収束は、非平方行列の無限積を含む2つの級数の収束に還元される。 2つの級数の研究により、resnetsのポイントワイズ収束の十分条件が確立される。 我々の結果はResNetsの設計を正当化することができる。 また、機械学習データをベンチマークして結果を検証する実験も行います。

Various powerful deep neural network architectures have made great contribution to the exciting successes of deep learning in the past two decades. Among them, deep Residual Networks (ResNets) are of particular importance because they demonstrated great usefulness in computer vision by winning the first place in many deep learning competitions. Also, ResNets were the first class of neural networks in the development history of deep learning that are really deep. It is of mathematical interest and practical meaning to understand the convergence of deep ResNets. We aim at characterizing the convergence of deep ResNets as the depth tends to infinity in terms of the parameters of the networks. Toward this purpose, we first give a matrix-vector description of general deep neural networks with shortcut connections and formulate an explicit expression for the networks by using the notions of activation domains and activation matrices. The convergence is then reduced to the convergence of two series involving infinite products of non-square matrices. By studying the two series, we establish a sufficient condition for pointwise convergence of ResNets. Our result is able to give justification for the design of ResNets. We also conduct experiments on benchmark machine learning data to verify our results.
翻訳日:2022-05-16 13:10:24 公開日:2022-05-13
# E(3)等変原子中心原子間ポテンシャルの設計空間

The Design Space of E(3)-Equivariant Atom-Centered Interatomic Potentials ( http://arxiv.org/abs/2205.06643v1 )

ライセンス: Link先を確認
Ilyes Batatia, Simon Batzner, D\'avid P\'eter Kov\'acs, Albert Musaelian, Gregor N. C. Simm, Ralf Drautz, Christoph Ortner, Boris Kozinsky, G\'abor Cs\'anyi(参考訳) 過去数年間における機械学習の原子間ポテンシャルの急速な進歩は、多くの新しいアーキテクチャを生み出した。 特に注目すべきは、原子密度ベースの記述子に関する初期のアイデアの多くを統一したAtomic Cluster Expansion (ACE) と、芸術的正確性を示す同変特徴を持つメッセージパッシングニューラルネットワークであるNequIP(Neural Equivariant Interatomic Potentials)である。 本研究では,これらのモデルを統一する数学的枠組みを構築する。ACEは多層アーキテクチャの一層として再キャストできるように一般化される。 別の観点からは、NequIPの線型化バージョンは、はるかに大きな多項式モデルの特別なスパース化として理解される。 私たちのフレームワークは、統一デザイン空間における異なる選択を体系的に探索するための実用的なツールも提供します。 我々は,NequIPをトレーニングデータからかなり離れた領域内および外部領域の精度とスムーズな外挿に着目した一連の実験によってアブレーション研究し,高い精度を達成するために設計選択が重要かを示す。 最後に,より単純化されたNequIPのBOTNet(Body-Ordered-Tensor-Network)を提案する。

The rapid progress of machine learning interatomic potentials over the past couple of years produced a number of new architectures. Particularly notable among these are the Atomic Cluster Expansion (ACE), which unified many of the earlier ideas around atom density-based descriptors, and Neural Equivariant Interatomic Potentials (NequIP), a message passing neural network with equivariant features that showed state of the art accuracy. In this work, we construct a mathematical framework that unifies these models: ACE is generalised so that it can be recast as one layer of a multi-layer architecture. From another point of view, the linearised version of NequIP is understood as a particular sparsification of a much larger polynomial model. Our framework also provides a practical tool for systematically probing different choices in the unified design space. We demonstrate this by an ablation study of NequIP via a set of experiments looking at in- and out-of-domain accuracy and smooth extrapolation very far from the training data, and shed some light on which design choices are critical for achieving high accuracy. Finally, we present BOTNet (Body-Ordered-Tensor-Network), a much-simplified version of NequIP, which has an interpretable architecture and maintains accuracy on benchmark datasets.
翻訳日:2022-05-16 13:07:10 公開日:2022-05-13
# 分散型SGDにおける重機現象

Heavy-Tail Phenomenon in Decentralized SGD ( http://arxiv.org/abs/2205.06689v1 )

ライセンス: Link先を確認
Mert Gurbuzbalaban, Yuanhan Hu, Umut Simsekli, Kun Yuan, Lingjiong Zhu(参考訳) 近年の理論的研究により、ガウスデータによる線形回帰のような驚くほど単純な設定でも「乗法雑音」による確率的最適化において重項が現れることが示されている。 これらの研究はいくつかの興味深い現象を明らかにしているが、現代の機械学習アプリケーションで自然に発生する分散型設定を除外する従来の確率最適化問題を考察している。 本稿では,分散確率勾配降下(de-sgd)におけるヘビーテールの出現と,分散がテール挙動に及ぼす影響について検討する。 まず、各計算ノードの損失関数がコンパクト領域の外側で連続的に微分可能であり、強い凸であるとき、DEC-SGDの法則は多項式的に減衰する(重)尾を持つ分布に収束することを示す。 次に,各ノードにおける損失が二次的である場合について,より明示的な制御を行うために,各ノードのネットワークのステップサイズ,バッチサイズ,および位相特性の関数としてテールインデックスを推定可能であることを示す。 次に,D-SGDが集中型SGDよりも重い尾を持つことを示す理論的,実証的な結果を示す。 また,ノードがデータを分散するが通信しない非分離sgdと比較した。 ネットワーク構造をD-SGD % 加えると、網構造に依存しないSGD よりも軽い、あるいは重い尾を持つ2つのパラメータ(ステップサイズとネットワークサイズ)を同定する。 最後に, 理論的結果を支援するため, 合成データとニューラルネットワークの両方で数値実験を行った。

Recent theoretical studies have shown that heavy-tails can emerge in stochastic optimization due to `multiplicative noise', even under surprisingly simple settings, such as linear regression with Gaussian data. While these studies have uncovered several interesting phenomena, they consider conventional stochastic optimization problems, which exclude decentralized settings that naturally arise in modern machine learning applications. In this paper, we study the emergence of heavy-tails in decentralized stochastic gradient descent (DE-SGD), and investigate the effect of decentralization on the tail behavior. We first show that, when the loss function at each computational node is twice continuously differentiable and strongly convex outside a compact region, the law of the DE-SGD iterates converges to a distribution with polynomially decaying (heavy) tails. To have a more explicit control on the tail exponent, we then consider the case where the loss at each node is a quadratic, and show that the tail-index can be estimated as a function of the step-size, batch-size, and the topological properties of the network of the computational nodes. Then, we provide theoretical and empirical results showing that DE-SGD has heavier tails than centralized SGD. We also compare DE-SGD to disconnected SGD where nodes distribute the data but do not communicate. Our theory uncovers an interesting interplay between the tails and the network structure: we identify two regimes of parameters (stepsize and network size), where DE-SGD %addition of network structure can have lighter or heavier tails than disconnected SGD depending on the regime. Finally, to support our theoretical results, we provide numerical experiments conducted on both synthetic data and neural networks.
翻訳日:2022-05-16 13:06:47 公開日:2022-05-13
# リモートセンシングにおけるハイパースペクトルデータ処理のためのテンソル分解

Tensor Decompositions for Hyperspectral Data Processing in Remote Sensing: A Comprehensive Review ( http://arxiv.org/abs/2205.06407v1 )

ライセンス: Link先を確認
Minghua Wang, Danfeng Hong, Zhu Han, Jiaxin Li, Jing Yao, Lianru Gao, Bing Zhang, Jocelyn Chanussot(参考訳) センサー技術の急速な発展により、ハイパースペクトル(HS)リモートセンシング(RS)イメージングは、航空機、宇宙船、衛星などのデータ取得装置の距離における地球表面の観測と分析のために、かなりの量の空間的およびスペクトル的情報を提供してきた。 近年のHS RS技術の進歩と革命は、HS RSの巨大な取得データを効率的に処理し分析する新たな課題に直面しつつ、様々なアプリケーションの潜在能力を実現する機会を提供する。 3次元HS固有の構造が維持されているため、テンソルの分解は過去数十年にわたってHSデータ処理タスクの幅広い関心や研究を引き起こしている。 本稿では, HSデータ処理における5つの幅広いトピックのコンテキスト化, HS復元, 圧縮センシング, 異常検出, 超解像, スペクトルアンミックスについて, テンソル分解の包括的概要を述べることを目的とする。 それぞれの話題について, hs rs のテンソル分解モデルの顕著な成果について, 既存手法の重要な記述と実験結果に関する代表的展示について詳述する。 その結果、HS RSの実践とテンソルの分解を先進的な先進や深層ニューラルネットワークと組み合わせることで、フォローアップ研究の方向性の残りの課題を概説し、議論する。 本稿では, 異なるテンソル分解に基づくHSデータ処理手法を要約し, 簡単な適用から, アルゴリズム初心者の他の先例との複雑な組み合わせまで, 異なるクラスに分類する。 また、この調査は、テンソル分解とHS RSをある程度理解した経験豊富な研究者に対して、新たな調査と開発動向を提供することができると期待している。

Owing to the rapid development of sensor technology, hyperspectral (HS) remote sensing (RS) imaging has provided a significant amount of spatial and spectral information for the observation and analysis of the Earth's surface at a distance of data acquisition devices, such as aircraft, spacecraft, and satellite. The recent advancement and even revolution of the HS RS technique offer opportunities to realize the full potential of various applications, while confronting new challenges for efficiently processing and analyzing the enormous HS acquisition data. Due to the maintenance of the 3-D HS inherent structure, tensor decomposition has aroused widespread concern and research in HS data processing tasks over the past decades. In this article, we aim at presenting a comprehensive overview of tensor decomposition, specifically contextualizing the five broad topics in HS data processing, and they are HS restoration, compressed sensing, anomaly detection, super-resolution, and spectral unmixing. For each topic, we elaborate on the remarkable achievements of tensor decomposition models for HS RS with a pivotal description of the existing methodologies and a representative exhibition on the experimental results. As a result, the remaining challenges of the follow-up research directions are outlined and discussed from the perspective of the real HS RS practices and tensor decomposition merged with advanced priors and even with deep neural networks. This article summarizes different tensor decomposition-based HS data processing methods and categorizes them into different classes from simple adoptions to complex combinations with other priors for the algorithm beginners. We also expect this survey can provide new investigations and development trends for the experienced researchers who understand tensor decomposition and HS RS to some extent.
翻訳日:2022-05-16 13:06:19 公開日:2022-05-13
# TIE: ウェブページにおけるトポロジカル情報強化構造読解

TIE: Topological Information Enhanced Structural Reading Comprehension on Web Pages ( http://arxiv.org/abs/2205.06435v1 )

ライセンス: Link先を確認
Zihan Zhao, Lu Chen, Ruisheng Cao, Hongshen Xu, Xingyu Chen, and Kai Yu(参考訳) 近年,Webページにおける構造化読解(SRC)タスクが研究の関心を集めている。 以前のSRC作業ではHTMLタグやXPathsといった余分な情報を活用していたが、Webページの情報トポロジは効果的に活用されていない。 本研究では,トークンレベルタスクをタグレベルタスクに変換するTIE(Topological Information Enhanced Model)を提案する。 これに基づいて、TIEはグラフ注意ネットワーク(GAT)と事前学習言語モデル(PLM)を統合し、論理構造と空間構造のトポロジ情報を活用する。 実験の結果,本モデルは強いベースラインを上回り,webベースのsrcベンチマークwebsrcで最先端のパフォーマンスを達成していることがわかった。 TIEのコードはhttps://github.com/X-LANCE/TIEで公開される。

Recently, the structural reading comprehension (SRC) task on web pages has attracted increasing research interests. Although previous SRC work has leveraged extra information such as HTML tags or XPaths, the informative topology of web pages is not effectively exploited. In this work, we propose a Topological Information Enhanced model (TIE), which transforms the token-level task into a tag-level task by introducing a two-stage process (i.e. node locating and answer refining). Based on that, TIE integrates Graph Attention Network (GAT) and Pre-trained Language Model (PLM) to leverage the topological information of both logical structures and spatial structures. Experimental results demonstrate that our model outperforms strong baselines and achieves state-of-the-art performances on the web-based SRC benchmark WebSRC at the time of writing. The code of TIE will be publicly available at https://github.com/X-LANCE/TIE.
翻訳日:2022-05-16 13:05:50 公開日:2022-05-13
# 知識表現学習のためのシンプルで効果的な関係ベース埋め込み伝播

Simple and Effective Relation-based Embedding Propagation for Knowledge Representation Learning ( http://arxiv.org/abs/2205.06456v1 )

ライセンス: Link先を確認
Huijuan Wang, Siming Dai, Weiyue Su, Hui Zhong, Zeyang Fang, Zhengjie Huang, Shikun Feng, Zeyu Chen, Yu Sun, Dianhai Yu(参考訳) リレーショナルグラフニューラルネットワークは、知識グラフ(KG)のグラフコンテキストを符号化するために特に注目を集めている。 小型kgでの競争力は高いが、グラフコンテキストを大規模kgで効率的に活用する方法は未解決の問題である。 そこで本研究では,Relation-based Embedding Propagation (REP)法を提案する。 事前学習されたkg埋め込みをグラフコンテキストに適応させるための後処理技術である。 KG間の関係は指向的であるので、入ってくる頭部コンテキストと出ている尾コンテキストを別々にモデル化する。 したがって,外部パラメータを含まない関係コンテキスト関数を設計する。 さらに、平均化を用いてコンテキスト情報を集約し、REPをより計算効率よくします。 このような設計は伝播中の情報歪みを回避できることを理論的に証明する。 大規模な実験では、REPは予測品質を改善したり維持したりしながら大きなスケーラビリティを持っていることも示している。 特に、OGBL-WikiKG2上の三重項ベースの埋め込みメソッドに対して平均10%の相対的な改善をもたらし、最先端のGC-OTEと同等の結果を得るのに5%-83%の時間を要する。

Relational graph neural networks have garnered particular attention to encode graph context in knowledge graphs (KGs). Although they achieved competitive performance on small KGs, how to efficiently and effectively utilize graph context for large KGs remains an open problem. To this end, we propose the Relation-based Embedding Propagation (REP) method. It is a post-processing technique to adapt pre-trained KG embeddings with graph context. As relations in KGs are directional, we model the incoming head context and the outgoing tail context separately. Accordingly, we design relational context functions with no external parameters. Besides, we use averaging to aggregate context information, making REP more computation-efficient. We theoretically prove that such designs can avoid information distortion during propagation. Extensive experiments also demonstrate that REP has significant scalability while improving or maintaining prediction quality. Notably, it averagely brings about 10% relative improvement to triplet-based embedding methods on OGBL-WikiKG2 and takes 5%-83% time to achieve comparable results as the state-of-the-art GC-OTE.
翻訳日:2022-05-16 13:03:48 公開日:2022-05-13
# 言語モデルからのスーパービジョン信号を用いた弱教師付きテキスト分類

Weakly Supervised Text Classification using Supervision Signals from a Language Model ( http://arxiv.org/abs/2205.06604v1 )

ライセンス: Link先を確認
Ziqian Zeng, Weimin Ni, Tianqing Fang, Xiang Li, Xinran Zhao and Yangqiu Song(参考訳) 人間のアノテーションが不足している現実世界のアプリケーションでは、弱い教師付きでテキスト分類を解くことが重要である。 本稿では,クローゼスタイルのプロンプトでマスク付き言語モデルに問い合わせ,監視信号を得る手法を提案する。 我々は文書自体と「この記事は[MASK]について話している」ことを組み合わせたプロンプトを設計する。 マスク言語モデルは[mask]トークンの単語を生成することができる。 文書の内容を要約した生成された単語を監視信号として利用することができる。 本稿では,生成した単語を予め定義されたカテゴリに関連づける単語分布学習者と,注釈付きデータを用いることなく文書分類器を同時に学習する潜在変数モデルを提案する。 AGNews, 20Newsgroups, UCINewsの3つのデータセットから, 本手法がベースラインを2%, 4%, 3%で上回る結果を得た。

Solving text classification in a weakly supervised manner is important for real-world applications where human annotations are scarce. In this paper, we propose to query a masked language model with cloze style prompts to obtain supervision signals. We design a prompt which combines the document itself and "this article is talking about [MASK]." A masked language model can generate words for the [MASK] token. The generated words which summarize the content of a document can be utilized as supervision signals. We propose a latent variable model to learn a word distribution learner which associates generated words to pre-defined categories and a document classifier simultaneously without using any annotated data. Evaluation on three datasets, AGNews, 20Newsgroups, and UCINews, shows that our method can outperform baselines by 2%, 4%, and 3%.
翻訳日:2022-05-16 13:03:31 公開日:2022-05-13
# LSCDiscovery:スペイン語における意味変化の発見と検出に関する共有タスク

LSCDiscovery: A shared task on semantic change discovery and detection in Spanish ( http://arxiv.org/abs/2205.06691v1 )

ライセンス: Link先を確認
Frank D. Zamora-Reina, Felipe Bravo-Marquez, Dominik Schlechtweg(参考訳) スペイン語における意味的変化の発見と検出に関する最初の共通タスクを提示し,durelフレームワーク(schlechtweg et al., 2018)を用いて,意味的変化を手作業でアノテートしたスペイン語単語のデータセットを作成する。 その仕事は2つの段階に分けられる。 1)段階的変化発見、及び 2)バイナリ変更検出。 新しい言語の導入に加えて、以前のタスクに対する主な新規性は、コーパス内のすべての語彙語の変化を予測し、評価することである。 6チームが第1相と第7相のフェーズ2に参加し、最も優れたシステムは第1相のスピアマンランク相関0.735、第2相のF1スコア0.716を得た。 競合するチームが開発したシステムについて述べ、特に有用であったテクニックを強調し、これらのアプローチの限界について議論する。

We present the first shared task on semantic change discovery and detection in Spanish and create the first dataset of Spanish words manually annotated for semantic change using the DURel framework (Schlechtweg et al., 2018). The task is divided in two phases: 1) Graded Change Discovery, and 2) Binary Change Detection. In addition to introducing a new language the main novelty with respect to the previous tasks consists in predicting and evaluating changes for all vocabulary words in the corpus. Six teams participated in phase 1 and seven teams in phase 2 of the shared task, and the best system obtained a Spearman rank correlation of 0.735 for phase 1 and an F1 score of 0.716 for phase 2. We describe the systems developed by the competing teams, highlighting the techniques that were particularly useful and discuss the limits of these approaches.
翻訳日:2022-05-16 13:03:14 公開日:2022-05-13
# MuCPAD: マルチドメインの中国述語文データセット

MuCPAD: A Multi-Domain Chinese Predicate-Argument Dataset ( http://arxiv.org/abs/2205.06703v1 )

ライセンス: Link先を確認
Yahui Liu and Haoping Yang and Chen Gong and Qingrong Xia and Zhenghua Li and Min Zhang(参考訳) 過去10年間、ニューラルネットワークモデルはドメイン内のセマンティックロールラベリング(SRL)に大きな進歩を遂げてきた。 しかし、ドメイン外設定でパフォーマンスは劇的に低下する。 クロスドメインSRLの研究を容易にするために,6つのドメインから30,897文と92,051述語からなる多ドメイン中国語述語データセット MuCPAD を提案する。 MuCPADには3つの重要な特徴がある。 1)フレームフリーなアノテーション手法に基づき,新しい述語に対する複雑なフレームの記述は避ける。 2) 内容語の省略は多分野の漢文においてユビキタスであることを考慮し, 省略された中核引数を明示的に注釈付けして, より完全な意味構造を復元する。 3) アノテーションガイドライン53ページをコンパイルし,データ品質向上のために厳格なダブルアノテーションを採用する。 本稿では,mucpadのアノテーション方法論とアノテーションプロセスの詳細を説明し,詳細なデータ分析を行う。 また,MUCPADに基づくクロスドメインSRLのベンチマーク結果を示す。

During the past decade, neural network models have made tremendous progress on in-domain semantic role labeling (SRL). However, performance drops dramatically under the out-of-domain setting. In order to facilitate research on cross-domain SRL, this paper presents MuCPAD, a multi-domain Chinese predicate-argument dataset, which consists of 30,897 sentences and 92,051 predicates from six different domains. MuCPAD exhibits three important features. 1) Based on a frame-free annotation methodology, we avoid writing complex frames for new predicates. 2) We explicitly annotate omitted core arguments to recover more complete semantic structure, considering that omission of content words is ubiquitous in multi-domain Chinese texts. 3) We compile 53 pages of annotation guidelines and adopt strict double annotation for improving data quality. This paper describes in detail the annotation methodology and annotation process of MuCPAD, and presents in-depth data analysis. We also give benchmark results on cross-domain SRL based on MuCPAD.
翻訳日:2022-05-16 13:02:56 公開日:2022-05-13
# 事前学習言語モデルの数値推論能力の向上

Improving the Numerical Reasoning Skills of Pretrained Language Models ( http://arxiv.org/abs/2205.06733v1 )

ライセンス: Link先を確認
Dominic Petrak, Nafise Sadat Moosavi, Iryna Gurevych(参考訳) 最先端の事前訓練された言語モデルは、数に対する推論を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。 最近の研究は、(1)一般的なトークン化アルゴリズムが共通語に最適化されているため、数に対する表現性が制限されていること、(2)一般的な事前学習目的が数値推論や理解数字を全く対象としていないこと、の2つの主な理由を指摘している。 最近のアプローチでは、アーキテクチャの変更やモデルをスクラッチから事前トレーニングすることによって、通常はそれらを別々に扱う。 本稿では,アーキテクチャ変更やスクラッチからの事前学習を必要とせずに,両者の欠点を解決するための推論・アウェアプリトレーニングという,新たな拡張プリトレーニング手法を提案する。 コントラスト学習を用いて、すでに訓練済みのモデルに代替数表現を組み込むとともに、推論可能数予測タスクと呼ばれる新しい事前学習目標をトレーニングすることで、数値推論スキルを向上させる。 数値推論を必要とする3つのタスクに対する我々のアプローチを評価する。 (a)ドロップデータセットの理解を読み取ること。 b)InfoTabsデータセットにおける推論オンテーブル、および (c)WikiBioおよびSciGenデータセットのテーブル・ツー・テキスト生成。 DROPとInfoTabsによる結果から,これらのデータセットの精度は9.6ポイント,33.9ポイント向上した。 scigen と wikibio を用いた人間評価の結果,全データセットの事実的正確性が向上した。

State-of-the-art pretrained language models tend to perform below their capabilities when applied out-of-the-box on tasks that require reasoning over numbers. Recent work sees two main reasons for this: (1) popular tokenisation algorithms are optimized for common words, and therefore have limited expressiveness for numbers, and (2) common pretraining objectives do not target numerical reasoning or understanding numbers at all. Recent approaches usually address them separately and mostly by proposing architectural changes or pretraining models from scratch. In this paper, we propose a new extended pretraining approach called reasoning-aware pretraining to jointly address both shortcomings without requiring architectural changes or pretraining from scratch. Using contrastive learning, our approach incorporates an alternative number representation into an already pretrained model, while improving its numerical reasoning skills by training on a novel pretraining objective called inferable number prediction task. We evaluate our approach on three different tasks that require numerical reasoning, including (a) reading comprehension in the DROP dataset, (b) inference-on-tables in the InfoTabs dataset, and (c) table-to-text generation in WikiBio and SciGen datasets. Our results on DROP and InfoTabs show that our approach improves the accuracy by 9.6 and 33.9 points on these datasets, respectively. Our human evaluation on SciGen and WikiBio shows that our approach improves the factual correctness on all datasets.
翻訳日:2022-05-16 13:02:40 公開日:2022-05-13
# 人間の行動のモデル化 その2 --認知的アプローチと不確かさ

Modeling Human Behavior Part II -- Cognitive approaches and Uncertainty ( http://arxiv.org/abs/2205.06483v1 )

ライセンス: Link先を確認
Andrew Fuchs and Andrea Passarella and Marco Conti(参考訳) このトピックの第1部で論じたように、人間の行動をモデル化し理解したいという明確な願望があります。 学習と意思決定の標準としての人間の推論の一般的な前提を考えると、これらの生来の人間の能力を人工的なシステムで再現する研究の多大な努力と成長傾向がある。 第1部では,システムの探索から行動モデルを生成する学習手法と,その提示された行動に基づくフィードバックと,適用可能なスキルや他者の精神状態に対する信念の使用や説明に関する話題について議論した。 本研究は,人間の推論で示される認知能力,限界,バイアスに着目した手法の観点から議論を継続する。 これらのトピックを次のように整理します。 (i)認知的アーキテクチャ、認知的ヒューリスティックス、および認知的資源に対する制限の仮定とそれが意思決定にどのように影響するかを示す関連方法 二 偏見又は不確実性の表現を生成して活用し、人間の意思決定又は将来の意思決定の結果をモデル化する方法。

As we discussed in Part I of this topic, there is a clear desire to model and comprehend human behavior. Given the popular presupposition of human reasoning as the standard for learning and decision-making, there have been significant efforts and a growing trend in research to replicate these innate human abilities in artificial systems. In Part I, we discussed learning methods which generate a model of behavior from exploration of the system and feedback based on the exhibited behavior as well as topics relating to the use of or accounting for beliefs with respect to applicable skills or mental states of others. In this work, we will continue the discussion from the perspective of methods which focus on the assumed cognitive abilities, limitations, and biases demonstrated in human reasoning. We will arrange these topics as follows (i) methods such as cognitive architectures, cognitive heuristics, and related which demonstrate assumptions of limitations on cognitive resources and how that impacts decisions and (ii) methods which generate and utilize representations of bias or uncertainty to model human decision-making or the future outcomes of decisions.
翻訳日:2022-05-16 13:02:16 公開日:2022-05-13
# (参考訳) 複数のドメイン因果ネットワーク

Multiple Domain Causal Networks ( http://arxiv.org/abs/2205.06791v1 )

ライセンス: CC BY 4.0
Tianhui Zhou, William E. Carson IV, Michael Hunter Klein, David Carlson(参考訳) 観察研究はランダム化試験の経済的代替品と見なされ、治療効果の調査や判定にしばしば使用される。 サンプルサイズが不足しているため、観測研究は通常、複数のソースまたは異なるサイト/センターからのデータを結合する。 サンプルサイズの増大にもかかわらず、多中心データの単純な組み合わせは、特定の中心とは異なる治療に対するコホートや反応を生成するセンター固有のプロトコルから生じる矛盾をもたらす可能性がある。 これらの問題は、個人の独特な生物学的特徴に関連する治療効果を捉えることを含む、様々な文脈で発生する。 既存の不均質な処理効果を推定する方法は多施設の文脈に十分対応していないが、単に十分なサンプルサイズを得るための手段として扱う。 さらに、治療効果を推定するための従来のアプローチは、特に新しい未観察センターから患者に治療の洞察を提供するために必要な場合、マルチセンター設計に直接一般化するものではない。 このような欠点に対処するため,複数ドメイン因果ネットワーク (MDCN) を提案する。これは,特徴埋め込みの学習を通じて,治療課題における選択バイアスに対処しながら,類似中心間の情報共有を同時に強化するアプローチである。 経験的評価では、MDCNは、治療不均衡や一般的なセンター差のみに基づいて調整されるベンチマークと比較して、新しいセンターにおける不均一な治療効果を推定するときに一貫して正確である。 最後に、MDCNが新しい観測対象中心の一般化境界を改善することを示す理論的解析を提供することにより、我々のアプローチを正当化する。

Observational studies are regarded as economic alternatives to randomized trials, often used in their stead to investigate and determine treatment efficacy. Due to lack of sample size, observational studies commonly combine data from multiple sources or different sites/centers. Despite the benefits of an increased sample size, a naive combination of multicenter data may result in incongruities stemming from center-specific protocols for generating cohorts or reactions towards treatments distinct to a given center, among other things. These issues arise in a variety of other contexts, including capturing a treatment effect related to an individual's unique biological characteristics. Existing methods for estimating heterogeneous treatment effects have not adequately addressed the multicenter context, but rather treat it simply as a means to obtain sufficient sample size. Additionally, previous approaches to estimating treatment effects do not straightforwardly generalize to the multicenter design, especially when required to provide treatment insights for patients from a new, unobserved center. To address these shortcomings, we propose Multiple Domain Causal Networks (MDCN), an approach that simultaneously strengthens the information sharing between similar centers while addressing the selection bias in treatment assignment through learning of a new feature embedding. In empirical evaluations, MDCN is consistently more accurate when estimating the heterogeneous treatment effect in new centers compared to benchmarks that adjust solely based on treatment imbalance or general center differences. Finally, we justify our approach by providing theoretical analyses that demonstrate that MDCN improves on the generalization bound of the new, unobserved target center.
翻訳日:2022-05-16 13:01:17 公開日:2022-05-13
# 多言語ttsによる発話顔生成

Talking Face Generation with Multilingual TTS ( http://arxiv.org/abs/2205.06421v1 )

ライセンス: Link先を確認
Hyoung-Kyu Song, Sang Hoon Woo, Junhyeok Lee, Seungmin Yang, Hyunjae Cho, Youseong Lee, Dongho Choi, Kang-wook Kim(参考訳) 本研究では,テキスト入力のみから多言語会話音声を生成できる音声合成システムと音声合成システムを組み合わせた共同システムを提案する。 本システムでは, 音声の同一性を維持しつつ, 自然な多言語音声を合成でき, 合成音声に同期した唇の動きも維持できる。 我々は,異なる言語族から4つの言語(韓国語,英語,日本語,中国語)を選択することで,システムの一般化能力を実証する。 また、話し顔生成モデルの出力と、多言語サポートを主張する以前の作業の出力を比較する。 デモでは、前処理ステージに翻訳apiを追加して、ニューラルネットワークのドバ形式で提示することで、ユーザがシステムの多言語特性をより簡単に利用できるようにしました。

In this work, we propose a joint system combining a talking face generation system with a text-to-speech system that can generate multilingual talking face videos from only the text input. Our system can synthesize natural multilingual speeches while maintaining the vocal identity of the speaker, as well as lip movements synchronized to the synthesized speech. We demonstrate the generalization capabilities of our system by selecting four languages (Korean, English, Japanese, and Chinese) each from a different language family. We also compare the outputs of our talking face generation model to outputs of a prior work that claims multilingual support. For our demo, we add a translation API to the preprocessing stage and present it in the form of a neural dubber so that users can utilize the multilingual property of our system more easily.
翻訳日:2022-05-16 12:35:59 公開日:2022-05-13
# EUのソーシャル・メディア・プラットフォームに関するデジタル・サービス法施行のための法的コンプライアンス・APIの事例

The Case for a Legal Compliance API for the Enforcement of the EU's Digital Services Act on Social Media Platforms ( http://arxiv.org/abs/2205.06666v1 )

ライセンス: Link先を確認
Catalina Goanta, Thales Bertaglia, Adriana Iamnitchi(参考訳) 1年足らずの間に、欧州委員会はプラットフォームガバナンスに関する最も重要な規制提案をいくつか開始した。 この種のクロスセクター規制の背景にある委員会の目標は、市場や民主主義の保護である。 これらの法律はいずれも、新しい執行機関と手続きを確立するための高度なルールを提案しているが、ある側面ははっきりしない。 本論は、デジタルサービス法(DSA)に焦点をあて、デジタル施行を目的としたソーシャルメディアデータアクセスに関する問題に批判的に取り組むとともに、DSAへのコンプライアンスを促進する手段として、法的コンプライアンスアプリケーションプログラミングインターフェース(API)の使用を提案する。 この議論を文脈化するために、ソーシャルメディア利用者の特に脆弱なカテゴリーである子供に影響を及ぼすコンテンツ収益化から生じる害を実証する2つのシナリオを追求する。 この2つのシナリオは、データアクセスとDSAへの法的コンプライアンスに関する本質的な問題と、労働および消費者法分野におけるさらに適用可能な法的基準を反映するために使用される。

In the course of under a year, the European Commission has launched some of the most important regulatory proposals to date on platform governance. The Commission's goals behind cross-sectoral regulation of this sort include the protection of markets and democracies alike. While all these acts propose sophisticated rules for setting up new enforcement institutions and procedures, one aspect remains highly unclear: how digital enforcement will actually take place in practice. Focusing on the Digital Services Act (DSA), this discussion paper critically addresses issues around social media data access for the purpose of digital enforcement and proposes the use of a legal compliance application programming interface (API) as a means to facilitate compliance with the DSA and complementary European and national regulation. To contextualize this discussion, the paper pursues two scenarios that exemplify the harms arising out of content monetization affecting a particularly vulnerable category of social media users: children. The two scenarios are used to further reflect upon essential issues surrounding data access and legal compliance with the DSA and further applicable legal standards in the field of labour and consumer law.
翻訳日:2022-05-16 12:35:35 公開日:2022-05-13
# ヒト理解可能なニューラルモデルのための一様パラメトリック活性化関数

Uninorm-like parametric activation functions for human-understandable neural models ( http://arxiv.org/abs/2205.06547v1 )

ライセンス: Link先を確認
Orsolya Csisz\'ar, Luca S\'ara Pusztah\'azi, Lehel D\'enes-Fazakas, Michael S. Gashler, Vladik Kreinovich, G\'abor Csisz\'ar(参考訳) 入力特徴間の人間の理解可能な接続を見つけるための深層学習モデルを提案する。 提案手法は, 虚弱ファジィ論理とマルチ基準決定法(MCDM)の理論的背景に基づいて, パラメータ化・微分可能なアクティベーション関数を用いる。 学習可能なパラメータは、入力特徴間の補償レベルを示す意味意味を有する。 ニューラルネットワークは、勾配降下を用いたパラメータを決定し、入力特徴間の人間の理解可能な関係を見つける。 UCI Machine Learning Repositoryの分類問題に適用することで,モデルの有用性と有効性を示す。

We present a deep learning model for finding human-understandable connections between input features. Our approach uses a parameterized, differentiable activation function, based on the theoretical background of nilpotent fuzzy logic and multi-criteria decision-making (MCDM). The learnable parameter has a semantic meaning indicating the level of compensation between input features. The neural network determines the parameters using gradient descent to find human-understandable relationships between input features. We demonstrate the utility and effectiveness of the model by successfully applying it to classification problems from the UCI Machine Learning Repository.
翻訳日:2022-05-16 12:35:16 公開日:2022-05-13
# 知識グラフ埋め込みのためのクロネッカー分解

Kronecker Decomposition for Knowledge Graph Embeddings ( http://arxiv.org/abs/2205.06560v1 )

ライセンス: Link先を確認
Caglar Demir and Julian Lienen and Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフ埋め込み研究は主にリンク予測問題に適した実体と関係の連続的な表現を学習することに焦点を当てている。 最近の結果は、ベンチマークデータセットに対する現在のアプローチの予測能力の増大を示している。 しかし、この効果はしばしば過パラメータ化と計算複雑性の増大によるコストが伴う。 前者は、悪意のあるオーバーフィッティングを軽減するために、広範なハイパーパラメータ最適化を誘導する。 後者は、ハードウェア宝くじに勝つことの重要性を拡大する。 ここでは,最初の問題に対する対策について検討する。 Kronecker分解に基づく手法を提案し,その表現性を保ちながら知識グラフ埋め込みモデルにおけるパラメータ数を削減する。 クロネッカー分解により、大きな埋め込み行列は訓練過程でより小さな埋め込み行列に分割される。 したがって、知識グラフの埋め込みは平易な検索ではなく、オンザフライで再構築される。 この分解は、3つの埋め込みベクトル間の要素的相互作用が各埋め込みベクトル内の相互作用によって拡張されることを保証する。 これにより、埋め込みベクトルの冗長性が暗黙的に減少し、機能の再利用が促進される。 Kronecker分解が埋め込み行列に与える影響を定量化するために、ベンチマークデータセット上で一連の実験を行う。 実験により,Kronecker分解を埋め込み行列に適用すると,全てのベンチマークデータセットのパラメータ効率が向上することが示唆された。 さらに、再構成された埋め込みは入力知識グラフにおける雑音に対する頑健性を伴うという実証的な証拠が示唆されている。 再現可能な研究を促進するため、我々は、知識グラフ埋め込みフレームワーク(https://github.com/dice-group/dice-embeddings)のトレーニングおよび評価スクリプト、事前学習されたモデルを含む、我々のアプローチのオープンソース実装を提供する。

Knowledge graph embedding research has mainly focused on learning continuous representations of entities and relations tailored towards the link prediction problem. Recent results indicate an ever increasing predictive ability of current approaches on benchmark datasets. However, this effectiveness often comes with the cost of over-parameterization and increased computationally complexity. The former induces extensive hyperparameter optimization to mitigate malicious overfitting. The latter magnifies the importance of winning the hardware lottery. Here, we investigate a remedy for the first problem. We propose a technique based on Kronecker decomposition to reduce the number of parameters in a knowledge graph embedding model, while retaining its expressiveness. Through Kronecker decomposition, large embedding matrices are split into smaller embedding matrices during the training process. Hence, embeddings of knowledge graphs are not plainly retrieved but reconstructed on the fly. The decomposition ensures that elementwise interactions between three embedding vectors are extended with interactions within each embedding vector. This implicitly reduces redundancy in embedding vectors and encourages feature reuse. To quantify the impact of applying Kronecker decomposition on embedding matrices, we conduct a series of experiments on benchmark datasets. Our experiments suggest that applying Kronecker decomposition on embedding matrices leads to an improved parameter efficiency on all benchmark datasets. Moreover, empirical evidence suggests that reconstructed embeddings entail robustness against noise in the input knowledge graph. To foster reproducible research, we provide an open-source implementation of our approach, including training and evaluation scripts as well as pre-trained models in our knowledge graph embedding framework (https://github.com/dice-group/dice-embeddings).
翻訳日:2022-05-16 12:35:06 公開日:2022-05-13
# Bayesian HyperNetworks を用いた高速条件付きネットワーク圧縮

Fast Conditional Network Compression Using Bayesian HyperNetworks ( http://arxiv.org/abs/2205.06404v1 )

ライセンス: Link先を確認
Phuoc Nguyen, Truyen Tran, Ky Le, Sunil Gupta, Santu Rana, Dang Nguyen, Trong Nguyen, Shannon Ryan, and Svetha Venkatesh(参考訳) 条件付き圧縮問題を導入し,それに取り組むための高速フレームワークを提案する。 問題は、クラスの一部分だけを含むコンテキストや、限られた計算リソースしか利用できないコンテキストなど、ターゲットコンテキストが与えられた場合、トレーニング済みの大規模ニューラルネットワークを最適に小さなネットワークに迅速に圧縮する方法である。 そこで本研究では,与えられた大規模ネットワークをより小さいサイズに圧縮し,各文脈条件を満たす効率的なベイズフレームワークを提案する。 我々は,与えられた条件入力の重みの後方分布をパラメータ化し,ベイズニューラルネットワークの変動目標を最小化する。 ネットワークサイズをさらに小さくするため,新たに重みの入出力群疎度分解を行い,重みの疎度向上を図る。 提案手法は,ベースライン法よりもかなり小型の圧縮ネットワークを高速に生成できる。

We introduce a conditional compression problem and propose a fast framework for tackling it. The problem is how to quickly compress a pretrained large neural network into optimal smaller networks given target contexts, e.g. a context involving only a subset of classes or a context where only limited compute resource is available. To solve this, we propose an efficient Bayesian framework to compress a given large network into much smaller size tailored to meet each contextual requirement. We employ a hypernetwork to parameterize the posterior distribution of weights given conditional inputs and minimize a variational objective of this Bayesian neural network. To further reduce the network sizes, we propose a new input-output group sparsity factorization of weights to encourage more sparseness in the generated weights. Our methods can quickly generate compressed networks with significantly smaller sizes than baseline methods.
翻訳日:2022-05-16 12:34:40 公開日:2022-05-13
# 逆破壊を伴う線形文脈バンディットの近似最適アルゴリズム

Nearly Optimal Algorithms for Linear Contextual Bandits with Adversarial Corruptions ( http://arxiv.org/abs/2205.06811v1 )

ライセンス: Link先を確認
Jiafan He and Dongruo Zhou and Tong Zhang and Quanquan Gu(参考訳) 我々は,各ラウンドの報酬が敵意によって損なわれ,腐敗レベル(地平線上の汚職等級の合計)が$c\geq 0$である,敵対的汚職の存在下での直線的文脈的バンディット問題について検討した。 この設定における最もよく知られたアルゴリズムは、計算量的に非効率であるか、腐敗に対する強い仮定を必要とするか、または彼らの後悔が腐敗のない後悔よりも少なくとも$c$2であるという点で制限されている。 本稿では,これらの制約を克服するために,不確実性に直面した楽観主義の原理に基づく新しいアルゴリズムを提案する。 アルゴリズムの中核は重み付きリッジ回帰であり、選択された各アクションの重みは、その信頼度をしきい値まで依存する。 既知の$c$と未知の$c$ケースの両方において、ハイパーパラメーターを適切に選択したアルゴリズムは、下限にほぼ一致することを後悔する。 したがって、このアルゴリズムは両方の場合の対数係数にほぼ最適である。 特に, このアルゴリズムは, 破損事例と破損事例の両方に対して, ほぼ最適の後悔を同時に達成する(C=0$)。

We study the linear contextual bandit problem in the presence of adversarial corruption, where the reward at each round is corrupted by an adversary, and the corruption level (i.e., the sum of corruption magnitudes over the horizon) is $C\geq 0$. The best-known algorithms in this setting are limited in that they either are computationally inefficient or require a strong assumption on the corruption, or their regret is at least $C$ times worse than the regret without corruption. In this paper, to overcome these limitations, we propose a new algorithm based on the principle of optimism in the face of uncertainty. At the core of our algorithm is a weighted ridge regression where the weight of each chosen action depends on its confidence up to some threshold. We show that for both known $C$ and unknown $C$ cases, our algorithm with proper choice of hyperparameter achieves a regret that nearly matches the lower bounds. Thus, our algorithm is nearly optimal up to logarithmic factors for both cases. Notably, our algorithm achieves the near-optimal regret for both corrupted and uncorrupted cases ($C=0$) simultaneously.
翻訳日:2022-05-16 12:34:27 公開日:2022-05-13
# StyLandGAN:depth-mapを用いたスタイルGANに基づく景観画像合成

StyLandGAN: A StyleGAN based Landscape Image Synthesis using Depth-map ( http://arxiv.org/abs/2205.06611v1 )

ライセンス: Link先を確認
Gunhee Lee, Jonghwa Yim, Chanran Kim, Minjae Kim(参考訳) 近年の条件付き画像合成の成功にもかかわらず、セマンティクスやエッジといった一般的な入力条件は、'Linear (Ridges)'や'Planar (Scale)'表現を表現するには不十分である。 そこで本稿では,より表現力の高い深度マップを用いて所望の風景画像を合成する新しい枠組みであるstylandganを提案する。 StyleLandGANは、入力条件を受け入れるために、無条件生成モデルから拡張されます。 また, 多様な深度マップを生成し, 利用者の意図を容易に反映できるように, 局所的な部分を変更する「2相推論」パイプラインを提案する。 比較として,既存の意味的画像合成モデルを,奥行きマップも受け入れるように修正した。 実験の結果,本手法は品質,多様性,深さ精度において既存の手法よりも優れていることがわかった。

Despite recent success in conditional image synthesis, prevalent input conditions such as semantics and edges are not clear enough to express `Linear (Ridges)' and `Planar (Scale)' representations. To address this problem, we propose a novel framework StyLandGAN, which synthesizes desired landscape images using a depth map which has higher expressive power. Our StyleLandGAN is extended from the unconditional generation model to accept input conditions. We also propose a '2-phase inference' pipeline which generates diverse depth maps and shifts local parts so that it can easily reflect user's intend. As a comparison, we modified the existing semantic image synthesis models to accept a depth map as well. Experimental results show that our method is superior to existing methods in quality, diversity, and depth-accuracy.
翻訳日:2022-05-16 12:34:06 公開日:2022-05-13
# (参考訳) 人種、性別、交叉軸に沿ったヘイトスピーチデータの解析

Analyzing Hate Speech Data along Racial, Gender and Intersectional Axes ( http://arxiv.org/abs/2205.06621v1 )

ライセンス: CC BY-SA 4.0
Antonis Maronikolakis, Philip Baader, Hinrich Sch\"utze(参考訳) ヘイトスピーチの増大する現象に対処するため、データキュレーションと分析への取り組みが進められている。 バイアスの分析に関しては、以前の作業は主にレースに重点を置いています。 本研究では,人種,性別,交叉軸に沿ったヘイトスピーチデータセットのバイアスをさらに調査する。 我々は、アフリカ系アメリカ人英語(aae)、男性英語、男性英語(aae+男性)のツイートに対する強い偏見を識別する。 BERTベースのモデルは、このバイアスを伝播し、これらの保護属性のトレーニングデータのバランスが、性別に関してより公平なモデルに繋がることを示した。

To tackle the rising phenomenon of hate speech, efforts have been made towards data curation and analysis. When it comes to analysis of bias, previous work has focused predominantly on race. In our work, we further investigate bias in hate speech datasets along racial, gender and intersectional axes. We identify strong bias against African American English (AAE), masculine and AAE+Masculine tweets, which are annotated as disproportionately more hateful and offensive than from other demographics. We provide evidence that BERT-based models propagate this bias and show that balancing the training data for these protected attributes can lead to fairer models with regards to gender, but not race.
翻訳日:2022-05-16 12:32:34 公開日:2022-05-13
# 正規化事前学習による文脈表現の改善

Improving Contextual Representation with Gloss Regularized Pre-training ( http://arxiv.org/abs/2205.06603v1 )

ライセンス: Link先を確認
Yu Lin, Zhecheng An, Peihao Wu, Zejun Ma(参考訳) 多くのNLPタスクにおいて印象的な結果が得られるが、BERTのようなマスク付き言語モデル(MLM)は事前学習と推論の相違に遭遇する。 このギャップを考慮して,単語確率分布の観点から,事前学習と推論の文脈的表現について検討する。 bertは,事前学習における文脈的単語類似性を無視するリスクがあることを見出した。 そこで本研究では,単語の意味的類似性を高めるため,BERT事前学習(GR-BERT)に補助的なグロース正規化モジュールを提案する。 マスクされた単語を予測し、対応する用語にコンテキスト埋め込みを同時に調整することで、単語の類似性を明示的にモデル化することができる。 GR-BERTのための2つのアーキテクチャを設計し、下流タスクでモデルを評価する。 実験の結果,単語レベルおよび文レベルの意味表現において,Gloss regularizerはBERTの恩恵を受けることがわかった。 GR-BERTは、語彙置換タスクにおける新しい最先端処理を実現し、教師なしタスクと教師なしSTSタスクの両方においてBERT文表現を大幅に促進する。

Though achieving impressive results on many NLP tasks, the BERT-like masked language models (MLM) encounter the discrepancy between pre-training and inference. In light of this gap, we investigate the contextual representation of pre-training and inference from the perspective of word probability distribution. We discover that BERT risks neglecting the contextual word similarity in pre-training. To tackle this issue, we propose an auxiliary gloss regularizer module to BERT pre-training (GR-BERT), to enhance word semantic similarity. By predicting masked words and aligning contextual embeddings to corresponding glosses simultaneously, the word similarity can be explicitly modeled. We design two architectures for GR-BERT and evaluate our model in downstream tasks. Experimental results show that the gloss regularizer benefits BERT in word-level and sentence-level semantic representation. The GR-BERT achieves new state-of-the-art in lexical substitution task and greatly promotes BERT sentence representation in both unsupervised and supervised STS tasks.
翻訳日:2022-05-16 12:19:50 公開日:2022-05-13
# The Devil is in the details: On the Pitfalls of Vocabulary Selection in Neural Machine Translation

The Devil is in the Details: On the Pitfalls of Vocabulary Selection in Neural Machine Translation ( http://arxiv.org/abs/2205.06618v1 )

ライセンス: Link先を確認
Tobias Domhan, Eva Hasler, Ke Tran, Sony Trenous, Bill Byrne, Felix Hieber(参考訳) 語彙選択(英: vocabulary selection、英: lexical shortlisting)は、推論中に許容される単語の集合を制限することによって、ニューラルネットワークの翻訳モデルのレイテンシを改善するためのよく知られた手法である。 選択された集合は、通常、推論時のソース・センテンスコンテキストとは無関係に、個別に訓練されたアライメントモデルパラメータによって決定される。 語彙選択は,先行作業における自動品質指標と競合するように見えるが,特に慣用的表現のような意味論的に非複合的な言語現象に対して,適切な出力語群を選択することができず,人間の認識する翻訳品質が低下することを示す。 許可されたセットのサイズを増やすことで品質の遅延を排除することは、現実のシナリオではオプションではないことが多い。 本稿では,文脈化されたエンコーダ表現から許容される単語の集合を予測するニューラル翻訳モデルに統合した語彙選択モデルを提案する。 これにより、WMTニューステスト2020と慣用表現による人による評価により、アライメントに基づくアライメント選択と積極的なしきい値を用いた競合する推論遅延において、制約のないシステムの翻訳品質を復元し、個別に訓練されたアライメントモデルへの依存を除去する。

Vocabulary selection, or lexical shortlisting, is a well-known technique to improve latency of Neural Machine Translation models by constraining the set of allowed output words during inference. The chosen set is typically determined by separately trained alignment model parameters, independent of the source-sentence context at inference time. While vocabulary selection appears competitive with respect to automatic quality metrics in prior work, we show that it can fail to select the right set of output words, particularly for semantically non-compositional linguistic phenomena such as idiomatic expressions, leading to reduced translation quality as perceived by humans. Trading off latency for quality by increasing the size of the allowed set is often not an option in real-world scenarios. We propose a model of vocabulary selection, integrated into the neural translation model, that predicts the set of allowed output words from contextualized encoder representations. This restores translation quality of an unconstrained system, as measured by human evaluations on WMT newstest2020 and idiomatic expressions, at an inference latency competitive with alignment-based selection using aggressive thresholds, thereby removing the dependency on separately trained alignment models.
翻訳日:2022-05-16 12:19:33 公開日:2022-05-13
# インド語ocrのためのctcモデルに関する実証的研究

An empirical study of CTC based models for OCR of Indian languages ( http://arxiv.org/abs/2205.06740v1 )

ライセンス: Link先を確認
Minesh Mathew and CV Jawahar(参考訳) サブワードセグメンテーションを必要とせず、単語や線画像上のテキストの認識は、インド語のテキスト認識の研究や開発において主流となっている。 Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRの最も一般的なアプローチである。 本研究では、CTCを用いて、ニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換する様々なニューラルネットワークモデルに関する総合的な実証的研究を示す。 この研究は13のインド語で行われ、1つの言語に約1000ページのデータセットが組み込まれている。 認識単位としての線対単語の選択とモデル学習のための合成データの利用について検討した。 当社のモデルは、エンドツーエンドのドキュメント画像認識のための一般的なocrツールと比較します。 認識モデルと既存のテキストセグメンテーションツールを使用したエンドツーエンドパイプラインは、13言語中8言語でこれらの公開OCRツールより優れています。 また,インド語で単語と行の認識を行うために,mozhiと呼ばれる新しい公開データセットも導入する。 データセットには13のインド語言語にわたる120万以上の注釈付き単語画像(120万行)が含まれている。 私たちのコード、トレーニングされたモデル、mozhiデータセットはhttp://cvit.iiit.ac.in/research/projects/cvit-projects/で利用可能になります。

Recognition of text on word or line images, without the need for sub-word segmentation has become the mainstream of research and development of text recognition for Indian languages. Modelling unsegmented sequences using Connectionist Temporal Classification (CTC) is the most commonly used approach for segmentation-free OCR. In this work we present a comprehensive empirical study of various neural network models that uses CTC for transcribing step-wise predictions in the neural network output to a Unicode sequence. The study is conducted for 13 Indian languages, using an internal dataset that has around 1000 pages per language. We study the choice of line vs word as the recognition unit, and use of synthetic data to train the models. We compare our models with popular publicly available OCR tools for end-to-end document image recognition. Our end-to-end pipeline that employ our recognition models and existing text segmentation tools outperform these public OCR tools for 8 out of the 13 languages. We also introduce a new public dataset called Mozhi for word and line recognition in Indian language. The dataset contains more than 1.2 million annotated word images (120 thousand text lines) across 13 Indian languages. Our code, trained models and the Mozhi dataset will be made available at http://cvit.iiit.ac.in/research/projects/cvit-projects/
翻訳日:2022-05-16 12:18:46 公開日:2022-05-13
# (参考訳) 時系列予測のための効率的な自動ディープラーニング

Efficient Automated Deep Learning for Time Series Forecasting ( http://arxiv.org/abs/2205.05511v2 )

ライセンス: CC BY 4.0
Difan Deng, Florian Karl, Frank Hutter, Bernd Bischl, Marius Lindauer(参考訳) 近年、自動機械学習(automl)、特に自動ディープラーニング(autodl)システムの効率が大幅に向上しているが、最近の研究は表型、画像、nlpのタスクに焦点を当てている。 これまでのところ、こうしたタスクに異なる新しいアーキテクチャを適用する大きな成功にもかかわらず、時系列予測のための一般的なAutoDLフレームワークにはほとんど注意が払われていない。 本稿では,時系列予測のためのデータ処理パイプライン全体のニューラルアーキテクチャとハイパーパラメータの協調最適化のための効率的な手法を提案する。 一般的なnas検索空間とは対照的に、我々は様々な最先端アーキテクチャをカバーする新しいニューラルネットワーク検索空間を設計し、様々なdlアプローチで効率的なマクロ検索を可能にした。 このような大きな構成空間を効率的に探索するために,マルチフィデリティ最適化を伴うベイズ最適化を用いる。 異なる予測データセット上で効率の良い多重忠実度最適化を実現するために,様々な予算タイプを実証的に検討する。 さらに,提案システムであるauto-pytorch-tsをいくつかの確立されたベースラインと比較し,複数のデータセットで比較した。

Recent years have witnessed tremendously improved efficiency of Automated Machine Learning (AutoML), especially Automated Deep Learning (AutoDL) systems, but recent work focuses on tabular, image, or NLP tasks. So far, little attention has been paid to general AutoDL frameworks for time series forecasting, despite the enormous success in applying different novel architectures to such tasks. In this paper, we propose an efficient approach for the joint optimization of neural architecture and hyperparameters of the entire data processing pipeline for time series forecasting. In contrast to common NAS search spaces, we designed a novel neural architecture search space covering various state-of-the-art architectures, allowing for an efficient macro-search over different DL approaches. To efficiently search in such a large configuration space, we use Bayesian optimization with multi-fidelity optimization. We empirically study several different budget types enabling efficient multi-fidelity optimization on different forecasting datasets. Furthermore, we compared our resulting system, dubbed Auto-PyTorch-TS, against several established baselines and show that it significantly outperforms all of them across several datasets.
翻訳日:2022-05-16 11:27:00 公開日:2022-05-13
# (参考訳) 質問によるビデオ検索の学習

Learning to Retrieve Videos by Asking Questions ( http://arxiv.org/abs/2205.05739v2 )

ライセンス: CC BY 4.0
Avinash Madasu, Junier Oliva, Gedas Bertasius(参考訳) 従来のテキストからビデオへの検索システムの大部分は静的な環境で動作する。 これは、初期クエリに曖昧さがある場合、サブ最適であり、多くの誤った検索ビデオにつながる可能性がある。 この制限を克服するために,複数ラウンドのダイアログを介してaiエージェントと対話できる対話(vired)を用いたビデオ検索のための新しいフレームワークを提案する。 このフレームワークの重要な貢献は,ビデオ検索性能を最大化する質問を学習する,新しいマルチモーダル質問生成器である。 マルチモーダル質問生成器は i) ユーザとのインタラクションの最終ラウンド中に検索したビデオ候補と (ii)全対話を文書化したテキストに基づく対話履歴は,映像検索に関連する視覚的・言語的手がかりを取り入れた質問を生成する。 さらに,最大有意な質問を生成するために,質問生成者を誘導するigs(information-guided supervisor)を提案する。 AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。 さらに,提案手法は実際の人間との相互作用を含む現実世界の環境にも一般化し,枠組みの堅牢性や汎用性を実証する。

The majority of traditional text-to-video retrieval systems operate in static environments, i.e., there is no interaction between the user and the agent beyond the initial textual query provided by the user. This can be suboptimal if the initial query has ambiguities, which would lead to many falsely retrieved videos. To overcome this limitation, we propose a novel framework for Video Retrieval using Dialog (ViReD), which enables the user to interact with an AI agent via multiple rounds of dialog. The key contribution of our framework is a novel multimodal question generator that learns to ask questions that maximize the subsequent video retrieval performance. Our multimodal question generator uses (i) the video candidates retrieved during the last round of interaction with the user and (ii) the text-based dialog history documenting all previous interactions, to generate questions that incorporate both visual and linguistic cues relevant to video retrieval. Furthermore, to generate maximally informative questions, we propose an Information-Guided Supervision (IGS), which guides the question generator to ask questions that would boost subsequent video retrieval accuracy. We validate the effectiveness of our interactive ViReD framework on the AVSD dataset, showing that our interactive method performs significantly better than traditional non-interactive video retrieval systems. Furthermore, we also demonstrate that our proposed approach also generalizes to the real-world settings that involve interactions with real humans, thus, demonstrating the robustness and generality of our framework
翻訳日:2022-05-16 11:02:22 公開日:2022-05-13
# (参考訳) MEWS:リアルタイムソーシャルメディア操作検出と分析

MEWS: Real-time Social Media Manipulation Detection and Analysis ( http://arxiv.org/abs/2205.05783v2 )

ライセンス: CC BY 4.0
Trenton W. Ford, William Theisen, Michael Yankoski, Tom Henry, Farah Khashman, Katherine R. Dearstyne and Tim Weninger(参考訳) 本稿ではMEWS(Misinformation Early Warning System)のベータバージョンについて述べる。 ソーシャルメディアプラットフォーム上に出現し拡散するソーシャルメディアイメージ間の関係を、ほぼリアルタイムで判断するために使用される、摂取、操作検出、グラフ化アルゴリズムの様々な側面について記述する。 これらの様々な技術を単一の処理パイプラインに組み合わせることで、MEWSは操作されたメディアアイテムを発生時に識別し、特定のアイテムが個々のソーシャルメディアプラットフォーム、あるいは複数のプラットフォーム上でトレンドになり始めたときを特定することができる。 操作されたコンテンツの急速な拡散に続く新しい操作の出現は、偽情報キャンペーンを示唆している。

This article presents a beta-version of MEWS (Misinformation Early Warning System). It describes the various aspects of the ingestion, manipulation detection, and graphing algorithms employed to determine--in near real-time--the relationships between social media images as they emerge and spread on social media platforms. By combining these various technologies into a single processing pipeline, MEWS can identify manipulated media items as they arise and identify when these particular items begin trending on individual social media platforms or even across multiple platforms. The emergence of a novel manipulation followed by rapid diffusion of the manipulated content suggests a disinformation campaign.
翻訳日:2022-05-16 10:46:36 公開日:2022-05-13
# F3A-GAN:生成対向ネットワークを用いた顔アニメーションのための顔の流れ

F3A-GAN: Facial Flow for Face Animation with Generative Adversarial Networks ( http://arxiv.org/abs/2205.06204v2 )

ライセンス: Link先を確認
Xintian Wu, Qihang Zhang, Yiming Wu, Huanyu Wang, Songyuan Li, Lingyun Sun, and Xi Li(参考訳) 条件生成問題として定式化された顔アニメーションは、条件付き顔の動きによって駆動される単一の音源画像から連続顔画像を合成することを目的としている。 以前の作品は、顔の動きを1dまたは2d表現(アクションユニット、感情コード、ランドマークなど)の条件としてモデル化しており、これはしばしば、連続生成や大規模変換のような複雑なシナリオで品質の低い結果をもたらす。 この問題に対処するために、条件は運動情報保存と幾何学的連続性という2つの要件を満たすことが求められる。 そこで本研究では,人間の顔の自然な動きを表現するために,顔の流れと呼ばれる3次元幾何学的流れに基づく新しい表現を提案する。 他の条件と比較して,提案手法では顔の連続的な変化を良好に制御できる。 その後、顔の編集に顔フローを利用するため、条件付き顔フローを伴う連続画像を生成する合成フレームワークを構築する。 顔フローの動作情報を完全に活用するために, 画像から抽出した複数スケールの外観特徴と, フローから抽出した動き特徴とを階層的に結合する階層的条件付き枠組みを考案した。 フレームワークは複数の融合した機能を徐々にイメージにデコードする。 実験の結果,本手法は他の最先端手法と比較して有効性が示された。

Formulated as a conditional generation problem, face animation aims at synthesizing continuous face images from a single source image driven by a set of conditional face motion. Previous works mainly model the face motion as conditions with 1D or 2D representation (e.g., action units, emotion codes, landmark), which often leads to low-quality results in some complicated scenarios such as continuous generation and largepose transformation. To tackle this problem, the conditions are supposed to meet two requirements, i.e., motion information preserving and geometric continuity. To this end, we propose a novel representation based on a 3D geometric flow, termed facial flow, to represent the natural motion of the human face at any pose. Compared with other previous conditions, the proposed facial flow well controls the continuous changes to the face. After that, in order to utilize the facial flow for face editing, we build a synthesis framework generating continuous images with conditional facial flows. To fully take advantage of the motion information of facial flows, a hierarchical conditional framework is designed to combine the extracted multi-scale appearance features from images and motion features from flows in a hierarchical manner. The framework then decodes multiple fused features back to images progressively. Experimental results demonstrate the effectiveness of our method compared to other state-of-the-art methods.
翻訳日:2022-05-16 10:40:50 公開日:2022-05-13
# 点雲の表面表現

Surface Representation for Point Clouds ( http://arxiv.org/abs/2205.05740v2 )

ライセンス: Link先を確認
Haoxi Ran, Jun Liu, Chengjie Wang(参考訳) ほとんどの先行研究は座標による点雲の形状を表している。 しかし、局所幾何学を直接記述するには不十分である。 本稿では, 点雲の局所構造を記述する新しい表現である, \textbf{RepSurf} (representative surfaces) を提案する。 我々は,三角形メッシュに触発されたrepsurf,三角形repsurf,傘repsurfの2つの変種と,コンピュータグラフィックスにおける傘曲率について検討した。 RepSurfの表現は、表面再構成後の予め定義された幾何学的先行値によって計算する。 repsurfは、不規則な点との無償のコラボレーションにより、ほとんどのポイントクラウドモデルのためのプラグアンドプレイモジュールとなる。 PointNet++(SSGバージョン)のシンプルなベースラインに基づいて、Umbrella RepSurfは、パフォーマンスと効率の観点から、さまざまなベンチマークの分類、セグメンテーション、検出において、これまでの最先端をはるかに上回っている。 パラメータの約 \textbf{0.008M} , \textbf{0.04G} FLOPs および \textbf{1.12ms} の推論時間の増加に伴い,ModelNet40では \textbf{94.7\%} (+0.5\%) , ScanObjectNNでは \textbf{84.6\%} (+1.8\%) , S3DIS 6-foldでは \textbf{74.3\%} (+0.8\%) mIoU, ScanNetでは \textb{70.0\%} (+1.6\%) mIoU が得られる。 検出のために、RepSurf を用いた過去の最先端検出器は、ScanNetV2 上で \textbf{71.2\%} (+2.1\%) mAP$\mathit{_{25}}$, \textbf{54.8\%} (+2.0\%) mAP$\mathit{_{50}}$, SUN RGB-D 上で \textbf{64.9\%} (+1.9\%) mAP$\mathit{_{_{25}}$, \textbf{47.7\%} (+2.5\%) mAP$\mathit{_{50}}$を得る。 私たちの軽量なTriangular RepSurfは、これらのベンチマークでも優れた性能を発揮しています。 コードは \url{https://github.com/hancyran/RepSurf} で公開されている。

Most prior work represents the shapes of point clouds by coordinates. However, it is insufficient to describe the local geometry directly. In this paper, we present \textbf{RepSurf} (representative surfaces), a novel representation of point clouds to \textbf{explicitly} depict the very local structure. We explore two variants of RepSurf, Triangular RepSurf and Umbrella RepSurf inspired by triangle meshes and umbrella curvature in computer graphics. We compute the representations of RepSurf by predefined geometric priors after surface reconstruction. RepSurf can be a plug-and-play module for most point cloud models thanks to its free collaboration with irregular points. Based on a simple baseline of PointNet++ (SSG version), Umbrella RepSurf surpasses the previous state-of-the-art by a large margin for classification, segmentation and detection on various benchmarks in terms of performance and efficiency. With an increase of around \textbf{0.008M} number of parameters, \textbf{0.04G} FLOPs, and \textbf{1.12ms} inference time, our method achieves \textbf{94.7\%} (+0.5\%) on ModelNet40, and \textbf{84.6\%} (+1.8\%) on ScanObjectNN for classification, while \textbf{74.3\%} (+0.8\%) mIoU on S3DIS 6-fold, and \textbf{70.0\%} (+1.6\%) mIoU on ScanNet for segmentation. For detection, previous state-of-the-art detector with our RepSurf obtains \textbf{71.2\%} (+2.1\%) mAP$\mathit{_{25}}$, \textbf{54.8\%} (+2.0\%) mAP$\mathit{_{50}}$ on ScanNetV2, and \textbf{64.9\%} (+1.9\%) mAP$\mathit{_{25}}$, \textbf{47.7\%} (+2.5\%) mAP$\mathit{_{50}}$ on SUN RGB-D. Our lightweight Triangular RepSurf performs its excellence on these benchmarks as well. The code is publicly available at \url{https://github.com/hancyran/RepSurf}.
翻訳日:2022-05-16 10:40:26 公開日:2022-05-13
# 深層学習BERTモデルとTVP-VARモデルに基づく中国の投資家感情・株式市場流動性・ボラティリティの経時変化に関する研究

A time-varying study of Chinese investor sentiment, stock market liquidity and volatility: Based on deep learning BERT model and TVP-VAR model ( http://arxiv.org/abs/2205.05719v2 )

ライセンス: Link先を確認
Chenrui Zhang, Xinyi Wu, Hailu Deng, Huiwei Zhang(参考訳) 2018年1月1日から2019年12月31日まで、イーストモニーのウェブサイトにある深セン株指数バーの注釈データに基づいて。 本稿では,深層学習bertモデルを用いて組込み投資家感情を抽出し,tvp-varモデルを用いて投資感情,株式市場流動性,ボラティリティの時間的変動関係について検討する。 その結果、投資家の感情が株式市場の流動性とボラティリティに与える影響が強くなっている。 逆効果は比較的小さいが、株式市場の状態とともにより発音される。 いずれの場合も、反応は短期的には中長期よりも顕著であり、その影響は非対称であり、市場が下向きの渦巻状態にある場合には衝撃が強くなる。

Based on the commentary data of the Shenzhen Stock Index bar on the EastMoney website from January 1, 2018 to December 31, 2019. This paper extracts the embedded investor sentiment by using a deep learning BERT model and investigates the time-varying linkage between investment sentiment, stock market liquidity and volatility using a TVP-VAR model. The results show that the impact of investor sentiment on stock market liquidity and volatility is stronger. Although the inverse effect is relatively small, it is more pronounced with the state of the stock market. In all cases, the response is more pronounced in the short term than in the medium to long term, and the impact is asymmetric, with shocks stronger when the market is in a downward spiral.
翻訳日:2022-05-16 10:39:23 公開日:2022-05-13
# kNN-Embed:多目的候補検索のためのローカルな平滑な埋め込みミックス

kNN-Embed: Locally Smoothed Embedding Mixtures For Multi-interest Candidate Retrieval ( http://arxiv.org/abs/2205.06205v2 )

ライセンス: Link先を確認
Ahmed El-Kishky, Thomas Markovich, Kenny Leung, Frank Portman, Aria Haghighi, Ying Xiao(参考訳) 候補生成はレコメンデーションシステムにおける第1段階であり、入力ユーザに対して潜在的に関連するアイテムを取得するために軽量システムを使用する。 これらの候補項目は、より複雑なランキングモデルを用いて、リコメンデータシステムの後半段階でランク付けされ、刈り取られる。 候補生成はレコメンデーションファンネルの最上位であるため、下流ランキングモデルにフィードするハイリコール候補セットを検索することが重要である。 候補生成の一般的なアプローチは、単一の高密度クエリ埋め込みから近い近傍(ANN)探索を活用することであるが、このアプローチは、多くの近い重複を持つ低多様性の結果をもたらす可能性がある。 ユーザが複数の関心を持つことが多いため、候補検索は、ユーザの複数の関心を反映した多様な候補セットを理想的に返すべきである。 そこで我々は,高密度ANN検索における多様性向上のための一般的なアプローチであるkNN-Embedを紹介する。 kNN-Embedは、各ユーザを学習アイテムクラスタ上のスムーズな混合として表現し、ユーザの‘関心’を区別する。 各ユーザの混合成分をそれぞれの混合重みに比例してクエリすることにより、ユーザの関心事から要素を反映する候補の多様性の高い集合を検索する。 knn-embed と標準 ann 候補検索を実験的に比較し、3 つのデータセット間の全体的なリコールとダイバーシティの改善を示す。 この作業を伴って、当社は大規模なTwitterフォローグラフデータセットをオープンソース化し、レコメンダシステムのためのグラフマイニングと表現学習のさらなる研究を促進する。

Candidate generation is the first stage in recommendation systems, where a light-weight system is used to retrieve potentially relevant items for an input user. These candidate items are then ranked and pruned in later stages of recommender systems using a more complex ranking model. Since candidate generation is the top of the recommendation funnel, it is important to retrieve a high-recall candidate set to feed into downstream ranking models. A common approach for candidate generation is to leverage approximate nearest neighbor (ANN) search from a single dense query embedding; however, this approach this can yield a low-diversity result set with many near duplicates. As users often have multiple interests, candidate retrieval should ideally return a diverse set of candidates reflective of the user's multiple interests. To this end, we introduce kNN-Embed, a general approach to improving diversity in dense ANN-based retrieval. kNN-Embed represents each user as a smoothed mixture over learned item clusters that represent distinct `interests' of the user. By querying each of a user's mixture component in proportion to their mixture weights, we retrieve a high-diversity set of candidates reflecting elements from each of a user's interests. We experimentally compare kNN-Embed to standard ANN candidate retrieval, and show significant improvements in overall recall and improved diversity across three datasets. Accompanying this work, we open source a large Twitter follow-graph dataset, to spur further research in graph-mining and representation learning for recommender systems.
翻訳日:2022-05-16 10:39:07 公開日:2022-05-13