このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230217となっている論文です。

PDF登録状況(公開日: 20230217)

TitleAuthorsAbstract論文公表日・翻訳日
# 人選好からの深い強化学習

Deep reinforcement learning from human preferences ( http://arxiv.org/abs/1706.03741v4 )

ライセンス: Link先を確認
Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei(参考訳) 高度な強化学習(RL)システムが実環境と有効に相互作用するためには、これらのシステムに複雑な目標を伝える必要がある。 本研究では,一対の軌道セグメント間の人間の嗜好の観点で定義された目標について検討する。 このアプローチは,atariゲームやシミュレーションロボットのロコモーションなど,報酬機能にアクセスせずに,複雑なrlタスクを効果的に解決できると同時に,エージェントと環境とのインタラクションの1%未満のフィードバックを提供する。 これにより、人間の監視コストを十分に低減し、最先端のRLシステムに適用することができる。 このアプローチの柔軟性を示すために、人間の時間約1時間で複雑な新しい行動をうまく訓練できることを示しました。 これらの行動や環境は、これまで人間のフィードバックから学んだものよりもかなり複雑です。

For sophisticated reinforcement learning (RL) systems to interact usefully with real-world environments, we need to communicate complex goals to these systems. In this work, we explore goals defined in terms of (non-expert) human preferences between pairs of trajectory segments. We show that this approach can effectively solve complex RL tasks without access to the reward function, including Atari games and simulated robot locomotion, while providing feedback on less than one percent of our agent's interactions with the environment. This reduces the cost of human oversight far enough that it can be practically applied to state-of-the-art RL systems. To demonstrate the flexibility of our approach, we show that we can successfully train complex novel behaviors with about an hour of human time. These behaviors and environments are considerably more complex than any that have been previously learned from human feedback.
翻訳日:2023-03-25 04:58:33 公開日:2023-02-17
# kochen-specker定理をバイパスする:クトリットの明示的非文脈統計モデル

Bypassing the Kochen-Specker theorem: an explicit non-contextual statistical model for the qutrit ( http://arxiv.org/abs/1805.04935v2 )

ライセンス: Link先を確認
David H. Oaknin(参考訳) 量子力学の予測を完全に再現し、コッチェン・スペックルの定理とそのその後の再構成によって課される制約を回避し、クトリットの隠れた変数の明示的に非文脈的統計モデルを記述する。 これらの有名な定理は、急激なゲージ変換に関連する物理的に区別不可能なテストが、明確に定義された別個のアイデンティティに割り当てられることに関して、絶対的な参照枠の存在を暗黙的に仮定することに極めて依存している。 このような絶対的な参照枠の存在は、基本的な物理原理によって必要とされないので、不必要に制限された要求であると仮定する。

We describe an explicitly non-contextual statistical model of hidden variables for the qutrit, which fully reproduces the predictions of quantum mechanics and, thus, bypasses the constraints imposed by the Kochen-Specker theorem and its subsequent reformulations. We notice that these renowned theorems crucially rely on the implicitly assumed existence of an absolute frame of reference with respect to which physically indistinguishable tests related by spurious gauge transformations can supposedly be assigned well-defined distinct identities. We observe that the existence of such an absolute frame of reference is not required by fundamental physical principles and, hence, assuming it is an unnecessarily restrictive demand.
翻訳日:2023-03-25 04:49:29 公開日:2023-02-17
# LiSHT:ニューラルネットワークのための非パラメトリック線形拡大双曲型タンジェント活性化関数

LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation Function for Neural Networks ( http://arxiv.org/abs/1901.05894v4 )

ライセンス: Link先を確認
Swalpa Kumar Roy, Suvojit Manna, Shiv Ram Dubey, Bidyut Baran Chaudhuri(参考訳) ニューラルネットワークのアクティベーション関数は、複雑なタスクを扱うのに必要な非線形性を導入する。 ディープラーニングモデルのためのいくつかのアクティベーション/非線形関数を開発した。 しかしながら、既存のアクティベーション関数のほとんどは、ダイイング勾配問題と大きな負の入力値の非利用のために苦しめられている。 本稿では,ニューラルネットワーク(NN)のための線形スケールハイパーボリックタンジェント(LiSHT)を提案する。 提案したLiSHTは非パラメトリックであり、死の勾配問題に取り組む。 我々は,ベクトルデータ,画像データ,自然言語データなど,異なるタイプのベンチマークデータセットで実験を行った。 データ分類,画像分類,つぶやき分類に多層パーセプトロン(MLP),Residual Network(ResNet),Long-Short term memory(LSTM)を用いた。 LiSHTを用いたResNetモデルを用いたCIFAR100データセットの精度はTanh,ReLU,PReLU,LReLU,Swishと比較して9.48,3.40,3.16,4.26,1.17\%向上した。 また,提案する活性化関数をサポートするために,損失景観,重量分布,活性化マップを用いて定性的な結果を示す。

The activation function in neural network introduces the non-linearity required to deal with the complex tasks. Several activation/non-linearity functions are developed for deep learning models. However, most of the existing activation functions suffer due to the dying gradient problem and non-utilization of the large negative input values. In this paper, we propose a Linearly Scaled Hyperbolic Tangent (LiSHT) for Neural Networks (NNs) by scaling the Tanh linearly. The proposed LiSHT is non-parametric and tackles the dying gradient problem. We perform the experiments on benchmark datasets of different type, such as vector data, image data and natural language data. We observe the superior performance using Multi-layer Perceptron (MLP), Residual Network (ResNet) and Long-short term memory (LSTM) for data classification, image classification and tweets classification tasks, respectively. The accuracy on CIFAR100 dataset using ResNet model with LiSHT is improved by 9.48, 3.40, 3.16, 4.26, and 1.17\% as compared to Tanh, ReLU, PReLU, LReLU, and Swish, respectively. We also show the qualitative results using loss landscape, weight distribution and activations maps in support of the proposed activation function.
翻訳日:2023-03-25 04:40:05 公開日:2023-02-17
# 2次元フラストレーションフリースピン系の領域法則

An area law for 2D frustration-free spin systems ( http://arxiv.org/abs/2103.02492v3 )

ライセンス: Link先を確認
Anurag Anshu, Itai Arad, David Gosset(参考訳) 局所的にガッピングされたフラストレーションのない2次元格子スピン系の基底状態の絡み合いエントロピーが、格子の左右領域への垂直二分割に関する領域則を満たすことが証明される。 まず、任意の局所ガッピングされたフラストレーションのない1dスピン系の基底状態プロジェクタは、ハミルトニアンの相互作用項における次数 $o(\sqrt{n\log(\epsilon^{-1})})$ multivariate polynomial によって誤差 $\epsilon$ 内で近似できる。 これはブールと関数の近似次数の最適境界を一般化し、ハミルトニアン項を可換にする特別な場合に対応する。 2次元スピン系に対して、興味の境界付近で最適1次元近似を用いた近似基底状態プロジェクタ(AGSP)を構築する。 このagspは十分低い絡み合いと誤差を有し、既知の手法を用いて領域法を確立する。

We prove that the entanglement entropy of the ground state of a locally gapped frustration-free 2D lattice spin system satisfies an area law with respect to a vertical bipartition of the lattice into left and right regions. We first establish that the ground state projector of any locally gapped frustration-free 1D spin system can be approximated to within error $\epsilon$ by a degree $O(\sqrt{n\log(\epsilon^{-1})})$ multivariate polynomial in the interaction terms of the Hamiltonian. This generalizes the optimal bound on the approximate degree of the boolean AND function, which corresponds to the special case of commuting Hamiltonian terms. For 2D spin systems we then construct an approximate ground state projector (AGSP) that employs the optimal 1D approximation in the vicinity of the boundary of the bipartition of interest. This AGSP has sufficiently low entanglement and error to establish the area law using a known technique.
翻訳日:2023-03-25 03:54:06 公開日:2023-02-17
# 線形クラスター状態からの最大エンタングルメントの抽出

Extracting maximal entanglement from linear cluster states ( http://arxiv.org/abs/2211.16758v2 )

ライセンス: Link先を確認
Jarn de Jong, Frederik Hahn, Nikolay Tcholtchev, Manfred Hauswirth, and Anna Pappa(参考訳) ほとんどの量子情報処理アーキテクチャは、最寄りの絡み合い生成しかできない。 多くの場合、これは多くの通信や計算タスクに一般的に使用される最大絡み合った状態の直接発生を防ぐ。 ここでは、まず、最小数の接続によって接続された頂点間で最大に絡み合ったghz状態を得る方法を示す。 我々は、$n$ qubits 上の線型クラスタ状態が局所クリフォードユニタリ、局所パウリ測度、古典的な補正によって変換できるという最大の GHZ 状態が、$\lfloor (n+3)/2 \rfloor$ であることを示す。 我々は、このしきい値以下でどの量子ビット選択パターンが可能かを正確に示し、最大$n=19$ qubitsの線形クラスタ状態に対する \texttt{IBMQ Montreal} 量子デバイス上で変換を実装した。

Most quantum information processing architectures only allow for nearest-neighbour entanglement creation. In many cases, this prevents the direct generation of maximally entangled states, which are commonly used for many communication and computation tasks. Here we show how to obtain maximally entangled GHZ states between vertices initially connected by a minimum number of connections, which specifically allows them to share linear cluster states. We prove that the largest GHZ state that a linear cluster state on $n$ qubits can be transformed into by means of local Clifford unitaries, local Pauli measurements and classical corrections, is of size $\lfloor (n+3)/2 \rfloor$. We demonstrate exactly which qubit selection patterns are possible below this threshold and which are not, and implement the transformation on the \texttt{IBMQ Montreal} quantum device for linear cluster states of up to $n=19$ qubits.
翻訳日:2023-03-25 03:47:02 公開日:2023-02-17
# 人間検出と追跡のための広汎性フレームワーク

A Pervasive Framework for Human Detection and Tracking ( http://arxiv.org/abs/2303.11170v1 )

ライセンス: Link先を確認
Fesatidis Georgios, Bratsos Dimitrios, Kostas Kolomvatsos(参考訳) Edge Computing(EC)の出現は、多くのノードがエンドユーザに近いデータ収集デバイスと対話できる巨大なエコシステムにつながります。 人間の検出と追跡は、一連のセンサー(例えばカメラ)の助けを借りて、考慮中の領域の監視を行うエッジノードで実現することができる。 我々の目標は、処理能力を高めながらサイズを制限しつつ、エッジに存在する組み込みデバイスに、議論された機能を組み込むことです。 本稿では,対象の軌跡を追跡するアルゴリズムを伴い,人間検出のための2つのモデルを提案する。 提案するモデルの記述を提供し,問題の課題を満たすように拡張する。 本評価は,組込みデバイスで実行するための要求を提示しながら,モデルの精度を識別することを目的としている。

The advent of the Edge Computing (EC) leads to a huge ecosystem where numerous nodes can interact with data collection devices located close to end users. Human detection and tracking can be realized at edge nodes that perform the surveillance of an area under consideration through the assistance of a set of sensors (e.g., cameras). Our target is to incorporate the discussed functionalities to embedded devices present at the edge keeping their size limited while increasing their processing capabilities. In this paper, we propose two models for human detection accompanied by algorithms for tracing the corresponding trajectories. We provide the description of the proposed models and extend them to meet the challenges of the problem. Our evaluation aims at identifying models' accuracy while presenting their requirements to have them executed in embedded devices.
翻訳日:2023-03-25 03:37:37 公開日:2023-02-17
# 少数のエミッタに結合した損失空洞の中間駆動における非対称飽和効果

Unconventional saturation effects at intermediate drive in a lossy cavity coupled to few emitters ( http://arxiv.org/abs/2110.00595v2 )

ライセンス: Link先を確認
Therese Karmstrand, Benjamin Rousseaux, Anton Frisk Kockum, Timur Shegai, G\"oran Johansson(参考訳) 最近の技術進歩により、高い散逸性キャビティ・エミッタシステムにおいて強い光・物質相互作用が可能となった。 しかし、Tavis-Cummingsモデルでよく説明されているこれらの系では、かなりの損失率によって飽和や光子遮断といった多くの望ましい非線形効果の実現が問題となる。 ここでは、Tavis-Cummingsモデル内で発生する別の効果として、中間強度の共振外部駆動に対するキャビティの非線形応答があり、大きなキャビティの散逸率を利用する。 この状態において、$(N+1)$- Photonプロセスはキャビティが$N$エミッターに結合するときに支配される。 我々は,エミッタアンサンブルと外部ドライブとの破壊的干渉による効果について,この効果を詳細に検討し,考察する。 観測された効果の中心条件は大きな協調性であり, キャビティとエミッタの崩壊速度は集合キャビティ-エミッタ相互作用強度の2乗よりもはるかに小さい。 重要なことに、この条件は強い結合を必要としない。 また、その効果が現れる臨界駆動強度の解析的表現も見出す。 我々の結果は、例えば光子フィルタリングのような量子状態工学の可能性を秘めており、エミッタの数が不明なキャビティ・エミッター系のキャラクタリゼーションに使用できる。 特に,我々は,高品質のキャビティや強い結合を必要としない様々なプラットフォームにおける,ユニークな量子光学応用の研究の道を開く。

Recent technological advancements have enabled strong light-matter interaction in highly dissipative cavity-emitter systems. However, in these systems, which are well described by the Tavis-Cummings model, the considerable loss rates render the realization of many desirable nonlinear effects, such as saturation and photon blockade, problematic. Here we present another effect occurring within the Tavis-Cummings model: a nonlinear response of the cavity for resonant external driving of intermediate strength, which makes use of large cavity dissipation rates. In this regime, $(N+1)$-photon processes dominate when the cavity couples to $N$ emitters. We explore and characterize this effect in detail, and provide a picture of how the effect occurs due to destructive interference between the emitter ensemble and the external drive. We find that a central condition for the observed effect is large cooperativity, i.e., the product of the cavity and emitter decay rates is much smaller than the collective cavity-emitter interaction strength squared. Importantly, this condition does not require strong coupling. We also find an analytical expression for the critical drive strength at which the effect appears. Our results have potential for quantum state engineering, e.g., photon filtering, and could be used for the characterization of cavity-emitter systems where the number of emitters is unknown. In particular, our results open the way for investigations of unique quantum-optics applications in a variety of platforms that neither require high-quality cavities nor strong coupling.
翻訳日:2023-03-12 19:45:30 公開日:2023-02-17
# DA-VEGAN:極小データセットからの微細構造再構築のためのVAE-GANの微分増強

DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure reconstruction from extremely small data sets ( http://arxiv.org/abs/2303.03403v1 )

ライセンス: Link先を確認
Yichi Zhang, Paul Seibert, Alexandra Otto, Alexander Ra{\ss}loff, Marreddy Ambati, Markus K\"astner(参考訳) 組織再構築は研究の重要かつ新しい分野であり、逆計算材料工学(ICME)の改善に不可欠な基礎である。 この分野の最近の進歩の多くは、gans(generative adversarial network)に基づいている。 様々な材料で優れた結果が得られたが、モデルの潜在空間の解釈可能性や極めて小さなデータセットの適用性に関する課題は残されている。 本研究は,2つの中心的なイノベーションを持つモデルであるDA-VEGANを導入することで,これらの課題に対処する。 まず、$\beta$-variational autoencoder をハイブリッド GAN アーキテクチャに組み込むことにより、潜在空間の強い非線形性を$\beta$ というパラメータでペナル化することができる。 第二に、このアーキテクチャのために特別にカスタマイズ可能なデータ拡張スキームが開発されている。 この微分可能性により、モデルはモード崩壊やサンプル品質の劣化なしに非常に小さなデータセットから学習することができる。 様々な構造について広範な検証を行い,その方法の可能性と今後の方向性について考察した。

Microstructure reconstruction is an important and emerging field of research and an essential foundation to improving inverse computational materials engineering (ICME). Much of the recent progress in the field is made based on generative adversarial networks (GANs). Although excellent results have been achieved throughout a variety of materials, challenges remain regarding the interpretability of the model's latent space as well as the applicability to extremely small data sets. The present work addresses these issues by introducing DA-VEGAN, a model with two central innovations. First, a $\beta$-variational autoencoder is incorporated into a hybrid GAN architecture that allows to penalize strong nonlinearities in the latent space by an additional parameter, $\beta$. Secondly, a custom differentiable data augmentation scheme is developed specifically for this architecture. The differentiability allows the model to learn from extremely small data sets without mode collapse or deteriorated sample quality. An extensive validation on a variety of structures demonstrates the potential of the method and future directions of investigation are discussed.
翻訳日:2023-03-12 03:50:47 公開日:2023-02-17
# ジュリディシデード a regulamenta\c{c}\~ao dos dark pattern

A Juridicidade a Regulamenta\c{c}\~ao dos Dark Patterns ( http://arxiv.org/abs/2303.03888v1 )

ライセンス: Link先を確認
Heitor Ferreira Gonzaga(参考訳) The evolution of audiovisual computer interfaces was an important milestone for the popularization of the internet without which it is impossible to conceive the use of this technology in modern society However the progress of these interfaces has not taken exclusively beneficial paths for humanity From the beginning of the 21st century onwards an increase in interface design patterns was observed that instead of facilitating navigation harmed users or restricted their decisionmaking capabilities earning them the name of Dark Patterns In view of this the present work aims to address whether Dark Patterns are legal or illegal in the face of Brazilian data protection and consumer law verifying in the absence of specific norms on Dark Patterns the best way to regulate them The research method employed is qualitative analyzing research court cases norms and national and foreign documents on Dark Patterns After addressing its effects its legal development and establishing a definition compatible with Brazilian law it was concluded that although some implementations are capable of producing damage and violating rights in some cases the mere declaration of the illegality of these techniques is an insufficient solution requiring further investigations regarding the hypotheses in which their negative impacts are less apparent or when they are used for beneficial purposes among other unsolved problems Therefore it is suggested that the regulation of Dark Patterns should occur through a system composed of formal laws and regulations of public administration bodies through a multidisciplinary approach that is adaptable to new findings and technologies

The evolution of audiovisual computer interfaces was an important milestone for the popularization of the internet without which it is impossible to conceive the use of this technology in modern society However the progress of these interfaces has not taken exclusively beneficial paths for humanity From the beginning of the 21st century onwards an increase in interface design patterns was observed that instead of facilitating navigation harmed users or restricted their decisionmaking capabilities earning them the name of Dark Patterns In view of this the present work aims to address whether Dark Patterns are legal or illegal in the face of Brazilian data protection and consumer law verifying in the absence of specific norms on Dark Patterns the best way to regulate them The research method employed is qualitative analyzing research court cases norms and national and foreign documents on Dark Patterns After addressing its effects its legal development and establishing a definition compatible with Brazilian law it was concluded that although some implementations are capable of producing damage and violating rights in some cases the mere declaration of the illegality of these techniques is an insufficient solution requiring further investigations regarding the hypotheses in which their negative impacts are less apparent or when they are used for beneficial purposes among other unsolved problems Therefore it is suggested that the regulation of Dark Patterns should occur through a system composed of formal laws and regulations of public administration bodies through a multidisciplinary approach that is adaptable to new findings and technologies
翻訳日:2023-03-12 03:40:16 公開日:2023-02-17
# 情報統合・自動化・分析・持続性に着目した次世代デジタル調達ワークスペース

A Next-Generation Digital Procurement Workspace Focusing on Information Integration, Automation, Analytics, and Sustainability ( http://arxiv.org/abs/2303.03882v1 )

ライセンス: Link先を確認
Jan-David St\"utz, Oliver Karras, Allard Oelen, and S\"oren Auer(参考訳) 戦争、制裁、パンデミック、気候変動などの最近の出来事は、適切な供給ネットワーク管理の重要性を示している。 供給ネットワークを管理するための重要なステップは調達である。 本稿では,レジリエンスと持続可能性の促進を目的とした次世代調達作業空間を実現するためのアプローチを提案する。 これを実現するために、このアプローチは、新しい情報統合方法、自動化ツール、分析技術を含んでいる。 その結果、サプライチェーンに沿ってサステナビリティスコアを構成し、集約する環境影響の観点から、調達を見ることができる。 我々は,グローバルなFortune 500企業で使用されているアプローチの実装を提案し,提示する。 さらに,新規調達プラットフォームの利害関係者との詳細なインタビューを行い,その妥当性,ユーザビリティ,革新性を検証した経験的評価研究の結果を示す。

Recent events such as wars, sanctions, pandemics, and climate change have shown the importance of proper supply network management. A key step in managing supply networks is procurement. We present an approach for realizing a next-generation procurement workspace that aims to facilitate resilience and sustainability. To achieve this, the approach encompasses a novel way of information integration, automation tools as well as analytical techniques. As a result, the procurement can be viewed from the perspective of the environmental impact, comprising and aggregating sustainability scores along the supply chain. We suggest and present an implementation of our approach, which is meanwhile used in a global Fortune 500 company. We further present the results of an empirical evaluation study, where we performed in-depth interviews with the stakeholders of the novel procurement platform to validate its adequacy, usability, and innovativeness.
翻訳日:2023-03-12 03:39:21 公開日:2023-02-17
# 友人に関するwignerの不完全な情報に基づくno-go定理

No-go theorem based on incomplete information of Wigner about his friend ( http://arxiv.org/abs/2111.15010v3 )

ライセンス: Link先を確認
Zhen-Peng Xu, Jonathan Steinberg, H. Chau Nguyen, Otfried G\"uhne(参考訳) 測定の概念は量子力学における多くの議論の中心である。 1つの重要な点は、測定を絶対事象と見なすことができ、あらゆる観測者に可逆的に同じ結果を与えるかどうかである。 ウィグナーの友人のゲダンケンの実験から、絶対事象としての測定に関する局所性や超決定論の仮定と組み合わせると、量子力学の普遍的妥当性とは相容れないことが議論されている。 測定イベントは、結果が部分的に観察されただけで、観測者に相対的に実現されているか? 我々は、非超決定論と局所性の自然な仮定と相まって、この仮定が量子力学の普遍的妥当性とも相容れないことを示すプロトコルを提案した。

The notion of measurements is central for many debates in quantum mechanics. One critical point is whether a measurement can be regarded as an absolute event, giving the same result for any observer in an irreversible manner. Using ideas from the gedankenexperiment of Wigner's friend it has been argued that, when combined with the assumptions of locality and no-superdeterminism, regarding a measurement as an absolute event is incompatible with the universal validity of quantum mechanics. We consider a weaker assumption: is the measurement event realised relatively to the observer when he only partially observed the outcome. We proposed a protocol to show that this assumption putting in conjunction with the natural assumptions of no-superdeterminism and locality is also not compatible with the universal validity of quantum mechanics.
翻訳日:2023-03-06 09:04:29 公開日:2023-02-17
# sleep model --次の睡眠ステージを予測するシーケンスモデル

Sleep Model -- A Sequence Model for Predicting the Next Sleep Stage ( http://arxiv.org/abs/2302.12709v1 )

ライセンス: Link先を確認
Iksoo Choi and Wonyong Sung(参考訳) 特に単チャンネル脳波(EEG)、脳電図(EOG)、筋電図(EMG)、心電図(ECG)といった単純なセンサーを用いた睡眠段階分類が注目されている。 本研究では,次の睡眠ステージを予測し,睡眠分類精度を向上させるための睡眠モデルを提案する。 睡眠モデルはスリープシーケンスデータを使用して構築され、統計的に$n$-gramまたはディープニューラルネットワークベースのモデルを採用した。 センサからの情報と睡眠モデルを組み合わせるためにビームサーチデコーディングを開発した。 さらに,Long Short-term memory (LSTM) Recurrent Neural Network (RNN) を用いた睡眠モデルの性能評価を行い,EOGセンサを用いた睡眠ステージ分類の改善を実証した。 発達した睡眠モデルは、特に脳波センサーがない場合に睡眠段階分類の精度を著しく向上させた。

As sleep disorders are becoming more prevalent there is an urgent need to classify sleep stages in a less disturbing way.In particular, sleep-stage classification using simple sensors, such as single-channel electroencephalography (EEG), electrooculography (EOG), electromyography (EMG), or electrocardiography (ECG) has gained substantial interest. In this study, we proposed a sleep model that predicts the next sleep stage and used it to improve sleep classification accuracy. The sleep models were built using sleep-sequence data and employed either statistical $n$-gram or deep neural network-based models. We developed beam-search decoding to combine the information from the sensor and the sleep models. Furthermore, we evaluated the performance of the $n$-gram and long short-term memory (LSTM) recurrent neural network (RNN)-based sleep models and demonstrated the improvement of sleep-stage classification using an EOG sensor. The developed sleep models significantly improved the accuracy of sleep-stage classification, particularly in the absence of an EEG sensor.
翻訳日:2023-03-05 05:48:30 公開日:2023-02-17
# 生成人工知能(AI)とインターネットの組み合わせ:進化か劣化か?

Combining Generative Artificial Intelligence (AI) and the Internet: Heading towards Evolution or Degradation? ( http://arxiv.org/abs/2303.01255v1 )

ライセンス: Link先を確認
Gonzalo Mart\'inez, Lauren Watson, Pedro Reviriego, Jos\'e Alberto Hern\'andez, Marc Juarez, Rik Sarkar(参考訳) 数ヶ月の間に、現実的な画像やテキストを生成する生成人工知能(AI)ツールがインターネットを急襲し、これまでで最も急速に普及したテクノロジーの1つになった。 DALL-E、MidJourney、ChatGPTなどのジェネレーティブAIツールは、広く一般に知られるようになった。 興味深いことに、これらのツールはインターネットで利用可能な膨大なデータ(テキストと画像)のために可能である。 これらのツールは、インターネットサイトからスクラップされた巨大なデータセットでトレーニングされる。 そして今、これらの生成AIツールは、インターネットに送られてくる膨大な量の新しいデータを生み出している。 そのため、生成AIツールの将来のバージョンは、オリジナルデータとAI生成データを組み合わせたインターネットデータでトレーニングされる。 時間が経つにつれ、さまざまなバージョンのAIツールによって生成された元のデータとデータの混合がインターネットに現れる。 生成するAIツールの将来のバージョンは、実データとAI生成データを混合してトレーニングした場合、どのように振る舞うのか? 新しいデータセットで進化するか、退化するのか? 進化は世代別AIツールにバイアスをもたらすのだろうか? 本稿では,これらの質問を探索し,簡単な画像生成AIツールを用いたシミュレーション結果について報告する。 これらの結果から,生成画像の品質は,より多くのai生成データがトレーニングに使用されることで劣化し,生成aiが変性する可能性が示唆された。 これらの結果は予備的であり、さらなる研究なしには一般化できないが、生成AIとインターネットの相互作用の潜在的な問題を説明するのに役立つ。

In the span of a few months, generative Artificial Intelligence (AI) tools that can generate realistic images or text have taken the Internet by storm, making them one of the technologies with fastest adoption ever. Some of these generative AI tools such as DALL-E, MidJourney, or ChatGPT have gained wide public notoriety. Interestingly, these tools are possible because of the massive amount of data (text and images) available on the Internet. The tools are trained on massive data sets that are scraped from Internet sites. And now, these generative AI tools are creating massive amounts of new data that are being fed into the Internet. Therefore, future versions of generative AI tools will be trained with Internet data that is a mix of original and AI-generated data. As time goes on, a mixture of original data and data generated by different versions of AI tools will populate the Internet. This raises a few intriguing questions: how will future versions of generative AI tools behave when trained on a mixture of real and AI generated data? Will they evolve with the new data sets or degenerate? Will evolution introduce biases in subsequent generations of generative AI tools? In this document, we explore these questions and report some very initial simulation results using a simple image-generation AI tool. These results suggest that the quality of the generated images degrades as more AI-generated data is used for training thus suggesting that generative AI may degenerate. Although these results are preliminary and cannot be generalised without further study, they serve to illustrate the potential issues of the interaction between generative AI and the Internet.
翻訳日:2023-03-05 05:35:45 公開日:2023-02-17
# HLSDataset:高レベル合成を用いたML支援FPGA設計のためのオープンソースデータセット

HLSDataset: Open-Source Dataset for ML-Assisted FPGA Design using High Level Synthesis ( http://arxiv.org/abs/2302.10977v1 )

ライセンス: Link先を確認
Zhigang Wei, Aman Arora, Lizy K. John(参考訳) 機械学習(ML)は、高レベル合成(HLS)を用いた設計探索において、FPGAベースの設計のごく初期段階において、より良く高速な性能とリソースと電力推定を提供するために広く採用されている。 mlモデルのトレーニングには、高精度かつ大容量のデータセットが必要となる。本論文は、hlsを用いたml支援fpga設計のためのデータセットであるhlsdatasetを提案する。 データセットはPolybench、Machsuite、CHStone、Rossettaなど、広く使用されているHLS Cベンチマークから生成される。 verilogのサンプルはループアンロール、ループパイプライン、配列パーティションなど様々なディレクティブで生成され、最適化され現実的なデザインがカバーされる。 生成されたVerilogサンプルの総数はFPGAタイプあたり9000近い。 本データセットの有効性を実証するため,本データセットで訓練したMLモデルを用いて,電力推定と資源使用量推定を行うケーススタディを行った。 すべてのコードとデータセットはgithubリポジトリで公開されています。HLSDatasetは、ツールの実行やスクリプティング、解析といった面倒なプロセスを回避し、データセットを生成することで、研究者にとって貴重な時間を節約できると考えています。

Machine Learning (ML) has been widely adopted in design exploration using high level synthesis (HLS) to give a better and faster performance, and resource and power estimation at very early stages for FPGA-based design. To perform prediction accurately, high-quality and large-volume datasets are required for training ML models.This paper presents a dataset for ML-assisted FPGA design using HLS, called HLSDataset. The dataset is generated from widely used HLS C benchmarks including Polybench, Machsuite, CHStone and Rossetta. The Verilog samples are generated with a variety of directives including loop unroll, loop pipeline and array partition to make sure optimized and realistic designs are covered. The total number of generated Verilog samples is nearly 9,000 per FPGA type. To demonstrate the effectiveness of our dataset, we undertake case studies to perform power estimation and resource usage estimation with ML models trained with our dataset. All the codes and dataset are public at the github repo.We believe that HLSDataset can save valuable time for researchers by avoiding the tedious process of running tools, scripting and parsing files to generate the dataset, and enable them to spend more time where it counts, that is, in training ML models.
翻訳日:2023-02-26 13:32:53 公開日:2023-02-17
# ChatGPTのような生成AIモデルは、SPCの実践、教育、研究でどのように(ミス)利用できるか? 探索的な研究

How Generative AI models such as ChatGPT can be (Mis)Used in SPC Practice, Education, and Research? An Exploratory Study ( http://arxiv.org/abs/2302.10916v1 )

ライセンス: Link先を確認
Fadel M. Megahed and Ying-Ju Chen and Joshua A. Ferris and Sven Knoth and L. Allison Jones-Farmer(参考訳) OpenAIのChatGPTのような生成人工知能(AI)モデルは、統計的プロセス制御(SPC)の実践、学習、研究に革命をもたらす可能性がある。 しかし、これらのツールは開発の初期段階にあり、簡単に誤用したり誤解したりすることができる。 本稿では,生成型AIの開発について概説する。 具体的には、ChatGPTがコードを提供し、基本的な概念を説明し、SPCの実践、学習、研究に関する知識を創造する能力を探求する。 構造化されたプロンプトに対する応答を調べることで、結果の利点と限界を強調します。 我々の研究は、ChatGPTの現行バージョンが、ある言語から別の言語へのコード翻訳やよく知られた概念の説明など、構造化されたタスクに対してうまく機能していることを示唆している。 新しいaiツールを使うことは、実践者、教育者、研究者がより効率的で生産的になるのに役立つ。 しかしながら、現在の開発段階では、いくつかの結果は誤解を招き、間違っています。 全体として、SPCにおける生成AIモデルの使用は、正確な結果を保証するために、他の方法とともに適切に検証され、使用される必要がある。

Generative Artificial Intelligence (AI) models such as OpenAI's ChatGPT have the potential to revolutionize Statistical Process Control (SPC) practice, learning, and research. However, these tools are in the early stages of development and can be easily misused or misunderstood. In this paper, we give an overview of the development of Generative AI. Specifically, we explore ChatGPT's ability to provide code, explain basic concepts, and create knowledge related to SPC practice, learning, and research. By investigating responses to structured prompts, we highlight the benefits and limitations of the results. Our study indicates that the current version of ChatGPT performs well for structured tasks, such as translating code from one language to another and explaining well-known concepts but struggles with more nuanced tasks, such as explaining less widely known terms and creating code from scratch. We find that using new AI tools may help practitioners, educators, and researchers to be more efficient and productive. However, in their current stages of development, some results are misleading and wrong. Overall, the use of generative AI models in SPC must be properly validated and used in conjunction with other methods to ensure accurate results.
翻訳日:2023-02-26 13:32:30 公開日:2023-02-17
# コンフォーメータは、視覚的な音声認識に必要なすべてです。

Conformers are All You Need for Visual Speech Recogntion ( http://arxiv.org/abs/2302.10915v1 )

ライセンス: Link先を確認
Oscar Chang, Hank Liao, Dmitriy Serdyuk, Ankit Shah, Olivier Siohan(参考訳) 視覚音声認識モデルは階層的に視覚特徴を抽出する。 下層には、唇や顔を描いた生のピクセルを処理する、限られた時間的受容野を持つ視覚フロントエンドがある。 より高いレベルでは、大きな時間的受容体の上にフロントエンドによって生成される埋め込みに対応するエンコーダがある。 従来の研究は、音声認識に有用な特徴を抽出するためにモデルの視覚的フロントエンドを改善することに重点を置いてきた。 驚くべきことに、我々の研究は複雑な視覚的フロントエンドは必要ないことを示している。 高度なビジュアルフロントエンドにリソースを割り当てる代わりに、より大規模なコンフォーマーエンコーダと組み合わせた線形ビジュアルフロントエンドが低レイテンシ、より効率的なメモリ使用量、WER性能の向上をもたらすことがわかった。 TED LRS3データセットでは、わずか4年前のオーディオのみのモデルのパフォーマンスに匹敵する、視覚音声認識のための新しい最先端のWERを、12.8セントで実現しています。

Visual speech recognition models extract visual features in a hierarchical manner. At the lower level, there is a visual front-end with a limited temporal receptive field that processes the raw pixels depicting the lips or faces. At the higher level, there is an encoder that attends to the embeddings produced by the front-end over a large temporal receptive field. Previous work has focused on improving the visual front-end of the model to extract more useful features for speech recognition. Surprisingly, our work shows that complex visual front-ends are not necessary. Instead of allocating resources to a sophisticated visual front-end, we find that a linear visual front-end paired with a larger Conformer encoder results in lower latency, more efficient memory usage, and improved WER performance. We achieve a new state-of-the-art of $12.8\%$ WER for visual speech recognition on the TED LRS3 dataset, which rivals the performance of audio-only models from just four years ago.
翻訳日:2023-02-26 13:32:08 公開日:2023-02-17
# ディープラーニングによる予測

Forecasting with Deep Learning ( http://arxiv.org/abs/2302.12027v1 )

ライセンス: Link先を確認
Gissel Velarde(参考訳) 本稿では,ディープラーニングを用いた時系列予測手法とその2つのデータセットに対する評価について述べる。 この方法はデータ準備から始まり、その後モデルトレーニングと評価が行われる。 最後のステップは視覚的な検査です。 実験研究は、データセット内の時系列が特定の変動でも繰り返されるパターンを含む場合、ディープラーニングネットワークのトレーニングに1つの時系列が使用できることを示した。 しかし、株式市場の閉鎖価格のような構造的でない時系列では、ネットワークは最後の観測値を繰り返したベースラインのように振る舞う。 このメソッドの実装と実験はオープンソースである。

This paper presents a method for time series forecasting with deep learning and its assessment on two datasets. The method starts with data preparation, followed by model training and evaluation. The final step is a visual inspection. Experimental work demonstrates that a single time series can be used to train deep learning networks if time series in a dataset contain patterns that repeat even with a certain variation. However, for less structured time series such as stock market closing prices, the networks perform just like a baseline that repeats the last observed value. The implementation of the method as well as the experiments are open-source.
翻訳日:2023-02-26 13:14:16 公開日:2023-02-17
# 異なる次元化手法と変換領域の機械学習を用いたてんかん発作の検出

Detection of Epilepsy Seizure using Different Dimensionality Reduction Techniques and Machine Learning on Transform Domain ( http://arxiv.org/abs/2302.12012v1 )

ライセンス: Link先を確認
Rabel Guharoy, Nanda Dulal Jana and Suparna Biswas(参考訳) 脳波(Electroencephalogram、EEG)は、脳の電気活動を記録する非侵襲的な検査である。 この試験は、異なる脳疾患などの疾患の診断に使用される。 脳波信号はてんかん検出のためのもので、離散ウェーブレット変換(DWT)と機械学習分類器を用いてててんかん検出を行う。 てんかん発作検出では、主に機械学習分類器と統計的特徴を用いる。 脳波信号の隠れた情報は、脳に影響を及ぼす疾患を検出するのに有用である。 時と周波数領域の目的における脳波の最小変化を特定するのは非常に困難である。 dwtは周波数帯域の異なる信号の分解と特徴抽出を良好に行うことができる。 3次元性低減アルゴリズムを用いる。 主成分分析(PCA)、独立成分分析(ICA)、線形識別分析(LDA)。 最後に、融合ルールを用いて特徴を選定し、最後のステップでは、SVM(Support Vector Machine)、NB(Naive Bayes)、KNN(K-Nearest-Neighbor)の3つの異なる分類器を用いた。 提案手法はBonnデータセット上でテストされ,シミュレーション結果から10倍のクロスバリデーション手法におけるLDAとNBの組み合わせの最大精度が得られた。 平均感度、特異性、正確性、正確性、リコールの最大値は100%、100%、100%、100%、100%である。 その結果、このモデルの有効性が証明された。

An Electroencephalogram (EEG) is a non-invasive exam that records the electrical activity of the brain. This exam is used to help diagnose conditions such as different brain problems. EEG signals are taken for the purpose of epilepsy detection and with Discrete Wavelet Transform (DWT) and machine learning classifier, they perform epilepsy detection. In Epilepsy seizure detection, mainly machine learning classifiers and statistical features are used. The hidden information in the EEG signal is useful for detecting diseases affecting the brain. Sometimes it is very difficult to identify the minimum changes in the EEG in time and frequency domains purpose. The DWT can give a good decomposition of the signals in different frequency bands and feature extraction. We use the tri-dimensionality reduction algorithm.; Principal Component Analysis (PCA), Independent Component Analysis (ICA) and Linear Discriminant Analysis (LDA). Finally, features are selected by using a fusion rule and at the last step three different classifiers Support Vector Machine (SVM), Naive Bayes (NB) and K-Nearest-Neighbor (KNN) has been used for the classification. The proposed framework is tested on the Bonn dataset and the simulation results provide the maximum accuracy for the combination of LDA and NB for 10-fold cross validation technique. It shows the maximum average sensitivity, specificity, accuracy, Precision and Recall of 100%, 100%, 100%, 100% and 100%. The results prove the effectiveness of this model.
翻訳日:2023-02-26 13:12:56 公開日:2023-02-17
# 計量調整スキュー情報の不確実性関係に関する一考察

A note on uncertainty relations of metric-adjusted skew information ( http://arxiv.org/abs/2203.01109v2 )

ライセンス: Link先を確認
Qing-Hua Zhang, Jing-Feng Wu, Xiaoyu Ma and Shao-Ming Fei(参考訳) 不確実性原理は量子力学の基本的な特徴の1つであり、量子情報処理において重要な役割を果たす。 有限量子オブザーバブルに対する計量調整スキュー情報に基づく不確実性関係について検討する。 論文[Physical Review A 104, 052414 (2021)]に動機付け, 基準の不等式の違いから, より厳密な不確実性関係を確立する。 自然に、量子チャネルとユニタリ作用素の計量調整スキュー情報の不確かさ関係にこの手法を一般化する。 wigner-yaase-dysonスキュー情報とquantum fisher情報の両方が、異なるモロゾヴァ-チェンツォフ関数に対応する計量調整スキュー情報の特別な場合であるので、既存の不確実性関係を一般化する。 我々の手法の利点を説明するための詳細な例を挙げる。

The uncertainty principle is one of the fundamental features of quantum mechanics and plays a vital role in quantum information processing. We study uncertainty relations based on metric-adjusted skew information for finite quantum observables. Motivated by the paper [Physical Review A 104, 052414 (2021)], we establish tighter uncertainty relations in terms of different norm inequalities. Naturally, we generalize the method to uncertainty relations of metric-adjusted skew information for quantum channels and unitary operators. As both the Wigner-Yanase-Dyson skew information and the quantum Fisher information are the special cases of the metric-adjusted skew information corresponding to different Morozova-Chentsov functions, our results generalize some existing uncertainty relations. Detailed examples are given to illustrate the advantages of our methods.
翻訳日:2023-02-23 08:01:03 公開日:2023-02-17
# DTAAD:多変量時系列データにおける異常検出のためのデュアルTcnアテンションネットワーク

DTAAD: Dual Tcn-Attention Networks for Anomaly Detection in Multivariate Time Series Data ( http://arxiv.org/abs/2302.10753v1 )

ライセンス: Link先を確認
Lingrui Yu(参考訳) 異常検出技術は、今日の産業用途において重要な多変量時系列データにおける効果的な異常検出と診断を可能にする。 しかしながら、異常タグの欠如、データの高次元の複雑さ、実際のハードウェアにおけるメモリボトルネック、高速な推論の必要性などにより、迅速かつ正確な位置決めが可能な異常検出システムの構築は難しい課題である。 本稿では,Transformer と Dual TCN に基づく異常検出および診断モデル DTAAD を提案する。 我々の全体モデルは、ARがAE構造を組み合わせた統合設計であり、予測精度を改善し、相関差を拡大するスケーリング手法とフィードバック機構を導入します。 我々の構築したDual TCN-Attention Network(DTA)は,超軽量モデルに属するベースライン実験において,トランスフォーマーエンコーダの単一層のみを使用する。 6つの公開データセットに関する広範な実験により、DTAADは検出と診断の両方のパフォーマンスにおいて、現在の最先端のベースラインメソッドを超えていることが確認された。 具体的には、DTAADはF1スコアを8.38 %$に改善し、トレーニング時間をベースラインと比較して99 %$に短縮した。 コードとトレーニングスクリプトはGitHubでhttps://github.com/Yu-Lingrui/DTAADで公開されている。

Anomaly detection techniques enable effective anomaly detection and diagnosis in multi-variate time series data, which are of major significance for today's industrial applications. However, establishing an anomaly detection system that can be rapidly and accurately located is a challenging problem due to the lack of outlier tags, the high dimensional complexity of the data, memory bottlenecks in the actual hardware, and the need for fast reasoning. We have proposed an anomaly detection and diagnosis model--DTAAD in this paper, based on Transformer and Dual TCN. Our overall model will be an integrated design in which AR combines AE structures, introducing scaling methods and feedback mechanisms to improve prediction accuracy and expand correlation differences. The Dual TCN-Attention Network(DTA) constructed by us only uses a single layer of Transformer encoder in our baseline experiment, which belongs to an ultra-lightweight model. Our extensive experiments on six publicly datasets validate that DTAAD exceeds current most advanced baseline methods in both detection and diagnostic performance. Specifically, DTAAD improved F1 scores by $8.38\%$, and reduced training time by $99\%$ compared to baseline. The code and training scripts are publicly on GitHub at https://github.com/Yu-Lingrui/DTAAD.
翻訳日:2023-02-22 14:35:16 公開日:2023-02-17
# 無線ネットワーク上での非IIDフェデレーション学習のためのクラスタデータ共有

Clustered Data Sharing for Non-IID Federated Learning over Wireless Networks ( http://arxiv.org/abs/2302.10747v1 )

ライセンス: Link先を確認
Gang Hu, Yinglei Teng, Nan Wang, F. Richard Yu(参考訳) Federated Learning(FL)は、IoT(Internet of Things)デバイスのデータをデータプライバシを維持しながら活用する、新たな分散機械学習アプローチである。 しかし、現在のflアルゴリズムは、非独立かつ同一分散(非iid)データの課題に直面しているため、高い通信コストとモデルの精度が低下する。 FLにおける統計的不均衡に対処するため、デバイス間通信(D2D)を介してクラスタヘッドから信頼性のあるアソシエイトへの部分的データを回避できるクラスタデータ共有フレームワークを提案する。 さらに,ノード上のデータを分割することを目的として,プライバシ保存制約付きグラフに基づく統合クラスタリングとデータ共有問題を定式化する。 グラフ上の決定の真剣なカップリングに対処するため,3つの帰納的クラスタ形成条件に基づく分散型適応クラスタリングアルゴリズム(DACA)を考案し,データ共有の最大収量を確保する。 実験により,本フレームワークは,限られた通信環境下での収束性やモデル精度が向上した非IIDデータセット上でFLを促進することを示した。

Federated Learning (FL) is a novel distributed machine learning approach to leverage data from Internet of Things (IoT) devices while maintaining data privacy. However, the current FL algorithms face the challenges of non-independent and identically distributed (non-IID) data, which causes high communication costs and model accuracy declines. To address the statistical imbalances in FL, we propose a clustered data sharing framework which spares the partial data from cluster heads to credible associates through device-to-device (D2D) communication. Moreover, aiming at diluting the data skew on nodes, we formulate the joint clustering and data sharing problem based on the privacy-preserving constrained graph. To tackle the serious coupling of decisions on the graph, we devise a distribution-based adaptive clustering algorithm (DACA) basing on three deductive cluster-forming conditions, which ensures the maximum yield of data sharing. The experiments show that the proposed framework facilitates FL on non-IID datasets with better convergence and model accuracy under a limited communication environment.
翻訳日:2023-02-22 14:34:15 公開日:2023-02-17
# モデルロバスト性向上のための新しいノイズ注入型トレーニングスキーム

A Novel Noise Injection-based Training Scheme for Better Model Robustness ( http://arxiv.org/abs/2302.10802v1 )

ライセンス: Link先を確認
Zeliang Zhang, Jinyang Jiang, Minjie Chen, Zhiyuan Wang, Yijie Peng, Zhaofei Yu(参考訳) ノイズインジェクションに基づく手法は, 従来の研究において, 人工ニューラルネットワークの堅牢性を向上できることが示されている。 本研究では,モデルロバスト性向上のための新しいノイズ注入方式を提案する。 具体的には,まず,確率的勾配降下訓練において,シナプス重みと雑音レベルの両方について勾配を推定する確率比法を考案する。 そして,バニラノイズ注入に基づく学習手法の近似を設計し,メモリ削減と計算効率の向上を図る。 次に,提案手法をスパイキングニューラルネットワークに適用し,mnistおよびファッションmnistデータセットの分類精度とロバスト性を評価する。 実験結果から,本手法は従来の勾配学習法と比較して,対向的強靭性よりも性能が向上し,元の精度も若干向上していることがわかった。

Noise injection-based method has been shown to be able to improve the robustness of artificial neural networks in previous work. In this work, we propose a novel noise injection-based training scheme for better model robustness. Specifically, we first develop a likelihood ratio method to estimate the gradient with respect to both synaptic weights and noise levels for stochastic gradient descent training. Then, we design an approximation for the vanilla noise injection-based training method to reduce memory and improve computational efficiency. Next, we apply our proposed scheme to spiking neural networks and evaluate the performance of classification accuracy and robustness on MNIST and Fashion-MNIST datasets. Experiment results show that our proposed method achieves a much better performance on adversarial robustness and slightly better performance on original accuracy, compared with the conventional gradient-based training method.
翻訳日:2023-02-22 14:26:45 公開日:2023-02-17
# GreenAIの新しいベースライン:レイヤとチャネルプルーニングによる最適サブネットワークの探索

A New Baseline for GreenAI: Finding the Optimal Sub-Network via Layer and Channel Pruning ( http://arxiv.org/abs/2302.10798v1 )

ライセンス: Link先を確認
Xiaoying Zhi, Varun Babbar, Pheobe Sun, Fran Silavong, Ruibo Shi, Sean Moran(参考訳) 最近の大規模で複雑なニューラルネットワークモデルの動向を考えると、グリーンAIの概念はディープラーニングコミュニティ内で注目を集めている。 数十億のパラメータを持つ大規模なモデルでは、トレーニングに最大数百GPU/TPU日を要する。 推定エネルギー消費量は、標準的な家庭の年間総エネルギー消費量に匹敵する。 計算負荷を減らすための既存のソリューションは、通常、ネットワークパラメータをプルーニングするが、静的プルーニングや動的プルーニンググラフの繰り返し計算の反復的なトレーニングや微調整によって、余分なオーバーヘッドを生じることが多い。 本稿では,ダウンストリームタスクにおける全ネットワークに匹敵する性能を維持しつつ,エネルギーコストを最小限に抑える軽量サブネットワーク群を効果的に発見する新しいパラメータ解析手法を提案する。 提案手法はグリーン指向であり,動的プルーニング法により最適な静的サブネットワークを発見するためには,ワンオフトレーニングのみが必要となる。 プルーニング方式は、軽量で微分可能で二項化されたゲーティングモジュールと、ユーザが定義した間隔でサブネットワークを明らかにするための新しい損失関数から構成される。 提案手法は,訓練段階と推論段階の両方でエネルギーを節約し,演算オーバーヘッドの増大を回避し,同時に刈り取り訓練を可能にする。 CIFAR-10 と CIFAR-100 で得られた結果から,分類精度を1% 削減したディープネットワークにおけるコネクションの約50%を除去できることが示唆された。 本手法は他のプルーニング法と比較して,計算コストの等価化に対する精度低下が低い。

The concept of Green AI has been gaining attention within the deep learning community given the recent trend of ever larger and more complex neural network models. Some large models have billions of parameters causing the training time to take up to hundreds of GPU/TPU-days. The estimated energy consumption can be comparable to the annual total energy consumption of a standard household. Existing solutions to reduce the computational burden usually involve pruning the network parameters, however, they often create extra overhead either by iterative training and fine-tuning for static pruning or repeated computation of a dynamic pruning graph. We propose a new parameter pruning strategy that finds the effective group of lightweight sub-networks that minimizes the energy cost while maintaining comparable performances to the full network on given downstream tasks. Our proposed pruning scheme is green-oriented, such that the scheme only requires one-off training to discover the optimal static sub-networks by dynamic pruning methods. The pruning scheme consists of a lightweight, differentiable, and binarized gating module and novel loss functions to uncover sub-networks with user-defined sparsity. Our method enables pruning and training simultaneously, which saves energy in both the training and inference phases and avoids extra computational overhead from gating modules at inference time. Our results on CIFAR-10 and CIFAR-100 suggest that our scheme can remove ~50% of connections in deep networks with <1% reduction in classification accuracy. Compared to other related pruning methods, our method has a lower accuracy drop for equivalent reductions in computational costs.
翻訳日:2023-02-22 14:26:31 公開日:2023-02-17
# マルチモーダルデータを用いた貧困マップ推論による富分布の解釈

Interpreting wealth distribution via poverty map inference using multimodal data ( http://arxiv.org/abs/2302.10793v1 )

ライセンス: Link先を確認
Lisette Esp\'in-Noboa, J\'anos Kert\'esz, and M\'arton Karsai(参考訳) 貧困マップは、政府やNGOが社会経済の変化を追跡し、必要な場所でインフラやサービスを適切に割り当てるために必要なツールである。 センサとオンラインクラウドソースのデータと機械学習の手法が組み合わさって、貧困マップ推論のブレークスルーとなった。 しかし、これらの手法は地域の富の変動を捉えておらず、全てのサブ人口に対する正確な予測を保証する説明可能な結果を生み出すように最適化されていない。 本稿では,複数の地理的に分布する地域における富の平均および標準偏差を推定する機械学習モデルのパイプラインを提案し,シエラレオネとウガンダでの性能を示す。 これらのモデルは、衛星画像とオンラインのクラウドソーシングとソーシャルメディアで収集されたメタデータに基づいて、7つの独立して自由に利用可能な機能ソースを利用する。 我々のモデルでは、メタデータの組み合わせが農村部で最も富を予測し、画像ベースのモデルより優れていることが示されています。 その結果,地域平均と富の変動を再現し,その正の非単調な相関を正しく捉えた。 さらに、各国間でのモデル転送の能力と限界、およびデータレジェンシーや他のバイアスの影響を実証する。 我々の方法論は、政府やNGOがデータ可用性、都市化レベル、貧困のしきい値に基づいて情報的決定を行うのを助けるために、より透明で解釈可能なモデルを構築するためのオープンなツールを提供する。

Poverty maps are essential tools for governments and NGOs to track socioeconomic changes and adequately allocate infrastructure and services in places in need. Sensor and online crowd-sourced data combined with machine learning methods have provided a recent breakthrough in poverty map inference. However, these methods do not capture local wealth fluctuations, and are not optimized to produce accountable results that guarantee accurate predictions to all sub-populations. Here, we propose a pipeline of machine learning models to infer the mean and standard deviation of wealth across multiple geographically clustered populated places, and illustrate their performance in Sierra Leone and Uganda. These models leverage seven independent and freely available feature sources based on satellite images, and metadata collected via online crowd-sourcing and social media. Our models show that combined metadata features are the best predictors of wealth in rural areas, outperforming image-based models, which are the best for predicting the highest wealth quintiles. Our results recover the local mean and variation of wealth, and correctly capture the positive yet non-monotonous correlation between them. We further demonstrate the capabilities and limitations of model transfer across countries and the effects of data recency and other biases. Our methodology provides open tools to build towards more transparent and interpretable models to help governments and NGOs to make informed decisions based on data availability, urbanization level, and poverty thresholds.
翻訳日:2023-02-22 14:25:33 公開日:2023-02-17
# スムーズに諦める:単純なモデルの堅牢性

Smoothly Giving up: Robustness for Simple Models ( http://arxiv.org/abs/2302.09114v1 )

ライセンス: Link先を確認
Tyler Sypherd, Nathan Stromberg, Richard Nock, Visar Berisha, and Lalitha Sankar(参考訳) 解釈可能で、エネルギーと計算コスト(医療分析や連合学習など)を削減できるモデルの必要性が高まっている。 このようなモデルをトレーニングするアルゴリズムの例としては、ロジスティック回帰とブースティングがある。 しかし、これらのアルゴリズムが直面する課題の一つは、ラベルノイズに苦しんでいることであり、これはoftで使われる凸損失関数とより単純な仮説クラスとの相互作用が原因であり、結果として外れ値に重きを置きすぎている。 本研究では、正準凸損失と準凸損失を連続的に調律するマージンベースの$\alpha$-lossを用いて、単純なモデルを堅牢に訓練する。 我々は、$\alpha$ hyperparameterが非凸性を円滑に導入し、ノイズの多いトレーニング例で"感謝"する利点を提供することを示した。 また、ロジスティック回帰のためのLong-ServedioデータセットとCOVID-19調査データセットも提供し、複数の関連ドメインにわたるアプローチの有効性を強調した。

There is a growing need for models that are interpretable and have reduced energy and computational cost (e.g., in health care analytics and federated learning). Examples of algorithms to train such models include logistic regression and boosting. However, one challenge facing these algorithms is that they provably suffer from label noise; this has been attributed to the joint interaction between oft-used convex loss functions and simpler hypothesis classes, resulting in too much emphasis being placed on outliers. In this work, we use the margin-based $\alpha$-loss, which continuously tunes between canonical convex and quasi-convex losses, to robustly train simple models. We show that the $\alpha$ hyperparameter smoothly introduces non-convexity and offers the benefit of "giving up" on noisy training examples. We also provide results on the Long-Servedio dataset for boosting and a COVID-19 survey dataset for logistic regression, highlighting the efficacy of our approach across multiple relevant domains.
翻訳日:2023-02-21 20:27:45 公開日:2023-02-17
# 図形ディリクレ過程

Graphical Dirichlet Process ( http://arxiv.org/abs/2302.09111v1 )

ライセンス: Link先を確認
Arhit Chakrabarti, Yang Ni, Ellen Ruth A. Morris, Michael L. Salinas, Robert S. Chapkin, Bani K. Mallick(参考訳) 有向非巡回グラフを特徴とする非交換可能群でグループ化データをクラスタリングする問題を考える。 非交換可能群間のクラスターの共有を可能にするために,グラフィカルディリクレ過程と呼ばれるベイズ非パラメトリックなアプローチを提案し,それぞれのランダム測度を,濃度パラメータと確率測度が親群のそれに依存するディリクレ過程として分散することを仮定して,従属群固有のランダム測度を共同でモデル化する。 結果の合同確率過程は、群を連結する有向非巡回グラフのマルコフの性質を尊重する。 我々は,新しいハイパーグラフ表現と,棒打ち表現,レストラン型表現,有限混合モデルの極限としての表現を用いて,グラフィカルなディリクレ過程を特徴付ける。 我々は,効率的な後部推論アルゴリズムを開発し,シミュレーションと実グループ単一セルデータを用いてモデルを説明する。

We consider the problem of clustering grouped data with possibly non-exchangeable groups whose dependencies can be characterized by a directed acyclic graph. To allow the sharing of clusters among the non-exchangeable groups, we propose a Bayesian nonparametric approach, termed graphical Dirichlet process, that jointly models the dependent group-specific random measures by assuming each random measure to be distributed as a Dirichlet process whose concentration parameter and based probability measure depend on those of its parent groups. The resulting joint stochastic process respects the Markov property of the directed acyclic graph that links the groups. We characterize the graphical Dirichlet process using a novel hypergraph representation as well as the stick-breaking representation, the restaurant-type representation, and the representation as a limit of a finite mixture model. We develop an efficient posterior inference algorithm and illustrate our model with simulations and a real grouped single-cell data.
翻訳日:2023-02-21 20:27:27 公開日:2023-02-17
# ViTA:エッジアプリケーションのためのビジョントランスフォーマー推論アクセラレータ

ViTA: A Vision Transformer Inference Accelerator for Edge Applications ( http://arxiv.org/abs/2302.09108v1 )

ライセンス: Link先を確認
Shashank Nag, Gourav Datta, Souvik Kundu, Nitin Chandrachoodan, Peter A. Beerel(参考訳) vit, swin transformer, transformer-in-transformer などの視覚トランスフォーマーモデルは、最近コンピュータビジョンタスクにおいて、優れたパフォーマンスをもたらす機能間のグローバルな関係を捉える能力により、大きな注目を集めている。 しかし、それらは計算量が多く、リソースに制約のあるエッジデバイスへのデプロイが難しい。 近縁なBERTトランスモデルを含む既存のハードウェアアクセラレータは、リソース制約の高い環境をターゲットとしない。 本稿では、このギャップに対処し、視覚トランスフォーマーモデルの推論のための構成可能なハードウェアアクセラレータvitaを提案し、リソース制約のあるエッジコンピューティングデバイスをターゲットにし、繰り返しオフチップメモリアクセスを回避する。 我々はヘッドレベルパイプラインと層間MPP最適化を採用しており、制御ロジックにのみ変更を加えることで、よく使われるビジョントランスフォーマーモデルをサポートすることができる。 我々は、ほとんどの視覚トランスフォーマーモデルにおいて90%近いハードウェア利用効率を達成し、150mhzのクロックで合成すると0.88wの電力を報告し、合理的なフレームレートを得る。

Vision Transformer models, such as ViT, Swin Transformer, and Transformer-in-Transformer, have recently gained significant traction in computer vision tasks due to their ability to capture the global relation between features which leads to superior performance. However, they are compute-heavy and difficult to deploy in resource-constrained edge devices. Existing hardware accelerators, including those for the closely-related BERT transformer models, do not target highly resource-constrained environments. In this paper, we address this gap and propose ViTA - a configurable hardware accelerator for inference of vision transformer models, targeting resource-constrained edge computing devices and avoiding repeated off-chip memory accesses. We employ a head-level pipeline and inter-layer MLP optimizations, and can support several commonly used vision transformer models with changes solely in our control logic. We achieve nearly 90% hardware utilization efficiency on most vision transformer models, report a power of 0.88W when synthesised with a clock of 150 MHz, and get reasonable frame rates - all of which makes ViTA suitable for edge applications.
翻訳日:2023-02-21 20:27:10 公開日:2023-02-17
# 次元のスケーリング

Scaling Dimension ( http://arxiv.org/abs/2302.09101v1 )

ライセンス: Link先を確認
Bernhard Ganter and Tom Hanika and Johannes Hirth(参考訳) 概念スケーリングは、形式的概念分析などにおいて有用な標準ツールです。 その数学的理論は、FCAモノグラフの最後の章で詳しく述べられているように、まだ改善の余地がある。 現状では、基本的な定義のいくつかでさえフラックスにある。 我々の貢献は,木分類器の概念格子とそこで使用されるスケーリング手法の研究によって引き起こされた。 いくつかの基本的な概念を拡張し、それらに対して正確な数学的定義を与え、スケーリング次元の概念を導入する。 例として、その性質に関する詳細な議論に加えて、概念格子の次数次元に関する理論的境界を示す。 また,順序と順序のスケーリング次元などの特別なサブクラスについても検討し,最初の結果と例を示す。

Conceptual Scaling is a useful standard tool in Formal Concept Analysis and beyond. Its mathematical theory, as elaborated in the last chapter of the FCA monograph, still has room for improvement. As it stands, even some of the basic definitions are in flux. Our contribution was triggered by the study of concept lattices for tree classifiers and the scaling methods used there. We extend some basic notions, give precise mathematical definitions for them and introduce the concept of scaling dimension. In addition to a detailed discussion of its properties, including an example, we show theoretical bounds related to the order dimension of concept lattices. We also study special subclasses, such as the ordinal and the interordinal scaling dimensions, and show for them first results and examples.
翻訳日:2023-02-21 20:26:51 公開日:2023-02-17
# 非相互作用フェルミオンの量子回路における測定誘起絡み合い遷移:ボルンルール対強制測定

Measurement-induced entanglement transitions in quantum circuits of non-interacting fermions: Born-rule versus forced measurements ( http://arxiv.org/abs/2302.09094v1 )

ライセンス: Link先を確認
Chao-Ming Jian, Hassan Shapourian, Bela Bauer, and Andreas W. W. Ludwig(参考訳) 非相互作用フェルミオンのランダムな量子回路における絡み合い遷移、特にボルンルールと強制測定が同じ普遍性クラスをもたらすかどうかの問題に対処する。 フェルミオンパリティ以外の対称性を持たない一般回路では、1次元マヨラナ鎖に作用し、数値的にいくつかの臨界指数を求め、ボルンルールと強制測定との2つの遷移が異なる普遍性クラスにあるという明確な証拠を与える。 jian et al., phys で確立された一般対応に従う統計力学モデルを明らかにすることにより, 数値計算結果に対する理論的理解を提供する。 no. b 106, 134206, 非相互作用フェルミオンの非ユニタリ回路と10倍アルトランド・ジンバウアー(az)対称性クラスの間。 AZクラスはボルンルールとサーキットの強制測定で同じである。 検討中の回路(AZクラスDIII)について、遷移を記述する統計力学モデルは、それぞれ強制的およびボルンルールの測定に対して$n\to 0$と$n\to 1$の複製極限における${\rm SO}(n)$行列を持つ主キラル非線型シグマモデルである。 前者はアンダーソン局在普遍性クラス、後者はアンダーソン局在性クラスを超えた新しい普遍性クラスであることを示す。 どちらの絡み合い遷移も、$\mathbb{Z}_2$位相的欠陥の増殖によって引き起こされる。 異なるレプリカ制限は、普遍性クラスの違いを考慮に入れている。 さらに,前述したループモデルに基づくマヨルダナフェルミオンのモニター回路の絡み合い遷移は,高微調整回路であり,本論文で論じたジェネリック回路の両遷移とは異なる普遍性クラスに属するという数値的および対称性に基づく議論も提示する。

We address entanglement transitions in monitored random quantum circuits of non-interacting fermions, in particular, the question of whether Born-rule and forced measurements yield the same universality class. For a generic circuit with no symmetry other than fermion parity, acting on a one-dimensional Majorana chain, we numerically obtain several critical exponents, providing clear evidence that the two transitions with Born-rule and forced measurements are in different universality classes. We provide a theoretical understanding for our numerical results by identifying the underlying statistical mechanics model which follows from the general correspondence, established in Jian et al., Phys. Rev. B 106, 134206, between non-unitary circuits of non-interacting fermions and the ten-fold Altland-Zirnbauer (AZ) symmetry classes. The AZ class is the same for Born-rule and forced measurements of the circuits. For the circuit under consideration (in AZ class DIII), the statistical mechanics model describing the transition is the principal chiral non-linear sigma model whose field variable is an ${\rm SO}(n)$ matrix in the replica limits $n\to 0$ and $n\to 1$ for forced and Born-rule measurements, respectively. The former is in an Anderson localization universality class while we show that the latter is in a novel universality class beyond Anderson localization. Both entanglement transitions are driven by proliferation of $\mathbb{Z}_2$ topological defects. The different replica limits account for the difference in the universality classes. Furthermore, we provide numerical and symmetry-based arguments that the entanglement transition in the previously-studied monitored circuit of Majorana fermions based on the loop model with crossings, a highly fine-tuned circuit, belongs to a universality class different from both transitions in the generic circuits discussed in this paper.
翻訳日:2023-02-21 20:26:40 公開日:2023-02-17
# 超伝導量子ビットの非マルコビアン性の喫煙ガンシグネチャ

Smoking-gun signatures of non-Markovianity of a superconducting qubit ( http://arxiv.org/abs/2302.09092v1 )

ライセンス: Link先を確認
Bal\'azs Gul\'acsi, Guido Burkard(参考訳) 超伝導トランスモン量子ビットのアイドル進化に影響を与える時間的相関ノイズ過程について述べる。 複合量子環境系をモデル化するために量子回路理論を用い、量子ビットに影響を及ぼす逆雑音に対してハミルトニアンの回路を導出する方法を示す。 時間畳み込みなし射影作用素法に基づき、時間局所マスター方程式を構築し、標準リンドブラッド形式に変換すると、永遠の非マルコフ力学に対応して、常に負の減衰率をexhbitisする。 クラウス表現におけるマスター方程式の解を表現することにより、コヒーレンスの周期的復活と、キュービット状態の先行でキュービット周波数から遠く離れた追加周波数の出現という2つの重要な非マルコフ現象を特定する。 1つのクビットゲートがキュービット状態に作用すると、これらの余分な周波数項は望ましくない回転となり、ブロッホ球のまわりの回転の前に状態の記憶として効果的に作用する。

We describe temporally correlated noise processes that influence the idle evolution of a superconducting transmon qubit. To model the composite qubit-environment system we use quantum circuit theory, and we show how a circuit Hamiltonian can be derived for transverse noise affecting the qubit. Based on the time-convolutionless projection operator method, we construct a time-local master equation which, when transformed to its canonical Lindblad form, exhbitis a decay rate that is negative at all times, corresponding to eternally non-Markovian dynamics. By expressing the solution of the master equation in the Kraus representation, we identify two crucial non-Markovian phenomena: periodic revivals of coherence, and the appearance of additional frequencies far from the qubit frequency in the precession of the qubit state. When a single qubit gate acts on the qubit state, these extra frequency terms rotate undesirably and they effectively act as the memory of the state prior to the rotation around the Bloch sphere.
翻訳日:2023-02-21 20:26:02 公開日:2023-02-17
# 単一非エルミート不純物を有するシステムにおける異常皮膚効果

Anomalous Skin Effects in Disordered Systems with a Single non-Hermitian Impurity ( http://arxiv.org/abs/2302.09081v1 )

ライセンス: Link先を確認
Paolo Molignini, Oscar Arandes, and Emil J. Bergholtz(参考訳) 非エルミート不純物における異常皮膚効果について, 潜在性障害との相互作用を研究し, 極小格子モデルを正確に解くことにより検討する。 可解な単一不純物モデルの特徴は、異方性ホッピング項の存在がバルクホッピング方向とは反対の全ての固有状態のスケール不変な蓄積を誘導することができることであるが、非単調な挙動は微調整され、さらにそのようなホッピングが弱められ、最終的に効果が逆転する。 しかし、バルクポテンシャル障害との相互作用はこの現象学を質的に豊かにし、指向性ホッピング強度が調整されるにつれて、頑健な非単調な局在挙動をもたらす。 これらの現象は、単一の非エルミート不純物を持つ完全エルミートバルクの極限においても持続する。

We explore anomalous skin effects at non-Hermitian impurities by studying their interplay with potential disorder and by exactly solving a minimal lattice model. A striking feature of the solvable single-impurity model is that the presence of anisotropic hopping terms can induce a scale-invariant accumulation of all eigenstates opposite to the bulk hopping direction, although the non-monotonic behavior is fine-tuned and further increasing such hopping weakens and eventually reverses the effect. The interplay with bulk potential disorder, however, qualitatively enriches this phenomenology leading to a robust non-monotonic localization behavior as directional hopping strengths are tuned. These phenomena persist even in the limit of an entirely Hermitian bulk with a single non-Hermitian impurity.
翻訳日:2023-02-21 20:25:42 公開日:2023-02-17
# 切り替える、または切り替えない: 軌道特徴に基づくアルゴリズム間の切り替えの利点を予測する

To Switch or not to Switch: Predicting the Benefit of Switching between Algorithms based on Trajectory Features ( http://arxiv.org/abs/2302.09075v1 )

ライセンス: Link先を確認
Diederick Vermetten, Hao Wang, Kevin Sim, Emma Hart(参考訳) 動的アルゴリズム選択は、探索中にそれらを切り替えることで、複数の最適化アルゴリズムの相補性を活用することを目的としている。 この種の動的アルゴリズムは、コンポーネントアルゴリズムよりも優れる可能性があることが示されているが、このポテンシャルがどのように実現されるのかはまだ不明である。 有望なアプローチの1つは、ランドスケープ機能を使用して軌道毎のスイッチを有効にすることだ。 ここで、第1のアルゴリズムで見られるサンプルを使用して、そのアルゴリズムの観点から風景を記述する一連の特徴を作成する。 これらの機能は、どのアルゴリズムに切り替えるべきかを予測するために使用される。 本研究では,このトラジェクトリ毎のアプローチを拡張して,スイッチを実行するさまざまなポテンシャル点について検討する。 局所的な景観特徴を捉えるためにスライディングウィンドウを使用することで、その時点でのスイッチが将来のパフォーマンスに有益かどうかを予測できる情報を含むことを示す。 得られたモデルを解析することにより、これらの予測に最も重要な特徴を特定する。 最後に、特徴の重要性を評価し、これらの値を複数のアルゴリズム間で比較することにより、第2のアルゴリズムがスイッチ前のローカルランドスケープ機能とどのように相互作用するかを明確にする。

Dynamic algorithm selection aims to exploit the complementarity of multiple optimization algorithms by switching between them during the search. While these kinds of dynamic algorithms have been shown to have potential to outperform their component algorithms, it is still unclear how this potential can best be realized. One promising approach is to make use of landscape features to enable a per-run trajectory-based switch. Here, the samples seen by the first algorithm are used to create a set of features which describe the landscape from the perspective of the algorithm. These features are then used to predict what algorithm to switch to. In this work, we extend this per-run trajectory-based approach to consider a wide variety of potential points at which to perform the switch. We show that using a sliding window to capture the local landscape features contains information which can be used to predict whether a switch at that point would be beneficial to future performance. By analyzing the resulting models, we identify what features are most important to these predictions. Finally, by evaluating the importance of features and comparing these values between multiple algorithms, we show clear differences in the way the second algorithm interacts with the local landscape features found before the switch.
翻訳日:2023-02-21 20:25:26 公開日:2023-02-17
# ブラックボックス推定器を用いたベイズ量子化

Bayesian Quantification with Black-Box Estimators ( http://arxiv.org/abs/2302.09159v1 )

ライセンス: Link先を確認
Albert Ziegler, Pawe{\l} Czy\.z(参考訳) ラベルのないデータセットで異なるクラスがどのように配布されるかを理解することは、確率的分類器と不確かさの定量化のキャリブレーションにとって重要な課題である。 調整された分類と数、ブラックボックスシフト推定器、不変比推定器などのアプローチでは、クラス分布を推定し、弱い仮定の下で漸近的な保証を得るために、異なる(シフトした)データセットで訓練された補助的(および潜在的にバイアスのある)ブラックボックス分類器を使用する。 これらのアルゴリズムは特定のベイズモデルにおける推論と密接な関係を示し、仮定された地層構造生成過程を近似する。 次に,導入モデルに対する効率的なマルコフ連鎖モンテカルロサンプリング手法について検討し,大容量データ限界における漸近的整合性保証を示す。 導入したモデルと,様々なシナリオにおいて確立された点推定器を比較して,競争力があり,場合によっては技術水準よりも優れていることを示す。

Understanding how different classes are distributed in an unlabeled data set is an important challenge for the calibration of probabilistic classifiers and uncertainty quantification. Approaches like adjusted classify and count, black-box shift estimators, and invariant ratio estimators use an auxiliary (and potentially biased) black-box classifier trained on a different (shifted) data set to estimate the class distribution and yield asymptotic guarantees under weak assumptions. We demonstrate that all these algorithms are closely related to the inference in a particular Bayesian model, approximating the assumed ground-truth generative process. Then, we discuss an efficient Markov Chain Monte Carlo sampling scheme for the introduced model and show an asymptotic consistency guarantee in the large-data limit. We compare the introduced model against the established point estimators in a variety of scenarios, and show it is competitive, and in some cases superior, with the state of the art.
翻訳日:2023-02-21 20:18:42 公開日:2023-02-17
# 等価アルゴリズムの設計

Designing Equitable Algorithms ( http://arxiv.org/abs/2302.09157v1 )

ライセンス: Link先を確認
Alex Chohlas-Wood, Madison Coots, Sharad Goel, Julian Nyarko(参考訳) 予測アルゴリズムは今や、医療、ローン、刑事拘留、税務監査など、社会の資源と制裁の大部分を分配するのに使われています。 適切な状況下では、これらのアルゴリズムは意思決定の効率性とエクイティを改善することができる。 同時に、アルゴリズム自体が、特に人種的、民族的、性別的ラインにおいて、格差を強要し、悪化させる危険性がある。 公平性を確保するために、多くの研究者は、アルゴリズムが少なくとも3つの制約のうちの1つ(人種、民族、性別など法的に保護された特徴は使用しない、(2)集団間での「肯定的」決定の平等率、(3)グループ全体のエラー率の等しい)に従うことを提案している。 ここで、これらの制約は直感的にアピールする一方で、限界グループ内の個人にとっての結果を悪化させ、すべてのグループを悪化させる可能性があることを示します。 フォーマルな公平さの制約と福祉改善(特に限界化のために)を区別する固有のトレードオフは、アルゴリズムが「公正」である必要があることに関するより堅牢な議論の必要性を浮き彫りにしている。 医療と刑事司法制度の例でこれらのアイデアを説明し、実践者がより公平なアルゴリズムを設計するためのいくつかの提案を行う。

Predictive algorithms are now used to help distribute a large share of our society's resources and sanctions, such as healthcare, loans, criminal detentions, and tax audits. Under the right circumstances, these algorithms can improve the efficiency and equity of decision-making. At the same time, there is a danger that the algorithms themselves could entrench and exacerbate disparities, particularly along racial, ethnic, and gender lines. To help ensure their fairness, many researchers suggest that algorithms be subject to at least one of three constraints: (1) no use of legally protected features, such as race, ethnicity, and gender; (2) equal rates of "positive" decisions across groups; and (3) equal error rates across groups. Here we show that these constraints, while intuitively appealing, often worsen outcomes for individuals in marginalized groups, and can even leave all groups worse off. The inherent trade-off we identify between formal fairness constraints and welfare improvements -- particularly for the marginalized -- highlights the need for a more robust discussion on what it means for an algorithm to be "fair". We illustrate these ideas with examples from healthcare and the criminal-legal system, and make several proposals to help practitioners design more equitable algorithms.
翻訳日:2023-02-21 20:18:24 公開日:2023-02-17
# Med-EASi:医療用テキストの簡易化のための細かな注釈付きデータセットとモデル

Med-EASi: Finely Annotated Dataset and Models for Controllable Simplification of Medical Texts ( http://arxiv.org/abs/2302.09155v1 )

ライセンス: Link先を確認
Chandrayee Basu, Rosni Vasu, Michihiro Yasunaga, Qian Yang(参考訳) 自動医療テキスト簡略化は、患者フレンドリーなコミュニケーションの提供者を支援し、医療テキストをよりアクセスしやすくし、健康リテラシーを向上させる。 しかし、このタスクのための品質コーパスのキュレーションには、医療専門家の監督が必要です。 本稿では、短い医療用テキストの管理を単純化するための独自のクラウドソースと注釈付きデータセットである$\underline{\textbf{Med-EASi}$$$\underline{\textbf{Med}}$ical dataset for $\underline{\textbf{E}}$laborative and $\underline{\textbf{A}}$bstractive $\underline{\textbf{Si}}$mplificationを提示する。 その$\textit{expert-layman-AI collaborative}$アノテーションは、編集、置換、削除、挿入の4種類のテキスト変換をマークすることで、$\textit{controllability}$のテキスト単純化を促進する。 医療用テキストの簡易化を学習するために,入力と出力の組み合わせを4種類用意したT5-largeを微調整し,2種類のコントロールフリー版と2種類の制御可能なモデルを開発した。 テキストの単純化には、マルチアングルのトレーニングアプローチを使って、2種類の$\textit{controllability}$を追加します。 $\textit{position-aware}$、インプレースアノテートされた入力と出力を使用し、$\textit{position-agnostic}$です。 その結果,無注のベースラインと比較して,きめ細かなアノテーションは学習を改善することがわかった。 さらに、$\textit{position-aware}$コントロールは$\textit{position-agnostic}$ oneよりも簡単になる。 データとコードはhttps://github.com/Chandrayee/CTRL-SIMPで公開されている。

Automatic medical text simplification can assist providers with patient-friendly communication and make medical texts more accessible, thereby improving health literacy. But curating a quality corpus for this task requires the supervision of medical experts. In this work, we present $\textbf{Med-EASi}$ ($\underline{\textbf{Med}}$ical dataset for $\underline{\textbf{E}}$laborative and $\underline{\textbf{A}}$bstractive $\underline{\textbf{Si}}$mplification), a uniquely crowdsourced and finely annotated dataset for supervised simplification of short medical texts. Its $\textit{expert-layman-AI collaborative}$ annotations facilitate $\textit{controllability}$ over text simplification by marking four kinds of textual transformations: elaboration, replacement, deletion, and insertion. To learn medical text simplification, we fine-tune T5-large with four different styles of input-output combinations, leading to two control-free and two controllable versions of the model. We add two types of $\textit{controllability}$ into text simplification, by using a multi-angle training approach: $\textit{position-aware}$, which uses in-place annotated inputs and outputs, and $\textit{position-agnostic}$, where the model only knows the contents to be edited, but not their positions. Our results show that our fine-grained annotations improve learning compared to the unannotated baseline. Furthermore, $\textit{position-aware}$ control generates better simplification than the $\textit{position-agnostic}$ one. The data and code are available at https://github.com/Chandrayee/CTRL-SIMP.
翻訳日:2023-02-21 20:18:00 公開日:2023-02-17
# 極端多重ラベル分類におけるクラスタ誘導ラベル生成

Cluster-Guided Label Generation in Extreme Multi-Label Classification ( http://arxiv.org/abs/2302.09150v1 )

ライセンス: Link先を確認
Taehee Jung, Joo-Kyung Kim, Sungjin Lee, and Dongyeop Kang(参考訳) 極端なマルチラベル分類(XMC)では、既存の分類ベースのモデルはテールラベルでは不十分であり、「Wikipedia」や「Wiki」を独立したラベルとして扱うなど、ラベル間の意味的関係を無視することが多い。 本稿では,XMCを生成タスク(XLGen)としてキャストし,事前学習したテキスト・テキスト・モデルの恩恵を受ける。 しかし、非常に大きなラベル空間からラベルを生成することは、制約やガイダンスなしに難しい。 そこで我々は,ラベルクラスタ情報を用いたラベル生成を階層的に低レベルラベルを生成するために提案する。 また,XLGenの改良には,周波数に基づくラベルオーダリングやデコードアンサンブル法が重要であることも確認した。 クラスタガイダンスを持つXLGenは、テールラベルの分類と生成ベースラインを著しく上回り、一般的な4つのXMCベンチマークの全体的なパフォーマンスも向上する。 人間による評価では、XLGenは目に見えないが可視なラベルを生成する。 私たちのコードはhttps://github.com/alexa/xlgen-eacl-2023で利用可能です。

For extreme multi-label classification (XMC), existing classification-based models poorly perform for tail labels and often ignore the semantic relations among labels, like treating "Wikipedia" and "Wiki" as independent and separate labels. In this paper, we cast XMC as a generation task (XLGen), where we benefit from pre-trained text-to-text models. However, generating labels from the extremely large label space is challenging without any constraints or guidance. We, therefore, propose to guide label generation using label cluster information to hierarchically generate lower-level labels. We also find that frequency-based label ordering and using decoding ensemble methods are critical factors for the improvements in XLGen. XLGen with cluster guidance significantly outperforms the classification and generation baselines on tail labels, and also generally improves the overall performance in four popular XMC benchmarks. In human evaluation, we also find XLGen generates unseen but plausible labels. Our code is now available at https://github.com/alexa/xlgen-eacl-2023.
翻訳日:2023-02-21 20:17:20 公開日:2023-02-17
# トラップイオン鎖の直交モード上の対平行絡み合いゲート

Pairwise-parallel entangling gates on orthogonal modes in a trapped-ion chain ( http://arxiv.org/abs/2302.09145v1 )

ライセンス: Link先を確認
Yingyue Zhu, Alaina M. Green, Nhung H. Nguyen, C. Huerta Alderete, Elijah Mossman, Norbert M. Linke(参考訳) 並列処理は、実行時間とキュービットアイドリングを減らすため、短期量子コンピュータと大規模フォールトトレラントマシンの両方にとって重要である。 トラップイオン量子コンピュータ上でペアワイズ並列ゲート方式を提案し,実装する。 ゲートは、閉じ込められたイオン鎖の異なる直交運動モードのセットで同時に駆動される。 1つの重なり合うキュービットを持つ並列ゲートを用いて1ステップでGHZ状態を生成することで、このスキームの有用性を実証する。 また,交差場イジングモデルである相互作用スピン系のダイナミクスをディジタル量子シミュレーションすることにより,回路の利点を示す。 この方法は、重複するキュービットを含まない場合に、追加の初期冷却以外にオーバーヘッドなく、利用可能なゲート深さを最大2倍まで効果的に拡張する。 これは、追加の量子モードを追加の自由度として用いることは、トラップ加熱率を半分にし、レーザーとクビットコヒーレンス時間を2倍にし、コントローラメモリの深さを最大2倍にまで伸ばすこととほぼ同値である。 このスキームは、異なるトラップイオン量子ビットとゲートスキームに容易に適用でき、トラップイオン量子コンピュータの能力を広く拡張することができる。

Parallel operations are important for both near-term quantum computers and larger-scale fault-tolerant machines because they reduce execution time and qubit idling. We propose and implement a pairwise-parallel gate scheme on a trapped-ion quantum computer. The gates are driven simultaneously on different sets of orthogonal motional modes of a trapped-ion chain. We demonstrate the utility of this scheme by creating a GHZ state in one step using parallel gates with one overlapping qubit. We also show its advantage for circuits by implementing a digital quantum simulation of the dynamics of an interacting spin system, the transverse-field Ising model. This method effectively extends the available gate depth by up to two times with no overhead apart from additional initial cooling when no overlapping qubit is involved. This is because using a set of extra modes as additional quantum degrees of freedom is nearly equivalent to halving the trap heating rate, doubling the laser and qubit coherence time, and extending the controller memory depth by up to a factor of two. This scheme can be easily applied to different trapped-ion qubits and gate schemes, broadly enhancing the capabilities of trapped-ion quantum computers.
翻訳日:2023-02-21 20:17:03 公開日:2023-02-17
# 協調的混雑緩和に向けて

Towards Co-operative Congestion Mitigation ( http://arxiv.org/abs/2302.09140v1 )

ライセンス: Link先を確認
Aamir Hasan, Neeloy Chakraborty, Cathy Wu, and Katherine Driggs-Campbell(参考訳) 交通渋滞の影響は広く、日常生活へのインピーダンスとなっている。 定常運転政策は,シミュレーション環境における交通渋滞の緩和に有効であることを示す。 しかし、実際のユーザーを含む状況下でこれらのポリシーをテストする研究は今のところない。 そこで本研究では,運転者との共同実験における共有制御フレームワークと,協調的に混雑緩和を目指す運転方針を用いて,これらの方針を評価することを提案する。 本研究では,CARLAシミュレータをFlowフレームワークと一緒に使用して,一貫した運転ポリシーの影響評価を行う。 そこで,本研究では,本フレームワーク構築における進行中の取り組みについて紹介し,本フレームワークの評価計画について議論する。

The effects of traffic congestion are widespread and are an impedance to everyday life. Piecewise constant driving policies have shown promise in helping mitigate traffic congestion in simulation environments. However, no works currently test these policies in situations involving real human users. Thus, we propose to evaluate these policies through the use of a shared control framework in a collaborative experiment with the human driver and the driving policy aiming to co-operatively mitigate congestion. We intend to use the CARLA simulator alongside the Flow framework to conduct user studies to evaluate the affect of piecewise constant driving policies. As such, we present our in-progress work in building our framework and discuss our proposed plan on evaluating this framework through a human-in-the-loop simulation user study.
翻訳日:2023-02-21 20:16:42 公開日:2023-02-17
# jana: 複雑なベイズ模型の合同不定形ニューラルネットワーク近似

JANA: Jointly Amortized Neural Approximation of Complex Bayesian Models ( http://arxiv.org/abs/2302.09125v1 )

ライセンス: Link先を確認
Stefan T. Radev, Marvin Schmitt, Valentin Pratz, Umberto Picchini, Ullrich K\"othe, Paul-Christian B\"urkner(参考訳) 本研究は,ベイジアン・サロゲート・モデリングとシミュレーションに基づく推論において生じる難解な確率関数と後方密度の'jointly amortized neural approximation''(jana)を提案する。 エンドツーエンドで3つの補完ネットワークをトレーニングします。 1)個々のデータポイント,集合又は時系列を情報埋め込みベクトルに圧縮する要約ネットワーク 2) 補修後部を学習するための後部ネットワーク,及び 3) 修復された近似確率を学習する確率ネットワーク。 彼らの相互作用は、償却限界の確率と後続予測推定への新たな道を開き、ベイズワークフローの重要な2つの要素は、標準的手法には高すぎることが多い。 我々は,JANAの精度を,最先端ベイズ法に対する様々なシミュレーションモデルで評価し,関節校正のための強力かつ解釈可能な診断法を提案する。 さらに,手作り要約統計に頼らずに,複雑な時系列モデルをエミュレートする確率ネットワークについて検討した。

This work proposes ''jointly amortized neural approximation'' (JANA) of intractable likelihood functions and posterior densities arising in Bayesian surrogate modeling and simulation-based inference. We train three complementary networks in an end-to-end fashion: 1) a summary network to compress individual data points, sets, or time series into informative embedding vectors; 2) a posterior network to learn an amortized approximate posterior; and 3) a likelihood network to learn an amortized approximate likelihood. Their interaction opens a new route to amortized marginal likelihood and posterior predictive estimation -- two important ingredients of Bayesian workflows that are often too expensive for standard methods. We benchmark the fidelity of JANA on a variety of simulation models against state-of-the-art Bayesian methods and propose a powerful and interpretable diagnostic for joint calibration. In addition, we investigate the ability of recurrent likelihood networks to emulate complex time series models without resorting to hand-crafted summary statistics.
翻訳日:2023-02-21 20:16:31 公開日:2023-02-17
# 予測された未来をユーザに提供する:ストーリープロット予測のケーススタディ

Conveying the Predicted Future to Users: A Case Study of Story Plot Prediction ( http://arxiv.org/abs/2302.09122v1 )

ライセンス: Link先を確認
Chieh-Yang Huang, Saniya Naphade, Kavya Laalasa Karanam, Ting-Hao 'Kenneth' Huang(参考訳) 創造的な執筆は難しい: 小説家は毎日作家のブロックと戦っている。 近年、自動ストーリー生成は進歩しているが、人を助けるのではなく、人工知能を進歩させるための「トイタスク」として扱われている。 本稿では,既存のストーリー生成手法を用いて予測されたプロットを物語化する短い記述を生成するシステムを構築する。 私たちのゴールは、作家が一貫性があり魅力的なストーリーアークを作るのを支援することです。 筆者らはAmazon Mechanical Turk (AMT) を用いて, 生成したストーリープロットの品質を, 一貫性と保存性の観点から検証する実験を行った。 その結果、フレーム強化GPT-2(FGPT-2)による短い記述は、全てのモデルの中で最も一貫性があり保存性が高いと評価された。 次に,amt作業員がマシン生成したストーリープロットにアクセスし,フォローアップストーリーを書くように依頼したストーリー継続タスクを用いて予備ユーザ調査を行った。 FGPT-2は書き込みプロセスに肯定的な影響を与えるが、人々は他のベースラインを好んでいる。 本研究は,文の完成範囲を超えた,創造的な文章作成支援システムの可能性について考察した。 私たちのコードは、https://github.com/appleternity/Story-Plot-Generationで利用可能です。

Creative writing is hard: Novelists struggle with writer's block daily. While automatic story generation has advanced recently, it is treated as a "toy task" for advancing artificial intelligence rather than helping people. In this paper, we create a system that produces a short description that narrates a predicted plot using existing story generation approaches. Our goal is to assist writers in crafting a consistent and compelling story arc. We conducted experiments on Amazon Mechanical Turk (AMT) to examine the quality of the generated story plots in terms of consistency and storiability. The results show that short descriptions produced by our frame-enhanced GPT-2 (FGPT-2) were rated as the most consistent and storiable among all models; FGPT-2's outputs even beat some random story snippets written by humans. Next, we conducted a preliminary user study using a story continuation task where AMT workers were given access to machine-generated story plots and asked to write a follow-up story. FGPT-2 could positively affect the writing process, though people favor other baselines more. Our study shed some light on the possibilities of future creative writing support systems beyond the scope of completing sentences. Our code is available at: https://github.com/appleternity/Story-Plot-Generation.
翻訳日:2023-02-21 20:16:16 公開日:2023-02-17
# 深層強化学習を用いたロボット経路計画

Robot path planning using deep reinforcement learning ( http://arxiv.org/abs/2302.09120v1 )

ライセンス: Link先を確認
Miguel Quinones-Ramirez, Jorge Rios-Martinez, Victor Uc-Cetina(参考訳) 自律ナビゲーションは、特に未知の環境では、移動ロボットにとって難しい。 一般的に、ロボットは環境をマッピングし、自らを特定し、目標に到達する計画を立てるために複数のセンサーを必要とする。 しかし、強化学習法は、最適なアクションを学習することで、マップフリーなナビゲーションタスクの代替を提供する。 本稿では,D3QNとレインボーアルゴリズムという深層Qネットワーク手法の変種を用いて,障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。 エージェントは、シミュレーション環境で訓練され、評価される。 さらに、報酬機能の変更によるエージェントの挙動や性能の変化の分析を行う。

Autonomous navigation is challenging for mobile robots, especially in an unknown environment. Commonly, the robot requires multiple sensors to map the environment, locate itself, and make a plan to reach the target. However, reinforcement learning methods offer an alternative to map-free navigation tasks by learning the optimal actions to take. In this article, deep reinforcement learning agents are implemented using variants of the deep Q networks method, the D3QN and rainbow algorithms, for both the obstacle avoidance and the goal-oriented navigation task. The agents are trained and evaluated in a simulated environment. Furthermore, an analysis of the changes in the behaviour and performance of the agents caused by modifications in the reward function is conducted.
翻訳日:2023-02-21 20:15:57 公開日:2023-02-17
# 個人再同定システムにおけるデータ拡張のための生成型adversarial networkの検討

A Review on Generative Adversarial Networks for Data Augmentation in Person Re-Identification Systems ( http://arxiv.org/abs/2302.09119v1 )

ライセンス: Link先を確認
Victor Uc-Cetina, Laura Alvarez-Gonzlez, Anabel Martin-Gonzalez(参考訳) 近年,監視ソフトやスマートショップソフトの開発を中心に,自動人物識別システムへの関心が高まっている。 人物の姿勢の変化、異なる照明条件、オクルードされたシナリオ、異なるカメラで得られた画像の質の悪さなどにより、現在未解決の問題となっている。 データセットを減らした機械学習ベースのコンピュータビジョンアプリケーションでは、ニューラルモデルのトレーニングに利用可能な画像やビデオの集合を拡大することで、再識別システムの性能を改善する可能性がある。 現在、データ拡張のための合成情報を生成する最も堅牢な方法の1つは、ビデオ、画像、テキストである。 本稿では,データ拡張による人物再識別モデルの性能向上に最も関連性の高いアプローチを,生成的敵ネットワークを用いて概説する。 データ拡張アプローチでは,スタイル転送,ポーズ転送,ランダム生成という3つのカテゴリに注目した。

Interest in automatic people re-identification systems has significantly grown in recent years, mainly for developing surveillance and smart shops software. Due to the variability in person posture, different lighting conditions, and occluded scenarios, together with the poor quality of the images obtained by different cameras, it is currently an unsolved problem. In machine learning-based computer vision applications with reduced data sets, one possibility to improve the performance of re-identification system is through the augmentation of the set of images or videos available for training the neural models. Currently, one of the most robust ways to generate synthetic information for data augmentation, whether it is video, images or text, are the generative adversarial networks. This article reviews the most relevant recent approaches to improve the performance of person re-identification models through data augmentation, using generative adversarial networks. We focus on three categories of data augmentation approaches: style transfer, pose transfer, and random generation.
翻訳日:2023-02-21 20:15:47 公開日:2023-02-17
# 公正・プライバシ・ユーティリティのパレートフロンティアを歩むための公平さによる学習

Learning with Impartiality to Walk on the Pareto Frontier of Fairness, Privacy, and Utility ( http://arxiv.org/abs/2302.09183v1 )

ライセンス: Link先を確認
Mohammad Yaghini, Patty Liu, Franziska Boenisch, Nicolas Papernot(参考訳) 機械学習(ML)モデルをデプロイするには、公正性とプライバシ保証の両方が必要となることが多い。 これらの目的のどちらも、モデルの実用性(例えば精度)とユニークなトレードオフを示す。 しかし、公平さ、プライバシー、ユーティリティ間の相互の相互作用は、あまり理解されていない。 その結果、しばしば1つの目的だけを最適化し、他の目的をハイパーパラメータとして調整する。 特定の目的を暗黙的に優先順位付けするため、そのような設計は悪質で検出不可能な方法でモデルを偏見する。 mlパイプラインの設計は、他の目標よりもひとつの目標を優先すべきではありません。 我々は、目標間の固有のトレードオフを示す正確なパレートフロンティアを提供する、公平に特定されたモデルを提案する。 プライバシ保護学習のための2つの標準MLフレームワークを拡張し、不特定モデルをトレーニングし、Paretoフロンティアを回復する2つの方法(FairDP-SGDとFairPATE)を提供する。 理論的プライバシ分析と包括的実証研究を通じて、プライバシを意識したMLパイプラインにフェアネス緩和を組み込むべきかという疑問に対する回答を提供する。

Deploying machine learning (ML) models often requires both fairness and privacy guarantees. Both of these objectives present unique trade-offs with the utility (e.g., accuracy) of the model. However, the mutual interactions between fairness, privacy, and utility are less well-understood. As a result, often only one objective is optimized, while the others are tuned as hyper-parameters. Because they implicitly prioritize certain objectives, such designs bias the model in pernicious, undetectable ways. To address this, we adopt impartiality as a principle: design of ML pipelines should not favor one objective over another. We propose impartially-specified models, which provide us with accurate Pareto frontiers that show the inherent trade-offs between the objectives. Extending two canonical ML frameworks for privacy-preserving learning, we provide two methods (FairDP-SGD and FairPATE) to train impartially-specified models and recover the Pareto frontier. Through theoretical privacy analysis and a comprehensive empirical study, we provide an answer to the question of where fairness mitigation should be integrated within a privacy-aware ML pipeline.
翻訳日:2023-02-21 20:09:49 公開日:2023-02-17
# リコメンダシステムにおけるマルチタスクランキングモデルのトレーニング安定性の向上

Improving Training Stability for Multitask Ranking Models in Recommender Systems ( http://arxiv.org/abs/2302.09178v1 )

ライセンス: Link先を確認
Jiaxi Tang, Yoel Drori, Daryl Chang, Maheswaran Sathiamoorthy, Justin Gilmer, Li Wei, Xinyang Yi, Lichan Hong, Ed H. Chi(参考訳) 多くのコンテンツプラットフォームにおいて、レコメンダシステムは重要な役割を果たす。 ほとんどのレコメンデーションリサーチは、ユーザーエクスペリエンスを改善するためのより良いモデルの設計に特化していますが、そのようなモデルのトレーニングの安定化に関する研究は、非常に過小評価されています。 レコメンデーションモデルがより大きく、より洗練されるにつれて、モデルの使用が不可能になり、重要なリソースを浪費し、モデルの開発をブロックする、不安定な問題のトレーニングに感受性が高まる。 本稿では,YouTubeレコメンデーションのための実世界のマルチタスクランキングモデルのトレーニング安定性向上のために学んだ知見とベストプラクティスを紹介する。 不安定なトレーニングと原因の推測につながるモデルのいくつかの特性を示す。 さらに、トレーニング不安定点付近でのトレーニングダイナミクスの観察から、既存のソリューションが失敗する理由を仮説化し、既存のソリューションの限界を緩和する新しいアルゴリズムを提案する。 youtube実運用データセットを用いた実験により,提案手法はコンバージェンスを妥協することなく,トレーニングの安定性を著しく向上できることが示された。

Recommender systems play an important role in many content platforms. While most recommendation research is dedicated to designing better models to improve user experience, we found that research on stabilizing the training for such models is severely under-explored. As recommendation models become larger and more sophisticated, they are more susceptible to training instability issues, \emph{i.e.}, loss divergence, which can make the model unusable, waste significant resources and block model developments. In this paper, we share our findings and best practices we learned for improving the training stability of a real-world multitask ranking model for YouTube recommendations. We show some properties of the model that lead to unstable training and conjecture on the causes. Furthermore, based on our observations of training dynamics near the point of training instability, we hypothesize why existing solutions would fail, and propose a new algorithm to mitigate the limitations of existing solutions. Our experiments on YouTube production dataset show the proposed algorithm can significantly improve training stability while not compromising convergence, comparing with several commonly used baseline methods.
翻訳日:2023-02-21 20:09:29 公開日:2023-02-17
# 幾何学的深層学習によるOrnstein-Uhlenbeck市場の生成

Generative Ornstein-Uhlenbeck Markets via Geometric Deep Learning ( http://arxiv.org/abs/2302.09176v1 )

ライセンス: Link先を確認
Anastasis Kratsios and Cody Hyndman(参考訳) 本稿では,市場価格の条件分布とログリターンを1つの機械学習モデルで同時に近似する問題を考える。 クラツィオとパポンのgdnモデルの例(2022年)は、事前の未知ダイナミクスを持つ一般化ornstein-uhlenbeckプロセスに従うこと以外は、市場の"傾いた"ログリターンに事前の仮定を持たずにこの問題を解決していることを示している。 条件分布と随伴クレームに対する普遍近似保証をリプシッツペイオフ関数で提供する。

We consider the problem of simultaneously approximating the conditional distribution of market prices and their log returns with a single machine learning model. We show that an instance of the GDN model of Kratsios and Papon (2022) solves this problem without having prior assumptions on the market's "clipped" log returns, other than that they follow a generalized Ornstein-Uhlenbeck process with a priori unknown dynamics. We provide universal approximation guarantees for these conditional distributions and contingent claims with a Lipschitz payoff function.
翻訳日:2023-02-21 20:09:08 公開日:2023-02-17
# 繰り返し音源誤り補正を用いた深部結合音源チャネル符号化

Deep Joint Source-Channel Coding with Iterative Source Error Correction ( http://arxiv.org/abs/2302.09174v1 )

ライセンス: Link先を確認
Changwoo Lee, Xiao Hu, Hun-Seok Kim(参考訳) 本稿では,深層学習に基づくジョイントソースチャネル符号化(Deep JSCC)のための反復音源誤り訂正手法を提案する。 チャネルを通じて受信されたノイズの多いコードワードを考慮し、Deep JSCCエンコーダとdecoderペアを使用して、コードワードを反復的に更新し、(修正)最大a-posteriori(MAP)ソリューションを見つける。 効率的なMAPデコーディングのために、ニューラルネットワークベースのデノイザを用いて、コードワード空間の対数優先密度の勾配を近似する。 提案手法は,最適化問題の非凸性に加えて,従来のワンショット(非定常)ディープJSCCデコードベースラインから様々な歪みや知覚的品質指標を改善する。 さらに,提案手法は,チャネルノイズ特性がトレーニング時に使用するものと一致しない場合に,ベースラインよりも信頼性の高いソース再構成結果を生成する。

In this paper, we propose an iterative source error correction (ISEC) decoding scheme for deep-learning-based joint source-channel coding (Deep JSCC). Given a noisy codeword received through the channel, we use a Deep JSCC encoder and decoder pair to update the codeword iteratively to find a (modified) maximum a-posteriori (MAP) solution. For efficient MAP decoding, we utilize a neural network-based denoiser to approximate the gradient of the log-prior density of the codeword space. Albeit the non-convexity of the optimization problem, our proposed scheme improves various distortion and perceptual quality metrics from the conventional one-shot (non-iterative) Deep JSCC decoding baseline. Furthermore, the proposed scheme produces more reliable source reconstruction results compared to the baseline when the channel noise characteristics do not match the ones used during training.
翻訳日:2023-02-21 20:08:56 公開日:2023-02-17
# インストラクショナルビデオ記録からの教師なしタスクグラフ生成

Unsupervised Task Graph Generation from Instructional Video Transcripts ( http://arxiv.org/abs/2302.09173v1 )

ライセンス: Link先を確認
Lajanugen Logeswaran, Sungryull Sohn, Yunseok Jang, Moontae Lee, Honglak Lee(参考訳) 本研究は,実世界の活動のタスクグラフ生成の問題を考察する。 従来の定式化とは違って,実世界の活動を行うインストラクショナルビデオ(例えばコーヒーを作る)のテキスト書き起こしが提供され,タスクに関連する重要なステップと,これらの重要なステップ間の依存関係関係を識別することが目的である。 本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。 提案手法は,ProceLおよびCrossTaskデータセットのタスクに対する教師付き学習手法と比較して,より正確なタスクグラフを生成する。

This work explores the problem of generating task graphs of real-world activities. Different from prior formulations, we consider a setting where text transcripts of instructional videos performing a real-world activity (e.g., making coffee) are provided and the goal is to identify the key steps relevant to the task as well as the dependency relationship between these key steps. We propose a novel task graph generation approach that combines the reasoning capabilities of instruction-tuned language models along with clustering and ranking components to generate accurate task graphs in a completely unsupervised manner. We show that the proposed approach generates more accurate task graphs compared to a supervised learning approach on tasks from the ProceL and CrossTask datasets.
翻訳日:2023-02-21 20:08:41 公開日:2023-02-17
# KILM:エンコーダ-デコーダ言語モデルへの知識注入

KILM: Knowledge Injection into Encoder-Decoder Language Models ( http://arxiv.org/abs/2302.09170v1 )

ライセンス: Link先を確認
Yan Xu, Mahdi Namazifar, Devamanyu Hazarika, Aishwarya Padmakumar, Yang Liu, Dilek Hakkani-T\"ur(参考訳) 大規模事前学習言語モデル(PLM)は、パラメータ内で暗黙の知識を保持することが示されている。 この暗黙的知識を高めるために,我々は,エンコーダ・デコーダ PLM にエンティティ関連知識を注入する新しいアプローチである言語モデルへの知識注入(KILM)を提案する。 これは、PLMのアーキテクチャ変更や追加パラメータの追加なしに行われる。 多数のデータセットにまたがる一連の知識集約タスクに対する実験結果から、KILMは一般的なNLUタスクやNLGタスクでの本来のパフォーマンスを維持しながら、モデルをより多くの知識を維持し、幻覚を少なくすることができることが示された。 KILMはまた、エンティティの曖昧さ、30倍のパラメータを持つ最先端モデルの性能など、タスクにおけるゼロショットのパフォーマンスの改善も示した。

Large pre-trained language models (PLMs) have been shown to retain implicit knowledge within their parameters. To enhance this implicit knowledge, we propose Knowledge Injection into Language Models (KILM), a novel approach that injects entity-related knowledge into encoder-decoder PLMs, via a generative knowledge infilling objective through continued pre-training. This is done without architectural modifications to the PLMs or adding additional parameters. Experimental results over a suite of knowledge-intensive tasks spanning numerous datasets show that KILM enables models to retain more knowledge and hallucinate less, while preserving their original performance on general NLU and NLG tasks. KILM also demonstrates improved zero-shot performances on tasks such as entity disambiguation, outperforming state-of-the-art models having 30x more parameters.
翻訳日:2023-02-21 20:08:29 公開日:2023-02-17
# ハイブリッド交通制御と画素からの協調

Hybrid Traffic Control and Coordination from Pixels ( http://arxiv.org/abs/2302.09167v1 )

ライセンス: Link先を確認
Michael Villarreal, Bibek Poudel, Jia Pan, Weizi Li(参考訳) 交通渋滞は社会の永続的な問題である。 既存の交通制御手法は、現在の渋滞レベルを緩和する上で無駄であることが証明されており、道路上での自律性の異なる車両の出現が増加するにつれて、研究者はロボットによるアイデアを探求するようになる。 これにより、ロボット車両が強化学習(RL)を通じて人間駆動車両を規制するハイブリッド交通制御がもたらされる。 しかし、既存の研究の多くは、ネットワークスループットなどのグローバル情報や、車両の位置や速度などのローカル情報を含む正確な観測を使っている。 この情報を取得するには、既存の道路インフラを大規模なセンサーネットワークで更新する必要がある。 我々は,画像観察をrlによるハイブリッド交通制御の代替案と考える。 1) 画像は、衛星画像、車載カメラシステム及び交通監視システムを介して容易に利用可能である。 2) 画像は,ネットワークからネットワークへの観測空間の完全な再想像を必要としない。 3)画像は機器への通信のみを必要とする。 本研究では,画像観察を用いたロボット車両が,リング,図8,マージ,ボトルネック,交差点などのネットワーク上の正確な情報を用いて,同様の性能を実現することを示す。 また,グローバルなトラフィック情報とは対照的に,ローカルトラフィック情報のみを使用しながら,テストネットワーク上では性能が26%向上することを示した。

Traffic congestion is a persistent problem in our society. Existing methods for traffic control have proven futile in alleviating current congestion levels leading researchers to explore ideas with robot vehicles given the increased emergence of vehicles with different levels of autonomy on our roads. This gives rise to hybrid traffic control, where robot vehicles regulate human-driven vehicles, through reinforcement learning (RL). However, most existing studies use precise observations that involve global information, such as network throughput, as well as local information, such as vehicle positions and velocities. Obtaining this information requires updating existing road infrastructure with vast sensor networks and communication to potentially unwilling human drivers. We consider image observations as the alternative for hybrid traffic control via RL: 1) images are readily available through satellite imagery, in-car camera systems, and traffic monitoring systems; 2) Images do not require a complete re-imagination of the observation space from network to network; and 3) images only require communication to equipment. In this work, we show that robot vehicles using image observations can achieve similar performance to using precise information on networks, including ring, figure eight, merge, bottleneck, and intersections. We also demonstrate increased performance (up to 26%) in certain cases on tested networks, despite only using local traffic information as opposed to global traffic information.
翻訳日:2023-02-21 20:08:14 公開日:2023-02-17
# 整数プログラミングにおけるカットプレーンのための機械学習: 調査

Machine Learning for Cutting Planes in Integer Programming: A Survey ( http://arxiv.org/abs/2302.09166v1 )

ライセンス: Link先を確認
Arnaud Deza and Elias B. Khalil(参考訳) 混合整数線形プログラミング(MILP)における切断平面(または切断)を選択する機械学習(ML)技術に関する最近の研究について調査する。 カットの様々なクラスが利用可能であるにもかかわらず、分岐とバウンド(B&B)ツリーの特定のノードにおける線形プログラミング(LP)緩和に追加するためのカットセットを選択するタスクは、これまで公式およびヒューリスティックなソリューションの両方に反した。 MLは、データを使用してMILPインスタンスのソリューションを加速する有望なカットを特定することによって、カット選択プロセスを改善するための有望なアプローチを提供する。 本稿では,最近の文献の進歩,データ収集への共通アプローチ,評価,MLモデルアーキテクチャについて概説する。 文献における経験的結果を分析し,今後の研究への道筋を示唆し,その成果を定量化し,結論づける。

We survey recent work on machine learning (ML) techniques for selecting cutting planes (or cuts) in mixed-integer linear programming (MILP). Despite the availability of various classes of cuts, the task of choosing a set of cuts to add to the linear programming (LP) relaxation at a given node of the branch-and-bound (B&B) tree has defied both formal and heuristic solutions to date. ML offers a promising approach for improving the cut selection process by using data to identify promising cuts that accelerate the solution of MILP instances. This paper presents an overview of the topic, highlighting recent advances in the literature, common approaches to data collection, evaluation, and ML model architectures. We analyze the empirical results in the literature in an attempt to quantify the progress that has been made and conclude by suggesting avenues for future research.
翻訳日:2023-02-21 20:07:55 公開日:2023-02-17
# 縮約-連結トレードオフ--変分推論のための因子化ガウス近似の解析

The Shrinkage-Delinkage Trade-off: An Analysis of Factorized Gaussian Approximations for Variational Inference ( http://arxiv.org/abs/2302.09163v1 )

ライセンス: Link先を確認
Charles C. Margossian and Lawrence K. Saul(参考訳) 因子化近似が変分推論(vi)に使用されるとき、それらは近似する分布の不確実性(様々な方法で測定される)を過小評価する傾向がある。 我々は、VIの不確実性を測る2つの一般的な方法を考える。 (i)成分的なばらつきを過小評価する程度 (二)エントロピーを過小評価する程度 これらの効果、およびそれらの関係をよりよく理解するために、これらを明示的に(かつエレガントに)分析できる情報的設定について検討する: 密度共分散行列を持つガウス行列の近似は、対角共分散行列を持つガウス行列(英語版)(gaussian,~$q$)である。 q$は常にコンポーネントごとの分散と$p$, \textit{ but not always to the same degree}のエントロピーの両方を過小評価していることを証明する。 さらに、$q$のエントロピーは、2つの競合する力のトレードオフによって決定され、その成分的分散(我々の最初の不確実性の尺度)の縮小によって減少するが、これはグラフィカルモデルのノードを$p$で切り離す分解近似によって増加する。 特に、問題の次元が大きくなるにつれて、成分ごとのエントロピーギャップが、一定の乗算係数によってすべての成分ごとの分散を過小評価しているにもかかわらず、$p$ と $q$ の間の減少する。 また,問題次元と相関行列の条件数でエントロピーギャップを拘束するために,縮小-デリンジトレードオフを用いる。 最後に、ガウス的目標と非ガウス的目標の両方について実験結果を示し、前者は分析を検証し、後者は限界を探索する。

When factorized approximations are used for variational inference (VI), they tend to understimate the uncertainty -- as measured in various ways -- of the distributions they are meant to approximate. We consider two popular ways to measure the uncertainty deficit of VI: (i) the degree to which it underestimates the componentwise variance, and (ii) the degree to which it underestimates the entropy. To better understand these effects, and the relationship between them, we examine an informative setting where they can be explicitly (and elegantly) analyzed: the approximation of a Gaussian,~$p$, with a dense covariance matrix, by a Gaussian,~$q$, with a diagonal covariance matrix. We prove that $q$ always underestimates both the componentwise variance and the entropy of $p$, \textit{though not necessarily to the same degree}. Moreover we demonstrate that the entropy of $q$ is determined by the trade-off of two competing forces: it is decreased by the shrinkage of its componentwise variances (our first measure of uncertainty) but it is increased by the factorized approximation which delinks the nodes in the graphical model of $p$. We study various manifestations of this trade-off, notably one where, as the dimension of the problem grows, the per-component entropy gap between $p$ and $q$ becomes vanishingly small even though $q$ underestimates every componentwise variance by a constant multiplicative factor. We also use the shrinkage-delinkage trade-off to bound the entropy gap in terms of the problem dimension and the condition number of the correlation matrix of $p$. Finally we present empirical results on both Gaussian and non-Gaussian targets, the former to validate our analysis and the latter to explore its limitations.
翻訳日:2023-02-21 20:07:39 公開日:2023-02-17
# 機械学習手法の等価最適化について

On Equivalent Optimization of Machine Learning Methods ( http://arxiv.org/abs/2302.09160v1 )

ライセンス: Link先を確認
William T. Redman, Juan M. Bello-Rivas, Maria Fonoberova, Ryan Mohr, Ioannis G. Kevrekidis, Igor Mezi\'c(参考訳) 多くの機械学習手法の核心には、トレーニングのための反復最適化アルゴリズムがある。 このような最適化アルゴリズムは、しばしば実装に関する多くの選択肢を伴っている。 ディープニューラルネットワークの場合、オプティマイザ、学習率、バッチサイズなどを選択する必要があります。 これらの選択がディープニューラルネットワークのトレーニングに影響を与える基本的な方法にもかかわらず、それらが等価あるいは等価でない最適化軌道にいつ導かれるかを特定する一般的な方法は存在しない。 離散時間力学系として反復最適化を見ることにより、共役力学が同一のスペクトル対象を持つことが知られているクープマン作用素理論を活用できる。 オンラインミラーの応用と勾配勾配勾配による特定の問題に対するKoopmanスペクトルの重なりが強く、このようなデータ駆動アプローチは、最近発見された2つのオプティマイザ間の解析的等価性を相関させることができる。 学習速度、バッチサイズ、層幅、データセット、アクティベーション関数の選択が、トレーニング中のネットワークパラメータの等価かつ非等価な進化につながる場合の、最初の一般的な特徴付けを提供する。 その結果,学習率からバッチサイズ比,層幅,データセットの性質(手書き対合成),活性化関数が共役の性質に影響することがわかった。 データ駆動アプローチは一般的であり、機械学習手法の最適化を比較するために広く利用することができる。

At the core of many machine learning methods resides an iterative optimization algorithm for their training. Such optimization algorithms often come with a plethora of choices regarding their implementation. In the case of deep neural networks, choices of optimizer, learning rate, batch size, etc. must be made. Despite the fundamental way in which these choices impact the training of deep neural networks, there exists no general method for identifying when they lead to equivalent, or non-equivalent, optimization trajectories. By viewing iterative optimization as a discrete-time dynamical system, we are able to leverage Koopman operator theory, where it is known that conjugate dynamics can have identical spectral objects. We find highly overlapping Koopman spectra associated with the application of online mirror and gradient descent to specific problems, illustrating that such a data-driven approach can corroborate the recently discovered analytical equivalence between the two optimizers. We extend our analysis to feedforward, fully connected neural networks, providing the first general characterization of when choices of learning rate, batch size, layer width, data set, and activation function lead to equivalent, and non-equivalent, evolution of network parameters during training. Among our main results, we find that learning rate to batch size ratio, layer width, nature of data set (handwritten vs. synthetic), and activation function affect the nature of conjugacy. Our data-driven approach is general and can be utilized broadly to compare the optimization of machine learning methods.
翻訳日:2023-02-21 20:07:05 公開日:2023-02-17
# コプラ型人工集団発生

Copula-based synthetic population generation ( http://arxiv.org/abs/2302.09193v1 )

ライセンス: Link先を確認
Pascal Jutras-Dub\'e, Mohammad B. Al-Khasawneh, Zhichao Yang, Javier Bas, Fabian Bastin and Cinzia Cirillo(参考訳) 集団合成は、行動モデルとシミュレーションのために、標的とするマイクロエージェントの集団を合成するが現実的に表現する。 本稿では,コピュラスに基づく新しい枠組みを導入し,類似の辺縁関係を持つ別の個体群からのサンプルを用いて,経験的辺縁分布のみが知られている対象個体群のための合成データを生成する。 これにより、人口合成の発生に空間的要素を組み込むことができ、様々な情報ソースを組み合わせてより現実的な人口発生装置を得ることができる。 具体的には,データを正規化し,与えられたコプラの実現として扱うとともに,正規化データ上で生成モデルを訓練し,限界値に関する情報を注入する。 我々は、コプラフレームワークをIPFやベイジアンネットワーク、変分オートエンコーダ、生成的対向ネットワークといった現代の確率論的アプローチと比較する。 また,アメリカのコミュニティ調査データを用いて,異なる地理的レベルでのデータ構造を,境界分布の特異性にロバストな方法で研究できることを明らかにした。

Population synthesis consists of generating synthetic but realistic representations of a target population of micro-agents for the purpose of behavioral modeling and simulation. We introduce a new framework based on copulas to generate synthetic data for a target population of which only the empirical marginal distributions are known by using a sample from another population sharing similar marginal dependencies. This makes it possible to include a spatial component in the generation of population synthesis and to combine various sources of information to obtain more realistic population generators. Specifically, we normalize the data and treat them as realizations of a given copula, and train a generative model on the normalized data before injecting the information on the marginals. We compare the copulas framework to IPF and to modern probabilistic approaches such as Bayesian networks, variational auto-encoders, and generative adversarial networks. We also illustrate on American Community Survey data that the method proposed allows to study the structure of the data at different geographical levels in a way that is robust to the peculiarities of the marginal distributions.
翻訳日:2023-02-21 20:00:22 公開日:2023-02-17
# トンネル接合におけるジョセフソン高調波の観測

Observation of Josephson Harmonics in Tunnel Junctions ( http://arxiv.org/abs/2302.09192v1 )

ライセンス: Link先を確認
Dennis Willsch, Dennis Rieger, Patrick Winkel, Madita Willsch, Christian Dickel, Jonas Krause, Yoichi Ando, Rapha\"el Lescanne, Zaki Leghtas, Nicholas T. Bronn, Pratiti Deb, Olivia Lanes, Zlatko K. Minev, Benedikt Dennig, Simon Geisert, Simon G\"unzler, S\"oren Ihssen, Patrick Paluch, Thomas Reisinger, Roudy Hanna, Jin Hee Bae, Peter Sch\"uffelgen, Detlev Gr\"utzmacher, Luiza Buimaga-Iarinca, Cristian Morari, Wolfgang Wernsdorfer, David P. DiVincenzo, Kristel Michielsen, Gianluigi Catelani, Ioan M. Pop(参考訳) ジョセフソン効果の正確な理解は、超伝導ハードウェアを用いた量子情報処理のキーストーンである。 ここで、josephson junctions (jjs) の祝われる$\sin\varphi$ current-phase relation (c$\varphi$r) は、様々なサンプルや実験室におけるトランスモン人工原子のエネルギースペクトルを完全に記述できないことを示す。 JJsの顕微鏡理論は、C$\varphi$Rの高調波を含むが、一般的には伝導チャネルの透明性が低いため、トンネルJJsに重要な補正を与えると考えられている。 しかし、一般的に使用されるAlO$_x$トンネル障壁の乱れの性質を考えると、この仮定は正当化されないかもしれない。 実際、不均一な alo$_x$ 障壁を通るトンネルのメソスコピックモデルは、数%高いジョセフソン高調波からの寄与を予測する。 これらをトランスモンハミルトニアンに含めることで、計算されたエネルギースペクトルと測定されたエネルギースペクトルの間で、桁違いに良い一致が得られる。 標準トンネル接合のC$\varphi$Rにおけるジョセフソン高調波の測定は超伝導ハードウェアの現在のモデルの再評価を促し、トンネルバリアの均一性を最適化するための高感度プローブを提供する。

An accurate understanding of the Josephson effect is the keystone of quantum information processing with superconducting hardware. Here we show that the celebrated $\sin\varphi$ current-phase relation (C$\varphi$R) of Josephson junctions (JJs) fails to fully describe the energy spectra of transmon artificial atoms across various samples and laboratories. While the microscopic theory of JJs contains higher harmonics in the C$\varphi$R, these have generally been assumed to give insignificant corrections for tunnel JJs, due to the low transparency of the conduction channels. However, this assumption might not be justified given the disordered nature of the commonly used AlO$_x$ tunnel barriers. Indeed, a mesoscopic model of tunneling through an inhomogeneous AlO$_x$ barrier predicts contributions from higher Josephson harmonics of several %. By including these in the transmon Hamiltonian, we obtain orders of magnitude better agreement between the computed and measured energy spectra. The measurement of Josephson harmonics in the C$\varphi$R of standard tunnel junctions prompts a reevaluation of current models for superconducting hardware and it offers a highly sensitive probe towards optimizing tunnel barrier uniformity.
翻訳日:2023-02-21 19:59:54 公開日:2023-02-17
# 信頼できる機械学習における機能構成:実装選択,洞察,質問

Function Composition in Trustworthy Machine Learning: Implementation Choices, Insights, and Questions ( http://arxiv.org/abs/2302.09190v1 )

ライセンス: Link先を確認
Manish Nagireddy, Moninder Singh, Samuel C. Hoffman, Evaline Ju, Karthikeyan Natesan Ramamurthy, Kush R. Varshney(参考訳) 機械学習(ML)モデルにおける信頼性を保証することは多次元課題である。 従来の予測性能の概念に加えて、プライバシー、公正性、流通シフトに対する堅牢性、敵対的堅牢性、解釈可能性、説明可能性、不確実性定量化といった他の概念は、(欠陥があれば)評価と改善のために重要である。 しかし、これらのサブディシプリヌや信頼性の「ピラー」は独立して開発され、現実のMLパイプラインでのインタラクションの理解が制限されています。 本稿では,異なる柱から生じる関数の構成に特化して,このギャップを減らし,信頼に値するMLのための新たな洞察を開発し,以下のような質問に答える。 複数の公平な介入の組成は、単一の介入と比較してより公平なモデルをもたらすか? 公正性に対するバイアス緩和アルゴリズムは局所的ポストホック説明にどのように影響するか? プライバシ・トランスフォーメーションを組み込んだ場合、未目標の敵攻撃に対する防御アルゴリズムは有効か? この目的に向けて,2つの信頼に値する次元(フェアネスと説明可能性)に沿って,実世界の7つのデータセット上の9つの異なる関数(あるいはパイプライン)の構成から,最初の実験結果と新たな知見を報告する。 また,複数の柱からの機能の組み合わせを促進するために,拡張可能な作曲家ツールの進歩と実装選択について報告する。 現在、このツールは公正性のためのバイアス軽減アルゴリズムとポストホック説明可能性手法をサポートしている。 この一連の作業が、信頼性の問題を定式化し解決しようとする際の、複数の柱の思慮深い検討を促進することを願っています。

Ensuring trustworthiness in machine learning (ML) models is a multi-dimensional task. In addition to the traditional notion of predictive performance, other notions such as privacy, fairness, robustness to distribution shift, adversarial robustness, interpretability, explainability, and uncertainty quantification are important considerations to evaluate and improve (if deficient). However, these sub-disciplines or 'pillars' of trustworthiness have largely developed independently, which has limited us from understanding their interactions in real-world ML pipelines. In this paper, focusing specifically on compositions of functions arising from the different pillars, we aim to reduce this gap, develop new insights for trustworthy ML, and answer questions such as the following. Does the composition of multiple fairness interventions result in a fairer model compared to a single intervention? How do bias mitigation algorithms for fairness affect local post-hoc explanations? Does a defense algorithm for untargeted adversarial attacks continue to be effective when composed with a privacy transformation? Toward this end, we report initial empirical results and new insights from 9 different compositions of functions (or pipelines) on 7 real-world datasets along two trustworthy dimensions - fairness and explainability. We also report progress, and implementation choices, on an extensible composer tool to encourage the combination of functionalities from multiple pillars. To-date, the tool supports bias mitigation algorithms for fairness and post-hoc explainability methods. We hope this line of work encourages the thoughtful consideration of multiple pillars when attempting to formulate and resolve a trustworthiness problem.
翻訳日:2023-02-21 19:59:20 公開日:2023-02-17
# テキストと画像からなるメディアによる情報伝達における消化効率の構成因子の抽出

Extraction of Constituent Factors of Digestion Efficiency in Information Transfer by Media Composed of Texts and Images ( http://arxiv.org/abs/2302.09189v1 )

ライセンス: Link先を確認
Koike Hiroaki and Teruaki Hayashi(参考訳) 情報通信技術の発達と普及は、情報の増加と多様化をもたらした。 しかし,情報量の増加や選択は必ずしも理解を促進するものではない。 また,従来の情報伝達評価では,受信機への情報の到着のみに着目している。 彼らは、取得後の情報に対する受信者の理解を十分に考慮する必要があるが、これは評価の本来の目的である。 本研究では,受信者が取得した情報とその内容,その目的を正しく理解する上での「情報消化」の概念を提案する。 実験では,階層的因子分析と4種類のメディアによる消化性を構成する抽出因子を用いた情報消化性評価モデルを提案した。

The development and spread of information and communication technologies have increased and diversified information. However, the increase in the volume and the selection of information does not necessarily promote understanding. In addition, conventional evaluations of information transfer have focused only on the arrival of information to the receivers. They need to sufficiently take into account the receivers' understanding of the information after it has been acquired, which is the original purpose of the evaluation. In this study, we propose the concept of "information digestion," which refers to the receivers' correct understanding of the acquired information, its contents, and its purpose. In the experiment, we proposed an evaluation model of information digestibility using hierarchical factor analysis and extracted factors that constitute digestibility by four types of media.
翻訳日:2023-02-21 19:58:52 公開日:2023-02-17
# PSO-ConvNet変換器を用いた動画像認識協調学習

Video Action Recognition Collaborative Learning with Dynamics via PSO-ConvNet Transformer ( http://arxiv.org/abs/2302.09187v1 )

ライセンス: Link先を確認
Nguyen Huu Phong, Bernardete Ribeiro(参考訳) HAR(Human Action Recognition)は、ビデオシーケンスに存在するアクションを分類するタスクである。 興味深い問題があるが、パターン認識において最も困難な領域の1つである。 Convolutional Neural Networks (ConvNets) は画像認識や関連分野において極めて成功している。 しかし、時間的特徴の考慮が不可欠であるため、これらの高度な技術は必ずしもHARに直接適用されない。 本稿では,映像における学習行動のための動的pso-convnetモデルを提案する。 本手法は,各ニューラルネットワークの重みベクトルが相空間における粒子の位置として機能し,粒子が現在の重みベクトルとロス関数の勾配推定を交換する枠組みに基づいている。 我々は、ConvNetとTransformerやRecurrent Neural Networksといった最先端の時間的手法を統合することで、ビデオへのアプローチを拡張する。 その結果、UCF-101データセットで最大9%の改善が達成された。 コードはhttps://github.com/leonlha/Video-Action-Recognition-via-PSO-ConvNet-Transformer-Collaborative-Learni ng-with-Dynamicsで公開されている。

Human Action Recognition (HAR) involves the task of categorizing actions present in video sequences. Although it presents interesting problems, it remains one of the most challenging domains in pattern recognition. Convolutional Neural Networks (ConvNets) have demonstrated exceptional success in image recognition and related areas. However, these advanced techniques are not always directly applicable to HAR, as the consideration of temporal features is crucial. In this paper, we present a dynamic PSO-ConvNet model for learning actions in video, drawing on our recent research in image recognition. Our methods are based on a framework where the weight vector of each neural network serves as the position of a particle in phase space, and particles exchange their current weight vectors and gradient estimates of the Loss function. We extend the approach to video by integrating a ConvNet with state-of-the-art temporal methods such as Transformer and Recurrent Neural Networks. The results reveal substantial advancements, with improvements of up to 9% on UCF-101 dataset. The code is available at https://github.com/leonlha/Video-Action-Recognition-via-PSO-ConvNet-Transformer-Collaborative-Learni ng-with-Dynamics.
翻訳日:2023-02-21 19:58:43 公開日:2023-02-17
# プロンプト制約付きオープンテキスト生成における大規模言語モデルの能力境界

Bounding the Capabilities of Large Language Models in Open Text Generation with Prompt Constraints ( http://arxiv.org/abs/2302.09185v1 )

ライセンス: Link先を確認
Albert Lu, Hongxin Zhang, Yanzhe Zhang, Xuezhi Wang, Diyi Yang(参考訳) オープンエンド生成モデルの限界は明確ではないが、ますます重要になっている。 成功の原因は何か、失敗の原因は何なのか? 本稿では,オープンエンド生成モデルの能力を解析し,バウンドする手法を提案する。 本稿では,構造的およびスタイリスティックな2つの制約型を用いた解析手法を提案する。 これらの制約型は、一つのプロンプトで分析可能な、明確に定義された一連の制約に分類される。 次に、各制約を堅牢に分析するための、単純で自然な、有用なプロンプトの多様なセットを体系的に作成します。 GPT-3 text-davinci-002 model をケーススタディとして,提案するプロンプトの集合から出力を生成し,モデルの生成障害を解析する。 また,BLOOM や OPT などの大規模モデルに対して提案手法の一般化可能性を示す。 我々の結果と文脈内緩和戦略は、今後の研究に対するオープンな課題を明らかにする。 コードをhttps://github.com/SALT-NLP/Bound-Cap-LLMで公開しています。

The limits of open-ended generative models are unclear, yet increasingly important. What causes them to succeed and what causes them to fail? In this paper, we take a prompt-centric approach to analyzing and bounding the abilities of open-ended generative models. We present a generic methodology of analysis with two challenging prompt constraint types: structural and stylistic. These constraint types are categorized into a set of well-defined constraints that are analyzable by a single prompt. We then systematically create a diverse set of simple, natural, and useful prompts to robustly analyze each individual constraint. Using the GPT-3 text-davinci-002 model as a case study, we generate outputs from our collection of prompts and analyze the model's generative failures. We also show the generalizability of our proposed method on other large models like BLOOM and OPT. Our results and our in-context mitigation strategies reveal open challenges for future research. We have publicly released our code at https://github.com/SALT-NLP/Bound-Cap-LLM.
翻訳日:2023-02-21 19:58:25 公開日:2023-02-17
# ビルディングブロックの定性表現を用いたトップパーパフォーミング型金属-有機フレームワークの高速設計

Rapid Design of Top-Performing Metal-Organic Frameworks with Qualitative Representations of Building Blocks ( http://arxiv.org/abs/2302.09184v1 )

ライセンス: Link先を確認
Yigitcan Comlek, Thang Duc Pham, Randall Snurr, Wei Chen(参考訳) データ駆動材料設計は、システムが質的な(カテゴリー的な)情報を必要とする、または保持する課題にしばしば遭遇する。 金属-有機フレームワーク(mofs)は、そのような材料システムの例である。 異なるビルディングブロックによるMOFの表現は、設計者が質的な情報を設計の最適化に組み込むことを困難にしている。 さらに、多くの潜在的なビルディングブロックが組み合わさった挑戦につながり、物理学に基づくアプローチに時間を費やすことで、数百万のMOFが探索できる可能性がある。 本研究では,遅延可変ガウス過程 (LVGP) と多目的バッチベイズ最適化 (MOBBO) を統合し,人間の介入なしに高い性能のMOFを適応的に,自律的に,効率的に識別する。 私たちのアプローチには3つの大きな利点があります (i) 特定の物理記述子は不要であり, 定性表現による大域最適化においてMOFを構成するブロックのみが使用される。 (ii)その方法は、適用及び財産独立であり、 (iii)潜在変数アプローチは、物理的正当化を伴う質的ビルディングブロックの解釈可能なモデルを提供する。 提案手法の有効性を示すために, 47,000 以上の MOF 候補を持つ設計空間を検討した。 LVGP-MOBBOは、設計空間のわずか1%しか探索せず、パレートフロントのすべてのMOFを識別することができ、CO$_2$作業容量とCO$_2$/N$_2$選択性を持つ50の最高性能設計の97%以上を達成できた。 最後に,本手法をランダムフォレストアルゴリズムと比較し,その効率,解釈性,ロバスト性を示した。

Data-driven materials design often encounters challenges where systems require or possess qualitative (categorical) information. Metal-organic frameworks (MOFs) are an example of such material systems. The representation of MOFs through different building blocks makes it a challenge for designers to incorporate qualitative information into design optimization. Furthermore, the large number of potential building blocks leads to a combinatorial challenge, with millions of possible MOFs that could be explored through time consuming physics-based approaches. In this work, we integrated Latent Variable Gaussian Process (LVGP) and Multi-Objective Batch-Bayesian Optimization (MOBBO) to identify top-performing MOFs adaptively, autonomously, and efficiently without any human intervention. Our approach provides three main advantages: (i) no specific physical descriptors are required and only building blocks that construct the MOFs are used in global optimization through qualitative representations, (ii) the method is application and property independent, and (iii) the latent variable approach provides an interpretable model of qualitative building blocks with physical justification. To demonstrate the effectiveness of our method, we considered a design space with more than 47,000 MOF candidates. By searching only ~1% of the design space, LVGP-MOBBO was able to identify all MOFs on the Pareto front and more than 97% of the 50 top-performing designs for the CO$_2$ working capacity and CO$_2$/N$_2$ selectivity properties. Finally, we compared our approach with the Random Forest algorithm and demonstrated its efficiency, interpretability, and robustness.
翻訳日:2023-02-21 19:58:10 公開日:2023-02-17
# gaussian-smoothed imbalance dataは音声感情認識を改善する

Gaussian-smoothed Imbalance Data Improves Speech Emotion Recognition ( http://arxiv.org/abs/2302.08650v1 )

ライセンス: Link先を確認
Xuefeng Liang, Hexin Jiang, Wenxin Xu, Ying Zhou(参考訳) 音声感情認識タスクでは、モデルはデータセットから感情表現を学ぶ。 IEMOCAPデータセットのデータ分布は非常に不均衡であり、より良い表現を学ぶためにモデルに害を与える可能性がある。 そこで本研究では,Pairwise-emotion Data Distribution Smoothing (PDDS)法を提案する。 PDDSは、感情データの分布は現実的にはスムーズであるべきだと考え、その後、よりスムーズな分布を持つ新しいトレーニングセットを構築するための感情ペアにガウス的スムージングを適用した。 必要な新しいデータはmixup拡張を使用して補完される。 PDDSはモデルおよびモダリティに依存しないため、IEMOCAPデータセット上の3つのSOTAモデルを用いて評価する。 実験の結果,これらのモデルではWAおよびUAで0.2\%-4.8\%,1.5\%-5.9\%の改善が見られた。 さらに、アブレーション研究では、PDDSの鍵となる利点は、単純なデータ拡張ではなく、合理的なデータ分布であることを示した。

In speech emotion recognition tasks, models learn emotional representations from datasets. We find the data distribution in the IEMOCAP dataset is very imbalanced, which may harm models to learn a better representation. To address this issue, we propose a novel Pairwise-emotion Data Distribution Smoothing (PDDS) method. PDDS considers that the distribution of emotional data should be smooth in reality, then applies Gaussian smoothing to emotion-pairs for constructing a new training set with a smoother distribution. The required new data are complemented using the mixup augmentation. As PDDS is model and modality agnostic, it is evaluated with three SOTA models on the IEMOCAP dataset. The experimental results show that these models are improved by 0.2\% - 4.8\% and 1.5\% - 5.9\% in terms of WA and UA. In addition, an ablation study demonstrates that the key advantage of PDDS is the reasonable data distribution rather than a simple data augmentation.
翻訳日:2023-02-20 16:17:22 公開日:2023-02-17
# 階層構造学習のためのマルチレゾリューショングラフトランスフォーマとウェーブレット位置符号化

Multiresolution Graph Transformers and Wavelet Positional Encoding for Learning Hierarchical Structures ( http://arxiv.org/abs/2302.08647v1 )

ライセンス: Link先を確認
Nhat Khang Ngo, Truong Son Hy, Risi Kondor(参考訳) 現代のグラフ学習アルゴリズムは、大分子の分子特性を決定するのに必須である原子間の階層的相互作用を考慮しないため、大分子では明確に定義されていない。 本研究では,複数スケールで大きな分子を表現できる最初のグラフトランスアーキテクチャであるMulti resolution Graph Transformer (MGT)を提案する。 MGTは原子の表現を学習し、それらを意味のある機能群または繰り返し単位に分類することができる。 また、スペクトル領域と空間領域の両方でローカライズを保証できる新しい位置符号化手法であるWavePE(Wavelet Positional Encoding)を導入する。 本手法は,高分子とペプチドからなる2つのマクロ分子データセットの競合結果を得る。 さらに, マクロ分子とそれらの表現の低次元空間のクラスタリング結果を含む可視化により, 長距離階層構造を表現できる手法の可能性を実証した。

Contemporary graph learning algorithms are not well-defined for large molecules since they do not consider the hierarchical interactions among the atoms, which are essential to determine the molecular properties of macromolecules. In this work, we propose Multiresolution Graph Transformers (MGT), the first graph transformer architecture that can learn to represent large molecules at multiple scales. MGT can learn to produce representations for the atoms and group them into meaningful functional groups or repeating units. We also introduce Wavelet Positional Encoding (WavePE), a new positional encoding method that can guarantee localization in both spectral and spatial domains. Our approach achieves competitive results on two macromolecule datasets consisting of polymers and peptides. Furthermore, the visualizations, including clustering results on macromolecules and low-dimensional spaces of their representations, demonstrate the capability of our methodology in learning to represent long-range and hierarchical structures.
翻訳日:2023-02-20 16:17:05 公開日:2023-02-17
# autofed:ロバストな自動運転のためのヘテロゲニティアウェアフェデレーション型マルチモーダル学習

AutoFed: Heterogeneity-Aware Federated Multimodal Learning for Robust Autonomous Driving ( http://arxiv.org/abs/2302.08646v1 )

ライセンス: Link先を確認
Tianyue Zheng, Ang Li, Zhe Chen, Hongbo Wang, and Jun Luo(参考訳) 搭載されたセンサー(ライダー、レーダー、カメラなど)による物体検出は、自律走行(AD)において重要な役割を果たす。 クラウドセンシングは、これらのセンサー(膨大な量の)を利用してより包括的な知識を導出する可能性があるが、この可能性に到達するために必要なツールとして、 \textit{federated learning} (fl) がある。 しかし、マルチモーダルセンサは分散avにまたがる様々なデータ不均一性(ラベル量スキューや様々なモダリティなど)を導入し、効果的なflにとって重要な課題となっている。 そこで我々はAutoFedを異機種対応FLフレームワークとして,AV上のマルチモーダルセンサデータをフル活用し,ロバストADを実現する。 具体的には,非ラベルオブジェクトを背景として誤って扱うことを避けるために,擬似ラベルを用いた新しいモデルを提案する。 また,avsの欠落したデータモダリティを利用可能なデータに埋め込む自動エンコーダベースのデータインプテーション手法を提案する。 この不均一性をさらに改善するために,クライアントモデル間の類似性を利用して,トレーニング安定性と収束率の両方を改善するクライアント選択機構を提案する。 ベンチマークデータを用いた実験により,AutoFedは精度とリコールの両面で現状クオアプローチを大幅に改善し,悪天候条件に対する強い堅牢性を示した。

Object detection with on-board sensors (e.g., lidar, radar, and camera) play a crucial role in autonomous driving (AD), and these sensors complement each other in modalities. While crowdsensing may potentially exploit these sensors (of huge quantity) to derive more comprehensive knowledge, \textit{federated learning} (FL) appears to be the necessary tool to reach this potential: it enables autonomous vehicles (AVs) to train machine learning models without explicitly sharing raw sensory data. However, the multimodal sensors introduce various data heterogeneity across distributed AVs (e.g., label quantity skews and varied modalities), posing critical challenges to effective FL. To this end, we present AutoFed as a heterogeneity-aware FL framework to fully exploit multimodal sensory data on AVs and thus enable robust AD. Specifically, we first propose a novel model leveraging pseudo-labeling to avoid mistakenly treating unlabeled objects as the background. We also propose an autoencoder-based data imputation method to fill missing data modality (of certain AVs) with the available ones. To further reconcile the heterogeneity, we finally present a client selection mechanism exploiting the similarities among client models to improve both training stability and convergence rate. Our experiments on benchmark dataset confirm that AutoFed substantially improves over status quo approaches in both precision and recall, while demonstrating strong robustness to adverse weather conditions.
翻訳日:2023-02-20 16:16:49 公開日:2023-02-17
# 高速時間的ウェーブレットグラフニューラルネットワーク

Fast Temporal Wavelet Graph Neural Networks ( http://arxiv.org/abs/2302.08643v1 )

ライセンス: Link先を確認
Duc Thien Nguyen, Manh Duc Tuan Nguyen, Truong Son Hy, Risi Kondor(参考訳) 時空間信号の予測は多くの領域、特に神経科学や輸送において重要な役割を果たす。 この課題は、高度に複雑な空間構造と、ネットワークの非線形時間ダイナミクスによって困難である。 人間の脳と交通ネットワークの信頼性とタイムリーな予測を容易にするため、離散空間におけるマルチレゾリューション解析とウェーブレット理論の理論により、時系列データにおける時間的および記憶的タスクの学習に有効なFTWGNN(Fast Temporal Wavelet Graph Neural Networks)を提案する。 我々は多分解能行列分解(mmf)(kondor et al., 2014)を用いて高濃度のグラフ構造を分解し、新しいアーキテクチャのバックボーンとして高速なウェーブレット畳み込みを構築することができるスパースウェーブレット基底を計算する。 実世界のPEMS-BAY, METR-LAトラフィックデータセット, AJILE12 ECoGデータセットによる実験結果から,FTWGNNは計算フットプリントを低く保ちながら最先端技術と競合することが示された。

Spatio-temporal signals forecasting plays an important role in numerous domains, especially in neuroscience and transportation. The task is challenging due to the highly intricate spatial structure, as well as the non-linear temporal dynamics of the network. To facilitate reliable and timely forecast for the human brain and traffic networks, we propose the Fast Temporal Wavelet Graph Neural Networks (FTWGNN) that is both time- and memory-efficient for learning tasks on timeseries data with the underlying graph structure, thanks to the theories of multiresolution analysis and wavelet theory on discrete spaces. We employ Multiresolution Matrix Factorization (MMF) (Kondor et al., 2014) to factorize the highly dense graph structure and compute the corresponding sparse wavelet basis that allows us to construct fast wavelet convolution as the backbone of our novel architecture. Experimental results on real-world PEMS-BAY, METR-LA traffic datasets and AJILE12 ECoG dataset show that FTWGNN is competitive with the state-of-the-arts while maintaining a low computational footprint.
翻訳日:2023-02-20 16:16:23 公開日:2023-02-17
# コンピュータビジョンにおけるトランスフォーマーに基づくジェネレーティブ・アドバイサル・ネットワーク:総合的調査

Transformer-based Generative Adversarial Networks in Computer Vision: A Comprehensive Survey ( http://arxiv.org/abs/2302.08641v1 )

ライセンス: Link先を確認
Shiv Ram Dubey, Satish Kumar Singh(参考訳) Generative Adversarial Networks (GAN) は、与えられたデータセット内の画像を合成するのに非常に成功した。 ganによる人工的な画像は非常にリアルです。 GANは、画像生成、画像間変換、ビデオ合成など、いくつかのコンピュータビジョンアプリケーションで潜在的なユーザビリティを示している。 通常、ジェネレータネットワークはgansのバックボーンであり、サンプルを生成し、判別器ネットワークはジェネレータネットワークのトレーニングを容易にするために使用される。 識別器ネットワークは通常、畳み込みニューラルネットワーク(CNN)である。 一方、ジェネレータネットワークは通常、画像生成用のUp-CNNまたは画像から画像への変換のためのEncoder-Decoderネットワークである。 畳み込みベースのネットワークは層内の局所的関係を利用しており、深いネットワークが抽象的な特徴を抽出する必要がある。 そのため、CNNは機能領域におけるグローバルな関係を悪用する。 しかし、最近開発されたトランスフォーマーネットワークは、すべての層でグローバルな関係を活用できる。 Transformerネットワークは、コンピュータビジョンにおけるいくつかの問題に対して、大幅な性能向上を示している。 トランスフォーマーネットワークとGANの成功から動機づけられた最近の研究は、画像/ビデオ合成において、GANフレームワークにおけるトランスフォーマーの利用を試みた。 本稿では,コンピュータビジョンアプリケーションにおけるTransformerネットワークを利用したGANの開発と進歩に関する総合的な調査を行う。 ベンチマークデータセット上のいくつかのアプリケーションのパフォーマンス比較も実行され、分析される。 この調査は、トランスフォーマーベースのGANに関する研究動向とギャップを理解するために、ディープラーニングとコンピュータビジョンコミュニティにとって非常に有用であり、異なるアプリケーションに対するグローバルおよびローカルの関係を利用して、先進的なGANアーキテクチャを開発するのに役立ちます。

Generative Adversarial Networks (GANs) have been very successful for synthesizing the images in a given dataset. The artificially generated images by GANs are very realistic. The GANs have shown potential usability in several computer vision applications, including image generation, image-to-image translation, video synthesis, and others. Conventionally, the generator network is the backbone of GANs, which generates the samples and the discriminator network is used to facilitate the training of the generator network. The discriminator network is usually a Convolutional Neural Network (CNN). Whereas, the generator network is usually either an Up-CNN for image generation or an Encoder-Decoder network for image-to-image translation. The convolution-based networks exploit the local relationship in a layer, which requires the deep networks to extract the abstract features. Hence, CNNs suffer to exploit the global relationship in the feature space. However, recently developed Transformer networks are able to exploit the global relationship at every layer. The Transformer networks have shown tremendous performance improvement for several problems in computer vision. Motivated from the success of Transformer networks and GANs, recent works have tried to exploit the Transformers in GAN framework for the image/video synthesis. This paper presents a comprehensive survey on the developments and advancements in GANs utilizing the Transformer networks for computer vision applications. The performance comparison for several applications on benchmark datasets is also performed and analyzed. The conducted survey will be very useful to deep learning and computer vision community to understand the research trends \& gaps related with Transformer-based GANs and to develop the advanced GAN architectures by exploiting the global and local relationships for different applications.
翻訳日:2023-02-20 16:16:00 公開日:2023-02-17
# 話者自動検証のための局所性を考慮したトランスフォーマーネットワークの改良

Improving Transformer-based Networks With Locality For Automatic Speaker Verification ( http://arxiv.org/abs/2302.08639v1 )

ライセンス: Link先を確認
Mufan Sang, Yong Zhao, Gang Liu, John H.L. Hansen, Jian Wu(参考訳) 近年,話者埋め込み抽出のためのトランスフォーマティブアーキテクチャが検討されている。 このトランスは、トークン埋め込み間のグローバルインタラクションを効率的にモデル化するセルフアテンション機構を採用しているが、話者情報の正確な抽出に不可欠な短距離局所コンテキストをキャプチャするには不十分である。 本研究では, 2方向の局所性モデリングにより変圧器を改良する。 まず,コンフォーマーブロックに深さ方向の畳み込みとチャネル方向の注意を導入することにより,局所性エンハンスドコンフォーマー (le-confomer) を提案する。 次に、当初視覚タスク用に提案されていたSwin Transformerを話者埋め込みネットワークに適応させることにより、SST(Swin Transformer)を提案する。 提案するvoxcelebデータセットと大規模microsoft internal multilingual (ms-internal)データセットのアプローチを評価した。 提案したモデルはVoxCeleb 1テストセットで0.75%のEERを達成し、これまで提案されていたTransformerベースのモデルやResNet34やECAPA-TDNNといったCNNベースのモデルよりも優れている。 MS内部データセットでトレーニングすると、提案されたモデルは、Res2Net50モデルよりも14.6%EERを相対的に削減し、有望な結果を達成する。

Recently, Transformer-based architectures have been explored for speaker embedding extraction. Although the Transformer employs the self-attention mechanism to efficiently model the global interaction between token embeddings, it is inadequate for capturing short-range local context, which is essential for the accurate extraction of speaker information. In this study, we enhance the Transformer with the locality modeling in two directions. First, we propose the Locality-Enhanced Conformer (LE-Confomer) by introducing depth-wise convolution and channel-wise attention into the Conformer blocks. Second, we present the Speaker Swin Transformer (SST) by adapting the Swin Transformer, originally proposed for vision tasks, into speaker embedding network. We evaluate the proposed approaches on the VoxCeleb datasets and a large-scale Microsoft internal multilingual (MS-internal) dataset. The proposed models achieve 0.75% EER on VoxCeleb 1 test set, outperforming the previously proposed Transformer-based models and CNN-based models, such as ResNet34 and ECAPA-TDNN. When trained on the MS-internal dataset, the proposed models achieve promising results with 14.6% relative reduction in EER over the Res2Net50 model.
翻訳日:2023-02-20 16:15:33 公開日:2023-02-17
# CNNアーキテクチャを用いたオンライン会議のための低レイテンシビデオDenoising

Low Latency Video Denoising for Online Conferencing Using CNN Architectures ( http://arxiv.org/abs/2302.08638v1 )

ライセンス: Link先を確認
Altanai Bisht, Ana Carolina de Souza Mendes, Justin David Thoreson II, Shadrokh Samavi(参考訳) 本稿では,ランタイムコストが低く,知覚品質が高いリアルタイムビデオデノベーションのためのパイプラインを提案する。 デノナイジング研究の大半はイメージデノナイジングに焦点を当てている。 しかし、時間的コヒーレンスを維持しつつ高い品質を得るために、高いパフォーマンスコストでビデオのデノベーションに焦点を当てた研究は少数である。 本論文で紹介するアプローチは,画像と映像のデオライズアーキテクチャの利点を生かしている。 私たちのパイプラインはまず、HI-GANブラインド画像デノイングアーキテクチャを使用して、フレームのキーフレームまたは1/5を識別します。 そして、このFastDVDnetビデオ復調モデルに、残りの4分の4のノイズフレームと復調キーフレームデータを供給する。 最終的な出力はユーザのディスプレイにリアルタイムでレンダリングされる。 これらの低レイテンシニューラルネットワークアーキテクチャの組み合わせは、ビデオ会議やその他のリアルタイムメディアストリーミングシステムにおける応用と、知覚的品質の高いリアルタイムデノーミングを生み出す。 カスタムノイズ検出アナライザは、重みを適応させ、モデルの出力を改善するためにリアルタイムのフィードバックを提供する。

In this paper, we propose a pipeline for real-time video denoising with low runtime cost and high perceptual quality. The vast majority of denoising studies focus on image denoising. However, a minority of research works focusing on video denoising do so with higher performance costs to obtain higher quality while maintaining temporal coherence. The approach we introduce in this paper leverages the advantages of both image and video-denoising architectures. Our pipeline first denoises the keyframes or one-fifth of the frames using HI-GAN blind image denoising architecture. Then, the remaining four-fifths of the noisy frames and the denoised keyframe data are fed into the FastDVDnet video denoising model. The final output is rendered in the user's display in real-time. The combination of these low-latency neural network architectures produces real-time denoising with high perceptual quality with applications in video conferencing and other real-time media streaming systems. A custom noise detector analyzer provides real-time feedback to adapt the weights and improve the models' output.
翻訳日:2023-02-20 16:15:11 公開日:2023-02-17
# 分布外運動予測のための生成的因果表現学習

Generative Causal Representation Learning for Out-of-Distribution Motion Forecasting ( http://arxiv.org/abs/2302.08635v1 )

ライセンス: Link先を確認
Shayan Shirahmad Gale Bagi, Zahra Gharaee, Oliver Schulte, Mark Crowley(参考訳) 従来の教師付き学習法では、通常、i.dサンプルを仮定し、アウト・オブ・ディストリビューション(OOD)データに敏感である。 本稿では、因果性を利用して分布シフトによる知識伝達を促進する生成因果表現学習(GCRL)を提案する。 ヒトの軌道予測モデルにおいて提案手法の有効性を評価する一方、GCRLは他の領域にも適用可能である。 まず,すべての環境に共通する特徴と各環境に特有の特徴を用いて,運動予測データセットにおける生成要因を説明する新しい因果モデルを提案する。 選択変数は、微調整なしでモデルのどの部分を新しい環境へ直接転送できるかを決定するために使用される。 第2に,特徴から観察を生成する因果メカニズムを学ぶために,エンドツーエンドの変分学習パラダイムを提案する。 GCRLは、特定の仮定の下で因果モデルの識別可能性を示す強い理論的結果によって支持される。 合成および実世界の動き予測データセットによる実験結果から,ゼロショットおよびローショット設定下での知識伝達における提案手法の堅牢性と有効性を示す。

Conventional supervised learning methods typically assume i.i.d samples and are found to be sensitive to out-of-distribution (OOD) data. We propose Generative Causal Representation Learning (GCRL) which leverages causality to facilitate knowledge transfer under distribution shifts. While we evaluate the effectiveness of our proposed method in human trajectory prediction models, GCRL can be applied to other domains as well. First, we propose a novel causal model that explains the generative factors in motion forecasting datasets using features that are common across all environments and with features that are specific to each environment. Selection variables are used to determine which parts of the model can be directly transferred to a new environment without fine-tuning. Second, we propose an end-to-end variational learning paradigm to learn the causal mechanisms that generate observations from features. GCRL is supported by strong theoretical results that imply identifiability of the causal model under certain assumptions. Experimental results on synthetic and real-world motion forecasting datasets show the robustness and effectiveness of our proposed method for knowledge transfer under zero-shot and low-shot settings by substantially outperforming the prior motion forecasting models on out-of-distribution prediction.
翻訳日:2023-02-20 16:14:53 公開日:2023-02-17
# jazznet: 音楽オーディオ機械学習研究のための基本的ピアノパターンのデータセット

jazznet: A Dataset of Fundamental Piano Patterns for Music Audio Machine Learning Research ( http://arxiv.org/abs/2302.08632v1 )

ライセンス: Link先を確認
Tosiron Adegbija(参考訳) 本稿では,音楽情報検索における機械学習(ml)アルゴリズム開発のための基本ジャズピアノ音楽パターンのデータセットであるjazznet datasetを提案する。 データセットには、コード、アルペジオ、スケール、コード進行を含む162520のラベル付きピアノパターンが含まれており、結果としてオーディオは26k時間以上、総サイズは95GBである。 本稿では,データセットの構成,生成,生成について解説するとともに,音楽パターン内のピッチ間の距離を定義するだけで,新たなピアノパターンを容易に生成できる距離ベースパターン構造(dbps)という手法を用いて,オープンソースのパターン生成手法を提案する。 このデータセットは、畳み込みリカレントニューラルネットワーク(CRNN)とディープ畳み込みニューラルネットワークを用いて、研究者がMIRタスクに挑戦するための新しいモデルをベンチマークするのに役立ちます。 データセットとコードは、https://github.com/tosiron/jazznet.comから入手できる。

This paper introduces the jazznet Dataset, a dataset of fundamental jazz piano music patterns for developing machine learning (ML) algorithms in music information retrieval (MIR). The dataset contains 162520 labeled piano patterns, including chords, arpeggios, scales, and chord progressions with their inversions, resulting in more than 26k hours of audio and a total size of 95GB. The paper explains the dataset's composition, creation, and generation, and presents an open-source Pattern Generator using a method called Distance-Based Pattern Structures (DBPS), which allows researchers to easily generate new piano patterns simply by defining the distances between pitches within the musical patterns. We demonstrate that the dataset can help researchers benchmark new models for challenging MIR tasks, using a convolutional recurrent neural network (CRNN) and a deep convolutional neural network. The dataset and code are available via: https://github.com/tosiron/jazznet.
翻訳日:2023-02-20 16:14:31 公開日:2023-02-17
# 回帰への還元によるグラフフィードバック

Graph Feedback via Reduction to Regression ( http://arxiv.org/abs/2302.08631v1 )

ライセンス: Link先を確認
Paul Mineiro(参考訳) フィードバックが部分的であれば、すべての利用可能な情報を活用することが、データ要件の最小化に不可欠である。 教師とバンディットの関係を補間するグラフフィードバックは広く研究されてきたが、成熟した理論は非実用的アルゴリズムに基づいている。 本稿では,回帰削減に基づくグラフフィードバックを用いたコンテキストバンディットのアプローチを提示,分析する。 得られたアルゴリズムは実用的で、既知のミニマックスレートを達成する。

When feedback is partial, leveraging all available information is critical to minimizing data requirements. Graph feedback, which interpolates between the supervised and bandit regimes, has been extensively studied; but the mature theory is grounded in impractical algorithms. We present and analyze an approach to contextual bandits with graph feedback based upon reduction to regression. The resulting algorithms are practical and achieve known minimax rates.
翻訳日:2023-02-20 16:14:15 公開日:2023-02-17
# データサイエンスのための量子コンピューティング

Quantum computing for data science ( http://arxiv.org/abs/2302.08666v1 )

ライセンス: Link先を確認
Barry C. Sanders(参考訳) 私は、データサイエンスのための量子コンピューティングの開発に関する展望を提供し、ハードウェアとアルゴリズムの最先端と量子機械学習の可能性について考察する。

I provide a perspective on the development of quantum computing for data science, including a dive into state-of-the-art for both hardware and algorithms and the potential for quantum machine learning
翻訳日:2023-02-20 16:07:51 公開日:2023-02-17
# マイクロ波ポンプによるマグノン-ポラリトンハイブリッド化の制御

Control of the magnon-polariton hybridization with a microwave pump ( http://arxiv.org/abs/2302.08665v1 )

ライセンス: Link先を確認
C. Zhang, Jinwei Rao, C. Y. Wang, Z. J. Chen, K. X. Zhao, Bimu Yao, Xu-Guang Xu and Wei Lu(参考訳) ポンプ誘起マグノンモード (PIMs) は近年、スピンダイナミクスに顕著なチューニング性を与えるフェライトの基本的な励起が発見された。 本稿では,空洞マグノン系をマイクロ波ポンプとの平衡から遠ざけることにより,PIMとキャビティマグノンポラリトン(CMP)の強い相互作用について検討する。 我々の実験では、ウォーカーモードはPIMとキャビティ光子を同時に結合し、単一のキャビティ構造に2つの強いコヒーレント結合プロセスを組み合わせる。 このようなPIM-CMPハイブリッド化システムは、PIMとCMPの両方から補完特性を取得し、磁場、ポンプパワー、ポンプ周波数で自由に操作できる。 これらのコヒーレント操作は、材料の性質と電磁境界条件によって制限された固有特性を超えたユニークな振る舞いを示し、ハイブリッドデバイスの制御を拡張する機会を生み出している。

Pump-induced magnon modes (PIMs) are recently discovered elementary excitations in ferrimagnets that offer significant tunability to spin dynamics. Here, we investigate the strong interaction between a PIM and cavity magnon polaritons (CMPs) by driving a cavity magnonic system away from equilibrium with a microwave pump. In our experiment, the Walker mode simultaneously couples with the PIM and cavity photons and thus combines two strongly coherent coupling processes in a single cavity structure. Such a PIM-CMP hybridization system acquires complementary properties from both the PIM and CMPs, allowing it to be freely manipulated by the magnetic field, the pump power and the pump frequency. These coherent manipulations exhibit unique behaviors beyond the intrinsic properties limited by the material nature and electromagnetic boundary conditions, thereby creating opportunities for extending the control of hybrid devices.
翻訳日:2023-02-20 16:07:47 公開日:2023-02-17
# Socialz: 多機能ソーシャルファズテスト

Socialz: Multi-Feature Social Fuzz Testing ( http://arxiv.org/abs/2302.08664v1 )

ライセンス: Link先を確認
Francisco Zanartu, Christoph Treude, Markus Wagner(参考訳) オンラインソーシャルネットワークは私たちの日常生活に不可欠な要素となり、他人との関係を形作る上で重要な役割を担っている。 しかし、バグや不具合は、たとえマイナーな問題であっても、フラストレーションのある問題から深刻なデータリークまで、何百万ものユーザーにとってはるかに大きな影響を及ぼす可能性がある。 これらのリスクを軽減するために、ランダムな入力でテストするファズテストは、ソーシャルネットワークの正しい機能に対する信頼性を高めることができる。 しかし、従来のファズテストメソッドの実装は、ネットワーク開発チーム以外のプログラマにとっては、非常に困難または非現実的です。 この課題に対処するため、Socialzは、(1)ソーシャルネットワークの実際のユーザを特徴づけ、(2)複数の非自明な特徴にまたがって進化計算を用いてインタラクションを多様化し、(3)これらのインタラクションの実行時にパフォーマンスデータを収集するソーシャルファズテストの新しいアプローチを提案する。 socialzでは、世界中のオンラインsnsの信頼性とセキュリティを向上し、包括的なソーシャルテストを行う能力を誰にでも提供したいと思っています。

Online social networks have become an integral aspect of our daily lives and play a crucial role in shaping our relationships with others. However, bugs and glitches, even minor ones, can cause anything from frustrating problems to serious data leaks that can have far-reaching impacts on millions of users. To mitigate these risks, fuzz testing, a method of testing with randomised inputs, can provide increased confidence in the correct functioning of a social network. However, implementing traditional fuzz testing methods can be prohibitively difficult or impractical for programmers outside of the network's development team. To tackle this challenge, we present Socialz, a novel approach to social fuzz testing that (1) characterises real users of a social network, (2) diversifies their interaction using evolutionary computation across multiple, non-trivial features, and (3) collects performance data as these interactions are executed. With Socialz, we aim to provide anyone with the capability to perform comprehensive social testing, thereby improving the reliability and security of online social networks used around the world.
翻訳日:2023-02-20 16:07:32 公開日:2023-02-17
# 安定化器を用いた量子秘密共有のための2つの再構成手法の性能比較

Performance comparison of the two reconstruction methods for stabilizer-based quantum secret sharing ( http://arxiv.org/abs/2302.08663v1 )

ライセンス: Link先を確認
Shogo Chiwaki, Ryutaroh Matsumoto(参考訳) 安定化器に基づく量子シークレット共有には、量子シークレットを再構築する2つの方法がある。 ユニタリ手順は回路幅が小さいことが知られている。 一方,どの手法が深度が小さく,回路ゲートが小さいのかは不明である。 本論文では,[[5, 1, 3]]$バイナリ安定化符号を用いた量子秘密共有のために回路設計を行う場合,ユニタリ手続きの深さが小さく,回路ゲートも少なくなることを示す。

Stabilizer-based quantum secret sharing has two methods to reconstruct a quantum secret: The erasure correcting procedure and the unitary procedure. It is known that the unitary procedure has a smaller circuit width. On the other hand, it is unknown which method has smaller depth and fewer circuit gates. In this paper, it is shown that the unitary procedure has smaller depth and fewer circuit gates when the circuits are designed for quantum secret sharing using $[[5, 1, 3]]$ binary stabilizer codes.
翻訳日:2023-02-20 16:07:11 公開日:2023-02-17
# レアで美を見いだす:非自明なクロップボックス回帰のためのコントラスト構成特徴クラスタリング

Find Beauty in the Rare: Contrastive Composition Feature Clustering for Nontrivial Cropping Box Regression ( http://arxiv.org/abs/2302.08662v1 )

ライセンス: Link先を確認
Zhiyu Pan, Yinpeng Chen, Jiale Zhang, Hao Lu, Zhiguo Cao, Weicai Zhong(参考訳) 自動撮像アルゴリズムは、合成品質を改善した収穫箱を生成することにより、人間のようなイメージを分解することを目的としている。 クロッピングボックス回帰アプローチは、注釈付きクロッピングボックスから構成の美しさを学ぶ。 しかしながら、アノテーションのバイアスは、トレーニングサンプルの平均位置に対する明らかな傾向を持つ、準自明な再構成結果をもたらす。 この前提の要点は、タスクが箱の回帰問題として自然に扱われることであり、希少なサンプルが正常なサンプルに支配される可能性があり、希少なサンプルの組成パターンがうまく活用されていないことである。 類似の組成パターンは, ほぼ注釈付けされた収穫境界によって共有される傾向にあり, 類似の収穫境界アノテーション, すなわち類似の組成パターンを用いて試料をクラスタリングすることによって, 希少試料からの組成の美しさを見いだすことができる。 動的に確立された類似および異種対を対比することにより構成特徴を規則化するコントラスト構成クラスタリング(C2C)を提案する。 このようにして、複数の画像の共通合成パターンをよりよく要約することができ、特に稀なサンプルの恩恵を受け、非自明な結果のレンダリングをより一般化できるモデルを提供する。 実験の結果,先行技術と比較して,モデルが優れていることがわかった。 興味深い分析的な視覚化によって、デザインの哲学も説明します。

Automatic image cropping algorithms aim to recompose images like human-being photographers by generating the cropping boxes with improved composition quality. Cropping box regression approaches learn the beauty of composition from annotated cropping boxes. However, the bias of annotations leads to quasi-trivial recomposing results, which has an obvious tendency to the average location of training samples. The crux of this predicament is that the task is naively treated as a box regression problem, where rare samples might be dominated by normal samples, and the composition patterns of rare samples are not well exploited. Observing that similar composition patterns tend to be shared by the cropping boundaries annotated nearly, we argue to find the beauty of composition from the rare samples by clustering the samples with similar cropping boundary annotations, ie, similar composition patterns. We propose a novel Contrastive Composition Clustering (C2C) to regularize the composition features by contrasting dynamically established similar and dissimilar pairs. In this way, common composition patterns of multiple images can be better summarized, which especially benefits the rare samples and endows our model with better generalizability to render nontrivial results. Extensive experimental results show the superiority of our model compared with prior arts. We also illustrate the philosophy of our design with an interesting analytical visualization.
翻訳日:2023-02-20 16:07:01 公開日:2023-02-17
# 適応データ解析のためのサブサンプリング

Subsampling Suffices for Adaptive Data Analysis ( http://arxiv.org/abs/2302.08661v1 )

ライセンス: Link先を確認
Guy Blanc(参考訳) データセットで行った分析が全人口を代表することを保証することは、統計学における中心的な問題の一つである。 ほとんどの古典的手法では、データセットはアナリストのクエリとは独立であると仮定し、複数の選択されたクエリのためにデータセットを再利用する共通設定で分解する。 このemph{adaptive data analysis} の問題は、Dwork et al. (STOC, 2015) と Hardt and Ullman (FOCS, 2014) のセミナーで定式化された。 クエリが適応的に選択された場合でも、クエリが代表され続けるという、驚くほど単純な仮定のセットを識別する。 この結果は,サブサンプリングに固有のノイズがクエリ応答の一般化を保証するのに十分であることを示している。 このサブサンプルベースのフレームワークの単純さにより、以前の作業でカバーされていないさまざまな現実世界のシナリオをモデル化することができる。 その単純さに加えて、統計的クエリと中央値探索という2つの基本的なタスクのメカニズムを設計することで、このフレームワークの有用性を実証する。 特に、広く適用可能な統計クエリのクラスに答えるメカニズムは、多くのパラメータレジームにおいて非常に単純かつ最先端のものである。

Ensuring that analyses performed on a dataset are representative of the entire population is one of the central problems in statistics. Most classical techniques assume that the dataset is independent of the analyst's query and break down in the common setting where a dataset is reused for multiple, adaptively chosen, queries. This problem of \emph{adaptive data analysis} was formalized in the seminal works of Dwork et al. (STOC, 2015) and Hardt and Ullman (FOCS, 2014). We identify a remarkably simple set of assumptions under which the queries will continue to be representative even when chosen adaptively: The only requirements are that each query takes as input a random subsample and outputs few bits. This result shows that the noise inherent in subsampling is sufficient to guarantee that query responses generalize. The simplicity of this subsampling-based framework allows it to model a variety of real-world scenarios not covered by prior work. In addition to its simplicity, we demonstrate the utility of this framework by designing mechanisms for two foundational tasks, statistical queries and median finding. In particular, our mechanism for answering the broadly applicable class of statistical queries is both extremely simple and state of the art in many parameter regimes.
翻訳日:2023-02-20 16:06:37 公開日:2023-02-17
# 低リソースニューラルネットワークラベリングのための不確実性を考慮した自己学習

Uncertainty-aware Self-training for Low-resource Neural Sequence Labeling ( http://arxiv.org/abs/2302.08659v1 )

ライセンス: Link先を確認
Jianing Wang, Chengyu Wang, Jun Huang, Ming Gao, Aoying Zhou(参考訳) ニューラルシーケンスラベリング(NSL)は、名前付きエンティティ認識(NER)やスロットフィリングなど、幅広いアプリケーションをカバーする入力言語トークンにラベルを割り当てることを目的としている。 しかしながら、従来の教師付きアプローチによる満足度の高い結果は、大量の人間のアノテーションデータに大きく依存しており、データプライバシや計算効率の問題から現実のシナリオでは実現不可能である。 本稿では,ラベル付きデータ不足問題に対処し,ラベル付きデータを効果的に活用するために,NSLのための新しい未知の自己学習フレームワークであるSeqUSTを提案する。 具体的には,ベイズニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い,モデル信頼性と確実性に基づいてラベルのないデータから信頼性の高い言語トークンを選択する。 ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。 さらに,gaussian-distributed perturbed表現のモデルのロバスト性をさらに向上させるために,gaussian-based consistency regularization techniqueを開発した。 これにより、擬似ラベル付き拡張データに由来する過剰なジレンマが効果的に緩和される。 6つのベンチマークに対する大規模な実験により、私たちのSeqUSTフレームワークは、自己学習のパフォーマンスを効果的に改善し、低リソースシナリオにおける大きなマージンによる強いベースラインを一貫して上回ります。

Neural sequence labeling (NSL) aims at assigning labels for input language tokens, which covers a broad range of applications, such as named entity recognition (NER) and slot filling, etc. However, the satisfying results achieved by traditional supervised-based approaches heavily depend on the large amounts of human annotation data, which may not be feasible in real-world scenarios due to data privacy and computation efficiency issues. This paper presents SeqUST, a novel uncertain-aware self-training framework for NSL to address the labeled data scarcity issue and to effectively utilize unlabeled data. Specifically, we incorporate Monte Carlo (MC) dropout in Bayesian neural network (BNN) to perform uncertainty estimation at the token level and then select reliable language tokens from unlabeled data based on the model confidence and certainty. A well-designed masked sequence labeling task with a noise-robust loss supports robust training, which aims to suppress the problem of noisy pseudo labels. In addition, we develop a Gaussian-based consistency regularization technique to further improve the model robustness on Gaussian-distributed perturbed representations. This effectively alleviates the over-fitting dilemma originating from pseudo-labeled augmented data. Extensive experiments over six benchmarks demonstrate that our SeqUST framework effectively improves the performance of self-training, and consistently outperforms strong baselines by a large margin in low-resource scenarios
翻訳日:2023-02-20 16:06:15 公開日:2023-02-17
# トラヒックフロー予測のためのオンライン時空間相関型フェデレート学習

Online Spatio-Temporal Correlation-Based Federated Learning for Traffic Flow Forecasting ( http://arxiv.org/abs/2302.08658v1 )

ライセンス: Link先を確認
Qingxiang Liu, Sheng Sun, Min Liu, Yuwei Wang, and Bo Gao(参考訳) 交通流予測(TFF)は、インテリジェントトランスポーテーションシステム(ITS)の構築において非常に重要である。 統合学習(FL)は,通信負荷を軽減し,集中予測手法によって引き起こされるプライバシー漏洩問題に対処するために,TFFに適用されている。 しかし、既存のFLベースのアプローチではバッチ学習方式を採用しているため、事前学習されたモデルはその後のトラフィックデータには適用できない。 本稿では、FLフレームワークにおけるオンライン学習(OL)方式を用いたトラフィックフロー予測の最初の研究を行い、その上で、トラフィック変動に関係なく性能向上を保証することを目的とした、オンライン時空間相関に基づくフェデレートラーニング(FedOSTC)という新しい予測手法を提案する。 具体的には、Gated Recurrent Unit(GRU)ベースのエンコーダを使用して、トラフィックデータシーケンスの内部時間パターンを取得する。 そして、中央サーバは、トラフィック変動による空間的近接性の動的変化に対応して、グラフ注意ネットワーク(gat)を介してクライアント間の空間的相関を評価する。 さらに,今後のトラヒックデータに対するグローバルモデルの一般化を図るために,オンライン勾配降下(ogd)アルゴリズムを用いて最適化した局所モデルをクライアントに集約する周期認識集約機構を提案する。 本研究では,本手法の有効性と有効性を検証するため,実世界の2つのデータセットについて総合実験を行い,fedotcの優位性を示す数値実験を行った。

Traffic flow forecasting (TFF) is of great importance to the construction of Intelligent Transportation Systems (ITS). To mitigate communication burden and tackle with the problem of privacy leakage aroused by centralized forecasting methods, Federated Learning (FL) has been applied to TFF. However, existing FL-based approaches employ batch learning manner, which makes the pre-trained models inapplicable to subsequent traffic data, thus exhibiting subpar prediction performance. In this paper, we perform the first study of forecasting traffic flow adopting Online Learning (OL) manner in FL framework and then propose a novel prediction method named Online Spatio-Temporal Correlation-based Federated Learning (FedOSTC), aiming to guarantee performance gains regardless of traffic fluctuation. Specifically, clients employ Gated Recurrent Unit (GRU)-based encoders to obtain the internal temporal patterns inside traffic data sequences. Then, the central server evaluates spatial correlation among clients via Graph Attention Network (GAT), catering to the dynamic changes of spatial closeness caused by traffic fluctuation. Furthermore, to improve the generalization of the global model for upcoming traffic data, a period-aware aggregation mechanism is proposed to aggregate the local models which are optimized using Online Gradient Descent (OGD) algorithm at clients. We perform comprehensive experiments on two real-world datasets to validate the efficiency and effectiveness of our proposed method and the numerical results demonstrate the superiority of FedOSTC.
翻訳日:2023-02-20 16:05:50 公開日:2023-02-17
# 多部量子状態の真の絡み合いの検出

Detection of genuine entanglement formultipartite quantum states ( http://arxiv.org/abs/2302.08655v1 )

ライセンス: Link先を確認
Hui Zhao, Yu-Qiu Liu, Naihuan Jing, Zhi-Xi Wang(参考訳) 一般化されたパウリ作用素を用いて密度行列を表現し、任意のn-部分量子状態の真の多部絡みについて検討する。 密度行列の通常のブロッホ表現は特殊ユニタリリー代数 su(d) の3種類の生成子を用いるが、一般化されたパウリ作用素を持つワイル表現は計算を単純化する1つの一様生成子を持つ。 本稿では,この単純さの利点を生かして,真に三成分の絡み合いを検出するための有用かつ操作上の基準を導出する。 また、任意の次元における多成分量子状態の真の絡み合いを検出するための十分な基準を得るための結果を一般化する。 新しい手法は、詳細な例を背景として、従来の方法よりも真に絡み合った状態を検出できる。

We study genuine multipartite entanglement of arbitrary n-partite quantum states by representing the density matrices in terms of generalized Pauli operators. While the usual Bloch representation of a density matrix uses three types of generators in the special unitary Lie algebra su(d), the Weyl representation with generalized Pauli operators has one uniformed type of generators that simplifies computation. In this paper, we take the advantage of this simplicity to derive useful and operational criteria to detect genuine tripartite entanglement. We also generalize the results to obtain a sufficient criterion to detect genuine entanglement for multipartite quantum states in arbitrary dimensions. The new method can detect more genuine entangled states than previous methods as backed by detailed examples.
翻訳日:2023-02-20 16:05:23 公開日:2023-02-17
# 測地線距離空間上の動的後悔の最小化

Minimizing Dynamic Regret on Geodesic Metric Spaces ( http://arxiv.org/abs/2302.08652v1 )

ライセンス: Link先を確認
Zihao Hu, Guanghui Wang, Jacob Abernethy(参考訳) 本稿では,完備リーマン多様体上の一般の動的後悔を最小化することが目的とする逐次決定問題を考える。 測地距離空間としても知られるそのような領域におけるオフライン最適化の課題は、最近大きな注目を集めている。 オンライン・セッティングの注目度は大幅に低下しており、ユークリッド・セッティングにおける結果の本体がリーマン多様体の領域に移植されるかどうかという疑問が残されており、新たな課題(例えば曲率)が生まれている。 本稿では,不適切な学習が許されるたびに非正の曲率を持つ多様体上で楽観的な後悔を得る方法を示し,適応的非回帰アルゴリズムを提案する。 私たちの知る限りでは、これは一般的な動的後悔を考慮し、測地線距離空間で使える「最適」オンライン学習アルゴリズムを開発する最初の作品である。

In this paper, we consider the sequential decision problem where the goal is to minimize the general dynamic regret on a complete Riemannian manifold. The task of offline optimization on such a domain, also known as a geodesic metric space, has recently received significant attention. The online setting has received significantly less attention, and it has remained an open question whether the body of results that hold in the Euclidean setting can be transplanted into the land of Riemannian manifolds where new challenges (e.g., curvature) come into play. In this paper, we show how to get optimistic regret bound on manifolds with non-positive curvature whenever improper learning is allowed and propose an array of adaptive no-regret algorithms. To the best of our knowledge, this is the first work that considers general dynamic regret and develops "optimistic" online learning algorithms which can be employed on geodesic metric spaces.
翻訳日:2023-02-20 16:05:08 公開日:2023-02-17
# ランダムパディングデータ拡張

Random Padding Data Augmentation ( http://arxiv.org/abs/2302.08682v1 )

ライセンス: Link先を確認
Nan Yang, Laicheng Zhong, Fan Huang, Dong Yuan and Wei Bao(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像内の異なる位置で同じ物体を学習し、モデルの認識精度を向上させる。 このことが意味することは、CNNはオブジェクトがどこにあるかを知っているかもしれないということである。 CNNにおける特徴情報の空間的情報の有用性はよく研究されていない。 本稿では,特徴の位置情報の学習が特徴の関係の学習を妨げていることを示す。 そこで我々は,特徴地図の境界線の半分にランダムにゼロパディングを付加することにより,アーキテクチャの位置情報学習能力を損なうcnnを訓練する新しいタイプのパディング法であるランダムパディングを導入した。 ランダムパディングはパラメータフリーであり、構成が簡単であり、cnnベースのほとんどの認識モデルと互換性がある。 この手法はまた、ランダムなトリミング、回転、フリップ、消去などのデータ拡張を補完し、強いベースラインよりも画像分類の性能を一貫して改善する。

The convolutional neural network (CNN) learns the same object in different positions in images, which can improve the recognition accuracy of the model. An implication of this is that CNN may know where the object is. The usefulness of the features' spatial information in CNNs has not been well investigated. In this paper, we found that the model's learning of features' position information hindered the learning of the features' relationship. Therefore, we introduced Random Padding, a new type of padding method for training CNNs that impairs the architecture's capacity to learn position information by adding zero-padding randomly to half of the border of feature maps. Random Padding is parameter-free, simple to construct, and compatible with the majority of CNN-based recognition models. This technique is also complementary to data augmentations such as random cropping, rotation, flipping and erasing, and consistently improves the performance of image classification over strong baselines.
翻訳日:2023-02-20 15:59:36 公開日:2023-02-17
# マルチモーダルグラフの深部生成モデルを用いた多剤作用のモデル化と薬物・薬物相互作用予測

Modeling Polypharmacy and Predicting Drug-Drug Interactions using Deep Generative Models on Multimodal Graphs ( http://arxiv.org/abs/2302.08680v1 )

ライセンス: Link先を確認
Nhat Khang Ngo, Truong Son Hy, Risi Kondor(参考訳) 現代のグラフオートエンコーダモデルによって生成された薬物とその標的の潜在表現は、ドラッグ・ドラッグ、ドラッグ・ターゲット、ターゲット・ターゲット相互作用など、大規模ネットワーク上の多くの種類のノード・ペア相互作用を予測するのに有用である。 しかし、既存のアプローチの多くは、ノード分布が堅いノードの潜在空間をモデル化するか、薬物間の相互作用を効果的に捉えていないかのいずれかである。 本稿では,マルチモーダルネットワーク上での潜在ノード表現のモデル化における変分グラフオートエンコーダ(VGAE)の有効性を示す。 本手法はマルチモーダルグラフの各ノードタイプに対してフレキシブルな潜在空間を生成することができる。 モデルの性能をさらに高めるために,各薬剤の分子構造を捕捉するmorgan fingerprintsを潜在埋め込みで結合し,リンク予測を行う新しい手法を提案する。 提案モデルでは,(1) 薬物ノードとタンパク質ノードからなるマルチモーダルグラフ,(2) 相互作用の異なる薬物ノードを含むドラッグバンクデータベースのサブセットから構築されたマルチモーダルグラフ,(3) 薬物ノードと細胞ノードからなるマルチモーダルグラフの3つのマルチモーダルネットワーク上での競合結果を示す。 ソースコードはhttps://github.com/hysonlab/drug-interactionsで公開しています。

Latent representations of drugs and their targets produced by contemporary graph autoencoder models have proved useful in predicting many types of node-pair interactions on large networks, including drug-drug, drug-target, and target-target interactions. However, most existing approaches model either the node's latent spaces in which node distributions are rigid or do not effectively capture the interrelations between drugs; these limitations hinder the methods from accurately predicting drug-pair interactions. In this paper, we present the effectiveness of variational graph autoencoders (VGAE) in modeling latent node representations on multimodal networks. Our approach can produce flexible latent spaces for each node type of the multimodal graph; the embeddings are used later for predicting links among node pairs under different edge types. To further enhance the models' performance, we suggest a new method that concatenates Morgan fingerprints, which capture the molecular structures of each drug, with their latent embeddings before preceding them to the decoding stage for link prediction. Our proposed model shows competitive results on three multimodal networks: (1) a multimodal graph consisting of drug and protein nodes, (2) a multimodal graph constructed from a subset of the DrugBank database involving drug nodes under different interaction types, and (3) a multimodal graph consisting of drug and cell line nodes. Our source code is publicly available at https://github.com/HySonLab/drug-interactions.
翻訳日:2023-02-20 15:59:20 公開日:2023-02-17
# ユニタリの線形結合を用いた変分量子固有解法アルゴリズムにおけるユニタリ結合クラスタ・アンサッツの分解形式の有効性

Efficient application of the factorized form of the unitary coupled-cluster ansatz for the variational quantum eigensolver algorithm by using linear combination of unitaries ( http://arxiv.org/abs/2302.08679v1 )

ライセンス: Link先を確認
Luogen Xu and James K. Freericks(参考訳) 変分量子固有ソルバは、短期量子コンピュータで最も有望なアルゴリズムの1つである。 量子化学では強い相関を持つ電子を含む問題を解く可能性があり、古典的コンピュータでは解くのが難しい。 変分固有状態は、初期(単一参照)状態に適用された多くの因子化されたユニタリ結合クラスタ項から構成される。 これらの演算子の1つを量子状態に適用するための現在のアルゴリズムは、演算子のランクに指数関数的にスケールする多くの演算を必要とする。 我々は秘密の SU($2$) 対称性を利用してユニタリアプローチの線形結合を利用する: Our \textsc{Prepare} subroutine は階数-$n$作用素に対して $n+2$ ancilla qubits を使用する。 我々の \textsc{Select}($\hat U$) スキームは $\mathcal{O}(n)$ \textsc{Cnot} ゲートを使用する。 この結果、演算子 $n^3$ のランクの立方体のようにスケールする完全なアルゴリズムとなり、階数 5 以上の演算子の複雑性が大幅に減少する。 このアプローチは、低ランク演算子のための他のアルゴリズムと組み合わせられる場合(標準実装と比較した場合)、ユニタリ結合クラスタアプローチの分解形式をあらゆるタイプの量子コンピュータに実装するより効率的にする。

The variational quantum eigensolver is one of the most promising algorithms for near-term quantum computers. It has the potential to solve quantum chemistry problems involving strongly correlated electrons, which are otherwise difficult to solve on classical computers. The variational eigenstate is constructed from a number of factorized unitary coupled-cluster terms applied onto an initial (single-reference) state. Current algorithms for applying one of these operators to a quantum state require a number of operations that scales exponentially with the rank of the operator. We exploit a hidden SU($2$) symmetry to allow us to employ the linear combination of unitaries approach, Our \textsc{Prepare} subroutine uses $n+2$ ancilla qubits for a rank-$n$ operator. Our \textsc{Select}($\hat U$) scheme uses $\mathcal{O}(n)$ \textsc{Cnot} gates. This results in an full algorithm that scales like the cube of the rank of the operator $n^3$, a significant reduction in complexity for rank five or higher operators. This approach, when combined with other algorithms for lower-rank operators (when compared to the standard implementation, will make the factorized form of the unitary coupled-cluster approach much more efficient to implement on all types of quantum computers.
翻訳日:2023-02-20 15:58:55 公開日:2023-02-17
# DREEAM: ドキュメントレベルの関係抽出を改善するためのエビデンスによる注意喚起

DREEAM: Guiding Attention with Evidence for Improving Document-Level Relation Extraction ( http://arxiv.org/abs/2302.08675v1 )

ライセンス: Link先を確認
Youmi Ma, An Wang, Naoaki Okazaki(参考訳) ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の各エンティティペア間のすべての関係を識別するタスクである。 エンティティペア間の関係の手がかりを含む文として定義される証拠は、docreシステムが関連するテキストに集中し、関係抽出を改善するのに役立つことが示されている。 しかし、DocREのエビデンス検索(ER)は2つの大きな問題に直面している。 この作業は、これらの問題に対処し、DocREにおけるERの使用を改善することを目的としている。 まず、メモリ効率のよいDREEAMを提案し、エビデンス情報を監視信号として採用し、DocREシステムのアテンションモジュールを誘導し、エビデンスに重みを割り当てる。 第2に,大量のデータから自動生成した証拠からerを学ぶための自己学習戦略を提案する。 実験結果から,本手法はDocREとERの両ベンチマークにおいて,最先端の性能を示すことがわかった。 私たちの知る限りでは、DREEAMはER自己学習を採用する最初のアプローチです。

Document-level relation extraction (DocRE) is the task of identifying all relations between each entity pair in a document. Evidence, defined as sentences containing clues for the relationship between an entity pair, has been shown to help DocRE systems focus on relevant texts, thus improving relation extraction. However, evidence retrieval (ER) in DocRE faces two major issues: high memory consumption and limited availability of annotations. This work aims at addressing these issues to improve the usage of ER in DocRE. First, we propose DREEAM, a memory-efficient approach that adopts evidence information as the supervisory signal, thereby guiding the attention modules of the DocRE system to assign high weights to evidence. Second, we propose a self-training strategy for DREEAM to learn ER from automatically-generated evidence on massive data without evidence annotations. Experimental results reveal that our approach exhibits state-of-the-art performance on the DocRED benchmark for both DocRE and ER. To the best of our knowledge, DREEAM is the first approach to employ ER self-training.
翻訳日:2023-02-20 15:58:31 公開日:2023-02-17
# mcae:フェイスアンチスプーフィング用マスク型コントラストオートエンコーダ

MCAE: Masked Contrastive Autoencoder for Face Anti-Spoofing ( http://arxiv.org/abs/2302.08674v1 )

ライセンス: Link先を確認
Tianyi Zheng(参考訳) Face Anti-Spoofing (FAS) 法はドメイン内の設定でよく機能する。 しかし、モデルのクロスドメインパフォーマンスは満足できない。 ドメイン一般化法は、畳み込みニューラルネットワーク(CNN)のバックボーンから抽出された異なるドメインから特徴を整列するために用いられる。 しかし、改善は限られている。 近年、視覚変換器(ViT)モデルは様々な視覚的タスクでよく機能している。 しかし、ViTモデルは既存のFASデータセットでは満足できない大規模なデータセットの事前トレーニングに大きく依存している。 本稿では、FASタスクを例として、限られたデータのみを用いてこの問題を解決するMasked Contrastive Autoencoder (MCAE)法を提案する。 一方,特徴抽出器は,異なる領域からライブサンプルの共通特徴を抽出するために,マスケッドイメージモデル(MIM)と教師付きコントラスト学習を組み合わせることで,下流タスクのためのMIM事前学習を行うための設計原理を要約し,情報理論の観点からその手法の洞察に富んだ分析を行う。 実験の結果,提案手法は大規模な公開データセットにおいて優れた性能を示し,最先端手法よりも優れていた。

Face anti-spoofing (FAS) method performs well under the intra-domain setups. But cross-domain performance of the model is not satisfying. Domain generalization method has been used to align the feature from different domain extracted by convolutional neural network (CNN) backbone. However, the improvement is limited. Recently, the Vision Transformer (ViT) model has performed well on various visual tasks. But ViT model relies heavily on pre-training of large-scale dataset, which cannot be satisfied by existing FAS datasets. In this paper, taking the FAS task as an example, we propose Masked Contrastive Autoencoder (MCAE) method to solve this problem using only limited data. Meanwhile in order for a feature extractor to extract common features in live samples from different domains, we combine Masked Image Model (MIM) with supervised contrastive learning to train our model.Some intriguing design principles are summarized for performing MIM pre-training for downstream tasks.We also provide insightful analysis for our method from an information theory perspective. Experimental results show our approach has good performance on extensive public datasets and outperforms the state-of-the-art methods.
翻訳日:2023-02-20 15:58:13 公開日:2023-02-17
# 多知識概念熟達確率追跡のための確率的生成モデル

A Probabilistic Generative Model for Tracking Multi-Knowledge Concept Mastery Probability ( http://arxiv.org/abs/2302.08673v1 )

ライセンス: Link先を確認
Hengyu Liu, Tiancheng Zhang, Fan Li, Minghe Yu and Ge Yu(参考訳) 知識追跡は、学生の将来のパフォーマンスを正確に予測するために、時間とともに学生の知識状態を追跡することを目的としている。 マルコフ連鎖に基づく知識追跡(MCKT)モデルは、時間とともに知識概念の熟達確率を追跡することができる。 しかし、追跡された知識概念の数が増加すると、学生のパフォーマンスを予測するmcktの時間複雑性が指数関数的に増加する(" explains away problem"とも呼ばれる)。 また,既存のmcktモデルは,生徒の反応をモデル化する際に,生徒の知識状態と問題との関係のみを考慮し,同じ問題における知識概念の関係を無視する。 これらの課題に対処するため, 学生の知識概念の習得度を時間とともに追跡する, inTerpretable pRobAbilistiC gEnerative moDel (TRACED)を提案する。 そこで我々は,Long and Short-Term Memory(LSTM)ベースのネットワークを設計し,後部分布を近似し,将来の性能を予測するとともに,LSTMと確率的グラフィカルモデルを併用して学習するためのヒューリスティックアルゴリズムを提案する。 学生の運動反応をモデル化するために,学生の知識状況,知識概念,問題との関係を考慮し,学生の運動応答をモデル化する3つのインタラクティブ戦略を用いた対数線形モデルを提案した。 実世界の4つのデータセットを3つの知識駆動タスクで実験する。 実験の結果,TRACEDは学生の今後のパフォーマンスを予測するために既存の知識追跡手法よりも優れており,学生間の関係,知識概念,課題を学生の運動シーケンスから学習できることがわかった。 いくつかのケーススタディも行います。 このケーススタディでは,TRACEDは優れた解釈可能性を示し,現実の教育環境においてパーソナライズされた自動フィードバックの可能性を示した。

Knowledge tracing aims to track students' knowledge status over time to predict students' future performance accurately. Markov chain-based knowledge tracking (MCKT) models can track knowledge concept mastery probability over time. However, as the number of tracked knowledge concepts increases, the time complexity of MCKT predicting student performance increases exponentially (also called explaining away problem. In addition, the existing MCKT models only consider the relationship between students' knowledge status and problems when modeling students' responses but ignore the relationship between knowledge concepts in the same problem. To address these challenges, we propose an inTerpretable pRobAbilistiC gEnerative moDel (TRACED), which can track students' numerous knowledge concepts mastery probabilities over time. To solve \emph{explain away problem}, we design Long and Short-Term Memory (LSTM)-based networks to approximate the posterior distribution, predict students' future performance, and propose a heuristic algorithm to train LSTMs and probabilistic graphical model jointly. To better model students' exercise responses, we proposed a logarithmic linear model with three interactive strategies, which models students' exercise responses by considering the relationship among students' knowledge status, knowledge concept, and problems. We conduct experiments with four real-world datasets in three knowledge-driven tasks. The experimental results show that TRACED outperforms existing knowledge tracing methods in predicting students' future performance and can learn the relationship among students, knowledge concepts, and problems from students' exercise sequences. We also conduct several case studies. The case studies show that TRACED exhibits excellent interpretability and thus has the potential for personalized automatic feedback in the real-world educational environment.
翻訳日:2023-02-20 15:57:51 公開日:2023-02-17
# 授業ビデオからのマルチモーダルサブタスクグラフ生成

Multimodal Subtask Graph Generation from Instructional Videos ( http://arxiv.org/abs/2302.08672v1 )

ライセンス: Link先を確認
Yunseok Jang, Sungryull Sohn, Lajanugen Logeswaran, Tiange Luo, Moontae Lee, Honglak Lee(参考訳) 現実世界のタスクは複数の依存サブタスクから構成される(例えば、料理に使える前に汚れた鍋を洗う必要がある)。 本研究では,タスクを記述する指導ビデオから,そのようなサブタスク間の因果関係をモデル化することを目的とする。 イベントの因果構造を理解するために、堅牢な学習メカニズムを必要とするビデオから、世界の完全な情報がしばしばアクセスできないため、これは難しい問題である。 我々は,タスクのサブタスク間の依存性を定義するサブタスクグラフを構成する手法であるマルチモーダル・サブタスクグラフ生成 (msg2) を提案する。 マルチモーダルなアプローチによって生成されたグラフは、以前のアプローチと比べて、人間のアノテーション付きグラフに近い。 MSG2はさらに、ProceLとCrossTaskデータセットの最近のビデオトランスフォーマーモデルよりも、次のサブタスク予測のダウンストリームタスクを85%と30%正確に実行する。

Real-world tasks consist of multiple inter-dependent subtasks (e.g., a dirty pan needs to be washed before it can be used for cooking). In this work, we aim to model the causal dependencies between such subtasks from instructional videos describing the task. This is a challenging problem since complete information about the world is often inaccessible from videos, which demands robust learning mechanisms to understand the causal structure of events. We present Multimodal Subtask Graph Generation (MSG2), an approach that constructs a Subtask Graph defining the dependency between a task's subtasks relevant to a task from noisy web videos. Graphs generated by our multimodal approach are closer to human-annotated graphs compared to prior approaches. MSG2 further performs the downstream task of next subtask prediction 85% and 30% more accurately than recent video transformer models in the ProceL and CrossTask datasets, respectively.
翻訳日:2023-02-20 15:57:22 公開日:2023-02-17
# グラフ分類のためのスタックングGNNによる長距離依存性の抽出

Search to Capture Long-range Dependency with Stacking GNNs for Graph Classification ( http://arxiv.org/abs/2302.08671v1 )

ライセンス: Link先を確認
Lanning Wei, Zhiqiang He, Huan Zhao, Quanming Yao(参考訳) 近年,グラフ分類タスクにおいてグラフニューラルネットワーク(GNN)が普及している。 現在、浅いGNNはより深いGNNに直面しているよく知られたオーバースムースな問題のため、より一般的である。 しかし、それらは遠方のノード、すなわち長距離依存からの情報を利用せずに準最適である。 グラフ分類タスクの主流の手法は、プール操作を設計したり、上位の隣人を組み込んだりすることで、長距離依存を抽出することができるが、元のグラフ構造を変更することで明らかな欠点があり、グラフ構造学習における情報損失をもたらす可能性がある。 本稿では,グラフ分類タスクにおける過剰スムーシング問題の影響を小さくすることで,スタック型gnnの重要性を生じさせ,元のグラフ構造を変更せずに長距離依存関係をキャプチャする手法を提案する。 これを実現するために、スタック方式のGNN、すなわち十分なモデル深さと適応的なスキップ接続方式に2つの設計ニーズが与えられる。 2つの設計ニーズをデータ固有の層間接続の設計に変換することにより,LRGNN(Long-Range Graph Neural Networks)と呼ばれるニューラルアーキテクチャサーチ(NAS)による新しいアプローチを提案する。 5つのデータセットに対する大規模な実験により、提案したLRGNNは最高の性能を達成でき、異なる深さとスキップ接続方式でデータ固有のGNNを得た。

In recent years, Graph Neural Networks (GNNs) have been popular in the graph classification task. Currently, shallow GNNs are more common due to the well-known over-smoothing problem facing deeper GNNs. However, they are sub-optimal without utilizing the information from distant nodes, i.e., the long-range dependencies. The mainstream methods in the graph classification task can extract the long-range dependencies either by designing the pooling operations or incorporating the higher-order neighbors, while they have evident drawbacks by modifying the original graph structure, which may result in information loss in graph structure learning. In this paper, by justifying the smaller influence of the over-smoothing problem in the graph classification task, we evoke the importance of stacking-based GNNs and then employ them to capture the long-range dependencies without modifying the original graph structure. To achieve this, two design needs are given for stacking-based GNNs, i.e., sufficient model depth and adaptive skip-connection schemes. By transforming the two design needs into designing data-specific inter-layer connections, we propose a novel approach with the help of neural architecture search (NAS), which is dubbed LRGNN (Long-Range Graph Neural Networks). Extensive experiments on five datasets show that the proposed LRGNN can achieve the best performance, and obtained data-specific GNNs with different depth and skip-connection schemes, which can better capture the long-range dependencies.
翻訳日:2023-02-20 15:57:08 公開日:2023-02-17
# 多スペクトル歩行者検出のためのカスケード情報強調と相互注意特徴融合

Cascaded information enhancement and cross-modal attention feature fusion for multispectral pedestrian detection ( http://arxiv.org/abs/2302.08670v1 )

ライセンス: Link先を確認
Yang Yang, Kaixiong Xu, Kaizheng Wang(参考訳) マルチスペクトル歩行者検出は、自動走行やビデオ監視などにおいて広く使われている色と熱画像中の歩行者を検知・検出する技術である。 これまでのマルチスペクトル歩行者検出アルゴリズムは,色や熱画像における歩行者情報と背景雑音の混同を考慮に入れず,歩行者検出に限定的であった。 本稿では、主にカスケード情報強調モジュールと、モーダル間注目機能融合モジュールからなる多スペクトル歩行者検出アルゴリズムを提案する。 一方、カスケード情報強調モジュールは、チャネル及び空間的注意機構を採用し、カスケード特徴融合ブロックによって融合された特徴に対する注意重み付けを行う。 さらに、注意重み要素を要素別に1モーダル特徴を乗じて、シングルモーダルの歩行者特徴を高め、背景からの干渉を抑制する。 一方、クロスモーダル注目機能融合モジュールは、カラーモードとサーマルモードの両方の特徴を相互補完するためにマイニングし、これら2つのモーダル特徴の効果的融合を実現するために、注意的に重み付けされたクロスモーダル補完特徴要素を要素別に付加することにより、グローバル特徴を構築する。 最後に、融合した特徴を検出ヘッドに入力して歩行者の検出・発見を行う。 公開データセットKAISTの2つの改良されたアノテーション(衛生アノテーションとペアアノテーション)に対して、大規模な実験が行われた。 実験の結果,提案手法は,比較法と比較して歩行者のミス率と歩行者検出ボックスの精度が低いことを示した。 さらに, アブレーション実験により, 設計した各モジュールの有効性を実証した。

Multispectral pedestrian detection is a technology designed to detect and locate pedestrians in Color and Thermal images, which has been widely used in automatic driving, video surveillance, etc. So far most available multispectral pedestrian detection algorithms only achieved limited success in pedestrian detection because of the lacking take into account the confusion of pedestrian information and background noise in Color and Thermal images. Here we propose a multispectral pedestrian detection algorithm, which mainly consists of a cascaded information enhancement module and a cross-modal attention feature fusion module. On the one hand, the cascaded information enhancement module adopts the channel and spatial attention mechanism to perform attention weighting on the features fused by the cascaded feature fusion block. Moreover, it multiplies the single-modal features with the attention weight element by element to enhance the pedestrian features in the single-modal and thus suppress the interference from the background. On the other hand, the cross-modal attention feature fusion module mines the features of both Color and Thermal modalities to complement each other, then the global features are constructed by adding the cross-modal complemented features element by element, which are attentionally weighted to achieve the effective fusion of the two modal features. Finally, the fused features are input into the detection head to detect and locate pedestrians. Extensive experiments have been performed on two improved versions of annotations (sanitized annotations and paired annotations) of the public dataset KAIST. The experimental results show that our method demonstrates a lower pedestrian miss rate and more accurate pedestrian detection boxes compared to the comparison method. Additionally, the ablation experiment also proved the effectiveness of each module designed in this paper.
翻訳日:2023-02-20 15:56:44 公開日:2023-02-17
# 長い水平軌道上での失語症・てんかんの不確かさ予測の学習

Learning to Forecast Aleatoric and Epistemic Uncertainties over Long Horizon Trajectories ( http://arxiv.org/abs/2302.08669v1 )

ライセンス: Link先を確認
Aastha Acharya, Rebecca Russell, Nisar R. Ahmed(参考訳) 自律エージェントに自身の成果と不確実性を予測する能力を与えることで、彼らの能力とより安全に使用できるようになる。 エージェントシステムの学習的世界モデルを用いて、長時間の地平線上での全エージェント軌道を予測する。 現実世界のシステムには、軌道予測において時間とともに複合し相互作用する、アレテータ的・認識論的不確かさのかなりの源がある。 我々は,学習過程におけるてんかんの不確かさの影響を取り入れつつ,アレタリック不確かさを定量化する深層生成世界モデルを構築した。 本研究では,不確実性モデルが全軌道水平線上で校正結果の不確実性を推定する2つの強化学習問題を示す。

Giving autonomous agents the ability to forecast their own outcomes and uncertainty will allow them to communicate their competencies and be used more safely. We accomplish this by using a learned world model of the agent system to forecast full agent trajectories over long time horizons. Real world systems involve significant sources of both aleatoric and epistemic uncertainty that compound and interact over time in the trajectory forecasts. We develop a deep generative world model that quantifies aleatoric uncertainty while incorporating the effects of epistemic uncertainty during the learning process. We show on two reinforcement learning problems that our uncertainty model produces calibrated outcome uncertainty estimates over the full trajectory horizon.
翻訳日:2023-02-20 15:56:13 公開日:2023-02-17
# マルチモーダルプロパガンダ処理

Multimodal Propaganda Processing ( http://arxiv.org/abs/2302.08709v1 )

ライセンス: Link先を確認
Vincent Ng and Shengjie Li(参考訳) プロパガンダのキャンペーンは長い間、偏見や誤解を招く情報を広めることで世論に影響を与えるために使われてきた。 インターネット上のプロパガンダコンテンツの普及にもかかわらず、AI研究者によるそのようなコンテンツ分析の試みはほとんど行われていない。 本稿では,プロパガンダコンテンツの自動解析を目標とするマルチモーダルプロパガンダ処理の課題を紹介する。 私たちは、このタスクがAI研究者に長期的な課題をもたらし、プロパガンダの処理を成功させることで、機械による理解が人間の理解に近づく可能性があると考えている。 我々は、このタスクに関連する技術的な課題を議論し、それに対処するために必要なステップを概説する。

Propaganda campaigns have long been used to influence public opinion via disseminating biased and/or misleading information. Despite the increasing prevalence of propaganda content on the Internet, few attempts have been made by AI researchers to analyze such content. We introduce the task of multimodal propaganda processing, where the goal is to automatically analyze propaganda content. We believe that this task presents a long-term challenge to AI researchers and that successful processing of propaganda could bring machine understanding one important step closer to human understanding. We discuss the technical challenges associated with this task and outline the steps that need to be taken to address it.
翻訳日:2023-02-20 15:50:13 公開日:2023-02-17
# 微細粒状クロスモーダル核融合によるテキスト・画像合成

Fine-grained Cross-modal Fusion based Refinement for Text-to-Image Synthesis ( http://arxiv.org/abs/2302.08706v1 )

ライセンス: Link先を確認
Haoran Sun, Yang Wang, Haipeng Liu, Biao Qian, Meng Wang(参考訳) テキストから画像への合成(text-to-image synthesis)とは、与えられたテキスト記述から視覚的かつ意味的に一貫した画像を生成することを指す。 以前のアプローチでは、最初の低解像度イメージを生成し、それを高解像度に洗練する。 著しい進歩にもかかわらず、これらの手法は与えられたテキストを十分に活用することは限られており、特にテキスト記述が複雑であれば、テキストミスマッチ画像を生成することができる。 本稿では, ff-ganと呼ばれる, きめ細かなテキスト画像融合ブロック (ff-block) とglobal semanticfine (gsr) の2つのモジュールからなる, きめ細かなテキスト画像融合ベースの生成逆ネットワークを提案する。 提案するFF-Blockは、注目ブロックと複数の畳み込み層を統合し、細粒度の単語コンテキスト特徴を対応する視覚特徴に効果的に融合させる。 また,言語的特徴と視覚的特徴のグローバルな意味的整合性を改善するため,GSRを提案する。 CUB-200とCOCOデータセットに関する大規模な実験は、与えられたテキストにセマンティック一貫性のある画像を生成する場合、FF-GANが他の最先端アプローチよりも優れていることを示す。

Text-to-image synthesis refers to generating visual-realistic and semantically consistent images from given textual descriptions. Previous approaches generate an initial low-resolution image and then refine it to be high-resolution. Despite the remarkable progress, these methods are limited in fully utilizing the given texts and could generate text-mismatched images, especially when the text description is complex. We propose a novel Fine-grained text-image Fusion based Generative Adversarial Networks, dubbed FF-GAN, which consists of two modules: Fine-grained text-image Fusion Block (FF-Block) and Global Semantic Refinement (GSR). The proposed FF-Block integrates an attention block and several convolution layers to effectively fuse the fine-grained word-context features into the corresponding visual features, in which the text information is fully used to refine the initial image with more details. And the GSR is proposed to improve the global semantic consistency between linguistic and visual features during the refinement process. Extensive experiments on CUB-200 and COCO datasets demonstrate the superiority of FF-GAN over other state-of-the-art approaches in generating images with semantic consistency to the given texts.Code is available at https://github.com/haoranhfut/FF-GAN.
翻訳日:2023-02-20 15:50:04 公開日:2023-02-17
# 大規模刑務所の耐え難い重量:公正な予測の文脈におけるバイアス変動貿易の見直し

The Unbearable Weight of Massive Privilege: Revisiting Bias-Variance Trade-Offs in the Context of Fair Prediction ( http://arxiv.org/abs/2302.08704v1 )

ライセンス: Link先を確認
Falaah Arif Khan, Julia Stoyanovich(参考訳) 本稿では, モデル誤差の偏差分解を, 公正分類器の設計の観点から再考する: 我々は, 社会的領域における大きなデータセットにおけるノイズ分散が, 性別, 人種, 障害などの人口統計学的特徴を追跡するという社会技術的信念に動機付けられている。 単一モデル(ID設定)によるトレードオフを改善するために,グループ固有の分類器から構築した条件付きID(ciid)モデルを提案する。 理論上はガウス混合モデルにおいて異なるモデルのバイアス分散分解を解析し、コンパスおよびフォークテーブルデータセット上で実験的にセットアップをテストした。 まず,センシティブな属性を直接コンディショニングし,次に,サンプルをグループにクラスタリングし,クラスタメンバシップをコンディショニングすることで,望ましくない効果を条件付けすることで,"フェアネス"を改善する2つの手順でciidモデルをインスタンス化する。 分析の結果,条件付きモデルが好まれる基本的手順や具体的な実世界のユースケースが存在する可能性が示唆され,本論文では,シド設定などの非イド設定が,社会的文脈におけるビッグデータアプリケーションに適している可能性が強く示唆された。

In this paper we revisit the bias-variance decomposition of model error from the perspective of designing a fair classifier: we are motivated by the widely held socio-technical belief that noise variance in large datasets in social domains tracks demographic characteristics such as gender, race, disability, etc. We propose a conditional-iid (ciid) model built from group-specific classifiers that seeks to improve on the trade-offs made by a single model (iid setting). We theoretically analyze the bias-variance decomposition of different models in the Gaussian Mixture Model, and then empirically test our setup on the COMPAS and folktables datasets. We instantiate the ciid model with two procedures that improve "fairness" by conditioning out undesirable effects: first, by conditioning directly on sensitive attributes, and second, by clustering samples into groups and conditioning on cluster membership (blind to protected group membership). Our analysis suggests that there might be principled procedures and concrete real-world use cases under which conditional models are preferred, and our striking empirical results strongly indicate that non-iid settings, such as the ciid setting proposed here, might be more suitable for big data applications in social contexts.
翻訳日:2023-02-20 15:49:37 公開日:2023-02-17
# 大規模言語モデルのためのPAC予測セット

PAC Prediction Sets for Large Language Models of Code ( http://arxiv.org/abs/2302.08703v1 )

ライセンス: Link先を確認
Adam Khakhar, Stephen Mell, Osbert Bastani(参考訳) 予測セットは、理論的な保証を提供する方法でディープニューラルネットワークの不確実性を定量化するための有望な戦略であることが最近示されている。 しかし、既存の手法はラベルの空間が単純であるような設定を主にターゲットとしているため、予測セットはラベルの任意の部分集合となることができる。 ラベルの空間が指数関数的に大きい構造化予測問題の場合、すべてのラベルのごく一部を含む予測集合でさえ指数関数的に大きい。 コード生成の文脈では、部分的なプログラムとしてコンパクトに表現できる予測セットの制限セットを考慮し、部分的な部分を穴に置き換えたプログラムを提案する。 訓練されたコード生成モデルが与えられると、アルゴリズムはプログラミング言語の抽象構文木を利用して、正しいプログラムが信頼度の高いセットにあるような一連のプログラムを生成する。 このアルゴリズムの有用な応用例としては、生成されたコードの不確かさ部分に穴があるcodexスタイルのコードジェネレータがあり、理論的な保証のある部分プログラムを提供する。 我々はPICARD(SQLセマンティックパースのためのT5モデル)とCodex(Pythonを含む12以上のプログラミング言語のためのGPTモデル)に対するアプローチを評価し、我々のアプローチがコンパクトなPAC予測セットを生成することを示した。 これは、生成コードモデルのためのPAC予測セットを生成する最初の研究貢献である。

Prediction sets have recently been shown to be a promising strategy for quantifying the uncertainty of deep neural networks in a way that provides theoretical guarantees. However, existing techniques have largely targeted settings where the space of labels is simple, so prediction sets can be arbitrary subsets of labels. For structured prediction problems where the space of labels is exponential in size, even prediction sets containing a small fraction of all labels can be exponentially large. In the context of code generation, we propose a solution that considers a restricted set of prediction sets that can compactly be represented as partial programs, which are programs with portions replaced with holes. Given a trained code generation model, our algorithm leverages a programming language's abstract syntax tree to generate a set of programs such that the correct program is in the set with high-confidence. Valuable applications of our algorithm include a Codex-style code generator with holes in uncertain parts of the generated code, which provides a partial program with theoretical guarantees. We evaluate our approach on PICARD (a T5 model for SQL semantic parsing) and Codex (a GPT model for over a dozen programming languages, including Python), demonstrating that our approach generates compact PAC prediction sets. This is the first research contribution that generates PAC prediction sets for generative code models.
翻訳日:2023-02-20 15:49:15 公開日:2023-02-17
# samは家から遠く離れた場所で活動する:動的現象としての固有値正規化

SAM operates far from home: eigenvalue regularization as a dynamical phenomenon ( http://arxiv.org/abs/2302.08692v1 )

ライセンス: Link先を確認
Atish Agarwala and Yann N. Dauphin(参考訳) Sharpness Aware Minimization (SAM) 最適化アルゴリズムは、損失ヘッセンの大きな固有値を制御し、様々な設定で一般化の利点を提供する。 SAMの元々の動機は、鋭いミニマをペナル化する改良された損失関数であった。 しかし,本研究では,SAMが学習軌道全体を通して固有値の強い正規化を提供することを明らかにした。 その結果,SAMは大規模学習速度勾配下降で観測される安定性のエッジ(EOS)現象を動的に安定化させることを示した。 本理論は,学習速度とSAM半径パラメータの関数として最大固有値を予測する。 最後に、実用モデルがこのEOS安定化を示すことも示し、SAMの理解は任意のミニマから遠く離れたこれらのダイナミクスを考慮しなければならないことを示す。

The Sharpness Aware Minimization (SAM) optimization algorithm has been shown to control large eigenvalues of the loss Hessian and provide generalization benefits in a variety of settings. The original motivation for SAM was a modified loss function which penalized sharp minima; subsequent analyses have also focused on the behavior near minima. However, our work reveals that SAM provides a strong regularization of the eigenvalues throughout the learning trajectory. We show that in a simplified setting, SAM dynamically induces a stabilization related to the edge of stability (EOS) phenomenon observed in large learning rate gradient descent. Our theory predicts the largest eigenvalue as a function of the learning rate and SAM radius parameters. Finally, we show that practical models can also exhibit this EOS stabilization, and that understanding SAM must account for these dynamics far away from any minima.
翻訳日:2023-02-20 15:48:53 公開日:2023-02-17
# 超伝導量子ビットにおける1量子ゲート当たりの誤差は10^{-4}$以下

Error per single-qubit gate below $10^{-4}$ in a superconducting qubit ( http://arxiv.org/abs/2302.08690v1 )

ライセンス: Link先を確認
Zhiyuan Li, Pei Liu, Peng Zhao, Zhenyu Mi, Huikai Xu, Xuehui Liang, Tang Su, Weijie Sun, Guangming Xue, Jing-Ning Zhang, Weiyang Liu, Yirong Jin, and Haifeng Yu(参考訳) 任意の単一量子ビットゲートを完全に近い忠実度で実装することは、ゲートベースの量子情報処理において最も基本的な要件である。 本研究では、長いコヒーレンス時間を持つトランスモンキュービットを作成し、平均ゲートエラーが10^{-4}$(7.42\pm0.04)\times10^{-5}$であるシングルキュービットゲートをランダム化ベンチマーク(rb)により実証する。 誤差源を理解するために,$(4.62\pm0.04)\times10^{-5}$とゲート当たりのリーク率(1.16\pm0.04)\times10^{-5}$からなる非一貫性誤差を実験的に求める。 さらに,ゲートセットトモグラフィー(GST)により単一量子ゲートのプロセス行列を再構成し,RB配列をシミュレートし,実験結果と整合した単一量子フェミリティを得る。 また、長周期GSTの実験において非マルコフ的挙動を観察し、さらなる校正のためのガイダンスを提供する。 この実験は、単一量子ビットゲートの平均忠実度がトランモン量子ビット系で到達できる上限を延長し、近い将来に実用的で信頼性の高い量子計算への重要なステップとなる。

Implementing arbitrary single-qubit gates with near perfect fidelity is among the most fundamental requirements in gate-based quantum information processing. In this work, we fabric a transmon qubit with long coherence times and demonstrate single-qubit gates with the average gate error below $10^{-4}$, i.e. $(7.42\pm0.04)\times10^{-5}$ by randomized benchmarking (RB). To understand the error sources, we experimentally obtain an error budget, consisting of the decoherence errors lower bounded by $(4.62\pm0.04)\times10^{-5}$ and the leakage rate per gate of $(1.16\pm0.04)\times10^{-5}$. Moreover, we reconstruct the process matrices for the single-qubit gates by the gate set tomography (GST), with which we simulate RB sequences and obtain single-qubit fedlities consistent with experimental results. We also observe non-Markovian behavior in the experiment of long-sequence GST, which may provide guidance for further calibration. The demonstration extends the upper limit that the average fidelity of single-qubit gates can reach in a transmon-qubit system, and thus can be an essential step towards practical and reliable quantum computation in the near future.
翻訳日:2023-02-20 15:48:39 公開日:2023-02-17
# 骨格に基づく行動認識のための動的時空間ハイパーグラフ畳み込みネットワーク

Dynamic Spatial-temporal Hypergraph Convolutional Network for Skeleton-based Action Recognition ( http://arxiv.org/abs/2302.08689v1 )

ライセンス: Link先を確認
Shengqin Wang, Yongji Zhang, Hong Qi, Minghao Zhao, Yu Jiang(参考訳) 骨格に基づく行動認識は時空間位相情報の抽出に依存する。 ハイパーグラフは、骨格の以前の非自然な依存関係を確立することができる。 しかし,既存の手法は空間トポロジの構築にのみ焦点をあて,時間的依存を無視する。 本稿では,スケルトンベース行動認識のための空間-時間情報を取り込む動的空間-時間的ハイパーグラフ畳み込みネットワーク(dst-hcn)を提案する。 DST-HCNは、タイムポイントで関係を学ぶためのTPH(Time-point Hypergraph)を導入する。 複数の静的ハイパーグラフと動的TPHにより、我々のネットワークはより完全な時空間特徴を学習できる。 さらに,高次情報融合モジュール(HIF)を用いて時空間情報を同期的に融合する。 NTU RGB+D, NTU RGB+D 120, NW-UCLAデータセットの大規模な実験により, ハイパーグラフ法と比較して, 我々のモデルが最先端の手法を実現することが示された。

Skeleton-based action recognition relies on the extraction of spatial-temporal topological information. Hypergraphs can establish prior unnatural dependencies for the skeleton. However, the existing methods only focus on the construction of spatial topology and ignore the time-point dependence. This paper proposes a dynamic spatial-temporal hypergraph convolutional network (DST-HCN) to capture spatial-temporal information for skeleton-based action recognition. DST-HCN introduces a time-point hypergraph (TPH) to learn relationships at time points. With multiple spatial static hypergraphs and dynamic TPH, our network can learn more complete spatial-temporal features. In addition, we use the high-order information fusion module (HIF) to fuse spatial-temporal information synchronously. Extensive experiments on NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets show that our model achieves state-of-the-art, especially compared with hypergraph methods.
翻訳日:2023-02-20 15:48:14 公開日:2023-02-17
# フェデレートラーニングを用いたSARS-CoV-2スパイクシーケンスの効率的な分類

Efficient Classification of SARS-CoV-2 Spike Sequences Using Federated Learning ( http://arxiv.org/abs/2302.08688v1 )

ライセンス: Link先を確認
Prakash Chourasia, Taslim Murad, Zahra Tayebi, Sarwan Ali, Imdad Ullah Khan and Murray Patterson(参考訳) 本稿では,SARS-Cov-2ウイルスの変異同定のためのAIモデルを訓練するためのFLアプローチを提案する。 我々は,SARS-CoV-2スパイク配列をデータ共有なしで分散的に解析し,急速に変化する新型コロナウイルスの異なる変種を検出する。 SARS-CoV-2の膨大なシークエンシングデータは、いくつかの国による様々なゲノムモニタリングイニシアチブのために利用可能である。 しかし、患者の健康情報と国民の健康状態に関わるプライバシーの懸念は、このデータをオープンに共有することを妨げる可能性がある。 本研究では,sars-cov-2のスパイクタンパク質配列をローカルに保存したデータを用いて,遠隔ノードからの予測モデルを協調的に解析する軽量flパラダイムを提案する。 本手法は, 地域データの機密性(異なる場所に保存できる)を維持しながら, 新型コロナウイルスSARS-CoV-2の様々な変種を確実に検出し, 同定することができる。 スパイクシーケンスデータに対する手法の性能を,最近提案されているスパイクシーケンスから分類する最先端手法と比較した。 提案手法を用いて, 新型コロナウイルスの変種識別タスクにおいて, 総合的精度93%の精度を達成する。 我々の知る限りでは、これは生物配列解析のための連合学習パラダイムにおける最初の研究である。 提案するモデルは本質的に分散しているので, ``Big Data' に簡単にスケールできる。 我々はこの概念実証を,プライバシ保護型パンデミック対応戦略の実施に活用する予定である。

This paper presents a federated learning (FL) approach to train an AI model for SARS-Cov-2 coronavirus variant identification. We analyze the SARS-CoV-2 spike sequences in a distributed way, without data sharing, to detect different variants of the rapidly mutating coronavirus. A vast amount of sequencing data of SARS-CoV-2 is available due to various genomic monitoring initiatives by several nations. However, privacy concerns involving patient health information and national public health conditions could hinder openly sharing this data. In this work, we propose a lightweight FL paradigm to cooperatively analyze the spike protein sequences of SARS-CoV-2 privately, using the locally stored data to train a prediction model from remote nodes. Our method maintains the confidentiality of local data (that could be stored in different locations) yet allows us to reliably detect and identify different known and unknown variants of the novel coronavirus SARS-CoV-2. We compare the performance of our approach on spike sequence data with the recently proposed state-of-the-art methods for classification from spike sequences. Using the proposed approach, we achieve an overall accuracy of $93\%$ on the coronavirus variant identification task. To the best of our knowledge, this is the first work in the federated learning paradigm for biological sequence analysis. Since the proposed model is distributed in nature, it could scale on ``Big Data'' easily. We plan to use this proof-of-concept to implement a privacy-preserving pandemic response strategy.
翻訳日:2023-02-20 15:47:56 公開日:2023-02-17
# VEGETA: CPU上でのスパース/ディエンスGEMMタイル高速化のための垂直統合拡張

VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile Acceleration on CPUs ( http://arxiv.org/abs/2302.08687v1 )

ライセンス: Link先を確認
Geonhwa Jeong, Sana Damani, Abhimanyu Rajeshkumar Bambhaniya, Eric Qin, Christopher J. Hughes, Sreenivas Subramoney, Hyesoon Kim, Tushar Krishna(参考訳) CPUにおけるディープラーニング(DL)アクセラレーションのサポートは、最近多くの注目を集めており、いくつかの企業(Arm、Intel、IBM)がGEMM命令でアクセス可能な特殊なマトリックスエンジンを備えた製品を発表した。 CPUは広く普及しており、エッジ/HPC/クラウドプラットフォームで動作するDLワークロードのさまざまな要件を処理する必要がある。 したがって、DLワークロードは、モデルの計算とメモリサイズを減らすためにスパーシリティを取り入れているため、高密度マトリックスエンジンの過小評価とキャッシュとレジスタの非効率使用を避けるために、CPUがスパーシリティのサポートを追加することが必須である。 この研究は、高密度マトリックスエンジン上のISAおよびマイクロアーキテクチャ拡張のセットであるVEGETAを示し、CPUの柔軟な構造化されたスパーシリティをサポートし、様々なパーシリティを持つ多様なDLモデルに対するプログラム可能なサポートを可能にする。 CPUのSOTA(State-of-the-art)密度行列エンジンと比較して、VEGETAエンジンは4:4 (dense), 2:4, 1:4, and unstructured (95%) スパースDNN層を実行するときに1.09x, 2.20x, 3.74x, 3.28xのスピードアップを提供する。

Deep Learning (DL) acceleration support in CPUs has recently gained a lot of traction, with several companies (Arm, Intel, IBM) announcing products with specialized matrix engines accessible via GEMM instructions. CPUs are pervasive and need to handle diverse requirements across DL workloads running in edge/HPC/cloud platforms. Therefore, as DL workloads embrace sparsity to reduce the computations and memory size of models, it is also imperative for CPUs to add support for sparsity to avoid under-utilization of the dense matrix engine and inefficient usage of the caches and registers. This work presents VEGETA, a set of ISA and microarchitecture extensions over dense matrix engines to support flexible structured sparsity for CPUs, enabling programmable support for diverse DL models with varying degrees of sparsity. Compared to the state-of-the-art (SOTA) dense matrix engine in CPUs, a VEGETA engine provides 1.09x, 2.20x, 3.74x, and 3.28x speed-ups when running 4:4 (dense), 2:4, 1:4, and unstructured (95%) sparse DNN layers.
翻訳日:2023-02-20 15:47:34 公開日:2023-02-17
# 光磁気力学による原子アンサンブルによる強磁性マグノンの絡み込み

Entangling ferrimagnetic magnons with an atomic ensemble via opto-magnomechanics ( http://arxiv.org/abs/2302.08684v1 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Hang Qian, Xuan Zuo, Jie Li(参考訳) 強磁性YIG結晶における原子アンサンブルと多数のマグノンとのマクロな絡み合わせの仕方を示す。 具体的には、磁歪誘起マグノメカニカル変位が放射圧を介して光学キャビティに結合し、さらに、キャビティ内に配置された2レベル原子のアンサンブルに結合する光磁気力学構成を採用する。 キャビティとマグノンモードを適切に駆動することにより、原子系とマグノン系にさらに分散した光学的絡み合いが生成され、原子とマグノン間の定常絡み合いが生じることを示す。 原子・マグノンの絡み合いは、光学的および磁気力学的冷却と光力学的パラメトリック・ダウンコンバージョン相互作用の複合効果の結果である。 2つの機械的冷却チャネル間の競合機構を明らかにする。 以上の結果から, ハイブリッド光磁気力学系は, マグノン, 光子, フォノン, 原子を含むマクロ量子状態の生成に有望なシステムとなる可能性が示唆された。

We show how to prepare macroscopic entanglement between an atomic ensemble and a large number of magnons in a ferrimagnetic YIG crystal. Specifically, we adopt an opto-magnomechanical configuration where the magnetostriction-induced magnomechanical displacement couples to an optical cavity via radiation pressure, and the latter further couples to an ensemble of two-level atoms that are placed inside the cavity. We show that by properly driving the cavity and magnon modes, optomechanical entanglement is created which is further distributed to the atomic and magnonic systems, yielding stationary entanglement between atoms and magnons. The atom-magnon entanglement is a result of the combined effect of opto- and magnomechanical cooling and optomechanical parametric down-conversion interactions. A competition mechanism between two mechanical cooling channels is revealed. Our results indicate that the hybrid opto-magnomechanical system may become a promising system for preparing macroscopic quantum states involving magnons, photons, phonons and atoms.
翻訳日:2023-02-20 15:47:08 公開日:2023-02-17
# グラフ畳み込みネットワークのためのバイファインマッピングによる距離ノード間のショートカット構築

Building Shortcuts between Distant Nodes with Biaffine Mapping for Graph Convolutional Networks ( http://arxiv.org/abs/2302.08727v1 )

ライセンス: Link先を確認
Acong Zhang and Jincheng Huang and Pin Li and Na Chen and Kai ZHang(参考訳) 近年の複数の研究により、グラフ畳み込みネットワーク(gcns)におけるパラドックス、すなわち浅いアーキテクチャは、高階の隣人からの情報を学習する能力を制限する。 本研究では,浅層アーキテクチャの単純さを享受し,その限界を克服するために,浅層アーキテクチャを用いたグラフ畳み込みネットワークの表現性を向上するバイファイン手法を提案する。 本手法の核となる設計は、ノード表現のためのリッチな情報をキャプチャできる1ホップメッセージパッシングのみを含む、ノードの長距離近傍への直接依存を学習することである。 さらに,長距離依存から学習した表現を活用できる多視点コントラスト学習手法を提案する。 9つのグラフベンチマークデータセットの大規模な実験により、浅いバイファイングラフ畳み込みネットワーク(BAGCN)は、半教師付きノード分類における最先端のGCN(深いアーキテクチャや浅いアーキテクチャ)よりも著しく優れていることが示唆された。 さらに,ノード表現学習におけるbiaffine設計の有効性と,トレーニングデータのサイズによるパフォーマンス一貫性を検証した。

Multiple recent studies show a paradox in graph convolutional networks (GCNs), that is, shallow architectures limit the capability of learning information from high-order neighbors, while deep architectures suffer from over-smoothing or over-squashing. To enjoy the simplicity of shallow architectures and overcome their limits of neighborhood extension, in this work, we introduce Biaffine technique to improve the expressiveness of graph convolutional networks with a shallow architecture. The core design of our method is to learn direct dependency on long-distance neighbors for nodes, with which only one-hop message passing is capable of capturing rich information for node representation. Besides, we propose a multi-view contrastive learning method to exploit the representations learned from long-distance dependencies. Extensive experiments on nine graph benchmark datasets suggest that the shallow biaffine graph convolutional networks (BAGCN) significantly outperforms state-of-the-art GCNs (with deep or shallow architectures) on semi-supervised node classification. We further verify the effectiveness of biaffine design in node representation learning and the performance consistency on different sizes of training data.
翻訳日:2023-02-20 15:42:12 公開日:2023-02-17
# 多重グラフにおける量子対称性

Quantum symmetry in multigraphs ( http://arxiv.org/abs/2302.08726v1 )

ライセンス: Link先を確認
Debashish Goswami and Sk Asfaq Hossain(参考訳) 有向あるいは無向の多重グラフにおいて、孤立頂点を持たない様々な量子対称性の概念を導入し、それらの関係を探求する。 多重グラフが(ループの有無に関わらず)単純であれば、量子対称性のすべての概念は、ビコンとバナカによって既に存在する量子対称性の概念に還元される。

We introduce various notions of quantum symmetry in a directed or undirected multigraph with no isolated vertex and explore relations among them. If the multigraph is simple (with or without loops), all our notions of quantum symmetry reduce to the already existing notions of quantum symmetry provided by Bichon and Banica.
翻訳日:2023-02-20 15:41:50 公開日:2023-02-17
# ベイズニューラルネットワークの分割決定論的マルコフ過程

Piecewise Deterministic Markov Processes for Bayesian Neural Networks ( http://arxiv.org/abs/2302.08724v1 )

ライセンス: Link先を確認
Ethan Goan, Dimitri Perrin, Kerrie Mengersen, Clinton Fookes(参考訳) 現代のベイズニューラルネットワーク(bnns)の推論は、しばしば変分推論処理に依存しており、独立性や後肢の形に違反する仮定を課している。 従来のMCMCアプローチは、確率のサブサンプリングに非互換であるため、計算量を増やすコストでこれらの仮定を避ける。 新しいPiecewise Deterministic Markov Process (PDMP) サンプリングはサブサンプリングを許容するが、サンプリングが難しい不均一なPoisson Process (IPP) モデルを導入する。 本研究は、これらのIPPからサンプリングする新しい汎用的かつ適応的な薄膜化手法を導入し、BNNにおける推論へのPDMPの適用をいかに加速するかを示す。 実験は、これらの手法による推論がいかに計算可能かを示し、予測精度、MCMC混合性能を向上し、他の近似推論方式と比較して情報的不確実性の測定を提供する。

Inference on modern Bayesian Neural Networks (BNNs) often relies on a variational inference treatment, imposing violated assumptions of independence and the form of the posterior. Traditional MCMC approaches avoid these assumptions at the cost of increased computation due to its incompatibility to subsampling of the likelihood. New Piecewise Deterministic Markov Process (PDMP) samplers permit subsampling, though introduce a model specific inhomogenous Poisson Process (IPPs) which is difficult to sample from. This work introduces a new generic and adaptive thinning scheme for sampling from these IPPs, and demonstrates how this approach can accelerate the application of PDMPs for inference in BNNs. Experimentation illustrates how inference with these methods is computationally feasible, can improve predictive accuracy, MCMC mixing performance, and provide informative uncertainty measurements when compared against other approximate inference schemes.
翻訳日:2023-02-20 15:41:44 公開日:2023-02-17
# GPT4MIA:医療画像解析のためのプラグアンドプレイトランスダクティブモデルとしてのGPT-3の利用

GPT4MIA: Utilizing Geneative Pre-trained Transformer (GPT-3) as A Plug-and-Play Transductive Model for Medical Image Analysis ( http://arxiv.org/abs/2302.08722v1 )

ライセンス: Link先を確認
Yizhe Zhang and Danny Z. Chen(参考訳) 本稿では、医用画像解析(MIA)のためのプラグアンドプレイトランスダクティブ推論ツールとして、GPT(Generative Pre-trained Transformer)を利用した新しいアプローチ(GPT4MIA)を提案する。 GPT-3のような大規模事前学習言語モデルがMIAのプラグアンドプレイトランスダクティブ推論モデルとして利用できる理由を理論的に分析する。 手法レベルでは, GPT4MIAの効率と有効性を改善するために, より優れたプロンプト構造設計, サンプル選択, 代表サンプル/機能の即時順序付けなど, 様々な技術的手法を開発した。 GPT4MIAの具体的なユースケースとして,(1)予測誤差の検出と(2)予測精度の向上,(2)画像分類のためのよく確立されたビジョンベースモデル(ResNetなど)を用いた推測処理を行う。 実験により,提案手法が2つの課題に有効であることを確認した。 さらに、より広範なMIAアプリケーションにTransformerベースの大規模言語モデルを利用する機会と課題について論じる。

In this paper, we propose a novel approach (called GPT4MIA) that utilizes Generative Pre-trained Transformer (GPT) as a plug-and-play transductive inference tool for medical image analysis (MIA). We provide theoretical analysis on why a large pre-trained language model such as GPT-3 can be used as a plug-and-play transductive inference model for MIA. At the methodological level, we develop several technical treatments to improve the efficiency and effectiveness of GPT4MIA, including better prompt structure design, sample selection, and prompt ordering of representative samples/features. We present two concrete use cases (with workflow) of GPT4MIA: (1) detecting prediction errors and (2) improving prediction accuracy, working in conjecture with well-established vision-based models for image classification (e.g., ResNet). Experiments validate that our proposed method is effective for these two tasks. We further discuss the opportunities and challenges in utilizing Transformer-based large language models for broader MIA applications.
翻訳日:2023-02-20 15:41:28 公開日:2023-02-17
# 近面風のアルゴリズムによる幻覚:対流パーミットスケールに対する生成逆ネットワークによる統計的ダウンスケーリング

Algorithmic Hallucinations of Near-Surface Winds: Statistical Downscaling with Generative Adversarial Networks to Convection-Permitting Scales ( http://arxiv.org/abs/2302.08720v1 )

ライセンス: Link先を確認
Nicolaas J. Annau, Alex J. Cannon, Adam H. Monahan(参考訳) 特に低解像度(lr)モデルによって解決されないプロセスによって強く制御される変数にとっては、気象や気候に関する小規模情報の提供は困難である。 本稿では,画像スーパーレゾリューション(sr)と深層学習の分野における新しい機械学習手法について検討する。 具体的には、GAN(Generative Adversarial Networks)は、気象調査・予測(WRF)モデルにより北アメリカ上空を模擬した高分解能(HR)表面の風を生成するために、グローバルリアナリシスからのLR入力に条件付けされている。 従来のSRモデルとは異なり、LR入力はHR画像の粗大化バージョンとして理想化されているが、WRFエミュレーションは粗大分解能再解析による非理想化LR入力を含む。 WRFシミュレーションの統計特性の整合に加えて、GANは印象的なリアリズムを持つHR場を迅速に生成する。 しかし、SRモデルの現実性を客観的に評価するには、評価指標を慎重に選択する必要がある。 特に、空間パワースペクトルに基づく性能測定は、GAN構成が生成されたフィールドにおける空間構造を変化させる方法、空間変動のバイアスが生じる方法、モデルが異なるLR共変量に依存する方法を明らかにする。 近年のコンピュータビジョン研究に触発され、SR GANをさらに最適化するためにHRフィールドの空間周波数を分離する新しい手法が用いられている。 この手法は周波数分離と呼ばれ、生成したHR場のリアリズムを劣化させる結果となった。 しかし、周波数分離はsrモデルを最適化するためのメトリクスによって空間構造がどのように影響を受けるかを示し、より効果的な部分周波数分離手法の開発につながった。

Providing small-scale information about weather and climate is challenging, especially for variables strongly controlled by processes that are unresolved by low-resolution (LR) models. This paper explores emerging machine learning methods from the fields of image super-resolution (SR) and deep learning for statistical downscaling of near-surface winds to convection-permitting scales. Specifically, Generative Adversarial Networks (GANs) are conditioned on LR inputs from a global reanalysis to generate high-resolution (HR) surface winds that emulate those simulated over North America by the Weather Research and Forecasting (WRF) model. Unlike traditional SR models, where LR inputs are idealized coarsened versions of the HR images, WRF emulation involves non-idealized LR inputs from a coarse-resolution reanalysis. In addition to matching the statistical properties of WRF simulations, GANs quickly generate HR fields with impressive realism. However, objectively assessing the realism of the SR models requires careful selection of evaluation metrics. In particular, performance measures based on spatial power spectra reveal the way that GAN configurations change spatial structures in the generated fields, where biases in spatial variability originate, and how models depend on different LR covariates. Inspired by recent computer vision research, a novel methodology that separates spatial frequencies in HR fields is used in an attempt to optimize the SR GANs further. This method, called frequency separation, resulted in deterioration in realism of the generated HR fields. However, frequency separation did show how spatial structures are influenced by the metrics used to optimize the SR models, which led to the development of a more effective partial frequency separation approach.
翻訳日:2023-02-20 15:41:06 公開日:2023-02-17
# 光子リサイクルによるmach-zehnder干渉計の位相感度向上

Enhanced phase sensitivity in a Mach-Zehnder interferometer via photon recycling ( http://arxiv.org/abs/2302.08717v1 )

ライセンス: Link先を確認
Dong Li, Chun-Hua Yuan, Xiaoping Ma, Qingle Wang, Hwang Lee, Yao Yao, Weiping Zhang(参考訳) 本研究では,光子リサイクルによるマッハツェンダー干渉計(mzi)の位相推定法を提案する。 同一のコヒーレント状態入力およびホモダイン検出により,本提案法は従来のMZI以上の位相感度を有することを示した。 例えば、光子リサイクルアームの光子損失が10%である場合でも、従来の方式と比較して位相感度9.32の増強係数を達成することができる。 別の観点からは、量子クレーマー・ラオ境界(QCRB)も研究されている。 提案手法は従来の手法よりも低QCRBを実現することができる。 興味深いことに、我々のスキームのQCRBは位相シフト phi に依存し、伝統的なスキームは位相シフトによらず一定のQCRBを持つ。 最後に,位相感度の向上の背景にあるメカニズムを紹介する。 以上の結果から,MZIの光子リサイクルによる位相感度の向上が期待できる。

We propose an alternative scheme for phase estimation in a Mach-Zehnder interferometer (MZI) with photon recycling. It is demonstrated that with the same coherent-state input and homodyne detection, our proposal possesses a phase sensitivity beyond the traditional MZI. For instance, it can achieve an enhancement factor of 9.32 in the phase sensitivity compared with the conventional scheme even with a photon loss of 10% on the photon-recycled arm. From another point of view, the quantum Cramer-Rao bound (QCRB) is also investigated. It is found that our scheme is able to achieve a lower QCRB than the traditional one. Intriguingly, the QCRB of our scheme is dependent of the phase shift phi while the traditional scheme has a constant QCRB regardless of the phase shift. Finally, we present the underlying mechanisms behind the enhanced phase sensitivity. We believe that our results provide another angle from which to enhance the phase sensitivity in a MZI via photon recycling.
翻訳日:2023-02-20 15:40:14 公開日:2023-02-17
# EEP-3DQA:効果的な投影型3次元モデル品質評価

EEP-3DQA: Efficient and Effective Projection-based 3D Model Quality Assessment ( http://arxiv.org/abs/2302.08715v1 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Yingjie Zhou, Wei Lu, Yucheng Zhu, Xiongkuo Min, and Guangtao Zhai(参考訳) 現在,3次元モデル品質評価法(3DQA)の有効性向上に多くの取り組みがなされている。 しかし、計算コストと推論時間にはほとんど注意が払われておらず、実際的な応用においても重要である。 2Dメディアとは異なり、3Dモデルはポイントクラウドやメッシュなど、より複雑で不規則なデジタルフォーマットで表現される。 したがって、3Dモデルの品質認識特徴を抽出する効率的なモジュールの実行は通常困難である。 本稿では、プロジェクションベースの3DQAの側面からこの問題に対処し、ノ-リフレクション(NR) \underline{E}fficient and \underline{E}ffective \underline{P}rojection-based \underline{3D} Model \underline{Q}uality \underline{A}ssessment (\textbf{EEP-3DQA})法を開発する。 EEP-3DQAの入力投影画像は、3次元モデルの垂直6視点からランダムにサンプリングされ、グリッドミニパッチサンプリング戦略によりさらに空間的にサンプリングされる。 さらに、背骨として軽量のSwin-Transformer小片を用いて品質認識特徴を抽出する。 最後に、提案したEEP-3DQAとEEP-3DQA-t(ティニーバージョン)は、既存のNR-3DQAメソッドよりも最高のパフォーマンスを達成し、比較した3DQAメソッドよりも推論時間を少なくしながら、ポイントクラウドおよびメッシュ品質評価データベース上で、ほとんどのフル参照(FR)3DQAメソッドを上回ります。

Currently, great numbers of efforts have been put into improving the effectiveness of 3D model quality assessment (3DQA) methods. However, little attention has been paid to the computational costs and inference time, which is also important for practical applications. Unlike 2D media, 3D models are represented by more complicated and irregular digital formats, such as point cloud and mesh. Thus it is normally difficult to perform an efficient module to extract quality-aware features of 3D models. In this paper, we address this problem from the aspect of projection-based 3DQA and develop a no-reference (NR) \underline{E}fficient and \underline{E}ffective \underline{P}rojection-based \underline{3D} Model \underline{Q}uality \underline{A}ssessment (\textbf{EEP-3DQA}) method. The input projection images of EEP-3DQA are randomly sampled from the six perpendicular viewpoints of the 3D model and are further spatially downsampled by the grid-mini patch sampling strategy. Further, the lightweight Swin-Transformer tiny is utilized as the backbone to extract the quality-aware features. Finally, the proposed EEP-3DQA and EEP-3DQA-t (tiny version) achieve the best performance than the existing state-of-the-art NR-3DQA methods and even outperforms most full-reference (FR) 3DQA methods on the point cloud and mesh quality assessment databases while consuming less inference time than the compared 3DQA methods.
翻訳日:2023-02-20 15:40:01 公開日:2023-02-17
# Tencentにおけるバイナリ埋め込みベースの検索

Binary Embedding-based Retrieval at Tencent ( http://arxiv.org/abs/2302.08714v1 )

ライセンス: Link先を確認
Yukang Gan, Yixiao Ge, Chang Zhou, Shupeng Su, Zhouchuan Xu, Xuyuan Xu, Quanchao Hui, Xiang Chen, Yexin Wang, Ying Shan(参考訳) 大規模埋め込み型検索(EBR)は、検索関連産業アプリケーションの基礎となる。 ユーザからの問い合わせを前提として、EBRのシステムは、数十億から数百億のサイズのドキュメントの巨大なコーパスから関連する情報を識別することを目的としている。 ストレージと計算は、巨大なドキュメントと高並列クエリで高価で非効率であることが判明し、さらなるスケールアップが困難になった。 この課題に対処するために,2値埋め込み型検索 (BEBR) エンジンに,次元毎にカスタマイズ可能な2値バイナライゼーションアルゴリズムを提案する。 具体的には,全精度問合せと文書埋め込みを浮動小数点ベクトルとして一般に定式化し,残差多層知覚(mlp)ブロックを用いた軽量変換モデルを用いて,複数のバイナリベクトルの合成に圧縮する。 したがって、異なるアプリケーションのためにビット数を調整でき、精度の損失とコストの削減をトレードオフできる。 重要なことは、新しい埋め込み・埋め込み戦略を用いて、タスク非依存のバイナライゼーションモデルの効率的なトレーニングを可能にすることである。 また、バイナリ埋め込みの互換性のあるトレーニングを活用し、BEBRエンジンが統合システム内の複数の埋め込みバージョン間のインデックス化をサポートできるようにします。 より効率的な探索を実現するために,ハミング符号よりも応答時間の少ないSDC(Symmetric Distance calculated)を提案する。 私たちは、導入したBEBRをSogou、Tencent Video、QQ Worldなど、Tencent製品にうまく採用しました。 バイナライゼーションアルゴリズムは、複数のモードを持つ様々なタスクにシームレスに一般化することができる。 オフラインベンチマークとオンラインA/Bテストによる大規模な実験は,本手法の有効性と有効性を示し,システムレベルでの精度の低下を伴わず,30%~50%のインデックスコストを著しく削減した。

Large-scale embedding-based retrieval (EBR) is the cornerstone of search-related industrial applications. Given a user query, the system of EBR aims to identify relevant information from a large corpus of documents that may be tens or hundreds of billions in size. The storage and computation turn out to be expensive and inefficient with massive documents and high concurrent queries, making it difficult to further scale up. To tackle the challenge, we propose a binary embedding-based retrieval (BEBR) engine equipped with a recurrent binarization algorithm that enables customized bits per dimension. Specifically, we compress the full-precision query and document embeddings, formulated as float vectors in general, into a composition of multiple binary vectors using a lightweight transformation model with residual multilayer perception (MLP) blocks. We can therefore tailor the number of bits for different applications to trade off accuracy loss and cost savings. Importantly, we enable task-agnostic efficient training of the binarization model using a new embedding-to-embedding strategy. We also exploit the compatible training of binary embeddings so that the BEBR engine can support indexing among multiple embedding versions within a unified system. To further realize efficient search, we propose Symmetric Distance Calculation (SDC) to achieve lower response time than Hamming codes. We successfully employed the introduced BEBR to Tencent products, including Sogou, Tencent Video, QQ World, etc. The binarization algorithm can be seamlessly generalized to various tasks with multiple modalities. Extensive experiments on offline benchmarks and online A/B tests demonstrate the efficiency and effectiveness of our method, significantly saving 30%~50% index costs with almost no loss of accuracy at the system level.
翻訳日:2023-02-20 15:39:20 公開日:2023-02-17
# Quantile LSTM:時系列データにおける異常検出のためのロバストLSTM

Quantile LSTM: A Robust LSTM for Anomaly Detection In Time Series Data ( http://arxiv.org/abs/2302.08712v1 )

ライセンス: Link先を確認
Snehanshu Saha, Jyotirmoy Sarkar, Soma Dhavala, Santonu Sarkar, Preyank Mota(参考訳) 異常 (Anomalies) とは、標準的な動作条件下での正常な動作からシステムやデバイスを離脱することを指す。 工業機器の異常は、しばしば時間方向において、今後の故障を示す可能性がある。 この論文では2つの貢献をします 1) 条件付き量子化を推定し, 推定された量子化に基づいて異常を3つの異なる方法で定義する。 2) 一般的なLong Short Term Memory Network (LSTM) アーキテクチャでは,時間的長期依存性をモデル化するために,新たな学習可能なアクティベーション関数を使用する。 特に,LSTM内の活性化関数 (AF) としてParametric Elliot Function (PEF) を提案する。 提案アルゴリズムは、分離フォレスト(iForest)、楕円エンベロープ、オートエンコーダ、およびDeep Autoencoding Gaussian Mixture Model (DAGMM)、Generative Adversarial Networks (GAN)のような現代のディープラーニングモデルなど、他のよく知られた異常検出アルゴリズムと比較される。 アルゴリズムは、精度やリコールなど、さまざまなパフォーマンス指標の観点から評価される。 このアルゴリズムは、Yahoo、AWS、GE、マシンセンサーなど、複数の産業時系列データセットでテストされている。 LSTMに基づく量子化アルゴリズムは非常に有効であり,異常を同定するアルゴリズムよりも優れていた。

Anomalies refer to the departure of systems and devices from their normal behaviour in standard operating conditions. An anomaly in an industrial device can indicate an upcoming failure, often in the temporal direction. In this paper, we make two contributions: 1) we estimate conditional quantiles and consider three different ways to define anomalies based on the estimated quantiles. 2) we use a new learnable activation function in the popular Long Short Term Memory networks (LSTM) architecture to model temporal long-range dependency. In particular, we propose Parametric Elliot Function (PEF) as an activation function (AF) inside LSTM, which saturates lately compared to sigmoid and tanh. The proposed algorithms are compared with other well-known anomaly detection algorithms, such as Isolation Forest (iForest), Elliptic Envelope, Autoencoder, and modern Deep Learning models such as Deep Autoencoding Gaussian Mixture Model (DAGMM), Generative Adversarial Networks (GAN). The algorithms are evaluated in terms of various performance metrics, such as Precision and Recall. The algorithms have been tested on multiple industrial time-series datasets such as Yahoo, AWS, GE, and machine sensors. We have found that the LSTM-based quantile algorithms are very effective and outperformed the existing algorithms in identifying anomalies.
翻訳日:2023-02-20 15:38:50 公開日:2023-02-17
# 識別グラフ自己学習によるドメイン適応のためのクロスドメインラベル伝搬

Cross-Domain Label Propagation for Domain Adaptation with Discriminative Graph Self-Learning ( http://arxiv.org/abs/2302.08710v1 )

ライセンス: Link先を確認
Lei Tian, Yongqiang Tang, Liangchen Hu and Wensheng Zhang(参考訳) ドメイン適応は、よくラベル付けされたソースデータの知識をラベル付けされていないターゲットデータに転送する。 最近の多くの取り組みは、条件付き分布シフトを減らすために標的擬似ラベルの予測精度の向上に焦点を当てている。 本稿では,2つの領域データの底面多様体構造を探索できるように,クロスドメインラベル伝搬を通じて対象の擬似ラベルを推定する新しい領域適応法を提案する。 ドメイン不変特徴学習,親和性行列構築,ターゲットラベルを3つの独立した段階に推定する既存のクロスドメインラベル伝播手法とは異なり,これらを統一最適化フレームワークに統合する。 このようにして、これら3つの部品は反復最適化の観点から互いに強化し合い、より効果的な知識伝達を実現することができる。 さらに,良質なアフィニティマトリックスを構築するために,2つの領域からのデータの固有類似性を適応的に捉えるだけでなく,ラベル付きソースデータと擬似ラベル付きターゲットデータに含まれる識別情報を効果的に活用できる識別グラフ自己学習戦略を提案する。 提案手法の目的関数の解法として,効率的な反復最適化アルゴリズムを提案する。 特に,提案手法を単純かつ効果的な方法で半教師付き領域適応に拡張でき,同一アルゴリズムを用いて対応する最適化問題を解くことができる。 6つの標準データセットに対する大規模な実験は、教師なしと半教師なしの両方のドメイン適応設定において、提案提案の顕著な優位性を検証する。

Domain adaptation manages to transfer the knowledge of well-labeled source data to unlabeled target data. Many recent efforts focus on improving the prediction accuracy of target pseudo-labels to reduce conditional distribution shift. In this paper, we propose a novel domain adaptation method, which infers target pseudo-labels through cross-domain label propagation, such that the underlying manifold structure of two domain data can be explored. Unlike existing cross-domain label propagation methods that separate domain-invariant feature learning, affinity matrix constructing and target labels inferring into three independent stages, we propose to integrate them into a unified optimization framework. In such way, these three parts can boost each other from an iterative optimization perspective and thus more effective knowledge transfer can be achieved. Furthermore, to construct a high-quality affinity matrix, we propose a discriminative graph self-learning strategy, which can not only adaptively capture the inherent similarity of the data from two domains but also effectively exploit the discriminative information contained in well-labeled source data and pseudo-labeled target data. An efficient iterative optimization algorithm is designed to solve the objective function of our proposal. Notably, the proposed method can be extended to semi-supervised domain adaptation in a simple but effective way and the corresponding optimization problem can be solved with the identical algorithm. Extensive experiments on six standard datasets verify the significant superiority of our proposal in both unsupervised and semi-supervised domain adaptation settings.
翻訳日:2023-02-20 15:38:24 公開日:2023-02-17
# 自律エージェントのための価値工学

Value Engineering for Autonomous Agents ( http://arxiv.org/abs/2302.08759v1 )

ライセンス: Link先を確認
Nieves Montes, Nardine Osman, Carles Sierra, Marija Slavkovik(参考訳) 機械倫理(ME)は、AMA(Artificial Moral Agents)、すなわち、道徳的価値に応じて推論と行動が可能な自律エージェントの設計に関するものである。 以前のアプローチでは、値はエージェント推論の不可欠なコンポーネントとしてではなく、世界のいくつかのアクションや状態に関連するラベルとして扱われてきた。 価値誘導エージェントが、規範によって統治される環境において他の価値誘導エージェントと共に機能するため、AMAの社会的次元を省略することが一般的である。 本稿では,文脈依存的な目標として,価値をエージェントに注入する,道徳的・社会的心理学に基づく新しいAMAパラダイムを提案する。 これらのゴールは、個々のレベルの値と集団レベルでの規範を、最もインセンティブの高い結果を評価することによって、複雑に結びつける。 このタイプの規範的推論は、エージェントが規範の道徳的意味を理解することによって、自律的なエージェントに価値認識をもたらすと論じる。 さらに、この能力は、エージェントが人間価値に合致する最適な規範セットを集団で合意するのに役立つ合意機構と、その規範の価値に基づく推論を補完することで、エージェントが社会で実施される規範を、それらに埋め込まれた人間価値に関して一致させる方法となる。 全体として、当社のエージェントモデルは、規範的推論と価値認識エージェントを現代の人間-コンピュータ社会に統合するために必要な社会的機能とを結びつけることで、不活性なラベルとしての価値を扱います。

Machine Ethics (ME) is concerned with the design of Artificial Moral Agents (AMAs), i.e. autonomous agents capable of reasoning and behaving according to moral values. Previous approaches have treated values as labels associated with some actions or states of the world, rather than as integral components of agent reasoning. It is also common to disregard that a value-guided agent operates alongside other value-guided agents in an environment governed by norms, thus omitting the social dimension of AMAs. In this blue sky paper, we propose a new AMA paradigm grounded in moral and social psychology, where values are instilled into agents as context-dependent goals. These goals intricately connect values at individual levels to norms at a collective level by evaluating the outcomes most incentivized by the norms in place. We argue that this type of normative reasoning, where agents are endowed with an understanding of norms' moral implications, leads to value-awareness in autonomous agents. Additionally, this capability paves the way for agents to align the norms enforced in their societies with respect to the human values instilled in them, by complementing the value-based reasoning on norms with agreement mechanisms to help agents collectively agree on the best set of norms that suit their human values. Overall, our agent model goes beyond the treatment of values as inert labels by connecting them to normative reasoning and to the social functionalities needed to integrate value-aware agents into our modern hybrid human-computer societies.
翻訳日:2023-02-20 15:32:45 公開日:2023-02-17
# ショットポイント交換による一般化アンサンブルにおける構成と経路空間の増強サンプリング

Enhanced Sampling of Configuration and Path Space in a Generalized Ensemble by Shooting Point Exchange ( http://arxiv.org/abs/2302.08757v1 )

ライセンス: Link先を確認
Sebastian Falkner, Alessandro Coretti and Christoph Dellago(参考訳) 多くの分子過程の計算機シミュレーションは、長寿命状態間の稀な遷移によって引き起こされる長期スケールによって複雑である。 本稿では,遷移経路のサンプリングと構成空間の探索の強化を組み合わせた,このような稀な事象をシミュレートする新しい手法を提案する。 この方法は、一般化アンサンブルに基づいて実行される構成と軌道空間の交換移動に依存する。 この手法は遷移経路サンプリングシミュレーションの効率を、特に複数の遷移チャネルを持つ系において大幅に向上させ、そのダイナミクスを歪ませることなく、分子プロセスの熱力学、運動学、反応座標に関する情報を得る。 この方法は、KPTPテトラペプチドにおけるプロリンの異性化を用いて示される。

The computer simulation of many molecular processes is complicated by long time scales caused by rare transitions between long-lived states. Here, we propose a new approach to simulate such rare events, which combines transition path sampling with enhanced exploration of configuration space. The method relies on exchange moves between configuration and trajectory space, carried out based on a generalized ensemble. This scheme substantially enhances the efficiency of the transition path sampling simulations, particularly for systems with multiple transition channels, and yields information on thermodynamics, kinetics and reaction coordinates of molecular processes without distorting their dynamics. The method is illustrated using the isomerization of proline in the KPTP tetrapeptide.
翻訳日:2023-02-20 15:32:18 公開日:2023-02-17
# 遠方超伝導チップ間の決定論的量子テレポーテーション

Deterministic quantum teleportation between distant superconducting chips ( http://arxiv.org/abs/2302.08756v1 )

ライセンス: Link先を確認
Jiawei Qiu, Yang Liu, Jingjing Niu, Ling Hu, Yukai Wu, Libo Zhang, Wenhui Huang, Yuanzhen Chen, Jian Li, Song Liu, Youpeng Zhong, Luming Duan, Dapeng Yu(参考訳) 量子テレポーテーション -\cite{bennett1993} は量子情報科学における基礎的関心と実践的重要性の両方を持つ。 これまで、量子テレポーテーションは様々な物理系で実装されており、超伝導量子ビットは大規模量子計算を実現するための主要なシステムとして出現するので、特に実用的な意味を持つ。 それでも、同じチップ上の超伝導量子ビットの数は、利用可能なチップサイズ、冷却電力、配線の複雑さによって著しく制限されている。 遠隔超伝導チップ上での量子テレポーテーションと遠隔計算の実現は、分散量子計算ネットワーク~\cite{Gottesman 1999,Eisert2000,Jiang2007,Kimble2008,Monroe2014} を通じてシステムをスケールアップするための重要な量子通信技術である。 しかし、この目標は、遠隔超伝導チップ間の量子相互接続と、損失の大きい相互接続〜\cite{Kurpiers2018,Axline2018,Campagne2018,Magnard2020}上の空飛ぶマイクロ波光子の非効率転送という技術的課題のためにまだ実現されていない。 ここでは,超低温で0.02~db/kmの超低損失を特徴とする64メートルのケーブルバスで接続された遠方超伝導チップ間の量子状態とゲートの密接性に関する決定論的テレポーテーションを実証する。 大規模超伝導量子ビットを長距離にテレポーティングすることの基本的な関心とは別に,分散計算ネットワークによる大規模超伝導量子計算の実現に向けた基礎研究を行っている。

Quantum teleportation~\cite{Bennett1993} is of both fundamental interest and great practical importance in quantum information science. To date, quantum teleportation has been implemented in various physical systems~\cite{Pirandola2015}, among which superconducting qubits are of particular practical significance as they emerge as a leading system to realize large-scale quantum computation~\cite{Arute2019,Wu2021}. Nevertheless, the number of superconducting qubits on the same chip is severely limited by the available chip size, the cooling power, and the wiring complexity. Realization of quantum teleportation and remote computation over qubits on distant superconducting chips is a key quantum communication technology to scaling up the system through a distributed quantum computational network~\cite{Gottesman1999,Eisert2000,Jiang2007,Kimble2008,Monroe2014}. However, this goal has not been realized yet in experiments due to the technical challenge of making a quantum interconnect between distant superconducting chips and the inefficient transfer of flying microwave photons over the lossy interconnects~\cite{Kurpiers2018,Axline2018,Campagne2018,Magnard2020}. Here we demonstrate deterministic teleportation of quantum states and entangling gates between distant superconducting chips connected by a 64-meter-long cable bus featuring an ultralow loss of 0.32~dB/km at cryogenic temperatures, where high fidelity remote entanglement is generated via flying microwave photons utilizing time-reversal-symmetry~\cite{Cirac1997,Korotkov2011}. Apart from the fundamental interest of teleporting macroscopic superconducting qubits over a long distance, our work lays a foundation to realization of large-scale superconducting quantum computation through a distributed computational network~\cite{Gottesman1999,Eisert2000,Jiang2007,Kimble2008,Monroe2014}.
翻訳日:2023-02-20 15:32:06 公開日:2023-02-17
# mdpose:混合密度モデルによるリアルタイム多人数ポーズ推定

MDPose: Real-Time Multi-Person Pose Estimation via Mixture Density Model ( http://arxiv.org/abs/2302.08751v1 )

ライセンス: Link先を確認
Seunghyeon Seo, Jaeyoung Yoo, Jihye Hwang, Nojun Kwak(参考訳) 多人数のポーズ推定における大きな課題の1つは、インスタンス認識キーポイント推定である。 従来の手法では、既製の検知器、ヒューリスティックな後グループ化プロセス、明示的なインスタンス識別プロセスを利用してこの問題に対処しており、実用上重要な要素である推論速度のさらなる改善を妨げている。 統計学的観点から見ると、これらの追加プロセスは、人間のキーポイントの高次元の関節分布の学習をバイパスするために必要であり、これはもう一つの大きな課題である閉塞シナリオにとって重要な要素である。 本研究では,mdposeと呼ばれる混合密度モデルを用いて,人間のキーポイントの結合分布をモデル化し,一段階のインスタンス認識ポーズ推定の新たな枠組みを提案する。 MDPoseは、8つの畳み込み層からなるインスタンス認識キーポイントヘッドと混合密度モデルを用いて、人間のキーポイント座標の分布を推定する。 基底真理キーポイントの負のログライク度を最小化することで訓練される。 また,単純かつ効果的なトレーニング戦略であるランダム・キーポイント・グルーピング(rkg)を提案する。 高度に隠蔽された人物の画像からなるOCHumanデータセットでは,人間のキーポイントの高次元関節分布の学習に成功して最先端の性能を実現する。 さらに,提案したより単純な単一ステージパイプラインにより,MS COCO, 広く使用されている人間のキーポイントデータセットに対して, 競合精度で推論速度が大幅に向上したことを示す。

One of the major challenges in multi-person pose estimation is instance-aware keypoint estimation. Previous methods address this problem by leveraging an off-the-shelf detector, heuristic post-grouping process or explicit instance identification process, hindering further improvements in the inference speed which is an important factor for practical applications. From the statistical point of view, those additional processes for identifying instances are necessary to bypass learning the high-dimensional joint distribution of human keypoints, which is a critical factor for another major challenge, the occlusion scenario. In this work, we propose a novel framework of single-stage instance-aware pose estimation by modeling the joint distribution of human keypoints with a mixture density model, termed as MDPose. Our MDPose estimates the distribution of human keypoints' coordinates using a mixture density model with an instance-aware keypoint head consisting simply of 8 convolutional layers. It is trained by minimizing the negative log-likelihood of the ground truth keypoints. Also, we propose a simple yet effective training strategy, Random Keypoint Grouping (RKG), which significantly alleviates the underflow problem leading to successful learning of relations between keypoints. On OCHuman dataset, which consists of images with highly occluded people, our MDPose achieves state-of-the-art performance by successfully learning the high-dimensional joint distribution of human keypoints. Furthermore, our MDPose shows significant improvement in inference speed with a competitive accuracy on MS COCO, a widely-used human keypoint dataset, thanks to the proposed much simpler single-stage pipeline.
翻訳日:2023-02-20 15:31:19 公開日:2023-02-17
# POMDPの信念推定を改善するためのドメイン知識の利用

Utilization of domain knowledge to improve POMDP belief estimation ( http://arxiv.org/abs/2302.08748v1 )

ライセンス: Link先を確認
Tung Nguyen and Johane Takeuchi(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)フレームワークは、不確実性の下での意思決定において一般的なアプローチである。 近年,関連する知識をPOMDPの信念推定に組み込むことで,学習方針の性能を向上させることが示唆されている。 本研究では,jeffreyの法則と正規化を用いたpomdpフレームワークの確率的信念更新にドメイン知識を統合する新しい手法を提案する。 rlを用いたpomdpポリシー学習では,データ要求の削減とパフォーマンス向上にドメイン知識を活用できることを示す。

The partially observable Markov decision process (POMDP) framework is a common approach for decision making under uncertainty. Recently, multiple studies have shown that by integrating relevant domain knowledge into POMDP belief estimation, we can improve the learned policy's performance. In this study, we propose a novel method for integrating the domain knowledge into probabilistic belief update in POMDP framework using Jeffrey's rule and normalization. We show that the domain knowledge can be utilized to reduce the data requirement and improve performance for POMDP policy learning with RL.
翻訳日:2023-02-20 15:30:37 公開日:2023-02-17
# 相互情報の観点から見た多視点クラスタリング

Multi-View Clustering from the Perspective of Mutual Information ( http://arxiv.org/abs/2302.08743v1 )

ライセンス: Link先を確認
Fu Lele, Zhang Lei, Wang Tong, Chen Chuan, Zhang Chuanfu, Zheng Zibin(参考訳) マルチビューデータの補完情報を探索し、クラスタリング効果を改善することは、マルチビュークラスタリングにおいて重要な問題である。 本稿では,多視点データに隠された共通およびビュー固有の情報を抽出し,クラスタリング指向の包括表現を構築する情報理論「情報多視点クラスタリング(imvc)」に基づく新しいモデルを提案する。 具体的には、複数の機能を統一された特徴表現にまとめ、エンコーダに渡すことで、ビュー間の共通表現を検索します。 同時に、各ビューの特徴をエンコーダに送信して、それぞれコンパクトなビュー固有の表現を生成する。 したがって、多レベル情報を得るために、共通表現とビュー固有表現の相互情報を最小限に制限する。 さらに、共通表現とビュー固有表現をスプライシングして各ビューの洗練された表現をモデル化し、デコーダに入力して初期データを最大化して再構成する。 包括的な表現を形成するために、共通表現とすべてのビュー固有の表現は結合される。 さらに,クラスタリングタスクの包括的表現性を向上するために,インスタンスとk-アネレスト近傍の相互情報を最大化し,クラスタ内アグリゲーションを強化し,全体としてのクラスタの分離を良好に行う。 最後に,6つのベンチマークデータセットについて広範な実験を行い,IMVCが他の手法よりも優れていることを示す実験結果を得た。

Exploring the complementary information of multi-view data to improve clustering effects is a crucial issue in multi-view clustering. In this paper, we propose a novel model based on information theory termed Informative Multi-View Clustering (IMVC), which extracts the common and view-specific information hidden in multi-view data and constructs a clustering-oriented comprehensive representation. More specifically, we concatenate multiple features into a unified feature representation, then pass it through a encoder to retrieve the common representation across views. Simultaneously, the features of each view are sent to a encoder to produce a compact view-specific representation, respectively. Thus, we constrain the mutual information between the common representation and view-specific representations to be minimal for obtaining multi-level information. Further, the common representation and view-specific representation are spliced to model the refined representation of each view, which is fed into a decoder to reconstruct the initial data with maximizing their mutual information. In order to form a comprehensive representation, the common representation and all view-specific representations are concatenated. Furthermore, to accommodate the comprehensive representation better for the clustering task, we maximize the mutual information between an instance and its k-nearest neighbors to enhance the intra-cluster aggregation, thus inducing well separation of different clusters at the overall aspect. Finally, we conduct extensive experiments on six benchmark datasets, and the experimental results indicate that the proposed IMVC outperforms other methods.
翻訳日:2023-02-20 15:30:22 公開日:2023-02-17
# オンライン連続学習における安定性・塑性ジレンマの新しい知見

New Insights for the Stability-Plasticity Dilemma in Online Continual Learning ( http://arxiv.org/abs/2302.08741v1 )

ライセンス: Link先を確認
Dahuin Jung, Dongjin Lee, Sunwon Hong, Hyemi Jang, Ho Bae, Sungroh Yoon(参考訳) 継続的な学習の目的は、古いタスク(すなわち安定性)から学んだ知識を忘れずに、新しいタスクを継続的に(可塑性)学習することである。 データが厳密にストリーミング方式で行われるオンライン連続学習のシナリオでは、単一のデータポイントから取得可能なトレーニング信号が制限されるため、オフライン連続学習よりもオンライン連続学習の可塑性が脆弱である。 オンライン連続学習における安定性・可塑性ジレンマを克服するために,事前学習されたネットワークの異なるレベルから抽出されたよりリッチなコンテキストエンコーディングを利用するマルチスケール特徴適応ネットワーク(mufan)というオンライン連続学習フレームワークを提案する。 さらに, 構造的蒸留損失を新たに導入し, 一般的なバッチ正規化層を高塑性と安定性を同時に維持するミューファンを訓練するために, 新たに提案する安定可塑性正規化モジュールに置き換える。 MuFANはSVHN、CIFAR100、miniImageNet、CORe50データセット上で、最先端の継続的な学習方法よりも優れている。 広範な実験とアブレーションの研究は、各構成要素の意義と拡張性を検証する。 1)プリトレーニングエンコーダからのマルチスケール特徴マップ 2) 構造ワイド蒸留損失,及び 3) MuFAN の安定塑性正規化モジュール。 コードはhttps://github.com/whitesnowdrop/MuFANで公開されている。

The aim of continual learning is to learn new tasks continuously (i.e., plasticity) without forgetting previously learned knowledge from old tasks (i.e., stability). In the scenario of online continual learning, wherein data comes strictly in a streaming manner, the plasticity of online continual learning is more vulnerable than offline continual learning because the training signal that can be obtained from a single data point is limited. To overcome the stability-plasticity dilemma in online continual learning, we propose an online continual learning framework named multi-scale feature adaptation network (MuFAN) that utilizes a richer context encoding extracted from different levels of a pre-trained network. Additionally, we introduce a novel structure-wise distillation loss and replace the commonly used batch normalization layer with a newly proposed stability-plasticity normalization module to train MuFAN that simultaneously maintains high plasticity and stability. MuFAN outperforms other state-of-the-art continual learning methods on the SVHN, CIFAR100, miniImageNet, and CORe50 datasets. Extensive experiments and ablation studies validate the significance and scalability of each proposed component: 1) multi-scale feature maps from a pre-trained encoder, 2) the structure-wise distillation loss, and 3) the stability-plasticity normalization module in MuFAN. Code is publicly available at https://github.com/whitesnowdrop/MuFAN.
翻訳日:2023-02-20 15:29:57 公開日:2023-02-17
# 非ラベルデータを活用した人間選好に基づく強化学習

Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning ( http://arxiv.org/abs/2302.08738v1 )

ライセンス: Link先を確認
Mudit Verma, Siddhant Bhambri, Subbarao Kambhampati(参考訳) 選好に基づく強化学習は、ループ内における人間の報酬モデル(hil)を回復するために、クエリされた軌道ペアに対して人間のバイナリフィードバックを活用することに多くの期待を示している。 本研究は,人間に対する問合せをより効果的に利用しようとする試みであるが,本研究では,エージェントが収集したラベルなしのトラジェクタについて2つの観察を行い,報酬学習プロセスにおけるラベルなしのトラジェクタの関与を確実にする2つの対応する損失関数を提案し,アクション距離に関する状態空間の構造を反映するように報酬モデルの埋め込み空間を構成する。 提案手法を1つのロコモーションドメインと1つのロボット操作タスクで検証し,最新のベースラインpebbleと比較した。 さらに,提案する損失成分を両領域にまたがってアブレーションし,各損失成分がベースラインよりも優れた性能を示すだけでなく,両者の交感神経結合により,報酬回復と人的フィードバックサンプル効率が向上することを示す。

Preference Based Reinforcement Learning has shown much promise for utilizing human binary feedback on queried trajectory pairs to recover the underlying reward model of the Human in the Loop (HiL). While works have attempted to better utilize the queries made to the human, in this work we make two observations about the unlabeled trajectories collected by the agent and propose two corresponding loss functions that ensure participation of unlabeled trajectories in the reward learning process, and structure the embedding space of the reward model such that it reflects the structure of state space with respect to action distances. We validate the proposed method on one locomotion domain and one robotic manipulation task and compare with the state-of-the-art baseline PEBBLE. We further present an ablation of the proposed loss components across both the domains and find that not only each of the loss components perform better than the baseline, but the synergic combination of the two has much better reward recovery and human feedback sample efficiency.
翻訳日:2023-02-20 15:29:34 公開日:2023-02-17
# 状態強化に基づく人間選好からの強化学習へのアプローチ

A State Augmentation based approach to Reinforcement Learning from Human Preferences ( http://arxiv.org/abs/2302.08734v1 )

ライセンス: Link先を確認
Mudit Verma, Subbarao Kambhampati(参考訳) 強化学習は、報酬仕様の貧弱さや、十分にシンプルなドメインでも報酬ハッキングの問題に苦しんでいる。 選好に基づく強化学習は、報酬モデルを学ぶためにエージェントの行動に対する好みを示すループ内の人間がクエリした軌道対の2次フィードバックを利用することで、この問題を解決しようとする。 本研究では,エージェントの報酬モデルを堅牢にし,性能を著しく向上させる不変性,すなわち,ベースラインPEBBLE上での学習ポリシを用いて得られた報酬回復とその後の返却を演算する状態拡張手法を提案する。 提案手法は,山車,四足歩行の歩行作業,スイープイントのロボット操作作業の3つの領域で検証し,提案手法を用いることにより,エージェントの全体的な性能にメリットがあるだけでなく,エージェントの訓練段階のかなり早い段階でその効果が得られた。

Reinforcement Learning has suffered from poor reward specification, and issues for reward hacking even in simple enough domains. Preference Based Reinforcement Learning attempts to solve the issue by utilizing binary feedbacks on queried trajectory pairs by a human in the loop indicating their preferences about the agent's behavior to learn a reward model. In this work, we present a state augmentation technique that allows the agent's reward model to be robust and follow an invariance consistency that significantly improved performance, i.e. the reward recovery and subsequent return computed using the learned policy over our baseline PEBBLE. We validate our method on three domains, Mountain Car, a locomotion task of Quadruped-Walk, and a robotic manipulation task of Sweep-Into, and find that using the proposed augmentation the agent not only benefits in the overall performance but does so, quite early in the agent's training phase.
翻訳日:2023-02-20 15:29:13 公開日:2023-02-17
# 選好に基づく強化学習のためのデータ駆動報酬初期化

Data Driven Reward Initialization for Preference based Reinforcement Learning ( http://arxiv.org/abs/2302.08733v1 )

ライセンス: Link先を確認
Mudit Verma, Subbarao Kambhampati(参考訳) 選好に基づく強化学習(pbrl)法は、ループ内の人間(hil)からの2次フィードバックをクエリされた軌道ペア上で活用し、その選好を捉える人間の基礎となる報酬関数を近似するために報奨モデルを学ぶ。 本研究では,実験の無作為種子に敏感な初期化報酬モデルにおいて,高い変動性の問題について検討する。 このことは、既に苦しめられている退化報酬関数 PbRL メソッドの問題をさらに複雑にする。 そこで本研究では,PbRLエージェントのループに付加的なコストや無視可能なコストを加えないデータ駆動型報酬初期化手法を提案する。これにより,初期化報酬モデルの予測された報酬が状態空間に均一であることを保証するとともに,複数の実行におけるメソッド性能の変動を低減し,他の初期化手法と比較して全体的な性能の向上を示す。

Preference-based Reinforcement Learning (PbRL) methods utilize binary feedback from the human in the loop (HiL) over queried trajectory pairs to learn a reward model in an attempt to approximate the human's underlying reward function capturing their preferences. In this work, we investigate the issue of a high degree of variability in the initialized reward models which are sensitive to random seeds of the experiment. This further compounds the issue of degenerate reward functions PbRL methods already suffer from. We propose a data-driven reward initialization method that does not add any additional cost to the human in the loop and negligible cost to the PbRL agent and show that doing so ensures that the predicted rewards of the initialized reward model are uniform in the state space and this reduces the variability in the performance of the method across multiple runs and is shown to improve the overall performance compared to other initialization methods.
翻訳日:2023-02-20 15:28:55 公開日:2023-02-17
# 感情認識共有エンコーダを用いたヘイトスピーチと不快言語検出

Hate Speech and Offensive Language Detection using an Emotion-aware Shared Encoder ( http://arxiv.org/abs/2302.08777v1 )

ライセンス: Link先を確認
Khouloud Mnassri, Praboda Rajapaksha, Reza Farahbakhsh, Noel Crespi(参考訳) ソーシャルメディアプラットフォームの台頭は、人々のコミュニケーションの仕方を根本的に変え、これらの発展の結果として、乱用コンテンツのオンライン利用が増加している。 したがって、このコンテンツを自動的に検出することは、不適切な情報を禁止し、ソーシャルメディアプラットフォームにおける毒性や暴力を減らすために不可欠である。 ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前訓練されたトランスフォーマーモデルに基づく有望な結果をもたらすが、アノテートデータセットから生成された乱用コンテンツの特徴の分析のみを考慮する。 本稿では,ラベル付きデータセットの不均衡と不足に対処するため,他コーパスから抽出した外部感情特徴を組み合わせたマルチタスク共同学習手法を提案する。 本分析では,多言語シナリオにおける乱用コンテンツの検出に,BERTとmBERTという2つのよく知られたTransformerベースのモデルを用いている。 本モデルは,トランスフォーマーの共有エンコーダによる表現の共有により,感情的特徴を伴う乱用コンテンツ検出を共同で学習する。 このアプローチはデータの効率を高め、共有表現によるオーバーフィッティングを低減し、補助情報を活用することで高速な学習を保証する。 その結果,感情的知識は,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることがわかった。 マルチタスクモデルでは,ベースラインモデルよりも3%の性能向上が見られたが,攻撃的言語検出には多タスクモデルの性能が重要ではなかった。 さらに興味深いことに、両方のタスクにおいて、マルチタスクモデルは単一のタスクシナリオに比べて偽陽性エラーが少ない。

The rise of emergence of social media platforms has fundamentally altered how people communicate, and among the results of these developments is an increase in online use of abusive content. Therefore, automatically detecting this content is essential for banning inappropriate information, and reducing toxicity and violence on social media platforms. The existing works on hate speech and offensive language detection produce promising results based on pre-trained transformer models, however, they considered only the analysis of abusive content features generated through annotated datasets. This paper addresses a multi-task joint learning approach which combines external emotional features extracted from another corpora in dealing with the imbalanced and scarcity of labeled datasets. Our analysis are using two well-known Transformer-based models, BERT and mBERT, where the later is used to address abusive content detection in multi-lingual scenarios. Our model jointly learns abusive content detection with emotional features by sharing representations through transformers' shared encoder. This approach increases data efficiency, reduce overfitting via shared representations, and ensure fast learning by leveraging auxiliary information. Our findings demonstrate that emotional knowledge helps to more reliably identify hate speech and offensive language across datasets. Our hate speech detection Multi-task model exhibited 3% performance improvement over baseline models, but the performance of multi-task models were not significant for offensive language detection task. More interestingly, in both tasks, multi-task models exhibits less false positive errors compared to single task scenario.
翻訳日:2023-02-20 15:23:05 公開日:2023-02-17
# ビジョン・推論・アライメント:マルチモーダル知識グラフアライメントに関する実証的研究

Vision, Deduction and Alignment: An Empirical Study on Multi-modal Knowledge Graph Alignment ( http://arxiv.org/abs/2302.08774v1 )

ライセンス: Link先を確認
Yangning Li, Jiaoyan Chen, Yinghui Li, Yuejia Xiang, Xi Chen, Hai-Tao Zheng(参考訳) 知識グラフのためのエンティティアライメント(EA)は知識工学において重要な役割を果たす。 既存のEA手法は主にグラフ構造とエンティティ属性(リテラルを含む)の利用に重点を置いているが、現代のマルチモーダルKGで一般的な画像は無視している。 本研究では,まず8つの大規模画像付きEAベンチマークを構築し,既存の埋め込みベースの画像利用手法を評価した。 視覚的モーダル情報と論理的推論の相補性の観点から、我々は、論理的推論とマルチモーダルKG埋め込みを用いたLODEMEと呼ばれる新しいマルチモーダルEA手法を開発し、マルチOpenEAや他の既存のマルチモーダルEAベンチマークで最新性能を達成した。

Entity alignment (EA) for knowledge graphs (KGs) plays a critical role in knowledge engineering. Existing EA methods mostly focus on utilizing the graph structures and entity attributes (including literals), but ignore images that are common in modern multi-modal KGs. In this study we first constructed Multi-OpenEA -- eight large-scale, image-equipped EA benchmarks, and then evaluated some existing embedding-based methods for utilizing images. In view of the complementary nature of visual modal information and logical deduction, we further developed a new multi-modal EA method named LODEME using logical deduction and multi-modal KG embedding, with state-of-the-art performance achieved on Multi-OpenEA and other existing multi-modal EA benchmarks.
翻訳日:2023-02-20 15:22:40 公開日:2023-02-17
# ラベルなしデータによる明示的・暗黙的知識蒸留

Explicit and Implicit Knowledge Distillation via Unlabeled Data ( http://arxiv.org/abs/2302.08771v1 )

ライセンス: Link先を確認
Yuzheng Wang, Zuhao Ge, Zhaoyu Chen, Xian Liu, Chuangjia Ma, Yunquan Sun, Lizhe Qi(参考訳) データフリーな知識蒸留は、元のデータセットが利用できないシナリオにおいて、難しいモデル軽量タスクである。 従来の方法では、1つ以上のジェネレータを更新するのに多くの計算コストが必要であり、その単純な模倣学習は蒸留効率を低下させる。 そこで本研究では, 高計算量生成器を代替する効率的な非ラベルサンプル選択法を提案し, 選択したサンプルのトレーニング効率の向上に着目する。 そして、データ領域シフトに起因するラベルノイズを抑制するために、クラスドロップ機構を設計する。 最後に, 蒸留効果を向上させるために, 明示的特徴と暗黙的構造的関係を組み込んだ蒸留法を提案する。 実験の結果,本手法は他の最先端手法よりも高速に収束し,高い精度が得られることがわかった。

Data-free knowledge distillation is a challenging model lightweight task for scenarios in which the original dataset is not available. Previous methods require a lot of extra computational costs to update one or more generators and their naive imitate-learning lead to lower distillation efficiency. Based on these observations, we first propose an efficient unlabeled sample selection method to replace high computational generators and focus on improving the training efficiency of the selected samples. Then, a class-dropping mechanism is designed to suppress the label noise caused by the data domain shifts. Finally, we propose a distillation method that incorporates explicit features and implicit structured relations to improve the effect of distillation. Experimental results show that our method can quickly converge and obtain higher accuracy than other state-of-the-art methods.
翻訳日:2023-02-20 15:22:24 公開日:2023-02-17
# 画像異常位置推定のための協調的離散性最適化

Collaborative Discrepancy Optimization for Reliable Image Anomaly Localization ( http://arxiv.org/abs/2302.08769v1 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Zhaoge Liu, Weiming Shen(参考訳) ほとんどの教師なし画像異常局所化法は畳み込みニューラルネットワークの高一般化能力のために過一般化に悩まされ、信頼性の低い予測に繋がる。 一般化を緩和するため,本研究は,合成異常の助けを借りて,正規特徴分布と異常特徴分布を協調的に最適化することを提案する。 cdoはマージン最適化モジュールとオーバーラップ最適化モジュールを導入し、ローカライズ性能を決定する2つの重要な要因、すなわち、正常試料と異常試料の偏差分布(dds)のマージンとオーバーラップを最適化する。 CDOでは、正常なDDと異常なDDとの間に大きなマージンと小さな重複が得られ、予測信頼性が向上する。 MVTec2DとMVTec3Dの実験では、CDOはオーバー一般化を効果的に軽減し、リアルタイム計算効率で高精度な局所化性能を実現する。 実世界の自動車用プラスチック部品検査アプリケーションが提案したCDOの能力をさらに実証する。 コードはhttps://github.com/caoyunkang/CDO.comで入手できる。

Most unsupervised image anomaly localization methods suffer from overgeneralization because of the high generalization abilities of convolutional neural networks, leading to unreliable predictions. To mitigate the overgeneralization, this study proposes to collaboratively optimize normal and abnormal feature distributions with the assistance of synthetic anomalies, namely collaborative discrepancy optimization (CDO). CDO introduces a margin optimization module and an overlap optimization module to optimize the two key factors determining the localization performance, i.e., the margin and the overlap between the discrepancy distributions (DDs) of normal and abnormal samples. With CDO, a large margin and a small overlap between normal and abnormal DDs are obtained, and the prediction reliability is boosted. Experiments on MVTec2D and MVTec3D show that CDO effectively mitigates the overgeneralization and achieves great anomaly localization performance with real-time computation efficiency. A real-world automotive plastic parts inspection application further demonstrates the capability of the proposed CDO. Code is available on https://github.com/caoyunkang/CDO.
翻訳日:2023-02-20 15:22:11 公開日:2023-02-17
# 平面完全マッチングの構成性

Compositionality of planar perfect matchings ( http://arxiv.org/abs/2302.08767v1 )

ライセンス: Link先を確認
Titouan Carette, Etienne Moutot, Thomas Perez, Renaud Vilmart(参考訳) 我々は,valiant が導入した matchgate 形式と coecke と kissinger の zw-calculus との間に強い相関関係を示す。 この接続は、マッチゲート理論の自然な構成の枠組みと、その基礎となるグラフの完全マッチングを通して、ZW-計算図形の直接組合せ的解釈を提供する。 平面W-計算であるZW-計算の正確な断片を同定し、マッチングゲートの同一性を満たす線型写像であるマッチゲートに対して完全かつ普遍であることが証明する。 平面w-計算のスカラーは平面グラフの完全マッチングの数え上げに対応しており、fktアルゴリズムを用いて多項式時間で計算することができ、平面w-計算をzw-計算の効率的なシミュレーション可能な断片にすることができる。 この研究は、ZW-計算の組合せ的性質の研究と、構成図式技術による完全マッチング数の研究のための新しい方向を開く。

We exhibit a strong connection between the matchgate formalism introduced by Valiant and the ZW-calculus of Coecke and Kissinger. This connection provides a natural compositional framework for matchgate theory as well as a direct combinatorial interpretation of the diagrams of ZW-calculus through the perfect matchings of their underlying graphs. We identify a precise fragment of ZW-calculus, the planar W-calculus, that we prove to be complete and universal for matchgates, that are linear maps satisfying the matchgate identities. Computing scalars of the planar W-calculus corresponds to counting perfect matchings of planar graphs, and so can be carried in polynomial time using the FKT algorithm, making the planar W-calculus an efficiently simulable fragment of the ZW-calculus, in a similar way that the Clifford fragment is for ZX-calculus. This work opens new directions for the investigation of the combinatorial properties of ZW-calculus as well as the study of perfect matching counting through compositional diagrammatical technics.
翻訳日:2023-02-20 15:21:51 公開日:2023-02-17
# 二段階経験的リスク最小化のための近似最適アルゴリズム

A Near-Optimal Algorithm for Bilevel Empirical Risk Minimization ( http://arxiv.org/abs/2302.08766v1 )

ライセンス: Link先を確認
Mathieu Dagr\'eou, Thomas Moreau, Samuel Vaiter, Pierre Ablin(参考訳) 双方向最適化問題は、2つの最適化問題をネストする問題であり、機械学習により多くの応用がある。 多くの場合、上目的と下目的は経験的リスク最小化問題に対応し、従って和構造を持つ。 そこで本研究では,SARAHアルゴリズムの2レベル拡張を提案する。 このアルゴリズムには$\mathcal{O}((n+m)^{\frac12}\varepsilon^{-1})$グラデーション計算が必要であることを実証する。 さらに,両レベル問題の目的関数のほぼ定常点を得るために必要なオラクル呼び出し数に対して,より低い境界を与える。 この下限はアルゴリズムによって達成され、サンプル複雑性の観点から最適である。

Bilevel optimization problems, which are problems where two optimization problems are nested, have more and more applications in machine learning. In many practical cases, the upper and the lower objectives correspond to empirical risk minimization problems and therefore have a sum structure. In this context, we propose a bilevel extension of the celebrated SARAH algorithm. We demonstrate that the algorithm requires $\mathcal{O}((n+m)^{\frac12}\varepsilon^{-1})$ gradient computations to achieve $\varepsilon$-stationarity with $n+m$ the total number of samples, which improves over all previous bilevel algorithms. Moreover, we provide a lower bound on the number of oracle calls required to get an approximate stationary point of the objective function of the bilevel problem. This lower bound is attained by our algorithm, which is therefore optimal in terms of sample complexity.
翻訳日:2023-02-20 15:21:34 公開日:2023-02-17
# Blinn-Phong測光ステレオの正則化レバンス・マルカルト法について

On the Regularising Levenberg-Marquardt Method for Blinn-Phong Photometric Stereo ( http://arxiv.org/abs/2302.08765v1 )

ライセンス: Link先を確認
Georg Radow, Michael Breu{\ss}(参考訳) フォトメトリックステレオ(photometric stereo)とは、複数の入力画像からの照明や反射に関する情報を同じ視点から利用して物体の3次元形状を計算するプロセスを指す。 最もよく使われる反射率モデルはランベルシャン反射率であるが、入力画像にスペクショナルハイライトは含まれない。 本稿では,鏡面効果のモデル化にblinn-phongリフレクタンスを用いる場合の非線形最適化問題を考える。 この目的のために、我々はレバーベルグ=マルカルトスキームの規則化に焦点を合わせます。 本稿では,与えられたデータに基づいて収束信頼性情報を与える明示的な境界を導出する方法を示し,シェルツァー条件を用いて反復の数値的正しさを実験的に証明する方法を示す。 本論文の核心にある理論的研究は、実世界の画像を用いたいくつかのテストによって補われている。

Photometric stereo refers to the process to compute the 3D shape of an object using information on illumination and reflectance from several input images from the same point of view. The most often used reflectance model is the Lambertian reflectance, however this does not include specular highlights in input images. In this paper we consider the arising non-linear optimisation problem when employing Blinn-Phong reflectance for modeling specular effects. To this end we focus on the regularising Levenberg-Marquardt scheme. We show how to derive an explicit bound that gives information on the convergence reliability of the method depending on given data, and we show how to gain experimental evidence of numerical correctness of the iteration by making use of the Scherzer condition. The theoretical investigations that are at the heart of this paper are supplemented by some tests with real-world imagery.
翻訳日:2023-02-20 15:21:16 公開日:2023-02-17
# アダプティブ・デノイジングによる逆コントラスト蒸留

Adversarial Contrastive Distillation with Adaptive Denoising ( http://arxiv.org/abs/2302.08764v1 )

ライセンス: Link先を確認
Yuzheng Wang, Zhaoyu Chen, Dingkang Yang, Yang Liu, Siao Liu, Wenqiang Zhang, Lizhe Qi(参考訳) 逆ロバスト性蒸留(ARD)は、小型モデルの堅牢性を高める新しい方法である。 一般の逆行訓練とは異なり、その堅牢な知識伝達はモデルの能力によって容易に制限される。 しかし、知識の堅牢性を提供する教師モデルは、必ずしも生徒の頑健なパフォーマンスに干渉して正しい予測を行うとは限らない。 さらに、以前のARDメソッドでは、ロバスト性は例間の関係を無視して、すべて1対1の模倣に由来する。 そこで本研究では,Contrastive Relation DeNoise Distillation (CRDND) と呼ばれる新しいARD法を提案する。 教師の不安定さをモデル化する適応補償モジュールを設計した。 さらに,対照関係を利用して暗黙の強固さの知識を複数の例で探究する。 複数の攻撃ベンチマークの実験結果から、CRDNDは堅牢な知識を効率的に伝達し、最先端のパフォーマンスを達成することができる。

Adversarial Robustness Distillation (ARD) is a novel method to boost the robustness of small models. Unlike general adversarial training, its robust knowledge transfer can be less easily restricted by the model capacity. However, the teacher model that provides the robustness of knowledge does not always make correct predictions, interfering with the student's robust performances. Besides, in the previous ARD methods, the robustness comes entirely from one-to-one imitation, ignoring the relationship between examples. To this end, we propose a novel structured ARD method called Contrastive Relationship DeNoise Distillation (CRDND). We design an adaptive compensation module to model the instability of the teacher. Moreover, we utilize the contrastive relationship to explore implicit robustness knowledge among multiple examples. Experimental results on multiple attack benchmarks show CRDND can transfer robust knowledge efficiently and achieves state-of-the-art performances.
翻訳日:2023-02-20 15:21:01 公開日:2023-02-17
# 10都市における大規模浮動車データによる大都市セグメント交通速度

Metropolitan Segment Traffic Speeds from Massive Floating Car Data in 10 Cities ( http://arxiv.org/abs/2302.08761v1 )

ライセンス: Link先を確認
Moritz Neun, Christian Eichenberger, Yanan Xin, Cheng Fu, Nina Wiedemann, Henry Martin, Martin Tomko, Lukas Amb\"uhl, Luca Hermes, Michael Kopp(参考訳) 交通分析は都市の運営や計画に不可欠であるが、ループ検知器以外の密集した都市交通データの利用可能性は依然として乏しい。 我々は,2019~2021年に108日から361日間の収集期間を15分間の解像度で10都市(mt-10)の大規模浮動車データから,道路単位の交通情報,メトロポリタンセグメントの交通速度の大規模データセットを10都市(mets-10)の大規模浮動車データから提供し,2019~2021年に108日から361日間の収集期間を15分間の解像度で提供し,都市圏あたり1500平方キロメートル以上をカバーした。 MeTS-10は、幹線道路からアントウェルペン、バンコク、バルセロナ、ベルリン、シカゴ、イスタンブール、ロンドン、マドリード、メルボルン、モスクワまでの全ての道路の交通速度情報を提供している。 このデータセットは、プライバシが保存する時空間集約で提供されるスピードと車両数で、産業規模の浮動車traffic4castデータを活用する。 データをopenstreetmap道路グラフにマッピングする効率的なマッチングアプローチについて詳述する。 我々は、このデータセットを、ベルリン、ロンドン、マドリードで公開されている静止車検出データと、Uberの交通速度データセット(バルセロナ、ベルリン、ロンドン)と比較することで評価する。 比較は、時空間カバレッジにおけるデータセット間の差異と、binningメソッドによって引き起こされた報告トラフィックのバリエーションを強調する。 MeTS-10は、空間的にスパースな車両検出データの現在の制限を克服し、世界10大都市におけるモビリティと交通パターンの新たな、都市全体の分析を可能にする。 大きな空間的および時間的カバレッジは、交通計画研究における交通調査や交通制御設定における車両検知データなど、他のデータセットとMeTS-10を結合する機会を提供する。

Traffic analysis is crucial for urban operations and planning, while the availability of dense urban traffic data beyond loop detectors is still scarce. We present a large-scale floating vehicle dataset of per-street segment traffic information, Metropolitan Segment Traffic Speeds from Massive Floating Car Data in 10 Cities (MeTS-10), available for 10 global cities with a 15-minute resolution for collection periods ranging between 108 and 361 days in 2019-2021 and covering more than 1500 square kilometers per metropolitan area. MeTS-10 features traffic speed information at all street levels from main arterials to local streets for Antwerp, Bangkok, Barcelona, Berlin, Chicago, Istanbul, London, Madrid, Melbourne and Moscow. The dataset leverages the industrial-scale floating vehicle Traffic4cast data with speeds and vehicle counts provided in a privacy-preserving spatio-temporal aggregation. We detail the efficient matching approach mapping the data to the OpenStreetMap road graph. We evaluate the dataset by comparing it with publicly available stationary vehicle detector data (for Berlin, London, and Madrid) and the Uber traffic speed dataset (for Barcelona, Berlin, and London). The comparison highlights the differences across datasets in spatio-temporal coverage and variations in the reported traffic caused by the binning method. MeTS-10 enables novel, city-wide analysis of mobility and traffic patterns for ten major world cities, overcoming current limitations of spatially sparse vehicle detector data. The large spatial and temporal coverage offers an opportunity for joining the MeTS-10 with other datasets, such as traffic surveys in traffic planning studies or vehicle detector data in traffic control settings.
翻訳日:2023-02-20 15:20:47 公開日:2023-02-17
# 格子畳み込みを持ち上げる3次元人間のポーズ

3D Human Pose Lifting with Grid Convolution ( http://arxiv.org/abs/2302.08760v1 )

ライセンス: Link先を確認
Yangyuxuan Kang, Yuyang Liu, Anbang Yao, Shandong Wang, Enhua Wu(参考訳) 2次元単一視点ポーズから3次元人間のポーズを後退させるための既存の昇降ネットワークは、グラフ構造表現学習に基づく線形層で構築される。 本稿では,画像空間における正規畳み込み操作の知恵を模倣したグリッド畳み込み(GridConv)を提案する。 gridconvは、新しいセマンティックグリッド変換(sgt)に基づいて、不規則なグラフ構造された人間のポーズを、通常のウィーブ状のグリッドポーズ表現ジョイントにジョイントでマッピングし、gridconv操作によるレイヤ単位での機能学習を可能にする。 ハンドクラフトと学習可能な設計を含む,SGTを実装するための2つの方法を提供する。 驚くべきことに、どちらの設計も有望な結果を得ることができ、学習可能な設計の方が優れていることが判明した。 コンテクストキューをエンコードするGridConvの能力を改善するため,コンボリューションカーネル上にアテンションモジュールを導入し,グリッドのコンボリューション操作を入力依存,空間認識,グリッド固有にする。 筆者らの完全畳み込みグリッドリフトネットワークは,(1)Human3.6Mの従来評価,(2)MPI-INF-3DHPの相互評価において,最先端の手法よりも優れていることを示す。 コードはhttps://github.com/OSVAI/GridConvで入手できる。

Existing lifting networks for regressing 3D human poses from 2D single-view poses are typically constructed with linear layers based on graph-structured representation learning. In sharp contrast to them, this paper presents Grid Convolution (GridConv), mimicking the wisdom of regular convolution operations in image space. GridConv is based on a novel Semantic Grid Transformation (SGT) which leverages a binary assignment matrix to map the irregular graph-structured human pose onto a regular weave-like grid pose representation joint by joint, enabling layer-wise feature learning with GridConv operations. We provide two ways to implement SGT, including handcrafted and learnable designs. Surprisingly, both designs turn out to achieve promising results and the learnable one is better, demonstrating the great potential of this new lifting representation learning formulation. To improve the ability of GridConv to encode contextual cues, we introduce an attention module over the convolutional kernel, making grid convolution operations input-dependent, spatial-aware and grid-specific. We show that our fully convolutional grid lifting network outperforms state-of-the-art methods with noticeable margins under (1) conventional evaluation on Human3.6M and (2) cross-evaluation on MPI-INF-3DHP. Code is available at https://github.com/OSVAI/GridConv
翻訳日:2023-02-20 15:20:14 公開日:2023-02-17
# コヒーレント光によるマクロリアリズムのテスト

Test of macroscopic realism with coherent light ( http://arxiv.org/abs/2302.08803v1 )

ライセンス: Link先を確認
Hui Wang, Shuang Wang, Cong-Feng Qiao(参考訳) マクロ現実主義は古典世界の基本的な特徴であり、量子論と矛盾する。 マクロリアリズムをテストするエレガントな方法は、Leggett-Garg不等式(LGI)を適用することであるが、実際には測定の非侵襲性は難しい。 本研究では,コヒーレント光を用いた複合干渉実験において観測可能な経路のlgi違反を報告する。 実験の結果, マクロリアリズム違反の証拠として, 破壊干渉の発生が確認された。 また, 本実験では, 厳密な測定モデルを用いて, 侵入強度とは独立に現実主義を破ることの利点により, 直接測定を実現し, マクロスケールでの検証の説得力を高めることができる。

Macro-realism is a fundamental feature of classical world that contradicts with the quantum theory. An elegant method of testing macrorealism is to apply the Leggett-Garg inequality (LGI), but the non-invasivity of measurement is challenging in practice. In this work, we report the LGI violation of path observable in a composite interference experiment with coherent light. Experiment results confirm the occurrence of destructive interference providing per se as evidence of macro-realism violation. And by using an exact weak measurement model in the present experiment, the advantage that the violation of realism is independent of the invasive strength allows the realization of direct measurement and strengthens the persuasion of verification at the macroscopic scale.
翻訳日:2023-02-20 15:13:18 公開日:2023-02-17
# 放射線・デルタラジオグラフィー・機械学習による脳転移のリスク分類

Risk Classification of Brain Metastases via Radiomics, Delta-Radiomics and Machine Learning ( http://arxiv.org/abs/2302.08802v1 )

ライセンス: Link先を確認
Philipp Sommer, Yixing Huang, Christoph Bert, Andreas Maier, Manuel Schmidt, Arnd D\"orfler, Rainer Fietkau and Florian Putz(参考訳) 立体放射線療法は脳転移(BM)患者にとって最も重要な治療法の1つである。 従来,SRT患者は連続的画像検査により観察され,腫瘍の進行が著しい場合は救世主治療を受ける。 放射線学と機械学習 (ML) を用いて, 進行の進行のリスクが高い転移は, 有意な腫瘍増殖の開始前の経過中に同定でき, パーソナライズされた経過観察と早期のサルベージ治療が可能であった。 全ての実験は、大学病院Erlangen (UKER) の放射線オンコロジー部門の臨床ルーチンのデータセット上で実施される。 この分類は、最大関連最小冗長(MRMR)技術とサポートベクトルマシン(SVM)によって実現される。 パイプラインは、曲線(AUC)のスコアが0.83の内交倍率で分類され、コホートを中央値から進行時間(LRM:low-risk metastasis):17.3ヶ月、高リスク転移(HRM):9.6ヶ月、p < 0.01の2つのサブコホートに分割することができる。 AUC 0.53-> AUC 0.74) の分類性能は, 異なる点からの医用画像の解析により特に向上した。 その結果,SRT後フォローアップにおける放射能および機械学習に基づくBMのリスク階層化は,良好な精度で可能であり,SRT後フォローアップのパーソナライズと改善のためにさらに追求されるべきであることがわかった。

Stereotactic radiotherapy (SRT) is one of the most important treatment for patients with brain metastases (BM). Conventionally, following SRT patients are monitored by serial imaging and receive salvage treatments in case of significant tumor growth. We hypothesized that using radiomics and machine learning (ML), metastases at high risk for subsequent progression could be identified during follow-up prior to the onset of significant tumor growth, enabling personalized follow-up intervals and early selection for salvage treatment. All experiments are performed on a dataset from clinical routine of the Radiation Oncology department of the University Hospital Erlangen (UKER). The classification is realized via the maximum-relevance minimal-redundancy (MRMR) technique and support vector machines (SVM). The pipeline leads to a classification with a mean area under the curve (AUC) score of 0.83 in internal cross-validation and allows a division of the cohort into two subcohorts that differ significantly in their median time to progression (low-risk metastasis (LRM): 17.3 months, high-risk metastasis (HRM): 9.6 months, p < 0.01). The classification performance is especially enhanced by the analysis of medical images from different points in time (AUC 0.53 -> AUC 0.74). The results indicate that risk stratification of BM based on radiomics and machine learning during post-SRT follow-up is possible with good accuracy and should be further pursued to personalize and improve post-SRT follow-up.
翻訳日:2023-02-20 15:13:06 公開日:2023-02-17
# 多変量カウント時系列のグラフィカル推定

Graphical estimation of multivariate count time series ( http://arxiv.org/abs/2302.08801v1 )

ライセンス: Link先を確認
Sathish Vurukonda, Debraj Chakraborty, Siuli Mukhopadhyay(参考訳) カウントデータに対する部分相関と因果グラフの選択の問題点を考察する。 パラメータ駆動一般化線形モデルは観測された多変量数数の時系列を記述するために用いられる。 このモデルに対応する部分相関と因果関係グラフは、多変量カウントデータの各時系列間の依存関係を説明する。 これらのグラフを調整可能な間隔で推定するために、適切な確率関数の最大化をl1型制約で正規化する。 この正規化MLEを反復的に解くために,新しいMCEMアルゴリズムを提案する。 L1型正規化を用いた提案MCEMアルゴリズムにより生成されたシーケンスに対して漸近収束結果が証明された。 このアルゴリズムはシミュレーションデータで最初にテストされた。 その後, ムンバイ大都市各区におけるデング病の週数について検討した。 疾患の増殖における各種病棟の相互依存性は、推定された部分相関グラフのエッジによって特徴づけられる。 一方,デングスプレッドの源流としての各種区の相対的役割は,各区に起因する有向端の数と重みによって定量化される。 これらの推定値から, 病状数は比較的少ないものの, デングの表層部として機能する特別区が存在することが明らかとなった。

The problems of selecting partial correlation and causality graphs for count data are considered. A parameter driven generalized linear model is used to describe the observed multivariate time series of counts. Partial correlation and causality graphs corresponding to this model explain the dependencies between each time series of the multivariate count data. In order to estimate these graphs with tunable sparsity, an appropriate likelihood function maximization is regularized with an l1-type constraint. A novel MCEM algorithm is proposed to iteratively solve this regularized MLE. Asymptotic convergence results are proved for the sequence generated by the proposed MCEM algorithm with l1-type regularization. The algorithm is first successfully tested on simulated data. Thereafter, it is applied to observed weekly dengue disease counts from each ward of Greater Mumbai city. The interdependence of various wards in the proliferation of the disease is characterized by the edges of the inferred partial correlation graph. On the other hand, the relative roles of various wards as sources and sinks of dengue spread is quantified by the number and weights of the directed edges originating from and incident upon each ward. From these estimated graphs, it is observed that some special wards act as epicentres of dengue spread even though their disease counts are relatively low.
翻訳日:2023-02-20 15:12:35 公開日:2023-02-17
# エラーの魔法:オズ研究の魔法における機械学習エラーの導入と評価

Wizard of Errors: Introducing and Evaluating Machine Learning Errors in Wizard of Oz Studies ( http://arxiv.org/abs/2302.08799v1 )

ライセンス: Link先を確認
Anniek Jansen, Sara Colombo(参考訳) 機械学習(ML)を有効にするソリューションを設計する場合、設計者はMLモデルが利用可能になる前にユーザエクスペリエンスをテストするために、WoZ(Wizard of Oz)アプローチを通じてMLの振る舞いをシミュレートする必要がある。 MLエラーを再現することは、優れた表現を持つことには不可欠であるが、考慮されることはほとんどない。 ユーザエクスペリエンス評価中にMLエラーをシミュレーション可能な,ML対応ソリューションに関するWoZ研究を行うツールであるWizard of Errors(WoE)を紹介した。 我々は,コンピュータビジョンモデルの動作をシミュレートするために,このシステムをいかに利用できるかを考察した。 我々は,設計におけるmlエラーの考慮の重要性,混乱行列の代わりに記述型エラー型の使用の妥当性,woz研究における手動エラー制御の適合性について,デザイン学生とwoeをテストした。 本研究は,設計者による現実的な誤り表現を防止するために,いくつかの課題を特定する。 これらの知見がデザインに与える影響について論じる。

When designing Machine Learning (ML) enabled solutions, designers often need to simulate ML behavior through the Wizard of Oz (WoZ) approach to test the user experience before the ML model is available. Although reproducing ML errors is essential for having a good representation, they are rarely considered. We introduce Wizard of Errors (WoE), a tool for conducting WoZ studies on ML-enabled solutions that allows simulating ML errors during user experience assessment. We explored how this system can be used to simulate the behavior of a computer vision model. We tested WoE with design students to determine the importance of considering ML errors in design, the relevance of using descriptive error types instead of confusion matrix, and the suitability of manual error control in WoZ studies. Our work identifies several challenges, which prevent realistic error representation by designers in such studies. We discuss the implications of these findings for design.
翻訳日:2023-02-20 15:12:21 公開日:2023-02-17
# EEGNetファミリーからのニューラルネットワークの深部比較

Deep comparisons of Neural Networks from the EEGNet family ( http://arxiv.org/abs/2302.08797v1 )

ライセンス: Link先を確認
Csaba M\'arton K\"oll\H{o}d, Andr\'as Adolf, Gergely M\'arton, Istv\'an Ulbert(参考訳) 運動画像(MI)脳波(EEG)信号分類のための人工ニューラルネットワークを提案するBCI(Brain-Computer Interface)の出版物の多くは、BCIコンペティションデータセットの1つを用いて紹介されている。 しかし、これらのデータベースには、10人以下のMI EEGデータが含まれている。 加えて、これらのアルゴリズムは通常、雑音の低減と信号品質の向上のために帯域通過フィルタのみを含む。 本稿では,bci コンペティション4 2a データセットに隣接したオープンアクセスデータベースを用いて,5つのよく知られたニューラルネットワーク(shallow convnet,deep convnet,eegnet,eegnet fusion,mi-eegnet)を比較し,統計的に有意な結果を得た。 信号処理ステップとしてFASTERアルゴリズムを用いて脳波からアーティファクトを除去した。 さらに,アーティファクトフィルタリングデータの分類結果をさらに改善できるかどうかを検討した。 ニューラルネットワークのランク付けを目的としたので,分類精度の他に,確率レベルからの精度向上と伝達学習の効果の2つの指標を導入した。 前者は異なるクラス番号データベースで使用することができ、後者は十分な一般化能力を持つニューラルネットワークをハイライトすることができる。 私たちの測定によると、研究者たちはeegnetファミリーで公開されたものよりもパフォーマンスが良いので、浅いconvnetや深いconvnetを避けるべきではないことがわかった。

Most of the Brain-Computer Interface (BCI) publications, which propose artificial neural networks for Motor Imagery (MI) Electroencephalography (EEG) signal classification, are presented using one of the BCI Competition datasets. However, these databases contain MI EEG data from less than or equal to 10 subjects . In addition, these algorithms usually include only bandpass filtering to reduce noise and increase signal quality. In this article, we compared 5 well-known neural networks (Shallow ConvNet, Deep ConvNet, EEGNet, EEGNet Fusion, MI-EEGNet) using open-access databases with many subjects next to the BCI Competition 4 2a dataset to acquire statistically significant results. We removed artifacts from the EEG using the FASTER algorithm as a signal processing step. Moreover, we investigated whether transfer learning can further improve the classification results on artifact filtered data. We aimed to rank the neural networks; therefore, next to the classification accuracy, we introduced two additional metrics: the accuracy improvement from chance level and the effect of transfer learning. The former can be used with different class-numbered databases, while the latter can highlight neural networks with sufficient generalization abilities. Our metrics showed that the researchers should not avoid Shallow ConvNet and Deep ConvNet because they can perform better than the later published ones from the EEGNet family.
翻訳日:2023-02-20 15:12:05 公開日:2023-02-17
# 物理インフォームドニューラルネットワークによるCOVID-19の疫学的ダイナミックスへのアプローチ

Approaching epidemiological dynamics of COVID-19 with physics-informed neural networks ( http://arxiv.org/abs/2302.08796v1 )

ライセンス: Link先を確認
Shuai Han, Lukas Stelz, Horst Stoecker, Lingxiao Wang, Kai Zhou(参考訳) SIRモデルに埋め込まれた物理インフォームドニューラルネットワーク(PINN)は、感染症の時間的進化のダイナミクスを理解するために考案された。 第一に, 本手法の有効性を, 感受性アシンプタマティック・infected-recovered-dead (saird) モデルの数値解から得られる合成データを用いて実証した。 そして、ドイツで報告された新型コロナウイルス(COVID-19)のデータに適用し、ウイルスの拡散傾向を正確に把握し予測できることを示す。 その結果,不完全な物理モデルではより複雑なダイナミクスに効率的にアプローチできることがわかった。 そこで本研究では, PINNなどの機械学習手法を用いて, コンパートメンタルモデルと組み合わせて, 流行のダイナミクスを研究・予測する可能性を示す。

A physics-informed neural network (PINN) embedded with the susceptible-infected-removed (SIR) model is devised to understand the temporal evolution dynamics of infectious diseases. Firstly, the effectiveness of this approach is demonstrated on synthetic data as generated from the numerical solution of the susceptible-asymptomatic-infected-recovered-dead (SAIRD) model. Then, the method is applied to COVID-19 data reported for Germany and shows that it can accurately identify and predict virus spread trends. The results indicate that an incomplete physics-informed model can approach more complicated dynamics efficiently. Thus, the present work demonstrates the high potential of using machine learning methods, e.g., PINNs, to study and predict epidemic dynamics in combination with compartmental models.
翻訳日:2023-02-20 15:11:38 公開日:2023-02-17
# MixNeRF:スパース入力からの新しいビュー合成のための混合密度線をモデル化する

MixNeRF: Modeling a Ray with Mixture Density for Novel View Synthesis from Sparse Inputs ( http://arxiv.org/abs/2302.08788v1 )

ライセンス: Link先を確認
Seunghyeon Seo, Donghoon Han, Yeonjin Chang, Nojun Kwak(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、そのシンプルな概念と最先端の品質のために、新しいビュー合成の新たな基盤を壊した。 しかし、異なるカメラポーズの濃密な画像セットで訓練されない限り、パフォーマンスの低下に苦しむため、実用的利用を妨げている。 この課題に対処する従来の手法は有望な結果を得たが、訓練効率を追求するスパース・インプット・ノベルビュー合成の哲学に反する追加の訓練資源に大きく依存していた。 本研究では,混合密度モデルを用いて光線をモデル化し,スパース入力からの新規ビュー合成のための効果的なトレーニング戦略であるMixNeRFを提案する。 我々のMixNeRFは、RGB色と光線サンプルの混合分布をモデル化することにより、RGB色の結合分布を推定する。 また,3次元シーン形状と高度に相関する有用なトレーニング目標として,線深度推定の新たなタスクを提案する。 さらに、推定光深度に基づいて混合重量を再生した色を再構成し、色と視点の堅牢性をさらに向上する。 当社のmixnerfは、トレーニングと推論の効率が優れた、さまざまな標準ベンチマークで、最先端のメソッドよりも優れています。

Neural Radiance Field (NeRF) has broken new ground in the novel view synthesis due to its simple concept and state-of-the-art quality. However, it suffers from severe performance degradation unless trained with a dense set of images with different camera poses, which hinders its practical applications. Although previous methods addressing this problem achieved promising results, they relied heavily on the additional training resources, which goes against the philosophy of sparse-input novel-view synthesis pursuing the training efficiency. In this work, we propose MixNeRF, an effective training strategy for novel view synthesis from sparse inputs by modeling a ray with a mixture density model. Our MixNeRF estimates the joint distribution of RGB colors along the ray samples by modeling it with mixture of distributions. We also propose a new task of ray depth estimation as a useful training objective, which is highly correlated with 3D scene geometry. Moreover, we remodel the colors with regenerated blending weights based on the estimated ray depth and further improves the robustness for colors and viewpoints. Our MixNeRF outperforms other state-of-the-art methods in various standard benchmarks with superior efficiency of training and inference.
翻訳日:2023-02-20 15:11:25 公開日:2023-02-17
# 自動運転のための3次元LiDARセマンティックセグメンテーション

Few-shot 3D LiDAR Semantic Segmentation for Autonomous Driving ( http://arxiv.org/abs/2302.08785v1 )

ライセンス: Link先を確認
Jilin Mei, Junbao Zhou and Yu Hu(参考訳) 自律運転において、新しいオブジェクトとアノテーションの欠如は、ディープラーニングに基づく従来の3D LiDARセマンティックセグメンテーションに挑戦する。 数少ない学習は、これらの問題を解決するための実現可能な方法です。 しかし,カメラデータに焦点をあてるセマンティックセマンティックセマンティクス手法はほとんどなく,その多くがベースクラスを考慮せずに新しいクラスを予測している。 この設定は安全上の懸念から、自動運転には直接適用できない。 そこで本研究では,新しいクラスとベースクラスの両方を同時に予測する3次元LiDARセマンティックセマンティックセグメンテーション手法を提案する。 提案手法は, 一般化された少数ショット意味セグメンテーションにおいて, 背景曖昧性問題を解決することを試みる。 まず,元のクロスエントロピーと知識蒸留の損失を概観し,背景情報を組み込んで3次元LiDARの少数ショットセマンティックセマンティックセグメンテーションを実現する新たな損失関数を提案する。 SemanticKITTIの大規模な実験により,本手法の有効性が示された。

In autonomous driving, the novel objects and lack of annotations challenge the traditional 3D LiDAR semantic segmentation based on deep learning. Few-shot learning is a feasible way to solve these issues. However, currently few-shot semantic segmentation methods focus on camera data, and most of them only predict the novel classes without considering the base classes. This setting cannot be directly applied to autonomous driving due to safety concerns. Thus, we propose a few-shot 3D LiDAR semantic segmentation method that predicts both novel classes and base classes simultaneously. Our method tries to solve the background ambiguity problem in generalized few-shot semantic segmentation. We first review the original cross-entropy and knowledge distillation losses, then propose a new loss function that incorporates the background information to achieve 3D LiDAR few-shot semantic segmentation. Extensive experiments on SemanticKITTI demonstrate the effectiveness of our method.
翻訳日:2023-02-20 15:11:05 公開日:2023-02-17
# AdaGradをステップサイズとしたSGD:未知パラメータの確率の高い完全適応性、非有界勾配、アフィン変動

SGD with AdaGrad Stepsizes: Full Adaptivity with High Probability to Unknown Parameters, Unbounded Gradients and Affine Variance ( http://arxiv.org/abs/2302.08783v1 )

ライセンス: Link先を確認
Amit Attia and Tomer Koren(参考訳) AdaGradをステップサイズとした確率勾配Descentについて検討し,一階確率最適化のための適応型自己調整法を提案する。 十分に研究されているにもかかわらず、この手法の既存の分析には様々な欠点があり、問題パラメータに関するいくつかの知識を仮定するか、強い大域的なリプシッツ条件を課すか、確率の高い境界を与えないかのどちらかである。 我々は,このような制約を伴わない基本手法を包括的に解析し,凸と非凸(平滑)のいずれにおいても,一般の<affine variance'ノイズモデルもサポートし,低雑音と高雑音の両方において収束の急激な速度を提供する。

We study Stochastic Gradient Descent with AdaGrad stepsizes: a popular adaptive (self-tuning) method for first-order stochastic optimization. Despite being well studied, existing analyses of this method suffer from various shortcomings: they either assume some knowledge of the problem parameters, impose strong global Lipschitz conditions, or fail to give bounds that hold with high probability. We provide a comprehensive analysis of this basic method without any of these limitations, in both the convex and non-convex (smooth) cases, that additionally supports a general ``affine variance'' noise model and provides sharp rates of convergence in both the low-noise and high-noise~regimes.
翻訳日:2023-02-20 15:10:50 公開日:2023-02-17
# グラフニューラルネットワークが小さなデータセットから動脈速度推定を学習するSE(3)対称性

SE(3) symmetry lets graph neural networks learn arterial velocity estimation from small datasets ( http://arxiv.org/abs/2302.08780v1 )

ライセンス: Link先を確認
Julian Suk, Christoph Brune, Jelmer M. Wolterink(参考訳) 冠動脈血行動態は,心臓血管疾患の診断,予後,治療計画に有用なバイオマーカーの基礎となる可能性がある。 速度場は通常、計算流体力学(CFD)を用いて患者固有の3D動脈モデルから得られる。 しかしcfdシミュレーションは専門家による細心の注意が必要であり、時間を要するため、臨床実践の大規模受容を妨げる。 そこで我々は, グラフニューラルネットワーク (GNN) を効率的なブラックボックスサロゲート法として提案し, 動脈腔の四面体メッシュの頂点にマッピングされた3次元速度場を推定する。 我々はこれらのGNNを合成動脈モデルとCFDに基づく地上真理速度場に基づいて訓練する。 GNNのトレーニングが完了すると、CFDと比較して36倍のスピードアップで、新しい未知の動脈の速度推定値が得られる。 本稿では,入力メッシュの空間方向とは無関係なse(3)同値gnnの構築方法を示し,ベースラインニューラルネットワークと比較して,必要なトレーニングデータ量を削減する方法を示す。

Hemodynamic velocity fields in coronary arteries could be the basis of valuable biomarkers for diagnosis, prognosis and treatment planning in cardiovascular disease. Velocity fields are typically obtained from patient-specific 3D artery models via computational fluid dynamics (CFD). However, CFD simulation requires meticulous setup by experts and is time-intensive, which hinders large-scale acceptance in clinical practice. To address this, we propose graph neural networks (GNN) as an efficient black-box surrogate method to estimate 3D velocity fields mapped to the vertices of tetrahedral meshes of the artery lumen. We train these GNNs on synthetic artery models and CFD-based ground truth velocity fields. Once the GNN is trained, velocity estimates in a new and unseen artery can be obtained with 36-fold speed-up compared to CFD. We demonstrate how to construct an SE(3)-equivariant GNN that is independent of the spatial orientation of the input mesh and show how this reduces the necessary amount of training data compared to a baseline neural network.
翻訳日:2023-02-20 15:10:35 公開日:2023-02-17
# グラフニューラルネットワークによる系統推論のための学習可能な位相特徴

Learnable Topological Features for Phylogenetic Inference via Graph Neural Networks ( http://arxiv.org/abs/2302.08840v1 )

ライセンス: Link先を確認
Cheng Zhang(参考訳) 系統樹のトポロジーの構造情報は系統学的推論において重要な役割を果たす。 しかし、特定の系統推論タスクに適切な位相構造を見つけるには、しばしば重要な設計努力とドメインの専門知識が必要となる。 本稿では,学習可能なトポロジカル特徴に基づく系統的推論のための新しい構造表現法を提案する。 ディリクレエネルギーを最小化する生のノード特徴と現代のグラフ表現学習技術を組み合わせることで、学習可能なトポロジカル特徴は、ドメインの専門知識を必要とせずに、異なる下流タスクに自動的に適応する系統樹の効率的な構造情報を提供できる。 本研究では,本手法の有効性と有効性について,シミュレーションデータツリー推定タスクと実データ変異型ベイズ系統推定問題のベンチマークで示す。

Structural information of phylogenetic tree topologies plays an important role in phylogenetic inference. However, finding appropriate topological structures for specific phylogenetic inference tasks often requires significant design effort and domain expertise. In this paper, we propose a novel structural representation method for phylogenetic inference based on learnable topological features. By combining the raw node features that minimize the Dirichlet energy with modern graph representation learning techniques, our learnable topological features can provide efficient structural information of phylogenetic trees that automatically adapts to different downstream tasks without requiring domain expertise. We demonstrate the effectiveness and efficiency of our method on a simulated data tree probability estimation task and a benchmark of challenging real data variational Bayesian phylogenetic inference problems.
翻訳日:2023-02-20 15:04:10 公開日:2023-02-17
# $h$分析とデータ並列物理インフォームドニューラルネットワーク

$h$-analysis and data-parallel physics-informed neural networks ( http://arxiv.org/abs/2302.08835v1 )

ライセンス: Link先を確認
Paul Escapil-Inchausp\'e and Gonzalo A. Ruz(参考訳) 本稿では,複数のgpu(graphics processing unit)アーキテクチャを対象とした物理インフォーマントニューラルネットワーク(pinns)に着目し,物理インフォーマント機械学習(piml)スキームのデータ並列加速度について検討する。 複雑な領域や高次元領域、非線形演算子、マルチ物理などを含む高度な応用のためのスケールロバストなPIMLモデルを開発するには、多くのトレーニングポイントを必要とする可能性があるため、Horovodトレーニングフレームワークに基づいたプロトコルを詳述する。 このプロトコルは、一般化エラーに対する新しい収束バウンダリを含む$h$-analysisによって支えられている。 高速化は実装が容易で,トレーニングを損なうことなく,汎用的なスケール・ロバストPIMLへの道を開いた上で,高い効率性を示す。 複雑化を伴う広範な数値実験は、その頑健さと一貫性を示し、現実世界のシミュレーションに幅広い可能性をもたらす。

We explore the data-parallel acceleration of physics-informed machine learning (PIML) schemes, with a focus on physics-informed neural networks (PINNs) for multiple graphics processing units (GPUs) architectures. In order to develop scale-robust PIML models for sophisticated applications (e.g., involving complex and high-dimensional domains, non-linear operators or multi-physics), which may require a large number of training points, we detail a protocol based on the Horovod training framework. This protocol is backed by $h$-analysis, including a new convergence bound for the generalization error. We show that the acceleration is straightforward to implement, does not compromise training, and proves to be highly efficient, paving the way towards generic scale-robust PIML. Extensive numerical experiments with increasing complexity illustrate its robustness and consistency, offering a wide range of possibilities for real-world simulations.
翻訳日:2023-02-20 15:03:57 公開日:2023-02-17
# ナノレーザーからマクロレーザーへのコヒーレンスアップとレーザーしきい値

Coherence build up and laser thresholds from nanolasers to macroscopic lasers ( http://arxiv.org/abs/2302.08824v1 )

ライセンス: Link先を確認
Mark Anthony Carroll, Giampaolo D'Alessandro, Gian Luca Lippi, Gian-Luca Oppo, and Francesco Papoff(参考訳) 単電子系および多電子系において,コヒーレントおよび非コヒーレント変数を含むナノレーザーモデルの導出と,キャビティサイズやエミッタ数によらず,レーザーしきい値の存在を予測する。 浸漬モードにおける光子数の増加は、吸収と放出の相関の増大によって引き起こされ、自己持続的な励起放出(レーザー閾値)が開始され、続いて相関が減少し、コヒーレント放出が支配される。 1次コヒーレンス$g^{(1)}$は、ポンプがレーザーしきい値に向かって成長し、しきい値以上でユニティに達するにつれて着実に増加する。 コヒーレント・エミッションへの遷移は、エミッタの数と結合した電磁空洞モードが増大し、熱力学的限界においてナノレーザーとマクロレーザーのしきい値での物理を連続的に接続するにつれてますます顕著になる。 我々の予測は、これまでの1次コヒーレンス測定が現象学的にのみ説明されている実験と著しく一致している。 異なるしきい値インジケータの一貫した評価は、レーザー動作開始時の実験測定の正しい解釈のためのツールを提供する。

We detail the derivation of nanolaser models that include coherent and incoherent variables and predict the existence of a laser threshold, irrespective of cavity size and emitter number, for both single- and multi-electron systems. The growth in photon number in the lasing mode is driven by an increase in correlation between absorption and emission processes, leading to the onset of self-sustained stimulated emission (laser threshold), followed, in turn, by a correlation decrease and ending with the dominance of coherent emission. The first-order coherence $g^{(1)}$ steadily increases, as the pump grows towards the laser threshold value, and reaches unity at or beyond threshold. The transition toward coherent emission becomes increasingly sharp as the number of emitters and of the coupled electromagnetic cavity modes increase, continuously connecting, in the thermodynamic limit, the physics of nano- and macroscopic lasers at threshold. Our predictions are in remarkable agreement with experiments whose first-order coherence measurements have so far been explained only phenomenologically. A consistent evaluation of different threshold indicators provides a tool for a correct interpretation of experimental measurements at the onset of laser action.
翻訳日:2023-02-20 15:03:41 公開日:2023-02-17
# Web上の地理データのための知識グラフの作成

Creating Knowledge Graphs for Geographic Data on the Web ( http://arxiv.org/abs/2302.08823v1 )

ライセンス: Link先を確認
Elena Demidova, Alishiba Dsouza, Simon Gottschalk, Nicolas Tempelmeier, Ran Yu(参考訳) 地理データは、さまざまなWeb、セマンティックWeb、機械学習アプリケーションにおいて重要な役割を果たす。 OpenStreetMapとナレッジグラフは、Web上の地理的データの重要な補完源である。 しかし、データの正確性、地理的および意味的な特徴の統合の欠如、不完全な表現はデータの有用性を著しく制限する。 セマンティックWebや機械学習に地理データをアクセスできるようにするには、検証、強化、セマンティック表現が不可欠である。 本稿では,これらの課題に取り組むために開発した最近のアプローチについて述べる。

Geographic data plays an essential role in various Web, Semantic Web and machine learning applications. OpenStreetMap and knowledge graphs are critical complementary sources of geographic data on the Web. However, data veracity, the lack of integration of geographic and semantic characteristics, and incomplete representations substantially limit the data utility. Verification, enrichment and semantic representation are essential for making geographic data accessible for the Semantic Web and machine learning. This article describes recent approaches we developed to tackle these challenges.
翻訳日:2023-02-20 15:03:18 公開日:2023-02-17
# 人間の言語に関する虚偽の視点--統計学が言語学を必要とする理由

False perspectives on human language: why statistics needs linguistics ( http://arxiv.org/abs/2302.08822v1 )

ライセンス: Link先を確認
Matteo Greco, Andrea Cometa, Fiorenzo Artoni, Robert Frank, Andrea Moro(参考訳) 統計的表面分布、特にsurprisalのような尺度を用いて、言語処理をよりよく理解していると信じている人々と、統語論的なもののような言語情報を実装する離散階層構造がより良いツールであると信じている人々である。 本稿では,この二分法が誤りであることを示す。 統計的測度は構造モデルか非構造モデルのいずれかに基づいて定義できるという事実に基づき、構文構造を反映する仮定モデルのみが言語規則性を考慮できるという経験的証拠を提供する。

A sharp tension exists about the nature of human language between two opposite parties: those who believe that statistical surface distributions, in particular using measures like surprisal, provide a better understanding of language processing, vs. those who believe that discrete hierarchical structures implementing linguistic information such as syntactic ones are a better tool. In this paper, we show that this dichotomy is a false one. Relying on the fact that statistical measures can be defined on the basis of either structural or non-structural models, we provide empirical evidence that only models of surprisal that reflect syntactic structure are able to account for language regularities.
翻訳日:2023-02-20 15:03:11 公開日:2023-02-17
# カラー画像とマルチスペクトル画像の深層学習による果樹園のApple scab検出

Apple scab detection in orchards using deep learning on colour and multispectral images ( http://arxiv.org/abs/2302.08818v1 )

ライセンス: Link先を確認
Robert Rou\v{s}, Joseph Peller, Gerrit Polder, Selwin Hageraats, Thijs Ruigrok, Pieter M. Blok(参考訳) Apple scabは、Venturia inaequalisによって引き起こされる真菌病である。 病は、果実や葉に大きな損傷を与え、果実や収量を失うため、栽培者にとって特に懸念される。 本稿では,リンゴの症状を正確に同定するための深層学習とハイパースペクトルイメージングの有用性について検討する。 感染した果樹園において,従来のRGBとVisible to Near-Infrared (VIS-NIR)スペクトル画像 (8チャンネル) を用いて168の画像シーンを収集した。 スペクトルデータは、スペクトル情報に基づいてsabピクセルを検出するためにセグメンテーションで訓練された人工ニューラルネットワーク(ANN)で前処理された。 リニア判別分析 (LDA) を用いて, 健全な葉と落葉スペクトルに基づいて, スペクトルデータ中の最も識別性の高いチャネルを同定した。 スペクトルデータとセグメンテーションネットの結果から5つの偽色画像の組み合わせが得られた。 画像は、YOLOv5ネットワークの修正版で訓練され、評価された。 rgb画像を用いたディープラーニング(p=0.8, map@50=0.73)の有望な結果にもかかわらず,マルチスペクトルイメージングによるリンゴのスケアの検出は困難であった。 オープンフィールドの高照度環境は、赤外線チャネルと可視チャネルは、画像に過剰に露光しないように常にバランスをとる必要があるため、マルチスペクトルカメラからバランスの取れたスペクトルを収集することが困難になった。

Apple scab is a fungal disease caused by Venturia inaequalis. Disease is of particular concern for growers, as it causes significant damage to fruit and leaves, leading to loss of fruit and yield. This article examines the ability of deep learning and hyperspectral imaging to accurately identify an apple symptom infection in apple trees. In total, 168 image scenes were collected using conventional RGB and Visible to Near-infrared (VIS-NIR) spectral imaging (8 channels) in infected orchards. Spectral data were preprocessed with an Artificial Neural Network (ANN) trained in segmentation to detect scab pixels based on spectral information. Linear Discriminant Analysis (LDA) was used to find the most discriminating channels in spectral data based on the healthy leaf and scab infested leaf spectra. Five combinations of false-colour images were created from the spectral data and the segmentation net results. The images were trained and evaluated with a modified version of the YOLOv5 network. Despite the promising results of deep learning using RGB images (P=0.8, mAP@50=0.73), the detection of apple scab in apple trees using multispectral imaging proved to be a difficult task. The high-light environment of the open field made it difficult to collect a balanced spectrum from the multispectral camera, since the infrared channel and the visible channels needed to be constantly balanced so that they did not overexpose in the images.
翻訳日:2023-02-20 15:03:00 公開日:2023-02-17
# 中国語読解のための自然応答生成

Natural Response Generation for Chinese Reading Comprehension ( http://arxiv.org/abs/2302.08817v1 )

ライセンス: Link先を確認
Nuo Chen, Hongguang Li, Yinan Bao, Baoyuan Wang and Jia Li(参考訳) machine reading comprehension (mrc) は会話エージェントの重要な領域であり、多くの注目を集めている。 ラベル付き回答は、主に対象のコーパスから抽出された範囲か、与えられた候補の選択のいずれかであり、高品質な応答の自然な側面を無視している。 その結果、これらのデータセットでトレーニングされたMRCモデルは、実際のQAシナリオでは人間のような応答を生成できない。 そこで本研究では,MRCの研究を促進するためにPenguinという新たなデータセットを構築し,実シナリオに対する自然応答生成のためのトレーニングとテストベッドを提供する。 具体的には、Penguinは200kのトレーニングデータから成り、高品質で流動的で、インフォームドなレスポンスを持つ。 ペンギンは比較的大規模な中国のmrcにおける自然応答生成に対する最初のベンチマークである。 Penguinの課題に対処するため、エンドツーエンドと2段階のフレームワークという、2つの強力なベースラインを開発しました。 次に、Penguinでプレフィックスプロンプトを混合した事前学習された生成言語モデルを微調整するPrompt-BARTをさらに設計する。 広範な実験により、この設計の有効性が検証された。

Machine reading comprehension (MRC) is an important area of conversation agents and draws a lot of attention. However, there is a notable limitation to current MRC benchmarks: The labeled answers are mostly either spans extracted from the target corpus or the choices of the given candidates, ignoring the natural aspect of high-quality responses. As a result, MRC models trained on these datasets can not generate human-like responses in real QA scenarios. To this end, we construct a new dataset called Penguin to promote the research of MRC, providing a training and test bed for natural response generation to real scenarios. Concretely, Penguin consists of 200k training data with high-quality fluent, and well-informed responses. Penguin is the first benchmark towards natural response generation in Chinese MRC on a relatively large scale. To address the challenges in Penguin, we develop two strong baselines: end-to-end and two-stage frameworks. Following that, we further design Prompt-BART: fine-tuning the pre-trained generative language models with a mixture of prefix prompts in Penguin. Extensive experiments validated the effectiveness of this design.
翻訳日:2023-02-20 15:02:32 公開日:2023-02-17
# G-Signatures: ランダムな署名によるグローバルグラフの伝播

G-Signatures: Global Graph Propagation With Randomized Signatures ( http://arxiv.org/abs/2302.08811v1 )

ライセンス: Link先を確認
Bernhard Sch\"afl, Lukas Gruber, Johannes Brandstetter, Sepp Hochreiter(参考訳) グラフニューラルネットワーク(gnns)は、最も人気のあるディープラーニングアーキテクチャの1つに進化した。 しかし、GNNは過度に滑らかなノード情報に悩まされており、グローバルグラフ特性が関係するタスクの解決に苦慮している。 ランダム化シグネチャによるグローバルグラフの伝播を可能にする新しいグラフ学習手法であるG-Signaturesを紹介する。 g-signaturesはグラフ構造化情報を埋め込むために新しいグラフ昇降の概念を使用する。 我々はさらに,反復的に潜在空間パスを横切ることを可能にする潜在空間パスマッピングの概念を導入し,情報をグローバルに処理する。 G-Signaturesはグローバルグラフ特性の抽出と処理に優れ、大きなグラフ問題に効果的にスケールする。 経験的に、いくつかの分類および回帰タスクにおいて、G-Signaturesの利点を実証する。

Graph neural networks (GNNs) have evolved into one of the most popular deep learning architectures. However, GNNs suffer from over-smoothing node information and, therefore, struggle to solve tasks where global graph properties are relevant. We introduce G-Signatures, a novel graph learning method that enables global graph propagation via randomized signatures. G-Signatures use a new graph lifting concept to embed graph structured information, which can be interpreted as path in latent space. We further introduce the idea of latent space path mapping, which allows us to repetitively traverse latent space paths, and, thus globally process information. G-Signatures excel at extracting and processing global graph properties, and effectively scale to large graph problems. Empirically, we confirm the advantages of our G-Signatures at several classification and regression tasks.
翻訳日:2023-02-20 15:02:14 公開日:2023-02-17
# 絵を黒く塗る:テキスト記述から絵を作る

Paint it Black: Generating paintings from text descriptions ( http://arxiv.org/abs/2302.08808v1 )

ライセンス: Link先を確認
Mahnoor Shahid, Mark Koch, and Niklas Schneider(参考訳) 与えられたテキストプロンプトからフォトリアリスティックな絵を生成し、絵のスタイルを実際のイメージに移してアーティストがやったように見せるという2つのタスクは何度も取り組まれており、それらを達成するためにいくつかのアプローチが提案されている。 しかし、これらの2つの交点、すなわち与えられたキャプションから絵を生成することは、データが少ない比較的未調査領域である。 本稿では,2つの異なる戦略を検討し,それらを統合した。 第1の戦略は、フォトリアリスティックな画像を生成し、次にスタイル転送を行い、第2の戦略は、実画像にキャプション付き画像生成モデルを訓練し、後でキャプション付き絵画に微調整することである。 これら2つのモデルは、異なるメトリクスを用いて評価され、結果に対する人間のフィードバックを得るためにユーザー調査が行われる。

Two distinct tasks - generating photorealistic pictures from given text prompts and transferring the style of a painting to a real image to make it appear as though it were done by an artist, have been addressed many times, and several approaches have been proposed to accomplish them. However, the intersection of these two, i.e., generating paintings from a given caption, is a relatively unexplored area with little data available. In this paper, we have explored two distinct strategies and have integrated them together. First strategy is to generate photorealistic images and then apply style transfer and the second strategy is to train an image generation model on real images with captions and then fine-tune it on captioned paintings later. These two models are evaluated using different metrics as well as a user study is conducted to get human feedback on the produced results.
翻訳日:2023-02-20 15:01:59 公開日:2023-02-17
# 競争力はあるが剛体:AIがグループ意思決定に等しく参加する際のギャップを識別する

Competent but Rigid: Identifying the Gap in Empowering AI to Participate Equally in Group Decision-Making ( http://arxiv.org/abs/2302.08807v1 )

ライセンス: Link先を確認
Chengbo Zheng, Yuheng Wu, Chuhan Shi, Shuai Ma, Jiehui Luo, Xiaojuan Ma(参考訳) 人間とAIの協調的な意思決定に関する既存の研究は、主にAIと個々の意思決定者との相互作用に焦点を当てている。 グループ意思決定においてAIがどのように機能するかについては、限定的な理解がある。 本稿では、2人の参加者と1人のAIが3つの英語エッセイをランク付けする委員会を構成するウィザード・オブ・オズ研究について述べる。 我々の研究の1つの新しさは、集団意思決定においてAIが人間に同等の力を与えることによって投機的デザインを採用することである。 AIの声は価値があると考えられているが、議論のダイナミクスを完全に追跡できず、進歩的なコントリビューションを行うため、AIは依然としてグループの中で二次的な役割を担っている。 さらに,「平等なAI」に関する参加者の意見の相違は,人間とAIの関係の可能性に光を当てた。

Existing research on human-AI collaborative decision-making focuses mainly on the interaction between AI and individual decision-makers. There is a limited understanding of how AI may perform in group decision-making. This paper presents a wizard-of-oz study in which two participants and an AI form a committee to rank three English essays. One novelty of our study is that we adopt a speculative design by endowing AI equal power to humans in group decision-making.We enable the AI to discuss and vote equally with other human members. We find that although the voice of AI is considered valuable, AI still plays a secondary role in the group because it cannot fully follow the dynamics of the discussion and make progressive contributions. Moreover, the divergent opinions of our participants regarding an "equal AI" shed light on the possible future of human-AI relations.
翻訳日:2023-02-20 15:01:43 公開日:2023-02-17
# 与えられた分布による量子打撃時間

Quantum Hitting Time according to a given distribution ( http://arxiv.org/abs/2302.08871v1 )

ライセンス: Link先を確認
P. Boito, G. M. Del Corso(参考訳) この研究では、離散時間セゲディ量子ウォークにおける量子打撃時間の概念に焦点をあてている。 適切な仮説の下では、量子打撃時間は古典的打撃時間の平方根の次数であることが知られている: この二次的スピードアップは、量子的アプローチに関連する計算上の利点の顕著な例である。 私たちの目的は2倍です。 一方,線形代数コミュニティに親しむべき言語において,szegedyフレームワーク内の時間反転可能な歩行における二次速度の詳細な証明を提供する。 さらに,量子打撃時間の定義における定常分布の代わりに一般分布を用いることを理論的考察と数値実験を通じて検討する。

In this work we focus on the notion of quantum hitting time for discrete-time Szegedy quantum walks, compared to its classical counterpart. Under suitable hypotheses, quantum hitting time is known to be of the order of the square root of classical hitting time: this quadratic speedup is a remarkable example of the computational advantages associated with quantum approaches. Our purpose here is twofold. On one hand, we provide a detailed proof of quadratic speedup for time-reversible walks within the Szegedy framework, in a language that should be familiar to the linear algebra community. Moreover, we explore the use of a general distribution in place of the stationary distribution in the definition of quantum hitting time, through theoretical considerations and numerical experiments.
翻訳日:2023-02-20 14:55:08 公開日:2023-02-17
# 複数症例学習における能動的サンプリングによる卵巣癌組織像全体の効率的なサブタイピング

Efficient subtyping of ovarian cancer histopathology whole slide images using active sampling in multiple instance learning ( http://arxiv.org/abs/2302.08867v1 )

ライセンス: Link先を確認
Jack Breen, Katie Allen, Kieran Zucker, Geoff Hall, Nicolas M. Orsi, Nishant Ravikumar(参考訳) 病理組織学的スライドの弱教師付き分類は、処理対象の数十億ピクセルを含む典型的な全スライド画像(WSI)を用いて計算集約的なタスクである。 本研究では,マルチインスタンス学習(dras-mil)のための識別領域アクティブサンプリングを提案する。 我々は, 異なるサブタイプが異なる遺伝的および分子的プロファイル, 治療オプション, および患者の予後を有するため, 患者ケア経路の必須部分である卵巣癌組織学的サブタイプの診断に適用する。 我々はLeeds teaching Hospitals NHS Trustで147名の上皮性卵巣癌患者から得られた714個のWSIのデータセットを用いて,他の4つの亜型(低次血清型,内膜型,クリア細胞型,粘液性癌)とを鑑別した。 DRAS-MILは3倍のクロスバリデーションAUCが0.8679であるのに対し,標準的な注意に基づくMIL分類は0.8781である。 私たちのアプローチは、標準的なアプローチの18%以上のメモリを使用しますが、gpu上での評価では33%の時間を要し、cpuだけでは14%に過ぎません。 予測時間とメモリ要件の削減は、臨床デプロイメントとAIの民主化の恩恵を受け、計算ハードウェアがエンドユーザの採用を制限する範囲を縮小する可能性がある。

Weakly-supervised classification of histopathology slides is a computationally intensive task, with a typical whole slide image (WSI) containing billions of pixels to process. We propose Discriminative Region Active Sampling for Multiple Instance Learning (DRAS-MIL), a computationally efficient slide classification method using attention scores to focus sampling on highly discriminative regions. We apply this to the diagnosis of ovarian cancer histological subtypes, which is an essential part of the patient care pathway as different subtypes have different genetic and molecular profiles, treatment options, and patient outcomes. We use a dataset of 714 WSIs acquired from 147 epithelial ovarian cancer patients at Leeds Teaching Hospitals NHS Trust to distinguish the most common subtype, high-grade serous carcinoma, from the other four subtypes (low-grade serous, endometrioid, clear cell, and mucinous carcinomas) combined. We demonstrate that DRAS-MIL can achieve similar classification performance to exhaustive slide analysis, with a 3-fold cross-validated AUC of 0.8679 compared to 0.8781 with standard attention-based MIL classification. Our approach uses at most 18% as much memory as the standard approach, while taking 33% of the time when evaluating on a GPU and only 14% on a CPU alone. Reducing prediction time and memory requirements may benefit clinical deployment and the democratisation of AI, reducing the extent to which computational hardware limits end-user adoption.
翻訳日:2023-02-20 14:54:55 公開日:2023-02-17
# 量子同期における幾何位相

Geometric Phase in Quantum Synchronization ( http://arxiv.org/abs/2302.08866v1 )

ライセンス: Link先を確認
Aaron Daniel, Christoph Bruder and Martin Koppenh\"ofer(参考訳) 量子化軸がゆっくりと回転するスピン系に実装された量子極限サイクル発振器を考える。 非単体進化における幾何位相を定義する運動論的手法を用いて、量子極限サイクル発振器が回転が十分に遅いときに幾何位相に達することを示す。 外部信号の存在下では、信号強度の関数としての幾何学的位相と、信号と発振の自然な周波数の間の微調整は、同期のアーノルド舌と著しく類似した構造を示す。 驚くべきことに、この構造は、システムが同期ブロックのパラメータレジーム内にあるとき、アーノルド舌と共に消滅する。 量子化軸の遅い回転と弱い外部信号強度の限界において有効であるこの系の幾何学的位相の解析式を導出し、この驚くべき効果に対する直感的な解釈を提供する。

We consider a quantum limit-cycle oscillator implemented in a spin system whose quantization axis is slowly rotated. Using a kinematic approach to define geometric phases in nonunitary evolution, we show that the quantum limit-cycle oscillator attains a geometric phase when the rotation is sufficiently slow. In the presence of an external signal, the geometric phase as a function of the signal strength and the detuning between the signal and the natural frequency of oscillation shows a structure that is strikingly similar to the Arnold tongue of synchronization. Surprisingly, this structure vanishes together with the Arnold tongue when the system is in a parameter regime of synchronization blockade. We derive an analytic expression for the geometric phase of this system, valid in the limit of slow rotation of the quantization axis and weak external signal strength, and we provide an intuitive interpretation for this surprising effect.
翻訳日:2023-02-20 14:54:23 公開日:2023-02-17
# 目標条件付きオフライン強化学習

Swapped goal-conditioned offline reinforcement learning ( http://arxiv.org/abs/2302.08865v1 )

ライセンス: Link先を確認
Wenyan Yang, Huiling Wang, Dingding Cai, Joni Pajarinen, Joni-Kristen K\"am\"ar\"ainen(参考訳) オフライン目標条件強化学習(GCRL)は、与えられたデータセットに過度に適合するため、難しい場合がある。 与えられたデータセットの外でエージェントのスキルを一般化するために、追加の軌跡を生成するゴールスワッピング手順を提案する。 雑音や外挿誤差の問題を緩和するため、決定論的Qアドバンテージポリシー勾配(DQAPG)と呼ばれる一般的なオフライン強化学習手法を提案する。 実験では、DQAPGは、最先端のゴール条件付きオフラインRLメソッドを幅広いベンチマークタスクで上回り、ゴールスワッピングはテスト結果をさらに改善する。 提案手法は,従来の手法が失敗した手動操作の難易度の高い課題に対して,優れた性能が得られる。

Offline goal-conditioned reinforcement learning (GCRL) can be challenging due to overfitting to the given dataset. To generalize agents' skills outside the given dataset, we propose a goal-swapping procedure that generates additional trajectories. To alleviate the problem of noise and extrapolation errors, we present a general offline reinforcement learning method called deterministic Q-advantage policy gradient (DQAPG). In the experiments, DQAPG outperforms state-of-the-art goal-conditioned offline RL methods in a wide range of benchmark tasks, and goal-swapping further improves the test results. It is noteworthy, that the proposed method obtains good performance on the challenging dexterous in-hand manipulation tasks for which the prior methods failed.
翻訳日:2023-02-20 14:54:09 公開日:2023-02-17
# PhaseNet:圧縮センシングMRIのための位相エンコードDenoising Network

PhaseNet: Phase-Encode Denoising Network for Compressed Sensing MRI ( http://arxiv.org/abs/2302.08861v1 )

ライセンス: Link先を確認
Marlon E. Bran Lorenzana, Shekhar S. Chandra and Feng Liu(参考訳) スパース再構成は現代医療画像の重要な側面であり、MRI(MRI)のような比較的遅いモダリティの獲得時間を短縮する。 一般的な手法は主に圧縮センシング(CS)に基づいており、これは凸最適化によって除去できる不整合(ノイズのような)アーティファクトを生成するためにフーリエ係数(k$-スペース)のランダムサンプリングに依存する。 ハードウェア制約は現在、カルテシアンCSを1次元(1D)位相エンコードアンサンプスキームに制限しており、一貫性と構造化されたアーティファクトをもたらす。 レコンストラクションアルゴリズムは通常、アーティファクト除去のための理想的で限られた2次元正規化を展開し、画像復元の困難さを増大させる。 位相エンコードアーチファクトを連続した1次元信号に分割できることを認識し, 明示的な1次元正規化を実現する2つのデカップリング技術を開発した。 これにより、位相エンコード方向の優れた非コヒーレンス特性を利用する。 また,画像内の空間的関係を更に活用し,既存の2次元深層学習(DL)回復技術の改善につながる1次元+2次元再構成手法を考案した。 脳と膝のデータセットでパフォーマンスを評価する。 提案した1D CNNモジュールは,ベース2Dモデルと比較してPSNRとSSIMのスコアを有意に改善し,2Dネットワーク層よりも優れたスケーリング性能を示した。

Sparse reconstruction is an important aspect of modern medical imaging, reducing the acquisition time of relatively slow modalities such as magnetic resonance imaging (MRI). Popular methods are based mostly on compressed sensing (CS), which relies on the random sampling of Fourier coefficients ($k$-space) to produce incoherent (noise-like) artefacts that can be removed via convex optimisation. Hardware constraints currently limit Cartesian CS to one dimensional (1D) phase-encode undersampling schemes, leading to coherent and structured artefacts. Reconstruction algorithms typically deploy an idealised and limited 2D regularisation for artefact removal, which increases the difficulty of image recovery. Recognising that phase-encode artefacts can be separated into contiguous 1D signals, we develop two decoupling techniques that enable explicit 1D regularisation. We thereby leverage the excellent incoherence characteristics in the phase-encode direction. We also derive a combined 1D + 2D reconstruction technique that further takes advantage of spatial relationships within the image, leading to an improvement of existing 2D deep-learned (DL) recovery techniques. Performance is evaluated on a brain and knee dataset. We find the proposed 1D CNN modules significantly improve PSNR and SSIM scores compared to the base 2D models, demonstrating a superior scaling of performance compared to increasing the size of 2D network layers.
翻訳日:2023-02-20 14:53:56 公開日:2023-02-17
# 連続および離散問題に対する3相人工orcasアルゴリズム

A Three-Phase Artificial Orcas Algorithm for Continuous and Discrete Problems ( http://arxiv.org/abs/2302.08855v1 )

ライセンス: Link先を確認
Habiba Drias, Lydia Sonia Bendimerad, Yassine Drias(参考訳) 本稿では,orca行動に基づく新しい群知能アルゴリズムを提案する。 人工オルカアルゴリズム(artificial orca algorithm, aoa)と呼ばれるアルゴリズムは、オルカの生活様式、特に社会組織、エコーロケーション機構、狩猟技法をシミュレートしたものである。 この提案の独創性は、初めてメタヒューリスティックが1つの動物種の複数の行動を同時にシミュレートすることである。 AOAは離散的な問題に適応し、4段階の複雑さを持つ迷路ゲームに適用された。 この問題のアルゴリズムパラメータを設定するために、数多くの実験が行われた。 アルゴリズムの性能は,成功率,実行時間,解パスサイズを考慮して評価した。 最後に,ACO,BA,BSO,EHO,PSO,WOAといった最先端進化アルゴリズムの実験を行った。 その結果,AOAが他の試験アルゴリズムよりも優れていることが明らかとなった。

In this paper, a new swarm intelligence algorithm based on orca behaviors is proposed for problem solving. The algorithm called artificial orca algorithm (AOA) consists of simulating the orca lifestyle and in particular the social organization, the echolocation mechanism, and some hunting techniques. The originality of the proposal is that for the first time a meta-heuristic simulates simultaneously several behaviors of just one animal species. AOA was adapted to discrete problems and applied on the maze game with four level of complexity. A bunch of substantial experiments were undertaken to set the algorithm parameters for this issue. The algorithm performance was assessed by considering the success rate, the run time, and the solution path size. Finally, for comparison purposes, the authors conducted a set of experiments on state-of-the-art evolutionary algorithms, namely ACO, BA, BSO, EHO, PSO, and WOA. The overall obtained results clearly show the superiority of AOA over the other tested algorithms.
翻訳日:2023-02-20 14:53:29 公開日:2023-02-17
# ポスト・エピソジック強化学習推論

Post-Episodic Reinforcement Learning Inference ( http://arxiv.org/abs/2302.08854v1 )

ライセンス: Link先を確認
Vasilis Syrgkanis, Ruohan Zhan(参考訳) エピソード強化学習(RL)アルゴリズムから収集したデータ,すなわち,各期間(いわゆるエピソード)に複数回,単一の処理単位と逐次的に相互作用する適応的実験アルゴリズムによる推定と推定について検討する。 本研究の目的は,データ収集後の非現実的適応ポリシーを評価し,クレジット割り当てに使用できる動的治療効果などの構造パラメータを推定することである(例えば,第1周期動作が最終結果にどのような影響があったか)。 このような興味のあるパラメータはモーメント方程式の解として構成できるが、人口減少関数の最小化は行わず、静的データの場合のz推定アプローチへと繋がる。 しかし、このような推定器は適応型データ収集では漸近的に正常ではない。 本稿では,エピソード変動推定のばらつきを安定化するための適応重み付けを注意深く設計したz重み付け法を提案する。 対象パラメータに対する再重み付きZ推定器の整合性と漸近正規性を取り戻すための適切な重み付けスキームを同定し、仮説テストと対象パラメータに対する信頼性の高い信頼領域の構築を可能にする。 主な応用は、動的処理効果推定と動的オフポリシー評価である。

We consider estimation and inference with data collected from episodic reinforcement learning (RL) algorithms; i.e. adaptive experimentation algorithms that at each period (aka episode) interact multiple times in a sequential manner with a single treated unit. Our goal is to be able to evaluate counterfactual adaptive policies after data collection and to estimate structural parameters such as dynamic treatment effects, which can be used for credit assignment (e.g. what was the effect of the first period action on the final outcome). Such parameters of interest can be framed as solutions to moment equations, but not minimizers of a population loss function, leading to Z-estimation approaches in the case of static data. However, such estimators fail to be asymptotically normal in the case of adaptive data collection. We propose a re-weighted Z-estimation approach with carefully designed adaptive weights to stabilize the episode-varying estimation variance, which results from the nonstationary policy that typical episodic RL algorithms invoke. We identify proper weighting schemes to restore the consistency and asymptotic normality of the re-weighted Z-estimators for target parameters, which allows for hypothesis testing and constructing reliable confidence regions for target parameters of interest. Primary applications include dynamic treatment effect estimation and dynamic off-policy evaluation.
翻訳日:2023-02-20 14:53:14 公開日:2023-02-17
# リスクスコアモデルの公平性について(評価)

On (assessing) the fairness of risk score models ( http://arxiv.org/abs/2302.08851v1 )

ライセンス: Link先を確認
Eike Petersen, Melanie Ganz, Sune Hannibal Holm, Aasa Feragen(参考訳) アルゴリズム的公平性に関する最近の研究は、離散的決定や分類の公平性に重点を置いている。 このような決定は、しばしばリスクスコアモデルに基づいているが、リスクモデル自体の公平さは、かなり少ない注意を払っている。 リスクモデルは、ユーザに対して潜在的な結果について不確実性を伝えることなど、有意義な人間の監視を可能にする方法を示すことを含む、いくつかの理由から興味深い。 ここではリスクスコアモデルのためのフェアネスデシダータについて述べる。 類似した認識値の異なるグループへの提供をリスクスコアフェアネスの重要なデシデラタムとして特定する。 さらに,リスクスコアモデルの公平性を定量的に評価する方法について検討し,メートル法選択と有意義なグループ間の統計的比較について考察した。 この文脈では,従来提案していた基準よりもサンプルサイズバイアスの少ない新しいキャリブレーション誤差メトリックを導入し,異なる大きさのグループ間の有意義な比較を可能にした。 我々は,他の多くの場面で広く適用可能な方法論を,recidivism risk prediction (recidivism risk prediction) と major depressive disorder (mdd) の2つのケーススタディで紹介する。

Recent work on algorithmic fairness has largely focused on the fairness of discrete decisions, or classifications. While such decisions are often based on risk score models, the fairness of the risk models themselves has received considerably less attention. Risk models are of interest for a number of reasons, including the fact that they communicate uncertainty about the potential outcomes to users, thus representing a way to enable meaningful human oversight. Here, we address fairness desiderata for risk score models. We identify the provision of similar epistemic value to different groups as a key desideratum for risk score fairness. Further, we address how to assess the fairness of risk score models quantitatively, including a discussion of metric choices and meaningful statistical comparisons between groups. In this context, we also introduce a novel calibration error metric that is less sample size-biased than previously proposed metrics, enabling meaningful comparisons between groups of different sizes. We illustrate our methodology - which is widely applicable in many other settings - in two case studies, one in recidivism risk prediction, and one in risk of major depressive disorder (MDD) prediction.
翻訳日:2023-02-20 14:52:53 公開日:2023-02-17
# 古典的および量子的促進排他過程

Classical and quantum facilitated exclusion processes ( http://arxiv.org/abs/2302.08849v1 )

ライセンス: Link先を確認
Amit Kumar Chatterjee, Adhip Agarwala(参考訳) 古典力学系と量子力学系の相似性を示し, 微視的ダイナミクスは非相反的3点促進排他過程からなる。 古典的過程の量子アナログは、興味深い$quantum$$ absorbing$$transition$であり、量子粒子は、非エンタングルな直積吸収相から、密度$\rho=1/2$の有限電流を持つエンタングル定常状態へと遷移する。 p$の粒子の独立ホッピングを含む一般化された古典的促進的排他過程において、我々の分析とモンテカルロの結果は、2つの現在の搬送モード(ファシリケートと独立性)の競合に基づいて、定常状態の2つの状態を切り離す特別な密度$\rho^*=\frac{1}{3}$の出現を確立する。 対応する量子系はまた、二成分の絡み合いにおいて非単調な特徴を持つ同様の質的振る舞いを示す。 我々の研究は、古典的に相互作用する排他的プロセスと非エルミート量子ハミルトニアンの相互作用の2つのサブフィールドを結び付け、それらが実現した非平衡相の共通テーマを示す。

We demonstrate exciting similarities between classical and quantum many body systems whose microscopic dynamics are composed of non-reciprocal three-site facilitated exclusion processes. We show that the quantum analogue of the classical facilitated process engineers an interesting $quantum$ $absorbing$ $transition$ where the quantum particles transit from an unentangled direct-product absorbing phase to an entangled steady state with a finite current at density $\rho=1/2$. In the generalised classical facilitated exclusion process, which includes independent hopping of particles with rate $p$, our analytical and Monte-Carlo results establish emergence of a special density $\rho^*=\frac{1}{3}$ that demarcates two regimes in the steady state, based on the competition between two current carrying modes (facilitated and independent). The corresponding quantum system also displays similar qualitative behaviours with striking non-monotonic features in the bipartite entanglement. Our work ties the two sub-fields of classically interacting exclusion processes, and interacting non-Hermitian quantum Hamiltonians to show common themes in the non-equilibrium phases they realise.
翻訳日:2023-02-20 14:52:35 公開日:2023-02-17
# マルチタスク学習による野生における口唇合成

Lip-to-Speech Synthesis in the Wild with Multi-task Learning ( http://arxiv.org/abs/2302.08841v1 )

ライセンス: Link先を確認
Minsu Kim, Joanna Hong, Yong Man Ro(参考訳) 近年の研究では、視覚情報のみから音声を再構築することを目的とした、口唇合成における印象的な性能が示されている。 しかし、モデルが正しい内容の推測を導くための監督が不十分なため、野生での正確な音声合成に苦慮している。 本稿では,従来の方法とは異なり,自然環境においても入力唇運動から正しい内容の音声を再構成できる強力なlip2speech法を開発した。 この目的のために,マルチモーダル・インスペクション(テキストと音声)を用いてモデルを指導するマルチタスク学習を設計し,音響特徴再構成損失の表現不足を補う。 そこで,提案手法は,制約のない複数の話者の適切な内容を含む音声を合成する利点をもたらす。 LRS2, LRS3, LRWデータセットを用いて提案手法の有効性を検証する。

Recent studies have shown impressive performance in Lip-to-speech synthesis that aims to reconstruct speech from visual information alone. However, they have been suffering from synthesizing accurate speech in the wild, due to insufficient supervision for guiding the model to infer the correct content. Distinct from the previous methods, in this paper, we develop a powerful Lip2Speech method that can reconstruct speech with correct contents from the input lip movements, even in a wild environment. To this end, we design multi-task learning that guides the model using multimodal supervision, i.e., text and audio, to complement the insufficient word representations of acoustic feature reconstruction loss. Thus, the proposed framework brings the advantage of synthesizing speech containing the right content of multiple speakers with unconstrained sentences. We verify the effectiveness of the proposed method using LRS2, LRS3, and LRW datasets.
翻訳日:2023-02-20 14:52:12 公開日:2023-02-17
# コントラスト表現アンサンブルによるマルチモーダルフェデレーション学習

Multimodal Federated Learning via Contrastive Representation Ensemble ( http://arxiv.org/abs/2302.08888v1 )

ライセンス: Link先を確認
Qiying Yu, Yang Liu, Yimu Wang, Ke Xu, Jingjing Liu(参考訳) 現代のモバイルシステムやIoTインフラストラクチャ上のマルチメディアデータの増加に伴い、ユーザのプライバシを侵害することなく、これらのリッチなマルチモーダルデータを活用することが重要な問題となっている。 フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。 しかし、マルチモーダルデータに拡張された既存のflメソッドはすべて単一のモダリティレベルでのモデルアグリゲーションに依存しているため、サーバとクライアントはそれぞれのモダリティに対して同一のモデルアーキテクチャを持つことができる。 これは、タスクの多様性を言うまでもなく、モデルの複雑さとデータ容量の両方の観点から、グローバルモデルを制限する。 本研究では,マルチモーダルFL(CreamFL)のためのコントラシティブ表現アンサンブルとアグリゲーションを提案する。CreamFLは,異種モデルアーキテクチャとデータモダリティを持つクライアントから大規模サーバモデルをトレーニングし,公開データセット上でのみ知識を伝達するマルチモーダル・フェデレート学習フレームワークである。 より優れたマルチモーダル表現融合を実現するため,クライアント表現を集約するグローバルなマルチモーダルアンサンブル戦略を設計する。 マルチモーダルな不一致(モダリティギャップとタスクギャップ)から生じる2つの前例のない不均一な要因による局所モデルドリフトを軽減するため,一様でないクライアントのモダリティに関する情報を補完し,グローバルなコンセンサスに向かってローカルクライアントを正規化する2つのモーダル・イン・モーダルコントラストを提案する。 画像テキスト検索と視覚的質問応答タスクの詳細な評価とアブレーション研究は、最先端のFL法よりもCreamFLの方が優れていることを示す。

With the increasing amount of multimedia data on modern mobile systems and IoT infrastructures, harnessing these rich multimodal data without breaching user privacy becomes a critical issue. Federated learning (FL) serves as a privacy-conscious alternative to centralized machine learning. However, existing FL methods extended to multimodal data all rely on model aggregation on single modality level, which restrains the server and clients to have identical model architecture for each modality. This limits the global model in terms of both model complexity and data capacity, not to mention task diversity. In this work, we propose Contrastive Representation Ensemble and Aggregation for Multimodal FL (CreamFL), a multimodal federated learning framework that enables training larger server models from clients with heterogeneous model architectures and data modalities, while only communicating knowledge on public dataset. To achieve better multimodal representation fusion, we design a global-local cross-modal ensemble strategy to aggregate client representations. To mitigate local model drift caused by two unprecedented heterogeneous factors stemming from multimodal discrepancy (modality gap and task gap), we further propose two inter-modal and intra-modal contrasts to regularize local training, which complements information of the absent modality for uni-modal clients and regularizes local clients to head towards global consensus. Thorough evaluations and ablation studies on image-text retrieval and visual question answering tasks showcase the superiority of CreamFL over state-of-the-art FL methods and its practical value.
翻訳日:2023-02-20 14:46:15 公開日:2023-02-17
# メタバースのゼロトラストセキュリティに向けて

Towards Zero-trust Security for the Metaverse ( http://arxiv.org/abs/2302.08885v1 )

ライセンス: Link先を確認
Ruizhi Cheng, Songqing Chen, Bo Han(参考訳) ユーザ間の没入的なインタラクションに焦点を当てることで、急成長するMetaverseは、既存のソーシャルメディアの自然な拡張と見なすことができる。 従来のオンラインソーシャルネットワークと同様に、Metaverseには多くのセキュリティとプライバシーの問題がある(例えば、ユーザー認証と偽造に対する攻撃)。 本稿では,Metaverseの初期プロトタイプであるソーシャルバーチャルリアリティー(VR)におけるゼロトラストユーザ認証のための総合的研究アジェンダを開発する。 提案研究は,VRユーザの継続的な認証に適したバイオメトリックスベースの認証,生体データにおけるユーザのプライバシ保護のためのフェデレート学習(FL)の利用,マルチモーダルデータによる連続VR認証の精度向上,適応型VR認証によるゼロトラストセキュリティのユーザビリティ向上の4つの具体的ステップを含む。 予備的な研究では、従来のFLアルゴリズムは生体認証によるVRユーザーの認証には適していないことが示されており、精度は10%以下である。 この問題の根本原因、関連するオープン課題、そして我々の研究ビジョンを実現するための今後の方向性について論じる。

By focusing on immersive interaction among users, the burgeoning Metaverse can be viewed as a natural extension of existing social media. Similar to traditional online social networks, there are numerous security and privacy issues in the Metaverse (e.g., attacks on user authentication and impersonation). In this paper, we develop a holistic research agenda for zero-trust user authentication in social virtual reality (VR), an early prototype of the Metaverse. Our proposed research includes four concrete steps: investigating biometrics-based authentication that is suitable for continuously authenticating VR users, leveraging federated learning (FL) for protecting user privacy in biometric data, improving the accuracy of continuous VR authentication with multimodal data, and boosting the usability of zero-trust security with adaptive VR authentication. Our preliminary study demonstrates that conventional FL algorithms are not well suited for biometrics-based authentication of VR users, leading to an accuracy of less than 10%. We discuss the root cause of this problem, the associated open challenges, and several future directions for realizing our research vision.
翻訳日:2023-02-20 14:45:42 公開日:2023-02-17
# ナッツとボルトからツールの袋まで、量子コンピューティングツールキット

Quantum Computing Toolkit From Nuts and Bolts to Sack of Tools ( http://arxiv.org/abs/2302.08884v1 )

ライセンス: Link先を確認
Himanshu Sahu and Dr. Hariprabhat Gupta(参考訳) 量子コンピューティングは、古典的コンピューティングよりも処理において指数関数的なパフォーマンスの利点を提供する可能性がある。 これは計算問題を解くために量子力学現象(重ね合わせ、絡み合い、干渉など)を利用する。 古典的コンピュータが効率的に実行できないデータ上の非定型パターンを探索することができる。 量子コンピュータは開発初期段階にあり、デコヒーレンス、すなわち環境相互作用によって劣化する量子ビットのためにノイズがある。 量子コンピュータがフォールトトレランスを達成するには長い時間がかかるが、量子アルゴリズムは事前に開発できる。 量子ハードウェア、ソフトウェア開発キット、シミュレータの開発への多大な投資は、量子開発ツールの多種性に繋がった。 適切な開発プラットフォームの選択には、これらのツールの機能と制限を適切に理解する必要がある。 異なる量子開発ツールの包括的比較は、我々の知る限りでは大きな価値があるが、現時点ではそのような広範な研究は行われていない。

Quantum computing has the potential to provide exponential performance benefits in processing over classical computing. It utilizes quantum mechanics phenomena (such as superposition, entanglement, and interference) to solve a computational problem. It can explore atypical patterns over data that classical computers can't perform efficiently. Quantum computers are in the nascent stage of development and are noisy due to decoherence, i.e., quantum bits deteriorate with environmental interactions. It will take a long time for quantum computers to achieve fault tolerance although quantum algorithms can be developed in advance. Heavy investment in developing quantum hardware, software development kits, and simulators has led to multiplicity of quantum development tools. Selection of a suitable development platform requires a proper understanding of the capabilities and limitations of these tools. Although a comprehensive comparison of the different quantum development tools would be of great value, to the best of our knowledge, no such extensive study is currently available.
翻訳日:2023-02-20 14:45:23 公開日:2023-02-17
# 近似ベイズ最適擬似ラベル選択

Approximate Bayes Optimal Pseudo-Label Selection ( http://arxiv.org/abs/2302.08883v1 )

ライセンス: Link先を確認
Julian Rodemann, Jann Goschenhofer, Emilio Dorigatti, Thomas Nagler, Thomas Augustin(参考訳) 自己学習による半教師付き学習は擬似ラベル選択(pls)に大きく依存する。 選択はしばしばラベル付きデータに適合する初期モデルに依存する。 したがって、初期オーバーフィッティングは、しばしば確認バイアスと呼ばれる過信だが誤った予測を持つインスタンスを選択することで最終モデルに伝播する可能性がある。 本稿では,この問題の緩和を目的としたBPLSについて述べる。 その核となるのは、ラベルのインスタンスを選択するための基準である:擬似サンプルの後方予測の解析的近似である。 この選択基準を疑似サンプルの後方予測のベイズ最適性を証明することによって導出する。 さらに、評価基準を解析的に近似することで計算ハードルを克服する。 その限界確率との関係により、ラプラスの方法とガウス積分に基づく近似を導き出すことができる。 シミュレーションおよび実世界のデータに基づいて,パラメトリック一般化線形および非パラメトリック一般化加法モデルに対してBPLSを実験的に評価する。 高次元データに直面すると、BPLSは従来のPLS法よりも優れている。

Semi-supervised learning by self-training heavily relies on pseudo-label selection (PLS). The selection often depends on the initial model fit on labeled data. Early overfitting might thus be propagated to the final model by selecting instances with overconfident but erroneous predictions, often referred to as confirmation bias. This paper introduces BPLS, a Bayesian framework for PLS that aims to mitigate this issue. At its core lies a criterion for selecting instances to label: an analytical approximation of the posterior predictive of pseudo-samples. We derive this selection criterion by proving Bayes optimality of the posterior predictive of pseudo-samples. We further overcome computational hurdles by approximating the criterion analytically. Its relation to the marginal likelihood allows us to come up with an approximation based on Laplace's method and the Gaussian integral. We empirically assess BPLS for parametric generalized linear and non-parametric generalized additive models on simulated and real-world data. When faced with high-dimensional data prone to overfitting, BPLS outperforms traditional PLS methods.
翻訳日:2023-02-20 14:45:08 公開日:2023-02-17
# 絡み合う集団測定による量子状態の識別

Discriminating qubit states with entangling collective measurements ( http://arxiv.org/abs/2302.08882v1 )

ライセンス: Link先を確認
Lorcan O. Conlon, Falk Eilenberger, Ping Koy Lam and Syed M. Assad(参考訳) 非直交状態が完全に区別できないのは量子力学の中心的な事実である。 この特性は量子鍵分布の安全性を保証する。 したがって、量子状態を最適に区別する戦略を設計し実装する量子通信において重要なタスクである。 一般に、量子状態の複数のコピーを区別する場合、最適な測定は密接な集団的測定となる。 しかし、これまでは量子状態の識別を強化するために集団計測は使われていない。 この主な理由の1つは、通常の状態判別設定では、分離可能な測定を上回るために、量子状態の少なくとも3つのコピーをまとめて測定する必要があるという事実である。 これは実験的に非常に難しい。 そこで本研究では,非エンタングリング計測よりも低い誤差確率を達成する集団計測を用いて,単一量子ビット状態の2つのコピーを識別するためのプロトコルを提案し,実験的に実証する。 我々は、超伝導量子プロセッサであるIBM Q System Oneデバイス上で測定を実装した。 この研究は、量子通信システムの最適化に向けた重要なステップである。

It is a central fact in quantum mechanics that non-orthogonal states cannot be distinguished perfectly. This property ensures the security of quantum key distribution. It is therefore an important task in quantum communication to design and implement strategies to optimally distinguish quantum states. In general, when distinguishing multiple copies of quantum states the optimal measurement will be an entangling collective measurement. However, to date, collective measurements have not been used to enhance quantum state discrimination. One of the main reasons for this is the fact that, in the usual state discrimination setting, at least three copies of a quantum state are required to be measured collectively to outperform separable measurements. This is very challenging experimentally. In this work, we propose and experimentally demonstrate a protocol for distinguishing two copies of single qubit states using collective measurements which achieves a lower probability of error than can be achieved by any non-entangling measurement. We implement our measurements on an IBM Q System One device, a superconducting quantum processor. This work represents an important step towards optimising quantum communication systems.
翻訳日:2023-02-20 14:44:55 公開日:2023-02-17
# herculeanタスク:量子コンピュータの古典的シミュレーション

A Herculean task: Classical simulation of quantum computers ( http://arxiv.org/abs/2302.08880v1 )

ライセンス: Link先を確認
Xiaosi Xu, Simon Benjamin, Jinzhao Sun, Xiao Yuan, and Pan Zhang(参考訳) 従来の計算資源で量子マシンをシミュレートする有用な量子コンピュータの開発は重要な能力である。 このようなシミュレーションは、量子コンピュータのエミュレーションを効果的に防止する限界に常に直面するが、アルゴリズムとハードウェアの最適選択によって封筒を可能な限り押し込むことで、シミュレータツールの価値は最大化される。 本研究は、量子コンピュータの進化を特定の操作下でエミュレートする古典的アルゴリズムという、最先端の数値シミュレーション手法を概説する。 我々は,状態ベクトルとテンソルネットワークの主流パラダイムに注目しながら,代替手法を簡潔に述べる。 また,量子計算機開発において,量子計算と古典計算の基本的な違いを理解すること,設計段階における量子プロセッサの性能予測のためのアルゴリズム設計空間を探索すること,製造装置を高速イテレーションで効率的に特徴付けること,など,様々な面にわたるシミュレーションの応用を概観する。 本稿では, 従来のシミュレーションの理論的基礎を深く理解した上で, 様々な手法の利点と限界, 実践的なユースケースから生じる要求と課題について, より詳細な考察を行う。

In the effort to develop useful quantum computers simulating quantum machines with conventional computing resources is a key capability. Such simulations will always face limits preventing the emulation of quantum computers of substantial scale but by pushing the envelope as far as possible through optimal choices of algorithms and hardware the value of the simulator tool is maximized. This work reviews the state-of-the-art numerical simulation methods i.e. the classical algorithms that emulate quantum computer evolution under specific operations. We focus on the mainstream state-vector and tensor-network paradigms while briefly mentioning alternative methods. Moreover we review the diverse applications of simulation across different facets of quantum computer development such as understanding the fundamental difference between quantum and classical computations exploring algorithm design spaces for quantum advantage predicting quantum processor performance at the design stage and characterizing fabricated devices efficiently for fast iterations. This review complements recent surveys on today's tools and implementations here we seek to acquaint the reader with an essential understanding of the theoretical basis of classical simulations detailed discussions on the advantages and limitations of different methods and the demands and challenges arising from practical use cases.
翻訳日:2023-02-20 14:44:39 公開日:2023-02-17
# より少ない: CNNの説明可能性に及ぼすプルーニングの影響

Less is More: The Influence of Pruning on the Explainability of CNNs ( http://arxiv.org/abs/2302.08878v1 )

ライセンス: Link先を確認
David Weber, Florian Merkle, Pascal Sch\"ottle, Stephan Schl\"ogl(参考訳) コンピュータビジョンにおける最新の最先端畳み込みニューラルネットワーク(cnns)には、数百万のパラメータがある。 したがって、そのようなネットワークの複雑な決定を人間に説明することは困難である。 cnnの複雑さを減らす技術的アプローチはネットワークプラニングであり、重要なパラメータが削除される。 本稿では,この技術的複雑性の低減が説明可能性の認知に有効かどうかを考察する。 そこで我々は, プレスタディと2つの人間地上実験を行い, 異なるプルーニング比がCNN説明可能性に及ぼす影響を評価した。 全体として,メカニカル・ターク上で37500タスクからなる4つの異なる圧縮速度(cpr 2, 4, 8, 32)を評価した。 その結果, 圧縮速度の低下は説明可能性に肯定的な影響を及ぼし, 圧縮速度の上昇は否定的な影響を示した。 さらに,理解された説明可能性とモデルの性能を両立させるスイートスポットを識別できた。

Modern, state-of-the-art Convolutional Neural Networks (CNNs) in computer vision have millions of parameters. Thus, explaining the complex decisions of such networks to humans is challenging. A technical approach to reduce CNN complexity is network pruning, where less important parameters are deleted. The work presented in this paper investigates whether this technical complexity reduction also helps with perceived explainability. To do so, we conducted a pre-study and two human-grounded experiments, assessing the effects of different pruning ratios on CNN explainability. Overall, we evaluated four different compression rates (i.e., CPR 2, 4, 8, and 32) with 37 500 tasks on Mechanical Turk. Results indicate that lower compression rates have a positive influence on explainability, while higher compression rates show negative effects. Furthermore, we were able to identify sweet spots that increase both the perceived explainability and the model's performance.
翻訳日:2023-02-20 14:44:17 公開日:2023-02-17
# Sachdev-Ye-Kitaev型モデルにおける可変リアプノフ指数

Tunable Lyapunov exponent in a Sachdev-Ye-Kitaev-type model ( http://arxiv.org/abs/2302.08876v1 )

ライセンス: Link先を確認
A. S. Shankar, M. Fremling, S. Plugge, L. Fritz(参考訳) SYKモデル(Sachdev-Ye-Kitaev)は、最大リアプノフ指数を持つカオス挙動を示す。 本稿では,SYK型モデルの4点関数を数値的に検討し,リアプノフ指数にアクセスできるようにする。 このモデルは、A と B と呼ばれるマヨラナフェルミオンの2つの集合で構成され、相互作用は集合内ではなく2つの集合間の対関係に限定される。 リアプノフ指数は、強いカップリングで等しい人口を中心とするaとbの比の範囲において、数値的精度において最大である。 この領域では、従来のSYKモデルのリアプノフ指数を回復する。

The Sachdev-Ye-Kitaev (SYK) model shows chaotic behavior with a maximal Lyapunov exponent. In this paper, we investigate the four-point function of a SYK-type model numerically, which gives us access to its Lyapunov exponent. The model consists of two sets of Majorana fermions, called A and B, and the interactions are restricted to being exclusively pairwise between the two sets, not within the sets. We find that the Lyapunov exponent is maximal, within numerical accuracy, for a range of ratios of A and B centered around equal population at strong coupling. In this region we recover the Lyapunov exponent of the conventional SYK model.
翻訳日:2023-02-20 14:44:02 公開日:2023-02-17
# 平均変動推定ニューラルネットワークの最適学習

Optimal Training of Mean Variance Estimation Neural Networks ( http://arxiv.org/abs/2302.08875v1 )

ライセンス: Link先を確認
Laurens Sluijterman, Eric Cator, Tom Heskes(参考訳) 本稿では,平均変数推定ネットワーク(MVEネットワーク)の最適実装に焦点を当てた(Nix and Weigend,1994)。 このタイプのネットワークは、例えばコンクリート投棄(Gal et al., 2017)やDeep Ensembles(Lakshminarayanan et al., 2017)など、回帰環境での不確実性推定手法のビルディングブロックとしてよく使用される。 具体的には、MVEネットワークは、平均関数と分散関数を持つ正規分布からデータを生成すると仮定する。 mveネットワークは平均および分散推定を出力し、負対数を最小化することによりネットワークパラメータを最適化する。 本稿では,本研究で報告されている収束困難を,原作者からの温暖化期間の使用を推奨することで,比較的容易に防止できる2点について論じる。 この期間、固定分散を仮定して平均のみを最適化する。 この推奨は実際には使われないことが多い。 このステップがいかに必要か実験的に示します。 また、ウォームアップ後の平均推定値が、ウォームアップ後の平均値と分散値の両方を同時に推定するよりも、異なる結果をもたらすかどうかについても検討した。 我々は大きな違いを観察しない。 次に,MVEネットワークの新たな改良点として,平均値と分散推定値を分離する手法を提案する。 おもちゃの例でも、多くのベンチマーク UCI 回帰データセットでも、オリジナルのレコメンデーションと新しい別個の正規化に従えば、大幅な改善がもたらされることを示す。

This paper focusses on the optimal implementation of a Mean Variance Estimation network (MVE network) (Nix and Weigend, 1994). This type of network is often used as a building block for uncertainty estimation methods in a regression setting, for instance Concrete dropout (Gal et al., 2017) and Deep Ensembles (Lakshminarayanan et al., 2017). Specifically, an MVE network assumes that the data is produced from a normal distribution with a mean function and variance function. The MVE network outputs a mean and variance estimate and optimizes the network parameters by minimizing the negative loglikelihood. In this paper, we discuss two points: firstly, the convergence difficulties reported in recent work can be relatively easily prevented by following the recommendation from the original authors that a warm-up period should be used. During this period, only the mean is optimized assuming a fixed variance. This recommendation is often not used in practice. We experimentally demonstrate how essential this step is. We also examine if keeping the mean estimate fixed after the warm-up leads to different results than estimating both the mean and the variance simultaneously after the warm-up. We do not observe a substantial difference. Secondly, we propose a novel improvement of the MVE network: separate regularization of the mean and the variance estimate. We demonstrate, both on toy examples and on a number of benchmark UCI regression data sets, that following the original recommendations and the novel separate regularization can lead to significant improvements.
翻訳日:2023-02-20 14:43:50 公開日:2023-02-17
# 最悪の成績の授業における対人訓練の見直し

Revisiting adversarial training for the worst-performing class ( http://arxiv.org/abs/2302.08872v1 )

ライセンス: Link先を確認
Thomas Pethick, Grigorios G. Chrysos, Volkan Cevher(参考訳) 対人訓練(AT)の進歩にもかかわらず、多くのデータセットにおいて、最高のパフォーマンスと最悪のパフォーマンスのクラスの間にはかなりのギャップがある。 例えば、CIFAR10では、最高のクラスと最悪のクラスのアキュラシーはそれぞれ74%と23%である。 我々は、このギャップを最悪のパフォーマンスクラスに対して明示的に最適化することで低減することができ、結果としてmin-max-max最適化定式化が実現されると主張している。 本手法は,クラス集中型オンライン学習(CFOL)と呼ばれ,最悪のクラス損失の確率収束を保証するとともに,計算オーバーヘッドを最小限に抑えた既存のトレーニング環境に容易に統合できる。 CIFAR100 と STL10 間の一貫した挙動を観測し,CIFAR100 と STL10 で最悪のクラス精度で 32% の改善を示す。 本研究は,安全クリティカルなアプリケーションにおいて特に重要である平均精度を超えることの重要性を強調する。

Despite progress in adversarial training (AT), there is a substantial gap between the top-performing and worst-performing classes in many datasets. For example, on CIFAR10, the accuracies for the best and worst classes are 74% and 23%, respectively. We argue that this gap can be reduced by explicitly optimizing for the worst-performing class, resulting in a min-max-max optimization formulation. Our method, called class focused online learning (CFOL), includes high probability convergence guarantees for the worst class loss and can be easily integrated into existing training setups with minimal computational overhead. We demonstrate an improvement to 32% in the worst class accuracy on CIFAR10, and we observe consistent behavior across CIFAR100 and STL10. Our study highlights the importance of moving beyond average accuracy, which is particularly important in safety-critical applications.
翻訳日:2023-02-20 14:43:25 公開日:2023-02-17
# クロスコーパス音声感情認識のための深部暗黙分布アライメントネットワーク

Deep Implicit Distribution Alignment Networks for Cross-Corpus Speech Emotion Recognition ( http://arxiv.org/abs/2302.08921v1 )

ライセンス: Link先を確認
Yan Zhao, Jincen Wang, Yuan Zong, Wenming Zheng, Hailun Lian, Li Zhao(参考訳) 本稿では,異なるコーパスからラベル付き学習(ソース)とラベルなしテスト(ターゲット)の音声信号が出力されるクロスコーパス音声感情認識(ser)問題に対処するために,深部暗黙分布アライメントネットワーク(didan)と呼ばれる新しい深部伝達学習法を提案する。 具体的には、DIDANはまず、一連の畳み込み層と完全に連結された層からなる単純な深層回帰ネットワークを採用し、元の音声スペクトルを直接感情ラベルに回帰させ、提案したDIDANが感情識別能力を所有できるようにする。 次に、暗黙的分布アライメント(IDA)と呼ばれるよく設計された正規化項に頼って、コーパスのばらつきにかかわらず、対象の音声サンプルにもそのような能力が適用される。 広範に使用されている最大平均差分率(MMD)とその変種とは異なり,提案したIDAはサンプル再構成のアイデアを吸収して分布ギャップを暗黙的に整列させ,DIDANは音声スペクトルから感情判別とコーパス不変の特徴を学習することができる。 提案したDIDANを評価するために,広く使用されている音声感情コーパスに対する広範囲なSER実験を行った。 実験結果から,提案したDIDANは, クロスコーパスSERタスクに対処する上で, 最近の最先端手法よりも優れていることがわかった。

In this paper, we propose a novel deep transfer learning method called deep implicit distribution alignment networks (DIDAN) to deal with cross-corpus speech emotion recognition (SER) problem, in which the labeled training (source) and unlabeled testing (target) speech signals come from different corpora. Specifically, DIDAN first adopts a simple deep regression network consisting of a set of convolutional and fully connected layers to directly regress the source speech spectrums into the emotional labels such that the proposed DIDAN can own the emotion discriminative ability. Then, such ability is transferred to be also applicable to the target speech samples regardless of corpus variance by resorting to a well-designed regularization term called implicit distribution alignment (IDA). Unlike widely-used maximum mean discrepancy (MMD) and its variants, the proposed IDA absorbs the idea of sample reconstruction to implicitly align the distribution gap, which enables DIDAN to learn both emotion discriminative and corpus invariant features from speech spectrums. To evaluate the proposed DIDAN, extensive cross-corpus SER experiments on widely-used speech emotion corpora are carried out. Experimental results show that the proposed DIDAN can outperform lots of recent state-of-the-art methods in coping with the cross-corpus SER tasks.
翻訳日:2023-02-20 14:37:13 公開日:2023-02-17
# 大規模言語モデルを用いた多言語浅層融合

Massively Multilingual Shallow Fusion with Large Language Models ( http://arxiv.org/abs/2302.08917v1 )

ライセンス: Link先を確認
Ke Hu, Tara N. Sainath, Bo Li, Nan Du, Yanping Huang, Andrew M. Dai, Yu Zhang, Rodrigo Cabrera, Zhifeng Chen, Trevor Strohman(参考訳) 大規模言語モデル (LLM) は, 自然言語処理において顕著な進歩を遂げているが, 自動音声認識 (ASR) の改善にどのように活用すればよいのかは不明である。 本研究では,複数言語での浅層融合のための単一多言語言語モデル (LM) を提案する。 我々は,多言語LMの限界を最大84言語まで拡大し,多言語LM(ジェネラリスト言語モデル:GLaM)を用いてスケールアップする。 専門家の数が増えると、GLaMは各デコードステップで2つだけを動的に選び、推論計算をほぼ一定に保つ。 次に、GLaMを最先端のエンドツーエンドモデルに基づく多言語浅層融合タスクに適用する。 GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。 多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。 ベースラインモデルと比較すると、GLaMは43言語で平均5.53%のWER削減を実現している。

While large language models (LLM) have made impressive progress in natural language processing, it remains unclear how to utilize them in improving automatic speech recognition (ASR). In this work, we propose to train a single multilingual language model (LM) for shallow fusion in multiple languages. We push the limits of the multilingual LM to cover up to 84 languages by scaling up using a mixture-of-experts LLM, i.e., generalist language model (GLaM). When the number of experts increases, GLaM dynamically selects only two at each decoding step to keep the inference computation roughly constant. We then apply GLaM to a multilingual shallow fusion task based on a state-of-the-art end-to-end model. Compared to a dense LM of similar computation during inference, GLaM reduces the WER of an English long-tail test set by 4.4% relative. In a multilingual shallow fusion task, GLaM improves 41 out of 50 languages with an average relative WER reduction of 3.85%, and a maximum reduction of 10%. Compared to the baseline model, GLaM achieves an average WER reduction of 5.53% over 43 languages.
翻訳日:2023-02-20 14:36:47 公開日:2023-02-17
# 量子ノイズの存在下での最適制御非断熱量子状態伝送

Optimally controlled non-adiabatic quantum state transmission in the presence of quantum noise ( http://arxiv.org/abs/2302.08914v1 )

ライセンス: Link先を確認
Xiang-Han Liang, Lian-Ao Wu, Zhao-Ming Wang(参考訳) パルス制御非断熱量子状態伝送(QST)は何年も前に提案された。 しかし,実際に環境騒音が通信品質を損なうことは避けられない。 本稿では,量子ノイズの存在下での最適制御非断熱QSTについて検討する。 adamアルゴリズムを用いることで、最適パルスシーケンスはそのようなオープンシステムの伝送忠実度を劇的に向上させることができる。 閉じた系における理想化されたパルス列と比較すると、adamアルゴリズムによって得られる忠実度の向上は、システムと強く結合した浴槽にとっても良いことに留意する必要がある。 さらに、adamアルゴリズムは、異なる数のサイトや異なる種類のlindblad演算子に対して強力であり、量子情報処理タスクの最適制御を行うための普遍性を示す。

Pulse controlled non-adiabatic quantum state transmission (QST) was proposed many years ago. However, in practice environmental noise inevitably damages communication quality in the proposal. In this paper, we study the optimally controlled non-adiabatic QST in the presence of quantum noise. By using the Adam algorithm, we find that the optimal pulse sequence can dramatically enhance the transmission fidelity of such an open system. In comparison with the idealized pulse sequence in a closed system, it is interesting to note that the improvement of the fidelity obtained by the Adam algorithm can even be better for a bath strongly coupled to the system. Furthermore, we find that the Adam algorithm remains powerful for different number of sites and different types of Lindblad operators, showing its universality in performing optimal control of quantum information processing tasks.
翻訳日:2023-02-20 14:36:27 公開日:2023-02-17
# ランダム投影を用いた一般化可能な下流グラフモデルの作成

Creating generalizable downstream graph models with random projections ( http://arxiv.org/abs/2302.08895v1 )

ライセンス: Link先を確認
Anton Amirov, Chris Quirk, Jennifer Neville(参考訳) 我々は,グラフ間のモデルを一般化するグラフ表現学習アプローチについて検討する: 1つのグラフから表現を用いて訓練されたモデルを考えると,新しいグラフ上で計算された表現がモデルトレーニング中に見えず,推論精度が最小限に抑えられたとき,同じモデルパラメータを用いて推論を適用することが目的である。 これは、同じグラフの見えないノードで推論を行うというより一般的なタスクとは対照的である。 遷移行列の複数のパワーを推定するためにランダムな射影を用いることで、様々なタスクで使える同型不変な特徴の集合を構築することができることを示す。 結果として得られた機能は、計算効率を維持しながら他のアプローチに匹敵する関連性のある推論を可能にするために、ノードのローカル近傍に関する十分な情報を回復するために使用できる。

We investigate graph representation learning approaches that enable models to generalize across graphs: given a model trained using the representations from one graph, our goal is to apply inference using those same model parameters when given representations computed over a new graph, unseen during model training, with minimal degradation in inference accuracy. This is in contrast to the more common task of doing inference on the unseen nodes of the same graph. We show that using random projections to estimate multiple powers of the transition matrix allows us to build a set of isomorphism-invariant features that can be used by a variety of tasks. The resulting features can be used to recover enough information about the local neighborhood of a node to enable inference with relevance competitive to other approaches while maintaining computational efficiency.
翻訳日:2023-02-20 14:35:19 公開日:2023-02-17
# オンラインアクティブラーニングに関する調査

A survey on online active learning ( http://arxiv.org/abs/2302.08893v1 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci(参考訳) オンラインアクティブな学習は機械学習のパラダイムであり、データストリームからラベルに最も情報のあるデータポイントを選択することを目的としている。 ラベル付き観測の収集に伴うコストを最小化する問題は近年,特にラベルなし形式でのみ利用可能となる実世界のアプリケーションにおいて注目されている。 それぞれの観測に注釈をつけるのは時間と費用がかかり、大量のラベル付きデータを得るのが難しくなる。 この問題を解決するために、この数十年間、機械学習モデルの性能を向上させるために、ラベル付けに関する最も有益な観察を選択するための、多くのアクティブラーニング戦略が提案されてきた。 これらのアプローチは、静的プールベースとストリームベースアクティブラーニングの2つのカテゴリに分けられる。 プールベースのアクティブラーニングは、ラベルなしデータのクローズドプールから観測のサブセットを選択することを含み、多くの調査や文献レビューの焦点となっている。 しかし、データストリームの可用性が高まるにつれ、オンラインのアクティブラーニングに重点を置くアプローチが増加し、ストリームに到達した観察を継続的に選択、ラベル付けすることが可能になる。 本研究の目的は、オンラインアクティブラーニングの文脈において、データストリームから最も情報に富む観察を選択するための、最近提案されたアプローチの概要を提供することである。 我々は,提案されている様々な技術についてレビューし,その強みと限界,及びこの分野に存在する課題と機会について論じる。 今回のレビューは,フィールドの包括的かつ最新の概要を提供し,今後の作業の方向性を強調することを目的とする。

Online active learning is a paradigm in machine learning that aims to select the most informative data points to label from a data stream. The problem of minimizing the cost associated with collecting labeled observations has gained a lot of attention in recent years, particularly in real-world applications where data is only available in an unlabeled form. Annotating each observation can be time-consuming and costly, making it difficult to obtain large amounts of labeled data. To overcome this issue, many active learning strategies have been proposed in the last decades, aiming to select the most informative observations for labeling in order to improve the performance of machine learning models. These approaches can be broadly divided into two categories: static pool-based and stream-based active learning. Pool-based active learning involves selecting a subset of observations from a closed pool of unlabeled data, and it has been the focus of many surveys and literature reviews. However, the growing availability of data streams has led to an increase in the number of approaches that focus on online active learning, which involves continuously selecting and labeling observations as they arrive in a stream. This work aims to provide an overview of the most recently proposed approaches for selecting the most informative observations from data streams in the context of online active learning. We review the various techniques that have been proposed and discuss their strengths and limitations, as well as the challenges and opportunities that exist in this area of research. Our review aims to provide a comprehensive and up-to-date overview of the field and to highlight directions for future work.
翻訳日:2023-02-20 14:35:03 公開日:2023-02-17
# イベントベースのビジョンのためのディープラーニング: 総合的な調査とベンチマーク

Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks ( http://arxiv.org/abs/2302.08890v1 )

ライセンス: Link先を確認
Xu Zheng, Yexin Liu, Yunfan Lu, Tongyan Hua, Tianbo Pan, Weiming Zhang, Dacheng Tao, Lin Wang(参考訳) イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度変化を非同期に捉え、強度変化の時間、画素位置、極性(信号)を符号化するイベントストリームを生成する。 イベントカメラは、高時間分解能、高ダイナミックレンジ、低レイテンシなど、標準フレームベースのカメラよりも無数の利点を持っている。 難易度の高い視覚条件で情報をキャプチャできるため、イベントカメラはコンピュータビジョンとロボティクスのコミュニティにおけるフレームベースのカメラの限界を克服する可能性がある。 近年、深層学習(DL)がこの新興分野に導入され、その可能性のマイニングに活発な研究成果がもたらされた。 しかし、技術的進歩はまだ不明であり、急務であり、体系的な概観を行う必要がある。 この目的のために、我々は、イベントベースのビジョンのためのdl技術の最新の開発に焦点を当て、最初の包括的かつ深い調査を行う。 まず、DLモデルの入力として重要な役割を果たす品質向上手法を用いて、典型的なイベント表現を精査する。 次に、既存のDLベースの手法を2つの主要なカテゴリに分類し、包括的に分類する。 1) 画像の復元及び復元 2)3次元視覚のイベントベースシーン理解 重要なことは、いくつかの重要な洞察と問題を特定するために、いくつかの代表的な研究方向(オブジェクト認識と光フロー推定)で既存の手法のベンチマーク実験を行うことである。 最後に,課題について重要な議論を行い,今後の研究を動機付けるための新たな視点を提供する。

Event cameras are bio-inspired sensors that capture the per-pixel intensity changes asynchronously and produce event streams encoding the time, pixel position, and polarity (sign) of the intensity changes. Event cameras possess a myriad of advantages over canonical frame-based cameras, such as high temporal resolution, high dynamic range, low latency, etc. Being capable of capturing information in challenging visual conditions, event cameras have the potential to overcome the limitations of frame-based cameras in the computer vision and robotics community. In very recent years, deep learning (DL) has been brought to this emerging field and inspired active research endeavors in mining its potential. However, the technical advances still remain unknown, thus making it urgent and necessary to conduct a systematic overview. To this end, we conduct the first yet comprehensive and in-depth survey, with a focus on the latest developments of DL techniques for event-based vision. We first scrutinize the typical event representations with quality enhancement methods as they play a pivotal role as inputs to the DL models. We then provide a comprehensive taxonomy for existing DL-based methods by structurally grouping them into two major categories: 1) image reconstruction and restoration; 2) event-based scene understanding 3D vision. Importantly, we conduct benchmark experiments for the existing methods in some representative research directions (eg, object recognition and optical flow estimation) to identify some critical insights and problems. Finally, we make important discussions regarding the challenges and provide new perspectives for motivating future research studies.
翻訳日:2023-02-20 14:34:02 公開日:2023-02-17
# 個人自治と監視資本主義 : 今後の発展の可能性

Personal autonomy and surveillance capitalism: possible future developments ( http://arxiv.org/abs/2302.08946v1 )

ライセンス: Link先を確認
Davide Foini(参考訳) ソーシャルメディアの台頭とコンピュータの計算能力の増大により、FacebookやGoogleのようなテクノロジー企業が信じられないほど大量のデータを収集し、商業目的に使用する有意義な情報を抽出できるようになった。 さらに、これらのプラットフォームの背後にあるアルゴリズムは、感情、行動、意見に影響を与える能力を示しており、ユーザーの独立に対する深刻な脅威を表している。 これらの慣行はすべて、ショサナ・ズボフ(shoshana zuboff)によって作られた「監視資本主義」と呼ばれる。 本稿では、監視資本主義の文脈において、人間の自律性に課される脅威に焦点をあて、この脅威が存在する理由と、そのような行為をしない場合、どのような結果に直面することができるのかを分析した。

The rise of social media and the increase in the computational capabilities of computers have allowed tech companies such as Facebook and Google to gather incredibly large amounts of data and to be able to extract meaningful information to use for commercial purposes. Moreover, the algorithms behind these platforms have shown the ability to influence feelings, behaviors, and opinions, representing a serious threat to the independence of their users. All of these practices have been referred to as "surveillance capitalism", a term created by Shoshana Zuboff. In this paper I focus on the threat imposed on the autonomy of human beings in the context of surveillance capitalism, providing both an analysis of the reasons why this threat exists and what consequences we could face if we take no action against such practices.
翻訳日:2023-02-20 14:27:50 公開日:2023-02-17
# UAVの長距離物体レベル単分子深度推定

Long Range Object-Level Monocular Depth Estimation for UAVs ( http://arxiv.org/abs/2302.08943v1 )

ライセンス: Link先を確認
David Silva, Nicolas Jourdan, Nils G\"ahlert(参考訳) コンピュータビジョンに基づく物体検出は、UAVの自律飛行ミッションを可能にする先進的な検出・回避システムにとって重要なモダリティである。 標準オブジェクト検出フレームワークはオブジェクトの実際の深さを予測しないが、この情報は衝突を避けるために不可欠である。 本稿では,画像からのモノクル物体検出のための最先端手法の新たな拡張について提案する。 まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。 次に, 深さ推定を分類問題とし, トレーニング損失の計算にソフトargmax関数を導入する。 この拡張はYOLOXオブジェクト検出フレームワークに例示的に適用される。 Amazon Airborne Object Tracking データセットを用いて性能を評価する。 さらに,物体検出と深度推定の両性能を共同評価する新たな指標として,Fitnessスコアを導入する。 以上の結果から,提案手法は既存の手法よりも優れており,提案手法の指標も優れていることがわかった。

Computer vision-based object detection is a key modality for advanced Detect-And-Avoid systems that allow for autonomous flight missions of UAVs. While standard object detection frameworks do not predict the actual depth of an object, this information is crucial to avoid collisions. In this paper, we propose several novel extensions to state-of-the-art methods for monocular object detection from images at long range. Firstly, we propose Sigmoid and ReLU-like encodings when modeling depth estimation as a regression task. Secondly, we frame the depth estimation as a classification problem and introduce a Soft-Argmax function in the calculation of the training loss. The extensions are exemplarily applied to the YOLOX object detection framework. We evaluate the performance using the Amazon Airborne Object Tracking dataset. In addition, we introduce the Fitness score as a new metric that jointly assesses both object detection and depth estimation performance. Our results show that the proposed methods outperform state-of-the-art approaches w.r.t. existing, as well as the proposed metrics.
翻訳日:2023-02-20 14:27:36 公開日:2023-02-17
# 逆生成モデルに対するPAC-Bayesian一般化境界

PAC-Bayesian Generalization Bounds for Adversarial Generative Models ( http://arxiv.org/abs/2302.08942v1 )

ライセンス: Link先を確認
Sokhna Diarra Mbacke, Florence Clerc, Pascal Germain(参考訳) PAC-ベイズ理論を生成モデルに拡張し、ワッサーシュタイン距離と全変動距離に基づくモデルに対する一般化境界を開発する。 ワッサーシュタイン距離に関する我々の第一の結果は、インスタンス空間が有界であると仮定し、第二の結果は次元還元を利用する。 我々の結果はワッサースタイン GAN とエネルギーベース GAN に自然に適用され、これらの2つの領域に新たなトレーニング目標が提供される。 本研究は主に理論的だが, 合成データセット上でのワッサーシュタイン GAN の非空一般化境界を示す数値実験を行う。

We extend PAC-Bayesian theory to generative models and develop generalization bounds for models based on the Wasserstein distance and the total variation distance. Our first result on the Wasserstein distance assumes the instance space is bounded, while our second result takes advantage of dimensionality reduction. Our results naturally apply to Wasserstein GANs and Energy-Based GANs, and our bounds provide new training objectives for these two. Although our work is mainly theoretical, we perform numerical experiments showing non-vacuous generalization bounds for Wasserstein GANs on synthetic datasets.
翻訳日:2023-02-20 14:27:21 公開日:2023-02-17
# より多くのデータ型:プライバシーポリシーにおける複雑さ、安定性、感度の時間的分析

More Data Types More Problems: A Temporal Analysis of Complexity, Stability, and Sensitivity in Privacy Policies ( http://arxiv.org/abs/2302.08936v1 )

ライセンス: Link先を確認
Juniper Lovato, Philip Mueller, Parisa Suchdev, Peter S. Dodds(参考訳) データ主題に関する個人識別情報(PII)の収集が大きなビジネスとなっている。 データブローカーとデータプロセッサは数十億ドル規模の業界の一部であり、消費者データの収集、売買から利益を得ている。 しかし、データ収集業界にはほとんど透明性がなく、どの種類のデータが収集、使用、販売されているかを理解することが難しく、従って個々のデータ科目にとってリスクがある。 本研究では,データブローカとデータプロセッサのデータ収集活動を調査するため,1997年から2019年にかけて,プライバシポリシの大規模テキストデータセットを調査した。 また、法律文書から算出したPIIデータ型を表すPII関連用語のオリジナル辞書を開発する。 このメソスケール分析は、時間とともにプライバシーポリシーの安定性、複雑さ、感度を理解するために、単語、トピック、ネットワークレベルにおけるプライバシーポリシーの残量を調べる。 1)プライバシ法案は,プライバシポリシにおけるpiiデータタイプの安定性と乱れの変化と相関し,(2)プライバシポリシの複雑さは時間とともに減少し,より規則化され,(3)感度は時間とともに上昇し,新たなプライバシ法案が導入された場合の事象と相関するスパイクを示す。

Collecting personally identifiable information (PII) on data subjects has become big business. Data brokers and data processors are part of a multi-billion-dollar industry that profits from collecting, buying, and selling consumer data. Yet there is little transparency in the data collection industry which makes it difficult to understand what types of data are being collected, used, and sold, and thus the risk to individual data subjects. In this study, we examine a large textual dataset of privacy policies from 1997-2019 in order to investigate the data collection activities of data brokers and data processors. We also develop an original lexicon of PII-related terms representing PII data types curated from legislative texts. This mesoscale analysis looks at privacy policies overtime on the word, topic, and network levels to understand the stability, complexity, and sensitivity of privacy policies over time. We find that (1) privacy legislation correlates with changes in stability and turbulence of PII data types in privacy policies; (2) the complexity of privacy policies decreases over time and becomes more regularized; (3) sensitivity rises over time and shows spikes that are correlated with events when new privacy legislation is introduced.
翻訳日:2023-02-20 14:27:12 公開日:2023-02-17
# 一般化線形モデルにおけるガウス混合の普遍性則

Universality laws for Gaussian mixtures in generalized linear models ( http://arxiv.org/abs/2302.08933v1 )

ライセンス: Link先を確認
Yatin Dandi, Ludovic Stephan, Florent Krzakala, Bruno Loureiro and Lenka Zdeborov\'a(参考訳) $(x_{i}, y_{i})_{i=1,\dots,n}$ は一般混合分布 $\sum_{c\in\mathcal{C}}\rho_{c}P_{c}^{x}$ からの独立なサンプルを示し、一般化線型モデルの仮説クラス $\hat{y} = F(\Theta^{\top}x)$ を考える。 本研究では,一般化線形推定器の族である $(\theta_{1}, \dots, \theta_{m})$ の漸近合同統計について検討する。 (a)経験的リスク $\hat{R}_{n}(\Theta;X,y)$ を最小化する (b)関連するギブスからのサンプリングは、$\exp(-\beta n \hat{r}_{n}(\theta;x,y))$である。 我々の主な貢献は、この族の漸近的合同統計が(弱い意味で)クラス条件特徴分布の手段と共分散にのみ依存する条件下で特徴づけることである。 特に、これはガウス混合仮説の下で働く高次元統計学における最近の研究の行を再評価することで、訓練や一般化誤差のような異なる量の興味の普遍性を証明できる。 最後に、センシングや不確実性など、異なる機械学習タスクに対する結果の適用について論じる。

Let $(x_{i}, y_{i})_{i=1,\dots,n}$ denote independent samples from a general mixture distribution $\sum_{c\in\mathcal{C}}\rho_{c}P_{c}^{x}$, and consider the hypothesis class of generalized linear models $\hat{y} = F(\Theta^{\top}x)$. In this work, we investigate the asymptotic joint statistics of the family of generalized linear estimators $(\Theta_{1}, \dots, \Theta_{M})$ obtained either from (a) minimizing an empirical risk $\hat{R}_{n}(\Theta;X,y)$ or (b) sampling from the associated Gibbs measure $\exp(-\beta n \hat{R}_{n}(\Theta;X,y))$. Our main contribution is to characterize under which conditions the asymptotic joint statistics of this family depends (on a weak sense) only on the means and covariances of the class conditional features distribution $P_{c}^{x}$. In particular, this allow us to prove the universality of different quantities of interest, such as the training and generalization errors, redeeming a recent line of work in high-dimensional statistics working under the Gaussian mixture hypothesis. Finally, we discuss the applications of our results to different machine learning tasks of interest, such as ensembling and uncertainty
翻訳日:2023-02-20 14:26:50 公開日:2023-02-17
# LDFA: 自動運転アプリケーションのための潜伏拡散顔匿名化

LDFA: Latent Diffusion Face Anonymization for Self-driving Applications ( http://arxiv.org/abs/2302.08931v1 )

ライセンス: Link先を確認
Marvin Klemp, Kevin R\"osch, Royden Wagner, Jannik Quehl, Martin Lauer(参考訳) 歩行者やサイクリストなどの脆弱な道路利用者(VRU)を保護するためには、インテリジェント交通システム(ITS)がそれらを正確に識別することが不可欠である。 したがって、ITSの知覚モデルをトレーニングするために使用されるデータセットは、かなりの数の脆弱な道路利用者を含む必要がある。 しかし、データ保護規則は、個人がそのようなデータセットで匿名化されることを要求する。 本稿では,ITSの文脈において,顔の匿名化のための新しいディープラーニングベースのパイプラインを提案する。 関連する手法とは対照的に,gans(generative adversarial network)は使用せず,拡散モデルの最近の進歩に基づいている。 本稿では,顔検出モデルと潜時拡散モデルを含む2段階の手法を提案する。 匿名化画像の汎用性を示すため,匿名化データのセグメント化手法を訓練し,匿名化データ上で評価する。 実験により,本パイプラインはナイーブ法よりもセグメンテーション用データの匿名化に適しており,最近のgan法と相性が良いことを示す。 さらに,顔検出装置は,本手法で匿名化した顔に対して,GAN法やGAN法よりも高いmAPスコアが得られる。

In order to protect vulnerable road users (VRUs), such as pedestrians or cyclists, it is essential that intelligent transportation systems (ITS) accurately identify them. Therefore, datasets used to train perception models of ITS must contain a significant number of vulnerable road users. However, data protection regulations require that individuals are anonymized in such datasets. In this work, we introduce a novel deep learning-based pipeline for face anonymization in the context of ITS. In contrast to related methods, we do not use generative adversarial networks (GANs) but build upon recent advances in diffusion models. We propose a two-stage method, which contains a face detection model followed by a latent diffusion model to generate realistic face in-paintings. To demonstrate the versatility of anonymized images, we train segmentation methods on anonymized data and evaluate them on non-anonymized data. Our experiment reveal that our pipeline is better suited to anonymize data for segmentation than naive methods and performes comparably with recent GAN-based methods. Moreover, face detectors achieve higher mAP scores for faces anonymized by our method compared to naive or recent GAN-based methods.
翻訳日:2023-02-20 14:26:23 公開日:2023-02-17
# ファジィ論理と線形計画を用いた準同型暗号パラメータの自動選択

Towards Automated Homomorphic Encryption Parameter Selection with Fuzzy Logic and Linear Programming ( http://arxiv.org/abs/2302.08930v1 )

ライセンス: Link先を確認
Jos\'e Cabrero-Holgueras and Sergio Pastrana(参考訳) ホモモルフィック暗号化(homomorphic Encryption, HE)は、暗号化されたテキスト上でのプライバシー保護操作を可能にする、特定の暗号システムの強力な特性の集合である。 それでも、HEは効率とユーザビリティの制限のため、普及していない。 HEの課題の中で、スキームのパラメトリゼーション(アルゴリズム内の適切なパラメータの選択)は、関連する多面的問題である。 第一に、パラメトリゼーションは基礎となるスキームのセキュリティを保証するために一連のプロパティに従う必要がある。 第二に、パラメータがスキームの正確性、性能、セキュリティに直面する影響があるため、パラメトリゼーションは低レベルのプリミティブを深く理解する必要がある。 最後に、実行される回路が影響し、それがパラメトリゼーションに影響される。 したがって、パラメータの一般的な最適選択は存在せず、この選択は回路とアプリケーションのシナリオに依存する。 現在、既存のheフレームワークのほとんどが、これらの考慮事項を手動で対処するために暗号学者を必要としている。 急な学習曲線を通じて取得される最小限の専門知識が必要です。 本稿では,上記の課題に対する統一的な解決法を提案する。 具体的には,ファジィ論理と線形プログラミングを組み合わせたエキスパートシステムを提案する。 ファジィ論理モジュールは、暗号システムのセキュリティ、効率、パフォーマンスのために、高レベルの優先順位のユーザが選択される。 これらの選好に基づいて、エキスパートシステムは、暗号システムの最小限のセキュリティレベルを維持しながら、それらの優先順位を考慮してパラメータの最適な組み合わせを得る線形プログラミングモデルを生成する。 我々は,回路解析の複雑さを伴わずに,ユーザの嗜好を維持する最適パラメータ選択をエキスパートシステムが生成することを示す,拡張された評価を行う。

Homomorphic Encryption (HE) is a set of powerful properties of certain cryptosystems that allow for privacy-preserving operation over the encrypted text. Still, HE is not widespread due to limitations in terms of efficiency and usability. Among the challenges of HE, scheme parametrization (i.e., the selection of appropriate parameters within the algorithms) is a relevant multi-faced problem. First, the parametrization needs to comply with a set of properties to guarantee the security of the underlying scheme. Second, parametrization requires a deep understanding of the low-level primitives since the parameters have a confronting impact on the precision, performance, and security of the scheme. Finally, the circuit to be executed influences, and it is influenced by, the parametrization. Thus, there is no general optimal selection of parameters, and this selection depends on the circuit and the scenario of the application. Currently, most of the existing HE frameworks require cryptographers to address these considerations manually. It requires a minimum of expertise acquired through a steep learning curve. In this paper, we propose a unified solution for the aforementioned challenges. Concretely, we present an expert system combining Fuzzy Logic and Linear Programming. The Fuzzy Logic Modules receive a user selection of high-level priorities for the security, efficiency, and performance of the cryptosystem. Based on these preferences, the expert system generates a Linear Programming Model that obtains optimal combinations of parameters by considering those priorities while preserving a minimum level of security for the cryptosystem. We conduct an extended evaluation where we show that an expert system generates optimal parameter selections that maintain user preferences without undergoing the inherent complexity of analyzing the circuit.
翻訳日:2023-02-20 14:26:05 公開日:2023-02-17
# 高結合型動的人工ニューラルネットワーク

Highly connected dynamic artificial neural networks ( http://arxiv.org/abs/2302.08928v1 )

ライセンス: Link先を確認
Clint van Alten(参考訳) 本稿では、ニューラルネットワークを実装するためのオブジェクト指向のアプローチを紹介する。 この方法で得られたネットワークは、ネットワークの任意のレイヤ内のノード間のエッジを許可すると同時に、ノード、エッジ、あるいはノードのレイヤの挿入または削除を、簡単に行うことができる動的に、高度に接続されている。 さらに、ノードの活性化関数はレイヤ内で一様である必要はなく、個々のノード内でも変更できる。 このようなネットワークにおけるフィードフォワードステップとバックプロパゲーション手法の実装方法を紹介する。 ネットワークの作成方法、様々な動的特性の実装方法、ネットワークの保存・再生方法についても述べる。

An object-oriented approach to implementing artificial neural networks is introduced in this article. The networks obtained in this way are highly connected in that they admit edges between nodes in any layers of the network, and dynamic, in that the insertion, or deletion, of nodes, edges or layers of nodes can be effected in a straightforward way. In addition, the activation functions of nodes need not be uniform within layers, and can also be changed within individual nodes. Methods for implementing the feedforward step and the backpropagation technique in such networks are presented here. Methods for creating networks, for implementing the various dynamic properties and for saving and recreating networks are also described.
翻訳日:2023-02-20 14:25:40 公開日:2023-02-17
# 頭と手の動きデータから見る5万人以上のバーチャルリアリティーユーザーのユニークな識別

Unique Identification of 50,000+ Virtual Reality Users from Head & Hand Motion Data ( http://arxiv.org/abs/2302.08927v1 )

ライセンス: Link先を確認
Vivek Nair, Wenbo Guo, Justus Mattern, Rui Wang, James F. O'Brien, Louis Rosenberg, Dawn Song(参考訳) 仮想現実(VR)への関心と投資の爆発的な増加といわゆる“メタバース(metaverse)”によって、これらのプラットフォームがもたらすユニークなセキュリティとプライバシの脅威に対して、大衆の注目が向けられている。 人々が自分の動きを通じて自分自身に関する情報を明らかにすることは前から知られているが、それがバーチャルリアリティー内で個人をグローバルに識別できる範囲は、まだ広く理解されていない。 本研究では,仮想物体に対する頭部と手の動きのみを用いて,複数のセッション間で,多数の現実のvrユーザ(n=55,541)を一意かつ確実に識別できることを示す。 個人あたり5分間のデータで分類モデルをトレーニングした後、ユーザーは100秒の動作から94.33%の精度で50,000以上のプール全体と、わずか10秒の動作から73.20%の精度で識別することができる。 この研究は、バイオメカニクスがVRのユニークな識別子として機能しうる範囲を、顔認証や指紋認識などの広く使われている生体認証と同等に真に示す最初のものである。

With the recent explosive growth of interest and investment in virtual reality (VR) and the so-called "metaverse," public attention has rightly shifted toward the unique security and privacy threats that these platforms may pose. While it has long been known that people reveal information about themselves via their motion, the extent to which this makes an individual globally identifiable within virtual reality has not yet been widely understood. In this study, we show that a large number of real VR users (N=55,541) can be uniquely and reliably identified across multiple sessions using just their head and hand motion relative to virtual objects. After training a classification model on 5 minutes of data per person, a user can be uniquely identified amongst the entire pool of 50,000+ with 94.33% accuracy from 100 seconds of motion, and with 73.20% accuracy from just 10 seconds of motion. This work is the first to truly demonstrate the extent to which biomechanics may serve as a unique identifier in VR, on par with widely used biometrics such as facial or fingerprint recognition.
翻訳日:2023-02-20 14:25:29 公開日:2023-02-17
# ガウスのデータは必要なだけか? 高次元一般化線形推定における普遍性の範囲と限界

Are Gaussian data all you need? Extents and limits of universality in high-dimensional generalized linear estimation ( http://arxiv.org/abs/2302.08923v1 )

ライセンス: Link先を確認
Luca Pesce, Florent Krzakala, Bruno Loureiro, Ludovic Stephan(参考訳) 本稿では,ガウス混合データに対する一般化線形推定問題と,単一インデックスモデルによるラベルについて考察する。 最初の結果は、高次元状態におけるテストおよびトレーニングエラーに対する鋭い漸近表現である。 一般線形推定におけるテストのガウス的普遍性に関する最近の結果の流れと訓練誤差に触発されて、我々は「誤りを特徴づけるだけのガウス的は存在しないのか?」という疑問を自問する。 我々の公式は、正方向と負方向の両方において、この問題に鋭い答えを与えることができる。 より正確には、ガウス普遍性(あるいはその欠如)の十分条件が、我々が正確に定量化している混合クラスターの目標重みと平均と共分散のアライメントに決定的に依存していることを示す。 特に最小二乗補間の場合、訓練誤差の強い普遍性が証明され、単純で閉形式の表現に従うことが示される。 最後に,本研究の結果を実データセットに適用し,この文脈における誤差のガウス的普遍性に関する最近の議論を明らかにする。

In this manuscript we consider the problem of generalized linear estimation on Gaussian mixture data with labels given by a single-index model. Our first result is a sharp asymptotic expression for the test and training errors in the high-dimensional regime. Motivated by the recent stream of results on the Gaussian universality of the test and training errors in generalized linear estimation, we ask ourselves the question: "when is a single Gaussian enough to characterize the error?". Our formula allow us to give sharp answers to this question, both in the positive and negative directions. More precisely, we show that the sufficient conditions for Gaussian universality (or lack of thereof) crucially depend on the alignment between the target weights and the means and covariances of the mixture clusters, which we precisely quantify. In the particular case of least-squares interpolation, we prove a strong universality property of the training error, and show it follows a simple, closed-form expression. Finally, we apply our results to real datasets, clarifying some recent discussion in the literature about Gaussian universality of the errors in this context.
翻訳日:2023-02-20 14:25:07 公開日:2023-02-17
# sMRI-PatchNet: アルツハイマー病診断と構造MRIによる識別性萎縮の鑑別のための新しいパッチベースディープラーニングネットワーク

sMRI-PatchNet: A novel explainable patch-based deep learning network for Alzheimer's disease diagnosis and discriminative atrophy localisation with Structural MRI ( http://arxiv.org/abs/2302.08967v1 )

ライセンス: Link先を確認
Xin Zhang, Liangxiu Han, Lianghao Han, Haoming Chen, Darren Dancey, Daoqiang Zhang(参考訳) 構造磁気共鳴イメージング(sMRI)は、軟部組織に対する高いコントラストと高空間分解能による微妙な脳変化を識別することができる。 アルツハイマー病(ad)などの神経性脳疾患の診断に広く用いられている。 しかし,3次元高解像度データのサイズは,データ解析や処理において大きな課題となる。 画像データ全体をいくつかの小さな正規パッチに分割するパッチベースの手法は、より効率的なsMRIベースの画像解析に有望であることが示されている。 sMRIにおけるパッチベースの手法の主な課題は、識別パッチの識別、識別パッチの特徴の組み合わせ、適切な分類器の設計である。 本研究は、sMRIを用いたAD診断のための説明可能なパッチローカライズと選択が可能なパッチベースの新しいディープラーニングネットワーク(sMRI-PatchNet)を提案する。 具体的には2つの主成分から構成される。 1) 大量医療データによる広告診断のための伝達学習モデルへのシャプレーア添加説明(shap)の寄与を計算して、最も識別可能なパッチを決定する迅速かつ効率的なパッチ選択機構 2) 位置埋め込みにより選択したパッチから深い特徴や広告分類を抽出し, 位置情報を保持し, パッチ間およびパッチ内情報を取り込むことのできる新しいパッチベースネットワーク。 この手法はAD分類と、実際のデータセットによる遷移状態中等認知障害(MCI)変換の予測に応用されている。

Structural magnetic resonance imaging (sMRI) can identify subtle brain changes due to its high contrast for soft tissues and high spatial resolution. It has been widely used in diagnosing neurological brain diseases, such as Alzheimer disease (AD). However, the size of 3D high-resolution data poses a significant challenge for data analysis and processing. Since only a few areas of the brain show structural changes highly associated with AD, the patch-based methods dividing the whole image data into several small regular patches have shown promising for more efficient sMRI-based image analysis. The major challenges of the patch-based methods on sMRI include identifying the discriminative patches, combining features from the discrete discriminative patches, and designing appropriate classifiers. This work proposes a novel patch-based deep learning network (sMRI-PatchNet) with explainable patch localisation and selection for AD diagnosis using sMRI. Specifically, it consists of two primary components: 1) A fast and efficient explainable patch selection mechanism for determining the most discriminative patches based on computing the SHapley Additive exPlanations (SHAP) contribution to a transfer learning model for AD diagnosis on massive medical data; and 2) A novel patch-based network for extracting deep features and AD classfication from the selected patches with position embeddings to retain position information, capable of capturing the global and local information of inter- and intra-patches. This method has been applied for the AD classification and the prediction of the transitional state moderate cognitive impairment (MCI) conversion with real datasets.
翻訳日:2023-02-20 14:19:02 公開日:2023-02-17
# キャビティ内の分子の蛍光に対する相互作用における光励起、光解離、散逸

Photon pumping, photodissociation and dissipation at interplay for the fluorescence of a molecule in a cavity ( http://arxiv.org/abs/2302.08966v1 )

ライセンス: Link先を確認
Megha Gopalakrishna, Emil Vi\~nas Bostr\"om, Claudio Verdozzi(参考訳) 光キャビティにおける二原子分子のモデル記述を,ポンプおよび蛍光場を用いて導入し,電子と原子の運動を同等の足場で正確に処理する。 このモデルは、電子相関によるモロースペクトル、調和生成と分子解離の競合、蛍光の光子励起速度と散逸への依存性など、いくつかの光学的応答の時間的シナリオを説明できる。 したがって、量子光子閉じ込め、漏洩、核運動、電子相関が相互作用する実験への洞察のための汎用的で柔軟なテンプレートである。

We introduce a model description of a diatomic molecule in an optical cavity, with pump and fluorescent fields, and electron and nuclear motion are treated on equal footing and exactly. The model accounts for several optical response temporal scenarios: a Mollow spectrum hindered by electron correlations, a competition of harmonic generation and molecular dissociation, a dependence of fluorescence on photon pumping rate and dissipation. It is thus a general and flexible template for insight into experiments where quantum photon confinement, leakage, nuclear motion and electronic correlations are at interplay.
翻訳日:2023-02-20 14:18:38 公開日:2023-02-17
# 深部ニューラルネットワークを用いた地中および低地中励起状態の多体波動関数の簡易解法

A simple method for multi-body wave function of ground and low-lying excited states using deep neural network ( http://arxiv.org/abs/2302.08965v1 )

ライセンス: Link先を確認
Tomoya Naito, Hisashi Naito, and Koji Hashimoto(参考訳) 本研究では,深層ニューラルネットワークと教師なし機械学習手法を用いて,基底状態だけでなく低次励起状態の波動関数やエネルギーを計算する手法を提案する。 また, 同一粒子からなる系に対しては, ボソニック系のシンメトリゼーションとフェルミオン系のアンチシンメトリゼーションを簡易に行う方法も提案した。

We propose a method to calculate wave functions and energies not only of the ground state but also of low-lying excited states using a deep neural network and the unsupervised machine learning technique. For systems composed of identical particles, a simple method to perform symmetrization for bosonic systems and antisymmetrization for fermionic systems is also proposed.
翻訳日:2023-02-20 14:18:27 公開日:2023-02-17
# Grimm in Wonderland:FairytalesをイラストにしたMidjourneyによるプロンプトエンジニアリング

Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales ( http://arxiv.org/abs/2302.08961v1 )

ライセンス: Link先を確認
Martin Ruskov(参考訳) テキスト・画像生成の品質は継続的に改善されているが、その適用範囲はまだ不明である。 特に、より良い結果を達成するためのテキスト入力の洗練(一般的にはプロンプトエンジニアリングと呼ばれる)は、既存のテキストを扱うためのものではなかったようだ。 テキスト・ツー・イメージ生成とプロンプト・エンジニアリングを用いて,人気のおとぎ話の基本イラストを作成することができるか検討した。 Midjourney v4を使って、私たちは2つの目的でアクションリサーチに従事します。5つの有名な妖精のそれぞれに5つの可能なイラストを作成し、既存のテキストから始まり、そのイラストに到達する迅速なエンジニアリングプロセスを定義します。 仮の4段階のプロセスに着きます。 i) 最初のプロンプト 二 構成調整 三 様式の洗練、及び iv) 変種選択。 また,生成モデルがある種のイラストに苦しむ3つの理由についても考察した。 本研究は, 特定の世代モデルに限らず, 将来の世代に一般化することを目的としている。

The quality of text-to-image generation is continuously improving, yet the boundaries of its applicability are still unclear. In particular, refinement of the text input with the objective of achieving better results - commonly called prompt engineering - so far seems to have not been geared towards work with pre-existing texts. We investigate whether text-to-image generation and prompt engineering could be used to generate basic illustrations of popular fairytales. Using Midjourney v4, we engage in action research with a dual aim: to attempt to generate 5 believable illustrations for each of 5 popular fairytales, and to define a prompt engineering process that starts from a pre-existing text and arrives at an illustration of it. We arrive at a tentative 4-stage process: i) initial prompt, ii) composition adjustment, iii) style refinement, and iv) variation selection. We also discuss three reasons why the generation model struggles with certain illustrations: difficulties with counts, bias from stereotypical configurations and inability to depict overly fantastic situations. Our findings are not limited to the specific generation model and are intended to be generalisable to future ones.
翻訳日:2023-02-20 14:18:13 公開日:2023-02-17
# ソフトプロンプトによる医学的視覚・言語訓練の統一に向けて

Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts ( http://arxiv.org/abs/2302.08958v1 )

ライセンス: Link先を確認
Zhihong Chen, Shizhe Diao, Benyou Wang, Guanbin Li, Xiang Wan(参考訳) 医用ビジョン・アンド・ランゲージ・プレトレーニング(Med-VLP)は、医用画像やテキストから汎用表現を抽出できるため、多くの下流医療タスクに有望な改善が見られた。 実際には、重い融合モジュールを使用するかどうかによって、2つの典型的な型、‘textit{i.e.}, 融合エンコーダ型とデュアルエンコーダ型がある。 前者はモダリティ間の十分な相互作用によるマルチモーダルタスクに優れ、後者は単一モダリティ符号化能力によるユニモーダルタスクとクロスモーダルタスクに優れている。 これら2つの型を利用するために,PTUnifier という効果的かつ簡単な方式を提案する。 まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。 これにより、単一のモデルは、異なる入力形式(\textit{i.e.}、画像のみ、テキストのみ、画像-テキストペア)で様々なタスクを処理する、 \textit{foundation model} として機能する。 さらに、多様性とスケーラビリティを向上させるために、プロンプトプール(静的プールの代わりに)を構築します。 実験結果から,一様タスク (\textit{i.e.}, 画像/テキスト分類とテキスト要約), クロスモーダルタスク (\textit{i.e.}, 画像-テキスト生成と画像-テキスト/テキスト画像検索), マルチモーダルタスク (\textit{i.e.}, 視覚的質問応答) にまたがる, 幅広いタスクにおける最先端の成果が得られた。 プロンプトの採用は既存のほとんどのMed-VLPアプローチと直交しており、これらのアプローチに対する有益で補完的な拡張になり得ることに注意されたい。

Medical vision-and-language pre-training (Med-VLP) has shown promising improvements on many downstream medical tasks owing to its applicability to extracting generic representations from medical images and texts. Practically, there exist two typical types, \textit{i.e.}, the fusion-encoder type and the dual-encoder type, depending on whether a heavy fusion module is used. The former is superior at multi-modal tasks owing to the sufficient interaction between modalities; the latter is good at uni-modal and cross-modal tasks due to the single-modality encoding ability. To take advantage of these two types, we propose an effective yet straightforward scheme named PTUnifier to unify the two types. We first unify the input format by introducing visual and textual prompts, which serve as a feature bank that stores the most representative images/texts. By doing so, a single model could serve as a \textit{foundation model} that processes various tasks adopting different input formats (\textit{i.e.}, image-only, text-only, and image-text-pair). Furthermore, we construct a prompt pool (instead of static ones) to improve diversity and scalability. Experimental results show that our approach achieves state-of-the-art results on a broad range of tasks, spanning uni-modal tasks (\textit{i.e.}, image/text classification and text summarization), cross-modal tasks (\textit{i.e.}, image-to-text generation and image-text/text-image retrieval), and multi-modal tasks (\textit{i.e.}, visual question answering), demonstrating the effectiveness of our approach. Note that the adoption of prompts is orthogonal to most existing Med-VLP approaches and could be a beneficial and complementary extension to these approaches.
翻訳日:2023-02-20 14:17:40 公開日:2023-02-17
# 近しい隣人のように:文変換による実用的なコンテンツモデレーション

Like a Good Nearest Neighbor: Practical Content Moderation with Sentence Transformers ( http://arxiv.org/abs/2302.08957v1 )

ライセンス: Link先を確認
Luke Bates and Iryna Gurevych(参考訳) 現代のテキスト分類システムには印象的な能力があるが、プロンプトや10億パラメータの言語モデルに依存するため、デプロイや使用が確実にできない。 SetFit (Tunstall et al., 2022)は、Sentence Transformerを対照的な学習パラダイムの下で微調整し、より弱いシステムに類似した結果をもたらす、最近の実用的なアプローチである。 テキスト分類は、すべてのソーシャルメディアプラットフォームを悩ませる有害コンテンツの検出におけるドメインドリフトの問題に対処する上で重要である。 本稿では,SetFitに新たなパラメータやハイパーパラメータを必要とせず,近隣のラベルやテキストなどの情報をトレーニングデータに付加して入力を修正し,モデルが最適化されたインスタンスに類似した新しいデータを提示する「Like a Good Nearest Neighbor」(LaGoNN)を提案する。 LaGoNNは有害なコンテンツの検出に有効であり、SetFitと比較して一般的にパフォーマンスが向上する。 本システムの価値を実証するために,4つのラベル分布におけるコンテンツモデレーションの文脈におけるテキスト分類システムの徹底的な研究を行う。

Modern text classification systems have impressive capabilities but are infeasible to deploy and use reliably due to their dependence on prompting and billion-parameter language models. SetFit (Tunstall et al., 2022) is a recent, practical approach that fine-tunes a Sentence Transformer under a contrastive learning paradigm and achieves similar results to more unwieldy systems. Text classification is important for addressing the problem of domain drift in detecting harmful content, which plagues all social media platforms. Here, we propose Like a Good Nearest Neighbor (LaGoNN), an inexpensive modification to SetFit that requires no additional parameters or hyperparameters but modifies input with information about its nearest neighbor, for example, the label and text, in the training data, making novel data appear similar to an instance on which the model was optimized. LaGoNN is effective at the task of detecting harmful content and generally improves performance compared to SetFit. To demonstrate the value of our system, we conduct a thorough study of text classification systems in the context of content moderation under four label distributions.
翻訳日:2023-02-20 14:16:57 公開日:2023-02-17
# AfriSenti: アフリカの言語に対するTwitterの感情分析ベンチマーク

AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages ( http://arxiv.org/abs/2302.08956v1 )

ライセンス: Link先を確認
Shamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, Nedjma Ousidhoum, David Ifeoluwa Adelani, Seid Muhie Yimam, Ibrahim Sa'id Ahmad, Meriem Beloucif, Saif Mohammad, Sebastian Ruder, Oumaima Hourrane, Pavel Brazdil, Felermino D\'ario M\'ario Ant\'onio Ali, Davis Davis, Salomey Osei, Bello Shehu Bello, Falalu Ibrahim, Tajuddeen Gwadabe, Samuel Rutunda, Tadesse Belay, Wendimu Baye Messelle, Hailu Beshada Balcha, Sisay Adugna Chala, Hagos Tesfahun Gebremichael, Bernard Opoku, Steven Arthur(参考訳) アフリカには6つの言語族から2000以上の言語があり、全大陸で最も言語多様性が高い。 これには75の言語があり、それぞれ100万以上の話者がいる。 しかし、アフリカ語に関するNLP研究はほとんど行われていない。 このような研究を可能にする上で重要なのは、高品質な注釈付きデータセットの可用性だ。 本稿では,14のアフリカ語(アムハラ語,アルジェリア語,ハウサ語,イボ語,キニャルワンダ語,モロッコ語,モザンビーク語,ポルトガル語,ナイジェリア・ピジン語,オロモ語,スワヒリ語,ティグリニャ語,twi,xitsonga,yor\`ub\'a)における110,000以上のツイートの14の感情データセットからなるafrisentiを紹介する。 データは、最初のAfro中心のSemEval共有タスクであるSemEval 2023 Task 12で使用される。 データ収集手法、アノテーションプロセス、および各データセットをキュレートする際の関連する課題について述べる。 感情分類基準の異なる実験を行い,その有用性について考察する。 afrisentiが低表現言語で新しい作業を可能にすることを願っています。 データセットはhttps://github.com/afrisenti-semeval/afrisent-semeval-2023で利用可能であり、hughingfaceデータセットとしてロードすることもできる(https://huggingface.co/datasets/shmuhammad/afrisenti)。

Africa is home to over 2000 languages from over six language families and has the highest linguistic diversity among all continents. This includes 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial in enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, which consists of 14 sentiment datasets of 110,000+ tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yor\`ub\'a) from four language families annotated by native speakers. The data is used in SemEval 2023 Task 12, the first Afro-centric SemEval shared task. We describe the data collection methodology, annotation process, and related challenges when curating each of the datasets. We conduct experiments with different sentiment classification baselines and discuss their usefulness. We hope AfriSenti enables new work on under-represented languages. The dataset is available at https://github.com/afrisenti-semeval/afrisent-semeval-2023 and can also be loaded as a huggingface datasets (https://huggingface.co/datasets/shmuhammad/AfriSenti).
翻訳日:2023-02-20 14:16:34 公開日:2023-02-17
# ウェイクワード検出のためのアライメント処理:アライメントベース,アライメントフリー,ハイブリッドアプローチの比較

Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches ( http://arxiv.org/abs/2302.08950v1 )

ライセンス: Link先を確認
Vinicius Ribeiro, Yiteng Huang, Yuan Shangguan, Zhaojun Yang, Li Wan, Ming Sun(参考訳) ウェイクワード検出は、ほとんどのインテリジェントホームやポータブルデバイスに存在する。 これらのデバイスは、低コストの電力とコンピューティングで呼び出された時に"覚醒"する機能を提供する。 本稿では,総称句に応答するウェイクワードシステムの開発におけるアライメントの役割を理解することに焦点を当てる。 3つのアプローチについて論じる。 ひとつはアライメントベースで、モデルにはフレーム間のクロスエントロピーをトレーニングする。 2つ目はアライメントフリーで、モデルがCTCでトレーニングされる。 私たちの提案した第3のソリューションはハイブリッドなソリューションで,モデルを小さなアライメントされたデータセットでトレーニングし,サイズ可能なアンアライメントデータセットでチューニングするものです。 3つのアプローチを比較し,ハイブリッドトレーニングにおけるアライメントとアンライメントの異なる比率の影響を評価する。 その結果,アライメントフリーシステムは目標操作点に対してより優れたアライメントを行うことができ,データのごく一部(20%)で初期制約に対応するモデルを訓練できることがわかった。

Wake word detection exists in most intelligent homes and portable devices. It offers these devices the ability to "wake up" when summoned at a low cost of power and computing. This paper focuses on understanding alignment's role in developing a wake-word system that answers a generic phrase. We discuss three approaches. The first is alignment-based, where the model is trained with frame-wise cross-entropy. The second is alignment-free, where the model is trained with CTC. The third, proposed by us, is a hybrid solution in which the model is trained with a small set of aligned data and then tuned with a sizeable unaligned dataset. We compare the three approaches and evaluate the impact of the different aligned-to-unaligned ratios for hybrid training. Our results show that the alignment-free system performs better alignment-based for the target operating point, and with a small fraction of the data (20%), we can train a model that complies with our initial constraints.
翻訳日:2023-02-20 14:16:04 公開日:2023-02-17
# 視覚とテキストの混合言語モデルを用いたエントリ分離:19世紀フランスの貿易目録への応用

Entry Separation using a Mixed Visual and Textual Language Model: Application to 19th century French Trade Directories ( http://arxiv.org/abs/2302.08948v1 )

ライセンス: Link先を確認
Bertrand Dum\'enieu (1), Edwin Carlinet (2), Nathalie Abadie (3), Joseph Chazalon (2) ((1) LaD\'eHiS, CRH, EHESS, France, (2) EPITA Research Laboratory (LRE), France, (3) Univ. Gustave Eiffel, IGN-ENSG, LaSTIG, France)(参考訳) 辞書やディレクトリ、さらには新聞など、繰り返し整理された文書から構造化されたデータを抽出する場合、ターゲットデータベースの基本テキスト領域を構成するものを正しく分割することが重要な課題となる。 従来、このような問題はレイアウト分析の一部として取り組まれ、主に(トップダウン)アプローチを分割するための視覚的な手がかりに基づいていた。 いくつかの凝集(ボトムアップ)アプローチは、類似したコンテンツをリンクするためにテキスト情報を考慮し始めたが、それらは適切な細粒度単位のオーバーセグメンテーションを必要とした。 そこで本研究では,19世紀フランスの貿易目録に効率性を示す新しい実用的手法を提案する。 そこで我々は,ここでは有効で詳細ではないと思われる粗いレイアウト検出(テキスト列と読み順)と,最先端の名前付きエンティティ認識(ner)アプローチを適用するための細粒度のエントリ分離ステージを提案する。 NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。 コード、データ、結果、モデルはhttps://github.com/soduco/paper-entryseg-icdar23-code, https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants)で入手できる。

When extracting structured data from repetitively organized documents, such as dictionaries, directories, or even newspapers, a key challenge is to correctly segment what constitutes the basic text regions for the target database. Traditionally, such a problem was tackled as part of the layout analysis and was mostly based on visual clues for dividing (top-down) approaches. Some agglomerating (bottom-up) approaches started to consider textual information to link similar contents, but they required a proper over-segmentation of fine-grained units. In this work, we propose a new pragmatic approach whose efficiency is demonstrated on 19th century French Trade Directories. We propose to consider two sub-problems: coarse layout detection (text columns and reading order), which is assumed to be effective and not detailed here, and a fine-grained entry separation stage for which we propose to adapt a state-of-the-art Named Entity Recognition (NER) approach. By injecting special visual tokens, coding, for instance, indentation or breaks, into the token stream of the language model used for NER purpose, we can leverage both textual and visual knowledge simultaneously. Code, data, results and models are available at https://github.com/soduco/paper-entryseg-icdar23-code, https://huggingface.co/HueyNemud/ (icdar23-entrydetector* variants)
翻訳日:2023-02-20 14:15:47 公開日:2023-02-17
# 後悔最小化によるオンライン擬似ラベル決定によるラベル比率からの学習

Learning from Label Proportion with Online Pseudo-Label Decision by Regret Minimization ( http://arxiv.org/abs/2302.08947v1 )

ライセンス: Link先を確認
Shinnosuke Matsuo, Ryoma Bise, Seiichi Uchida, Daiki Suehiro(参考訳) 本稿では,インスタンス集合のクラスラベル比率のみを用いて分類器を訓練することを目的とした,ラベル比率(llp)から学習する新規かつ効率的な手法であるbagを提案する。 後悔最小化を伴うオンライン擬似ラベル法に基づく新しいLPP手法を提案する。 従来のllp法とは対照的に,提案手法はバッグサイズが大きくても効果的に動作する。 ベンチマークデータセットを用いて提案手法の有効性を示す。

This paper proposes a novel and efficient method for Learning from Label Proportions (LLP), whose goal is to train a classifier only by using the class label proportions of instance sets, called bags. We propose a novel LLP method based on an online pseudo-labeling method with regret minimization. As opposed to the previous LLP methods, the proposed method effectively works even if the bag sizes are large. We demonstrate the effectiveness of the proposed method using some benchmark datasets.
翻訳日:2023-02-20 14:15:20 公開日:2023-02-17
# 投影によるグラフ表現学習で学んだことを効率的に忘れる

Efficiently Forgetting What You Have Learned in Graph Representation Learning via Projection ( http://arxiv.org/abs/2302.08990v1 )

ライセンス: Link先を確認
Weilin Cong, Mehrdad Mahdavi(参考訳) プライバシー保護が多くの注目を集めているため、事前学習されたグラフ学習モデルから特定のノードの効果を学習することは同様に重要になっている。 しかし、グラフ構造データへのノード依存のため、グラフニューラルネットワーク(gnns)での表現アンラーニングは困難であり、あまり研究されていない。 本稿では,線形GNNにおける未学習問題をまず研究し,その拡張を非線形構造に導入することによって,このギャップを埋める。 学習するノードの集合が与えられた場合、事前学習されたモデルの重みパラメータを、忘れられるノードの特徴とは無関係な部分空間に投影することで学習するPROJECTORを提案する。 プロジェクタは、ノード依存性に起因する課題を克服し、完全なデータ削除を享受することができる。すなわち、未学習のモデルパラメータは、アルゴリズム構築によって保証される未学習のノード機能に関する情報を一切含まない。 実世界のデータセットにおける実証的な結果から, ProJECTORの有効性と効率が示された。

As privacy protection receives much attention, unlearning the effect of a specific node from a pre-trained graph learning model has become equally important. However, due to the node dependency in the graph-structured data, representation unlearning in Graph Neural Networks (GNNs) is challenging and less well explored. In this paper, we fill in this gap by first studying the unlearning problem in linear-GNNs, and then introducing its extension to non-linear structures. Given a set of nodes to unlearn, we propose PROJECTOR that unlearns by projecting the weight parameters of the pre-trained model onto a subspace that is irrelevant to features of the nodes to be forgotten. PROJECTOR could overcome the challenges caused by node dependency and enjoys a perfect data removal, i.e., the unlearned model parameters do not contain any information about the unlearned node features which is guaranteed by algorithmic construction. Empirical results on real-world datasets illustrate the effectiveness and efficiency of PROJECTOR.
翻訳日:2023-02-20 14:09:37 公開日:2023-02-17
# 結合神経シナプスダイナミクスの理論

Theory of coupled neuronal-synaptic dynamics ( http://arxiv.org/abs/2302.08985v1 )

ライセンス: Link先を確認
David G. Clark, L.F. Abbott(参考訳) 神経回路では、シナプスはネットワークダイナミクスを形成することでニューロンに影響を与え、ニューロンは活動依存的な可塑性を通してシナプスに影響を及ぼす。 本研究では,ニューロンとシナプスが相互に結合した動的変数であるネットワークモデルについて検討する。 モデルニューロンはシナプス前および後シナプス後ニューロン活動に応答してランダムな強度を変動させるシナプス結合によって形成されるダイナミクスに従う。 動的平均場理論を用いて、結合神経シナプス系の位相図を計算し、計算関数を示唆するいくつかの新しい位相を明らかにする。 非可塑性系がカオスである体制では、ヘビアン可塑性はカオスを遅くし、反ヘビアン可塑性はカオスを早くし、神経活動において振動成分を生成する。 ジョイントニューロン-シナプスジャコビアンのスペクトルを導出すると、これらの行動は固有値反発の差効果として現れる。 非塑性系が不規則である体制では、ヘビアン可塑性はカオスを引き起こす。 両体制とも、十分に強いヘビアン可塑性は、カオス状態と共存する多くの安定な神経シナプス固定点を指数関数的に生成する。 最後に、十分に強いヘビアン可塑性を持つカオス状態において、シナプス力学の停止は安定な神経細胞力学の固定点を残し、ニューロン状態は凍結する。 自由化可能なカオスのこのフェーズは、シナプス力学を通じて安定な不動点が連続的に不安定化され、シナプス可塑性を停止することで任意のニューロン状態を安定な不動点として保存できるシナプスワーキングメモリの新しいメカニズムを提供する。

In neural circuits, synapses influence neurons by shaping network dynamics, and neurons influence synapses through activity-dependent plasticity. Motivated by this fact, we study a network model in which neurons and synapses are mutually coupled dynamic variables. Model neurons obey dynamics shaped by synaptic couplings that fluctuate, in turn, about quenched random strengths in response to pre- and postsynaptic neuronal activity. Using dynamical mean-field theory, we compute the phase diagram of the combined neuronal-synaptic system, revealing several novel phases suggestive of computational function. In the regime in which the non-plastic system is chaotic, Hebbian plasticity slows chaos, while anti-Hebbian plasticity quickens chaos and generates an oscillatory component in neuronal activity. Deriving the spectrum of the joint neuronal-synaptic Jacobian reveals that these behaviors manifest as differential effects of eigenvalue repulsion. In the regime in which the non-plastic system is quiescent, Hebbian plasticity can induce chaos. In both regimes, sufficiently strong Hebbian plasticity creates exponentially many stable neuronal-synaptic fixed points that coexist with chaotic states. Finally, in chaotic states with sufficiently strong Hebbian plasticity, halting synaptic dynamics leaves a stable fixed point of neuronal dynamics, freezing the neuronal state. This phase of freezable chaos provides a novel mechanism of synaptic working memory in which a stable fixed point of neuronal dynamics is continuously destabilized through synaptic dynamics, allowing any neuronal state to be stored as a stable fixed point by halting synaptic plasticity.
翻訳日:2023-02-20 14:09:20 公開日:2023-02-17
# 相互作用するカオス小体量子系における普遍スペクトル相関

Universal spectral correlations in interacting chaotic few-body quantum systems ( http://arxiv.org/abs/2302.08983v1 )

ライセンス: Link先を確認
Felix Fritzsch and Maximilian F. I. Kieler(参考訳) 相互作用量子系におけるランダム行列スペクトル相関の出現は、量子カオスの定義的特徴である。 このような相関関係をカオス的数体および多体系の相互作用におけるスペクトル形状係数の観点から検討し、適切なランダム行列アンサンブルでモデル化し、ヒルベルト空間次元の正確な結果を得る。 非相互作用から強く相互作用するケースへのスペクトル形成因子の遷移は、これらの2つの制限されたケースの単純な組み合わせとして説明できる。 この遷移は単一のスケーリングパラメータによって普遍的に制御される。 さらに,本手法は実際の物理系におけるスペクトル相関を正確に把握し,組み合わせたキックローターについて実証する。

The emergence of random matrix spectral correlations in interacting quantum systems is a defining feature of quantum chaos. We study such correlations in terms of the spectral form factor in interacting chaotic few- and many-body systems, modeled by suitable random-matrix ensembles, and obtain exact results for large Hilbert space dimensions. The transition of the spectral form factor from the non-interacting to the strongly interacting case can be described as a simple combination of these two limiting cases, which we confirm by extensive numerical studies in few-body systems. This transition is universally governed by a single scaling parameter. Moreover, our approach accurately captures spectral correlations in actual physical system, which we demonstrate for coupled kicked rotors.
翻訳日:2023-02-20 14:08:49 公開日:2023-02-17
# 対角線形ネットワーク上の(S)GD:暗黙の正規化、大きなステップサイズ、安定性のエッジ

(S)GD over Diagonal Linear Networks: Implicit Regularisation, Large Stepsizes and Edge of Stability ( http://arxiv.org/abs/2302.08982v1 )

ライセンス: Link先を確認
Mathieu Even, Scott Pesme, Suriya Gunasekar, Nicolas Flammarion(参考訳) 本稿では,直交線形ネットワーク上での勾配勾配(GD)と確率勾配勾配(SGD)の暗黙的な正則化に対する確率性および大きなステップサイズの影響について検討する。 我々は,gd と sgd とマクロステップの収束を過パラメータ回帰で証明し,その解を暗黙の正規化問題によって特徴づける。 我々のクリップな性格化は、確率性の影響に関する定性的な洞察と、回復した解に対する段差をもたらす。 具体的には, GD のスパース解の回復を妨げつつ, スパース回帰問題に対して, SGD が常に有利であることを示す。 これらの効果は、発散しきい値のすぐ下のタイトなウィンドウ、``edge of stability'' のレジームでステップ化するために拡大される。 我々の発見は実験結果によって裏付けられている。

In this paper, we investigate the impact of stochasticity and large stepsizes on the implicit regularisation of gradient descent (GD) and stochastic gradient descent (SGD) over diagonal linear networks. We prove the convergence of GD and SGD with macroscopic stepsizes in an overparametrised regression setting and characterise their solutions through an implicit regularisation problem. Our crisp characterisation leads to qualitative insights about the impact of stochasticity and stepsizes on the recovered solution. Specifically, we show that large stepsizes consistently benefit SGD for sparse regression problems, while they can hinder the recovery of sparse solutions for GD. These effects are magnified for stepsizes in a tight window just below the divergence threshold, in the ``edge of stability'' regime. Our findings are supported by experimental results.
翻訳日:2023-02-20 14:08:37 公開日:2023-02-17
# 回帰のためのブラックボックスバッチアクティブラーニング

Black-Box Batch Active Learning for Regression ( http://arxiv.org/abs/2302.08981v1 )

ライセンス: Link先を確認
Andreas Kirsch(参考訳) バッチアクティブラーニング( batch active learning)は、大規模でラベルなしのデータセット上で機械学習モデルを効率的にトレーニングするための一般的なアプローチである。 しかし,近年のバッチアクティブラーニング手法の多くは,モデル埋め込みや第1次および第2次微分に基づく獲得関数を用いてラベル付けされていない点をスコアする,微分可能なパラメトリックモデルに限定されたホワイトボックスアプローチである。 本稿では,ホワイトボックスアプローチの拡張として回帰タスクのためのブラックボックスバッチアクティブラーニングを提案する。 このアプローチは、正規およびベイズディープラーニングモデルやランダムフォレストのような非微分可能モデルを含む、幅広い機械学習モデルと互換性がある。 ベイズ原理に根ざし、最近のカーネルベースのアプローチを利用している。 重要な点として,本手法はモデル予測のみに依存する。 これにより、既存の最先端のホワイトボックスバッチ能動学習手法(BADGE、BAIT、LCMD)をブラックボックスモデルに拡張できる。 提案手法の有効性を,ディープラーニングモデルに対するホワイトボックスアプローチと比較して驚くほど高い性能を達成し,回帰データセットの広範な実験的評価を通じて実証する。

Batch active learning is a popular approach for efficiently training machine learning models on large, initially unlabelled datasets, which repeatedly acquires labels for a batch of data points. However, many recent batch active learning methods are white-box approaches limited to differentiable parametric models: they score unlabeled points using acquisition functions based on model embeddings or first- and second-order derivatives. In this paper, we propose black-box batch active learning for regression tasks as an extension of white-box approaches. This approach is compatible with a wide range of machine learning models including regular and Bayesian deep learning models and non-differentiable models such as random forests. It is rooted in Bayesian principles and utilizes recent kernel-based approaches. Importantly, our method only relies on model predictions. This allows us to extend a wide range of existing state-of-the-art white-box batch active learning methods (BADGE, BAIT, LCMD) to black-box models. We demonstrate the effectiveness of our approach through extensive experimental evaluations on regression datasets, achieving surprisingly strong performance compared to white-box approaches for deep learning models.
翻訳日:2023-02-20 14:08:18 公開日:2023-02-17
# セグメンテーションエラーの診断と治療のためのモデル医師

Model Doctor for Diagnosing and Treating Segmentation Error ( http://arxiv.org/abs/2302.08980v1 )

ライセンス: Link先を確認
Zhijie Jia, Lin Chen, Kaiwen Hu, Lechao Cheng, Zunlei Feng, Mingli Song(参考訳) ディープニューラルネットワークの進歩に伴うセマンティックセグメンテーションタスクの著しい進歩にもかかわらず、既存のu字型階層型セグメンテーションネットワークは依然としてカテゴリの局所的誤分類と不正確なターゲット境界に苦しんでいる。 この問題を軽減するために,意味的セグメンテーション問題に対するモデルドクターを提案する。 モデルドクターは、既存の事前訓練済みモデルの上記の問題を診断し、追加のデータを導入することなく処理し、より良い性能を達成するためにパラメータを精錬することを目的として設計されている。 いくつかのベンチマークデータセットに対する大規模な実験により,本手法の有効性が示された。 コードは \url{https://github.com/zhijiejia/SegDoctor} で入手できる。

Despite the remarkable progress in semantic segmentation tasks with the advancement of deep neural networks, existing U-shaped hierarchical typical segmentation networks still suffer from local misclassification of categories and inaccurate target boundaries. In an effort to alleviate this issue, we propose a Model Doctor for semantic segmentation problems. The Model Doctor is designed to diagnose the aforementioned problems in existing pre-trained models and treat them without introducing additional data, with the goal of refining the parameters to achieve better performance. Extensive experiments on several benchmark datasets demonstrate the effectiveness of our method. Code is available at \url{https://github.com/zhijiejia/SegDoctor}.
翻訳日:2023-02-20 14:08:00 公開日:2023-02-17
# フェデレーション学習における福祉とフェアネスダイナミクス--顧客選択の視点から

Welfare and Fairness Dynamics in Federated Learning: A Client Selection Perspective ( http://arxiv.org/abs/2302.08976v1 )

ライセンス: Link先を確認
Yash Travadi, Le Peng, Xuan Bi, Ju Sun, Mochen Yang(参考訳) Federated Learning(FL)は、分散コンピューティングデバイスがデータサイロ間の共有学習モデルを協調的にトレーニングできるようにする、プライバシ保護学習技術である。 既存のFLは主にモデル性能を改善するための高度なFLアルゴリズムの設計に焦点を当てている。 しかし、フェアネスやインセンティブといったクライアントの経済的配慮は、まだ十分に検討されていない。 このような考慮がなければ、自己モチベーションのあるクライアントは関心を失い、フェデレーションを離れる可能性がある。 この問題に対処するため,我々は,低品質クライアントを除去するためのクライアント選択プロセスと,公平な報酬分配を確保するための送金プロセスを含む,新たなインセンティブ機構を設計した。 提案するインセンティブ機構は,フェデレーションの持続時間と公平性を効果的に改善できることを示す。

Federated learning (FL) is a privacy-preserving learning technique that enables distributed computing devices to train shared learning models across data silos collaboratively. Existing FL works mostly focus on designing advanced FL algorithms to improve the model performance. However, the economic considerations of the clients, such as fairness and incentive, are yet to be fully explored. Without such considerations, self-motivated clients may lose interest and leave the federation. To address this problem, we designed a novel incentive mechanism that involves a client selection process to remove low-quality clients and a money transfer process to ensure a fair reward distribution. Our experimental results strongly demonstrate that the proposed incentive mechanism can effectively improve the duration and fairness of the federation.
翻訳日:2023-02-20 14:07:48 公開日:2023-02-17
# 詳細情報を目指して : 翻訳誤りの種類と位置の特定

Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors ( http://arxiv.org/abs/2302.08975v1 )

ライセンス: Link先を確認
Keqin Bao, Yu Wan, Dayiheng Liu, Baosong Yang, Wenqiang Lei, Xiangnan He, Derek F.Wong, Jun Xie(参考訳) 翻訳誤りの詳細な情報は翻訳評価コミュニティにとって有用である。 既存のアプローチでは、両方のエラー情報を統合できないため、エラー位置と型を同期的に考慮することはできない。 本稿では,与えられた文対における翻訳誤りの位置とタイプを識別することを目的とした,きめ細かい翻訳誤り検出(fg-ted)タスクを提案する。 さらに、FG-TEDモデルを構築して、通常の翻訳精度の2つのエラーである \textbf{addition} と \textbf{omission} のエラーを予測する。 まず,単語レベルの分類パラダイムを用いてモデルを形成し,近距離学習の削減により単言語的特徴の影響を緩和する。 さらに、モデルトレーニングのための合成データセットを構築し、権威的データセットにおけるデータラベリングの不一致を解消し、実験的なベンチマークを一致させる。 実験の結果,本モデルはエラータイプと位置を同時に識別でき,復元されたデータセットに最先端の結果を与えることができた。 我々のモデルは、既存のベースラインよりも低リソースおよび転送シナリオの信頼性の高い予測も提供します。 関連するデータセットとソースコードは将来的にリリースされる予定だ。

Fine-grained information on translation errors is helpful for the translation evaluation community. Existing approaches can not synchronously consider error position and type, failing to integrate the error information of both. In this paper, we propose Fine-Grained Translation Error Detection (FG-TED) task, aiming at identifying both the position and the type of translation errors on given source-hypothesis sentence pairs. Besides, we build an FG-TED model to predict the \textbf{addition} and \textbf{omission} errors -- two typical translation accuracy errors. First, we use a word-level classification paradigm to form our model and use the shortcut learning reduction to relieve the influence of monolingual features. Besides, we construct synthetic datasets for model training, and relieve the disagreement of data labeling in authoritative datasets, making the experimental benchmark concordant. Experiments show that our model can identify both error type and position concurrently, and gives state-of-the-art results on the restored dataset. Our model also delivers more reliable predictions on low-resource and transfer scenarios than existing baselines. The related datasets and the source code will be released in the future.
翻訳日:2023-02-20 14:07:33 公開日:2023-02-17
# マシンラーニングのセキュリティ防衛における品質測定

Measuring Equality in Machine Learning Security Defenses ( http://arxiv.org/abs/2302.08973v1 )

ライセンス: Link先を確認
Luke E. Richards, Edward Raff, Cynthia Matuszek(参考訳) 機械学習セキュリティコミュニティは、過去10年間にわたって、回避攻撃に対する無数の防御を開発してきた。 このコミュニティの未熟な疑問は: この防御策は誰を擁護するのか? 本研究では,学習システムを守るための一般的なアプローチと,それらのアプローチが異なるサブ集団で使用する場合,予期せぬ性能の低下をもたらすかどうかを検討する。 機械学習のセキュリティ手法の公正性に関する実証的な結果を通じて、この問題に答えることのできる単純なパリティ指標と分析のためのフレームワークについて概説する。 直接的害を引き起こす可能性のある多くの手法が提案されているが、これは偏りの脆弱性と偏りの拒絶である。 当社のフレームワークとメトリックは,堅牢にトレーニングされたモデル,前処理ベースのメソッド,セキュリティ予算を越える行動をキャプチャする拒否メソッドにも適用可能です。 我々は、防衛の平等性を測定するのに適した合理的な計算コストを持つ現実的なデータセットを特定する。 音声認識におけるケーススタディを通じて、このような防衛が社会的サブグループに対して平等な保護を提供していないこと、そして、ロバストネストレーニングのためにそのような分析を行う方法を示し、ランダム化スムーシングとニューラルリジェクションの2つの拒否に基づく防御の公平性の比較を示す。 我々は, 公平防衛と相関する要因のさらなる分析を行い, 今後, 防衛体制の整備を支援する方法についての調査を促進させる。 我々の知る限りでは、音声データの正確さと損益性とのトレードオフの公平性を検証し、拒絶に基づく防御に対する公平性評価に対処する最初の研究である。

The machine learning security community has developed myriad defenses for evasion attacks over the past decade. An understudied question in that community is: for whom do these defenses defend? In this work, we consider some common approaches to defending learned systems and whether those approaches may offer unexpected performance inequities when used by different sub-populations. We outline simple parity metrics and a framework for analysis that can begin to answer this question through empirical results of the fairness implications of machine learning security methods. Many methods have been proposed that can cause direct harm, which we describe as biased vulnerability and biased rejection. Our framework and metric can be applied to robustly trained models, preprocessing-based methods, and rejection methods to capture behavior over security budgets. We identify a realistic dataset with a reasonable computational cost suitable for measuring the equality of defenses. Through a case study in speech command recognition, we show how such defenses do not offer equal protection for social subgroups and how to perform such analyses for robustness training, and we present a comparison of fairness between two rejection-based defenses: randomized smoothing and neural rejection. We offer further analysis of factors that correlate to equitable defenses to stimulate the future investigation of how to assist in building such defenses. To the best of our knowledge, this is the first work that examines the fairness disparity in the accuracy-robustness trade-off in speech data and addresses fairness evaluation for rejection-based defenses.
翻訳日:2023-02-20 14:07:14 公開日:2023-02-17
# mm波初期ビームアライメントの深部強化学習

Deep Reinforcement Learning for mmWave Initial Beam Alignment ( http://arxiv.org/abs/2302.08969v1 )

ライセンス: Link先を確認
Daniel Tandler, Sebastian D\"orner, Marc Gauger, Stephan ten Brink(参考訳) そこで本研究では,mm波通信における適応型初期アクセスビームアライメント問題に対する深層強化学習アルゴリズムの適用性について検討した。 この問題に対処するために開発された最近の教師なし学習ベースのアプローチと比較して、ディープ強化学習は、原則として、チャネルと/またはシステム全体の(微分可能な)モデルが不要であり、アルゴリズム(オンラインまたは記録されたデータセット)を学習するためにはエージェントと環境の相互作用のみが必要であるため、より広い範囲のアプリケーションに対処する可能性がある。 既定の深層強化学習エージェントは,現実的な問題サイズのトレーニングではうまく機能しないが,ビームフォーミングモジュールの形での動作空間整形の導入は,汎用性を犠牲にすることなく,性能を大幅に向上させる。 このアドオンを使うことで、エージェントは現実的な問題サイズであっても、シミュレートされた環境で様々な最先端のメソッドに競争力のあるパフォーマンスを提供することができる。 これは、高度に間接的な修正によって、深層強化学習がこの分野の他のアプローチと競合する可能性があることを示し、他の/類似シナリオへの多くの簡単な拡張を開放する。

We investigate the applicability of deep reinforcement learning algorithms to the adaptive initial access beam alignment problem for mmWave communications using the state-of-the-art proximal policy optimization algorithm as an example. In comparison to recent unsupervised learning based approaches developed to tackle this problem, deep reinforcement learning has the potential to address a new and wider range of applications, since, in principle, no (differentiable) model of the channel and/or the whole system is required for training, and only agent-environment interactions are necessary to learn an algorithm (be it online or using a recorded dataset). We show that, although the chosen off-the-shelf deep reinforcement learning agent fails to perform well when trained on realistic problem sizes, introducing action space shaping in the form of beamforming modules vastly improves the performance, without sacrificing much generalizability. Using this add-on, the agent is able to deliver competitive performance to various state-of-the-art methods on simulated environments, even under realistic problem sizes. This demonstrates that through well-directed modification, deep reinforcement learning may have a chance to compete with other approaches in this area, opening up many straightforward extensions to other/similar scenarios.
翻訳日:2023-02-20 14:06:46 公開日:2023-02-17
# 時空曲率によるデコヒーレンス

Decoherence due to Spacetime Curvature ( http://arxiv.org/abs/2302.09038v1 )

ライセンス: Link先を確認
Raghvendra Singh, Kabir Khanna, Dawood Kothawala(参考訳) 過去数年間、エンタングルメントやデコヒーレンスのような量子現象における重力の役割の研究にかなりの関心が寄せられている。 特に、重力時間拡張は、複合量子系の質量中心の重ね合わせであると考えられている。 重力の真の効果は時空の曲率にエンコードされるので、そのようなデコヒーレンスの普遍性はリーマンテンソル$R_{abcd}$の成分によって特徴づけられなければならない。 一般曲線時空における複合系の縮退密度行列を求め, 曲率の観点からデコヒーレンス時間スケールを明示的に表現する。 慣性フレームのデコヒーレンスは潮流加速によって引き起こされる。 また, 自己重力の影響を解析し, 重力相互作用と外曲率とのカップリングを, 代替の$m \to m + h_{\rm int}/c^2$ で捉えることはできないことを示した。

There has been considerable interest over the past years in investigating the role of gravity in quantum phenomenon such as entanglement and decoherence. In particular, gravitational time dilation is believed to decohere superpositions of center of mass of composite quantum systems. Since true effects of gravity are encoded in the curvature of spacetime, the universality of such a decoherence must be characterized through components of Riemann tensor $R_{abcd}$, with a clear separation from non-inertial kinematic effects. We obtain the reduced density matrix of a composite system in a generic curved spacetime, and express the decoherence time scale explicitly in terms of curvature. The decoherence in an inertial frame is caused by tidal acceleration. We also analyse the effects of self-gravity and show that the coupling of gravitational interaction with external curvature can not be captured by the replacement $m \to m + H_{\rm int}/c^2$.
翻訳日:2023-02-20 13:59:17 公開日:2023-02-17
# バッチサイズの増加を伴わない確率弱ミンティ変分不等式の解法

Solving stochastic weak Minty variational inequalities without increasing batch size ( http://arxiv.org/abs/2302.09029v1 )

ライセンス: Link先を確認
Thomas Pethick, Olivier Fercoq, Puya Latafat, Panagiotis Patrinos, Volkan Cevher(参考訳) 本稿では,弱いMinty変分不等式(MVI)を特徴とする非凸非凹問題に対して,確率的外向きアルゴリズムの一群を紹介する。 モノトンセッティングにおける既存の段階的手法とは異なり、弱MVIセッティングでは段差の減少はもはや不可能である。 このことが、1イテレーションあたりのバッチサイズを増加させるといったアプローチにつながった。 対照的に,提案手法には2段階のステップがあり,反復ごとに1つの付加的なオラクル評価が必要である。 固定されたステップサイズを1つ維持することは可能であるが、減少していると考えられる第2ステップサイズのみであり、単調な設定でも興味深い。 ほぼ確実に収束が確立され、祝福された原始双対ハイブリッド勾配アルゴリズムの非線形一般化を含む一連のスキームについて統一的な解析を行う。

This paper introduces a family of stochastic extragradient-type algorithms for a class of nonconvex-nonconcave problems characterized by the weak Minty variational inequality (MVI). Unlike existing results on extragradient methods in the monotone setting, employing diminishing stepsizes is no longer possible in the weak MVI setting. This has led to approaches such as increasing batch sizes per iteration which can however be prohibitively expensive. In contrast, our proposed methods involves two stepsizes and only requires one additional oracle evaluation per iteration. We show that it is possible to keep one fixed stepsize while it is only the second stepsize that is taken to be diminishing, making it interesting even in the monotone setting. Almost sure convergence is established and we provide a unified analysis for this family of schemes which contains a nonlinear generalization of the celebrated primal dual hybrid gradient algorithm.
翻訳日:2023-02-20 13:59:00 公開日:2023-02-17
# CK変換器:表現理解を参照する共通知識強化変換器

CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension ( http://arxiv.org/abs/2302.09027v1 )

ライセンス: Link先を確認
Zhi Zhang, Helen Yannakoudakis, Xiantong Zhen, Ekaterina Shutova(参考訳) 自然言語表現によって記述される画像領域の局所化を目的としたマルチモーダル参照表現理解(REC)の課題は,近年,研究コミュニティ内で注目されている。 本稿では,空間的,視覚的,意味的情報を超えた推論を必要とするタスクである共通感覚知識(kb-ref)を用いた表現理解に着目した。 本稿では,画像内のオブジェクトの表現にコモンセンス知識を効果的に統合し,表現で参照される対象オブジェクトの識別を容易にするコモンセンス知識強化トランスフォーマ(ck-transformer)の新たなフレームワークを提案する。 KB-Refのタスクに対して,いくつかのベンチマークで広範な実験を行う。 その結果, CK-Transformer は既存の技術に比べて3.14%の精度向上を実現した。

The task of multimodal referring expression comprehension (REC), aiming at localizing an image region described by a natural language expression, has recently received increasing attention within the research comminity. In this paper, we specifically focus on referring expression comprehension with commonsense knowledge (KB-Ref), a task which typically requires reasoning beyond spatial, visual or semantic information. We propose a novel framework for Commonsense Knowledge Enhanced Transformers (CK-Transformer) which effectively integrates commonsense knowledge into the representations of objects in an image, facilitating identification of the target objects referred to by the expressions. We conduct extensive experiments on several benchmarks for the task of KB-Ref. Our results show that the proposed CK-Transformer achieves a new state of the art, with an absolute improvement of 3.14% accuracy over the existing state of the art.
翻訳日:2023-02-20 13:58:47 公開日:2023-02-17
# 非対称ポンピングと結合した2レベル系の共鳴蛍光

Resonance fluorescence of two asymmetrically pumped and coupled two-level systems ( http://arxiv.org/abs/2302.09020v1 )

ライセンス: Link先を確認
C. A. Downing, E. del Valle and A. I. Fern\'andez-Dom\'inguez(参考訳) 我々は、原子対または(より一般的に)メタ原子をモデル化するオープン量子システムアプローチにおいて、2レベル系の駆動散逸双対の研究を行う。 コヒーレントかつ非コヒーレントな性格を持つセットアップにおける複雑な値のカップリングを許すことで、多様なカップリングランドスケープが生まれる。 例えば、2つの結合された2レベルシステム間の結合がコヒーレント、不整合、非対称、さらには一方向の相互作用によって支配される。 カップリング地形を横断することは、ペアの個体群、相関、光学スペクトルにおいて顕著な特徴をもたらす。 最も注目すべきは、単一の原子に対する有名なモロー三重項スペクトルは、モロー・クインタプレット(またはスペクトル一重項)によって一対に取って代わることができ、このセットアップにより、2レベルの系間の結合の正確な性質によって、集団トラップが発生する。

We study a driven-dissipative duo of two-level systems in an open quantum systems approach, modelling a pair of atoms or (more generally) meta-atoms. Allowing for complex-valued couplings in the setup, which are of both a coherent and incoherent character, gives rise to a diverse coupling landscape. We consider several points on this landscape, for example where the coupling between the two coupled two-level systems is dominated by coherent, incoherent, unsymmetrical and even unidirectional interactions. Traversing the coupling terrain leads to remarkable features in the populations of the pair, correlations and optical spectra. Most notably, the famous Mollow triplet spectrum for a single atom may be superseded for a pair by a Mollow quintuplet (or even by a spectral singlet) and the setup allows for population trapping to arise, all depending upon the precise nature of the coupling between the two-level systems.
翻訳日:2023-02-20 13:58:31 公開日:2023-02-17
# 部分時空間骨格列からの自己指導型行動表現学習

Self-supervised Action Representation Learning from Partial Spatio-Temporal Skeleton Sequences ( http://arxiv.org/abs/2302.09018v1 )

ライセンス: Link先を確認
Yujie Zhou, Haodong Duan, Anyi Rao, Bing Su, Jiaqi Wang(参考訳) 自己教師付き学習は骨格に基づく行動認識のための表現学習において顕著な能力を示した。 既存の手法は主に、対照的な学習のための骨格配列の異なるビューを生成するために、グローバルデータ拡張を適用することに焦点を当てている。 しかし、骨格配列の豊富な行動手がかりのため、既存の方法は、異なる骨格関節とビデオフレームの間の局所的関係を徹底的に活用することなく、異なる骨格を識別することを学ぶために、グローバルな視点でしか学ばない。 本研究では,一意な時空間マスキング戦略によって構築された部分的骨格配列から局所的関係を利用する部分的時空間学習(PSTL)フレームワークを提案する。 具体的には、マスキングのないアンカーストリームと、中央空間マスキング(csm)を備えた空間マスキングストリームと、運動注意テンポラリマスキング(matm)を備えたテンポラリマスキングストリームとからなる、負のサンプルフリー三重項蒸気構造を構築する。 特徴相関行列は、アンカーストリームと他の2つのマスキングストリームとの間にそれぞれ測定される。 1) 中央空間マスキングは, 高い中心性を有する関節が選択される可能性が高い特徴計算工程から, 選択された関節を捨てる。 2)運動注意テンポラリマスキングは動作の運動を活用し,より高速に動くフレームを高い可能性で除去する。 本手法は, NTURGB+D 60, NTURGB+D 120, PKU-MMDのダウンストリームタスクにおける最先端性能を実現する。 さらに, 下流作業でスケルトン継手が失われる場合の実用的評価を行い, 性能低下に苦しむ従来の手法とは対照的に, 提案手法のロバスト性を検証するため, この課題条件下でもpstlは優れた結果を得ることができた。

Self-supervised learning has demonstrated remarkable capability in representation learning for skeleton-based action recognition. Existing methods mainly focus on applying global data augmentation to generate different views of the skeleton sequence for contrastive learning. However, due to the rich action clues in the skeleton sequences, existing methods may only take a global perspective to learn to discriminate different skeletons without thoroughly leveraging the local relationship between different skeleton joints and video frames, which is essential for real-world applications. In this work, we propose a Partial Spatio-Temporal Learning (PSTL) framework to exploit the local relationship from a partial skeleton sequences built by a unique spatio-temporal masking strategy. Specifically, we construct a negative-sample-free triplet steam structure that is composed of an anchor stream without any masking, a spatial masking stream with Central Spatial Masking (CSM), and a temporal masking stream with Motion Attention Temporal Masking (MATM). The feature cross-correlation matrix is measured between the anchor stream and the other two masking streams, respectively. (1) Central Spatial Masking discards selected joints from the feature calculation process, where the joints with a higher degree of centrality have a higher possibility of being selected. (2) Motion Attention Temporal Masking leverages the motion of action and remove frames that move faster with a higher possibility. Our method achieves state-of-the-art performance on NTURGB+D 60, NTURGB+D 120 and PKU-MMD under various downstream tasks. Furthermore, a practical evaluation is performed where some skeleton joints are lost in downstream tasks.In contrast to previous methods that suffer from large performance drops, our PSTL can still achieve remarkable results under this challenging setting, validating the robustness of our method.
翻訳日:2023-02-20 13:58:13 公開日:2023-02-17
# サブキューブ条件付きハイパーグリッドの均一性試験

Uniformity Testing over Hypergrids with Subcube Conditioning ( http://arxiv.org/abs/2302.09013v1 )

ライセンス: Link先を確認
Xi Chen, Cassandra Marcussen(参考訳) ハイパーグリッドでサポートされている分布の均一性をテストするアルゴリズムを$[m]^n$で提供し、サブキューブ条件付きサンプリングオラクルに$\tilde{O}(\text{poly}(m)\sqrt{n}/\epsilon^2)$クエリを生成する。 ハイパーグリッドの側長$m$が定数である場合、我々のアルゴリズムはほぼ最適であり、クエリの複雑さは同じだがハイパーキューブ$\{\pm 1\}^n$でのみ動作する[CCK+21]アルゴリズムを強化する。 我々のアルゴリズムの分析の背後にある重要な技術的貢献は、フーリエ解析を用いた$\mathbb{Z}_m^n$上の関数に対するピシエの不等式の頑健なバージョンの証明である。

We give an algorithm for testing uniformity of distributions supported on hypergrids $[m]^n$, which makes $\tilde{O}(\text{poly}(m)\sqrt{n}/\epsilon^2)$ queries to a subcube conditional sampling oracle. When the side length $m$ of the hypergrid is a constant, our algorithm is nearly optimal and strengthens the algorithm of [CCK+21] which has the same query complexity but works for hypercubes $\{\pm 1\}^n$ only. A key technical contribution behind the analysis of our algorithm is a proof of a robust version of Pisier's inequality for functions over $\mathbb{Z}_m^n$ using Fourier analysis.
翻訳日:2023-02-20 13:57:39 公開日:2023-02-17
# covidexpert:covid-19検出のための三重項シアムニューラルネットワークフレームワーク

CovidExpert: A Triplet Siamese Neural Network framework for the detection of COVID-19 ( http://arxiv.org/abs/2302.09004v1 )

ライセンス: Link先を確認
Tareque Rahman Ornob, Gourab Roy and Enamul Hassan(参考訳) 新型コロナウイルス(covid-19)感染の患者は肺炎のような症状と肺に有害な呼吸障害を持つ可能性がある。 医療画像から、新型コロナウイルスの病気を正確に特定し、さまざまな機械学習手法を用いて予測することができる。 公開された機械学習手法のほとんどは、広範なハイパーパラメータ調整を必要とし、小さなデータセットには適さない。 比較的小さなデータセットでデータを活用することで、少数の学習アルゴリズムは、大規模なデータセットの必要性を減らすことを目指している。 これは、この危険な病気の影響を減らすために、covid-19の早期発見のための、数発の学習モデルを開発するきっかけになりました。 提案アーキテクチャは,CTスキャン画像から類似性学習のための特徴ベクトルを抽出するために,少数ショット学習と事前訓練された畳み込みニューラルネットワークのアンサンブルを組み合わせる。 提案されているトリプルト・シームズ・ネットワークは、CTスキャン画像をノーマル、COVID-19、およびCommunity-Acquired Pneumoniaに分類する数少ない学習モデルである。 提案されたモデルでは、全体的な精度は98.719%、特異性は99.36%、感度は98.72%、ROCスコアは99.9%であった。

Patients with the COVID-19 infection may have pneumonia-like symptoms as well as respiratory problems which may harm the lungs. From medical images, coronavirus illness may be accurately identified and predicted using a variety of machine learning methods. Most of the published machine learning methods may need extensive hyperparameter adjustment and are unsuitable for small datasets. By leveraging the data in a comparatively small dataset, few-shot learning algorithms aim to reduce the requirement of large datasets. This inspired us to develop a few-shot learning model for early detection of COVID-19 to reduce the post-effect of this dangerous disease. The proposed architecture combines few-shot learning with an ensemble of pre-trained convolutional neural networks to extract feature vectors from CT scan images for similarity learning. The proposed Triplet Siamese Network as the few-shot learning model classified CT scan images into Normal, COVID-19, and Community-Acquired Pneumonia. The suggested model achieved an overall accuracy of 98.719%, a specificity of 99.36%, a sensitivity of 98.72%, and a ROC score of 99.9% with only 200 CT scans per category for training data.
翻訳日:2023-02-20 13:57:22 公開日:2023-02-17
# 物質統合知能システムとTiny Machine Learningをサポートする堅牢で拡張可能なStack Virtual Machine REXAVMによるTiny Embedded Systemsの仮想化

Virtualization of Tiny Embedded Systems with a robust real-time capable and extensible Stack Virtual Machine REXAVM supporting Material-integrated Intelligent Systems and Tiny Machine Learning ( http://arxiv.org/abs/2302.09002v1 )

ライセンス: Link先を確認
Stefan Bosse, Sarah Bornemann, Bj\"orn L\"ussem(参考訳) 過去数十年間、センサーの密度とセンサーの配置が大幅に向上し、チップレベルでの大幅な小型化とサイズの減少、ユビキタスコンピューティング、エッジコンピューティング、分散センサーネットワークへの対処が進められてきた。 材料統合とインテリジェントシステム(miis)は、次の統合とアプリケーションレベルを提供するが、新たな課題を生み出し、厳しい制約(リソース、エネルギー供給、通信、レジリエンス、セキュリティ)を導入する。 一般に低リソースシステムは、アプリケーション固有のソフトウェアまたはアプリケーション固有のハードウェア(fpga)を備えた静的にプログラムされたプロセッサである。 この研究は、ソフトウェアとハードウェアの両方で実装および協調可能な、低リソースでカスタマイズ可能でリアルタイムに実行可能な組み込みおよび拡張可能なスタック仮想マシン(REXAVM)を使用して、レジリエントな分散センサとサイバー物理ネットワークに対する、このような低リソースおよび制約されたシステムの仮想化の必要性と解決策を実証する。 全体的なアーキテクチャアプローチでは、VMは特にデジタル信号処理と小さな機械学習に対処する。 REXAVMは、コンパイル時にVMプログラムコードジェネレータを使用し、実行時にインクリメンタルコード処理によって、高度にカスタマイズできる。 vmは統合的で高効率なjust-in-timeコンパイラを使用して、テキストコードからバイトコードを生成する。 本稿では,動作に等価なソフトウェアとハードウェア(FPGA)の実装に適したVMアーキテクチャを提案する。 固定点演算を用いた小型MLとDSPをサポートする特定のコンポーネントについて,効率と精度について論じる。 拡張されたユースケースセクションでは、幅広いアプリケーションに対して導入されたVMアーキテクチャのユーザビリティを示しています。

In the past decades, there has been a significant increase in sensor density and sensor deployment, driven by a significant miniaturization and decrease in size down to the chip level, addressing ubiquitous computing, edge computing, as well as distributed sensor networks. Material-integrated and intelligent systems (MIIS) provide the next integration and application level, but they create new challenges and introduce hard constraints (resources, energy supply, communication, resilience, and security). Commonly, low-resource systems are statically programmed processors with application-specific software or application-specific hardware (FPGA). This work demonstrates the need for and solution to virtualization in such low-resource and constrained systems towards resilient distributed sensor and cyber-physical networks using a unified low-resource, customizable, and real-time capable embedded and extensible stack virtual machine (REXAVM) that can be implemented and cooperate in both software and hardware. In a holistic architecture approach, the VM specifically addresses digital signal processing and tiny machine learning. The REXAVM is highly customizable through the use of VM program code generators at compile time and incremental code processing at run time. The VM uses an integrated, highly efficient just-in-time compiler to create Bytecode from text code. This paper shows and evaluates the suitability of the proposed VM architecture for operationally equivalent software and hardware (FPGA) implementations. Specific components supporting tiny ML and DSP using fixed-point arithmetic with respect to efficiency and accuracy are discussed. An extended use-case section demonstrates the usability of the introduced VM architecture for a broad range of applications.
翻訳日:2023-02-20 13:57:01 公開日:2023-02-17
# 音声質問を用いたニュース記事の多様性を高めるインタフェースの設計と評価

Designing and Evaluating Interfaces that Highlight News Coverage Diversity Using Discord Questions ( http://arxiv.org/abs/2302.08997v1 )

ライセンス: Link先を確認
Philippe Laban, Chien-Sheng Wu, Lidiya Murakhovs'ka, Xiang 'Anthony' Chen, Caiming Xiong(参考訳) 現代のニュースアグリゲータは、大きなニュースストリームを整理し、数十のソースオプションで、特定のニュースストーリーのコレクションを作成する。 本稿は,ニュース記事のための大規模なソースコレクションをナビゲートすることは,さらなるガイダンスなしでは困難であることを示す。 本研究は,3つのインタフェース,注釈記事,要約記事,質問表の3つを,ニュース読者が読書中にカバー範囲の多様性を見出すのに参考に設計したものである。 10人のジャーナリズム専門家による最初のユーザビリティ調査では、デザインされたインターフェースはすべてカバレッジの多様性を明らかにし、各インターフェースの潜在的なユースケースとオーディエンスを決定する。 第2のユーザビリティスタディでは,95人の初心者ニュースリーダによる読解演習を開発・実施し,カバレッジの多様性を計測した。 その結果,アノテート記事のユーザは,既存の2つのインターフェースよりも34%完全に回答できると同時に,インターフェースの使いやすさも同等であることがわかった。

Modern news aggregators do the hard work of organizing a large news stream, creating collections for a given news story with tens of source options. This paper shows that navigating large source collections for a news story can be challenging without further guidance. In this work, we design three interfaces -- the Annotated Article, the Recomposed Article, and the Question Grid -- aimed at accompanying news readers in discovering coverage diversity while they read. A first usability study with 10 journalism experts confirms the designed interfaces all reveal coverage diversity and determine each interface's potential use cases and audiences. In a second usability study, we developed and implemented a reading exercise with 95 novice news readers to measure exposure to coverage diversity. Results show that Annotated Article users are able to answer questions 34% more completely than with two existing interfaces while finding the interface equally easy to use.
翻訳日:2023-02-20 13:56:33 公開日:2023-02-17
# 崩壊モデルに対する光力学に基づく量子推定理論

Optomechanics-based quantum estimation theory for collapse models ( http://arxiv.org/abs/2302.08995v1 )

ライセンス: Link先を確認
Marta Maria Marchese, Alessio Belenchia, Mauro Paternostro(参考訳) 我々は、量子パラメータ推定の強力な形式化を利用して、大規模機械系の運動に影響を与える連続自発的局所化(CSL)モデルの特徴率を評価する。 非平衡条件下で行われた研究は、CSLによる拡散速度の推定において、真の量子資源(量子相関など)の使用による利点を明らかにする。 定常状態では、量子性能と古典的なスキームの間のギャップはなくなる。 本研究は,崩壊モデルの実験的評価に適した条件を特定するための継続的な取り組みに寄与する。

We make use of the powerful formalism of quantum parameter estimation to assess the characteristic rates of a Continuous Spontaneous Localisation (CSL) model affecting the motion of a massive mechanical system. We show that a study performed in non-equilibrium conditions unveils the advantages provided by the use of genuinely quantum resources -- such as quantum correlations -- in estimating the CSL-induced diffusion rate. In stationary conditions, instead, the gap between quantum performance and a classical scheme disappears. Our investigation contributes to the ongoing effort aimed at identifying suitable conditions for the experimental assessment of collapse models.
翻訳日:2023-02-20 13:56:18 公開日:2023-02-17
# qubit測定の互換性の複雑さと互換性半径

Compatibility Complexity and the Compatibility Radius of Qubit Measurements ( http://arxiv.org/abs/2302.09060v1 )

ライセンス: Link先を確認
Yujie Zhang, Jiaxuan Zhang, Eric Chitambar(参考訳) 量子力学における測定互換性は、正の演算子値測定(povm)に対する可換性の拡張として導入された。 非互換な測定ファミリは、多くの魅力的な量子効果を実現するために必要であるが、本研究では、互換性のある測定でさえ、豊富な非古典的構造を持つことを示す。 特に、適合する測定のファミリー全体をシミュレートするために「パリンの」測定がどれほど大きいかを検討する。 スピン1/2系の場合、この問題の幾何学的定式化を追求し、ノイズのスピン測定をシミュレートするために必要な親 povm の大きさの下限と上限をきつく導出する。 最も注目すべきは、臨界雑音閾値において、シミュレーションを実現するには、未有界サイズの親POVMが必要であることである。 この結果の一部は、バナッハ空間論において研究されたゾノトペ近似問題とノイズスピン測定の整合性に関連して得られた。 2ビットワーナー状態の局所的隠れ状態モデルへの含意について論じる。

Measurement compatibility in quantum mechanics has been introduced and used as an extension of commutativity for positive operator-valued measurements (POVMs). While incompatible families of measurements are necessary to realize many fascinating quantum effects, in this work, we show that even compatible measurements can have a rich non-classical structure. In particular, we consider how large a 'paren' measurement must be to simulate an entire family of compatible measurements. For the case of spin-1/2 systems, we pursue a geometrical formulation of the problem and derive tight lower and upper bounds on the size of a parent POVM needed to simulate noisy spin measurements. Most notably, we prove that at critical noise thresholds, a parent POVM of unbounded size is needed to achieve the simulation. Part of our results is obtained by relating the compatibility of noisy spin measurements to the zonotope approximation problem studied in Banach space theory. Implications for local hidden state models of two-qubit Werner states are discussed.
翻訳日:2023-02-20 13:50:20 公開日:2023-02-17
# 双極子膜におけるスピン励起のモーメント選択対生成

Momentum-selective pair creation of spin excitations in dipolar bilayers ( http://arxiv.org/abs/2302.09059v1 )

ライセンス: Link先を確認
Thomas Bilitewski, G. A. Dom\'inguez-Castro, David Wellnitz, Ana Maria Rey, Luis Santos(参考訳) 長距離・異方性双極子相互作用を媒介とするスピン1/2量子xxzモデルを実現する2次元二重層における量子相関の時間的成長と空間伝播について検討した。 各層に逆磁化を持つスピンからなる初期状態から始めると、スピン構造因子における運動量依存性の動的不安定性の出現を予測し、その結果、短時間で指数関数的に速い速度で励起対を生成する。 生成されたペアは、双極子配向、層分離または双極子カップリングを制御することで調整できる特徴的な運動量分布を示す。 予測された挙動は、非常に低い充填率で観測可能であり、ライドバーグ原子、磁気原子、極性分子配列を用いた最先端の実験で見ることができる。

We study the temporal growth and spatial propagation of quantum correlations in a two-dimensional bilayer realising a spin-1/2 quantum XXZ model with couplings mediated by long-range and anisotropic dipolar interactions. Starting with an initial state consisting of spins with opposite magnetization in each of the layers, we predict the emergence of a momentum-dependent dynamic instability in the spin structure factor that results, at short times, in the creation of pairs of excitations at exponentially fast rates. The created pairs present a characteristic momentum distribution that can be tuned by controlling the dipolar orientation, the layer separation or the dipolar couplings. The predicted behavior remains observable at very low filling fractions, making it accessible in state-of-the-art experiments with Rydberg atoms, magnetic atoms, and polar molecule arrays.
翻訳日:2023-02-20 13:50:03 公開日:2023-02-17
# 一貫性拡散モデル:一貫性の学習によるサンプリングドリフトの緩和

Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be Consistent ( http://arxiv.org/abs/2302.09057v1 )

ライセンス: Link先を確認
Giannis Daras, Yuval Dagan, Alexandros G. Dimakis, Constantinos Daskalakis(参考訳) 不完全なスコアマッチングは、トレーニングと拡散モデルのサンプリング分布の間のシフトをもたらす。 生成プロセスの再帰的な性質のため、前のステップでの誤差は、トレーニング分布から逸脱するサンプリング反復を生じる。 しかし、DSM(Denoising Score Matching)による標準トレーニングの目的は、非ドリフトデータに対してのみ最適化するように設計されている。 ドリフトデータのトレーニングには,モデルが生成したデータの予測が時間とともに一定であることを示す,emph{consistency}プロパティを適用することを提案する。 理論的には、スコアが(dsmを介して)ある非ドリフト点で完全に学習され、一貫性特性が至る所で強制された場合、スコアは至る所で正確に学習される。 CIFAR-10の条件および非条件生成とAFHQおよびFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。 私たちはコードとモデルをオープンソースにしています。

Imperfect score-matching leads to a shift between the training and the sampling distribution of diffusion models. Due to the recursive nature of the generation process, errors in previous steps yield sampling iterates that drift away from the training distribution. Yet, the standard training objective via Denoising Score Matching (DSM) is only designed to optimize over non-drifted data. To train on drifted data, we propose to enforce a \emph{consistency} property which states that predictions of the model on its own generated data are consistent across time. Theoretically, we show that if the score is learned perfectly on some non-drifted points (via DSM) and if the consistency property is enforced everywhere, then the score is learned accurately everywhere. Empirically we show that our novel training objective yields state-of-the-art results for conditional and unconditional generation in CIFAR-10 and baseline improvements in AFHQ and FFHQ. We open-source our code and models: https://github.com/giannisdaras/cdm
翻訳日:2023-02-20 13:49:49 公開日:2023-02-17
# OTB-morph: モルフィングによるワンタイムバイオメトリックス

OTB-morph: One-Time Biometrics via Morphing ( http://arxiv.org/abs/2302.09053v1 )

ライセンス: Link先を確認
Mahdi Ghafourian, Julian Fierrez, Ruben Vera-Rodriguez, Aythami Morales and Ignacio Serna(参考訳) Cancelable Biometricsは、生体認証システムにおけるセキュリティとプライバシを提供するために、トランスフォーメーション関数と通常キーを使用して意図的に入力バイオメトリックを不可逆的な特徴に変換する一連の技術である。 この変換は、その後のバイオメトリックの比較を可能にする。 本稿では,テンプレートを反復的最適化攻撃から保護することを目的とした,キャンセル可能なバイオメトリックスのための変換関数として活用する新しいアイデアを提案する。 提案手法は時間変化キー(この場合のランダムなバイオメトリックス)とモーフィング変換に基づいている。 提案手法の実験的実装が顔バイオメトリックスに対して提供される。 その結果,提案手法は認識性能を改善しつつ,漏洩攻撃に耐えることができることを確認した。

Cancelable biometrics are a group of techniques to transform the input biometric to an irreversible feature intentionally using a transformation function and usually a key in order to provide security and privacy in biometric recognition systems. This transformation is repeatable enabling subsequent biometric comparisons. This paper is introducing a new idea to exploit as a transformation function for cancelable biometrics aimed at protecting the templates against iterative optimization attacks. Our proposed scheme is based on time-varying keys (random biometrics in our case) and morphing transformations. An experimental implementation of the proposed scheme is given for face biometrics. The results confirm that the proposed approach is able to withstand against leakage attacks while improving the recognition performance.
翻訳日:2023-02-20 13:49:34 公開日:2023-02-17
# 複雑なQAと言語モデルハイブリッドアーキテクチャ,サーベイ

Complex QA and language models hybrid architectures, Survey ( http://arxiv.org/abs/2302.09051v1 )

ライセンス: Link先を確認
Xavier Daull, Patrice Bellot, Emmanuel Bruno, Vincent Martin, Elisabeth Murisasco(参考訳) 本稿では,ハイブリッド言語モデルアーキテクチャの現状と"複雑な"質問応答(qa, cqa, cps)のための戦略について述べる。 非常に大きな言語モデルは、標準問題に関する公開データを活用するのが得意ですが、もっと複雑な質問や問題に取り組もうとすると、特定のアーキテクチャ、知識、スキル、タスク、メソッド、センシティブなデータ、パフォーマンス、人間の承認、多彩なフィードバックが必要です。 この調査は、タスクの複雑さと精度の厳密な評価(公正性、堅牢性、毒性など)の観点から、大きな言語モデルの限界と課題をオープンソース化し、ベンチマークし、分析する、堅牢なコミュニティ編集研究論文であるBIG、BLOOM、HELMの調査結果を拡張している。 複雑な問題や問題を解決するために、LLM(Large Language Models)で使われる重要な要素を特定する。 ChatGPTやGALACTICAといった最近のプロジェクトでは、非特殊主義者が複雑なQAにおける言語モデルの等しく強い制限だけでなく、大きな可能性を把握できるようになった。 これらのモデルを異なるコンポーネントでハイブリッド化することで、これらの異なる制限を克服し、さらに前進することができる。 本稿では、ドメイン適応、分解、効率的なマルチステップQA、ロングフォームQA、非ファクトイドQA、安全性とマルチセンシティブなデータ保護、マルチモーダル検索、幻覚、QA説明可能性、真理性、時間次元など、複雑なQAに関連する課題について論じる。 そこで我々は, ハイブリッドLLMアーキテクチャ, ヒューマン・イン・ザ・ループ強化学習, 適応の促進, ニューロシンボリックで構造化された知識基盤, プログラム合成などの要素を用いて, 現状のソリューションと有望な戦略を概観する。 我々は既存のソリューションを解析し、複雑なQA領域における現在の研究動向の概要を提供する。

This paper provides a survey of the state of the art of hybrid language models architectures and strategies for "complex" question-answering (QA, CQA, CPS). Very large language models are good at leveraging public data on standard problems but once you want to tackle more specific complex questions or problems you may need specific architecture, knowledge, skills, tasks, methods, sensitive data, performance, human approval and versatile feedback... This survey extends findings from the robust community edited research papers BIG, BLOOM and HELM which open source, benchmark and analyze limits and challenges of large language models in terms of tasks complexity and strict evaluation on accuracy (e.g. fairness, robustness, toxicity, ...). It identifies the key elements used with Large Language Models (LLM) to solve complex questions or problems. Recent projects like ChatGPT and GALACTICA have allowed non-specialists to grasp the great potential as well as the equally strong limitations of language models in complex QA. Hybridizing these models with different components could allow to overcome these different limits and go much further. We discuss some challenges associated with complex QA, including domain adaptation, decomposition and efficient multi-step QA, long form QA, non-factoid QA, safety and multi-sensitivity data protection, multimodal search, hallucinations, QA explainability and truthfulness, time dimension. Therefore we review current solutions and promising strategies, using elements such as hybrid LLM architectures, human-in-the-loop reinforcement learning, prompting adaptation, neuro-symbolic and structured knowledge grounding, program synthesis, and others. We analyze existing solutions and provide an overview of the current research and trends in the area of complex QA.
翻訳日:2023-02-20 13:49:20 公開日:2023-02-17
# 神経スケーリング則の単純化モデル:多周期サンタフェ過程

A Simplistic Model of Neural Scaling Laws: Multiperiodic Santa Fe Processes ( http://arxiv.org/abs/2302.09049v1 )

ライセンス: Link先を確認
{\L}ukasz D\k{e}bowski(参考訳) 大規模言語モデルでは,パラメータ数や訓練トークン数に対して,クロスエントロピーのパワーロー崩壊を示すことが観察された。 文字通り外挿すると、この崩壊は自然言語のエントロピー率がゼロであることを意味する。 この現象(あるいは人工物)をよりよく理解するために、単純な定常確率過程と、消失するエントロピー率でクロスエントロピーのパワーロー減衰を示すメモリベースの予測器を構築した。 この例は以前に議論されたサンタフェのプロセスに基づいており、ランダムテキストをナレーションと時間に依存しない知識のプロセスに分解する。 以前の議論では、ナレーションはZipfの分布を持つメモリレスソースであると考えられていた。 本稿では,消失するエントロピー率を持つナレーションのモデルを提案し,多周期列と呼ばれるランダムに選択された決定論的列を適用する。 適切なパラメータ化の下では、多周期列はZipfの法則によって与えられる漸近相対周波数を示す。 自然言語のエントロピー率の価値について無知でありながら、言語モデリングにおける類似の構造の関連性について論じる。

It was observed that large language models exhibit a power-law decay of cross entropy with respect to the number of parameters and training tokens. When extrapolated literally, this decay implies that the entropy rate of natural language is zero. To understand this phenomenon -- or an artifact -- better, we construct a simple stationary stochastic process and its memory-based predictor that exhibit a power-law decay of cross entropy with the vanishing entropy rate. Our example is based on previously discussed Santa Fe processes, which decompose a random text into a process of narration and time-independent knowledge. Previous discussions assumed that narration is a memoryless source with Zipf's distribution. In this paper, we propose a model of narration that has the vanishing entropy rate and applies a randomly chosen deterministic sequence called a multiperiodic sequence. Under a suitable parameterization, multiperiodic sequences exhibit asymptotic relative frequencies given by Zipf's law. Remaining agnostic about the value of the entropy rate of natural language, we discuss relevance of similar constructions for language modeling.
翻訳日:2023-02-20 13:48:47 公開日:2023-02-17
# midi:分子生成のための混合グラフと3次元分極拡散

MiDi: Mixed Graph and 3D Denoising Diffusion for Molecule Generation ( http://arxiv.org/abs/2302.09048v1 )

ライセンス: Link先を確認
Clement Vignac, Nagham Osman, Laura Toni, Pascal Frossard(参考訳) 分子グラフとそれに対応する3次元コンフォメータを共同生成する拡散モデルであるMiDiを導入する。 既定規則を用いて配座から分子結合を導出する既存のモデルとは対照的に、midiは分子生成プロセスをエンドツーエンドの微分可能モデルで合理化する。 複雑なGEOM-DRUGSデータセット上で、我々のモデルは3次元モデルよりもはるかに優れた分子グラフを生成し、ボンドオーダーを直接効率よく最適化するアルゴリズムを超越している。 私たちのコードはgithub.com/cvignac/MiDiで利用可能です。

This work introduces MiDi, a diffusion model for jointly generating molecular graphs and corresponding 3D conformers. In contrast to existing models, which derive molecular bonds from the conformation using predefined rules, MiDi streamlines the molecule generation process with an end-to-end differentiable model. Experimental results demonstrate the benefits of this approach: on the complex GEOM-DRUGS dataset, our model generates significantly better molecular graphs than 3D-based models and even surpasses specialized algorithms that directly optimize the bond orders for validity. Our code is available at github.com/cvignac/MiDi.
翻訳日:2023-02-20 13:48:29 公開日:2023-02-17
# 自動走行系列の時間順序からの自己教師あり表現学習

Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences ( http://arxiv.org/abs/2302.09043v1 )

ライセンス: Link先を確認
Christopher Lang, Alexander Braun, Lars Schillingmann, Karsten Haug, Abhinav Valada(参考訳) 自己監督型特徴学習により、知覚システムは世界中の車両が記録する膨大な量の生データから恩恵を受けることができる。 しかし、逐次データから密接な表現を学ぶ可能性は比較的未解明である。 本研究では,認識タスクのための領域レベルの特徴表現を事前学習するための時間順述文タスクであるTempOを提案する。 我々は,各フレームを,インスタンスレベルの知覚アーキテクチャに固有な表現である不順序特徴ベクトルの集合で埋め込んで,特徴ベクトルの集合間の類似性を比較することで,逐次順序予測を定式化する。 bdd100kおよびmot17データセットにおける自動駆動ドメインの広範な評価により、当社のtempoアプローチは、標準オブジェクト検出およびマルチオブジェクトトラッキングベンチマークにおける転送学習初期化戦略だけでなく、既存の自己教師付きシングルフレーム事前学習手法よりも優れています。

Self-supervised feature learning enables perception systems to benefit from the vast amount of raw data being recorded by vehicle fleets all over the world. However, their potential to learn dense representations from sequential data has been relatively unexplored. In this work, we propose TempO, a temporal ordering pretext task for pre-training region-level feature representations for perception tasks. We embed each frame by an unordered set of proposal feature vectors, a representation that is natural for instance-level perception architectures, and formulate the sequential ordering prediction by comparing similarities between sets of feature vectors in a transformer-based multi-frame architecture. Extensive evaluation in automated driving domains on the BDD100K and MOT17 datasets shows that our TempO approach outperforms existing self-supervised single-frame pre-training methods as well as supervised transfer learning initialization strategies on standard object detection and multi-object tracking benchmarks.
翻訳日:2023-02-20 13:48:18 公開日:2023-02-17
# フェデレーション学習におけるユーザデータの適合性を高めるために、事前調整をプライベートに行う

Privately Customizing Prefinetuning to Better Match User Data in Federated Learning ( http://arxiv.org/abs/2302.09042v1 )

ライセンス: Link先を確認
Charlie Hou, Hongyuan Zhan, Akshat Shrivastava, Sid Wang, Sasha Livshits, Giulia Fanti, Daniel Lazar(参考訳) Federated Learning (FL)では、プライベートクライアントデータにアクセスすると、通信とプライバシコストが発生する。 その結果、FLデプロイメントは通常、中央サーバが保持する(大きな、おそらくはパブリックな)データセット上で事前訓練された基礎モデルに基づいて、FL-finetuneをクライアントが保持するプライベートなフェデレーションデータセット上でモデルに配置する。 そのため、プレファクチュニングデータセットの品質を確実かつプライベートに評価することが重要である。 そこで本研究では,federated private fr\'echet distance(federated private fr\'echet distance)を提案する。 直感的には、中央(パブリック)データセットと連合したプライベートクライアントデータの両方で、大きな言語モデルによって生成される埋め込み間のfr\'echet距離を計算し、比較する。 この計算をプライバシの保存にするために、分散した差分プライベート平均と共分散推定器を使用します。 FreDは最小限のプライバシーコストで最適な事前調整データセットを正確に予測する。 総じて、fredを使用して、プライベートflトレーニングにおける新しいアプローチのための概念実証を実証する: (1) ユーザデータにマッチするように事前調整データセットをカスタマイズ (2) 事前設定(3) fl指定を実行する。

In Federated Learning (FL), accessing private client data incurs communication and privacy costs. As a result, FL deployments commonly prefinetune pretrained foundation models on a (large, possibly public) dataset that is held by the central server; they then FL-finetune the model on a private, federated dataset held by clients. Evaluating prefinetuning dataset quality reliably and privately is therefore of high importance. To this end, we propose FreD (Federated Private Fr\'echet Distance) -- a privately computed distance between a prefinetuning dataset and federated datasets. Intuitively, it privately computes and compares a Fr\'echet distance between embeddings generated by a large language model on both the central (public) dataset and the federated private client data. To make this computation privacy-preserving, we use distributed, differentially-private mean and covariance estimators. We show empirically that FreD accurately predicts the best prefinetuning dataset at minimal privacy cost. Altogether, using FreD we demonstrate a proof-of-concept for a new approach in private FL training: (1) customize a prefinetuning dataset to better match user data (2) prefinetune (3) perform FL-finetuning.
翻訳日:2023-02-20 13:48:06 公開日:2023-02-17
# 高速ゲームデシグのための自動グラフ遺伝的アルゴリズムによるパズル検証

Automated Graph Genetic Algorithm based Puzzle Validation for Faster Game Desig ( http://arxiv.org/abs/2302.09040v1 )

ライセンス: Link先を確認
Karine Levonyan, Jesse Harder, Fernando De Mesentier Silva(参考訳) 多くのゲームは、プレイヤーの興味を維持するために、常に新しい魅力的なコンテンツを作ることに依存している。 そのような例の1つはパズルゲームであり、新しいパズルを作成するために繰り返し必要となるのが一般的である。 新しいパズルを作成するには、プレイヤーにとって解決可能で興味深いことを保証する必要がある。 パズルの自動検証は、デザイナーに大幅な時間節約と潜在的な品質向上を提供する。 自動化により、パズルデザイナーは異なる特性を見積もり、様々な制約を増加させ、特定のプレイヤーにパズルをパーソナライズすることもできる。 パズルは大きなデザイン空間を持つことが多く、時間を要する場合、徹底的な探索アプローチは実現不可能である。 具体的には、これらのパズルを二次組合せ最適化問題として定式化することができる。 本稿では,コンピュータゲームにおける論理パズルを効率的に解くために,エキスパート知識情報ヒューリスティックスが活用する進化的アルゴリズムを提案し,より効率的な設計プロセスを実現する。 制約満足度問題に対するハイブリッド遺伝的アプローチの多種多様なバリエーションについて検討し,パズルの最適に近い解の多種多様な集合を見つけることを可能にする。 我々は、ファンタジーパーティビルディングパズルゲームにおける我々のアプローチを実証し、他のパズルにどのように広く適用できるかを議論し、デザイナを創造的なプロセスで導く。

Many games are reliant on creating new and engaging content constantly to maintain the interest of their player-base. One such example are puzzle games, in such it is common to have a recurrent need to create new puzzles. Creating new puzzles requires guaranteeing that they are solvable and interesting to players, both of which require significant time from the designers. Automatic validation of puzzles provides designers with a significant time saving and potential boost in quality. Automation allows puzzle designers to estimate different properties, increase the variety of constraints, and even personalize puzzles to specific players. Puzzles often have a large design space, which renders exhaustive search approaches infeasible, if they require significant time. Specifically, those puzzles can be formulated as quadratic combinatorial optimization problems. This paper presents an evolutionary algorithm, empowered by expert-knowledge informed heuristics, for solving logical puzzles in video games efficiently, leading to a more efficient design process. We discuss multiple variations of hybrid genetic approaches for constraint satisfaction problems that allow us to find a diverse set of near-optimal solutions for puzzles. We demonstrate our approach on a fantasy Party Building Puzzle game, and discuss how it can be applied more broadly to other puzzles to guide designers in their creative process.
翻訳日:2023-02-20 13:47:43 公開日:2023-02-17
# ブラインドスーパーレゾリューションのためのカーネル化バックプロジェクションネットワーク

Kernelized Back-Projection Networks for Blind Super Resolution ( http://arxiv.org/abs/2302.08478v2 )

ライセンス: Link先を確認
Tomoki Yoshida, Yuki Kondo, Takahiro Maeda, Kazutoshi Akita, Norimichi Ukita(参考訳) 非盲検超解像(SR)は、任意の劣化で劣化した低分解能画像の超解像化に失敗するため、劣化モデルによるSRが必要である。 しかし本論文では,ブラインドsrの劣化モデルと同等の性能を示す非ブラインドsrについて述べる。 この結果は、高性能な非盲検SRを再検討し、それをぼやけたカーネルを持つ盲検SRに拡張する動機となる。 本稿では、カーネル推定とSR分岐を反復的に統合した2つのSRネットワークを提案する。 Kernel Conditioned Back-Projection Network (KCBPN)と呼ばれる最初のモデルでは、SRブランチの条件付けのために低次元のカーネル表現が推定される。 2つ目のモデルであるKBPN(Kernelized BackProjection Network)では、生のカーネルを推定し、直接画像劣化をモデル化する。 推定されたカーネルは、残差をバックプロパゲーションするだけでなく、残差を反復ステージに前進させるためにも用いられる。 このフォワードプロパゲーションは、各ステージに大きな残差を持つピクセルに焦点をあてることで、これらのステージが異なるステージで様々な特徴を学ぶことを奨励する。 実験結果は,提案ネットワークによるカーネル推定とsrの有効性を検証する。 この作業のためにコードをリリースします。

Since non-blind Super Resolution (SR) fails to super-resolve Low-Resolution (LR) images degraded by arbitrary degradations, SR with the degradation model is required. However, this paper reveals that non-blind SR that is trained simply with various blur kernels exhibits comparable performance as those with the degradation model for blind SR. This result motivates us to revisit high-performance non-blind SR and extend it to blind SR with blur kernels. This paper proposes two SR networks by integrating kernel estimation and SR branches in an iterative end-to-end manner. In the first model, which is called the Kernel Conditioned Back-Projection Network (KCBPN), the low-dimensional kernel representations are estimated for conditioning the SR branch. In our second model, the Kernelized BackProjection Network (KBPN), a raw kernel is estimated and directly employed for modeling the image degradation. The estimated kernel is employed not only for back-propagating its residual but also for forward-propagating the residual to iterative stages. This forward-propagation encourages these stages to learn a variety of different features in different stages by focusing on pixels with large residuals in each stage. Experimental results validate the effectiveness of our proposed networks for kernel estimation and SR. We will release the code for this work.
翻訳日:2023-02-20 11:32:51 公開日:2023-02-17
# 大規模言語モデルは思考理論への微妙な変更に失敗する

Large Language Models Fail on Trivial Alterations to Theory-of-Mind Tasks ( http://arxiv.org/abs/2302.08399v2 )

ライセンス: Link先を確認
Tomer Ullman(参考訳) 直観心理学は常識推論の柱である。 マシンインテリジェンスにおけるこの推論の再現は、人間のような人工知能への道のりの重要な一歩である。 大規模モデルにおけるこの推論を検証するための最近のいくつかのタスクとベンチマークは、特に思考理論のタスクにおける信念の帰属に焦点を当てている。 これらのタスクは成功と失敗の両方を示しています。 特に,最近報告された成功事例について考察し,ToMの原則を維持する小さなバリエーションが,その結果を反映していることを示す。 一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であり,失敗事例は平均的成功率を上回るべきであると論じる。 また、より強力なLCMによる「ミステリー・オブ・ミンド」タスクにおける将来的な成功の可能性についても検討する。

Intuitive psychology is a pillar of common-sense reasoning. The replication of this reasoning in machine intelligence is an important stepping-stone on the way to human-like artificial intelligence. Several recent tasks and benchmarks for examining this reasoning in Large-Large Models have focused in particular on belief attribution in Theory-of-Mind tasks. These tasks have shown both successes and failures. We consider in particular a recent purported success case, and show that small variations that maintain the principles of ToM turn the results on their head. We argue that in general, the zero-hypothesis for model evaluation in intuitive psychology should be skeptical, and that outlying failure cases should outweigh average success rates. We also consider what possible future successes on Theory-of-Mind tasks by more powerful LLMs would mean for ToM tasks with people.
翻訳日:2023-02-20 11:32:29 公開日:2023-02-17
# 効率360:効率的な視覚トランスフォーマー

Efficiency 360: Efficient Vision Transformers ( http://arxiv.org/abs/2302.08374v2 )

ライセンス: Link先を確認
Badri N. Patro and Vijay Srinivas Agneeswaran(参考訳) トランスフォーマーは自然言語処理、コンピュータビジョン、音声、音楽ドメインのタスクの解決に広く使われている。 本稿では、メモリの効率(パラメータ数)、計算コスト(浮動小数点演算数)、モデルの性能(精度、モデルの堅牢性、公正でバイアスのない機能)について述べる。 画像分類タスクにおける視覚トランスフォーマについて主に論じる。 私たちの貢献は、産業アプリケーションをより効率的にするために、視覚トランスフォーマーのさまざまな側面を含む効率的な360フレームワークの導入です。 これらの応用を考慮すれば、プライバシ、ロバスト性、透明性、公平性、包括性、連続学習、確率モデル、近似、計算複雑性、スペクトル複雑性といった多次元に分類できる。 本稿では,その性能,パラメータ数,および複数のデータセット上の浮動小数点演算(FLOP)数に基づいて,様々な視覚変換器モデルを比較する。

Transformers are widely used for solving tasks in natural language processing, computer vision, speech, and music domains. In this paper, we talk about the efficiency of transformers in terms of memory (the number of parameters), computation cost (number of floating points operations), and performance of models, including accuracy, the robustness of the model, and fair \& bias-free features. We mainly discuss the vision transformer for the image classification task. Our contribution is to introduce an efficient 360 framework, which includes various aspects of the vision transformer, to make it more efficient for industrial applications. By considering those applications, we categorize them into multiple dimensions such as privacy, robustness, transparency, fairness, inclusiveness, continual learning, probabilistic models, approximation, computational complexity, and spectral complexity. We compare various vision transformer models based on their performance, the number of parameters, and the number of floating point operations (FLOPs) on multiple datasets.
翻訳日:2023-02-20 11:32:16 公開日:2023-02-17
# LightGCL:レコメンデーションのためのシンプルで効果的なグラフコントラスト学習

LightGCL: Simple Yet Effective Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2302.08191v2 )

ライセンス: Link先を確認
Xuheng Cai, Chao Huang, Lianghao Xia, Xubin Ren(参考訳) グラフニューラルネットワーク(GNN)は、グラフベースのレコメンデータシステムのための強力な学習手法である。 近年, コントラスト学習と統合されたGNNは, 高度にスパースなデータを扱うことを目的としたデータ拡張方式により, 優れた性能を示した。 その成功にもかかわらず、既存のグラフのコントラスト学習手法のほとんどは、ユーザ-itemの相互作用グラフ上で確率的拡張(ノード/エッジの摂動)を行うか、あるいはコントラスト的なビューを生成するためにヒューリスティックベースの拡張技術(ユーザクラスタリングなど)に依存する。 これらの手法は本質的な意味構造を十分に保ち得ず、ノイズの摂動によって容易にバイアスを受けることができる。 本稿では,これらの問題を緩和し,CLベースのレコメンデータの汎用性と堅牢性を損なう,簡易で効果的なグラフコントラッシブ学習パラダイムLightGCLを提案する。 本モデルでは, コントラスト拡張のために特異値分解を排他的に活用し, 協調関係モデリングによる制約のない構造改善を可能にする。 いくつかのベンチマークデータセットで行った実験は、最先端のモデルよりもモデルの性能が大幅に向上したことを示している。 さらなる分析は、データスパーシリティと人気バイアスに対するLightGCLの頑健さの優位性を示している。 私たちのモデルのソースコードはhttps://github.com/HKUDS/LightGCLで公開されています。

Graph neural network (GNN) is a powerful learning approach for graph-based recommender systems. Recently, GNNs integrated with contrastive learning have shown superior performance in recommendation with their data augmentation schemes, aiming at dealing with highly sparse data. Despite their success, most existing graph contrastive learning methods either perform stochastic augmentation (e.g., node/edge perturbation) on the user-item interaction graph, or rely on the heuristic-based augmentation techniques (e.g., user clustering) for generating contrastive views. We argue that these methods cannot well preserve the intrinsic semantic structures and are easily biased by the noise perturbation. In this paper, we propose a simple yet effective graph contrastive learning paradigm LightGCL that mitigates these issues impairing the generality and robustness of CL-based recommenders. Our model exclusively utilizes singular value decomposition for contrastive augmentation, which enables the unconstrained structural refinement with global collaborative relation modeling. Experiments conducted on several benchmark datasets demonstrate the significant improvement in performance of our model over the state-of-the-arts. Further analyses demonstrate the superiority of LightGCL's robustness against data sparsity and popularity bias. The source code of our model is available at https://github.com/HKUDS/LightGCL.
翻訳日:2023-02-20 11:31:59 公開日:2023-02-17
# URCDC-Depth : 単眼深度推定のためのCutFlipを用いた不確かさのクロス蒸留法

URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation ( http://arxiv.org/abs/2302.08149v2 )

ライセンス: Link先を確認
Shuwei Shao, Zhongcai Pei, Weihai Chen, Ran Li, Zhong Liu and Zhengguo Li(参考訳) この研究は、単一のRGB画像から高品質な深度マップを推定することを目的としている。 奥行きの手がかりがないため,遠距離相関と局所情報を十分に活用することは,正確な奥行き推定には不可欠である。 この目的のために,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確実性補正断熱を導入し,統合深度推定器を学習する。 具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。 一方,画素方向の奥行きの不確かさをモデル化し,ノイズの多い擬似ラベルの損失重みを補正する。 クロス蒸留を劣化させる強力なトランスフォーマーブランチによって引き起こされる大きな容量ギャップを回避するため,トランスフォーマーからCNNへ特徴マップを転送し,弱いCNNブランチを補助して伝達された特徴を活用する。 さらに,深度推定のための鉛直画像位置とは別に,より価値の高い手がかりを活用できるように,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。 KITTI, NYU-Depth-v2 および SUN RGB-D データセットでは, 推論時の計算負荷を伴わずに, 従来の最先端の手法を超越したモデルである~\textbf{URCDC-Depth} が実証された。 ソースコードは \url{https://github.com/ShuweiShao/URCDC-Depth} で公開されている。

This work aims to estimate a high-quality depth map from a single RGB image. Due to the lack of depth clues, making full use of the long-range correlation and the local information is critical for accurate depth estimation. Towards this end, we introduce an uncertainty rectified cross-distillation between Transformer and convolutional neural network (CNN) to learn a unified depth estimator. Specifically, we use the depth estimates from the Transformer branch and the CNN branch as pseudo labels to teach each other. Meanwhile, we model the pixel-wise depth uncertainty to rectify the loss weights of noisy pseudo labels. To avoid the large capacity gap induced by the strong Transformer branch deteriorating the cross-distillation, we transfer the feature maps from Transformer to CNN and design coupling units to assist the weak CNN branch to leverage the transferred features. Furthermore, we propose a surprisingly simple yet highly effective data augmentation technique CutFlip, which enforces the model to exploit more valuable clues apart from the vertical image position for depth inference. Extensive experiments demonstrate that our model, termed~\textbf{URCDC-Depth}, exceeds previous state-of-the-art methods on the KITTI, NYU-Depth-v2 and SUN RGB-D datasets, even with no additional computational burden at inference time. The source code is publicly available at \url{https://github.com/ShuweiShao/URCDC-Depth}.
翻訳日:2023-02-20 11:31:38 公開日:2023-02-17
# グラフトランスフォーマを用いた生成逆向ネットワークを用いた薬物候補分子のターゲット特異的 de novo 設計

Target Specific De Novo Design of Drug Candidate Molecules with Graph Transformer-based Generative Adversarial Networks ( http://arxiv.org/abs/2302.07868v3 )

ライセンス: Link先を確認
Atabey \"Unl\"u, Elif \c{C}evrim, Ahmet Sar{\i}g\"un, Hayriye \c{C}elikbilek, Heval Ata\c{s} G\"uvenilir, Altay Koya\c{s}, Deniz Cansen Kahraman, Abdurrahman Ol\u{g}a\c{c}, Ahmet Rifaio\u{g}lu, Tunca Do\u{g}an(参考訳) 新規薬物候補分子の発見は、薬物開発における最も基本的で重要なステップの1つである。 確率分布を与えられた合成データを生成する生成的深層学習モデルは、部分的に知られている空間から完全に新しいサンプルを選択するために開発された。 生成モデルは、デノボ分子を設計するための高い可能性を提供するが、それらが実生活の薬物開発パイプラインで有用になるためには、これらのモデルは、この分野で次のステップであるターゲット特異的分子を設計できるべきである。 本研究では,選択された標的タンパク質と相互作用する薬物候補分子のデノボ設計のための薬物遺伝子を提案する。 提案システムは, 化合物とタンパク質の構造をグラフとして表現し, グラフ変換器からなる2つの生成逆数ネットワークを直列接続して処理する。 医薬品は、ChEMBLと標的特異的な生物活性分子からの大量の化合物のデータセットを用いて訓練され、AKT1タンパク質に対して効果的で特異的な阻害分子を設計する。 基本的なベンチマークでは、薬物発生モデルは他の方法と競合するか、より良い性能を持つ。 ターゲット特異的な生成性能を評価するため,分子ドッキングと深層学習に基づく生物活性予測を用いてシリコ解析を行った。 以上の結果から,de novo分子はakt1タンパク質構造と相互作用する可能性が高いことが示唆された。 ドラッグジェンは完全に新規で効果的な標的特異的な薬物候補分子を創薬可能なタンパク質、与えられた標的特徴と実験的な生物活性のデータセットのために設計することができる。 DrugGENのコードベース、データセット、結果、トレーニングされたモデルはhttps://github.com/HUBioDataLab/DrugGENで入手できる。

Discovering novel drug candidate molecules is one of the most fundamental and critical steps in drug development. Generative deep learning models, which create synthetic data given a probability distribution, have been developed with the purpose of picking completely new samples from a partially known space. Generative models offer high potential for designing de novo molecules; however, in order for them to be useful in real-life drug development pipelines, these models should be able to design target-specific molecules, which is the next step in this field. In this study, we propose DrugGEN, for the de novo design of drug candidate molecules that interact with selected target proteins. The proposed system represents compounds and protein structures as graphs and processes them via serially connected two generative adversarial networks comprising graph transformers. DrugGEN is trained using a large dataset of compounds from ChEMBL and target-specific bioactive molecules, to design effective and specific inhibitory molecules against the AKT1 protein, which has critical importance for developing treatments against various types of cancer. On fundamental benchmarks, DrugGEN models have either competitive or better performance against other methods. To assess the target-specific generation performance, we conducted further in silico analysis with molecular docking and deep learning-based bioactivity prediction. Results indicate that de novo molecules have high potential for interacting with the AKT1 protein structure in the level of its native ligand. DrugGEN can be used to design completely novel and effective target-specific drug candidate molecules for any druggable protein, given target features and a dataset of experimental bioactivities. Code base, datasets, results and trained models of DrugGEN are available at https://github.com/HUBioDataLab/DrugGEN
翻訳日:2023-02-20 11:31:07 公開日:2023-02-17
# 不均衡配送時間推定のためのデュアルグラフマルチタスクフレームワーク

Dual Graph Multitask Framework for Imbalanced Delivery Time Estimation ( http://arxiv.org/abs/2302.07429v2 )

ライセンス: Link先を確認
Lei Zhang, Mingliang Wang, Xin Zhou, Xingyu Wu, Yiming Cao, Yonghui Xu, Lizhen Cui, Zhiqi Shen(参考訳) 配送時間推定(Delivery Time Estimation, DTE)は、Eコマースサプライチェーンの重要なコンポーネントであり、商業情報に基づいて配送時間を予測する。 正確なDTEはプラットフォーム収益を高め、顧客の苦情や返金を減らす。 しかし、産業データの不均衡は、以前のモデルが十分な予測性能に達することを妨げている。 不均衡回帰法はDTEタスクに適用できるが, 全体的な性能を犠牲にして, 低ショットデータサンプルの予測性能が向上することが実験的に確認された。 そこで本研究では,不均衡配送時間推定(DGM-DTE)のための新しいデュアルグラフマルチタスクフレームワークを提案する。 当社のフレームワークはまず,パッケージ配信時間をヘッドとテールデータに分類します。 次に、双対グラフモデルを用いて、データの2つのカテゴリの表現を学習する。 特にDGM-DTEは、カーネル密度を推定することで、テールデータの埋め込みを再重み付けする。 グラフベースの2つの表現を融合して、ハイショットデータとローショットデータの両方をキャプチャする。 実世界のTaobaoロジスティクスデータセットの実験は、ベースラインと比較してDGM-DTEの優れた性能を示している。

Delivery Time Estimation (DTE) is a crucial component of the e-commerce supply chain that predicts delivery time based on merchant information, sending address, receiving address, and payment time. Accurate DTE can boost platform revenue and reduce customer complaints and refunds. However, the imbalanced nature of industrial data impedes previous models from reaching satisfactory prediction performance. Although imbalanced regression methods can be applied to the DTE task, we experimentally find that they improve the prediction performance of low-shot data samples at the sacrifice of overall performance. To address the issue, we propose a novel Dual Graph Multitask framework for imbalanced Delivery Time Estimation (DGM-DTE). Our framework first classifies package delivery time as head and tail data. Then, a dual graph-based model is utilized to learn representations of the two categories of data. In particular, DGM-DTE re-weights the embedding of tail data by estimating its kernel density. We fuse two graph-based representations to capture both high- and low-shot data representations. Experiments on real-world Taobao logistics datasets demonstrate the superior performance of DGM-DTE compared to baselines.
翻訳日:2023-02-20 11:30:40 公開日:2023-02-17
# 深層学習機械による空間的不均一学習

Spatially heterogeneous learning by a deep student machine ( http://arxiv.org/abs/2302.07419v2 )

ライセンス: Link先を確認
Hajime Yoshino(参考訳) 素晴らしい成功にもかかわらず、膨大な調整可能なパラメータを持つディープニューラルネットワーク(DNN)はほとんどブラックボックスのままである。 DNNの隠蔽層に光を当てるために,教師学生設定と呼ばれる統計力学手法を用いて,DNNの幅$N$と深さ$L$のパーセプトロンと$c$入力からなる教師学習について検討した。 我々は,教師機械が提供した3次元インプット/アウトプット関係の$M$集合を正確に再現する学生機械の集合を考える。 我々はレプリカ法(H)を用いて理論的にアンサンブルを解析した。 吉野(2020年)および数値計算によるモンテカルロシミュレーション 高次元データに作用するレプリカ理論 $N \gg 1$ は 'dense limit' $N \gg c \gg 1$ および $M \gg 1$ において、固定$\alpha=M/c$ で完全となる。 この理論とシミュレーションは、dnnによる学習がネットワーク空間では非常に異質であることを示唆している: マシンの構成は入出力境界に近い層内でより相関しており、中央領域は過度なパラメータ化のために相関が小さい。 中央領域の相関が低いため、システムはより速くリラックスする。 この理論とシミュレーションの両方が、システムの過度なパラメータ化が強まるような深い極限$L \gg 1$であっても、学生機械の一般化可能性は消滅しないことを示唆している。 また,データの有効次元 $d(\leq n)$ の影響を隠れ多様体モデル (s) を用いて検討する。 Goldt et al (2020) をモデルに組み込んだ。 レプリカ理論は、ネットワーク内の異なるノード間の相関を反映する密集限界へのループ補正が、幅$\n$を減少させるか、データの有効次元$d$を減少させることによって強化されることを意味する。 シミュレーションは両方とも一般化可能性を大幅に改善することを示唆している。

Despite the spectacular successes, deep neural networks (DNN) with a huge number of adjustable parameters remain largely black boxes. To shed light on the hidden layers of DNN, we study supervised learning by a DNN of width $N$ and depth $L$ consisting of perceptrons with $c$ inputs by a statistical mechanics approach called the teacher-student setting. We consider an ensemble of student machines that exactly reproduce $M$ sets of $N$ dimensional input/output relations provided by a teacher machine. We analyze the ensemble theoretically using a replica method (H. Yoshino (2020)) and numerically performing greedy Monte Carlo simulations. The replica theory which works on high dimensional data $N \gg 1$ becomes exact in 'dense limit' $N \gg c \gg 1$ and $M \gg 1$ with fixed $\alpha=M/c$. Both the theory and the simulation suggest learning by the DNN is quite heterogeneous in the network space: configurations of the machines are more correlated within the layers closer to the input/output boundaries while the central region remains much less correlated due to over-parametrization. Deep enough systems relax faster thanks to the less correlated central region. Remarkably both the theory and simulation suggest generalization-ability of the student machines does not vanish even in the deep limit $L \gg 1$ where the system becomes strongly over-parametrized. We also consider the impact of effective dimension $D(\leq N)$ of data by incorporating the hidden manifold model (S. Goldt et al (2020)) into our model. The replica theory implies that the loop corrections to the dense limit, which reflect correlations between different nodes in the network, become enhanced by either decreasing the width $\ N$ or decreasing the effective dimension $D$ of the data. Simulation suggests both leads to significant improvements in generalization-ability.
翻訳日:2023-02-20 11:30:23 公開日:2023-02-17