このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230301となっている論文です。

PDF登録状況(公開日: 20230301)

TitleAuthorsAbstract論文公表日・翻訳日
# バイリンガルロシア語と非バイリンガルフランス語の著者による文学的文章の差異に対する著者の帰属

Authorship attribution for Differences between Literary Texts by Bilingual Russian-French and Non-Bilingual French Authors ( http://arxiv.org/abs/2303.13622v1 )

ライセンス: Link先を確認
Margarita Makarova(参考訳) アンドレイ・マキネ、ヴァレリー・アファナシエフ、ウラジーミル・フェドロフスキ、イジェール・グラン、ルバ・ユルゲンソンといった20世紀末のバイリンガルなロシア・フランスの作家は、フランス語で書いた小説に共通のスタイル的特徴を持っているのだろうか。 バイリンガルでないフランス人作家の文章と区別できるだろうか。 干渉の現象は、ロシアの作家のフランス語文で観測可能であるか? 本稿では,支援ベクトルマシン (svm) や $k$-nearest neighbors (knn) ,リッジ分類 ( ridge classification) ,ニューラルネット (neural network) などの著者シップ帰属法を適用し,これらの質問に答える。

Do bilingual Russian-French authors of the end of the twentieth century such as Andre\"i Makine, Val\'ery Afanassiev, Vladimir F\'edorovski, Iegor Gran, Luba Jurgenson have common stylistic traits in the novels they wrote in French? Can we distinguish between them and non-bilingual French writers' texts? Is the phenomenon of interference observable in French texts of Russian authors? This paper applies authorship attribution methods including Support Vector Machine (SVM), $K$-Nearest Neighbors (KNN), Ridge classification, and Neural Network to answer these questions.
翻訳日:2023-03-31 16:28:09 公開日:2023-03-01
# グラフデータを用いた効果的な安定化自己学習

Effective Stabilized Self-Training on Few-Labeled Graph Data ( http://arxiv.org/abs/1910.02684v4 )

ライセンス: Link先を確認
Ziang Zhou, Jieming Shi, Shengzhong Zhang, Zengfeng Huang, Qing Li(参考訳) グラフニューラルネットワーク(GNN)は、ノードのサブセットだけがクラスラベルを持つグラフ上の半教師付きノード分類のために設計されている。 しかし、非常に少ないラベル(例えば、クラスごとに1つのラベル付きノード)の極端な場合、GNNは厳しい性能劣化に悩まされる。 具体的には,既存のgnnが少数ラベルグラフ上で不安定なトレーニングプロセスに陥り,ノード分類の性能が低下するのを観察した。 そこで本稿では,ラベル付きデータの不足に対処するため,既存のGNNに適用可能なSST(Stabilized Self-Training)を提案する。 本研究は,SSTにおけるアルゴリズム設計のモチベーションを高めるために,徹底的な経験的および理論的解析を行う。 我々は2つの人気のあるGNNモデルGCNとDAGNNにSSTを適用し、それぞれSSTGCNとSSTDAの手法を取得し、その2つの手法を5つのベンチマークデータセットに対して10の競合相手に対して評価する。 大規模な実験により、特にラベル付きデータが少ない場合、提案したSSTフレームワークは非常に効果的であることが示されている。 提案手法は,全データセットのほぼすべての設定において,優れた性能を実現する。 例えば、クラス毎に1つのラベル付きノードしか持たないCoraデータセットでは、SSTGCNの精度は62.5%、GCNよりも17.9%高く、SSTDAの精度は66.4%であり、DAGNNの6.6%を上回っている。

Graph neural networks (GNNs) are designed for semi-supervised node classification on graphs where only a subset of nodes have class labels. However, under extreme cases when very few labels are available (e.g., 1 labeled node per class), GNNs suffer from severe performance degradation. Specifically, we observe that existing GNNs suffer from unstable training process on few-labeled graphs, resulting to inferior performance on node classification. Therefore, we propose an effective framework, Stabilized Self-Training (SST), which is applicable to existing GNNs to handle the scarcity of labeled data, and consequently, boost classification accuracy. We conduct thorough empirical and theoretical analysis to support our findings and motivate the algorithmic designs in SST. We apply SST to two popular GNN models GCN and DAGNN, to get SSTGCN and SSTDA methods respectively, and evaluate the two methods against 10 competitors over 5 benchmarking datasets. Extensive experiments show that the proposed SST framework is highly effective, especially when few labeled data are available. Our methods achieve superior performance under almost all settings over all datasets. For instance, on a Cora dataset with only 1 labeled node per class, the accuracy of SSTGCN is 62.5%, 17.9% higher than GCN, and the accuracy of SSTDA is 66.4%, which outperforms DAGNN by 6.6%.
翻訳日:2023-03-25 04:23:54 公開日:2023-03-01
# 操舵・非局所性を超えた量子性証明とその量子情報処理への応用

Certifying quantumness beyond steering and nonlocality and its implications on quantum information processing ( http://arxiv.org/abs/1912.01270v3 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, and Debarshi Das(参考訳) 超不安定性(superunsteerability)は、特定の空間量子相関であり、限られた共有ランダム性の存在下でステアリングシナリオで観察できる。 本研究では,スーパーアンステアビリティを証明するためのステアリングシナリオにおいて,実験的に測定可能な量を定義する。 このシナリオによるランダム性認証の文脈において、そのような超不安定性認証が真のランダム性生成量に制限を与えることを示す。 一方、超局所性は、限られた共有ランダム性の存在下でベルのシナリオで観測できる別の空間量子相関である。 我々は,2ドルから1ドル,3ドルから1ドルのランダムアクセスコードを実装するために,ベルシナリオにおける超局所性を証明する不等式を特定する。 このような超局所性認証は、限られた共有ランダム性が存在する場合、ランダムアクセス符号のリソースとして機能する。 超unsteerabilityと超局所性認定の副産物として、量子性を持つ分離可能な状態の新しい分類を同定する。

Superunsteerability is a particular kind of spatial quantum correlation that can be observed in a steering scenario in the presence of limited shared randomness. In this work, we define an experimentally measurable quantity in a steering scenario to certify superunsteerability. In the context of certification of randomness with this scenario, we demonstrate that such certification of superunsteerability provides a bound on the amount of genuine randomness generation. On the other hand, superlocality is another kind of spatial quantum correlation that can be observed in a Bell scenario in the presence of limited shared randomness. We identify inequalities to certify superlocality in the Bell scenarios that can be adopted to implement $2$-to-$1$ and $3$-to-$1$ random-access codes. We observe that such certification of superlocality acts as resource for the random-access codes in the presence of limited shared randomness. As a by-product of our certification of superunsteerability and superlocality, we identify a new classification of separable states having quantumness.
翻訳日:2023-03-25 04:14:01 公開日:2023-03-01
# 弱い測定と量子相関の再構成における量子から古典への遷移

The Transition from Quantum to Classical in weak measurements and reconstruction of Quantum Correlation ( http://arxiv.org/abs/2104.04507v3 )

ライセンス: Link先を確認
Vadim Vorobyov, Jonas Meinel, Hitoshi Sumiya, Shinobu Onoda, Junichi Isoya, Oleg Gulinsky and J\"org Wrachtrup(参考訳) 量子システムのダイナミクスを定量的に追従する能力は、量子技術にとって重要な重要性である。 中心的な役割にもかかわらず、単一量子系の量子力学をマクロ的な可観測性の観点から導出することは依然として困難である。 ここでは、単一電子スピンの読み出し信号と単一核スピンの量子力学の関係が、測定強度に関連するパラメータによって与えられることを示す。 この測定強度を独立な実験で決定し、量子力学の解析と実験結果を比較するためにこの値を用いる。 我々は,Leggett-Garg不平等の違反を測定することによって,我々のアプローチの有効性を証明した。

The ability to follow the dynamics of a quantum system in a quantitative manner is of key importance for quantum technology. Despite its central role, justifiable deduction of the quantum dynamics of a single quantum system in terms of a macroscopical observable remains a challenge. Here we show that the relation between the readout signal of a single electron spin and the quantum dynamics of the single nuclear spin is given by a parameter related to the measurement strength. We determine this measurement strength in independent experiments and use this value to compare our analysis of the quantum dynamics with experimental results. We prove the validity of our approach by measuring violations of the Leggett-Garg inequality.
翻訳日:2023-03-25 03:55:10 公開日:2023-03-01
# 画像としての時系列:不規則にサンプリングされた時系列の視覚トランスフォーマー

Time Series as Images: Vision Transformer for Irregularly Sampled Time Series ( http://arxiv.org/abs/2303.12799v1 )

ライセンス: Link先を確認
Zekun Li, Shiyang Li, Xifeng Yan(参考訳) 不規則にサンプリングされた時系列は、様々な領域、特に医学的応用においてますます普及している。 不規則性に取り組むために様々な高度にカスタマイズされた手法が提案されているが、それらの複雑な力学と高い疎度を効果的にモデル化する方法はまだ未解決の問題である。 本稿では,不規則にサンプリングされた時系列を線グラフ画像に変換し,強力な視覚変換器を適用し,画像分類と同様に時系列分類を行うという,新たな視点からこの問題を考察する。 提案手法は,事前知識を仮定せずにアルゴリズム設計を単純化し,汎用フレームワークとして拡張することができる。 その単純さにもかかわらず、いくつかの一般的な医療や人間の活動データセットにおいて、最先端の特殊アルゴリズムを大幅に上回っていることを示す。 特に、テスト中に変数のサブセットが隠蔽される挑戦的な離脱センサーアウト設定では、絶対F1スコアポイントで54.0\%のパフォーマンス向上が達成される。 我々のコードとデータは \url{https://github.com/Leezekun/ViTST} で入手できる。

Irregularly sampled time series are becoming increasingly prevalent in various domains, especially in medical applications. Although different highly-customized methods have been proposed to tackle irregularity, how to effectively model their complicated dynamics and high sparsity is still an open problem. This paper studies the problem from a whole new perspective: transforming irregularly sampled time series into line graph images and adapting powerful vision transformers to perform time series classification in the same way as image classification. Our approach largely simplifies algorithm designs without assuming prior knowledge and can be potentially extended as a general-purpose framework. Despite its simplicity, we show that it substantially outperforms state-of-the-art specialized algorithms on several popular healthcare and human activity datasets. Especially in the challenging leave-sensors-out setting where a subset of variables is masked during testing, the performance improvement is up to 54.0\% in absolute F1 score points. Our code and data are available at \url{https://github.com/Leezekun/ViTST}.
翻訳日:2023-03-25 02:39:58 公開日:2023-03-01
# 水中カモフラージュ物体検出データセット

Underwater Camouflage Object Detection Dataset ( http://arxiv.org/abs/2303.12946v1 )

ライセンス: Link先を確認
Feng Dong, Jinchao Zhu(参考訳) 我々は、主に複雑な海底のシーンを対象としたカモフラージュ物体検出のデータセットを作成し、それを略してUnderWater RGB&Sonar(UW-RS)と名付けた。 UW-RSデータセットには1972年の画像データが含まれている。 データセットは主に水中光学データ部(UW-Rデータセット)と水中ソナーデータ部(UW-Sデータセット)の2つの部分で構成される。

We have made a dataset of camouflage object detection mainly for complex seabed scenes, and named it UnderWater RGB&Sonar,or UW-RS for short. The UW-RS dataset contains a total of 1972 image data. The dataset mainly consists of two parts, namely underwater optical data part (UW-R dataset) and underwater sonar data part (UW-S dataset).
翻訳日:2023-03-25 02:30:46 公開日:2023-03-01
# 開量子系に対する自己整合動的写像

Self-consistent dynamical maps for open quantum systems ( http://arxiv.org/abs/2107.05553v5 )

ライセンス: Link先を確認
Orazio Scarlatella and Marco Schiro(参考訳) いくつかのケースでは、開量子系はボルン近似やマルコフ近似に依存するマスター方程式を用いてうまく記述できるが、これらのアプローチを超えることがしばしば必要となる。 本研究では、開量子系に対するNAAとNAA-マルコフの動的写像を導入し、ボルン近似を非交差近似(NCA)と呼ばれる自己整合近似に置き換えるこれらのマスター方程式を超えた。 これらの写像は公式にはマスター方程式と似ているが、余分な数値的なコストで環境とのより強い結合を捉えることができる。 これらの能力を実証するために、オーミックおよびサブオーミック環境におけるゼロ温度でのスピンボソンモデルに適用し、ボルンとボルンマルコフのマスター方程式ができることを超えて、強い結合挙動を定性的に捉え、弱い結合で定量的に正し得ることを示す。

In several cases, open quantum systems can be successfully described using master equations relying on Born and Markov approximations, but going beyond these approaches has become often necessary. In this work, we introduce the NCA and NCA-Markov dynamical maps for open quantum systems, which go beyond these master equations replacing the Born approximation with a self-consistent approximation, known as non-crossing approximation (NCA). These maps are formally similar to master equations, but allow to capture stronger couplings with the environment at very little extra numerical cost. To demonstrate their capabilities, we apply them to the spin-boson model at zero temperature for both a Ohmic and a sub-Ohmic environment, showing that they can both qualitatively capture its strong-coupling behaviour and be quantitatively correct at weak coupling, beyond what Born and Born-Markov master equations can do.
翻訳日:2023-03-22 18:09:50 公開日:2023-03-01
# 模擬出血による急性三肢の非侵襲的波形解析:新しい動的下肢負圧モデルを用いた実験的研究

Non-invasive Waveform Analysis for Emergency Triage via Simulated Hemorrhage: An Experimental Study using Novel Dynamic Lower Body Negative Pressure Model ( http://arxiv.org/abs/2303.06064v1 )

ライセンス: Link先を確認
Naimahmed Nesaragi, Lars {\O}ivind H{\o}iseth, Hemin Ali Qadir, Leiv Arne Rosseland, Per Steinar Halvorsen, Ilangko Balasingham(参考訳) 非侵襲的生理的信号の波形解析が低電圧血症のレベルを診断できる程度は、まだ十分に研究されていない。 本研究は, 健常者を対象に, 動的下半身負圧(lbnp)モデルを用いてシミュレーションした, 進行中の低ボローム血症のレベルを分類する深層学習(dl)フレームワークの判別能力について検討した。 従来のモデルとは対照的に動的LBNPプロトコルを用い,LBNPを段階的に段階的に段階的に段階的に適用した。 この動的LBNPバージョンは、実生活における先天的な設定のように、時間依存性の観点から生じる問題を回避するのに役立ち、血管内血流量は容積の蘇生によって変動する可能性がある。 基礎となる非侵襲的な信号とラベリングセグメントを対応するLBNPターゲットレベルに分割することにより,3次分類のためのDLベースのフレームワークを実現した。 2つの入力を持つDLモデルは、波形セグメントから抽出した時間周波数表現を用いて訓練し、それぞれを1級(ミルド)、2級(モーデレート)、および3級(重症度)に分類した。 当初、両方の入力間の遅延融合によってdlモデルの終わりに導かれる潜在空間は、分類性能の向上に寄与する。 成層化被験者と3倍のクロスバリデーション設定で評価すると,ppgは平均的な分類性能を持つ血液量の変化,auroc: 0.8861, auprc: 0.8141, $f1$-score:72.16%, sensitivity:79.06 %,specificity:89.21 %の可能性が示された。 PPG信号上のDLアルゴリズムは,この難解なLBNPセットアップを用いて,出血と流体蘇生の両方に関連する生理的反応の複雑な相互作用を捉える可能性を示した。

The extent to which advanced waveform analysis of non-invasive physiological signals can diagnose levels of hypovolemia remains insufficiently explored. The present study explores the discriminative ability of a deep learning (DL) framework to classify levels of ongoing hypovolemia, simulated via novel dynamic lower body negative pressure (LBNP) model among healthy volunteers. We used a dynamic LBNP protocol as opposed to the traditional model, where LBNP is applied in a predictable step-wise, progressively descending manner. This dynamic LBNP version assists in circumventing the problem posed in terms of time dependency, as in real-life pre-hospital settings, intravascular blood volume may fluctuate due to volume resuscitation. A supervised DL-based framework for ternary classification was realized by segmenting the underlying noninvasive signal and labeling segments with corresponding LBNP target levels. The proposed DL model with two inputs was trained with respective time-frequency representations extracted on waveform segments to classify each of them into blood volume loss: Class 1 (mild); Class 2 (moderate); or Class 3 (severe). At the outset, the latent space derived at the end of the DL model via late fusion among both inputs assists in enhanced classification performance. When evaluated in a 3-fold cross-validation setup with stratified subjects, the experimental findings demonstrated PPG to be a potential surrogate for variations in blood volume with average classification performance, AUROC: 0.8861, AUPRC: 0.8141, $F1$-score:72.16%, Sensitivity:79.06 %, and Specificity:89.21 %. Our proposed DL algorithm on PPG signal demonstrates the possibility of capturing the complex interplay in physiological responses related to both bleeding and fluid resuscitation using this challenging LBNP setup.
翻訳日:2023-03-19 11:57:46 公開日:2023-03-01
# PN-OWL:OWLオントロジーからファジィ概念を学習するための2段階アルゴリズム

PN-OWL: A Two Stage Algorithm to Learn Fuzzy Concept Inclusions from OWL Ontologies ( http://arxiv.org/abs/2303.07192v1 )

ライセンス: Link先を確認
Franco Alberto Cardillo and Franca Debole and Umberto Straccia(参考訳) OWLオントロジーは、クラス、クラス間の関係、およびクラスインスタンスの観点から構造化された知識を記述するための非常に一般的な方法である。 本稿では,実値とブール値を持つデータ特性を持つオントロジーに焦点をあてたフクロウオントロジーの目標クラスtを与えられた場合,クラスtのインスタンスとして分類される個々に分類される十分な条件を記述することを目的として,次数付きファジィ概念包含公理の学習の問題に対処し,pステージとnステージからなる2段階学習アルゴリズムであるpn-owlを提案する。 概して、アルゴリズムは可能な限り多くの正の例(リコールの増加)をカバーしようとするが、N段ではできるだけ多くの偽陽性を排除しようとする。 PN-OWLは、P段とN段で学習したファジィ包含公理を集約関数を介して組み合わせて、個人がTのインスタンスかどうかの最終決定を可能にする。 また,実験によってその効果を示す。 興味深い特徴は、ファジィデータ型が自動的に構築され、学習されたファジィ概念包含物が直接ファジィOWL2に表現され、したがって任意のファジィOWL2推論子を使用して、個人がターゲットクラスTに属しているか否かを自動的に判定/分類することができることである。

OWL ontologies are a quite popular way to describe structured knowledge in terms of classes, relations among classes and class instances. In this paper, given a target class T of an OWL ontology, with a focus on ontologies with real- and boolean-valued data properties, we address the problem of learning graded fuzzy concept inclusion axioms with the aim of describing enough conditions for being an individual classified as instance of the class T. To do so, we present PN-OWL that is a two-stage learning algorithm made of a P-stage and an N-stage. Roughly, in the P-stage the algorithm tries to cover as many positive examples as possible (increase recall), without compromising too much precision, while in the N-stage, the algorithm tries to rule out as many false positives, covered by the P-stage, as possible. PN-OWL then aggregates the fuzzy inclusion axioms learnt at the P-stage and the N-stage by combining them via aggregation functions to allow for a final decision whether an individual is instance of T or not. We also illustrate its effectiveness by means of an experimentation. An interesting feature is that fuzzy datatypes are built automatically, the learnt fuzzy concept inclusions can be represented directly into Fuzzy OWL 2 and, thus, any Fuzzy OWL 2 reasoner can then be used to automatically determine/classify (and to which degree) whether an individual belongs to the target class T or not.
翻訳日:2023-03-19 11:47:45 公開日:2023-03-01
# ToxVis:インタラクティブな可視化によるインプシットと明示的毒性検出モデルの解釈可能性の実現

ToxVis: Enabling Interpretability of Implicit vs. Explicit Toxicity Detection Models with Interactive Visualization ( http://arxiv.org/abs/2303.09402v1 )

ライセンス: Link先を確認
Uma Gunturi, Xiaohan Ding, Eugenia H. Rho(参考訳) オンラインプラットフォームでのヘイトスピーチの台頭は、効果的なコンテンツモデレーションを緊急に必要としている。 しかし、暗黙のヘイトスピーチを含むヘイトフルなオンラインコンテンツの主観的で多面的な性質は、人間のモデレーターやコンテンツモデレーションシステムに重大な課題をもたらす。 この問題に対処するため、私たちは、ヘイトスピーチを暗黙的、明示的、非憎しみの3つのカテゴリに分類する視覚的にインタラクティブで説明可能なツールであるToxVisを開発した。 我々は,RoBERTa,XLNET,GPT-3 を用いて2つのトランスフォーマーモデルを微調整し,深層学習解釈技術を用いて分類結果の説明を行った。 ToxVisは、ユーザーが潜在的に憎しみのあるテキストを入力し、決定に最も寄与した単語の視覚的説明とともに分類結果を受け取ることを可能にする。 分類プロセスを説明可能にすることで、toxvisは憎悪コンテンツのニュアンスを理解し、より効果的なコンテンツモデレーションをサポートする貴重なツールを提供する。 我々の研究は、オンラインヘイトスピーチによる害を軽減し、最先端の自然言語処理モデルと解釈可能なディープラーニング技術を組み合わせてこの問題に対処する可能性を示している。 最後に、ToxVisはコンテンツモデレーター、ソーシャルメディアプラットフォーム、そしてオンラインでヘイトスピーチの拡散と戦う研究者のためのリソースとして機能する。

The rise of hate speech on online platforms has led to an urgent need for effective content moderation. However, the subjective and multi-faceted nature of hateful online content, including implicit hate speech, poses significant challenges to human moderators and content moderation systems. To address this issue, we developed ToxVis, a visually interactive and explainable tool for classifying hate speech into three categories: implicit, explicit, and non-hateful. We fine-tuned two transformer-based models using RoBERTa, XLNET, and GPT-3 and used deep learning interpretation techniques to provide explanations for the classification results. ToxVis enables users to input potentially hateful text and receive a classification result along with a visual explanation of which words contributed most to the decision. By making the classification process explainable, ToxVis provides a valuable tool for understanding the nuances of hateful content and supporting more effective content moderation. Our research contributes to the growing body of work aimed at mitigating the harms caused by online hate speech and demonstrates the potential for combining state-of-the-art natural language processing models with interpretable deep learning techniques to address this critical issue. Finally, ToxVis can serve as a resource for content moderators, social media platforms, and researchers working to combat the spread of hate speech online.
翻訳日:2023-03-19 11:30:11 公開日:2023-03-01
# ダイヤモンドの窒素空洞中心における高速量子状態トモグラフィー

Fast Quantum State Tomography in the Nitrogen Vacancy Center of Diamond ( http://arxiv.org/abs/2108.13738v3 )

ライセンス: Link先を確認
Jingfu Zhang, Swathi S. Hegde and Dieter Suter(参考訳) 量子状態トモグラフィー(Quantum state tomography, QST)は、異なる観測値の一連の測定から未知の量子状態の再構成を行う方法である。 物理的システムによって、この手順には様々な観測可能なセットが使用されている。 スピン量子ビットの場合、最も一般的な手順は系の横磁化を時間の関数として測定することである。 本稿では,時間に依存しない可観測性に依拠し,異なる進化時間における測定を必要としない異なるスキームを提案する。 完全密度行列を回復するために、密度演算子要素を直接測定可能な可観測値に変換する一元演算の集合を用いる。 ダイヤモンド中の窒素空洞中心の電子-核スピン系におけるこのスキームの性能を示す。

Quantum state tomography (QST) is the procedure for reconstructing unknown quantum states from a series of measurements of different observables. Depending on the physical system, different sets of observables have been used for this procedure. In the case of spin-qubits, the most common procedure is to measure the transverse magnetization of the system as a function of time. Here, we present a different scheme that relies on time-independent observables and therefore does not require measurements at different evolution times, thereby greatly reducing the overall measurement time. To recover the full density matrix, we use a set of unitary operations that transform the density operator elements into the directly measurable observable. We demonstrate the performance of this scheme in the electron-nuclear spin system of the nitrogen vacancy center in diamond.
翻訳日:2023-03-16 16:09:03 公開日:2023-03-01
# 量子論におけるヒルベルト空間はなぜいつになるのか?

Why and whence the Hilbert space in quantum theory? ( http://arxiv.org/abs/2110.05932v3 )

ライセンス: Link先を確認
Yu. V. Brezhnev(参考訳) ヒルベルト空間が量子論においてどのように現れるかを説明する。 ベクトル空間、スカラー積、直交性、線型汎関数の公理的構造は、量子マイクロ事象の統計記述と2乗のヒルベルト和 ||\mathfrak{a}_1|^2+|\mathfrak{a}_2|^2+\cdots$ から導出される。 後者は(非公理的に)ボルン公式 $\matht{f} = |\langle\psi|\varphi\rangle|^2$ の標準的な記述へと導く。 系として、ピタゴラスの定理の状態、長さの概念、および第6ヒルベルト問題(英語版)は量子的「修正」を行う。 ノルムトポロジーを導出する問題は、(抽象的な数学の公理が多すぎる)短い解を持たないかもしれないが、肯定的に解ける可能性が高い。

We explain why and how the Hilbert space comes about in quantum theory. The axiomatic structures of vector space, of scalar product, of orthogonality, and of the linear functional are derivable from the statistical description of quantum micro-events and from Hilbertian sum of squares $|\mathfrak{a}_1|^2+|\mathfrak{a}_2|^2+\cdots$. The latter leads (non-axiomatically) to the standard writing of the Born formula $\mathtt{f} = |\langle\psi|\varphi\rangle|^2$. As a corollary, the status of Pythagorean theorem, the concept of a length, and the 6-th Hilbert problem undergo a quantum `revision'. An issue of deriving the norm topology may no have a short-length solution (too many abstract math-axioms) but is likely solvable in the affirmative; the problem is reformulated as a mathematical one.
翻訳日:2023-03-12 05:33:11 公開日:2023-03-01
# 乳がん精密治療におけるKennの併用規則について

On Kenn's Rule of Combination Applied to Breast Cancer Precision Therapy ( http://arxiv.org/abs/2303.03091v1 )

ライセンス: Link先を確認
Jean Dezert, Albena Tchamova(参考訳) この短い技術的注記は、2023年にKennらによって最近提示された基本的な信念の割り当ての組み合わせの新しい規則に関する誤った主張を指摘している(略してKenn's Rule of combination(KRC))。 ケインの法則が結合的ではないという非常に単純な反例のおかげで私たちは証明します。 その結果、kennらによって提案された手法は、著者らが提案したような融合過程に選択されたアドホックな逐次順序に大きく依存する。 この深刻な問題は、この方法の関心と、信頼できる結果を提供し、正確な乳癌治療を支援するための適切な判断を行う能力に疑問を呈する。

This short technical note points out an erroneous claim about a new rule of combination of basic belief assignments presented recently by Kenn et al. in 2023, referred as Kenn's rule of combination (or just as KRC for short). We prove thanks a very simple counter-example that Kenn's rule is not associative. Consequently, the results of the method proposed by Kenn et al. highly depends on the ad-hoc sequential order chosen for the fusion process as proposed by the authors. This serious problem casts in doubt the interest of this method and its real ability to provide trustful results and to make good decisions to help for precise breast cancer therapy.
翻訳日:2023-03-12 03:49:36 公開日:2023-03-01
# 自然言語理解システム。 批判的な分析

Understanding Natural Language Understanding Systems. A Critical Analysis ( http://arxiv.org/abs/2303.04229v1 )

ライセンス: Link先を確認
Alessandro Lenci(参考訳) 自然言語理解(英語版)(nlu)システムとしても知られるus{\guillemotrightのような「guillemotleft」トークのような機械の開発は、人工知能(ai)の聖杯であり、言語は人間の知能の五分の一である。 AIと自然言語処理(NLP)におけるNLU研究の短命だが激しい生活は、上昇と下降に満ちている。 しかし、"guillemotleft}トーキングマシンである{\guillemotright"を構築できるという信頼は、前世代のnluシステムによって囲まれているものよりも強かった。 しかし、AIの輝きは金なのか? 最先端のシステムは人間の言語知識に匹敵するものを持っていますか? 我々は新しい時代の夜明けか? ついに聖杯が我々に近づいたか? 実際、aiシステムの最近の成果は、真の言語理解能力に関する激しい科学的な議論のきっかけとなった。 計算モデルがまだ示している限界にもかかわらず、私たちは正しい軌道にいるという考え方を擁護する人もいる。 現在の限界は単にNLUシステムの一時的な問題であるだけでなく、認識論的および技術的なパラダイムが根底にある本質的な不適切さの兆候である。 本稿では,最新のNLUシステムにおける言語能力の批判的分析を行うことで,このような議論に寄与することを目的とする。 言語が人間によって学習され、処理される方法の重要な側面を取り入れていると私は主張するが、同時に、構造化された知識とそれを言語利用に活用する能力がなければ達成できない、重要な解釈と推論のスキルが欠如している。

The development of machines that {\guillemotleft}talk like us{\guillemotright}, also known as Natural Language Understanding (NLU) systems, is the Holy Grail of Artificial Intelligence (AI), since language is the quintessence of human intelligence. The brief but intense life of NLU research in AI and Natural Language Processing (NLP) is full of ups and downs, with periods of high hopes that the Grail is finally within reach, typically followed by phases of equally deep despair and disillusion. But never has the trust that we can build {\guillemotleft}talking machines{\guillemotright} been stronger than the one engendered by the last generation of NLU systems. But is it gold all that glitters in AI? do state-of-the-art systems possess something comparable to the human knowledge of language? Are we at the dawn of a new era, in which the Grail is finally closer to us? In fact, the latest achievements of AI systems have sparkled, or better renewed, an intense scientific debate on their true language understanding capabilities. Some defend the idea that, yes, we are on the right track, despite the limits that computational models still show. Others are instead radically skeptic and even dismissal: The present limits are not just contingent and temporary problems of NLU systems, but the sign of the intrinsic inadequacy of the epistemological and technological paradigm grounding them. This paper aims at contributing to such debate by carrying out a critical analysis of the linguistic abilities of the most recent NLU systems. I contend that they incorporate important aspects of the way language is learnt and processed by humans, but at the same time they lack key interpretive and inferential skills that it is unlikely they can attain unless they are integrated with structured knowledge and the ability to exploit it for language use.
翻訳日:2023-03-12 03:42:04 公開日:2023-03-01
# 自動車走行問題に関するヒューリスティックス:調査と最近の進歩

Heuristics for Vehicle Routing Problem: A Survey and Recent Advances ( http://arxiv.org/abs/2303.04147v1 )

ライセンス: Link先を確認
Fei Liu, Chengyu Lu, Lin Gui, Qingfu Zhang, Xialiang Tong, Mingxuan Yuan(参考訳) 車両のルーティングは、重要な実用上の重要性を持つよく知られた最適化研究トピックである。 車両のルーティングを解くための様々なアプローチの中で、ヒューリスティックスは合理的な計算コストで満足なソリューションを生み出すことができる。 その結果、過去数十年で車両ルーティングヒューリスティックの開発に多くの努力が払われた。 本稿は,近年実施されている既存の車両の経路ヒューリスティックス,特に作業について体系的に調査する。 車両経路ヒューリスティックの分類を行い,その方法論,最近の開発,応用について概説する。 さらに,最先端手法の一般的な枠組みを示し,その成功に対する洞察を提供する。 最後に、注目すべき作品と今後の方向性を示す3つの研究トピックについて論じる。

Vehicle routing is a well-known optimization research topic with significant practical importance. Among different approaches to solving vehicle routing, heuristics can produce a satisfactory solution at a reasonable computational cost. Consequently, much effort has been made in the past decades to develop vehicle routing heuristics. In this article, we systematically survey the existing vehicle routing heuristics, particularly on works carried out in recent years. A classification of vehicle routing heuristics is presented, followed by a review of their methodologies, recent developments, and applications. Moreover, we present a general framework of state-of-the-art methods and provide insights into their success. Finally, three emerging research topics with notable works and future directions are discussed.
翻訳日:2023-03-12 03:41:20 公開日:2023-03-01
# モノガミーオブエンタングルメントゲームにおける剛性

Rigidity for Monogamy-of-Entanglement Games ( http://arxiv.org/abs/2111.08081v2 )

ライセンス: Link先を確認
Anne Broadbent and Eric Culf(参考訳) moe(monogamy-of-entanglement)ゲームでは、コミュニケーションしない2人のプレーヤーが、準備した共有量子状態において、審判の計測結果を同時に推測しようとする。 我々は、審判が計算的またはアダマール的ベースで測定し、プレイヤーが選択したことを知らせるゲームの原型的な例について検討する。 このゲームは、いくつかの非局所ゲームで知られているような剛性特性を満たすことを示す。 すなわち、最適に勝つためには、プレイヤーの戦略は特定の形式でなければならない。すなわち、ブリードバート状態によって生成される4つの絡み合っていない最適戦略の凸結合である。 これを拡張して、ほぼ最適に勝利する戦略も、この形式の最適な状態に近い必要があることを示す。 また,並列にプレイするゲームの複数のコピーに対して剛性を示す。 1) セキュリティが当事者のハードウェアの制限に依存しない弱い文字列消去(WSE)方式を初めて構築する。 代わりに、このMoEゲームの剛性を通じてセキュリティを可能にする証明器を追加します。 2) 古典的に不可能であるモデルにおいて、wseスキームはビットコミットメントを達成するために使用できることを示す。 3) 疑似ランダム関数の一時的な仮定のみに頼りながら, 2つの分離デバイスによる信頼されているが漏れやすい測定と信頼できない準備と測定のモデルにおいて,永続的かつセキュアなランダム性拡張を実現する。 これにより、共有絡みを必要とせずにランダムな拡張を実現する。

In a monogamy-of-entanglement (MoE) game, two players who do not communicate try to simultaneously guess a referee's measurement outcome on a shared quantum state they prepared. We study the prototypical example of a game where the referee measures in either the computational or Hadamard basis and informs the players of her choice. We show that this game satisfies a rigidity property similar to what is known for some nonlocal games. That is, in order to win optimally, the players' strategy must be of a specific form, namely a convex combination of four unentangled optimal strategies generated by the Breidbart state. We extend this to show that strategies that win near-optimally must also be near an optimal state of this form. We also show rigidity for multiple copies of the game played in parallel. We give three applications: (1) We construct for the first time a weak string erasure (WSE) scheme where the security does not rely on limitations on the parties' hardware. Instead, we add a prover, which enables security via the rigidity of this MoE game. (2) We show that the WSE scheme can be used to achieve bit commitment in a model where it is impossible classically. (3) We achieve everlasting-secure randomness expansion in the model of trusted but leaky measurement and untrusted preparation and measurements by two isolated devices, while relying only on the temporary assumption of pseudorandom functions. This achieves randomness expansion without the need for shared entanglement.
翻訳日:2023-03-08 01:58:42 公開日:2023-03-01
# 局所付加性の再検討

Local Additivity Revisited ( http://arxiv.org/abs/2111.11385v4 )

ライセンス: Link先を確認
Mary Beth Ruskai and Jon T. Yard(参考訳) ガウルとフリードランドの量子チャネルの最小出力エントロピーの局所加法則の証明において、いくつかの単純化を行う。 問題は、$d_B \times d_E $ 行列に付随する二部状態の絡み合いエントロピーに関するものである。 一般的なケースを正の正の行列に還元するために、異なるアプローチを用いる。 我々は、エントロピーの第1および第2導関数の式を得るためにログの積分表現を使い、それからモジュラー作用素と関数計算を利用して、その基礎となる戦略に従って証明を合理化する。 また、この結果は、量子チャネルのキャパシティの過付加性を研究する上で重要な意味を持つ固定参照状態に対する最大相対エントロピーにまで拡張し、古典的な情報を伝達する。

We make a number of simplifications in Gour and Friedland's proof of local additivity of minimum output entropy of a quantum channel. We follow them in reframing the question as one about entanglement entropy of bipartite states associated with a $d_B \times d_E $ matrix. We use a different approach to reduce the general case to that of a square positive definite matrix. We use the integral representation of the log to obtain expressions for the first and second derivatives of the entropy, and then exploit the modular operator and functional calculus to streamline the proof following their underlying strategy. We also extend this result to the maximum relative entropy with respect to a fixed reference state which has important implications for studying the superadditivity of the capacity of a quantum channel to transmit classical information.
翻訳日:2023-03-07 04:22:34 公開日:2023-03-01
# 最適化可能なパラメータを持つ実効連続可変量子鍵分布

Practical Continuous-variable Quantum Key Distribution with Feasible Optimization Parameters ( http://arxiv.org/abs/2111.12942v3 )

ライセンス: Link先を確認
Li Ma, Jie Yang, Tao Zhang, Yun Shao, Jinlu Liu, Yujie Luo, Heng Wang, Wei Huang, Fan Fan, Chuang Zhou, Liangliang Zhang, Shuai Zhang, Yichen Zhang, Yang Li and Bingjie Xu(参考訳) 連続可変量子鍵分布(CV-QKD)は、大都市圏の潜在的秘密鍵レート(SKR)を達成するためのアプローチを提供する。 実験室から実世界への実用的なCV-QKDシステムの開発にはいくつかの課題がある。 最も重要な点の1つは、CV-QKDシステムと統一ハードウェアの異なる実用的な光ファイバー条件に適応することが本当に難しいことである。 したがって,ハードウェアの変更を伴わない現場での実用CV-QKDシステムの性能向上は極めて重要である。 本稿では,変調分散と誤り訂正行列の最適化を組み合わせた系統最適化手法を提案し,後処理能力に制限のある実用CV-QKDシステムの性能向上を図っている。 SKRに対する制限後処理能力の影響は、変調分散を最適化パラメータとする非線形プログラミング問題としてモデル化され、同じスキームの下で最適誤差補正行列の選択について検討する。 その結果, CV-QKD方式のSKRは, 理論的には50kmの伝送距離を持つ従来の最適化手法と比較して24%, 200%向上可能であることがわかった。 さらに, 得られた最適SKRが理論的最適値から1.6%を実質的に逸脱する手法の有効性とロバスト性を実験的に検証した。 実世界における高性能CV-QKDの展開方法について検討した。

Continuous-variable quantum key distribution (CV-QKD) offers an approach to achieve a potential high secret key rate (SKR) in metropolitan areas. There are several challenges in developing a practical CV-QKD system from the laboratory to the real world. One of the most significant points is that it is really hard to adapt different practical optical fiber conditions for CV-QKD systems with unified hardware. Thus, how to improve the performance of practical CV-QKD systems in the field without modification of the hardware is very important. Here, a systematic optimization method, combining the modulation variance and error correction matrix optimization, is proposed to improve the performance of a practical CV-QKD system with a restricted capacity of postprocessing. The effect of restricted postprocessing capacity on the SKR is modeled as a nonlinear programming problem with modulation variance as an optimization parameter, and the selection of an optimal error correction matrix is studied under the same scheme. The results show that the SKR of a CV-QKD system can be improved by 24% and 200% compared with previous frequently used optimization methods theoretically with a transmission distance of 50 km. Furthermore, the experimental results verify the feasibility and robustness of the proposed method, where the achieved optimal SKR achieved practically deviates <1.6% from the theoretical optimal value. Our results pave the way to deploy high-performance CV-QKD in the real world.
翻訳日:2023-03-06 21:49:04 公開日:2023-03-01
# デバイアスのバックドア:バックドアアタックに基づく人工バイアスによるモデルバイアスの軽減

Backdoor for Debias: Mitigating Model Bias with Backdoor Attack-based Artificial Bias ( http://arxiv.org/abs/2303.01504v1 )

ライセンス: Link先を確認
Shangxi Wu and Qiuyang He and Fangzhao Wu and Jitao Sang and Yaowei Wang and Changsheng Xu(参考訳) ディープラーニングの急速な進歩により、最先端のアルゴリズムは様々な社会状況で利用されている。 それにもかかわらず、バイアスを示し、不平等な結果を与えるアルゴリズムがいくつか発見されている。 現在のデバイアス手法は、データの低利用や複雑なトレーニング要件といった課題に直面している。 本研究では, バックドア攻撃により, 標準訓練によるモデルバイアスに類似した人工バイアスが構築できることを見出した。 バックドアトリガーの強い調整性を考慮すると、バックドアアタックから生成された逆人工バイアスを慎重に設計することにより、モデルバイアスを緩和する動機付けとなる。 そこで本研究では,モデルバイアスを元のデータから効果的に低減し,バックドア攻撃によるセキュリティリスクを最小化する,知識蒸留に基づくバックドア脱バイアスフレームワークを提案する。 提案手法は画像と構造化データセットの両方で検証され,有望な結果を示す。 この作業はバックドア攻撃の理解を深め、有益なアプリケーションの可能性を強調します。 この研究のコードは \url{https://anonymous.4open.science/r/dwb-bc07/} にある。

With the swift advancement of deep learning, state-of-the-art algorithms have been utilized in various social situations. Nonetheless, some algorithms have been discovered to exhibit biases and provide unequal results. The current debiasing methods face challenges such as poor utilization of data or intricate training requirements. In this work, we found that the backdoor attack can construct an artificial bias similar to the model bias derived in standard training. Considering the strong adjustability of backdoor triggers, we are motivated to mitigate the model bias by carefully designing reverse artificial bias created from backdoor attack. Based on this, we propose a backdoor debiasing framework based on knowledge distillation, which effectively reduces the model bias from original data and minimizes security risks from the backdoor attack. The proposed solution is validated on both image and structured datasets, showing promising results. This work advances the understanding of backdoor attacks and highlights its potential for beneficial applications. The code for the study can be found at \url{https://anonymous.4open.science/r/DwB-BC07/}.
翻訳日:2023-03-06 17:35:46 公開日:2023-03-01
# Zyxinが必要なのは、機械学習の付着細胞力学

Zyxin is all you need: machine learning adherent cell mechanics ( http://arxiv.org/abs/2303.00176v1 )

ライセンス: Link先を確認
Matthew S. Schmitt, Jonathan Colen, Stefano Sala, John Devany, Shailaja Seetharaman, Margaret L. Gardel, Patrick W. Oakes, Vincenzo Vitelli(参考訳) 細胞質内の複雑なメカノケミカルシステムから細胞形態と機能が生じる。 現在、多くの分子成分から細胞の大規模な物理的特性を推測する体系的な戦略は存在しない。 これは細胞接着や移動といった生物物理過程を理解する上で重要な障害である。 本稿では,付着細胞の力学的挙動を学習するためのデータ駆動生物物理モデリング手法を開発した。 まず、細胞骨格タンパク質の画像から付着細胞が生成する力を予測するためにニューラルネットワークを訓練する。 興味深いことに、ジキシンのような単一焦点接着タンパク質の実験画像は、力を予測するのに十分であり、目に見えない生物学的状態に一般化する。 このタンパク質場だけでは、多くの相互作用するタンパク質によって力自体が生成されても正確な予測を行うのに十分な情報を持っている。 次に、この1つの焦点接着場を用いて細胞力のデータ駆動型連続体モデルを構築するのに役立つ2つのアプローチ、すなわち物理によって明示的に制約されるもう1つのアプローチを開発する。 どちらの戦略も一貫して、細胞力は接着タンパク質の分布において2つの異なる長さスケールでコードされていることを示している。 我々の研究は、接着性細胞力学以外にも、細胞生物学における予測現象モデルの構築にニューラルネットワークを統合するためのケーススタディとして役立ちます。

Cellular form and function emerge from complex mechanochemical systems within the cytoplasm. No systematic strategy currently exists to infer large-scale physical properties of a cell from its many molecular components. This is a significant obstacle to understanding biophysical processes such as cell adhesion and migration. Here, we develop a data-driven biophysical modeling approach to learn the mechanical behavior of adherent cells. We first train neural networks to predict forces generated by adherent cells from images of cytoskeletal proteins. Strikingly, experimental images of a single focal adhesion protein, such as zyxin, are sufficient to predict forces and generalize to unseen biological regimes. This protein field alone contains enough information to yield accurate predictions even if forces themselves are generated by many interacting proteins. We next develop two approaches - one explicitly constrained by physics, the other more agnostic - that help construct data-driven continuum models of cellular forces using this single focal adhesion field. Both strategies consistently reveal that cellular forces are encoded by two different length scales in adhesion protein distributions. Beyond adherent cell mechanics, our work serves as a case study for how to integrate neural networks in the construction of predictive phenomenological models in cell biology, even when little knowledge of the underlying microscopic mechanisms exist.
翻訳日:2023-03-06 17:34:14 公開日:2023-03-01
# 深部ニューラルネットワークの逆変換のための自由度ブレグマン定式化

A Lifted Bregman Formulation for the Inversion of Deep Neural Networks ( http://arxiv.org/abs/2303.01965v1 )

ライセンス: Link先を確認
Xiaoyu Wang, Martin Benning(参考訳) 本稿では,ディープニューラルネットワークの正規化インバージョンのための新しいフレームワークを提案する。 このフレームワークは、アクティベーション関数の区別なしにフィードフォワードニューラルネットワークをトレーニングする著者の最近の研究に基づいている。 このフレームワークは補助変数を導入してパラメータ空間を高次元空間に上げ、これらの変数をテーラーされたブレグマン距離で解析する。 ブレグマン距離に基づく変分正規化の族を提案し, 理論的な結果を示し, 数値例による実用的応用を支援する。 特に、逆問題の解が正規化作用素の範囲内にあると仮定する単層パーセプトロンの正則化反転に対する最初の収束結果(我々の知る限りでは最善)を示し、測定誤差がゼロに収束するならば正則化逆が真逆に収束することを示す。

We propose a novel framework for the regularised inversion of deep neural networks. The framework is based on the authors' recent work on training feed-forward neural networks without the differentiation of activation functions. The framework lifts the parameter space into a higher dimensional space by introducing auxiliary variables, and penalises these variables with tailored Bregman distances. We propose a family of variational regularisations based on these Bregman distances, present theoretical results and support their practical application with numerical examples. In particular, we present the first convergence result (to the best of our knowledge) for the regularised inversion of a single-layer perceptron that only assumes that the solution of the inverse problem is in the range of the regularisation operator, and that shows that the regularised inverse provably converges to the true inverse if measurement errors converge to zero.
翻訳日:2023-03-06 14:49:57 公開日:2023-03-01
# 量子アニーラを用いた実世界のビンパッキング問題に対するハイブリッドアプローチ

Hybrid Approach for Solving Real-World Bin Packing Problem Instances Using Quantum Annealers ( http://arxiv.org/abs/2303.01977v1 )

ライセンス: Link先を確認
Sebasti\'an V. Romero, Eneko Osaba, Esther Villar-Rodriguez, Izaskun Oregi and Yue Ban(参考訳) アイテムを箱に効率よく詰め込むのが日常的な作業である。 Bin Packing Problemとして知られ、産業や物流から幅広い関心が寄せられているため、人工知能の分野で集中的に研究されている。 数十年前から多くの変種が提案され、実世界のユースケースに最も近い3次元のBin Packing Problemが提案されている。 本稿では,実世界の3次元ビンパッキング問題(q4realbpp)を解決するためのハイブリッド量子古典フレームワークを提案する。 一 パッケージ及びビン寸法 二 太りすぎの制限、 三 商品のカテゴリー間の親和性及び 四 商品の発注の選好 Q4RealBPPは、3dBPPの現実指向のインスタンスの解決を許可し、産業や物流部門でよく評価されている制限を検討する。

Efficient packing of items into bins is a common daily task. Known as Bin Packing Problem, it has been intensively studied in the field of artificial intelligence, thanks to the wide interest from industry and logistics. Since decades, many variants have been proposed, with the three-dimensional Bin Packing Problem as the closest one to real-world use cases. We introduce a hybrid quantum-classical framework for solving real-world three-dimensional Bin Packing Problems (Q4RealBPP), considering different realistic characteristics, such as: i) package and bin dimensions, ii) overweight restrictions, iii) affinities among item categories and iv) preferences for item ordering. Q4RealBPP permits the solving of real-world oriented instances of 3dBPP, contemplating restrictions well appreciated by industrial and logistics sectors.
翻訳日:2023-03-06 14:38:51 公開日:2023-03-01
# フランソン型非局所相関の起源

The origin of Franson-type nonlocal correlation ( http://arxiv.org/abs/2112.10148v3 )

ライセンス: Link先を確認
B. S. Ham(参考訳) フランソン型非局所相関は、偶然検出により2つの遠隔分離光子間で測定された2次強度差に対してである。 この非局所強度-生成フリンジは、独立局所パラメータの結合相関係を示す。 ここで、フランソン非局所相関は、非局所フリンジの謎の量子特徴を理解するために、量子力学の波動の性質に基づくコヒーレンスアプローチを用いて研究される。 このために、交絡光子対に基づく典型的なフランソンスキームは、局所的および非局所的な相関関係において、測定された写真間の多波長干渉によって局所的な強度が引き起こされるため、コヒーレントに解析される。 しかし、非局所フリンジの場合、一致検出は選択的に測定され、局所的に測定された光子基底積間の2次振幅重ね合わせとなる。 各対の絡み合った光子間の固定的な総和位相関係の内在性のため、非局所的な光子の結合相関係は光子対のランダムスペクトル変形に免疫する。 単一光子自己干渉の1次振幅重ね合わせと同様に、非局所基底積間の2次振幅重ね合わせは非局所フリンジの起源である。

Franson-type nonlocal correlation is for the second-order intensity fringes measured between two remotely separated photons via coincidence detection, whereas their locally measured first-order intensities are uniform. This nonlocal intensity-product fringe shows a joint-phase relation of independent local parameters. Here, the Franson nonlocal correlation is investigated using a coherence approach based on the wave nature of quantum mechanics to understand the mysterious quantum feature of nonlocal fringes. For this, a typical Franson scheme based on entangled photon pairs is coherently analyzed for both local and nonlocal correlations, where the local intensities are due to many-wave interference between measured photos. For the nonlocal fringe, however, coincidence detection results in selective measurements, resulting in second-order amplitude superposition between locally measured photon basis products. Due to the intrinsic property of a fixed sum-phase relation between entangled photons in each pair, the joint-phase relation of the nonlocal fringe is immune to the random spectral detuning of photon pairs. As in the first-order amplitude superposition of a single photon self-interference, the second-order amplitude superposition between nonlocal basis-products is the origin of the nonlocal fringe.
翻訳日:2023-03-04 03:12:24 公開日:2023-03-01
# スケーラブルなエンドツーエンドMLプラットフォーム: AutoMLからセルフサービスへ

Scalable End-to-End ML Platforms: from AutoML to Self-serve ( http://arxiv.org/abs/2302.14139v2 )

ライセンス: Link先を確認
Igor L. Markov, Pavlos A. Apostolopoulos, Mia Garrard, Tanya Qie, Yin Huang, Tanvi Gupta, Anika Li, Cesar Cardoso, George Han, Ryan Maghsoudian, Norm Zhou(参考訳) MLプラットフォームは、インテリジェントなデータ駆動アプリケーションを実現し、限られたエンジニアリング努力でメンテナンスするのに役立つ。 十分に広く採用されると、そのようなプラットフォームは、システム開発とメンテナンスの効率を改善しながら、より大きなコンポーネント再利用をもたらす規模の経済に達する。 広く採用されているエンドツーエンドのMLプラットフォームでは、拡張性のあるML自動化とシステム統合に依存して、私たちが定義する10の要件と6つのオプション機能を備えたセルフサービス(self-serve)という品質に達しています。 このことを念頭に置いて,プラットフォーム開発の長期的な目標を特定し,関連するトレードオフと今後の作業について議論する。 私たちの推論は、2つの商用にデプロイされたエンドツーエンドのMLプラットフォームで説明されています。

ML platforms help enable intelligent data-driven applications and maintain them with limited engineering effort. Upon sufficiently broad adoption, such platforms reach economies of scale that bring greater component reuse while improving efficiency of system development and maintenance. For an end-to-end ML platform with broad adoption, scaling relies on pervasive ML automation and system integration to reach the quality we term self-serve that we define with ten requirements and six optional capabilities. With this in mind, we identify long-term goals for platform development, discuss related tradeoffs and future work. Our reasoning is illustrated on two commercially-deployed end-to-end ML platforms that host hundreds of real-time use cases -- one general-purpose and one specialized.
翻訳日:2023-03-03 17:31:42 公開日:2023-03-01
# 消散性猫クビット用高忠実ゲートの設計

Designing High-Fidelity Gates for Dissipative Cat Qubits ( http://arxiv.org/abs/2303.00760v1 )

ライセンス: Link先を確認
Ronan Gautier, Mazyar Mirrahimi, Alain Sarlette(参考訳) 誘導二光子散逸で安定化されたボソニック・キャット量子ビットは指数的にバイアスのあるノイズを持つシステムであり、低オーバーヘッド、フォールトトレラント、普遍量子コンピューティングへの扉を開く。 しかし、そのような量子ビットに対する現在のゲート提案は、関連する実験パラメータによるスケーリングが不十分な非保護型のノイズをかなり引き起こす。 そこで本研究では,2光子偏光の設計に用いるリザーバモードを再考し,ゲート誘起誤差の軽減にどのように活用できるかを示すことにより,放散猫量子ビットに対する新たな視点を提案する。 そこで我々は,高忠実度および偏りを保った猫キュービットゲートの4つの新しい設計を導入し,これらを一般的なゲート方式と比較した。 これら4つの設計は、異なる相補的なアイデアを持つ散逸系のためのゲートエンジニアリングの概要を提供する。 特に,すでに達成可能な低エラーゲート設計と長期実装を提案する。

Bosonic cat qubits stabilized with a driven two-photon dissipation are systems with exponentially biased noise, opening the door to low-overhead, fault-tolerant and universal quantum computing. However, current gate proposals for such qubits induce substantial noise of the unprotected type, whose poor scaling with the relevant experimental parameters limits their practical use. In this work, we provide a new perspective on dissipative cat qubits by reconsidering the reservoir mode used to engineer the tailored two-photon dissipation, and show how it can be leveraged to mitigate gate-induced errors. Doing so, we introduce four new designs of high-fidelity and bias-preserving cat qubit gates, and compare them to the prevalent gate methods. These four designs should give a broad overview of gate engineering for dissipative systems with different and complementary ideas. In particular, we propose both already achievable low-error gate designs and longer-term implementations.
翻訳日:2023-03-03 17:15:07 公開日:2023-03-01
# 量子デバイス上の電子schr\"odinger方程式の検証可能な厳密解

Verifiably Exact Solution of the Electronic Schr\"odinger Equation on Quantum Devices ( http://arxiv.org/abs/2303.00758v1 )

ライセンス: Link先を確認
Scott E. Smart and David A. Mazziotti(参考訳) 量子コンピュータは古典的な分子計算の指数的な高速化の可能性を秘めている。 しかし、既存のアルゴリズムには制限があり、量子位相推定 (QPE) アルゴリズムは現在のハードウェアでは難解であるが、変分量子固有解法 (VQE) は収束を保証しない近似波動関数に依存している。 本稿では,多電子schr\"odinger方程式の検証可能な厳密解を導出するアルゴリズムを提案する。 シュレーディンガー方程式を直接解くのではなく、縮約シュレーディンガー方程式(contracted schr\"odinger equation, cse)として知られる2つの電子を除く全ての電子の縮約を解く。 CSEは、分子サイズと多項式的にスケールする2体ベースの非単位変換の積から構築された正確な波動関数アンザッツを生成するため、理想量子デバイス上での古典的な分子電子構造計算の指数加速を提供する。 量子シミュレータとノイズ量子コンピュータの両方でアルゴリズムを実証し、h$_{2}$の解離とh$_{4}$の矩形から2乗への遷移への応用を示す。 量子固有解法(CQE)の一種であるCSE量子アルゴリズムは、量子デバイス上での検証可能かつスケーラブルな分子シミュレーションを実現するための重要なステップを提供する。

Quantum computers have the potential for an exponential speedup of classical molecular computations. However, existing algorithms have limitations; quantum phase estimation (QPE) algorithms are intractable on current hardware while variational quantum eigensolvers (VQE) are dependent upon approximate wave functions without guaranteed convergence. In this Article we present an algorithm that yields verifiably exact solutions of the many-electron Schr\"odinger equation. Rather than solve the Schr\"odinger equation directly, we solve its contraction over all electrons except two, known as the contracted Schr\"odinger equation (CSE). The CSE generates an exact wave function ansatz, constructed from a product of two-body-based non-unitary transformations, that scales polynomially with molecular size and hence, provides a potentially exponential acceleration of classical molecular electronic structure calculations on ideal quantum devices. We demonstrate the algorithm on both quantum simulators and noisy quantum computers with applications to H$_{2}$ dissociation and the rectangle-to-square transition in H$_{4}$. The CSE quantum algorithm, which is a type of contracted quantum eigensolver (CQE), provides a significant step towards realizing verifiably accurate but scalable molecular simulations on quantum devices.
翻訳日:2023-03-03 17:14:48 公開日:2023-03-01
# 画像デノイングのためのクラウドK-SVD

Cloud K-SVD for Image Denoising ( http://arxiv.org/abs/2303.00755v1 )

ライセンス: Link先を確認
Christian Marius Lillelund, Henrik Bagger Jensen, Christian Fischer Pedersen(参考訳) Cloud K-SVDは、複数のノードでトレーニングできる辞書学習アルゴリズムであり、画像データ内の低次元幾何学構造を表現するための相互辞書を生成する。 本稿では,重複するパッチから無ノイズ画像と無ノイズ画像の両方を復元するアルゴリズムの新たな応用法を提案する。 Cloud K-SVDを促進するために,Dockerコンテナを使用したKubernetesのノードネットワークを実装しています。 以上の結果から,Cloud K-SVD は,画像の回復精度を犠牲にすることなく,ベンチマークグレースケール画像から定量量のノイズを除去し,ノイズレベルの清浄画像(\mu$ = 0, $\sigma^{2}$ = 0.01, 0.005, 0.001)間のSSIM指数 0.88, 0.91, 0.95 を得ることができた。 クラウドK-SVDは明らかに複数のノードにわたる相互辞書を学習し、画像からAWGNを取り除くことができる。 相互辞書は、ネットワーク内のどのノードでも特定の画像を復元するために使用することができる。

Cloud K-SVD is a dictionary learning algorithm that can train at multiple nodes and hereby produce a mutual dictionary to represent low-dimensional geometric structures in image data. We present a novel application of the algorithm as we use it to recover both noiseless and noisy images from overlapping patches. We implement a node network in Kubernetes using Docker containers to facilitate Cloud K-SVD. Results show that Cloud K-SVD can recover images approximately and remove quantifiable amounts of noise from benchmark gray-scaled images without sacrificing accuracy in recovery; we achieve an SSIM index of 0.88, 0.91 and 0.95 between clean and recovered images for noise levels ($\mu$ = 0, $\sigma^{2}$ = 0.01, 0.005, 0.001), respectively, which is similar to SOTA in the field. Cloud K-SVD is evidently able to learn a mutual dictionary across multiple nodes and remove AWGN from images. The mutual dictionary can be used to recover a specific image at any of the nodes in the network.
翻訳日:2023-03-03 17:14:24 公開日:2023-03-01
# 重み付きサンプリングのための離散化it\^o拡散の平均二乗解析

Mean-Square Analysis of Discretized It\^o Diffusions for Heavy-tailed Sampling ( http://arxiv.org/abs/2303.00570v1 )

ライセンス: Link先を確認
Ye He, Tyler Farghly, Krishnakumar Balasubramanian, Murat A. Erdogdu(参考訳) 重み付きポアンカルの不等式に関連する it\^o 拡散の自然クラスを判別することにより,重み付き分布のクラスからのサンプリングの複雑さを解析した。 平均二乗解析に基づいて、wasserstein-2 メトリックのターゲット分布に近い$\epsilon$ の分布を持つサンプルを得るための反復複雑性を確立する。 本稿では, 平均二乗解析をその限界, すなわち, 対象密度が有限分散であること, 平均二乗解析の最小要件を必然的に要求する。 明示的な推定を得るために、重尾目標に関連する特定のモーメント上の上限を様々な仮定の下で計算する。 また,正規化対象密度の関数評価のみがガウス平滑化法を用いて勾配を推定できる場合にも同様の反復複雑性結果を提供する。 多変量 $t$-distribution に基づいた例を示す。

We analyze the complexity of sampling from a class of heavy-tailed distributions by discretizing a natural class of It\^o diffusions associated with weighted Poincar\'e inequalities. Based on a mean-square analysis, we establish the iteration complexity for obtaining a sample whose distribution is $\epsilon$ close to the target distribution in the Wasserstein-2 metric. In this paper, our results take the mean-square analysis to its limits, i.e., we invariably only require that the target density has finite variance, the minimal requirement for a mean-square analysis. To obtain explicit estimates, we compute upper bounds on certain moments associated with heavy-tailed targets under various assumptions. We also provide similar iteration complexity results for the case where only function evaluations of the unnormalized target density are available by estimating the gradients using a Gaussian smoothing technique. We provide illustrative examples based on the multivariate $t$-distribution.
翻訳日:2023-03-03 17:12:56 公開日:2023-03-01
# 腕を引っ張る労働者の公正性:レスレスバンドタスクの配置のための指標に基づく政策

Fairness for Workers Who Pull the Arms: An Index Based Policy for Allocation of Restless Bandit Tasks ( http://arxiv.org/abs/2303.00799v1 )

ライセンス: Link先を確認
Arpita Biswas, Jackson A. Killian, Paula Rodriguez Diaz, Susobhan Ghosh, Milind Tambe(参考訳) 機械修理, プロジェクトモニタリング, 対潜パトロールスケジューリングなどの応用に動機づけられ, 資源制約下での確率過程の介入計画について検討した。 この計画問題は、以前は、各アームが介入依存のマルコフ決定プロセスである、レストレス・マルチアーム・バンディット(RMAB)としてモデル化されていた。 しかし、既存の文献では、すべての介入リソースが単一の一様プールに属しており、それぞれのコスト、予算、介入効果のある労働者の集団による介入が行われる実世界環境への適用性が制限されている。 本研究では,異種労働者によるMWRMAB(Multi-worker restless bandits)と呼ばれる新しいRMAB設定について考察する。 目標は、各ワーカーに対する予算制約を満たしつつ、各ワーカーに割り当てられた負荷の公平さを満たしながら、期待される報酬を最大化する介入スケジュールを計画することである。 コントリビューションは,(1)不均一なコストと作業者ごとの予算に対応するためにWhittleインデックスのマルチワーカー拡張を提供し,(2)公正性を達成するためのインデックスベースのスケジューリングポリシを開発する。 さらに, 様々なコスト構造に対する評価を行い, 報酬の蓄積を犠牲にすることなく, 公平性の観点から他の基準を著しく上回っていることを示す。

Motivated by applications such as machine repair, project monitoring, and anti-poaching patrol scheduling, we study intervention planning of stochastic processes under resource constraints. This planning problem has previously been modeled as restless multi-armed bandits (RMAB), where each arm is an intervention-dependent Markov Decision Process. However, the existing literature assumes all intervention resources belong to a single uniform pool, limiting their applicability to real-world settings where interventions are carried out by a set of workers, each with their own costs, budgets, and intervention effects. In this work, we consider a novel RMAB setting, called multi-worker restless bandits (MWRMAB) with heterogeneous workers. The goal is to plan an intervention schedule that maximizes the expected reward while satisfying budget constraints on each worker as well as fairness in terms of the load assigned to each worker. Our contributions are two-fold: (1) we provide a multi-worker extension of the Whittle index to tackle heterogeneous costs and per-worker budget and (2) we develop an index-based scheduling policy to achieve fairness. Further, we evaluate our method on various cost structures and show that our method significantly outperforms other baselines in terms of fairness without sacrificing much in reward accumulated.
翻訳日:2023-03-03 17:06:25 公開日:2023-03-01
# ラプラス方程式を組み込んだ深層学習フレームワークを用いた皮質灰白質の深部硫黄分画の改善

Improved Segmentation of Deep Sulci in Cortical Gray Matter Using a Deep Learning Framework Incorporating Laplace's Equation ( http://arxiv.org/abs/2303.00795v1 )

ライセンス: Link先を確認
Sadhana Ravikumar, Ranjit Itttyerah, Sydney Lim, Long Xie, Sandhitsu Das, Pulkit Khandelwal, Laura E.M. Wisse, Madigan L. Bedard, John L. Robinson, Terry Schuck, Murray Grossman, John Q. Trojanowski, Edward B. Lee, M. Dylan Tisdall, Karthik Prabhakaran, John A. Detre, David J. Irwin, Winifred Trotman, Gabor Mizsei, Emilio Artacho-P\'erula, Maria Mercedes I\~niguez de Onzono Martin, Maria del Mar Arroyo Jim\'enez, Monica Mu\~noz, Francisco Javier Molina Romero, Maria del Pilar Marcos Rabal, Sandra Cebada-S\'anchez, Jos\'e Carlos Delgado Gonz\'alez, Carlos de la Rosa-Prieto, Marta C\'orcoles Parada, David A. Wolk, Ricardo Insausti, Paul A. Yushkevich(参考訳) 自動大脳皮質セグメンテーションのためのツールを開発する際には,幾何的に有効な形態計測値を計算するために,位相的に正しいセグメンテーションを生成する能力が重要である。 実際には、正確な皮質セグメンテーションは、画像アーティファクトと、大脳皮質自体の非常に複雑な解剖によって挑戦される。 そこで本研究では,学習過程中に皮質の形状に関する事前知識をネットワークに組み込む,新しい深層学習に基づく皮質セグメンテーション手法を提案する。 ラプラス方程式を大脳皮質に適用した損失関数を設計し、密に折り畳まれたサッチ間の未解決境界を局所的に解析する。 ヒトの側頭葉標本の生体外MRIデータセットを用いて,本手法が定量的および定性的にベースラインセグメンテーションネットワークより優れていることを示す。

When developing tools for automated cortical segmentation, the ability to produce topologically correct segmentations is important in order to compute geometrically valid morphometry measures. In practice, accurate cortical segmentation is challenged by image artifacts and the highly convoluted anatomy of the cortex itself. To address this, we propose a novel deep learning-based cortical segmentation method in which prior knowledge about the geometry of the cortex is incorporated into the network during the training process. We design a loss function which uses the theory of Laplace's equation applied to the cortex to locally penalize unresolved boundaries between tightly folded sulci. Using an ex vivo MRI dataset of human medial temporal lobe specimens, we demonstrate that our approach outperforms baseline segmentation networks, both quantitatively and qualitatively.
翻訳日:2023-03-03 17:06:02 公開日:2023-03-01
# 学習文脈入力によるマルチタスクニューラルネットワーク

Multi-task neural networks by learned contextual inputs ( http://arxiv.org/abs/2303.00788v1 )

ライセンス: Link先を確認
Anders T. Sandnes, Bjarne Grimstad, Odd Kolbj{\o}rnsen(参考訳) 本稿では,学習コンテキストニューラルネットワークについて検討する。 完全に共有されたニューラルネットワークと、トレーニング可能なタスクパラメータを含む拡張入力ベクトルに基づくマルチタスク学習アーキテクチャである。 このアーキテクチャは、低次元のタスクパラメータ空間を促進する強力なタスク適応機構によって興味深い。 理論的には、スカラータスクパラメータは全てのタスクを普遍的に近似するのに十分であり、より一般的なアーキテクチャでは必ずしもそうではない。 このような小さなタスクパラメータ空間の実用性に対する証拠が実証的に与えられる。 タスクパラメータ空間はよく理解されており、新しいデータが到着するとモデルの更新に関連するワークフローを単純化し、共有パラメータが凍結されたときに新しいタスクをトレーニングする。 さらにアーキテクチャは、データポイントの少ないケースに対して堅牢性を示す。 アーキテクチャのパフォーマンスは、10データセット上の類似のニューラルネットワークアーキテクチャと比較される。

This paper explores learned-context neural networks. It is a multi-task learning architecture based on a fully shared neural network and an augmented input vector containing trainable task parameters. The architecture is interesting due to its powerful task adaption mechanism, which facilitates a low-dimensional task parameter space. Theoretically, we show that a scalar task parameter is sufficient for universal approximation of all tasks, which is not necessarily the case for more common architectures. Evidence towards the practicality of such a small task parameter space is given empirically. The task parameter space is found to be well-behaved, and simplifies workflows related to updating models as new data arrives, and training new tasks when the shared parameters are frozen. Additionally, the architecture displays robustness towards cases with few data points. The architecture's performance is compared to similar neural network architectures on ten datasets.
翻訳日:2023-03-03 17:05:47 公開日:2023-03-01
# Gated Language Experts and Curriculum Trainingによる高精度多言語ASRの構築

Building High-accuracy Multilingual ASR with Gated Language Experts and Curriculum Training ( http://arxiv.org/abs/2303.00786v1 )

ライセンス: Link先を確認
Eric Sun, Jinyu Li, Yuxuan Hu, Yimeng Zhu, Long Zhou, Jian Xue, Peidong Wang, Linquan Liu, Shujie Liu, Edward Lin, Yifan Gong(参考訳) 本稿では,言語識別 (LID) をユーザから入力することなく,多言語トランスデューサモデルを改善するために,ゲート言語の専門家を提案する。 変換器エンコーダが言語依存の情報を学ぶためのゲーティング機構と蓋損失を定義し、ゲートトランスの専門家と共有トランスフォーマー層を持つ多言語トランスフォーマーブロックをコンパクトモデル向けに構築し、ジョイントネットワーク出力に関する線形専門家を適用し、音声音響とトークンラベルのジョイント情報をより規則化する。 さらに,LIDをゲート言語の専門家に指導して,それに対応する言語をよりよく提供するためのカリキュラム学習手法を提案する。 本手法は,英語とスペイン語のバイリンガル課題に基づいて,ベースラインバイリンガルモデルとモノリンガルモデルに比較して平均12.5%と7.3%の単語誤り削減を実現し,オラクルLIDで訓練および推定した上界モデルと類似した結果を得た。 さらに、三言語モデル、四言語モデル、五言語モデルについて検討し、二言語モデルと同様の利点を観察し、さらに多くの言語への容易に拡張できることを示す。

We propose gated language experts to improve multilingual transformer transducer models without any language identification (LID) input from users during inference. We define gating mechanism and LID loss to let transformer encoders learn language-dependent information, construct the multilingual transformer block with gated transformer experts and shared transformer layers for compact models, and apply linear experts on joint network output to better regularize speech acoustic and token label joint information. Furthermore, a curriculum training scheme is proposed to let LID guide the gated language experts for better serving their corresponding languages. Evaluated on the English and Spanish bilingual task, our methods achieve average 12.5% and 7.3% relative word error reductions over the baseline bilingual model and monolingual models, respectively, obtaining similar results to the upper bound model trained and inferred with oracle LID. We further explore our method on trilingual, quadrilingual, and pentalingual models, and observe similar advantages as in the bilingual models, which demonstrates the easy extension to more languages.
翻訳日:2023-03-03 17:05:34 公開日:2023-03-01
# 低次元データマニフォールドのための2層ReLUネットワークにおける逆例

Adversarial Examples Exist in Two-Layer ReLU Networks for Low Dimensional Data Manifolds ( http://arxiv.org/abs/2303.00783v1 )

ライセンス: Link先を確認
Odelia Melamed, Gilad Yehudai, Gal Vardi(参考訳) 大量の研究にもかかわらず、トレーニングされたニューラルネットワークが敵の例に非常に弱い理由はまだよく理解されていない。 本研究では,低次元線形部分空間上のデータを用いて学習した2層ニューラルネットワークに着目した。 標準勾配法は、非ロバストニューラルネットワーク、すなわち、データ部分空間に直交する方向に大きな勾配を持ち、これらの方向の小さな逆数$l_2$-摂動の影響を受けやすいネットワークに繋がることを示す。 さらに,トレーニングアルゴリズムの初期化スケールの縮小,あるいは$l_2$正規化の追加により,データに直交する逆摂動に対して,トレーニングネットワークがより堅牢になることを示す。

Despite a great deal of research, it is still not well-understood why trained neural networks are highly vulnerable to adversarial examples. In this work we focus on two-layer neural networks trained using data which lie on a low dimensional linear subspace. We show that standard gradient methods lead to non-robust neural networks, namely, networks which have large gradients in directions orthogonal to the data subspace, and are susceptible to small adversarial $L_2$-perturbations in these directions. Moreover, we show that decreasing the initialization scale of the training algorithm, or adding $L_2$ regularization, can make the trained network more robust to adversarial perturbations orthogonal to the data.
翻訳日:2023-03-03 17:05:09 公開日:2023-03-01
# 39量子ビット量子プロセッサにおける学習相関ノイズ

Learning correlated noise in a 39-qubit quantum processor ( http://arxiv.org/abs/2303.00780v1 )

ライセンス: Link先を確認
Robin Harper and Steven T. Flammia(参考訳) 誤り訂正量子コンピュータの構築は、候補デバイス上でのノイズの測定とモデリングに大きく依存する。 特に、最適な誤り訂正は、エラー訂正に必要な回路を実行するときにデバイスで発生するノイズを知る必要がある。 デバイスのサイズが大きくなるにつれて、我々はこのノイズの効率的なモデルに依存するようになる。 しかし、そのようなモデルは、誤り訂正に使用されるアルゴリズムの最適化に必要な情報を保持する必要がある。 本稿では, シンドローム抽出回路を動作させるデバイスにおいて, ノイズの詳細情報を抽出する手法を提案する。 我々は,そのキュービットの39個を用いた超伝導デバイスについて,シンドローム抽出を繰り返し行うが,中回路計測とリセットを省略した実験を紹介,実施する。 グラフィカルモデルという形で様々な高度なノイズモデルを構築するのに必要な情報を20個のデータキュービットから抽出する方法を示す。 これらのモデルは大規模装置における雑音の効率的な記述を提供し、相関雑音に対する誤差補正の有効性を照らし出すように設計されている。 我々は、全ての1ビットと2ビットの誤差率が0.1%の相対誤差で知られている一貫したグローバル分布を学習する。 実験により学習した雑音モデルをより低い誤差率に推定することにより,量子誤差補正実験におけるサブスレッショルド挙動の予測を成功させる上で,精度の高い相関ノイズモデルがますます重要であることを示す。

Building error-corrected quantum computers relies crucially on measuring and modeling noise on candidate devices. In particular, optimal error correction requires knowing the noise that occurs in the device as it executes the circuits required for error correction. As devices increase in size we will become more reliant on efficient models of this noise. However, such models must still retain the information required to optimize the algorithms used for error correction. Here we propose a method of extracting detailed information of the noise in a device running syndrome extraction circuits. We introduce and execute an experiment on a superconducting device using 39 of its qubits in a surface code doing repeated rounds of syndrome extraction, but omitting the mid-circuit measurement and reset. We show how to extract from the 20 data qubits the information needed to build noise models of various sophistication in the form of graphical models. These models give efficient descriptions of noise in large-scale devices and are designed to illuminate the effectiveness of error correction against correlated noise. Our estimates are furthermore precise: we learn a consistent global distribution where all one- and two-qubit error rates are known to a relative error of 0.1%. By extrapolating our experimentally learned noise models towards lower error rates, we demonstrate that accurate correlated noise models are increasingly important for successfully predicting sub-threshold behavior in quantum error correction experiments.
翻訳日:2023-03-03 17:04:55 公開日:2023-03-01
# 高速・高忠実・長距離エンタングルメント分散のための改良プロトコル

Improved protocols for fast, high-fidelity, and long-distance entanglement distribution ( http://arxiv.org/abs/2303.00777v1 )

ライセンス: Link先を確認
Stav Haldar, Pratik J. Barge, Sumeet Khatri, Hwang Lee(参考訳) 将来の量子通信、量子センシング、分散量子計算といった量子技術は、空間的に分離されたノード間の共有絡み合いのネットワークに依存する。 本研究では,光子損失,非理想的測定,コヒーレンスタイムの短い量子記憶といった実用上の限界を考慮し,均質かつ不均質なノードの線形鎖に沿った絡み合い分布のプロトコル/ポリティクスの改善を提案する。 幅広いパラメータに対して、我々の政策は、待ち時間とエンドツーエンドの絡み合いの忠実さの両方に関して、 '`swap-as-soon-as-as-possible'' ポリシーのような、これまで知られていた政策を改善している。 この改善は、短いコヒーレンス時間、高いリンク損失、高度に非対称なリンクなど、最も実践的なケースで最大である。 この結果を得るために,マルコフ決定プロセスを用いて絡み合い分布をモデル化し,Q-learning reinforcement learning (RL)アルゴリズムを用いて新しいポリシーを探索する。 これらの新しいポリシーは、動的で状態依存のメモリカットオフとノード間の協調によって特徴づけられる。 特に、ノード間のこのコラボレーションを定量化します。 量子化器は、各ノードが持つネットワークに関する ``global'' の知識を教えてくれる。 最後に、大規模量子ネットワークの性能に対する我々の理解は、rlや他の最適化手法を用いてそれらをシミュレートする計算効率の非効率によって制限されている。 そこで本研究では,大規模なリピータチェーンのポリシーを得るために,ポリシーをネストする手法を提案する。 小さなリピータチェーンのためのrlベースのポリシーをネストすることで、swap-as-soon-as-possibleポリシーを改善する大きなリピータチェーンのポリシーを得ることができ、長距離の絡み合い分散のためのポリシーを得るためのスケーラブルな方法の道を開くことができます。

Future quantum technologies such as quantum communication, quantum sensing, and distributed quantum computation, will rely on networks of shared entanglement between spatially separated nodes. In this work, we provide improved protocols/policies for entanglement distribution along a linear chain of nodes, both homogeneous and inhomogeneous, that take practical limitations such as photon losses, non-ideal measurements, and quantum memories with short coherence times into account. For a wide range of parameters, our policies improve upon previously known policies, such as the ``swap-as-soon-as-possible'' policy, with respect to both the waiting time and the fidelity of the end-to-end entanglement. This improvement is greatest for the most practically relevant cases, namely, for short coherence times, high link losses, and highly asymmetric links. To obtain our results, we model entanglement distribution using a Markov decision process, and then we use the Q-learning reinforcement learning (RL) algorithm to discover new policies. These new policies are characterized by dynamic, state-dependent memory cutoffs and collaboration between the nodes. In particular, we quantify this collaboration between the nodes. Our quantifiers tell us how much ``global'' knowledge of the network every node has. Finally, our understanding of the performance of large quantum networks is currently limited by the computational inefficiency of simulating them using RL or other optimization methods. Thus, in this work, we present a method for nesting policies in order to obtain policies for large repeater chains. By nesting our RL-based policies for small repeater chains, we obtain policies for large repeater chains that improve upon the swap-as-soon-as-possible policy, and thus we pave the way for a scalable method for obtaining policies for long-distance entanglement distribution.
翻訳日:2023-03-03 17:04:33 公開日:2023-03-01
# 任意のメッセージ長に対する実現可能なハイブリッド量子支援デジタル署名

A Feasible Hybrid Quantum-Assisted Digital Signature for Arbitrary Message Length ( http://arxiv.org/abs/2303.00767v1 )

ライセンス: Link先を確認
Marta Irene Garc\'ia Cid, Laura Ortiz Mart\'in, David Domingo Mart\'in, Rodrigo Mart\'in S\'anchez-Ledesma, Juan Pedro Brito M\'endez, Vicente Mart\'in Ayuso(参考訳) 現在使われている非対称暗号に基づくデジタル署名は、ショアのアルゴリズムを実行する量子コンピュータに対して脆弱である。 そこで本研究では,qkdが生成する対称鍵に基づく新しい量子署名プロトコルを提案する。 このプロトコルは、1つの送信機と2つの受信機からなる3つのユーザシナリオについて記述されている。 以前のスキームとは対照的に、メッセージ長とは独立している。 プロトコルのセキュリティは、その完全性、信頼性、非監査プロパティと同様に分析されている。

Currently used digital signatures based on asymmetric cryptography will be vulnerable to quantum computers running Shor's algorithm. In this work, we propose a new quantum-assisted digital signature protocol based on symmetric keys generated by QKD, that allows signing and verifying messages in a simple way implementing an integration of currently available classical and quantum technologies. The protocol is described for a three-user scenario composed of one sender and two receivers. In contrast to previous schemes, it is independent of the message length. The security of the protocol has been analyzed, as well as its integrity, authenticity and non-repudiation properties.
翻訳日:2023-03-03 17:04:02 公開日:2023-03-01
# 光子媒介相互作用によるエルミタントポロジーと非エルミタントポロジー

Hermitian and Non-Hermitian Topology from Photon-Mediated Interactions ( http://arxiv.org/abs/2303.00762v1 )

ライセンス: Link先を確認
Federico Roccati, Miguel Bello, Zongping Gong, Masahito Ueda, Francesco Ciccarello, Aur\'elia Chenu, Angelo Carollo(参考訳) 光は、共通の環境に結合した原子または量子エミッタ間の効果的な双極子-双極子相互作用を仲介することができる。 希望する有効ハミルトニアンを仕立てるためにそれらを展開することは、大きな応用を持ち、多体位相の探索を進めることができる。 量子技術は成熟しており、量子エミッタと結合した洗練された構造を持つ大きなフォトニック格子を設計できる。 この文脈において、基本的な問題は、原子の望ましい有効ハミルトニアンを媒介するフォトニック環境を調整するための一般的な基準を見つけることである。 これらの基準の中で、トポロジカルな性質は、非自明なトポロジを持つ有効原子ハミルトニアンが障害や不完全性から保護されるため、最も重要である。 ここでは、エルミート的および非エルミート的トポロジカル不変量の両方の観点から、光子を媒介とするハミルトニアンの位相的性質(もしあるならば)を管理する一般的な定理を見つけ、したがってシステム基底トポロジカル対応を明らかにする。 その結果は、共振器の数に対するエミッタの数に依存する。 それぞれのモードが1つの量子エミッタと結合しているフォトニック格子に対して、位相絶縁体のアルトランド・ジルバウアー分類は、原子のトポロジーをフォトニック浴のそれと結びつけることを可能にする:我々は、位相保存と反転の現象を、フォトニックのトポロジーがフォトニックのものと同一か反対か、フォトニックシステムの遺伝性と空間次元のパリティによって明らかにする。 その結果、バルクエッジ対応は、2次元エルミート位相系におけるフォトニックと反対の群速度を持つ原子境界モードの存在を意味する。 フォトニックモードよりもエミッタが少ない場合、原子系は制約が低く、一般的な光子-原子位相対応は見出されない。 これを2つの反例で示します。

Light can mediate effective dipole-dipole interactions between atoms or quantum emitters coupled to a common environment. Exploiting them to tailor a desired effective Hamiltonian can have major applications and advance the search for many-body phases. Quantum technologies are mature enough to engineer large photonic lattices with sophisticated structures coupled to quantum emitters. In this context, a fundamental problem is to find general criteria to tailor a photonic environment that mediates a desired effective Hamiltonian of the atoms. Among these criteria, topological properties are of utmost importance since an effective atomic Hamiltonian endowed with a non-trivial topology can be protected against disorder and imperfections. Here, we find general theorems that govern the topological properties (if any) of photon-mediated Hamiltonians in terms of both Hermitian and non-Hermitian topological invariants, thus unveiling a system-bath topological correspondence. The results depend on the number of emitters relative to the number of resonators. For a photonic lattice where each mode is coupled to a single quantum emitter, the Altland-Zirnbauer classification of topological insulators allows us to link the topology of the atoms to that of the photonic bath: we unveil the phenomena of topological preservation and reversal to the effect that the atomic topology can be the same or opposite to the photonic one, depending on Hermiticity of the photonic system and on the parity of the spatial dimension. As a consequence, the bulk-edge correspondence implies the existence of atomic boundary modes with the group velocity opposite to the photonic ones in a 2D Hermitian topological system. If there are fewer emitters than photonic modes, the atomic system is less constrained and no general photon-atom topological correspondence can be found. We show this with two counterexamples.
翻訳日:2023-03-03 17:03:54 公開日:2023-03-01
# 指数ヒルベルト空間を持たない多体マヨラナブレイディング

Many-body Majorana braiding without an exponential Hilbert space ( http://arxiv.org/abs/2303.00761v1 )

ライセンス: Link先を確認
Eric Mascot, Themba Hodge, Dan Crawford, Jasmin Bedow, Dirk K. Morr, Stephan Rachel(参考訳) majorana zero modes (mzms) で構築された量子ビットは、位相的に保護された量子コンピューティングへの主要な経路である。 複数のMZMのブレイディング過程のシミュレーションは超伝導多体系の量子力学に対応する。 マヨラナ力学は、他の全ての準粒子の存在と、合理的に大きなシステムサイズの両方で研究することが重要である。 超伝導体の単一粒子状態から, 任意の多体波動関数を計算し, その期待値と重なり合いを計算し, システムサイズを大幅に拡大する手法を提案する。 ブレイディングプロセスの品質を追跡するために,マヨラナペアの忠実性,遷移確率,ジョイントパリティを計算する。 ブレイディングの成功はブレイドの速度にどのように依存するかを示す。 また、時間と空間における任意の相関関数を計算できる。 我々の研究は、Majorana qubitsの多くの理論的実装をテストし分析する道を開く。 さらに、この方法は任意の非相互作用超伝導体の動力学を研究するのに使うことができる。

Qubits built out of Majorana zero modes (MZMs) constitute the primary path towards topologically protected quantum computing. Simulating the braiding process of multiple MZMs corresponds to the quantum dynamics of a superconducting many-body system. It is crucial to study the Majorana dynamics both in the presence of all other quasiparticles and for reasonably large system sizes. We present a method to calculate arbitrary many-body wavefunctions as well as their expectation values and overlaps from time evolved single-particle states of a superconductor, allowing for significantly larger system sizes. We calculate the fidelity, transition probabilities, and joint parities of Majorana pairs to track the quality of the braiding process. We show how the braiding success depends on the speed of the braid. We are also able to compute arbitrary correlation functions in time and space. Our work opens the path to test and analyze the many theoretical implementations of Majorana qubits. Moreover, this method can be used to study the dynamics of any non-interacting superconductor.
翻訳日:2023-03-03 17:03:15 公開日:2023-03-01
# 量子物理学のすべて-量子波の解釈

The Everything-is-a-Quantum-Wave Interpretation of Quantum Physics ( http://arxiv.org/abs/2303.00831v1 )

ライセンス: Link先を確認
Vlatko Vedral(参考訳) 本稿では、量子力学の最も自然な解釈について概説したい。 自然に言えば、私は単に、過剰な荷物の量が最も少なく、宇宙全体を含む全ての観測された現象に一貫して適用できるという意味で普遍的であるという意味である。 私はこれを"Everything is a Quantum Wave" Interpretation (EQWI)と呼んでいる。 論文はなぜそうなのかを説明している。

In this paper I would like to outline what I think is the most natural interpretation of quantum mechanics. By natural, I simply mean that it requires the least amount of excess baggage and that it is universal in the sense that it can be consistently applied to all the observed phenomena including the universe as a whole. I call it the "Everything is a Quantum Wave" Interpretation (EQWI) because I think this is a more appropriate name than the Many Worlds Interpretation (MWI). The paper explains why this is so.
翻訳日:2023-03-03 16:55:49 公開日:2023-03-01
# レーザー駆動イオン加速の自動制御と最適化

Automated control and optimisation of laser driven ion acceleration ( http://arxiv.org/abs/2303.00823v1 )

ライセンス: Link先を確認
B. Loughran, M. J. V. Streeter, H. Ahmed, S. Astbury, M. Balcazar, M. Borghesi, N. Bourgeois, C. B. Curry, S. J. D. Dann, S. DiIorio, N. P. Dover, T. Dzelzanis, O. C. Ettlinger, M. Gauthier, L. Giuffrida, G. D. Glenn, S. H. Glenzer, J. S. Green, R. J. Gray, G. S. Hicks, C. Hyland, V. Istokskaia, M. King, D. Margarone, O. McCusker, P. McKenna, Z. Najmudin, C. Parisua\~na, P. Parsons, C. Spindloe, D. R. Symes, A. G. R. Thomas, F. Treffert, N. Xu and C. A. J. Palmer(参考訳) 相対論的に強いレーザーと不透明なターゲットとの相互作用は、高非線形多次元パラメータ空間を表す。 これにより、二次放射の最適化のための実験パラメータの逐次1次元走査の有用性が制限されるが、今日ではデータ取得率が低いために受け入れられている方法である。 機械学習によって強化された高繰り返しレート(HRR)レーザーは、効率的なソース最適化のための貴重な機会を提供する。 ここでは、hrr互換の自動化システムが高忠実度パラメータスキャンを行い、レーザー強度がターゲットの予熱と陽子生成に与える影響を明らかにした。 レーザー波面と目標位置の制御により、最大プロトンエネルギーの閉ループベイズ最適化は、手動で最適化したレーザーパルスに同等の最大エネルギーを持つプロトンビームを発生させたが、レーザーエネルギーの60%しか使用しなかった。 このレーザー駆動陽子ビームの自動最適化の実証は、より深い物理的洞察と将来の放射線源の構築に向けた重要なステップである。

The interaction of relativistically intense lasers with opaque targets represents a highly non-linear, multi-dimensional parameter space. This limits the utility of sequential 1D scanning of experimental parameters for the optimisation of secondary radiation, although to-date this has been the accepted methodology due to low data acquisition rates. High repetition-rate (HRR) lasers augmented by machine learning present a valuable opportunity for efficient source optimisation. Here, an automated, HRR-compatible system produced high fidelity parameter scans, revealing the influence of laser intensity on target pre-heating and proton generation. A closed-loop Bayesian optimisation of maximum proton energy, through control of the laser wavefront and target position, produced proton beams with equivalent maximum energy to manually-optimized laser pulses but using only 60% of the laser energy. This demonstration of automated optimisation of laser-driven proton beams is a crucial step towards deeper physical insight and the construction of future radiation sources.
翻訳日:2023-03-03 16:55:40 公開日:2023-03-01
# 敵陣における攻撃者の侵入計画

Planning for Attacker Entrapment in Adversarial Settings ( http://arxiv.org/abs/2303.00822v1 )

ライセンス: Link先を確認
Brittany Cates, Anagha Kulkarni, Sarath Sreedharan(参考訳) 本稿では,攻撃者の知識を使わずに攻撃者が操作できる環境で作業する攻撃者に対する防衛戦略を作成するための計画枠組みを提案する。 ディフェンダーの目的は、攻撃者が目標を達成できないトラップ状態まで、密かに攻撃者を誘導することである。 さらに、攻撃者が環境の脅威を疑う可能性が低い悲観的下界としてKが計算されるK個のステップで目標を達成することが制約される。 このような防衛戦略は、ハニーポットやハニーネットのような現実世界のシステムにおいて非常に有用であり、攻撃者が実際の生産システムであると仮定しながらシミュレーションされた生産システムと相互作用する。 通常、アタッカーとディフェンダーのインタラクションはゲーム理論のフレームワークを使ってキャプチャされる。 問題の定式化により、より単純な無限地平線割引MDPとして捉えることができ、MDPの最適方針は攻撃者の行動に対する防衛者の戦略を与える。 経験的評価を通じて,問題定式化のメリットを示す。

In this paper, we propose a planning framework to generate a defense strategy against an attacker who is working in an environment where a defender can operate without the attacker's knowledge. The objective of the defender is to covertly guide the attacker to a trap state from which the attacker cannot achieve their goal. Further, the defender is constrained to achieve its goal within K number of steps, where K is calculated as a pessimistic lower bound within which the attacker is unlikely to suspect a threat in the environment. Such a defense strategy is highly useful in real world systems like honeypots or honeynets, where an unsuspecting attacker interacts with a simulated production system while assuming it is the actual production system. Typically, the interaction between an attacker and a defender is captured using game theoretic frameworks. Our problem formulation allows us to capture it as a much simpler infinite horizon discounted MDP, in which the optimal policy for the MDP gives the defender's strategy against the actions of the attacker. Through empirical evaluation, we show the merits of our problem formulation.
翻訳日:2023-03-03 16:55:23 公開日:2023-03-01
# 高次元因果効果の学習

Learning high-dimensional causal effect ( http://arxiv.org/abs/2303.00821v1 )

ライセンス: Link先を確認
Aayush Agarwal and Saksham Bassi(参考訳) 高次元因果推論データセットの不足は、複雑な深層モデルの探索を制限する。 本研究では,高次元の合成因果データセットを生成する手法を提案する。 合成データは、MNISTデータセットとベルヌーイ処理値を用いて因果効果をシミュレートする。 これは因果効果推定のための様々なモデルを研究する機会を与える。 このデータセットをdragonnet architecture (shi et al. (2019)) とmodified architecturesを使って実験した。 修正されたアーキテクチャを用いて、異なるタイプのニューラルネットワーク層を探索し、修正されたアーキテクチャが推定においてより良い性能を発揮することを観察する。 残差モデルと変圧器モデルでは, 目的の正則化を必要とせず, 治療効果を非常に密接に推定している(shi et al., 2019)。

The scarcity of high-dimensional causal inference datasets restricts the exploration of complex deep models. In this work, we propose a method to generate a synthetic causal dataset that is high-dimensional. The synthetic data simulates a causal effect using the MNIST dataset with Bernoulli treatment values. This provides an opportunity to study varieties of models for causal effect estimation. We experiment on this dataset using Dragonnet architecture (Shi et al. (2019)) and modified architectures. We use the modified architectures to explore different types of initial Neural Network layers and observe that the modified architectures perform better in estimations. We observe that residual and transformer models estimate treatment effect very closely without the need for targeted regularization, introduced by Shi et al. (2019).
翻訳日:2023-03-03 16:55:06 公開日:2023-03-01
# 深層学習型顔検出装置の性能向上のためのモデル焦点の改善

Improving Model's Focus Improves Performance of Deep Learning-Based Synthetic Face Detectors ( http://arxiv.org/abs/2303.00818v1 )

ライセンス: Link先を確認
Jacob Piland, Adam Czajka, and Christopher Sweet(参考訳) ディープラーニングベースのモデルは、人間の知覚をトレーニング戦略に組み込むことで、"見る場所"を導かれた後、未知のデータサンプルにより良い一般化を行います。 我々は,人間の知覚知を伴わないモデルトレーニングで計算されたサルテンスエントロピーと比較して,モデルサルテンスのエントロピーが低くなることを観察した。 したがって、モデルのクラスのアクティベーションマップのエントロピーを下げることで、モデルのフォーカスをさらに増やすことは、パフォーマンスの向上に役立つのだろうか? 本稿では,モデルの焦点を制御するエントロピーに基づく新たな損失関数コンポーネントを提案し,その「攻撃的」最小化まで,その制御レベルの全範囲をカバーする。 本稿では, 合成顔検出の問題を用いて, エントロピーの低下によるモデル焦点の向上が, 未知の生成モデルによりテストサンプルを合成するオープンセットシナリオにおいて, より優れた結果をもたらすことを示す。 また,モデルの損失関数が3つの側面(正規分類,モデルの焦点の低エントロピー,ヒューマンガイド付き塩分)を混合した場合,最適性能が得られることを示した。

Deep learning-based models generalize better to unknown data samples after being guided "where to look" by incorporating human perception into training strategies. We made an observation that the entropy of the model's salience trained in that way is lower when compared to salience entropy computed for models training without human perceptual intelligence. Thus the question: does further increase of model's focus, by lowering the entropy of model's class activation map, help in further increasing the performance? In this paper we propose and evaluate several entropy-based new loss function components controlling the model's focus, covering the full range of the level of such control, from none to its "aggressive" minimization. We show, using a problem of synthetic face detection, that improving the model's focus, through lowering entropy, leads to models that perform better in an open-set scenario, in which the test samples are synthesized by unknown generative models. We also show that optimal performance is obtained when the model's loss function blends three aspects: regular classification, low-entropy of the model's focus, and human-guided saliency.
翻訳日:2023-03-03 16:54:51 公開日:2023-03-01
# ソフトプロンプト指導型共同学習によるクロスドメイン感性分析

Soft Prompt Guided Joint Learning for Cross-Domain Sentiment Analysis ( http://arxiv.org/abs/2303.00815v1 )

ライセンス: Link先を確認
Jingli Shi, Weihua Li, Quan Bai, Yi Yang, Jianhua Jiang(参考訳) 製品やサービスのレビューから顧客の意見対象を検出することを目的とした,微粒な感情分析の基本的な課題である。 従来の教師付きモデルは注釈付きデータセットで有望な結果が得られるが、ドメイン間アスペクト項抽出のタスクに適用された場合、性能は劇的に低下する。 既存のドメイン間移動学習手法は言語モデルに直接言語的特徴を注入し、言語的知識を対象のドメインに伝達することが困難になるか、あるいは固定された事前定義されたプロンプトに依存するかのいずれかである。 本論文では,これらの制約を解決するために,クロスドメインアスペクト項抽出のためのソフトプロンプトベースの共同学習手法を提案する。 具体的には、外部言語的特徴を取り入れることで、複数の目的を通じてソースとターゲットドメイン間のドメイン不変表現を学習し、アスペクト項の分布の異なるドメイン間のギャップを橋渡しする。 さらに,提案手法は,複数の学習可能なベクトルからなる移動可能なソフトプロンプトの集合を補間し,対象領域のアスペクト項を検出するのに有用である。 ベンチマークデータセットを用いて大規模な実験を行い,提案手法の有効性を実証した。

Aspect term extraction is a fundamental task in fine-grained sentiment analysis, which aims at detecting customer's opinion targets from reviews on product or service. The traditional supervised models can achieve promising results with annotated datasets, however, the performance dramatically decreases when they are applied to the task of cross-domain aspect term extraction. Existing cross-domain transfer learning methods either directly inject linguistic features into Language models, making it difficult to transfer linguistic knowledge to target domain, or rely on the fixed predefined prompts, which is time-consuming to construct the prompts over all potential aspect term spans. To resolve the limitations, we propose a soft prompt-based joint learning method for cross domain aspect term extraction in this paper. Specifically, by incorporating external linguistic features, the proposed method learn domain-invariant representations between source and target domains via multiple objectives, which bridges the gap between domains with varied distributions of aspect terms. Further, the proposed method interpolates a set of transferable soft prompts consisted of multiple learnable vectors that are beneficial to detect aspect terms in target domain. Extensive experiments are conducted on the benchmark datasets and the experimental results demonstrate the effectiveness of the proposed method for cross-domain aspect terms extraction.
翻訳日:2023-03-03 16:54:31 公開日:2023-03-01
# アナログ量子シミュレーション:科学的理解のための新しい道具

Analogue Quantum Simulation: A New Instrument for Scientific Understanding ( http://arxiv.org/abs/2303.00814v1 )

ライセンス: Link先を確認
Dominik Hangleiter, Jacques Carolan, Karim P. Y. Th\'ebault(参考訳) アナログ量子シミュレーションでは、実験的にアクセス可能な量子系を制御して正確に測定し、他の量子系の特性について学ぶ。 このように、アナログ量子シミュレーションは、計算シミュレーションと従来の実験の間に立つ科学的推論の新しいツールである。 本書では、アナログ量子シミュレーションの認識論を包括的に評価する。 特に、アナログ量子シミュレーションが生み出すことのできる理解のタイプについて考察する。 我々は、アナログ量子計算とアナログ量子エミュレーションの区別を描き、この区別は、実験者がエピステミック目標を達成するために実行しなければならない検証のタイプに重要な実践的な結果をもたらすと論じる。 我々の分析は、アナログ量子シミュレーションの現代の科学的実践に根ざし、低温原子、量子フォトニクス、分散光メディアプラットフォームに関する詳細なケーススタディに基づいている。 私たちのゴールは、科学者や哲学者にも、このエキサイティングな新しい科学実践領域の基盤を理解するための新しい枠組みを提供することです。

In an analogue quantum simulation, an experimentally accessible quantum system is controlled and measured precisely in order to learn about the properties of another quantum system. As such, analogue quantum simulation is a novel tool of scientific inference standing between computation simulation and conventional experiment. In this book we undertake a comprehensive appraisal of the epistemology of analogue quantum simulation. In particular, we consider the types of understanding that analogue quantum simulation can yield. We draw a distinction between analogue quantum computations and analogue quantum emulations and argue that this distinction has important practical consequences on the types of validation an experimenter needs to perform in order to meet their epistemic goal. Our analysis is rooted in the contemporary scientific practice of analogue quantum simulation and draws upon detailed case studies of cold atoms, quantum photonics, and dispersive optical media platforms. Our goal is to provide a new framework for scientists and philosophers alike to understand the epistemic foundations of this exciting new area of scientific practice.
翻訳日:2023-03-03 16:54:07 公開日:2023-03-01
# udapdr: rerankers の llm プロンプトと蒸留による非教師なしドメイン適応

UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers ( http://arxiv.org/abs/2303.00807v1 )

ライセンス: Link先を確認
Jon Saad-Falcon, Omar Khattab, Keshav Santhanam, Radu Florian, Martin Franz, Salim Roukos, Avirup Sil, Md Arafat Sultan, Christopher Potts(参考訳) 多くの情報検索タスクは、微調整のために大きなラベル付きデータセットを必要とする。 しかし、そのようなデータセットは、しばしば利用不能であり、実際のアプリケーション用のユーティリティは、ドメインシフトによって急速に減少する可能性がある。 この課題に対処するために,大規模言語モデル(LLM)を用いて大量の合成クエリを安価に生成する手法を開発し,動機づける。 この方法は、高価なLLMを使用して少数の合成クエリを生成することから始まる。 その後、非常に安価なものが大量の合成クエリの作成に使われ、リランクモデルのファミリーを微調整するのに使用される。 これらのリランカーは、ターゲットドメインで使用する単一の効率的なレトリバーに蒸留される。 本手法は,2Kの合成クエリのみを微調整に用いる場合であっても,長テール領域でのゼロショット精度を向上し,従来のリグレード手法よりも大幅に低レイテンシを実現することを示す。 合成データセットやレプリケーションコードを含むエンドツーエンドのアプローチをGithubで公開しています。

Many information retrieval tasks require large labeled datasets for fine-tuning. However, such datasets are often unavailable, and their utility for real-world applications can diminish quickly due to domain shifts. To address this challenge, we develop and motivate a method for using large language models (LLMs) to generate large numbers of synthetic queries cheaply. The method begins by generating a small number of synthetic queries using an expensive LLM. After that, a much less expensive one is used to create large numbers of synthetic queries, which are used to fine-tune a family of reranker models. These rerankers are then distilled into a single efficient retriever for use in the target domain. We show that this technique boosts zero-shot accuracy in long-tail domains, even where only 2K synthetic queries are used for fine-tuning, and that it achieves substantially lower latency than standard reranking methods. We make our end-to-end approach, including our synthetic datasets and replication code, publicly available on Github.
翻訳日:2023-03-03 16:53:51 公開日:2023-03-01
# 自動音声認識のための合成クロスアクセントデータ拡張

Synthetic Cross-accent Data Augmentation for Automatic Speech Recognition ( http://arxiv.org/abs/2303.00802v1 )

ライセンス: Link先を確認
Philipp Klumpp, Pooja Chitkara, Leda Sar{\i}, Prashant Serai, Jilong Wu, Irina-Elena Veliche, Rongqing Huang, Qing He(参考訳) バイアス付きASRデータセットやモデルに対する認識は近年顕著に増加している。 英語でさえ、大量のトレーニングデータがあるにもかかわらず、システムは非ネイティブの話者にとってより良く機能する。 本研究では,母国語音声をアクセント化発音に変換するアクセント変換モデル(ACM)を改良する。 我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。 さらに,静的組込みではなく学習アクセント表現の実現可能性について検討した。 生成されたデータは2つの最先端asrシステムのトレーニングに使用された。 我々は、英語の母国語および非母国語データセットに対するアプローチを評価し、合成アクセントデータによってasrがアクセントから音声をよりよく理解するのに役立つことを見出した。 この観察は見当たらないアクセントには変換されず、母国語のみに事前学習されたモデルでは観測されなかった。

The awareness for biased ASR datasets or models has increased notably in recent years. Even for English, despite a vast amount of available training data, systems perform worse for non-native speakers. In this work, we improve an accent-conversion model (ACM) which transforms native US-English speech into accented pronunciation. We include phonetic knowledge in the ACM training to provide accurate feedback about how well certain pronunciation patterns were recovered in the synthesized waveform. Furthermore, we investigate the feasibility of learned accent representations instead of static embeddings. Generated data was then used to train two state-of-the-art ASR systems. We evaluated our approach on native and non-native English datasets and found that synthetically accented data helped the ASR to better understand speech from seen accents. This observation did not translate to unseen accents, and it was not observed for a model that had been pre-trained exclusively with native speech.
翻訳日:2023-03-03 16:53:35 公開日:2023-03-01
# 連続時間機能拡散プロセス

Continuous-Time Functional Diffusion Processes ( http://arxiv.org/abs/2303.00800v1 )

ライセンス: Link先を確認
Giulio Franzese, Simone Rossi, Dario Rossi, Markus Heinonen, Maurizio Filippone, Pietro Michiardi(参考訳) 従来のスコアベース拡散モデルを無限次元関数空間に一般化する関数拡散過程(FDP)を導入する。 fdpは、前方と後方のダイナミクスを記述するための新しい数学的枠組みと、実践的なトレーニング目標を導出するためのいくつかの拡張を必要とする。 これらには、ELBOを計算できるようなジルサノフの定理の無限次元バージョンや、点の可算集合における関数的評価が無限次元関数に等しいことを保証するためのサンプリング定理が含まれる。 我々は、fdpsを使って関数空間における新しい種類の生成モデルを構築し、特殊なネットワークアーキテクチャを必要としず、あらゆる種類の連続データを扱うことができる。 合成データと実データを用いた結果から,拡散モデルの設計要求を簡略化するFDPの利点が示された。

We introduce functional diffusion processes (FDPs), which generalize traditional score-based diffusion models to infinite-dimensional function spaces. FDPs require a new mathematical framework to describe the forward and backward dynamics, and several extensions to derive practical training objectives. These include infinite-dimensional versions of the Girsanov theorem, in order to be able to compute an ELBO, and of the sampling theorem, in order to guarantee that functional evaluations in a countable set of points are equivalent to infinite-dimensional functions. We use FDPs to build a new breed of generative models in function spaces, which do not require specialized network architectures, and that can work with any kind of continuous data. Our results on synthetic and real data illustrate the advantages of FDPs in simplifying the design requirements of diffusion models.
翻訳日:2023-03-03 16:53:21 公開日:2023-03-01
# サイバーセキュリティにおけるアクティブラーニングの実践: 改ざんメールにおける異常検出

Implementing Active Learning in Cybersecurity: Detecting Anomalies in Redacted Emails ( http://arxiv.org/abs/2303.00870v1 )

ライセンス: Link先を確認
Mu-Huan (Miles) Chung, Lu Wang, Sharon (Siyuan) Li, Yuhong (Alisha) Yang, Calvin Giang, Khilan Jerath, Abhay Raman, David Lie, Mark Chignell(参考訳) 電子メール異常検出の研究は、通常、業界設定で発生するデータの種類を適切に反映しない特殊なデータセットに依存している。 当社の研究では、大手金融サービス会社において、プライバシーに関する懸念が、電子メールや添付ファイルの詳細(主題の見出しと添付ファイル名があったが)のボディの検査を妨げました。 これにより、改ざんされたメールのラベリングがより困難になった。 もうひとつの難題は、大量の電子メールと、機械学習(ML)を必須とするリソースの不足が組み合わさって、MLモデルのより効率的な人的トレーニングの必要性も生み出していることだ。 MLモデルの人間のトレーニングをより効率的にする手段として、アクティブラーニング(AL)が提案されている。 しかし、アクティブラーニング手法の実装は、潜在的な人間アナリストの不確実性による人間中心のai課題であり、ラベル付け作業は、ラベル付けの誤りが極めて悪影響をもたらすサイバーセキュリティドメイン(あるいは医療、航空など)のような領域においてさらに複雑になる可能性がある。 本稿では,この文脈で能動学習を実践するための異なる手法の有用性を比較し,メールの異常検出に能動学習を適用した研究結果について述べる。 異なるal戦略とそのモデル性能への影響を評価した。 また、専門家がレーベルに持つ信頼度の評価がalにどのように影響するかについても検討する。 その結果,al方法論とモデル支援メール異常スクリーニングにおける専門家の役割について考察した。

Research on email anomaly detection has typically relied on specially prepared datasets that may not adequately reflect the type of data that occurs in industry settings. In our research, at a major financial services company, privacy concerns prevented inspection of the bodies of emails and attachment details (although subject headings and attachment filenames were available). This made labeling possible anomalies in the resulting redacted emails more difficult. Another source of difficulty is the high volume of emails combined with the scarcity of resources making machine learning (ML) a necessity, but also creating a need for more efficient human training of ML models. Active learning (AL) has been proposed as a way to make human training of ML models more efficient. However, the implementation of Active Learning methods is a human-centered AI challenge due to potential human analyst uncertainty, and the labeling task can be further complicated in domains such as the cybersecurity domain (or healthcare, aviation, etc.) where mistakes in labeling can have highly adverse consequences. In this paper we present research results concerning the application of Active Learning to anomaly detection in redacted emails, comparing the utility of different methods for implementing active learning in this context. We evaluate different AL strategies and their impact on resulting model performance. We also examine how ratings of confidence that experts have in their labels can inform AL. The results obtained are discussed in terms of their implications for AL methodology and for the role of experts in model-assisted email anomaly screening.
翻訳日:2023-03-03 16:48:00 公開日:2023-03-01
# 出版物の複製性を推定するハイブリッド予測市場の試作

A prototype hybrid prediction market for estimating replicability of published work ( http://arxiv.org/abs/2303.00866v1 )

ライセンス: Link先を確認
Tatiana Chakravorti, Robert Fraleigh, Timothy Fritton, Michael McLaughlin, Vaibhav Singh, Christopher Griffin, Anthony Kwasnica, David Pennock, C. Lee Giles, Sarah Rajtmajer(参考訳) 我々は,ハイブリッド予測市場のプロトタイプを紹介し,それが有意義な人間とAIのコラボレーションの道筋を示す。 人工予測市場を新しい機械学習アルゴリズムとして提案する先行作業に基づいて構築する。 人工予測市場では、訓練されたaiエージェントが将来のイベントの結果を売買する。 分類決定は、将来の出来事の結果とみなすことができ、したがって、所定の分類結果に対応する資産の価格を、その決定におけるシステムの信頼性の代案とすることができる。 ボットトレーダと一緒に、これらの市場に人間の参加者を組み込むことで、両方の洞察をまとめることができる。 本稿では,複製学習の結果を予測するために,プロトタイプハイブリッド市場を用いたパイロット研究について述べる。 課題と機会に注目し,ハイブリッド市場参加者との半構造化インタビューから得た洞察を共有し,現在および将来的な作業のビジョンを概説する。

We present a prototype hybrid prediction market and demonstrate the avenue it represents for meaningful human-AI collaboration. We build on prior work proposing artificial prediction markets as a novel machine-learning algorithm. In an artificial prediction market, trained AI agents buy and sell outcomes of future events. Classification decisions can be framed as outcomes of future events, and accordingly, the price of an asset corresponding to a given classification outcome can be taken as a proxy for the confidence of the system in that decision. By embedding human participants in these markets alongside bot traders, we can bring together insights from both. In this paper, we detail pilot studies with prototype hybrid markets for the prediction of replication study outcomes. We highlight challenges and opportunities, share insights from semi-structured interviews with hybrid market participants, and outline a vision for ongoing and future work.
翻訳日:2023-03-03 16:47:24 公開日:2023-03-01
# AMIGO:ギガピクセル画像の表現学習のための共有コンテキスト処理付きスパースマルチモードグラフ変換器

AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context Processing for Representation Learning of Giga-pixel Images ( http://arxiv.org/abs/2303.00865v1 )

ライセンス: Link先を確認
Ramin Nakhli, Puria Azadi Moghadam, Haoyang Mi, Hossein Farahani, Alexander Baras, Blake Gilks, Ali Bashashati(参考訳) ギガピクセル全体のslide histopathology images (wsi)の処理は計算コストのかかる作業である。 複数インスタンス学習(MIL)は、WSIを処理するための従来のアプローチとなり、これらのイメージは、さらなる処理のためにより小さなパッチに分割される。 しかし、MILベースの手法はパッチ内の個々の細胞についての明示的な情報を無視する。 本稿では,共有コンテキスト処理の新しい概念を定義することにより,組織内のセルナーグラフを用いて,組織階層構造を生かしながら患者に対して単一の表現を提供するマルチモーダルグラフトランスフォーマ(amigo)を考案し,細胞レベルと組織レベルの情報のダイナミックなフォーカスを可能にした。 我々はサバイバル予測における複数の最先端手法に対するモデルの性能をベンチマークし,階層的ビジョントランスフォーマー (vit) を含む全手法を有意に上回ることを示した。 さらに重要なことは、我々のモデルは欠落した情報に対して強い堅牢性を示し、20%の低いデータで同じパフォーマンスを達成できることを示しています。 最後に、2つの異なるがんデータセットにおいて、我々のモデルが患者を低リスク群と高リスク群に分類できることを示した。 また,188例の組織マイクロアレイ(TMA)コアと生存情報を含む免疫組織化学画像(InUIT)の大規模なデータセットも公開し,この文脈で最大の公開データセットの1つである。

Processing giga-pixel whole slide histopathology images (WSI) is a computationally expensive task. Multiple instance learning (MIL) has become the conventional approach to process WSIs, in which these images are split into smaller patches for further processing. However, MIL-based techniques ignore explicit information about the individual cells within a patch. In this paper, by defining the novel concept of shared-context processing, we designed a multi-modal Graph Transformer (AMIGO) that uses the celluar graph within the tissue to provide a single representation for a patient while taking advantage of the hierarchical structure of the tissue, enabling a dynamic focus between cell-level and tissue-level information. We benchmarked the performance of our model against multiple state-of-the-art methods in survival prediction and showed that ours can significantly outperform all of them including hierarchical Vision Transformer (ViT). More importantly, we show that our model is strongly robust to missing information to an extent that it can achieve the same performance with as low as 20% of the data. Finally, in two different cancer datasets, we demonstrated that our model was able to stratify the patients into low-risk and high-risk groups while other state-of-the-art methods failed to achieve this goal. We also publish a large dataset of immunohistochemistry images (InUIT) containing 1,600 tissue microarray (TMA) cores from 188 patients along with their survival information, making it one of the largest publicly available datasets in this context.
翻訳日:2023-03-03 16:47:01 公開日:2023-03-01
# FuNVol: 機能的主成分とニューラルSDEを用いたマルチアセットインプリッド変動市場シミュレータ

FuNVol: A Multi-Asset Implied Volatility Market Simulator using Functional Principal Components and Neural SDEs ( http://arxiv.org/abs/2303.00859v1 )

ライセンス: Link先を確認
Vedant Choudhary, Sebastian Jaimungal, Maxime Bergeron(参考訳) 本稿では,歴史的価格に忠実な複数の資産にまたがるボラティリティ(iv)表面の系列を生成する新しい手法を提案する。 機能的データ解析と神経確率微分方程式(SDE)の組み合わせと確率積分変換ペナルティを組み合わせることで、モデルの誤特定を減らすことができる。 iv曲面と価格のジョイントダイナミクスを学ぶことで、歴史的な特徴と一致し、静的な仲裁のない表面のサブマニフォールド内に存在する市場シナリオが生まれることを実証する。

This paper introduces a new approach for generating sequences of implied volatility (IV) surfaces across multiple assets that is faithful to historical prices. We do so using a combination of functional data analysis and neural stochastic differential equations (SDEs) combined with a probability integral transform penalty to reduce model misspecification. We demonstrate that learning the joint dynamics of IV surfaces and prices produces market scenarios that are consistent with historical features and lie within the sub-manifold of surfaces that are free of static arbitrage.
翻訳日:2023-03-03 16:46:23 公開日:2023-03-01
# 単一量子および複数量子絡み合った状態のブロードキャスト:認証、暗号、分散量子計算

Broadcasting single-qubit and multi-qubit-entangled states: authentication, cryptography, and distributed quantum computation ( http://arxiv.org/abs/2303.00856v1 )

ライセンス: Link先を確認
Hiroki Sukeno, Tzu-Chieh Wei, Mark Hillery, Janos A. Bergou, Dov Fields, Vladimir S. Malinovsky(参考訳) 測定を補助する量子絡み合いは、ネットワーク内の関係者に情報を伝えるための様々な経路を提供する。 本研究は,従来の放送プロトコルを一般化し,送信側が遠隔で位相ゲートを付加したり,状態の分散を中止したりできるような,製品とマルチパーティの絡み合った量子状態の放送方式を提案する。 まず、ネットワークにおける製品量子状態のブロードキャストに着目し、基本プロトコルを任意の基底回転を含むように一般化し、複数の受信機と送信機を許容する。 ネットワークからの送信者の追加と削除の方法を示します。 一般化はまた、放送状態に適用する位相が事前に分かっていないが、別の量子状態で符号化された送信者に提供される場合も含む。 ブロードキャスト製品状態の応用には、認証と3状態量子暗号が含まれる。 第2部では,マルチキュービット位相ゲートに絡み合った複数の受信機間で共有される単一マルチキュービット状態の分布について検討する。 送信側と協調することで、受信側がポーリx基底計測のみを用いて遠隔分散計測ベースの量子計算を行うことができることを示す。 これの別の応用として、マルチキュービットグリーンバーガー・ホーネ・ザイリンガー状態の分布について論じる。

Quantum entanglement assisted with measurements provides various pathways to communicate information to parties within a network. In this work, we generalize a previous broadcasting protocol and present schemes to broadcast product and multi-partite entangled quantum states, where in the latter case the sender can remotely add phase gates or abort distributing the states. We first focus on the broadcasting of product quantum states in a network, and generalize the basic protocol to include an arbitrary basis rotation and allow for multiple receivers and senders. We show how to add and delete senders from the network. The generalization also includes the case where a phase to be applied to the broadcast states is not known in advance but is provided to a sender encoded in another quantum state. Applications of broadcasting product states include authentication and three-state quantum cryptography. In the second part, we study the distribution of a single multi-qubit state shared among several receivers entangled with multi-qubit phase gates, which includes the graph states as an example. We show that by coordinating with the sender, the receivers can assist in performing remote, distributed measurement-based quantum computation with the Pauli X basis measurement alone. As another application of this, we discuss the distribution of the multi-qubit Greenberger-Horne-Zeilinger state.
翻訳日:2023-03-03 16:46:11 公開日:2023-03-01
# グラウンドドデコード:ロボット制御のためのグラウンドドモデルによるテキスト生成の誘導

Grounded Decoding: Guiding Text Generation with Grounded Models for Robot Control ( http://arxiv.org/abs/2303.00855v1 )

ライセンス: Link先を確認
Wenlong Huang, Fei Xia, Dhruv Shah, Danny Driess, Andy Zeng, Yao Lu, Pete Florence, Igor Mordatch, Sergey Levine, Karol Hausman, Brian Ichter(参考訳) 大規模言語モデル(llms)の最近の進歩は、自己回帰モデルによる事前学習を通じて、インターネット規模の知識を学習し、活用する能力を示している。 残念ながら、ロボットのようなエンボディエージェントを用いた設定にそのようなモデルを適用することは、物理的世界の経験の欠如、非言語的な観察を解析できないこと、ロボットが要求する報酬や安全制約の無知により困難である。 一方で、対話データから学習する言語条件付ロボットポリシーは、エージェントが現実世界に正しく配置できるために必要な基盤を提供することができるが、そのようなポリシーは、トレーニングに利用可能な対話データの幅が限られているため、高度な意味理解の欠如によって制限される。 したがって、言語モデルにおける意味的知識を具体化しながら利用したい場合は、言語モデルに従って、また、環境の接地モデルに従って実現可能なアクションシーケンスを構築しなければならない。 我々はこれを確率的フィルタリングに類似した問題として、言語モデルの下で高い確率を持つシーケンスをデコードし、基底モデル対象のセットで高い確率を示す。 このガイド付き復号化戦略は,両モデルの知識を活用することで,ロボット環境での複雑で長期にわたる実施課題を解くことができることを示す。 プロジェクトのウェブサイトは grounded-decoding.github.io にある。

Recent progress in large language models (LLMs) has demonstrated the ability to learn and leverage Internet-scale knowledge through pre-training with autoregressive models. Unfortunately, applying such models to settings with embodied agents, such as robots, is challenging due to their lack of experience with the physical world, inability to parse non-language observations, and ignorance of rewards or safety constraints that robots may require. On the other hand, language-conditioned robotic policies that learn from interaction data can provide the necessary grounding that allows the agent to be correctly situated in the real world, but such policies are limited by the lack of high-level semantic understanding due to the limited breadth of the interaction data available for training them. Thus, if we want to make use of the semantic knowledge in a language model while still situating it in an embodied setting, we must construct an action sequence that is both likely according to the language model and also realizable according to grounded models of the environment. We frame this as a problem similar to probabilistic filtering: decode a sequence that both has high probability under the language model and high probability under a set of grounded model objectives. We demonstrate this guided decoding strategy is able to solve complex, long-horizon embodiment tasks in a robotic setting by leveraging the knowledge of both models. The project's website can be found at grounded-decoding.github.io.
翻訳日:2023-03-03 16:45:50 公開日:2023-03-01
# パーアキシャルx線超蛍光の確率的モデリング

Stochastic modeling of paraxial x-ray superfluorescence ( http://arxiv.org/abs/2303.00853v1 )

ライセンス: Link先を確認
Andrei Benediktovitch and Stasis Chuchurka and Aliaksei Halavanau and \v{S}pela Kru\v{s}i\v{c} and Nina Rohringer(参考訳) 強x線自由電子レーザーポンプパルスによる集団蛍光放出現象であるx線増幅自発発光(ase)と超蛍光(sf)のダイナミクスをモデル化するアプローチを確率的偏微分方程式に基づいて開発した。 方程式は第一原理から導かれ、近似、導出ステップ、および刺激されたX線放射に特有の拡張が行われる。 結果として得られる方程式は、場の変数と原子変数の両方のノイズ項で拡張された3次元の-準軸近似の-マクスウェル・ブロッホ方程式である。 導出雑音項は、自然放射の正確な再構成を可能にする特定の相関特性を有する。 結果として、発達したフォーマリズムは、自然発光、ASE、超蛍光といった、刺激されたX線放射の全てのステージの記述に一様である。 本手法は,確率微分方程式の正のP-表現に基づくランウェイトラジェクトリの問題を回避している。 放射された場の複数の特性(例えば時空間コヒーレンス)を示す数値例を示す。 我々は、X線放射分光データを解釈し、X線レーザーオシレータ(XLO)をモデル化し、X線超蛍光現象を用いた他の実験を記述するための固体基底を形成することを期待する。

An approach to modeling the dynamics of x-ray amplified spontaneous emission (ASE) and superfluorescence (SF) -- collective x-ray fluorescence emission phenomenon initiated by intense X-ray Free Electron Laser pump pulse -- is developed based on Stochastic Partial Differential Equations. The equations are derived from the first principles, the approximations, derivation steps, and extensions specific to stimulated x-ray emission are performed. The resulting equations have a form of three-dimensional -- in paraxial approximation -- Maxwell-Bloch equations augmented with the noise terms for both field and atomic variables. The derived noise terms possess specific correlation properties that enable correct reconstruction of spontaneous emission. As a result, the developed formalism is uniformly suitable for the description of all stages of the stimulated x-ray emission: spontaneous emission, ASE, and superfluorescence. Our numerical scheme circumvents the problem of run-away trajectories which is typical for stochastic differential equations based on positive P-representations. Numerical examples illustrating multiple properties of the emitted field -- e.g., spatio-temporal coherence -- are presented. We expect that the developed formalism will form a solid base for interpreting stimulated x-ray emission spectroscopy data, modeling the X-ray Laser Oscillator (XLO), and describing other experiments that employ x-ray superfluorescence phenomena.
翻訳日:2023-03-03 16:45:27 公開日:2023-03-01
# ELBOの重み付き積分としての拡散対象の理解

Understanding the Diffusion Objective as a Weighted Integral of ELBOs ( http://arxiv.org/abs/2303.00848v1 )

ライセンス: Link先を確認
Diederik P. Kingma and Ruiqi Gao(参考訳) 文献中の拡散モデルは、重み付け関数がノイズレベルあたりの重みを規定する重み付け損失の特別な場合である様々な目的に最適化されている。 一様重み付けは、最大確率の原理近似であるエルボの最大化に対応する。 現在の拡散モデルは、サンプル品質の面でのより良い結果のために、非一様重み付けで最適化されている。 本研究では,重み付き損失(重み付き損失)とELBO目標との直接的な関係を明らかにする。 重み付き損失はELBOの重み付き積分として記述できることを示す。 重み付け関数が単調ならば、重み付き損失は確率に基づく目標であり、単純なデータ拡張、すなわちガウス雑音の摂動の下でエルボを最大化する。 我々の主な貢献は拡散目的の深い理論的理解であると同時に、モノトニックと非モノトニックの重み付けを比較する実験も行っており、モノトニックの重み付けは最も優れた結果と競合することが判明した。

Diffusion models in the literature are optimized with various objectives that are special cases of a weighted loss, where the weighting function specifies the weight per noise level. Uniform weighting corresponds to maximizing the ELBO, a principled approximation of maximum likelihood. In current practice diffusion models are optimized with non-uniform weighting due to better results in terms of sample quality. In this work we expose a direct relationship between the weighted loss (with any weighting) and the ELBO objective. We show that the weighted loss can be written as a weighted integral of ELBOs, with one ELBO per noise level. If the weighting function is monotonic, then the weighted loss is a likelihood-based objective: it maximizes the ELBO under simple data augmentation, namely Gaussian noise perturbation. Our main contribution is a deeper theoretical understanding of the diffusion objective, but we also performed some experiments comparing monotonic with non-monotonic weightings, finding that monotonic weighting performs competitively with the best published results.
翻訳日:2023-03-03 16:45:04 公開日:2023-03-01
# 遅延拡散モデルを用いた大規模シミュレーションの組合わせデータ同化の初期条件の生成

Generating Initial Conditions for Ensemble Data Assimilation of Large-Eddy Simulations with Latent Diffusion Models ( http://arxiv.org/abs/2303.00836v1 )

ライセンス: Link先を確認
Alex Rybchuk, Malik Hassanaly, Nicholas Hamilton, Paula Doubrawa, Mitchell J. Fulton, Luis A. Mart\'inez-Tossas(参考訳) 大気状態の時間履歴を正確に再構築するには、アンサンブルに基づくデータ同化アルゴリズムを適切に初期化する必要がある。 現在、マイクロスケールデータ同化のための大規模シミュレーションコードの初期化には標準的アプローチはない。 ここでは, 合成観測を行い, 潜在拡散モデルを用いて, 妥当な初期条件のアンサンブルを生成する。 3次元乱流を扱うために, 元の2次元潜在拡散モデルコードを修正した。 このアルゴリズムはリアルで多様なサンプルを生成し、大規模なシミュレーションコードに挿入するとうまく実行される。 試料は, シミュレーションの文脈において, 大小中小の空間スケールで物理的に有理な乱流構造を有する。 生成したアンサンブルは観測の近傍に低い広がりを示し、観測からさらに高い変動性を示し、期待された振る舞いと一致した。 アンサンブルは観測の近傍の基底真理に対してゼロに近いバイアスを示すが、ランクヒストグラム分析は、理想的なアンサンブルと比較して、アンサンブルはメンバーからメンバーへの変動が少なすぎることを示唆している。 潜在拡散モデルの成功を考えると、生成されたアンサンブルは、今後の作業でアンサンブルベースのデータ同化アルゴリズムと組み合わせて、大気の時間履歴を再現する能力でテストされる。 拡散モデルは地球科学における他の応用の可能性を示唆している。

In order to accurately reconstruct the time history of the atmospheric state, ensemble-based data assimilation algorithms need to be initialized appropriately. At present, there is no standard approach to initializing large-eddy simulation codes for microscale data assimilation. Here, given synthetic observations, we generate ensembles of plausible initial conditions using a latent diffusion model. We modify the original, two-dimensional latent diffusion model code to work on three-dimensional turbulent fields. The algorithm produces realistic and diverse samples that successfully run when inserted into a large-eddy simulation code. The samples have physically plausible turbulent structures on large and moderate spatial scales in the context of our simulations. The generated ensembles show a lower spread in the vicinity of observations while having higher variability further from the observations, matching expected behavior. Ensembles demonstrate near-zero bias relative to ground truth in the vicinity of observations, but rank histogram analysis suggests that ensembles have too little member-to-member variability when compared to an ideal ensemble. Given the success of the latent diffusion model, the generated ensembles will be tested in their ability to recreate a time history of the atmosphere when coupled to an ensemble-based data assimilation algorithm in upcoming work. We find that diffusion models show promise and potential for other applications within the geosciences.
翻訳日:2023-03-03 16:44:46 公開日:2023-03-01
# 振幅減衰チャネルにおける粒子内量子相関の生成とそのロバスト性

Generation of intraparticle quantum correlations in amplitude damping channel and its robustness ( http://arxiv.org/abs/2303.01238v1 )

ライセンス: Link先を確認
Animesh Sinha Roy, Namitha C.V., Subroto Mukerjee, Prasanta K. Panigrahi, Urbasi Sinha(参考訳) 同じ粒子の2つ以上の異なる自由度の間の量子相関は、しばしば粒子内部の絡み合いと呼ばれる。 本研究では, 各種脱コヒーレンスチャネルにおける2つの自由度間の粒子内相関について検討し, 振幅減衰, 偏極, 位相減衰チャネルについて検討した。 振幅減衰チャネルの特異な特徴を観測し、分離可能な状態からエンタングルメントが生じることを示した。 非エンタングル入力状態の場合、エンタングルメント急死に加えて、エンタングルメントの生成も観察され、長期間にわたって漸近的減衰が見られた。 これらの逆直観的な振る舞いはチャネルパラメータと入力状態パラメータの微妙な相互作用によって生じ、非マルコフ雑音を考慮せずに粒子間絡み合いには見られない。 また、最大絡み合った入力状態に対しては観測されない。 さらに, 相減衰・脱分極チャネルにおける絡み合いの進展の研究は, 粒子間絡み合いと比較して, 脱コヒーレンスに対する堅牢性を示している。

Quantum correlations between two or more different degrees of freedom of the same particle is sometimes referred to as intraparticle entanglement. In this work, we study these intra-particle correlations between two different degrees of freedom under various decoherence channels viz. amplitude damping, depolarising and phase damping channels. We observe a unique feature of the amplitude damping channel, wherein entanglement is shown to arise starting from separable states. In case of non maximally entangled input states, in addition to entanglement sudden death, the creation of entanglement is also observed, having an asymptotic decay over a long time. These counter-intuitive behaviours arise due to the subtle interplay of channel and input state parameters, and are not seen for interparticle entanglement without consideration of non-Markovian noise. It is also not observed for maximally entangled input states. Furthermore, investigation of entanglement evolution in phase damping and depolarizing channels shows its robustness against decoherence as compared to interparticle entanglement.
翻訳日:2023-03-03 14:30:51 公開日:2023-03-01
# パーソナリティ特性認識のためのパーソナライズネットワーク表現の学習

Learning Person-specific Network Representation for Apparent Personality Traits Recognition ( http://arxiv.org/abs/2303.01236v1 )

ライセンス: Link先を確認
Fang Li(参考訳) 近年の研究では、人間の顔行動動態から明らかな性格特性が反映されることが示されている。 しかし、既存の手法のほとんどは、パーソナリティ認識のための潜在特徴において、短期的な顔行動のみを符号化できる。 本稿では,まず対象者の個人別ネットワークを訓練し,対象者の長期的個人別行動進化をモデル化する,明らかなパーソナリティ認識手法の認識を提案する。 その結果,ネットワークの重みは対象者の顔行動に関する手がかりを含むと仮定した。 次に,対象者のパーソナリティ表現として,人物特異的ネットワークの重みをグラフ表現にエンコードし,それを標準グラフニューラルネットワーク(gnns)で処理してパーソナリティ特性を認識できるようにする。 実験の結果,我々の新しいネットワーク重み付け手法は従来の潜在機能ベース手法よりも優れた性能を示し,最先端手法に匹敵する性能を示した。 重要なことに、生成したグラフ表現は、異なるGNNを使用すると堅牢な結果をもたらす。 本稿ではさらに,個人のネットワークの重みと対象者の個性との関係について検証した。

Recent studies show that apparent personality traits can be reflected from human facial behavior dynamics. However, most existing methods can only encode single-scale short-term facial behaviors in the latent features for personality recognition. In this paper, we propose to recognize apparent personality recognition approach which first trains a person-specific network for each subject, modelling multi-scale long-term person-specific behavior evolution of the subject. Consequently, we hypothesize that the weights of the network contain the person-specific facial behavior-related cues of the subject. Then, we propose to encode the weights of the person-specific network to a graph representation, as the personality representation for the subject, allowing them to be processed by standard Graph Neural Networks (GNNs) for personality traits recognition. The experimental results show that our novel network weights-based approach achieved superior performance than most traditional latent feature-based approaches, and has comparable performance to the state-of-the-art method. Importantly, the produced graph representations produce robust results when using different GNNs. This paper further validated that person-specific network's weights are correlated to the subject's personality.
翻訳日:2023-03-03 14:30:09 公開日:2023-03-01
# frauds bargain attack: 単語操作プロセスによる逆テキストサンプルの生成

Frauds Bargain Attack: Generating Adversarial Text Samples via Word Manipulation Process ( http://arxiv.org/abs/2303.01234v1 )

ライセンス: Link先を確認
Mingze Ni, Zhensu Sun and Wei Liu(参考訳) 近年,自然言語処理(NLP)モデルの脆弱性が報告されている。 既存の敵の例を生成する技術は通常、最適な敵の例とは無関係な決定論的ヒューリスティックなルールによって駆動される。 そこで本研究では,新たなランダム化機構を用いて検索空間を拡大し,高い確率で高品質な敵例を生成可能にする不正行為のバーゲン攻撃(fba)を提案する。 FBAは、Markov Chain Monte CarloサンプルラーのメンバーであるMetropolis-Hastingサンプルラーを適用し、私たちがWord Manipulation Process (WMP)と呼ぶカスタマイズされた確率過程によって提案される全ての候補からの敵例の選択を強化する。 WMPは、文脈に応じた方法で挿入、除去、置換を通じて、一度に1つの単語を摂動させる。 大規模な実験により、FBAは攻撃成功率と非受容性の両方の観点から最先端の手法よりも優れていることが示された。

Recent studies on adversarial examples expose vulnerabilities of natural language processing (NLP) models. Existing techniques for generating adversarial examples are typically driven by deterministic heuristic rules that are agnostic to the optimal adversarial examples, a strategy that often results in attack failures. To this end, this research proposes Fraud's Bargain Attack (FBA) which utilizes a novel randomization mechanism to enlarge the search space and enables high-quality adversarial examples to be generated with high probabilities. FBA applies the Metropolis-Hasting sampler, a member of Markov Chain Monte Carlo samplers, to enhance the selection of adversarial examples from all candidates proposed by a customized stochastic process that we call the Word Manipulation Process (WMP). WMP perturbs one word at a time via insertion, removal or substitution in a contextual-aware manner. Extensive experiments demonstrate that FBA outperforms the state-of-the-art methods in terms of both attack success rate and imperceptibility.
翻訳日:2023-03-03 14:29:50 公開日:2023-03-01
# ドメイン一般化におけるドメイン認識三重項損失

Domain-aware Triplet loss in Domain Generalization ( http://arxiv.org/abs/2303.01233v1 )

ライセンス: Link先を確認
Kaiyu Guo, Brian Lovell(参考訳) 深層学習の進歩とともに物体認識の分野で多くの進歩があったが、深層学習モデルの性能に悪影響を及ぼす要因はいくつかある。 ドメインシフトはこれらの要因の1つであり、テストとトレーニングデータの分布の相違によって引き起こされる。 本稿では,マルチドメインデータからの埋め込み空間を最適化するために,領域一般化におけるコンパクトな特徴クラスタリングの問題に着目する。 ドメイン一般化のためのドメイン認識三重項損失を設計し、モデルが類似したセマンティックな特徴をクラスタリングするだけでなく、ドメインから生じる特徴を分散するのを助ける。 分散アライメントに着目した従来の手法とは異なり,本アルゴリズムは領域情報を埋め込み空間に分散するように設計されている。 この基本的な考え方は、埋め込み機能は数学的および経験的にサポートされているドメイン情報に基づいてクラスタ化できるという仮定に基づいている。 さらに、ドメイン一般化における特徴クラスタリングの探求中に、ドメイン一般化におけるメトリック学習損失の収束に影響する要因が、事前定義されたドメインよりも重要であることに留意する。 そこで本研究では,埋め込み空間の正規化に2つの手法を応用し,埋め込み特徴の内部共変量シフトを低減した。 アブレーション研究はアルゴリズムの有効性を示す。 さらに,PACS,VLCS,Office-Homeなどのベンチマークデータセットを用いた実験により,本手法がドメインの差に着目した関連手法よりも優れていることが示された。 特に、RegnetY-16の結果は、ベンチマークデータセットの最先端メソッドよりもはるかに優れている。 私たちのコードはhttps://github.com/workerbcd/DCTでリリースされます。

Despite much progress being made in the field of object recognition with the advances of deep learning, there are still several factors negatively affecting the performance of deep learning models. Domain shift is one of these factors and is caused by discrepancies in the distributions of the testing and training data. In this paper, we focus on the problem of compact feature clustering in domain generalization to help optimize the embedding space from multi-domain data. We design a domainaware triplet loss for domain generalization to help the model to not only cluster similar semantic features, but also to disperse features arising from the domain. Unlike previous methods focusing on distribution alignment, our algorithm is designed to disperse domain information in the embedding space. The basic idea is motivated based on the assumption that embedding features can be clustered based on domain information, which is mathematically and empirically supported in this paper. In addition, during our exploration of feature clustering in domain generalization, we note that factors affecting the convergence of metric learning loss in domain generalization are more important than the pre-defined domains. To solve this issue, we utilize two methods to normalize the embedding space, reducing the internal covariate shift of the embedding features. The ablation study demonstrates the effectiveness of our algorithm. Moreover, the experiments on the benchmark datasets, including PACS, VLCS and Office-Home, show that our method outperforms related methods focusing on domain discrepancy. In particular, our results on RegnetY-16 are significantly better than state-of-the-art methods on the benchmark datasets. Our code will be released at https://github.com/workerbcd/DCT
翻訳日:2023-03-03 14:29:32 公開日:2023-03-01
# 合成データとは何か? The Good, The Bad, and the Ugly

What Is Synthetic Data? The Good, The Bad, and The Ugly ( http://arxiv.org/abs/2303.01230v1 )

ライセンス: Link先を確認
Emiliano De Cristofaro(参考訳) データの共有は、しばしば魅力的なアプリケーションや分析を可能にする。 しかし、多くの場合、貴重なデータセットにはセンシティブな性質の情報が含まれており、共有することはユーザーや組織のプライバシーを危険にさらす可能性がある。 研究コミュニティで勢いを増す可能性のある選択肢は、代わりに合成データを共有することだ。 そのアイデアは、実際のデータに似た人工的に生成されたデータセットをリリースすることです。 ではどうやって合成データを生成するのか? それは何に役立ちますか。 メリットとリスクは何か? 未回答のオープンリサーチの質問は何でしょうか。 本稿では,合成データに関する穏やかな紹介と,そのユースケース,未対応のプライバシ課題,効果的なプライバシ向上技術として固有の制限について論じる。

Sharing data can often enable compelling applications and analytics. However, more often than not, valuable datasets contain information of sensitive nature, and thus sharing them can endanger the privacy of users and organizations. A possible alternative gaining momentum in the research community is to share synthetic data instead. The idea is to release artificially generated datasets that resemble the actual data -- more precisely, having similar statistical properties. So how do you generate synthetic data? What is that useful for? What are the benefits and the risks? What are the open research questions that remain unanswered? In this article, we provide a gentle introduction to synthetic data and discuss its use cases, the privacy challenges that are still unaddressed, and its inherent limitations as an effective privacy-enhancing technology.
翻訳日:2023-03-03 14:29:08 公開日:2023-03-01
# Almanac:臨床医学における知識言語モデル

Almanac: Knowledge-Grounded Language Models for Clinical Medicine ( http://arxiv.org/abs/2303.01229v1 )

ライセンス: Link先を確認
Cyril Zakka, Akash Chaurasia, Rohan Shad, William Hiesinger(参考訳) 大規模言語モデルは最近、要約、対話生成、質問応答など、さまざまな自然言語タスクにおいて印象的なゼロショット能力を示している。 臨床医学における多くの有望な応用(例えば、医療記録文書、治療ガイドライン-ルックアップ)にもかかわらず、現実の環境でのこれらのモデルの採用は、事実的に不正確で、時には有毒なステートメントを生み出す傾向によって大きく制限されている。 本稿では,医師の質問に応えて,これらのモデルを外部のポイント・オブ・ケアツールにアクセスできるようにすることで,さまざまな臨床シナリオにおいて,事実的根拠,有用性,安全性が著しく向上したことを実証する。

Large-language models have recently demonstrated impressive zero-shot capabilities in a variety of natural language tasks such as summarization, dialogue generation, and question-answering. Despite many promising applications in clinical medicine (e.g. medical record documentation, treatment guideline-lookup), adoption of these models in real-world settings has been largely limited by their tendency to generate factually incorrect and sometimes even toxic statements. In this paper we explore the ability of large-language models to facilitate and streamline medical guidelines and recommendation referencing: by enabling these model to access external point-of-care tools in response to physician queries, we demonstrate significantly improved factual grounding, helpfulness, and safety in a variety of clinical scenarios.
翻訳日:2023-03-03 14:28:56 公開日:2023-03-01
# ドメイン適応型大規模言語モデルによる核医学レポートの分類

Domain-adapted large language models for classifying nuclear medicine reports ( http://arxiv.org/abs/2303.01258v1 )

ライセンス: Link先を確認
Zachary Huemann, Changhee Lee, Junjie Hu, Steve Y. Cho, Tyler Bradshaw(参考訳) 医療におけるトランスフォーマーベースの言語モデルの利用の増加に伴い、これらのモデルがドメイン固有の語彙とユニークな報告スタイルを持つ核医学にどの程度一般化されているかは明らかでない。 本研究では,臨床18F-フルオロデオキシグルコース(FDG)PET/CT報告に基づく5点Dauvilleスコア予測のための言語モデルを用いて,核医学におけるドメイン適応の価値を評価した。 臨床画像データベースにおいて,fdg pet/ctリンパ腫検査4542例と1664例について,2008~2018年を振り返って検討した。 deauvilleのスコアはレポートから削除され、残りのテキストがモデル入力として使用された。 複数の汎用トランスフォーマー言語モデルを用いてレポートをDauvilleスコア1-5に分類した。 その後,マスキング言語モデルを用いて核医学領域に適用し,分類性能への影響を評価した。 言語モデルは、視覚モデル、マルチモーダル視覚言語モデル、および7倍のモンテカルロクロス検証を持つ核医学医に対して比較され、平均偏差と標準偏差が報告された。 ドメイン適応は全ての言語モデルを改善した。 例えば、BERTは5クラスの精度を61.3%から65.7%に改善した。 最高のパフォーマンスモデル(ドメイン適応型RoBERTa)の精度は77.4%で、医師のパフォーマンス(66%)、最高のビジョンモデルのパフォーマンス(48.1)、マルチモーダルモデルのパフォーマンス(77.2)に似ていた。 ドメイン適応は、核医学テキストレポートの解釈における大規模言語モデルの性能を改善した。

With the growing use of transformer-based language models in medicine, it is unclear how well these models generalize to nuclear medicine which has domain-specific vocabulary and unique reporting styles. In this study, we evaluated the value of domain adaptation in nuclear medicine by adapting language models for the purpose of 5-point Deauville score prediction based on clinical 18F-fluorodeoxyglucose (FDG) PET/CT reports. We retrospectively retrieved 4542 text reports and 1664 images for FDG PET/CT lymphoma exams from 2008-2018 in our clinical imaging database. Deauville scores were removed from the reports and then the remaining text in the reports was used as the model input. Multiple general-purpose transformer language models were used to classify the reports into Deauville scores 1-5. We then adapted the models to the nuclear medicine domain using masked language modeling and assessed its impact on classification performance. The language models were compared against vision models, a multimodal vision language model, and a nuclear medicine physician with seven-fold Monte Carlo cross validation, reported are the mean and standard deviations. Domain adaption improved all language models. For example, BERT improved from 61.3% five-class accuracy to 65.7% following domain adaptation. The best performing model (domain-adapted RoBERTa) achieved a five-class accuracy of 77.4%, which was better than the physician's performance (66%), the best vision model's performance (48.1), and was similar to the multimodal model's performance (77.2). Domain adaptation improved the performance of large language models in interpreting nuclear medicine text reports.
翻訳日:2023-03-03 14:22:01 公開日:2023-03-01
# 機械学習の観点からのエングラムの実装:予測のマッチング

Implementing engrams from a machine learning perspective: matching for prediction ( http://arxiv.org/abs/2303.01253v1 )

ライセンス: Link先を確認
Jesus Marco de Lucas(参考訳) 脳における記憶支援構造としてのエングラムの存在の証拠はあるものの、その物理的実装がどのようなものであるかについての神経科学のコンセンサスフレームワークは存在しない。 本稿では,ニューロサイエンスの課題に導かれる機械学習技術を用いて新しいアイデアを探求することを目的として,ニューラルネットワークを用いたエングラムを実装するコンピュータシステムを設計する方法について提案する。 オートエンコーダを基盤として,情報格納と検索のためのインデックスとして,潜在性ニューラルスペースを提案する。 オートエンコーダは、再構成された情報と受信した元の情報を比較するように設計されており、魅力的な進化論証である予測能力を提供する。 次に、異なる種類の感覚入力に対応する潜在神経空間の異なる状態が同期活性化によってどのようにリンクされるかを検討し、概念ニューロンを用いたメモリの疎実装の基礎となる。 最後に、神経科学とデータサイエンスを結びつけ、両方の分野に影響を及ぼす可能性のある課題と疑問をリストアップし、多くの科学者が既に提案しているように、より学際的なアプローチが必要であると結論付けます。

Despite evidence for the existence of engrams as memory support structures in our brains, there is no consensus framework in neuroscience as to what their physical implementation might be. Here we propose how we might design a computer system to implement engrams using neural networks, with the main aim of exploring new ideas using machine learning techniques, guided by challenges in neuroscience. Building on autoencoders, we propose latent neural spaces as indexes for storing and retrieving information in a compressed format. We consider this technique as a first step towards predictive learning: autoencoders are designed to compare reconstructed information with the original information received, providing a kind of predictive ability, which is an attractive evolutionary argument. We then consider how different states in latent neural spaces corresponding to different types of sensory input could be linked by synchronous activation, providing the basis for a sparse implementation of memory using concept neurons. Finally, we list some of the challenges and questions that link neuroscience and data science and that could have implications for both fields, and conclude that a more interdisciplinary approach is needed, as many scientists have already suggested.
翻訳日:2023-03-03 14:20:56 公開日:2023-03-01
# ハンズオン実験室による量子通信教育

Teaching quantum communications through a hands-on laboratory ( http://arxiv.org/abs/2303.01251v1 )

ライセンス: Link先を確認
Alberto Sebasti\'an-Lombra\~na, Laura Ortiz, Juan P. Brito, Jaime S\'aez de Buruaga, Rafael J. Vicente, Ruben B. Mendez, Rafael Arti\~nano, Vicente Mart\'in(参考訳) 異なる技術とエンジニアリングのバックグラウンドを巻き込む場合、量子コミュニケーションを教えることは難しい課題です。 これらのプロファイルの知識や、デモンストレーションやエクササイズで利用可能な他の技術リソースを活用するアプローチの使用は、この教育を強化する。 本稿は,2021年の第6回INFIERIサマースクールで行われた「量子コミュニケーション研究所」の事例として紹介する。 この研究室では、マドリード量子通信インフラ(MadQCI)へのアクセスが重要なリソースであった。

Teaching quantum communication is a challenging task when involving different technical and engineering backgrounds. The use of an approach that exploits the knowledge of these profiles, as well as other technological resources available for demonstrations or exercises, enhances this teaching. This paper presents as an example the "Quantum Communications Lab" that took place at the 6th INFIERI Summer School in 2021. In this lab, the access to the Madrid Quantum Communication Infrastructure (MadQCI) was an important resource available.
翻訳日:2023-03-03 14:20:34 公開日:2023-03-01
# ChatGPTは人格を評価できるのか? 総合評価フレームワーク

Can ChatGPT Assess Human Personalities? A General Evaluation Framework ( http://arxiv.org/abs/2303.01248v1 )

ライセンス: Link先を確認
Haocong Rao, Cyril Leung, Chunyan Miao(参考訳) 大規模言語モデル(LLM)、特にChatGPTは、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに解明されていない。 既存の研究は、LLMの仮想的個性を研究するが、LLMを通して人間の個性を分析する可能性を調べることは滅多にない。 本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。 具体的には,MBTI質問のオプションをランダムに変更することで,偏りのないプロンプトを考案し,平均的なテスト結果を採用して,より公平な回答生成を促す。 次に,質問文の主題を置き換え,llmの異なる課題に対する柔軟な質問と評価を可能にすることを提案する。 最後に,LLMがより明確な応答を生成できるように,質問文を精度評価の方法で再フォーマットする。 提案フレームワークにより,LLMは異なるグループの個人性を柔軟に評価することができる。 さらに,ChatGPT や InstructGPT などの最先端 LLM による評価結果の整合性,堅牢性,公平性を評価するための3つの評価指標を提案する。 実験の結果,ChatGPTの人格評価能力は,InstructGPTと比較すると,迅速なバイアスに対するロバスト性は低いものの,より一貫性があり,公平な評価が可能であることが示された。

Large Language Models (LLMs) especially ChatGPT have produced impressive results in various areas, but their potential human-like psychology is still largely unexplored. Existing works study the virtual personalities of LLMs but rarely explore the possibility of analyzing human personalities via LLMs. This paper presents a generic evaluation framework for LLMs to assess human personalities based on Myers Briggs Type Indicator (MBTI) tests. Specifically, we first devise unbiased prompts by randomly permuting options in MBTI questions and adopt the average testing result to encourage more impartial answer generation. Then, we propose to replace the subject in question statements to enable flexible queries and assessments on different subjects from LLMs. Finally, we re-formulate the question instructions in a manner of correctness evaluation to facilitate LLMs to generate clearer responses. The proposed framework enables LLMs to flexibly assess personalities of different groups of people. We further propose three evaluation metrics to measure the consistency, robustness, and fairness of assessment results from state-of-the-art LLMs including ChatGPT and InstructGPT. Our experiments reveal ChatGPT's ability to assess human personalities, and the average results demonstrate that it can achieve more consistent and fairer assessments in spite of lower robustness against prompt biases compared with InstructGPT.
翻訳日:2023-03-03 14:20:06 公開日:2023-03-01
# Poster: モバイルアプリのスポンジMLモデル攻撃

Poster: Sponge ML Model Attacks of Mobile Apps ( http://arxiv.org/abs/2303.01243v1 )

ライセンス: Link先を確認
Souvik Paul and Nicolas Kourtellis(参考訳) 機械学習(ML)を利用したアプリは、携帯電話、タブレット、スマートウォッチ、IoTデバイスなどの普及したデバイスで使用されている。 フェデレートラーニング(FL)のような協調型分散MLの最近の進歩は、ユーザとデータ所有者のプライバシー上の懸念を解決し、Google、Facebook、AppleといったIT業界のリーダーが使用している。 しかし、flシステムとモデルは相反するメンバシップや属性推論、モデル中毒攻撃に対して脆弱であり、特に最近提案されたfl-as-a-serviceエコシステムでは、攻撃者が複数のmlベースのアプリにアクセスできる。 本稿では,最近提案されたsponge攻撃に着目し,mlモデルの推論(トレーニングではなく)中に消費されるエネルギーを,分類器の性能を損なうことなく吸い上げるように設計する。 最近の研究によると、ASCI対応GPUに対するスポンジ攻撃は、電力消費と推論時間を増大させる可能性がある。 今回,本研究では,モバイル環境におけるこの攻撃を初めて調査し,モバイル端末上のアプリ内で動作するmlモデルへの影響を計測する。

Machine Learning (ML)-powered apps are used in pervasive devices such as phones, tablets, smartwatches and IoT devices. Recent advances in collaborative, distributed ML such as Federated Learning (FL) attempt to solve privacy concerns of users and data owners, and thus used by tech industry leaders such as Google, Facebook and Apple. However, FL systems and models are still vulnerable to adversarial membership and attribute inferences and model poisoning attacks, especially in FL-as-a-Service ecosystems recently proposed, which can enable attackers to access multiple ML-powered apps. In this work, we focus on the recently proposed Sponge attack: It is designed to soak up energy consumed while executing inference (not training) of ML model, without hampering the classifier's performance. Recent work has shown sponge attacks on ASCI-enabled GPUs can potentially escalate the power consumption and inference time. For the first time, in this work, we investigate this attack in the mobile setting and measure the effect it can have on ML models running inside apps on mobile devices.
翻訳日:2023-03-03 14:19:41 公開日:2023-03-01
# ソフトアクタ-クリティックが収束する点

The Point to Which Soft Actor-Critic Converges ( http://arxiv.org/abs/2303.01240v1 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) soft actor-critic は soft q-learning の後継である。 最大エントロピーの枠組みの下で生活したが、それらの関係はいまだに不明である。 本稿では,その極限において,それらが同じ解に収束することを証明する。 これは、最適化を難解なものからより簡単な方法に翻訳するので、魅力的です。 同じ正当化はkl発散のような他の正規化にも適用できる。

Soft actor-critic is a successful successor over soft Q-learning. While lived under maximum entropy framework, their relationship is still unclear. In this paper, we prove that in the limit they converge to the same solution. This is appealing since it translates the optimization from an arduous to an easier way. The same justification can also be applied to other regularizers such as KL divergence.
翻訳日:2023-03-03 14:19:09 公開日:2023-03-01
# プライベート推定におけるサブセットベースインスタンス最適性

Subset-Based Instance Optimality in Private Estimation ( http://arxiv.org/abs/2303.01262v1 )

ライセンス: Link先を確認
Travis Dick, Alex Kulesza, Ziteng Sun, Ananda Theertha Suresh(参考訳) 微分プライベート推定アルゴリズムのインスタンス最適性の新たな定義を提案する。 私たちの定義では、各データセットの$d$と最高のプライベートベンチマークアルゴリズムを同時に競うために最適なアルゴリズムが必要です。 (a)事前にD$を知っており、 (b) は$d$ の大きなサブセットで最悪の場合の性能によって評価される。 つまり、ベンチマークアルゴリズムは、潜在的に極端なポイントが$d$に追加された場合、うまく機能しない。 これによってベンチマークは、以前の作業で提案されていたものよりも大幅に強化されました。 それにもかかわらず、実際の評価されたデータセットに対して、手段、量子化、および$\ell_p$-norm最小化を含む幅広いデータセット特性のクラスを推定する際に、インスタンス最適性の概念を達成するプライベートアルゴリズムを構築する方法を示す。 特に,詳細な解析を行い,分布的仮定の下で既存のアルゴリズムの漸近的性能を同時に満たしているか,あるいは超えていることを示す。

We propose a new definition of instance optimality for differentially private estimation algorithms. Our definition requires an optimal algorithm to compete, simultaneously for every dataset $D$, with the best private benchmark algorithm that (a) knows $D$ in advance and (b) is evaluated by its worst-case performance on large subsets of $D$. That is, the benchmark algorithm need not perform well when potentially extreme points are added to $D$; it only has to handle the removal of a small number of real data points that already exist. This makes our benchmark significantly stronger than those proposed in prior work. We nevertheless show, for real-valued datasets, how to construct private algorithms that achieve our notion of instance optimality when estimating a broad class of dataset properties, including means, quantiles, and $\ell_p$-norm minimizers. For means in particular, we provide a detailed analysis and show that our algorithm simultaneously matches or exceeds the asymptotic performance of existing algorithms under a range of distributional assumptions.
翻訳日:2023-03-03 14:10:23 公開日:2023-03-01
# ParrotTTS:自己教師付き表現を利用した音声合成

ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised representations ( http://arxiv.org/abs/2303.01261v1 )

ライセンス: Link先を確認
Saiteja Kosgi, Neil Kumar Shah, Vishal Tambrahalli, Neha Sherin, Vineet Gandhi(参考訳) テキスト音声合成システム(TTS)は, 音声合成装置としてモデル化され, その後, 統計的TS時代以降, ニューラルデザインへと発展してきた。 本稿では、自己教師付き学習(SSL)手法から借用したParrotTTSと呼ばれるTSモデリングの代替手法を提案する。 ParrotTTSは、2段階のアプローチを採り、まずはラベリングされていないデータに対して音声から音声へのモデルを訓練し、続いてテキストから埋め込みのモデルで、音声を一致した書き起こしで TTS に拡張する。 ParrotTTSは、従来のTSモデルと比較して自然性に関する競争平均スコアを達成しているが、書き起こされたペアのデータ効率と書き起こしのない話者適応よりも大幅に向上している。 これにより、汎用的に訓練されたSSL音声モデル上でTSモデルをトレーニングする道が開ける。

Text-to-speech (TTS) systems are modelled as mel-synthesizers followed by speech-vocoders since the era of statistical TTS that is carried forward into neural designs. We propose an alternative approach to TTS modelling referred to as ParrotTTS borrowing from self-supervised learning (SSL) methods. ParrotTTS takes a two-step approach by initially training a speech-to-speech model on unlabelled data that is abundantly available, followed by a text-to-embedding model that leverages speech with aligned transcriptions to extend it to TTS. ParrotTTS achieves competitive mean opinion scores on naturalness compared to traditional TTS models but significantly improves over the latter's data efficiency of transcribed pairs and speaker adaptation without transcriptions. This further paves the path to training TTS models on generically trained SSL speech models.
翻訳日:2023-03-03 14:10:06 公開日:2023-03-01
# 適応確率勾配アルゴリズムの非漸近解析とその応用

Non asymptotic analysis of Adaptive stochastic gradient algorithms and applications ( http://arxiv.org/abs/2303.01370v1 )

ライセンス: Link先を確認
Antoine Godichon-Baggioni (LPSM (UMR\_8001)), Pierre Tarrago (LPSM (UMR\_8001))(参考訳) 確率最適化において、大きなサンプルを逐次処理する一般的なツールは、よく知られた確率勾配アルゴリズムを考えることである。 それでも、ステップは各方向で同じであるため、条件の悪い問題が発生した場合、これは実行時に悪い結果をもたらす可能性がある。 これを解決するために、Adagrad や Stochastic Newton などの適応勾配アルゴリズムが望ましい。 本稿では,これらの適応勾配アルゴリズムの非漸近的アナリシスについて述べる。 すべての理論的結果は、Adagrad と Stochastic Newton のアルゴリズムの線形回帰および正規化一般化線形モデルに適用される。

In stochastic optimization, a common tool to deal sequentially with large sample is to consider the well-known stochastic gradient algorithm. Nevertheless, since the stepsequence is the same for each direction, this can lead to bad results in practice in case of ill-conditionned problem. To overcome this, adaptive gradient algorithms such that Adagrad or Stochastic Newton algorithms should be prefered. This paper is devoted to the non asymptotic analyis of these adaptive gradient algorithms for strongly convex objective. All the theoretical results will be adapted to linear regression and regularized generalized linear model for both Adagrad and Stochastic Newton algorithms.
翻訳日:2023-03-03 13:33:17 公開日:2023-03-01
# 量子平均ケース距離の探索:証明、性質、例

Exploring Quantum Average-Case Distances: proofs, properties, and examples ( http://arxiv.org/abs/2112.14284v6 )

ライセンス: Link先を確認
Filip B. Maciejewski and Zbigniew Pucha{\l}a and Micha{\l} Oszmaniec(参考訳) 本研究では,最近導入された平均ケース量子距離の詳細な研究を行う。 平均ケース距離は、2つの量子プロセスの測定出力(状態、測定、チャネル)がランダム回路に絡み合う量子オブジェクトの間の平均全変量(tv)距離を近似する。 トレース距離やダイヤモンドノルムのような従来の距離とは対照的に、ランダム回路を介して$\textit{average-case}$統計微分可能性を定量化する。 ランダム回路の族が$\delta$-approximate 4$-designで$\delta=o(d^{-8})$となると、平均ケース距離は興味のある対象の次数 2 の多項式で表現できる単純な明示関数によって近似できる。 量子平均ケース距離(quantum average-case distances)と呼ばれるこれらの関数は、部分付加性、関節凸性、(制限された)データ処理の不等式など、望ましい性質の多元性を持つことを証明する。 特に、すべての距離は、それまで持っていなかった操作解釈を提供するヒルベルト=シュミットノルムを利用する。 また,最悪のケース距離と平均ケース距離の最大比率の上限も導出する。 各次元 $d$ に対して、この比は、状態、測定値、チャネルに対して、最大 $d^{\frac{1}{2}},\ d, \ d^{\frac{3}{2}}$ である。 本研究の実用性を支援するために,平均ケース量子距離を解析的に計算できる複数の例について検討した。

In this work, we perform an in-depth study of recently introduced average-case quantum distances. The average-case distances approximate the average Total-Variation (TV) distance between measurement outputs of two quantum processes, in which quantum objects of interest (states, measurements, or channels) are intertwined with random circuits. Contrary to conventional distances, such as trace distance or diamond norm, they quantify $\textit{average-case}$ statistical distinguishability via random circuits. We prove that once a family of random circuits forms an $\delta$-approximate $4$-design, with $\delta=o(d^{-8})$, then the average-case distances can be approximated by simple explicit functions that can be expressed via degree two polynomials in objects of interest. We prove that those functions, which we call quantum average-case distances, have a plethora of desirable properties, such as subadditivity, joint convexity, and (restricted) data-processing inequalities. Notably, all of the distances utilize the Hilbert-Schmidt norm which provides an operational interpretation it did not possess before. We also derive upper bounds on the maximal ratio between worst-case and average-case distances. For each dimension $d$ this ratio is at most $d^{\frac{1}{2}},\ d, \ d^{\frac{3}{2}}$ for states, measurements, and channels, respectively. To support the practical usefulness of our findings, we study multiple examples in which average-case quantum distances can be calculated analytically.
翻訳日:2023-03-03 01:25:38 公開日:2023-03-01
# グラフニューラルネットワークを用いたリンク予測のための非対称学習

Asymmetric Learning for Graph Neural Network based Link Prediction ( http://arxiv.org/abs/2303.00170v1 )

ライセンス: Link先を確認
Kai-Lang Yao and Wu-Jun Li(参考訳) リンク予測は、タンパク質とタンパク質の相互作用予測のような多くのグラフベースのアプリケーションにおいて根本的な問題である。 グラフニューラルネットワーク(GNN)はリンク予測に広く利用されている。 しかし、既存のGNNベースのリンク予測(GNN-LP)手法は、大規模グラフのトレーニング中にスケーラビリティの問題に悩まされており、研究者からはほとんど注目されていない。 本稿では, 従来のGNN-LP手法の計算複雑性解析を行い, その拡張性は, 頭部ノードと尾ノードの両方の表現を学習するために, 同じクラスのGNNモデルを採用した対称学習戦略に由来することを示した。 そこで我々は,GNN-LPのための非対称学習法(AML)を提案する。 AMLの主な考え方は、尾ノード表現の学習に多層パーセプトロン(MLP)モデルを使用しながら、ヘッドノード表現の学習にGNNモデルを採用することである。 さらに、AMLは、学習の高速化のために非対称学習戦略を機能させるために必要となる、訓練用のミニバッチを生成する行ワイズサンプリング戦略を提案する。 我々の知る限り、AMLはノード表現学習のための非対称学習戦略を採用した最初のGNN-LP手法である。 3つの実際の大規模データセットの実験では、AMLは対称学習戦略を持つベースラインよりもトレーニングにおいて1.7X~7.3倍高速であり、精度の損失はほとんどない。

Link prediction is a fundamental problem in many graph based applications, such as protein-protein interaction prediction. Graph neural network (GNN) has recently been widely used for link prediction. However, existing GNN based link prediction (GNN-LP) methods suffer from scalability problem during training for large-scale graphs, which has received little attention by researchers. In this paper, we first give computation complexity analysis of existing GNN-LP methods, which reveals that the scalability problem stems from their symmetric learning strategy adopting the same class of GNN models to learn representation for both head and tail nodes. Then we propose a novel method, called asymmetric learning (AML), for GNN-LP. The main idea of AML is to adopt a GNN model for learning head node representation while using a multi-layer perceptron (MLP) model for learning tail node representation. Furthermore, AML proposes a row-wise sampling strategy to generate mini-batch for training, which is a necessary component to make the asymmetric learning strategy work for training speedup. To the best of our knowledge, AML is the first GNN-LP method adopting an asymmetric learning strategy for node representation learning. Experiments on three real large-scale datasets show that AML is 1.7X~7.3X faster in training than baselines with a symmetric learning strategy, while having almost no accuracy loss.
翻訳日:2023-03-02 16:30:00 公開日:2023-03-01
# Sketch2Cloth: 符号なし距離場を用いたSketchベースの3次元ガーメント生成

Sketch2Cloth: Sketch-based 3D Garment Generation with Unsigned Distance Fields ( http://arxiv.org/abs/2303.00167v1 )

ライセンス: Link先を確認
Yi He, Haoran Xie and Kazunori Miyata(参考訳) 単一画像からの3次元モデル再構成は,最近の深層生成モデルで大きな進歩を遂げている。 しかし,従来のテンプレートメッシュの変形や暗黙のフィールドによる再構成手法では,衣服などの非水密な3Dメッシュモデルの再構築が困難である。 画像ベースのモデリングとは対照的に、スケッチベースのアプローチは、手描きのスケッチからデザイン意図を満たす3Dモデルを作成するのに役立つ。 本研究では,スケッチ入力からの符号なし距離場を用いたスケッチベース3D衣料生成システムであるSketch2Clothを提案する。 Sketch2Clothはまず、スケッチ入力からターゲット3Dモデルの符号なし距離関数を推定し、マーチングキューブを用いて推定フィールドからメッシュを抽出する。 生成されたメッシュを修正するためのモデル編集機能も提供します。 提案したSketch2Clothを,最先端アプローチによる衣服生成と編集の定量的評価により検証した。

3D model reconstruction from a single image has achieved great progress with the recent deep generative models. However, the conventional reconstruction approaches with template mesh deformation and implicit fields have difficulty in reconstructing non-watertight 3D mesh models, such as garments. In contrast to image-based modeling, the sketch-based approach can help users generate 3D models to meet the design intentions from hand-drawn sketches. In this study, we propose Sketch2Cloth, a sketch-based 3D garment generation system using the unsigned distance fields from the user's sketch input. Sketch2Cloth first estimates the unsigned distance function of the target 3D model from the sketch input, and extracts the mesh from the estimated field with Marching Cubes. We also provide the model editing function to modify the generated mesh. We verified the proposed Sketch2Cloth with quantitative evaluations on garment generation and editing with a state-of-the-art approach.
翻訳日:2023-03-02 16:29:36 公開日:2023-03-01
# 拡散確率場

Diffusion Probabilistic Fields ( http://arxiv.org/abs/2303.00165v1 )

ライセンス: Link先を確認
Peiye Zhuang, Samira Abnar, Jiatao Gu, Alex Schwing, Joshua M. Susskind, Miguel \'Angel Bautista(参考訳) 拡散確率モデルは、画像、三次元幾何学、ビデオ、その他の領域の生成モデルの主要なアプローチとなっている。 しかし、これらのドメインに拡散生成モデルを適用するには、ユークリッドグリッドにデータが存在するという前提の下で、各ドメインに対して個別にデノベーションネットワークを慎重に設計する必要がある。 本稿では,距離空間上の連続関数上の分布を学習できる拡散確率場(dpf)について述べる。 拡散確率モデルの定式化を拡張して、この場パラメトリゼーションを明示的に扱うことにより、従来の手法と同様に潜在ベクトルを持つ場を表現する必要を回避できるエンドツーエンド学習アルゴリズムを定義できる(dupont et al., 2022a; du et al., 2021)。 実験により,DPFは2次元画像や3次元幾何学など,非ユークリッド距離空間上で定義されたフィールド上の分布のモデル化に加えて,様々なモードを効果的に扱うことを示した。

Diffusion probabilistic models have quickly become a major approach for generative modeling of images, 3D geometry, video and other domains. However, to adapt diffusion generative modeling to these domains the denoising network needs to be carefully designed for each domain independently, oftentimes under the assumption that data lives in a Euclidean grid. In this paper we introduce Diffusion Probabilistic Fields (DPF), a diffusion model that can learn distributions over continuous functions defined over metric spaces, commonly known as fields. We extend the formulation of diffusion probabilistic models to deal with this field parametrization in an explicit way, enabling us to define an end-to-end learning algorithm that side-steps the requirement of representing fields with latent vectors as in previous approaches (Dupont et al., 2022a; Du et al., 2021). We empirically show that, while using the same denoising network, DPF effectively deals with different modalities like 2D images and 3D geometry, in addition to modeling distributions over fields defined on non-Euclidean metric spaces.
翻訳日:2023-03-02 16:29:21 公開日:2023-03-01
# 分離可能な量子プロセスにおける固有および測定情報

Intrinsic and Measured Information in Separable Quantum Processes ( http://arxiv.org/abs/2303.00162v1 )

ライセンス: Link先を確認
David Gier and James P. Crutchfield(参考訳) 定常量子情報源は相関量子の列、すなわち構造化量子確率過程を出力する。 観測者がクディット列上で同じ測定を行う場合、結果が古典的な確率過程の実現である。 分離可能なqudit系列に対して量子情報理論的な性質を導入し,それに続く測定過程の古典的情報特性の境界として機能する。 隠れマルコフ力学によって駆動されるソースに対しては、特定の正の演算子評価測度や適応測定プロトコルを用いて、オブザーバがソースの内部状態に一時的にあるいは永久に同期する方法について述べる。 トモグラフィ再構成により,独立かつ同一分布のマルコフ,あるいはより大きなメモリモデルを用いて情報ソースを近似する手法を提案する。 分離可能なプロセスの幅広いクラスを、その量子情報特性と、それらを同期して正確に再構築するために必要な測定の複雑さに基づいて同定する。

Stationary quantum information sources emit sequences of correlated qudits -- that is, structured quantum stochastic processes. If an observer performs identical measurements on a qudit sequence, the outcomes are a realization of a classical stochastic process. We introduce quantum-information-theoretic properties for separable qudit sequences that serve as bounds on the classical information properties of subsequent measured processes. For sources driven by hidden Markov dynamics we describe how an observer can temporarily or permanently synchronize to the source's internal state using specific positive operator-valued measures or adaptive measurement protocols. We introduce a method for approximating an information source with an independent and identically-distributed, Markov, or larger memory model through tomographic reconstruction. We identify broad classes of separable processes based on their quantum information properties and the complexity of measurements required to synchronize to and accurately reconstruct them.
翻訳日:2023-03-02 16:29:00 公開日:2023-03-01
# 半教師付きパラメトリック実世界画像調和化

Semi-supervised Parametric Real-world Image Harmonization ( http://arxiv.org/abs/2303.00157v1 )

ライセンス: Link先を確認
Ke Wang, Micha\"el Gharbi, He Zhang, Zhihao Xia and Eli Shechtman(参考訳) 学習に基づく画像調和技術は、通常、1枚の地上真理写真において仮面前景に適用される合成ランダム大域変換を解き放つために訓練される。 このシミュレーションデータは、実際のコンポジットにおける前景と背景の間の重要な外観ミスマッチ(照明、オブジェクト境界など)の多くをモデル化せず、うまく一般化せず、複雑な局所的な変更をモデル化できないモデルへと繋がる。 我々は,この問題に対処するための新しい半教師付きトレーニング戦略を提案し,前景と背景が異なる画像から生じる非ペア型実複合物からの複雑な局所的外観調和を学習する。 私たちのモデルは完全なパラメトリックです。 グローバルな色とトーンを補正するためにRGB曲線を使用し、局所的なバリエーションをモデル化するためにシェーディングマップを使用する。 本手法は,確立されたベンチマークと実合成の先行研究よりも優れており,高分解能画像をインタラクティブに処理する。

Learning-based image harmonization techniques are usually trained to undo synthetic random global transformations applied to a masked foreground in a single ground truth photo. This simulated data does not model many of the important appearance mismatches (illumination, object boundaries, etc.) between foreground and background in real composites, leading to models that do not generalize well and cannot model complex local changes. We propose a new semi-supervised training strategy that addresses this problem and lets us learn complex local appearance harmonization from unpaired real composites, where foreground and background come from different images. Our model is fully parametric. It uses RGB curves to correct the global colors and tone and a shading map to model local variations. Our method outperforms previous work on established benchmarks and real composites, as shown in a user study, and processes high-resolution images interactively.
翻訳日:2023-03-02 16:28:45 公開日:2023-03-01
# 画像からの編み糸の神経逆手続きモデリング

Neural inverse procedural modeling of knitting yarns from images ( http://arxiv.org/abs/2303.00154v1 )

ライセンス: Link先を確認
Elena Trunz, Jonathan Klein, Jan M\"uller, Lukas Bode, Ralf Sarlette, Michael Weinmann, Reinhard Klein(参考訳) そこで本研究では,神経逆プロシーデュラルモデルを用いて,繊維レベルの詳細情報を有する高品質プロシーデュラル糸モデルを推定する能力について検討した。 単一ニューラルネットワークに基づく糸モデルのパラメータを直接推測することは直感的な選択に思えるかもしれないが, 繊維のねじれ特性やマイグレーション特性の点で, 糸構造の複雑さは, 個々の特性に焦点を絞ったネットワークのアンサンブルにおいて, よりよく見受けられることを示す。 提案手法では,推定パラメータの接地真理アノテーションへの偏差を算定するパラメータ損失や,トレーニング画像と比較して推定パラメータに対して生成した画像の類似統計を強制する再構成損失,および合成画像の潜時符号とエンコーダの潜時空間における実画像の平均潜時符号との偏差を明示する追加の正規化項を含む,異なる損失関数の効果を解析する。 提案手法は, パラメトリック・プロシージャ糸モデルと各ネットワークアンサンブル, 損失関数の組み合わせによって, 合成データのみを訓練した場合に, 頑健なパラメータ推論が可能であることを実証する。 提案手法は,パラメータアノテーションを持つ糸データベースの利用可能性に依存しており,それぞれが利用可能なデータセットを意識していないため,我々の知る限り,各糸パラメータに関するアノテーションを持つ糸画像の最初のデータセットを提供する。 この目的のために,従来の方法よりも結果のリアリズムを改善する新しい糸発生器を用いる。

We investigate the capabilities of neural inverse procedural modeling to infer high-quality procedural yarn models with fiber-level details from single images of depicted yarn samples. While directly inferring all parameters of the underlying yarn model based on a single neural network may seem an intuitive choice, we show that the complexity of yarn structures in terms of twisting and migration characteristics of the involved fibers can be better encountered in terms of ensembles of networks that focus on individual characteristics. We analyze the effect of different loss functions including a parameter loss to penalize the deviation of inferred parameters to ground truth annotations, a reconstruction loss to enforce similar statistics of the image generated for the estimated parameters in comparison to training images as well as an additional regularization term to explicitly penalize deviations between latent codes of synthetic images and the average latent code of real images in the latent space of the encoder. We demonstrate that the combination of a carefully designed parametric, procedural yarn model with respective network ensembles as well as loss functions even allows robust parameter inference when solely trained on synthetic data. Since our approach relies on the availability of a yarn database with parameter annotations and we are not aware of such a respectively available dataset, we additionally provide, to the best of our knowledge, the first dataset of yarn images with annotations regarding the respective yarn parameters. For this purpose, we use a novel yarn generator that improves the realism of the produced results over previous approaches.
翻訳日:2023-03-02 16:28:28 公開日:2023-03-01
# コヒーレント励起輸送下におけるスピンリング用エネルギーランドスケープコントローラのロバスト性

Robustness of Energy Landscape Controllers for Spin Rings under Coherent Excitation Transport ( http://arxiv.org/abs/2303.00142v1 )

ライセンス: Link先を確認
Sean O'Neil, Frank Langbein, Edmond Jonckheere, and S Shermer(参考訳) 量子スピンリングにおける励起輸送を調節するコントローラの設計と解析は、古典的なフィードバック制御技術を用いて効果的な制御を合成し、古典的な制御理論の期待に反する結果をもたらす。 本稿では,システムおよび制御パラメータの不確実性に対する励振伝達の忠実性を最適化する制御器のロバスト性について検討する。 我々は,追跡誤差の感度を古典的制御アナログとして,ロバスト性尺度として忠実性誤差の対数感度を用いる。 本稿では,コヒーレントトランスポートに最適化された量子系が,正確な時間Tでの読み出しに最適化されているか,あるいはTのタイムウインドウで最適化されているかによって,誤差とログ感度の相関が著しく異なることを示した。

The design and analysis of controllers to regulate excitation transport in quantum spin rings presents challenges in the application of classical feedback control techniques to synthesize effective control, and generates results in contradiction to the expectations of classical control theory. In this paper, we examine the robustness of controllers designed to optimize the fidelity of an excitation transfer to uncertainty in system and control parameters. We use the logarithmic sensitivity of the fidelity error as the measure of robustness, drawing on the classical control analog of the sensitivity of the tracking error. In our analysis we demonstrate that quantum systems optimized for coherent transport demonstrate significantly different correlation between error and the log-sensitivity depending on whether the controller is optimized for readout at an exact time T or over a time-window about T.
翻訳日:2023-03-02 16:27:59 公開日:2023-03-01
# シーケンシャルな学習を通じて広まること:搾取するか、探究するか?

Containing a spread through sequential learning: to exploit or to explore? ( http://arxiv.org/abs/2303.00141v1 )

ライセンス: Link先を確認
Xingran Chen, Hesam Nikpey, Jungyeol Kim, Saswati Sarkar, Shirin Saeedi-Bidokhti(参考訳) 感染症(例:COVID-19)のような望ましくない接触プロセスの拡散は、感染したノードのテストと隔離を通じて含まれる。 プロセスの時間的・空間的進化(分離による封じ込めを伴う)は、アクティブな探索検出戦略と根本的に異なる。 本研究は、アクティブラーニングアプローチを通じて、所定のテスト予算下での累積感染の拡散と最小化を封じ込め、テストおよび隔離戦略を設計する。 テスト対象のノードを丁寧に選択することで、性能保証とともに目標を最適化できることを実証する。 さらに,累積感染の上限を効果的に最小化し,大規模ネットワークで計算可能な報酬ベースの手法も設計する。 しかしながら、これらのポリシーは、動的に変化し、シーケンシャルなテストによって学ぶ必要があるノードの感染確率に関する知識を必要とする。 我々は、この目的のためにメッセージパスフレームワークを開発し、それに基づいて、報酬に基づくヒューリスティックスによる知識の搾取と、慎重に設計された確率的テストによる未知の探索との新たなトレードオフを示す。 トレードオフは、アクティブ検索やマルチアームバンディット問題(MAB)の下での古典的なものと根本的に異なる。 本研究では,スタイリッシュネットワークにおける探索の必要性を実証し,ネットワークのパラメータや拡散度によって,様々な合成・実データネットワークの活用方法よりも探索が優れていることを示す。

The spread of an undesirable contact process, such as an infectious disease (e.g. COVID-19), is contained through testing and isolation of infected nodes. The temporal and spatial evolution of the process (along with containment through isolation) render such detection as fundamentally different from active search detection strategies. In this work, through an active learning approach, we design testing and isolation strategies to contain the spread and minimize the cumulative infections under a given test budget. We prove that the objective can be optimized, with performance guarantees, by greedily selecting the nodes to test. We further design reward-based methodologies that effectively minimize an upper bound on the cumulative infections and are computationally more tractable in large networks. These policies, however, need knowledge about the nodes' infection probabilities which are dynamically changing and have to be learned by sequential testing. We develop a message-passing framework for this purpose and, building on that, show novel tradeoffs between exploitation of knowledge through reward-based heuristics and exploration of the unknown through a carefully designed probabilistic testing. The tradeoffs are fundamentally distinct from the classical counterparts under active search or multi-armed bandit problems (MABs). We provably show the necessity of exploration in a stylized network and show through simulations that exploration can outperform exploitation in various synthetic and real-data networks depending on the parameters of the network and the spread.
翻訳日:2023-03-02 16:27:41 公開日:2023-03-01
# 物理に基づく機械学習と階層ベイズモデリング技術の統合について

On the Integration of Physics-Based Machine Learning with Hierarchical Bayesian Modeling Techniques ( http://arxiv.org/abs/2303.00187v1 )

ライセンス: Link先を確認
Omid Sedehi, Antonina M. Kosikova, Costas Papadimitriou, Lambros S. Katafygiotis(参考訳) 機械学習(ML)は、物理システムのモデリングと予測に広く用いられている。 これらの技術は、観測されたデータセット内の補間に対して高い表現力と優れた一般化性を提供する。 しかし、ブラックボックスモデルの欠点は、物理的知識が組み込まれていないため、盲目条件下では弱くなることである。 物理ベースのMLは、物理を取り入れつつ、ML技術の数学的柔軟性を維持することでこの問題に対処することを目的としている。 本稿では,ガウス過程(GP)モデルの平均関数にメカニクスに基づくモデルを組み込んで,カーネルマシンによる潜在的な不一致を特徴付けることを提案する。 特定の種類のカーネル関数が推進され、入力とパラメータに関して物理学に基づくモデルの勾配と結びつき、線形力学系の正確な自己共分散関数と類似性を共有する。 核関数のスペクトル特性は、物理的不特定性に由来する支配的な周期過程を考慮できる。 それでも、カーネル関数の定常性は、階層的ベイズ手法によって解決された長いデータセットのシーケンシャルな処理において難しいハードルである。 この実装は、逐次データを扱う際のGPのスケーラビリティを軽減し、計算コストを軽減するためにも有利である。 数値的および実験的例を用いて, 構造力学逆問題に対する提案手法の可能性を示す。

Machine Learning (ML) has widely been used for modeling and predicting physical systems. These techniques offer high expressive power and good generalizability for interpolation within observed data sets. However, the disadvantage of black-box models is that they underperform under blind conditions since no physical knowledge is incorporated. Physics-based ML aims to address this problem by retaining the mathematical flexibility of ML techniques while incorporating physics. In accord, this paper proposes to embed mechanics-based models into the mean function of a Gaussian Process (GP) model and characterize potential discrepancies through kernel machines. A specific class of kernel function is promoted, which has a connection with the gradient of the physics-based model with respect to the input and parameters and shares similarity with the exact Autocovariance function of linear dynamical systems. The spectral properties of the kernel function enable considering dominant periodic processes originating from physics misspecification. Nevertheless, the stationarity of the kernel function is a difficult hurdle in the sequential processing of long data sets, resolved through hierarchical Bayesian techniques. This implementation is also advantageous to mitigate computational costs, alleviating the scalability of GPs when dealing with sequential data. Using numerical and experimental examples, potential applications of the proposed method to structural dynamics inverse problems are demonstrated.
翻訳日:2023-03-02 16:20:47 公開日:2023-03-01
# クラスタリング技術を用いたスマートコミュニティのためのリアルタイム需要応答フレームワーク

Towards a real-time demand response framework for smart communities using clustering techniques ( http://arxiv.org/abs/2303.00186v1 )

ライセンス: Link先を確認
Sotiris Pelekis, Angelos Pipergias, Evangelos Karakolis, Spiros Mouzakitis, Francesca Santori, Mohammad Ghoreishi, Dimitris Askounis(参考訳) 本研究では,商業用および住宅用需要応答(DR)プログラムの設計と実装におけるクラスタリング手法の利用について検討する。 プログラムの目的は、参加者の消費行動から2つの問題を緩和することである。 a) 一次変電所における逆流であって、局所格子内の太陽電池パネルからの発電が消費を超過した場合に発生するもの b) システムのピーク需要は広く、通常は午後遅くの時間に発生する。 クラスタリングの段階では,k-means,k-medoids,階層的クラスタリングアルゴリズムの3つのアルゴリズムが,ユークリッドと制約付き動的時間ウォーピング(dtw)という2つの異なる距離メトリクスとともに採用されている。 本研究では,本研究の文脈で提案する新しい指標であるピークパフォーマンススコア(pps)を含む様々な検証指標を用いて手法を評価する。 最適なセットアップは、毎日のプロシューマー負荷プロファイルをクラスタに分割し、各クラスタは、負荷形状、平均エントロピー、各負荷タイプからの負荷プロファイルの分布の観点から分析される。 これらの特徴は、DRスキームが各クラスタに適合する可能性が最も高いクラスタを識別するために使用される。 最後に,予測,クラスタリング,価格ベースの需要予測エンジンを組み合わせたdrシステムを概念化し,そのプログラムに参加するプロシューマーに対して,日毎の個別化されたdrレコメンデーションと価格ポリシーを作成する。 本研究の成果は,フレキシブルエネルギーコミュニティ内のプロシューマーグループを対象としたdrプログラムの開発を目的としたネットワークオペレータやユーティリティに有用である。

The present study explores the use of clustering techniques for the design and implementation of a demand response (DR) program for commercial and residential prosumers. The goal of the program is to shift the participants' consumption behavior to mitigate two issues a) the reverse power flow at the primary substation, that occurs when generation from solar panels in the local grid exceeds consumption and b) the system wide peak demand, that typically occurs during hours of the late afternoon. For the clustering stage, three popular algorithms for electrical load clustering are employed -- namely k-means, k-medoids and a hierarchical clustering algorithm -- alongside two different distance metrics -- namely euclidean and constrained Dynamic Time Warping (DTW). We evaluate the methods using different validation metrics including a novel metric -- namely peak performance score (PPS) -- that we propose in the context of this study. The best setup is employed to divide daily prosumer load profiles into clusters and each cluster is analyzed in terms of load shape, mean entropy and distribution of load profiles from each load type. These characteristics are then used to distinguish the clusters that would be most likely to aid with the DR schemes would fit each cluster. Finally, we conceptualize a DR system that combines forecasting, clustering and a price-based demand projection engine to produce daily individualized DR recommendations and pricing policies for prosumers participating in the program. The results of this study can be useful for network operators and utilities that aim to develop targeted DR programs for groups of prosumers within flexible energy communities.
翻訳日:2023-03-02 16:20:26 公開日:2023-03-01
# 画像テキストマッチングにおける勾配消失緩和のための選択的に硬い負のマイニング

Selectively Hard Negative Mining for Alleviating Gradient Vanishing in Image-Text Matching ( http://arxiv.org/abs/2303.00181v1 )

ライセンス: Link先を確認
Zheng Li, Caili Guo, Xin Wang, Zerun Feng, Zhongtian Du(参考訳) 近年,画像テキストマッチング(ITM)手法が注目されている。 しかし,既存のIMMモデルのほとんどは,トレーニング開始時に消失する勾配に悩まされているため,これらのモデルが局所的なミニマに陥りやすい。 ほとんどのIMMモデルは最適化の目的としてハード負鉱業(HN)で三重項損失を採用する。 強い負のサンプルのみを用いてIMMモデルを最適化することは、容易に勾配の消滅につながる。 本稿では,トレーニング中に勾配が消失する条件を導出する。 正の対の類似度と負の対の類似度との差が 0 に近い場合、画像とテキストのエンコーダの勾配は 0 に近づく。 勾配消滅問題を緩和するために,勾配消滅条件に応じて硬陰性試料をマイニングするかを選択するSelHN(Selectively Hard Negative Mining)戦略を提案する。 SelHNは既存のIMMモデルにプラグイン・アンド・プレイすることで、より良いトレーニング動作を提供できる。 勾配のバックプロパゲーションをより確実にするために, RVSE++ と表記される SelHN を用いた残差ビジュアルセマンティック埋め込みモデルを構築した。 2つのIMMベンチマークでの大規模な実験は、RVSE++の強みを示し、最先端のパフォーマンスを達成する。

Recently, a series of Image-Text Matching (ITM) methods achieve impressive performance. However, we observe that most existing ITM models suffer from gradients vanishing at the beginning of training, which makes these models prone to falling into local minima. Most ITM models adopt triplet loss with Hard Negative mining (HN) as the optimization objective. We find that optimizing an ITM model using only the hard negative samples can easily lead to gradient vanishing. In this paper, we derive the condition under which the gradient vanishes during training. When the difference between the positive pair similarity and the negative pair similarity is close to 0, the gradients on both the image and text encoders will approach 0. To alleviate the gradient vanishing problem, we propose a Selectively Hard Negative Mining (SelHN) strategy, which chooses whether to mine hard negative samples according to the gradient vanishing condition. SelHN can be plug-and-play applied to existing ITM models to give them better training behavior. To further ensure the back-propagation of gradients, we construct a Residual Visual Semantic Embedding model with SelHN, denoted as RVSE++. Extensive experiments on two ITM benchmarks demonstrate the strength of RVSE++, achieving state-of-the-art performance.
翻訳日:2023-03-02 16:19:57 公開日:2023-03-01
# FaceRNET: 表情強度推定ネットワーク

FaceRNET: a Facial Expression Intensity Estimation Network ( http://arxiv.org/abs/2303.00180v1 )

ライセンス: Link先を確認
Dimitrios Kollias, Andreas Psaroudakis, Anastasios Arsenos, Paraskeui Theofilou(参考訳) 本稿では,映像からの表情強度推定手法を提案する。 これには2つのコンポーネントが含まれる。 一 ビデオフレームごとに様々な感情記述子(価刺激、行動単位及び基本表現)を抽出する表現抽出ネットワーク 二 データ中の時間情報をキャプチャするRNN、次いで動的ルーティングによる様々な入力ビデオ長の処理を可能にするマスク層。 このアプローチは、優れた結果をもたらすHume-Reactionデータセットでテストされている。

This paper presents our approach for Facial Expression Intensity Estimation from videos. It includes two components: i) a representation extractor network that extracts various emotion descriptors (valence-arousal, action units and basic expressions) from each videoframe; ii) a RNN that captures temporal information in the data, followed by a mask layer which enables handling varying input video lengths through dynamic routing. This approach has been tested on the Hume-Reaction dataset yielding excellent results.
翻訳日:2023-03-02 16:19:37 公開日:2023-03-01
# 非凸モデルと不均一データのための分散SGDの統一モーメントベースパラダイム

A Unified Momentum-based Paradigm of Decentralized SGD for Non-Convex Models and Heterogeneous Data ( http://arxiv.org/abs/2303.00179v1 )

ライセンス: Link先を確認
Haizhou Du and Chengdong Ni(参考訳) 分散アプリケーションの新興により、特にIoTやエッジコンピューティング分野において、分散機械学習の開発が促進された。 現実のシナリオでは、非凸性とデータ不均一性の一般的な問題は非効率性、性能劣化、開発停滞をもたらす。 多くの研究は、上述した問題の1つに集中しており、より一般的なフレームワークが最適であることが証明されている。 そこで本研究では,分散確率勾配降下法(sgd)を用いた運動量法に基づいて,d-sum と gt-dsum という2つのアルゴリズムを組み合わせた統一パラダイムを提案する。 前者は一般の非凸目的に対して収束保証を提供する。 同時に、データの不均一性(すなわち分布ドリフト)を緩和するために、グローバル最適化方向を推定する勾配追跡を導入することで、後者を拡張する。 古典的な重球やネステロフの加速度に基づく運動量に基づく変種のほとんどは、umpの異なるパラメータでカバーできる。 理論的には、これらの2つのアプローチの非凸目的に対する収束解析を厳格に提供し、より広範な実験を行い、実際の他の手法と比較して57.6%の精度でモデル精度が向上したことを示す。

Emerging distributed applications recently boosted the development of decentralized machine learning, especially in IoT and edge computing fields. In real-world scenarios, the common problems of non-convexity and data heterogeneity result in inefficiency, performance degradation, and development stagnation. The bulk of studies concentrates on one of the issues mentioned above without having a more general framework that has been proven optimal. To this end, we propose a unified paradigm called UMP, which comprises two algorithms, D-SUM and GT-DSUM, based on the momentum technique with decentralized stochastic gradient descent(SGD). The former provides a convergence guarantee for general non-convex objectives. At the same time, the latter is extended by introducing gradient tracking, which estimates the global optimization direction to mitigate data heterogeneity(i.e., distribution drift). We can cover most momentum-based variants based on the classical heavy ball or Nesterov's acceleration with different parameters in UMP. In theory, we rigorously provide the convergence analysis of these two approaches for non-convex objectives and conduct extensive experiments, demonstrating a significant improvement in model accuracy by up to 57.6% compared to other methods in practice.
翻訳日:2023-03-02 16:19:29 公開日:2023-03-01
# 線形関数近似を用いたnash q-learningの有限サンプル保証

Finite-sample Guarantees for Nash Q-learning with Linear Function Approximation ( http://arxiv.org/abs/2303.00177v1 )

ライセンス: Link先を確認
Pedro Cisneros-Velarde, Sanmi Koyejo(参考訳) ナッシュQ-ラーニングは、マルチエージェント強化学習(MARL)において、基礎となる汎用マルコフゲームのナッシュ均衡を構成する学習ポリシーにおいて、最もよく知られたアルゴリズムの1つである。 元々の証明は漸近的な保証を提供し、表の場合であった。 近年, 有限サンプル保証は, より現代的なRL技術を用いて実現されている。 我々の研究は、線形関数近似(状態空間が大きくあるいは連続的に導入された表現体系)を用いてナッシュQ学習を分析し、そのサンプル効率を示す有限サンプル保証を提供する。 得られた性能は,同一表現下での単一エージェント rl に対する既存の効率的な結果とほぼ一致し,表式の場合の最もよく知られた結果と比較して多項式ギャップを有することがわかった。

Nash Q-learning may be considered one of the first and most known algorithms in multi-agent reinforcement learning (MARL) for learning policies that constitute a Nash equilibrium of an underlying general-sum Markov game. Its original proof provided asymptotic guarantees and was for the tabular case. Recently, finite-sample guarantees have been provided using more modern RL techniques for the tabular case. Our work analyzes Nash Q-learning using linear function approximation -- a representation regime introduced when the state space is large or continuous -- and provides finite-sample guarantees that indicate its sample efficiency. We find that the obtained performance nearly matches an existing efficient result for single-agent RL under the same representation and has a polynomial gap when compared to the best-known result for the tabular case.
翻訳日:2023-03-02 16:19:08 公開日:2023-03-01
# 医用画像における3次元入力データ解析と意思決定の調和のためのディープニューラルアーキテクチャ

A Deep Neural Architecture for Harmonizing 3-D Input Data Analysis and Decision Making in Medical Imaging ( http://arxiv.org/abs/2303.00175v1 )

ライセンス: Link先を確認
Dimitrios Kollias and Anastasios Arsenos and Stefanos Kollias(参考訳) データ分析、特に3次元画像ボリュームの調和は、ボリューム当たりのスライス数と注釈数が異なるため、医用画像を含む様々な応用において、深層ニューラルネットワークの訓練と使用において重要な問題である。 さらに、異なる入力データセット上でのネットワークの決定を統一することは、リッチなデータ駆動の知識の生成とアプリケーションにおける信頼性の高い使用のために重要である。 本稿では,ルーティングと機能アライメントステップを含む新しいディープニューラルネットワークアーキテクチャracnetを提案する。3次元画像入力の異なる入力長と単一アノテーションを効果的に処理し,高精度な決定を行う。 さらに、トレーニングされたRACNetから潜時変数を抽出することで、ネットワークの決定に関するさらなる洞察を提供するアンカーのセットが生成される。 これらは、異なるデータセットから抽出されたデータ駆動の知識の強化と統一に使用することができる。 さまざまな国や医療センターで生成されたデータベースから3次元の胸部ctスキャンを分析することで、新型コロナウイルスの診断に焦点が当てられた。

Harmonizing the analysis of data, especially of 3-D image volumes, consisting of different number of slices and annotated per volume, is a significant problem in training and using deep neural networks in various applications, including medical imaging. Moreover, unifying the decision making of the networks over different input datasets is crucial for the generation of rich data-driven knowledge and for trusted usage in the applications. This paper presents a new deep neural architecture, named RACNet, which includes routing and feature alignment steps and effectively handles different input lengths and single annotations of the 3-D image inputs, whilst providing highly accurate decisions. In addition, through latent variable extraction from the trained RACNet, a set of anchors are generated providing further insight on the network's decision making. These can be used to enrich and unify data-driven knowledge extracted from different datasets. An extensive experimental study illustrates the above developments, focusing on COVID-19 diagnosis through analysis of 3-D chest CT scans from databases generated in different countries and medical centers.
翻訳日:2023-03-02 16:18:53 公開日:2023-03-01
# 量子自律ブールネットワーク

Quantum autonomous Boolean networks ( http://arxiv.org/abs/2303.00174v1 )

ライセンス: Link先を確認
Ian T. Durham(参考訳) ブールネットワークは1960年代後半に、複雑な乱れた力学系を研究するためのツールとして開発され、ある時点でのネットワークの状態が将来のネットワークの状態を完全に決定する、完全に決定論的であるブール関数によって支配されるノードで構成される。 それらは高い自然順序を示すことで知られており、その後様々なシステムのモデリングの基本的な道具となった。 本稿では、量子自律ブールネットワークのモデルを開発し、古典的モデルと同じ性質の多くを示しながら、振る舞いの豊かな風景の中で一意に量子的性質を示す。

Boolean networks, first developed in the late 1960s as a tool for studying complex disordered dynamical systems, consist of nodes governed by Boolean functions whose evolution is entirely deterministic in that the state of the network at a given time fully determines the state of the network at some future time. They are known for exhibiting a high degree of spontaneous order and have since become a fundamental tool for modeling a wide variety of systems. In this article I develop a model for quantum autonomous Boolean networks that exhibits many of the same properties as the classical model while also demonstrating uniquely quantum properties within a rich landscape of behavior.
翻訳日:2023-03-02 16:18:36 公開日:2023-03-01
# 生き残り中心のトランスフォーメーション・ジャスティス:米国ムスリムコミュニティにおける家庭内暴力利害関係者と一緒にデザインするアプローチ

Survivor-Centered Transformative Justice: An Approach to Designing Alongside Domestic Violence Stakeholders in US Muslim Communities ( http://arxiv.org/abs/2303.00172v1 )

ライセンス: Link先を確認
Hawra Rabaan, Lynn Dombrowski(参考訳) 家庭内暴力(DV)は社会経済のあらゆる場面で一般的であるが、アイデンティティーは自分がどのように経験し、虐待から回復するかに大きな影響を及ぼす。 この研究は、家庭内暴力からの援助と癒しを求める米国のムスリム女性の課題を調べる。 dvエコシステム内の23人の参加者との参加インタビューを通じて、被害者-生存者の自律性は、虐待、直近のコミュニティ、および刑事司法制度を巻き込む際に侵害されていることが判明した。 このような被害に対処するために,我々は,被害者中心のトランスフォーメーション・ジャスティス(sctj)アプローチ,個人的および体系的な被害を識別し,被害者-生存者と共にどのように設計するかを理解し,被害者-生存者の自律性に焦点をあてる枠組みを適用する。 設計者にとってSCTJのアプローチはどのような条件で生産的であるかを説明する。 我々は,被害の軽減,被害の修復,被害者生存者の癒しの促進のために介入領域を強調するために,インタビューから得た知見を用いている。 最後に、害の軽減、説明責任、体系的な変更のための設計ガイドラインを提供する。

While domestic violence (DV) is prevalent in all socioeconomic settings, identity highly impacts how one experiences and recovers from abuse. This work examines US-based Muslim women's challenges when seeking help and healing from domestic violence. Through participatory interviews with 23 participants within the DV ecosystem, we find that victim-survivors' autonomy is compromised throughout the abuse, within their immediate communities, and when involving the criminal justice system. To address such harms, we adapt a survivor-centered transformative justice (SCTJ) approach, a framework to discern individual and systemic harm, to understand how to design alongside victim-survivors, and to focus on victim-survivors' autonomy. We explain under what conditions an SCTJ approach may be productive for designers. We use insights from our interviews to highlight intervention areas for reducing harm, repairing harm, and promoting healing for victim-survivors. Lastly, we offer guidelines to design for harm reduction, accountability, and systemic change.
翻訳日:2023-03-02 16:18:25 公開日:2023-03-01
# DTW-SiameseNet:誤認識検出と補正のための動的時間ワープシームスネットワーク

DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation Detection and Correction ( http://arxiv.org/abs/2303.00171v1 )

ライセンス: Link先を確認
Raviteja Anantha, Kriti Bhasin, Daniela de la Parra Aguilar, Prabal Vashisht, Becci Williamson, Srinivas Chappidi(参考訳) パーソナルデジタルアシスタント(PDA) — Siri、Alexa、Google Assistantなど — は、複数のドメインにまたがる情報やタスクの完全なアクセスや、さまざまなユーザグループによって、ますます重要な役割を担っている。 テキスト音声(TTS)モジュールは、PDAが自然な人間のような方法で相互作用し、視覚障害や他の障害を持つ人々と相互作用する際に重要な役割を果たす。 多様なユーザのニーズを満たすためには,様々な言語や方言のテキストを正しく認識し,発音することが重要である。 音声合成の進歩にもかかわらず、多言語設定における名前付きエンティティの発音精度は依然として改善の余地が大きい。 例えば、grapheme-to-phoneme (g2p)モデルの再トレーニングやttsの発音辞書のメンテナンスといった既存のアプローチでは、基底真理の発音の高価なアノテーションが必要であり、これは時間を要する。 本研究では,TTS誤発音検出と修正のタスクのための,高精度でPDA対応の発音学習フレームワークを提案する。 さらに,三重項損失を伴う動的時間ワープ(DTW)のためのメトリクス学習を利用するDTW-SiameseNetという,新しい誤発音検出モデルを提案する。 我々は,TTS誤発音検出問題に対する局所的かつプライバシー保護的な解決策が実現可能であることを示す。 実世界のデータセットに対するアプローチと、10の異なる場所の参加者が記録した匿名音声データセットのne発音コーパスを評価した。 人間の評価から,提案手法は音素ベースや音声ベースラインに比べて発音精度を平均6%向上させる。

Personal Digital Assistants (PDAs) - such as Siri, Alexa and Google Assistant, to name a few - play an increasingly important role to access information and complete tasks spanning multiple domains, and by diverse groups of users. A text-to-speech (TTS) module allows PDAs to interact in a natural, human-like manner, and play a vital role when the interaction involves people with visual impairments or other disabilities. To cater to the needs of a diverse set of users, inclusive TTS is important to recognize and pronounce correctly text in different languages and dialects. Despite great progress in speech synthesis, the pronunciation accuracy of named entities in a multi-lingual setting still has a large room for improvement. Existing approaches to correct named entity (NE) mispronunciations, like retraining Grapheme-to-Phoneme (G2P) models, or maintaining a TTS pronunciation dictionary, require expensive annotation of the ground truth pronunciation, which is also time consuming. In this work, we present a highly-precise, PDA-compatible pronunciation learning framework for the task of TTS mispronunciation detection and correction. In addition, we also propose a novel mispronunciation detection model called DTW-SiameseNet, which employs metric learning with a Siamese architecture for Dynamic Time Warping (DTW) with triplet loss. We demonstrate that a locale-agnostic, privacy-preserving solution to the problem of TTS mispronunciation detection is feasible. We evaluate our approach on a real-world dataset, and a corpus of NE pronunciations of an anonymized audio dataset of person names recorded by participants from 10 different locales. Human evaluation shows our proposed approach improves pronunciation accuracy on average by ~6% compared to strong phoneme-based and audio-based baselines.
翻訳日:2023-03-02 16:18:03 公開日:2023-03-01
# 古典量子ハイブリッドメモリを用いた学習のためのメモリサンプル下限

Memory-Sample Lower Bounds for Learning with Classical-Quantum Hybrid Memory ( http://arxiv.org/abs/2303.00209v1 )

ライセンス: Link先を確認
Qipeng Liu, Ran Raz, Wei Zhan(参考訳) Raz (J. ACM と FOCS 16) の研究では、$n$ビットでパリティ学習を行うアルゴリズムは古典記憶の$\Omega(n^2)$ビットか、ランダムサンプルの指数数 (in~$n$) を必要とすることが証明された。 最近の一連の研究は研究の方向性を続け、多くの古典的学習課題において、超線形の古典的メモリサイズまたは超ポリノミカルな多くのサンプルが必要であることを示した。 しかし、これらの結果は全ての物理計算モデル、驚くべきことに量子コンピュータと量子メモリの使用を捉えていない。 これは、小さな量子メモリが古典的メモリやサンプルの必要性を大幅に減少させ、古典的学習タスクの性質を完全に変える可能性を残している。 この研究で、古典的メモリと量子メモリの両方を持つ量子アルゴリズムが、$n$ビットでパリティ学習するためには、古典的メモリの$\Omega(n^2)$ビットか、量子メモリの$\Omega(n)$ビットか、指数的なサンプル数を必要とすることを証明した。 言い換えれば、パリティ学習のためのメモリサンプルの下限は、たとえ学習アルゴリズムが古典的なメモリに加えて、$c n$(一定の$c>0$)の量子メモリを使うことができるとしても、定性的に同じである。 その結果,量子メモリの少なさは,これらの問題の効率的な学習に必要な古典記憶量を大幅に削減する可能性が示唆された。 我々はまた、有界記憶モデル($n$ビットのパリティ学習に基づくプロトコール)における既存の暗号プロトコルのセキュリティを改善し、古典メモリの最大$c n^2$ビットと量子メモリの$c n$ビット(一定の$c>0$)の量子敵が存在する場合でもセキュリティは維持可能であることを証明した。

In a work by Raz (J. ACM and FOCS 16), it was proved that any algorithm for parity learning on $n$ bits requires either $\Omega(n^2)$ bits of classical memory or an exponential number (in~$n$) of random samples. A line of recent works continued that research direction and showed that for a large collection of classical learning tasks, either super-linear classical memory size or super-polynomially many samples are needed. However, these results do not capture all physical computational models, remarkably, quantum computers and the use of quantum memory. It leaves the possibility that a small piece of quantum memory could significantly reduce the need for classical memory or samples and thus completely change the nature of the classical learning task. In this work, we prove that any quantum algorithm with both, classical memory and quantum memory, for parity learning on $n$ bits, requires either $\Omega(n^2)$ bits of classical memory or $\Omega(n)$ bits of quantum memory or an exponential number of samples. In other words, the memory-sample lower bound for parity learning remains qualitatively the same, even if the learning algorithm can use, in addition to the classical memory, a quantum memory of size $c n$ (for some constant $c>0$). Our results refute the possibility that a small amount of quantum memory significantly reduces the size of classical memory needed for efficient learning on these problems. Our results also imply improved security of several existing cryptographical protocols in the bounded-storage model (protocols that are based on parity learning on $n$ bits), proving that security holds even in the presence of a quantum adversary with at most $c n^2$ bits of classical memory and $c n$ bits of quantum memory (for some constant $c>0$).
翻訳日:2023-03-02 16:12:11 公開日:2023-03-01
# ラベル空間コライニングによるReCIST弱修正病変分割

RECIST Weakly Supervised Lesion Segmentation via Label-Space Co-Training ( http://arxiv.org/abs/2303.00205v1 )

ライセンス: Link先を確認
Lianyu Zhou, Dong Wei, Donghuan Lu, Wei Xue, Liansheng Wang, Yefeng Zheng(参考訳) がん進展と治療反応の指標として,CTスライスにおける固形腫瘍ガイドライン(RECIST)の反応評価基準に従って,腫瘍の大きさが測定されることが多い。 各病変を最長軸と最長垂直軸でマークすることで、手間のかかる画素単位での手動アノテーションを回避することができる。 しかし、このような粗い代用は、病変の多種多様な定量的分析を可能にするリッチで正確な基盤を提供することはできない。 そこで本研究では,既存のリッチなRECISTアノテーションを画素単位の病変セグメンテーションに活用するための,弱い教師付きフレームワークを提案する。 具体的には、RECISTアノテーションに基づいて各病変に対して一対のアンダー・セグメンテーションマスクとオーバー・セグメンテーションマスクが構築され、2つのサブネット間のギャップを埋め、効果的なコトレーニングを可能にするためのラベル空間摂動誘導整合損失と共に、一対のサブネットを共トレーニングするラベルとして機能する。 様々なバックボーンネットワークに適用可能なRECISTベースの弱教師付きセグメンテーションタスクについて,提案フレームワークの優位性を示すために,公開データセット上で大規模な実験を行った。

As an essential indicator for cancer progression and treatment response, tumor size is often measured following the response evaluation criteria in solid tumors (RECIST) guideline in CT slices. By marking each lesion with its longest axis and the longest perpendicular one, laborious pixel-wise manual annotation can be avoided. However, such a coarse substitute cannot provide a rich and accurate base to allow versatile quantitative analysis of lesions. To this end, we propose a novel weakly supervised framework to exploit the existing rich RECIST annotations for pixel-wise lesion segmentation. Specifically, a pair of under- and over-segmenting masks are constructed for each lesion based on its RECIST annotation and served as the label for co-training a pair of subnets, respectively, along with the proposed label-space perturbation induced consistency loss to bridge the gap between the two subnets and enable effective co-training. Extensive experiments are conducted on a public dataset to demonstrate the superiority of the proposed framework regarding the RECIST-based weakly supervised segmentation task and its universal applicability to various backbone networks.
翻訳日:2023-03-02 16:11:33 公開日:2023-03-01
# 特徴抽出がより重要:アンサンブル機能エクストラクタの攻撃によるユニバーサルディープフェイク破壊

Feature Extraction Matters More: Universal Deepfake Disruption through Attacking Ensemble Feature Extractors ( http://arxiv.org/abs/2303.00200v1 )

ライセンス: Link先を確認
Long Tang, Dengpan Ye, Zhenhao Lu, Yunming Zhang, Shengshan Hu, Yue Xu, Chuanxi Chen(参考訳) 敵の例は、顔認識のセキュリティをディープフェイク修正から保護する方法が増えていることだ。 様々なディープフェイクモデルによって大規模な顔画像が違法に修正されるのを防ぐために、ユニバーサルディープフェイクディスラプタを設計することが不可欠である。 しかし、既存の研究は、特徴抽出と画像再構成の機能的差異を無視して、ディープフェイク破壊をエンドツーエンドプロセスとして扱うため、クロスモデルユニバーサルディスラプタの生成が困難である。 本研究では,deepfakeネットワークに対する機能抽出を,より重要かつ一般的なタスクとみなした新たな提案として,deepfakeネットワークに対する機能アウトプットアンサンブルuniversal disruptor (found)を提案する。 効果的な二段階破壊処理を行う。 まず,マルチ機能アグリゲーションと個別機能維持を通じてマルチモデル特徴抽出器をディスラプトし,複数のエンド・ツー・エンドモデルをディスラプトする複雑な最適化問題を単純化し,ディストラクション効果を高めるグラデーション・センスブルアルゴリズムを開発した。 大規模な実験により、FOUNDはアンサンブルディープフェイクベンチマークモデルに対する破壊効果を著しく向上させることができることが示された。 さらに,クロス属性,クロスイメージ,クロスモデルユニバーサルディープフェイクディスラプタを,少数のトレーニングイメージで迅速に取得し,成功率と効率の両面で最先端のユニバーサルディスラプタを超えることができる。

Adversarial example is a rising way of protecting facial privacy security from deepfake modification. To prevent massive facial images from being illegally modified by various deepfake models, it is essential to design a universal deepfake disruptor. However, existing works treat deepfake disruption as an End-to-End process, ignoring the functional difference between feature extraction and image reconstruction, which makes it difficult to generate a cross-model universal disruptor. In this work, we propose a novel Feature-Output ensemble UNiversal Disruptor (FOUND) against deepfake networks, which explores a new opinion that considers attacking feature extractors as the more critical and general task in deepfake disruption. We conduct an effective two-stage disruption process. We first disrupt multi-model feature extractors through multi-feature aggregation and individual-feature maintenance, and then develop a gradient-ensemble algorithm to enhance the disruption effect by simplifying the complex optimization problem of disrupting multiple End-to-End models. Extensive experiments demonstrate that FOUND can significantly boost the disruption effect against ensemble deepfake benchmark models. Besides, our method can fast obtain a cross-attribute, cross-image, and cross-model universal deepfake disruptor with only a few training images, surpassing state-of-the-art universal disruptors in both success rate and efficiency.
翻訳日:2023-03-02 16:11:11 公開日:2023-03-01
# dmsa:適応親和性に基づく動的マルチスケール非教師なし意味セグメンテーション

DMSA: Dynamic Multi-scale Unsupervised Semantic Segmentation Based on Adaptive Affinity ( http://arxiv.org/abs/2303.00199v1 )

ライセンス: Link先を確認
Kun Yang, Jun Lu(参考訳) 本稿では、4つの損失関数に基づくエンドツーエンドの教師なしセマンティックセマンティクスアーキテクチャDMSAを提案する。 このフレームワークは、Atrous Spatial Pyramid Pooling (ASPP)モジュールを使用して特徴抽出を強化する。 同時に、動的拡張戦略は、マルチスケールなコンテキスト情報をよりよく捉えるように設計されている。 次に,機能融合後の初期擬似ラベルを適応的に洗練し,高品質な擬似ラベルを得る,ピクセル適応改良(par)モジュールを導入する。 実験の結果,提案するDSMAフレームワークは,サリエンシデータセット上の既存の手法よりも優れていることがわかった。 COCO 80データセットでは、MIoUは2.0改善され、精度は5.39向上した。 Pascal VOC 2012 Augmentedデータセットでは、MIoUは4.9改善され、精度は3.4向上した。 さらに、parモジュールの導入後、モデルの収束速度も大幅に向上した。

The proposed method in this paper proposes an end-to-end unsupervised semantic segmentation architecture DMSA based on four loss functions. The framework uses Atrous Spatial Pyramid Pooling (ASPP) module to enhance feature extraction. At the same time, a dynamic dilation strategy is designed to better capture multi-scale context information. Secondly, a Pixel-Adaptive Refinement (PAR) module is introduced, which can adaptively refine the initial pseudo labels after feature fusion to obtain high quality pseudo labels. Experiments show that the proposed DSMA framework is superior to the existing methods on the saliency dataset. On the COCO 80 dataset, the MIoU is improved by 2.0, and the accuracy is improved by 5.39. On the Pascal VOC 2012 Augmented dataset, the MIoU is improved by 4.9, and the accuracy is improved by 3.4. In addition, the convergence speed of the model is also greatly improved after the introduction of the PAR module.
翻訳日:2023-03-02 16:10:41 公開日:2023-03-01
# 自己教師付き畳み込み視覚プロンプト

Self-Supervised Convolutional Visual Prompts ( http://arxiv.org/abs/2303.00198v1 )

ライセンス: Link先を確認
Yun-Yun Tsai, Chengzhi Mao, Yow-Kuan Lin, Junfeng Yang(参考訳) 機械学習モデルは、しばしばout-of-distribution(ood)サンプルで失敗する。 大規模視覚モデルのための入力空間における軽量適応法として視覚プロンプトが出現する。 既存のビジョンは、高次元の加算ベクトルを最適化し、トレーニングにラベル付きデータを必要とする。 しかし、このパラダイムはラベル付きデータが利用できない場合にテスト時間適応に失敗し、高次元の視覚的プロンプトは自己監督対象に過度に適合する。 ラベルのないテスト時間適応のための畳み込み視覚プロンプトを提案する。 我々の畳み込みプロンプトは構造化されており、トレーニング可能なパラメータが少ない(標準的な視覚プロンプトのパラメータが1%未満)。 多様なOOD認識タスクに関する大規模な実験により、我々のアプローチが効果的であることを示し、多数の大規模モデルアーキテクチャに対して最大5.87 %の堅牢性向上を実現している。

Machine learning models often fail on out-of-distribution (OOD) samples. Visual prompts emerge as a light-weight adaptation method in input space for large-scale vision models. Existing vision prompts optimize a high-dimensional additive vector and require labeled data on training. However, we find this paradigm fails on test-time adaptation when labeled data is unavailable, where the high-dimensional visual prompt overfits to the self-supervised objective. We present convolutional visual prompts for test-time adaptation without labels. Our convolutional prompt is structured and requires fewer trainable parameters (less than 1 % parameters of standard visual prompts). Extensive experiments on a wide variety of OOD recognition tasks show that our approach is effective, improving robustness by up to 5.87 % over a number of large-scale model architectures.
翻訳日:2023-03-02 16:10:26 公開日:2023-03-01
# テンソルニューラルネットワークのロバスト一般化を支援する変換低ランクパラメータ化

Transformed Low-Rank Parameterization Can Help Robust Generalization for Tensor Neural Networks ( http://arxiv.org/abs/2303.00196v1 )

ライセンス: Link先を確認
Andong Wang, Chao Li, Mingyuan Bai, Zhong Jin, Guoxu Zhou, Qibin Zhao(参考訳) 効率的で堅牢なマルチチャネルデータ学習を実現することは、データサイエンスにおける課題である。 変換領域の低ランク性、すなわち変換低ランク性を活用することで、テンソル特異値分解(t-svd)はマルチチャネルデータ表現において大きな成功を収め、最近ではt-product layer(t-nns)を持つニューラルネットワークなどの関数表現にも拡張されている。 しかし、t-SVDがt-NNの学習行動に理論的にどのような影響を及ぼすかはまだ不明である。 本稿では,標準および逆向きに訓練されたt-NNの一般化誤差の上限を導出することにより,この問題に最初に答える。 完全変換された低ランクパラメータ化によって圧縮されたt-nnはより鋭い逆一般化を実現できる。 実際には、t-NNは正確に低ランクの重みを変換することはめったにないが、我々の分析は、勾配流(GF)を用いた対角訓練により、ReLUアクティベートによる過パラメータ化t-NNは、特定の条件下で変換された低ランクのパラメータ化に向けて暗黙の正規化で訓練されることを示している。 また,t-nnの逆一般化境界を概して低位重みを変換する。 分析の結果,変換された低ランクパラメータ化は,t-NNのロバストな一般化を促進することが示唆された。

Achieving efficient and robust multi-channel data learning is a challenging task in data science. By exploiting low-rankness in the transformed domain, i.e., transformed low-rankness, tensor Singular Value Decomposition (t-SVD) has achieved extensive success in multi-channel data representation and has recently been extended to function representation such as Neural Networks with t-product layers (t-NNs). However, it still remains unclear how t-SVD theoretically affects the learning behavior of t-NNs. This paper is the first to answer this question by deriving the upper bounds of the generalization error of both standard and adversarially trained t-NNs. It reveals that the t-NNs compressed by exact transformed low-rank parameterization can achieve a sharper adversarial generalization bound. In practice, although t-NNs rarely have exactly transformed low-rank weights, our analysis further shows that by adversarial training with gradient flow (GF), the over-parameterized t-NNs with ReLU activations are trained with implicit regularization towards transformed low-rank parameterization under certain conditions. We also establish adversarial generalization bounds for t-NNs with approximately transformed low-rank weights. Our analysis indicates that the transformed low-rank parameterization can promisingly enhance robust generalization for t-NNs.
翻訳日:2023-03-02 16:10:14 公開日:2023-03-01
# CLIPER: 眼内表情認識のための統合視覚言語フレームワーク

CLIPER: A Unified Vision-Language Framework for In-the-Wild Facial Expression Recognition ( http://arxiv.org/abs/2303.00193v1 )

ライセンス: Link先を確認
Hanting Li, Hongjing Niu, Zhaoqing Zhu, and Feng Zhao(参考訳) 表情認識(FER)は人間の行動を理解する上で不可欠な課題である。 人間の最も有意義な行動の1つとして、顔の表情は、しばしば複雑で変動し、異なる人々が全く異なる方法で同じ表現を表現できるという事実によって表される。 しかし、fer法の多くは、顔の表情の十分な意味的記述がなく、解釈しにくい、一方のホットラベルやソフトラベルを監督に使用する。 近年、コントラッシブ・ビジョン言語事前学習(VLP)モデル(例えばCLIP)は、テキストを監督として使用し、様々なコンピュータビジョンタスクに新たな活力を注入し、テキストのリッチなセマンティクスの恩恵を受けている。 そこで本研究では,CLIPに基づく静的および動的顔認識のための統合フレームワークであるCLIPERを提案する。 さらに,複数の式テキスト記述子(METD)を導入して,CLIPERをより解釈しやすい粒度表現を学習する。 いくつかのFERベンチマークで広範な実験を行い,CLIPERの有効性を実証した。

Facial expression recognition (FER) is an essential task for understanding human behaviors. As one of the most informative behaviors of humans, facial expressions are often compound and variable, which is manifested by the fact that different people may express the same expression in very different ways. However, most FER methods still use one-hot or soft labels as the supervision, which lack sufficient semantic descriptions of facial expressions and are less interpretable. Recently, contrastive vision-language pre-training (VLP) models (e.g., CLIP) use text as supervision and have injected new vitality into various computer vision tasks, benefiting from the rich semantics in text. Therefore, in this work, we propose CLIPER, a unified framework for both static and dynamic facial Expression Recognition based on CLIP. Besides, we introduce multiple expression text descriptors (METD) to learn fine-grained expression representations that make CLIPER more interpretable. We conduct extensive experiments on several popular FER benchmarks and achieve state-of-the-art performance, which demonstrates the effectiveness of CLIPER.
翻訳日:2023-03-02 16:09:49 公開日:2023-03-01
# AIベースのマニュファクチャリングデザインツールとの共創学習におけるデザイナ支援の課題と機会

Exploring Challenges and Opportunities to Support Designers in Learning to Co-create with AI-based Manufacturing Design Tools ( http://arxiv.org/abs/2303.00192v1 )

ライセンス: Link先を確認
Frederic Gmeiner, Humphrey Yang, Lining Yao, Kenneth Holstein, Nikolas Martelaro(参考訳) aiベースのデザインツールはプロのソフトウェアで増殖し、エンジニアや工業デザイナーが複雑な製造やデザインのタスクをこなすのを手助けしている。 これらのツールは従来のコンピュータ支援設計ツールよりもエージェント的な役割を担っており、しばしば「共同制作者」として描かれる。 しかし、そのようなシステムで効果的に作業するには、複雑なCADツールだけで作業するのとは異なるスキルが必要である。 これまでのところ、エンジニアリングデザイナーがaiベースのデザインツールを使う方法はほとんどわかっていない。 本研究では,2つのaiベースのツールを用いてリアルなデザインタスクを実践することを学び,訓練を受けた設計者を観察した。 設計者は、AI出力の理解と調整、設計目標の伝達といった課題を含む、現在のシステムと効果的に共存する学習において多くの課題に直面している。 この結果に基づき,デザイナー-ai共同制作を支援するための設計機会について紹介する。

AI-based design tools are proliferating in professional software to assist engineering and industrial designers in complex manufacturing and design tasks. These tools take on more agentic roles than traditional computer-aided design tools and are often portrayed as "co-creators." Yet, working effectively with such systems requires different skills than working with complex CAD tools alone. To date, we know little about how engineering designers learn to work with AI-based design tools. In this study, we observed trained designers as they learned to work with two AI-based tools on a realistic design task. We find that designers face many challenges in learning to effectively co-create with current systems, including challenges in understanding and adjusting AI outputs and in communicating their design goals. Based on our findings, we highlight several design opportunities to better support designer-AI co-creation.
翻訳日:2023-03-02 16:09:28 公開日:2023-03-01
# pyribs: 品質の多様性を最適化するベアボーンpythonライブラリ

pyribs: A Bare-Bones Python Library for Quality Diversity Optimization ( http://arxiv.org/abs/2303.00191v1 )

ライセンス: Link先を確認
Bryon Tjanaka, Matthew C. Fontaine, David H. Lee, Yulun Zhang, Nivedit Reddy Balam, Nathaniel Dennler, Sujay S. Garlanka, Nikitas Dimitri Klapsis, Stefanos Nikolaidis(参考訳) 近年、与えられた問題に対する多様でハイパフォーマンスなソリューションの集合を見つけることを目的とした最適化の分野であるqd(quality diversity)最適化の人気が高まっている。 さらに拡大するために、QDコミュニティは2つの課題に直面している: フィールドの増大するアルゴリズムの配列を表現するフレームワークを開発すること、そして、研究者や実践者をサポートするソフトウェアにそのフレームワークを実装すること。 これらの課題に対処するため,高度にモジュール化された概念QDフレームワーク上に構築されたpyribsを開発した。 概念的フレームワークのコンポーネントを置き換えることで、ユーザーはQD文学全体からアルゴリズムを構成することができる。 さらにpyribsは、幅広いドキュメンテーションとチュートリアルによってユーザフレンドリなapiをサポートすることで、このフレームワークをシンプルで、柔軟で、アクセスしやすくする。 本稿では, 実装する概念的枠組みと, ライブラリの開発を導く設計原則に着目し, ピリブの作成について概説する。

Recent years have seen a rise in the popularity of quality diversity (QD) optimization, a branch of optimization that seeks to find a collection of diverse, high-performing solutions to a given problem. To grow further, we believe the QD community faces two challenges: developing a framework to represent the field's growing array of algorithms, and implementing that framework in software that supports a range of researchers and practitioners. To address these challenges, we have developed pyribs, a library built on a highly modular conceptual QD framework. By replacing components in the conceptual framework, and hence in pyribs, users can compose algorithms from across the QD literature; equally important, they can identify unexplored algorithm variations. Furthermore, pyribs makes this framework simple, flexible, and accessible, with a user-friendly API supported by extensive documentation and tutorials. This paper overviews the creation of pyribs, focusing on the conceptual framework that it implements and the design principles that have guided the library's development.
翻訳日:2023-03-02 16:09:11 公開日:2023-03-01
# 非エルミートフォトニック構造におけるPT-SymmetryまたはBrokenの量子位相図

Quantum Phase Diagram of PT-Symmetry or Broken in a Non-Hermitian Photonic Structure ( http://arxiv.org/abs/2303.00189v1 )

ライセンス: Link先を確認
Xinchen Zhang and Yun Ma and Qi Liu and Yali Jia and Qi Zhang and Zhanqiang Bai and Junxiang Zhang and Qihuang Gong and Ying Gu(参考訳) 古典的には、pt対称性やフォトニック構造の破断はよく研究されており、各光学モードに対する利得と損失の平均効果のみが考慮される。 しかし、量子では、非エルミート系における利得や損失の役割は全く異なり、研究されていない特定の量子光学効果が引き起こされる。 そこで本研究では,利得と損失の両面を同時に有する両フォトニック構造において,2つの例外線で束縛されたPT対称性とPT破壊状態の解析を行った。 現実性を考慮して、弱い利得の下での定常状態が同定される。 2つのモード間の光子交換を表す交換演算子を定義し、さらにpt対称性から破れへの遷移を特徴付ける。 また、pt壊れたbi-waveguideシステムでは、マルチ光子状態は量子干渉によってオンデマンドに設計できる。 定常状態配置を持つ量子pt相図は、非エルミート量子系における量子状態の生成、量子干渉、論理演算を研究する基礎である。

Classically, PT symmetry or broken in photonic structures is well studied, where only average effect of gain and loss on each optical mode is considered. However, in quantum, the role of gain or loss in a non-hermitian system is totally different, the specific quantum optical effect induced by which has never been studied. Here, we analytically obtained the PT-symmetry and PT-broken regime bounded by two exceptional lines in a bi-photonic structure with both gain and loss simultaneously existing. For the consideration of reality, the steady state condition under the weak gain is identified. We defined the exchange operator to represent the photon exchange between two modes and further to characterize the transition from PT symmetry to broken. Also, in the PT broken bi-waveguide system, multi-photon state can be on-demand engineered through the quantum interference. Quantum PT-Phase diagram with steady state regime is the basis to study the quantum state fabrication, quantum interferences, and logic operations in non-hermitian quantum systems.
翻訳日:2023-03-02 16:08:54 公開日:2023-03-01
# GUESR: シーケンスレコメンデーションのためのBucket-Clusterサンプリングによるグローバルな教師なしデータエンハンスメント

GUESR: A Global Unsupervised Data-Enhancement with Bucket-Cluster Sampling for Sequential Recommendation ( http://arxiv.org/abs/2303.00243v1 )

ライセンス: Link先を確認
Yongqiang Han, Likang Wu, Hao Wang, Guifeng Wang, Mengdi Zhang, Zhi Li, Defu Lian and Enhong Chen(参考訳) シークエンシャルレコメンデーション(Sequential Recommendation)は、ユーザの動的興味を歴史的相互作用から学習し、次の潜在的な項目を予測するための、広く研究されているパラダイムである。 多くの研究成果は目覚ましい進歩を遂げているが、依然として一般的な問題、限られた教師付き信号のデータ空間と誤ってクリックするデータノイズに悩まされている。 この目的のために、いくつかの作品がこれらの問題に対処しようと試みており、いくつかのシーケンスにわたる項目の複雑な関連付けを無視している。 本稿では,このジレンマを緩和するために代表的項目埋め込みを学習することを目的として,グラフコントラスト学習の観点からguesrを提案する。 具体的には,まず全相互作用列からグローバルアイテム関係グラフ(girg)を構築し,bucket-cluster sampling(bcs)法を用いてサブグラフを実行する。 そして、この縮小グラフ上のグラフコントラスト学習により、グローバル視点から複雑な関連を持つ項目表現が強化される。 次に,CapsNetモジュールを拡張して,ユーザの動的嗜好を導出するターゲットアテンション機構を精巧に導入した。 提案したGUESRは,大幅な改善を達成できただけでなく,他の逐次的レコメンデーション手法と組み合わせて性能向上のための汎用的な拡張戦略とも考えられる。

Sequential Recommendation is a widely studied paradigm for learning users' dynamic interests from historical interactions for predicting the next potential item. Although lots of research work has achieved remarkable progress, they are still plagued by the common issues: data sparsity of limited supervised signals and data noise of accidentally clicking. To this end, several works have attempted to address these issues, which ignored the complex association of items across several sequences. Along this line, with the aim of learning representative item embedding to alleviate this dilemma, we propose GUESR, from the view of graph contrastive learning. Specifically, we first construct the Global Item Relationship Graph (GIRG) from all interaction sequences and present the Bucket-Cluster Sampling (BCS) method to conduct the sub-graphs. Then, graph contrastive learning on this reduced graph is developed to enhance item representations with complex associations from the global view. We subsequently extend the CapsNet module with the elaborately introduced target-attention mechanism to derive users' dynamic preferences. Extensive experimental results have demonstrated our proposed GUESR could not only achieve significant improvements but also could be regarded as a general enhancement strategy to improve the performance in combination with other sequential recommendation methods.
翻訳日:2023-03-02 16:02:48 公開日:2023-03-01
# diffqg: 事実の変化を要約する質問の生成

DIFFQG: Generating Questions to Summarize Factual Changes ( http://arxiv.org/abs/2303.00242v1 )

ライセンス: Link先を確認
Jeremy R. Cole, Palak Jain, Julian Martin Eisenschlos, Michael J.Q. Zhang, Eunsol Choi, Bhuwan Dhingra(参考訳) 同じ記事の2つのバージョンの違いを特定することは、知識ベースを更新し、記事の進化を理解するのに役立つ。 記者は同様のニュース記事を書き、権威あるウェブサイトのメンテナは情報を最新状態に保つ必要がある。 本稿では,文書間の事実変化を質問対として表現し,同じ質問に対する回答が2つのバージョンで異なることを示す。 質問応答対は柔軟かつ簡潔に更新内容をキャプチャできることがわかった。 ペアの文書が与えられた場合、注釈家は1つの文で答えられるが別の文で答えられていない質問を識別する。 759対のQAペアと1153対のペアパスの実際の変化のない例からなるDIFFQGをリリースする。 これらの質問は曖昧さと情報検索の両方を意図しており、現在の質問生成と事実変化検出システムの能力を超えて複雑な編集を行う。 本データセットは、文書の2つのバージョン間の変更を質問と回答として要約し、新しい方法で自動更新要約を研究する。

Identifying the difference between two versions of the same article is useful to update knowledge bases and to understand how articles evolve. Paired texts occur naturally in diverse situations: reporters write similar news stories and maintainers of authoritative websites must keep their information up to date. We propose representing factual changes between paired documents as question-answer pairs, where the answer to the same question differs between two versions. We find that question-answer pairs can flexibly and concisely capture the updated contents. Provided with paired documents, annotators identify questions that are answered by one passage but answered differently or cannot be answered by the other. We release DIFFQG which consists of 759 QA pairs and 1153 examples of paired passages with no factual change. These questions are intended to be both unambiguous and information-seeking and involve complex edits, pushing beyond the capabilities of current question generation and factual change detection systems. Our dataset summarizes the changes between two versions of the document as questions and answers, studying automatic update summarization in a novel way.
翻訳日:2023-03-02 16:02:23 公開日:2023-03-01
# P$^2$SDFによる脳内画像再構成

P$^2$SDF for Neural Indoor Scene Reconstruction ( http://arxiv.org/abs/2303.00236v1 )

ライセンス: Link先を確認
Jing Li, Jinpeng Yu, Ruoyu Wang, Zhengxin Li, Zhengyu Zhang, Lina Cao, and Shenghua Gao(参考訳) 画像の集合のみを考慮すれば、神経暗示表面表現は3次元表面再構成におけるその能力を示している。 しかし、シーンごとの最適化の性質は色彩のボリュームレンダリングに基づいているため、従来のニューラルネットワークによる暗黙的表面再構成手法は通常、屋内シーンによく見られる床や壁などの低テクスチャ領域では失敗する。 これらの低テキスト領域が通常平面に対応するという事実に気付き、追加の地上監視信号や室内レイアウトに関する追加の仮定を導入することなく、新しい擬似平面正規化符号付き距離場(p$^2$sdf)を屋内シーンの再構成に利用することを提案する。 具体的には、類似色を持つ隣接画素を同一の擬似平面上に配置する。 平面パラメータは、効率よく効果的な2段階のスキームによって訓練中にフライで推定される。 そして、訓練段階における推定平面パラメータにより、平面上の点の符号付き距離を定式化する。 教師なし平面セグメントは通常ノイズが多く不正確なため、平面推定および正規化損失において、平面上のサンプル点に異なる重みを割り当てることを提案する。 重み付けは異なる視点から平面セグメントを融合することで得られる。 平面領域のサンプル光線は冗長であり、非効率なトレーニングに繋がるので、さらに色の変化が大きい有意義なテクスチャ領域に対応するキーポイント誘導光線サンプリング戦略を提案し、元の均一光線サンプリング戦略と比較して、暗黙的ネットワークの再構成が向上する。 実験の結果,我々のp$^2$sdfはマンハッタンのシーンでコンストラクション性能が向上した。 さらに、追加の部屋配置の仮定は導入しないので、P$^2$SDFは非マンハッタンシーンの再構築によく貢献する。

Given only a set of images, neural implicit surface representation has shown its capability in 3D surface reconstruction. However, as the nature of per-scene optimization is based on the volumetric rendering of color, previous neural implicit surface reconstruction methods usually fail in low-textured regions, including the floors, walls, etc., which commonly exist for indoor scenes. Being aware of the fact that these low-textured regions usually correspond to planes, without introducing additional ground-truth supervisory signals or making additional assumptions about the room layout, we propose to leverage a novel Pseudo Plane-regularized Signed Distance Field (P$^2$SDF) for indoor scene reconstruction. Specifically, we consider adjacent pixels with similar colors to be on the same pseudo planes. The plane parameters are then estimated on the fly during training by an efficient and effective two-step scheme. Then the signed distances of the points on the planes are regularized by the estimated plane parameters in the training phase. As the unsupervised plane segments are usually noisy and inaccurate, we propose to assign different weights to the sampled points on the plane in plane estimation as well as the regularization loss. The weights come by fusing the plane segments from different views. As the sampled rays in the planar regions are redundant, leading to inefficient training, we further propose a keypoint-guided rays sampling strategy that attends to the informative textured regions with large color variations, and the implicit network gets a better reconstruction, compared with the original uniform ray sampling strategy. Experiments show that our P$^2$SDF achieves competitive reconstruction performance in Manhattan scenes. Further, as we do not introduce any additional room layout assumption, our P$^2$SDF generalizes well to the reconstruction of non-Manhattan scenes.
翻訳日:2023-03-02 16:02:05 公開日:2023-03-01
# トランスフォーマーによる単一セルマルチモーダル予測

Single-Cell Multimodal Prediction via Transformers ( http://arxiv.org/abs/2303.00233v1 )

ライセンス: Link先を確認
Wenzhuo Tang, Hongzhi Wen, Renming Liu, Jiayuan Ding, Wei Jin, Yuying Xie, Hui Liu, Jiliang Tang(参考訳) 近年のマルチモーダル単一細胞技術の発展により、個々の細胞から複数のオミクスデータを取得することが可能となり、細胞状態やダイナミクスのより深い理解が可能となった。 それでも、マルチモーダルな単細胞データの増殖は、異なるモダリティ間の複雑な相互作用をモデル化する上で大きな課題をもたらす。 近年の手法では,静的相互作用グラフの構築とグラフニューラルネットワーク(gnns)を適用し,マルチモーダルデータから学習する。 しかし、このような静的グラフは、ダウンストリームのタスク情報を利用することができないため、最適ではない可能性がある。 そこで本研究では,ダウンストリームタスク情報を活用しながら,マルチモーダル・シングルセル・データに対するトランスフォーマーの活用方法について検討する。 特に、外部のドメイン知識を容易に組み込むことができ、各モダリティとクロスモーダルの相互作用をモデル化できる scMoFormer フレームワークを提案する。 scMoFormerはさまざまなベンチマークデータセットで優れたパフォーマンスを実現している。 scmoformerは2022年のneuripsコンペティションでアンサンブル無しに24\ /\ 1221$ (トップ2%)のカグル銀メダルを獲得した。 私たちの実装はgithubで公開されています。

The recent development of multimodal single-cell technology has made the possibility of acquiring multiple omics data from individual cells, thereby enabling a deeper understanding of cellular states and dynamics. Nevertheless, the proliferation of multimodal single-cell data also introduces tremendous challenges in modeling the complex interactions among different modalities. The recently advanced methods focus on constructing static interaction graphs and applying graph neural networks (GNNs) to learn from multimodal data. However, such static graphs can be suboptimal as they do not take advantage of the downstream task information; meanwhile GNNs also have some inherent limitations when deeply stacking GNN layers. To tackle these issues, in this work, we investigate how to leverage transformers for multimodal single-cell data in an end-to-end manner while exploiting downstream task information. In particular, we propose a scMoFormer framework which can readily incorporate external domain knowledge and model the interactions within each modality and cross modalities. Extensive experiments demonstrate that scMoFormer achieves superior performance on various benchmark datasets. Note that scMoFormer won a Kaggle silver medal with the rank of $24\ /\ 1221$ (Top 2%) without ensemble in a NeurIPS 2022 competition. Our implementation is publicly available at Github.
翻訳日:2023-03-02 16:01:33 公開日:2023-03-01
# より正確な自動分析に向けて:深層学習に基づくマルチオーガンセグメンテーションの包括的調査

Towards more precise automatic analysis: a comprehensive survey of deep learning-based multi-organ segmentation ( http://arxiv.org/abs/2303.00232v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Linhao Qu, Ziyue Xie, Jiayue Zhao, Yonghong Shi, and Zhijian Song(参考訳) 医療画像からの頭部,頸部,胸部,腹部の複数の臓器の正確な分節化は,コンピュータ支援診断,手術ナビゲーション,放射線治療において重要なステップである。 近年,データ駆動型特徴抽出手法とエンドツーエンドトレーニングにより,自動深層学習に基づく多臓器分割法は従来の手法よりも優れ,新たな研究トピックとなっている。 このレビューは、この分野の最新研究を体系的に要約している。 まず, 完全かつ不完全なアノテーションの観点から, 頭頸部, 胸部, 腹部など複数領域の深層学習に基づくマルチオルガンセグメンテーションに関する161の研究を包括的にまとめた。 完全アノテーションに基づく手法は、ネットワークアーキテクチャ、ネットワーク次元、ネットワーク専用モジュール、ネットワーク損失関数の4つの側面から既存の手法を要約する。 不完全なアノテーションに基づくメソッドは、弱いアノテーションベースのメソッドと半アノテーションベースのメソッドという2つの側面から既存のメソッドを要約する。 また,複数組織セグメンテーションに頻繁に使用されるデータセットを要約し,新たな課題とこの分野の新たな研究動向について論じる。

Accurate segmentation of multiple organs of the head, neck, chest, and abdomen from medical images is an essential step in computer-aided diagnosis, surgical navigation, and radiation therapy. In the past few years, with a data-driven feature extraction approach and end-to-end training, automatic deep learning-based multi-organ segmentation method has far outperformed traditional methods and become a new research topic. This review systematically summarizes the latest research in this field. For the first time, from the perspective of full and imperfect annotation, we comprehensively compile 161 studies on deep learning-based multi-organ segmentation in multiple regions such as the head and neck, chest, and abdomen, containing a total of 214 related references. The method based on full annotation summarizes the existing methods from four aspects: network architecture, network dimension, network dedicated modules, and network loss function. The method based on imperfect annotation summarizes the existing methods from two aspects: weak annotation-based methods and semi annotation-based methods. We also summarize frequently used datasets for multi-organ segmentation and discuss new challenges and new research trends in this field.
翻訳日:2023-03-02 16:01:12 公開日:2023-03-01
# 制約付き差分プライバシーの2つの見解:改訂と更新

Two Views of Constrained Differential Privacy: Belief Revision and Update ( http://arxiv.org/abs/2303.00228v1 )

ライセンス: Link先を確認
Likang Liu, Keke Sun, Chunlai Zhou, Yuan Feng(参考訳) 本稿では,制約付き微分プライベート(DP)機構について2つの考察を行う。 1つ目は信念の修正である。 制約付きDPメカニズムは標準確率的条件付けによって得られ、モンテカルロアルゴリズムによって自然に実装できる。 もう1つは信念の更新だ。 制約DPは、l2距離の最小化後処理や投影に基づいて定義され、最適化アルゴリズムによって自然に実装できる。 これら2つの観点の主な利点は、特に重要な新しい構成特性の制約された差分プライバシーの基本特性を示すために、信念修正の機械を最大限に活用できることである。 本論文で確立した枠組みでは,文献中の制約付きDPアルゴリズムを信念修正あるいは信念更新と分類することができる。 論文の最後には,いくつかのシナリオにおいて,特に実用性における違いを実証する。

In this paper, we provide two views of constrained differential private (DP) mechanisms. The first one is as belief revision. A constrained DP mechanism is obtained by standard probabilistic conditioning, and hence can be naturally implemented by Monte Carlo algorithms. The other is as belief update. A constrained DP is defined according to l2-distance minimization postprocessing or projection and hence can be naturally implemented by optimization algorithms. The main advantage of these two perspectives is that we can make full use of the machinery of belief revision and update to show basic properties for constrained differential privacy especially some important new composition properties. Within the framework established in this paper, constrained DP algorithms in the literature can be classified either as belief revision or belief update. At the end of the paper, we demonstrate their differences especially in utility in a couple of scenarios.
翻訳日:2023-03-02 16:00:51 公開日:2023-03-01
# モノトーンスパンプログラムに基づく効率的な量子秘密共有方式

Efficient Quantum Secret Sharing Scheme Based On Monotone Span Program ( http://arxiv.org/abs/2303.00226v1 )

ライセンス: Link先を確認
Shuangshuang Luo, Zhihui Li, Depeng Meng, Jiansheng Guo(参考訳) 複数の参加者間で秘密を効率的に共有する方法は、キーマネジメントにおいて非常に重要な問題である。 本稿では,GHZ状態に基づくマルチシークレット共有方式を提案する。 まず、ディストリビュータは、秘密を符号化するためにモノトーンスパンプログラムを使用し、対応する秘密共有を生成して参加者に送る。 すると、各参加者は一般化されたパウリ作用素を使って、送信された粒子に自身の秘密の共有を埋め込む。 シークレットを得たい参加者は、ghz状態のジョイント測定を行うことで、同時に複数のシークレットを取得することができる。 さらに、このスキームは単調スパンプログラムに基づいており、アクセス構造はアクセス構造(t,n)のしきい値よりも一般的である。 他のスキームと比較すると,提案方式はより効率的で計算コストも少ない。

How to efficiently share secrets among multiple participants is a very important problem in key management. In this paper, we propose a multi-secret sharing scheme based on the GHZ state. First, the distributor uses monotone span program to encode the secrets and generate the corresponding secret shares to send to the participants. Then, each participant uses the generalized Pauli operator to embed its own secret share into the transmitted particle. The participant who wants to get the secrets can get multiple secrets at the same time by performing a GHZ-state joint measurement. Futhermore, the scheme is based on a monotone span program, and its access structure is more general than the access structure (t,n) threshold. Compared with other schemes, our proposed scheme is more efficient, less computational cost.
翻訳日:2023-03-02 16:00:38 公開日:2023-03-01
# 入力の簡易化による量子クエリ複雑性の向上

Improved Quantum Query Complexity on Easier Inputs ( http://arxiv.org/abs/2303.00217v1 )

ライセンス: Link先を確認
Noel T. Anderson, Jay-U Chung, Shelby Kimmel, Da-Yeon Koh, Xiaohan Ye(参考訳) 関数評価のための量子スパンプログラムアルゴリズムは、入力が一定の構造を持つことを約束すると、クエリの複雑さを減少させることがある。 我々は、これらの改善が事前の約束なしにも持続することを示すために修正スパンプログラムアルゴリズムを設計し、このアプローチをより一般的な状態変換問題に拡張する。 その結果,複数の探索問題に対する平均クエリ複雑性において指数関数的かつ超多項的量子優位性が証明され,モンタナロの探索をアドバイスで一般化した [montanaro, tqc 2010]。

Quantum span program algorithms for function evaluation sometimes have reduced query complexity when promised that the input has a certain structure. We design a modified span program algorithm to show these improvements persist even without a promise ahead of time, and we extend this approach to the more general problem of state conversion. As an application, we prove exponential and superpolynomial quantum advantages in average query complexity for several search problems, generalizing Montanaro's Search with Advice [Montanaro, TQC 2010].
翻訳日:2023-03-02 16:00:25 公開日:2023-03-01
# ロバストな平滑化器による単一画像バックドアインバージョン

Single Image Backdoor Inversion via Robust Smoothed Classifiers ( http://arxiv.org/abs/2303.00215v1 )

ライセンス: Link先を確認
Mingjie Sun, Zico Kolter(参考訳) バックドアインバージョン(backdoor inversion)は、マシンラーニングモデルにバックドアトリガーを挿入するプロセスであり、多くのバックドア検出と防御方法の柱となっている。 バックドアのインバージョンに関する以前の作業は、しばしば最適化プロセスを通じてバックドアを回復し、クリーンなイメージのセットをターゲットクラスに反転させる。 しかし、このサポートセットがどの程度大きなバックドアを回復すべきかを研究・理解することは滅多にない。 本研究では,バックドアトリガーを1枚の画像で確実に回収できることを実証する。 具体的には,まずbackdoored分類器のロバストな平滑化バージョンを構築し,次にターゲットクラスに対して誘導画像合成を行い,バックドアパターンを明らかにするsmoothinv法を提案する。 smoothinv はマスク変数によるバックドアの明示的なモデリングや複雑な正規化スキームを必要としない。 過去に公表されたバックドア攻撃から,バックドア分類器の定量および定性的な研究を行った。 smoothinvは、既存の方法と比較して、単一画像から成功したバックドアを回収できるが、元のバックドアに対する高い忠実性を維持している。 また、バックドア分類器からターゲットのバックドアクラスを特定する方法を示す。 最後に,本手法に対する2つの対策を提案し分析し,適応型攻撃者に対してsmoothinvが頑健であることを示す。 私たちのコードはhttps://github.com/locuslab/smoothinvで利用可能です。

Backdoor inversion, the process of finding a backdoor trigger inserted into a machine learning model, has become the pillar of many backdoor detection and defense methods. Previous works on backdoor inversion often recover the backdoor through an optimization process to flip a support set of clean images into the target class. However, it is rarely studied and understood how large this support set should be to recover a successful backdoor. In this work, we show that one can reliably recover the backdoor trigger with as few as a single image. Specifically, we propose the SmoothInv method, which first constructs a robust smoothed version of the backdoored classifier and then performs guided image synthesis towards the target class to reveal the backdoor pattern. SmoothInv requires neither an explicit modeling of the backdoor via a mask variable, nor any complex regularization schemes, which has become the standard practice in backdoor inversion methods. We perform both quantitaive and qualitative study on backdoored classifiers from previous published backdoor attacks. We demonstrate that compared to existing methods, SmoothInv is able to recover successful backdoors from single images, while maintaining high fidelity to the original backdoor. We also show how we identify the target backdoored class from the backdoored classifier. Last, we propose and analyze two countermeasures to our approach and show that SmoothInv remains robust in the face of an adaptive attacker. Our code is available at https://github.com/locuslab/smoothinv .
翻訳日:2023-03-02 16:00:15 公開日:2023-03-01
# タスク特異的深層学習に基づく心筋灌流SPECTのための denoising アプローチ

A task-specific deep-learning-based denoising approach for myocardial perfusion SPECT ( http://arxiv.org/abs/2303.00212v1 )

ライセンス: Link先を確認
Md Ashequr Rahman, Zitong Yu, Barry A. Siegel, Abhinav K. Jha(参考訳) 低用量で取得した心筋灌流SPECT画像の鑑別には,ディープラーニング(DL)法が有意である。 臨床応用には, 臨床課題の評価が不可欠である。 典型的には、これらの手法は、予測された分別画像と参照正規線量画像の間の忠実度に基づく基準を最小化するように設計されている。 しかし、有望な研究は、これらの手法がSPECTにおける臨床タスクのパフォーマンスに限られた影響を及ぼす可能性を示唆している。 この問題に対処するために,モデルオブザーバに関する文献と人間の視覚システムの理解から得られた概念を用いて,検出タスクにおけるオブザーバ関連情報を保存するためのdlに基づく弁別手法を提案する。 心筋血流spect画像における灌流欠陥検出の課題を, 匿名化臨床データを用いたふりかえり研究を用いて客観的に評価した。 その結果,提案手法は低用量画像と比較して,検出タスクの性能が向上することが示された。 その結果, dlは低用量心筋灌流spectにおける観察者性能を改善するメカニズムを提供する可能性が示唆された。

Deep-learning (DL)-based methods have shown significant promise in denoising myocardial perfusion SPECT images acquired at low dose. For clinical application of these methods, evaluation on clinical tasks is crucial. Typically, these methods are designed to minimize some fidelity-based criterion between the predicted denoised image and some reference normal-dose image. However, while promising, studies have shown that these methods may have limited impact on the performance of clinical tasks in SPECT. To address this issue, we use concepts from the literature on model observers and our understanding of the human visual system to propose a DL-based denoising approach designed to preserve observer-related information for detection tasks. The proposed method was objectively evaluated on the task of detecting perfusion defect in myocardial perfusion SPECT images using a retrospective study with anonymized clinical data. Our results demonstrate that the proposed method yields improved performance on this detection task compared to using low-dose images. The results show that by preserving task-specific information, DL may provide a mechanism to improve observer performance in low-dose myocardial perfusion SPECT.
翻訳日:2023-03-02 15:59:48 公開日:2023-03-01
# シーケンシャルマルチラベル分類のためのラベル注意ネットワーク

Label Attention Network for sequential multi-label classification ( http://arxiv.org/abs/2303.00280v1 )

ライセンス: Link先を確認
Elizaveta Kovtun, Galina Boeva, Artem Zabolotnyi, Evgeny Burnaev, Martin Spindler and Alexey Zaytsev(参考訳) マルチラベル分類は、シーケンシャルデータに対する自然な問題ステートメントである。 私たちは、顧客による次の注文のアイテムや、明日起きる金融取引の種類に興味があるかもしれません。 現代のほとんどのアプローチは、マルチラベル分類のためのトランスフォーマーアーキテクチャに焦点を当て、各要素がマルチラベルベクトルおよび補足情報であるシーケンスの要素に対して自己アテンションを導入する。 しかし、この方法では、特定のラベル間の相互接続に関連するローカル情報を緩める。 予測ステップに先立ってラベルに自己注意機構を適用することを提案する。 実験によって、そのようなアーキテクチャはモデルの性能を改善し、ラベル間で有意義な注意を払うことが示唆される。 ラベルアテンションネットワークのmicro-AUCは0.9847ドル、バニラ変換器のベンチマークは0.7390ドルである。

Multi-label classification is a natural problem statement for sequential data. We might be interested in the items of the next order by a customer, or types of financial transactions that will occur tomorrow. Most modern approaches focus on transformer architecture for multi-label classification, introducing self-attention for the elements of a sequence with each element being a multi-label vector and supplementary information. However, in this way we loose local information related to interconnections between particular labels. We propose instead to use a self-attention mechanism over labels preceding the predicted step. Conducted experiments suggest that such architecture improves the model performance and provides meaningful attention between labels. The metric such as micro-AUC of our label attention network is $0.9847$ compared to $0.7390$ for vanilla transformers benchmark.
翻訳日:2023-03-02 15:53:54 公開日:2023-03-01
# 視覚言語アライメントによるCovid-19セグメンテーション

Coarse-to-Fine Covid-19 Segmentation via Vision-Language Alignment ( http://arxiv.org/abs/2303.00279v1 )

ライセンス: Link先を確認
Dandan Shan, Zihan Li, Wentao Chen, Qingde Li, Jie Tian, Qingqi Hong(参考訳) 新型コロナウイルス(covid-19)病変の分節化は、医師がcovid-19の診断と治療を改善するのに役立つ。 しかし、COVID-19データセットに詳細な情報や高品質のアノテーションがないため、関連する研究はほとんどない。 上記の問題を解決するために,画像情報の病変数と特定位置を含むテキスト情報をマージするために,ビジョン・ランゲージアライメントによる粗面分割フレームワークであるC2FVLを提案する。 テキスト情報の導入により、ネットワークは挑戦的なデータセットの予測結果をより良いものにすることができる。 我々は胸部X線とCTを含む2つのCOVID-19データセットについて広範な実験を行い、提案手法が他の最先端セグメンテーション法より優れていることを示す。

Segmentation of COVID-19 lesions can assist physicians in better diagnosis and treatment of COVID-19. However, there are few relevant studies due to the lack of detailed information and high-quality annotation in the COVID-19 dataset. To solve the above problem, we propose C2FVL, a Coarse-to-Fine segmentation framework via Vision-Language alignment to merge text information containing the number of lesions and specific locations of image information. The introduction of text information allows the network to achieve better prediction results on challenging datasets. We conduct extensive experiments on two COVID-19 datasets including chest X-ray and CT, and the results demonstrate that our proposed method outperforms other state-of-the-art segmentation methods.
翻訳日:2023-03-02 15:53:41 公開日:2023-03-01
# 有限拡張Su-Schrieffer-Heeger系におけるエッジ状態のクエンチダイナミクス

Quench dynamics of edge states in a finite extended Su-Schrieffer-Heeger system ( http://arxiv.org/abs/2303.00269v1 )

ライセンス: Link先を確認
Anirban Ghosh, Andy M. Martin and Sonjoy Majumder(参考訳) 複数の位相位相を保持することができる長距離ホッピングを含む拡張Su-Schrieffer-Heeger(SSH)モデルのクエンチダイナミクスについて検討する。 系のトポロジ相を幾何学的に特徴付けるために巻数図を用いて、2つのトポロジ相間のクエンチに対して複数の巻数遷移経路が存在することを示す。 クエンチダイナミクスの依存性は、フェルミオンエッジモードとクエンチ後の輸送の生存確率の観点から研究されている。 同じ初期位相と最終位相の2つの位相状態間の2つのクエンチ経路について、エッジ状態の生存確率は巻数遷移経路に強く依存していることが示されている。 この依存は、経路に対応するエネルギーバンド図を用いて説明される。 その後, 巻線数遷移経路が輸送に及ぼす影響について検討した。 最大輸送路の速度は巻数遷移経路に沿って変化することがわかった。 この変動は私たちが選択した経路、すなわち経路に応じて増加するか減少する経路に依存する。 ファイナル・クエンチ・ハミルトニアン(英語版)の係数写像、エネルギースペクトル、およびエッジ状態の空間構造の解析は、経路に依存した速度変化現象の理解を提供する。

We examine the quench dynamics of an extended Su-Schrieffer-Heeger(SSH) model involving long-range hopping that can hold multiple topological phases. Using winding number diagrams to characterize the system's topological phases geometrically, it is shown that there can be multiple winding number transition paths for a quench between two topological phases. The dependence of the quench dynamics is studied in terms of the survival probability of the fermionic edge modes and post-quench transport. For two quench paths between two topological regimes with the same initial and final topological phase, the survival probability of edge states is shown to be strongly dependent on the winding number transition path. This dependence is explained using energy band diagrams corresponding to the paths. Following this, the effect of the winding number transition path on transport is investigated. We find that the velocities of maximum transport channels varied along the winding number transition path. This variation depends on the path we choose, i.e., it increases or decreases depending upon the path. An analysis of the coefficient maps, energy spectrum, and spatial structure of the edge states of the final quench Hamiltonian provides an understanding of the path-dependent velocity variation phenomenon.
翻訳日:2023-03-02 15:53:28 公開日:2023-03-01
# コラージュ拡散

Collage Diffusion ( http://arxiv.org/abs/2303.00262v1 )

ライセンス: Link先を確認
Vishnu Sarukkai, Linden Li, Arden Ma, Christopher R\'e, Kayvon Fatahalian(参考訳) テキスト条件拡散モデルは高品質で多様な画像を生成する。 しかし、テキストは望ましい対象画像に対する曖昧な仕様であり、拡散ベースの画像生成のためのユーザフレンドリーな追加制御が必要となる。 いくつかのオブジェクトを持つシーンの映像出力を正確に制御することに注力する。 ユーザはコラージュを定義することで画像生成を制御する: テキストプロンプトと順序付けられた一連のレイヤがペアになっていて、各レイヤはRGBAイメージと対応するテキストプロンプトである。 我々はコラージュ条件拡散アルゴリズムであるColllage Diffusionを導入し、ユーザーはシーン内のオブジェクトの空間的配置と視覚的属性の両方を制御でき、また、生成された画像の個々のコンポーネントを編集することができる。 コラージュ拡散は、入力テキストの異なる部分が入力コラージュ層で指定された様々な位置に対応することを保証するため、テキスト画像のクロスタッチをレイヤーのアルファマスクと修飾する。 テキストに特定されない個々のコラージュ層の特性を維持するため、コラージュ拡散は、レイヤ毎の特殊テキスト表現を学習する。 コラージュ入力はまた、最終的な出力に対するきめ細かい制御を提供する層ベースの制御を可能にする: ユーザーは層単位で画像調和を制御でき、他のオブジェクトを固定しながら生成された画像内の個々のオブジェクトを編集できる。 コラージュ条件の画像生成には、入力コラージュを調和させてオブジェクトを合体させる必要がある - 重要な課題は、入力コラージュ内のオブジェクトの位置や重要な視覚特性の変化を最小限に抑えながら、コラージュの他の属性を調和プロセスで変化させることである。 コラージュ拡散は、層入力に存在するリッチな情報を活用することで、望ましいオブジェクトの位置と視覚特性を以前のアプローチよりもよく維持するグローバルに調和した画像を生成する。

Text-conditional diffusion models generate high-quality, diverse images. However, text is often an ambiguous specification for a desired target image, creating the need for additional user-friendly controls for diffusion-based image generation. We focus on having precise control over image output for scenes with several objects. Users control image generation by defining a collage: a text prompt paired with an ordered sequence of layers, where each layer is an RGBA image and a corresponding text prompt. We introduce Collage Diffusion, a collage-conditional diffusion algorithm that allows users to control both the spatial arrangement and visual attributes of objects in the scene, and also enables users to edit individual components of generated images. To ensure that different parts of the input text correspond to the various locations specified in the input collage layers, Collage Diffusion modifies text-image cross-attention with the layers' alpha masks. To maintain characteristics of individual collage layers that are not specified in text, Collage Diffusion learns specialized text representations per layer. Collage input also enables layer-based controls that provide fine-grained control over the final output: users can control image harmonization on a layer-by-layer basis, and they can edit individual objects in generated images while keeping other objects fixed. Collage-conditional image generation requires harmonizing the input collage to make objects fit together--the key challenge involves minimizing changes in the positions and key visual attributes of objects in the input collage while allowing other attributes of the collage to change in the harmonization process. By leveraging the rich information present in layer input, Collage Diffusion generates globally harmonized images that maintain desired object locations and visual characteristics better than prior approaches.
翻訳日:2023-03-02 15:53:10 公開日:2023-03-01
# 効率性ネットの高速化:遺伝的アルゴリズムによる畳み込みニューラルネットワークのアップデートブロックの選択

Speeding Up EfficientNet: Selecting Update Blocks of Convolutional Neural Networks using Genetic Algorithm in Transfer Learning ( http://arxiv.org/abs/2303.00261v1 )

ライセンス: Link先を確認
Md. Mehedi Hasana, Muhammad Ibrahim, Md. Sawkat Ali(参考訳) 畳み込みニューラルネットワーク(CNN)の性能はアーキテクチャに大きく依存する。 CNNの転送学習性能は、トレーニング可能なレイヤの選択に大きく依存する。 ターゲットとするデータセットの最も効果的な更新レイヤを選択するには、多くの場合、多くの実践者が知らないcnnアーキテクチャに関する専門家の知識が必要です。 一般ユーザーは、ドメインの専門家によって開発された利用可能なアーキテクチャ(例えば、GoogleNet、ResNet、EfficientNetなど)を使うのを好む。 レイヤの数が増えるにつれて、更新レイヤを手作業で選択することが難しくなり、面倒になってきています。 そこで本研究では,この問題を緩和するための遺伝的アルゴリズムの適用について検討する。 一般的な事前訓練ネットワークの畳み込み層は、しばしばその構成要素を構成するモジュールにグループ化される。 パラメータを更新するための階層ブロックを選択する遺伝的アルゴリズムを考案する。 ImageNetで事前トレーニングされたEfficientNetB0を用いて、ターゲットデータセットとしてFood-101、CIFAR-100、MangoLeafBDを用いて実験することにより、アルゴリズムは精度の点でベースラインと同等または良質な結果を得ることができ、パラメータ数が少ないため、トレーニングや評価時間が少なくなることを示した。 また、各ブロックの有効性を更新ブロックとして測定し、アルゴリズムが選択したブロックの重要性を分析するためにブロック重要度と呼ばれる指標を考案した。

The performance of convolutional neural networks (CNN) depends heavily on their architectures. Transfer learning performance of a CNN relies quite strongly on selection of its trainable layers. Selecting the most effective update layers for a certain target dataset often requires expert knowledge on CNN architecture which many practitioners do not posses. General users prefer to use an available architecture (e.g. GoogleNet, ResNet, EfficientNet etc.) that is developed by domain experts. With the ever-growing number of layers, it is increasingly becoming quite difficult and cumbersome to handpick the update layers. Therefore, in this paper we explore the application of genetic algorithm to mitigate this problem. The convolutional layers of popular pretrained networks are often grouped into modules that constitute their building blocks. We devise a genetic algorithm to select blocks of layers for updating the parameters. By experimenting with EfficientNetB0 pre-trained on ImageNet and using Food-101, CIFAR-100 and MangoLeafBD as target datasets, we show that our algorithm yields similar or better results than the baseline in terms of accuracy, and requires lower training and evaluation time due to learning less number of parameters. We also devise a metric called block importance to measure efficacy of each block as update block and analyze the importance of the blocks selected by our algorithm.
翻訳日:2023-03-02 15:52:39 公開日:2023-03-01
# 同時機械翻訳のための隠れマルコフ変換器

Hidden Markov Transformer for Simultaneous Machine Translation ( http://arxiv.org/abs/2303.00257v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) 同時機械翻訳(SiMT)は、ソースシーケンスを受信しながらターゲットシーケンスを出力し、各ターゲットトークンの翻訳をいつ開始するかを学ぶことが、SiMTタスクのコアチャレンジである。 しかし、翻訳開始の瞬間は常にモデルの内部に隠れており、観測対象シーケンスでしか管理できないため、翻訳開始の可能な多くの瞬間の中で最適な瞬間を学ぶことは容易ではない。 本稿では,隠れマルコフ変換の開始モーメントを隠れ事象として扱い,対象シーケンスを対応する観測事象として扱い,それらを隠れマルコフモデルとして整理する隠れマルコフ変換器(hmt)を提案する。 HMTは、候補隠れイベントとして翻訳を開始する複数の瞬間を明示的にモデル化し、ターゲットトークンを生成するために1つを選択する。 トレーニング中、HMTは、翻訳開始の複数の瞬間にターゲットシーケンスの限界確率を最大化することにより、ターゲットトークンをより正確に生成できる瞬間に翻訳を開始することを学習する。 複数のSiMTベンチマークの実験では、HMTは強いベースラインを上回り、最先端のパフォーマンスを達成する。

Simultaneous machine translation (SiMT) outputs the target sequence while receiving the source sequence, and hence learning when to start translating each target token is the core challenge for SiMT task. However, it is non-trivial to learn the optimal moment among many possible moments of starting translating, as the moments of starting translating always hide inside the model and can only be supervised with the observed target sequence. In this paper, we propose a Hidden Markov Transformer (HMT), which treats the moments of starting translating as hidden events and the target sequence as the corresponding observed events, thereby organizing them as a hidden Markov model. HMT explicitly models multiple moments of starting translating as the candidate hidden events, and then selects one to generate the target token. During training, by maximizing the marginal likelihood of the target sequence over multiple moments of starting translating, HMT learns to start translating at the moments that target tokens can be generated more accurately. Experiments on multiple SiMT benchmarks show that HMT outperforms strong baselines and achieves state-of-the-art performance.
翻訳日:2023-03-02 15:52:15 公開日:2023-03-01
# 古典力学においてクローン化できない位相空間

Phase spaces that cannot be cloned in classical mechanics ( http://arxiv.org/abs/2303.00255v1 )

ライセンス: Link先を確認
Yuan Yao(参考訳) 量子クローニング(arxiv:0511088)のアイデアに従い、シンプレクティック幾何学を用いて古典力学の文脈におけるクローニングの物理的に自然な定義を与える(arXiv:1010.6103)。 フェニエスに従えば、位相空間 $(\mathbb{R}^{2N}, dx_i\wedge dy_i)$ を持つ任意の系は我々の定義でクローン化できる。 もし$(m,\omega)$が私たちの定義でクローンできるなら、$m$は契約可能でなければならない。 例えば、これは単純な振り子をハミルトン力学ではクローンできないことを示す。 最後に、さらにいくつかの疑問を議論し、'cloning energy'の概念を定式化する。

Following the idea of quantum cloning (arxiv:0511088), we give a physically natural definition of cloning in context of classical mechanics using symplectic geometry, building on work of Fenyes (arXiv:1010.6103). We observe, following Fenyes, any system with phase space $(\mathbb{R}^{2N}, dx_i\wedge dy_i)$ can be cloned in our definition. We show that if $(M,\omega)$ can be cloned in our definition, then $M$ must be contractible. For instance, this shows the simple pendulum cannot be cloned in Hamiltonian mechanics. Finally we discuss some further questions, and give a formulation of the notion of ``cloning energy''.
翻訳日:2023-03-02 15:51:56 公開日:2023-03-01
# フェデレートラーニングにおけるロバストモデルの高次不均質化

Combating Exacerbated Heterogeneity for Robust Models in Federated Learning ( http://arxiv.org/abs/2303.00250v1 )

ライセンス: Link先を確認
Jianing Zhu, Jiangchao Yao, Tongliang Liu, Quanming Yao, Jianliang Xu, Bo Han(参考訳) 現実世界のアプリケーションにおけるプライバシーとセキュリティの懸念は、敵対的に堅牢な連合モデルの開発につながった。 しかし、一方のフレームワークにおける対人訓練と連合学習の直接的な組み合わせは、望ましくない堅牢性劣化を引き起こす可能性がある。 この現象の因果関係は、生成した敵対データが、ローカルクライアント間のデータ不均一性を悪化させ、包み込まれたフェデレート学習が不十分なことにある。 この問題に対処するため,我々はslack federated adversarial training(sfat)と呼ばれる新しいフレームワークを提案する。 理論的には,提案手法の収束を解析し,連合学習と対人訓練を組み合わせた目的を適切に緩和する。 実験として,様々なベンチマークデータセットと実世界のデータセットにおけるsfatの合理性と有効性を検証する。 コードはhttps://github.com/ZFancy/SFATで公開されている。

Privacy and security concerns in real-world applications have led to the development of adversarially robust federated models. However, the straightforward combination between adversarial training and federated learning in one framework can lead to the undesired robustness deterioration. We discover that the attribution behind this phenomenon is that the generated adversarial data could exacerbate the data heterogeneity among local clients, making the wrapped federated learning perform poorly. To deal with this problem, we propose a novel framework called Slack Federated Adversarial Training (SFAT), assigning the client-wise slack during aggregation to combat the intensified heterogeneity. Theoretically, we analyze the convergence of the proposed method to properly relax the objective when combining federated learning and adversarial training. Experimentally, we verify the rationality and effectiveness of SFAT on various benchmarked and real-world datasets with different adversarial training and federated optimization methods. The code is publicly available at https://github.com/ZFancy/SFAT.
翻訳日:2023-03-02 15:51:42 公開日:2023-03-01
# ISBNet: インスタンス対応サンプリングとボックス対応動的畳み込みを備えた3Dポイントクラウドインスタンスセグメンテーションネットワーク

ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution ( http://arxiv.org/abs/2303.00246v1 )

ライセンス: Link先を確認
Tuan Duc Ngo and Binh-Son Hua and Khoi Nguyen(参考訳) 既存の3dインスタンスのセグメンテーション手法はボトムアップ設計 -- ポイントをクラスタにグループ化するための手作業による微調整アルゴリズムと、リファインメントネットワークによって優先される。 しかし、クラスタの品質に依存することで、(1)同じ意味クラスを持つ近くのオブジェクトをまとめる、または(2)疎結合な領域を持つ大きなオブジェクトをまとめるときに、これらのメソッドは影響を受けやすい結果を生み出す。 これらの制限に対処するため、ISBNetは、インスタンスをカーネルとして表現し、動的畳み込みによってインスタンスマスクをデコードする新しいクラスタフリーメソッドである。 本稿では,高リコールおよび差別化カーネルを効率的に生成するために,サンプル候補に対するインスタンス対応Farthest Point Smplingという簡単な戦略を提案し,PointNet++にインスパイアされたローカルアグリゲーション層を利用して候補機能をエンコードする。 さらに,動的畳み込みにおける3次元軸方向境界ボックスの予測と活用により,さらに性能が向上することを示す。 本稿では,ScanNetV2 (55.9), S3DIS (60.8), STPLS3D (49.2) について,APの観点で新たな最先端結果を設定した。

Existing 3D instance segmentation methods are predominated by the bottom-up design -- manually fine-tuned algorithm to group points into clusters followed by a refinement network. However, by relying on the quality of the clusters, these methods generate susceptible results when (1) nearby objects with the same semantic class are packed together, or (2) large objects with loosely connected regions. To address these limitations, we introduce ISBNet, a novel cluster-free method that represents instances as kernels and decodes instance masks via dynamic convolution. To efficiently generate high-recall and discriminative kernels, we propose a simple strategy named Instance-aware Farthest Point Sampling to sample candidates and leverage the local aggregation layer inspired by PointNet++ to encode candidate features. Moreover, we show that predicting and leveraging the 3D axis-aligned bounding boxes in the dynamic convolution further boosts performance. Our method set new state-of-the-art results on ScanNetV2 (55.9), S3DIS (60.8), and STPLS3D (49.2) in terms of AP and retains fast inference time (237ms per scene on ScanNetV2).
翻訳日:2023-03-02 15:51:27 公開日:2023-03-01
# SUNY: 必要かつ十分の観点からの畳み込みニューラルネットワークの視覚的解釈フレームワーク

SUNY: A Visual Interpretation Framework for Convolutional Neural Networks from a Necessary and Sufficient Perspective ( http://arxiv.org/abs/2303.00244v1 )

ライセンス: Link先を確認
Xiwei Xuan, Ziquan Deng, Hsuan-Tien Lin, Zhaodan Kong, Kwan-Liu Ma(参考訳) 研究者は、クラスアクティベーションマップ(cam)に基づくアプローチを主要な家族として含む、塩分マップを介して畳み込みニューラルネットワーク(cnn)を視覚的に解釈するための様々な方法を提案した。 しかしながら、内部設計ロジックの観点では、既存のcamベースのアプローチは、人間が説明を理解するのに役立つ「なぜ」コアな疑問に答える因果的視点をしばしば見落としている。 加えて、現在のcnnの説明は、望ましい説明の2つの相補的な側面である必要と十分性の両方の考慮を欠いている。 本稿では,人間の理解を深めるための説明を合理化するための因果関係駆動型フレームワークSUNYを提案する。 CNNモデルの入力特徴や内部フィルタを仮説的原因として、SUNYは必要な視点と十分な視点の両方について双方向の定量化による説明を生成する。 広範な評価は、SUNYが必要と十分性の角度からより情報的で説得力のある説明を生成するだけでなく、ILSVRC2012やCUB-200-2011を含む大規模データセットよりも、さまざまなCNNアーキテクチャをまたいだ他のアプローチと競合するパフォーマンスを達成することを正当化している。

Researchers have proposed various methods for visually interpreting the Convolutional Neural Network (CNN) via saliency maps, which include Class-Activation-Map (CAM) based approaches as a leading family. However, in terms of the internal design logic, existing CAM-based approaches often overlook the causal perspective that answers the core "why" question to help humans understand the explanation. Additionally, current CNN explanations lack the consideration of both necessity and sufficiency, two complementary sides of a desirable explanation. This paper presents a causality-driven framework, SUNY, designed to rationalize the explanations toward better human understanding. Using the CNN model's input features or internal filters as hypothetical causes, SUNY generates explanations by bi-directional quantifications on both the necessary and sufficient perspectives. Extensive evaluations justify that SUNY not only produces more informative and convincing explanations from the angles of necessity and sufficiency, but also achieves performances competitive to other approaches across different CNN architectures over large-scale datasets, including ILSVRC2012 and CUB-200-2011.
翻訳日:2023-03-02 15:51:02 公開日:2023-03-01
# FLDによるフェデレーション学習におけるバックドアの緩和

Mitigating Backdoors in Federated Learning with FLD ( http://arxiv.org/abs/2303.00302v1 )

ライセンス: Link先を確認
Yihang Lin, Pengyuan Zhou, Zhiqian Wu, Yong Liao(参考訳) フェデレーション学習は、クライアントがプライバシー保護のために生データをアップロードすることなく、グローバルモデルを協調的にトレーニングすることを可能にする。 この機能、すなわち、参加者のデータセットをレビューできないことは、最近、バックドア攻撃に直面したフェデレーション学習の脆弱性の原因であることが判明した。 既存の防御方法は2つの視点から外れている。 1) 非常に特異で限定的な攻撃モデルのみを考慮し、分散バックドア攻撃のような先進的なバックドア攻撃に対処できず、グローバルトリガーを複数の分散トリガに分解する。 2) モデル粒度に基づく検出を行い, モデル寸法の影響を受けやすいようにした。 これらの課題に対処するために,我々は,バックドア攻撃を効果的に防御する新しいモデルフィルタリング手法であるフェデレート層検出(fld)を提案する。 FLDは、層粒度に基づくモデルを調べ、完全なモデルの詳細を捉え、モデル寸法に関係なく潜在的バックドアモデルを自動的に検出する。 我々はFLDの収束の理論的解析と証明を提供する。 広範囲な実験により、fldは最先端のバックドア攻撃を効果的に軽減し、プライマリタスクの精度に悪影響を及ぼすことが示されている。

Federated learning allows clients to collaboratively train a global model without uploading raw data for privacy preservation. This feature, i.e., the inability to review participants' datasets, has recently been found responsible for federated learning's vulnerability in the face of backdoor attacks. Existing defense methods fall short from two perspectives: 1) they consider only very specific and limited attacker models and unable to cope with advanced backdoor attacks, such as distributed backdoor attacks, which break down the global trigger into multiple distributed triggers. 2) they conduct detection based on model granularity thus the performance gets impacted by the model dimension. To address these challenges, we propose Federated Layer Detection (FLD), a novel model filtering approach for effectively defending against backdoor attacks. FLD examines the models based on layer granularity to capture the complete model details and effectively detect potential backdoor models regardless of model dimension. We provide theoretical analysis and proof for the convergence of FLD. Extensive experiments demonstrate that FLD effectively mitigates state-of-the-art backdoor attacks with negligible impact on the accuracy of the primary task.
翻訳日:2023-03-02 15:45:22 公開日:2023-03-01
# 潜在力学系における並列推論のための補助MCMCと粒子ギブスサンプリング器

Auxiliary MCMC and particle Gibbs samplers for parallelisable inference in latent dynamical systems ( http://arxiv.org/abs/2303.00301v1 )

ライセンス: Link先を確認
Adrien Corenflos and Simo S\"arkk\"a(参考訳) 我々はマルコフ連鎖モンテカルロ(MCMC)の2つの新しいクラスを導入し、潜在力学モデルの推論を行う。 カルマン検体を補助的に作成した最初のものは、マルコフ連鎖の状態に対応する走行軌跡の周りの線型ガウス状態空間モデル近似の発見に依存している。 第二に、補助粒子ギブスサンプリング器は、粒子ギブスに使用する補助ファインマン-カックモデルにおいて良い局所的提案を導出する。 両方のサンプルは、補助観測により目標分布を増大させることで制御され、効率的なギブスサンプリングルーチンとなる。 本稿では,導入したサンプルの相対統計および計算性能について考察し,時間次元に沿って補助サンプルを並列化する方法について述べる。 本稿では,粒子フィルタリングの文献から得られたアルゴリズムの利点と欠点を古典的例に示す。

We introduce two new classes of exact Markov chain Monte Carlo (MCMC) samplers for inference in latent dynamical models. The first one, which we coin auxiliary Kalman samplers, relies on finding a linear Gaussian state-space model approximation around the running trajectory corresponding to the state of the Markov chain. The second, that we name auxiliary particle Gibbs samplers corresponds to deriving good local proposals in an auxiliary Feynman--Kac model for use in particle Gibbs. Both samplers are controlled by augmenting the target distribution with auxiliary observations, resulting in an efficient Gibbs sampling routine. We discuss the relative statistical and computational performance of the samplers introduced, and show how to parallelise the auxiliary samplers along the time dimension. We illustrate the respective benefits and drawbacks of the resulting algorithms on classical examples from the particle filtering literature.
翻訳日:2023-03-02 15:45:04 公開日:2023-03-01
# bisvp:双方向直列頂点予測による建物足跡の抽出

BiSVP: Building Footprint Extraction via Bidirectional Serialized Vertex Prediction ( http://arxiv.org/abs/2303.00300v1 )

ライセンス: Link先を確認
Mingming Zhang, Ye Du, Zhenghui Hu, Qingjie Liu, Yunhong Wang(参考訳) 近年,リモートセンシング画像から建物の足跡を抽出することが注目されている。 支配的なアプローチは、このような方法の適用を制限するため、煩雑な改良段階を持つベクタライズド・ビルディング・マスクを生成することで、この問題に対処している。 本稿では, 概念的に直感的で, シンプルで, 効果的である, 改良のない, エンドツーエンドの建築フットプリント抽出手法を提案する。 提案手法は, 直列化頂点を直接双方向に予測する手法として, 順序付き頂点を持つ建物インスタンスを表現し, 建物フットプリント抽出を定式化する。 さらに,高密度建築頂点予測タスクにおいて必須となる,高分解能と豊かな意味的特徴学習を容易にするクロススケール機能融合(csff)モジュールを提案する。 ベルとホイッスルがなければ、私たちのBiSVPは3つのビルディングインスタンスセグメンテーションベンチマークにおいて最先端の手法よりもかなり優れています。 コードとデータセットは公開される予定だ。

Extracting building footprints from remote sensing images has been attracting extensive attention recently. Dominant approaches address this challenging problem by generating vectorized building masks with cumbersome refinement stages, which limits the application of such methods. In this paper, we introduce a new refinement-free and end-to-end building footprint extraction method, which is conceptually intuitive, simple, and effective. Our method, termed as BiSVP, represents a building instance with ordered vertices and formulates the building footprint extraction as predicting the serialized vertices directly in a bidirectional fashion. Moreover, we propose a cross-scale feature fusion (CSFF) module to facilitate high resolution and rich semantic feature learning, which is essential for the dense building vertex prediction task. Without bells and whistles, our BiSVP outperforms state-of-the-art methods by considerable margins on three building instance segmentation benchmarks, clearly demonstrating its superiority. The code and datasets will be made public available.
翻訳日:2023-03-02 15:44:50 公開日:2023-03-01
# すべての関節の動きを捉える:3次元人間のポーズと独立トークンによる形状推定

Capturing the motion of every joint: 3D human pose and shape estimation with independent tokens ( http://arxiv.org/abs/2303.00298v1 )

ライセンス: Link先を確認
Sen Yang and Wen Heng and Gang Liu and Guozhong Luo and Wankou Yang and Gang Yu(参考訳) 本稿では,モノクロ映像から3次元人間のポーズと形状を推定する新しい手法を提案する。 このタスクは、モノクロ画像やビデオから、ピクセルアライメント3Dの人間のポーズと身体の形状を直接復元する必要がある。 精度を向上させるために、既存の手法は初期化平均ポーズと形状を事前推定とパラメータ回帰を反復的な誤差フィードバック方式に頼っている。 さらに、映像ベースアプローチは、画像レベルの特徴の全体的な変化をモデル化して、単一フレームの特徴を時間的に強化するが、ジョイントレベルでの回転運動を捉えられず、局所的な時間的一貫性を保証できない。 これらの問題を解決するために,独立トークンの設計によるトランスフォーマーモデルを提案する。 まず、画像の特徴に依存しない3種類のトークンを紹介します: \textit{joint rotation tokens, shape token, camera token}。 トランスフォーマー層を介して画像特徴と段階的に相互作用することにより、これらのトークンは、人間の3次元関節回転、体形、位置情報の事前知識を大規模データから符号化し、所定の画像に条件付きSMPLパラメータを推定するために更新される。 第二に,提案したトークンベース表現の利点により,各関節の回転時間情報を捉えることに集中する時間モデルが,局所的に大きなジッタを防止できることを示す。 概念的には単純だが,提案手法は3DPWとHuman3.6Mデータセットにおいて優れた性能を発揮する。 ResNet-50とTransformerアーキテクチャを用いて、挑戦的な3DPWのPA-MPJPEで42.0mmの誤差を得る。 コードはhttps://github.com/yangsenius/INT_HMR_Modelで公開される。

In this paper we present a novel method to estimate 3D human pose and shape from monocular videos. This task requires directly recovering pixel-alignment 3D human pose and body shape from monocular images or videos, which is challenging due to its inherent ambiguity. To improve precision, existing methods highly rely on the initialized mean pose and shape as prior estimates and parameter regression with an iterative error feedback manner. In addition, video-based approaches model the overall change over the image-level features to temporally enhance the single-frame feature, but fail to capture the rotational motion at the joint level, and cannot guarantee local temporal consistency. To address these issues, we propose a novel Transformer-based model with a design of independent tokens. First, we introduce three types of tokens independent of the image feature: \textit{joint rotation tokens, shape token, and camera token}. By progressively interacting with image features through Transformer layers, these tokens learn to encode the prior knowledge of human 3D joint rotations, body shape, and position information from large-scale data, and are updated to estimate SMPL parameters conditioned on a given image. Second, benefiting from the proposed token-based representation, we further use a temporal model to focus on capturing the rotational temporal information of each joint, which is empirically conducive to preventing large jitters in local parts. Despite being conceptually simple, the proposed method attains superior performances on the 3DPW and Human3.6M datasets. Using ResNet-50 and Transformer architectures, it obtains 42.0 mm error on the PA-MPJPE metric of the challenging 3DPW, outperforming state-of-the-art counterparts by a large margin. Code will be publicly available at https://github.com/yangsenius/INT_HMR_Model
翻訳日:2023-03-02 15:44:30 公開日:2023-03-01
# 大規模地図上での効率的なロボット位置推定

Region Prediction for Efficient Robot Localization on Large Maps ( http://arxiv.org/abs/2303.00295v1 )

ライセンス: Link先を確認
Matteo Scucchia and Davide Maltoni(参考訳) 既に探索された場所(場所認識)を認識することは、ロボットの再局在とループ閉鎖検出を可能にするために、同時局在マッピング(SLAM)の基本課題である。 トポロジカルSLAMでは、認識は現在のノードに関連するシグネチャ(または特徴ベクトル)と既知のマップ内のノードのシグネチャを比較することによって行われる。 しかし、ノード数が増加するにつれて、現在のノードシグネチャと既存のノードシグネチャのマッチングは非効率になり、リアルタイムナビゲーションを妨害する。 本稿では,位置認識のためのマップノードのサブセットを事前選択する手法を提案する。 マップノードは探索中にクラスタ化され、各クラスタはリージョンに関連付けられる。 領域ラベルはディープニューラルネットワークの予測対象となり、ナビゲーション中に高い確率で予測された領域に関連付けられたノードのみをマッチングとして考慮する。 提案手法は様々なSLAM手法に統合できるが,本研究ではRTAB-Map(リアルタイム・トポロジカル・SLAMの一般的なフレームワーク)との効果的な統合について述べる。 実験のすべてのコードと資料はhttps://github.com/MI-BioLab/rea-learner.comからオンラインで入手できる。

Recognizing already explored places (a.k.a. place recognition) is a fundamental task in Simultaneous Localization and Mapping (SLAM) to enable robot relocalization and loop closure detection. In topological SLAM the recognition takes place by comparing a signature (or feature vector) associated to the current node with the signatures of the nodes in the known map. However, as the number of nodes increases, matching the current node signature against all the existing ones becomes inefficient and thwarts real-time navigation. In this paper we propose a novel approach to pre-select a subset of map nodes for place recognition. The map nodes are clustered during exploration and each cluster is associated with a region. The region labels become the prediction targets of a deep neural network and, during navigation, only the nodes associated with the regions predicted with high probability are considered for matching. While the proposed technique can be integrated in different SLAM approaches, in this work we describe an effective integration with RTAB-Map (a popular framework for real-time topological SLAM) which allowed us to design and run several experiments to demonstrate its effectiveness. All the code and material from the experiments will be available online at https://github.com/MI-BioLab/region-learner.
翻訳日:2023-03-02 15:43:57 公開日:2023-03-01
# gpt-3.5はどのぐらい堅牢か? 言語理解課題に関する総合的研究

How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks ( http://arxiv.org/abs/2303.00293v1 )

ライセンス: Link先を確認
Xuanting Chen, Junjie Ye, Can Zu, Nuo Xu, Rui Zheng, Minlong Peng, Jie Zhou, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) GPT-3.5モデルは、様々な自然言語処理(NLP)タスクにおいて印象的な性能を示し、その強い理解と推論能力を示している。 しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されておらず、モデルの安定性を評価する上で特に重要であり、信頼できるAIの重要な側面である。 本研究では,gpt-3.5の包括的実験分析を行い,21のデータセット(約116kテストサンプル)と,nlu(popular natural language understanding)タスクをカバーするtextflintから66のテキスト変換を行った。 以上の結果から,gpt-3.5は既存の微調整モデルを上回るが,自然言語推論や感情分析タスクでは,平均性能が最大35.74\%,43.59\%低下するなど,頑健な低下がみられた。 また, GPT-3.5は, 頑健性不安定性, 迅速な感度, 数感度など, 特定の頑健性課題に直面している。 これらの知見は、GPT-3.5の全体的な性能と一般化能力を高めるために、その限界を理解し、これらの課題に対処する将来の研究を導くのに有用である。

The GPT-3.5 models have demonstrated impressive performance in various Natural Language Processing (NLP) tasks, showcasing their strong understanding and reasoning capabilities. However, their robustness and abilities to handle various complexities of the open world have yet to be explored, which is especially crucial in assessing the stability of models and is a key aspect of trustworthy AI. In this study, we perform a comprehensive experimental analysis of GPT-3.5, exploring its robustness using 21 datasets (about 116K test samples) with 66 text transformations from TextFlint that cover 9 popular Natural Language Understanding (NLU) tasks. Our findings indicate that while GPT-3.5 outperforms existing fine-tuned models on some tasks, it still encounters significant robustness degradation, such as its average performance dropping by up to 35.74\% and 43.59\% in natural language inference and sentiment analysis tasks, respectively. We also show that GPT-3.5 faces some specific robustness challenges, including robustness instability, prompt sensitivity, and number sensitivity. These insights are valuable for understanding its limitations and guiding future research in addressing these challenges to enhance GPT-3.5's overall performance and generalization abilities.
翻訳日:2023-03-02 15:43:35 公開日:2023-03-01
# StrucTexTv2: ドキュメントイメージ事前トレーニングのためのマスク付きビジュアルテキスト予測

StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training ( http://arxiv.org/abs/2303.00289v1 )

ライセンス: Link先を確認
Yuechen Yu, Yulin Li, Chengquan Zhang, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang(参考訳) 本稿では、マスク付き視覚テキスト予測を行うことにより、効果的な文書画像事前学習フレームワークであるStrucTexTv2を提案する。 テキスト領域レベルの画像マスキングに基づくマスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前トレーニングタスクで構成されている。 提案手法は,テキスト単語の境界ボックス座標に従って画像領域をランダムにマスキングする。 事前学習課題の目的は,マスク画像領域の画素と対応するマスクトークンを同時に再構成することである。 したがって、事前学習されたエンコーダは、通常マスク画像パッチを予測するマスク画像モデリングと比較して、よりテキスト的な意味を捉えることができる。 画像とテキストのモダリティの両方に依存する文書画像理解のためのマスク付きマルチモーダルモデリング手法と比較すると、StrucTexTv2は画像のみの入力をモデル化し、OCR前処理なしでより多くのアプリケーションシナリオを扱う可能性がある。 文書画像理解の主流ベンチマークに関する大規模な実験は、StrucTexTv2の有効性を示している。 画像分類、レイアウト分析、テーブル構造認識、ドキュメントocr、エンドツーエンドシナリオによる情報抽出など、さまざまな下流タスクにおいて、競争力のある、あるいは新たな最先端性能を実現する。

In this paper, we present StrucTexTv2, an effective document image pre-training framework, by performing masked visual-textual prediction. It consists of two self-supervised pre-training tasks: masked image modeling and masked language modeling, based on text region-level image masking. The proposed method randomly masks some image regions according to the bounding box coordinates of text words. The objectives of our pre-training tasks are reconstructing the pixels of masked image regions and the corresponding masked tokens simultaneously. Hence the pre-trained encoder can capture more textual semantics in comparison to the masked image modeling that usually predicts the masked image patches. Compared to the masked multi-modal modeling methods for document image understanding that rely on both the image and text modalities, StrucTexTv2 models image-only input and potentially deals with more application scenarios free from OCR pre-processing. Extensive experiments on mainstream benchmarks of document image understanding demonstrate the effectiveness of StrucTexTv2. It achieves competitive or even new state-of-the-art performance in various downstream tasks such as image classification, layout analysis, table structure recognition, document OCR, and information extraction under the end-to-end scenario.
翻訳日:2023-03-02 15:43:09 公開日:2023-03-01
# 意味的損失関数を用いた知識グラフ埋め込みモデルの強化

Enhancing Knowledge Graph Embedding Models with Semantic-driven Loss Functions ( http://arxiv.org/abs/2303.00286v1 )

ライセンス: Link先を確認
Nicolas Hubert, Pierre Monnin, Armelle Brun, Davy Monticolo(参考訳) 知識グラフ埋め込みモデル(KGEM)は、リンク予測を含む知識グラフ(KG)に関連する様々なタスクに使用される。 それらは、三重項とその対応するラベルのバッチを考慮して計算される損失関数で訓練される。 伝統的なアプローチでは、三重項のラベルは真か偽かである。 しかし、最近の研究は全ての負の三重項が等しく評価されるべきでないことを示唆している。 この一般的な仮定に従って、意味論的に有効な負の三重項は高品質な負三重項であると仮定する。 したがって、損失関数は、意味的に無効な否定関数とは異なる扱いをするべきである。 この目的のために,リンク予測のために主に使用される3つの損失関数に対する意味駆動型バージョンを提案する。 特に,関係領域や範囲に関する背景知識を損失関数に注入することにより,負の三重項のスコアを異なる扱いをする。 広範かつ制御された実験環境において,提案した損失関数は,異なるスキーマを基盤とする3つの公開ベンチマークKGに対して,体系的に満足度の高い結果を与えることを示す。 実際、提案された損失関数は、MRRとHits@10の値を改善するだけでなく、KGEMをよりセマンティックな認識に導く。 これは意味情報がKGEMをグローバルに改善していることを強調し、そのような情報が利用可能であれば損失関数に組み込むべきである。

Knowledge graph embedding models (KGEMs) are used for various tasks related to knowledge graphs (KGs), including link prediction. They are trained with loss functions that are computed considering a batch of scored triples and their corresponding labels. Traditional approaches consider the label of a triple to be either true or false. However, recent works suggest that all negative triples should not be valued equally. In line with this commonly adopted assumption, we posit that semantically valid negative triples might be high-quality negative triples. As such, loss functions should treat them differently from semantically invalid negative ones. To this aim, we propose semantic-driven versions for the three mostly used loss functions for link prediction. In particular, we treat the scores of negative triples differently by injecting background knowledge about relation domains and ranges into the loss functions. In an extensive and controlled experimental setting, we show that the proposed loss functions systematically provide satisfying results on three public benchmark KGs underpinned with different schemas, which demonstrates both the generality and superiority of our proposed approach. In fact, the proposed loss functions do not only lead to better MRR and Hits@10 values, but also drive KGEMs towards better semantic awareness. This highlights that semantic information globally improves KGEMs, and thus should be incorporated into loss functions whenever such information is available.
翻訳日:2023-03-02 15:42:48 公開日:2023-03-01
# 敵意の輪郭で目立たないようにする

To Make Yourself Invisible with Adversarial Semantic Contours ( http://arxiv.org/abs/2303.00284v1 )

ライセンス: Link先を確認
Yichi Zhang, Zijian Zhu, Hang Su, Jun Zhu, Shibao Zheng, Yuan He, Hui Xue(参考訳) 現代のオブジェクト検出器は敵の例に弱いため、現実世界のアプリケーションにリスクをもたらす可能性がある。 スパース・アタックは、画像全体の一般的な対向的摂動と比較して、一般に$\ell_0$-normの制約で正規化される潜在的なピクセルを選択し、対応するテクスチャを同時に最適化する必要がある重要なタスクである。 $\ell_0$ ノルムの非微分性は課題をもたらし、それに対応するために手動で設計されたパターンを採用したオブジェクト検出を攻撃する多くの作業がおこなわれる。 本稿では,物体の凹凸に先立って認識されたスパース攻撃のベイズ的定式化のMAP推定法であるAdversarial Semantic Contour (ASC)を提案する。 対象輪郭は、予め画素選択の探索空間を減らし、よりセマンティックなバイアスを導入して攻撃を改善する。 広範な実験により、ホワイトボックスシナリオではcocoのオブジェクト領域のピクセルの5\%以下、ブラックボックスシナリオでは10\%未満の変更によって、ascは異なるアーキテクチャを持つ9つの現代の検出器(例えば1段階、2段階トランスフォーマー)の予測を台無しにできることが示されている。 さらに、自律運転システムのデータセットに攻撃を拡大し、有効性を検証する。 コントラストは様々なアーキテクチャを持つ物体検出器の共通弱点であり、安全に敏感なシナリオに適用するために必要な注意が必要である。

Modern object detectors are vulnerable to adversarial examples, which may bring risks to real-world applications. The sparse attack is an important task which, compared with the popular adversarial perturbation on the whole image, needs to select the potential pixels that is generally regularized by an $\ell_0$-norm constraint, and simultaneously optimize the corresponding texture. The non-differentiability of $\ell_0$ norm brings challenges and many works on attacking object detection adopted manually-designed patterns to address them, which are meaningless and independent of objects, and therefore lead to relatively poor attack performance. In this paper, we propose Adversarial Semantic Contour (ASC), an MAP estimate of a Bayesian formulation of sparse attack with a deceived prior of object contour. The object contour prior effectively reduces the search space of pixel selection and improves the attack by introducing more semantic bias. Extensive experiments demonstrate that ASC can corrupt the prediction of 9 modern detectors with different architectures (\e.g., one-stage, two-stage and Transformer) by modifying fewer than 5\% of the pixels of the object area in COCO in white-box scenario and around 10\% of those in black-box scenario. We further extend the attack to datasets for autonomous driving systems to verify the effectiveness. We conclude with cautions about contour being the common weakness of object detectors with various architecture and the care needed in applying them in safety-sensitive scenarios.
翻訳日:2023-03-02 15:42:27 公開日:2023-03-01
# FedScore:フェデレーションスコアシステム開発のためのプライバシー保護フレームワーク

FedScore: A privacy-preserving framework for federated scoring system development ( http://arxiv.org/abs/2303.00282v1 )

ライセンス: Link先を確認
Siqi Li, Yilin Ning, Marcus Eng Hock Ong, Bibhas Chakraborty, Chuan Hong, Feng Xie, Han Yuan, Mingxuan Liu, Daniel M. Buckland, Yong Chen, Nan Liu(参考訳) 本研究では,複数のサイト間でシステム生成をスコアリングし,相互機関間コラボレーションを促進するための,プライバシー保護型フェデレート学習フレームワークfederatedcoreを提案する。 FedScoreフレームワークには、フェデレーション変数ランキング、フェデレーション変数変換、フェデレーションスコア導出、フェデレーションモデル選択、フェデレーションモデル評価の5つのモジュールが含まれている。 そこで本研究では,シンガポールの第三次病院から分離した10箇所のシミュレートサイトを用いて,救急搬送後30日以内の死亡予測のための仮想的グローバルスコアシステムを構築した。 既存のスコア生成装置を用いて,各サイト毎に10個の局所スコアシステムを構築し,比較のための集中型データを用いたスコアシステムを開発した。 取得したfederscoreモデルの性能を,受信機動作特性(roc)分析を用いて他のスコアリングモデルと比較した。 fedscoreモデルでは、すべてのサイトにおける曲線 (auc) の平均面積が 0.763 となり、標準偏差 (sd) は 0.020 となった。 また,各局所モデルの平均 AUC 値とSD を算出し,FedScore モデルでは,各局所モデルの平均 AUC 値に最も近い平均 AUC 値と多くの局所モデルよりも低いSD 値で有望な精度と安定性を示した。 本研究では,federscoreがプライバシ保護型スコアリングシステムジェネレータであることを示す。

We propose FedScore, a privacy-preserving federated learning framework for scoring system generation across multiple sites to facilitate cross-institutional collaborations. The FedScore framework includes five modules: federated variable ranking, federated variable transformation, federated score derivation, federated model selection and federated model evaluation. To illustrate usage and assess FedScore's performance, we built a hypothetical global scoring system for mortality prediction within 30 days after a visit to an emergency department using 10 simulated sites divided from a tertiary hospital in Singapore. We employed a pre-existing score generator to construct 10 local scoring systems independently at each site and we also developed a scoring system using centralized data for comparison. We compared the acquired FedScore model's performance with that of other scoring models using the receiver operating characteristic (ROC) analysis. The FedScore model achieved an average area under the curve (AUC) value of 0.763 across all sites, with a standard deviation (SD) of 0.020. We also calculated the average AUC values and SDs for each local model, and the FedScore model showed promising accuracy and stability with a high average AUC value which was closest to the one of the pooled model and SD which was lower than that of most local models. This study demonstrates that FedScore is a privacy-preserving scoring system generator with potentially good generalizability.
翻訳日:2023-03-02 15:41:58 公開日:2023-03-01
# 平均場近似最適化アルゴリズム

Mean-Field Approximate Optimization Algorithm ( http://arxiv.org/abs/2303.00329v1 )

ライセンス: Link先を確認
Aditi Misra-Spieldenner, Tim Bode, Peter K. Schuhmacher, Tobias Stollenwerk, Dmitry Bagrets, and Frank K. Wilhelm(参考訳) 量子近似最適化アルゴリズム (qaoa) は、初期の量子コンピュータに有望な応用として提案されている。 ここでは,平均場近似法を用いてqaoaの量子進化を古典スピンダイナミクスに置き換え,平均場近似最適化アルゴリズム(mean-field approximation optimization algorithm, aoa)を開発した。 QAOAの交互構造のため、この古典力学は任意の数のQAOA層に対して正確に見られる。 我々は,シェリントン・カークパトリック(SK)モデルと分割問題におけるQAOAのパフォーマンスをベンチマークし,平均フィールドAOAがどちらの場合においてもQAOAよりも優れていることを確認した。 したがって、我々のアルゴリズムは、古典的に解決できない問題、すなわちQAOAから真の量子優位性が期待できるインスタンスを特定するのに役立つと信じているものから、最適化問題を導出するためのツールとして機能することができる。 平均場軌道周りの量子揺らぎを定量化するために,時間依存リアプノフ指数のスペクトルを特徴とする有効散乱問題を時間的に解く。 これらは平均場AOAに対して与えられた最適化問題の硬さを示す指標となる。

The Quantum Approximate Optimization Algorithm (QAOA) is suggested as a promising application on early quantum computers. Here, a quantum-inspired classical algorithm, the mean-field Approximate Optimization Algorithm (mean-field AOA), is developed by replacing the quantum evolution of the QAOA with classical spin dynamics through the mean-field approximation. Due to the alternating structure of the QAOA, this classical dynamics can be found exactly for any number of QAOA layers. We benchmark its performance against the QAOA on the Sherrington-Kirkpatrick (SK) model and the partition problem, and find that the mean-field AOA outperforms the QAOA in both cases for most instances. Our algorithm can thus serve as a tool to delineate optimization problems that can be solved classically from those that cannot, i.e. we believe that it will help to identify instances where a true quantum advantage can be expected from the QAOA. To quantify quantum fluctuations around the mean-field trajectories, we solve an effective scattering problem in time, which is characterized by a spectrum of time-dependent Lyapunov exponents. These provide an indicator for the hardness of a given optimization problem relative to the mean-field AOA.
翻訳日:2023-03-02 15:35:56 公開日:2023-03-01
# 類似性畳み込みを用いたスケール・回転等価性ネットワークの強化

Empowering Networks With Scale and Rotation Equivariance Using A Similarity Convolution ( http://arxiv.org/abs/2303.00326v1 )

ライセンス: Link先を確認
Zikai Sun, Thierry Blu(参考訳) 畳み込みニューラルネットワーク(cnns)の翻訳等価性は、コンピュータビジョンにおいて大きな成功を収めた理由である。 しかし、ネットワークは回転やスケーリングのようなより一般的な同分散特性を享受せず、最終的に一般化性能を制限している。 この制限に対処するために, 翻訳, 回転, スケーリングに関して, 同時等分散でcnnを内在させる手法を考案する。 提案手法は畳み込みのような操作を定義し,提案するスケーラブルなフーリエ・アルガンド表現に基づく同値性を保証する。 従来のネットワークと同様の効率を維持しており、グループ畳み込み演算子でしばしば発生する計算問題に直面するため、学習可能なパラメータを追加することはほとんどない。 画像分類タスクにおいて,本手法の有効性を検証するとともに,その頑健性と,スケールと回転の両方の入力に対する一般化能力を示す。

The translational equivariant nature of Convolutional Neural Networks (CNNs) is a reason for its great success in computer vision. However, networks do not enjoy more general equivariance properties such as rotation or scaling, ultimately limiting their generalization performance. To address this limitation, we devise a method that endows CNNs with simultaneous equivariance with respect to translation, rotation, and scaling. Our approach defines a convolution-like operation and ensures equivariance based on our proposed scalable Fourier-Argand representation. The method maintains similar efficiency as a traditional network and hardly introduces any additional learnable parameters, since it does not face the computational issue that often occurs in group-convolution operators. We validate the efficacy of our approach in the image classification task, demonstrating its robustness and the generalization ability to both scaled and rotated inputs.
翻訳日:2023-03-02 15:35:36 公開日:2023-03-01
# TimeMAE: 切り離されたマスクオートエンコーダによる時系列の自己監督表現

TimeMAE: Self-Supervised Representations of Time Series with Decoupled Masked Autoencoders ( http://arxiv.org/abs/2303.00320v1 )

ライセンス: Link先を確認
Mingyue Cheng, Qi Liu, Zhiding Liu, Hao Zhang, Rujiao Zhang, Enhong Chen(参考訳) 自己教師付き事前学習による深層学習に基づく時系列モデルの表現能力の向上は,時系列分類においてますます普及している。 時系列データに対する自己教師付きモデルの開発には多くの努力が払われてきたが、sparse point-wise 入力ユニット上の一方向符号化のみのため、現在の手法では最適な時系列表現を学習するには不十分である。 本稿では,トランスフォーマーネットワークに基づく転送可能時系列表現を学習するための,新しい自己教師付きパラダイムであるtimemaeを提案する。 TimeMAEの特徴は、各時系列をウィンドウスライシングパーティショニングを介して非重複サブシリーズのシーケンスに処理し、続いて局所化されたサブシリーズのセマンティックユニットに対するランダムマスキング戦略である。 このような単純で効果的な設定は、1つの石で3羽の鳥を殺すこと、すなわち、2方向の符号化方式で時系列の豊かな文脈表現を学ぶこと、2基本的な意味単位の情報密度を高めること、3トランスフォーマーネットワークを用いた時系列の表現を効率的にエンコーディングすることに役立つ。 にもかかわらず、そのような新しい定式化モデリングパラダイムに対して再構成タスクを実行するのは簡単ではない。 新たに注入されたマスク埋め込みによって生じる不一致問題を解決するために,2つの異なるエンコーダモジュールを用いて,可視(未表示)位置の表現を学習する非結合オートエンコーダアーキテクチャを設計する。 さらに,2種類の情報的目標を構築し,それに対応する課題を遂行する。 1つは、各マスキング領域にコードワードを割り当てるトークン化モジュールを作成し、マスキングコードワード分類(MCC)タスクを効果的に完了させることである。

Enhancing the expressive capacity of deep learning-based time series models with self-supervised pre-training has become ever-increasingly prevalent in time series classification. Even though numerous efforts have been devoted to developing self-supervised models for time series data, we argue that the current methods are not sufficient to learn optimal time series representations due to solely unidirectional encoding over sparse point-wise input units. In this work, we propose TimeMAE, a novel self-supervised paradigm for learning transferrable time series representations based on transformer networks. The distinct characteristics of the TimeMAE lie in processing each time series into a sequence of non-overlapping sub-series via window-slicing partitioning, followed by random masking strategies over the semantic units of localized sub-series. Such a simple yet effective setting can help us achieve the goal of killing three birds with one stone, i.e., (1) learning enriched contextual representations of time series with a bidirectional encoding scheme; (2) increasing the information density of basic semantic units; (3) efficiently encoding representations of time series using transformer networks. Nevertheless, it is a non-trivial to perform reconstructing task over such a novel formulated modeling paradigm. To solve the discrepancy issue incurred by newly injected masked embeddings, we design a decoupled autoencoder architecture, which learns the representations of visible (unmasked) positions and masked ones with two different encoder modules, respectively. Furthermore, we construct two types of informative targets to accomplish the corresponding pretext tasks. One is to create a tokenizer module that assigns a codeword to each masked region, allowing the masked codeword classification (MCC) task to be completed effectively...
翻訳日:2023-03-02 15:35:23 公開日:2023-03-01
# RIFT2:回転不変技術を用いた高速化RIFT

RIFT2: Speeding-up RIFT with A New Rotation-Invariance Technique ( http://arxiv.org/abs/2303.00319v1 )

ライセンス: Link先を確認
Jiayuan Li, Pengcheng Shi, Qingwu Hu, and Yongjun Zhang(参考訳) マルチモーダル画像マッチングは、多元画像情報融合の重要な前提条件である。 従来のマッチング問題と比較すると,強い非線形放射歪み(NRD)のため,マルチモーダル特徴マッチングは困難である。 放射変量不感性特徴変換(RIFT)~\cite{li2019rift} は、NRDに対して非常に優れたロバスト性を示し、マルチモーダル特徴マッチングにおけるベースライン法となった。 しかし、回転不変性に対する高い計算コストは、実際にの使用を著しく制限する。 本稿では,改良されたRIFT法であるRIFT2を提案する。 本研究では,畳み込み列リングの構成過程を回避し,優性指数値に基づく新しい回転不変性手法を開発した。 これにより、実行時間を短縮し、理論上は元のRIFTのメモリ消費を約3倍削減することができる。 大規模な実験により、RIFT2はRIFTと同等の性能を示しながら、より高速で、メモリ消費も少ないことがわかった。 ソースコードは \url{https://github.com/LJY-RS/RIFT2-multimodal-matching-rotation} で公開されている。

Multimodal image matching is an important prerequisite for multisource image information fusion. Compared with the traditional matching problem, multimodal feature matching is more challenging due to the severe nonlinear radiation distortion (NRD). Radiation-variation insensitive feature transform (RIFT)~\cite{li2019rift} has shown very good robustness to NRD and become a baseline method in multimodal feature matching. However, the high computational cost for rotation invariance largely limits its usage in practice. In this paper, we propose an improved RIFT method, called RIFT2. We develop a new rotation invariance technique based on dominant index value, which avoids the construction process of convolution sequence ring. Hence, it can speed up the running time and reduce the memory consumption of the original RIFT by almost 3 times in theory. Extensive experiments show that RIFT2 achieves similar matching performance to RIFT while being much faster and having less memory consumption. The source code will be made publicly available in \url{https://github.com/LJY-RS/RIFT2-multimodal-matching-rotation}
翻訳日:2023-03-02 15:34:51 公開日:2023-03-01
# ベイズ結果誘導多視点混合モデルと分子精密医学への応用

Bayesian outcome-guided multi-view mixture models with applications in molecular precision medicine ( http://arxiv.org/abs/2303.00318v1 )

ライセンス: Link先を確認
Paul D. W. Kirk, Filippo Pagani, Sylvia Richardson(参考訳) クラスタリングは、例えば病気の分子サブタイプを発見するなど、オミクスデータセットの構造を明らかにする最初の分析ステップとして一般的に行われている。 これらのデータセットの高スループットで高次元な性質は、様々な生体分子のプロセスや経路に関する情報を提供することを意味する。 異なる変数のグループ(例えば、遺伝子やタンパク質)は、異なる生体分子プロセスに関係しており、それゆえデータセット全体の単一のクラスタリング分割のみを特定することに限定される分析は、これらの異なるプロセスから生じる複数のクラスタリング構造を共役させる責任がある。 そこで我々は,個別のクラスタリング構造を定義する変数群(``views)を識別する多視点ベイズ混合モデルを提案する。 本研究は成層医療の応用を考察し,臨床応用可能な疾患のサブタイプを明確に定義した患者集団の同定を主目的とする。 我々は,階層化された医学的文脈において最も関連するクラスタリングに対する推論を導くために,応答変数を用いたベイズプロファイル回帰の半教師付き・結果誘導混合モデルアプローチを採用する。 本モデルは,実証シミュレーションの例とともに,パン・カンサープロテオミクスの例を示す。 本稿では,このアプローチを統合的クラスタリングに活用する方法を実証し,乳がんのサブタイピングの文脈において,異なる'omicsデータセットが統合されている例について考察する。

Clustering is commonly performed as an initial analysis step for uncovering structure in 'omics datasets, e.g. to discover molecular subtypes of disease. The high-throughput, high-dimensional nature of these datasets means that they provide information on a diverse array of different biomolecular processes and pathways. Different groups of variables (e.g. genes or proteins) will be implicated in different biomolecular processes, and hence undertaking analyses that are limited to identifying just a single clustering partition of the whole dataset is therefore liable to conflate the multiple clustering structures that may arise from these distinct processes. To address this, we propose a multi-view Bayesian mixture model that identifies groups of variables (``views"), each of which defines a distinct clustering structure. We consider applications in stratified medicine, for which our principal goal is to identify clusters of patients that define distinct, clinically actionable disease subtypes. We adopt the semi-supervised, outcome-guided mixture modelling approach of Bayesian profile regression that makes use of a response variable in order to guide inference toward the clusterings that are most relevant in a stratified medicine context. We present the model, together with illustrative simulation examples, and examples from pan-cancer proteomics. We demonstrate how the approach can be used to perform integrative clustering, and consider an example in which different 'omics datasets are integrated in the context of breast cancer subtyping.
翻訳日:2023-03-02 15:34:34 公開日:2023-03-01
# 会話文脈帯域に対する効率的な探索的鍵選択手法

Efficient Explorative Key-term Selection Strategies for Conversational Contextual Bandits ( http://arxiv.org/abs/2303.00315v1 )

ライセンス: Link先を確認
Zhiyong Wang, Xutong Liu, Shuai Li, John C.S. Lui(参考訳) 会話的コンテキストバンディットは、学習を加速するためにキータームに明示的なフィードバックを求めることで、時々ユーザーの好みを引き出す。 しかし、既存のアプローチにはパフォーマンスを制限する側面があります。 まず、キーワードレベルの会話やarmレベルのレコメンデーションから得られる情報は、学習をスピードアップするために適切に組み込まれていません。 第二に、爆発的なキータームに様々なドメインにおけるユーザの潜在的関心を素早く引き起こし、既存の作品では考えられていないユーザの嗜好推定の収束を加速させることが重要である。 これらの課題に対処するために,まず,腕レベルとキータームレベルのフィードバックを組み合わせて,各ステップでユーザの嗜好を推定する,対話的盗聴者のための一般的なフレームワークである `ConLinUCB を提案する。 この枠組みに基づき,探索的鍵項選択戦略であるconlinucb-bsとconlinucb-mcrを用いた2つのbanditアルゴリズムを更に設計する。 提案するアルゴリズムの上限がより厳密であることを証明します。 特に、ConLinUCB-BS は、以前の結果の$O(d\sqrt{T}\log T)$よりも良い$O(\sqrt{dT\log T})$の後悔境界を達成する。 合成および実世界のデータに対する大規模な実験は、従来のConUCBアルゴリズムと比較して、学習精度(最大54 %改善)と計算効率(最大72 %改善)においてアルゴリズムの顕著な利点を示し、レコメンダシステムの潜在的な利点を示している。

Conversational contextual bandits elicit user preferences by occasionally querying for explicit feedback on key-terms to accelerate learning. However, there are aspects of existing approaches which limit their performance. First, information gained from key-term-level conversations and arm-level recommendations is not appropriately incorporated to speed up learning. Second, it is important to ask explorative key-terms to quickly elicit the user's potential interests in various domains to accelerate the convergence of user preference estimation, which has never been considered in existing works. To tackle these issues, we first propose ``ConLinUCB", a general framework for conversational bandits with better information incorporation, combining arm-level and key-term-level feedback to estimate user preference in one step at each time. Based on this framework, we further design two bandit algorithms with explorative key-term selection strategies, ConLinUCB-BS and ConLinUCB-MCR. We prove tighter regret upper bounds of our proposed algorithms. Particularly, ConLinUCB-BS achieves a regret bound of $O(\sqrt{dT\log T})$, better than the previous result $O(d\sqrt{T}\log T)$. Extensive experiments on synthetic and real-world data show significant advantages of our algorithms in learning accuracy (up to 54\% improvement) and computational efficiency (up to 72\% improvement), compared to the classic ConUCB algorithm, showing the potential benefit to recommender systems.
翻訳日:2023-03-02 15:34:09 公開日:2023-03-01
# 小分子薬物発見のための深層学習法:調査

Deep Learning Methods for Small Molecule Drug Discovery: A Survey ( http://arxiv.org/abs/2303.00313v1 )

ライセンス: Link先を確認
Wenhao Hu, Yingying Liu, Xuanyu Chen, Wenhao Chai, Hangyue Chen, Hongwei Wang and Gaoang Wang(参考訳) コンピュータ支援技術の発展により、生物化学や深層学習を含む研究コミュニティは10年以上にわたって薬物発見分野に費やされてきた。 深層学習の様々な応用は、分子生成、分子特性予測、再合成予測、反応予測などの薬物発見に大きな注目を集めている。 既存の調査のほとんどはアプリケーションの1つにのみ焦点が当てられているが、コミュニティの研究者の見解は限られている。 本稿では,上記の4つの側面について総合的なレビューを行い,アプリケーション間の関係について考察する。 最新の文献と古典的なベンチマークは、様々なアプローチの開発をよりよく理解するために提示されている。 これらの研究で分子表現形式を要約し、さらに4つのタスクそれぞれに最近提案されたアプローチを導入することで開始する。 さらに,一般的なデータセットと評価指標について検討し,深層学習モデルの性能の比較を行った。 最後に,残った課題を特定し,薬物発見における深層学習手法の今後の動向について論じる。

With the development of computer-assisted techniques, research communities including biochemistry and deep learning have been devoted into the drug discovery field for over a decade. Various applications of deep learning have drawn great attention in drug discovery, such as molecule generation, molecular property prediction, retrosynthesis prediction, and reaction prediction. While most existing surveys only focus on one of the applications, limiting the view of researchers in the community. In this paper, we present a comprehensive review on the aforementioned four aspects, and discuss the relationships among different applications. The latest literature and classical benchmarks are presented for better understanding the development of variety of approaches. We commence by summarizing the molecule representation format in these works, followed by an introduction of recent proposed approaches for each of the four tasks. Furthermore, we review a variety of commonly used datasets and evaluation metrics and compare the performance of deep learning-based models. Finally, we conclude by identifying remaining challenges and discussing the future trend for deep learning methods in drug discovery.
翻訳日:2023-03-02 15:33:40 公開日:2023-03-01
# 対話型レコメンダシステムにおける階層的知識を用いた複数ユーザ興味のモデル化

Modeling Multiple User Interests using Hierarchical Knowledge for Conversational Recommender System ( http://arxiv.org/abs/2303.00311v1 )

ライセンス: Link先を確認
Yuka Okuda, Katsuhito Sudoh, Seitaro Shinagawa, and Satoshi Nakamura(参考訳) 会話レコメンデーションシステム(CRS)は,自然言語会話による項目レコメンデーションの実践的応用である。 このようなシステムは、適切なパーソナライズドレコメンデーションのためにユーザーの興味を推定する。 ユーザーはカテゴリやジャンルに様々な興味を持つことがあるが、既存の研究は、密接に関連する項目でカバーできるユニークなユーザーの興味を抱いている。 本研究では,CRSにおける複数のユーザ関心をモデル化することを提案する。 redialデータセットを用いた実験でその効果を検討した結果,提案手法ではベースラインcr-walkerよりも幅広い項目を推奨できることが判明した。

A conversational recommender system (CRS) is a practical application for item recommendation through natural language conversation. Such a system estimates user interests for appropriate personalized recommendations. Users sometimes have various interests in different categories or genres, but existing studies assume a unique user interest that can be covered by closely related items. In this work, we propose to model such multiple user interests in CRS. We investigated its effects in experiments using the ReDial dataset and found that the proposed method can recommend a wider variety of items than that of the baseline CR-Walker.
翻訳日:2023-03-02 15:33:25 公開日:2023-03-01
# event fusionフォトメトリックステレオネットワーク

Event Fusion Photometric Stereo Network ( http://arxiv.org/abs/2303.00308v1 )

ライセンス: Link先を確認
Wonjeong Ryoo, Giljoo Nam, Jae-Sang Hyun, Sangpil Kim(参考訳) RGBとイベントカメラを用いた環境光環境下での物体の表面の正常さを推定する新しい手法を提案する。 現代の測光ステレオ法は、周囲の照明を避けるために暗室のRGBカメラに依存している。 暗室環境でRGBカメラを使用する際の制約を軽減するため,本質的な光情報を取得することにより,ダイナミックレンジと低レイテンシのイベントカメラを利用する。 これは、連続光源や環境光環境における測光ステレオにイベントカメラを使用した最初の研究である。 さらに、RGBとイベントカメラで捉えた新しい測光ステレオデータセットを様々な環境光の下でキュレートする。 提案するフレームワークであるEvent Fusion Photometric Stereo Network (EFPS-Net)は,RGBフレームとイベント信号を用いて表面の正規性を推定する。 EFPS-Netは、環境光による制約を軽減するために追加のモダリティを組み込むことの有効性を実証し、実世界のデータセット上で最先端の手法よりも優れている。

We introduce a novel method to estimate surface normal of an object in an ambient light environment using RGB and event cameras. Modern photometric stereo methods rely on RGB cameras in a darkroom to avoid ambient illumination. To alleviate the limitations of using an RGB camera in a darkroom setting, we utilize an event camera with high dynamic range and low latency by capturing essential light information. This is the first study to use event cameras for photometric stereo in continuous light sources and ambient light environments. Additionally, we curate a new photometric stereo dataset captured by RGB and event cameras under various ambient lights. Our proposed framework, Event Fusion Photometric Stereo Network (EFPS-Net), estimates surface normals using RGB frames and event signals. EFPS-Net outperforms state-of-the-art methods on a real-world dataset with ambient lights, demonstrating the effectiveness of incorporating additional modalities to alleviate limitations caused by ambient illumination.
翻訳日:2023-03-02 15:33:15 公開日:2023-03-01
# 視覚ナビゲーションのためのRenderable Neural Radiance Map

Renderable Neural Radiance Map for Visual Navigation ( http://arxiv.org/abs/2303.00304v1 )

ライセンス: Link先を確認
Obin Kwon, Jeongho Park, Songhwai Oh(参考訳) 本研究では,3d環境全体の視覚情報を含むように設計された,描画可能な神経放射マップ(rnr-map)である視覚ナビゲーションのための新しいタイプのマップを提案する。 RNR-Mapはグリッド形式であり、各ピクセルの遅延符号で構成されている。 これらの潜在コードは画像観察から埋め込まれており、カメラのポーズによって画像レンダリングを可能にするニューラル・ラミアンス・フィールドに変換できる。 記録された潜伏符号には環境に関する情報が暗黙的に含まれており、RNR-Mapは視覚的に記述される。 RNR-Mapのこのビジュアル情報は、視覚的なローカライゼーションとナビゲーションに有用なガイドラインである。 RNRマップを効果的に活用するローカライズおよびナビゲーションフレームワークを開発する。 提案するカメラトラッキング,視覚的位置決め,画像ゴールナビゲーションのフレームワークを評価する。 実験結果から,RNR-Mapベースのローカライゼーションフレームワークは,他のベースラインと比較して高速かつ競合的な精度で,単一のクエリ画像に基づいて目標位置を見つけることができることがわかった。 また、このローカライゼーションフレームワークは環境変化に対して堅牢であり、異なる環境からのクエリイメージが与えられる場合に最も視覚的に類似した場所を見つける。 提案したナビゲーションフレームワークは,既存の画像ゴールナビゲーション手法よりも,音韻法やアクティベーションノイズの下で,困難なシナリオにおいて優れている。 ナビゲーションフレームワークはNRNSデータセットの湾曲したシナリオで65.7%の成功率を示しており、現在の最先端よりも18.6%改善されている。

We propose a novel type of map for visual navigation, a renderable neural radiance map (RNR-Map), which is designed to contain the overall visual information of a 3D environment. The RNR-Map has a grid form and consists of latent codes at each pixel. These latent codes are embedded from image observations, and can be converted to the neural radiance field which enables image rendering given a camera pose. The recorded latent codes implicitly contain visual information about the environment, which makes the RNR-Map visually descriptive. This visual information in RNR-Map can be a useful guideline for visual localization and navigation. We develop localization and navigation frameworks that can effectively utilize the RNR-Map. We evaluate the proposed frameworks on camera tracking, visual localization, and image-goal navigation. Experimental results show that the RNR-Map-based localization framework can find the target location based on a single query image with fast speed and competitive accuracy compared to other baselines. Also, this localization framework is robust to environmental changes, and even finds the most visually similar places when a query image from a different environment is given. The proposed navigation framework outperforms the existing image-goal navigation methods in difficult scenarios, under odometry and actuation noises. The navigation framework shows 65.7% success rate in curved scenarios of the NRNS dataset, which is an improvement of 18.6% over the current state-of-the-art.
翻訳日:2023-03-02 15:32:57 公開日:2023-03-01
# オフライントレーニングを伴わない深層強化学習トレーダー

A Deep Reinforcement Learning Trader without Offline Training ( http://arxiv.org/abs/2303.00356v1 )

ライセンス: Link先を確認
Boian Lazov(参考訳) 本稿では、完全オンライン取引アルゴリズム(例えば、以前に収集したデータのオフライントレーニングを必要としないもの)の課題を追求する。 このタスクにはDouble Deep $Q$-learningを使っており、Fast Learning Networksは期待される$Q$を近似している。 また,市場状況が好ましくないと思われた場合,取引プール内の資金の一部を貯蓄する機構を導入するため,エピソードの端末状態も定義する。 これらのお金の一部は利益として扱われ、一部は一定の基準に従って後で再利用される。 アルゴリズムを説明した後、cardanoのbinanceの価格を1分間のtickデータでテストする。 エージェントは、各タイムステップでランダムに選択されたアクションで取引するよりも、パフォーマンスがよい。 そして、データセット全体と異なるサブセットでテストすることで、異なる市場トレンドをキャプチャします。

In this paper we pursue the question of a fully online trading algorithm (i.e. one that does not need offline training on previously gathered data). For this task we use Double Deep $Q$-learning in the episodic setting with Fast Learning Networks approximating the expected reward $Q$. Additionally, we define the possible terminal states of an episode in such a way as to introduce a mechanism to conserve some of the money in the trading pool when market conditions are seen as unfavourable. Some of these money are taken as profit and some are reused at a later time according to certain criteria. After describing the algorithm, we test it using the 1-minute-tick data for Cardano's price on Binance. We see that the agent performs better than trading with randomly chosen actions on each timestep. And it does so when tested on the whole dataset as well as on different subsets, capturing different market trends.
翻訳日:2023-03-02 15:27:20 公開日:2023-03-01
# リモートセンシング画像変化キャプションのためのプログレッシブスケールアウェアネットワーク

Progressive Scale-aware Network for Remote sensing Image Change Captioning ( http://arxiv.org/abs/2303.00355v1 )

ライセンス: Link先を確認
Chenyang Liu, Jiajun Yang, Zipeng Qi, Zhengxia Zou and Zhenwei Shi(参考訳) リモートセンシング(RS)画像にはさまざまなスケールのオブジェクトが含まれており、複雑なシーンにおける視覚的関心の変化を識別し、言語を介して記述するためにRS画像変更キャプション(RSICC)タスクに重大な課題が生じる。 しかし,近年の手法では,マルチスケール情報を十分に抽出・活用する上での弱点が残っている。 本稿では,この問題に対処するためのprogressive scale-aware network (psnet)を提案する。 PSNetはトランスフォーマーベースのモデルである。 マルチスケールの視覚特徴を十分に抽出するために、多段階差分認識(PDP)層を積み重ねて、バイテンポラル特徴の差分特徴を段階的に活用する。 抽出した多機能キャプションを十分に活用するために,スケールアウェア強化(SR)モジュールを提案し,それをTransformerデコーディング層と組み合わせて,異なるPDP層の特徴を段階的に活用する。 実験の結果,PDP層とSRモジュールは有効であり,PSNetは従来の手法よりも優れていた。

Remote sensing (RS) images contain numerous objects of different scales, which poses significant challenges for the RS image change captioning (RSICC) task to identify visual changes of interest in complex scenes and describe them via language. However, current methods still have some weaknesses in sufficiently extracting and utilizing multi-scale information. In this paper, we propose a progressive scale-aware network (PSNet) to address the problem. PSNet is a pure Transformer-based model. To sufficiently extract multi-scale visual features, multiple progressive difference perception (PDP) layers are stacked to progressively exploit the differencing features of bitemporal features. To sufficiently utilize the extracted multi-scale features for captioning, we propose a scale-aware reinforcement (SR) module and combine it with the Transformer decoding layer to progressively utilize the features from different PDP layers. Experiments show that the PDP layer and SR module are effective and our PSNet outperforms previous methods.
翻訳日:2023-03-02 15:27:07 公開日:2023-03-01
# 無制限拡散修復

Unlimited-Size Diffusion Restoration ( http://arxiv.org/abs/2303.00354v1 )

ライセンス: Link先を確認
Yinhuai Wang, Jiwen Yu, Runyi Yu, Jian Zhang(参考訳) 近年,ゼロショット画像復元(IR)のための拡散モデルが注目されている。 この種の方法は、事前訓練されたオフザシェルフ拡散モデルを使用するだけで、微調整なしで、様々なIRタスクを直接処理できる。 修復性能の上限は、急速に進化している事前訓練された拡散モデルに依存する。 しかし、現在の手法では固定サイズの画像を扱う方法のみを議論するが、任意のサイズの画像を扱うことは実用上非常に重要である。 本稿では,この拡散型ゼロショットIR法を用いて,ゼロショットの優れた特性を維持しつつ,任意のサイズを扱う方法について述べる。 任意のサイズを解く簡単な方法は、それを固定サイズのパッチに分割し、各パッチを独立して解くことである。 しかし、すべてのパッチのグローバルセマンティクスや、隣接するパッチのローカル情報を考慮していないため、これは重要なアーティファクトをもたらす可能性がある。 範囲のヌル空間分解に触発されて,局所的不整合に対処するマスクシフト復元を提案し,領域外の問題を緩和するための階層的復元を提案する。 私たちの単純なパラメータフリーなアプローチは、画像復元だけでなく、無制限サイズの画像生成にも利用できます。 コード: https://github.com/wyhuai/ddnm/tree/main/hq_demo

Recently, using diffusion models for zero-shot image restoration (IR) has become a new hot paradigm. This type of method only needs to use the pre-trained off-the-shelf diffusion models, without any finetuning, and can directly handle various IR tasks. The upper limit of the restoration performance depends on the pre-trained diffusion models, which are in rapid evolution. However, current methods only discuss how to deal with fixed-size images, but dealing with images of arbitrary sizes is very important for practical applications. This paper focuses on how to use those diffusion-based zero-shot IR methods to deal with any size while maintaining the excellent characteristics of zero-shot. A simple way to solve arbitrary size is to divide it into fixed-size patches and solve each patch independently. But this may yield significant artifacts since it neither considers the global semantics of all patches nor the local information of adjacent patches. Inspired by the Range-Null space Decomposition, we propose the Mask-Shift Restoration to address local incoherence and propose the Hierarchical Restoration to alleviate out-of-domain issues. Our simple, parameter-free approaches can be used not only for image restoration but also for image generation of unlimited sizes, with the potential to be a general tool for diffusion models. Code: https://github.com/wyhuai/DDNM/tree/main/hq_demo
翻訳日:2023-03-02 15:26:50 公開日:2023-03-01
# エンドツーエンドSE(3)-同変セグメンテーションネットワーク

An end-to-end SE(3)-equivariant segmentation network ( http://arxiv.org/abs/2303.00351v1 )

ライセンス: Link先を確認
Ivan Diaz, Mario Geiger, Richard Iain McKinley(参考訳) 畳み込みニューラルネットワーク(CNN)は、その線形層に畳み込みカーネルを使用することで、パラメータ共有と変換等価性を実現する。 これらのカーネルをso(3)ステアブルに制限することで、cnnはパラメータ共有と等分散をさらに改善することができる。 これらの等変畳み込み層は標準畳み込み層よりもいくつかの利点があり、例えば、見当たらないポーズに対する堅牢性の向上、ネットワークサイズが小さくなり、サンプル効率が向上している。 それにもかかわらず、医療画像解析で使用されるほとんどのセグメンテーションネットワークは、標準畳み込みカーネルに依存し続けている。 本稿では,球面調和に基づく同変ボクセル畳み込みと,同変プーリングと正規化演算を利用するセグメンテーションネットワークの新たなファミリーを提案する。 これらのse(3)同変量セグメンテーションネットワークは、トレーニング中に見えないデータポーズに頑健であり、トレーニング中にローテーションベースのデータ拡張を必要としない。 また,MRI脳腫瘍のセグメンテーション性能と健常な脳構造セグメンテーションタスクのセグメンテーション性能を向上し,トレーニングデータの量削減とパラメータ効率の向上を図った。 我々の結果を再現し、他のタスクに対して同変セグメンテーションネットワークを実装するコードは、~\url{http://github.com/SCAN-NRAD/e3nn_Unet} で利用可能である。

Convolutional neural networks (CNNs) allow for parameter sharing and translational equivariance by using convolutional kernels in their linear layers. By restricting these kernels to be SO(3)-steerable, CNNs can further improve parameter sharing and equivariance. These equivariant convolutional layers have several advantages over standard convolutional layers, including increased robustness to unseen poses, smaller network size, and improved sample efficiency. Despite this, most segmentation networks used in medical image analysis continue to rely on standard convolutional kernels. In this paper, we present a new family of segmentation networks that use equivariant voxel convolutions based on spherical harmonics, as well as equivariant pooling and normalization operations. These SE(3)-equivariant volumetric segmentation networks, which are robust to data poses not seen during training, do not require rotation-based data augmentation during training. In addition, we demonstrate improved segmentation performance in MRI brain tumor and healthy brain structure segmentation tasks, with enhanced robustness to reduced amounts of training data and improved parameter efficiency. Code to reproduce our results, and to implement the equivariant segmentation networks for other tasks is available at~\url{http://github.com/SCAN-NRAD/e3nn_Unet}.
翻訳日:2023-03-02 15:26:27 公開日:2023-03-01
# フォトニック結晶導波路に結合した2つの量子ドットの独立電気制御

Independent electrical control of two quantum dots coupled through a photonic-crystal waveguide ( http://arxiv.org/abs/2303.00345v1 )

ライセンス: Link先を確認
Xiao-Liu Chu, Camille Papon, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Nir Rotenberg, Peter Lodahl(参考訳) 単一光子レベルでの効率的な光・物質相互作用は、新しいフォトニック量子技術において極めて重要である。 基本的課題は複数の量子エミッタに一度に対処することであり、固体プラットフォームの固有の不均一性はそれぞれのエミッタの個別のチューニングを必要とする。 本稿では,光性結晶導波路に効率よく結合し,局所電気スターク場を適用して個別に制御可能な2つの半導体量子ドットエミッタの実現について述べる。 導波路への2つのエミッタの結合を調べるため、共振透過スペクトルと蛍光スペクトルを示す。 1つの量子ドットからの単一光子ストリームを利用して、導波路から16$\mu$m離れた第2の量子ドットで分光を行う。 さらに、パワー依存共鳴伝送測定により、エミッタ間のコヒーレント結合のシグネチャが明らかにされる。 我々の研究は、固体決定性光子エミッタに本質的に欠落しているマルチエミッタ集団結合を実現するためのスケーラブルな経路を提供する。

Efficient light-matter interaction at the single-photon level is of fundamental importance in emerging photonic quantum technology. A fundamental challenge is addressing multiple quantum emitters at once, as intrinsic inhomogeneities of solid-state platforms require individual tuning of each emitter. We present the realization of two semiconductor quantum dot emitters that are efficiently coupled to a photonic-crystal waveguide and individually controllable by applying a local electric Stark field. We present resonant transmission and fluorescence spectra in order to probe the coupling of the two emitters to the waveguide. We exploit the single-photon stream from one quantum dot to perform spectroscopy on the second quantum dot positioned 16$\mu$m away in the waveguide. Furthermore, power-dependent resonant transmission measurements reveals signatures of coherent coupling between the emitters. Our work provides a scalable route to realizing multi-emitter collective coupling, which has inherently been missing for solid-state deterministic photon emitters.
翻訳日:2023-03-02 15:26:05 公開日:2023-03-01
# 周辺文脈と時間発展的増補を用いたインライン引用分類

Inline Citation Classification using Peripheral Context and Time-evolving Augmentation ( http://arxiv.org/abs/2303.00344v1 )

ライセンス: Link先を確認
Priyanshi Gupta, Yash Kumar Atri, Apurva Nagvenkar, Sourish Dasgupta, Tanmoy Chakraborty(参考訳) 引用は研究論文間の関連を決定する上で重要な役割を果たす。 示唆的、支持的、あるいは対照的な研究において重要な情報である。 インライン引用分類の課題は、これらの関係を外挿するのに役立つが、既存の研究はまだ未熟であり、さらなる精査が必要である。 インライン引用分類に用いられる現在のデータセットと方法は、モデルに制約のある引用マーク文のみを使用して、視覚障害者をドメイン知識と隣接する文脈文に向ける。 本稿では,3Cextという新たなデータセットを提案する。このデータセットは引用文とともに,ビジナル文を用いた談話情報を提供し,コントラストや係り受け関係やドメイン情報の解析を行う。 周辺文とドメイン知識を融合したトランスフォーマーベースのディープニューラルネットワークPeriCiteを提案する。 我々のモデルは,最高のベースラインに対して,+0.09 F1で3Cextデータセットの最先端を実現する。 提案するデータセットとモデル融合法の有効性を分析するため,広範なアブレーションを行う。

Citation plays a pivotal role in determining the associations among research articles. It portrays essential information in indicative, supportive, or contrastive studies. The task of inline citation classification aids in extrapolating these relationships; However, existing studies are still immature and demand further scrutiny. Current datasets and methods used for inline citation classification only use citation-marked sentences constraining the model to turn a blind eye to domain knowledge and neighboring contextual sentences. In this paper, we propose a new dataset, named 3Cext, which along with the cited sentences, provides discourse information using the vicinal sentences to analyze the contrasting and entailing relationships as well as domain information. We propose PeriCite, a Transformer-based deep neural network that fuses peripheral sentences and domain knowledge. Our model achieves the state-of-the-art on the 3Cext dataset by +0.09 F1 against the best baseline. We conduct extensive ablations to analyze the efficacy of the proposed dataset and model fusion methods.
翻訳日:2023-03-02 15:25:47 公開日:2023-03-01
# 最悪の場合の帰属偏差に対する実用的な上限

A Practical Upper Bound for the Worst-Case Attribution Deviations ( http://arxiv.org/abs/2303.00340v1 )

ライセンス: Link先を確認
Fan Wang and Adams Wai-Kin Kong(参考訳) モデル属性は、複雑なモデルに対する解釈可能性において、ディープニューラルネットワーク(DNN)の重要な構成要素である。 近年の研究では、属性が異なる類似画像を生成する属性攻撃に弱いため、属性手法の安全性に注意が向けられている。 既存の研究はこれらの攻撃に対するDNNの堅牢性を実証的に改善している。 本研究で最初に制約付き最適化問題を定式化し, 分類結果が同一でありながら, サンプルが特定の領域内の雑音によって摂動した後, 帰属の最大異質性を測定する上界を導出する。 この定式化に基づき、上記の帰属をユークリッド距離とコサイン類似性を用いて、$\ell_2$ および $\ell_\infty$-norm の摂動制約の下で束縛するための異なる実践的アプローチが導入された。 理論的研究によって開発された境界は,様々なデータセットと2種類の攻撃(PGD攻撃とIFIA帰属攻撃)で検証される。 実験における1000万以上の攻撃は、提案された上限がモデルのロバスト性を効果的に定量化することを示している。

Model attribution is a critical component of deep neural networks (DNNs) for its interpretability to complex models. Recent studies bring up attention to the security of attribution methods as they are vulnerable to attribution attacks that generate similar images with dramatically different attributions. Existing works have been investigating empirically improving the robustness of DNNs against those attacks; however, none of them explicitly quantifies the actual deviations of attributions. In this work, for the first time, a constrained optimization problem is formulated to derive an upper bound that measures the largest dissimilarity of attributions after the samples are perturbed by any noises within a certain region while the classification results remain the same. Based on the formulation, different practical approaches are introduced to bound the attributions above using Euclidean distance and cosine similarity under both $\ell_2$ and $\ell_\infty$-norm perturbations constraints. The bounds developed by our theoretical study are validated on various datasets and two different types of attacks (PGD attack and IFIA attribution attack). Over 10 million attacks in the experiments indicate that the proposed upper bounds effectively quantify the robustness of models based on the worst-case attribution dissimilarities.
翻訳日:2023-03-02 15:25:32 公開日:2023-03-01
# TAU: 人工知能と無人航空システムを活用したビデオベーストラフィック分析フレームワーク

TAU: A Framework for Video-Based Traffic Analytics Leveraging Artificial Intelligence and Unmanned Aerial Systems ( http://arxiv.org/abs/2303.00337v1 )

ライセンス: Link先を確認
Bilel Benjdira, Anis Koubaa, Ahmad Taher Azar, Zahid Khan, Adel Ammar, Wadii Boulila(参考訳) スマート交通工学とインテリジェント交通サービスは、交通性能を最適化し、エネルギーコストを削減し、運転者の安全と快適性を高め、交通法を執行し、交通違反を検出するために、政府当局からの需要が増えている。 本稿では、この課題に対処し、自動トラフィック分析と理解のためにAI(AI)と無人航空機(UAV)を使用して、TAU(Traffic Analysis from UAVs)と呼ばれるAI統合ビデオ分析フレームワークを開発する。 従来のトラヒックビデオ解析と異なり,高分解能のuav画像を用いた映像処理から高度なトラヒック理解までの自動検出・追跡パイプラインを提案する。 tauの主な貢献は6つある。 まず,分解能を低下させることなく,高分解能のuav画像を入力としてオブジェクト検出器に適応させる前処理アルゴリズムを提案する。 これにより、高品質な特徴、特にUAV画像から検出された物体の小さなサイズから、優れた検出精度が得られる。 第二に、車両の座標を再調整するアルゴリズムを導入し、車両が同一フレームの複数の作物にまたがって一意に識別され追跡されることを保証する。 第3に,逐次フレームからの情報を蓄積した速度計算アルゴリズムを提案する。 第4に、TAUはRay Tracingアルゴリズムに基づいてトラフィックゾーン当たりの車両数をカウントする。 第5に、TAUは周囲の異なるゾーンから収集されたデータに基づいて、クロスロード仲裁のための完全に独立したアルゴリズムを持っている。 6番目のTAUでは、収集された生データから24種類の洞察を抽出するアルゴリズムが導入された。 コードはここで共有される。 https://github.com/bilel-bj/tau。 https://youtu.be/wxjv0h7lviu と https://youtu.be/kgv0gmtvebi。

Smart traffic engineering and intelligent transportation services are in increasing demand from governmental authorities to optimize traffic performance and thus reduce energy costs, increase the drivers' safety and comfort, ensure traffic laws enforcement, and detect traffic violations. In this paper, we address this challenge, and we leverage the use of Artificial Intelligence (AI) and Unmanned Aerial Vehicles (UAVs) to develop an AI-integrated video analytics framework, called TAU (Traffic Analysis from UAVs), for automated traffic analytics and understanding. Unlike previous works on traffic video analytics, we propose an automated object detection and tracking pipeline from video processing to advanced traffic understanding using high-resolution UAV images. TAU combines six main contributions. First, it proposes a pre-processing algorithm to adapt the high-resolution UAV image as input to the object detector without lowering the resolution. This ensures an excellent detection accuracy from high-quality features, particularly the small size of detected objects from UAV images. Second, it introduces an algorithm for recalibrating the vehicle coordinates to ensure that vehicles are uniquely identified and tracked across the multiple crops of the same frame. Third, it presents a speed calculation algorithm based on accumulating information from successive frames. Fourth, TAU counts the number of vehicles per traffic zone based on the Ray Tracing algorithm. Fifth, TAU has a fully independent algorithm for crossroad arbitration based on the data gathered from the different zones surrounding it. Sixth, TAU introduces a set of algorithms for extracting twenty-four types of insights from the raw data collected. The code is shared here: https://github.com/bilel-bj/TAU. Video demonstrations are provided here: https://youtu.be/wXJV0H7LviU and here: https://youtu.be/kGv0gmtVEbI.
翻訳日:2023-03-02 15:24:53 公開日:2023-03-01
# 適応型ルックアップテーブル融合によるオンラインビデオストリーミング超解像

Online Video Streaming Super-Resolution with Adaptive Look-Up Table Fusion ( http://arxiv.org/abs/2303.00334v1 )

ライセンス: Link先を確認
Guanghao Yin, Xinyang Jiang, Shan Jiang, Zhenhua Han, Ningxin Zheng, Huan Yang, Donglin Bai, Haisheng Tan, Shouqian Sun, Yuqing Yang, Dongsheng Li, Lili Qiu(参考訳) 本稿では,オンラインビデオストリーミングデータのスーパーレゾリューションに焦点を当てる。 ビデオストリーミングデータに既存の超解像法を適用することは、2つの理由から自明ではない。 まず、定常的なインタラクションを持つアプリケーションをサポートするために、ビデオストリーミングは、多くの既存の方法、特にローエンドデバイスでは適用できない、レイテンシの要求が高い。 第2に、既存のビデオストリーミングプロトコル(WebRTCなど)は、動的にビデオ品質をネットワークの状態に適応するため、荒野での動画ストリーミングはネットワーク帯域で大きく異なるため、多様な動的劣化をもたらす。 以上の2つの課題に対処するために,オンラインビデオストリーミングのための新しい超解像法を提案する。 まず、ルックアップテーブル(lut)を軽量畳み込みモジュールに組み込んでリアルタイムレイテンシを実現する。 第2に,異なる劣化データに基づいて事前訓練された最先端SRネットワーク上に一組のLUTベースを構築し,これらのLUTベースと軽量畳み込みモジュールからの抽出重みを組み合わせ,動的劣化を適応的に処理する画素レベルのLUT融合戦略を提案する。 ldv-webrtcという,新たに提案されたオンラインビデオストリーミングデータセット上で,広範な実験が行われている。 これらの結果から,提案手法は既存のLUT方式よりも優れており,効率的なCNN方式に比べて高速なSR性能が得られることがわかった。 並列LUT推論により、提案手法は100FPS程度のオンライン720PビデオSRもサポートできる。

This paper focuses on Super-resolution for online video streaming data. Applying existing super-resolution methods to video streaming data is non-trivial for two reasons. First, to support application with constant interactions, video streaming has a high requirement for latency that most existing methods are less applicable, especially on low-end devices. Second, existing video streaming protocols (e.g., WebRTC) dynamically adapt the video quality to the network condition, thus video streaming in the wild varies greatly under different network bandwidths, which leads to diverse and dynamic degradations. To tackle the above two challenges, we proposed a novel video super-resolution method for online video streaming. First, we incorporate Look-Up Table (LUT) to lightweight convolution modules to achieve real-time latency. Second, for variant degradations, we propose a pixel-level LUT fusion strategy, where a set of LUT bases are built upon state-of-the-art SR networks pre-trained on different degraded data, and those LUT bases are combined with extracted weights from lightweight convolution modules to adaptively handle dynamic degradations. Extensive experiments are conducted on a newly proposed online video streaming dataset named LDV-WebRTC. All the results show that our method significantly outperforms existing LUT-based methods and offers competitive SR performance with faster speed compared to efficient CNN-based methods. Accelerated with our parallel LUT inference, our proposed method can even support online 720P video SR around 100 FPS.
翻訳日:2023-03-02 15:24:13 公開日:2023-03-01
# コンピテンスに基づく言語モデルの解析

Competence-Based Analysis of Language Models ( http://arxiv.org/abs/2303.00333v1 )

ライセンス: Link先を確認
Adam Davies, Jize Jiang, ChengXiang Zhai(参考訳) 近年、様々なプロンプトタスクにおける大規模な事前訓練言語モデル(LM)の成功にもかかわらず、これらのモデルは入力やアプリケーションコンテキストの小さな変更に対して驚くほど脆弱である。 このような振る舞いをよりよく理解し、より堅牢なLMの設計を動機付けるために、目的の因果的介入を利用して様々な言語特性の内部表現を損傷させ、与えられたタスクの実行における各表現の使用を評価する、CALM(Competence-based Analysis of Language Models)を提案する。 従来の因果探索手法とは対照的に,これらの介入は関係特性を任意に符号化した表現を対象とすることができ,BERTのようなLMが関係特性の表現をどのように利用するかを分析するためのケーススタディを行う。 我々は,各タスクの実行においてLMが活用する表現は極めて絡み合っているが,それらが最も活用されているタスクの観点から意味のある解釈が可能であること,さらにCALMは,既存のLMの弱点を予測・説明するのに有用な,LM分析における調査範囲の拡大を可能にしていることを見出した。

Despite the recent success of large pretrained language models (LMs) on a variety of prompting tasks, these models can be alarmingly brittle to small changes in inputs or application contexts. To better understand such behavior and motivate the design of more robust LMs, we propose a general experimental framework, CALM (Competence-based Analysis of Language Models), where targeted causal interventions are utilized to damage an LM's internal representation of various linguistic properties in order to evaluate its use of each representation in performing a given task. We implement these interventions as gradient-based adversarial attacks, which (in contrast to prior causal probing methodologies) are able to target arbitrarily-encoded representations of relational properties, and carry out a case study of this approach to analyze how BERT-like LMs use representations of several relational properties in performing associated relation prompting tasks. We find that, while the representations LMs leverage in performing each task are highly entangled, they may be meaningfully interpreted in terms of the tasks where they are most utilized; and more broadly, that CALM enables an expanded scope of inquiry in LM analysis that may be useful in predicting and explaining weaknesses of existing LMs.
翻訳日:2023-03-02 15:23:47 公開日:2023-03-01
# 勧告における正確性・誤校正・大衆バイアスに関する研究

A Study on Accuracy, Miscalibration, and Popularity Bias in Recommendations ( http://arxiv.org/abs/2303.00400v1 )

ライセンス: Link先を確認
Dominik Kowald and Gregor Mayr and Markus Schedl and Elisabeth Lex(参考訳) 近年の研究では、ユーザグループ間の精度差、誤校正、人気上昇など、推薦性能の不整合を測定するためのさまざまな指標が提案されている。 しかし、誤校正と人気上昇に関連する研究は、異なるユーザーグループ間での推奨精度に欠ける。 さらに、特定のジャンルがユーザーグループ間でのレコメンデーションパフォーマンスの不整合の出現に寄与するかどうかは明らかでない。 本稿では,人気のあるコンテンツに対する好みが異なるユーザグループに対する5つの推奨アルゴリズムについて,これら3つの側面の分析を行う。 さらに,異なるジャンルがレコメンデーションパフォーマンスの不整合にどのように影響するか,また,ジャンルの人気とどのように一致しているかを検討する。 lastfm、movielens、myanimelistのデータを使って、2つの重要な発見を示しました。 まず、人気コンテンツに関心のないユーザーには、最悪の推奨精度が与えられ、これは誤校正や人気上昇と一致している。 第2に,特定のジャンルが,特にmyanimelistデータセットの場合のミスキャリブレーションの観点から,レコメンデーション性能の非一貫性に異なる影響を与えることを示す実験を行った。

Recent research has suggested different metrics to measure the inconsistency of recommendation performance, including the accuracy difference between user groups, miscalibration, and popularity lift. However, a study that relates miscalibration and popularity lift to recommendation accuracy across different user groups is still missing. Additionally, it is unclear if particular genres contribute to the emergence of inconsistency in recommendation performance across user groups. In this paper, we present an analysis of these three aspects of five well-known recommendation algorithms for user groups that differ in their preference for popular content. Additionally, we study how different genres affect the inconsistency of recommendation performance, and how this is aligned with the popularity of the genres. Using data from LastFm, MovieLens, and MyAnimeList, we present two key findings. First, we find that users with little interest in popular content receive the worst recommendation accuracy, and that this is aligned with miscalibration and popularity lift. Second, our experiments show that particular genres contribute to a different extent to the inconsistency of recommendation performance, especially in terms of miscalibration in the case of the MyAnimeList dataset.
翻訳日:2023-03-02 15:18:07 公開日:2023-03-01
# D4FT:Kohn-Sham密度汎関数理論への深層学習アプローチ

D4FT: A Deep Learning Approach to Kohn-Sham Density Functional Theory ( http://arxiv.org/abs/2303.00399v1 )

ライセンス: Link先を確認
Tianbo Li, Min Lin, Zheyuan Hu, Kunhao Zheng, Giovanni Vignale, Kenji Kawaguchi, A. H. Castro Neto, Kostya S. Novoselov, Shuicheng Yan(参考訳) コーン・シャム密度汎関数理論(KS-DFT)は、伝統的にSCF法によって解決されてきた。 SCFループの背後には、効果的なポテンシャルの下で非相互作用的な単一電子波動関数の系を解く物理直観がある。 本研究では,KS-DFTに対する深層学習手法を提案する。 まず,従来のscfループとは対照的に,直交制約をフィードフォワード計算として再パラメータ化することにより,全エネルギーを直接最小化する手法を提案する。 このような手法はSCF法と同じ表現性を持つが、計算複雑性は O(N^4) から O(N^3) に減少する。 第二に、二次格子上の和を含む数値積分は最適化ステップに補正することができる。 各ステップでは、グリッドのサンプル化されたミニバッチを用いて確率勾配降下(sgd)を行う。 効率と安定性の観点から,本手法の利点を実証するために大規模な実験を行った。 さらに,本手法により,より複雑な神経系波動関数を探索できることを示した。

Kohn-Sham Density Functional Theory (KS-DFT) has been traditionally solved by the Self-Consistent Field (SCF) method. Behind the SCF loop is the physics intuition of solving a system of non-interactive single-electron wave functions under an effective potential. In this work, we propose a deep learning approach to KS-DFT. First, in contrast to the conventional SCF loop, we propose to directly minimize the total energy by reparameterizing the orthogonal constraint as a feed-forward computation. We prove that such an approach has the same expressivity as the SCF method, yet reduces the computational complexity from O(N^4) to O(N^3). Second, the numerical integration which involves a summation over the quadrature grids can be amortized to the optimization steps. At each step, stochastic gradient descent (SGD) is performed with a sampled minibatch of the grids. Extensive experiments are carried out to demonstrate the advantage of our approach in terms of efficiency and stability. In addition, we show that our approach enables us to explore more complex neural-based wave functions.
翻訳日:2023-03-02 15:17:47 公開日:2023-03-01
# 制約付きプロキシ学習によるDeep Ordinal Classificationのためのクラスレイアウト制御

Controlling Class Layout for Deep Ordinal Classification via Constrained Proxies Learning ( http://arxiv.org/abs/2303.00396v1 )

ライセンス: Link先を確認
Cong Wang, Zhiwei Jiang, Yafeng Yin, Zifeng Cheng, Shiping Ge, Qing Gu(参考訳) 深い順序の分類では、順序の分類に特有のよく構造化された特徴空間を学ぶことは、クラス間の順序の性質を適切に捉えるのに役立つ。 直観的には、ユークリッド距離計量を用いると、特徴空間における理想的な順序配置は、サンプルクラスタが空間内の直線に沿ってクラス順に配置されることである。 しかし、機能空間の特定のレイアウトに合致するようにサンプルを強制することは難しい問題である。 そこで本研究では,各順序クラスのプロキシを学習し,それらのプロキシを制約することでクラス全体のレイアウトを調整可能な,制約付きプロキシ学習(Constrained Proxies Learning, CPL)手法を提案する。 具体的には,ハードレイアウト制約とソフトレイアウト制約の2種類の戦略を提案する。 ハードレイアウト制約は、プロキシの生成を直接制御して、厳密な線形レイアウトまたは半円形レイアウト(すなわち厳密な順序レイアウトの2つのインスタンス)に配置させることによって実現される。 ソフトレイアウトの制約は、プロキシレイアウトが常に各プロキシ(つまり緩やかな順序のレイアウト)に対して、アンモダルプロキシとプロキシの類似性分布を生成するように制約することで実現される。 実験により,提案手法は特徴抽出器の同一設定下で従来の深部順序分類法よりも優れていることが示された。

For deep ordinal classification, learning a well-structured feature space specific to ordinal classification is helpful to properly capture the ordinal nature among classes. Intuitively, when Euclidean distance metric is used, an ideal ordinal layout in feature space would be that the sample clusters are arranged in class order along a straight line in space. However, enforcing samples to conform to a specific layout in the feature space is a challenging problem. To address this problem, in this paper, we propose a novel Constrained Proxies Learning (CPL) method, which can learn a proxy for each ordinal class and then adjusts the global layout of classes by constraining these proxies. Specifically, we propose two kinds of strategies: hard layout constraint and soft layout constraint. The hard layout constraint is realized by directly controlling the generation of proxies to force them to be placed in a strict linear layout or semicircular layout (i.e., two instantiations of strict ordinal layout). The soft layout constraint is realized by constraining that the proxy layout should always produce unimodal proxy-to-proxies similarity distribution for each proxy (i.e., to be a relaxed ordinal layout). Experiments show that the proposed CPL method outperforms previous deep ordinal classification methods under the same setting of feature extractor.
翻訳日:2023-03-02 15:17:31 公開日:2023-03-01
# 雑音量子メトロロジーのno-go定理を克服するフローケット工学

Floquet engineering to overcome no-go theorem of noisy quantum metrology ( http://arxiv.org/abs/2303.00392v1 )

ライセンス: Link先を確認
Si-Yuan Bai, Jun-Hong An(参考訳) 量子力学は、古典的限界よりも正確な物理量の測定を量子資源を用いて可能とし、多くの革新的な技術を開発することを約束している。 しかし、ノイズ誘起デコヒーレンスによってその優越性は消滅し、ノイズ量子メトロロジーのno-go定理と呼ばれ、その応用を制限している。 Floquet Engineering によるno-go定理を克服する手法を提案する。 ラムゼー分光器の原子に周期的な駆動を施すことにより、量子フィッシャー情報によって特徴づけられる周波数を測定する究極の感度は、各駆動原子とその局所雑音からなる系によってフロッケ境界状態が形成されるときの符号化時間とともに理想の$t^2$スケールに戻る。 最適な制御と組み合わせることで、このメカニズムは理想のハイゼンベルク・リミットスケーリングを原子番号$n$で取得することもできます。 この結果は,ノイズ量子力学のノーゴー定理を回避し,高精度な測定を実現するための効率的な方法を与える。

Permitting a more precise measurement to physical quantities than the classical limit by using quantum resources, quantum metrology holds a promise in developing many revolutionary technologies. However, the noise-induced decoherence forces its superiority disappear, which is called no-go theorem of noisy quantum metrology and constrains its application. We propose a scheme to overcome the no-go theorem by Floquet engineering. It is found that, by applying a periodic driving on the atoms of the Ramsey spectroscopy, the ultimate sensitivity to measure their frequency characterized by quantum Fisher information returns to the ideal $t^2$ scaling with the encoding time whenever a Floquet bound state is formed by the system consisting of each driven atom and its local noise. Combining with the optimal control, this mechanism also allows us to retrieve the ideal Heisenberg-limit scaling with the atom number $N$. Our result gives an efficient way to avoid the no-go theorem of noisy quantum metrology and to realize high-precision measurement.
翻訳日:2023-03-02 15:17:08 公開日:2023-03-01
# DOLOS: ターゲット防衛の新たなアーキテクチャ

DOLOS: A Novel Architecture for Moving Target Defense ( http://arxiv.org/abs/2303.00387v1 )

ライセンス: Link先を確認
Giulio Pagnotta, Fabio De Gaspari, Dorjan Hitaj, Mauro Andreolini, Michele Colajanni, Luigi V. Mancini(参考訳) 移動ターゲットディフェンスとサイバー偽装は、従来のリアクティブサイバーディフェンスの静的な性質とは対照的に、近年2つの重要なプロアクティブサイバーディフェンスアプローチとして登場した。 これらのアプローチの背後にある重要な洞察は、デセプションとランダム化技術を使って動的攻撃面を作成することで、攻撃者に非対称な不利を課すことである。 移動ターゲットディフェンスは通常システムのランダム化と多様化に依存し、サイバー認知は攻撃者を欺くためにデコイノードと偽システムに基づいている。 しかし、現在の移動目標防衛技術は管理が複雑であり、高いオーバーヘッドを発生させることができる一方、Cyber Deceptionノードは敵によって容易に認識され、回避される。 本稿では,サイバー認知と移動目標防衛を一体化した新しいアーキテクチャであるDOLOSを提案する。 DOLOSは、それと同時にデプロイされるのではなく、本番システムに統合される場合には、偽造技術の方がはるかに強力である、という洞察に動機付けられている。 DOLOSは、ランダム化、多様性、冗長性といった典型的な移動目標防衛技術とサイバー詐欺を組み合わせ、複数の分離層を通じてシームレスにプロダクションシステムに統合する。 我々は、自動マルウェアからプロの侵入テストまで幅広い攻撃者に対してDOLOSを広範囲に評価し、DOLOSが攻撃を遅くし、生産システムの完全性を保護するのに非常に有効であることを示す。 また,MTD技術の今後の発展に向けた貴重な知見と考察を,本研究の成果に基づいて提供する。

Moving Target Defense and Cyber Deception emerged in recent years as two key proactive cyber defense approaches, contrasting with the static nature of the traditional reactive cyber defense. The key insight behind these approaches is to impose an asymmetric disadvantage for the attacker by using deception and randomization techniques to create a dynamic attack surface. Moving Target Defense typically relies on system randomization and diversification, while Cyber Deception is based on decoy nodes and fake systems to deceive attackers. However, current Moving Target Defense techniques are complex to manage and can introduce high overheads, while Cyber Deception nodes are easily recognized and avoided by adversaries. This paper presents DOLOS, a novel architecture that unifies Cyber Deception and Moving Target Defense approaches. DOLOS is motivated by the insight that deceptive techniques are much more powerful when integrated into production systems rather than deployed alongside them. DOLOS combines typical Moving Target Defense techniques, such as randomization, diversity, and redundancy, with cyber deception and seamlessly integrates them into production systems through multiple layers of isolation. We extensively evaluate DOLOS against a wide range of attackers, ranging from automated malware to professional penetration testers, and show that DOLOS is highly effective in slowing down attacks and protecting the integrity of production systems. We also provide valuable insights and considerations for the future development of MTD techniques based on our findings.
翻訳日:2023-03-02 15:16:47 公開日:2023-03-01
# u(1)対称性を持つ量子スピンモデルの回転子/スピン波理論

Rotor/spin-wave theory for quantum spin models with U(1) symmetry ( http://arxiv.org/abs/2303.00380v1 )

ライセンス: Link先を確認
Tommaso Roscilde, Tommaso Comparin, Fabio Mezzacapo(参考訳) 熱力学極限における連続な$U(1)$対称性を自発的に破る有限サイズの格子量子スピンモデルの静的および動的性質は、凝縮物質から量子シミュレーションまで、幅広い物理系において中心的な重要性を持つ。 このような系はゴールドストーン励起枝によって特徴づけられ、線形化アプローチにおける理論的な処理が有限サイズ系のばらつきを引き起こすゼロモードで終端し、対称性の破れの仮定が熱力学の極限から不定義であることを明らかにする。 この研究において、すべての非線形性が考慮されると、ゼロモードは、熱力学的極限における対称性の破れを示す系で期待されるアンダーソン状態の塔に関連するu(1)量子ローターと正確に一致することが示される。 有限モーメントモードは、人口が弱ければ、代わりに安全に線形化(スピン波理論で扱われる)でき、ゼロモードから効果的に分離できる。 この図はローターとスピン波の変数の近似的な分離をもたらし、基底状態と低エネルギー物理学の正しい記述を可能にする。 最も重要なことは、線形化アプローチが失敗するゼロモードに支配される量子クエンチに従う有限サイズの非平衡ダイナミクスの定量的な処理を提供することである。 パワーロー減衰相互作用を持つ2$d$ xxモデルに着目し、偏りのない量子モンテカルロ結果と正確な対角化の平衡予測と、時間依存変分モンテカルロとの非平衡結果を比較した。 この合意はすべての相互作用範囲で顕著であり、より長い範囲を改善する。 我々のローター/スピン波理論は、スピン波理論とその平衡あるいはそれから離れる有限サイズ系への拡張の成功戦略を定義する。

The static and dynamics properties of finite-size lattice quantum spin models which spontaneously break a continuous $U(1)$ symmetry in the thermodynamic limit are of central importance for a wide variety of physical systems, from condensed matter to quantum simulation. Such systems are characterized by a Goldstone excitation branch, terminating in a zero mode whose theoretical treatment within a linearized approach leads to divergencies on finite-size systems, revealing that the assumption of symmetry breaking is ill-defined away from the thermodynamic limit. In this work we show that, once all its non-linearities are taken into account, the zero mode corresponds exactly to a U(1) quantum rotor, related to the Anderson tower of states expected in systems showing symmetry breaking in the thermodynamic limit. The finite-momentum modes, when weakly populated, can be instead safely linearized (namely treated within spin-wave theory) and effectively decoupled from the zero mode. This picture leads to an approximate separation of variables between rotor and spin-wave ones, which allows for a correct description of the ground-state and low-energy physics. Most importantly, it offers a quantitative treatment of the finite-size non-equilibrium dynamics -- following a quantum quench -- dominated by the zero mode, for which a linearized approach fails. Focusing on the 2$d$ XX model with power-law decaying interactions, we compare our equilibrium predictions with unbiased quantum Monte Carlo results and exact diagonalization; and our non-equilibrium results with time-dependent variational Monte Carlo. The agreement is remarkable for all interaction ranges, and it improves the longer the range. Our rotor/spin-wave theory defines a successful strategy for the application of spin-wave theory and its extensions to finite-size systems at equilibrium or away from it.
翻訳日:2023-03-02 15:16:22 公開日:2023-03-01
# スタイル強化とアイデンティティ保護を併用した画像画像生成

Few-shots Portrait Generation with Style Enhancement and Identity Preservation ( http://arxiv.org/abs/2303.00377v1 )

ライセンス: Link先を確認
Runchuan Zhu, Naye Ji, Youbing Zhao, Fan Zhang(参考訳) 今日、仮想デジタル人間の幅広い応用は、デジタル経済によって支えられたデジタル文化の包括的繁栄と発展を促進する。 AI技術によって自動的に生成されるパーソナライズされた肖像画は、自然な芸術様式と人間の感情の両方を必要とする。 本稿では,生成した肖像画の同一性と芸術性を同時に確保できる新しいスタイルIdentityGANモデルを提案する。 特に、スタイルエンハンスドモジュールは、生成した仮想顔画像の芸術性を改善するために、デカップリングと転送の芸術的スタイル機能に焦点を当てている。 一方、アイデンティティ強化モジュールは、入力写真から抽出した重要な特徴を保存する。 さらに,提案手法では,少数の参照スタイルデータを必要とする。 芸術効果とアイデンティティ効果の最先端手法に対するStyleIdentityGANの優位性を,質的に,定量的に,そして知覚的ユーザスタディを通じて比較した。 コードはGithub3でリリースされた。

Nowadays, the wide application of virtual digital human promotes the comprehensive prosperity and development of digital culture supported by digital economy. The personalized portrait automatically generated by AI technology needs both the natural artistic style and human sentiment. In this paper, we propose a novel StyleIdentityGAN model, which can ensure the identity and artistry of the generated portrait at the same time. Specifically, the style-enhanced module focuses on artistic style features decoupling and transferring to improve the artistry of generated virtual face images. Meanwhile, the identity-enhanced module preserves the significant features extracted from the input photo. Furthermore, the proposed method requires a small number of reference style data. Experiments demonstrate the superiority of StyleIdentityGAN over state-of-art methods in artistry and identity effects, with comparisons done qualitatively, quantitatively and through a perceptual user study. Code has been released on Github3.
翻訳日:2023-03-02 15:15:50 公開日:2023-03-01
# 説明不能なマルチモーダル空間評価器

Indescribable Multi-modal Spatial Evaluator ( http://arxiv.org/abs/2303.00369v1 )

ライセンス: Link先を確認
Lingke Kong, X. Sharon Qi, Qijin Shen, Jiacheng Wang, Jingyi Zhang, Yanle Hu, Qichao Zhou(参考訳) マルチモーダル画像登録は、2つの画像を異なる分布で空間的に整列する。 主な課題の1つは、異なる撮像装置から取得した画像が異なる画像分布を持つため、画像の空間的側面のみに焦点を合わせ、分布の違いを無視することが困難である。 本研究では,マルチモーダル画像登録のための自己教師型手法であるIndescribable Multi-model Spatial Evaluator (IMSE)を開発した。 IMSEは2つの画像間の空間差を測定するための正確なマルチモーダル空間評価器を作成し、その評価器の誤差予測を最小化して登録を最適化する。 IMSE性能を最適化するために,複数のセグメントに画像分布をランダムに分割し,これらのセグメントをランダムに乱して再マップし,元のイメージの分布を変更するShuffle Remapと呼ばれる新しいスタイル拡張手法を提案する。 Shuffle RemapはIMSEが未確認のターゲット分布と空間的位置の違いを予測するのに役立つ。 IMSEはT1-T2およびCT-MRIデータセットを用いた既存の登録方法よりも優れていた。 IMSEは、従来の登録プロセスに簡単に統合することができ、登録結果を評価および視覚化する便利な方法を提供する。 IMSEはまた、画像から画像への翻訳の新しいパラダイムとして使われる可能性がある。 私たちのコードはhttps://github.com/kid-liet/imseで利用可能です。

Multi-modal image registration spatially aligns two images with different distributions. One of its major challenges is that images acquired from different imaging machines have different imaging distributions, making it difficult to focus only on the spatial aspect of the images and ignore differences in distributions. In this study, we developed a self-supervised approach, Indescribable Multi-model Spatial Evaluator (IMSE), to address multi-modal image registration. IMSE creates an accurate multi-modal spatial evaluator to measure spatial differences between two images, and then optimizes registration by minimizing the error predicted of the evaluator. To optimize IMSE performance, we also proposed a new style enhancement method called Shuffle Remap which randomizes the image distribution into multiple segments, and then randomly disorders and remaps these segments, so that the distribution of the original image is changed. Shuffle Remap can help IMSE to predict the difference in spatial location from unseen target distributions. Our results show that IMSE outperformed the existing methods for registration using T1-T2 and CT-MRI datasets. IMSE also can be easily integrated into the traditional registration process, and can provide a convenient way to evaluate and visualize registration results. IMSE also has the potential to be used as a new paradigm for image-to-image translation. Our code is available at https://github.com/Kid-Liet/IMSE.
翻訳日:2023-03-02 15:15:35 公開日:2023-03-01
# エンジニアリング問題解決における検出タスクの超解像

Lessons Learned Report: Super-Resolution for Detection Tasks in Engineering Problem-Solving ( http://arxiv.org/abs/2303.00364v1 )

ライセンス: Link先を確認
Martin Feder, Michal Horovitz, Assaf Chen, Raphael Linker, Ofer M. Shir(参考訳) 機械学習に基づく超解法アプローチを用いて、低解像度の入力マップを対象とする農業検出問題解決から学んだ教訓について述べる。 基礎となる領域はいわゆるアグロ検出問題クラスであり、特定の目的は散発的な入力写像の相補的なアンサンブルを学ぶことである。 超解像アルゴリズムは、ジェネリックフォトグラフィーにおける様々な魅力的な機能を強化する能力でブランド化されているが、それらには特定の要件を満たさなければならず、より重要なことは、その成果が必ずしもエンジニアリング検出の問題解決の改善を保証していないことである(imagenetライクなデータセットにおけるいわゆる美学/人工的超解像とは違って)。 特定のデータ駆動ケーススタディを提示することにより、アグロ検出問題に対する超解像アルゴリズムの展開に関する一連の制限と勧告を概説する。 もう1つの結論は、超解像アルゴリズムは失われたスペクトルチャネルの学習に使われ、それらの使用はチャネルの同期のような望ましい副作用をもたらす可能性がある、ということである。

We describe the lessons learned from targeting agricultural detection problem-solving, when subject to low resolution input maps, by means of Machine Learning-based super-resolution approaches. The underlying domain is the so-called agro-detection class of problems, and the specific objective is to learn a complementary ensemble of sporadic input maps. While super-resolution algorithms are branded with the capacity to enhance various attractive features in generic photography, we argue that they must meet certain requirements, and more importantly, that their outcome does not necessarily guarantee an improvement in engineering detection problem-solving (unlike so-called aesthetics/artistic super-resolution in ImageNet-like datasets). By presenting specific data-driven case studies, we outline a set of limitations and recommendations for deploying super-resolution algorithms for agro-detection problems. Another conclusion states that super-resolution algorithms can be used for learning missing spectral channels, and that their usage may result in some desired side-effects such as channels' synchronization.
翻訳日:2023-03-02 15:15:10 公開日:2023-03-01
# オンライン討論におけるヘイト、毒性、過激な集団的モデレーション

Collective moderation of hate, toxicity, and extremity in online discussions ( http://arxiv.org/abs/2303.00357v1 )

ライセンス: Link先を確認
Jana Lasser and Alina Herderich and Joshia Garland and Segun Taofeek Aroyehun and David Garcia and Mirta Galesic(参考訳) ネット上でのヘイト、毒性、過激主義を市民はどうやって抑えられるのか? 我々は、移民危機と政治的混乱が続く4年間にわたる混乱の中で、ドイツTwitterに関する13万人以上の議論の大規模なコーパスを分析した。 人間の注釈、言語モデル、機械学習分類器、および縦断統計分析の助けを借りて、言論の異なる次元のダイナミクスを識別する。 単純な意見を表現することは、必ずしも事実によって支持されるのではなく、侮辱なしでも、後続の議論において、憎悪、毒性、言論の過激さに関係している。 サルカズムはこれらの成果、特に組織化された極端な集団の存在の達成にも貢献する。 事実の提供や矛盾の露呈といったより建設的なコメントは、反発し、より過激さを惹きつける可能性がある。 アウトグループまたはイングループへの言及は、一般的に長期的にの談話の悪化と関連している。 怒りや恐怖などの否定的な感情のトーンや、熱意やプライドなどの肯定的な感情のトーンも、より悪い結果をもたらす。 会話の小さなサンプルをワンショット分析するだけでなく,集合的市民モデレーションによるオンラインコモンズの管理が成功に繋がる可能性が示唆された。

How can citizens moderate hate, toxicity, and extremism in online discourse? We analyze a large corpus of more than 130,000 discussions on German Twitter over the turbulent four years marked by the migrant crisis and political upheavals. With a help of human annotators, language models, machine learning classifiers, and longitudinal statistical analyses, we discern the dynamics of different dimensions of discourse. We find that expressing simple opinions, not necessarily supported by facts but also without insults, relates to the least hate, toxicity, and extremity of speech and speakers in subsequent discussions. Sarcasm also helps in achieving those outcomes, in particular in the presence of organized extreme groups. More constructive comments such as providing facts or exposing contradictions can backfire and attract more extremity. Mentioning either outgroups or ingroups is typically related to a deterioration of discourse in the long run. A pronounced emotional tone, either negative such as anger or fear, or positive such as enthusiasm and pride, also leads to worse outcomes. Going beyond one-shot analyses on smaller samples of discourse, our findings have implications for the successful management of online commons through collective civic moderation.
翻訳日:2023-03-02 15:14:49 公開日:2023-03-01
# 効率的なビデオフレーム補間のためのフレーム間注意による動きと外観の抽出

Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation ( http://arxiv.org/abs/2303.00440v1 )

ライセンス: Link先を確認
Guozhen Zhang, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, Limin Wang(参考訳) 映像フレーム補間(vfi)において,フレーム間動作と外観情報を効果的に抽出することが重要である。 以前の作業では、両タイプの情報を混合的に抽出するか、それぞれのタイプの情報に対して精巧に分離したモジュールを抽出し、表現の曖昧さと効率の低下につながる。 本稿では,動作と外観情報を統一操作により明示的に抽出する新しいモジュールを提案する。 具体的には、フレーム間注目における情報処理を再考し、その注目マップを外観特徴強調と動き情報抽出の両方に再利用する。 さらに,効率的なVFIを実現するため,提案モジュールをハイブリッドCNNとTransformerアーキテクチャにシームレスに統合することができた。 このハイブリッドパイプラインはフレーム間注意の計算の複雑さを軽減し、詳細な低レベル構造情報を保存できる。 実験の結果,固定時間と任意の時間ステップの補間において,様々なデータセットにおける最先端の性能が得られた。 一方,本手法では,性能が近いモデルよりも計算オーバーヘッドが軽い。 ソースコードとモデルはhttps://github.com/MCG-NJU/EMA-VFIで公開されている。

Effectively extracting inter-frame motion and appearance information is important for video frame interpolation (VFI). Previous works either extract both types of information in a mixed way or elaborate separate modules for each type of information, which lead to representation ambiguity and low efficiency. In this paper, we propose a novel module to explicitly extract motion and appearance information via a unifying operation. Specifically, we rethink the information process in inter-frame attention and reuse its attention map for both appearance feature enhancement and motion information extraction. Furthermore, for efficient VFI, our proposed module could be seamlessly integrated into a hybrid CNN and Transformer architecture. This hybrid pipeline can alleviate the computational complexity of inter-frame attention as well as preserve detailed low-level structure information. Experimental results demonstrate that, for both fixed- and arbitrary-timestep interpolation, our method achieves state-of-the-art performance on various datasets. Meanwhile, our approach enjoys a lighter computation overhead over models with close performance. The source code and models are available at https://github.com/MCG-NJU/EMA-VFI.
翻訳日:2023-03-02 15:08:00 公開日:2023-03-01
# ニューロシンボリックpddl対応プランナー作成のための枠組み

A Framework to Generate Neurosymbolic PDDL-compliant Planners ( http://arxiv.org/abs/2303.00438v1 )

ライセンス: Link先を確認
Alessio Capitanelli and Fulvio Mastrogiovanni(参考訳) 現実のロボットアーキテクチャの実行ループにハイレベルなタスクプランニングを統合するという問題は、従来のシンボルプランナーの計画時間が計画するシンボルの数と組み合わせて爆発するため、依然として困難である。 本稿では,大規模言語モデル(llm)を学習するためのフレームワークであるteriyaki,特に現在よく知られているgpt-3モデルを,プランニングドメイン定義言語(pddl)と互換性のあるニューロシンボリックプランナーに導入する。 シンボリックアプローチとは異なり、LLMはトレーニングプロセスを必要とする。 しかし、応答時間は入力と出力の組合せの長さでスケールする。 したがって、LLMベースのプランナーは、技術が成熟してアクセスしやすくなれば、複雑な計画上の問題に対して大きなパフォーマンス向上をもたらす可能性がある。 この予備的な作業において、ロボット工学の計画にLLMを使ったのは、私たちの知る限り、私たちは初めてです。 一 PDDLソルバとしてのLCMの訓練方法の概要 (二)PDDL対応プランナーを2つの挑戦的なPDDLドメインに作成し、 (iii) 得られたプランナーに関する計画時間と計画品質を試験するとともに、最新のpddlプランナー、すなわちプローブと比較する。 teriyakiベースのプランナーは、1000サンプルのテストデータセットで95.5%の問題を解決することができ、ドメインによっては従来のプランナーよりも平均で13.5%短いプランを生成することもできる。

The problem of integrating high-level task planning in the execution loop of a real-world robot architecture remains challenging, as the planning times of traditional symbolic planners explode combinatorially with the number of symbols to plan upon. In this paper, we present Teriyaki, a framework for training Large Language Models (LLMs), and in particular the now well-known GPT-3 model, into neurosymbolic planners compatible with the Planning Domain Definition Language (PDDL). Unlike symbolic approaches, LLMs require a training process. However, their response time scales with the combined length of the input and the output. Hence, LLM-based planners can potentially provide significant performance gains on complex planning problems as the technology matures and becomes more accessible. In this preliminary work, which to our knowledge is the first using LLMs for planning in robotics, we (i) outline a methodology for training LLMs as PDDL solvers, (ii) generate PDDL-compliant planners for two challenging PDDL domains, and (iii) test the planning times and the plan quality associated with the obtained planners, while also comparing them to a state-of-the-art PDDL planner, namely Probe. Results confirm the viability of the approach, with Teriyaki-based planners being able to solve 95.5% of problems in a test data set of 1000 samples, and even generating plans up to 13.5% shorter on average than the employed traditional planner, depending on the domain.
翻訳日:2023-03-02 15:07:44 公開日:2023-03-01
# OliVaR: ディープニューラルネットワークを用いたオリーブ変量認識の改善

OliVaR: Improving Olive Variety Recognition using Deep Neural Networks ( http://arxiv.org/abs/2303.00431v1 )

ライセンス: Link先を確認
Hristofor Miho, Giulio Pagnotta, Dorjan Hitaj, Fabio De Gaspari, Luigi V. Mancini, Georgios Koubouris, Gianluca Godino, Mehmet Hakan, Concepcion Mu\~noz Diez(参考訳) 品種の容易かつ正確な識別は、農業において、特にオリーブ部門では、1200種以上のオリーブ品種が現在世界中で知られている。 農家と保育所の労働者は間違った品種を確立し、その分野における不適応につながる可能性がある。オリーブオイルとテーブルオリーブの生産者は、本物でない製品をラベル付けして販売し、消費者は誤認されうる。 現在、品種識別と認証の標準は、形態学的分類と遺伝子解析の2つの方法で構成されている。 形態学的分類はオリーブ樹の異なる器官の視覚的対比較から成り、最も重要な器官は内果皮であると考えられている。 対照的に、異なる遺伝子分類法(RAPD、SSR、SNP)が存在する。 どちらの分類法も利点と欠点を示している。 視覚形態分類は高度に専門的な人材を必要とし、ヒューマンエラーを起こしやすい。 遺伝的同定法はより正確であるが、コストが高く、実装が困難である。 本稿では,オリーブ品種同定の新しいアプローチであるOliVaRを紹介する。 OliVaRは教師が学習するディープラーニングアーキテクチャを用いて,各オリーブ品種の内果皮の特徴を学習し,分類を行う。 我々は、地中海盆地の131品種の画像データを含む、これまでの最大のオリーブ品種データセットを、我々の知る限り、構築している。 このデータセット上でOliVaRを徹底的にテストし、86%以上の精度でオリーブ品種を正確に予測することを示した。

The easy and accurate identification of varieties is fundamental in agriculture, especially in the olive sector, where more than 1200 olive varieties are currently known worldwide. Varietal misidentification leads to many potential problems for all the actors in the sector: farmers and nursery workers may establish the wrong variety, leading to its maladaptation in the field; olive oil and table olive producers may label and sell a non-authentic product; consumers may be misled; and breeders may commit errors during targeted crossings between different varieties. To date, the standard for varietal identification and certification consists of two methods: morphological classification and genetic analysis. The morphological classification consists of the visual pairwise comparison of different organs of the olive tree, where the most important organ is considered to be the endocarp. In contrast, different methods for genetic classification exist (RAPDs, SSR, and SNP). Both classification methods present advantages and disadvantages. Visual morphological classification requires highly specialized personnel and is prone to human error. Genetic identification methods are more accurate but incur a high cost and are difficult to implement. This paper introduces OliVaR, a novel approach to olive varietal identification. OliVaR uses a teacher-student deep learning architecture to learn the defining characteristics of the endocarp of each specific olive variety and perform classification. We construct what is, to the best of our knowledge, the largest olive variety dataset to date, comprising image data for 131 varieties from the Mediterranean basin. We thoroughly test OliVaR on this dataset and show that it correctly predicts olive varieties with over 86% accuracy.
翻訳日:2023-03-02 15:07:21 公開日:2023-03-01
# 2つのリンドブラッド浴に結合したスピン1/2xxz鎖:平衡相関関数による非平衡定常状態の構築

The spin-1/2 XXZ chain coupled to two Lindblad baths: Constructing nonequilibrium steady states from equilibrium correlation functions ( http://arxiv.org/abs/2303.00430v1 )

ライセンス: Link先を確認
Tjark Heitmann, Jonas Richter, Fengping Jin, Sourav Nandy, Jacek Herbrych, Kristel Michielsen, Hans De Raedt, Jochen Gemmer, Robin Steinigeweg(参考訳) 多体量子システムの輸送係数を抽出するための最先端のアプローチは、広く2つのカテゴリに分類される。 (i)閉システムの平衡相関関数の観点から、線形応答レジームを対象とするか。 (ii)リンドブラッド方程式によってモデル化される開系状態を考えると、非平衡定常状態がその境界で系の駆動から現れる。 定量的な合意は (i)および (ii) 選択されたモデルとパラメータの選択については, 文献で異論が指摘されている。 スピン1/2 xxz鎖における磁化輸送の研究から, 弱駆動では, 開系における非平衡定常状態は, 時間的構築を含めて, 閉系における相関関数に基づいて, 著しく構成できることを示した。 この閉系と開系力学の直接対応を数値的に説明し、一般に行列積状態のシミュレーションにのみアクセス可能な比較的大きな開系を扱えることを示す。 また,有限系の非平衡定常状態から輸送係数を抽出する場合の潜在的な落とし穴を指摘する。

State-of-the-art approaches to extract transport coefficients of many-body quantum systems broadly fall into two categories: (i) they target the linear-response regime in terms of equilibrium correlation functions of the closed system; or (ii) they consider an open-system situation typically modeled by a Lindblad equation, where a nonequilibrium steady state emerges from driving the system at its boundaries. While quantitative agreement between (i) and (ii) has been found for selected model and parameter choices, also disagreement has been pointed out in the literature. Studying magnetization transport in the spin-1/2 XXZ chain, we here demonstrate that at weak driving, the nonequilibrium steady state in an open system, including its buildup in time, can remarkably be constructed just on the basis of correlation functions in the closed system. We numerically illustrate this direct correspondence of closed-system and open-system dynamics, and show that it allows the treatment of comparatively large open systems, usually only accessible to matrix product state simulations. We also point out potential pitfalls when extracting transport coefficients from nonequilibrium steady states in finite systems.
翻訳日:2023-03-02 15:06:56 公開日:2023-03-01
# EMSおよびDMSアルゴリズムにおける深層学習手法を用いた今後の電気利用支援

Supporting Future Electrical Utilities: Using Deep Learning Methods in EMS and DMS Algorithms ( http://arxiv.org/abs/2303.00428v1 )

ライセンス: Link先を確認
Ognjen Kundacina, Gorana Gojic, Mile Mitrovic, Dragisa Miskovic, Dejan Vukobratovic(参考訳) 電力システムの規模、複雑さ、動力の増大は、散発的な発電を行う再生可能エネルギー資源の統合が増加しているためである。 これにより、ほぼリアルタイムの電力システムアルゴリズムの開発が必要となり、電力システムサイズに関する計算量が少なくなる。 本研究の主な目的は,近年の深層学習分野における過去の計測データ収集の動向と近年の進歩を踏まえ,近年の深層学習に基づく電力系統モニタリングと最適化アルゴリズムのレビューを行うことである。 電力事業は、エネルギー管理システム(EMS)や配電管理システム(DMS)で伝統的に使われているアルゴリズムを再実装または強化することで、このレビューの恩恵を受けることができる。

Electrical power systems are increasing in size, complexity, as well as dynamics due to the growing integration of renewable energy resources, which have sporadic power generation. This necessitates the development of near real-time power system algorithms, demanding lower computational complexity regarding the power system size. Considering the growing trend in the collection of historical measurement data and recent advances in the rapidly developing deep learning field, the main goal of this paper is to provide a review of recent deep learning-based power system monitoring and optimization algorithms. Electrical utilities can benefit from this review by re-implementing or enhancing the algorithms traditionally used in energy management systems (EMS) and distribution management systems (DMS).
翻訳日:2023-03-02 15:06:37 公開日:2023-03-01
# 模倣学習によるチームワーク改善のためのタスクタイム自動介入

Automated Task-Time Interventions to Improve Teamwork using Imitation Learning ( http://arxiv.org/abs/2303.00413v1 )

ライセンス: Link先を確認
Sangwon Seo, Bing Han and Vaibhav Unhelkar(参考訳) 効果的な人間と人間と自律的なチームワークは重要だが、しばしば完璧に挑戦する。 この課題は、特に医療や災害対応といった時間クリティカルな領域に関係しており、時間的圧力によって調整が難しくなり、不完全な調整の結果が深刻になる可能性がある。 これらの領域と他の領域におけるチームワークを改善するために、私たちはtic(automated intervention approach)というアプローチを紹介します。 マルチエージェント模倣学習アルゴリズムであるbtilを用いて,過去のタスク実行データから,まずチーム行動の生成モデルを学ぶ。 次に、学習した生成モデルとチームのタスク目標(共有報酬)を使用して、実行時の介入をアルゴリズムで生成する。 チームメンバーが環境の完全な可観測性なしに分散的な決定をする、総合的なマルチエージェントチーム化シナリオにおいて、我々のアプローチを評価する。 実験は、自動介入がチームのパフォーマンスをうまく改善し、チームワークを改善するための自律エージェントの設計に光を当てることを示しています。

Effective human-human and human-autonomy teamwork is critical but often challenging to perfect. The challenge is particularly relevant in time-critical domains, such as healthcare and disaster response, where the time pressures can make coordination increasingly difficult to achieve and the consequences of imperfect coordination can be severe. To improve teamwork in these and other domains, we present TIC: an automated intervention approach for improving coordination between team members. Using BTIL, a multi-agent imitation learning algorithm, our approach first learns a generative model of team behavior from past task execution data. Next, it utilizes the learned generative model and team's task objective (shared reward) to algorithmically generate execution-time interventions. We evaluate our approach in synthetic multi-agent teaming scenarios, where team members make decentralized decisions without full observability of the environment. The experiments demonstrate that the automated interventions can successfully improve team performance and shed light on the design of autonomous agents for improving teamwork.
翻訳日:2023-03-02 15:06:24 公開日:2023-03-01
# RePAD2:オープンエンディング時系列のリアルタイム・軽量・適応異常検出

RePAD2: Real-Time, Lightweight, and Adaptive Anomaly Detection for Open-Ended Time Series ( http://arxiv.org/abs/2303.00409v1 )

ライセンス: Link先を確認
Ming-Chang Lee and Jia-Chun Lin(参考訳) オープンエンド時系列(英語: open-ended time series)とは、終端のない時系列でインデックスされた一連のデータポイントを指す。 このような時系列は、モノのインターネットの普及により、至るところで見られる。 オープンエンドの時系列に対する軽量でリアルタイムの異常検出を提供することは、業界や組織にとって非常に望ましいことです。 近年,リアルタイム時系列異常検出手法がいくつか導入されている。 しかし、システムリソースを長時間オープンエンドの時系列に適用した場合、枯渇させる可能性がある。 この問題に対処するため,本稿では,最先端の異常検出手法の一つである先代のRePADを改善することで,オープンエンド時系列に対する軽量リアルタイム異常検出手法であるRePAD2を提案する。 repad2 と repad を比較した実験を行った結果,repad2 は実世界の時系列データセットに基づく類似検出手法と同等の精度と若干の時間消費を提供するとともに,前述のリソース枯渇問題に対処できることを実証した。

An open-ended time series refers to a series of data points indexed in time order without an end. Such a time series can be found everywhere due to the prevalence of Internet of Things. Providing lightweight and real-time anomaly detection for open-ended time series is highly desirable to industry and organizations since it allows immediate response and avoids potential financial loss. In the last few years, several real-time time series anomaly detection approaches have been introduced. However, they might exhaust system resources when they are applied to open-ended time series for a long time. To address this issue, in this paper we propose RePAD2, a lightweight real-time anomaly detection approach for open-ended time series by improving its predecessor RePAD, which is one of the state-of-the-art anomaly detection approaches. We conducted a series of experiments to compare RePAD2 with RePAD and another similar detection approach based on real-world time series datasets, and demonstrated that RePAD2 can address the mentioned resource exhaustion issue while offering comparable detection accuracy and slightly less time consumption.
翻訳日:2023-03-02 15:06:07 公開日:2023-03-01
# 共同入出力検出とスロット充満のためのペルシャベンチマーク

A Persian Benchmark for Joint Intent Detection and Slot Filling ( http://arxiv.org/abs/2303.00408v1 )

ライセンス: Link先を確認
Masoud Akbari, Amir Hossein Karimi, Tayyebeh Saeedi, Zeinab Saeidi, Kiana Ghezelbash, Fatemeh Shamsezat, Mohammad Akbari, Ali Mohades(参考訳) 自然言語理解(nlu:natural language understanding)は、機械が人間の言語を理解し、処理することを可能にするため、今日の技術において重要である。 本稿では、低リソース言語におけるNLUの分野を前進させることの重要性を強調する。 NLUにおいてインテント検出とスロットフィリングが重要なタスクであるため、これまで広く使われているデータセットATISとSNIPSが利用されてきた。 しかし、これらのデータセットは英語のみに対応し、他の言語をサポートしない。 本研究では,ATISデータセットに基づく共同意図検出とスロットフィリングのためのペルシャのベンチマークを作成することで,このギャップに対処することを目指している。 提案手法の有効性を評価するため,本手法をインテント検出とスロット充填に応用した。

Natural Language Understanding (NLU) is important in today's technology as it enables machines to comprehend and process human language, leading to improved human-computer interactions and advancements in fields such as virtual assistants, chatbots, and language-based AI systems. This paper highlights the significance of advancing the field of NLU for low-resource languages. With intent detection and slot filling being crucial tasks in NLU, the widely used datasets ATIS and SNIPS have been utilized in the past. However, these datasets only cater to the English language and do not support other languages. In this work, we aim to address this gap by creating a Persian benchmark for joint intent detection and slot filling based on the ATIS dataset. To evaluate the effectiveness of our benchmark, we employ state-of-the-art methods for intent detection and slot filling.
翻訳日:2023-03-02 15:05:48 公開日:2023-03-01
# オープンワールド構成ゼロショット学習のための蒸留逆注意ネットワーク

Distilled Reverse Attention Network for Open-world Compositional Zero-Shot Learning ( http://arxiv.org/abs/2303.00404v1 )

ライセンス: Link先を確認
Yun Li, Zhe Liu, Saurav Jha, Sally Cripps, Lina Yao(参考訳) Open-World Composal Zero-Shot Learning (OW-CZSL) は、目に見える属性やオブジェクトの新しい構成を認識することを目的としている。 OW-CZSLでは、制約のないOWテストスペースのために、従来のクローズドワールドセッティング上に構築されたメソッドが著しく劣化する。 以前の研究は、外的知識や対の相関に基づいて構成を刈り取ることで問題を緩和する一方で、一般化に害を与えるバイアスを導入している。 したがって、独立して構築され、訓練された分類器で状態とオブジェクトを予測する方法もある。 本稿では,これらの課題に対処するために,新たな逆アテンションネットワークを提案する。 また、属性とオブジェクトを別々にモデル化し、それぞれ異なるモチベーションを持ち、コンテキストと局所性をキャプチャします。 さらに,逆注意と知識蒸留を指導した訓練データにおいて,基本成分の不連続表現を学習する逆蒸留戦略も設計する。 3つのデータセットで実験を行い、常に最先端(SOTA)のパフォーマンスを達成する。

Open-World Compositional Zero-Shot Learning (OW-CZSL) aims to recognize new compositions of seen attributes and objects. In OW-CZSL, methods built on the conventional closed-world setting degrade severely due to the unconstrained OW test space. While previous works alleviate the issue by pruning compositions according to external knowledge or correlations in seen pairs, they introduce biases that harm the generalization. Some methods thus predict state and object with independently constructed and trained classifiers, ignoring that attributes are highly context-dependent and visually entangled with objects. In this paper, we propose a novel Distilled Reverse Attention Network to address the challenges. We also model attributes and objects separately but with different motivations, capturing contextuality and locality, respectively. We further design a reverse-and-distill strategy that learns disentangled representations of elementary components in training data supervised by reverse attention and knowledge distillation. We conduct experiments on three datasets and consistently achieve state-of-the-art (SOTA) performance.
翻訳日:2023-03-02 15:05:33 公開日:2023-03-01
# マルチモーダル画像登録のための表現学習は中間層を監督することで改善できるか?

Can representation learning for multimodal image registration be improved by supervision of intermediate layers? ( http://arxiv.org/abs/2303.00403v1 )

ライセンス: Link先を確認
Elisabeth Wetzer and Joakim Lindblad and Nata\v{s}a Sladoje(参考訳) マルチモーダルイメージングと相関解析は通常、画像アライメントを必要とする。 コントラスト学習はマルチモーダル画像の表現を生成することができ、マルチモーダル画像登録の課題をモノモーダル画像に還元する。 これまで、対照的な学習における中間層へのさらなる監督は、バイオメディカルイメージの分類を改善してきた。 類似した手法が登録のために学んだ表現を改善し、登録性能を向上させるかどうかを評価する。 マルチモーダル画像の符号化を行うU-Netsにおいて,ボトルネック層の潜在的特徴に対して,コントラストを付加する3つのアプローチを検討し,3つの異なる批判機能を評価する。 以上の結果から,潜在機能に関する追加の監督なしに学習した表現は,2つの公衆バイオメディカルデータセットへの登録作業において最善の成績を示した。 分類学習と自己指導学習におけるコントラスト学習の最近の知見を活用して,性能低下について検討する。 多次元スケーリングを用いて学習した表現の空間的関係を可視化し、ボトルネック層に対する追加の監督が中間埋め込み空間の部分的な次元的崩壊を引き起こすことを示す。

Multimodal imaging and correlative analysis typically require image alignment. Contrastive learning can generate representations of multimodal images, reducing the challenging task of multimodal image registration to a monomodal one. Previously, additional supervision on intermediate layers in contrastive learning has improved biomedical image classification. We evaluate if a similar approach improves representations learned for registration to boost registration performance. We explore three approaches to add contrastive supervision to the latent features of the bottleneck layer in the U-Nets encoding the multimodal images and evaluate three different critic functions. Our results show that representations learned without additional supervision on latent features perform best in the downstream task of registration on two public biomedical datasets. We investigate the performance drop by exploiting recent insights in contrastive learning in classification and self-supervised learning. We visualize the spatial relations of the learned representations by means of multidimensional scaling, and show that additional supervision on the bottleneck layer can lead to partial dimensional collapse of the intermediate embedding space.
翻訳日:2023-03-02 15:05:15 公開日:2023-03-01
# hidden gems:cross-modal supervisorを用いた4次元レーダシーンフロー学習

Hidden Gems: 4D Radar Scene Flow Learning Using Cross-Modal Supervision ( http://arxiv.org/abs/2303.00462v1 )

ライセンス: Link先を確認
Fangqiang Ding, Andras Palffy, Dariu M. Gavrila, Chris Xiaoxuan Lu(参考訳) 本研究では,4次元レーダを用いたクロスモーダル学習によるシーンフロー推定手法を提案する。 われわれのアプローチは、現代の自動運転車におけるセンサーの冗長性によって動機付けられている。 このような冗長性は、レーダーシーンフロー推定に様々な形態の監視手段を暗黙的に提供する。 具体的には,特定されたクロスモーダル学習問題に対するマルチタスクモデルアーキテクチャを導入し,複数のクロスモーダル制約を用いたシーンフロー推定を効果的モデル学習に合致する損失関数を提案する。 広汎な実験により,本手法の最先端性能を示し,より正確な4次元レーダシーンフローを推定するためのクロスモーダル教師あり学習の有効性を示した。 また,動作セグメンテーションとエゴモーション推定という2つのサブタスクにその有用性を示す。 ソースコードは \url{https://github.com/toytiny/cmflowで利用可能です。 }

This work proposes a novel approach to 4D radar-based scene flow estimation via cross-modal learning. Our approach is motivated by the co-located sensing redundancy in modern autonomous vehicles. Such redundancy implicitly provides various forms of supervision cues to the radar scene flow estimation. Specifically, we introduce a multi-task model architecture for the identified cross-modal learning problem and propose loss functions to opportunistically engage scene flow estimation using multiple cross-modal constraints for effective model training. Extensive experiments show the state-of-the-art performance of our method and demonstrate the effectiveness of cross-modal supervised learning to infer more accurate 4D radar scene flow. We also show its usefulness to two subtasks - motion segmentation and ego-motion estimation. Our source code will be available on \url{https://github.com/Toytiny/CMFlow.}
翻訳日:2023-03-02 14:58:39 公開日:2023-03-01
# TF-IDFに基づくウズベク語テキスト要約

Uzbek text summarization based on TF-IDF ( http://arxiv.org/abs/2303.00461v1 )

ライセンス: Link先を確認
Khabibulla Madatov and Shukurla Bekchanov and Jernej Vi\v{c}i\v{c}(参考訳) インターネットや電子情報サービスの急速な発展に伴い,情報量の増加が著しく進んでいる。 時間制約のため、私たちはこれらの情報を全て読む機会がありません。 ひとつのフィールドに関連するテキストデータを分析する作業でさえ、多くの作業が必要です。 テキスト要約タスクは、これらの問題を解決するのに役立つ。 本稿では, TF-IDFアルゴリズムに基づくテキスト抽象化に基づく, ウズベク語における要約タスクの実験を行った。 この密度関数を用いて、テキストの意味的に重要な部分を抽出する。 テキスト全体の重要部分にn-gram法を適用することにより,与えられたテキストを要約する。 著者らは, 提案手法の性能を評価するために, 特別に手作りコーパス "School corpus" を用いた。 その結果,提案手法はウズベク語テキストから要約を抽出するのに有効であり,情報検索や自然言語処理などの様々な応用に応用できる可能性が示唆された。 全体として、この研究は、アンダーリソース言語におけるテキスト要約の体系化に寄与する。

The volume of information is increasing at an incredible rate with the rapid development of the Internet and electronic information services. Due to time constraints, we don't have the opportunity to read all this information. Even the task of analyzing textual data related to one field requires a lot of work. The text summarization task helps to solve these problems. This article presents an experiment on summarization task for Uzbek language, the methodology was based on text abstracting based on TF-IDF algorithm. Using this density function, semantically important parts of the text are extracted. We summarize the given text by applying the n-gram method to important parts of the whole text. The authors used a specially handcrafted corpus called "School corpus" to evaluate the performance of the proposed method. The results show that the proposed approach is effective in extracting summaries from Uzbek language text and can potentially be used in various applications such as information retrieval and natural language processing. Overall, this research contributes to the growing body of work on text summarization in under-resourced languages.
翻訳日:2023-03-02 14:58:26 公開日:2023-03-01
# N-best T5:複数入力仮説と制約付き復号空間を用いたロバストASR誤り訂正

N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space ( http://arxiv.org/abs/2303.00456v1 )

ライセンス: Link先を確認
Rao Ma, Mark J F Gales, Kate Knill, Mengjie Qian(参考訳) 誤り訂正モデルは、書き起こしの可読性と品質を改善するために、自動音声認識(ASR)後処理の重要な部分を形成する。 ほとんどの先行研究は1-best asr仮説を入力として使用しており、1文内の文脈を活用することでのみ修正を行うことができる。 本研究では,T5モデルから微調整を行い,モデル入力としてASR N-best Listを利用する,新しいN-best T5モデルを提案する。 事前学習された言語モデルから知識を転送し、asr復号空間からよりリッチな情報を得ることにより、提案手法は強いコンフォーメータ・トランスデューサベースラインを上回る。 標準エラー訂正のもう1つの問題は、生成プロセスが適切に制御されていないことである。 これを解決するために、N-bestリストまたはASR格子に基づく制約付き復号プロセスが使用され、追加情報を伝播することができる。

Error correction models form an important part of Automatic Speech Recognition (ASR) post-processing to improve the readability and quality of transcriptions. Most prior works use the 1-best ASR hypothesis as input and therefore can only perform correction by leveraging the context within one sentence. In this work, we propose a novel N-best T5 model for this task, which is fine-tuned from a T5 model and utilizes ASR N-best lists as model input. By transferring knowledge from the pre-trained language model and obtaining richer information from the ASR decoding space, the proposed approach outperforms a strong Conformer-Transducer baseline. Another issue with standard error correction is that the generation process is not well-guided. To address this a constrained decoding process, either based on the N-best list or an ASR lattice, is used which allows additional information to be propagated.
翻訳日:2023-03-02 14:58:12 公開日:2023-03-01
# マルチエージェント強化学習のための相互情報に基づくコーディネートへの変分アプローチ

A Variational Approach to Mutual Information-Based Coordination for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.00451v1 )

ライセンス: Link先を確認
Woojun Kim, Whiyoung Jung, Myungsik Cho, Youngchul Sung(参考訳) 本稿では,複数エージェントが協調行動の学習を行うための,複数エージェント間の相互情報との相互情報の蓄積を規則化することにより,協調行動の学習を可能にする,多エージェント強化学習のための新たな相互情報フレームワークを提案する。 多エージェント動作間の非ゼロの相互情報を誘導する潜在変数を導入し、変動境界を適用することにより、検討されたMMI正規化対象関数のトラクタブルな下界を導出する。 導出可能な対象は、最大エントロピー強化学習と他のエージェントアクションの不確実性低減とを組み合わせることで解釈することができる。 そこで本研究では,分散実行を伴う集中型学習に追従する,変分最大相互情報多エージェントアクタ-クリティックと呼ばれる実用的なアルゴリズムを提案する。 コーディネーションを必要とするゲーム数ゲームについてvm3-acを評価し,複数のマルチエージェントタスクにおいてvm3-acが他のmarlアルゴリズムよりも優れたコーディネーションを必要とすることを示した。

In this paper, we propose a new mutual information framework for multi-agent reinforcement learning to enable multiple agents to learn coordinated behaviors by regularizing the accumulated return with the simultaneous mutual information between multi-agent actions. By introducing a latent variable to induce nonzero mutual information between multi-agent actions and applying a variational bound, we derive a tractable lower bound on the considered MMI-regularized objective function. The derived tractable objective can be interpreted as maximum entropy reinforcement learning combined with uncertainty reduction of other agents actions. Applying policy iteration to maximize the derived lower bound, we propose a practical algorithm named variational maximum mutual information multi-agent actor-critic, which follows centralized learning with decentralized execution. We evaluated VM3-AC for several games requiring coordination, and numerical results show that VM3-AC outperforms other MARL algorithms in multi-agent tasks requiring high-quality coordination.
翻訳日:2023-03-02 14:57:56 公開日:2023-03-01
# 階層型3次元屋内配置に基づくフェデレーション学習

Federated Learning based Hierarchical 3D Indoor Localization ( http://arxiv.org/abs/2303.00450v1 )

ライセンス: Link先を確認
Yaya Etiabi, Wafa Njima and El Mehdi Amhoud(参考訳) 屋内環境におけるコネクテッドデバイスの普及は、フロアを多数の屋内アプリケーションに開放し、位置決めサービスをキーイネーブルとして利用する。 しかし、プライバシー問題やリソース制約が発生すると、ほとんどのアプリケーションに必要な正確な位置決めシステムを設計することがより困難になる。 後者の課題を克服するために,深層ニューラルネットワークを用いた階層型3次元屋内ローカライゼーションのための連邦学習(FL)フレームワークを提案する。 実際、我々はまず、マルチビルとマルチフロアの屋内環境において、床と建物の間の階層を活用できることに光を当てた。 次に,設計階層モデルを学習するためのflフレームワークを提案する。 性能評価の結果,階層的学習方式を採用することで,非階層的アプローチと比較して最大24.06%の局所化精度を向上できることがわかった。 また、建物と床の予測精度はそれぞれ99.90%と94.87%である。 提案するFLフレームワークでは,局所化誤差の7.69%の増加とともに,中心的訓練におけるほぼ性能特性を達成できる。 さらに,多くのデバイスがトレーニングに参加すると,flシステムの精度が向上することを示す。

The proliferation of connected devices in indoor environments opens the floor to a myriad of indoor applications with positioning services as key enablers. However, as privacy issues and resource constraints arise, it becomes more challenging to design accurate positioning systems as required by most applications. To overcome the latter challenges, we present in this paper, a federated learning (FL) framework for hierarchical 3D indoor localization using a deep neural network. Indeed, we firstly shed light on the prominence of exploiting the hierarchy between floors and buildings in a multi-building and multi-floor indoor environment. Then, we propose an FL framework to train the designed hierarchical model. The performance evaluation shows that by adopting a hierarchical learning scheme, we can improve the localization accuracy by up to 24.06% compared to the non-hierarchical approach. We also obtain a building and floor prediction accuracy of 99.90% and 94.87% respectively. With the proposed FL framework, we can achieve a near-performance characteristic as of the central training with an increase of only 7.69% in the localization error. Moreover, the conducted scalability study reveals that the FL system accuracy is improved when more devices join the training.
翻訳日:2023-03-02 14:57:38 公開日:2023-03-01
# In-Vivo X線顕微鏡におけるエピポーラ整合による運動補償

Motion Compensation via Epipolar Consistency for In-Vivo X-Ray Microscopy ( http://arxiv.org/abs/2303.00449v1 )

ライセンス: Link先を確認
Mareike Thies, Fabian Wagner, Mingxuan Gu, Yixing Huang, Sabrina Pechmann, Oliver Aust, Daniela Weidner, Georgiana Neag, Stefan Uderhardt, Georg Schett, Silke Christiansen, Andreas Maier(参考訳) マウス前臨床モデルにおける生体内x線顕微鏡(xrm)は、骨ポローシスの特徴である骨の微視的構造変化の同定に重要な役割を担っている。 この方法の複雑さは、マウスの骨の高品質な3D再構成の必要性に起因している。 しかし,呼吸運動と筋の緩やかさは投射データの不整合を招き,非補償再建の成果をもたらす。 遠位極性条件 (ECC) を用いた運動補償は, 臨床CTでは良好な成績を示した。 本稿では,これらのアルゴリズムがxrmデータの修正に適したのか検討する。 異なる剛性運動パターンをシミュレートし、運動補償再構成の品質を評価する。 この方法では、平面外運動の顕微鏡的特徴を復元することができるが、人工物は6自由度を含むより現実的な動きパターンのために残る。 したがって、ECCはプロジェクションデータの初期アライメントに有用であり、次いで再構成法を用いて動きパラメータのさらなる微調整を行う。

Intravital X-ray microscopy (XRM) in preclinical mouse models is of vital importance for the identification of microscopic structural pathological changes in the bone which are characteristic of osteoporosis. The complexity of this method stems from the requirement for high-quality 3D reconstructions of the murine bones. However, respiratory motion and muscle relaxation lead to inconsistencies in the projection data which result in artifacts in uncompensated reconstructions. Motion compensation using epipolar consistency conditions (ECC) has previously shown good performance in clinical CT settings. Here, we explore whether such algorithms are suitable for correcting motion-corrupted XRM data. Different rigid motion patterns are simulated and the quality of the motion-compensated reconstructions is assessed. The method is able to restore microscopic features for out-of-plane motion, but artifacts remain for more realistic motion patterns including all six degrees of freedom of rigid motion. Therefore, ECC is valuable for the initial alignment of the projection data followed by further fine-tuning of motion parameters using a reconstruction-based method
翻訳日:2023-03-02 14:57:21 公開日:2023-03-01
# 画像テキスト検索のための共通知識最適化型スタイルトランス

The style transformer with common knowledge optimization for image-text retrieval ( http://arxiv.org/abs/2303.00448v1 )

ライセンス: Link先を確認
Wenrui Li, Zhengyu Ma, Xiaopeng Fan(参考訳) 異なるモダリティを関連付ける画像テキスト検索は,その優れた研究価値と広い実世界の応用により,広く注目を集めている。 アルゴリズムは更新され続けているが、そのほとんどは、マルチモダリティからの高レベルのセマンティックな関係(スタイル埋め込み)と共通知識を十分に考慮していない。 そこで本稿では,画像テキスト検索のための共通知識最適化(CKSTN)を備えた新しいスタイルトランスフォーマネットワークを提案する。 主なモジュールは共通知識適応器 (CKA) であり、スタイル埋め込み抽出器 (SEE) と共通知識最適化 (CKO) モジュールの両方がある。 具体的には、SEEは高レベルな特徴を効果的に抽出するように設計されている。 CKOモジュールは、様々なモダリティから共通知識の潜在概念を動的に捉えるために導入された。 同時に、軽量トランスフォーマーにおけるアイテム表現の形成を支援することができる。 さらに、時間的共通知識を一般化するために、SEE内の異なるレイヤの特徴を従来の共通特徴ユニットと効果的に統合するためのシーケンシャルな更新戦略を提案する。 CKSTNは、MSCOCOとFlickr30Kデータセット上の画像テキスト検索における最先端の手法の結果より優れている。 さらに、CKSTNは性能が良く、パラメータも低いため、実際のシーンに適用するのに便利で実用的である。

Image-text retrieval which associates different modalities has drawn broad attention due to its excellent research value and broad real-world application. While the algorithms keep updated, most of them haven't taken the high-level semantic relationships ("style embedding") and common knowledge from multi-modalities into full consideration. To this end, we propose a novel style transformer network with common knowledge optimization (CKSTN) for image-text retrieval. The main module is the common knowledge adaptor (CKA) with both the style embedding extractor (SEE) and the common knowledge optimization (CKO) modules. Specifically, the SEE is designed to effectively extract high-level features. The CKO module is introduced to dynamically capture the latent concepts of common knowledge from different modalities. Together, they could assist in the formation of item representations in lightweight transformers. Besides, to get generalized temporal common knowledge, we propose a sequential update strategy to effectively integrate the features of different layers in SEE with previous common feature units. CKSTN outperforms the results of state-of-the-art methods in image-text retrieval on MSCOCO and Flickr30K datasets. Moreover, CKSTN is more convenient and practical for the application of real scenes, due to the better performance and lower parameters.
翻訳日:2023-03-02 14:57:07 公開日:2023-03-01
# 概念の接頭辞表現

Succinct Representations for Concepts ( http://arxiv.org/abs/2303.00446v1 )

ライセンス: Link先を確認
Yang Yuan(参考訳) chatGPTのようなファンデーションモデルは、様々なタスクで顕著なパフォーマンスを示している。 しかし、多くの質問に対して、それらは正確に見える誤った答えを生み出すかもしれない。 コンセプトを正確に理解するために、どのようにモデルをトレーニングするか? 本稿では,圏論に基づく概念の簡潔な表現について述べる。 このような表現は、様々なタスクの下で概念的な不変性をもたらし、新しい学習アルゴリズムは、複雑な概念を明確かつ正確に学習し、誤解を修正できる。 また、簡潔表現を再帰的に拡大することにより、階層的分解を生成し、分解内の各部分を個別に検証して、手動で概念を検証することができる。

Foundation models like chatGPT have demonstrated remarkable performance on various tasks. However, for many questions, they may produce false answers that look accurate. How do we train the model to precisely understand the concepts? In this paper, we introduce succinct representations of concepts based on category theory. Such representation yields concept-wise invariance properties under various tasks, resulting a new learning algorithm that can provably and accurately learn complex concepts or fix misconceptions. Moreover, by recursively expanding the succinct representations, one can generate a hierarchical decomposition, and manually verify the concept by individually examining each part inside the decomposition.
翻訳日:2023-03-02 14:56:46 公開日:2023-03-01
# HCl分子の基底状態構築のためのベンチマークノイズ中間スケール量子誤差緩和戦略

Benchmarking Noisy Intermediate Scale Quantum Error Mitigation Strategies for Ground State Preparation of the HCl Molecule ( http://arxiv.org/abs/2303.00445v1 )

ライセンス: Link先を確認
Tim Weaving, Alexis Ralli, William M. Kirby, Peter J. Love, Sauro Succi, Peter V. Coveney(参考訳) 制限的な量子ビットトポロジー、短いコヒーレンス時間、禁制的な高ノイズフロアを含む多くの制限のため、既存のノイズの多い中間スケール量子ハードウェアで実行される量子化学実験は、完全な構成相互作用の1.6mHa以内のエネルギーエラーという高い精度で達成されている。 具体的には、量子ビットテーパリング法と文脈的部分空間変分量子固有解法と、測定エラー緩和、対称性検証、ゼロノイズ補間、二重状態浄化を含むいくつかの誤り緩和戦略を組み合わせた。 我々はこれらの戦略を27量子ビットのIBM Falconシリーズ量子プロセッサ群でベンチマークし、HCl分子の基底状態をテストベッドとして準備する。

Due to numerous limitations including restrictive qubit topologies, short coherence times and prohibitively high noise floors, no quantum chemistry experiments performed on existing noisy intermediate-scale quantum hardware have achieved the high bar of chemical precision, namely energy errors to within 1.6 mHa of full configuration interaction. To have any hope of doing so, we must layer contemporary resource reduction techniques with best-in-class error mitigation methods; in particular, we combine the techniques of qubit tapering and the contextual subspace variational quantum eigensolver with several error mitigation strategies comprised of measurement-error mitigation, symmetry verification, zero-noise extrapolation and dual-state purification. We benchmark these strategies across a suite of 27-qubit IBM Falcon series quantum processors, taking preparation of the HCl molecule's ground state as our testbed.
翻訳日:2023-03-02 14:56:38 公開日:2023-03-01
# クラスワイズロバスト最適化によるグループフェアネス正規化

Re-weighting Based Group Fairness Regularization via Classwise Robust Optimization ( http://arxiv.org/abs/2303.00442v1 )

ライセンス: Link先を確認
Sangwon Jung, Taeeon Park, Sanghyuk Chun, Taesup Moon(参考訳) 既存のグループフェアネス対応訓練手法の多くは、特定の規則に基づいて表現されていないグループを再重み付けするか、あるいは正規化項として目的のフェアネス指標に対して弱い近似されたサロゲートを用いてグループフェアネスを達成することを目的としている。 それぞれの学習方式は適用性や性能に関してそれぞれ独自の強みを持っているが、その成功例が特定の場合に限られているため、どちらのカテゴリーの手法でも金本位制と見なすのは困難である。 そこで本研究では,グループフェアネス尺度を学習目標に組み込むことにより,2つの学習スキームを統一する,‘ours’と呼ばれる原則的手法を提案する。 次に、各グループに対して正しい再重みを自動生成することにより、結果の目的を最小化する反復最適化アルゴリズムを開発する。 実験の結果,FairDROは多様なアプリケーションに適用可能であり,最近の強靭なベースラインと比較して,精度と公正性のトレードオフの観点から,複数のベンチマークデータセットの最先端性能を一貫して達成していることがわかった。

Many existing group fairness-aware training methods aim to achieve the group fairness by either re-weighting underrepresented groups based on certain rules or using weakly approximated surrogates for the fairness metrics in the objective as regularization terms. Although each of the learning schemes has its own strength in terms of applicability or performance, respectively, it is difficult for any method in the either category to be considered as a gold standard since their successful performances are typically limited to specific cases. To that end, we propose a principled method, dubbed as \ours, which unifies the two learning schemes by incorporating a well-justified group fairness metric into the training objective using a class wise distributionally robust optimization (DRO) framework. We then develop an iterative optimization algorithm that minimizes the resulting objective by automatically producing the correct re-weights for each group. Our experiments show that FairDRO is scalable and easily adaptable to diverse applications, and consistently achieves the state-of-the-art performance on several benchmark datasets in terms of the accuracy-fairness trade-off, compared to recent strong baselines.
翻訳日:2023-03-02 14:56:21 公開日:2023-03-01
# 3D-Aware Synthetic Data を用いた顔認識のポースインパクト推定と品質評価への応用

Pose Impact Estimation on Face Recognition using 3D-Aware Synthetic Data with Application to Quality Assessment ( http://arxiv.org/abs/2303.00491v1 )

ライセンス: Link先を確認
Marcel Grimmer, Christian Rathgeb, Christoph Busch(参考訳) 顔画像の品質評価は、十分な精度で顔認識システムを操作する上で不可欠である。 近年の顔品質標準化(ISO/IEC WD 29794-5)では、顔品質を個々の要因に分解するためのコンポーネント品質対策が推奨されている。 近年の3次元認識型生成型対向ネットワークの進歩に照らして,yaw-pitch角の組み合わせが異なる1000のアイデンティティからなる新しいデータセット「syn-yawpitch」を提案する。 このデータセットを用いて,30度を超えるピッチ角が,現在の顔認証システムの生体特性に有意な影響を及ぼすことを示す。 さらに,ISO/IEC WD 29794-5の標準に準拠し,https://github.com/datasciencegrimmer/Syn-YawPitch/で自由に利用できる軽量で効率的なポーズ品質予測器を提案する。

Evaluating the quality of facial images is essential for operating face recognition systems with sufficient accuracy. The recent advances in face quality standardisation (ISO/IEC WD 29794-5) recommend the usage of component quality measures for breaking down face quality into its individual factors, hence providing valuable feedback for operators to re-capture low-quality images. In light of recent advances in 3D-aware generative adversarial networks, we propose a novel dataset, "Syn-YawPitch", comprising 1,000 identities with varying yaw-pitch angle combinations. Utilizing this dataset, we demonstrate that pitch angles beyond 30 degrees have a significant impact on the biometric performance of current face recognition systems. Furthermore, we propose a lightweight and efficient pose quality predictor that adheres to the standards of ISO/IEC WD 29794-5 and is freely available for use at https://github.com/datasciencegrimmer/Syn-YawPitch/.
翻訳日:2023-03-02 14:49:37 公開日:2023-03-01
# 貯留層工学による定常量子絡み合いの概観

An Overview: Steady-State Quantum Entanglement via Reservoir Engineering ( http://arxiv.org/abs/2303.00490v1 )

ライセンス: Link先を確認
Ali Pedram, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 本稿では,量子エンタングルメントの生成と保存の安定状態について概説する。 量子エンタングルメント安定化に注目することに加えて、定常量子コヒーレンスに関する同じ目的について簡単に議論する。 概略は、ハイブリッドドライブと散逸方式と純粋散逸方式の2つの主要なカテゴリに分類する。 さらに、純粋散逸スキームは、平衡環境と非平衡環境の2つのサブクラスの下で議論される。 量子エンタングルメントの持続に対する散逸経路の重要性とそれに対する挑戦が指摘されている。 既存の量子技術、量子計算、通信、センシング、およびシミュレーションにおける定常的絡み合いの価値に加えて、量子技術、特に量子熱エンジンと量子エネルギー処理の新興および将来の量子技術応用に特有の機会について論じる。

We present a short overview of quantum entanglement generation and preservation in a steady state. In addition to the focus on quantum entanglement stabilization, we briefly discuss the same objective for steady-state quantum coherence. The overview classifies the approaches into two main categories: hybrid drive and dissipation methods and purely dissipative schemes. Furthermore, purely dissipative schemes are discussed under two subclasses of equilibrium and nonequilibrium environments. The significance of the dissipative route to sustained quantum entanglement and challenges against it are pointed out. Besides the value of steady-state entanglement for existing quantum technologies, quantum computation, communication, sensing, and simulation, its unique opportunities for emerging and future quantum technology applications, particularly quantum heat engines and quantum energy processing, are discussed.
翻訳日:2023-03-02 14:49:16 公開日:2023-03-01
# 二次元Sturm-Liouville理論によるシャープ・ベントワイヤの量子力学

Quantum Mechanics on Sharply Bent Wires via Two-Interval Sturm-Liouville Theory ( http://arxiv.org/abs/2303.00483v1 )

ライセンス: Link先を確認
Jo\~ao Paulo M. Pitelli, Ricardo A. Mosna, Felipe Felix Souto(参考訳) 2つの間隔のストゥルム・リウヴィル理論によって与えられる境界条件から得られる3つのパラメータにより、曲面領域の物理を近似することにより、曲面ワイヤ上の量子力学を研究する。 高曲線ワイヤ上の幾何学的ポテンシャルは強固な非可積分性であるため、これらのパラメータは曲線ワイヤの正則化に依存する。 したがって、ワイヤの形状を正確に知ることがなければ、提案手法は有用な近似であるだけでなく、非常に湾曲したワイヤ上の量子力学を扱うために必要なスキームとなる。

We study quantum mechanics on a curved wire by approximating the physics around the curved region by three parameters coming from the boundary conditions given by the two interval Sturm-Liouville theory. Since the geometric potential on a highly curved wire is strong an non-integrable, these parameters depend on the regularization of the curved wire. Hence, unless we know precisely the shape of the wire, the presented method becomes not only a useful approximation, but also a necessary scheme to deal with quantum mechanics on highly curved wires.
翻訳日:2023-03-02 14:49:04 公開日:2023-03-01
# バリアによるサンプリング:Lewis Weightsによる高速混合

Sampling with Barriers: Faster Mixing via Lewis Weights ( http://arxiv.org/abs/2303.00480v1 )

ライセンス: Link先を確認
Khashayar Gatmiry, Jonathan Kelner, Santosh S. Vempala(参考訳) リーマン・ハミルトニアン・モンテカルロ (RHMC) を解析し、自己調和凸障壁関数のヘシアンによって定義される計量により、$m$不等式で定義されるポリトープを$\R^n$でサンプリングする。 p$-lewis の重量障壁と標準対数障壁のハイブリッドを用い、混合速度が $\tilde o(m^{1/3}n^{4/3})$ で区切られることを証明し、ログバリアに基づいて以前の最高値である $\tilde o(mn^{2/3})$ で改善する。 我々の分析は、ハミルトニアン曲線上の滑らか性境界を導出し、自己一致概念を無限遠ノルムに拡張する過程において、この結果を確立するためのいくつかの技術的課題を克服する。

We analyze Riemannian Hamiltonian Monte Carlo (RHMC) for sampling a polytope defined by $m$ inequalities in $\R^n$ endowed with the metric defined by the Hessian of a self-concordant convex barrier function. We use a hybrid of the $p$-Lewis weight barrier and the standard logarithmic barrier and prove that the mixing rate is bounded by $\tilde O(m^{1/3}n^{4/3})$, improving on the previous best bound of $\tilde O(mn^{2/3})$, based on the log barrier. Our analysis overcomes several technical challenges to establish this result, in the process deriving smoothness bounds on Hamiltonian curves and extending self-concordance notions to the infinity norm; both properties appear to be of independent interest.
翻訳日:2023-03-02 14:48:54 公開日:2023-03-01
# 周期的駆動を伴う金属表面近傍の非断熱力学:フロッケ表面ホッピングアルゴリズム

Nonadiabatic Dynamics Near Metal Surface With Periodic Drivings: A Floquet Surface Hopping Algorithm ( http://arxiv.org/abs/2303.00479v1 )

ライセンス: Link先を確認
Yu Wang, Wenjie Dou(参考訳) 強光間相互作用による周期的駆動を受ける金属表面近傍の分子の非断熱力学を扱うフロッケ表面ホッピング法(fsh法)を開発した。 この方法は、フロケット量子マスター方程式(Floquet quantum master equation, FQME)から導かれたフロケット古典マスター方程式(FCME)に基づいており、続いてウィグナー変換を用いて古典的に原子運動を扱う。 次に,fcmeを解くために異なる軌道面ホッピングアルゴリズムを提案する。 電子密度(FaSH-density)アルゴリズムを用いたFloquet平均表面ホッピングは、FQMEでベンチマークされたように動作し、駆動による高速な振動と正しい定常状態観測値の両方をキャプチャする。 この方法は、電子状態の多様体との強い光-物質相互作用を研究するのに非常に有用である。

We develop a Floquet surface hopping (FSH) approach to deal with nonadiabatic dynamics of molecules near metal surfaces subjected to time-periodic drivings from strong light-matter interactions. The method is based on a Floquet classical master equation (FCME) derived from a Floquet quantum master equation (FQME), followed by a Wigner transformation to treat nuclear motion classically. We then propose different trajectory surface hopping algorithms to solve the FCME. We find that a Floquet averaged surface hopping with electron density (FaSH-density) algorithm works the best as benchmarked with the FQME, capturing both the fast oscillations due to the driving as well as the correct steady state observables. This method will be very useful to study strong light-matter interactions with a manifold of electronic state.
翻訳日:2023-03-02 14:48:38 公開日:2023-03-01
# ORCHNet: 果樹園における3次元LiDARに基づく位置認識のためのロバストグローバルな特徴集約アプローチ

ORCHNet: A Robust Global Feature Aggregation approach for 3D LiDAR-based Place recognition in Orchards ( http://arxiv.org/abs/2303.00477v1 )

ライセンス: Link先を確認
T. Barros, L. Garrote, P. Conde, M.J. Coombes, C. Liu, C. Premebida, U.J. Nunes(参考訳) 農業環境におけるロバストで信頼性の高い位置認識とループ閉鎖検出は依然として未解決の問題である。 特に果樹園は、全分野にわたる構造的類似性のため、難しいケーススタディである。 本研究では,3次元LiDARデータを利用した果樹園における位置認識問題に対処する。 そこで我々は,3D-LiDARスキャンをグローバルディスクリプタにマッピングするディープラーニングベースのアプローチORCHNetを提案する。 具体的には,複数のアグリゲーションメソッドをロバストなグローバルディスクリプタに融合する,新たなグローバル機能アグリゲータアプローチを提案する。 ORCHNetは、夏と秋の季節のデータを含む果樹園で収集された実世界のデータに基づいて評価される。 このロバスト性を評価するために,orchnet と同一季節および季節間のデータを用いた最先端の集計手法を比較した。 さらに,ORCHNetをループ閉鎖検出器として利用する局所化フレームワークの一部として,提案手法を評価した。 実験結果から, ORCHNetは場所認識タスクにおいて, 残りのアプローチよりも優れており, シーズンを通じて堅牢であることがわかった。 ローカライゼーションに関しては,ORCHNetをループ検出器として統合する際,木を通り抜けるエッジケースを解決し,本課題における提案手法の適用可能性を示す。 コードとデータセットは、:\url{https://github.com/Cybonic/ORCHNet.git} で公開される。

Robust and reliable place recognition and loop closure detection in agricultural environments is still an open problem. In particular, orchards are a difficult case study due to structural similarity across the entire field. In this work, we address the place recognition problem in orchards resorting to 3D LiDAR data, which is considered a key modality for robustness. Hence, we propose ORCHNet, a deep-learning-based approach that maps 3D-LiDAR scans to global descriptors. Specifically, this work proposes a new global feature aggregation approach, which fuses multiple aggregation methods into a robust global descriptor. ORCHNet is evaluated on real-world data collected in orchards, comprising data from the summer and autumn seasons. To assess the robustness, We compare ORCHNet with state-of-the-art aggregation approaches on data from the same season and across seasons. Moreover, we additionally evaluate the proposed approach as part of a localization framework, where ORCHNet is used as a loop closure detector. The empirical results indicate that, on the place recognition task, ORCHNet outperforms the remaining approaches, and is also more robust across seasons. As for the localization, the edge cases where the path goes through the trees are solved when integrating ORCHNet as a loop detector, showing the potential applicability of the proposed approach in this task. The code and dataset will be publicly available at:\url{https://github.com/Cybonic/ORCHNet.git}
翻訳日:2023-03-02 14:48:23 公開日:2023-03-01
# エンゲージングと統治戦略--ソーシャルネットワーキングサービスにおける暗黒パターンのテーマ分析

About Engaging and Governing Strategies: A Thematic Analysis of Dark Patterns in Social Networking Services ( http://arxiv.org/abs/2303.00476v1 )

ライセンス: Link先を確認
Thomas Mildner, Gian-Luca Savino, Philip R. Doyle, Benjamin R. Cowan, Rainer Malaka(参考訳) HCIの研究は、多くの領域で非倫理的デザインプラクティスへの関心が高まっており、しばしば 'dark pattern'' と呼ばれる。 しかし、snss(social networking services)に関する関連文献にはギャップがある。 この文脈では、SNS上での個人データの制御と時間に関するユーザの自己決定の欠如が強調される。 Facebook、Instagram、TikTok、Twitterのモバイルアプリケーションから16時間以上のスクリーン記録を収集し、これらのSNSでダークパターンがどのように現れるかを理解しました。 そこで本研究は,HCIの専門家を対象に,暗黒パターン認識における非専門家の難しさを軽減しようとする。 先行する分類に基づくテーマ分析を行い,2つの重要な知見を提示しながら,記録資料を手作業で分類した。どの事例がsnsで発生したかを確認し,以前には5つの暗黒パターンが発見されていなかった2つの戦略を特定した。

Research in HCI has shown a growing interest in unethical design practices across numerous domains, often referred to as ``dark patterns''. There is, however, a gap in related literature regarding social networking services (SNSs). In this context, studies emphasise a lack of users' self-determination regarding control over personal data and time spent on SNSs. We collected over 16 hours of screen recordings from Facebook's, Instagram's, TikTok's, and Twitter's mobile applications to understand how dark patterns manifest in these SNSs. For this task, we turned towards HCI experts to mitigate possible difficulties of non-expert participants in recognising dark patterns, as prior studies have noticed. Supported by the recordings, two authors of this paper conducted a thematic analysis based on previously described taxonomies, manually classifying the recorded material while delivering two key findings: We observed which instances occur in SNSs and identified two strategies - engaging and governing - with five dark patterns undiscovered before.
翻訳日:2023-03-02 14:47:59 公開日:2023-03-01
# 一般化累積収縮過程とスパースベイズ因子分析への応用

Generalized Cumulative Shrinkage Process Priors with Applications to Sparse Bayesian Factor Analysis ( http://arxiv.org/abs/2303.00473v1 )

ライセンス: Link先を確認
Sylvia Fr\"uhwirth-Schnatter(参考訳) 本稿では,パラメータ列の縮小を強要する縮小先行について論じる。 本稿では, スパイク確率が確率的に増大し, ディリクレ過程のスティック破壊表現から構築されるスパイク・アンド・スラブ収縮であるlegramanti et al. (2020) 前の累積収縮過程 (cumulative shrinkage process, cup) について検討する。 第1の貢献として、このcuspプリエントは、ベータ分布から生じる任意のスティック破壊表現を伴って拡張される。 第2の貢献として、疎ベイズ因子分析で広く用いられている交換可能なスパイク・アンド・スラブ先行値が、スラブ確率の減少次数統計から容易に得られる有限一般化CUSP先行値として表現できることを証明した。 したがって、交換可能なスパイク・アンド・スラブの縮小は、スラブ確率に明示的な順序制約を課すことなく、負荷行列の列指数が増加するにつれて収縮を増大させる。 スパースベイズ因子分析への応用は,本論文の有用性を示すものである。 Cadonna et al. (2020) の前三重ガンマに基づく新しい交換可能なスパイク・アンド・スラブ収縮法を導入し、シミュレーション研究において未知の因子数の推定に有用であることを示した。

The paper discusses shrinkage priors which impose increasing shrinkage in a sequence of parameters. We review the cumulative shrinkage process (CUSP) prior of Legramanti et al. (2020), which is a spike-and-slab shrinkage prior where the spike probability is stochastically increasing and constructed from the stick-breaking representation of a Dirichlet process prior. As a first contribution, this CUSP prior is extended by involving arbitrary stick-breaking representations arising from beta distributions. As a second contribution, we prove that exchangeable spike-and-slab priors, which are popular and widely used in sparse Bayesian factor analysis, can be represented as a finite generalized CUSP prior, which is easily obtained from the decreasing order statistics of the slab probabilities. Hence, exchangeable spike-and-slab shrinkage priors imply increasing shrinkage as the column index in the loading matrix increases, without imposing explicit order constraints on the slab probabilities. An application to sparse Bayesian factor analysis illustrates the usefulness of the findings of this paper. A new exchangeable spike-and-slab shrinkage prior based on the triple gamma prior of Cadonna et al. (2020) is introduced and shown to be helpful for estimating the unknown number of factors in a simulation study.
翻訳日:2023-03-02 14:47:42 公開日:2023-03-01
# asp: ユニバーサルニューラルネットワークソルバを学ぼう!

ASP: Learn a Universal Neural Solver! ( http://arxiv.org/abs/2303.00466v1 )

ライセンス: Link先を確認
Chenguang Wang, Zhouliang Yu, Stephen McAleer, Tianshu Yu, Yaodong Yang(参考訳) 組合せ最適化問題に機械学習を適用することで、効率と精度が向上する可能性がある。 しかし、既存の学習ベースの解法は、問題分布やスケールの変化に直面した場合、一般化に苦慮することが多い。 本稿では, ASP: Adaptive Staircase Policy Space Response Oracleという新しいアプローチを提案し, これらの一般化問題に対処し, 普遍的なニューラルソルバを学習する。 aspは2つのコンポーネントで構成されている: 分散探索: ポリシー空間応答オラクルを使って未知のディストリビューションを扱う能力を強化する、分散探索、そして、カリキュラム学習によるスケーラビリティを向上させる永続的スケール適応。 我々は、旅行セールスマン問題、車両ルーティング問題、賞品収集tsp、およびtsplibやcvrplibの現実世界のインスタンスを含むいくつかの挑戦的な警官に対してaspをテストした。 結果から,同じモデルサイズと弱いトレーニング信号であっても,ASPはニューラルソルバが未知の分布やさまざまなスケールを探索し,適応するのに役立ち,優れた性能を達成できることが示唆された。 特に、標準的なトレーニングパイプラインにおける同じニューラルネットワークと比較して、ASPは、生成されたTSPのインスタンスと実世界のインスタンスで90.9%と47.43%の最適性ギャップ、CVRPでは19%と45.57%という顕著な減少を生み出す。

Applying machine learning to combinatorial optimization problems has the potential to improve both efficiency and accuracy. However, existing learning-based solvers often struggle with generalization when faced with changes in problem distributions and scales. In this paper, we propose a new approach called ASP: Adaptive Staircase Policy Space Response Oracle to address these generalization issues and learn a universal neural solver. ASP consists of two components: Distributional Exploration, which enhances the solver's ability to handle unknown distributions using Policy Space Response Oracles, and Persistent Scale Adaption, which improves scalability through curriculum learning. We have tested ASP on several challenging COPs, including the traveling salesman problem, the vehicle routing problem, and the prize collecting TSP, as well as the real-world instances from TSPLib and CVRPLib. Our results show that even with the same model size and weak training signal, ASP can help neural solvers explore and adapt to unseen distributions and varying scales, achieving superior performance. In particular, compared with the same neural solvers under a standard training pipeline, ASP produces a remarkable decrease in terms of the optimality gap with 90.9% and 47.43% on generated instances and real-world instances for TSP, and a decrease of 19% and 45.57% for CVRP.
翻訳日:2023-03-02 14:47:16 公開日:2023-03-01
# ウズベク語テキストと生徒の教育能力の対応--学校コーパスを事例として

Uzbek text's correspondence with the educational potential of pupils: a case study of the School corpus ( http://arxiv.org/abs/2303.00465v1 )

ライセンス: Link先を確認
Khabibulla Madatov and Sanatbek Matlatipov and Mersaid Aripov(参考訳) 教育システムの大きな課題の1つは、生徒の年齢と知的能力を考慮した適切なコンテンツの選択である。 本稿では、ウズベキスタン共和国の小学校・学校教育省が確認した25の教科書のデータセットを含む学校コーパスを用いて、小学校1年生から4年生までの児童生徒に推奨される教育資料の対応を自動的に決定する実験について検討する。 この場合、テキストのTF-IDFスコアが決定され、それらがベクトル表現に変換され、与えられた教材がコサイン類似性アルゴリズムを用いて、スクールコーパスの対応するクラスと比較される。 計算結果に基づいて、与えられた教材が生徒の教育的潜在能力に適切か否かを判定する。

One of the major challenges of an educational system is choosing appropriate content considering pupils' age and intellectual potential. In this article the experiment of primary school grades (from 1st to 4th grades) is considered for automatically determining the correspondence of an educational materials recommended for pupils by using the School corpus where it includes the dataset of 25 school textbooks confirmed by the Ministry of preschool and school education of the Republic of Uzbekistan. In this case, TF-IDF scores of the texts are determined, they are converted into a vector representation, and the given educational materials are compared with the corresponding class of the School corpus using the cosine similarity algorithm. Based on the results of the calculation, it is determined whether the given educational material is appropriate or not appropriate for the pupils' educational potential.
翻訳日:2023-03-02 14:46:50 公開日:2023-03-01
# 口唇合成における視聴覚同期について

On the Audio-visual Synchronization for Lip-to-Speech Synthesis ( http://arxiv.org/abs/2303.00502v1 )

ライセンス: Link先を確認
Zhe Niu and Brian Mak(参考訳) 音声合成モデルの多くは、データセット内の音声とビデオのペアが完全に同期していると仮定して訓練され、評価される。 本研究では、GRID、TD-TIMIT、Lip2Wavなどの一般的な音声視覚データセットが、データ非同期性の問題を引き起こすことを示す。 このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。 これらの非同期問題に対処するため、自動同期機構(ASM)を備えた同期リップ・トゥ・スペル(SLTS)モデルを提案し、データ同期を補正し、モデル非同期をペナライズする。 さらに、非同期テストデータを用いてLTSの広く採用されている評価基準の制限を実証し、時間的アライメントに敏感なメトリクスの前にオーディオアライメントフロントエンドを導入し、よりよい評価を行う。 本手法を従来の測定値と時間整合測定値の最先端手法と比較し,同期トレーニングの利点を示す。

Most lip-to-speech (LTS) synthesis models are trained and evaluated under the assumption that the audio-video pairs in the dataset are perfectly synchronized. In this work, we show that the commonly used audio-visual datasets, such as GRID, TCD-TIMIT, and Lip2Wav, can have data asynchrony issues. Training lip-to-speech with such datasets may further cause the model asynchrony issue -- that is, the generated speech and the input video are out of sync. To address these asynchrony issues, we propose a synchronized lip-to-speech (SLTS) model with an automatic synchronization mechanism (ASM) to correct data asynchrony and penalize model asynchrony. We further demonstrate the limitation of the commonly adopted evaluation metrics for LTS with asynchronous test data and introduce an audio alignment frontend before the metrics sensitive to time alignment for better evaluation. We compare our method with state-of-the-art approaches on conventional and time-aligned metrics to show the benefits of synchronization training.
翻訳日:2023-03-02 14:39:34 公開日:2023-03-01
# OmniForce: 人中心,大規模モデル駆動,クラウドエッジコラボレーション型AutoMLシステムについて

OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge Collaborative AutoML System ( http://arxiv.org/abs/2303.00501v1 )

ライセンス: Link先を確認
Chao Xue, Wei Liu, Shuai Xie, Zhenfang Wang, Jiaxing Li, Xuyang Peng, Liang Ding, Shanshan Zhao, Qiong Cao, Yibo Yang, Fengxiang He, Bohua Cai, Rongcheng Bian, Yiyan Zhao, Heliang Zheng, Xiangyang Liu, Dongkai Liu, Daqing Liu, Li Shen, Chang Li, Shijin Zhang, Yukang Zhang, Guanpu Chen, Shixiang Chen, Yibing Zhan, Jing Zhang, Chaoyue Wang, Dacheng Tao(参考訳) 機械学習(AutoML)は、最小限の人力でMLモデルを構築することを目指している。 While considerable research has been conducted in the area of AutoML in general, aiming to take humans out of the loop when building artificial intelligence (AI) applications, scant literature has focused on how AutoML works well in open-environment scenarios such as the process of training and updating large models, industrial supply chains or the industrial metaverse, where people often face open-loop problems during the search process: they must continuously collect data, update data and models, satisfy the requirements of the development and deployment environment, support massive devices, modify evaluation metrics, etc. 純粋なデータ駆動アプローチによるオープン環境問題に対処するには、データ量、計算リソース、専用のデータエンジニアの努力が必要であり、現在のautomlシステムとプラットフォームは非効率で計算が難しい。 人間とコンピュータの相互作用は、オープン環境AIの問題に取り組むための実用的で実現可能な方法である。 本稿では、人中心型オートML(HAML)システムであるOmniForceを紹介し、人支援型MLと人支援型MLの両方を出力し、AutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する。 具体的には、mlバージョン管理、パイプライン駆動開発とデプロイメントのコラボレーション、柔軟な検索戦略フレームワーク、大規模モデルを含む広くプロビジョニングされクラウドソースされたアプリケーションアルゴリズムなど、omniforceを紹介します。 さらにomniforceによって構築された(大規模な)モデルは、数分で自動的にリモートサービスに変換することができる。 複数の検索空間と実世界のユースケースで得られた実験結果は,OmniForceの有効性と有効性を示している。

Automated machine learning (AutoML) seeks to build ML models with minimal human effort. While considerable research has been conducted in the area of AutoML in general, aiming to take humans out of the loop when building artificial intelligence (AI) applications, scant literature has focused on how AutoML works well in open-environment scenarios such as the process of training and updating large models, industrial supply chains or the industrial metaverse, where people often face open-loop problems during the search process: they must continuously collect data, update data and models, satisfy the requirements of the development and deployment environment, support massive devices, modify evaluation metrics, etc. Addressing the open-environment issue with pure data-driven approaches requires considerable data, computing resources, and effort from dedicated data engineers, making current AutoML systems and platforms inefficient and computationally intractable. Human-computer interaction is a practical and feasible way to tackle the problem of open-environment AI. In this paper, we introduce OmniForce, a human-centered AutoML (HAML) system that yields both human-assisted ML and ML-assisted human techniques, to put an AutoML system into practice and build adaptive AI in open-environment scenarios. Specifically, we present OmniForce in terms of ML version management; pipeline-driven development and deployment collaborations; a flexible search strategy framework; and widely provisioned and crowdsourced application algorithms, including large models. Furthermore, the (large) models constructed by OmniForce can be automatically turned into remote services in a few minutes; this process is dubbed model as a service (MaaS). Experimental results obtained in multiple search spaces and real-world use cases demonstrate the efficacy and efficiency of OmniForce.
翻訳日:2023-03-02 14:39:15 公開日:2023-03-01
# クラス特化因子を用いた遺伝的に解釈可能なマルチラベル分類

Inherently Interpretable Multi-Label Classification Using Class-Specific Counterfactuals ( http://arxiv.org/abs/2303.00500v1 )

ライセンス: Link先を確認
Susu Sun, Stefano Woerner, Andreas Maier, Lisa M. Koch, Christian F. Baumgartner(参考訳) 医療画像解析などの高度な応用分野における機械学習アルゴリズムの解釈性は不可欠である。 しかし、高いパフォーマンスのブラックボックスニューラルネットワークは予測の説明を提供していないため、不信感や人間とMLのコラボレーションにつながる可能性がある。 実際には広く使われているポストホックな説明技術は、深刻な概念的問題に苦しむことが示されている。 さらに,本論文で示すように,複数の医学的所見が1つの画像に共生するマルチラベルシナリオでは,現在の説明手法が適切に機能しない。 マルチラベル分類のための本質的に解釈可能なモデルであるAttri-Netを提案する。 attri-netは、透明で信頼できる、人間に理解可能な説明を提供する強力な分類器である。 モデルはまず、偽物に基づいてクラス固有の帰属マップを生成し、どの画像領域が特定の医学的所見に対応するかを特定する。 次に、単純なロジスティック回帰分類器を用いて、これらの帰属写像のみに基づいて予測を行う。 Attri-Netを5つのポストホックな説明手法と3つの胸部X線データセット上の本質的に解釈可能な分類器と比較した。 Attri-Netは、臨床知識と整合した高品質なマルチラベル説明を生成し、最先端の分類モデルに匹敵する分類性能を有する。

Interpretability is essential for machine learning algorithms in high-stakes application fields such as medical image analysis. However, high-performing black-box neural networks do not provide explanations for their predictions, which can lead to mistrust and suboptimal human-ML collaboration. Post-hoc explanation techniques, which are widely used in practice, have been shown to suffer from severe conceptual problems. Furthermore, as we show in this paper, current explanation techniques do not perform adequately in the multi-label scenario, in which multiple medical findings may co-occur in a single image. We propose Attri-Net, an inherently interpretable model for multi-label classification. Attri-Net is a powerful classifier that provides transparent, trustworthy, and human-understandable explanations. The model first generates class-specific attribution maps based on counterfactuals to identify which image regions correspond to certain medical findings. Then a simple logistic regression classifier is used to make predictions based solely on these attribution maps. We compare Attri-Net to five post-hoc explanation techniques and one inherently interpretable classifier on three chest X-ray datasets. We find that Attri-Net produces high-quality multi-label explanations consistent with clinical knowledge and has comparable classification performance to state-of-the-art classification models.
翻訳日:2023-03-02 14:38:49 公開日:2023-03-01
# Lumos: 分散デバイス上でのフェデレーショングラフ学習

Lumos: Heterogeneity-aware Federated Graph Learning over Decentralized Devices ( http://arxiv.org/abs/2303.00492v1 )

ライセンス: Link先を確認
Qiying Pan, Yifei Zhu, Lingyang Chu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを扱う能力のため、現実世界のネットワークアプリケーションやシステムに広くデプロイされている。 しかし、データプライバシに対する認識の高まりは、サーバがすべてのグラフ情報を保持している従来の集中型モデルトレーニングパラダイムに大きく挑戦する。 フェデレートラーニング(Federated Learning)は、データ集中化のないモデルトレーニングを可能にする、新たなコラボレーティブコンピューティングパラダイムである。 既存のGNN研究は主にクライアントが固有のグラフやサブグラフを保持するシステムに焦点を当てている。 各クライアントが直接の隣人だけを意識している実際のノードレベルの連合状況についてはまだ研究されていない。 本稿では,ノードレベルのフェデレーショングラフにおける特徴と次数保護を備えた教師あり教師なし学習を支援するLumosという,最初のフェデレーションGNNフレームワークを提案する。 まず,限られた構造情報から表現能力を向上させるために木コンストラクタを設計する。 さらに,モンテカルロ・マルコフ・チェインに基づくアルゴリズムを用いて,理論的に保証された性能の次不均一性に起因する負荷の不均衡を緩和する。 クライアント毎に構築したツリーに基づいて,多用途トレーニングをサポートする分散型木ベースgnnトレーナーを提案する。 広範な実験により、lumosがベースラインをはるかに高い精度で上回り、通信コストとトレーニング時間を大幅に削減できることが示されている。

Graph neural networks (GNN) have been widely deployed in real-world networked applications and systems due to their capability to handle graph-structured data. However, the growing awareness of data privacy severely challenges the traditional centralized model training paradigm, where a server holds all the graph information. Federated learning is an emerging collaborative computing paradigm that allows model training without data centralization. Existing federated GNN studies mainly focus on systems where clients hold distinctive graphs or sub-graphs. The practical node-level federated situation, where each client is only aware of its direct neighbors, has yet to be studied. In this paper, we propose the first federated GNN framework called Lumos that supports supervised and unsupervised learning with feature and degree protection on node-level federated graphs. We first design a tree constructor to improve the representation capability given the limited structural information. We further present a Monte Carlo Markov Chain-based algorithm to mitigate the workload imbalance caused by degree heterogeneity with theoretically-guaranteed performance. Based on the constructed tree for each client, a decentralized tree-based GNN trainer is proposed to support versatile training. Extensive experiments demonstrate that Lumos outperforms the baseline with significantly higher accuracy and greatly reduced communication cost and training time.
翻訳日:2023-03-02 14:38:07 公開日:2023-03-01
# 深層畳み込みニューラルネットワークのための構造化プルーニング:調査

Structured Pruning for Deep Convolutional Neural Networks: A survey ( http://arxiv.org/abs/2303.00566v1 )

ライセンス: Link先を確認
Yang He, Lingao Xiao(参考訳) 深層畳み込みニューラルネットワーク(cnns)の顕著な性能は、その深く広いアーキテクチャに起因するものであり、かなりの計算コストがかかる可能性がある。 そのため、ストレージと計算コストを効果的に削減するため、プルーニングニューラルネットワークは関心を集めている。 重み付けとは対照的に、構造化プルーニングはハードウェア実装に親しみやすいモデルを生成することにより、現実的な加速の利点を提供する。 構造化プルーニングの特別な要件は、多くの新しい課題の発見と革新的なソリューションの開発につながった。 本稿では, 深部CNNの構造解析への最近の進歩について述べる。 本稿では,フィルタランキング法,正規化法,動的実行法,ニューラルアーキテクチャ探索法,抽選チケット仮説,プルーニングの応用について,最先端の構造化プルーニング手法を要約・比較した。 構造化プルーニングアルゴリズムについて議論しながら,その違いを強調するために,非構造化プルーニングアルゴリズムを紹介した。 さらに,構造的刈り取りの分野における潜在的研究機会について考察する。 ニューラルネットワークプルーニング論文のキュレーションリストは、https://github.com/he-y/awesome-pruningにある。

The remarkable performance of deep Convolutional neural networks (CNNs) is generally attributed to their deeper and wider architectures, which can come with significant computational costs. Pruning neural networks has thus gained interest since it effectively lowers storage and computational costs. In contrast to weight pruning, which results in unstructured models, structured pruning provides the benefit of realistic acceleration by producing models that are friendly to hardware implementation. The special requirements of structured pruning have led to the discovery of numerous new challenges and the development of innovative solutions. This article surveys the recent progress towards structured pruning of deep CNNs. We summarize and compare the state-of-the-art structured pruning techniques with respect to filter ranking methods, regularization methods, dynamic execution, neural architecture search, the lottery ticket hypothesis, and the applications of pruning. While discussing structured pruning algorithms, we briefly introduce the unstructured pruning counterpart to emphasize their differences. Furthermore, we provide insights into potential research opportunities in the field of structured pruning. A curated list of neural network pruning papers can be found at https://github.com/he-y/Awesome-Pruning
翻訳日:2023-03-02 14:31:53 公開日:2023-03-01
# AdaSAM: 深層ニューラルネットワーク学習のための適応学習率とモーメントを用いたシャープネス認識最小化

AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning Rate and Momentum for Training Deep Neural Networks ( http://arxiv.org/abs/2303.00565v1 )

ライセンス: Link先を確認
Hao Sun, Li Shen, Qihuang Zhong, Liang Ding, Shixiang Chen, Jingwei Sun, Jing Li, Guangzhong Sun, Dacheng Tao(参考訳) シャープネス認識最小化(sam)オプティマイザは、ディープラーニングモデルのランドスケープをフラットにする余分な摂動ステップを導入することによって、ディープニューラルネットワークのトレーニングをより一般化できるため、広く研究されている。 SAMと適応学習速度と運動量加速度を統合するAdaSAMは、結合された摂動ステップ、適応学習速度、運動量ステップを分析するのに3つの困難があるため、理論的保証なく大規模ディープニューラルネットワークをトレーニングするために実験的に研究されている。 本稿では,確率的非凸条件下でのAdaSAMの収束速度の解析を試みる。 理論的には、AdaSAMは$\mathcal{O}(1/\sqrt{bT})$収束率を認め、ミニバッチサイズ$b$に対して線形スピードアップ特性を達成する。 具体的には,適応学習率と摂動勾配で確率的勾配ステップを分離するために,遅延した2次運動量項を導入し,解析中に期待値を取りながらそれらを独立的に分解する。 そして、適応学習率に限界があることを示すことによって、それらを束縛し、分析を可能とした。 我々の知る限りでは、SAMの非自明な収束率と適応学習率と運動量加速度を初めて提供する。 AdaSAMはSGD, AMSGrad, SAMオプティマイザに比べて優れた性能が得られることを示す。

Sharpness aware minimization (SAM) optimizer has been extensively explored as it can generalize better for training deep neural networks via introducing extra perturbation steps to flatten the landscape of deep learning models. Integrating SAM with adaptive learning rate and momentum acceleration, dubbed AdaSAM, has already been explored empirically to train large-scale deep neural networks without theoretical guarantee due to the triple difficulties in analyzing the coupled perturbation step, adaptive learning rate and momentum step. In this paper, we try to analyze the convergence rate of AdaSAM in the stochastic non-convex setting. We theoretically show that AdaSAM admits a $\mathcal{O}(1/\sqrt{bT})$ convergence rate, which achieves linear speedup property with respect to mini-batch size $b$. Specifically, to decouple the stochastic gradient steps with the adaptive learning rate and perturbed gradient, we introduce the delayed second-order momentum term to decompose them to make them independent while taking an expectation during the analysis. Then we bound them by showing the adaptive learning rate has a limited range, which makes our analysis feasible. To the best of our knowledge, we are the first to provide the non-trivial convergence rate of SAM with an adaptive learning rate and momentum acceleration. At last, we conduct several experiments on several NLP tasks, which show that AdaSAM could achieve superior performance compared with SGD, AMSGrad, and SAM optimizers.
翻訳日:2023-03-02 14:31:33 公開日:2023-03-01
# 深い構造を持つガウス特徴モデルの学習曲線

Learning curves for deep structured Gaussian feature models ( http://arxiv.org/abs/2303.00564v1 )

ライセンス: Link先を確認
Jacob A. Zavatone-Veth and Cengiz Pehlevan(参考訳) 近年,多層なガウス的ランダムな特徴を持つモデルの一般化性能の解析にディープラーニング理論に大きな注目が寄せられている。 しかし、特徴異方性の影響を考察した作品はほとんどなく、ほとんどが独立かつ同分布のガウス重みを用いて特徴が生成されると仮定している。 ここでは,構造化ガウス的特徴の多層モデルに対する学習曲線を導出する。 特徴層の最初の行間の相関を許容することは一般化に役立ち、後層の構造は一般に有害であることを示す。 その結果,単純な可解モデルのクラスにおいて,重み構造が一般化にどのように影響するかが明らかになった。

In recent years, significant attention in deep learning theory has been devoted to analyzing the generalization performance of models with multiple layers of Gaussian random features. However, few works have considered the effect of feature anisotropy; most assume that features are generated using independent and identically distributed Gaussian weights. Here, we derive learning curves for models with many layers of structured Gaussian features. We show that allowing correlations between the rows of the first layer of features can aid generalization, while structure in later layers is generally detrimental. Our results shed light on how weight structure affects generalization in a simple class of solvable models.
翻訳日:2023-03-02 14:31:05 公開日:2023-03-01
# ROCO: 交通紛争の総括データ

ROCO: A Roundabout Traffic Conflict Dataset ( http://arxiv.org/abs/2303.00563v1 )

ライセンス: Link先を確認
Depu Meng, Owen Sayer, Rusheng Zhang, Shengyin Shen, Houqiang Li, Henry X. Liu(参考訳) 交通の衝突は交通研究コミュニティによって数十年間、代理安全対策として研究されてきた。 しかし、交通紛争の激しさから、大規模な実世界の交通紛争データ収集は極めて困難である。 本稿では,実世界の交通紛争データセットであるROCOを紹介し,分析する。 データはミシガン州アンアーバーのセント・セントとW・エルズワースの交差点にある2車線のラウンドアラウンドで収集される。 ラウンドアバウンドに設置された4台の魚眼カメラから取得した生映像データフローを入力データソースとして利用する。 ビデオから学習に基づくコンフリクト識別アルゴリズムを採用し、潜在的なトラフィックコンフリクトを見つけ、データセットの収集とアノテーションのために手動でラベル付けします。 2021年8月から2021年10月にかけて、557件の交通紛争と17件の交通事故が収集された。 道路側知覚システムを用いて抽出したトラヒックコンフリクトシーンの軌跡データを提供する。 交通紛争の重大性、交通紛争の原因、交通流への影響に基づく分類法が提供される。 交通コンフリクトデータを収集した結果、ラウンドアバウンドに入る際に循環車両に収まらないことが交通コンフリクトの最大の原因であることが判明した。 ROCOデータセットは、短期的に公開される予定である。

Traffic conflicts have been studied by the transportation research community as a surrogate safety measure for decades. However, due to the rarity of traffic conflicts, collecting large-scale real-world traffic conflict data becomes extremely challenging. In this paper, we introduce and analyze ROCO - a real-world roundabout traffic conflict dataset. The data is collected at a two-lane roundabout at the intersection of State St. and W. Ellsworth Rd. in Ann Arbor, Michigan. We use raw video dataflow captured from four fisheye cameras installed at the roundabout as our input data source. We adopt a learning-based conflict identification algorithm from video to find potential traffic conflicts, and then manually label them for dataset collection and annotation. In total 557 traffic conflicts and 17 traffic crashes are collected from August 2021 to October 2021. We provide trajectory data of the traffic conflict scenes extracted using our roadside perception system. Taxonomy based on traffic conflict severity, reason for the traffic conflict, and its effect on the traffic flow is provided. With the traffic conflict data collected, we discover that failure to yield to circulating vehicles when entering the roundabout is the largest contributing reason for traffic conflicts. ROCO dataset will be made public in the short future.
翻訳日:2023-03-02 14:30:54 公開日:2023-03-01
# d2q-detr:トランスフォーマーを用いた指向オブジェクト検出のためのデカップリングと動的クエリ

D2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection with Transformers ( http://arxiv.org/abs/2303.00542v1 )

ライセンス: Link先を確認
Qiang Zhou, Chaohui Yu, Zhibin Wang, Fan Wang(参考訳) 有望な結果にもかかわらず、既存のオブジェクト指向オブジェクト検出手法は、通常、RRoI生成や回転NMSといったヒューリスティックに設計された規則を含む。 本稿では,モデルパイプラインを単純化し,優れた性能を得る指向オブジェクト検出のためのエンドツーエンドフレームワークを提案する。 我々のフレームワークはDETRに基づいており、ボックス回帰ヘッドはポイント予測ヘッドに置き換えられている。 点の学習はより柔軟であり、点の分布はターゲットの回転箱の角度と大きさを反映することができる。 さらに,クエリ機能を分類と回帰に分離し,モデルの精度を大幅に向上させることを提案する。 航空画像は通常数千のインスタンスを含む。 モデルの精度と効率のバランスを改善するために,モデル性能を犠牲にすることなく,積み重ねデコーダ層におけるオブジェクトクエリ数を削減できる新しい動的クエリ設計を提案する。 最後に,既存のdetr型検出器のラベル割当戦略を再考し,性能向上のための効果的なラベル割当戦略を提案する。 D2Q-DETRと命名する。 最大かつ挑戦的なDOTA-v1.0データセットとDOTA-v1.5データセットの実験は、D2Q-DETRが既存のNMSベースおよびNMSフリーのオブジェクト指向オブジェクト検出方法より優れており、新しい最先端技術を実現していることを示している。

Despite the promising results, existing oriented object detection methods usually involve heuristically designed rules, e.g., RRoI generation, rotated NMS. In this paper, we propose an end-to-end framework for oriented object detection, which simplifies the model pipeline and obtains superior performance. Our framework is based on DETR, with the box regression head replaced with a points prediction head. The learning of points is more flexible, and the distribution of points can reflect the angle and size of the target rotated box. We further propose to decouple the query features into classification and regression features, which significantly improves the model precision. Aerial images usually contain thousands of instances. To better balance model precision and efficiency, we propose a novel dynamic query design, which reduces the number of object queries in stacked decoder layers without sacrificing model performance. Finally, we rethink the label assignment strategy of existing DETR-like detectors and propose an effective label re-assignment strategy for improved performance. We name our method D2Q-DETR. Experiments on the largest and challenging DOTA-v1.0 and DOTA-v1.5 datasets show that D2Q-DETR outperforms existing NMS-based and NMS-free oriented object detection methods and achieves the new state-of-the-art.
翻訳日:2023-03-02 14:30:34 公開日:2023-03-01
# RAMM:マルチモーダル事前学習による検索型バイオメディカルビジュアル質問応答

RAMM: Retrieval-augmented Biomedical Visual Question Answering with Multi-modal Pre-training ( http://arxiv.org/abs/2303.00534v1 )

ライセンス: Link先を確認
Zheng Yuan, Qiao Jin, Chuanqi Tan, Zhengyun Zhao, Hongyi Yuan, Fei Huang, Songfang Huang(参考訳) 視覚と言語によるマルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めている。 一般的なドメインVQAと比較して、バイオメディカルVQAの性能は限られたデータに悩まされている。 本稿では、バイオメディカルVQAのためのRAMMという、データ制限問題を克服するための検索強化プレトレイン/ファインチューンパラダイムを提案する。 具体的には, PubMed の多様な患者状況を含む患者ベースの画像テキストペアを提供する PMCPM という新たなバイオメディカルデータセットを収集する。 次に,バイオメディカルマルチモーダルモデルを用いて,画像テキストペアの視覚的およびテキスト的表現を学習し,これらの表現を画像テキストコントラスト目的(ITC)と整合させる。 最後に,制限データをよりよく活用するための検索拡張手法を提案する。 本稿では,事前学習データセットからitcに基づく類似画像テキストペアを検索し,検索画像と質問の表現と検索画像とテキストとを融合させる新たな検索アテンションモジュールを提案する。 実験により,Med-VQA2019,Med-VQA2021,VQARAD,SLAKEデータセット上での最先端性能が得られた。 さらに分析した結果,提案したRAMMとPMCPMは,従来の資源や手法と比較してバイオメディカルVQA性能を向上させることができた。 私たちはデータセット、コード、事前訓練されたモデルをオープンソースにします。

Vision-and-language multi-modal pretraining and fine-tuning have shown great success in visual question answering (VQA). Compared to general domain VQA, the performance of biomedical VQA suffers from limited data. In this paper, we propose a retrieval-augmented pretrain-and-finetune paradigm named RAMM for biomedical VQA to overcome the data limitation issue. Specifically, we collect a new biomedical dataset named PMCPM which offers patient-based image-text pairs containing diverse patient situations from PubMed. Then, we pretrain the biomedical multi-modal model to learn visual and textual representation for image-text pairs and align these representations with image-text contrastive objective (ITC). Finally, we propose a retrieval-augmented method to better use the limited data. We propose to retrieve similar image-text pairs based on ITC from pretraining datasets and introduce a novel retrieval-attention module to fuse the representation of the image and the question with the retrieved images and texts. Experiments demonstrate that our retrieval-augmented pretrain-and-finetune paradigm obtains state-of-the-art performance on Med-VQA2019, Med-VQA2021, VQARAD, and SLAKE datasets. Further analysis shows that the proposed RAMM and PMCPM can enhance biomedical VQA performance compared with previous resources and methods. We will open-source our dataset, codes, and pretrained model.
翻訳日:2023-03-02 14:30:09 公開日:2023-03-01
# dnnに基づく乗法マスキングのディープサブバンドフィルタへの拡張による残響改善

Extending DNN-based Multiplicative Masking to Deep Subband Filtering for Improved Dereverberation ( http://arxiv.org/abs/2303.00529v1 )

ライセンス: Link先を確認
Jean-Marie Lemercier, Julian Tobergte, Timo Gerkmann(参考訳) 本稿では、時間周波数領域における音声復元のためのディープサブバンドフィルタにディープニューラルネットワークに基づく乗算マスクを拡張させる手法を提案する。 得られた方法は、時間周波数領域にマスクを提供する任意のディープニューラルネットワークに汎用的に適用できるが、トレーニング可能なパラメータと、最先端のニューラルネットワークでは無視できる計算オーバーヘッドは少ない。 その結果, ディープサブバンドフィルタ方式は, 除音性能をほぼ同等に保ちながら, 除音用乗算マスクよりも優れることを示した。 これは、時間周波数領域の深いサブバンドフィルタリングが、非残響の文献でしばしば想定されるサブバンド近似に適合するのに対し、乗法的マスキングは一般に分極に使用される狭帯域近似に対応するためである。

In this paper, we present a scheme for extending deep neural network-based multiplicative maskers to deep subband filters for speech restoration in the time-frequency domain. The resulting method can be generically applied to any deep neural network providing masks in the time-frequency domain, while requiring only few more trainable parameters and a computational overhead that is negligible for state-of-the-art neural networks. We demonstrate that the resulting deep subband filtering scheme outperforms multiplicative masking for dereverberation, while leaving the denoising performance virtually the same. We argue that this is because deep subband filtering in the time-frequency domain fits the subband approximation often assumed in the dereverberation literature, whereas multiplicative masking corresponds to the narrowband approximation generally employed in denoising.
翻訳日:2023-03-02 14:29:45 公開日:2023-03-01
# ブラインド画像品質評価のための品質認識事前学習モデル

Quality-aware Pre-trained Models for Blind Image Quality Assessment ( http://arxiv.org/abs/2303.00521v1 )

ライセンス: Link先を確認
Kai Zhao, Kun Yuan, Ming Sun, Mading Li and Xing Wen(参考訳) ブラインド画像品質評価(BIQA)は,近年,深層学習による評価が向上している単一画像の品質を自動的に評価することを目的としている。 しかし、ラベル付きデータの曖昧さは、深層学習に基づくBIQA手法が、その潜在能力を解き放つことを幾分抑制している。 本稿では、BIQA用にカスタマイズされたプレテキストタスクを自己教師付き学習方法で解決し、さらに多くのデータから表現を学習できるようにする。 学習過程を制約するために,歪み画像からのパッチの質は類似するが,異なる画像からのパッチと異なる劣化とパッチの異なる同一画像からのパッチから変化するという単純な仮定に基づいて,品質に配慮したコントラスト損失を提案する。 さらに, 既存の劣化過程を改善し, 約2\times10^7$の分解空間を形成する。 提案手法を用いてImageNetで事前トレーニングを行った結果,画像品質に敏感なモデルとなり,下流のBIQAタスクにおいて大幅に向上した。 実験の結果,本手法はBIQAデータセットに顕著な改善をもたらすことがわかった。

Blind image quality assessment (BIQA) aims to automatically evaluate the perceived quality of a single image, whose performance has been improved by deep learning-based methods in recent years. However, the paucity of labeled data somewhat restrains deep learning-based BIQA methods from unleashing their full potential. In this paper, we propose to solve the problem by a pretext task customized for BIQA in a self-supervised learning manner, which enables learning representations from orders of magnitude more data. To constrain the learning process, we propose a quality-aware contrastive loss based on a simple assumption: the quality of patches from a distorted image should be similar, but vary from patches from the same image with different degradations and patches from different images. Further, we improve the existing degradation process and form a degradation space with the size of roughly $2\times10^7$. After pre-trained on ImageNet using our method, models are more sensitive to image quality and perform significantly better on downstream BIQA tasks. Experimental results show that our method obtains remarkable improvements on popular BIQA datasets.
翻訳日:2023-03-02 14:28:40 公開日:2023-03-01
# ハイブリッド融合によるマルチモーダル産業異常検出

Multimodal Industrial Anomaly Detection via Hybrid Fusion ( http://arxiv.org/abs/2303.00601v1 )

ライセンス: Link先を確認
Yue Wang, Jinlong Peng, Jiangning Zhang, Ran Yi, Yabiao Wang, Chengjie Wang(参考訳) 2Dに基づく産業異常検出は広く議論されているが、3D点雲とRGB画像に基づくマルチモーダル産業異常検出には、まだ多くの未タッチフィールドがある。 既存のマルチモーダル産業異常検出手法は, マルチモーダル特徴を直接結合し, 特徴間の強い乱れを招き, 検出性能を損なう。 本稿では,ハイブリッド・フュージョン・スキームを用いた新しいマルチモーダル・アノマリー検出手法であるmulti-3d-memory (m3dm)を提案する。第1に,異なるモーダル特徴の相互作用を促進するパッチ・アズ・コントラスト・ラーニングを用いた教師なし機能融合の設計,第2に,複数のメモリバンクとの意思決定層融合による情報損失の回避,最終決定のための新たな分類器の追加などを提案する。 さらに,ポイントクラウドとrgbの機能を調整するためのポイント機能アライメント操作を提案する。 MVTec-3D ADデータセットにおける検出精度とセグメンテーション精度の両面で、我々の多モード産業異常検出モデルは、最先端(SOTA)手法よりも優れていることを示す。 コードはhttps://github.com/nomewang/M3DMで入手できる。

2D-based Industrial Anomaly Detection has been widely discussed, however, multimodal industrial anomaly detection based on 3D point clouds and RGB images still has many untouched fields. Existing multimodal industrial anomaly detection methods directly concatenate the multimodal features, which leads to a strong disturbance between features and harms the detection performance. In this paper, we propose Multi-3D-Memory (M3DM), a novel multimodal anomaly detection method with hybrid fusion scheme: firstly, we design an unsupervised feature fusion with patch-wise contrastive learning to encourage the interaction of different modal features; secondly, we use a decision layer fusion with multiple memory banks to avoid loss of information and additional novelty classifiers to make the final decision. We further propose a point feature alignment operation to better align the point cloud and RGB features. Extensive experiments show that our multimodal industrial anomaly detection model outperforms the state-of-the-art (SOTA) methods on both detection and segmentation precision on MVTec-3D AD dataset. Code is available at https://github.com/nomewang/M3DM.
翻訳日:2023-03-02 14:22:39 公開日:2023-03-01
# LS-IQ:逆強化学習のための暗黙の逆正則化

LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning ( http://arxiv.org/abs/2303.00599v1 )

ライセンス: Link先を確認
Firas Al-Hafez, Davide Tateo, Oleg Arenz, Guoping Zhao, Jan Peters(参考訳) 近年の模倣学習法では、暗黙の報酬関数ではなく暗黙の報酬関数を用いてQ$関数を直接学習している。 しかしながら、これらの手法は一般に安定性を向上させるために暗黙の報酬規則化を必要とし、しばしば吸収状態の不正処理を行う。 従来の研究は、暗黙の報酬関数の正則化が有効であることを示しているが、アルゴリズムの結果の性質に関する理論的解析は提供していない。 本稿では、この正規化器をポリシーと専門家の混合分布の下で用いることで、特に照らし出す視点を与える:元の目的は正方形ベルマン誤差最小化と理解でき、対応する最適化問題は、専門家と混合分布との有界な$\chi^2$-divergenceを最小化する。 この視点により、不安定性に対処し、吸収状態を適切に扱うことができる。 我々の手法であるLast Squares Inverse Q-Learning (LS-IQ) は、特に吸収状態の環境において最先端のアルゴリズムよりも優れていることを示す。 最後に、逆ダイナミクスモデルを用いて観測のみから学習することを提案する。 このアプローチを用いることで、専門家のアクションが利用できない設定でパフォーマンスを維持します。

Recent methods for imitation learning directly learn a $Q$-function using an implicit reward formulation rather than an explicit reward function. However, these methods generally require implicit reward regularization to improve stability and often mistreat absorbing states. Previous works show that a squared norm regularization on the implicit reward function is effective, but do not provide a theoretical analysis of the resulting properties of the algorithms. In this work, we show that using this regularizer under a mixture distribution of the policy and the expert provides a particularly illuminating perspective: the original objective can be understood as squared Bellman error minimization, and the corresponding optimization problem minimizes a bounded $\chi^2$-Divergence between the expert and the mixture distribution. This perspective allows us to address instabilities and properly treat absorbing states. We show that our method, Least Squares Inverse Q-Learning (LS-IQ), outperforms state-of-the-art algorithms, particularly in environments with absorbing states. Finally, we propose to use an inverse dynamics model to learn from observations only. Using this approach, we retain performance in settings where no expert actions are available.
翻訳日:2023-03-02 14:22:17 公開日:2023-03-01
# 知識グラフのためのユニバーサル質問応答プラットフォーム

A Universal Question-Answering Platform for Knowledge Graphs ( http://arxiv.org/abs/2303.00595v1 )

ライセンス: Link先を確認
Reham Omar, Ishika Dhall, Panos Kalnis, Essam Mansour(参考訳) 多様なアプリケーションドメインからの知識は、SPARQLエンドポイントを介してWebにアクセス可能なRDFエンジンに格納されるナレッジグラフ(KG)として組織される。 整形されたSPARQLクエリを表現するには、グラフ構造とそのコンポーネントの正確なURIに関する情報が必要である。 質問応答(QA)システムは、自然言語の質問をSPARQLに翻訳するのを支援する。 既存のQAシステムは通常、アプリケーション固有の人為的なルールに基づいており、あるいは、事前情報、高価な前処理、ターゲットとする各KGに対するモデル適応を必要とする。 したがって、広い範囲のアプリケーションやKGに一般化することは困難である。 本稿では,各ターゲットKGに合わせて調整する必要のない汎用QAシステムであるKGQAnを提案する。 キュレートされた規則の代わりに、KGQAnは疑問理解の新たな形式化をテキスト生成問題として導入し、質問をニューラルシーケンスからシーケンスモデルを通じて中間抽象表現に変換する。 また、クエリ時に抽象表現を特定のkgのsparqlクエリにマップし、公開アクセス可能なapiとrdfストアの既存のインデックスのみを使用するジャストインタイムリンカを開発した。 いくつかの実kgを用いた実験により,kgqanは,解答の質や処理時間,特に任意のkgに対して,訓練中は見当たらない処理時間において,最先端の割に容易に展開し,その性能を上回っていることが示された。

Knowledge from diverse application domains is organized as knowledge graphs (KGs) that are stored in RDF engines accessible in the web via SPARQL endpoints. Expressing a well-formed SPARQL query requires information about the graph structure and the exact URIs of its components, which is impractical for the average user. Question answering (QA) systems assist by translating natural language questions to SPARQL. Existing QA systems are typically based on application-specific human-curated rules, or require prior information, expensive pre-processing and model adaptation for each targeted KG. Therefore, they are hard to generalize to a broad set of applications and KGs. In this paper, we propose KGQAn, a universal QA system that does not need to be tailored to each target KG. Instead of curated rules, KGQAn introduces a novel formalization of question understanding as a text generation problem to convert a question into an intermediate abstract representation via a neural sequence-to-sequence model. We also develop a just-in-time linker that maps at query time the abstract representation to a SPARQL query for a specific KG, using only the publicly accessible APIs and the existing indices of the RDF store, without requiring any pre-processing. Our experiments with several real KGs demonstrate that KGQAn is easily deployed and outperforms by a large margin the state-of-the-art in terms of quality of answers and processing time, especially for arbitrary KGs, unseen during the training.
翻訳日:2023-03-02 14:21:57 公開日:2023-03-01
# シグモノイドネットワークのための複合最適化アルゴリズム

Composite Optimization Algorithms for Sigmoid Networks ( http://arxiv.org/abs/2303.00589v1 )

ライセンス: Link先を確認
Huixiong Chen, Qi Ye(参考訳) 本稿では,合成最適化アルゴリズムを用いてシグモイドネットワークを解く。 我々は,sgmoidネットワークを凸合成最適化に等価に転送し,線形近位アルゴリズムと乗算器の交互方向法に基づく合成最適化アルゴリズムを提案する。 弱鋭極小と正則性条件の仮定の下では、非凸問題や非滑らか問題の場合であっても、アルゴリズムは対象関数のグローバル最適解に収束することが保証される。 さらに、収束結果をトレーニングデータの量に直接関連付けることができ、シグモノイドネットワークのサイズを設定するための一般的なガイドを提供する。 フランクの関数フィッティングと手書き数字認識に関する数値実験により,提案アルゴリズムは良好かつ堅牢に機能することを示した。

In this paper, we use composite optimization algorithms to solve sigmoid networks. We equivalently transfer the sigmoid networks to a convex composite optimization and propose the composite optimization algorithms based on the linearized proximal algorithms and the alternating direction method of multipliers. Under the assumptions of the weak sharp minima and the regularity condition, the algorithm is guaranteed to converge to a globally optimal solution of the objective function even in the case of non-convex and non-smooth problems. Furthermore, the convergence results can be directly related to the amount of training data and provide a general guide for setting the size of sigmoid networks. Numerical experiments on Franke's function fitting and handwritten digit recognition show that the proposed algorithms perform satisfactorily and robustly.
翻訳日:2023-03-02 14:21:31 公開日:2023-03-01
# FAIR-Ensemble: フェアネスが深層から自然に生まれるとき

FAIR-Ensemble: When Fairness Naturally Emerges From Deep Ensembling ( http://arxiv.org/abs/2303.00586v1 )

ライセンス: Link先を確認
Wei-Yin Ko, Daniel D'souza, Karina Nguyen, Randall Balestriero, Sara Hooker(参考訳) 独立ディープニューラルネットワーク(dnns)は、トップラインメトリクスを改善し、より大きなシングルモデルを上回るための、シンプルで効果的な方法である。 この作業では、トップラインメトリクスを越えて、サブグループのパフォーマンスに対するアンサンブルの影響を調査します。 驚くべきことに、単純な均質なアンサンブル -- すべての個々のモデルが同じトレーニングセット、アーキテクチャ、デザインの選択を共有している -- であっても、最悪のkおよび少数派のパフォーマンスにおいて魅力的で強力な成果が得られます。 マイノリティグループのパフォーマンス向上は、より多くのモデルが追加されるにつれて、多数派よりもずっと長く続いていることを示す。 我々の研究は、単純なDNNアンサンブルが、DNN分類器から異なる影響を緩和し、アルゴリズムの害を抑える強力なツールであることを示す。 また、その理由についても検討する。 一様アンサンブルにおいても,パラメータ初期化,ミニバッチサンプリング,データ提供実現などを通じて確率性の源を変化させることで,公平性が異なることが判明した。

Ensembling independent deep neural networks (DNNs) is a simple and effective way to improve top-line metrics and to outperform larger single models. In this work, we go beyond top-line metrics and instead explore the impact of ensembling on subgroup performances. Surprisingly, even with a simple homogenous ensemble -- all the individual models share the same training set, architecture, and design choices -- we find compelling and powerful gains in worst-k and minority group performance, i.e. fairness naturally emerges from ensembling. We show that the gains in performance from ensembling for the minority group continue for far longer than for the majority group as more models are added. Our work establishes that simple DNN ensembles can be a powerful tool for alleviating disparate impact from DNN classifiers, thus curbing algorithmic harm. We also explore why this is the case. We find that even in homogeneous ensembles, varying the sources of stochasticity through parameter initialization, mini-batch sampling, and the data-augmentation realizations, results in different fairness outcomes.
翻訳日:2023-03-02 14:21:20 公開日:2023-03-01
# グラフトランスフォーマーにはもっと多くのレイヤが有益か?

Are More Layers Beneficial to Graph Transformers? ( http://arxiv.org/abs/2303.00579v1 )

ライセンス: Link先を確認
Haiteng Zhao, Shuming Ma, Dongdong Zhang, Zhi-Hong Deng, Furu Wei(参考訳) 深層化が多くのニューラルネットワークで成功したにもかかわらず、既存のグラフトランスフォーマーは比較的浅い。 本研究では,グラフトランスにとってより多くの層が有用かどうかを考察し,グラフトランスフォーマーが深度を増すことで性能向上のボトルネックに悩まされていることを明らかにする。 さらに分析した結果,深部グラフトランスフォーマーはグローバルな注意力の消滅能力によって制限されており,グラフトランスフォーマーが臨界部分構造に焦点を絞ることや表現的特徴の獲得を妨げていることが明らかとなった。 この目的のために,符号化表現にサブ構造トークンを明示的に用いたDeepGraphという新しいグラフトランスフォーマーモデルを提案し,関連するノードに局所的な注意を払ってサブ構造に基づくアテンションエンコーディングを実現する。 我々のモデルは,グラフトランスフォーマーの深化に伴う自己意識の限界に対処し,サブ構造に注目するグローバルな注意力を高め,表現の表現力を高める。 実験により,本手法はグラフ変換器の深さ制限を解き,より深いモデルを持つ各種グラフベンチマークの最先端性能を示すことが示された。

Despite that going deep has proven successful in many neural architectures, the existing graph transformers are relatively shallow. In this work, we explore whether more layers are beneficial to graph transformers, and find that current graph transformers suffer from the bottleneck of improving performance by increasing depth. Our further analysis reveals the reason is that deep graph transformers are limited by the vanishing capacity of global attention, restricting the graph transformer from focusing on the critical substructure and obtaining expressive features. To this end, we propose a novel graph transformer model named DeepGraph that explicitly employs substructure tokens in the encoded representation, and applies local attention on related nodes to obtain substructure based attention encoding. Our model enhances the ability of the global attention to focus on substructures and promotes the expressiveness of the representations, addressing the limitation of self-attention as the graph transformer deepens. Experiments show that our method unblocks the depth limitation of graph transformers and results in state-of-the-art performance across various graph benchmarks with deeper models.
翻訳日:2023-03-02 14:20:48 公開日:2023-03-01
# IPCC-TP: 複合マルチエージェント軌道予測のためのインクリメンタルピアソン相関係数の利用

IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint Multi-Agent Trajectory Prediction ( http://arxiv.org/abs/2303.00575v1 )

ライセンス: Link先を確認
Dekai Zhu, Guangyao Zhai, Yan Di, Fabian Manhardt, Hendrik Berkemeyer, Tuan Tran, Nassir Navab, Federico Tombari, Benjamin Busam(参考訳) 信頼性の高いマルチエージェント軌道予測は、自律システムの安全な計画と制御に不可欠である。 単一エージェントの場合と比較して、複数のエージェントを同時に処理する際の大きな課題は、様々な運転意図や道路条件によって引き起こされる複雑な社会的相互作用をモデル化することにある。 従来の手法は通常、グラフベースのメッセージ伝達や注意機構を利用して、そのような相互作用を限界確率分布の形式にカプセル化する。 しかし、本質的には準最適である。 本稿では,ipcc-tpを提案する。ipcc-tpは多エージェントインタラクションモデリングを改善するために,増分ピアソン相関係数に基づく新しい関連性認識モジュールである。 ipcc-tpは、対話的な漸進的な動きに応じて手段と共分散の密結合推定を通じてペアワイズジョイント・ガウス分布を学習する。 本モジュールは,既存のマルチエージェント予測手法に組み込むことで,元の動作分布デコーダを拡張することができる。 nuScenesとArgoverse 2データセットに関する大規模な実験は、IPCC-TPがベースラインのパフォーマンスを大きなマージンで改善することを示した。

Reliable multi-agent trajectory prediction is crucial for the safe planning and control of autonomous systems. Compared with single-agent cases, the major challenge in simultaneously processing multiple agents lies in modeling complex social interactions caused by various driving intentions and road conditions. Previous methods typically leverage graph-based message propagation or attention mechanism to encapsulate such interactions in the format of marginal probabilistic distributions. However, it is inherently sub-optimal. In this paper, we propose IPCC-TP, a novel relevance-aware module based on Incremental Pearson Correlation Coefficient to improve multi-agent interaction modeling. IPCC-TP learns pairwise joint Gaussian Distributions through the tightly-coupled estimation of the means and covariances according to interactive incremental movements. Our module can be conveniently embedded into existing multi-agent prediction methods to extend original motion distribution decoders. Extensive experiments on nuScenes and Argoverse 2 datasets demonstrate that IPCC-TP improves the performance of baselines by a large margin.
翻訳日:2023-03-02 14:20:28 公開日:2023-03-01
# 絡み合った2光子吸収分光における多色量子重ね合わせ

Multichromatic Quantum Superpositions in Entangled Two-Photon Absorption Spectroscopy ( http://arxiv.org/abs/2303.00574v1 )

ライセンス: Link先を確認
M Wittkop, Juan M. Marmolejo-Tejada, Mart\'in A. Mosquera(参考訳) 量子情報科学は、分子分光と物質と光の相互作用を網羅する多くの科学分野と技術分野の進歩を加速させている。 これらの分野では、量子力学的に絡み合った光子を生成する能力は、分子と量子光との相互作用を探求する道を開く。 この研究は、エネルギー重ね合わせを含むことで光子を関連付ける別の方法を考える。 我々は,光子対状態の多色量子重ね合わせ(色重ね合わせ)が有機色素の光学特性に与える影響について検討した。 本研究は、時間依存密度汎関数理論に基づく電子構造計算と、標準交叉二光子吸収理論の簡単な修正を用いる。 以上の結果から,構造的および破壊的干渉が計算された分子の光吸収断面積を実質的に変更することが可能であることが示された。 量子干渉効果は、構成的効果よりも顕著である。 これらの量子効果、または関連するものは、キュディット光子状態が生成される量子分光実験で観測できる。

Quantum information science is driving progress in a vast number of scientific and technological areas that cover molecular spectroscopy and matter-light interactions in general. In these fields, the ability to generate quantum mechanically-entangled photons is opening avenues to explore the interaction of molecules with quantum light. This work considers an alternative way of correlating photons by including energy superpositions. We study how the multichromatic quantum superposition, or color superposition of photon-pair states, influences the optical properties of organic chromophores. This work uses electronic structure calculations based on time-dependent density functional theory, and a simple modification of the standard entangled two-photon absorption theory. Our calculations show that it is possible to substantially modify the optical absorption cross section of molecules, where constructive and destructive interferences are computed. The quantum interference effects are more pronounced than the constructive ones. These quantum effects, or related ones, could be observed in quantum spectroscopic experiments where qudit photon states are generated.
翻訳日:2023-03-02 14:20:10 公開日:2023-03-01
# 高次元逆問題に対する次元縮小krnet写像

Dimension-reduced KRnet maps for high-dimensional inverse problems ( http://arxiv.org/abs/2303.00573v1 )

ライセンス: Link先を確認
Yani Feng, Kejun Tang, Xiaoliang Wan, Qifeng Liao(参考訳) 本研究では,高次元逆問題に対する次元縮小 krnet map approach (dr-krnet) を提案する。 提案手法は,データ駆動型VAE前駆体と潜伏変数後部密度近似の2つの主成分から構成される。 実際には、利用可能な事前データと整合した事前分布を初期化するのは簡単ではないかもしれない。 変動型オートエンコーダ(VAE)を用いて、遅延変数とデコーダによって達成される前のデータセットの基盤となる分布を近似する。 VAEが以前提供していたデコーダを用いて、低次元の潜在空間で問題を再構成する。 特に,潜在変数の後方分布を近似するためにkrnetが与えた可逆輸送写像を求める。 さらに、ラベル付きデータを持たない効率的な物理制約付きサーロゲートモデルを構築し、ラピッド計算に関わるフォワード問題と随伴問題の両方を解決する計算コストを削減する。 DR-KRnetの有効性, 精度, 効率を示す数値実験を行った。

We present a dimension-reduced KRnet map approach (DR-KRnet) for high-dimensional inverse problems, which is based on an explicit construction of a map that pushes forward the prior measure to the posterior measure in the latent space. Our approach consists of two main components: data-driven VAE prior and density approximation of the posterior of the latent variable. In reality, it may not be trivial to initialize a prior distribution that is consistent with available prior data; in other words, the complex prior information is often beyond simple hand-crafted priors. We employ variational autoencoder (VAE) to approximate the underlying distribution of the prior dataset, which is achieved through a latent variable and a decoder. Using the decoder provided by the VAE prior, we reformulate the problem in a low-dimensional latent space. In particular, we seek an invertible transport map given by KRnet to approximate the posterior distribution of the latent variable. Moreover, an efficient physics-constrained surrogate model without any labeled data is constructed to reduce the computational cost of solving both forward and adjoint problems involved in likelihood computation. Numerical experiments are implemented to demonstrate the validity, accuracy, and efficiency of DR-KRnet.
翻訳日:2023-03-02 14:19:54 公開日:2023-03-01
# MuAViC:ロバスト音声認識とロバスト音声-テキスト翻訳のための多言語音声-ビジュアルコーパス

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation ( http://arxiv.org/abs/2303.00628v1 )

ライセンス: Link先を確認
Mohamed Anwar, Bowen Shi, Vedanuj Goswami, Wei-Ning Hsu, Juan Pino, Changhan Wang(参考訳) 我々は,9言語で1200時間音声-視覚音声を提供する,頑健な音声認識と頑健な音声-テキスト翻訳のための多言語音声-視覚コーパスであるMuAViCを紹介する。 完全に書き起こされ、6つの英訳と6つの英訳の方向をカバーしている。 我々の知る限り、これは音声-視覚音声-テキスト翻訳のための最初のオープンベンチマークであり、多言語音声-視覚音声認識のための最大のオープンベンチマークである。 この結果から,MuAViCは音声認識・翻訳モデルの構築に有効であることが示唆された。 コーパスはhttps://github.com/facebookresearch/muavicで利用可能です。

We introduce MuAViC, a multilingual audio-visual corpus for robust speech recognition and robust speech-to-text translation providing 1200 hours of audio-visual speech in 9 languages. It is fully transcribed and covers 6 English-to-X translation as well as 6 X-to-English translation directions. To the best of our knowledge, this is the first open benchmark for audio-visual speech-to-text translation and the largest open benchmark for multilingual audio-visual speech recognition. Our baseline results show that MuAViC is effective for building noise-robust speech recognition and translation models. We make the corpus available at https://github.com/facebookresearch/muavic.
翻訳日:2023-03-02 14:13:32 公開日:2023-03-01
# 超伝導回路における量子安定器のハードウェア実装

Hardware implementation of quantum stabilizers in superconducting circuits ( http://arxiv.org/abs/2303.00625v1 )

ライセンス: Link先を確認
K. Dodge, Y. Liu, A. R. Klots, B. Cole, A. Shearrow, M. Senatore, S. Zhu, L. B. Ioffe, R. McDermott, B. L. T. Plourde(参考訳) 安定化演算は量子誤差補正の中心にあり、一般にソフトウェア制御の絡み合いゲートや量子ビット群の測定に実装されている。 あるいは、量子ビットは、ハミルトニアンが量子情報を保護する安定化器に直接対応するように設計することができる。 我々は,$\pi$- periodic josephson 要素の鎖からなる超伝導回路における安定化器のハードウェア実装を実証する。 局所オンチップフラックス・電荷バイアス法を用いて,フラストレーションプラット要素数に指数関数的となるフラックスに対するエネルギー帯域分散の軟化を数値モデルと密接に一致して観察した。

Stabilizer operations are at the heart of quantum error correction and are typically implemented in software-controlled entangling gates and measurements of groups of qubits. Alternatively, qubits can be designed so that the Hamiltonian corresponds directly to a stabilizer for protecting quantum information. We demonstrate such a hardware implementation of stabilizers in a superconducting circuit composed of chains of $\pi$-periodic Josephson elements. With local on-chip flux- and charge-biasing, we observe a softening of the energy band dispersion with respect to flux that is exponential in the number of frustrated plaquette elements, in close agreement with our numerical modeling.
翻訳日:2023-03-02 14:13:22 公開日:2023-03-01
# 時間分割リワードを一般化したマルチアーマッドバンド

Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards ( http://arxiv.org/abs/2303.00620v1 )

ライセンス: Link先を確認
Ronald C. van den Broek, Rik Litjens, Tobias Sagis, Luc Siecker, Nina Verbeeke, Pratik Gajane(参考訳) 過去になされた決定が未来に影響を及ぼすようなシーケンシャルな意思決定問題は、現実的に重要なアプリケーションの多くをモデル化するために用いられる。 現実のアプリケーションでは、決定に関するフィードバックが遅れ、異なる遅延で観察される部分的な報酬によって到着することがある。 そこで,このようなシナリオに動機づけられ,時間分割報酬を一般化したマルチアームバンディットと呼ばれる新しい問題定式化を提案する。 決定に対するフィードバックを複数の時間ステップで分割する方法を形式化するために、$\beta$-spreadプロパティを導入します。 検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。 さらに,TP-UCB-FR-Gというアルゴリズムを提案し,その性能指標の上限を証明した。 いくつかのシナリオでは、私たちの上界は芸術の状態を改善します。 本稿では,提案アルゴリズムと理論的結果の検証実験を行った。

Decision-making problems of sequential nature, where decisions made in the past may have an impact on the future, are used to model many practically important applications. In some real-world applications, feedback about a decision is delayed and may arrive via partial rewards that are observed with different delays. Motivated by such scenarios, we propose a novel problem formulation called multi-armed bandits with generalized temporally-partitioned rewards. To formalize how feedback about a decision is partitioned across several time steps, we introduce $\beta$-spread property. We derive a lower bound on the performance of any uniformly efficient algorithm for the considered problem. Moreover, we provide an algorithm called TP-UCB-FR-G and prove an upper bound on its performance measure. In some scenarios, our upper bound improves upon the state of the art. We provide experimental results validating the proposed algorithm and our theoretical results.
翻訳日:2023-03-02 14:13:11 公開日:2023-03-01
# コヒーレント制御誤差に対する量子アルゴリズムのロバスト性

Robustness of quantum algorithms against coherent control errors ( http://arxiv.org/abs/2303.00618v1 )

ライセンス: Link先を確認
J. Berberich and D. Fink and C. Holm(参考訳) 理想ハミルトニアンが未知の乗法的雑音項によって摂動されるコヒーレント制御誤差は、信頼できる量子コンピューティングの大きな障害である。 本稿では,リプシッツ境界を用いたコヒーレント制御誤差に対する量子アルゴリズムのロバスト性を分析する枠組みを提案する。 我々は,コヒーレント制御誤差に対するレジリエンスが,個々のゲートを生成するハミルトニアンの規範に主に影響されていることを示す,最悪の場合の忠実性境界を導出する。 これらの境界は大きな回路でも明示的に計算可能であり、しきい値定理によるフォールトトレランスを保証するために使うことができる。 さらに,ロバストな量子アルゴリズム設計とトランスパイル化のための新しいガイドラインを導出するために,ハミルトニアンのノルムを減少させるための理論的枠組みを適用した。 3ドルの量子フーリエ変換を例にとると、このガイドラインは回路の深さやゲート数に基づいて、既存のものよりも頑健さを目標としている。 さらに,変動量子アルゴリズムにおけるパラメータ正規化の効果について検討する。 理論結果の実用性は、シミュレーションおよび量子コンピュータ上での実装によって実証される。

Coherent control errors, for which ideal Hamiltonians are perturbed by unknown multiplicative noise terms, are a major obstacle for reliable quantum computing. In this paper, we present a framework for analyzing the robustness of quantum algorithms against coherent control errors using Lipschitz bounds. We derive worst-case fidelity bounds which show that the resilience against coherent control errors is mainly influenced by the norms of the Hamiltonians generating the individual gates. These bounds are explicitly computable even for large circuits, and they can be used to guarantee fault-tolerance via threshold theorems. Moreover, we apply our theoretical framework to derive a novel guideline for robust quantum algorithm design and transpilation, which amounts to reducing the norms of the Hamiltonians. Using the $3$-qubit Quantum Fourier Transform as an example application, we demonstrate that this guideline targets robustness more effectively than existing ones based on circuit depth or gate count. Furthermore, we apply our framework to study the effect of parameter regularization in variational quantum algorithms. The practicality of the theoretical results is demonstrated via implementations in simulation and on a quantum computer.
翻訳日:2023-03-02 14:12:56 公開日:2023-03-01
# Ensemble Learning Regression Model を用いたSLAM ATEの予測とデータ解析の1次元グローバルポーリング

Prediction of SLAM ATE Using an Ensemble Learning Regression Model and 1-D Global Pooling of Data Characterization ( http://arxiv.org/abs/2303.00616v1 )

ライセンス: Link先を確認
Islam Ali, Bingqing (Selina) Wan, Hong Zhang(参考訳) 同時ローカライゼーションとマッピング(SLAM)のロバスト性とレジリエンスは、現代の自律ロボットシステムにとって重要な要件である。 堅牢性とレジリエンスを達成するための重要なステップの1つは、SLAMが、そのローカライゼーション推定のための整合性の測定値を持ち、性能劣化に対処する内部フォールトトレランス機構を持つことである。 本研究では,原位置センサの入力特性に基づいたSLAM局所化誤差の予測手法を提案する。 提案手法は,特徴的生センサデータから生成した1次元グローバルプール特徴を学習したランダムフォレスト回帰モデルを用いる。 このモデルは、4つの異なるオペレーティングモードで動作する3つのデータセット上でORB-SLAM3のパフォーマンスを予測するために使用され、平均予測精度は94.7\%となる。 また,12種類の異なる1次元グローバルプーリング関数が回帰品質に及ぼす影響について検討し,1次元グローバル平均化の優位性を定量的に証明した。 最後に,トレーニングデータに制限のある予測品質を調査し,トレーニング例の20%しかトレーニングに使用していない場合,適切な予測品質を維持することが可能であることを証明し,提案モデルがslamシステムの評価フットプリントを最適化する方法を強調する。

Robustness and resilience of simultaneous localization and mapping (SLAM) are critical requirements for modern autonomous robotic systems. One of the essential steps to achieve robustness and resilience is the ability of SLAM to have an integrity measure for its localization estimates, and thus, have internal fault tolerance mechanisms to deal with performance degradation. In this work, we introduce a novel method for predicting SLAM localization error based on the characterization of raw sensor inputs. The proposed method relies on using a random forest regression model trained on 1-D global pooled features that are generated from characterized raw sensor data. The model is validated by using it to predict the performance of ORB-SLAM3 on three different datasets running on four different operating modes, resulting in an average prediction accuracy of up to 94.7\%. The paper also studies the impact of 12 different 1-D global pooling functions on regression quality, and the superiority of 1-D global averaging is quantitatively proven. Finally, the paper studies the quality of prediction with limited training data, and proves that we are able to maintain proper prediction quality when only 20 \% of the training examples are used for training, which highlights how the proposed model can optimize the evaluation footprint of SLAM systems.
翻訳日:2023-03-02 14:12:35 公開日:2023-03-01
# ドローンによるセールスマン問題に対するタイプアウェアクロモソームを用いたハイブリッド遺伝的アルゴリズム

A Hybrid Genetic Algorithm with Type-Aware Chromosomes for Traveling Salesman Problems with Drone ( http://arxiv.org/abs/2303.00614v1 )

ライセンス: Link先を確認
Sasan Mahmoudinazlou, Changhyun Kwon(参考訳) ドローンによるトラベルセールスマン問題 (TSPD) やFSTSP (Flying Sidekick Traveling Salesman Problem) と呼ばれる新たな輸送問題があり、荷物の配達にドローンを併用する。 本研究では,局所探索法と動的プログラミングを組み合わせることで,TSPDとFSTSPを解くハイブリッド遺伝的アルゴリズムを提案する。 同様のアルゴリズムは文献にも存在する。 しかし,我々のアルゴリズムはより洗練された染色体とより単純な動的プログラムを考慮し,遺伝的アルゴリズムによる広範な探索と動的プログラムと局所探索による効率的な利用を可能にする。 この論文の重要な貢献は、遺伝的アルゴリズム、動的プログラミング、局所探索の層にどのように意思決定プロセスが分割されるべきかの発見である。 特に,我々の遺伝的アルゴリズムは,トラックとドローンのシーケンスを別々に生成し,タイプ認識染色体にエンコードし,各顧客がトラックかドローンのいずれかに割り当てられる。 各染色体に局所検索を施し,動的プログラミングによって解読し,適合性評価を行う。 我々の動的プログラミングアルゴリズムは、ドローンの最適な発射位置と着陸位置を決定し、染色体で表されるTSPDソリューションを構築することによって、2つのシーケンスをマージする。 本稿では,新しい型認識オーダクロスオーバー操作と効率的な局所探索手法を提案する。 局所オプティマから逃れる戦略が提案されている。 我々の新しいアルゴリズムは、ほとんどのベンチマークインスタンスにおいて、品質と時間の両方で既存のアルゴリズムより優れていることを示す。 私たちのアルゴリズムでは、920インスタンスから538 tspdインスタンス、132インスタンスから93 fstspインスタンスで新しい最適ソリューションを見つけました。

There are emerging transportation problems known as the Traveling Salesman Problem with Drone (TSPD) and the Flying Sidekick Traveling Salesman Problem (FSTSP) that involve the use of a drone in conjunction with a truck for package delivery. This study represents a hybrid genetic algorithm for solving TSPD and FSTSP by combining local search methods and dynamic programming. Similar algorithms exist in the literature. Our algorithm, however, considers more sophisticated chromosomes and simpler dynamic programming to enable broader exploration by the genetic algorithm and efficient exploitation through dynamic programming and local searches. The key contribution of this paper is the discovery of how decision-making processes should be divided among the layers of genetic algorithm, dynamic programming, and local search. In particular, our genetic algorithm generates the truck and the drone sequences separately and encodes them in a type-aware chromosome, wherein each customer is assigned to either the truck or the drone. We apply local searches to each chromosome, which is decoded by dynamic programming for fitness evaluation. Our dynamic programming algorithm merges the two sequences by determining optimal launch and landing locations for the drone to construct a TSPD solution represented by the chromosome. We propose novel type-aware order crossover operations and effective local search methods. A strategy to escape from local optima is proposed. Our new algorithm is shown to outperform existing algorithms on most benchmark instances in both quality and time. Our algorithms found the new best solutions for 538 TSPD instances out of 920 and 93 FSTSP instances out of 132.
翻訳日:2023-03-02 14:11:54 公開日:2023-03-01
# グラフ注意の拡散

Diffusing Graph Attention ( http://arxiv.org/abs/2303.00613v1 )

ライセンス: Link先を確認
Daniel Glickman, Eran Yahav(参考訳) グラフ上の機械学習の主流パラダイムは、メッセージパッシンググラフニューラルネットワーク(MP-GNN)を使用しており、ノード表現は、近隣の情報を集約することで更新される。 近年,MP-GNNのいくつかの既知の制限を解決するため,トランスフォーマーアーキテクチャをグラフに適用する試みが増えている。 Graph Transformerを設計する上で難しい側面は、任意のグラフ構造をアーキテクチャに統合することだ。 この課題に対処するために、グラフディフューザ(GD)を提案する。 gdはグラフ内の遠隔ノード間の構造的および位置的関係を抽出し、トランスフォーマの注意とノード表現を指示するために使用する。 既存のGNNとGraph Transformerは、長距離インタラクションのキャプチャに苦労し、Graph Diffuserが直感的な視覚化を認めながらそれをどのように行うかを実証する。 8つのベンチマークによる実験では、グラフディフューザが競争の激しいモデルであることが示され、さまざまな領域で最先端を上回っている。

The dominant paradigm for machine learning on graphs uses Message Passing Graph Neural Networks (MP-GNNs), in which node representations are updated by aggregating information in their local neighborhood. Recently, there have been increasingly more attempts to adapt the Transformer architecture to graphs in an effort to solve some known limitations of MP-GNN. A challenging aspect of designing Graph Transformers is integrating the arbitrary graph structure into the architecture. We propose Graph Diffuser (GD) to address this challenge. GD learns to extract structural and positional relationships between distant nodes in the graph, which it then uses to direct the Transformer's attention and node representation. We demonstrate that existing GNNs and Graph Transformers struggle to capture long-range interactions and how Graph Diffuser does so while admitting intuitive visualizations. Experiments on eight benchmarks show Graph Diffuser to be a highly competitive model, outperforming the state-of-the-art in a diverse set of domains.
翻訳日:2023-03-02 14:11:18 公開日:2023-03-01
# 顔の仮想化は顔の知覚を変えたか? 拡張現実が顔面知覚に及ぼす影響に関する研究

Has the Virtualization of the Face Changed Facial Perception? A Study of the Impact of Augmented Reality on Facial Perception ( http://arxiv.org/abs/2303.00612v1 )

ライセンス: Link先を確認
Louisa Conwill, Samuel Anthony, and Walter Scheirer(参考訳) 拡張現実(Augmented Reality)や他の写真編集フィルターは、画像、特に顔の画像の修正によく使われている。 社会的コミュニケーションにおける人間の顔知覚の重要な役割を考えると、オンラインの修正顔の増加が人間の顔知覚にどのように影響するか? 本稿では,異なるスタイルの顔フィルターによる親しみ度,異なる顔フィルタで編集された顔の奇妙な感じ,画像がフィルタリングされているか否かを識別する6つの調査結果について述べる。 以上の結果から,画像色調を変えたり,顔構造を変えたり,顔の美容を付加したりする写真編集フィルタでフィルタリングされた顔は,無修正顔と同様に知覚される傾向があるが,拡張現実フィルタでフィルタリングされた顔(デジタルオブジェクトをオーバーレイする\textit{i,}フィルタ)は、無修正顔とは異なる知覚であることが示唆された。 また, 異なる質問文から異なる回答が得られ, フィルタ画像の出現による顔の知覚の変化は, 検出しづらいことが示唆された。 顔フィルターによる顔の知覚の変化をよりよく理解することで、オンライン空間をより責任を持って構築し、より正確で公平な顔認識モデルのトレーニング、特に人間の心理物理学的アノテーションのトレーニングを知らせることができます。

Augmented reality and other photo editing filters are popular methods used to modify images, especially images of faces, posted online. Considering the important role of human facial perception in social communication, how does exposure to an increasing number of modified faces online affect human facial perception? In this paper we present the results of six surveys designed to measure familiarity with different styles of facial filters, perceived strangeness of faces edited with different facial filters, and ability to discern whether images are filtered or not. Our results indicate that faces filtered with photo editing filters that change the image color tones, modify facial structure, or add facial beautification tend to be perceived similarly to unmodified faces; however, faces filtered with augmented reality filters (\textit{i.e.,} filters that overlay digital objects) are perceived differently from unmodified faces. We also found that responses differed based on different survey question phrasings, indicating that the shift in facial perception due to the prevalence of filtered images is noisy to detect. A better understanding of shifts in facial perception caused by facial filters will help us build online spaces more responsibly and could inform the training of more accurate and equitable facial recognition models, especially those trained with human psychophysical annotations.
翻訳日:2023-03-02 14:11:01 公開日:2023-03-01
# 教師なしの病理検出: 最先端技術への深入り

Unsupervised Pathology Detection: A Deep Dive Into the State of the Art ( http://arxiv.org/abs/2303.00609v1 )

ライセンス: Link先を確認
Ioannis Lagogiannis, Felix Meissen, Georgios Kaissis and Daniel Rueckert(参考訳) 深い教師なしのアプローチは、大きなラベル付きデータセットの必要性を軽減し、どんな稀な病理も検出できるような教師付きアプローチよりも一般化可能であることを約束するため、医学画像の病理検出やセグメンテーションなどの応用に注目が集まっている。 非教師なし異常検出(UAD)の文献が継続的に増加し,新たなパラダイムが出現するにつれ,SOTA(State-of-the-art)を再評価し,将来的な研究方向性を特定するために,新たな手法を共通のフレームワークで継続的に評価し,ベンチマークすることが不可欠である。 そこで我々は,複数の医学的データセット上での最先端のUAD法の選択を多種多様に評価し,脳MRIにおいて確立されたSOTAと比較した。 本実験により, 産業・医学文献から新たに開発された特徴モデリング手法は, 従来に比べて性能が向上し, 様々なモダリティやデータセットに新たなSOTAを設定できることが実証された。 さらに,このような手法は,最近開発された自己教師付き事前学習アルゴリズムの恩恵を受けることができることを示す。 最後に,選択したモデルとデータセットのユニークな特徴についてさらなる洞察を得るために,一連の実験を行う。 コードはhttps://github.com/iolag/upd_study/で確認できます。

Deep unsupervised approaches are gathering increased attention for applications such as pathology detection and segmentation in medical images since they promise to alleviate the need for large labeled datasets and are more generalizable than their supervised counterparts in detecting any kind of rare pathology. As the Unsupervised Anomaly Detection (UAD) literature continuously grows and new paradigms emerge, it is vital to continuously evaluate and benchmark new methods in a common framework, in order to reassess the state-of-the-art (SOTA) and identify promising research directions. To this end, we evaluate a diverse selection of cutting-edge UAD methods on multiple medical datasets, comparing them against the established SOTA in UAD for brain MRI. Our experiments demonstrate that newly developed feature-modeling methods from the industrial and medical literature achieve increased performance compared to previous work and set the new SOTA in a variety of modalities and datasets. Additionally, we show that such methods are capable of benefiting from recently developed self-supervised pre-training algorithms, further increasing their performance. Finally, we perform a series of experiments in order to gain further insights into some unique characteristics of selected models and datasets. Our code can be found under https://github.com/iolag/UPD_study/.
翻訳日:2023-03-02 14:10:37 公開日:2023-03-01
# ディープフェイク検出レベルアップ:GANアーキテクチャと拡散モデルによる画像の効果的識別方法

Level Up the Deepfake Detection: a Method to Effectively Discriminate Images Generated by GAN Architectures and Diffusion Models ( http://arxiv.org/abs/2303.00608v1 )

ライセンス: Link先を確認
Luca Guarnera (1), Oliver Giudice (2), Sebastiano Battiato (1) ((1) Department of Mathematics and Computer Science, University of Catania, Italy, (2) Applied Research Team, IT dept., Banca d'Italia, Rome, Italy)(参考訳) イメージディープフェイク検出タスクは、人工知能(AI)モデルによって生成された実際のイメージを識別するために、科学コミュニティによって大幅に対処されてきた。 本研究では,9つの異なるGANアーキテクチャと4つの拡散モデル(DM)によって生成されたプリスタン画像と偽画像の専用データセットを収集し,ディープフェイク検出認識タスクを検討した。 次に3つの異なるディープフェイク検出および認識タスクを解決するために階層的マルチレベルアプローチを導入した。 (i)AIが生成する実V (ii)GANs Vs DM (iii)ai特有のアーキテクチャ認識。 実験の結果、それぞれが97%以上の分類精度を示し、最先端の手法を上回った。

The image deepfake detection task has been greatly addressed by the scientific community to discriminate real images from those generated by Artificial Intelligence (AI) models: a binary classification task. In this work, the deepfake detection and recognition task was investigated by collecting a dedicated dataset of pristine images and fake ones generated by 9 different Generative Adversarial Network (GAN) architectures and by 4 additional Diffusion Models (DM). A hierarchical multi-level approach was then introduced to solve three different deepfake detection and recognition tasks: (i) Real Vs AI generated; (ii) GANs Vs DMs; (iii) AI specific architecture recognition. Experimental results demonstrated, in each case, more than 97% classification accuracy, outperforming state-of-the-art methods.
翻訳日:2023-03-02 14:10:13 公開日:2023-03-01
# 前向きPECVaRアルゴリズム:CVaR SSPの厳密な評価

Forward-PECVaR Algorithm: Exact Evaluation for CVaR SSPs ( http://arxiv.org/abs/2303.00672v1 )

ライセンス: Link先を確認
Willy Arthur Silva Reis, Denis Benevolo Pais, Valdinei Freire, Karina Valdivia Delgado(参考訳) 確率的最短経路(SSP)問題は、エージェントがコスト関数を最小化しながら目標を追求しなければならない確率論的逐次決定問題をモデル化する。 確率力学のため、リスクを考慮したコスト関数を持つことが望まれる。 Conditional Value at Risk(CVaR)とは、リスクの任意のレベルをモデル化するための基準である。 最適ポリシーはマルコフ的ではないが、CVaR-SSPの解は、線形補間によるCVaR値反復(CVaRVIQ)やCVaR値反復(CVaRVILI)のような値反復に基づくアルゴリズムとほぼ一致する。 これらのタイプの解は、原子の数や$\alpha_0$(最小の$\alpha$)のようなアルゴリズムのパラメータに依存する。 これらのアルゴリズムによって返されるポリシーを比較するためには,CVaR-SSPの定常ポリシーを正確に評価する方法が必要である。 これらのポリシーを評価するアルゴリズムはあるが、これは一様コストの問題にのみ当てはまる。 本稿では,不均一なコストでCVaR-SSPの定常ポリシーを正確に評価するアルゴリズムであるForward-PECVaRを提案する。 そこで本研究では,cvar値反復アルゴリズムについて,厳密な解と比較し,解の質と拡張性にアルゴリズムパラメータが与える影響について検討した。 2つの領域の実験では、$\alpha_0$ が $\alpha$ のターゲットよりも小さく、適切な数の原子を用いて良好な近似を得ることが重要である。

The Stochastic Shortest Path (SSP) problem models probabilistic sequential-decision problems where an agent must pursue a goal while minimizing a cost function. Because of the probabilistic dynamics, it is desired to have a cost function that considers risk. Conditional Value at Risk (CVaR) is a criterion that allows modeling an arbitrary level of risk by considering the expectation of a fraction $\alpha$ of worse trajectories. Although an optimal policy is non-Markovian, solutions of CVaR-SSP can be found approximately with Value Iteration based algorithms such as CVaR Value Iteration with Linear Interpolation (CVaRVIQ) and CVaR Value Iteration via Quantile Representation (CVaRVILI). These type of solutions depends on the algorithm's parameters such as the number of atoms and $\alpha_0$ (the minimum $\alpha$). To compare the policies returned by these algorithms, we need a way to exactly evaluate stationary policies of CVaR-SSPs. Although there is an algorithm that evaluates these policies, this only works on problems with uniform costs. In this paper, we propose a new algorithm, Forward-PECVaR (ForPECVaR), that evaluates exactly stationary policies of CVaR-SSPs with non-uniform costs. We evaluate empirically CVaR Value Iteration algorithms that found solutions approximately regarding their quality compared with the exact solution, and the influence of the algorithm parameters in the quality and scalability of the solutions. Experiments in two domains show that it is important to use an $\alpha_0$ smaller than the $\alpha$ target and an adequate number of atoms to obtain a good approximation.
翻訳日:2023-03-02 14:04:25 公開日:2023-03-01
# Qompress:通信削減のための部分および混合基数演算を爆発させるクォートに対する効率的なコンパイル

Qompress: Efficient Compilation for Ququarts Exploiting Partial and Mixed Radix Operations for Communication Reduction ( http://arxiv.org/abs/2303.00658v1 )

ライセンス: Link先を確認
Andrew Litteken, Lennart Maximilian Seifert, Jason Chadwick, Natalia Nottingham, Fred Chong and Jonathan Baker(参考訳) 量子コンピューティングは限られた資源の時代にある。 現在のハードウェアは、高い忠実度ゲート、長いコヒーレンス時間、有意義な計算を行うのに必要な計算単位数を欠いている。 現代の量子デバイスは通常バイナリシステムを使用し、各キュービットは$\ket{0}$と$\ket{1}$状態の重ね合わせに存在する。 しかし、異なる方法でシステムを操作することで、同じ物理ユニットで$\ket{2}$または$\ket{3}$の状態にアクセスすることがしばしば可能である。 本研究では,2つの量子ビットを自動的に1つの状態 qu\emph{quart} に符号化する。 量子最適制御を用いて、符号化された量子ビット上での標準量子ビット計算を完全に再現する効率的な概念証明ゲートを設計する。 我々は、qubitとququartの両方からなる任意の混合放射系上のqubitを効率的にルーティングするために、qubitコンパイルスキームを拡張し、通信を減らし、長周期のququartゲートによって導入された余剰回路実行時間を最小化する。 これらのコンパイル戦略と合わせて, 有益圧縮を見出す手法をいくつか導入し, 計算と通信による回路誤差を最大50 %削減する。 これらの方法は、回路の忠実性を維持しながら、限られた短期機械で利用可能な計算スペースを最大2倍にすることができる。

Quantum computing is in an era of limited resources. Current hardware lacks high fidelity gates, long coherence times, and the number of computational units required to perform meaningful computation. Contemporary quantum devices typically use a binary system, where each qubit exists in a superposition of the $\ket{0}$ and $\ket{1}$ states. However, it is often possible to access the $\ket{2}$ or even $\ket{3}$ states in the same physical unit by manipulating the system in different ways. In this work, we consider automatically encoding two qubits into one four-state qu\emph{quart} via a \emph{compression scheme}. We use quantum optimal control to design efficient proof-of-concept gates that fully replicate standard qubit computation on these encoded qubits. We extend qubit compilation schemes to efficiently route qubits on an arbitrary mixed-radix system consisting of both qubits and ququarts, reducing communication and minimizing excess circuit execution time introduced by longer-duration ququart gates. In conjunction with these compilation strategies, we introduce several methods to find beneficial compressions, reducing circuit error due to computation and communication by up to 50\%. These methods can increase the computational space available on a limited near-term machine by up to 2x while maintaining circuit fidelity.
翻訳日:2023-03-02 14:03:54 公開日:2023-03-01
# DP-fy ML: 差分プライバシによる機械学習の実践的ガイド

How to DP-fy ML: A Practical Guide to Machine Learning with Differential Privacy ( http://arxiv.org/abs/2303.00654v1 )

ライセンス: Link先を確認
Natalia Ponomareva, Hussein Hazimeh, Alex Kurakin, Zheng Xu, Carson Denison, H. Brendan McMahan, Sergei Vassilvitskii, Steve Chien and Abhradeep Thakurta(参考訳) MLモデルは現実世界の応用においてユビキタスであり、常に研究の焦点となっている。 同時に、コミュニティはMLトレーニングデータのプライバシ保護の重要性を認識し始めています。 差分プライバシー(DP)は、データ匿名化に関する公式声明を作成するための金の標準となっている。 しかし、いくつかの業界でDPの採用が起きているが、現実の複雑なMLモデルにDPを適用しようとする試みは、いまだにごくわずかである。 DPの採用は、DP保護が持つもの、プライバシーが目的とするもの、そしてMLモデルの優れたプライバシ・ユーティリティ・コンピューティングトレードオフを達成することの難しさに関する限られた実践的なガイダンスによって妨げられている。 パフォーマンスをチューニングし最大化するためのトリックは、紙に散らばったり、実践者の頭に格納される。 さらに,この文献は,アーキテクチャ調整の適用方法と,どのコンポーネントが 'safe'' をdpで使用するかに関して,相反する証拠を提示していると思われる。 この研究は自己完結型のガイドであり、DP MLの分野を詳細に概観し、厳格なプライバシー保証を備えた最高のDP MLモデルを達成するための情報を提供する。 対象は研究者と実践者の両方です。 DP for MLに興味のある研究者は、現在の進歩と改善の領域を明確に示すことで恩恵を受けるだろう。 プライバシ会計や仮定,収束といった重要なトピックに注目する理論に焦点を当てたセクションも含んでいます。 実践者にとって、DP理論の背景と、適切なプライバシー定義とアプローチを選択し、DPトレーニングを実装し、モデルアーキテクチャを更新し、ハイパーパラメータをチューニングするための明確なステップバイステップガイドを提供する。 研究者と実践者の両方にとって,一貫して完全に報告するプライバシ保証は不可欠であり,保証を述べるための具体的なベストプラクティスを提案する。

ML models are ubiquitous in real world applications and are a constant focus of research. At the same time, the community has started to realize the importance of protecting the privacy of ML training data. Differential Privacy (DP) has become a gold standard for making formal statements about data anonymization. However, while some adoption of DP has happened in industry, attempts to apply DP to real world complex ML models are still few and far between. The adoption of DP is hindered by limited practical guidance of what DP protection entails, what privacy guarantees to aim for, and the difficulty of achieving good privacy-utility-computation trade-offs for ML models. Tricks for tuning and maximizing performance are scattered among papers or stored in the heads of practitioners. Furthermore, the literature seems to present conflicting evidence on how and whether to apply architectural adjustments and which components are ``safe'' to use with DP. This work is a self-contained guide that gives an in-depth overview of the field of DP ML and presents information about achieving the best possible DP ML model with rigorous privacy guarantees. Our target audience is both researchers and practitioners. Researchers interested in DP for ML will benefit from a clear overview of current advances and areas for improvement. We include theory-focused sections that highlight important topics such as privacy accounting and its assumptions, and convergence. For a practitioner, we provide a background in DP theory and a clear step-by-step guide for choosing an appropriate privacy definition and approach, implementing DP training, potentially updating the model architecture, and tuning hyperparameters. For both researchers and practitioners, consistently and fully reporting privacy guarantees is critical, and so we propose a set of specific best practices for stating guarantees.
翻訳日:2023-03-02 14:03:22 公開日:2023-03-01
# 正しいXAI手法の発見 -気候科学における説明可能なAI手法の評価とランク付けのためのガイド-

Finding the right XAI method -- A Guide for the Evaluation and Ranking of Explainable AI Methods in Climate Science ( http://arxiv.org/abs/2303.00652v1 )

ライセンス: Link先を確認
Philine Bommer, Marlene Kretschmer, Anna Hedstr\"om, Dilyara Bareeva, Marina M.-C. H\"ohne(参考訳) 説明可能な人工知能(XAI)手法は、ディープニューラルネットワーク(DNN)の予測に光を当てる。 いくつかの異なるアプローチが存在し、すでに気候科学に応用されている。 しかし、しばしば欠けている基礎的真実の説明は、その評価と検証を複雑にし、XAI法の選択を複雑にする。 そこで本研究では,気候研究の文脈においてxai評価を導入し,ロバスト性,忠実性,ランダム化,複雑性,局所性など,所望の異なる説明特性を評価する。 この目的のために,これまでの研究に基づいて多層パーセプトロン(mlp)と畳み込みニューラルネットワーク(cnn)を訓練し,年間平均気温マップに基づいて10年を予測した。 次に、複数の局所XAI手法を適用し、評価特性ごとにその性能を定量化し、ベースライン試験と比較する。 ネットワークタイプとは独立に,XAI法では,階層的関連性伝播や入力グラディエントが乱数化を犠牲にしつつ,頑健性,忠実性,複雑度を示すことがわかった。 逆は Gradient, SmoothGrad, NoiseGrad, FusionGrad である。 特に、SmoothGradやIntegrated Gradientsのような入力摂動を用いた説明は、以前の主張に反して、堅牢性と忠実性を改善しない。 概して,本実験は,気候科学の文脈における説明方法の異なる性質を包括的に概観し,利用者が適切なxai手法を選択することを支援する。

Explainable artificial intelligence (XAI) methods shed light on the predictions of deep neural networks (DNNs). Several different approaches exist and have partly already been successfully applied in climate science. However, the often missing ground truth explanations complicate their evaluation and validation, subsequently compounding the choice of the XAI method. Therefore, in this work, we introduce XAI evaluation in the context of climate research and assess different desired explanation properties, namely, robustness, faithfulness, randomization, complexity, and localization. To this end we build upon previous work and train a multi-layer perceptron (MLP) and a convolutional neural network (CNN) to predict the decade based on annual-mean temperature maps. Next, multiple local XAI methods are applied and their performance is quantified for each evaluation property and compared against a baseline test. Independent of the network type, we find that the XAI methods Integrated Gradients, Layer-wise relevance propagation, and InputGradients exhibit considerable robustness, faithfulness, and complexity while sacrificing randomization. The opposite is true for Gradient, SmoothGrad, NoiseGrad, and FusionGrad. Notably, explanations using input perturbations, such as SmoothGrad and Integrated Gradients, do not improve robustness and faithfulness, contrary to previous claims. Overall, our experiments offer a comprehensive overview of different properties of explanation methods in the climate science context and supports users in the selection of a suitable XAI method.
翻訳日:2023-03-02 14:02:54 公開日:2023-03-01
# 説明可能性のためのアルゴリズムガバナンス: 進歩とトレンドの比較概要

Algorithmic Governance for Explainability: A Comparative Overview of Progress and Trends ( http://arxiv.org/abs/2303.00651v1 )

ライセンス: Link先を確認
Yulu Pi(参考訳) AIの説明性は、純粋に技術的な問題から、アルゴリズムのガバナンスとアルゴリズムのセキュリティに密接に関連する複雑な問題へと変化した。 説明可能なAI(XAI)の欠如は、すべての経済階級と国境を越えて悪影響を及ぼす。 行政、技術、政策交換の努力にもかかわらず、xaiは公共部門、企業、国際機関を含む複数の利害関係者によってそれぞれ行われてきた。 XAIはまだ生まれたばかりです。 将来の応用とそれに対応する規制機関は、すべての当事者の協力関係に依存している。

The explainability of AI has transformed from a purely technical issue to a complex issue closely related to algorithmic governance and algorithmic security. The lack of explainable AI (XAI) brings adverse effects that can cross all economic classes and national borders. Despite efforts in governance, technical, and policy exchange have been made in XAI by multiple stakeholders, including the public sector, enterprises, and international organizations, respectively. XAI is still in its infancy. Future applications and corresponding regulatory instruments are still dependent on the collaborative engagement of all parties.
翻訳日:2023-03-02 14:02:27 公開日:2023-03-01
# 単一イオンを捕捉した過渡蛍光

Transient fluorescence with a single trapped ion ( http://arxiv.org/abs/2303.00650v1 )

ライセンス: Link先を確認
Nicol\'as Nu\~nez Barreto, Lucas Giardino, Carla Crucianelli, Muriel Bonetto, Martin Drechsler, Christian Tom\'as Schmiegelow(参考訳) 本稿では,ポールトラップ中の単一捕捉イオンを用いた過渡蛍光ダイナミクスの測定方法を提案する。 我々は、$^{40}$Ca$^+$イオンを使用し、$\Lambda$型3レベルシステムを示し、地上の$S_{1/2}$と準安定な$D_{3/2}$レベルの間の特性光ポンピング時間を測定する。 これらの状態の1つを準備し、励起された$p_{1/2}$状態を介して反対の状態にポンプで送る。 イオンの散乱光子を測定することにより、原子蛍光の過渡曲線を抽出する。 これらの曲線は、分岐分数や励起状態の寿命といった原子系の基本的な情報と、検出システムの効率や遷移の1つの飽和パラメータなどの実験パラメータを提供する。 最後に, 時間依存蛍光を光学パワーの関数として研究し, 光学ブロッホ方程式の組を通して3段階開量子系を介してダイナミクスをシミュレートすることと非常によく一致することを発見した。 時間に依存する蛍光を記録できることは、イオンの温度、冷却および加熱ダイナミクスに関する情報を含んでいるため、特に興味深い。

In this paper we present a method to measure transient fluorescent dynamics with single trapped ions in a Paul trap. We use $^{40}$Ca$^+$ ions which exhibit a $\Lambda$-type three-level system and measure the characteristic optical pumping times between the ground $S_{1/2}$ and the meta-stable $D_{3/2}$ levels. We prepare one of these states, then pump it to the opposite via the excited $P_{1/2}$ state. By measuring the scattered photons of the ion, we retrieve transient curves of the atomic fluorescence. These curves provide fundamental information about the atomic system, such as branching fractions and excited-state lifetimes, as well as experimental parameters like the efficiency of the detection system and the saturation parameter of one of the transitions. Finally, we study the time dependent fluorescence as a function of optical power and detuning of the lasers and find a very good agreement with simulating the dynamics via a three-level open quantum system through a set of optical Bloch equations. Being able to record time dependent fluorescence is of particular interest as it contains information about the temperature, cooling and heating dynamics of the ion.
翻訳日:2023-03-02 14:02:20 公開日:2023-03-01
# MEGA-DAgger: 複数専門家による模倣学習

MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts ( http://arxiv.org/abs/2303.00638v1 )

ライセンス: Link先を確認
Xiatao Sun, Shuo Yang, Rahul Mangharam(参考訳) 模倣学習は、振る舞いのクローニングのような従来のアプローチによって引き起こされる共変量シフトや複合誤差に対処する対話型アルゴリズムの開発により、様々な自律システムに適用されている。 しかし、既存の対話型模倣学習手法では、1人の完璧な専門家にアクセスすることができる。 実際には、複数の不完全な専門家がいる可能性が高い。 本稿では,複数の不完全な専門家との対話型学習に適した新しいDAggerであるMEGA-DAggerを提案する。 まず、安全でないデモは、トレーニングデータを集約しながらフィルタリングされるため、初心者ポリシーをトレーニングする際には、不完全なデモはほとんど影響しない。 次に、専門家は、専門家間の矛盾するラベルを解決するために、シナリオ固有のメトリクスを評価し比較する。 自律レースシナリオの実験を通じて、MEGA-DAggerを用いて学習したポリシーは、最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家とポリシーの両方より優れていることを示す。 追加ビデオはhttps://youtu.be/pyqipshk6duで見ることができる。

Imitation learning has been widely applied to various autonomous systems thanks to recent development in interactive algorithms that address covariate shift and compounding errors induced by traditional approaches like behavior cloning. However, existing interactive imitation learning methods assume access to one perfect expert. Whereas in reality, it is more likely to have multiple imperfect experts instead. In this paper, we propose MEGA-DAgger, a new DAgger variant that is suitable for interactive learning with multiple imperfect experts. First, unsafe demonstrations are filtered while aggregating the training data, so the imperfect demonstrations have little influence when training the novice policy. Next, experts are evaluated and compared on scenarios-specific metrics to resolve the conflicted labels among experts. Through experiments in autonomous racing scenarios, we demonstrate that policy learned using MEGA-DAgger can outperform both experts and policies learned using the state-of-the-art interactive imitation learning algorithm. The supplementary video can be found at https://youtu.be/pYQiPSHk6dU.
翻訳日:2023-03-02 14:02:00 公開日:2023-03-01
# 分散不変共分散正則化に関する情報理論的視点

An Information-Theoretic Perspective on Variance-Invariance-Covariance Regularization ( http://arxiv.org/abs/2303.00633v1 )

ライセンス: Link先を確認
Ravid Shwartz-Ziv, Randall Balestriero, Kenji Kawaguchi, Tim G. J. Rudner, Yann LeCun(参考訳) 本稿では,自己教師型学習のための変数不変共分散正規化(VICReg)に関する情報理論的な視点を提供する。 そこで本研究では, 一般の非現実的確率的ネットワークの仮定に代えて, 決定論的ネットワークに対して情報理論量が得られることを示す。 次に、VICRegの目的を相互情報の最大化に関連付け、その目的の前提となる仮定を強調する。 この関係に基づいてvicregの一般化を導出し,下流教師付き学習タスクの一般化保証を提供し,既存の手法を性能面で上回る相互情報最大化目標から導出した,新たな自己教師付き学習手法を提案する。 本研究は, 自己教師型学習と変分共分散規則化に関する新たな情報理論的視点を提供し, 情報理論的自己教師型学習の目的を通じて, 伝達学習を改善する方法を導く。

In this paper, we provide an information-theoretic perspective on Variance-Invariance-Covariance Regularization (VICReg) for self-supervised learning. To do so, we first demonstrate how information-theoretic quantities can be obtained for deterministic networks as an alternative to the commonly used unrealistic stochastic networks assumption. Next, we relate the VICReg objective to mutual information maximization and use it to highlight the underlying assumptions of the objective. Based on this relationship, we derive a generalization bound for VICReg, providing generalization guarantees for downstream supervised learning tasks and present new self-supervised learning methods, derived from a mutual information maximization objective, that outperform existing methods in terms of performance. This work provides a new information-theoretic perspective on self-supervised learning and Variance-Invariance-Covariance Regularization in particular and guides the way for improved transfer learning via information-theoretic self-supervised learning objectives.
翻訳日:2023-03-02 14:01:42 公開日:2023-03-01
# 常識的な社会規範や行動としての価値は1kgです

That's All Folks: a KG of Values as Commonsense Social Norms and Behaviors ( http://arxiv.org/abs/2303.00632v1 )

ライセンス: Link先を確認
Stefano De Giorgis and Aldo Gangemi(参考訳) 倫理に意図された価値観は、道徳や社会規範の形や妥当性を定め、日常的な個人やコミュニティの行動が常識の知識に根ざしている。 人間の相互作用における潜在道徳的内容の定式化は、社会的ダイナミクスと個人の認知的・行動的次元の両方をより深く理解するための魅力的な視点である。 この問題に取り組むために、いくつかの理論的な枠組みは異なる値モデルを提供し、それらを異なる分類法にまとめる。 最もよく使われる理論の問題は、「価値」とみなされる多くの実体が常識的な知識に根ざし、日常生活の相互作用で表される一方で、文化的非依存的な視点を採用することである。 ここでは,2つの存在論的モジュール,FOLK,広義に意図された価値のオントロジー,および,主要な価値理論を補完することを目的とした語彙的および事実的価値のトリガーのためのモジュール,All Folksを提案する。 このリソースは、フレームベースのアプローチでテキストから値を自動的に検出することでテストされる。

Values, as intended in ethics, determine the shape and validity of moral and social norms, grounding our everyday individual and community behavior on commonsense knowledge. Formalising latent moral content in human interaction is an appealing perspective that would enable a deeper understanding of both social dynamics and individual cognitive and behavioral dimension. To tackle this problem, several theoretical frameworks offer different values models, and organize them into different taxonomies. The problem of the most used theories is that they adopt a cultural-independent perspective while many entities that are considered "values" are grounded in commonsense knowledge and expressed in everyday life interaction. We propose here two ontological modules, FOLK, an ontology for values intended in their broad sense, and That's All Folks, a module for lexical and factual folk value triggers, whose purpose is to complement the main theories, providing a method for identifying the values that are not contemplated by the major value theories, but which nonetheless play a key role in daily human interactions, and shape social structures, cultural biases, and personal beliefs. The resource is tested via performing automatic detection of values from text with a frame-based approach.
翻訳日:2023-03-02 14:01:25 公開日:2023-03-01
# 畳み込みニューラルネットワークによる壁せん断応力と壁圧の予測

Predicting the wall-shear stress and wall pressure through convolutional neural networks ( http://arxiv.org/abs/2303.00706v1 )

ライセンス: Link先を確認
Arivazhagan G. Balasubramanian, Luca Gastonia, Philipp Schlatter, Hossein Azizpour, Ricardo Vinuesa(参考訳) 本研究の目的は,畳み込み型ニューラルネットワークの乱流開水路流れにおける壁量予測能力を評価することである。 最初の試験は、壁面から遠くに位置する壁面並列面のサンプル速度変動を用いて、内規模壁面正規位置$y^{+}_{\rm target}$の2次元速度変動場を$y^{+}_{\rm input}$で予測するために、完全畳み込みネットワーク(FCN)を訓練することによって行われる。 FCNの予測は、提案したR-Netアーキテクチャの予測と比較される。 R-NetモデルはFCNモデルよりも優れた性能を示すことが判明したので, 従来のアーキテクチャは, 壁面から遠ざかるサンプル速度変動場からの2次元の流速および幅方向の壁応力成分と壁圧力を予測するように最適化されている。 データセットは、オープンチャネルフローのDNSから$Re_{\tau} = 180$と$50$で取得される。 乱流速度変動場は, 壁せん断応力や壁圧とともに, 様々な壁面内径壁の通常位置でサンプリングされる。 re_{\tau}=550$では、fcnとr-netの両方が流れの対数領域の自己相似性を利用し、y^{+} = 50$の速度-変動場をy^{+} = 100$の速度-変動場を用いて予測することができる。 さらに、r-netは、y^+ = 50$の速度-変動場を用いて、壁-ストーム-ストレス場と壁-圧力場を予測でき、$re_{\tau} = 180$と$50$の両方で対応する変動の強度の約10%の誤差がある。 これらの結果は大規模シミュレーションにおいて,壁近傍の乱流をモデル化するためのニューラルネットワークベースのアプローチを開発するための出発点となる。

The objective of this study is to assess the capability of convolution-based neural networks to predict wall quantities in a turbulent open channel flow. The first tests are performed by training a fully-convolutional network (FCN) to predict the 2D velocity-fluctuation fields at the inner-scaled wall-normal location $y^{+}_{\rm target}$, using the sampled velocity fluctuations in wall-parallel planes located farther from the wall, at $y^{+}_{\rm input}$. The predictions from the FCN are compared against the predictions from a proposed R-Net architecture. Since the R-Net model is found to perform better than the FCN model, the former architecture is optimized to predict the 2D streamwise and spanwise wall-shear-stress components and the wall pressure from the sampled velocity-fluctuation fields farther from the wall. The dataset is obtained from DNS of open channel flow at $Re_{\tau} = 180$ and $550$. The turbulent velocity-fluctuation fields are sampled at various inner-scaled wall-normal locations, along with the wall-shear stress and the wall pressure. At $Re_{\tau}=550$, both FCN and R-Net can take advantage of the self-similarity in the logarithmic region of the flow and predict the velocity-fluctuation fields at $y^{+} = 50$ using the velocity-fluctuation fields at $y^{+} = 100$ as input with about 10% error in prediction of streamwise-fluctuations intensity. Further, the R-Net is also able to predict the wall-shear-stress and wall-pressure fields using the velocity-fluctuation fields at $y^+ = 50$ with around 10% error in the intensity of the corresponding fluctuations at both $Re_{\tau} = 180$ and $550$. These results are an encouraging starting point to develop neural-network-based approaches for modelling turbulence near the wall in large-eddy simulations.
翻訳日:2023-03-02 13:55:06 公開日:2023-03-01
# Nearest Neighborsがポイントクラウド分析のためのディープニューラルネットワークを発表

Nearest Neighbors Meet Deep Neural Networks for Point Cloud Analysis ( http://arxiv.org/abs/2303.00703v1 )

ライセンス: Link先を確認
Renrui Zhang, Liuhui Wang, Ziyu Guo, Jianbo Shi(参考訳) 標準的な3Dポイントクラウドベンチマークのパフォーマンスは高められ、結果として過大なモデルと複雑なネットワーク設計が微妙に改善された。 本研究では,既存のディープニューラルネットワークを再設計や余分なパラメータなしで拡張する代替手法を提案する。 トレーニング済みの3dネットワーク上に構築し,その学習エンコーディング機能を活用して,トレーニングデータセットの特徴を抽出し,それらを原型的空間知識として要約する。 テストポイントクラウドでは、SN-Adapterは、事前構築された空間プロトタイプからk隣人(k-NN)を検索し、k-NN予測と元の3Dネットワークの予測を線形に補間する。 SN-Adapterは、相補的な特性を提供することで、非パラメトリックな方法で性能を経済的に向上するためのプラグアンドプレイモジュールとして機能する。 さらに, SN-Adapterは, 形状分類, 部分分割, 3次元物体検出など, 様々な3次元タスクに効果的に一般化することができ, その優位性と堅牢性を示す。 このアプローチがポイントクラウド分析の新しい視点を示し、今後の研究を促進することを願っています。

Performances on standard 3D point cloud benchmarks have plateaued, resulting in oversized models and complex network design to make a fractional improvement. We present an alternative to enhance existing deep neural networks without any redesigning or extra parameters, termed as Spatial-Neighbor Adapter (SN-Adapter). Building on any trained 3D network, we utilize its learned encoding capability to extract features of the training dataset and summarize them as prototypical spatial knowledge. For a test point cloud, the SN-Adapter retrieves k nearest neighbors (k-NN) from the pre-constructed spatial prototypes and linearly interpolates the k-NN prediction with that of the original 3D network. By providing complementary characteristics, the proposed SN-Adapter serves as a plug-and-play module to economically improve performance in a non-parametric manner. More importantly, our SN-Adapter can be effectively generalized to various 3D tasks, including shape classification, part segmentation, and 3D object detection, demonstrating its superiority and robustness. We hope our approach could show a new perspective for point cloud analysis and facilitate future research.
翻訳日:2023-03-02 13:54:20 公開日:2023-03-01
# アハロノフ・ボーム効果の時間対称性と位相

Time-symmetry and topology of the Aharonov-Bohm effect ( http://arxiv.org/abs/2303.00701v1 )

ライセンス: Link先を確認
Yakir Aharonov, Ismael L. Paiva, Zohar Schwartzman-Nowik, Avshalom C. Elitzur, and Eliahu Cohen(参考訳) アハロノフ・ボーム効果(AB)は、基礎物理学や応用物理学に大きな影響を与えた。 そのトポロジカルな性質は、磁場のない領域で磁束源を囲む電子が観測可能な効果を生み出すためにループを閉じなければならないことを意味する。 本稿では,この概念に挑戦するAB効果の変種について検討する。 弱値と非局所運動方程式の意義は解析の一部として議論され、これら全ての基本的な概念に光を当てて接続する。

The Aharonov-Bohm (AB) effect has been highly influential in fundamental and applied physics. Its topological nature commonly implies that an electron encircling a magnetic flux source in a field-free region must close the loop in order to generate an observable effect. In this Letter, we study a variant of the AB effect that apparently challenges this concept. The significance of weak values and nonlocal equations of motion is discussed as part of the analysis, shedding light on and connecting all these fundamental concepts.
翻訳日:2023-03-02 13:53:59 公開日:2023-03-01
# 絡み込み抑制による自然崩壊

Spontaneous collapse by entanglement suppression ( http://arxiv.org/abs/2303.00697v1 )

ライセンス: Link先を確認
Eyal Buks(参考訳) 非線形項を付加した最近提案された修正Schr\"{o}dinger方程式について検討し, 絡み合いを引き起こす。 量子測定のプロセスは、一対の結合スピンの場合のために探索される。 修正Schr\"{o}dinger方程式によって生成される決定論的時間進化は、波動関数の崩壊の過程を模倣する。 付加雑音は測定過程において確率性を引き起こす。 因果性と分離性の両方の原理との衝突は、非線形項はサブシステム間の相互作用の間のみアクティブであると仮定することで回避できる。 さらに、絡み合いがない場合、標準量子力学の全ての予測は、追加の非線形項の影響を受けない。

We study a recently proposed modified Schr\"{o}dinger equation having an added nonlinear term, which gives rise to disentanglement. The process of quantum measurement is explored for the case of a pair of coupled spins. We find that the deterministic time evolution generated by the modified Schr\"{o}dinger equation mimics the process of wavefunction collapse. Added noise gives rise to stochasticity in the measurement process. Conflict with both principles of causality and separability can be avoided by postulating that the nonlinear term is active only during the time when subsystems interact. Moreover, in the absence of entanglement, all predictions of standard quantum mechanics are unaffected by the added nonlinear term.
翻訳日:2023-03-02 13:53:51 公開日:2023-03-01
# モデルベースrlにおけるラジネスの効用:統一目的とアルゴリズム

The Virtues of Laziness in Model-based RL: A Unified Objective and Algorithms ( http://arxiv.org/abs/2303.00694v1 )

ライセンス: Link先を確認
Anirudh Vemula, Yuda Song, Aarti Singh, J. Andrew Bagnell, Sanjiban Choudhury(参考訳) 本稿では,モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新たなアプローチを提案する。 本手法は,学習方針と専門家政策の真のダイナミクス下でのパフォーマンス差を捉えるために,新しい統一目標であるモデルによる性能差を利用する。 本研究の目的は,探索分布下での学習モデルにおける期待される政策アドバンテージの最適化は,政策計算に十分であり,従来の計画手法と比較して計算効率が著しく向上することを示す。 さらに、統一された目的はモデルフィッティングの値モーメントマッチング項を使用し、これはポリシー計算におけるモデルの使用量と一致している。 提案した目的を最適化するための2つの非回帰アルゴリズムを提案し、シミュレーションベンチマークによる既存のMBRL法と比較して統計的および計算的ゲインを示す。

We propose a novel approach to addressing two fundamental challenges in Model-based Reinforcement Learning (MBRL): the computational expense of repeatedly finding a good policy in the learned model, and the objective mismatch between model fitting and policy computation. Our "lazy" method leverages a novel unified objective, Performance Difference via Advantage in Model, to capture the performance difference between the learned policy and expert policy under the true dynamics. This objective demonstrates that optimizing the expected policy advantage in the learned model under an exploration distribution is sufficient for policy computation, resulting in a significant boost in computational efficiency compared to traditional planning methods. Additionally, the unified objective uses a value moment matching term for model fitting, which is aligned with the model's usage during policy computation. We present two no-regret algorithms to optimize the proposed objective, and demonstrate their statistical and computational gains compared to existing MBRL methods through simulated benchmarks.
翻訳日:2023-03-02 13:53:41 公開日:2023-03-01
# PE-GAN: Belle II における PXD 画像の事前埋め込み GAN

PE-GAN: Prior Embedding GAN for PXD images at Belle II ( http://arxiv.org/abs/2303.00693v1 )

ライセンス: Link先を確認
Hosein Hashemi, Nikolai Hartmann, Thomas Kuhr, Martin Ritter, Matej srebre(参考訳) 画素頂点検出器(PXD)は、粒子の位置を記録するベルII検出器の重要な部分である。 PXDや他のセンサーからのデータにより、粒子の軌道と崩壊頂点を再構築することができる。 トラック復元におけるバックグラウンドヒットの効果は、シミュレーション信号粒子が生成したヒットに、測定またはシミュレーションされたバックグラウンドヒットパターンを付加することによりシミュレートされる。 このモデルは、再構成トラックの系統的バイアスを避けるために、統計的に独立な大量のPXD背景雑音サンプルを必要とする。 しかし、粒度の細かいPXDのデータは相当量のストレージを必要とする。 背景雑音を効果的に生成する方法として,画像の忠実度を高め,センサ依存のPXDヒットマップを生成するために,PXDセンサの数に適応して,コントラスト学習を伴う条件付きジェネレータ(GAN)を用いたオンデマンドPXDバックグラウンドジェネレータを提案する。

The pixel vertex detector (PXD) is an essential part of the Belle II detector recording particle positions. Data from the PXD and other sensors allow us to reconstruct particle tracks and decay vertices. The effect of background hits on track reconstruction is simulated by adding measured or simulated background hit patterns to the hits produced by simulated signal particles. This model requires a large set of statistically independent PXD background noise samples to avoid a systematic bias of reconstructed tracks. However, data from the fine-grained PXD requires a substantial amount of storage. As an efficient way of producing background noise, we explore the idea of an on-demand PXD background generator using conditional Generative Adversarial Networks (GANs) with contrastive learning, adapted by the number of PXD sensors in order to both increase the image fidelity and produce sensor-dependent PXD hitmaps.
翻訳日:2023-03-02 13:53:24 公開日:2023-03-01
# 古典的機械学習手法を用いた洪水マッピングにおける特徴表現の重要性について

On the Importance of Feature Representation for Flood Mapping using Classical Machine Learning Approaches ( http://arxiv.org/abs/2303.00691v1 )

ライセンス: Link先を確認
Kevin Iselborn, Marco Stricker, Takashi Miyamoto, Marlon Nuske and Andreas Dengel(参考訳) 気候変動は世界中の気象災害の深刻度と頻度を増加させた。 地球観測データに基づく洪水浸水マッピングは,洪水の影響を受けた地域を,ほぼリアルタイムに緊急救助ユニットに,安価で正確な地図を提供することで,この文脈において有用である。 本稿では,手書きによる高品質な学習データを提供するSen1Floods11データセットの最近の開発に基づいて,勾配向上決定木,サポートベクトルマシン,二次判別分析などの従来の5つの機械学習手法の可能性を評価する。 23の特徴空間上でグリッド探索に基づくハイパーパラメータ最適化を行うことで、すべての検討された分類器が、最高の特徴空間上でのIoU総量の観点から、現在の最先端のニューラルネットワークベースのアプローチより優れていることを示すことができる。 これまでに報告した0.8751と0.7031のIoU値を0.70と0.5873と比較すると、トレーニングデータが少ないにもかかわらず、単純な勾配強化分類器はディープニューラルネットワークベースのアプローチよりも大幅に改善できることがわかった。 さらに,sen1floods11データセットの地域分布の解析により,空間的不均衡の問題が明らかになった。 従来の機械学習モデルがこのバイアスを学習できることを示し、空間的不均衡による成果物への対応には修正された計量評価が必要であると論じる。 最後に、この画素ワイド分類器は、特徴空間と画素ワイド分類のよい選択が、光学的およびSARデータを用いて高品質なフラッドマップを生成することができることを示す、高精度な表面水分類を提供することを示す。 https://github.com/DFKI-Earth-And-Space-Applications/Flood_Mapping_Space_Importance

Climate change has increased the severity and frequency of weather disasters all around the world. Flood inundation mapping based on earth observation data can help in this context, by providing cheap and accurate maps depicting the area affected by a flood event to emergency-relief units in near-real-time. Building upon the recent development of the Sen1Floods11 dataset, which provides a limited amount of hand-labeled high-quality training data, this paper evaluates the potential of five traditional machine learning approaches such as gradient boosted decision trees, support vector machines or quadratic discriminant analysis. By performing a grid-search-based hyperparameter optimization on 23 feature spaces we can show that all considered classifiers are capable of outperforming the current state-of-the-art neural network-based approaches in terms of total IoU on their best-performing feature spaces. With total and mean IoU values of 0.8751 and 0.7031 compared to 0.70 and 0.5873 as the previous best-reported results, we show that a simple gradient boosting classifier can significantly improve over deep neural network based approaches, despite using less training data. Furthermore, an analysis of the regional distribution of the Sen1Floods11 dataset reveals a problem of spatial imbalance. We show that traditional machine learning models can learn this bias and argue that modified metric evaluations are required to counter artifacts due to spatial imbalance. Lastly, a qualitative analysis shows that this pixel-wise classifier provides highly-precise surface water classifications indicating that a good choice of a feature space and pixel-wise classification can generate high-quality flood maps using optical and SAR data. We make our code publicly available at: https://github.com/DFKI-Earth-And-Space-Applications/Flood_Mapping_Feature_Space_Importance
翻訳日:2023-03-02 13:53:07 公開日:2023-03-01
# 統一の視点からの効率的なチューニング手法の再考

Rethinking Efficient Tuning Methods from a Unified Perspective ( http://arxiv.org/abs/2303.00690v1 )

ライセンス: Link先を確認
Zeyinzi Jiang, Chaojie Mao, Ziyuan Huang, Yiliang Lv, Deli Zhao, Jingren Zhou(参考訳) 大規模事前学習基礎モデルに基づくパラメータ効率変換学習(PETL)は,下流の様々な応用において大きな成功を収めている。 プロンプト、プレフィックス、アダプタといった既存のチューニング手法は、オリジナルのアーキテクチャの異なる部分にタスク固有の軽量な調整を行う。 しかし、これらは事前訓練されたモデルの一部の部分、すなわちフィードフォワード層またはセルフアテンション層にのみ影響を受け、残りの凍結された構造は下流タスクのデータ分布に適応できない。 さらに、既存の構造はTransformerと強く結びついており、パラメータ効率のデプロイメントや新しいアプローチの設計の柔軟性を妨げる。 本稿では,petlの設計パラダイムを再検討し,凍ったパラメータを持つ演算と下流アプリケーションに適した統一チューナからなるパラメータ効率の高い転送学習のための統一フレームワーク u-tuning を導出する。 U-Tuningフレームワークは、既存のメソッドを同時に包含し、パラメータ効率のトランスファーラーニングのための新しいアプローチを導き、既存のPETL手法と比較して、CIFAR-100およびFGVCデータセットのオンパーまたはより良いパフォーマンスを実現する。

Parameter-efficient transfer learning (PETL) based on large-scale pre-trained foundation models has achieved great success in various downstream applications. Existing tuning methods, such as prompt, prefix, and adapter, perform task-specific lightweight adjustments to different parts of the original architecture. However, they take effect on only some parts of the pre-trained models, i.e., only the feed-forward layers or the self-attention layers, which leaves the remaining frozen structures unable to adapt to the data distributions of downstream tasks. Further, the existing structures are strongly coupled with the Transformers, hindering parameter-efficient deployment as well as the design flexibility for new approaches. In this paper, we revisit the design paradigm of PETL and derive a unified framework U-Tuning for parameter-efficient transfer learning, which is composed of an operation with frozen parameters and a unified tuner that adapts the operation for downstream applications. The U-Tuning framework can simultaneously encompass existing methods and derive new approaches for parameter-efficient transfer learning, which prove to achieve on-par or better performances on CIFAR-100 and FGVC datasets when compared with existing PETL methods.
翻訳日:2023-03-02 13:52:33 公開日:2023-03-01
# バーチャルリアリティを使って人類の月への帰還を形作る:デザイン研究の要点

Using Virtual Reality to Shape Humanity's Return to the Moon: Key Takeaways from a Design Study ( http://arxiv.org/abs/2303.00678v1 )

ライセンス: Link先を確認
Tommy Nilsson, Flavie Rometsch, Leonie Becker, Florian Dufresne, Paul de Medeiros, Enrico Guerra, Andrea E. M. Casini, Anna Vock, Florian Gaeremynck, Aidan Cowley(参考訳) 月面探査への関心が復活し、月面での人間の活動を支援する新しい世代の設計ソリューションが誕生した。 宇宙システム設計は伝統的にアナログ研究におけるプロトタイプの展開によって導かれてきたが、このアプローチの資源集約性は、ヒューマンコンピュータインタラクション(HCI)から有能なユーザ中心設計(UCD)手法の適用をほとんど妨げている。 本稿では,実験環境における類似研究をシミュレートするためにvr(virtual reality, vr)を利用する可能性について検討する。 欧州大型ロジスティクスランダーの開発が進行中であることから、我々はVRで月面運用シナリオを再現し、宇宙飛行士と宇宙の専門家のグループ(n=20)で評価した。 質的な結果から, UCDの促進, 効率的なコンテキスト探索, プロジェクトチームのコーディネーション向上にVRの有効性が示された。 我々は,月面システム設計におけるVRのさらなる活用に向けた今後の方向性を提案する。

Revived interest in lunar exploration is heralding a new generation of design solutions in support of human operations on the Moon. While space system design has traditionally been guided by prototype deployments in analogue studies, the resource-intensive nature of this approach has largely precluded application of proficient user-centered design (UCD) methods from human-computer interaction (HCI). This paper explores possible use of Virtual Reality (VR) to simulate analogue studies in lab settings and thereby bring to bear UCD in this otherwise engineering-dominated field. Drawing on the ongoing development of the European Large Logistics Lander, we have recreated a prospective lunar operational scenario in VR and evaluated it with a group of astronauts and space experts (n=20). Our qualitative findings demonstrate the efficacy of VR in facilitating UCD, enabling efficient contextual inquiries and improving project team coordination. We conclude by proposing future directions to further exploit VR in lunar systems design.
翻訳日:2023-03-02 13:52:14 公開日:2023-03-01
# テキスト分類におけるフェアネス評価:個人とグループフェアネスの機械学習実践者視点

Fairness Evaluation in Text Classification: Machine Learning Practitioner Perspectives of Individual and Group Fairness ( http://arxiv.org/abs/2303.00673v1 )

ライセンス: Link先を確認
Zahra Ashktorab, Benjamin Hoover, Mayank Agarwal, Casey Dugan, Werner Geyer, Hao Bang Yang, Mikhail Yurochkin(参考訳) アルゴリズムバイアスの緩和は、機械学習モデルの開発とデプロイにおいて重要なタスクである。 機械学習の実践者が公平な問題に対処するのを助けるためのツールキットはいくつか存在するが、モデルフェアネスを評価するための戦略や、特にテキスト分類の文脈において、その評価に影響を与える要因についてはほとんど知られていない。 モデルの公正性を評価する2つの一般的なアプローチは、グループフェアネスと個人フェアネスである。 機械学習実践者(n=24)を対象に,モデル評価の戦略を理解するための研究を行った。 実践者(グループ対個人公正)に提示されたメトリクスは、彼らが公正と考えるモデルに影響を与える。 参加者は、アイデンティティトークン操作に対する過小評価/過大予測とモデルの感度に関連するリスクに焦点を当てた。 個人的経験を含む公平性評価戦略や,モデルの公正性をテストするために,ユーザがアイデンティティトークンのグループをどのように形成するかを見いだす。 テキスト分類における公平性を評価するためのインタラクティブツールの提案を行う。

Mitigating algorithmic bias is a critical task in the development and deployment of machine learning models. While several toolkits exist to aid machine learning practitioners in addressing fairness issues, little is known about the strategies practitioners employ to evaluate model fairness and what factors influence their assessment, particularly in the context of text classification. Two common approaches of evaluating the fairness of a model are group fairness and individual fairness. We run a study with Machine Learning practitioners (n=24) to understand the strategies used to evaluate models. Metrics presented to practitioners (group vs. individual fairness) impact which models they consider fair. Participants focused on risks associated with underpredicting/overpredicting and model sensitivity relative to identity token manipulations. We discover fairness assessment strategies involving personal experiences or how users form groups of identity tokens to test model fairness. We provide recommendations for interactive tools for evaluating fairness in text classification.
翻訳日:2023-03-02 13:51:54 公開日:2023-03-01
# 多モード回路量子音響力学におけるフォノン-フォノン相互作用

Engineering phonon-phonon interactions in multimode circuit quantum acousto-dynamics ( http://arxiv.org/abs/2303.00730v1 )

ライセンス: Link先を確認
Uwe von L\"upke, Ines C. Rodrigues, Yu Yang, Matteo Fadel, Yiwen Chu(参考訳) 近年、ボゾンモードの大きなヒルベルト空間における量子情報の符号化と処理に向けて、顕著な進歩がなされている。 メカニカル共振器は、多くの高品質な因子モードを小さな体積に閉じ込め、多くの異なる量子システムと容易に統合できるため、この目的に非常に興味がある。 重要な課題は、異なるメカニカルモード間で直接相互作用を作ることである。 本稿では,高オーバトンバルク波共振器の複数のメカニカルモード間における波長可変ビームスプリッタ型相互作用について述べる。 エンジニアリングされた相互作用は、パラメトリック駆動の超伝導トランスモン量子ビットによって媒介され、ペアまたは三重音モードに合わせることができることを示す。 さらに、この相互作用を用いてフォノン間の香港・ウー・マンデル効果を実証する。 本研究は,音韻系を量子記憶と量子シミュレーションのためのプラットフォームとして用いる基礎を明らかにした。

In recent years, remarkable progress has been made towards encoding and processing quantum information in the large Hilbert space of bosonic modes. Mechanical resonators are of great interest for this purpose, since they confine many high quality factor modes into a small volume and can be easily integrated with many different quantum systems. An important yet challenging task is to create direct interactions between different mechanical modes. Here we demonstrate an in-situ tunable beam-splitter-type interaction between several mechanical modes of a high-overtone bulk acoustic wave resonator. The engineered interaction is mediated by a parametrically driven superconducting transmon qubit, and we show that it can be tailored to couple pairs or triplets of phononic modes. Furthermore, we use this interaction to demonstrate the Hong-Ou-Mandel effect between phonons. Our results lay the foundations for using phononic systems as quantum memories and platforms for quantum simulations.
翻訳日:2023-03-02 13:45:40 公開日:2023-03-01
# S_n$-equivariant $k$-body ゲートの普遍性について

On the universality of $S_n$-equivariant $k$-body gates ( http://arxiv.org/abs/2303.00728v1 )

ライセンス: Link先を確認
Sujay Kazi, Martin Larocca, M. Cerezo(参考訳) もしタスクが対称性($\mathfrak{g}$ のグループによって与えられる)を示すなら、学習モデルはそのような対称性を尊重すべきである。 これは$\mathfrak{g}$-equivariant quantum neural networks (qnns) によってインスタンス化することができる。 しかし実際には、最大$k$ qubitsで動作できるなど、使用可能なゲートのタイプには追加の制限があるかもしれない。 本研究では,qnn生成器の対称性とk$-bodynessの相互作用が,対称群である$\mathfrak{g}=s_n$の特別な場合の表現性に与える影響について検討する。 この結果から,QNN が 1 と 2 の $S_n$-equivariant ゲートで生成される場合,QNN は半ユニバーサルであるが普遍的ではないことがわかった。 すなわち、QNNは不変部分空間において任意の特殊ユニタリ行列を生成できるが、それらの間の相対位相を制御できない。 そして、普遍性に到達するためには、(もし$n$が偶数なら)$n$-body generators($n-1)$-body generators($n$が奇数なら)を含める必要があることを示す。 その結果、同変QNNの能力と限界をよりよく理解する上で一歩近づいた。

The importance of symmetries has recently been recognized in quantum machine learning from the simple motto: if a task exhibits a symmetry (given by a group $\mathfrak{G}$), the learning model should respect said symmetry. This can be instantiated via $\mathfrak{G}$-equivariant Quantum Neural Networks (QNNs), i.e., parametrized quantum circuits whose gates are generated by operators commuting with a given representation of $\mathfrak{G}$. In practice, however, there might be additional restrictions to the types of gates one can use, such as being able to act on at most $k$ qubits. In this work we study how the interplay between symmetry and $k$-bodyness in the QNN generators affect its expressiveness for the special case of $\mathfrak{G}=S_n$, the symmetric group. Our results show that if the QNN is generated by one- and two-body $S_n$-equivariant gates, the QNN is semi-universal but not universal. That is, the QNN can generate any arbitrary special unitary matrix in the invariant subspaces, but has no control over the relative phases between them. Then, we show that in order to reach universality one needs to include $n$-body generators (if $n$ is even) or $(n-1)$-body generators (if $n$ is odd). As such, our results brings us a step closer to better understanding the capabilities and limitations of equivariant QNNs.
翻訳日:2023-03-02 13:45:25 公開日:2023-03-01
# OSRE:自転車駐車評価のためのオブジェクト間回転推定

OSRE: Object-to-Spot Rotation Estimation for Bike Parking Assessment ( http://arxiv.org/abs/2303.00725v1 )

ライセンス: Link先を確認
Saghir Alfasly, Zaid Al-huda, Saifullah Bello, Ahmed Elazab, Jian Lu, Chen Xu(参考訳) 現在の深層モデルは、オブジェクトの分類とローカライゼーションの観点で注目すべき物体検出を提供する。 しかしながら、入力画像の視覚的コンテキストにおける他の視覚オブジェクトに対するオブジェクトの回転の推定は、ローテーションアノテーション付きオブジェクトデータセットが利用できないため、深い研究が不足している。 本稿では,駐車エリアにおける駐車自転車の回転推定に関する2つの課題について考察する。 まず、3dグラフィックスのパワーを利用して、カメラに依存しない合成自転車回転データセット(synthbrset)を構築する。 次に,物体検出タスクを拡張し,自転車の回転を2軸でさらに後退させることにより,物体対スポット回転推定器(osre)を提案する。 我々のモデルは合成データに基づいて純粋に訓練されているので、実世界の画像にデプロイする際に画像平滑化技術を採用する。 提案するosreは合成データと実世界のデータで評価され,有望な結果が得られる。 我々のデータとコードは、 \href{https://github.com/saghiralfasly/OSRE-Project}{https://github.com/saghiralfasly/OSRE-Project}で利用可能です。

Current deep models provide remarkable object detection in terms of object classification and localization. However, estimating object rotation with respect to other visual objects in the visual context of an input image still lacks deep studies due to the unavailability of object datasets with rotation annotations. This paper tackles these two challenges to solve the rotation estimation of a parked bike with respect to its parking area. First, we leverage the power of 3D graphics to build a camera-agnostic well-annotated Synthetic Bike Rotation Dataset (SynthBRSet). Then, we propose an object-to-spot rotation estimator (OSRE) by extending the object detection task to further regress the bike rotations in two axes. Since our model is purely trained on synthetic data, we adopt image smoothing techniques when deploying it on real-world images. The proposed OSRE is evaluated on synthetic and real-world data providing promising results. Our data and code are available at \href{https://github.com/saghiralfasly/OSRE-Project}{https://github.com/saghiralfasly/OSRE-Project}.
翻訳日:2023-03-02 13:44:54 公開日:2023-03-01
# NMTの最適微調整のための語彙とBPE設定の体系的分析 : ドメイン内翻訳を事例として

A Systematic Analysis of Vocabulary and BPE Settings for Optimal Fine-tuning of NMT: A Case Study of In-domain Translation ( http://arxiv.org/abs/2303.00722v1 )

ライセンス: Link先を確認
J. Pourmostafa Roshan Sharami, D. Shterionov, P. Spronck(参考訳) ニューラルネットワーク翻訳(NMT)モデルの有効性は、トレーニングで使用される語彙に大きく依存している。 代名詞(SW)トークン化はこれらの問題を緩和するために成功している。 語彙とSWトークン化の選択は、トレーニングとNMTモデルの微調整の両方に重大な影響を与える。 微調整は新しいデータに関してmtモデルを最適化する一般的なプラクティスである。 しかし、新しいデータが新しい単語(またはトークン)をもたらす可能性があり、考慮されていない場合、最適化されないパフォーマンスにつながる可能性がある。 加えて、新しいデータ内のトークンの分布は、元のデータの分布とは異なる可能性がある。 したがって、元のswトークン化モデルは、新しいデータには適さない可能性がある。 本稿では,swトークン化と語彙生成の異なる戦略を,ドメイン特化モデルの微調整に最適な設定を明らかにするための究極の目標と比較する。 さらに,ベースラインよりも6点のBLEU点改善を達成できる複数のドメイン内モデルを構築した。

The effectiveness of Neural Machine Translation (NMT) models largely depends on the vocabulary used at training; small vocabularies can lead to out-of-vocabulary problems -- large ones, to memory issues. Subword (SW) tokenization has been successfully employed to mitigate these issues. The choice of vocabulary and SW tokenization has a significant impact on both training and fine-tuning an NMT model. Fine-tuning is a common practice in optimizing an MT model with respect to new data. However, new data potentially introduces new words (or tokens), which, if not taken into consideration, may lead to suboptimal performance. In addition, the distribution of tokens in the new data can differ from the distribution of the original data. As such, the original SW tokenization model could be less suitable for the new data. Through a systematic empirical evaluation, in this work we compare different strategies for SW tokenization and vocabulary generation with the ultimate goal to uncover an optimal setting for fine-tuning a domain-specific model. Furthermore, we developed several (in-domain) models, the best of which achieves 6 BLEU points improvement over the baseline.
翻訳日:2023-03-02 13:44:36 公開日:2023-03-01
# 相対表現のためのブートストラップ並列アンカー

Bootstrapping Parallel Anchors for Relative Representations ( http://arxiv.org/abs/2303.00721v1 )

ライセンス: Link先を確認
Irene Cannistraci, Luca Moschella, Valentino Maiorca, Marco Fumero, Antonio Norelli, Emanuele Rodol\`a(参考訳) 潜在埋め込みに対する相対表現の使用は、幅広いアプリケーションにわたって潜在空間通信とゼロショットモデルステッチを可能にする可能性を示している。 それにもかかわらず、相対表現は入力として与えられる一定の量の平行アンカーに依存しており、特定のシナリオでは実現不可能である。 この制限を克服するために,少数の種子から新たな並列アンカーを発見する最適化手法を提案する。 提案手法は,異なるドメイン間の意味的対応を見つけ,それらの相対空間を整列させ,複数のタスクにおいて競合的な結果が得られる。

The use of relative representations for latent embeddings has shown potential in enabling latent space communication and zero-shot model stitching across a wide range of applications. Nevertheless, relative representations rely on a certain amount of parallel anchors to be given as input, which can be impractical to obtain in certain scenarios. To overcome this limitation, we propose an optimization-based method to discover new parallel anchors from a limited number of seeds. Our approach can be used to find semantic correspondence between different domains, align their relative spaces, and achieve competitive results in several tasks.
翻訳日:2023-03-02 13:44:18 公開日:2023-03-01
# Visually Rich Documentsのためのクロスモーダルエンティティマッチング

Cross-Modal Entity Matching for Visually Rich Documents ( http://arxiv.org/abs/2303.00720v1 )

ライセンス: Link先を確認
Ritesh Sarkhel, Arnab Nandi(参考訳) 視覚的にリッチなドキュメント(VRD)は、視覚的手がかりを利用して意味を増強する物理的/デジタル文書である。 これらの文書に含まれる情報は、しばしば不完全である。 VRDの自動クエリを可能にする既存の作業は、この側面を考慮していない。 その結果、限られたクエリセットをサポートする。 本稿では、リレーショナルデータベースからタプルの集合を識別し、補足情報を備えた不完全なVRDを強化するマルチモーダルフレームワークであるJunoについて述べる。 ドキュメントタイプや基盤となるデータベーススキーマを事前に知ることなく、このクロスモーダルなエンティティマッチングタスクを実行する双方向注意を備えた、エンドツーエンドのトレーニング可能なニューラルネットワークです。 2つの異種データセットの発掘実験によると、JunoはF1スコアで最先端のベースラインを6%以上上回り、ワークフローにおける人的負担を80%以上削減している。 私たちの知る限りでは、VRDの不完全性を調査する最初の研究であり、シームレスに対処するための堅牢なフレームワークを提案しています。

Visually rich documents (VRD) are physical/digital documents that utilize visual cues to augment their semantics. The information contained in these documents are often incomplete. Existing works that enable automated querying on VRDs do not take this aspect into account. Consequently, they support a limited set of queries. In this paper, we describe Juno -- a multimodal framework that identifies a set of tuples from a relational database to augment an incomplete VRD with supplementary information. Our main contribution in this is an end-to-end-trainable neural network with bi-directional attention that executes this cross-modal entity matching task without any prior knowledge about the document type or the underlying database-schema. Exhaustive experiments on two heteroegeneous datasets show that Juno outperforms state-of-the-art baselines by more than 6% in F1-score, while reducing the amount of human-effort in its workflow by more than 80%. To the best of our knowledge, ours is the first work that investigates the incompleteness of VRDs and proposes a robust framework to address it in a seamless way.
翻訳日:2023-03-02 13:44:08 公開日:2023-03-01
# テーブル構造認識のためのベンチマークデータセットのアライメント

Aligning benchmark datasets for table structure recognition ( http://arxiv.org/abs/2303.00716v1 )

ライセンス: Link先を確認
Brandon Smock and Rohith Pesala and Robin Abraham(参考訳) テーブル構造認識(TSR)のためのベンチマークデータセットは、確実に注釈付けされるように慎重に処理する必要がある。 しかし、たとえデータセットのアノテーションが自己整合であるとしても、データセット間で大きな矛盾があり、トレーニングされたモデルのパフォーマンスを損なう可能性がある。 本研究では,これらのベンチマークの整合性を$\unicode{x2014}$removing both error and inconsistency between them$\unicode{x2014}$improves model performance。 これをデータ中心のアプローチで実証し、単一のモデルアーキテクチャであるテーブルトランスフォーマー(tatr)を採用して、全体にわたって固定しています。 ICDAR-2013ベンチマークで評価されたTATRの基準一致精度はPubTables-1Mで65%、FinTabNetで42%、組み合わせた69%である。 ICDAR-2013で評価したTATRの性能は, PubTables-1Mでのトレーニングでは75%, FinTabNetでのトレーニングでは65%, 合計で81%に向上した。 表アノテーションの正準化が性能に有意な影響を与えているような修正ステップをアブレーションすることで、他の選択肢がベンチマークデータセットの最終構成を決定する際に生じる必要なトレードオフとバランスをとることを示す。 全体として、我々の研究は、TSRや他のタスクのベンチマーク設計にも重大な影響があると信じています。 すべてのデータセット処理とトレーニングコードがリリースされる。

Benchmark datasets for table structure recognition (TSR) must be carefully processed to ensure they are annotated consistently. However, even if a dataset's annotations are self-consistent, there may be significant inconsistency across datasets, which can harm the performance of models trained and evaluated on them. In this work, we show that aligning these benchmarks$\unicode{x2014}$removing both errors and inconsistency between them$\unicode{x2014}$improves model performance significantly. We demonstrate this through a data-centric approach where we adopt a single model architecture, the Table Transformer (TATR), that we hold fixed throughout. Baseline exact match accuracy for TATR evaluated on the ICDAR-2013 benchmark is 65% when trained on PubTables-1M, 42% when trained on FinTabNet, and 69% combined. After reducing annotation mistakes and inter-dataset inconsistency, performance of TATR evaluated on ICDAR-2013 increases substantially to 75% when trained on PubTables-1M, 65% when trained on FinTabNet, and 81% combined. We show through ablations over the modification steps that canonicalization of the table annotations has a significantly positive effect on performance, while other choices balance necessary trade-offs that arise when deciding a benchmark dataset's final composition. Overall we believe our work has significant implications for benchmark design for TSR and potentially other tasks as well. All dataset processing and training code will be released.
翻訳日:2023-03-02 13:43:52 公開日:2023-03-01
# 視覚的位置認識のための相補性に基づくスイッチファウズシステム

A Complementarity-Based Switch-Fuse System for Improved Visual Place Recognition ( http://arxiv.org/abs/2303.00714v1 )

ライセンス: Link先を確認
Maria Waheed, Sania Waheed, Michael Milford, Klaus McDonald-Maier and Shoaib Ehsan(参考訳) 近年,視覚位置認識の問題を解決するために,融合とスイッチングに基づく手法がいくつか提案されている。 これらのシステムはVPRのパフォーマンスを著しく向上させるが、それぞれに独自の制限がある。 マルチプロセス融合システムは、通常、ブルート力を使用し、利用可能なすべてのVPRテクニックを同時に実行し、一方、スイッチング法は、与えられたクエリ画像に最適なVPRテクニックを選択するだけで、このプラクティスを無効にしようとする。 しかし、適切なテクニックが特定できない場合、スイッチングは失敗する。 革新的な解決策は、その欠点を否定しながら競争上の優位性を組み合わせるために、2つの異なるアプローチを融合させることである。 提案システムであるSwitch-Fuseは,相補性に基づくVPR技術スイッチングの堅牢性と,慎重に選択した手法を融合させて性能を著しく向上させる力の両立を図っている。 本システムでは, 基本核融合法に勝る構造を有しており, 単にすべてのランダムな手法を融合させるのではなく, まず, 核融合のための最良のVPR技術を選択するように構成されている。 このシステムは2つの重要なプロセス(VPR技法の切り替えと融合)を組み合わせることで、ハイブリッドモデルとしてPR曲線を用いて示される主要なVPRデータセットの性能を大幅に改善する。

Recently several fusion and switching based approaches have been presented to solve the problem of Visual Place Recognition. In spite of these systems demonstrating significant boost in VPR performance they each have their own set of limitations. The multi-process fusion systems usually involve employing brute force and running all available VPR techniques simultaneously while the switching method attempts to negate this practise by only selecting the best suited VPR technique for given query image. But switching does fail at times when no available suitable technique can be identified. An innovative solution would be an amalgamation of the two otherwise discrete approaches to combine their competitive advantages while negating their shortcomings. The proposed, Switch-Fuse system, is an interesting way to combine both the robustness of switching VPR techniques based on complementarity and the force of fusing the carefully selected techniques to significantly improve performance. Our system holds a structure superior to the basic fusion methods as instead of simply fusing all or any random techniques, it is structured to first select the best possible VPR techniques for fusion, according to the query image. The system combines two significant processes, switching and fusing VPR techniques, which together as a hybrid model substantially improve performance on all major VPR data sets illustrated using PR curves.
翻訳日:2023-03-02 13:43:23 公開日:2023-03-01
# 量子格子系における自由核子による一般固有状態熱化

General Eigenstate Thermalization via Free Cumulants in Quantum Lattice Systems ( http://arxiv.org/abs/2303.00713v1 )

ライセンス: Link先を確認
Silvia Pappalardi, Felix Fritzsch and Toma\v{z} Prosen(参考訳) ETH(Eigenstate-Thermalization-Hypothesis)は、量子統計力学を理解するための一般的な枠組みとして確立されている。 近年になって初めて、行列要素間の高次相関を考慮し、自由確率の言語を用いて理論的に合理化できるいわゆる一般化 eth に注目が集まっている。 本研究では,高次相関器から自由累積体への分解を検証し,局所的な相互作用を持つ物理多体系における一般化ETHの数値計算を行った。 局所的非可積分(カオス)量子多体系(スピンチェーンハミルトニアンとフロケットブリックワークユニタリ回路)の2つのクラスで正確な対角化を行う。 ETH が予測した 4 次自由累積において, 4 時間相関関数のダイナミクスが符号化されていることを示す。 その非自明な周波数依存は局所多体系の物理的性質を符号化し、ランダム行列の非構造的、回転不変なアンサンブルと区別する。

The Eigenstate-Thermalization-Hypothesis (ETH) has been established as the general framework to understand quantum statistical mechanics. Only recently has the attention been paid to so-called generalized ETH, which accounts for higher-order correlations among matrix elements, and that can be rationalized theoretically using the language of Free Probability. In this work, we perform the first numerical investigation of generalized ETH in physical many-body systems with local interactions by testing the decomposition of higher-order correlators into free cumulants. We perform exact diagonalization on two classes of local non-integrable (chaotic) quantum many-body systems: spin chain Hamiltonians and Floquet brickwork unitary circuits. We show that the dynamics of four-time correlation functions are encoded in fourth-order free cumulants, as predicted by ETH. Their non-trivial frequency dependence encodes the physical properties of local many-body systems and distinguishes them from structureless, rotationally invariant ensembles of random matrices.
翻訳日:2023-03-02 13:43:03 公開日:2023-03-01
# StraIT:Stratified Image Transformerを用いた非自己回帰生成

StraIT: Non-autoregressive Generation with Stratified Image Transformer ( http://arxiv.org/abs/2303.00750v1 )

ライセンス: Link先を確認
Shengju Qian, Huiwen Chang, Yuanzhen Li, Zizhao Zhang, Jiaya Jia, Han Zhang(参考訳) 既存の自己回帰(AR)や拡散モデル(DM)よりも高品質な画像合成において優位性を示す純非自己回帰(NAR)生成モデルであるStratified Image Transformer(StraIT)を提案する。 既存の視覚トークン化装置における視覚特性の過小評価とは対照的に,画像の階層性を利用して,視覚トークンを創発特性を持つ階層化レベルに符号化する。 相互接続されたトークンペアを得る画像階層化により,モデル化の難しさを軽減し,NARモデルの生成能力を高める。 実験の結果,StraIT は既存の DM 法および AR 法を高速に向上し,画像ネット上の 256*256 解像度の FID スコア3.96 をサンプリングや補助画像分類器のガイダンスを使わずに達成できることがわかった。 分類器フリーガイダンスを装備すると、FIDは3.36、ISは259.3となる。 さらに、StraIT生成の疎結合モデリングプロセスを説明し、ドメイン転送を含むアプリケーションにその魅力的な特性を示す。

We propose Stratified Image Transformer(StraIT), a pure non-autoregressive(NAR) generative model that demonstrates superiority in high-quality image synthesis over existing autoregressive(AR) and diffusion models(DMs). In contrast to the under-exploitation of visual characteristics in existing vision tokenizer, we leverage the hierarchical nature of images to encode visual tokens into stratified levels with emergent properties. Through the proposed image stratification that obtains an interlinked token pair, we alleviate the modeling difficulty and lift the generative power of NAR models. Our experiments demonstrate that StraIT significantly improves NAR generation and out-performs existing DMs and AR methods while being order-of-magnitude faster, achieving FID scores of 3.96 at 256*256 resolution on ImageNet without leveraging any guidance in sampling or auxiliary image classifiers. When equipped with classifier-free guidance, our method achieves an FID of 3.36 and IS of 259.3. In addition, we illustrate the decoupled modeling process of StraIT generation, showing its compelling properties on applications including domain transfer.
翻訳日:2023-03-02 13:36:36 公開日:2023-03-01
# s-nerf: ストリートビューのためのニューラルラミアンスフィールド

S-NeRF: Neural Radiance Fields for Street Views ( http://arxiv.org/abs/2303.00749v1 )

ライセンス: Link先を確認
Ziyang Xie, Junge Zhang, Wenye Li, Feihu Zhang, Li Zhang(参考訳) neural radiance fields(nerfs)は、オブジェクト中心のカメラビューが重なり合うことから、オブジェクトとシーンの新しいビューを合成することを目的としている。 しかし、このパラダイムは、大規模な無制限シーンから多くの自動運転車が収集したストリートビューの性質に合わないと仮定している。 また、オンボードカメラは重なりを伴わずにシーンを知覚する。 したがって、既存のNeRFは、ストリートビュー合成において、しばしばぼやけや「フローター」などのアーティファクトを生成する。 本稿では,大規模背景シーンと前景移動車両の両面を協調的に合成する新しいストリートビューNeRF(S-NeRF)を提案する。 具体的には、シーンのパラメータ化関数を改善し、カメラはストリートビューからより優れたニューラルネットワーク表現を学習する。 また、ノイズと疎度のLiDAR点を用いてトレーニングを強化し、頑健な幾何学と再投射に基づく信頼度を学習し、奥行きの外れに対処する。 さらに,従来のNRFでは実現不可能な移動車両の再構築のために,S-NeRFを拡張した。 大規模な運転データセット(例えば nuScenes や Waymo など)に関する詳細な実験により、我々の手法は、ストリートビュー合成における平均二乗誤差の7%から40%を減らし、移動車レンダリングのPSNRゲインを45%減らし、最先端のライバルに勝っていることが示された。

Neural Radiance Fields (NeRFs) aim to synthesize novel views of objects and scenes, given the object-centric camera views with large overlaps. However, we conjugate that this paradigm does not fit the nature of the street views that are collected by many self-driving cars from the large-scale unbounded scenes. Also, the onboard cameras perceive scenes without much overlapping. Thus, existing NeRFs often produce blurs, 'floaters' and other artifacts on street-view synthesis. In this paper, we propose a new street-view NeRF (S-NeRF) that considers novel view synthesis of both the large-scale background scenes and the foreground moving vehicles jointly. Specifically, we improve the scene parameterization function and the camera poses for learning better neural representations from street views. We also use the the noisy and sparse LiDAR points to boost the training and learn a robust geometry and reprojection based confidence to address the depth outliers. Moreover, we extend our S-NeRF for reconstructing moving vehicles that is impracticable for conventional NeRFs. Thorough experiments on the large-scale driving datasets (e.g., nuScenes and Waymo) demonstrate that our method beats the state-of-the-art rivals by reducing 7% to 40% of the mean-squared error in the street-view synthesis and a 45% PSNR gain for the moving vehicles rendering.
翻訳日:2023-03-02 13:36:13 公開日:2023-03-01
# 画像復元のための画像階層の効率的かつ明示的なモデリング

Efficient and Explicit Modelling of Image Hierarchies for Image Restoration ( http://arxiv.org/abs/2303.00748v1 )

ライセンス: Link先を確認
Yawei Li, Yuchen Fan, Xiaoyu Xiang, Denis Demandolx, Rakesh Ranjan, Radu Timofte, Luc Van Gool(参考訳) 本研究の目的は,画像復元のためのグローバル,地域,地域範囲の画像階層を効率的かつ明示的にモデル化するメカニズムを提案することである。 そこで本研究では,自然画像の2つの重要な特性であるクロススケール類似性と異方性画像の特徴を解析した。 そこで本研究では,自己着脱の時間的複雑さと地域範囲を超えたモデリング能力のバランスを両立させるアンカー付きストライプ自己着脱を提案する。 そこで我々は,Global, Regional, Local Rangeにおける画像階層を,アンカー付きストライプ自己アテンション,ウインドウ自己アテンション,チャネルアテンション強化畳み込みにより明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。 最後に,提案ネットワークを7種類の画像復元型に適用し,実環境と合成環境の両方をカバーする。 提案手法は, それらの新しい現状を定めている。 コードはhttps://github.com/ofsoundof/GRL-Image-Restoration.gitで入手できる。

The aim of this paper is to propose a mechanism to efficiently and explicitly model image hierarchies in the global, regional, and local range for image restoration. To achieve that, we start by analyzing two important properties of natural images including cross-scale similarity and anisotropic image features. Inspired by that, we propose the anchored stripe self-attention which achieves a good balance between the space and time complexity of self-attention and the modelling capacity beyond the regional range. Then we propose a new network architecture dubbed GRL to explicitly model image hierarchies in the Global, Regional, and Local range via anchored stripe self-attention, window self-attention, and channel attention enhanced convolution. Finally, the proposed network is applied to 7 image restoration types, covering both real and synthetic settings. The proposed method sets the new state-of-the-art for several of those. Code will be available at https://github.com/ofsoundof/GRL-Image-Restoration.git.
翻訳日:2023-03-02 13:35:46 公開日:2023-03-01
# リアルな感情制御可能な音声駆動アバター

READ Avatars: Realistic Emotion-controllable Audio Driven Avatars ( http://arxiv.org/abs/2303.00744v1 )

ライセンス: Link先を確認
Jack Saunders, Vinay Namboodiri(参考訳) 本研究では,音声入力によって駆動される2次元アバターを生成する3dアプローチであるread avatarsを提案する。 従来の手法では、音声から表現マッピングへの多対多の性質のため、現実的なアニメーションを達成できない。 我々は,音声対表現生成プロセスにおける敵意的損失を導入することにより,この問題を緩和する。 これは回帰モデルによる滑らかな効果を排除し、生成されたアバターの現実性と表現性を改善するのに役立つ。 さらに、音声は口内を発生させる際に直接活用されるべきであり、他の3Dベースの手法はそれを試みない。 我々は、解像度に依存しない音声条件付きニューラルテクスチャでこの問題に対処する。 提案手法の性能を評価するため,ユーザスタディを含む定量的,定性的な実験を行った。 また,生成したアバター内で俳優の感情がいかによく再現されているかを比較するための新しい指標を提案する。 以上の結果から,本手法は複数の測定値にまたがって,artオーディオ駆動アバター生成手法に勝ることが示された。 デモビデオは \url{https://youtu.be/QSyMl3vV0pA} で見ることができる。

We present READ Avatars, a 3D-based approach for generating 2D avatars that are driven by audio input with direct and granular control over the emotion. Previous methods are unable to achieve realistic animation due to the many-to-many nature of audio to expression mappings. We alleviate this issue by introducing an adversarial loss in the audio-to-expression generation process. This removes the smoothing effect of regression-based models and helps to improve the realism and expressiveness of the generated avatars. We note furthermore, that audio should be directly utilized when generating mouth interiors and that other 3D-based methods do not attempt this. We address this with audio-conditioned neural textures, which are resolution-independent. To evaluate the performance of our method, we perform quantitative and qualitative experiments, including a user study. We also propose a new metric for comparing how well an actor's emotion is reconstructed in the generated avatar. Our results show that our approach outperforms state of the art audio-driven avatar generation methods across several metrics. A demo video can be found at \url{https://youtu.be/QSyMl3vV0pA}
翻訳日:2023-03-02 13:35:27 公開日:2023-03-01
# 平面内磁場によるツイスト二層グラフェンのディラック点

Dirac points for twisted bilayer graphene with in-plane magnetic field ( http://arxiv.org/abs/2303.00743v1 )

ライセンス: Link先を確認
Simon Becker and Maciej Zworski(参考訳) 平面内磁場が一定である二層グラフェン(TBG)のキラルモデルのディラック点について検討した。 固定された小さな磁場では、ねじれの角度が魔法の角度によって異なるため、ディラック点が k, k' $ point と $ \gamma $ point の間を移動する。 ディラックはゼロ磁場と非マジック角を K$ と $K'$ で表すが、非ゼロ磁場と近接魔法角の存在下では、それらは $ \Gamma $ で表す。 磁場の特殊方向については、ねじれ角度が変化するにつれてディラック点が移動し、直線に沿って直交し、区別点で直交することを示す。 分岐点において、融合したディラック点の線形分散関係は消失し、二次帯域交差点(QBCP)を示す。 結果は、興味深い追加構造を示すアニメーションへのリンクによって説明される。

We study Dirac points of the chiral model of twisted bilayer graphene (TBG) with constant in-plane magnetic field. For a fixed small magnetic field, we show that as the angle of twisting varies between magic angles, the Dirac points move between $ K, K' $ points and the $ \Gamma $ point. The Dirac points for zero magnetic field and non magic angles lie at $ K $ and $ K'$, while in the presence of a non-zero magnetic field and near magic angles, they lie near the $ \Gamma $ point. For special directions of the magnetic field, we show that the Dirac points move, as the twisting angle varies, along straight lines and bifurcate orthogonally at distinguished points. At the bifurcation points, the linear dispersion relation of the merging Dirac points disappears and exhibit a quadratic band crossing point (QBCP). The results are illustrated by links to animations suggesting interesting additional structure.
翻訳日:2023-03-02 13:35:08 公開日:2023-03-01
# チャンスとは何か? 微分プライバシーにおけるepsilonパラメータの説明

What Are the Chances? Explaining the Epsilon Parameter in Differential Privacy ( http://arxiv.org/abs/2303.00738v1 )

ライセンス: Link先を確認
Priyanka Nanayakkara, Mary Anne Smart, Rachel Cummings, Gabriel Kaptchuk, Elissa Redmiles(参考訳) 差分プライバシー(英: Differential privacy、DP)とは、政府や産業にまたがる数学的プライバシーの概念である。 dp では、プライバシ保護は確率的であり、プライバシ予算パラメータ $\epsilon$ によって制限される。 健康と計算科学の先行研究は、人々が確率的リスクについて理屈に苦しむことを発見した。 しかし、データに貢献する人々に$\epsilon$という意味を伝えることは、無意味なプライバシー保護を意味のあるものとして示すプライバシシアターの回避と、よりインフォームドなデータ共有決定の権限を与える上で不可欠である。 リスクコミュニケーションとユーザビリティのベストプラクティスに基づいて,確率的DP保証をエンドユーザーに伝達する3つの手法を開発した。 対象リスク理解,DP保証の主観的プライバシ理解,自己効力感の3つの指標を用いて,これらの説明方法を定量的に評価した。 その結果,オッズに基づく説明手法は,(1)出力に基づく手法や(2)$\epsilon$に関する情報を収集する最先端の手法よりも有効であることが判明した。 さらに、$\epsilon$に関する情報を提供する場合、回答者は、最先端のDP説明で提示されるよりも、自分のデータを積極的に共有する。

Differential privacy (DP) is a mathematical privacy notion increasingly deployed across government and industry. With DP, privacy protections are probabilistic: they are bounded by the privacy budget parameter, $\epsilon$. Prior work in health and computational science finds that people struggle to reason about probabilistic risks. Yet, communicating the implications of $\epsilon$ to people contributing their data is vital to avoiding privacy theater -- presenting meaningless privacy protection as meaningful -- and empowering more informed data-sharing decisions. Drawing on best practices in risk communication and usability, we develop three methods to convey probabilistic DP guarantees to end users: two that communicate odds and one offering concrete examples of DP outputs. We quantitatively evaluate these explanation methods in a vignette survey study ($n=963$) via three metrics: objective risk comprehension, subjective privacy understanding of DP guarantees, and self-efficacy. We find that odds-based explanation methods are more effective than (1) output-based methods and (2) state-of-the-art approaches that gloss over information about $\epsilon$. Further, when offered information about $\epsilon$, respondents are more willing to share their data than when presented with a state-of-the-art DP explanation; this willingness to share is sensitive to $\epsilon$ values: as privacy protections weaken, respondents are less likely to share data.
翻訳日:2023-03-02 13:34:52 公開日:2023-03-01
# 光準結晶中の2次元ボースガラスの観察

Observing the two-dimensional Bose glass in an optical quasicrystal ( http://arxiv.org/abs/2303.00737v1 )

ライセンス: Link先を確認
Jr-Chiun Yu, Shaurya Bhave, Lee Reeve, Bo Song, Ulrich Schneider(参考訳) 障害と相互作用の複合効果は凝縮物質物理学の豊かさの中心であり、不安定なボゾン系のボースガラス相のような新しい量子状態につながる。 本稿では,8次元対称準結晶光学格子における超低温原子を用いた2次元ボースガラスの実験的実現について報告する。 系のコヒーレンス特性を探索することにより、ボースガラスを超流動遷移に観察し、弱い相互作用状態の位相図をマッピングする。 さらに,コヒーレンスを回復する能力を調べることにより,ボースガラスの非エルゴード性を明らかにする。 我々の観測は、最近の量子モンテカルロ予想とよく一致しており、ボースガラス、多体局在、ガラス力学との接続を実験的にテストする方法を舗装している。

The combined effect of disorder and interactions is central to the richness of condensed matter physics and can lead to novel quantum states such as the Bose glass phase in disordered bosonic systems. Here, we report on the experimental realisation of the two-dimensional Bose glass using ultra-cold atoms in an eight-fold symmetric quasicrystalline optical lattice. By probing the coherence properties of the system, we observe a Bose glass to superfluid transition and map out the phase diagram in the weakly interacting regime. Moreover, we reveal the non-ergodic nature of the Bose glass by probing the capability to restore coherence. Our observations are in good agreement with recent quantum Monte Carlo predictions and pave the way for experimentally testing the connection between the Bose glass, many-body localisation, and glassy dynamics more generally.
翻訳日:2023-03-02 13:34:26 公開日:2023-03-01
# DOTE:(予測的な)WANトラフィックエンジニアリングの再考

DOTE: Rethinking (Predictive) WAN Traffic Engineering ( http://arxiv.org/abs/2303.00735v1 )

ライセンス: Link先を確認
Yarin Perry (1), Felipe Vieira Frujeri (2), Chaim Hoch (1), Srikanth Kandula (2), Ishai Menache (2), Michael Schapira (1), Aviv Tamar (3) ((1) Hebrew University of Jerusalem, (2) Microsoft Research, (3) Technion)(参考訳) 広域ネットワーク(WAN)における交通工学の新しい設計点について検討し,交通需要に関する履歴データのみを用いて,WAN上での交通流を直接最適化する。 これにより、将来の要求を明示的に見積もるか、予測する必要がなくなる。 本手法は確率的最適化を応用し,十分に検討された理論モデルにおいて大域的最適に収束する。 私たちは大規模なWANや現実世界のトラフィックにスケールするためにディープラーニングを採用しています。 実世界のトラフィックとネットワークトポロジに対する我々の広範な実証的な評価は、我々のアプローチのTE品質が(実現不可能な)全能のオラクルの品質とほぼ一致し、これまで提案されていたアプローチよりも優れ、ランタイムを大幅に低下させることを証明している。

We explore a new design point for traffic engineering on wide-area networks (WANs): directly optimizing traffic flow on the WAN using only historical data about traffic demands. Doing so obviates the need to explicitly estimate, or predict, future demands. Our method, which utilizes stochastic optimization, provably converges to the global optimum in well-studied theoretical models. We employ deep learning to scale to large WANs and real-world traffic. Our extensive empirical evaluation on real-world traffic and network topologies establishes that our approach's TE quality almost matches that of an (infeasible) omniscient oracle, outperforming previously proposed approaches, and also substantially lowers runtimes.
翻訳日:2023-03-02 13:34:12 公開日:2023-03-01
# speechprompt v2: 音声分類タスクのためのプロンプトチューニング

SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks ( http://arxiv.org/abs/2303.00733v1 )

ライセンス: Link先を確認
Kai-Wei Chang, Yu-Kai Wang, Hua Shen, Iu-thing Kang, Wei-Cheng Tseng, Shang-Wen Li, Hung-yi Lee(参考訳) プロンプトチューニングは、小さなパラメータセットをチューニングして、学習済み言語モデル(lm)を操り、下流タスクの出力を直接生成する技術である。 近年,自然言語処理(NLP)と音声処理の両方において,その記憶効率と計算効率が実証されている。 これらの利点は、複数のタスクに対して事前訓練されたLMを統一的に提供するための候補として、即時チューニングも明らかにしている。 音声処理において, speechpromptはいくつかの音声分類タスクにおいて高いパラメータ効率と競合性を示す。 しかし、SpeechPromptが多数のタスクを処理できるかどうかは未解決である。 本研究では,複数の言語と韻律関連タスクをカバーする,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。 実験の結果,speechprompt v2は0.15m未満の学習可能なパラメータを持つ先行処理と同等の性能を実現していることがわかった。

Prompt tuning is a technology that tunes a small set of parameters to steer a pre-trained language model (LM) to directly generate the output for downstream tasks. Recently, prompt tuning has demonstrated its storage and computation efficiency in both natural language processing (NLP) and speech processing fields. These advantages have also revealed prompt tuning as a candidate approach to serving pre-trained LM for multiple tasks in a unified manner. For speech processing, SpeechPrompt shows its high parameter efficiency and competitive performance on a few speech classification tasks. However, whether SpeechPrompt is capable of serving a large number of tasks is unanswered. In this work, we propose SpeechPrompt v2, a prompt tuning framework capable of performing a wide variety of speech classification tasks, covering multiple languages and prosody-related tasks. The experiment result shows that SpeechPrompt v2 achieves performance on par with prior works with less than 0.15M trainable parameters in a unified framework.
翻訳日:2023-03-02 13:33:59 公開日:2023-03-01
# R-U-SURE? ランダムユーザの意図を最大化することによる不確実性認識コードの提案

R-U-SURE? Uncertainty-Aware Code Suggestions By Maximizing Utility Across Random User Intents ( http://arxiv.org/abs/2303.00732v1 )

ライセンス: Link先を確認
Daniel D. Johnson, Daniel Tarlow, Christian Walder(参考訳) 大きな言語モデルは、コードのような構造化されたテキストを予測するのに印象的な結果を示すが、一般的にはエラーや幻覚を出力に導入する。 ソフトウェア開発者を支援するために使用される場合、これらのモデルは、ユーザーが戻って修正しなければならないミスを犯すかもしれません。 本稿では,目標条件付きユーティリティの意思決定理論モデルに基づく不確実性認識提案手法である不確実性領域(r-u-sure)のランダム化ユーティリティ駆動合成を提案する。 本手法は,任意の生成モデルとオプションastパーサへのサンプルアクセスのみを与えられた場合,構造化不確実性サマリーを効率的に生成するために,最小ベイズ・リスク復号,二重分解,決定ダイアグラムを組み合わせる。 3つの開発者支援タスクについてR-U-SUREを実演し、モデルを再トレーニングすることなく異なるユーザインタラクションパターンを適用することができることを示す。

Large language models show impressive results at predicting structured text such as code, but also commonly introduce errors and hallucinations in their output. When used to assist software developers, these models may make mistakes that users must go back and fix, or worse, introduce subtle bugs that users may miss entirely. We propose Randomized Utility-driven Synthesis of Uncertain REgions (R-U-SURE), an approach for building uncertainty-aware suggestions based on a decision-theoretic model of goal-conditioned utility, using random samples from a generative model as a proxy for the unobserved possible intents of the end user. Our technique combines minimum-Bayes-risk decoding, dual decomposition, and decision diagrams in order to efficiently produce structured uncertainty summaries, given only sample access to an arbitrary generative model of code and an optional AST parser. We demonstrate R-U-SURE on three developer-assistance tasks, and show that it can be applied different user interaction patterns without retraining the model and leads to more accurate uncertainty estimates than token-probability baselines.
翻訳日:2023-03-02 13:33:42 公開日:2023-03-01
# 転校学習における事前学習データの役割

The Role of Pre-training Data in Transfer Learning ( http://arxiv.org/abs/2302.13602v2 )

ライセンス: Link先を確認
Rahim Entezari, Mitchell Wortsman, Olga Saukh, M.Moein Shariatnia, Hanie Sedghi, Ludwig Schmidt(参考訳) モデルの事前学習とその後の微調整のトランスファー学習パラダイムは、高い精度のモデルを生み出す。 ほとんどの研究は、転校学習の恩恵を受けるために、事前トレーニングサイズのスケーリングを推奨しているが、疑問は残る: 事前トレーニングに使用するデータとメソッドは何か? 本研究では,3つの事前学習法(教師あり,コントラスト的言語画像と画像画像),7つの事前学習データセット,9つの下流データセットを用いて,プリトレーニングデータ分布がマイトショットおよびフル微調整性能に与える影響について検討した。 広範に制御された実験により,事前学習したデータソースの選択はわずかな転送には不可欠であるが,より詳細なチューニングが可能なデータが増えるにつれてその役割は減少することがわかった。 さらに,データキュレーションの役割について検討し,ラベルノイズと事前学習データセットのサイズとのトレードオフを検討する。 LAIONから2000X以上の事前学習データを使用することで、教師付きImageNet事前学習のパフォーマンスにマッチすることがわかった。 さらに,事前学習手法の効果について検討し,言語画像のコントラストと画像画像のコントラストの比較を行い,後者が下流の精度の向上につながることを確認した。

The transfer learning paradigm of model pre-training and subsequent fine-tuning produces high-accuracy models. While most studies recommend scaling the pre-training size to benefit most from transfer learning, a question remains: what data and method should be used for pre-training? We investigate the impact of pre-training data distribution on the few-shot and full fine-tuning performance using 3 pre-training methods (supervised, contrastive language-image and image-image), 7 pre-training datasets, and 9 downstream datasets. Through extensive controlled experiments, we find that the choice of the pre-training data source is essential for the few-shot transfer, but its role decreases as more data is made available for fine-tuning. Additionally, we explore the role of data curation and examine the trade-offs between label noise and the size of the pre-training dataset. We find that using 2000X more pre-training data from LAION can match the performance of supervised ImageNet pre-training. Furthermore, we investigate the effect of pre-training methods, comparing language-image contrastive vs. image-image contrastive, and find that the latter leads to better downstream accuracy
翻訳日:2023-03-02 11:47:00 公開日:2023-03-01
# 深部ニューラルネットワークにおけるダブルディフレージング

Dodging the Double Descent in Deep Neural Networks ( http://arxiv.org/abs/2302.13259v2 )

ライセンス: Link先を確認
Victor Qu\'etu and Enzo Tartaglione(参考訳) ディープラーニングモデルの最適サイズを見つけることは、特に省エネスキームにおいて、非常に現実的で幅広い影響を与える。 最近になって,予期せぬ現象である‘二重降下’が,ディープラーニングコミュニティの注目を集めている。 モデルのサイズが大きくなると、まずパフォーマンスが悪化し、その後は改善に戻ります。 これは、高一般化を維持するために最適なモデルのサイズに関する深刻な疑問を提起する: モデルは十分に過度にパラメータ化する必要があるが、パラメータが多すぎるとトレーニングリソースが浪費される。 効果的な方法で、最良のトレードオフを見つけることは可能か? 本研究は,学習問題の適切な条件付けによって二重降下現象を回避できる可能性を示唆するが,最終的な答えは見当たらない。 我々は、単純な$\ell_2$正則化が既にそのような観点に肯定的な貢献をしているので、適切な正則化を持つ複素シナリオにおいて二重降下が期待されていることを実証的に観察する。

Finding the optimal size of deep learning models is very actual and of broad impact, especially in energy-saving schemes. Very recently, an unexpected phenomenon, the ``double descent'', has caught the attention of the deep learning community. As the model's size grows, the performance gets first worse, and then goes back to improving. It raises serious questions about the optimal model's size to maintain high generalization: the model needs to be sufficiently over-parametrized, but adding too many parameters wastes training resources. Is it possible to find, in an efficient way, the best trade-off? Our work shows that the double descent phenomenon is potentially avoidable with proper conditioning of the learning problem, but a final answer is yet to be found. We empirically observe that there is hope to dodge the double descent in complex scenarios with proper regularization, as a simple $\ell_2$ regularization is already positively contributing to such a perspective.
翻訳日:2023-03-02 11:46:13 公開日:2023-03-01
# 4D作業予測のプロキシとしてのポイントクラウド予測

Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting ( http://arxiv.org/abs/2302.13130v2 )

ライセンス: Link先を確認
Tarasha Khurana, Peiyun Hu, David Held, Deva Ramanan(参考訳) 将来どのように世界が進化するかを予測することは、自律システムにおける運動計画に不可欠である。 従来の手法は、セマンティッククラスラベル、バウンディングボックス、都市のトラックやhdマップといった、コストのかかる人間のアノテーションに依存して動作を計画しているため、大きなラベルのないデータセットにスケールするのは困難である。 有望な自己管理タスクの1つは、注釈のないLiDARシーケンスからの3Dポイントクラウド予測である。 本課題は,(1)センサ外在物(自動運転車の移動),(2)センサ内在物(特定のLiDARセンサに特有のサンプリングパターン),(3)シーン内の他の物体の形状と動きを暗黙的に捉えるアルゴリズムを必要とすることを示す。 しかし自律システムは、センサーではなく、世界の予測を行うべきだ。 この目的のために,(1)と(2)を時空(4D)占有率予測の1つとして再放送することで決定する。 しかし、4Dの接地にはコストがかかるため、4Dの接地予測から4Dの接地予測からポイントクラウドデータを描画し、無意味なLiDARシーケンスで占有アルゴリズムを訓練し、テストすることができる。 これにより、さまざまなデータセット、センサー、車両間でポイントクラウド予測アルゴリズムを評価し、比較することができる。

Predicting how the world can evolve in the future is crucial for motion planning in autonomous systems. Classical methods are limited because they rely on costly human annotations in the form of semantic class labels, bounding boxes, and tracks or HD maps of cities to plan their motion and thus are difficult to scale to large unlabeled datasets. One promising self-supervised task is 3D point cloud forecasting from unannotated LiDAR sequences. We show that this task requires algorithms to implicitly capture (1) sensor extrinsics (i.e., the egomotion of the autonomous vehicle), (2) sensor intrinsics (i.e., the sampling pattern specific to the particular LiDAR sensor), and (3) the shape and motion of other objects in the scene. But autonomous systems should make predictions about the world and not their sensors. To this end, we factor out (1) and (2) by recasting the task as one of spacetime (4D) occupancy forecasting. But because it is expensive to obtain ground-truth 4D occupancy, we render point cloud data from 4D occupancy predictions given sensor extrinsics and intrinsics, allowing one to train and test occupancy algorithms with unannotated LiDAR sequences. This also allows one to evaluate and compare point cloud forecasting algorithms across diverse datasets, sensors, and vehicles.
翻訳日:2023-03-02 11:45:55 公開日:2023-03-01
# シナリオと分岐点が未来のマシンインテリジェンスへ

Scenarios and branch points to future machine intelligence ( http://arxiv.org/abs/2302.14478v2 )

ライセンス: Link先を確認
Koichi Takahashi(参考訳) 我々は、将来のマシンインテリジェンスに関する4つの主要な結果に対するシナリオと分岐点について議論する。 1) 第一および唯一の超知能が決定的な戦略的優位性を得るシングルトンシナリオ。 2 シングルトンシナリオが技術的に否定されるのではなく、人間の社会における政治的その他の要因、または知的エージェント間のマルチエージェント相互作用が単一のエージェントが決定的な戦略的優位性を得るのを妨げる多極性シナリオ。 3)シングルトンシナリオが否定され,多数の自律型知的エージェントが相互依存的かつ事実上停止不能な方法で運用されるエコシステムシナリオ 4) 人間の設計した知的エージェントやその子孫によって達成される認知能力が本質的に人間以下のレベルに限定される上界シナリオ。 1)自律性の制約,(2)自己構造を改善する能力の制約,(3)熱力学の効率に関する制約,(4)物理的なインフラの更新に関する制約,(5)相対的な優位性に対する制約,(6)局所性に対する制約,である。

We discuss scenarios and branch points to four major possible consequences regarding future machine intelligence; 1) the singleton scenario where the first and only super-intelligence acquires a decisive strategic advantage, 2) the multipolar scenario where the singleton scenario is not technically denied but political or other factors in human society or multi-agent interactions between the intelligent agents prevent a single agent from gaining a decisive strategic advantage, 3) the ecosystem scenario where the singleton scenario is denied and many autonomous intelligent agents operate in such a way that they are interdependent and virtually unstoppable, and 4) the upper-bound scenario where cognitive capabilities that can be achieved by human-designed intelligent agents or their descendants are inherently limited to the sub-human level. We identify six major constraints that can form branch points to these scenarios; (1) constraints on autonomy, (2) constraints on the ability to improve self-structure, (3) constraints related to thermodynamics efficiency, (4) constraints on updating physical infrastructure, (5) constraints on relative advantage, and (6) constraints on locality.
翻訳日:2023-03-02 11:38:49 公開日:2023-03-01
# Mesh-SORT: 位置対応トラッカーのシンプルで効果的

Mesh-SORT: Simple and effective of location-wise tracker ( http://arxiv.org/abs/2302.14415v2 )

ライセンス: Link先を確認
ZongTan Li(参考訳) 近年,トラヒックやパーソナライズ検出の応用の可能性から,マルチオブジェクトトラッキング(mot)が注目されている。 ほとんどのトラッキングシナリオでは、オブジェクトは移動し、特定の場所で失われる傾向があります。 そこで我々は,これらの領域を識別し,対象とする追跡と関連付けのための異なる戦略を提案する。 さらに、検出による追跡は、不正確な境界ボックスなど、検出器のエラーによって影響を受ける可能性があることに注意する。 これに対応するために、失われたオブジェクトを扱うための堅牢な戦略と、失われたトラックレット管理の3つの改善を含む検出による追跡のための位置対応手法を提案する。 Mesh-SORTの結果、オリジナルのフレームのメッシュ分割を提供し、差別化のための戦略を適用する。 実験では、私たちのアプローチの可能性とそれがベースラインにもたらす改善が示されています。

In recent years, Multi-Object Tracking (MOT) has gained increased attention due to its potential applications in traffic and person detection. We have observed that in most tracking scenarios, objects tend to move and be lost within specific locations. To address this, we propose different strategies for tracking and association that can identify and target these regions. Additionally, we note that tracking by detection may be impacted by errors in the detector, such as an imprecise bounding box. To counter this, we present a robust strategy for dealing with lost objects, as well as a location-wise method for tracking by detection that includes three improvements in lost tracklet management. Resulting Mesh-SORT, it gives mesh division for the original frame, and applying strategies for differentiation. Experiments demonstrate the potential of our approach and the improvements it provides over the baseline.
翻訳日:2023-03-02 11:38:31 公開日:2023-03-01
# グループ活動認識のための知識拡張関係推論

Knowledge Augmented Relation Inference for Group Activity Recognition ( http://arxiv.org/abs/2302.14350v2 )

ライセンス: Link先を確認
Xianglong Lang, Zhuming Wang, Zun Li, Meng Tian, Ge Shi, Lifang Wu and Liang Wang(参考訳) 既存のグループ活動認識手法の多くは、単に視覚表現に基づく時空間関係を構築している。 いくつかのメソッドでは、アクションラベルのような余分な知識を導入して意味関係を構築し、視覚的なプレゼンテーションを洗練させる。 しかし、彼らが探求した知識は意味レベルにとどまるだけで、これは顕著な精度の浄化には不十分である。 本稿では,グループ活動認識のための知識の活用と,その知識を効果的に活用して個々の表現を改善する新しい知識拡張関係推論フレームワークの開発を提案する。 具体的には、個々の外観特徴を抽出する視覚表現モジュールと、個々のアクションのセマンティック表現を探索する知識拡張セマンティック・リレーション・モジュールと、その知識による視覚情報とセマンティック情報の統合を目的とした知識・セマンティック・インタラクション・モジュールから構成される。 これらのモジュールの利点を生かして,提案フレームワークは知識を活用して関係推論プロセスと個々人の表現を強化し,グループ行動認識の性能を向上させる。 2つの公開データセットによる実験結果から,提案手法は最先端の手法と比較して競争性能が向上することが示された。

Most existing group activity recognition methods construct spatial-temporal relations merely based on visual representation. Some methods introduce extra knowledge, such as action labels, to build semantic relations and use them to refine the visual presentation. However, the knowledge they explored just stay at the semantic-level, which is insufficient for pursing notable accuracy. In this paper, we propose to exploit knowledge concretization for the group activity recognition, and develop a novel Knowledge Augmented Relation Inference framework that can effectively use the concretized knowledge to improve the individual representations. Specifically, the framework consists of a Visual Representation Module to extract individual appearance features, a Knowledge Augmented Semantic Relation Module explore semantic representations of individual actions, and a Knowledge-Semantic-Visual Interaction Module aims to integrate visual and semantic information by the knowledge. Benefiting from these modules, the proposed framework can utilize knowledge to enhance the relation inference process and the individual representations, thus improving the performance of group activity recognition. Experimental results on two public datasets show that the proposed framework achieves competitive performance compared with state-of-the-art methods.
翻訳日:2023-03-02 11:38:15 公開日:2023-03-01
# im2hands: 相互作用する両手形状の注意深い暗黙表現

Im2Hands: Learning Attentive Implicit Representation of Interacting Two-Hand Shapes ( http://arxiv.org/abs/2302.14348v2 )

ライセンス: Link先を確認
Jihyun Lee, Minhyuk Sung, Honggyu Choi, Tae-Kyun Kim(参考訳) 2つの相互作用する手の最初の神経的な表現である暗黙的な2つの手(im2hands)を提示する。 パラメトリックハンドモデルと/または低分解能メッシュに依存する既存の両手再構成法とは異なり、Im2Handsは両手高精細な形状を高精細に再現できる。 両手間の形状の複雑さと相互作用のコンテキストを扱うために、Im2Handsは、RGBイメージと粗い3Dキーポイントに設定された両手の占有量を、(1)初期占有率推定と(2)文脈認識占有率改善に責任を負う2つの新しい注意ベースのモジュールによってモデル化する。 Im2Handsはまず、クエリ・イメージ・アテンションを用いて、各手で設計された標準空間において、手動のニューラルネットワークによる占有を学習する。 その後、ポーズ空間における最初の両手の占有を洗練し、クエリアンカーの注意を使って両手の形状間の一貫性を高める。 さらに,単一画像再構成シナリオにおいて,予測した手指キーポイントからロバストな2手形状推定を可能にするキーポイントリファインメントモジュールを提案する。 筆者らは,im2ハンドの両手再建における効果を実験により実証し,本手法が最先端の結果を得る方法と比較した。 私たちのコードはhttps://github.com/jyunlee/im2handsで公開されています。

We present Implicit Two Hands (Im2Hands), the first neural implicit representation of two interacting hands. Unlike existing methods on two-hand reconstruction that rely on a parametric hand model and/or low-resolution meshes, Im2Hands can produce fine-grained geometry of two hands with high hand-to-hand and hand-to-image coherency. To handle the shape complexity and interaction context between two hands, Im2Hands models the occupancy volume of two hands - conditioned on an RGB image and coarse 3D keypoints - by two novel attention-based modules responsible for (1) initial occupancy estimation and (2) context-aware occupancy refinement, respectively. Im2Hands first learns per-hand neural articulated occupancy in the canonical space designed for each hand using query-image attention. It then refines the initial two-hand occupancy in the posed space to enhance the coherency between the two hand shapes using query-anchor attention. In addition, we introduce an optional keypoint refinement module to enable robust two-hand shape estimation from predicted hand keypoints in a single-image reconstruction scenario. We experimentally demonstrate the effectiveness of Im2Hands on two-hand reconstruction in comparison to related methods, where ours achieves state-of-the-art results. Our code is publicly available at https://github.com/jyunlee/Im2Hands.
翻訳日:2023-03-02 11:37:56 公開日:2023-03-01
# HelixSurf: 反復的交互正規化を伴う屋内シーンのロバストで効率的なニューラルネットワーク表面学習

HelixSurf: A Robust and Efficient Neural Implicit Surface Learning of Indoor Scenes with Iterative Intertwined Regularization ( http://arxiv.org/abs/2302.14340v2 )

ライセンス: Link先を確認
Zhihao Liang, Zhangjin Huang, Changxing Ding, Kui Jia(参考訳) マルチビュー画像からシーン形状を復元することは、コンピュータビジョン研究における長年の課題である。 最近の約束は、ニューラルな暗黙的表面学習と微分可能なボリュームレンダリングを活用し、シーン幾何学の回復と、ニューラルモデルの深い先行が帰納的滑らか性バイアスとして使用される新しいビューの合成の両方を達成する。 オブジェクトレベルのサーフェスを約束する一方で、これらのメソッドは複雑なシーンサーフェスを扱うときに苦しむ。 一方、従来のマルチビューステレオは、複数のビューにまたがる局所的画素対応をグローバルに最適化することにより、リッチなテクスチャでシーンの幾何学を復元することができる。 そこで我々は,この2つの戦略から相補的な利点を生かして,ヘリックス型神経暗黙的表面学習(helixsurf)と呼ばれる手法を提案する。 また,HelixSurfのボリュームレンダリングを効率よく行う手法を提案する。 屋内シーンの表面再構成実験では,既存の手法と同等に比較でき,既存の手法のいくつかに補助訓練データがある場合でも,桁違いに高速であることがわかった。 ソースコードはhttps://github.com/gorilla-lab-scut/helixsurfで入手できる。

Recovery of an underlying scene geometry from multiview images stands as a long-time challenge in computer vision research. The recent promise leverages neural implicit surface learning and differentiable volume rendering, and achieves both the recovery of scene geometry and synthesis of novel views, where deep priors of neural models are used as an inductive smoothness bias. While promising for object-level surfaces, these methods suffer when coping with complex scene surfaces. In the meanwhile, traditional multi-view stereo can recover the geometry of scenes with rich textures, by globally optimizing the local, pixel-wise correspondences across multiple views. We are thus motivated to make use of the complementary benefits from the two strategies, and propose a method termed Helix-shaped neural implicit Surface learning or HelixSurf; HelixSurf uses the intermediate prediction from one strategy as the guidance to regularize the learning of the other one, and conducts such intertwined regularization iteratively during the learning process. We also propose an efficient scheme for differentiable volume rendering in HelixSurf. Experiments on surface reconstruction of indoor scenes show that our method compares favorably with existing methods and is orders of magnitude faster, even when some of existing methods are assisted with auxiliary training data. The source code is available at https://github.com/Gorilla-Lab-SCUT/HelixSurf.
翻訳日:2023-03-02 11:37:28 公開日:2023-03-01
# CLIPモデルをScene Text Detectorに変換する

Turning a CLIP Model into a Scene Text Detector ( http://arxiv.org/abs/2302.14338v2 )

ライセンス: Link先を確認
Wenwen Yu, Yuliang Liu, Wei Hua, Deqiang Jiang, Bo Ren, Xiang Bai(参考訳) 最近の大規模コントラスト言語-画像事前学習(CLIP)モデルは、事前学習されたビジョンと言語知識を活用することで、様々な下流タスクに大きな可能性を示している。 リッチテキストとビジュアル情報を含むシーンテキストは、CLIPのようなモデルと本質的に関連している。 近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。 これらの研究とは対照的に,本研究では,CLIPモデルを事前学習せずに直接テキスト検出する手法であるTCMを提案する。 提案するtcmの利点を,(1)既存のシーンテキスト検出法を改善するために,基礎となるフレームワークの原則を適用することができる。 2)既存の手法,例えばラベル付きデータの10%を用いることで,f-measureの4つのベンチマークにおける平均22%のベースライン法の性能を大幅に向上させる。 3)クリップモデルを既存のシーンテキスト検出手法に変換することにより,より有望なドメイン適応能力を実現する。 コードはhttps://github.com/wenwenyu/TCMで公開される。

The recent large-scale Contrastive Language-Image Pretraining (CLIP) model has shown great potential in various downstream tasks via leveraging the pretrained vision and language knowledge. Scene text, which contains rich textual and visual information, has an inherent connection with a model like CLIP. Recently, pretraining approaches based on vision language models have made effective progresses in the field of text detection. In contrast to these works, this paper proposes a new method, termed TCM, focusing on Turning the CLIP Model directly for text detection without pretraining process. We demonstrate the advantages of the proposed TCM as follows: (1) The underlying principle of our framework can be applied to improve existing scene text detector. (2) It facilitates the few-shot training capability of existing methods, e.g., by using 10% of labeled data, we significantly improve the performance of the baseline method with an average of 22% in terms of the F-measure on 4 benchmarks. (3) By turning the CLIP model into existing scene text detection methods, we further achieve promising domain adaptation ability. The code will be publicly released at https://github.com/wenwenyu/TCM.
翻訳日:2023-03-02 11:37:04 公開日:2023-03-01
# GAM Coach: インタラクティブでユーザ中心のアルゴリズムリコースを目指す

GAM Coach: Towards Interactive and User-centered Algorithmic Recourse ( http://arxiv.org/abs/2302.14165v2 )

ライセンス: Link先を確認
Zijie J. Wang, Jennifer Wortman Vaughan, Rich Caruana, Duen Horng Chau(参考訳) マシンラーニング(ML)のリコーステクニックは、ML予測を変更するアクションをエンドユーザに提供することによって、ハイテイクなドメインでますます使用されている。 しかし、リコース計画の動作性は主観的であり、開発者の期待と完全に一致しない。 本稿では,GAM(Generalized Additive Models)のカスタマイズ可能な対実的説明を生成するために,整数線形プログラミングを適用した新しいオープンソースシステムであるGAM Coachを提案する。 41名の参加者による定量的ユーザスタディでは,ツールが有用で有用であり,ユーザは汎用計画よりもパーソナライズされたリコースプランを好む。 ログ分析を通じて、ユーザによる適切なリコース計画の発見方法や、透明性がmlモデルの直観に反するパターンを発見する機会の増加につながる、という実証的な証拠を提供する。 GAM Coach は以下の https://poloclub.github.io/gam-coach/ で利用可能である。

Machine learning (ML) recourse techniques are increasingly used in high-stakes domains, providing end users with actions to alter ML predictions, but they assume ML developers understand what input variables can be changed. However, a recourse plan's actionability is subjective and unlikely to match developers' expectations completely. We present GAM Coach, a novel open-source system that adapts integer linear programming to generate customizable counterfactual explanations for Generalized Additive Models (GAMs), and leverages interactive visualizations to enable end users to iteratively generate recourse plans meeting their needs. A quantitative user study with 41 participants shows our tool is usable and useful, and users prefer personalized recourse plans over generic plans. Through a log analysis, we explore how users discover satisfactory recourse plans, and provide empirical evidence that transparency can lead to more opportunities for everyday users to discover counterintuitive patterns in ML models. GAM Coach is available at: https://poloclub.github.io/gam-coach/.
翻訳日:2023-03-02 11:36:48 公開日:2023-03-01
# 言語は必要なすべてではない:言語モデルによる知覚の調整

Language Is Not All You Need: Aligning Perception with Language Models ( http://arxiv.org/abs/2302.14045v2 )

ライセンス: Link先を確認
Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Johan Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei(参考訳) 言語、マルチモーダル認識、行動、世界モデリングの大きな収束は、人工知能にとって重要なステップである。 本稿では,一般モダリティを知覚し,文脈で学習し,指示に従うマルチモーダル大規模言語モデル(mllm)であるkosmos-1を紹介する。 具体的には、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。 ゼロショット,少数ショット,マルチモーダル・チェーン・オブ・シークレットなどのさまざまな設定を,勾配更新や微調整を伴わない広範囲なタスクで評価する。 Kosmos-1が優れた性能を発揮することを示す実験結果が得られた。 (i)言語理解、生成、さらにはOCRフリーなNLP(直接文書画像が供給される) (ii)マルチモーダル対話、画像キャプション、視覚的質問応答等の知覚言語課題 (iii)説明付き画像認識(テキスト指示による分類特定)などの視覚課題 また,MLLMは,言語からマルチモーダル,多モーダルから言語への知識伝達という,クロスモーダル転送のメリットも示している。 さらに,mllmsの非言語的推論能力を診断するraven iqテストのデータセットも紹介する。

A big convergence of language, multimodal perception, action, and world modeling is a key step toward artificial general intelligence. In this work, we introduce Kosmos-1, a Multimodal Large Language Model (MLLM) that can perceive general modalities, learn in context (i.e., few-shot), and follow instructions (i.e., zero-shot). Specifically, we train Kosmos-1 from scratch on web-scale multimodal corpora, including arbitrarily interleaved text and images, image-caption pairs, and text data. We evaluate various settings, including zero-shot, few-shot, and multimodal chain-of-thought prompting, on a wide range of tasks without any gradient updates or finetuning. Experimental results show that Kosmos-1 achieves impressive performance on (i) language understanding, generation, and even OCR-free NLP (directly fed with document images), (ii) perception-language tasks, including multimodal dialogue, image captioning, visual question answering, and (iii) vision tasks, such as image recognition with descriptions (specifying classification via text instructions). We also show that MLLMs can benefit from cross-modal transfer, i.e., transfer knowledge from language to multimodal, and from multimodal to language. In addition, we introduce a dataset of Raven IQ test, which diagnoses the nonverbal reasoning capability of MLLMs.
翻訳日:2023-03-02 11:36:30 公開日:2023-03-01
# クロスモーダル顔と音声の移動

Cross-modal Face- and Voice-style Transfer ( http://arxiv.org/abs/2302.13838v2 )

ライセンス: Link先を確認
Naoya Takahashi, Mayank K. Singh, Yuki Mitsufuji(参考訳) 画像から画像への変換と音声への変換により、画像中のポーズや音声中の言語的内容などのセマンティクスを維持しつつ、新しい顔画像と音声を生成することができる。 多くのアプリケーションでコンテンツ作成プロセスを支援することができます。 しかし、それぞれのモダリティ内の変換に制限があるため、生成した顔と声の印象の一致は未解決のままである。 xfavot というクロスモーダル・スタイル・トランスファー・フレームワークを提案する。これは音声や画像誘導を伴う画像翻訳と音声変換の4つのタスクを共同で学習し、与えられた音声に合致する顔」と「与えられた顔に合致する声」の生成を可能にする。 複数のデータセットに対する実験結果から,XFaVoTは画像と音声のクロスモーダルな変換を実現し,品質,多様性,対面声の対応性において,ベースラインを上回った。

Image-to-image translation and voice conversion enable the generation of a new facial image and voice while maintaining some of the semantics such as a pose in an image and linguistic content in audio, respectively. They can aid in the content-creation process in many applications. However, as they are limited to the conversion within each modality, matching the impression of the generated face and voice remains an open question. We propose a cross-modal style transfer framework called XFaVoT that jointly learns four tasks: image translation and voice conversion tasks with audio or image guidance, which enables the generation of ``face that matches given voice" and ``voice that matches given face", and intra-modality translation tasks with a single framework. Experimental results on multiple datasets show that XFaVoT achieves cross-modal style translation of image and voice, outperforming baselines in terms of quality, diversity, and face-voice correspondence.
翻訳日:2023-03-02 11:36:06 公開日:2023-03-01
# slowとfastを組み合わせる:動的学習のための補完的フィルタリング

Combining Slow and Fast: Complementary Filtering for Dynamics Learning ( http://arxiv.org/abs/2302.13754v2 )

ライセンス: Link先を確認
Katharina Ensinger, Sebastian Ziesche, Barbara Rakitsch, Michael Tiemann, Sebastian Trimpe(参考訳) 未知の力学系のモデリングは、システムの将来の振る舞いを予測するために重要である。 標準的なアプローチは、測定データに対するリカレントモデルのトレーニングである。 これらのモデルは通常、正確な短期的予測を提供するが、誤りを蓄積すると長期的行動が悪化する。 対照的に、信頼できる長期予測を持つモデルは、堅牢だが詳細でないモデルをトレーニングしたり、物理学に基づくシミュレーションを活用することによって、しばしば得られる。 どちらの場合も、モデルの不正確さは短時間の詳細の欠如をもたらす。 したがって、異なる時間軸上の対照的な性質を持つ異なるモデルが利用可能である。 この観察はすぐに疑問を提起する: 両方の世界のベストを組み合わせるような予測を得られるか? センサ融合課題に触発されて,周波数領域における問題を解釈し,信号処理,特に補完フィルタから古典的手法を活用する。 このフィルタリング技術は、一方の信号にハイパスフィルタを適用し、もう一方の信号にローパスフィルタを適用することによって、2つの信号を組み合わせる。 基本的に、高域通過フィルタは高頻度を抽出し、低域通過フィルタは低周波数を抽出する。 この概念を動的モデル学習に適用することにより、正確な長期的および短期的な予測をもたらすモデルの構築が可能になる。 本稿では,純粋学習ベースと物理ベースのシミュレータを必要とするハイブリッドモデルという2つの手法を提案する。

Modeling an unknown dynamical system is crucial in order to predict the future behavior of the system. A standard approach is training recurrent models on measurement data. While these models typically provide exact short-term predictions, accumulating errors yield deteriorated long-term behavior. In contrast, models with reliable long-term predictions can often be obtained, either by training a robust but less detailed model, or by leveraging physics-based simulations. In both cases, inaccuracies in the models yield a lack of short-time details. Thus, different models with contrastive properties on different time horizons are available. This observation immediately raises the question: Can we obtain predictions that combine the best of both worlds? Inspired by sensor fusion tasks, we interpret the problem in the frequency domain and leverage classical methods from signal processing, in particular complementary filters. This filtering technique combines two signals by applying a high-pass filter to one signal, and low-pass filtering the other. Essentially, the high-pass filter extracts high-frequencies, whereas the low-pass filter extracts low frequencies. Applying this concept to dynamics model learning enables the construction of models that yield accurate long- and short-term predictions. Here, we propose two methods, one being purely learning-based and the other one being a hybrid model that requires an additional physics-based simulator.
翻訳日:2023-03-02 11:35:48 公開日:2023-03-01