このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230314となっている論文です。

PDF登録状況(公開日: 20230314)

TitleAuthorsAbstract論文公表日・翻訳日
# 旅行看護における多モデルデータサービスを活用した双方向パーソナライゼーション強化学習型アクティブラーニングアーキテクチャ

Bi-directional personalization reinforcement learning-based architecture with active learning using a multi-model data service for the travel nursing industry ( http://arxiv.org/abs/2304.00006v1 )

ライセンス: Link先を確認
Ezana N. Beyenne(参考訳) 不十分なオンライン採用システムを使用する際の課題は、マシンラーニングとソフトウェアエンジニアリング技術によって対処できる。 双方向パーソナライゼーション アクティブラーニングによる強化学習ベースのアーキテクチャは、採用者が資格のある応募者を推薦し、応募者がパーソナライズされた求人を受けられるようにすることができる。 本稿では,多モデルデータサービスを用いたデータ取得の高速化と,双方向強化学習とアクティブラーニングを用いたパーソナライズドレコメンデーションの提供により,旅行看護産業における機械学習技術による採用プロセスの向上について述べる。 新型コロナウイルスのパンデミックで医療施設の圧倒的な需要に対応しようとすると、このニーズは特に顕著だった。 外出看護婦や他の医療従事者の必要性は、ロックダウン期間中より顕著であった。 データサービスは、ジョブ関連データをデータベースに効率的に正確に合成する自然言語処理(NLP)モデルのオーケストレーションを使用して、ジョブフィード処理のために設計された。 この多モデルデータサービスは,旅行看護婦や医療従事者を採用者に推薦し,社内で開発されたスマートマッチスコアをベースとして求職者への求職を推奨する,強化学習とアクティブラーニングを用いた双方向パーソナライズシステムの開発に必要なデータを提供する。 双方向パーソナライゼーション(bi-directional personalization) 強化学習ベースのアーキテクチャとアクティブラーニング(active learning)は、2つのパーソナライゼーションシステムを組み合わせたものだ。

The challenges of using inadequate online recruitment systems can be addressed with machine learning and software engineering techniques. Bi-directional personalization reinforcement learning-based architecture with active learning can get recruiters to recommend qualified applicants and also enable applicants to receive personalized job recommendations. This paper focuses on how machine learning techniques can enhance the recruitment process in the travel nursing industry by helping speed up data acquisition using a multi-model data service and then providing personalized recommendations using bi-directional reinforcement learning with active learning. This need was especially evident when trying to respond to the overwhelming needs of healthcare facilities during the COVID-19 pandemic. The need for traveling nurses and other healthcare professionals was more evident during the lockdown period. A data service was architected for job feed processing using an orchestration of natural language processing (NLP) models that synthesize job-related data into a database efficiently and accurately. The multi-model data service provided the data necessary to develop a bi-directional personalization system using reinforcement learning with active learning that could recommend travel nurses and healthcare professionals to recruiters and provide job recommendations to applicants using an internally developed smart match score as a basis. The bi-directional personalization reinforcement learning-based architecture with active learning combines two personalization systems - one that runs forward to recommend qualified candidates for jobs and another that runs backward and recommends jobs for applicants.
翻訳日:2023-04-09 05:43:09 公開日:2023-03-14
# AI Actの提案: 技術的解釈可能性に対する新たな権利?

The AI Act proposal: a new right to technical interpretability? ( http://arxiv.org/abs/2303.17558v1 )

ライセンス: Link先を確認
Chiara Gallese(参考訳) いわゆる「AIで説明する権利」の概念に関する議論は、豊富な文学の主題である。 法的な奨学金では、第22 gdpr、技術的な奨学金では、あるモデル(xai)のアウトプットを説明するのに役立つ技術に焦点を当てている。 本研究の目的は、人工知能(ai)に関する調和規則(ai法)を制定する規則の提案により導入された新規定が、条約108+及びgdprと組み合わせて、euの法的枠組みにおける技術的説明可能性の権利の存在を示すのに十分であるか、euが現行の法律に含めるべきかどうかを検討することである。 これは、情報社会法センターが主催するオンラインイベントに提出した予備作業であり、後に完全な論文として開発される予定である。

The debate about the concept of the so called right to explanation in AI is the subject of a wealth of literature. It has focused, in the legal scholarship, on art. 22 GDPR and, in the technical scholarship, on techniques that help explain the output of a certain model (XAI). The purpose of this work is to investigate if the new provisions introduced by the proposal for a Regulation laying down harmonised rules on artificial intelligence (AI Act), in combination with Convention 108 plus and GDPR, are enough to indicate the existence of a right to technical explainability in the EU legal framework and, if not, whether the EU should include it in its current legislation. This is a preliminary work submitted to the online event organised by the Information Society Law Center and it will be later developed into a full paper.
翻訳日:2023-04-02 18:11:56 公開日:2023-03-14
# 開二部量子系における相互作用による交換エネルギーにおける仕事や熱の寄与について

On the contribution of work or heat in exchanged energy via interaction in open bipartite quantum systems ( http://arxiv.org/abs/1912.01983v8 )

ライセンス: Link先を確認
B. Ahmadi, S. Salimi and A. S. Khorashad(参考訳) 本稿では, 量子熱力学系において熱と仕事の曖昧な再定義について述べる。 クラウシウスが熱力学の確立において最初に仕事と熱を定義した真理の推論を用いる。 エントロピーの変化に伴うエネルギーの変化は熱として認識されるが、エントロピーの変化に繋がらないエネルギーの変化はワークとして知られている。 量子コヒーレンスによって、2つの量子系間で交換される全てのエネルギーが熱形式のみになるわけではないことが分かるだろう。 いくつかの例についても論じる。 最後に、これらの洗練された定義は量子熱力学過程のエントロピー生成に強く影響し、量子過程の非可逆性に対する新たな洞察を与える。

In this paper, unambiguous redefinitions of heat and work are presented for quantum thermodynamic systems. We will use genuine reasoning based on which Clausius originally defined work and heat in establishing thermodynamics. The change in the energy which is accompanied by a change in the entropy is identified as heat, while any change in the energy which does not lead to a change in the entropy is known as work. It will be seen that quantum coherence does not allow all the energy exchanged between two quantum systems to be only of the heat form. Several examples will also be discussed. Finally, it will be shown that these refined definitions will strongly affect the entropy production of quantum thermodynamic processes giving new insight into the irreversibility of quantum processes.
翻訳日:2023-03-25 04:14:22 公開日:2023-03-14
# 画像塗布における領域正規化

Region Normalization for Image Inpainting ( http://arxiv.org/abs/1911.10375v2 )

ライセンス: Link先を確認
Tao Yu, Zongyu Guo, Xin Jin, Shilin Wu, Zhibo Chen, Weiping Li, Zhizheng Zhang, Sen Liu(参考訳) 特徴正規化(英: feature normalization、fn)は、ニューラルネットワークのトレーニングを支援する重要な技術である。 入力画像の劣化領域が正規化、例えば平均と分散シフトに与える影響を考慮せずに、以前の画像塗装法はネットワークにFNを適用している。 本研究では,フル空間FNによる平均変化と分散変化がネットワークトレーニングに影響を及ぼす画像を制限することを示し,領域正規化(RN)と呼ばれる空間領域正規化を提案し,その限界を克服する。 RNは入力マスクに従って空間画素を異なる領域に分割し、正規化のために各領域の平均と分散を計算する。 画像塗布ネットワークでは,(1)劣化した領域と破壊されていない領域を別々に正規化する基本RN(RN-B),(2)劣化した領域と破壊されていない領域を別々に検出する学習可能なRN(RN-L)の2種類を開発し,融合を促進するグローバルアフィン変換を行った。 ネットワークの初期層にRN-B、後者層にRN-Lをそれぞれ適用する。 実験により,本手法が現在の最先端手法を定量的に定性的に上回ることを示した。 RNを他の塗装ネットワークに一般化し、一貫した性能改善を実現する。 私たちのコードはhttps://github.com/geekyutao/rnで利用可能です。

Feature Normalization (FN) is an important technique to help neural network training, which typically normalizes features across spatial dimensions. Most previous image inpainting methods apply FN in their networks without considering the impact of the corrupted regions of the input image on normalization, e.g. mean and variance shifts. In this work, we show that the mean and variance shifts caused by full-spatial FN limit the image inpainting network training and we propose a spatial region-wise normalization named Region Normalization (RN) to overcome the limitation. RN divides spatial pixels into different regions according to the input mask, and computes the mean and variance in each region for normalization. We develop two kinds of RN for our image inpainting network: (1) Basic RN (RN-B), which normalizes pixels from the corrupted and uncorrupted regions separately based on the original inpainting mask to solve the mean and variance shift problem; (2) Learnable RN (RN-L), which automatically detects potentially corrupted and uncorrupted regions for separate normalization, and performs global affine transformation to enhance their fusion. We apply RN-B in the early layers and RN-L in the latter layers of the network respectively. Experiments show that our method outperforms current state-of-the-art methods quantitatively and qualitatively. We further generalize RN to other inpainting networks and achieve consistent performance improvements. Our code is available at https://github.com/geekyutao/RN.
翻訳日:2023-03-25 04:13:12 公開日:2023-03-14
# 対物的テクスト記述を用いた推薦システム

Explaining Recommendation System Using Counterfactual Textual Explanations ( http://arxiv.org/abs/2303.11160v1 )

ライセンス: Link先を確認
Niloofar Ranjbar and Saeedeh Momtazi and MohammadMehdi Homayounpour(参考訳) 現在、ディープラーニングモデルの説明可能性と解釈可能性を改善するために、人工知能の分野でかなりの研究が行われている。 エンドユーザーが何らかのアウトプットを生産する理由を理解すれば、システムへの信頼がより容易になる。 レコメンダシステムは、アウトプットをより説明しやすくするために非常に努力されたシステムの例である。 より説明可能な出力を生成する方法の1つは、最小限の機能を変更することで、システム出力を変更する結果となる対実アイテムを生成する、反実的推論を使用することである。 このプロセスは、望ましいアウトプットに大きな影響を与える入力特徴の識別を可能にし、効果的な説明につながる。 本稿では,表とテキストの特徴の両面について,反実的説明を生成する手法を提案する。 提案手法の性能を実世界の3つのデータセットで評価し,ベースライン法と比較して,有効性(モデルに基づく測度に基づく)を求める上で,+5\%の改善効果を示した。

Currently, there is a significant amount of research being conducted in the field of artificial intelligence to improve the explainability and interpretability of deep learning models. It is found that if end-users understand the reason for the production of some output, it is easier to trust the system. Recommender systems are one example of systems that great efforts have been conducted to make their output more explainable. One method for producing a more explainable output is using counterfactual reasoning, which involves altering minimal features to generate a counterfactual item that results in changing the output of the system. This process allows the identification of input features that have a significant impact on the desired output, leading to effective explanations. In this paper, we present a method for generating counterfactual explanations for both tabular and textual features. We evaluated the performance of our proposed method on three real-world datasets and demonstrated a +5\% improvement on finding effective features (based on model-based measures) compared to the baseline method.
翻訳日:2023-03-25 03:37:03 公開日:2023-03-14
# 時間周波数と空間表現を用いた脳波に基づく感情認識の改善

Improving EEG-based Emotion Recognition by Fusing Time-frequency And Spatial Representations ( http://arxiv.org/abs/2303.11421v1 )

ライセンス: Link先を確認
Kexin Zhu, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 脳波信号の分類にディープラーニングを使用すると、人の感情を正確に識別できる。 しかし、既存の研究は、時間周波数領域における特徴選択に対する他の領域の表現における情報の適用をほとんど考慮していない。 クロスドメイン特徴融合法に基づく脳波信号の分類ネットワークを提案し、マルチドメインアテンション機構を用いて、脳の活動や思考の変化に関連する特徴をより重視する。 さらに,2段階融合法を提案し,これらの手法を脳波の感情認識ネットワークに適用する。 実験により, 時間周波数領域と空間領域の複数の表現を組み合わせたネットワークが, 従来の手法を公開データセットで上回り, 現状を達成していることがわかった。

Using deep learning methods to classify EEG signals can accurately identify people's emotions. However, existing studies have rarely considered the application of the information in another domain's representations to feature selection in the time-frequency domain. We propose a classification network of EEG signals based on the cross-domain feature fusion method, which makes the network more focused on the features most related to brain activities and thinking changes by using the multi-domain attention mechanism. In addition, we propose a two-step fusion method and apply these methods to the EEG emotion recognition network. Experimental results show that our proposed network, which combines multiple representations in the time-frequency domain and spatial domain, outperforms previous methods on public datasets and achieves state-of-the-art at present.
翻訳日:2023-03-25 03:26:33 公開日:2023-03-14
# ロックプールを用いた混合信号型ニューロモルフィックチップDynap-SE2の訓練とスパイキングNN応用

Training and Deploying Spiking NN Applications to the Mixed-Signal Neuromorphic Chip Dynap-SE2 with Rockpool ( http://arxiv.org/abs/2303.12167v1 )

ライセンス: Link先を確認
U\u{g}urcan \c{C}akal, Ilkay Ulusoy, Dylan R. Muir(参考訳) 混合信号ニューロモルフィックプロセッサは、スパイキングニューラルネットワーク(SNN)内の疎非同期計算を活用することにより、エッジ推論ワークロードに対して極めて低消費電力な演算を提供する。 しかしながら、これらのデバイスにロバストなアプリケーションをデプロイすることは、アナログハードウェアパラメータ、意図しないパラメータ、非理想化によるアナログ回路の動的変動に対する制御可能性の制限によって複雑である。 本稿では,spyking neural networks (snns)を混合信号型ニューロモルフィックプロセッサdynap-se2にオフライントレーニングおよび展開するための新しい手法を示す。 この手法は教師なしの重み量子化法を用いてネットワークのパラメータを最適化し、トレーニング中に逆パラメータのノイズインジェクションを併用する。 最適化されたネットワークは、量子化とデバイスミスマッチの影響に対して堅牢であることが示され、ハードウェア制約のある実世界のアプリケーションにとって有望な候補となる。 この作業は、SNNのためのオープンソースのディープラーニングライブラリであるRockpoolを拡張し、混合信号SNNダイナミクスの正確なシミュレーションをサポートする。 我々のアプローチは、神経形態素コミュニティの開発と展開を単純化し、混合信号型神経形態素プロセッサを研究者や開発者にとってよりアクセスしやすくする。

Mixed-signal neuromorphic processors provide extremely low-power operation for edge inference workloads, taking advantage of sparse asynchronous computation within Spiking Neural Networks (SNNs). However, deploying robust applications to these devices is complicated by limited controllability over analog hardware parameters, unintended parameter and dynamics variations of analog circuits due to fabrication non-idealities. Here we demonstrate a novel methodology for offline training and deployment of spiking neural networks (SNNs) to the mixed-signal neuromorphic processor Dynap-SE2. The methodology utilizes an unsupervised weight quantization method to optimize the network's parameters, coupled with adversarial parameter noise injection during training. The optimized network is shown to be robust to the effects of quantization and device mismatch, making the method a promising candidate for real-world applications with hardware constraints. This work extends Rockpool, an open-source deep-learning library for SNNs, with support accurate simulation of mixed-signal SNN dynamics. Our approach simplifies the development and deployment process for the neuromorphic community, making mixed-signal neuromorphic processors more accessible to researchers and developers.
翻訳日:2023-03-25 03:17:00 公開日:2023-03-14
# グリーディ形状カリキュラムを用いた手指操作の学習

Learning to Transfer In-Hand Manipulations Using a Greedy Shape Curriculum ( http://arxiv.org/abs/2303.12726v1 )

ライセンス: Link先を確認
Yunbo Zhang, Alexander Clegg, Sehoon Ha, Greg Turk, Yuting Ye(参考訳) 複雑な接触ダイナミクス、非反復的な指の動き、不動物体を間接的に制御する必要があるため、手動物体の操作はシミュレートが難しい。 さらに、異なる形状と物理的性質を持つ新しいオブジェクトに操作スキルを適応させることも同様に難しい問題である。 本研究では, 動的シミュレーションにおける簡易物体の自然な, 頑健な手動操作を, 模倣学習問題を慎重に設計した深部強化学習を通して, 高品質なモーションキャプチャーの例から学習できることを示す。 提案手法は, 物体の形状や動作の操作を片手操作と両手操作の両方に応用する。 次に,サンプル動作のより複雑な形状へのさらなる適応を,ソースと対象オブジェクトの間に変形した中間形状のカリキュラム学習を通して示す。 進歩的形態のナイーブなカリキュラムは、しばしば不足するが、我々は、ティーポット、バニー、ボトル、トレイン、エレファントといった様々なオブジェクトにうまく適用できる単純な欲望のあるカリキュラム探索アルゴリズムを提案する。

In-hand object manipulation is challenging to simulate due to complex contact dynamics, non-repetitive finger gaits, and the need to indirectly control unactuated objects. Further adapting a successful manipulation skill to new objects with different shapes and physical properties is a similarly challenging problem. In this work, we show that natural and robust in-hand manipulation of simple objects in a dynamic simulation can be learned from a high quality motion capture example via deep reinforcement learning with careful designs of the imitation learning problem. We apply our approach on both single-handed and two-handed dexterous manipulations of diverse object shapes and motions. We then demonstrate further adaptation of the example motion to a more complex shape through curriculum learning on intermediate shapes morphed between the source and target object. While a naive curriculum of progressive morphs often falls short, we propose a simple greedy curriculum search algorithm that can successfully apply to a range of objects such as a teapot, bunny, bottle, train, and elephant.
翻訳日:2023-03-25 03:10:00 公開日:2023-03-14
# グラディエントDescentによるフラクタル学習

Learning Fractals by Gradient Descent ( http://arxiv.org/abs/2303.12722v1 )

ライセンス: Link先を確認
Cheng-Hao Tu, Hong-You Chen, David Carlyn, Wei-Lun Chao(参考訳) フラクタルは、自然(例えば雲や植物)に見られる複雑で自己相似したパターンを表現できる幾何学的な形状である。 視覚認識における最近の研究では、この特性を利用してモデル事前学習のためのランダムフラクタル画像を作成する。 本稿では,対象画像(必ずしもフラクタルではない)が与えられた場合,それに似たフラクタル画像を生成することを目的とした逆問題の研究を行う。 本研究では,フラクタル画像のパラメータを勾配降下によって学習する手法を提案する。 提案手法は, 高い視覚的品質のフラクタルパラメータを見つけ, 異なる損失関数と互換性があることを示し, 下流タスクのフラクタル学習, 科学的理解など, いくつかの可能性を開く。

Fractals are geometric shapes that can display complex and self-similar patterns found in nature (e.g., clouds and plants). Recent works in visual recognition have leveraged this property to create random fractal images for model pre-training. In this paper, we study the inverse problem -- given a target image (not necessarily a fractal), we aim to generate a fractal image that looks like it. We propose a novel approach that learns the parameters underlying a fractal image via gradient descent. We show that our approach can find fractal parameters of high visual quality and be compatible with different loss functions, opening up several potentials, e.g., learning fractals for downstream tasks, scientific understanding, etc.
翻訳日:2023-03-25 03:09:06 公開日:2023-03-14
# SMUG:スムーズなアンロールによるMRI再建に向けて

SMUG: Towards robust MRI reconstruction by smoothed unrolling ( http://arxiv.org/abs/2303.12735v1 )

ライセンス: Link先を確認
Hui Li, Jinghan Jia, Shijun Liang, Yuguang Yao, Saiprasad Ravishankar, Sijia Liu(参考訳) deep learning (dl) はmri (accelerated magnetic resonance imaging) で広く知られているが、最近の研究では、dlベースのmri再構成モデルは、不安定で低品質の再構成画像を引き起こす小さな入力摂動("adversarial perturbation"と呼ばれる)に過敏であることが示されている。 これにより、MRI再構成のための堅牢なDLメソッドの設計方法が疑問視される。 そこで本研究では,ランダム化平滑化(rs)に基づくロバストな学習操作を用いた深部アンロール型mri再構成モデルであるsmoiseed unrolling(smug)を提案する。 入力雑音に対するモデルの耐性を向上させるRSは、画像分類のための対角防御の設計に広く用いられている。 しかし,従来の DL プロセス全体に対して RS を適用した設計は,MRI の再構成には有効ではないことがわかった。 SMUGは, DLベースMRI再構成モデルのアンロールアーキテクチャに基づいて, RS操作をカスタマイズすることで, 上記の問題に対処することを示す。 バニラRS法とSMUGのいくつかの変種と比較して、SMUGは入力測定に対する摂動、異なる測定サンプリング率、異なるアンローリングステップを含む様々な摂動源に対してMRI再構成の堅牢性を改善する。 SMUGのコードはhttps://github.com/LGM70/SMUGで入手できる。

Although deep learning (DL) has gained much popularity for accelerated magnetic resonance imaging (MRI), recent studies have shown that DL-based MRI reconstruction models could be oversensitive to tiny input perturbations (that are called 'adversarial perturbations'), which cause unstable, low-quality reconstructed images. This raises the question of how to design robust DL methods for MRI reconstruction. To address this problem, we propose a novel image reconstruction framework, termed SMOOTHED UNROLLING (SMUG), which advances a deep unrolling-based MRI reconstruction model using a randomized smoothing (RS)-based robust learning operation. RS, which improves the tolerance of a model against input noises, has been widely used in the design of adversarial defense for image classification. Yet, we find that the conventional design that applies RS to the entire DL process is ineffective for MRI reconstruction. We show that SMUG addresses the above issue by customizing the RS operation based on the unrolling architecture of the DL-based MRI reconstruction model. Compared to the vanilla RS approach and several variants of SMUG, we show that SMUG improves the robustness of MRI reconstruction with respect to a diverse set of perturbation sources, including perturbations to the input measurements, different measurement sampling rates, and different unrolling steps. Code for SMUG will be available at https://github.com/LGM70/SMUG.
翻訳日:2023-03-25 02:59:55 公開日:2023-03-14
# 自然言語処理を用いた特徴マッチング

Features matching using natural language processing ( http://arxiv.org/abs/2303.12804v1 )

ライセンス: Link先を確認
Muhammad Danial Khilji(参考訳) 特徴マッチングは、異なるデータセットをマッチングするための基本的なステップである。 本稿では,2つの異なるデータセットの特徴のリスト間の類似性を測定するために,jaccard類似性に基づく統計モデルと並行して使用されるbertと呼ばれる事前学習自然言語処理(nlp)モデルの新しいハイブリッドモデルを提案する。 これにより、相関を検索したり、各機能をデータセットから別のデータセットに手動でマッチさせるのに必要な時間を削減できる。

The feature matching is a basic step in matching different datasets. This article proposes shows a new hybrid model of a pretrained Natural Language Processing (NLP) based model called BERT used in parallel with a statistical model based on Jaccard similarity to measure the similarity between list of features from two different datasets. This reduces the time required to search for correlations or manually match each feature from one dataset to another.
翻訳日:2023-03-25 02:41:46 公開日:2023-03-14
# 深層学習に基づく時系列因果推論による北極増幅の定量化

Quantifying Causes of Arctic Amplification via Deep Learning based Time-series Causal Inference ( http://arxiv.org/abs/2303.07122v2 )

ライセンス: Link先を確認
Sahara Ali, Omar Faruque, Jianwu Wang(参考訳) 北極圏の温暖化は、北極の増幅としても知られ、いくつかの大気と海洋の要因によって導かれるが、その熱力学的原因の詳細はまだ分かっていない。 固定処理効果戦略を用いた海氷融解に対する大気プロセスの因果効果の推算は非現実的な反事実推定につながる。 このようなモデルは、時間的な混乱によってバイアスになりがちである。 そこで本研究では,反復型ニューラルネットワークを用いた連続処理における因果関係を推定する時系列因果推論モデルであるtcinetを提案する。 合成および観測データに関する実験を通じて、北極海氷の融解の原因を定量化する能力を、我々の研究がいかに大きく改善するかを示す。

The warming of the Arctic, also known as Arctic amplification, is led by several atmospheric and oceanic drivers, however, the details of its underlying thermodynamic causes are still unknown. Inferring the causal effects of atmospheric processes on sea ice melt using fixed treatment effect strategies leads to unrealistic counterfactual estimations. Such models are also prone to bias due to time-varying confoundedness. In order to tackle these challenges, we propose TCINet - time-series causal inference model to infer causation under continuous treatment using recurrent neural networks. Through experiments on synthetic and observational data, we show how our research can substantially improve the ability to quantify the leading causes of Arctic sea ice melt.
翻訳日:2023-03-19 11:59:04 公開日:2023-03-14
# NISQプロセッサ上でワイルドカード検索を実行するGrover Oracleの量子回路構築の自動化可能性の解析

Analyses of the viability of automating the quantum circuit construction of Grover Oracle for executing wildcard searches on NISQ processors ( http://arxiv.org/abs/2303.08898v1 )

ライセンス: Link先を確認
Willie Huang(参考訳) 本研究はGroverアルゴリズムを用いて,ワイルドカード検索に使用される検索フレーズを符号化する手法について検討する。 この技術は、エンコードされた検索用語とともに、データを量子回路にロードするフェーズOracleを作成することを含む。 この方法は、エンコードされた入力情報とエンコードされた検索語を用いてプログラムでOracleのフェーズを構築することを必要とする。 グローバー拡散作用素を位相Oracle、アダマールゲート、ゼロ初期化三量子状態と組み合わせることで、完全な量子回路が生成される。 この研究で使われた閉じ込められたイオンと超伝導量子コンピュータは何度も運用された。 提案手法がワイルドカード検索に有効な方法であることを確認するため,両システムからの出力を期待値と比較した。 提案された戦略は、ワイルドカード検索のさまざまな問題に役立ち、量子優位性の達成を早める可能性がある。

Using Grover algorithm, this work investigates a technique for encoding search phrases used in wildcard searches. The technique involves creating a phase Oracle that loads data into a quantum circuit together with the search terms that have been encoded. The method entails constructing a phase Oracle programmatically using encoded input information and encoded search terms. By combining Grover diffusion operator with the phase Oracle, Hadamard gates, and zero-initialized three-qubit states, a complete quantum circuit is created. Trapped ion and superconducting qubit quantum computers, which were used in the research, were operated numerous times. In order to confirm that the proposed strategy is a workable one for wildcard search, the outputs from both systems were compared with the expected values. The suggested strategy will be useful for a range of wildcard search issues and could speed up the attainment of quantum advantage.
翻訳日:2023-03-17 18:09:14 公開日:2023-03-14
# データ不均一性とバーストを考慮したCNNベース株取引の改善

Improving CNN-base Stock Trading By Considering Data Heterogeneity and Burst ( http://arxiv.org/abs/2303.09407v1 )

ライセンス: Link先を確認
Keer Yang, Guanqun Zhang, Chuan Bi, Qiang Guan, Hailu Xu, Shuai Xu(参考訳) 近年、金融取引にインテリジェントな技術を適用する試みが数多く行われており、すなわち、過去の株価に基づく自動的かつインテリジェントな取引枠組みを構築している。 金融市場の予測不可能で不確実で不安定な性質のため、研究者たちはインテリジェントなトレーディング・フレームワークを構築するために深層学習にも取り組んできた。 本稿では、入力データの空間的依存(行と列)を学習できるため、CNNをそのようなフレームワークの中核機能として用いることを提案する。 しかし、既存のディープラーニングベースのトレーディングフレームワークと異なり、ストックデータを作成するための新しい正規化プロセスを開発する。 特に、まず、ストックデータが本質的に不均一でバースト的であることを経験的に観察し、統計学的観点から、ストックデータの不均一性とバースト性を検証する。 次に、データ不均一性が保持され、バーストイベントが抑制されるように、データ正規化手法を設計する。 CNNベースのトレーディングフレームワークと29株の新たな正規化手法を検証する。 実験結果から,本手法が他の比較手法より優れていることが示された。

In recent years, there have been quite a few attempts to apply intelligent techniques to financial trading, i.e., constructing automatic and intelligent trading framework based on historical stock price. Due to the unpredictable, uncertainty and volatile nature of financial market, researchers have also resorted to deep learning to construct the intelligent trading framework. In this paper, we propose to use CNN as the core functionality of such framework, because it is able to learn the spatial dependency (i.e., between rows and columns) of the input data. However, different with existing deep learning-based trading frameworks, we develop novel normalization process to prepare the stock data. In particular, we first empirically observe that the stock data is intrinsically heterogeneous and bursty, and then validate the heterogeneity and burst nature of stock data from a statistical perspective. Next, we design the data normalization method in a way such that the data heterogeneity is preserved and bursty events are suppressed. We verify out developed CNN-based trading framework plus our new normalization method on 29 stocks. Experiment results show that our approach can outperform other comparing approaches.
翻訳日:2023-03-17 15:06:23 公開日:2023-03-14
# 言語間視覚表現の学習

Learning Cross-lingual Visual Speech Representations ( http://arxiv.org/abs/2303.09455v1 )

ライセンス: Link先を確認
Andreas Zinonos, Alexandros Haliassos, Pingchuan Ma, Stavros Petridis, Maja Pantic(参考訳) 言語横断型自己教師付き学習はここ数年、研究テーマとして増えている。 しかし、現在の作品では、音声信号を用いた表現のみを探求している。 本研究では,言語間自己教師付き視覚表現学習について検討する。 我々は最近提案されたRAVEn(Raw Audio-Visual Speech Encoders)フレームワークを用いて,ラベル付き書き起こしで視覚モデルを微調整する。 実験の結果,(1)データ量の多い多言語モデルの方がモノリンガルモデルより優れているが,データ量を維持すると単言語モデルの方が性能が向上する傾向にあり,(2)英語のみの事前学習に優れ,(3)類似の収率を持つ言語を用いた場合,(4)未確認言語の微調整は事前学習セットで対象言語を使用する場合と競合することがわかった。 本研究は,非英語のみの音声表現学習の今後の研究を促すことを願っている。

Cross-lingual self-supervised learning has been a growing research topic in the last few years. However, current works only explored the use of audio signals to create representations. In this work, we study cross-lingual self-supervised visual representation learning. We use the recently-proposed Raw Audio-Visual Speech Encoders (RAVEn) framework to pre-train an audio-visual model with unlabelled multilingual data, and then fine-tune the visual model on labelled transcriptions. Our experiments show that: (1) multi-lingual models with more data outperform monolingual ones, but, when keeping the amount of data fixed, monolingual models tend to reach better performance; (2) multi-lingual outperforms English-only pre-training; (3) using languages which are more similar yields better results; and (4) fine-tuning on unseen languages is competitive to using the target language in the pre-training set. We hope our study inspires future research on non-English-only speech representation learning.
翻訳日:2023-03-17 14:47:27 公開日:2023-03-14
# スパース入力による高次元データ制御

Controlling High-Dimensional Data With Sparse Input ( http://arxiv.org/abs/2303.09446v1 )

ライセンス: Link先を確認
Dan Andrei Iliescu, Devang Savita Ram Mohan, Tian Huey Teh, Zack Hodari(参考訳) 我々は,高度に構造化されたデータを生成するためのループ制御の問題に対処する。 既存の生成モデルにはユーザが出力を変更できる効率的なインターフェースが欠けているため、このタスクは難しい。 ユーザは、解釈不能な潜伏空間を手動で探索するか、あるいは条件付きラベルでデータを注記するオプションがある。 この問題を解決するために,エンコーダが可読な人間の解釈可能な制御空間を生成モデルの潜在空間にマッピングする,新しい枠組みを提案する。 この枠組みを音声合成における韻律制御の課題に適用する。 本稿では,スパースな韻律特徴を符号化し,完全な波形を出力するMultiple-Instance CVAE (MICVAE) モデルを提案する。 実験の結果,micvaeは,効率性,堅牢性,忠実性など,ループ内における少ない制御機構の望ましい性質を示すことがわかった。 非常に少数の入力値 (~4) であっても、MICVAE はリスナーの好み (4:1) で出力の品質を大幅に改善することができる。

We address the problem of human-in-the-loop control for generating highly-structured data. This task is challenging because existing generative models lack an efficient interface through which users can modify the output. Users have the option to either manually explore a non-interpretable latent space, or to laboriously annotate the data with conditioning labels. To solve this, we introduce a novel framework whereby an encoder maps a sparse, human interpretable control space onto the latent space of a generative model. We apply this framework to the task of controlling prosody in text-to-speech synthesis. We propose a model, called Multiple-Instance CVAE (MICVAE), that is specifically designed to encode sparse prosodic features and output complete waveforms. We show empirically that MICVAE displays desirable qualities of a sparse human-in-the-loop control mechanism: efficiency, robustness, and faithfulness. With even a very small number of input values (~4), MICVAE enables users to improve the quality of the output significantly, in terms of listener preference (4:1).
翻訳日:2023-03-17 14:46:26 公開日:2023-03-14
# 分割定数近似を超える形状パルスのシミュレーションと設計

Simulation and design of shaped pulses beyond the piecewise-constant approximation ( http://arxiv.org/abs/2303.09458v1 )

ライセンス: Link先を確認
Uluk Rasulov, Anupama Acharya, Marina Carravetta, Ilya Kuprov(参考訳) 共振回路の応答関数は、入力が急速に変化するとリングアーティファクトを生成する。 電磁分光学の物理的限界を探索すると、2種類の問題が発生する。 まず、シミュレーション: システムは応答のトランジェントごとに正確に伝達されなければならず、計算コストがかかる。 第二に、最適制御最適化: 機器の応答を考慮に入れなければならない; 機器の歪みに耐性のあるパルスを設計することが有利である。 両問題の根本は制御列に対する一括定数近似(英語版)であり、磁気共鳴では初期の頃から継続している。 本稿では,分割多項制御パルスをシミュレートし最適化する最近のリーグループ手法を用いたシミュレーションと最適制御ルーチンの実装とベンチマークについて報告する。

Response functions of resonant circuits create ringing artefacts if their input changes rapidly. When physical limits of electromagnetic spectroscopies are explored, this creates two types of problems. Firstly, simulation: the system must be propagated accurately through every response transient, this may be computationally expensive. Secondly, optimal control optimisation: instrument response must be taken into account; it may be advantageous to design pulses that are resilient to instrumental distortions. At the root of both problems is the popular piecewise-constant approximation for control sequences; in magnetic resonance it has persisted since the earliest days. In this paper, we report an implementation and benchmarks for simulation and optimal control routines that use recent Lie-group methods that simulate and optimise control pulses that are piecewise-polynomial.
翻訳日:2023-03-17 14:34:28 公開日:2023-03-14
# パフォーマンス埋め込み: 自動パフォーマンス最適化への類似性に基づくアプローチ

Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization ( http://arxiv.org/abs/2303.08142v1 )

ライセンス: Link先を確認
Lukas Tr\"umper, Tal Ben-Nun, Philipp Schaad, Alexandru Calotoiu, Torsten Hoefler(参考訳) パフォーマンスの最適化はますます困難だが、反復的なタスクである。 各プラットフォームには特徴があるが、基盤となるコード変換は、アプリケーション間で再帰するデータ移動と計算特性に依存している。 本稿では,サブプログラムの埋め込み空間を構築することで,それらの類似性を活用することを提案する。 連続空間は、それぞれシンボルコード解析とパフォーマンスプロファイリングによってループネストの静的特性と動的特性をキャプチャする。 パフォーマンス埋め込みはアプリケーション間のパフォーマンスチューニングの直接的な知識転送を可能にする。 本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。 転送チューニングは検索の複雑さを最大4桁削減し、スパース・デンス行列の乗算においてmklライブラリを上回っている。 その結果、プログラム特性と最適化の明確な対応性を示し、先行した最先端のアプローチよりも優れ、その能力を超えて一般化された。

Performance optimization is an increasingly challenging but often repetitive task. While each platform has its quirks, the underlying code transformations rely on data movement and computational characteristics that recur across applications. This paper proposes to leverage those similarities by constructing an embedding space for subprograms. The continuous space captures both static and dynamic properties of loop nests via symbolic code analysis and performance profiling, respectively. Performance embeddings enable direct knowledge transfer of performance tuning between applications, which can result from autotuning or tailored improvements. We demonstrate this transfer tuning approach on case studies in deep neural networks, dense and sparse linear algebra compositions, and numerical weather prediction stencils. Transfer tuning reduces the search complexity by up to four orders of magnitude and outperforms the MKL library in sparse-dense matrix multiplication. The results exhibit clear correspondences between program characteristics and optimizations, outperforming prior specialized state-of-the-art approaches and generalizing beyond their capabilities.
翻訳日:2023-03-16 18:45:10 公開日:2023-03-14
# 深層学習による光学顕微鏡のディジタル染色 -レビュー-

Digital staining in optical microscopy using deep learning -- a review ( http://arxiv.org/abs/2303.08140v1 )

ライセンス: Link先を確認
Lucas Kreiss, Shaowei Jiang, Xiang Li, Shiqi Xu, Kevin C. Zhou, Alexander M\"uhlberg, Kyung Chul Lee, Kanghyun Kim, Amey Chaware, Michael Ando, Laura Barisoni, Seung Ah Lee, Guoan Zheng, Kyle Lafata, Oliver Friedrich, and Roarke Horstmeyer(参考訳) 最近まで、従来の生化学染色は、臨床診断、基礎研究、バイオテクノロジーに関連する多くの生物医学的問題に対する、確証のない基準であった。 金標準としての役割にもかかわらず、染色プロトコルは、サンプルの広範囲な手作業による処理の必要性、相当な時間遅延、組織ホメオスタシスの変化、与えられたサンプルに対するコントラスト剤の選択の制限、3Dトモグラフィーの代わりに2Dイメージングなど、いくつかの課題に直面している。 一方、ラベルのない光学技術は、内在的な光学コントラスト機構を利用することによって、外因性および人工マーカーに依存しない。 過去数年間、デジタル染色は、光コントラストから実際の染色の確立された生化学的コントラストへの翻訳に現代のディープラーニングを使用する有望な概念として現れてきた。 本稿では,この分野での現状を詳細に分析し,優れた実践方法を提案し,落とし穴と課題を特定し,将来的な実装やアプリケーションに向けた将来的な進歩を仮定する。

Until recently, conventional biochemical staining had the undisputed status as well-established benchmark for most biomedical problems related to clinical diagnostics, fundamental research and biotechnology. Despite this role as gold-standard, staining protocols face several challenges, such as a need for extensive, manual processing of samples, substantial time delays, altered tissue homeostasis, limited choice of contrast agents for a given sample, 2D imaging instead of 3D tomography and many more. Label-free optical technologies, on the other hand, do not rely on exogenous and artificial markers, by exploiting intrinsic optical contrast mechanisms, where the specificity is typically less obvious to the human observer. Over the past few years, digital staining has emerged as a promising concept to use modern deep learning for the translation from optical contrast to established biochemical contrast of actual stainings. In this review article, we provide an in-depth analysis of the current state-of-the-art in this field, suggest methods of good practice, identify pitfalls and challenges and postulate promising advances towards potential future implementations and applications.
翻訳日:2023-03-16 18:44:55 公開日:2023-03-14
# 深層ニューラルネットワークによる添加物製造用ホール効果スラスタの設計

Hall effect thruster design via deep neural network for additive manufacturing ( http://arxiv.org/abs/2303.08227v1 )

ライセンス: Link先を確認
Konstantin Korolev(参考訳) ホールエフェクト・スラスタは宇宙用の最も汎用的で一般的な電気推進システムの一つである。 惑星間ミッションへの産業動向は、このような推進システムの設計開発において進展する。 ホール効果スラスタの衝突性能は,放電流路の正確なサイズが大きいことが判明した。 このような推進システムの完全な物理モデルはまだ高速計算や設計イテレーションに最適化されていないため、ほとんどのスラスタはいわゆるスケーリング則を用いて設計されている。 しかし、この研究は、文学における通常のスケーリング設計アプローチよりも少ない頻度で概説される、かなり新しいアプローチに焦点を当てている。 ディープラーニングを使用することで、必要な特性を備えた必要なホールスラスタの設計を、スクラッチから設計するよりも計算能力が少なく、従来のスケーリングアプローチよりも柔軟に行うことができる。

Hall effect thrusters are one of the most versatile and popular electric propulsion systems for space use. Industry trends towards interplanetary missions arise advances in design development of such propulsion systems. It is understood that correct sizing of discharge channel in Hall effect thruster impact performance greatly. Since the complete physics model of such propulsion system is not yet optimized for fast computations and design iterations, most thrusters are being designed using so-called scaling laws. But this work focuses on rather novel approach, which is outlined less frequently than ordinary scaling design approach in literature. Using deep machine learning it is possible to create predictive performance model, which can be used to effortlessly get design of required hall thruster with required characteristics using way less computational power than design from scratch and way more flexible than usual scaling approach.
翻訳日:2023-03-16 18:36:29 公開日:2023-03-14
# 曲線運動量空間の美しさ

The beauty of curved momentum space ( http://arxiv.org/abs/2303.08220v1 )

ライセンス: Link先を確認
S. A. Franchino-Vi\~nas, S. Mignemi, J. J. Relancio(参考訳) この写本では、非可換あるいは二重の特殊相対性理論の議論に現れるように、曲線運動量空間の概念について論じる。 反スナイダー空間におけるカシミール効果と二重特殊相対性理論におけるフェルミオンの導入という2つの簡単な例で説明する。 我々は、スペクトル幾何学とホップ代数との非自明な関係を示唆する興味深い結果の存在を指摘する。

In this manuscript, we will discuss the notion of curved momentum space, as it arises in the discussion of noncommutative or doubly special relativity theories. We will illustrate it with two simple examples, the Casimir effect in anti-Snyder space and the introduction of fermions in doubly special relativity. We will point out the existence of intriguing results, which suggest nontrivial connections with spectral geometry and Hopf algebras.
翻訳日:2023-03-16 18:36:13 公開日:2023-03-14
# 局所最適集合分割最適化のための2オプトアルゴリズム

A 2-opt Algorithm for Locally Optimal Set Partition Optimization ( http://arxiv.org/abs/2303.08219v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究は,2つの分割の和の絶対差を最小化することを目的とした,集合分割問題の最適化版を扱う。 この問題はNPハードであることが知られており、解くのに指数時間を要するが、局所最適解を見つけることが目的であるこの問題のより要求の少ないバージョンを提案する。 提案手法では,少なくとも2つの要素の移動に関して局所最適性を検討する。 そこで我々は,少なくとも$O(N^2)$時間と$O(N)$空間で局所最適解を生成するアルゴリズムを開発した。 アルゴリズムは任意の入力精度を処理でき、正あるいは整数入力を必要としない。 したがって、様々な問題シナリオに容易に適用することができる。

Our research deals with the optimization version of the set partition problem, where the objective is to minimize the absolute difference between the sums of the two disjoint partitions. Although this problem is known to be NP-hard and requires exponential time to solve, we propose a less demanding version of this problem where the goal is to find a locally optimal solution. In our approach, we consider the local optimality in respect to any movement of at most two elements. To accomplish this, we developed an algorithm that can generate a locally optimal solution in at most $O(N^2)$ time and $O(N)$ space. Our algorithm can handle arbitrary input precisions and does not require positive or integer inputs. Hence, it can be applied in various problem scenarios with ease.
翻訳日:2023-03-16 18:36:00 公開日:2023-03-14
# 量子コンピューティングのための遺伝子発現プログラミング

Gene Expression Programming for Quantum Computing ( http://arxiv.org/abs/2303.08203v1 )

ライセンス: Link先を確認
Gonzalo Alvarez, Ryan Bennink, Stephan Irle, Jacek Jakowski(参考訳) 我々は、遺伝子表現プログラミング(GEP)を用いた科学計算機プログラムQuantumGEPを導入し、どちらも量子回路を見つける。 (i)所定の入力状態のセットを所定の出力状態のセットにマップする、又は (ii) 固定初期状態を変換して出力状態の所定の物理量を最小限にする。 QuantumGEPは、フリーかつオープンソースであるGEP用の汎用計算エンジンである evendim を使用するドライバプログラムである。 グラフにおけるMaxCutや凝縮物質量子多体ハミルトニアンの強力な解法としてQuantumGEPを適用した。

We introduce QuantumGEP, a scientific computer program that uses gene expression programming (GEP) to find a quantum circuit that either (i) maps a given set of input states to a given set of output states, or (ii) transforms a fixed initial state to minimize a given physical quantity of the output state. QuantumGEP is a driver program that uses evendim, a generic computational engine for GEP, both of which are free and open source. We apply QuantumGEP as a powerful solver for MaxCut in graphs, and for condensed matter quantum many-body Hamiltonians.
翻訳日:2023-03-16 18:35:47 公開日:2023-03-14
# RODD: データキューブにおけるロバスト外乱検出

RODD: Robust Outlier Detection in Data Cubes ( http://arxiv.org/abs/2303.08193v1 )

ライセンス: Link先を確認
Lara Kuhlmann, Daniel Wilmes, Emmanuel M\"uller, Markus Pauly, Daniel Horn(参考訳) データキューブは多次元データベースであり、しばしば複数の別々のデータベースから構築され、データ分析の柔軟な基盤となる。 驚いたことに、データキューブの外れ値検出はまだ広く扱われていない。 本研究では,データキューブ(RODD)におけるロバストな外乱検出手法を評価するための最初のフレームワークを提供する。 そこで我々は,新しいランダムな森林外層検出手法(RODD-RF)を導入し,ロバストな位置推定器に基づく従来手法と比較した。 シミュレーション研究において,テストデータの汎用型を提案し,すべての手法について検討する。 さらに,実世界のデータにROOD-RFを適用した。 その結果,RODD-RFは異常検出の改善につながることが示された。

Data cubes are multidimensional databases, often built from several separate databases, that serve as flexible basis for data analysis. Surprisingly, outlier detection on data cubes has not yet been treated extensively. In this work, we provide the first framework to evaluate robust outlier detection methods in data cubes (RODD). We introduce a novel random forest-based outlier detection approach (RODD-RF) and compare it with more traditional methods based on robust location estimators. We propose a general type of test data and examine all methods in a simulation study. Moreover, we apply ROOD-RF to real world data. The results show that RODD-RF can lead to improved outlier detection.
翻訳日:2023-03-16 18:35:37 公開日:2023-03-14
# 未検出光子イメージングによる熱赤外背景雑音の除去

Eliminating Thermal IR Background Noise by Imaging with Undetected Photons ( http://arxiv.org/abs/2303.08185v1 )

ライセンス: Link先を確認
Yue Ma, Nathan Gemmell, Emma Pearce, Rupert Oulton, Chris Phillips(参考訳) 中赤外線(2.5$\mu$m$\sim$$$$\lambda$$$$\sim$ 25$\mu$m)の分光とイメージングは、室温で300kの強い熱背景の存在によって、可視光線検出器が何十年もの間、容易に達成できないほど不安定になる。 干渉光子対間の量子相関を利用して、スペクトル領域から別のスペクトル領域へ画像情報を転送する手法は、熱背景に免疫的な方法でそれを行うことを示す。 これは、IUPが赤外線中の高速光子計数測定に使えることを意味しており、冷却されていない可視光検出器はIRの何倍も安く、速く、感度が高い。

Spectroscopy and imaging in the mid-infrared (2.5 $\mu$m $\sim$ $\lambda$ $\sim$ 25 $\mu$m) is bedevilled by the presence of a strong 300 K thermal background at room temperature that makes IR detectors decades noisier than can be readily achieved in the visible. The technique of "imaging with undetected photons" (IUP) exploits the quantum correlations between entangled photon pairs to transfer image information from one spectral region to another, and here we show that it does so in a way that is immune to the thermal background. This means that IUP can be used to perform high speed photon counting measurements across the mid-IR, using uncooled visible detectors that are many times cheaper, faster, and more sensitive than their IR counterparts.
翻訳日:2023-03-16 18:35:26 公開日:2023-03-14
# 神経量子状態を持つ二次元系の高分解能スペクトル関数

Highly resolved spectral functions of two-dimensional systems with neural quantum states ( http://arxiv.org/abs/2303.08184v1 )

ライセンス: Link先を確認
Tiago Mendes-Santos, Markus Schmitt and Markus Heyl(参考訳) スペクトル関数は、凝縮物質物理学における実験プローブを理論モデルに結びつける中心である。 しかし、相互作用する量子物質に対する正確な数値計算は、特に1つの空間次元を超える重要な課題である。 本研究では,まず,実空間や運動量空間に局在した励起の動力学シミュレーションに基づいてスペクトル特性を得るために,ニューラル量子状態を用いた多目的かつ数値的精度のアプローチを開発する。 この手法を,ライドバーグ原子配列の複素密度波次数を記述するものを含む,異なる2次元量子イジングモデルの相転移近傍の動的構造因子の計算に適用する。 深層ネットワークアーキテクチャと組み合わせることで,最大2,4\times24$のスピンを持つ配列の動的構造因子を確実に記述できることがわかった。 このアプローチは2次元の相互作用量子格子モデルに広く適用可能であり、それゆえ相関量子物質のスペクトル特性をまだ到達不能な領域で計算する道を開く。

Spectral functions are central to link experimental probes to theoretical models in condensed matter physics. However, performing exact numerical calculations for interacting quantum matter has remained a key challenge especially beyond one spatial dimension. In this work, we develop a versatile and numerically exact approach using neural quantum states to obtain spectral properties based on simulations of the dynamics of excitations initially localized in real or momentum space. We apply this approach to compute the dynamical structure factor in the vicinity of phase transitions of different two-dimensional quantum Ising models, including one that describes the complex density wave orders of Rydberg atom arrays. When combined with deep network architectures we find that our method reliably describes dynamical structure factors of arrays with up to $24\times24$ spins, including the diverging time scales at critical points. Our approach is broadly applicable to interacting quantum lattice models in two dimensions and consequently opens up a route to compute spectral properties of correlated quantum matter in yet inaccessible regimes.
翻訳日:2023-03-16 18:35:07 公開日:2023-03-14
# Allegro-Legato: シャープネス認識最小化によるスケーラブルで高速でロバストなニューラルネットワーク量子分子動力学

Allegro-Legato: Scalable, Fast, and Robust Neural-Network Quantum Molecular Dynamics via Sharpness-Aware Minimization ( http://arxiv.org/abs/2303.08169v1 )

ライセンス: Link先を確認
Hikaru Ibayashi, Taufeq Mohammed Razakh, Liqiu Yang, Thomas Linker, Marco Olguin, Shinnosuke Hattori, Ye Luo, Rajiv K. Kalia, Aiichiro Nakano, Ken-ichi Nomura, and Priya Vashishta(参考訳) 機械学習に基づくニューラルネットワーク量子分子動力学(nnqmd)シミュレーションは、量子力学的正確性を提供するが、マグニチュードのオーダーは速く、acm gordon bell prize (2020) と finalist (2021) によって示されている。 回転同値と局所記述子を含む群論に基づく最先端(SOTA)NNQMDモデルはこれらのモデルよりもはるかに精度と速度を提供しており、Alregro(高速)と名付けられた。 しかし、超並列スーパーコンピュータでは、原子間力の非物理的予測の数が増加し、より多くの原子が長期間にわたって関与するシミュレーションが禁止される、忠実スケーリング問題に悩まされている。 本稿では,allegroモデルとシャープネス認識最小化(sam)を組み合わせることで,損失景観の滑らかさを改善することにより,モデルのロバスト性を向上させる。 結果として得られたallegro-legatoモデルは、計算速度や精度を犠牲にすることなく、時間から失敗までの$t_\textrm{failure}$を刺激することを示した。 特に、allegro-legato は問題サイズに対する timei-to-failure のより弱い依存を示す: $t_{\textrm{failure}} \propto n^{-0.14}$ (n$ is the number of atoms) sota allegro モデル $\left(t_{\textrm{failure}} \propto n^{-0.29}\right)$,すなわち系統的にタイム・トゥ・フェイルを遅らせる。 このモデルは、Argonne Leadership Computing FacilityのPolarisスーパーコンピュータ上で、優れた計算スケーラビリティとGPUアクセラレーションを示す。 このようなスケーラブルで正確で高速で堅牢なnnqmdモデルは、アンモニアの動力学における核量子効果を考慮に入れて、新興のexaflop/sコンピュータのnnqmdシミュレーションに広く応用される可能性が高い。

Neural-network quantum molecular dynamics (NNQMD) simulations based on machine learning are revolutionizing atomistic simulations of materials by providing quantum-mechanical accuracy but orders-of-magnitude faster, illustrated by ACM Gordon Bell prize (2020) and finalist (2021). State-of-the-art (SOTA) NNQMD model founded on group theory featuring rotational equivariance and local descriptors has provided much higher accuracy and speed than those models, thus named Allegro (meaning fast). On massively parallel supercomputers, however, it suffers a fidelity-scaling problem, where growing number of unphysical predictions of interatomic forces prohibits simulations involving larger numbers of atoms for longer times. Here, we solve this problem by combining the Allegro model with sharpness aware minimization (SAM) for enhancing the robustness of model through improved smoothness of the loss landscape. The resulting Allegro-Legato (meaning fast and "smooth") model was shown to elongate the time-to-failure $t_\textrm{failure}$, without sacrificing computational speed or accuracy. Specifically, Allegro-Legato exhibits much weaker dependence of timei-to-failure on the problem size, $t_{\textrm{failure}} \propto N^{-0.14}$ ($N$ is the number of atoms) compared to the SOTA Allegro model $\left(t_{\textrm{failure}} \propto N^{-0.29}\right)$, i.e., systematically delayed time-to-failure, thus allowing much larger and longer NNQMD simulations without failure. The model also exhibits excellent computational scalability and GPU acceleration on the Polaris supercomputer at Argonne Leadership Computing Facility. Such scalable, accurate, fast and robust NNQMD models will likely find broad applications in NNQMD simulations on emerging exaflop/s computers, with a specific example of accounting for nuclear quantum effects in the dynamics of ammonia.
翻訳日:2023-03-16 18:34:48 公開日:2023-03-14
# 監視型散逸ランダム回路の統計力学

Statistical Mechanics of Monitored Dissipative Random Circuits ( http://arxiv.org/abs/2303.08152v1 )

ライセンス: Link先を確認
Yue Li, Martin Claassen(参考訳) 消散は現実的な量子回路では避けられない。 計測誘起の絡み合い位相遷移を示す無作為回路のクラスに対する散逸の影響について検討する。 この遷移は、以前は有効な古典スピンモデルの秩序から秩序への遷移として理解されていた。 このマッピングは、デファッシンと自然放出チャネルによって記述されたオンサイト消散を含むよう拡張し、$\mathbb{Z}_2$-symmetric-breaking 相互作用で対応する2次元イジングモデルを研究する。 本研究では, 相互情報の動的状態を分析し, 監視した測定値と散逸値の連成動作が, 異なる古典的領域壁構成間の交叉で理解可能な短時間, 中間時間, 定常状態の挙動をもたらすことを確かめる。 提示された解析は、監視された開またはリンドブラッド量子系に適用され、現実的な散逸設定と小さな達成可能なシステムサイズにおける絡み合いダイナミクスを理解するツールを提供する。

Dissipation is inevitable in realistic quantum circuits. We examine the effects of dissipation on a class of monitored random circuits that exhibit a measurement-induced entanglement phase transition. This transition has previously been understood as an order-to-disorder transition of an effective classical spin model. We extend this mapping to include on-site dissipation described by the dephasing and spontaneous emission channel and study the corresponding 2D Ising model with $\mathbb{Z}_2$-symmetry-breaking interactions. We analyze the dynamical regimes of the mutual information and find that the joint action of monitored measurements and dissipation yields short time, intermediate time and steady state behavior that can be understood in terms of crossovers between different classical domain wall configurations. The presented analysis applies to monitored open or Lindbladian quantum systems and provides a tool to understand entanglement dynamics in realistic dissipative settings and small achievable system sizes.
翻訳日:2023-03-16 18:33:54 公開日:2023-03-14
# 集束化学空間における自動特許抽出パワー生成モデル

Automated patent extraction powers generative modeling in focused chemical spaces ( http://arxiv.org/abs/2303.08272v1 )

ライセンス: Link先を確認
Akshay Subramanian, Kevin Greenman, Alexis Gervaix, Tzuhsiung Yang, Rafael G\'omez-Bombarelli(参考訳) 深層生成モデルは逆分子設計のエキサイティングな道として登場し、訓練アルゴリズムと分子表現の相互作用から進歩している。 材料科学と化学に適用可能な重要な課題の1つは、プロパティラベルを持つ大規模トレーニングデータセットにアクセスできないことだ。 出版される特許は、ジャーナルに掲載される前に新しい素材を初めて開示することを含み、データ駆動分子設計の分野では比較的未知の科学知識の膨大な情報源である。 特定の用途を保護するために特許が出願されるため、特許の分子はアプリケーションクラスに弱いラベルを付けることができる。 さらに、米国特許商標庁(uspto)が発行する特許はダウンロード可能であり、機械可読テキストおよび分子構造を有する。 本研究では,USPTO特許のデジタルファイルから,人間の介入を最小限に抑えた新規候補を生成するための自動パイプラインを開発することで,特許データソースを用いたドメイン固有生成モデルを訓練する。 本手法は,有機エレクトロニクスとチロシンキナーゼ阻害薬の2種類のin-class抽出データセットでテストした。 次に、これらのクラス内データセットでトレーニングされた生成モデルの能力(分散学習とプロパティ最適化)を評価し、強みと限界を特定し、実際にこれらを克服するために使用できる説明と改善を提案する。

Deep generative models have emerged as an exciting avenue for inverse molecular design, with progress coming from the interplay between training algorithms and molecular representations. One of the key challenges in their applicability to materials science and chemistry has been the lack of access to sizeable training datasets with property labels. Published patents contain the first disclosure of new materials prior to their publication in journals, and are a vast source of scientific knowledge that has remained relatively untapped in the field of data-driven molecular design. Because patents are filed seeking to protect specific uses, molecules in patents can be considered to be weakly labeled into application classes. Furthermore, patents published by the US Patent and Trademark Office (USPTO) are downloadable and have machine-readable text and molecular structures. In this work, we train domain-specific generative models using patent data sources by developing an automated pipeline to go from USPTO patent digital files to the generation of novel candidates with minimal human intervention. We test the approach on two in-class extracted datasets, one in organic electronics and another in tyrosine kinase inhibitors. We then evaluate the ability of generative models trained on these in-class datasets on two categories of tasks (distribution learning and property optimization), identify strengths and limitations, and suggest possible explanations and remedies that could be used to overcome these in practice.
翻訳日:2023-03-16 18:24:43 公開日:2023-03-14
# R^2: モデル圧縮と量子化のためのレンジ正規化

R^2: Range Regularization for Model Compression and Quantization ( http://arxiv.org/abs/2303.08253v1 )

ライセンス: Link先を確認
Arnav Kundu, Chungkuk Yoo, Srijan Mishra, Minsik Cho, Saurabh Adya(参考訳) モデルパラメータの正規化は一般化を改善するために広く使われる手法であるが、様々な目的のために重量分布を形作るのにも用いられる。 そこで本研究では,モデル量子化と圧縮技術に重み正規化が有効であることを示すとともに,外乱防止に着目してモデル最適化の品質をさらに向上する範囲正規化(R^2)を提案する。 分布から最小および最大重量値を効果的に制御することにより、モデル圧縮および量子化技術が制限された数値表現力を有効活用できるように、全体分布をタイトな形状に成形する。 l-inf正則化,拡張マージン正則化,および全精度モデルトレーニングにおける正則化損失として使用される新しいソフトミン正則化を導入する。 最先端の量子化と圧縮技術と組み合わせて、R^2で訓練されたモデルは平均で、特に16倍圧縮比の低ビット重みでより良く動作する。 また、R^2はMobileNetV1のようなパラメータ制約付きモデルに役立ち、2ビット量子化では8%、1ビット圧縮では7%の大幅な改善を実現している。

Model parameter regularization is a widely used technique to improve generalization, but also can be used to shape the weight distributions for various purposes. In this work, we shed light on how weight regularization can assist model quantization and compression techniques, and then propose range regularization (R^2) to further boost the quality of model optimization by focusing on the outlier prevention. By effectively regulating the minimum and maximum weight values from a distribution, we mold the overall distribution into a tight shape so that model compression and quantization techniques can better utilize their limited numeric representation powers. We introduce L-inf regularization, its extension margin regularization and a new soft-min-max regularization to be used as a regularization loss during full-precision model training. Coupled with state-of-the-art quantization and compression techniques, models trained with R^2 perform better on an average, specifically at lower bit weights with 16x compression ratio. We also demonstrate that R^2 helps parameter constrained models like MobileNetV1 achieve significant improvement of around 8% for 2 bit quantization and 7% for 1 bit compression.
翻訳日:2023-03-16 18:24:20 公開日:2023-03-14
# 高次元マルチビュークラスタリング法

High-dimensional multi-view clustering methods ( http://arxiv.org/abs/2303.08582v1 )

ライセンス: Link先を確認
Alaeddine Zahir, Khalide Jbilou, Ahmed Ratnani(参考訳) マルチビュークラスタリングは、データに対するより多くの洞察を提供し、これらのビューや機能を組み合わせる方法など、いくつかの課題をもたらしているため、シングルビュークラスタリングと比較して、近年広く使用されている。 この分野での最近の研究のほとんどは、データを単純な行列として扱うのではなく、主にテンソル表現に焦点を当てている。 これにより、ベースマトリックスアプローチが捕捉に苦労するデータ間の高次相関を扱うことができる。 したがって、特にグラフベースのクラスタリングとサブスペースベースのクラスタリングという2つのカテゴリでこれらのアプローチを調査し比較する。 ベンチマークデータセット上で,主要なクラスタリング手法の実験を行い,報告する。

Multi-view clustering has been widely used in recent years in comparison to single-view clustering, for clear reasons, as it offers more insights into the data, which has brought with it some challenges, such as how to combine these views or features. Most of recent work in this field focuses mainly on tensor representation instead of treating the data as simple matrices. This permits to deal with the high-order correlation between the data which the based matrix approach struggles to capture. Accordingly, we will examine and compare these approaches, particularly in two categories, namely graph-based clustering and subspace-based clustering. We will conduct and report experiments of the main clustering methods over a benchmark datasets.
翻訳日:2023-03-16 18:06:21 公開日:2023-03-14
# 量子スイッチを用いた量子通信の改善

Improvement in quantum communication using quantum switch ( http://arxiv.org/abs/2108.14001v5 )

ライセンス: Link先を確認
Arindam Mitra, Himanshu Badhani, Sibasish Ghosh(参考訳) 量子スイッチの量子チャネルへの応用は近年、激しい議論の的となっている。 本研究では,量子ランダムアクセスコードや量子ステアリングなど,いくつかの情報理論的なタスクに対して,量子スイッチの動作下で有用な通信を提供する(通信用)チャネルを提案する。 また,コヒーレンス破壊チャネルのみが通信チャネルである場合,量子スイッチはシステム内のコヒーレンス損失を防ぐのにも有用であることを示す。 また,有意義な量子チャネルが,量子スイッチを用いても有益な通信を提供していない場合,他の適切な量子チャネルとチャネルを連結し,その後,有益な通信を行うことができることを示す。 最後に、量子スイッチにおけるノイズの導入によって、スイッチが提供する利点を低減できる方法について論じる。

Applications of the quantum switch on quantum channels have recently become a topic of intense discussion. In the present work, we show that some useless (for communication) channels may provide useful communication under the action of quantum switch for several information-theoretic tasks: quantum random access codes, quantum steering, etc. We demonstrate that the quantum switch can also be useful in preventing the loss of coherence in a system when only coherence-breaking channels are the available channels for communication. We also show that if a useless quantum channel does not provide useful communication even after using a quantum switch, concatenating the channel with another suitable quantum channel, and subsequently using the switch, one may achieve useful communication. Finally, we discuss how the introduction of noise in the quantum switch can reduce the advantage that the switch provides.
翻訳日:2023-03-16 15:59:58 公開日:2023-03-14
# Equitable AI Research Roundtable (EARR): 責任AI開発におけるコミュニティベースの意思決定に向けて

The Equitable AI Research Roundtable (EARR): Towards Community-Based Decision Making in Responsible AI Development ( http://arxiv.org/abs/2303.08177v1 )

ライセンス: Link先を確認
Jamila Smith-Loud, Andrew Smart, Darlene Neal, Amber Ebinama, Eric Corbett, Paul Nicholas, Qazi Rashid, Anne Peckham, Sarah Murphy-Gray, Nicole Morris, Elisha Smith Arrillaga, Nicole-Marie Cotton, Emnet Almedom, Olivia Araiza, Eliza McCullough, Abbie Langston, Christopher Nellum(参考訳) 本稿は、法律、教育、コミュニティエンゲージメント、社会正義、テクノロジーの専門家の連合体であるThe Equitable AI Research Roundtableの最初の評価について報告する。 EARRは、ハイテク企業、非営利団体、NGO研究機関、大学と共同で開発され、テクノロジーの創発的な倫理的・社会的害に対する重要な研究の視点とフィードバックを提供する。 大規模なIT企業における半構造化されたワークショップと議論を通じて、EARRは、AI技術に関連するエクイティと脆弱性を概念化する方法について、批判的な視点とフィードバックを提供してきた。 我々は、これまでearrがどのように運営されてきたか、特にfacctコミュニティの懸念と関係している3つの原則を概説する: earrがai開発における専門知識の範囲を拡大するか、認識論的好奇心と責任の機会をいかに育成するか、相互学習の場を作ること。 本稿では,このエンゲージメントアプローチを通じて学んだ教訓の分析と翻訳,そして今後の研究の可能性について論じる。

This paper reports on our initial evaluation of The Equitable AI Research Roundtable -- a coalition of experts in law, education, community engagement, social justice, and technology. EARR was created in collaboration among a large tech firm, nonprofits, NGO research institutions, and universities to provide critical research based perspectives and feedback on technology's emergent ethical and social harms. Through semi-structured workshops and discussions within the large tech firm, EARR has provided critical perspectives and feedback on how to conceptualize equity and vulnerability as they relate to AI technology. We outline three principles in practice of how EARR has operated thus far that are especially relevant to the concerns of the FAccT community: how EARR expands the scope of expertise in AI development, how it fosters opportunities for epistemic curiosity and responsibility, and that it creates a space for mutual learning. This paper serves as both an analysis and translation of lessons learned through this engagement approach, and the possibilities for future research.
翻訳日:2023-03-16 15:52:47 公開日:2023-03-14
# 人工材料のための人工知能:moir\'e atom

Artificial intelligence for artificial materials: moir\'e atom ( http://arxiv.org/abs/2303.08162v1 )

ライセンス: Link先を確認
Di Luo, Aidan P. Reddy, Trithep Devakul, and Liang Fu(参考訳) 原子的に薄いファンデルワールスヘテロ構造におけるMoir\'eエンジニアリングは、設計特性を持つ人工量子材料を生成する。 2次元フェルミオンニューラルネットワークを用いて、moir\e超格子ポテンシャル最小(moir\e原子)に閉じ込められた相互作用電子の多体問題を解く。 異方性moir\'eポテンシャルと組み合わされた強いクーロン相互作用は,走査型トンネル顕微鏡で観察可能な"wigner molecule"電荷密度分布に繋がることを示した。

Moir\'e engineering in atomically thin van der Waals heterostructures creates artificial quantum materials with designer properties. We solve the many-body problem of interacting electrons confined to a moir\'e superlattice potential minimum (the moir\'e atom) using a 2D fermionic neural network. We show that strong Coulomb interactions in combination with the anisotropic moir\'e potential lead to striking ``Wigner molecule" charge density distributions observable with scanning tunneling microscopy.
翻訳日:2023-03-16 15:52:27 公開日:2023-03-14
# グラフニューラルネットワークによるフェアグラフフィルタリング

Graph Neural Network Surrogates of Fair Graph Filtering ( http://arxiv.org/abs/2303.08157v1 )

ライセンス: Link先を確認
Emmanouil Krasanakis, Symeon Papadopulos(参考訳) 先行ノード値から後続スコアに変換するグラフフィルタは、リコメンデーションやランキングなど、人間に影響を与えるグラフマイニングタスクをサポートすることが多い。 したがって、ノード群間の統計的パリティ制約(例えば、その表現に比例して性別間でスコアの質量を分配する)を満たす観点から、それらを公平にすることが重要である。 元の後方を最小限に摂動しながらこれを実現するため,後方目標に対するフィルタ対応普遍近似フレームワークを提案する。 これは、実行時にフィルタに類似するようにトレーニングされた適切なグラフニューラルネットワークを定義すると同時に、フェアネスを認識できるものを含む、大きな目的のクラスをローカルに最適化する。 8つのフィルタと5つのグラフの集合に対する実験により、我々のアプローチは、スコアベースのコミュニティメンバー推薦のAUCを維持しつつ、事前拡散の最小限のユーティリティ損失を発生させながら、パリティ制約を満たす方法よりも同等かそれ以上に優れていることが示された。

Graph filters that transform prior node values to posterior scores via edge propagation often support graph mining tasks affecting humans, such as recommendation and ranking. Thus, it is important to make them fair in terms of satisfying statistical parity constraints between groups of nodes (e.g., distribute score mass between genders proportionally to their representation). To achieve this while minimally perturbing the original posteriors, we introduce a filter-aware universal approximation framework for posterior objectives. This defines appropriate graph neural networks trained at runtime to be similar to filters but also locally optimize a large class of objectives, including fairness-aware ones. Experiments on a collection of 8 filters and 5 graphs show that our approach performs equally well or better than alternatives in meeting parity constraints while preserving the AUC of score-based community member recommendation and creating minimal utility loss in prior diffusion.
翻訳日:2023-03-16 15:52:16 公開日:2023-03-14
# 畳み込みオートエンコーダを用いた多重線形混合モデルに基づく非線形ハイパースペクトルアンミキシング

Nonlinear Hyperspectral Unmixing based on Multilinear Mixing Model using Convolutional Autoencoders ( http://arxiv.org/abs/2303.08156v1 )

ライセンス: Link先を確認
Tingting Fang, Fei Zhu and Jie Chen(参考訳) 教師なしスペクトルの混合は、各観測されたピクセルを、エンドメンバーと呼ばれるいくつかの純粋な物質と対応する分数分数の組み合わせとして表現する。 線形仮定を超えて、従来の最適化アルゴリズムやディープラーニング技術によって解決される最適化問題とともに、様々な非線形混合モデルが提案されている。 現在のディープラーニングに基づく非線形混合は、加法、双線型に基づく定式化におけるモデルに焦点を当てている。 離散マルコフ連鎖を用いて反射過程を解釈することにより、マルチ線形混合モデル(MLM)はエンドメンバー間の無限次相互作用をうまく説明できる。 しかし、ニューラルネットワークによるMLMの物理過程を明示的にシミュレートすることは、これまでアプローチされていない難しい問題である。 本稿では,MLMに基づく教師なしアンミキシングのための新しいオートエンコーダネットワークを提案する。 ネットワーク設計の精巧な利点により、すべてのモデルパラメータ間の関係、つまり、エンドメンバー、存在量、遷移確率パラメータは明示的にモデル化される。 MLM-1DAEはピクセル単位のスペクトル情報のみを考慮し、MLM-3DAEは入力パッチ内のスペクトル-空間相関を利用する。 合成データと実データの両方を用いた実験により,MLMの古典的解に対する競合性能を実現するため,提案手法の有効性が示された。

Unsupervised spectral unmixing consists of representing each observed pixel as a combination of several pure materials called endmembers with their corresponding abundance fractions. Beyond the linear assumption, various nonlinear unmixing models have been proposed, with the associated optimization problems solved either by traditional optimization algorithms or deep learning techniques. Current deep learning-based nonlinear unmixing focuses on the models in additive, bilinear-based formulations. By interpreting the reflection process using the discrete Markov chain, the multilinear mixing model (MLM) successfully accounts for the up to infinite-order interactions between endmembers. However, to simulate the physics process of MLM by neural networks explicitly is a challenging problem that has not been approached by far. In this article, we propose a novel autoencoder-based network for unsupervised unmixing based on MLM. Benefitting from an elaborate network design, the relationships among all the model parameters {\em i.e.}, endmembers, abundances, and transition probability parameters are explicitly modeled. There are two modes: MLM-1DAE considers only pixel-wise spectral information, and MLM-3DAE exploits the spectral-spatial correlations within input patches. Experiments on both the synthetic and real datasets demonstrate the effectiveness of the proposed method as it achieves competitive performance to the classic solutions of MLM.
翻訳日:2023-03-16 15:51:57 公開日:2023-03-14
# ランダムゲートアクティベーションを用いた変分量子アルゴリズムの訓練

Training variational quantum algorithms with random gate activation ( http://arxiv.org/abs/2303.08154v1 )

ライセンス: Link先を確認
Shuo Liu, Shi-Xin Zhang, Shao-Kai Jian, Hong Yao(参考訳) 変分量子アルゴリズム(VQA)は、短期的応用に大きな可能性を秘めており、実用的なタスクにおいて量子優位性を達成することを約束している。 しかしながら、VQAは深刻な不毛の高原問題に悩まされており、局所的なミニマに閉じ込められる可能性も高い。 本稿では,この2つの問題を効率的に解くために,VQAのランダムな量子ゲートアクティベーションを用いた新しいトレーニングアルゴリズムを提案する。 このアルゴリズムは, 従来の最適化手法よりも効果的にトレーニングパラメータを減らし, 同じ表現能力でバレン高原を効率的に緩和する。 さらに、回路アンサッツに2ビットゲートをランダムに付加することにより、最適化トラジェクトリは局所的なミニマから脱出し、ランダム性のより多くのソースによりより頻繁に世界最小に達することができる。 実際の量子実験では、新しいトレーニングアルゴリズムは必要な量子計算リソースを削減し、量子ノイズの回復力を高めることができる。 我々は,地中における変分量子シミュレーション問題を解くためのトレーニングアルゴリズムを適用し,バレン高原の緩和,局所ミニマからの脱出,および量子ノイズの影響の低減と組み合わせて,より良い性能を実現する新しい戦略の利点を示す説得力のある結果を示す。 さらに、RAトレーニングがこれほど効果的である理由の一つとして、絡み合い相転移が考えられる。

Variational quantum algorithms (VQAs) hold great potentials for near-term applications and are promising to achieve quantum advantage on practical tasks. However, VQAs suffer from severe barren plateau problem as well as have a large probability of being trapped in local minima. In this Letter, we propose a novel training algorithm with random quantum gate activation for VQAs to efficiently address these two issues. This new algorithm processes effectively much fewer training parameters than the conventional plain optimization strategy, which efficiently mitigates barren plateaus with the same expressive capability. Additionally, by randomly adding two-qubit gates to the circuit ansatz, the optimization trajectories can escape from local minima and reach the global minimum more frequently due to more sources of randomness. In real quantum experiments, the new training algorithm can also reduce the quantum computational resources required and be more quantum noise resilient. We apply our training algorithm to solve variational quantum simulation problems for ground states and present convincing results that showcase the advantages of our novel strategy where better performance is achieved by the combination of mitigating barren plateaus, escaping from local minima, and reducing the effect of quantum noises. We further propose that the entanglement phase transition could be one underlying reason why our RA training is so effective.
翻訳日:2023-03-16 15:51:35 公開日:2023-03-14
# DeepAxe: DNN加速器の近似と信頼性トレードオフを探索するフレームワーク

DeepAxe: A Framework for Exploration of Approximation and Reliability Trade-offs in DNN Accelerators ( http://arxiv.org/abs/2303.08226v1 )

ライセンス: Link先を確認
Mahdi Taheri, Mohammad Riazati, Mohammad Hasan Ahmadilivani, Maksim Jenihhin, Masoud Daneshtalab, Jaan Raik, Mikael Sjodin, and Bjorn Lisper(参考訳) 幅広い安全クリティカルなアプリケーションにおけるDeep Neural Networks(DNN)の役割は拡大しつつあるが、新しいDNNは計算能力の面で大きな成長を遂げている。 これにより、DNNアクセラレータの信頼性向上の必要性が高まるが、ハードウェアプラットフォーム上での計算負担、すなわち、エネルギー消費と実行時間を削減し、DNNアクセラレータの効率を向上する。 そのため、ハードウェア性能、すなわち領域、電力と遅延、およびdnnアクセラレータの実装の信頼性とのトレードオフが重要となり、分析ツールが必要となる。 本稿では,DNNのFPGAによる実装のための設計空間探索のためのDeepAxeフレームワークを提案する。 このフレームワークは信頼性クリティカルなDNNを選択的に近似し,Pareto-Optimal DNN実装設計点のセットを目標資源利用要求に対して提供する。 設計フローは、Kerasのトレーニング済みネットワークから始まり、革新的な高レベル合成環境であるDeepHLSを使用し、設計者のためのガイドとしてパレート最適設計点のセットを生成する。 このフレームワークは、カスタムおよび最先端のDNNとデータセットのケーススタディで実証されている。

While the role of Deep Neural Networks (DNNs) in a wide range of safety-critical applications is expanding, emerging DNNs experience massive growth in terms of computation power. It raises the necessity of improving the reliability of DNN accelerators yet reducing the computational burden on the hardware platforms, i.e. reducing the energy consumption and execution time as well as increasing the efficiency of DNN accelerators. Therefore, the trade-off between hardware performance, i.e. area, power and delay, and the reliability of the DNN accelerator implementation becomes critical and requires tools for analysis. In this paper, we propose a framework DeepAxe for design space exploration for FPGA-based implementation of DNNs by considering the trilateral impact of applying functional approximation on accuracy, reliability and hardware performance. The framework enables selective approximation of reliability-critical DNNs, providing a set of Pareto-optimal DNN implementation design space points for the target resource utilization requirements. The design flow starts with a pre-trained network in Keras, uses an innovative high-level synthesis environment DeepHLS and results in a set of Pareto-optimal design space points as a guide for the designer. The framework is demonstrated in a case study of custom and state-of-the-art DNNs and datasets.
翻訳日:2023-03-16 15:43:48 公開日:2023-03-14
# グラフ制約住宅生成のためのグラフトランスフォーマガン

Graph Transformer GANs for Graph-Constrained House Generation ( http://arxiv.org/abs/2303.08225v1 )

ライセンス: Link先を確認
Hao Tang, Zhenyu Zhang, Humphrey Shi, Bo Li, Ling Shao, Nicu Sebe, Radu Timofte, Luc Van Gool(参考訳) 本稿では,グラフに制約のある住宅生成タスクにおいて,効率的なグラフノード関係をエンドツーエンドで学習するための新しいグラフ変換器生成対向ネットワーク(GTGAN)を提案する。 提案するグラフトランスフォーマベースの生成器は、グラフ畳み込みと自己結合を組み合わせた新しいグラフトランスフォーマエンコーダを含み、接続されたグラフノードと非接続グラフノード間の局所的および大域的な相互作用をモデル化する。 具体的には,nna(connected node attention)とnna(non-connected node attention)は,それぞれ入力グラフ内の接続ノードと非接続ノード間のグローバル関係を捉えることを目的としている。 提案するグラフモデリングブロック(GMB)は,住宅レイアウトトポロジに基づく局所頂点相互作用の活用を目的としている。 さらに,異なる住宅部品に対する高レベルな意味的特徴と識別的特徴を保持するノード分類に基づく識別器を提案する。 最後に,基礎的真理と予測的グラフとの相対的空間的関係を維持することを目的とした,新しいグラフベースサイクルコンシスタンス損失を提案する。 2つの公的なデータセットを用いた2つの挑戦的グラフ制約住宅生成タスク(すなわち住宅レイアウトと屋根生成)の実験は、客観的な定量的スコアと主観的視覚リアリズムの観点からgtganの有効性を示している。 新しい最先端の結果は、両方のタスクにおいて大きなマージンで確立される。

We present a novel graph Transformer generative adversarial network (GTGAN) to learn effective graph node relations in an end-to-end fashion for the challenging graph-constrained house generation task. The proposed graph-Transformer-based generator includes a novel graph Transformer encoder that combines graph convolutions and self-attentions in a Transformer to model both local and global interactions across connected and non-connected graph nodes. Specifically, the proposed connected node attention (CNA) and non-connected node attention (NNA) aim to capture the global relations across connected nodes and non-connected nodes in the input graph, respectively. The proposed graph modeling block (GMB) aims to exploit local vertex interactions based on a house layout topology. Moreover, we propose a new node classification-based discriminator to preserve the high-level semantic and discriminative node features for different house components. Finally, we propose a novel graph-based cycle-consistency loss that aims at maintaining the relative spatial relationships between ground truth and predicted graphs. Experiments on two challenging graph-constrained house generation tasks (i.e., house layout and roof generation) with two public datasets demonstrate the effectiveness of GTGAN in terms of objective quantitative scores and subjective visual realism. New state-of-the-art results are established by large margins on both tasks.
翻訳日:2023-03-16 15:43:25 公開日:2023-03-14
# サイト非依存型メタラーニングと脳mriを用いた自閉症スペクトラム障害の数少ない分類

Few-Shot Classification of Autism Spectrum Disorder using Site-Agnostic Meta-Learning and Brain MRI ( http://arxiv.org/abs/2303.08224v1 )

ライセンス: Link先を確認
Nikhil J. Dhinagar, Vignesh Santhalingam, Katherine E. Lawrence, Emily Laltoo, Paul M. Thompson(参考訳) 医学イメージングにおける機械学習応用では、トレーニングデータの可用性が制限されることが多く、自閉症スペクトラム障害(asd)などの微妙な条件に対する放射線分類器の設計が阻害される。 転送学習は、低トレーニングデータレジームのこの問題に対処する1つの方法である。 ここでは,複数のサイトから事前データを取得するという文脈で,非常に低いデータレジームに対するメタラーニングの利用について検討する。 複数のタスクにまたがってモデルを最適化するメタ学習の有効性に触発されて,複数のサイトをまたがって学習するフレームワークを提案する。 自閉症の脳画像データ交換(abide)の一環として,38ヶ所の画像サイトから採取した2,201 t1-w(t1-w)のmriスキャンにおいて,asdを分類するためのメタラーニングモデルを開発した。 本手法は,利用可能な限られたデータを微調整することで,新しい未確認サイトからのデータに迅速に適応できるモデルの初期化状態を求めるために訓練された。 提案手法は, 2-way 20-shot を用いて, ABIDEの未確認サイト7箇所から370件のスキャンを行い, ROC-AUC=0.857を達成した。 その結果,より広い範囲のサイトや関連する先行研究を一般化することで,移動学習のベースラインを達成できた。 また、追加の微調整なしに、独立したテストサイトでゼロショット設定でモデルをテストしました。 本研究は,多地点異質性を伴うニューロイメージング課題に対して,トレーニングデータの可用性を制限した,サイト非依存なメタラーニングフレームワークを提案する。

For machine learning applications in medical imaging, the availability of training data is often limited, which hampers the design of radiological classifiers for subtle conditions such as autism spectrum disorder (ASD). Transfer learning is one method to counter this problem of low training data regimes. Here we explore the use of meta-learning for very low data regimes in the context of having prior data from multiple sites - an approach we term site-agnostic meta-learning. Inspired by the effectiveness of meta-learning for optimizing a model across multiple tasks, here we propose a framework to adapt it to learn across multiple sites. We tested our meta-learning model for classifying ASD versus typically developing controls in 2,201 T1-weighted (T1-w) MRI scans collected from 38 imaging sites as part of Autism Brain Imaging Data Exchange (ABIDE) [age: 5.2-64.0 years]. The method was trained to find a good initialization state for our model that can quickly adapt to data from new unseen sites by fine-tuning on the limited data that is available. The proposed method achieved an ROC-AUC=0.857 on 370 scans from 7 unseen sites in ABIDE using a few-shot setting of 2-way 20-shot i.e., 20 training samples per site. Our results outperformed a transfer learning baseline by generalizing across a wider range of sites as well as other related prior work. We also tested our model in a zero-shot setting on an independent test site without any additional fine-tuning. Our experiments show the promise of the proposed site-agnostic meta-learning framework for challenging neuroimaging tasks involving multi-site heterogeneity with limited availability of training data.
翻訳日:2023-03-16 15:42:59 公開日:2023-03-14
# アルツハイマー病検出のための構造MRIスキャンを用いた視覚変換器の訓練

Efficiently Training Vision Transformers on Structural MRI Scans for Alzheimer's Disease Detection ( http://arxiv.org/abs/2303.08216v1 )

ライセンス: Link先を確認
Nikhil J. Dhinagar, Sophia I. Thomopoulos, Emily Laltoo and Paul M. Thompson(参考訳) 大集団の神経イメージングは、脳疾患を促進または抵抗する因子を同定し、診断、サブタイプ、予後を助けるのに有用である。 畳み込みニューラルネットワーク(cnns)のようなデータ駆動モデルは、堅牢な特徴を学習することで診断と予後のタスクを実行するために脳画像にますます適用されている。 vision transformers (vit) - ディープラーニングアーキテクチャの新しいクラス - は近年、いくつかのコンピュータビジョンアプリケーションのためのcnnの代替として登場している。 そこで我々は,3次元脳MRIに基づく性差とアルツハイマー病(AD)分類の難易度に基づいて,所望の脳画像下流タスクに対するViTアーキテクチャの変種を検証した。 実験では,2種類の視覚トランスフォーマーアーキテクチャが,性別で0.987,AD分類で0.892のAUCを達成した。 2つのベンチマークADデータセットから得られたデータに基づいてモデルを独立に評価した。 合成(潜時拡散モデルにより生成)と実MRIスキャンを併用した微調整型視覚トランスフォーマーモデルを用いて, 5%, 9-10%の性能向上を実現した。 我々の主な貢献は、神経画像領域に関して、トレーニング前、データ拡張、学習率ウォームアップなどの異なるViTトレーニング戦略の効果のテストである。 これらの技術は、通常、トレーニングデータが制限されている神経イメージング応用のためのViTライクなモデルのトレーニングに不可欠である。 また、データモデルスケーリング曲線を用いて、トレーニングデータの利用量がViTのテスト時間性能に与える影響を解析した。

Neuroimaging of large populations is valuable to identify factors that promote or resist brain disease, and to assist diagnosis, subtyping, and prognosis. Data-driven models such as convolutional neural networks (CNNs) have increasingly been applied to brain images to perform diagnostic and prognostic tasks by learning robust features. Vision transformers (ViT) - a new class of deep learning architectures - have emerged in recent years as an alternative to CNNs for several computer vision applications. Here we tested variants of the ViT architecture for a range of desired neuroimaging downstream tasks based on difficulty, in this case for sex and Alzheimer's disease (AD) classification based on 3D brain MRI. In our experiments, two vision transformer architecture variants achieved an AUC of 0.987 for sex and 0.892 for AD classification, respectively. We independently evaluated our models on data from two benchmark AD datasets. We achieved a performance boost of 5% and 9-10% upon fine-tuning vision transformer models pre-trained on synthetic (generated by a latent diffusion model) and real MRI scans, respectively. Our main contributions include testing the effects of different ViT training strategies including pre-training, data augmentation and learning rate warm-ups followed by annealing, as pertaining to the neuroimaging domain. These techniques are essential for training ViT-like models for neuroimaging applications where training data is usually limited. We also analyzed the effect of the amount of training data utilized on the test-time performance of the ViT via data-model scaling curves.
翻訳日:2023-03-16 15:42:32 公開日:2023-03-14
# プライバシーラベルの概要とプライバシーポリシーとの互換性

The Overview of Privacy Labels and their Compatibility with Privacy Policies ( http://arxiv.org/abs/2303.08213v1 )

ライセンス: Link先を確認
Rishabh Khandelwal, Asmit Nayak, Paul Chung and Kassem Fawaz(参考訳) プライバシー栄養ラベルは、長く読みにくいプライバシーポリシーを読むことなく、アプリの重要なデータプラクティスを理解する方法を提供する。 最近、ios(apple)とandroid(google)のアプリ配布プラットフォームは、アプリ開発者にデータ収集、データ共有、セキュリティプラクティスなどのプライバシプラクティスを強調するプライバシー栄養ラベルを満たさなければならないという義務を課している。 これらのプライバシラベルには、各データタイプに関連するデータタイプや目的など、アプリのデータプラクティスに関する非常に詳細な情報が含まれている。 これにより、アプリケーションのデータプラクティスを大規模に理解するための、ユニークなヴァンテージポイントが得られます。

Privacy nutrition labels provide a way to understand an app's key data practices without reading the long and hard-to-read privacy policies. Recently, the app distribution platforms for iOS(Apple) and Android(Google) have implemented mandates requiring app developers to fill privacy nutrition labels highlighting their privacy practices such as data collection, data sharing, and security practices. These privacy labels contain very fine-grained information about the apps' data practices such as the data types and purposes associated with each data type. This provides us with a unique vantage point from which we can understand apps' data practices at scale.
翻訳日:2023-03-16 15:42:04 公開日:2023-03-14
# 離散計算モデルによる無限量子井戸に閉じ込められた自由粒子の研究

Free particle trapped in an infinite quantum well examined through the discrete calculus model ( http://arxiv.org/abs/2303.08212v1 )

ライセンス: Link先を確認
Du\v{s}an Popov(参考訳) 離散的なアプローチを用いて、自由粒子に対するシュル・オーディンガーとブロッホ方程式と有限幅の無限量子井戸に埋め込まれた自由粒子の量子気体を解く。 離散の場合、エネルギー固有値、固有関数、密度行列および分割関数の式を得る。 連続量子力学の極限を適用して、連続可変量子力学における対応する結果を回復する。

We use the discrete approach to solve the Schr\"odinger as well as the Bloch equations for a free particle and the quantum gas of free particles embedded in an infinite quantum well with the finite width. We obtain the expressions of energy eigenvalues, the eigenfunctions as well as the density matrix and partition function for the discrete case. By applying the continuous quantum mechanics limit we recover the corresponding results in the continuous-variable quantum mechanics.
翻訳日:2023-03-16 15:41:54 公開日:2023-03-14
# 転送の帰納バイアスを忘れてはならないだろうか?

Is forgetting less a good inductive bias for forward transfer? ( http://arxiv.org/abs/2303.08207v1 )

ライセンス: Link先を確認
Jiefeng Chen, Timothy Nguyen, Dilan Gorur, Arslan Chaudhry(参考訳) 継続的学習を研究する主な動機の1つは、問題設定によってモデルが過去のタスクから知識を得て、より効率的に新しいタスクを学ぶことができることである。 しかし、近年の研究では、連続学習アルゴリズムが破滅的忘れを最適化する鍵となる指標は、知識の転送と相関していないことが示唆されている。 これまでの成果は、転送先を測る方法によるものだと考えています。 我々は,タスクへの前方移動の尺度は,従来のタスクの知識を維持するために,継続学習者に課される制約の影響を受けない,と論じる。 代わりに、フォワード転送は、以前のタスクで連続的な学習によって生成された表現のセットから新しいタスクを学ぶのがいかに簡単かによって測定されるべきである。 このフォワードトランスファーの概念の下で,様々な画像分類ベンチマークを用いて連続学習アルゴリズムを評価する。 その結果, 忘れやすい表現は, 過去の情報保持と学習効率の相関関係が強いことを示唆し, 転送効率が向上することが示された。 さらに, 忘れやすい表現は, 忘れやすい表現に比べて多様性と差別性が低いことがわかった。

One of the main motivations of studying continual learning is that the problem setting allows a model to accrue knowledge from past tasks to learn new tasks more efficiently. However, recent studies suggest that the key metric that continual learning algorithms optimize, reduction in catastrophic forgetting, does not correlate well with the forward transfer of knowledge. We believe that the conclusion previous works reached is due to the way they measure forward transfer. We argue that the measure of forward transfer to a task should not be affected by the restrictions placed on the continual learner in order to preserve knowledge of previous tasks. Instead, forward transfer should be measured by how easy it is to learn a new task given a set of representations produced by continual learning on previous tasks. Under this notion of forward transfer, we evaluate different continual learning algorithms on a variety of image classification benchmarks. Our results indicate that less forgetful representations lead to a better forward transfer suggesting a strong correlation between retaining past information and learning efficiency on new tasks. Further, we found less forgetful representations to be more diverse and discriminative compared to their forgetful counterparts.
翻訳日:2023-03-16 15:41:47 公開日:2023-03-14
# 磁気共鳴画像のコントラスト調和のための拡散モデル

Diffusion Models for Contrast Harmonization of Magnetic Resonance Images ( http://arxiv.org/abs/2303.08189v1 )

ライセンス: Link先を確認
Alicia Durrer, Julia Wolleb, Florentin Bieder, Tim Sinnecker, Matthias Weigel, Robin Sandk\"uhler, Cristina Granziera, \"Ozg\"ur Yaldizli, Philippe C. Cattin(参考訳) 複数のソースからのMR画像は、取得設定や使用されるスキャナータイプに関連する画像コントラストの違いがしばしば示される。 長期的な研究においては、縦方向のコンパラビリティは不可欠であるが、これらのコントラストの違いによって損なわれ、自動評価ツールを用いた場合のバイアスが生じる。 本研究ではコントラスト調和のための拡散モデルに基づくアプローチを提案する。 多発性硬化症患者18例と健康管理22例のスキャンデータを用いた。 各被験者は磁場強度の異なる2つのMRスキャナー(1.5Tと3T)でスキャンされ、結果としてスキャナー間の相違を示すペアデータセットが得られた。 3tから1.5t、1.5tから1.5tの両方向の目標コントラストからの画像をマッピングする。解剖学的情報ではなくコントラストのみを変更したいので、元の画像を用いて構造情報を付加して画像から画像への変換プロセスをガイドする。 目的は、マッピングされたスキャンが下流タスクの目標コントラストのスキャンとの互換性を高めることである。 本手法は,脳脊髄液,灰白質,白質のセグメンテーション課題に対する評価を行う。 本手法はマッピングの両方向に対して良好かつ一貫した結果を得る。

Magnetic resonance (MR) images from multiple sources often show differences in image contrast related to acquisition settings or the used scanner type. For long-term studies, longitudinal comparability is essential but can be impaired by these contrast differences, leading to biased results when using automated evaluation tools. This study presents a diffusion model-based approach for contrast harmonization. We use a data set consisting of scans of 18 Multiple Sclerosis patients and 22 healthy controls. Each subject was scanned in two MR scanners of different magnetic field strengths (1.5 T and 3 T), resulting in a paired data set that shows scanner-inherent differences. We map images from the source contrast to the target contrast for both directions, from 3 T to 1.5 T and from 1.5 T to 3 T. As we only want to change the contrast, not the anatomical information, our method uses the original image to guide the image-to-image translation process by adding structural information. The aim is that the mapped scans display increased comparability with scans of the target contrast for downstream tasks. We evaluate this method for the task of segmentation of cerebrospinal fluid, grey matter and white matter. Our method achieves good and consistent results for both directions of the mapping.
翻訳日:2023-03-16 15:41:29 公開日:2023-03-14
# 自動車両誘導のための機械学習による車両横方向制御

Vehicle lateral control using Machine Learning for automated vehicle guidance ( http://arxiv.org/abs/2303.08187v1 )

ライセンス: Link先を確認
Akash Fogla, Kanish Kumar, Sunnay Saurav, Bishnu ramanujan(参考訳) 意思決定の不確実性は、現実世界で動作する安全クリティカルなシステムに使用される機械学習モデルにおいて重要である。 したがって、CPSの安全な運用には、優雅な方法で不確実性を扱うことが重要である。 本研究では,機械学習モデルを用いて車両の側方制御系を設計する。 この目的のために,アンサンブルモデルとディープニューラルネットワークモデルであるランダムフォレストモデルをトレーニングする。 ランダム森林モデルにおけるアンサンブルにより、予測における信頼/不確実性を予測できる。 シミュレーターの1トラックで車を走らせ、他のトラックでテストしたデータに基づいて、コントローラをトレーニングします。 信頼性の予測により、いつコントローラが予測に自信がなく、必要に応じて制御されるのかを判断できる。 We have two results to share: first, even on a very small number of labeled data, a very good generalization capability of the random forest-based regressor in comparison with a deep neural network and accordingly random forest controller can drive on another similar track, where the deep neural network-based model fails to drive, and second confidence in predictions in random forest controller makes it possible to let us know when the controller is not confident in prediction and likely to fail. しきい値を作成することで、コントローラが安全ではなく、ディープニューラルネットワークベースのコントローラに欠けている場合に制御を行うことが可能になる。

Uncertainty in decision-making is crucial in the machine learning model used for a safety-critical system that operates in the real world. Therefore, it is important to handle uncertainty in a graceful manner for the safe operation of the CPS. In this work, we design a vehicle's lateral controller using a machine-learning model. To this end, we train a random forest model that is an ensemble model and a deep neural network model. Due to the ensemble in the random forest model, we can predict the confidence/uncertainty in the prediction. We train our controller on data generated from running the car on one track in the simulator and tested it on other tracks. Due to prediction in confidence, we could decide when the controller is less confident in prediction and takes control if needed. We have two results to share: first, even on a very small number of labeled data, a very good generalization capability of the random forest-based regressor in comparison with a deep neural network and accordingly random forest controller can drive on another similar track, where the deep neural network-based model fails to drive, and second confidence in predictions in random forest controller makes it possible to let us know when the controller is not confident in prediction and likely to fail. By creating a threshold, it was possible to take control when the controller is not safe and that is missing in a deep neural network-based controller.
翻訳日:2023-03-16 15:41:08 公開日:2023-03-14
# MEDBERT.de: 医学領域のための総合的なドイツのBERTモデル

MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain ( http://arxiv.org/abs/2303.08179v1 )

ライセンス: Link先を確認
Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann and Florian Borchert and Lisa C. Adams and Leonhard Liu and Felix Busch and Lina Xu and Jan P. Loyen and Stefan M. Niehues and Moritz Augustin and Lennart Grosser and Marcus R. Makowski and Hugo JWL. Aerts and Alexander L\"oser(参考訳) 本稿では,ドイツ医学領域に特化して設計された,事前訓練型ドイツのBERTモデルであるmedBERT.deについて述べる。 このモデルは470万のドイツの医療文書の大規模なコーパスで訓練されており、幅広い規律と医療文書のタイプをカバーする8つの異なる医療ベンチマークにおいて、新しい最先端のパフォーマンスを達成することが示されている。 本論文は,モデル全体の性能を評価することに加えて,その機能についてより詳細な分析を行う。 本研究では,データ重複がモデルの性能に与える影響と,より効率的なトークン化手法を使用することによる潜在的メリットについて検討する。 以上の結果から, medbert.de のようなドメイン固有モデルは長文に特に有用であり, トレーニングデータの重複は必ずしも性能の向上につながるとは限らない。 さらに,効率の良いトークン化はモデルの性能向上に小さな役割しか果たさないことを見出し,改善した性能のほとんどを大量のトレーニングデータに分類した。 さらなる研究を促進するために、事前訓練されたモデルウェイトと放射線データに基づく新しいベンチマークが科学コミュニティによって公開されている。

This paper presents medBERT.de, a pre-trained German BERT model specifically designed for the German medical domain. The model has been trained on a large corpus of 4.7 Million German medical documents and has been shown to achieve new state-of-the-art performance on eight different medical benchmarks covering a wide range of disciplines and medical document types. In addition to evaluating the overall performance of the model, this paper also conducts a more in-depth analysis of its capabilities. We investigate the impact of data deduplication on the model's performance, as well as the potential benefits of using more efficient tokenization methods. Our results indicate that domain-specific models such as medBERT.de are particularly useful for longer texts, and that deduplication of training data does not necessarily lead to improved performance. Furthermore, we found that efficient tokenization plays only a minor role in improving model performance, and attribute most of the improved performance to the large amount of training data. To encourage further research, the pre-trained model weights and new benchmarks based on radiological data are made publicly available for use by the scientific community.
翻訳日:2023-03-16 15:40:41 公開日:2023-03-14
# hyperspectral image segmentation: the oral and dental spectral image database (odsi-db) に関する予備的検討

Hyperspectral Image Segmentation: A Preliminary Study on the Oral and Dental Spectral Image Database (ODSI-DB) ( http://arxiv.org/abs/2303.08252v1 )

ライセンス: Link先を確認
Luis C. Garcia-Peraza-Herrera, Conor Horgan, Sebastien Ourselin, Michael Ebner, Tom Vercauteren(参考訳) 臨床組織タイプの視覚的な識別は依然として困難であり、従来のrgbイメージングはそのようなタスクのコントラストが限られている。 ハイパースペクトルイメージング(HSI)は、3チャンネルのRGBイメージングをはるかに超えるスペクトル情報を提供する有望な技術である。 さらに,最近開発されたスナップショットHSIカメラにより,臨床応用の可能性の高いリアルタイム撮像が可能となった。 それにもかかわらず, セグメンテーション目的のRGB画像に対するHSIの相対的性能に関する調査は, 特に医用画像の文脈において限られている。 本稿では,ハイパースペクトラル画像,rgb画像,ハイパースペクトラル画素(非空間的コンテキスト),rgb画素(空間的コンテキストを無視する)の学習における,最先端のディープラーニング画像分割手法の性能を比較する。 そこで本研究では, 歯科用反射スペクトル画像データベース (odsi-db) を, 被験者30名に35種類の分類を施した手作業による215個の歯科用反射スペクトル画像から構成した。 近年のスナップショットHSIカメラの開発により、リアルタイム臨床HSIの可能性が明らかになってきたが、その適用には、HSIが提供する追加情報に関する包括的な理解が必要である。 本研究は,hsiカメラの開発を指導し,将来的なhsi応用を知らせるために,スペクトル分解能,スペクトル範囲,空間情報の相対的重要性を強調した。

Visual discrimination of clinical tissue types remains challenging, with traditional RGB imaging providing limited contrast for such tasks. Hyperspectral imaging (HSI) is a promising technology providing rich spectral information that can extend far beyond three-channel RGB imaging. Moreover, recently developed snapshot HSI cameras enable real-time imaging with significant potential for clinical applications. Despite this, the investigation into the relative performance of HSI over RGB imaging for semantic segmentation purposes has been limited, particularly in the context of medical imaging. Here we compare the performance of state-of-the-art deep learning image segmentation methods when trained on hyperspectral images, RGB images, hyperspectral pixels (minus spatial context), and RGB pixels (disregarding spatial context). To achieve this, we employ the recently released Oral and Dental Spectral Image Database (ODSI-DB), which consists of 215 manually segmented dental reflectance spectral images with 35 different classes across 30 human subjects. The recent development of snapshot HSI cameras has made real-time clinical HSI a distinct possibility, though successful application requires a comprehensive understanding of the additional information HSI offers. Our work highlights the relative importance of spectral resolution, spectral range, and spatial information to both guide the development of HSI cameras and inform future clinical HSI applications.
翻訳日:2023-03-16 15:34:46 公開日:2023-03-14
# 回復型生涯学習のための視覚トランスフォーマーにおける人工海馬育成のための学習

Learning to Grow Artificial Hippocampi in Vision Transformers for Resilient Lifelong Learning ( http://arxiv.org/abs/2303.08250v1 )

ライセンス: Link先を確認
Chinmay Savadikar, Michelle Dai, Tianfu Wu(参考訳) 人間の知能によって保持される破滅的な記憶(レジリエンス)のない生涯学習は、脳の洗練された記憶機構、特にヒッポカンピが維持する長期記憶(LM)と絡み合っている。 ある程度の間、トランスフォーマーは人工知能(ai)の「脳」に相当するものとして登場してきたが、lmコンポーネントは生涯学習設定のために未熟のまま残されている。 本稿では,視覚変換器(ViT)における人工海馬(ArtiHippo)の学習方法を提案する。 包括的アブレーション研究により, マルチヘッド自己アテンション(MHSA)ブロックにおける最終線形プロジェクション層がArtiHippoの実現と成長において選択される。 ArtiHippoは専門家(MoEs)によって表現される。 各専門家コンポーネントは、ニューラルネットワーク検索(nas)を通じて維持されるリニアプロジェクション層のオンサイト版であり、スキップ、再利用、適応、生涯学習の新たな4つの基本的な成長操作によって定義された検索空間である。 タスクのlmは、nasによって学習されたvitの異なる層における専用のエキスパートコンポーネント(モデルパラメータとして)と、エキスパートコンポーネントに関連する平均クラストケント(タスクの類似性を測定するために格納された潜在ベクトルとして)の2つの部分からなる。 新しい課題として, 階層型タスク類似性指向探索-探索-探索サンプリングに基づくNASを提案する。 タスクの類似度は、新しいタスクの平均クラストケンと古いタスクの平均の正常化コサイン類似度に基づいて測定される。 提案手法はvitsを用いた生涯学習を補完するものである。 実験において、提案手法は挑戦的なvisual domain decathlon(vdd)ベンチマークと最近提案された5つのデータセットベンチマークでテストされている。 相変わらず学び続ける有能なアーティヒッポよりも一貫して優れたパフォーマンスを得る。

Lifelong learning without catastrophic forgetting (i.e., resiliency) possessed by human intelligence is entangled with sophisticated memory mechanisms in the brain, especially the long-term memory (LM) maintained by Hippocampi. To a certain extent, Transformers have emerged as the counterpart ``Brain" of Artificial Intelligence (AI), and yet leave the LM component under-explored for lifelong learning settings. This paper presents a method of learning to grow Artificial Hippocampi (ArtiHippo) in Vision Transformers (ViTs) for resilient lifelong learning. With a comprehensive ablation study, the final linear projection layer in the multi-head self-attention (MHSA) block is selected in realizing and growing ArtiHippo. ArtiHippo is represented by a mixture of experts (MoEs). Each expert component is an on-site variant of the linear projection layer, maintained via neural architecture search (NAS) with the search space defined by four basic growing operations -- skip, reuse, adapt, and new in lifelong learning. The LM of a task consists of two parts: the dedicated expert components (as model parameters) at different layers of a ViT learned via NAS, and the mean class-tokens (as stored latent vectors for measuring task similarity) associated with the expert components. For a new task, a hierarchical task-similarity-oriented exploration-exploitation sampling based NAS is proposed to learn the expert components. The task similarity is measured based on the normalized cosine similarity between the mean class-token of the new task and those of old tasks. The proposed method is complementary to prompt-based lifelong learningwith ViTs. In experiments, the proposed method is tested on the challenging Visual Domain Decathlon (VDD) benchmark and the recently proposed 5-Dataset benchmark. It obtains consistently better performance than the prior art with sensible ArtiHippo learned continually.
翻訳日:2023-03-16 15:34:22 公開日:2023-03-14
# 機械学習を用いた探索空間学習によるシステム設計空間探索

Systematic design space exploration by learning the explored space using Machine Learning ( http://arxiv.org/abs/2303.08249v1 )

ライセンス: Link先を確認
Avinash Kumar, Anish Kumar, Sumit Sharma, Surjeet Singh, Kumar Vardhan(参考訳) ユークリッド空間におけるパラメータ空間探索の現在の実践はランダム化サンプリングや実験手法の設計によって支配されている。 これらの方法の最大の問題は、パラメータ空間のどの部分が探索され、何が探索されていないかを追跡しないことである。 この文脈では、現代の機械学習手法を用いて探索されたデータ空間の幾何学的学習を利用して、未探索領域から既に探索済みの領域とサンプルを追跡する。 この目的のために、我々は、他のヒューリスティックなアプローチとともに、ロバストなランダムカット森林の修正版を使用する。 本手法と2次元ユークリッド空間におけるその進行を実演するが、基礎となる手法が一般的であるため任意の次元に拡張できる。

Current practice in parameter space exploration in euclidean space is dominated by randomized sampling or design of experiment methods. The biggest issue with these methods is not keeping track of what part of parameter space has been explored and what has not. In this context, we utilize the geometric learning of explored data space using modern machine learning methods to keep track of already explored regions and samples from the regions that are unexplored. For this purpose, we use a modified version of a robust random-cut forest along with other heuristic-based approaches. We demonstrate our method and its progression in two-dimensional Euclidean space but it can be extended to any dimension since the underlying method is generic.
翻訳日:2023-03-16 15:33:47 公開日:2023-03-14
# 多次元ストリーミング時系列の最適サンプリング設計と電力グリッドセンサデータへの応用

Optimal Sampling Designs for Multi-dimensional Streaming Time Series with Application to Power Grid Sensor Data ( http://arxiv.org/abs/2303.08242v1 )

ライセンス: Link先を確認
Rui Xie, Shuyang Bai and Ping Ma(参考訳) モノのインターネット(IoT)システムは、時間的に相関した巨大な高速なストリーミングデータを生成し、しばしば計算やエネルギーの制約の下でオンライン推論タスクと結びついている。 これらのストリーミング時系列データのオンライン分析は、しばしば統計効率と計算コストのトレードオフに直面します。 このトレードオフのバランスをとるための重要なアプローチはサンプリングであり、モデルの適合と更新のためにサンプルのごく一部だけを選択する。 本研究は,IoTシステムの動的関係解析の要求により,多次元ストリーミング時系列におけるデータ依存型サンプル選択とオンライン推論問題について検討し,高速電力グリッド電力消費データの低コストリアルタイム分析を提供することを目的とする。 実験設計におけるd-optimality criterionに着想を得て,最適サンプリング基準を達成し,オンライン解析の計算効率を向上させるオンラインデータ低減手法を提案する。 最適解はベルヌーイサンプリングとスコアサンプリングを混合した戦略であることを示す。 レバレッジスコアサンプリングは、再帰的最小二乗更新よりも計算上有利な補助的な推定を含む。 関連する補助推定の理論的性質についても考察する。 ヨーロッパの電力グリッド消費データに適用すると,オンライン推定と予測において,スコアベースサンプリング手法がベンチマークサンプリング法を上回っている。 サンプリング支援オンライン推定法の適用性をシミュレーション研究により評価した。

The Internet of Things (IoT) system generates massive high-speed temporally correlated streaming data and is often connected with online inference tasks under computational or energy constraints. Online analysis of these streaming time series data often faces a trade-off between statistical efficiency and computational cost. One important approach to balance this trade-off is sampling, where only a small portion of the sample is selected for the model fitting and update. Motivated by the demands of dynamic relationship analysis of IoT system, we study the data-dependent sample selection and online inference problem for a multi-dimensional streaming time series, aiming to provide low-cost real-time analysis of high-speed power grid electricity consumption data. Inspired by D-optimality criterion in design of experiments, we propose a class of online data reduction methods that achieve an optimal sampling criterion and improve the computational efficiency of the online analysis. We show that the optimal solution amounts to a strategy that is a mixture of Bernoulli sampling and leverage score sampling. The leverage score sampling involves auxiliary estimations that have a computational advantage over recursive least squares updates. Theoretical properties of the auxiliary estimations involved are also discussed. When applied to European power grid consumption data, the proposed leverage score based sampling methods outperform the benchmark sampling method in online estimation and prediction. The general applicability of the sampling-assisted online estimation method is assessed via simulation studies.
翻訳日:2023-03-16 15:33:36 公開日:2023-03-14
# データ駆動レーダ目標定位のためのサブスペース摂動解析

Subspace Perturbation Analysis for Data-Driven Radar Target Localization ( http://arxiv.org/abs/2303.08241v1 )

ライセンス: Link先を確認
Shyam Venkatasubramanian, Sandeep Gogineni, Bosung Kang, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh(参考訳) 近年のアダプティブレーダにおける古典的問題に対するデータ駆動型アプローチの探索研究は,レーダターゲットのローカライゼーションに関する有望な成果を示している。 時空間適応処理(STAP)技術と畳み込みニューラルネットワークの使用により、これらのデータ駆動型アプローチは、マッチしたシナリオに対するニューラルネットワークのパフォーマンスのベンチマークに役立っている。 しかし、これらのトピックがミスマッチしたシナリオにまたがって徹底的な橋渡しはいまだに未解決の問題である。 そこで本研究では,提案したディープラーニングフレームワークのローカライズ精度を,ミスマッチしたシナリオ間でベンチマークすることができる部分空間摂動解析を行うことにより,レーダターゲットのローカライズに対するデータ駆動アプローチを強化する。 このフレームワークを評価するために,高忠実度サイト固有モデリングおよびシミュレーションツールrfviewを介して,不整合制約領域に可変強度の目標をランダムに配置することにより,包括的なデータセットを生成する。 これらの制約領域からのレーダリターンに対しては、正規化適応マッチングフィルタ(namf)テスト統計を用いて、範囲、方位、標高のヒートマップテンソルを生成する。 畳み込みニューラルネットワークを用いて,これらの熱マップテンソルからターゲット位置を推定し,ミスマッチの存在下でのフレームワークの予測性能を推定できることを実証する。

Recent works exploring data-driven approaches to classical problems in adaptive radar have demonstrated promising results pertaining to the task of radar target localization. Via the use of space-time adaptive processing (STAP) techniques and convolutional neural networks, these data-driven approaches to target localization have helped benchmark the performance of neural networks for matched scenarios. However, the thorough bridging of these topics across mismatched scenarios still remains an open problem. As such, in this work, we augment our data-driven approach to radar target localization by performing a subspace perturbation analysis, which allows us to benchmark the localization accuracy of our proposed deep learning framework across mismatched scenarios. To evaluate this framework, we generate comprehensive datasets by randomly placing targets of variable strengths in mismatched constrained areas via RFView, a high-fidelity, site-specific modeling and simulation tool. For the radar returns from these constrained areas, we generate heatmap tensors in range, azimuth, and elevation using the normalized adaptive matched filter (NAMF) test statistic. We estimate target locations from these heatmap tensors using a convolutional neural network, and demonstrate that the predictive performance of our framework in the presence of mismatches can be predetermined.
翻訳日:2023-03-16 15:33:16 公開日:2023-03-14
# 点クラウドのためのパラメトリック表面制約アップサンプラーネットワーク

Parametric Surface Constrained Upsampler Network for Point Cloud ( http://arxiv.org/abs/2303.08240v1 )

ライセンス: Link先を確認
Pingping Cai and Zhenyao Wu and Xinyi Wu and Song Wang(参考訳) スパースポイント表現を与えられたクリーンで高密度なポイントクラウドを生成することを目的としたポイントクラウドアップサンプラーの設計は、コンピュータビジョンにおける根本的な挑戦的な問題である。 一連の試みは、ディープニューラルネットワークを介してポイントツーポイントマッピング関数を確立することによって、この目標を達成する。 しかし、これらのアプローチは表面レベルの明示的な制約が欠如しているため、異常点を生じやすい。 この問題を解決するために,ニューラルネットワークにバイコビック関数と回転関数で表されるパラメトリック曲面を学習させ,そこで新たに生成された点を基底面に拘束することにより,新しいサーフェス正規化器をアップサンプラーネットワークに導入する。 これらの設計は、2つの異なるネットワークに統合され、レイヤポイントクラウドのアップサンプリングとポイントクラウドのコンプリートによる評価の利点を活かす。 両課題の最先端実験結果から,提案手法の有効性が示された。 実装コードはhttps://github.com/corecai163/PSCUで公開される。

Designing a point cloud upsampler, which aims to generate a clean and dense point cloud given a sparse point representation, is a fundamental and challenging problem in computer vision. A line of attempts achieves this goal by establishing a point-to-point mapping function via deep neural networks. However, these approaches are prone to produce outlier points due to the lack of explicit surface-level constraints. To solve this problem, we introduce a novel surface regularizer into the upsampler network by forcing the neural network to learn the underlying parametric surface represented by bicubic functions and rotation functions, where the new generated points are then constrained on the underlying surface. These designs are integrated into two different networks for two tasks that take advantages of upsampling layers - point cloud upsampling and point cloud completion for evaluation. The state-of-the-art experimental results on both tasks demonstrate the effectiveness of the proposed method. The implementation code will be available at https://github.com/corecai163/PSCU.
翻訳日:2023-03-16 15:32:56 公開日:2023-03-14
# 異方性3準位系における散逸ランドウ・ツェナー遷移のダイナミクス

Dynamics of dissipative Landau-Zener transitions in an anisotropic three-level system ( http://arxiv.org/abs/2303.08234v1 )

ライセンス: Link先を確認
Lixing Zhang, Lu Wang, Maxim F. Gelin, Yang Zhao(参考訳) 非等方的散逸3段階モデル(3-lzm)におけるランダウ・ツェナー遷移のダイナミクスを,時間依存変動の枠組みにおける数値的高精度多重ダヴィドフ d2 ansatzを用いて検討した。 3LZMが線形外部場によって駆動される場合,ランダウ-ツェナー遷移確率とフォノン結合強度との間には非単調な関係が存在することが実証された。 周期的駆動場の影響下、フォノンカップリングは、系の異方性の大きさがフォノン周波数と一致する場合、遷移確率の輪郭プロットのピークを誘導する。 3-lzmの動力学は周期的駆動場によって駆動される超オーミックフォノン浴の存在下でも研究されている。 ラビサイクルの周期と振幅はバスカップリング強度の増加とともに指数関数的に減少することが判明した。

We investigate the dynamics of Landau-Zener transitions in an anisotropic, dissipative three-level model (3-LZM) using the numerically accurate multiple Davydov D2 Ansatz in the framework of time-dependent variation. It is demonstrated that a non-monotonic relationship exists between the Landau-Zener transition probability and the phonon coupling strength when the 3-LZM is driven by a linear external field. Under the influence of a periodic driving field, phonon coupling may induce peaks in contour plots of the transition probability when the magnitude of the system anisotropy matches the phonon frequency. Dynamics of the 3-LZM have also been probed in the presence of a super-ohmic phonon bath when driven by a periodic driving field. It is found that both the period and the amplitude of the Rabi cycle decay exponentially with the increasing bath coupling strength.
翻訳日:2023-03-16 15:32:36 公開日:2023-03-14
# NL4Optコンペティション:自然言語記述に基づく最適化問題の定式化

NL4Opt Competition: Formulating Optimization Problems Based on Their Natural Language Descriptions ( http://arxiv.org/abs/2303.08233v1 )

ライセンス: Link先を確認
Rindranirina Ramamonjison, Timothy T. Yu, Raymond Li, Haley Li, Giuseppe Carenini, Bissan Ghaddar, Shiqi He, Mahdi Mostajabdaveh, Amin Banitalebi-Dehkordi, Zirui Zhou, Yong Zhang(参考訳) 最適化のための自然言語(NL4Opt)コンペティションは、そのテキスト記述に基づいて最適化問題の意味と定式化を抽出する方法を検討するために作成された。 具体的には、非専門家が自然言語を使って対話できるようにすることで、最適化ソルバのアクセシビリティとユーザビリティを高めることを目的としている。 この課題を,(1)最適化問題の構成要素に対応する意味的エンティティを認識・ラベル付けすること,(2)検出された問題エンティティから問題の意味表現(論理形式)を生成すること,の2つのサブタスクに分けた。 最初の課題は、最適化問題の実体を検出し、タグ付けすることで曖昧さを減らすことである。 第2のタスクは、線形プログラミング(LP)問題の中間表現を生成し、商用の問題解決者によって使用できる形式に変換する。 本稿では,LP単語問題データセットとNeurIPS 2022コンペティションの共有タスクについて述べる。 さらに, 勝利の解決策を提案する。 このコンペティションを通じて、最適化モデリングのための新しい機械学習アプリケーションやデータセットの開発に関心を寄せたいと思っています。

The Natural Language for Optimization (NL4Opt) Competition was created to investigate methods of extracting the meaning and formulation of an optimization problem based on its text description. Specifically, the goal of the competition is to increase the accessibility and usability of optimization solvers by allowing non-experts to interface with them using natural language. We separate this challenging goal into two sub-tasks: (1) recognize and label the semantic entities that correspond to the components of the optimization problem; (2) generate a meaning representation (i.e., a logical form) of the problem from its detected problem entities. The first task aims to reduce ambiguity by detecting and tagging the entities of the optimization problems. The second task creates an intermediate representation of the linear programming (LP) problem that is converted into a format that can be used by commercial solvers. In this report, we present the LP word problem dataset and shared tasks for the NeurIPS 2022 competition. Furthermore, we present the winning solutions. Through this competition, we hope to bring interest towards the development of novel machine learning applications and datasets for optimization modeling.
翻訳日:2023-03-16 15:32:19 公開日:2023-03-14
# 点雲マッチングのための回転不変変圧器

Rotation-Invariant Transformer for Point Cloud Matching ( http://arxiv.org/abs/2303.08231v1 )

ライセンス: Link先を確認
Hao Yu, Zheng Qin, Ji Hou, Mahdi Saleh, Dongsheng Li, Benjamin Busam, Slobodan Ilic(参考訳) 内在的な回転不変性は、手作りのディスクリプタと一致する点雲の中核にあるが、最近のディープマッカーのほとんどによって軽蔑されている。 代替として、データ拡張によって外因的に回転不変性を得る。 しかし、連続な SO(3) 空間は有限個の増進回転によって覆われることはなく、その結果、ほとんど見られない対向回転の不安定性が生じる。 そこで,本稿では,ポイントクラウドマッチングタスクのポーズ変化に対応する回転不変変圧器roitrを紹介する。 我々は地域レベルとグローバルレベルの両方に貢献する。 局所的なレベルから、新しいアテンションベースのエンコーダデコーダを構成するポーズ不変幾何を記述するために、ポイントペア特徴(PPF)ベースの座標を組み込んだアテンション機構を導入する。 さらに,自己認識機構によって学習された回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。 厳密なベンチマークと非厳密なベンチマークの両方で実験が行われ、RoITrは低い重なり合いのシナリオにおいて、すべての最先端モデルよりかなり優れている。 特に、挑戦的な3DLoMatchベンチマークでローテーションが拡大されると、RoITrはInlier RatioとRegistration Recallのそれぞれで、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。

The intrinsic rotation invariance lies at the core of matching point clouds with handcrafted descriptors, but it is despised by most of the recent deep matchers. As an alternative, they obtain the rotation invariance extrinsically via data augmentation. However, the continuous SO(3) space can never be covered by the finite number of augmented rotations, resulting in their instability when facing rotations that are rarely seen. To this end, we introduce RoITr, a Rotation-Invariant Transformer to cope with the pose variations in the point cloud matching task. We contribute both on the local and global levels. Starting from the local level, we introduce an attention mechanism embedded with Point Pair Feature (PPF)-based coordinates to describe the pose-invariant geometry, upon which a novel attention-based encoder-decoder is constructed. We further propose a global transformer with rotation-invariant cross-frame spatial awareness learned by the self-attention mechanism, which significantly improves the feature distinctiveness and makes the model robust with respect to the low overlap. Experiments are conducted on both the rigid and non-rigid public benchmarks, where RoITr outperforms all the state-of-the-art models by a considerable margin in the low-overlapping scenarios. Especially when the rotations are enlarged on the challenging 3DLoMatch benchmark, RoITr surpasses the existing methods by at least 13 and 5 percentage points in terms of the Inlier Ratio and the Registration Recall, respectively.
翻訳日:2023-03-16 15:31:59 公開日:2023-03-14
# ディープニューラルネットワークを用いたベイズベータ・ベルヌーリプロセススパース符号化

Bayesian Beta-Bernoulli Process Sparse Coding with Deep Neural Networks ( http://arxiv.org/abs/2303.08230v1 )

ライセンス: Link先を確認
Arunesh Mittal, Kai Yang, Paul Sajda, John Paisley(参考訳) 深部離散潜在変数モデルに対する近似推論法が提案されている。 しかし、従来は古典的なスパース符号化モデルでうまく用いられてきた非パラメトリック法は、深層モデルの文脈でほとんど研究されていない。 このような深層モデルの離散潜在表現を学習するための非パラメトリック反復アルゴリズムを提案する。 さらに, スケール不変な離散的特徴を学習するために, 局所データスケーリング変数を提案する。 最後に,我々の表現のスパース性を促進するために,潜在因子に先立ってβ-ベルヌーリ法を提案する。 我々は、異なる確率モデルと組み合わされたスペア符号化モデルを評価する。 本手法は,特徴の異なるデータセットをまたいで評価し,現在の近似推定法と比較する。

Several approximate inference methods have been proposed for deep discrete latent variable models. However, non-parametric methods which have previously been successfully employed for classical sparse coding models have largely been unexplored in the context of deep models. We propose a non-parametric iterative algorithm for learning discrete latent representations in such deep models. Additionally, to learn scale invariant discrete features, we propose local data scaling variables. Lastly, to encourage sparsity in our representations, we propose a Beta-Bernoulli process prior on the latent factors. We evaluate our spare coding model coupled with different likelihood models. We evaluate our method across datasets with varying characteristics and compare our results to current amortized approximate inference methods.
翻訳日:2023-03-16 15:31:31 公開日:2023-03-14
# GeoSpark: Geometry Clueでポイントクラウドセグメンテーションを起動

GeoSpark: Sparking up Point Cloud Segmentation with Geometry Clue ( http://arxiv.org/abs/2303.08274v1 )

ライセンス: Link先を確認
Zhening Huang, Xiaoyang Wu, Hengshuang Zhao, Lei Zhu, Shujun Wang, Georgios Hadjidemetriou, Ioannis Brilakis(参考訳) 現在のポイントクラウドセグメンテーションアーキテクチャは、主にローカルな近所と情報を集約することに依存しているため、長い範囲の機能モデリングに苦しむ。 さらに,複数の尺度で点特徴を学習するために,データに依存しないサンプリング手法を用いて各段階の点数を削減している。 しかし、そのようなサンプリング手法は、初期の段階では小さな物体のポイントを破棄し、不十分な特徴学習に繋がることが多い。 これらの問題は、明確な幾何学的手がかりをガイダンスとして導入することで緩和できると考えています。 そこで我々はgeosparkを提案する。geosparkはジオメトリのヒントをネットワークに組み込むプラグインモジュールで、機能学習とダウンサンプリングを起動する。 GeoSparkは簡単に様々なバックボーンに統合できる。 特徴集約のために、ネットワークが局所点と近傍の幾何学的分割の両方から学習できるようにすることにより、特徴モデリングを改善し、結果としてデータ調整された受容場が拡大する。 さらにGeoSparkは、ジオパーティション情報を使用して、ユニークな特徴を持つポイントが保存され、冗長なポイントが融合され、ネットワーク全体のキーポイントの保存性が向上するダウンサンプリングプロセスを導く。 我々は、pointnet++、kpconv、pointtransformerを含む様々なバックボーンにgeosparkを追加した後、一貫した改善を観察した。 特に、Point Transformerと統合すると、GeoSparkモジュールはScanNetv2データセット(4.1%改善)で74.7% mIoU、S3DIS Area 5データセット(1.1%改善)で71.5% mIoUを獲得し、両方のベンチマークで上位にランクインします。 コードとモデルは公開される予定だ。

Current point cloud segmentation architectures suffer from limited long-range feature modeling, as they mostly rely on aggregating information with local neighborhoods. Furthermore, in order to learn point features at multiple scales, most methods utilize a data-agnostic sampling approach to decrease the number of points after each stage. Such sampling methods, however, often discard points for small objects in the early stages, leading to inadequate feature learning. We believe these issues are can be mitigated by introducing explicit geometry clues as guidance. To this end, we propose GeoSpark, a Plug-in module that incorporates Geometry clues into the network to Spark up feature learning and downsampling. GeoSpark can be easily integrated into various backbones. For feature aggregation, it improves feature modeling by allowing the network to learn from both local points and neighboring geometry partitions, resulting in an enlarged data-tailored receptive field. Additionally, GeoSpark utilizes geometry partition information to guide the downsampling process, where points with unique features are preserved while redundant points are fused, resulting in better preservation of key points throughout the network. We observed consistent improvements after adding GeoSpark to various backbones including PointNet++, KPConv, and PointTransformer. Notably, when integrated with Point Transformer, our GeoSpark module achieves a 74.7% mIoU on the ScanNetv2 dataset (4.1% improvement) and 71.5% mIoU on the S3DIS Area 5 dataset (1.1% improvement), ranking top on both benchmarks. Code and models will be made publicly available.
翻訳日:2023-03-16 15:25:47 公開日:2023-03-14
# 患者中心痛管理・診断支援のためのUAEにおける深層痛検出展開に向けて:フレームワークと性能評価

Towards a Deep Learning Pain-Level Detection Deployment at UAE for Patient-Centric-Pain Management and Diagnosis Support: Framework and Performance Evaluation ( http://arxiv.org/abs/2303.08273v1 )

ライセンス: Link先を確認
Leila Ismail and Muhammad Danish Waseem(参考訳) 新型コロナウイルス(covid-19)の感染拡大を受け、医療スタッフや設備の不足で悪化する状況で、タイムリーな介入が危機的状況にあることが判明した。 痛みレベルスクリーニングは、患者の重症度を特定するための最初のステップである。 状態と感情の自動認識は、患者の症状を識別し、患者の状態に合わせて患者中心の医療計画を提供するのに役立つ。 本稿では,アラブ首長国連邦における展開における痛みレベル検出のための枠組みを提案し,文献における最もよく用いられるアプローチを用いてその性能を評価する。 以上の結果から,痛みレベル検出フレームワークの展開により,痛みレベルを正確に識別できることが示唆された。

The outbreak of the COVID-19 pandemic revealed the criticality of timely intervention in a situation exacerbated by a shortage in medical staff and equipment. Pain-level screening is the initial step toward identifying the severity of patient conditions. Automatic recognition of state and feelings help in identifying patient symptoms to take immediate adequate action and providing a patient-centric medical plan tailored to a patient's state. In this paper, we propose a framework for pain-level detection for deployment in the United Arab Emirates and assess its performance using the most used approaches in the literature. Our results show that a deployment of a pain-level deep learning detection framework is promising in identifying the pain level accurately.
翻訳日:2023-03-16 15:25:16 公開日:2023-03-14
# act-then-measure:アクティブ計測を用いた部分観測環境の強化学習

Act-Then-Measure: Reinforcement Learning for Partially Observable Environments with Active Measuring ( http://arxiv.org/abs/2303.08271v1 )

ライセンス: Link先を確認
Merlijn Krale, Thiago D. Sim\~ao, Nils Jansen(参考訳) 我々はマルコフ決定過程(mdps)について検討し、エージェントがいつどのように情報を収集するかを直接制御し、アクションコンティントノイズレス可観測mdps(acno-mpd)によって形式化された。 これらのモデルでは、アクションは環境に影響を与える制御アクションと、エージェントが観察できるものに影響を与える測定アクションの2つのコンポーネントで構成される。 ACNO-MDPを解くために,制御動作を選択する際に将来の状態の不確実性を無視できるATMヒューリスティックを導入する。 このヒューリスティックに従えば、より短いポリシー計算時間につながる可能性を示し、ヒューリスティックによって引き起こされる性能損失を証明できることを示す。 測定行動をとるか否かを決定するために,測定値の概念を導入する。 ATMヒューリスティックに基づく強化学習アルゴリズムを開発し、部分観測可能な領域に適応したDyna-Q変種を用いて、いくつかの部分観測可能な環境において従来の手法と比較して優れた性能を示す。

We study Markov decision processes (MDPs), where agents have direct control over when and how they gather information, as formalized by action-contingent noiselessly observable MDPs (ACNO-MPDs). In these models, actions consist of two components: a control action that affects the environment, and a measurement action that affects what the agent can observe. To solve ACNO-MDPs, we introduce the act-then-measure (ATM) heuristic, which assumes that we can ignore future state uncertainty when choosing control actions. We show how following this heuristic may lead to shorter policy computation times and prove a bound on the performance loss incurred by the heuristic. To decide whether or not to take a measurement action, we introduce the concept of measuring value. We develop a reinforcement learning algorithm based on the ATM heuristic, using a Dyna-Q variant adapted for partially observable domains, and showcase its superior performance compared to prior methods on a number of partially-observable environments.
翻訳日:2023-03-16 15:25:04 公開日:2023-03-14
# PULSNAR -- ランダムに選ばない正の未ラベル学習: SCAR 仮定が成立しない場合のクラス比率推定

PULSNAR -- Positive unlabeled learning selected not at random: class proportion estimation when the SCAR assumption does not hold ( http://arxiv.org/abs/2303.08269v1 )

ライセンス: Link先を確認
Praveen Kumar and Christophe G. Lambert(参考訳) ポジティブおよびアンラベル学習(英: positive and unlabeled learning)は、機械学習アルゴリズムが正のインスタンス群(ラベル付き)と負のインスタンス群(ラベル付き)とを区別する半教師付きバイナリ分類の一種である。 PU学習は、確認された陰性が入手できない、あるいは入手が難しい設定において広く応用されており、ラベルなし化合物(例えば、未試験化合物中の有効薬物)の正の発見に価値がある。 ほとんどのPU学習アルゴリズムは、選択された正が特徴から独立して選択されるという、ランダム(SCAR)な仮定で完全に選択する。 しかし、医療のような現実世界の多くのアプリケーションでは、陽性は傷つきにくい(例えば、重篤な症例は診断される可能性が高い)ため、ラベルなしの例とモデルキャリブレーションの粗悪な例の正の比率である$\alpha$の見積もりが不十分となり、正を選択するための不確定な決定しきい値となる。 pu 学習アルゴリズムは、$\alpha$ または個々のラベルなしインスタンスが陽性または両方である確率を推定することができる。 2つのPU学習アルゴリズムを提案し、$\alpha$を推定し、PUインスタンスの校正確率を計算し、分類基準を改善する。 一 PULSCAR(ランダムに選択された正の未ラベル学習)及び ii) PULSNAR(ランダムに選ばない正の未ラベル学習) PULSNARは、PULSCARを使用してSCARライクなサブプロブレムを作成し、解決する分割・コンカレントアプローチを使用する。 我々の実験では、PULSNARは合成および実世界のベンチマークデータセットにおいて最先端のアプローチより優れていた。

Positive and Unlabeled (PU) learning is a type of semi-supervised binary classification where the machine learning algorithm differentiates between a set of positive instances (labeled) and a set of both positive and negative instances (unlabeled). PU learning has broad applications in settings where confirmed negatives are unavailable or difficult to obtain, and there is value in discovering positives among the unlabeled (e.g., viable drugs among untested compounds). Most PU learning algorithms make the selected completely at random (SCAR) assumption, namely that positives are selected independently of their features. However, in many real-world applications, such as healthcare, positives are not SCAR (e.g., severe cases are more likely to be diagnosed), leading to a poor estimate of the proportion, $\alpha$, of positives among unlabeled examples and poor model calibration, resulting in an uncertain decision threshold for selecting positives. PU learning algorithms can estimate $\alpha$ or the probability of an individual unlabeled instance being positive or both. We propose two PU learning algorithms to estimate $\alpha$, calculate calibrated probabilities for PU instances, and improve classification metrics: i) PULSCAR (positive unlabeled learning selected completely at random), and ii) PULSNAR (positive unlabeled learning selected not at random). PULSNAR uses a divide-and-conquer approach that creates and solves several SCAR-like sub-problems using PULSCAR. In our experiments, PULSNAR outperformed state-of-the-art approaches on both synthetic and real-world benchmark datasets.
翻訳日:2023-03-16 15:24:44 公開日:2023-03-14
# 環境とのチャット:大規模言語モデルを用いた対話型マルチモーダル知覚

Chat with the Environment: Interactive Multimodal Perception using Large Language Models ( http://arxiv.org/abs/2303.08268v1 )

ライセンス: Link先を確認
Xufeng Zhao, Mengdi Li, Cornelius Weber, Muhammad Burhan Hafez, and Stefan Wermter(参考訳) 複雑な世界でのプログラミングロボットの振る舞いは、多彩な低レベルのスキルからハイレベルな計画や推論に至るまで、さまざまなレベルで課題に直面している。 最近のLLM(Large Language Models)は、ゼロショットロボット計画において顕著な推論能力を示している。 しかし、ロボットが環境と対話し、そのポリシーが展開するにつれて、新しい情報を得られるようにしながら、マルチモーダルな感覚入力と連続的な動作出力にLCMを接地することは依然として困難である。 ロボットがタスクを正しく実行する前に、複数のモダリティ間の感覚情報をサンプリングするために、認識行動の範囲をロボットが決定する必要がある、部分的に観察可能な状態のロボットインタラクションシナリオを開発する。 したがって、対話的知覚フレームワークは、そのバックボーンとしてLLMを用いて提案され、その能力は、結果として生じるマルチモーダル感覚(視覚、音、触覚、プロプレセプション)を解釈し、対話的に獲得した情報に基づいてタスクの実行全体を計画する。 本研究は,LLMがマルチモーダル環境における高レベルの計画と推論能力を提供し,対話型ロボットの動作を制御できることを実証する。

Programming robot behaviour in a complex world faces challenges on multiple levels, from dextrous low-level skills to high-level planning and reasoning. Recent pre-trained Large Language Models (LLMs) have shown remarkable reasoning ability in zero-shot robotic planning. However, it remains challenging to ground LLMs in multimodal sensory input and continuous action output, while enabling a robot to interact with its environment and acquire novel information as its policies unfold. We develop a robot interaction scenario with a partially observable state, which necessitates a robot to decide on a range of epistemic actions in order to sample sensory information among multiple modalities, before being able to execute the task correctly. An interactive perception framework is therefore proposed with an LLM as its backbone, whose ability is exploited to instruct epistemic actions and to reason over the resulting multimodal sensations (vision, sound, haptics, proprioception), as well as to plan an entire task execution based on the interactively acquired information. Our study demonstrates that LLMs can provide high-level planning and reasoning skills and control interactive robot behaviour in a multimodal environment, while multimodal modules with the context of the environmental state help ground the LLMs and extend their processing ability.
翻訳日:2023-03-16 15:24:14 公開日:2023-03-14
# エンゲージメントのルール:企業がOSSに参加する理由と方法

Rules of Engagement: Why and How Companies Participate in OSS ( http://arxiv.org/abs/2303.08266v1 )

ライセンス: Link先を確認
Mariam Guizani, Aileen Abril Castro-Guzman, Anita Sarma, Igor Steinmacher(参考訳) オープンソース(OSS)における企業関与は、今や新しい規範です。 大企業からスタートアップまで、企業はOSSエコシステムに参加し、彼らの技術をオープンソース化し、資金や有料のデベロッパータイムを通じてプロジェクトをスポンサーしている。 しかしながら、OSSエコシステムに対する私たちの理解は、個々のコントリビュータがOSSプロジェクトを維持できる‘旧世界’モデルに根ざしています。 本研究は,企業の貢献動機とossへの貢献方法を調査することにより,ハイブリッドossの展望をより包括的に理解する。 私たちは、大企業(Microsoft、RedHat、Google、Spotifyなど)からスタートアップまで、さまざまなサイズの17の企業で、異なる役割を持つ20の参加者(例えば、OSPOリード、エコシステムストラテジスト)とインタビューを行った。 半構造化インタビューのデータによると、企業のモチベーションは4つのレベル(創業者のビジョン、評価、ビジネスアドバンテージ、相互性)に分類でき、企業は異なるメカニズム(例えば、開発者時間、メンタリング時間、擁護と促進時間)を通じて参加する。 私たちの調査結果は、OSSエコシステムに参加する企業を増やし、堅牢で多様性があり、持続可能なものにすることを願っています。

Company engagement in open source (OSS) is now the new norm. From large technology companies to startups, companies are participating in the OSS ecosystem by open-sourcing their technology, sponsoring projects through funding or paid developer time. However, our understanding of the OSS ecosystem is rooted in the 'old world' model where individual contributors sustain OSS projects. In this work, we create a more comprehensive understanding of the hybrid OSS landscape by investigating what motivates companies to contribute and how they contribute to OSS. We conducted interviews with 20 participants who have different roles (e.g., CEO, OSPO Lead, Ecosystem Strategist) at 17 different companies of different sizes from large companies (e.g. Microsoft, RedHat, Google, Spotify) to startups. Data from semi-structured interviews reveal that company motivations can be categorized into four levels (Founders' Vision, Reputation, Business Advantage, and Reciprocity) and companies participate through different mechanisms (e.g., Developers' Time, Mentoring Time, Advocacy & Promotion Time), each of which tie to the different types of motivations. We hope our findings nudge more companies to participate in the OSS ecosystem, helping make it robust, diverse, and sustainable.
翻訳日:2023-03-16 15:23:49 公開日:2023-03-14
# ニューロシンボリックコモンセンス社会推論

Neuro-symbolic Commonsense Social Reasoning ( http://arxiv.org/abs/2303.08264v1 )

ライセンス: Link先を確認
David Chanin, Anthony Hunter(参考訳) 社会的規範はすべての人間の社会的相互作用を裏付けるが、その形式化と推論はaiシステムにとって大きな課題である。 本稿では,社会化学101データセットから自然言語の親指(ROT)の社会ルールを抽出し,その論理を一階述語論理に変換し,ニューロシンボリックな定理証明器を用いて推論を行う新しいシステムを提案する。 これをいくつかのステップで達成します。 まず、ROTを抽象的意味表現(AMR)に変換する。これは文中の概念のグラフィカルな表現であり、AMRをRoBERTa埋め込みと整列させる。 次に,新しいアルゴリズムを用いてAMRの簡易バージョンを生成し,テキストの異なる単語に対するロバスト性を付加した埋め込みとマージを行い,誤ったAMR解析を行う。 AMRはその後一階論理に変換され、ニューロシンボリック定理証明器でクエリされる。 本研究の目的は,社会的状況に対する論理的な推論を行うニューロシンボリック手法を開発し,評価することである。

Social norms underlie all human social interactions, yet formalizing and reasoning with them remains a major challenge for AI systems. We present a novel system for taking social rules of thumb (ROTs) in natural language from the Social Chemistry 101 dataset and converting them to first-order logic where reasoning is performed using a neuro-symbolic theorem prover. We accomplish this in several steps. First, ROTs are converted into Abstract Meaning Representation (AMR), which is a graphical representation of the concepts in a sentence, and align the AMR with RoBERTa embeddings. We then generate alternate simplified versions of the AMR via a novel algorithm, recombining and merging embeddings for added robustness against different wordings of text, and incorrect AMR parses. The AMR is then converted into first-order logic, and is queried with a neuro-symbolic theorem prover. The goal of this paper is to develop and evaluate a neuro-symbolic method which performs explicit reasoning about social situations in a logical form.
翻訳日:2023-03-16 15:23:26 公開日:2023-03-14
# Prompt-based Machine Reading Comprehension を用いた臨床概念と関係抽出

Clinical Concept and Relation Extraction Using Prompt-based Machine Reading Comprehension ( http://arxiv.org/abs/2303.08262v1 )

ライセンス: Link先を確認
Cheng Peng, Xi Yang, Zehao Yu, Jiang Bian, William R. Hogan, Yonghui Wu(参考訳) 目的: クロスインスティテュート・アプリケーションに優れた一般化性を有する統一的プロンプトベース機械読解(MRC)アーキテクチャにおいて, 臨床概念抽出と関係抽出の両立を図った自然言語処理システムを開発する。 方法:プロンプトベースのmrcアーキテクチャを用いて臨床概念抽出と関係抽出の両方を定式化し,最先端トランスフォーマーモデルを探索する。 2018 nlp clinical challenge (n2c2) challenge (メディエーションと副作用薬物イベント)と2022 n2c2 challenge (social determinants of health (sdoh)) によって開発された2つのベンチマークデータセットを用いて、概念抽出とエンドツーエンド関係抽出のための既存のディープラーニングモデルと比較した。 また,MRCモデルの伝達学習能力についても,クロスインスティテュート環境で評価した。 エラー解析を行い、異なるプロンプト戦略がMCCモデルの性能に与える影響を検討する。 結果と結論:mrc非mrcトランスフォーマーモデルに匹敵する2つのベンチマークデータセットにおける臨床概念と関係抽出の最先端性能を実現する。 gatortron-mrcは、概念抽出のための最も厳格で寛大なf1-scoreをそれぞれ1%~3%、0.7%~1.3%の2つのデータセットのディープラーニングモデルよりも優れている。 エンドツーエンドの関係抽出において、GatorTron-MRCとBERT-MIMIC-MRCは、それぞれ0.9%~2.4%、10%-11%で、最高のF1スコアを達成する。 クロスインスティテューション評価では、gatortron-mrcは従来のgatortronを6.4%、データセットを16%上回っている。 提案手法はネスト/オーバーラップの概念を扱い,関係を抽出し,クロスインスティテュートなアプリケーションに対して優れたポータビリティを有する。

Objective: To develop a natural language processing system that solves both clinical concept extraction and relation extraction in a unified prompt-based machine reading comprehension (MRC) architecture with good generalizability for cross-institution applications. Methods: We formulate both clinical concept extraction and relation extraction using a unified prompt-based MRC architecture and explore state-of-the-art transformer models. We compare our MRC models with existing deep learning models for concept extraction and end-to-end relation extraction using two benchmark datasets developed by the 2018 National NLP Clinical Challenges (n2c2) challenge (medications and adverse drug events) and the 2022 n2c2 challenge (relations of social determinants of health [SDoH]). We also evaluate the transfer learning ability of the proposed MRC models in a cross-institution setting. We perform error analyses and examine how different prompting strategies affect the performance of MRC models. Results and Conclusion: The proposed MRC models achieve state-of-the-art performance for clinical concept and relation extraction on the two benchmark datasets, outperforming previous non-MRC transformer models. GatorTron-MRC achieves the best strict and lenient F1-scores for concept extraction, outperforming previous deep learning models on the two datasets by 1%~3% and 0.7%~1.3%, respectively. For end-to-end relation extraction, GatorTron-MRC and BERT-MIMIC-MRC achieve the best F1-scores, outperforming previous deep learning models by 0.9%~2.4% and 10%-11%, respectively. For cross-institution evaluation, GatorTron-MRC outperforms traditional GatorTron by 6.4% and 16% for the two datasets, respectively. The proposed method is better at handling nested/overlapped concepts, extracting relations, and has good portability for cross-institute applications.
翻訳日:2023-03-16 15:23:06 公開日:2023-03-14
# トランスフォーマー型深層学習アーキテクチャを用いたコンテクスト化医薬品情報抽出

Contextualized Medication Information Extraction Using Transformer-based Deep Learning Architectures ( http://arxiv.org/abs/2303.08259v1 )

ライセンス: Link先を確認
Aokun Chen, Zehao Yu, Xi Yang, Yi Guo, Jiang Bian, Yonghui Wu(参考訳) 目的:薬物変化を理解するのに役立つ薬品や文脈情報を抽出する自然言語処理(NLP)システムを開発する。 このプロジェクトは2022 n2c2チャレンジの一部である。 資料と方法:我々は,医薬品言及の抽出,事象分類(議論されるか否かを判断する),文脈分類のためのnlpシステムを開発し,薬物変化の文脈を5つの直交次元に分類した。 3つのサブタスクのための最先端の6つの事前学習トランスフォーマーモデルについて検討した。gatortronは9000億語以上のテキスト(フロリダ大学ヘルス校で同定された2億9000万語以上の臨床ノートを含む)を使って事前トレーニングされた大型言語モデルだ。 我々は2022 n2c2オーケストレータが提供する注釈付きデータと評価スクリプトを用いてNLPシステムの評価を行った。 結果: 我々のGatorTronモデルでは, 薬物抽出では0.9828, 事象分類では0.9379, 文脈分類では0.9126であった。 GatorTronは、より小さな英語テキストと臨床テキストコーパスを使用して事前訓練された既存のトランスフォーマーモデルより優れており、大きな言語モデルの利点を示している。 結論: 本研究は, 大規模トランスフォーマーモデルを用いた臨床的ナラティブ情報抽出の利点を実証した。

Objective: To develop a natural language processing (NLP) system to extract medications and contextual information that help understand drug changes. This project is part of the 2022 n2c2 challenge. Materials and methods: We developed NLP systems for medication mention extraction, event classification (indicating medication changes discussed or not), and context classification to classify medication changes context into 5 orthogonal dimensions related to drug changes. We explored 6 state-of-the-art pretrained transformer models for the three subtasks, including GatorTron, a large language model pretrained using >90 billion words of text (including >80 billion words from >290 million clinical notes identified at the University of Florida Health). We evaluated our NLP systems using annotated data and evaluation scripts provided by the 2022 n2c2 organizers. Results:Our GatorTron models achieved the best F1-scores of 0.9828 for medication extraction (ranked 3rd), 0.9379 for event classification (ranked 2nd), and the best micro-average accuracy of 0.9126 for context classification. GatorTron outperformed existing transformer models pretrained using smaller general English text and clinical text corpora, indicating the advantage of large language models. Conclusion: This study demonstrated the advantage of using large transformer models for contextual medication information extraction from clinical narratives.
翻訳日:2023-03-16 15:22:30 公開日:2023-03-14
# 印刷機械学習分類器のモデルと回路のクロス近似

Model-to-Circuit Cross-Approximation For Printed Machine Learning Classifiers ( http://arxiv.org/abs/2303.08255v1 )

ライセンス: Link先を確認
Giorgos Armeniakos, Georgios Zervakis, Dimitrios Soudris, Mehdi B. Tahoori, J\"org Henkel(参考訳) プリントエレクトロニクス(PE)は、オンデマンド製造、低い非再帰エンジニアリングコスト、サブセント製造コストを約束する。 また、シリコンでは実現不可能な高度なカスタマイズを可能にし、新しいPE機械学習(ML)アプリケーションの効率を改善するために、Bespokeアーキテクチャが普及している。 それでも、PEにおける大きな特徴サイズは、複雑なMLモデルの実現を禁止している。 本稿では,peにおける多層パーセプトロン(mlps)やサポートベクターマシン(svm)といった複雑なmlモデルを実現する,独自アーキテクチャに合わせた,自動化されたクロスレイヤー近似フレームワークを提案する。 本フレームワークは,アルゴリズムレベルでのMLモデルのハードウェア駆動係数近似,論理レベルでのネットリストプルーニング,回路レベルでの電圧オーバースケーリングを協調的に採用する。 12のMLPと12のSVMと6000以上の近似および正確な設計を総合的に評価した結果、我々のモデルと回路のクロス近似は、最先端の正確な設計と比較すると、平均51%および66%の領域に、5%未満の精度で電力と面積の最適設計を提供することを示した。 最後に,本フレームワークは,テスト対象の分類器の80%を,正確な設計とほぼ同一の精度でバッテリ駆動できることを示した。

Printed electronics (PE) promises on-demand fabrication, low non-recurring engineering costs, and sub-cent fabrication costs. It also allows for high customization that would be infeasible in silicon, and bespoke architectures prevail to improve the efficiency of emerging PE machine learning (ML) applications. Nevertheless, large feature sizes in PE prohibit the realization of complex ML models in PE, even with bespoke architectures. In this work, we present an automated, cross-layer approximation framework tailored to bespoke architectures that enable complex ML models, such as Multi-Layer Perceptrons (MLPs) and Support Vector Machines (SVMs), in PE. Our framework adopts cooperatively a hardware-driven coefficient approximation of the ML model at algorithmic level, a netlist pruning at logic level, and a voltage over-scaling at the circuit level. Extensive experimental evaluation on 12 MLPs and 12 SVMs and more than 6000 approximate and exact designs demonstrates that our model-to-circuit cross-approximation delivers power and area optimal designs that, compared to the state-of-the-art exact designs, feature on average 51% and 66% area and power reduction, respectively, for less than 5% accuracy loss. Finally, we demonstrate that our framework enables 80% of the examined classifiers to be battery-powered with almost identical accuracy with the exact designs, paving thus the way towards smart complex printed applications.
翻訳日:2023-03-16 15:21:59 公開日:2023-03-14
# 自動注意プルーニング:注意を用いたモデルプルーニングの改善と自動化

Automatic Attention Pruning: Improving and Automating Model Pruning using Attentions ( http://arxiv.org/abs/2303.08595v1 )

ライセンス: Link先を確認
Kaiqi Zhao, Animesh Jain, Ming Zhao(参考訳) プルーニングは、リソース制約のあるエッジデバイスにそれらをデプロイするために、ディープラーニングモデルを圧縮するための有望なアプローチである。 しかし、既存のプルーニングソリューションの多くは、非構造化プルーニングに基づいているため、コモディティなハードウェア上で効率的に実行できないモデルが得られる。 これらの制約に対処するために,ユーザの目的を満たす小型で正確でハードウェア効率の高いモデルを自動的に生成する適応型,注目型,構造化されたプルーニング手法であるAutomatic Attention Pruning (AAP)を提案する。 まず,アクティベーションに基づくアテンションマップを用いた反復的構造化プルーニングを提案し,重要でないフィルタを効果的に同定する。 次に、精度、メモリ制約、レイテンシに敏感なタスクのプルーニング目標を自動的に満たす適応プルーニングポリシを提案する。 総合的な評価により、aapは様々なモデルアーキテクチャにおいて最先端の構造化pruning作業を大きく上回っている。 私たちのコードは次の通りです。

Pruning is a promising approach to compress deep learning models in order to deploy them on resource-constrained edge devices. However, many existing pruning solutions are based on unstructured pruning, which yields models that cannot efficiently run on commodity hardware; and they often require users to manually explore and tune the pruning process, which is time-consuming and often leads to sub-optimal results. To address these limitations, this paper presents Automatic Attention Pruning (AAP), an adaptive, attention-based, structured pruning approach to automatically generate small, accurate, and hardware-efficient models that meet user objectives. First, it proposes iterative structured pruning using activation-based attention maps to effectively identify and prune unimportant filters. Then, it proposes adaptive pruning policies for automatically meeting the pruning objectives of accuracy-critical, memory-constrained, and latency-sensitive tasks. A comprehensive evaluation shows that AAP substantially outperforms the state-of-the-art structured pruning works for a variety of model architectures. Our code is at: https://github.com/kaiqi123/Automatic-Attention-Pruning.git.
翻訳日:2023-03-16 13:52:14 公開日:2023-03-14
# Delay-SDE-net:メモリと不確実性推定を伴う時系列モデリングのためのディープラーニングアプローチ

Delay-SDE-net: A deep learning approach for time series modelling with memory and uncertainty estimates ( http://arxiv.org/abs/2303.08587v1 )

ライセンス: Link先を確認
Mari Dahl Eggen and Alise Danielle Midtfjord(参考訳) 幅広い分野において、時系列を正確にモデル化することが重要である。 世界は通常、正確にモデル化するには複雑すぎるため、力学系が特定の状態にある確率を評価することはしばしば意味がある。 本稿では,確率的遅延微分方程式(SDDE)に基づくニューラルネットワークモデルであるDelay-SDE-netを提案する。 モデリングフレームワークとして複数の遅延を伴うSDDEを使用することで、システムの以前の状態によるメモリを含むメモリ効果を持つ時系列の適切なモデルとなる。 Delay-SDE-netの確率的部分はモデリングにおける不確かさを推定する基盤となり、2つのニューラルネットワークに分割され、アレタリックおよびエピステミックの不確実性を説明する。 不確実性は即座に提供され、時間が少ないアプリケーションに適したモデルとなる。 遅延SDEネットの理論誤差を導出し,収束率を数値的に解析する。 同様のモデルと比較すると、Delay-SDE-netは時系列値の予測と不確実性の両方において、常に最高の性能を持つ。

To model time series accurately is important within a wide range of fields. As the world is generally too complex to be modelled exactly, it is often meaningful to assess the probability of a dynamical system to be in a specific state. This paper presents the Delay-SDE-net, a neural network model based on stochastic delay differential equations (SDDEs). The use of SDDEs with multiple delays as modelling framework makes it a suitable model for time series with memory effects, as it includes memory through previous states of the system. The stochastic part of the Delay-SDE-net provides a basis for estimating uncertainty in modelling, and is split into two neural networks to account for aleatoric and epistemic uncertainty. The uncertainty is provided instantly, making the model suitable for applications where time is sparse. We derive the theoretical error of the Delay-SDE-net and analyze the convergence rate numerically. At comparisons with similar models, the Delay-SDE-net has consistently the best performance, both in predicting time series values and uncertainties.
翻訳日:2023-03-16 13:51:21 公開日:2023-03-14
# SIM:Box Supervised Instance Segmentationのための意味認識型インスタンスマスク生成

SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation ( http://arxiv.org/abs/2303.08578v1 )

ライセンス: Link先を確認
Ruihuang Li, Chenhang He, Yabin Zhang, Shuai Li, Liyi Chen, Lei Zhang(参考訳) 境界ボックスアノテーションのみを使用した弱教師付きインスタンスセグメンテーションは、最近多くの研究の注目を集めている。 現在の取り組みの多くは、オブジェクトの高レベルなセマンティック情報を明示的に活用することなく、低レベルの画像の特徴を余分な監視として活用している。 本論文では,semantic-aware instance mask (sim) 生成パラダイムを考案し,ボックス教師付きインスタンスセグメンテーション手法を提案する。 隣接画素間の局所的なペアワイズ親和性に強く依存する代わりに、前景オブジェクトを識別し、意味レベルの擬似ラベルを割り当てるプロトタイプとして、カテゴリワイズ機能センタロイドのグループを構築します。 セマンティック・アウェア・プロトタイプは同一意味論の異なるインスタンスを区別できないことを考慮し, 偽活性化領域を補正する自己補正機構を提案する。 さらに,オブジェクト間のオクルージョンを処理するために,弱教師付きインスタンスセグメンテーションタスクのコピーペースト操作を調整し,挑戦的なトレーニングデータを強化する。 実験結果から,提案手法が他の最先端手法よりも優れていることを示す。 ソースコードはhttps://github.com/lslrh/SIM。

Weakly supervised instance segmentation using only bounding box annotations has recently attracted much research attention. Most of the current efforts leverage low-level image features as extra supervision without explicitly exploiting the high-level semantic information of the objects, which will become ineffective when the foreground objects have similar appearances to the background or other objects nearby. We propose a new box-supervised instance segmentation approach by developing a Semantic-aware Instance Mask (SIM) generation paradigm. Instead of heavily relying on local pair-wise affinities among neighboring pixels, we construct a group of category-wise feature centroids as prototypes to identify foreground objects and assign them semantic-level pseudo labels. Considering that the semantic-aware prototypes cannot distinguish different instances of the same semantics, we propose a self-correction mechanism to rectify the falsely activated regions while enhancing the correct ones. Furthermore, to handle the occlusions between objects, we tailor the Copy-Paste operation for the weakly-supervised instance segmentation task to augment challenging training data. Extensive experimental results demonstrate the superiority of our proposed SIM approach over other state-of-the-art methods. The source code: https://github.com/lslrh/SIM.
翻訳日:2023-03-16 13:50:38 公開日:2023-03-14
# カテゴリーデータへの影響と原因の区別:一様チャネルモデル

Distinguishing Cause from Effect on Categorical Data: The Uniform Channel Model ( http://arxiv.org/abs/2303.08572v1 )

ライセンス: Link先を確認
M\'ario A. T. Figueiredo and Catarina A. Oliveira(参考訳) 一対の確率変数の観測による効果の排除は因果発見における中核的な問題である。 このタスクのために提案されるほとんどのアプローチ、すなわち加法雑音モデル(ANM)は、量的データにのみ適している。 本研究では,条件付き確率質量関数 (pmf) を離散的メモリレスチャネルとして見ることにより,カテゴリー変数 (無意味な順序の集合で生活する) による因果効果問題に対処するための基準を提案する。 条件付きpmfが一様チャネル(uc)に近い方向を最も可能性の高い因果方向として選択する。 理論的には、uc において anm と同様に、条件付きエントロピー(原因が与える効果)は原因分布とは独立であり、原因とメカニズムの独立性の原理と一致している。 統一チャネルモデル(UCM)と呼ばれる我々のアプローチは、ANM論理をカテゴリー変数に拡張する。 条件pmf(データから推定される)がUCにどの程度近いかを評価するために,UCチャネルのクローズドフォーム推定によって支持される統計検査を用いる。 理論的には, ucmの同一性が証明され, 低カーディナリティ外因性変数を持つ構造因果モデルと等価性を示す。 最後に, 提案手法は, 合成, ベンチマーク, 実データ実験における最近の最先端の代替手法と比較した。

Distinguishing cause from effect using observations of a pair of random variables is a core problem in causal discovery. Most approaches proposed for this task, namely additive noise models (ANM), are only adequate for quantitative data. We propose a criterion to address the cause-effect problem with categorical variables (living in sets with no meaningful order), inspired by seeing a conditional probability mass function (pmf) as a discrete memoryless channel. We select as the most likely causal direction the one in which the conditional pmf is closer to a uniform channel (UC). The rationale is that, in a UC, as in an ANM, the conditional entropy (of the effect given the cause) is independent of the cause distribution, in agreement with the principle of independence of cause and mechanism. Our approach, which we call the uniform channel model (UCM), thus extends the ANM rationale to categorical variables. To assess how close a conditional pmf (estimated from data) is to a UC, we use statistical testing, supported by a closed-form estimate of a UC channel. On the theoretical front, we prove identifiability of the UCM and show its equivalence with a structural causal model with a low-cardinality exogenous variable. Finally, the proposed method compares favorably with recent state-of-the-art alternatives in experiments on synthetic, benchmark, and real data.
翻訳日:2023-03-16 13:49:51 公開日:2023-03-14
# 非小細胞肺癌におけるF18-FDG PET-CTを用いたEGFR変異予測

EGFR mutation prediction using F18-FDG PET-CT based radiomics features in non-small cell lung cancer ( http://arxiv.org/abs/2303.08569v1 )

ライセンス: Link先を確認
Hector Henriquez, Diana Fuentes, Francisco Suarez, Patricio Gonzalez(参考訳) 肺がんは世界でもがん死の主な原因である。 EGFR (epidermal growth factor receptor) 変異の正確な判定は, 本症例の適切な治療に極めて重要である。 目的:PET-CT画像から抽出した放射線学的特徴を用いて,非小細胞肺癌患者のEGFRの変異状況を予測することを目的とした。 方法: 肺がん患者34名を対象に, 病理組織学的, EGFR像の変異評価を行った。 PET-CT画像の2.205個の放射能の特徴をピラディオミクスライブラリーを用いて抽出した。 コンピュータ断層撮影とポジトロン放射断層撮影の両方が用いられた。 すべての画像は静脈内ヨウ素化コントラストとf18-fdgで得られた。 前処理には再サンプリング、正規化、画素強度の離散化が含まれる。 特徴選択には, 後方選択法(セット1), 前方選択法(セット2), ランダムフォレストモデル(セット3)の特徴重要度解析法(セット3)の3つの方法が用いられた。 放射線モデル構築には9つの機械学習手法が用いられた。 結果: egfr変異は35.2%で, 年齢, 性別, 腫瘍サイズ, suvmaxに有意差はなかった。 特徴選択処理6,7,17の放射能特徴をそれぞれグループ毎に選択した。 最高のパフォーマンスは、Rook Regression in set 1: AUC of 0.826 (95% CI, 0.811 - 0.839)、Random Forest in set 2: AUC of 0.823 (95% CI, 0.808 - 0.838)、Neural Network in set 3: AUC of 0.821 (95% CI, 0.808 - 0.835)である。 結論:radiomics feature analysisは非侵襲的手法によって肺癌患者の臨床的に関連のある突然変異を予測する可能性を秘めている。

Lung cancer is the leading cause of cancer death in the world. Accurate determination of the EGFR (epidermal growth factor receptor) mutation status is highly relevant for the proper treatment of this patients. Purpose: The aim of this study was to predict the mutational status of the EGFR in non-small cell lung cancer patients using radiomics features extracted from PET-CT images. Methods: Retrospective study that involve 34 patients with lung cancer confirmed by histology and EGFR status mutation assessment. A total of 2.205 radiomics features were extracted from manual segmentation of the PET-CT images using pyradiomics library. Both computed tomography and positron emission tomography images were used. All images were acquired with intravenous iodinated contrast and F18-FDG. Preprocessing includes resampling, normalization, and discretization of the pixel intensity. Three methods were used for the feature selection process: backward selection (set 1), forward selection (set 2), and feature importance analysis of random forest model (set 3). Nine machine learning methods were used for radiomics model building. Results: 35.2% of patients had EGFR mutation, without significant differences in age, gender, tumor size and SUVmax. After the feature selection process 6, 7 and 17 radiomics features were selected, respectively in each group. The best performances were obtained by Ridge Regression in set 1: AUC of 0.826 (95% CI, 0.811 - 0.839), Random Forest in set 2: AUC of 0.823 (95% CI, 0.808 - 0.838) and Neural Network in set 3: AUC of 0.821 (95% CI, 0.808 - 0.835). Conclusion: The radiomics features analysis has the potential of predicting clinically relevant mutations in lung cancer patients through a non-invasive methodology.
翻訳日:2023-03-16 13:49:25 公開日:2023-03-14
# 部分分割多様体からの局所量子符号

Local Quantum Codes from Subdivided Manifolds ( http://arxiv.org/abs/2303.06755v2 )

ライセンス: Link先を確認
Elia Portnoy(参考訳) $n \ge 3$ に対して、$V$ qubits, distance $V^{\frac{n-1}{n}}$, and dimension $V^{\frac{n-2}{n}}$, to a $polylog(V)$ factor で局所的な量子符号の存在を示す。 距離はポリログ係数まで最適である。 この次元は、ポリログ係数までの距離に対しても最適である。 この証明は漸近的に良い量子符号の存在、フリードマン・ヘイスティングスによるコードから多様体を構築する手順、グロモフ・ガスによる定量的埋め込み定理を組み合わせる。

For $n \ge 3$, we demonstrate the existence of quantum codes which are local in dimension $n$ with $V$ qubits, distance $V^{\frac{n-1}{n}}$, and dimension $V^{\frac{n-2}{n}}$, up to a $polylog(V)$ factor. The distance is optimal up to the polylog factor. The dimension is also optimal for this distance up to the polylog factor. The proof combines the existence of asymptotically good quantum codes, a procedure to build a manifold from a code by Freedman-Hastings, and a quantitative embedding theorem by Gromov-Guth.
翻訳日:2023-03-16 10:45:20 公開日:2023-03-14
# 常識を破る: なんてこった! 合成画像と合成画像の視覚言語ベンチマーク

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images ( http://arxiv.org/abs/2303.07274v2 )

ライセンス: Link先を確認
Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz(参考訳) 弱く、異常で、不気味なイメージは、観察者の好奇心を喚起する。 例えば、2022年のワールドカップ中に公開された画像は、有名なサッカースターのライオネル・メッシとクリスティアーノ・ロナルドがチェスをしている様子を描いている。 人間はこれらの非伝統的なイメージを容易に認識し解釈できますが、AIモデルも同じことができますか? 私たちは、visual commonsenseの新しいデータセットとベンチマークであるwhoops!を紹介します。 データセットは、midjourneyのような一般公開された画像生成ツールを使用して設計者が作成した、意図的に常識に準拠したイメージで構成されている。 データセット上のいくつかのタスクについて検討する。 画像キャプション, クロスモーダルマッチング, 視覚的質問応答に加えて, モデルが与えられた画像がなぜ異常であるかを識別し, 説明しなければならない, 困難な説明生成タスクを導入する。 GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。 . われわれのデータセットは、より強力なビジュアルコモンセンス推論能力を持つAIモデルの開発を促すことを願っている。 データ、モデル、コードはプロジェクトのwebサイト:whoops-benchmark.github.ioで入手できる。

Weird, unusual, and uncanny images pique the curiosity of observers because they challenge commonsense. For example, an image released during the 2022 world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo playing chess, which playfully violates our expectation that their competition should occur on the football field. Humans can easily recognize and interpret these unconventional images, but can AI models do the same? We introduce WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is comprised of purposefully commonsense-defying images created by designers using publicly-available image generation tools like Midjourney. We consider several tasks posed over the dataset. In addition to image captioning, cross-modal matching, and visual question answering, we introduce a difficult explanation generation task, where models must identify and explain why a given image is unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2 still lag behind human performance on WHOOPS!. We hope our dataset will inspire the development of AI models with stronger visual commonsense reasoning abilities. Data, models and code are available at the project website: whoops-benchmark.github.io
翻訳日:2023-03-16 10:35:26 公開日:2023-03-14
# 動的イベントベース光識別と通信

Dynamic Event-based Optical Identification and Communication ( http://arxiv.org/abs/2303.07169v2 )

ライセンス: Link先を確認
Axel von Arnim, Jules Lecomte, Stanislaw Wozniak, Naima Elosegui Borras, Angeliki Pantazi(参考訳) 光学的識別はしばしば、空間的または時間的視覚パターン認識と局在化によって行われる。 時間パターン認識は、技術によっては通信周波数、範囲、正確な追跡のトレードオフを伴う。 高速なイベントベースカメラを利用して、このトレードオフを改善する発光ビーコンを用いたソリューションを提案し、スパイクニューロンで計算された疎いニューロモルフィック光の流れを追跡する。 資産モニタリングのユースケースでは、シミュレートされたドローンに埋め込まれたシステムは相対的な動きに頑健であり、複数の移動ビーコンとの同時通信が可能であることを実証する。 最後に、ハードウェアラボのプロトタイプにおいて、kHz級の最先端の光学カメラ通信周波数を実現する。

Optical identification is often done with spatial or temporal visual pattern recognition and localization. Temporal pattern recognition, depending on the technology, involves a trade-off between communication frequency, range and accurate tracking. We propose a solution with light-emitting beacons that improves this trade-off by exploiting fast event-based cameras and, for tracking, sparse neuromorphic optical flow computed with spiking neurons. In an asset monitoring use case, we demonstrate that the system, embedded in a simulated drone, is robust to relative movements and enables simultaneous communication with, and tracking of, multiple moving beacons. Finally, in a hardware lab prototype, we achieve state-of-the-art optical camera communication frequencies in the kHz magnitude.
翻訳日:2023-03-16 10:34:44 公開日:2023-03-14
# 霧場光流に対する教師なし累積領域適応

Unsupervised Cumulative Domain Adaptation for Foggy Scene Optical Flow ( http://arxiv.org/abs/2303.07564v1 )

ライセンス: Link先を確認
Hanyu Zhou, Yi Chang, Wending Yan, Luxin Yan(参考訳) 光の流れはきれいなシーンでは大きな成功を収めたが、霧のシーンでは限られたパフォーマンスに悩まされている。 クリーン・ツー・フォッギー領域のギャップを埋めるために、既存の手法は通常、運動知識をクリーンからシンセティック・フォッジー領域に転送するためにドメイン適応を採用する。 しかし、これらの手法は、合成と実のドメインギャップを予期せず無視し、現実のシーンに適用すると誤っている。 本研究は, 現実の霧の環境下での実用的な光の流れを扱うために, 深度連想型動き適応と相関配向型動き適応という, 教師なしの累積領域適応型光学フロー(UCDA-Flow)フレームワークを提案する。 具体的には, 深さが光学的流れに影響を与える重要な要素であること, 深い深さ, 低い光学的流れは, クリーン・ツー・フォギー領域のギャップを橋渡しするための深さ結合運動適応モジュールの設計を動機付ける。 さらに, 合成霧領域と実霧領域の運動知識を蒸留する相関調整型運動適応モジュールを考案し, 合成霧領域と実霧領域との類似の分布を, コスト容積相関が共有していることが判明した。 合成霧は中間領域として設計されていることに注意。 この統一された枠組みの下で、提案される累積的適応は、知識をクリーンなシーンから本物の霧のようなシーンへと段階的に転送する。 提案手法の優位性を検証するため, 大規模な実験を行った。

Optical flow has achieved great success under clean scenes, but suffers from restricted performance under foggy scenes. To bridge the clean-to-foggy domain gap, the existing methods typically adopt the domain adaptation to transfer the motion knowledge from clean to synthetic foggy domain. However, these methods unexpectedly neglect the synthetic-to-real domain gap, and thus are erroneous when applied to real-world scenes. To handle the practical optical flow under real foggy scenes, in this work, we propose a novel unsupervised cumulative domain adaptation optical flow (UCDA-Flow) framework: depth-association motion adaptation and correlation-alignment motion adaptation. Specifically, we discover that depth is a key ingredient to influence the optical flow: the deeper depth, the inferior optical flow, which motivates us to design a depth-association motion adaptation module to bridge the clean-to-foggy domain gap. Moreover, we figure out that the cost volume correlation shares similar distribution of the synthetic and real foggy images, which enlightens us to devise a correlation-alignment motion adaptation module to distill motion knowledge of the synthetic foggy domain to the real foggy domain. Note that synthetic fog is designed as the intermediate domain. Under this unified framework, the proposed cumulative adaptation progressively transfers knowledge from clean scenes to real foggy scenes. Extensive experiments have been performed to verify the superiority of the proposed method.
翻訳日:2023-03-15 16:55:24 公開日:2023-03-14
# カリフォルニア州オレンジ郡における空間AI物体認識のための機械学習コンピュータビジョン応用

Machine Learning Computer Vision Applications for Spatial AI Object Recognition in Orange County, California ( http://arxiv.org/abs/2303.07560v1 )

ライセンス: Link先を確認
Kostas Alexandridis(参考訳) カリフォルニア州オレンジ郡において,AI機械学習とコンピュータビジョンアルゴリズムを用いた空間オブジェクト認識と位置検出を統合的かつ体系的に自動化する手法を提案する。 本稿では,マルチセンサ・高分解能フィールドデータ取得のための包括的手法と,ポストフィールド処理と事前解析処理タスクについて述べる。 360{\deg}等高次光球画像における畳み込み型深層ニューラルネットワーク学習と検出対象位置推定を組み合わせたアルゴリズム定式化とワークフローを開発した。 オレンジ郡の2つの領域にまたがる光球画像における800万以上の濃度方向のアプリケーション処理の例を示し、停止信号および消火栓物体認識のための検出結果を示す。 我々は、空間データと公共資産の在庫の自動化、およびほぼリアルタイムなAIフィールドデータシステムを含む将来の技術革新におけるこのアプローチの性能と影響に関する広範な推論とともに、このアプローチの効率性と有効性について論じる。

We provide an integrated and systematic automation approach to spatial object recognition and positional detection using AI machine learning and computer vision algorithms for Orange County, California. We describe a comprehensive methodology for multi-sensor, high-resolution field data acquisition, along with post-field processing and pre-analysis processing tasks. We developed a series of algorithmic formulations and workflows that integrate convolutional deep neural network learning with detected object positioning estimation in 360{\deg} equirectancular photosphere imagery. We provide examples of application processing more than 800 thousand cardinal directions in photosphere images across two areas in Orange County, and present detection results for stop-sign and fire hydrant object recognition. We discuss the efficiency and effectiveness of our approach, along with broader inferences related to the performance and implications of this approach for future technological innovations, including automation of spatial data and public asset inventories, and near real-time AI field data systems.
翻訳日:2023-03-15 16:54:59 公開日:2023-03-14
# 量子ダブルロックイン増幅器

Quantum Double Lock-in Amplifier ( http://arxiv.org/abs/2303.07559v1 )

ライセンス: Link先を確認
Sijie Chen, Min Zhuang, Ruihuang Fang, Yun Chen, Chengyin Han, Bo Lu, Jiahao Huang, and Chaohong Lee(参考訳) 量子ロックイン増幅器は、量子戦略を用いて強いノイズ背景内の交互信号を抽出することを目的としている。 しかし、ターゲット信号が通常未知の初期位相を持つため、単一のロックイン測定でその振幅、周波数、位相の完全な情報を得ることはできない。 ここでは、この課題を克服するために、量子二重ロックイン増幅器を実現するための一般的なプロトコルを提供し、その実現例を示す。 古典的な二重ロックイン増幅器と同様に、このプロトコルは直交パルス列の下で2つの量子ミキサーによって実現される。 2つの直交パルスシーケンスは、古典的な二重ロックイン増幅器において2つの直交参照信号の役割を果たす。 出力信号を組み合わせることで、目標信号の完全な特性を得ることができる。 例えば、$^{87}$rb原子を持つ5レベルダブル-$\lambda$コヒーレント集団トラップシステムにより、量子二重ロックイン増幅器が実現され、各$\lambda$構造が量子ミキサーとして作用し、2つの適用される2つの動的デカップリングシーケンスが2つの直交参照信号の役割を担う。 数値計算により、量子二重ロックイン増幅器は有限パルス長や確率雑音などの実験的な欠陥に対して頑健であることが示された。 本研究は, 強い雑音背景下での交互信号の完全な特性を抽出するための道を開き, 実用的な量子センシング技術の開発に有用である。

Quantum lock-in amplifier aims to extract an alternating signal within strong noise background by using quantum strategy. However, as the target signal usually has an unknown initial phase, we can't obtain the complete information of its amplitude, frequency and phase in a single lock-in measurement. Here, to overcome this challenge, we give a general protocol for achieving a quantum double lock-in amplifier and illustrate its realization. In analog to a classical double lock-in amplifier, our protocol is accomplished via two quantum mixers under orthogonal pulse sequences. The two orthogonal pulse sequences act the roles of two orthogonal reference signals in a classical double lock-in amplifier. Combining the output signals, the complete characteristics of the target signal can be obtained. As an example, we illustrate the realization of our quantum double lock-in amplifier via a five-level double-$\Lambda$ coherent population trapping system with $^{87}$Rb atoms, in which each $\Lambda$ structure acts as a quantum mixer and the two applied dynamical decoupling sequences take the roles of two orthogonal reference signals. Our numerical calculations show that the quantum double lock-in amplifier is robust against experimental imperfections, such as finite pulse length and stochastic noise. Our study opens an avenue for extracting complete characteristics of an alternating signal within strong noise background, which is beneficial for developing practical quantum sensing technologies.
翻訳日:2023-03-15 16:54:36 公開日:2023-03-14
# 異常検出のための生涯学習:新しい課題、展望、展望

Lifelong Learning for Anomaly Detection: New Challenges, Perspectives, and Insights ( http://arxiv.org/abs/2303.07557v1 )

ライセンス: Link先を確認
Kamil Faber, Roberto Corizzo, Bartlomiej Sniezynski, Nathalie Japkowicz(参考訳) 異常検出は多くの現実世界領域において最重要であり、進化する振る舞いを特徴とする。 生涯学習は、過去の知識を保ちながら動的環境における新たな課題に継続的に適応する機械学習モデルの必要性に応える、新たなトレンドを表している。 しかし、生涯にわたる異常検出のための基盤の構築に限られた努力が注がれており、より広範に検討された分類設定と比較して本質的に異なる課題を提供している。 本稿では,生涯にわたる異常検出を探索し,モチベーションを与え,議論することでこの問題に対処し,その普及のための基盤の構築を試みる。 まず、生涯の異常検出が重要である理由を説明し、生涯学習の複雑さを扱う異常検出手法を設計するための課題と機会を定義する。 第2に,既存のデータセットを用いた生涯異常検出実験が可能な学習環境とシナリオ生成手順を特徴付ける。 第3に,生涯学習の導入によって得られるパフォーマンスのギャップを強調し,生活シナリオに対する一般的な異常検出手法を用いた実験を行った。 全体として,環境の包括的視点と同時適応と知識保持を提供するより堅牢なモデルを設計するためには,生涯の異常検出の採用が重要であると結論づける。

Anomaly detection is of paramount importance in many real-world domains, characterized by evolving behavior. Lifelong learning represents an emerging trend, answering the need for machine learning models that continuously adapt to new challenges in dynamic environments while retaining past knowledge. However, limited efforts are dedicated to building foundations for lifelong anomaly detection, which provides intrinsically different challenges compared to the more widely explored classification setting. In this paper, we face this issue by exploring, motivating, and discussing lifelong anomaly detection, trying to build foundations for its wider adoption. First, we explain why lifelong anomaly detection is relevant, defining challenges and opportunities to design anomaly detection methods that deal with lifelong learning complexities. Second, we characterize learning settings and a scenario generation procedure that enables researchers to experiment with lifelong anomaly detection using existing datasets. Third, we perform experiments with popular anomaly detection methods on proposed lifelong scenarios, emphasizing the gap in performance that could be gained with the adoption of lifelong learning. Overall, we conclude that the adoption of lifelong anomaly detection is important to design more robust models that provide a comprehensive view of the environment, as well as simultaneous adaptation and knowledge retention.
翻訳日:2023-03-15 16:54:10 公開日:2023-03-14
# マージ決定トランスフォーマー:マルチタスクポリシー形成のための重み平均化

Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies ( http://arxiv.org/abs/2303.07551v1 )

ライセンス: Link先を確認
Daniel Lawson, Ahmed H. Qureshi(参考訳) 最近の研究は、汎用的でトランスフォーマーベースの、言語、ビジョン、シーケンシャルな意思決定問題のためのポリシーを作成するという約束を示している。 このようなモデルを作成するには、一般的に集中的なトレーニング目標、データ、計算が必要です。 複数のタスク固有の個別に訓練されたポリシーを組み合わせることで、より柔軟にジェネラリストポリシーを作成できれば、それは興味深いことです。 本研究では,異なるムジョコ運動問題で学習された重み空間における決定トランスフォーマーのサブセットをマージし,平均化することにより,マルチタスクモデルを構築することにより,この方向への予備的な一歩を踏み出す。 また,ポリシーをマージする際には,事前学習済みの共通初期化からすべてのポリシーがスタートし,問題特定の微調整時に共有補助タスクを共同トレーニングすれば,よりよい結果が得られることを示す。 一般に、この方向の研究は、一般的に有能なエージェントを形成するプロセスの民主化と配布に役立つと信じている。

Recent work has shown the promise of creating generalist, transformer-based, policies for language, vision, and sequential decision-making problems. To create such models, we generally require centralized training objectives, data, and compute. It is of interest if we can more flexibly create generalist policies, by merging together multiple, task-specific, individually trained policies. In this work, we take a preliminary step in this direction through merging, or averaging, subsets of Decision Transformers in weight space trained on different MuJoCo locomotion problems, forming multi-task models without centralized training. We also propose that when merging policies, we can obtain better results if all policies start from common, pre-trained initializations, while also co-training on shared auxiliary tasks during problem-specific finetuning. In general, we believe research in this direction can help democratize and distribute the process of which forms generally capable agents.
翻訳日:2023-03-15 16:53:50 公開日:2023-03-14
# HazardNet: 合成モデルの強化による道路デブリ検出

HazardNet: Road Debris Detection by Augmentation of Synthetic Models ( http://arxiv.org/abs/2303.07547v1 )

ライセンス: Link先を確認
Tae Eun Choe, Jane Wu, Xiaolin Lin, Karen Kwon, Minwoo Park(参考訳) 少数の合成モデルを用いて未確認の道路破片を検出するアルゴリズムを提案する。 道路破片の早期検出は、安全運転や補助運転において重要であるが、ロバストな道路破片検出モデルの開発は広く議論されていない。 第1に、道路上の危険物が実際の運転シナリオでは遭遇することが稀であるため、道路破片の収集は困難であり、第2に、道路破片の変動性は、非常に小さなレンガから大きな倒木まで幅広い。 これらの課題を克服するために,意味的拡張と領域ランダム化を用いて,実道路画像を合成モデルで拡張する,少数の道路破片の学習手法を提案する。 我々は、問題領域を道路上の一般的でないオブジェクトに制限し、深いニューラルネットワークであるHazardNetが道路の破片の意味を学習して最終的に見えない道路の破片を検出することを可能にする。 以上の結果から,HazardNetは画像の合成対象に対してのみ,実際の道路破片を正確に検出できることがわかった。

We present an algorithm to detect unseen road debris using a small set of synthetic models. Early detection of road debris is critical for safe autonomous or assisted driving, yet the development of a robust road debris detection model has not been widely discussed. There are two main challenges to building a road debris detector: first, data collection of road debris is challenging since hazardous objects on the road are rare to encounter in real driving scenarios; second, the variability of road debris is broad, ranging from a very small brick to a large fallen tree. To overcome these challenges, we propose a novel approach to few-shot learning of road debris that uses semantic augmentation and domain randomization to augment real road images with synthetic models. We constrain the problem domain to uncommon objects on the road and allow the deep neural network, HazardNet, to learn the semantic meaning of road debris to eventually detect unseen road debris. Our results demonstrate that HazardNet is able to accurately detect real road debris when only trained on synthetic objects in augmented images.
翻訳日:2023-03-15 16:53:30 公開日:2023-03-14
# Constrained Adversarial Learningと自動ソフトウェアテストへの適用性: 体系的レビュー

Constrained Adversarial Learning and its applicability to Automated Software Testing: a systematic review ( http://arxiv.org/abs/2303.07546v1 )

ライセンス: Link先を確認
Jo\~ao Vitorino, Tiago Dias, Tiago Fonseca, Eva Maia, Isabel Pra\c{c}a(参考訳) あらゆる新しいテクノロジーは、多くのサイバー攻撃によって悪用される準備ができている隠れた脆弱性を追加する。 自動ソフトウェアテストは、多数の脆弱性やアタックベクターに遭遇するために関数固有のテストデータを生成し、わずかに修正することで、何千行ものコードを素早く分析する、有望なソリューションである。 このプロセスは、敵対的学習手法が生み出す制約された敵の例と類似しているため、これらの手法を自動テストツールに統合する上で大きなメリットがある可能性がある。 そこで本研究では, 逆学習手法によるテストツールの強化と, ディジタルシステムのレジリエンスと堅牢性の向上を目的とした, 逆学習およびソフトウェアテストに適用された制約付きデータ生成手法の現状に注目した。 対戦型機械学習のための制約付きデータ生成アプリケーションは体系化され、ソフトウェアテストに特化したアプローチの利点と限界が徹底的に分析され、研究のギャップと、敵型攻撃手法によるテストツールの改善の機会が特定された。

Every novel technology adds hidden vulnerabilities ready to be exploited by a growing number of cyber-attacks. Automated software testing can be a promising solution to quickly analyze thousands of lines of code by generating and slightly modifying function-specific testing data to encounter a multitude of vulnerabilities and attack vectors. This process draws similarities to the constrained adversarial examples generated by adversarial learning methods, so there could be significant benefits to the integration of these methods in automated testing tools. Therefore, this systematic review is focused on the current state-of-the-art of constrained data generation methods applied for adversarial learning and software testing, aiming to guide researchers and developers to enhance testing tools with adversarial learning methods and improve the resilience and robustness of their digital systems. The found constrained data generation applications for adversarial machine learning were systematized, and the advantages and limitations of approaches specific for software testing were thoroughly analyzed, identifying research gaps and opportunities to improve testing tools with adversarial attack methods.
翻訳日:2023-03-15 16:53:10 公開日:2023-03-14
# マルチセンテンス動画キャプションのための暗黙的および明示的コモンセンス

Implicit and Explicit Commonsense for Multi-sentence Video Captioning ( http://arxiv.org/abs/2303.07545v1 )

ライセンス: Link先を確認
Shih-Han Chou, James J. Little, Leonid Sigal(参考訳) 既存の高密度または段落ビデオキャプションのアプローチは、階層的言語デコーダを条件付けるために、学習されたオブジェクト/アクション表現と組み合わせたビデオの全体論的表現に依存している。 しかし、それらは基本的に、出来事の進行、因果関係、そしてシーン内の特定の物体の機能について推論するために必要な世界の常識的な知識を欠いている。 この制限に対処するために,暗黙的(言語的および純粋に言語的)と明示的(知識ベース)の常識的知識の両方を考慮した,新しいビデオキャプショントランスフォーマーモデルを提案する。 我々は,これらの形態の知識が,単独でかつ組み合わせて,生成したキャプションの品質を高めることを示す。 さらに,模倣学習にインスパイアされた新しい命令生成タスクを提案する。その目的は,そのパフォーマンスのデモビデオから,言語指導のセットを作成することである。 AI2-THOR環境を用いて生成されたALFREDデータセット[52]を用いてタスクを形式化する。 命令生成は、概念的には段落文と似ているが、空間認識や因果文構造と同様に、より強いオブジェクト永続性を示すという事実が異なる。 我々は,我々の常識的知識向上アプローチが,このタスクにおいて大幅な改善(METEORでは最大57%,CIDErでは8.5%)と,ActivityNet Captionsデータセット[29]における従来のビデオキャプションの最先端結果をもたらすことを示す。

Existing dense or paragraph video captioning approaches rely on holistic representations of videos, possibly coupled with learned object/action representations, to condition hierarchical language decoders. However, they fundamentally lack the commonsense knowledge of the world required to reason about progression of events, causality, and even function of certain objects within a scene. To address this limitation we propose a novel video captioning Transformer-based model, that takes into account both implicit (visuo-lingual and purely linguistic) and explicit (knowledge-base) commonsense knowledge. We show that these forms of knowledge, in isolation and in combination, enhance the quality of produced captions. Further, inspired by imitation learning, we propose a new task of instruction generation, where the goal is to produce a set of linguistic instructions from a video demonstration of its performance. We formalize the task using ALFRED dataset [52] generated using an AI2-THOR environment. While instruction generation is conceptually similar to paragraph captioning, it differs in the fact that it exhibits stronger object persistence, as well as spatially-aware and causal sentence structure. We show that our commonsense knowledge enhanced approach produces significant improvements on this task (up to 57% in METEOR and 8.5% in CIDEr), as well as the state-of-the-art result on more traditional video captioning in the ActivityNet Captions dataset [29].
翻訳日:2023-03-15 16:52:51 公開日:2023-03-14
# wdiscood:白化線形判別分析による分布外検出

WDiscOOD: Out-of-Distribution Detection via Whitened Linear Discriminative Analysis ( http://arxiv.org/abs/2303.07543v1 )

ライセンス: Link先を確認
Yiye Chen, Yunzhi Lin, Ruinian Xu, Patricio A. Vela(参考訳) ディープニューラルネットワークは、既知の概念を超えたデータで提示された場合、自信過剰だが誤った予測を生じやすい。 この課題は、オープンワールドにおけるアウト・オブ・ディストリビューション(OOD)サンプルの検出の重要性を浮き彫りにする。 本研究では,クラス固有情報とクラス非依存情報とを併用した特徴空間OOD検出スコアを提案する。 具体的には,idクラスが最大に分離され,密にクラスタ化される2つの部分空間(識別空間と残留部分空間)に特徴を投影するために,ホワイトド線形判別分析を利用する。 OODスコアは、入力データからのずれと、両方のサブスペース内のID分布とを組み合わせて決定される。 提案手法の有効性は,大規模なImageNet-1kベンチマークで検証され,6つのOODデータセットが分散シフトをカバーしている。 wdiscoodはcnnやvision transformerなど、さまざまなバックボーンアーキテクチャを備えた深い分類器で優れたパフォーマンスを示している。 さらに,本手法は,教師付きコントラスト損失やマルチモダリティコントラスト損失を含む,コントラスト目標で訓練された表現空間における新たな概念をより効果的に検出できることを示す。

Deep neural networks are susceptible to generating overconfident yet erroneous predictions when presented with data beyond known concepts. This challenge underscores the importance of detecting out-of-distribution (OOD) samples in the open world. In this work, we propose a novel feature-space OOD detection score that jointly reasons with both class-specific and class-agnostic information. Specifically, our approach utilizes Whitened Linear Discriminative Analysis to project features into two subspaces - the discriminative and residual subspaces - in which the ID classes are maximally separated and closely clustered, respectively. The OOD score is then determined by combining the deviation from the input data to the ID distribution in both subspaces. The efficacy of our method, named WDiscOOD, is verified on the large-scale ImageNet-1k benchmark, with six OOD datasets that covers a variety of distribution shifts. WDiscOOD demonstrates superior performance on deep classifiers with diverse backbone architectures, including CNN and vision transformer. Furthermore, we also show that our method can more effectively detect novel concepts in representation space trained with contrastive objectives, including supervised contrastive loss and multi-modality contrastive loss.
翻訳日:2023-03-15 16:52:23 公開日:2023-03-14
# 心MRIによる肺動脈圧予測のためのテンソルベースマルチモーダル学習

Tensor-based Multimodal Learning for Prediction of Pulmonary Arterial Wedge Pressure from Cardiac MRI ( http://arxiv.org/abs/2303.07540v1 )

ライセンス: Link先を確認
Prasun C. Tripathi, Mohammod N. I. Suvon, Lawrence Schobs, Shuo Zhou, Samer Alabed, Andrew J. Swift, Haiping Lu(参考訳) 心不全は重症で生命を脅かす状態であり、左室の圧力上昇につながる可能性がある。 肺動脈枝圧(PAWP)は左室の高圧を示す重要な代理マーカーである。 PAWPは右心臓カテーテル化(RHC)によって決定されるが、侵襲的な処置である。 非侵襲的な方法は、人口の多い高リスク患者を迅速に同定するのに有用である。 本研究では,マルチモーダル心磁共鳴画像(MRI)からPAWPを同定するテンソル学習ベースのパイプラインを開発する。 このパイプラインは高次元スキャンから空間的特徴と時間的特徴を抽出する。 品質管理には,病的不確実性に基づくビンニング戦略を取り入れ,質の悪いトレーニングサンプルを同定する。 本研究は,複数モーダルデータから,短軸・4軸の心MRI,電子健康記録などの特徴を統合することで,相補的情報を学習する。 PAWP推定のためのRHC手順を施行した1346ドルの被験者の大規模なコホートに関する実験的分析では、提案されたパイプラインは診断値があり、臨床実践におけるベースラインよりも大幅に改善された有望な性能が得られる($\Delta$AUC $=0.10$、$\Delta$Accuracy $=0.06$、$\Delta$MCC $=0.39$)。 判定曲線解析により,本手法の臨床的有用性をさらに確認する。

Heart failure is a serious and life-threatening condition that can lead to elevated pressure in the left ventricle. Pulmonary Arterial Wedge Pressure (PAWP) is an important surrogate marker indicating high pressure in the left ventricle. PAWP is determined by Right Heart Catheterization (RHC) but it is an invasive procedure. A non-invasive method is useful in quickly identifying high-risk patients from a large population. In this work, we develop a tensor learning-based pipeline for identifying PAWP from multimodal cardiac Magnetic Resonance Imaging (MRI). This pipeline extracts spatial and temporal features from high-dimensional scans. For quality control, we incorporate an epistemic uncertainty-based binning strategy to identify poor-quality training samples. To improve the performance, we learn complementary information by integrating features from multimodal data: cardiac MRI with short-axis and four-chamber views, and Electronic Health Records. The experimental analysis on a large cohort of $1346$ subjects who underwent the RHC procedure for PAWP estimation indicates that the proposed pipeline has a diagnostic value and can produce promising performance with significant improvement over the baseline in clinical practice (i.e., $\Delta$AUC $=0.10$, $\Delta$Accuracy $=0.06$, and $\Delta$MCC $=0.39$). The decision curve analysis further confirms the clinical utility of our method.
翻訳日:2023-03-15 16:52:02 公開日:2023-03-14
# 編集が容易な周波数変調ポイントクラウドレンダリング

Frequency-Modulated Point Cloud Rendering with Easy Editing ( http://arxiv.org/abs/2303.07596v1 )

ライセンス: Link先を確認
Yi Zhang, Xiaoyang Huang, Bingbing Ni, Teng Li, Wenjun Zhang(参考訳) 本研究では,高忠実度ローカルディテール再構築,リアルタイムレンダリング,ユーザフレンドリーな編集を可能にする,新しいビュー合成のための効率的なポイントクラウドレンダリングパイプラインを開発する。 パイプラインの中心部には、適応周波数変調モジュールであるAdaptive Frequency Net (AFNet) があり、これはハイパーネットワークを用いて、適応周波数活性化層に連続的に注入された局所テクスチャ周波数符号化を学習し、暗示放射信号の変調を行う。 このメカニズムは、少ない計算予算でのみ、よりリッチな周波数ベースサポートを持つネットワークの周波数表現能力を向上させる。 さらに性能向上のために,点不透明度推定による点雲形状最適化のための前処理モジュールを提案する。 暗黙的なレンダリングとは対照的に,当社のパイプラインでは,ポイントクラウド操作に基づく忠実度の高いインタラクティブな編集をサポートしています。 NRF-Synthetic, ScanNet, DTU, Tanks and Temples データセットの大規模な実験結果から,PSNR, SSIM, LPIPS の手法で得られた性能を最先端技術と比較した。

We develop an effective point cloud rendering pipeline for novel view synthesis, which enables high fidelity local detail reconstruction, real-time rendering and user-friendly editing. In the heart of our pipeline is an adaptive frequency modulation module called Adaptive Frequency Net (AFNet), which utilizes a hypernetwork to learn the local texture frequency encoding that is consecutively injected into adaptive frequency activation layers to modulate the implicit radiance signal. This mechanism improves the frequency expressive ability of the network with richer frequency basis support, only at a small computational budget. To further boost performance, a preprocessing module is also proposed for point cloud geometry optimization via point opacity estimation. In contrast to implicit rendering, our pipeline supports high-fidelity interactive editing based on point cloud manipulation. Extensive experimental results on NeRF-Synthetic, ScanNet, DTU and Tanks and Temples datasets demonstrate the superior performances achieved by our method in terms of PSNR, SSIM and LPIPS, in comparison to the state-of-the-art.
翻訳日:2023-03-15 16:44:55 公開日:2023-03-14
# 単一隠れ層フィードフォワードニューラルネットワークによる逐次的3方向決定

Sequential three-way decisions with a single hidden layer feedforward neural network ( http://arxiv.org/abs/2303.07589v1 )

ライセンス: Link先を確認
Youxi Wu, Shuhui Cheng, Yan Li, Rongjie Lv, Fan Min(参考訳) ネットワークトポロジを単一の隠蔽層フィードフォワードニューラルネットワーク(SFNN)で構築するための3方向決定戦略が採用されている。 しかしながら、このモデルは一般的な性能を持ち、しきい値パラメータが固定されているため、プロセスコストを考慮しない。 逐次三方向決定(STWD)にインスパイアされた本研究では,構造化データセット上でのネットワーク性能を高めるために,SFNN(STWD-SFNN)を用いたSTWDを提案する。 stwd-sfnnはマルチグラニュラ性レベルを採用し、隠れたレイヤノードの数を粗いものから細かいものまで動的に学習し、シーケンシャルしきい値パラメータを設定する。 具体的には、粗粒度レベルでは、厳格なしきい値条件を適用して容易に分類できるインスタンスを処理し、細粒度での隠れ層ノード数の増加に伴い、ゆるいしきい条件を適用して分類困難なインスタンスの配置に重点を置き、インスタンスの分類を実現する。 さらに、STWD-SFNNは、各粒度のプロセスコストを考慮し、報告する。 実験により,STWD-SFNNは他のSFNNモデルよりも構造化データセット上でよりコンパクトなネットワークを持ち,競合モデルよりも優れた一般化性能を有することを確認した。 すべてのモデルとデータセットはhttps://github.com/wuc567/Machine-learning/tree/main/STWD-SFNNからダウンロードできる。

The three-way decisions strategy has been employed to construct network topology in a single hidden layer feedforward neural network (SFNN). However, this model has a general performance, and does not consider the process costs, since it has fixed threshold parameters. Inspired by the sequential three-way decisions (STWD), this paper proposes STWD with an SFNN (STWD-SFNN) to enhance the performance of networks on structured datasets. STWD-SFNN adopts multi-granularity levels to dynamically learn the number of hidden layer nodes from coarse to fine, and set the sequential threshold parameters. Specifically, at the coarse granular level, STWD-SFNN handles easy-to-classify instances by applying strict threshold conditions, and with the increasing number of hidden layer nodes at the fine granular level, STWD-SFNN focuses more on disposing of the difficult-to-classify instances by applying loose threshold conditions, thereby realizing the classification of instances. Moreover, STWD-SFNN considers and reports the process cost produced from each granular level. The experimental results verify that STWD-SFNN has a more compact network on structured datasets than other SFNN models, and has better generalization performance than the competitive models. All models and datasets can be downloaded from https://github.com/wuc567/Machine-learning/tree/main/STWD-SFNN.
翻訳日:2023-03-15 16:44:33 公開日:2023-03-14
# 組み込み加速器におけるレーダ知覚のための教師による知識蒸留

Teacher-Student Knowledge Distillation for Radar Perception on Embedded Accelerators ( http://arxiv.org/abs/2303.07586v1 )

ライセンス: Link先を確認
Steven Shaw, Kanishka Tyagi, Shan Zhang(参考訳) 多くのレーダ信号処理手法が道路安全認識タスクのために開発されている。 残念なことに、これらの信号処理アルゴリズムは、しばしば自動車で使用される組み込みハードウェアアクセラレーターで動作するのに不適である。 逆に、エンド・ツー・エンドの機械学習(ML)アプローチは、特別なアクセラレーターがもたらすパフォーマンス向上をよりよく活用する。 本稿では,低レベルレーダ認識タスクに対する教師による知識蒸留手法を提案する。 教師として静止物体検出のためのハイブリッドモデルを用いて、エンドツーエンドのML学生モデルを訓練する。 学生は組込み計算を効果的に活用し、リアルタイムの展開を可能にする。 提案した学生モデルは,教師モデルより100倍速い速度で実行可能であることを示す。

Many radar signal processing methodologies are being developed for critical road safety perception tasks. Unfortunately, these signal processing algorithms are often poorly suited to run on embedded hardware accelerators used in automobiles. Conversely, end-to-end machine learning (ML) approaches better exploit the performance gains brought by specialized accelerators. In this paper, we propose a teacher-student knowledge distillation approach for low-level radar perception tasks. We utilize a hybrid model for stationary object detection as a teacher to train an end-to-end ML student model. The student can efficiently harness embedded compute for real-time deployment. We demonstrate that the proposed student model runs at speeds 100x faster than the teacher model.
翻訳日:2023-03-15 16:44:04 公開日:2023-03-14
# 注意値による入力長短縮とテキスト生成

Input-length-shortening and text generation via attention values ( http://arxiv.org/abs/2303.07585v1 )

ライセンス: Link先を確認
Ne\c{s}et \"Ozkan Tan, Alex Yuxuan Peng, Joshua Bensemann, Qiming Bao, Tim Hartill, Mark Gahegan, Michael Witbrock(参考訳) タスクのパフォーマンスに他よりも影響を及ぼす単語を特定することは、自然言語処理における課題である。 トランスフォーマーモデルは近年この問題に対処し、注意力(すなわち関連性)のスコアを他の単語よりも多く割り当てるアテンションメカニズムを導入している。 注意機構の計算コストが高いため、トランスフォーマーモデルは通常、ハードウェアの制約によって引き起こされる入力長制限を持つ。 この制限は、変圧器(BERT)モデルのよく知られた双方向エンコーダ表現を含む多くの変圧器に適用される。 本稿では,BERTの注意割当メカニズムについて検討し,(1)入力長の削減にどのように注意を向けられるかという2つの質問に焦点をあてた。 2) 条件付きテキスト生成の制御メカニズムとして注意をどう利用できるか? これらの質問をテキスト分類タスクの文脈で検討した。 BERTの初期レイヤは、テキスト分類タスクに対して、後のレイヤよりも重要な注意点を割り当てていることがわかった。 我々は,第1層の注意和を用いて,所定のシーケンス内のトークンをフィルタリングし,良好なテスト精度を維持しつつ,入力長を著しく低減できることを示した。 また,計算効率の高い意味的類似性アルゴリズムを用いたフィルタリングを適用し,約6\%の配列を保持することで86.5\%の精度が得られることを確認した。 最後に,bertの第1層に従って注意スコアの高いトークンのごく一部 (10 %) のみを用いて,データの安定な生成が可能であり,元のトークンとは区別がつかないことを示す。

Identifying words that impact a task's performance more than others is a challenge in natural language processing. Transformers models have recently addressed this issue by incorporating an attention mechanism that assigns greater attention (i.e., relevance) scores to some words than others. Because of the attention mechanism's high computational cost, transformer models usually have an input-length limitation caused by hardware constraints. This limitation applies to many transformers, including the well-known bidirectional encoder representations of the transformer (BERT) model. In this paper, we examined BERT's attention assignment mechanism, focusing on two questions: (1) How can attention be employed to reduce input length? (2) How can attention be used as a control mechanism for conditional text generation? We investigated these questions in the context of a text classification task. We discovered that BERT's early layers assign more critical attention scores for text classification tasks compared to later layers. We demonstrated that the first layer's attention sums could be used to filter tokens in a given sequence, considerably decreasing the input length while maintaining good test accuracy. We also applied filtering, which uses a compute-efficient semantic similarities algorithm, and discovered that retaining approximately 6\% of the original sequence is sufficient to obtain 86.5\% accuracy. Finally, we showed that we could generate data in a stable manner and indistinguishable from the original one by only using a small percentage (10\%) of the tokens with high attention scores according to BERT's first layer.
翻訳日:2023-03-15 16:43:57 公開日:2023-03-14
# スマートコントラクトによる健康保険不正検出のためのブロックチェーンプラットフォーム選択のための適応的意思決定アプローチ--開発とパフォーマンス評価

An Adaptive Decision-Making Approach for Better Selection of a Blockchain Platform for Health Insurance Frauds Detection with Smart Contracts: Development and Performance Evaluation ( http://arxiv.org/abs/2303.07584v1 )

ライセンス: Link先を確認
Rima Kaafarani, Leila Ismail, Oussama Zahwe(参考訳) ブロックチェーン技術はあらゆるタイプのビジネスの関心を喚起し、開発者とビジネスオーナーの要求を継続的に改善し、適応させてきた。 そのため、いくつかのブロックチェーンプラットフォームが登場し、特定のタイプのビジネスに適したものを選択するのは難しい。 本稿では,100以上のブロックチェーンプラットフォームを分類する。 我々は,医療保険詐欺検出アプリケーションに適した2つのプラットフォームを選択する上で,提案した意思決定マップアプローチに基づいて選択した2つのブロックチェーンプラットフォームを用いて,医療保険詐欺検出のためのスマートコントラクトを開発し,そのパフォーマンスを評価する。 当社の分類によると、ブロックチェーンプラットフォームの最大割合は、あらゆる種類のアプリケーションドメインで使用でき、第2の比率は、汎用プラットフォームが使用可能であっても、金融サービスのみを開発することであり、少数の数は、他の特定のアプリケーションドメインで開発するためのものである。 私たちの意思決定マップによると、Hyperledger Fabricは医療保険詐欺を検出するための、最高のブロックチェーンプラットフォームです。 上位2つのプラットフォームのパフォーマンス評価は、ファブリックがすべてのメトリクスでneoを上回ったことを示している。

Blockchain technology has piqued the interest of businesses of all types, while consistently improving and adapting to developers and business owners requirements. Therefore, several blockchain platforms have emerged, making it challenging to select a suitable one for a specific type of business. This paper presents a classification of over one hundred blockchain platforms. We develop smart contracts for detecting healthcare insurance frauds using two blockchain platforms selected based on our proposed decision-making map approach for the selection of the top two suitable platforms for healthcare insurance frauds detection application, followed by an evaluation of their performances. Our classification shows that the largest percentage of blockchain platforms could be used for all types of application domains, and the second biggest percentage is to develop financial services only, even though generic platforms can be used, while a small number is for developing in other specific application domains. Our decision-making map revealed that Hyperledger Fabric is the best blockchain platform for detecting healthcare insurance frauds. The performance evaluation of the top two selected platforms indicates that Fabric surpassed Neo in all metrics.
翻訳日:2023-03-15 16:43:33 公開日:2023-03-14
# 量子力学におけるスピンと角運動量

Spin and angular momentum in quaternionic quantum mechanics ( http://arxiv.org/abs/2303.07583v1 )

ライセンス: Link先を確認
Sergio Giardino(参考訳) 実ヒルベルト状態準イオン量子力学(英語版)(\mathbb H$QM)の2つの新しい解を提案する。 まず、角運動量作用素は物理的に同値でない自由粒子の2つの異なるクラスを持つことを観測する。 第2の結果として, ラーモア・プレスションの研究を行い, 新たな現象論的解釈が可能であり, スピンの相違も可能となる四元性解が存在することを確認し, これらの結果は四元性理論の実験的および理論的研究を助長する可能性がある。

We present two novel solutions of real Hilbert state quaternionic quantum mechanics ($\mathbb H$QM). Firstly, we observe that the angular momentum operator admits two different classes of physically non-equivalent free particles. As a second result, we study the Larmor precession to observe that it has a quaternionic solution where a novel phenomenological interpretation is possible, as well as a different of spin is possible, and these results may encourage experimental and theoretical investigations of the quaternionic theory.
翻訳日:2023-03-15 16:43:16 公開日:2023-03-14
# sparsely annotated object detectionのための校正教師

Calibrated Teacher for Sparsely Annotated Object Detection ( http://arxiv.org/abs/2303.07582v1 )

ライセンス: Link先を確認
Haohan Wang, Liang Liu, Boshen Zhang, Jiangning Zhang, Wuhao Zhang, Zhenye Gan, Yabiao Wang, Chengjie Wang, Haoqian Wang(参考訳) 完全な教師付きオブジェクト検出には、すべてのインスタンスに注釈を付けるトレーニングイメージが必要である。 これは、高い労力と時間コストと避けられないアノテーションのために現実的ではありません。 その結果、各画像の不完全なアノテーションは、誤った指導を与え、訓練を傷つける可能性がある。 近年,アノテーションの欠落に対して擬似ラベルを生成することで,オブジェクト検出の容易化が図られている。 このようなメカニズムは、擬似ラベルスコアのしきい値に敏感である。 しかし、有効な閾値は、異なる訓練段階と異なる物体検出器の間で異なる。 したがって、固定しきい値を持つ現在の手法は最適化性能が低く、他の検出器に適用することが困難である。 この障害を解決するために,予測の信頼度推定が実際の精度に合致するように高度に校正された校正教師を提案する。 このように、異なる訓練段階の異なる検出器は出力の信頼性の同様の分布を共有し、複数の検出器は同じ固定しきい値を共有し、より良い性能を達成することができる。 さらに,分類損失に対する簡易で効果的なFocal IoU Weight(FIoU)を提案する。 FIoUは、アノテーションの欠如による偽陰性サンプルの損失重量を減らすことを目的としており、教師-学生パラダイムの補完として機能する。 大規模な実験により,COCOにおけるすべての異なるスパース設定の下で,新たな最先端の手法が確立された。 コードはhttps://github.com/Whileherham/CalibratedTeacher.comで入手できる。

Fully supervised object detection requires training images in which all instances are annotated. This is actually impractical due to the high labor and time costs and the unavoidable missing annotations. As a result, the incomplete annotation in each image could provide misleading supervision and harm the training. Recent works on sparsely annotated object detection alleviate this problem by generating pseudo labels for the missing annotations. Such a mechanism is sensitive to the threshold of the pseudo label score. However, the effective threshold is different in different training stages and among different object detectors. Therefore, the current methods with fixed thresholds have sub-optimal performance, and are difficult to be applied to other detectors. In order to resolve this obstacle, we propose a Calibrated Teacher, of which the confidence estimation of the prediction is well calibrated to match its real precision. In this way, different detectors in different training stages would share a similar distribution of the output confidence, so that multiple detectors could share the same fixed threshold and achieve better performance. Furthermore, we present a simple but effective Focal IoU Weight (FIoU) for the classification loss. FIoU aims at reducing the loss weight of false negative samples caused by the missing annotation, and thus works as the complement of the teacher-student paradigm. Extensive experiments show that our methods set new state-of-the-art under all different sparse settings in COCO. Code will be available at https://github.com/Whileherham/CalibratedTeacher.
翻訳日:2023-03-15 16:43:06 公開日:2023-03-14
# 説明可能なAIを用いた高感度領域ベース変成テストフレームワーク

Sensitive Region-based Metamorphic Testing Framework using Explainable AI ( http://arxiv.org/abs/2303.07580v1 )

ライセンス: Link先を確認
Yuma Torikoshi, Yasuharu Nishi and Juichi Takahashi(参考訳) ディープラーニング(DL)は、機械学習およびDL駆動画像認識システムにおいて最も人気のある研究トピックの1つである。 近年の研究では、誤分類画像の検出にメタモルフィックテスト(MT)が用いられている。 それらの多くは変成関係(MR)について論じており、どの領域を変換すべきかについての議論はほとんどない。 我々は,小さな変換でも予測結果を容易に変更できるようなセンシティブな領域が存在することに注目し,センシティブな領域を変換して誤分類しやすい領域を効率的にテストするmtフレームワークを提案する。 評価の結果,この感度領域は説明可能なAI(XAI)によって特定できることがわかった。

Deep Learning (DL) is one of the most popular research topics in machine learning and DL-driven image recognition systems have developed rapidly. Recent research has used metamorphic testing (MT) to detect misclassified images. Most of them discuss metamorphic relations (MR), with little discussion on which regions should be transformed. We focus on the fact that there are sensitive regions where even a small transformation can easily change the prediction results and propose an MT framework that efficiently tests for regions prone to misclassification by transforming the sensitive regions. Our evaluation showed that the sensitive regions can be specified by Explainable AI (XAI) and our framework effectively detects faults.
翻訳日:2023-03-15 16:42:44 公開日:2023-03-14
# VANI: アイデンティティ保護を備えたネイティブおよび非ネイティブ話者のための超軽量アクセント制御可能なTS

VANI: Very-lightweight Accent-controllable TTS for Native and Non-native speakers with Identity Preservation ( http://arxiv.org/abs/2303.07578v1 )

ライセンス: Link先を確認
Rohan Badlani, Akshit Arora, Subhankar Ghosh, Rafael Valle, Kevin J. Shih, Jo\~ao Felipe Santos, Boris Ginsburg, Bryan Catanzaro(参考訳) 非常に軽量な多言語アクセント制御型音声合成システムVANIを紹介する。 我々のモデルは、RADMMMで提案されたアンタングル化戦略に基づいており、アクセント、言語、話者、きめ細かい$F_0$と音声合成のためのエネルギー的特徴の明示的な制御をサポートしている。 我々は、ICASSP Signal Processing Grand Challengeの一部としてLIMMITS 2023向けにリリースされたIndic言語データセットを使用して、3つの異なる言語で音声を合成する。 本モデルでは,話者の声と母国語のアクセントを維持しながら,話者の言語伝達を支援する。 大型のRADMMMモデルをトラックに1ドル、軽量のVANIモデルを2ドル、競合の3ドルに利用しています。

We introduce VANI, a very lightweight multi-lingual accent controllable speech synthesis system. Our model builds upon disentanglement strategies proposed in RADMMM and supports explicit control of accent, language, speaker and fine-grained $F_0$ and energy features for speech synthesis. We utilize the Indic languages dataset, released for LIMMITS 2023 as part of ICASSP Signal Processing Grand Challenge, to synthesize speech in 3 different languages. Our model supports transferring the language of a speaker while retaining their voice and the native accent of the target language. We utilize the large-parameter RADMMM model for Track $1$ and lightweight VANI model for Track $2$ and $3$ of the competition.
翻訳日:2023-03-15 16:42:32 公開日:2023-03-14
# nlpにおける拡散モデル:調査

Diffusion Models in NLP: A Survey ( http://arxiv.org/abs/2303.07576v1 )

ライセンス: Link先を確認
Yuansong Zhu, Yu Zhao(参考訳) 拡散モデルは、多くのアプリケーションで記録的な性能を持つ、深い生成モデルの強力なファミリーとなっている。 本稿では,まず拡散モデルの基本理論の概要と導出を行い,テキスト生成,テキスト駆動画像生成,その他4つの側面から自然言語処理の分野での拡散モデルの研究結果をレビューし,関連文献の分類と要約を行い,最後に,文献レビュー研究の経験と感想を記録する。

Diffusion models have become a powerful family of deep generative models, with record-breaking performance in many applications. This paper first gives an overview and derivation of the basic theory of diffusion models, then reviews the research results of diffusion models in the field of natural language processing, from text generation, text-driven image generation and other four aspects, and analyzes and summarizes the relevant literature materials sorted out, and finally records the experience and feelings of this topic literature review research.
翻訳日:2023-03-15 16:42:18 公開日:2023-03-14
# 視点変換と時空間ストレッチによるロバストスパイクニューラルネットワークの訓練

Training Robust Spiking Neural Networks with ViewPoint Transform and SpatioTemporal Stretching ( http://arxiv.org/abs/2303.07609v1 )

ライセンス: Link先を確認
Haibo Shen, Juyu Xiao, Yihao Luo, Xiang Cao, Liangqi Zhang, Tianjiang Wang(参考訳) ニューロモルフィック視覚センサー(イベントカメラ)は生物学的視覚系をシミュレートし、高時間分解能、データ冗長性、低消費電力、大きなダイナミックレンジの利点を有する。 イベントとスパイクの両方がニューラルネットワークからモデル化されているため、イベントカメラは本質的に、人工知能(AI)と理論神経科学の有望なモデルであるスパイクニューラルネットワーク(SNN)に適している。 しかし、これらのカメラの非伝統的な視覚信号は、スパイクニューラルネットワークの堅牢性に大きな課題をもたらす。 本稿では,新しいデータ拡張手法であるViewPoint Transform and SpatioTemporal Stretching(VPT-STS)を提案する。 時空間領域の回転中心と角度を変換して異なる視点からサンプルを生成することにより、SNNの堅牢性を向上させる。 さらに,視点変換における潜在的な情報損失を回避するために,時空間ストレッチングを導入する。 有意なニューロモルフィックデータセットに関する大規模な実験により、VPT-STSは多点表現に広く有効であり、純粋な空間幾何学的変換を著しく上回ることを示した。 特に、VPT-STSによるSNNsモデルは、DVS-CIFAR10データセットで84.4\%の最先端の精度を達成する。

Neuromorphic vision sensors (event cameras) simulate biological visual perception systems and have the advantages of high temporal resolution, less data redundancy, low power consumption, and large dynamic range. Since both events and spikes are modeled from neural signals, event cameras are inherently suitable for spiking neural networks (SNNs), which are considered promising models for artificial intelligence (AI) and theoretical neuroscience. However, the unconventional visual signals of these cameras pose a great challenge to the robustness of spiking neural networks. In this paper, we propose a novel data augmentation method, ViewPoint Transform and SpatioTemporal Stretching (VPT-STS). It improves the robustness of SNNs by transforming the rotation centers and angles in the spatiotemporal domain to generate samples from different viewpoints. Furthermore, we introduce the spatiotemporal stretching to avoid potential information loss in viewpoint transformation. Extensive experiments on prevailing neuromorphic datasets demonstrate that VPT-STS is broadly effective on multi-event representations and significantly outperforms pure spatial geometric transformations. Notably, the SNNs model with VPT-STS achieves a state-of-the-art accuracy of 84.4\% on the DVS-CIFAR10 dataset.
翻訳日:2023-03-15 16:36:44 公開日:2023-03-14
# ラベル不均衡データに対するクロスエントロピーパラメータ化の入射幾何について

On the Implicit Geometry of Cross-Entropy Parameterizations for Label-Imbalanced Data ( http://arxiv.org/abs/2303.07608v1 )

ライセンス: Link先を確認
Tina Behnia, Ganesh Ramachandra Kini, Vala Vakilian, Christos Thrampoulidis(参考訳) クロスエントロピー(CE)損失の様々なロジト調整パラメーター化は、ゼロ列車エラー体制をはるかに超越したラベル不均衡データの大規模モデルをトレーニングするための重み付きCEの代替案として提案されている。 これらの設計の背後にある原動力は暗黙の偏見の理論であり、これは線形(サイズ)モデルに対して、なぜマイノリティを好む解に対する最適化経路の偏見をうまく誘導したのかを説明するものである。 この理論を非線形モデルに拡張することを目指して、異なるceパラメータ化によって学習される分類器と埋め込みの暗黙的幾何について検討する。 我々の主な成果は、ディープネットの抽象化として機能する制約のない特徴モデルの非凸コスト感受性SVM分類器のグローバル最小化を特徴付けるものである。 クラス数、不均衡、マイノリティ比、損失超パラメータの関数として分類子と埋め込みの角度とノルムに対する閉形式公式を導出する。 これらを用いて,不均衡比によらず,ロジット調整パラメータ化を適切に調整して対称幾何分布を学習できることを示す。 我々は、実験とディープネットにおける収束精度の実証的研究で分析を補完する。

Various logit-adjusted parameterizations of the cross-entropy (CE) loss have been proposed as alternatives to weighted CE for training large models on label-imbalanced data far beyond the zero train error regime. The driving force behind those designs has been the theory of implicit bias, which for linear(ized) models, explains why they successfully induce bias on the optimization path towards solutions that favor minorities. Aiming to extend this theory to non-linear models, we investigate the implicit geometry of classifiers and embeddings that are learned by different CE parameterizations. Our main result characterizes the global minimizers of a non-convex cost-sensitive SVM classifier for the unconstrained features model, which serves as an abstraction of deep nets. We derive closed-form formulas for the angles and norms of classifiers and embeddings as a function of the number of classes, the imbalance and the minority ratios, and the loss hyperparameters. Using these, we show that logit-adjusted parameterizations can be appropriately tuned to learn symmetric geometries irrespective of the imbalance ratio. We complement our analysis with experiments and an empirical study of convergence accuracy in deep-nets.
翻訳日:2023-03-15 16:36:25 公開日:2023-03-14
# psnet: 単一のフリンジ画像からのディープラーニングモデルに基づくディジタル位相シフトアルゴリズム

PSNet: a deep learning model based digital phase shifting algorithm from a single fringe image ( http://arxiv.org/abs/2303.07606v1 )

ライセンス: Link先を確認
Zhaoshuai Qi, Xiaojun Liu, Xiaolin Liu, Jiaqi Yang and Yanning Zhang(参考訳) 位相探索における金の標準として、位相シフトアルゴリズム(PS)は光干渉法、遠近射影プロファイロメトリーなどに広く用いられている。 しかし、psで複数のフリンジパターンをキャプチャすると、アルゴリズムは狭い範囲のアプリケーションに限定される。 この目的のために,1つのフランジ画像のみからの深層学習(DL)モデルに基づくディジタルPSアルゴリズムを提案する。 ps fringeパターンのシミュレーションデータセットをトレーニングすることで、学習モデル(psnet)は、最初のpsステップでパターンが与えられると、他のpsステップとフリンジパターンを予測できる。 シミュレーションと実験の結果は、PSNetが期待するデジタルPSパターンの正確な予測性能と、様々な曲率と反射率を持つ表面のような複雑なシナリオに対する堅牢性を示す。

As the gold standard for phase retrieval, phase-shifting algorithm (PS) has been widely used in optical interferometry, fringe projection profilometry, etc. However, capturing multiple fringe patterns in PS limits the algorithm to only a narrow range of application. To this end, a deep learning (DL) model based digital PS algorithm from only a single fringe image is proposed. By training on a simulated dataset of PS fringe patterns, the learnt model, denoted PSNet, can predict fringe patterns with other PS steps when given a pattern with the first PS step. Simulation and experiment results demonstrate the PSNet's promising performance on accurate prediction of digital PS patterns, and robustness to complex scenarios such as surfaces with varying curvature and reflectance.
翻訳日:2023-03-15 16:36:01 公開日:2023-03-14
# 3dポイントクラウドオブジェクトトラッキングのための連続動作モデリング

Modeling Continuous Motion for 3D Point Cloud Object Tracking ( http://arxiv.org/abs/2303.07605v1 )

ライセンス: Link先を確認
Zhipeng Luo, Gongjie Zhang, Changqing Zhou, Zhonghua Wu, Qingyi Tao, Lewei Lu, Shijian Lu(参考訳) LiDAR点雲を用いた3Dシングルオブジェクトトラッキング(SOT)のタスクは、自律運転やロボット工学など、さまざまなアプリケーションに不可欠である。 しかし、既存のアプローチは主に2つの連続するフレーム内での出現マッチングや動きのモデリングに依存しており、3次元空間における物体の長距離連続運動特性を見落としている。 本稿では,各トラックレットを連続的ストリームとみなす新しい手法を提案する。各タイムスタンプにおいて,現在のフレームのみをネットワークに供給し,メモリバンクに格納された複数フレームの歴史的特徴と相互作用させ,シーケンシャル情報の効率的な活用を可能にする。 クロスフレームメッセージパッシングを効果的に実現するために,長距離関係モデリングと局所幾何学的特徴抽出の両方を考慮したハイブリッドアテンション機構が設計されている。 さらに,ロバスト追跡のためのマルチフレーム機能の利用性を高めるために,基底真理トラックレットを用いてトレーニングシーケンスを増強し,対照的に偽陽性に対する識別を促進するコントラストシーケンス強化戦略を考案した。 大規模な実験により,提案手法は最先端手法よりも有意なマージン(KITTI, nuScenes, Waymoにおける成功率の約8%, 6%, 12%)で優れていた。

The task of 3D single object tracking (SOT) with LiDAR point clouds is crucial for various applications, such as autonomous driving and robotics. However, existing approaches have primarily relied on appearance matching or motion modeling within only two successive frames, thereby overlooking the long-range continuous motion property of objects in 3D space. To address this issue, this paper presents a novel approach that views each tracklet as a continuous stream: at each timestamp, only the current frame is fed into the network to interact with multi-frame historical features stored in a memory bank, enabling efficient exploitation of sequential information. To achieve effective cross-frame message passing, a hybrid attention mechanism is designed to account for both long-range relation modeling and local geometric feature extraction. Furthermore, to enhance the utilization of multi-frame features for robust tracking, a contrastive sequence enhancement strategy is designed, which uses ground truth tracklets to augment training sequences and promote discrimination against false positives in a contrastive manner. Extensive experiments demonstrate that the proposed method outperforms the state-of-the-art method by significant margins (approximately 8%, 6%, and 12% improvements in the success performance on KITTI, nuScenes, and Waymo, respectively).
翻訳日:2023-03-15 16:35:48 公開日:2023-03-14
# 小学校における人種・民族の多様性を促進するために出席境界を塗り替える

Redrawing attendance boundaries to promote racial and ethnic diversity in elementary schools ( http://arxiv.org/abs/2303.07603v1 )

ライセンス: Link先を確認
Nabeel Gillani and Doug Beeferman and Christine Vega-Pourheydarian and Cassandra Overney and Pascal Van Hentenryck and Deb Roy(参考訳) 合衆国のほとんどの教育学区は、学校周辺の学校に生徒を割り当て、しばしば学校における近隣の人口分離を再現するキャッチメント地域を定義するために「境界線」を描いている。 小学校に焦点をあてて質問する:通学制限を撤廃することで学校分離をどの程度削減できるか? 親選好データと組合せ最適化の手法を組み合わせることで,小学生300万人以上を対象とする98学区の代替境界をシミュレートし,移動時間と学校規模の変化を緩和しつつ,白人/非白人の分離を最小化する。 地域全体では、分離の相対的な減少は14%であり、学校を切り替える学生の約20%が必要であり、驚くべきことに旅行時間もわずかに減少すると予想している。 私たちは、これらの代替境界を示す公開ダッシュボードをリリースします(https://www.schooldiversity.org/)。 以上の結果から,家族にとって大きな混乱を伴わない統合の可能性が示唆された。

Most US school districts draw "attendance boundaries" to define catchment areas that assign students to schools near their homes, often recapitulating neighborhood demographic segregation in schools. Focusing on elementary schools, we ask: how much might we reduce school segregation by redrawing attendance boundaries? Combining parent preference data with methods from combinatorial optimization, we simulate alternative boundaries for 98 US school districts serving over 3 million elementary-aged students, minimizing White/non-White segregation while mitigating changes to travel times and school sizes. Across districts, we observe a median 14% relative decrease in segregation, which we estimate would require approximately 20\% of students to switch schools and, surprisingly, a slight reduction in travel times. We release a public dashboard depicting these alternative boundaries (https://www.schooldiversity.org/) and invite both school boards and their constituents to evaluate their viability. Our results show the possibility of greater integration without significant disruptions for families.
翻訳日:2023-03-15 16:35:25 公開日:2023-03-14
# v2v4real:車間協調認識のための実世界の大規模データセット

V2V4Real: A Real-world Large-scale Dataset for Vehicle-to-Vehicle Cooperative Perception ( http://arxiv.org/abs/2303.07601v1 )

ライセンス: Link先を確認
Runsheng Xu, Xin Xia, Jinlong Li, Hanzhao Li, Shuo Zhang, Zhengzhong Tu, Zonglin Meng, Hao Xiang, Xiaoyu Dong, Rui Song, Hongkai Yu, Bolei Zhou, Jiaqi Ma(参考訳) 現代の自動運転車の認識システムは、閉塞に敏感であり、長い知覚範囲の能力がないことが知られている。 レベル5の自律性を妨げる重要なボトルネックのひとつです。 近年の研究では、V2V協調認識システムが自動運転産業に革命をもたらす可能性があることが示されている。 しかし、現実のデータセットがないため、この分野の進歩は妨げられる。 V2V4Realは、V2V知覚のための世界初の大規模実世界のマルチモーダルデータセットである。 データは、多様なシナリオで駆動するマルチモーダルセンサーを備えた2台の車両によって収集される。 我々のV2V4Realデータセットは、20KのLiDARフレーム、40KのRGBフレーム、5つのクラスのための240Kの注釈付き3Dバウンディングボックス、そしてすべての運転経路をカバーするHDMapからなる410kmの走行領域をカバーしています。 V2V4Realは、協調3次元物体検出、協調3次元物体追跡、協調知覚のためのSim2Realドメイン適応を含む3つの知覚タスクを導入している。 本稿では,最近の協調知覚アルゴリズムの包括的ベンチマークを提案する。 V2V4Realデータセットとコードベースはhttps://github.com/ucla-mobility/V2V4Realにある。

Modern perception systems of autonomous vehicles are known to be sensitive to occlusions and lack the capability of long perceiving range. It has been one of the key bottlenecks that prevents Level 5 autonomy. Recent research has demonstrated that the Vehicle-to-Vehicle (V2V) cooperative perception system has great potential to revolutionize the autonomous driving industry. However, the lack of a real-world dataset hinders the progress of this field. To facilitate the development of cooperative perception, we present V2V4Real, the first large-scale real-world multi-modal dataset for V2V perception. The data is collected by two vehicles equipped with multi-modal sensors driving together through diverse scenarios. Our V2V4Real dataset covers a driving area of 410 km, comprising 20K LiDAR frames, 40K RGB frames, 240K annotated 3D bounding boxes for 5 classes, and HDMaps that cover all the driving routes. V2V4Real introduces three perception tasks, including cooperative 3D object detection, cooperative 3D object tracking, and Sim2Real domain adaptation for cooperative perception. We provide comprehensive benchmarks of recent cooperative perception algorithms on three tasks. The V2V4Real dataset and codebase can be found at https://github.com/ucla-mobility/V2V4Real.
翻訳日:2023-03-15 16:35:06 公開日:2023-03-14
# 機械学習を用いた湾岸協力協議会(GCC)諸国におけるCOVID-19感染予測

Forecasting COVID-19 Infections in Gulf Cooperation Council (GCC) Countries using Machine Learning ( http://arxiv.org/abs/2303.07600v1 )

ライセンス: Link先を確認
Leila Ismail, Huned Materwala, Alain Hennebelle(参考訳) 新型コロナウイルス(COVID-19)は、約1年前に初めて検出されて以来、世界中で6800万人以上が感染している。 新型コロナウイルスの感染予測のために機械学習時系列モデルが実装されている。 本稿では,ジョンズ・ホプキンスによる公衆のCOVID-19データセットを用いて,湾岸協力評議会(GCC)諸国の時系列モデルを開発する。 データセットには、22/01/2020から22/01/2021までの1年間の累積感染者が含まれている。 本研究は,感染データの空間分布に基づいて,各国の異なるモデルを構築した。 実験の結果,新型ウイルスの感染を高精度に予測できることが判明した。

COVID-19 has infected more than 68 million people worldwide since it was first detected about a year ago. Machine learning time series models have been implemented to forecast COVID-19 infections. In this paper, we develop time series models for the Gulf Cooperation Council (GCC) countries using the public COVID-19 dataset from Johns Hopkins. The dataset set includes the one-year cumulative COVID-19 cases between 22/01/2020 to 22/01/2021. We developed different models for the countries under study based on the spatial distribution of the infection data. Our experimental results show that the developed models can forecast COVID-19 infections with high precision.
翻訳日:2023-03-15 16:34:44 公開日:2023-03-14
# モデル圧縮と伝達学習のためのコントラスト的知識伝達フレームワーク

A Contrastive Knowledge Transfer Framework for Model Compression and Transfer Learning ( http://arxiv.org/abs/2303.07599v1 )

ライセンス: Link先を確認
Kaiqi Zhao, Yitao Chen, Ming Zhao(参考訳) 知識伝達(kt)は競合性能を達成し、モデル圧縮と転送学習における画像分類タスクに広く用いられている。 既存のKT作業は、条件に依存しない出力分布の違いを最小限に抑えて、大きなモデル(教師)から小さなモデル(学生)を訓練するために情報を転送する。 しかし、これらの著作は教師の中間的な表現から高次元の構造的知識を見落としており、効果が限られており、様々なヒューリスティックな直観に動機付けられており、一般化が難しい。 本稿では,教師から生徒への十分な構造的知識の伝達を,それらの中間表現にまたがって複数のコントラスト的目標を最適化することにより可能とする,新しいコントラスト的知識伝達フレームワーク(cktf)を提案する。 また、CKTFは既存のKT技術に対する一般的な合意を提供し、CKTFの特定のケースとして導出することで、その性能を大幅に向上させる。 CKTFは既存のKTよりも0.04%から11.59%、さまざまなモデルやデータセットでの転送学習では0.4%から4.75%向上している。

Knowledge Transfer (KT) achieves competitive performance and is widely used for image classification tasks in model compression and transfer learning. Existing KT works transfer the information from a large model ("teacher") to train a small model ("student") by minimizing the difference of their conditionally independent output distributions. However, these works overlook the high-dimension structural knowledge from the intermediate representations of the teacher, which leads to limited effectiveness, and they are motivated by various heuristic intuitions, which makes it difficult to generalize. This paper proposes a novel Contrastive Knowledge Transfer Framework (CKTF), which enables the transfer of sufficient structural knowledge from the teacher to the student by optimizing multiple contrastive objectives across the intermediate representations between them. Also, CKTF provides a generalized agreement to existing KT techniques and increases their performance significantly by deriving them as specific cases of CKTF. The extensive evaluation shows that CKTF consistently outperforms the existing KT works by 0.04% to 11.59% in model compression and by 0.4% to 4.75% in transfer learning on various models and datasets.
翻訳日:2023-03-15 16:34:36 公開日:2023-03-14
# AdPE: MAE+によるビジョントランスの事前学習のための逆位置埋め込み

AdPE: Adversarial Positional Embeddings for Pretraining Vision Transformers via MAE+ ( http://arxiv.org/abs/2303.07598v1 )

ライセンス: Link先を確認
Xiao Wang, Ying Wang, Ziwei Xuan, Guo-Jun Qi(参考訳) ビジョントランスフォーマーの教師なし学習は、ラベルなしでプリテキストタスクを介してエンコーダを事前訓練しようとする。 中でもMasked Image Modeling (MIM)は、プリテキストタスクとしてマスクされたパッチを予測することで、言語トランスフォーマーの事前トレーニングと一致している。 教師なし事前学習の基準は、トランスフォーマーエンコーダが下流タスクをうまく一般化できない自明な低レベル特徴を学習するのを防ぐのに十分なテキストタスクが必要であることである。 この目的のために,adpe(adversarial positional embedded)アプローチを提案する。これは位置符号化をゆがめることで局所的な視覚構造を歪め,学習したトランスフォーマーが局所的に相関したパッチを単純に使用できないようにする。 我々は、トランスフォーマーエンコーダに、ダウンストリームタスクへのより一般化性を備えた、グローバルコンテキストにおけるより識別的な特徴を学ぶよう強制する、と仮定する。 我々は絶対的および相対的な位置符号化を考慮し、逆位置を埋め込みモードと座標モードの両方に課すことができる。 また、新しいMAE+ベースラインを提示し、MIMプリトレーニングのパフォーマンスをAdPEで新しいレベルに引き上げる。 実験の結果,Imagenet1K 上での ViT-B と ViT-L の事前学習において,MAE の微調整精度を $0.8\%$ と $0.4\%$ で向上できることがわかった。 転送学習タスクでは、ADE20K上ではmIoUで2.6\%、COCO上ではAP$^{bbox}$で3.2\%、AP$^{mask}$で1.6\%である。 これらの結果は、事前トレーニングに余分なモデルや外部データセットを使用しない純粋なmimアプローチであるadpeによって得られる。 コードはhttps://github.com/maple-research-lab/adpeで入手できる。

Unsupervised learning of vision transformers seeks to pretrain an encoder via pretext tasks without labels. Among them is the Masked Image Modeling (MIM) aligned with pretraining of language transformers by predicting masked patches as a pretext task. A criterion in unsupervised pretraining is the pretext task needs to be sufficiently hard to prevent the transformer encoder from learning trivial low-level features not generalizable well to downstream tasks. For this purpose, we propose an Adversarial Positional Embedding (AdPE) approach -- It distorts the local visual structures by perturbing the position encodings so that the learned transformer cannot simply use the locally correlated patches to predict the missing ones. We hypothesize that it forces the transformer encoder to learn more discriminative features in a global context with stronger generalizability to downstream tasks. We will consider both absolute and relative positional encodings, where adversarial positions can be imposed both in the embedding mode and the coordinate mode. We will also present a new MAE+ baseline that brings the performance of the MIM pretraining to a new level with the AdPE. The experiments demonstrate that our approach can improve the fine-tuning accuracy of MAE by $0.8\%$ and $0.4\%$ over 1600 epochs of pretraining ViT-B and ViT-L on Imagenet1K. For the transfer learning task, it outperforms the MAE with the ViT-B backbone by $2.6\%$ in mIoU on ADE20K, and by $3.2\%$ in AP$^{bbox}$ and $1.6\%$ in AP$^{mask}$ on COCO, respectively. These results are obtained with the AdPE being a pure MIM approach that does not use any extra models or external datasets for pretraining. The code is available at https://github.com/maple-research-lab/AdPE.
翻訳日:2023-03-15 16:34:16 公開日:2023-03-14
# グループスパース正規化器を用いた高速規則化離散輸送

Fast Regularized Discrete Optimal Transport with Group-Sparse Regularizers ( http://arxiv.org/abs/2303.07597v1 )

ライセンス: Link先を確認
Yasutoshi Ida, Sekitoshi Kanai, Kazuki Adachi, Atsutoshi Kumagai, Yasuhiro Fujiwara(参考訳) 正規化された離散最適輸送(OT)は、2つの異なる領域のデータサンプルから構築された2つの離散分布間の距離を測定する強力なツールである。 機械学習には幅広い応用があるが、ある場合には、あるドメインの1つのサンプルデータだけが教師なしのドメイン適応のようなクラスラベルを持つことになる。 このような問題設定では、クラスラベルを扱うための正規化用語としてグループスパース正規化器が頻繁に利用される。 特に、同じクラスラベルでデータサンプルを1つのグループスパース正規化項に対応させることで、データサンプルのラベル構造を保存することができる。 その結果,グラデーションに基づくアルゴリズムを用いた正規化最適化問題を解くことにより,ラベル情報を利用して距離を計測できる。 しかし、正規化項の数やそれぞれのサイズも大きいため、クラス数やデータサンプル数が大きくなると勾配計算は高価である。 本稿ではグループスパース正規化器を用いた高速離散OTを提案する。 我々の方法は2つの考えに基づいている。 1つ目は、ゼロでなければならない勾配の計算を安全にスキップすることである。 2つ目は、非ゼロであると期待される勾配を効率的に抽出することである。 提案手法は,対象関数の値が元のメソッドと同じであることを保証している。 実験の結果,本手法は8.6倍高速であり,精度は低下しないことがわかった。

Regularized discrete optimal transport (OT) is a powerful tool to measure the distance between two discrete distributions that have been constructed from data samples on two different domains. While it has a wide range of applications in machine learning, in some cases the sampled data from only one of the domains will have class labels such as unsupervised domain adaptation. In this kind of problem setting, a group-sparse regularizer is frequently leveraged as a regularization term to handle class labels. In particular, it can preserve the label structure on the data samples by corresponding the data samples with the same class label to one group-sparse regularization term. As a result, we can measure the distance while utilizing label information by solving the regularized optimization problem with gradient-based algorithms. However, the gradient computation is expensive when the number of classes or data samples is large because the number of regularization terms and their respective sizes also turn out to be large. This paper proposes fast discrete OT with group-sparse regularizers. Our method is based on two ideas. The first is to safely skip the computations of the gradients that must be zero. The second is to efficiently extract the gradients that are expected to be nonzero. Our method is guaranteed to return the same value of the objective function as that of the original method. Experiments show that our method is up to 8.6 times faster than the original method without degrading accuracy.
翻訳日:2023-03-15 16:33:36 公開日:2023-03-14
# 時間旅行パラドックスと絡み合ったタイムライン

Time Travel Paradoxes and Entangled Timelines ( http://arxiv.org/abs/2303.07635v1 )

ライセンス: Link先を確認
Barak Shoshany and Zipora Stober(参考訳) 時間旅行が既知の物理法則と一致するためには、結果として生じるパラドックスを解決しなければならない。 並列時間軸(すなわち複数の履歴)は解像度をもたらす可能性があると示唆されている。 しかし、これまでのところ、並列タイムラインを作成できる具体的なメカニズムは、十分に定式化されていない。 本稿では,未修正量子力学の枠組み内でのそのような機構をエベレットあるいは「マニーワールド」解釈として提案する。 私たちのモデルのタイムラインはエヴァレット解釈の「世界」のように創発的であり、タイムマシンと環境の間の量子的絡み合いによって生成される。 したがって、これらを「絡み合ったタイムライン」あるいは「E-CTC」と呼ぶ。 絡み合いが徐々に追加のシステムに広がっていくにつれて、時間軸も広がり、文学でしばしば提示される「分岐する時間軸」に対する局所的かつ明確に定義された代替手段となる。 我々のモデルは、Deutschの慣れ親しんだD-CTCモデルと異なり、いくつかの重要な方法で改善されている。

For time travel to be consistent with the known laws of physics, the resulting paradoxes must be resolved. It has been suggested that parallel timelines (a.k.a. multiple histories) may provide a resolution. However, so far, a concrete mechanism by which parallel timelines can be created has never been satisfactorily formulated. In this paper we propose such a mechanism within the framework of unmodified quantum mechanics, also known as the Everett or "many-worlds" interpretation. The timelines in our model are emergent, like the "worlds" of the Everett interpretation; they are created by quantum entanglement between the time machine and the environment. Therefore, we call them "entangled timelines" or E-CTCs. As the entanglement gradually spreads out to additional systems, the timelines spread out as well, providing a local and well-defined alternative to the naive "branching timelines" picture often presented in the literature. Our model differs from Deutsch's familiar D-CTC model and improves upon it in several important ways.
翻訳日:2023-03-15 16:27:07 公開日:2023-03-14
# I$^2$-SDF: 内因性屋内シーンの再構築とニューラルSDFにおけるレイトレーシングによる編集

I$^2$-SDF: Intrinsic Indoor Scene Reconstruction and Editing via Raytracing in Neural SDFs ( http://arxiv.org/abs/2303.07634v1 )

ライセンス: Link先を確認
Jingsen Zhu, Yuchi Huo, Qi Ye, Fujun Luan, Jifan Li, Dianbing Xi, Lisha Wang, Rui Tang, Wei Hua, Hujun Bao, Rui Wang(参考訳) 本研究では,ニューラルサインされた距離場(SDFs)上でのモンテカルロ線トレーシングを用いた室内シーン再構成と編集のための新しい手法であるI$^2$-SDFを提案する。 我々は,多視点画像から基本形状,入射放射率,材料を総合的に復元する。 大規模屋内シーンの再現性を大幅に向上させるため,細粒度小物体に対する新しい気泡損失と誤り誘導適応サンプリング方式を導入する。 さらに, 空間的に変化するシーンの空間的変化を, 表面的, 微分可能なモンテカルロ線トレーシングとエミッタセマンティックセグメンテーションを通じて, シーンの空間的に変化する素材に分解することを提案する。 定性的かつ定量的な実験を通じて,室内のシーン再構成,新しいビュー合成,シーン編集において,最先端のベースラインに比べて優れた品質を示す。

In this work, we present I$^2$-SDF, a new method for intrinsic indoor scene reconstruction and editing using differentiable Monte Carlo raytracing on neural signed distance fields (SDFs). Our holistic neural SDF-based framework jointly recovers the underlying shapes, incident radiance and materials from multi-view images. We introduce a novel bubble loss for fine-grained small objects and error-guided adaptive sampling scheme to largely improve the reconstruction quality on large-scale indoor scenes. Further, we propose to decompose the neural radiance field into spatially-varying material of the scene as a neural field through surface-based, differentiable Monte Carlo raytracing and emitter semantic segmentations, which enables physically based and photorealistic scene relighting and editing applications. Through a number of qualitative and quantitative experiments, we demonstrate the superior quality of our method on indoor scene reconstruction, novel view synthesis, and scene editing compared to state-of-the-art baselines.
翻訳日:2023-03-15 16:26:50 公開日:2023-03-14
# まれな出来事における腕の識別

Best arm identification in rare events ( http://arxiv.org/abs/2303.07627v1 )

ライセンス: Link先を確認
Anirban Bhattacharjee, Sushant Vijayan and Sandeep K Juneja(参考訳) 確率的マルチアーム・バンディット・フレームワークにおいて、各アームが大きな報酬を達成できる確率はわずかであるが、圧倒的な確率では報酬はゼロである。 このフレームワークのキーとなる応用はオンライン広告で、広告のクリック率は1パーセントに過ぎず、売上への最終的な転換率は高いが、クリック率のごく一部になる可能性がある。 近年, 正しいアーム選択に関する統計的保証を提供しつつ, サンプル複雑性を最小化する bai 問題のアルゴリズムが開発されている。 我々が観察しているように、これらのアルゴリズムは計算的に禁止される。 我々は,各アームの報酬過程を複合ポアソン法で近似し,より高速なアルゴリズムに到達し,サンプルの複雑さが小さいという事実を生かした。 報酬発生のラリティーはゼロに減少し,報酬量は無限に増加するため,漸近的な方法で問題を分析する。 これは提案アルゴリズムの利点を説明するのに役立つ。 また、稀なイベント設定における最適なbaiアルゴリズムの基盤構造にも光を当てている。

We consider the best arm identification problem in the stochastic multi-armed bandit framework where each arm has a tiny probability of realizing large rewards while with overwhelming probability the reward is zero. A key application of this framework is in online advertising where click rates of advertisements could be a fraction of a single percent and final conversion to sales, while highly profitable, may again be a small fraction of the click rates. Lately, algorithms for BAI problems have been developed that minimise sample complexity while providing statistical guarantees on the correct arm selection. As we observe, these algorithms can be computationally prohibitive. We exploit the fact that the reward process for each arm is well approximated by a Compound Poisson process to arrive at algorithms that are faster, with a small increase in sample complexity. We analyze the problem in an asymptotic regime as rarity of reward occurrence reduces to zero, and reward amounts increase to infinity. This helps illustrate the benefits of the proposed algorithm. It also sheds light on the underlying structure of the optimal BAI algorithms in the rare event setting.
翻訳日:2023-03-15 16:26:27 公開日:2023-03-14
# planartrack: 平面オブジェクト追跡のための大規模挑戦ベンチマーク

PlanarTrack: A Large-scale Challenging Benchmark for Planar Object Tracking ( http://arxiv.org/abs/2303.07625v1 )

ライセンス: Link先を確認
Xinran Liu, Xiaoqiong Liu, Ziruo Yi, Xin Zhou, Thanh Le, Libo Zhang, Yan Huang, Qing Yang, Heng Fan(参考訳) 平面物体追跡はコンピュータビジョンの重要な問題であり、ロボット工学や拡張現実などにおいて重要な役割を担っているため、関心が高まりつつある。 急速な進歩にもかかわらず、特にディープラーニング時代におけるさらなる開発は、大規模に挑戦的なベンチマークが欠如しているため、ほとんど妨げられている。 そこで我々は,大規模に挑戦する平面追跡ベンチマークであるplanartrackを紹介する。 planartrackは1000本のビデオと490万以上の画像で構成されている。 これらのビデオはすべて、PlanarTrackを既存のベンチマークと比較し、現実のアプリケーションではより難しいが現実的な、制約のない複雑なシナリオで収集される。 高品質なアノテーションを保証するため、PlanarTrackの各フレームは4つのコーナーを使用して手動でラベル付けされる。 私たちの知る限りでは、PlanarTrackはPlanarオブジェクトトラッキングに特化した、最大かつ最も難しいデータセットです。 提案したPlanarTrackを解析するために,10個の平面トラッカーを評価し,総合的な比較と詳細な分析を行う。 我々の結果は、現在の最高性能プランナートラッカーが、挑戦的なPlanarTrackで著しく劣化し、今後のプランナートラッカーの改善により多くの努力が必要であることを実証している。 さらに、PlanarTrack$_{\mathbf{BB}}$という変種を、PlanarTrackからのジェネリックオブジェクト追跡のために導出します。 planartrack$_{\mathrm{bb}}$の10個の優れたジェネリックトラッカーの評価は、驚くほど、いくつかの一般的なジェネリックトラッキングベンチマークよりもさらに困難であり、そのような平面オブジェクトを扱うためにもっと注意を払うべきです。 すべてのベンチマークと評価はプロジェクトのWebページでリリースされる。

Planar object tracking is a critical computer vision problem and has drawn increasing interest owing to its key roles in robotics, augmented reality, etc. Despite rapid progress, its further development, especially in the deep learning era, is largely hindered due to the lack of large-scale challenging benchmarks. Addressing this, we introduce PlanarTrack, a large-scale challenging planar tracking benchmark. Specifically, PlanarTrack consists of 1,000 videos with more than 490K images. All these videos are collected in complex unconstrained scenarios from the wild, which makes PlanarTrack, compared with existing benchmarks, more challenging but realistic for real-world applications. To ensure the high-quality annotation, each frame in PlanarTrack is manually labeled using four corners with multiple-round careful inspection and refinement. To our best knowledge, PlanarTrack, to date, is the largest and most challenging dataset dedicated to planar object tracking. In order to analyze the proposed PlanarTrack, we evaluate 10 planar trackers and conduct comprehensive comparisons and in-depth analysis. Our results, not surprisingly, demonstrate that current top-performing planar trackers degenerate significantly on the challenging PlanarTrack and more efforts are needed to improve planar tracking in the future. In addition, we further derive a variant named PlanarTrack$_{\mathbf{BB}}$ for generic object tracking from PlanarTrack. Our evaluation of 10 excellent generic trackers on PlanarTrack$_{\mathrm{BB}}$ manifests that, surprisingly, PlanarTrack$_{\mathrm{BB}}$ is even more challenging than several popular generic tracking benchmarks and more attention should be paid to handle such planar objects, though they are rigid. All benchmarks and evaluations will be released at the project webpage.
翻訳日:2023-03-15 16:26:09 公開日:2023-03-14
# I3D:入力依存動的深度を用いた音声認識のためのトランスフォーマーアーキテクチャ

I3D: Transformer architectures with input-dependent dynamic depth for speech recognition ( http://arxiv.org/abs/2303.07624v1 )

ライセンス: Link先を確認
Yifan Peng, Jaesong Lee, Shinji Watanabe(参考訳) トランスフォーマーに基づくエンドツーエンド音声認識は大きな成功を収めた。 しかし、大きなフットプリントと計算オーバーヘッドのため、これらのモデルを現実世界のアプリケーションでデプロイするのは困難である。 モデル圧縮技術はモデルのサイズを減らし、推論を高速化するが、圧縮されたモデルは最適化されたアーキテクチャを持つ。 本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。 同じようなレイヤーが推論時に現れると、i3dベースのモデルは反復的な層刈りによってバニラトランスや静的刈り込みモデルを上回る。 また,ゲート確率と入力依存性について興味深い解析を行い,深いエンコーダの理解を深める。

Transformer-based end-to-end speech recognition has achieved great success. However, the large footprint and computational overhead make it difficult to deploy these models in some real-world applications. Model compression techniques can reduce the model size and speed up inference, but the compressed model has a fixed architecture which might be suboptimal. We propose a novel Transformer encoder with Input-Dependent Dynamic Depth (I3D) to achieve strong performance-efficiency trade-offs. With a similar number of layers at inference time, I3D-based models outperform the vanilla Transformer and the static pruned model via iterative layer pruning. We also present interesting analysis on the gate probabilities and the input-dependency, which helps us better understand deep encoders.
翻訳日:2023-03-15 16:25:40 公開日:2023-03-14
# RE-MOVE:言語に基づくフィードバックによる動的環境に対する適応的ポリシー設計アプローチ

RE-MOVE: An Adaptive Policy Design Approach for Dynamic Environments via Language-Based Feedback ( http://arxiv.org/abs/2303.07622v1 )

ライセンス: Link先を確認
Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Pratap Tokekar, Amrit Singh Bedi, and Dinesh Manocha(参考訳) 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多く、破滅的な失敗をもたらす可能性がある。 この制限に対処するため, 言語に基づくフィードバックを用いて, リアルタイムな環境変化に適応するRE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on) という新しい手法を提案する。 本研究では,訓練された方針が,訓練された方針にフィードバックを組み込むために,フィードバックを求めるために 'emph{when' と 'emph{how' を決定できる。 re-moveは認識の不確実性を取り込んで、人間からフィードバックを求める最適な時間を決定し、リアルタイム適応のために言語ベースのフィードバックを使用する。 いくつかのテスト時間動的ナビゲーションシナリオにおいて,提案手法の利点を示すために,大規模な総合的および実世界の評価を行う。 我々のアプローチは、ロボットが人間のフィードバックから学び、これまで見えなかった敵の状況に適応できるようにする。

Reinforcement learning-based policies for continuous control robotic navigation tasks often fail to adapt to changes in the environment during real-time deployment, which may result in catastrophic failures. To address this limitation, we propose a novel approach called RE-MOVE (\textbf{RE}quest help and \textbf{MOVE} on), which uses language-based feedback to adjust trained policies to real-time changes in the environment. In this work, we enable the trained policy to decide \emph{when to ask for feedback} and \emph{how to incorporate feedback into trained policies}. RE-MOVE incorporates epistemic uncertainty to determine the optimal time to request feedback from humans and uses language-based feedback for real-time adaptation. We perform extensive synthetic and real-world evaluations to demonstrate the benefits of our proposed approach in several test-time dynamic navigation scenarios. Our approach enable robots to learn from human feedback and adapt to previously unseen adversarial situations.
翻訳日:2023-03-15 16:25:27 公開日:2023-03-14
# Region-Phrase Context Contrastive Alignment を用いた医療用ファーズグラウンドディング

Medical Phrase Grounding with Region-Phrase Context Contrastive Alignment ( http://arxiv.org/abs/2303.07618v1 )

ライセンス: Link先を確認
Zhihao Chen, Yang Zhou, Anh Tran, Junting Zhao, Liang Wan, Gideon Ooi, Lionel Cheng, Choon Hua Thng, Xinxing Xu, Yong Liu, Huazhu Fu(参考訳) 医学的画像解析や放射線診断において重要な課題である、特定の医学的発見を記述したフレーズクエリーを考慮し、医学的画像の最も関連性の高い領域を特定することを目的としている。 しかし、既存の視覚的接地法は、自然画像中の物体を識別する一般的な視覚的特徴に依存しており、医学的発見の微妙で特殊な特徴を捉えることができず、MPGの準最適性能をもたらす。 本稿では,MPGのエンドツーエンドアプローチであるMedRPGを提案する。 MedRPGは、軽量なヴィジュアル言語トランスフォーマーエンコーダ上に構築されており、言及された医療所見のボックス座標を直接予測する。 さらに,MedRPGが,より優れた地域・フレーズ対応によるニュアンス医学的発見を見つけるために,Tri-attention Context contrastive alignment (TaCo)を提案する。 TaCoはコンテキストアライメント(コンテキストアライメント)を模索し、関連する領域とフレーズのペアの特徴と注意のアウトプットを密集させ、無関係な領域の特徴を遠くに押し込む。 これにより、最終ボックスの予測がその発見固有の領域やフレーズに依存することが保証される。 3つのMPGデータセットによる実験結果から、我々のMedRPGは最先端の視覚的接地アプローチよりも大きなマージンで優れていることが示された。 さらに,TaCo戦略は,局所化能力の発見とスプリアス領域-フレーズ相関の低減に有効である。

Medical phrase grounding (MPG) aims to locate the most relevant region in a medical image, given a phrase query describing certain medical findings, which is an important task for medical image analysis and radiological diagnosis. However, existing visual grounding methods rely on general visual features for identifying objects in natural images and are not capable of capturing the subtle and specialized features of medical findings, leading to sub-optimal performance in MPG. In this paper, we propose MedRPG, an end-to-end approach for MPG. MedRPG is built on a lightweight vision-language transformer encoder and directly predicts the box coordinates of mentioned medical findings, which can be trained with limited medical data, making it a valuable tool in medical image analysis. To enable MedRPG to locate nuanced medical findings with better region-phrase correspondences, we further propose Tri-attention Context contrastive alignment (TaCo). TaCo seeks context alignment to pull both the features and attention outputs of relevant region-phrase pairs close together while pushing those of irrelevant regions far away. This ensures that the final box prediction depends more on its finding-specific regions and phrases. Experimental results on three MPG datasets demonstrate that our MedRPG outperforms state-of-the-art visual grounding approaches by a large margin. Additionally, the proposed TaCo strategy is effective in enhancing finding localization ability and reducing spurious region-phrase correlations.
翻訳日:2023-03-15 16:25:08 公開日:2023-03-14
# 大規模言語モデルにおける知識のライフサイクル:調査

The Life Cycle of Knowledge in Big Language Models: A Survey ( http://arxiv.org/abs/2303.07616v1 )

ライセンス: Link先を確認
Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun(参考訳) 知識は人工知能において重要な役割を果たす。 近年,事前学習型言語モデル (PLM) の成功により,言語モデルによる知識の獲得,維持,更新,利用について大きな注目を集めている。 膨大な量の関連する研究にもかかわらず、学習、チューニング、アプリケーションプロセスを通して、知識がどのように言語モデル内で循環するかという統一された見解はいまだに欠けている。 本研究では, PLMにおける知識のライフサイクルを5つの臨界期間に分割し, 構築, 維持, 使用時の知識の循環について検討することによって, PLMを知識ベースシステムとして再考する。 そこで我々は,知識ライフサイクルの各期間の既存研究を体系的にレビューし,主な課題と現状の限界を整理し,今後の方向性について議論する。

Knowledge plays a critical role in artificial intelligence. Recently, the extensive success of pre-trained language models (PLMs) has raised significant attention about how knowledge can be acquired, maintained, updated and used by language models. Despite the enormous amount of related studies, there still lacks a unified view of how knowledge circulates within language models throughout the learning, tuning, and application processes, which may prevent us from further understanding the connections between current progress or realizing existing limitations. In this survey, we revisit PLMs as knowledge-based systems by dividing the life circle of knowledge in PLMs into five critical periods, and investigating how knowledge circulates when it is built, maintained and used. To this end, we systematically review existing studies of each period of the knowledge life cycle, summarize the main challenges and current limitations, and discuss future directions.
翻訳日:2023-03-15 16:24:40 公開日:2023-03-14
# ファインタニング前後の視覚認知モデルにおけるジェンダーバイアスの変動

Variation of Gender Biases in Visual Recognition Models Before and After Finetuning ( http://arxiv.org/abs/2303.07615v1 )

ライセンス: Link先を確認
Jaspreet Ranjit, Tianlu Wang, Baishakhi Ray, Vicente Ordonez(参考訳) 本稿では,下流タスクにおける大規模視覚認識モデルの微調整前後のバイアスの変化を計測するフレームワークを提案する。 大量のデータに基づいてトレーニングされたディープラーニングモデルは、社会バイアスをエンコードすることが知られている。 現在、多くのコンピュータビジョンシステムは、通常大規模なデータセットで事前訓練されたモデルに依存している。 下流タスクのモデルのチューニングのためにバイアス緩和技術が開発されているが、既にトレーニング済みのモデルでコード化されているバイアスの影響は、現在不明である。 本フレームワークでは,モデルサイズ,データセットサイズ,トレーニング対象を含む既訓練モデルの配列に対するバイアスの変化を明らかにするために,個人とペアの概念を表す標準画像のセットを組み込んでいる。 分析の結果,(1)ImageNet-21kのようなデータセットでトレーニングされた教師付きモデルでは,目標データセットによらず,事前学習のバイアスを保ちやすいことがわかった。 また,(2)大規模データセットに微調整されたモデルでは,新たなバイアス付きアソシエーションを導入する可能性が示唆された。 また,(3)バイアスは微調整されたモデルに転移し,その微調整対象とデータセットは伝達バイアスの程度に影響を与えることが示唆された。

We introduce a framework to measure how biases change before and after fine-tuning a large scale visual recognition model for a downstream task. Deep learning models trained on increasing amounts of data are known to encode societal biases. Many computer vision systems today rely on models typically pretrained on large scale datasets. While bias mitigation techniques have been developed for tuning models for downstream tasks, it is currently unclear what are the effects of biases already encoded in a pretrained model. Our framework incorporates sets of canonical images representing individual and pairs of concepts to highlight changes in biases for an array of off-the-shelf pretrained models across model sizes, dataset sizes, and training objectives. Through our analyses, we find that (1) supervised models trained on datasets such as ImageNet-21k are more likely to retain their pretraining biases regardless of the target dataset compared to self-supervised models. We also find that (2) models finetuned on larger scale datasets are more likely to introduce new biased associations. Our results also suggest that (3) biases can transfer to finetuned models and the finetuning objective and dataset can impact the extent of transferred biases.
翻訳日:2023-03-15 16:24:24 公開日:2023-03-14
# ChatGPTのランク付け能力の探索--ヒトの嗜好との整合性に関する予備的研究

Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences ( http://arxiv.org/abs/2303.07610v1 )

ライセンス: Link先を確認
Yunjie Ji, Yan Gong, Yiping Peng, Chao Ni, Peiyan Sun, Dongyu Pan, Baochang Ma, Xiangang Li(参考訳) 自然言語アシスタントとして、chatgptは、記事の生成、コード補完、データ分析など、さまざまなタスクを実行することができる。 さらに、chatgptは、コンテンツ評価の観点からも極めて高い精度と信頼性を示しており、人間の好みを模倣する能力を示している。 この点に関してchatgptの可能性をさらに探究するために、コンテンツのランク付け能力を評価するための研究が行われている。 そのために、幅広いユースケースをカバーするプロンプトからなるテストセットを作成し、対応する応答を生成するために5つのモデルを利用する。 その後、ChatGPTはこれらのモデルによって生成された応答をランク付けするように指示される。 テストセットの結果は、ChatGPTのランク設定が人間とある程度一致していることを示している。 この予備実験の結果から、chatgptのゼロショットランキング機能は、多くのランキングタスクでアノテーションのプレッシャーを軽減するのに使用できることが示唆された。

As a natural language assistant, ChatGPT is capable of performing various tasks, including but not limited to article generation, code completion, and data analysis. Furthermore, ChatGPT has consistently demonstrated a remarkable level of accuracy and reliability in terms of content evaluation, exhibiting the capability of mimicking human preferences. To further explore ChatGPT's potential in this regard, a study is conducted to assess its ability to rank content. In order to do so, a test set consisting of prompts is created, covering a wide range of use cases, and five models are utilized to generate corresponding responses. ChatGPT is then instructed to rank the responses generated by these models. The results on the test set show that ChatGPT's ranking preferences are consistent with human to a certain extent. This preliminary experimental finding implies that ChatGPT's zero-shot ranking capability could be used to reduce annotation pressure in a number of ranking tasks.
翻訳日:2023-03-15 16:24:08 公開日:2023-03-14
# 一般化量子部分空間による誤差軽減のためのハードウェア制御不完全化の活用

Leveraging hardware-control imperfections for error mitigation via generalized quantum subspace ( http://arxiv.org/abs/2303.07660v1 )

ライセンス: Link先を確認
Yasuhiro Ohkura and Suguru Endo and Takahiko Satah and Rodney Van Meter and Nobuyuki Yoshioka(参考訳) 完全なフォールトトレランスのない量子コンピューティングの時代には、量子デバイスの計算能力を高めるために、量子誤差緩和技術によってノイズ効果を抑制することが不可欠である。 最も効果的なノイズ非依存誤り緩和スキームの1つは一般化量子部分空間展開(gse)法であり、量子部分空間展開の枠組みの下で様々な緩和アルゴリズムを統合する。 具体的には、GSE法のサブクラスであるフォールト・サブスペース法は、異なるノイズレベルを持つ量子状態のコピーを含む誤差緩和量子状態を構築する。 しかし、実験的な側面から、シミュレーション結果の誤差を効率的に抑えるために、ノイズを確実に増幅する方法を決定することは容易ではない。 本研究では,ハードウェア指向のノイズを故意に増幅し,アイデンティティの挿入によるノイズの増大,クロストークの利用,ノイズチャネルの確率的実装という,フォールト・サブスペース法の可能性を検討する。 本提案の妥当性は,ibm quantumで利用可能な量子デバイスにおけるノイズパラメータを反映した数値シミュレーションと,実験の両方を通じて実証する。

In the era of quantum computing without full fault-tolerance, it is essential to suppress noise effects via the quantum error mitigation techniques to enhance the computational power of the quantum devices. One of the most effective noise-agnostic error mitigation schemes is the generalized quantum subspace expansion (GSE) method, which unifies various mitigation algorithms under the framework of the quantum subspace expansion. Specifically, the fault-subspace method, a subclass of GSE method, constructs an error-mitigated quantum state with copies of quantum states with different noise levels. However, from the experimental aspect, it is nontrivial to determine how to reliably amplify the noise so that the error in the simulation result is efficiently suppressed. In this work, we explore the potential of the fault-subspace method by leveraging the hardware-oriented noise: intentional amplification of the decoherence, noise boost by insertion of identity, making use of crosstalk, and probabilistic implementation of noise channel. We demonstrate the validity of our proposals via both numerical simulations with the noise parameters reflecting those in quantum devices available via IBM Quantum, and also experiments performed therein.
翻訳日:2023-03-15 16:18:05 公開日:2023-03-14
# NEF:多視点画像からの3次元パラメトリック曲線再構成のためのニューラルネットワーク

NEF: Neural Edge Fields for 3D Parametric Curve Reconstruction from Multi-view Images ( http://arxiv.org/abs/2303.07653v1 )

ライセンス: Link先を確認
Yunfan Ye, Renjiao Yi, Zhirui Gao, Chenyang Zhu, Zhiping Cai, Kai Xu(参考訳) キャリブレーションされた多視点画像から物体の3次元特徴曲線を再構成する問題について検討する。 そのために,ニューラルエッジフィールド (nef) と呼ばれる3次元エッジの密度分布を表すニューラル暗黙的場を学習する。 NeRFにインスパイアされたNEFは、所定のビューで2次元エッジマップを描画するビューベースのレンダリング損失を最適化し、そのビューの画像から抽出した接地トラスエッジマップと比較する。 NEFのレンダリングベースの微分可能最適化は、3Dエッジ、3D幾何演算子、またはクロスビューエッジ対応を監督することなく、2Dエッジ検出を完全に活用する。 いくつかの技術設計は、堅牢なエッジ抽出のための範囲制限とビュー非依存のNEFを確実に学習するために考案された。 最終パラメトリックな3次元曲線は繰り返し最適化法を用いてNEFから抽出される。 合成データを用いたベンチマークでは、NEFが既存の最先端手法をすべての指標で上回っていることを示す。 プロジェクトページ: https://yunfan1202.github.io/nef/

We study the problem of reconstructing 3D feature curves of an object from a set of calibrated multi-view images. To do so, we learn a neural implicit field representing the density distribution of 3D edges which we refer to as Neural Edge Field (NEF). Inspired by NeRF, NEF is optimized with a view-based rendering loss where a 2D edge map is rendered at a given view and is compared to the ground-truth edge map extracted from the image of that view. The rendering-based differentiable optimization of NEF fully exploits 2D edge detection, without needing a supervision of 3D edges, a 3D geometric operator or cross-view edge correspondence. Several technical designs are devised to ensure learning a range-limited and view-independent NEF for robust edge extraction. The final parametric 3D curves are extracted from NEF with an iterative optimization method. On our benchmark with synthetic data, we demonstrate that NEF outperforms existing state-of-the-art methods on all metrics. Project page: https://yunfan1202.github.io/NEF/.
翻訳日:2023-03-15 16:17:47 公開日:2023-03-14
# ロバスト画像分類のための文脈正規化

Context Normalization for Robust Image Classification ( http://arxiv.org/abs/2303.07651v1 )

ライセンス: Link先を確認
Bilal Faye, Mohamed-Djallel Dilmi, Hanane Azzag, Mustapha Lebbah, Fangchen Feng(参考訳) 正規化は、データをより使いやすい表現に変換する前処理ステップである。 ディープニューラルネットワーク(DNN)の一部として、バッチ正規化(BN)技術は、内部共変量シフトの問題に対処するために正規化を使用する。 様々なDNNに広く統合されている汎用モジュールとしてパッケージ化して、トレーニングの安定化と高速化を実現している。 しかし、BNの効果はミニバッチサイズに依存しており、人口統計を推定する際にデータセットに存在する可能性のあるグループやクラスタを考慮に入れない。 本研究では,画像データに対する文脈正規化と呼ばれる新しい正規化手法を提案する。 このアプローチでは,各サンプルの特性に基づいて特徴量のスケーリングを調整し,対象タスクのコンテキストにデータ値を適用することにより,モデルの収束速度と性能を向上させる。 文脈正規化の有効性は様々なデータセットで示され、その性能は他の標準正規化手法と比較される。

Normalization is a pre-processing step that converts the data into a more usable representation. As part of the deep neural networks (DNNs), the batch normalization (BN) technique uses normalization to address the problem of internal covariate shift. It can be packaged as general modules, which have been extensively integrated into various DNNs, to stabilize and accelerate training, presumably leading to improved generalization. However, the effect of BN is dependent on the mini-batch size and it does not take into account any groups or clusters that may exist in the dataset when estimating population statistics. This study proposes a new normalization technique, called context normalization, for image data. This approach adjusts the scaling of features based on the characteristics of each sample, which improves the model's convergence speed and performance by adapting the data values to the context of the target task. The effectiveness of context normalization is demonstrated on various datasets, and its performance is compared to other standard normalization techniques.
翻訳日:2023-03-15 16:17:26 公開日:2023-03-14
# パラ言語的および事前訓練された特徴に基づく言語横断性アルツハイマー病の検出

Cross-lingual Alzheimer's Disease detection based on paralinguistic and pre-trained features ( http://arxiv.org/abs/2303.07650v1 )

ライセンス: Link先を確認
Xuchu Chen, Yu Pu, Jinpeng Li, Wei-Qiang Zhang(参考訳) 本稿では,アルツハイマー病(AD)予測のための言語間での音響的特徴の一般化と伝達を目的とし,ICASSP-SPGC-2023 ADReSS-M Challenge Taskを提案する。 課題は、ad患者と健常者の発話を分類し、もう1つは、発話のみに基づいてミニ精神状態検査(mmse)スコアを推測することである。 この困難は、テストセットがギリシア語である間、トレーニングセットが英語であるデータセットのミスマッチに主に具体化されている。 我々は,opensmile toolkitを用いたパラ言語特徴とxlsr-53を用いた音響特徴を抽出する。 さらに,音声をテキストに書き起こした後の言語的特徴を抽出する。 これらの特徴をAD検出の指標として用いた。 本手法は分類タスクの69.6%の精度と回帰タスクの4.788の根平均二乗誤差(RMSE)を実現する。 以上の結果から,本手法は自然発声による多言語性アルツハイマー病の自動検出を実現することが期待される。

We present our submission to the ICASSP-SPGC-2023 ADReSS-M Challenge Task, which aims to investigate which acoustic features can be generalized and transferred across languages for Alzheimer's Disease (AD) prediction. The challenge consists of two tasks: one is to classify the speech of AD patients and healthy individuals, and the other is to infer Mini Mental State Examination (MMSE) score based on speech only. The difficulty is mainly embodied in the mismatch of the dataset, in which the training set is in English while the test set is in Greek. We extract paralinguistic features using openSmile toolkit and acoustic features using XLSR-53. In addition, we extract linguistic features after transcribing the speech into text. These features are used as indicators for AD detection in our method. Our method achieves an accuracy of 69.6% on the classification task and a root mean squared error (RMSE) of 4.788 on the regression task. The results show that our proposed method is expected to achieve automatic multilingual Alzheimer's Disease detection through spontaneous speech.
翻訳日:2023-03-15 16:17:13 公開日:2023-03-14
# 連続翻訳対称性を保持する量子格子モデル

Quantum lattice models that preserve continuous translation symmetry ( http://arxiv.org/abs/2303.07649v1 )

ライセンス: Link先を確認
Dominic G. Lewis, Achim Kempf, Nicolas C. Menicucci(参考訳) 量子場理論に対する帯域制限のアプローチは、信号処理からシャノンサンプリング定理を通じて連続かつ離散的な場を同時に扱うことができる。 一般相対性理論と場の量子論における矛盾する仮定は、両方の要求を満たすために針をスレッドできる魅力的な分析ツールを使うことを動機付けている。 帯域制限連続量子場は格子理論に同型であるが、固定格子を必要としない。 必要最小間隔を持つ任意の格子を用いることができる。 これは、格子間隔の極限が 0 になるのを避ける同型である。 本研究では、量子格子理論における効果的連続対称性の出現を含む、この同型の帰結を探求する。 これらの連続対称性に対する保存格子可観測性と、この2つの視点から局所性の双対性を得る。 この研究とその拡張は、固定格子のない離散性から生じる連続量子場の数値格子モデルを考えるための有用なツールを提供するとともに、格子モデルにおける創発的連続対称性に対する新たな洞察と、これらの現象の実験的実証を提供する。

Bandlimited approaches to quantum field theory offer the tantalizing possibility of working with fields that are simultaneously both continuous and discrete via the Shannon Sampling Theorem from signal processing. Conflicting assumptions in general relativity and quantum field theory motivate the use of such an appealing analytical tool that could thread the needle to meet both requirements. Bandlimited continuous quantum fields are isomorphic to lattice theories, yet without requiring a fixed lattice. Any lattice with a required minimum spacing can be used. This is an isomorphism that avoids taking the limit of the lattice spacing going to zero. In this work, we explore the consequences of this isomorphism, including the emergence of effectively continuous symmetries in quantum lattice theories. One obtains conserved lattice observables for these continuous symmetries, as well as a duality of locality from the two perspectives. We expect this work and its extensions to provide useful tools for considering numerical lattice models of continuous quantum fields arising from the availability of discreteness without a fixed lattice, as well as offering new insights into emergent continuous symmetries in lattice models and possible laboratory demonstrations of these phenomena.
翻訳日:2023-03-15 16:16:54 公開日:2023-03-14
# simfle: 野生の自己教師付き表情認識のための簡単な顔ランドマーク符号化

SimFLE: Simple Facial Landmark Encoding for Self-Supervised Facial Expression Recognition in the Wild ( http://arxiv.org/abs/2303.07648v1 )

ライセンス: Link先を確認
Jiyong Moon and Seongsik Park(参考訳) 野生(fer-w)における表情認識の重要な問題の一つは、顔画像の複雑さとあいまいさのため、大規模なラベル付き顔画像のキュレーションが難しいことである。 そこで本稿では,fer-Wの性能向上に重要な特徴である顔ランドマークの効果的な符号化を,高価なラベルを使わずに学習できる自己教師型簡易顔ランドマーク符号化(SimFLE)手法を提案する。 具体的には,新しいFaceMAEモジュールについて紹介する。 FaceMAEは、精巧に設計されたセマンティックマスクでマスクされた顔画像を再構成する。 以前のランダムマスキングとは異なり、セマンティクスマスキングはバックボーンで処理されたチャネル情報に基づいて行われるため、チャネルの豊富なセマンティクスを探求することができる。 さらに、セマンティックマスキングプロセスは完全にトレーニング可能で、FaceMAEはバックボーンをガイドして、きめ細かい顔のランドマークの空間的詳細と文脈的特性を学ぶことができる。 複数のfer-wベンチマークにおける実験結果から,提案手法は顔ランドマークの定位に優れ,教師ありベースラインや他の自己教師あり手法と比較して明らかに性能が向上した。

One of the key issues in facial expression recognition in the wild (FER-W) is that curating large-scale labeled facial images is challenging due to the inherent complexity and ambiguity of facial images. Therefore, in this paper, we propose a self-supervised simple facial landmark encoding (SimFLE) method that can learn effective encoding of facial landmarks, which are important features for improving the performance of FER-W, without expensive labels. Specifically, we introduce novel FaceMAE module for this purpose. FaceMAE reconstructs masked facial images with elaborately designed semantic masking. Unlike previous random masking, semantic masking is conducted based on channel information processed in the backbone, so rich semantics of channels can be explored. Additionally, the semantic masking process is fully trainable, enabling FaceMAE to guide the backbone to learn spatial details and contextual properties of fine-grained facial landmarks. Experimental results on several FER-W benchmarks prove that the proposed SimFLE is superior in facial landmark localization and noticeably improved performance compared to the supervised baseline and other self-supervised methods.
翻訳日:2023-03-15 16:16:38 公開日:2023-03-14
# 実験固体力学における機械学習の最近の進歩と応用

Recent Advances and Applications of Machine Learning in Experimental Solid Mechanics: A Review ( http://arxiv.org/abs/2303.07647v1 )

ライセンス: Link先を確認
Hanxun Jin, Enrui Zhang, Horacio D. Espinosa(参考訳) 長年にわたり、実験的な固体力学は自然および新規物質の力学特性を特徴づけ、理解する上で重要な役割を担ってきた。 機械学習(ML)の最近の進歩は、実験設計、データ分析、不確実性定量化、逆問題など、この分野に新たな機会をもたらす。 この新興分野における近年の論文の数が爆発的に増えているため、実験固体力学における最近のML応用の包括的かつ最新のレビューを行うのは時期尚早である。 本稿では、まず、このレビューに係わる共通MLアルゴリズムと用語の概要を説明し、物理インフォームドおよび物理ベースのML手法に重点を置いている。 次に, 破壊力学, バイオメカニクス, ナノ・マイクロメカニクス, 建築材料, 2次元材料など, 従来および新興の実験力学分野における最近のML応用について概説する。 最後に,MLを多モードおよび多忠実な実験データセットに適用する現在の課題を強調し,今後の研究方向性を提案する。 このレビューは、MLメソッドの使用に関する貴重な洞察と、固体力学の研究者が実験に組み込むための様々な例を提供することを目的としている。

For many decades, experimental solid mechanics has played a crucial role in characterizing and understanding the mechanical properties of natural and novel materials. Recent advances in machine learning (ML) provide new opportunities for the field, including experimental design, data analysis, uncertainty quantification, and inverse problems. As the number of papers published in recent years in this emerging field is exploding, it is timely to conduct a comprehensive and up-to-date review of recent ML applications in experimental solid mechanics. Here, we first provide an overview of common ML algorithms and terminologies that are pertinent to this review, with emphasis placed on physics-informed and physics-based ML methods. Then, we provide thorough coverage of recent ML applications in traditional and emerging areas of experimental mechanics, including fracture mechanics, biomechanics, nano- and micro-mechanics, architected materials, and 2D material. Finally, we highlight some current challenges of applying ML to multi-modality and multi-fidelity experimental datasets and propose several future research directions. This review aims to provide valuable insights into the use of ML methods as well as a variety of examples for researchers in solid mechanics to integrate into their experiments.
翻訳日:2023-03-15 16:16:16 公開日:2023-03-14
# 単純コンプレックスによるクラスタリング

Clustering with Simplicial Complexes ( http://arxiv.org/abs/2303.07646v1 )

ライセンス: Link先を確認
Thummaluru Siddartha Reddy, Sundeep Prabhakar Chepuri, and Pierre Borgnat(参考訳) 本研究では,高次ネットワーク相互作用を利用するために,2次単純化(いわゆる三角形)に基づいてネットワーク内のノードをグループ化するクラスタリングアルゴリズムを提案する。 単純コンダクタンス関数(英語版)を定義し、最小化の際、集合内の満たした三角形の密度が高い最適分割を与えるが、満たした三角形の密度は集合全体より小さい。 そこで本研究では,ノード間の関係を2次簡素に捉えた簡素な隣接演算子を提案する。 これにより、よく知られたチーガーの不等式を単純複体の集合に拡張することができる。 次に,チーガーの不等式を活用し,単純スペクトルクラスタリングアルゴリズムを提案する。 提案手法の有効性を実証するために,合成および実世界のネットワークデータに関する数値実験の結果を報告する。

In this work, we propose a new clustering algorithm to group nodes in networks based on second-order simplices (aka filled triangles) to leverage higher-order network interactions. We define a simplicial conductance function, which on minimizing, yields an optimal partition with a higher density of filled triangles within the set while the density of filled triangles is smaller across the sets. To this end, we propose a simplicial adjacency operator that captures the relation between the nodes through second-order simplices. This allows us to extend the well-known Cheeger inequality to cluster a simplicial complex. Then, leveraging the Cheeger inequality, we propose the simplicial spectral clustering algorithm. We report results from numerical experiments on synthetic and real-world network data to demonstrate the efficacy of the proposed approach.
翻訳日:2023-03-15 16:15:52 公開日:2023-03-14
# 一般音分類に向けたデータ自由知識蒸留のための特徴リッチ音響モデルインバージョン

Feature-Rich Audio Model Inversion for Data-Free Knowledge Distillation Towards General Sound Classification ( http://arxiv.org/abs/2303.07643v1 )

ライセンス: Link先を確認
Zuheng Kang, Yayun He, Jianzong Wang, Junqing Peng, Xiaoyang Qu, Jing Xiao(参考訳) Data-Free Knowledge Distillation (DFKD)は近年,特にコンピュータビジョンの大きなブレークスルーによって,学術コミュニティの注目を集めている。 有望な結果にもかかわらず、この手法は音声や信号処理には適していない。 音声信号の持続時間が可変であるため、独自のモデリング方法を持っている。 本研究では,一般音響分類タスクのためのデータフリー知識蒸留フレームワークである機能リッチオーディオモデルインバージョン (FRAMI) を提案する。 まず、特徴不変のコントラスト損失により、高品質で特徴豊かなメルスペクトログラムを生成する。 そして、これらの特徴豊富な試料に知識蒸留を行う際に、統計プール層前後の隠蔽状態を再利用する。 Urbansound8k、ESC-50、AudioMNISTデータセットの実験結果は、FRAMIが機能豊富なサンプルを生成することを示す。 一方,隠れ状態を再利用することにより,学習モデルの精度がさらに向上し,ベースライン法を大きく上回る。

Data-Free Knowledge Distillation (DFKD) has recently attracted growing attention in the academic community, especially with major breakthroughs in computer vision. Despite promising results, the technique has not been well applied to audio and signal processing. Due to the variable duration of audio signals, it has its own unique way of modeling. In this work, we propose feature-rich audio model inversion (FRAMI), a data-free knowledge distillation framework for general sound classification tasks. It first generates high-quality and feature-rich Mel-spectrograms through a feature-invariant contrastive loss. Then, the hidden states before and after the statistics pooling layer are reused when knowledge distillation is performed on these feature-rich samples. Experimental results on the Urbansound8k, ESC-50, and audioMNIST datasets demonstrate that FRAMI can generate feature-rich samples. Meanwhile, the accuracy of the student model is further improved by reusing the hidden state and significantly outperforms the baseline method.
翻訳日:2023-03-15 16:15:39 公開日:2023-03-14
# 弱教師付き手法による画像に基づくテーブル認識の再考

Rethinking Image-based Table Recognition Using Weakly Supervised Methods ( http://arxiv.org/abs/2303.07641v1 )

ライセンス: Link先を確認
Nam Tuan Ly, Atsuhiro Takasu, Phuc Nguyen, and Hideaki Takeda(参考訳) 従来のテーブル認識手法のほとんどは、リッチな注釈付きテーブルイメージを含むトレーニングデータセットに依存していた。 しかし、セルやテキスト境界ボックスアノテーションのような詳細なテーブルイメージアノテーションはコストがかかり、しばしば主観的である。 本稿では,HTML(あるいはLaTeX)のコードレベルアノテーションのみに依存するテーブル認識のための,WSTabNetという弱教師付きモデルを提案する。 提案モデルは,特徴抽出のためのエンコーダ,テーブル構造を生成する構造デコーダ,テーブル内の各セルの内容を予測するセルデコーダの3つの主要部分からなる。 我々のシステムは確率勾配勾配アルゴリズムによってエンドツーエンドに訓練されており、テーブル画像とその基底構造HTML(LaTeX)表現のみを必要とする。 ディープラーニングによるテーブル認識を容易にするため,ウィキペディアから構築された最大規模の画像ベーステーブル認識データセットであるWikiTableSetを作成した。 WikiTableSetには400万近い英語のテーブルイメージ、590万の日本語のテーブルイメージ、640万のフランス語のテーブルイメージと対応するHTML表現とセル境界ボックスが含まれている。 wikitablesetと2つの大規模データセットに関する広範な実験: fintabnetとpubtabnetは、提案されている弱い教師付きモデルが、すべてのベンチマークデータセットの最先端モデルよりも優れた、あるいは類似した精度を達成することを実証している。

Most of the previous methods for table recognition rely on training datasets containing many richly annotated table images. Detailed table image annotation, e.g., cell or text bounding box annotation, however, is costly and often subjective. In this paper, we propose a weakly supervised model named WSTabNet for table recognition that relies only on HTML (or LaTeX) code-level annotations of table images. The proposed model consists of three main parts: an encoder for feature extraction, a structure decoder for generating table structure, and a cell decoder for predicting the content of each cell in the table. Our system is trained end-to-end by stochastic gradient descent algorithms, requiring only table images and their ground-truth HTML (or LaTeX) representations. To facilitate table recognition with deep learning, we create and release WikiTableSet, the largest publicly available image-based table recognition dataset built from Wikipedia. WikiTableSet contains nearly 4 million English table images, 590K Japanese table images, and 640k French table images with corresponding HTML representation and cell bounding boxes. The extensive experiments on WikiTableSet and two large-scale datasets: FinTabNet and PubTabNet demonstrate that the proposed weakly supervised model achieves better, or similar accuracies compared to the state-of-the-art models on all benchmark datasets.
翻訳日:2023-03-15 16:15:25 公開日:2023-03-14
# 画像の記憶可能性予測に有用な特徴表現

Feature representations useful for predicting image memorability ( http://arxiv.org/abs/2303.07679v1 )

ライセンス: Link先を確認
Takumi Harada, Hiroyuki Sakai(参考訳) 画像の記憶可能性の予測は様々な分野で関心を集めている。 その結果、畳み込みニューラルネットワーク(CNN)モデルによる予測精度は、人間の一貫性に基づいて推定された経験的上限に近づいている。 しかし、cnnモデルに埋め込まれた特徴表現の特定は、記憶可能性の予測精度の向上に寄与している。 そこで本研究では,脳類似性を用いたCNNモデルにおける記憶可能性関連特徴表現の同定を試みた。 具体的には,64種類のcnnモデルにおいて脳スコア16,860層にまたがって記憶力予測精度と脳の類似性を検討した。 この包括的分析では、記憶力の高い予測精度の高い層は、下側頭葉(it)皮質と脳の類似度が高いことが示され、これは心室視覚路の最高段階である。 さらに,64cnnモデルの微調整により,penultimate層におけるit野と脳の類似性は記憶可能性予測精度と正の相関を示した。 この分析により、最適な微調整モデルは、記憶可能性予測のために開発された最先端のcnnモデルに匹敵する精度を示した。 本研究の結果から,CNNモデルによる記憶可能性の予測は,IT大脳皮質に類似した特徴表現獲得に依存していることがわかった。 本研究は,特徴表現の理解と画像記憶可能性の予測に有用であることを示す。

Predicting image memorability has attracted interest in various fields. Consequently, prediction accuracy with convolutional neural network (CNN) models has been approaching the empirical upper bound estimated based on human consistency. However, identifying which feature representations embedded in CNN models are responsible for such high prediction accuracy of memorability remains an open question. To tackle this problem, this study sought to identify memorability-related feature representations in CNN models using brain similarity. Specifically, memorability prediction accuracy and brain similarity were examined and assessed by Brain-Score across 16,860 layers in 64 CNN models pretrained for object recognition. A clear tendency was shown in this comprehensive analysis that layers with high memorability prediction accuracy had higher brain similarity with the inferior temporal (IT) cortex, which is the highest stage in the ventral visual pathway. Furthermore, fine-tuning the 64 CNN models revealed that brain similarity with the IT cortex at the penultimate layer was positively correlated with memorability prediction accuracy. This analysis also showed that the best fine-tuned model provided accuracy comparable to the state-of-the-art CNN models developed specifically for memorability prediction. Overall, this study's results indicated that the CNN models' great success in predicting memorability relies on feature representation acquisition similar to the IT cortex. This study advanced our understanding of feature representations and its use for predicting image memorability.
翻訳日:2023-03-15 16:09:25 公開日:2023-03-14
# Query2doc: 大きな言語モデルによるクエリ拡張

Query2doc: Query Expansion with Large Language Models ( http://arxiv.org/abs/2303.07678v1 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Furu Wei(参考訳) 本稿では,sparse と dense の検索システムを改善するため,query2doc という単純なクエリ拡張手法を提案する。 提案手法はまず,大言語モデル (LLM) を数ショットで生成し,生成した擬似文書を用いてクエリを拡張する。 LLMはウェブスケールのテキストコーパスで訓練されており、知識記憶に長けている。 LLMからの擬似文書は、しばしば、不明瞭さをクエリし、レトリバーを導くのに役立つ非常に関連性の高い情報を含んでいる。 実験結果から,MS-MARCO や TREC DL などのアドホックな IR データセット上での BM25 の性能を 3% から 15% 向上させることができた。 さらに,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。

This paper introduces a simple yet effective query expansion approach, denoted as query2doc, to improve both sparse and dense retrieval systems. The proposed method first generates pseudo-documents by few-shot prompting large language models (LLMs), and then expands the query with generated pseudo-documents. LLMs are trained on web-scale text corpora and are adept at knowledge memorization. The pseudo-documents from LLMs often contain highly relevant information that can aid in query disambiguation and guide the retrievers. Experimental results demonstrate that query2doc boosts the performance of BM25 by 3% to 15% on ad-hoc IR datasets, such as MS-MARCO and TREC DL, without any model fine-tuning. Furthermore, our method also benefits state-of-the-art dense retrievers in terms of both in-domain and out-of-domain results.
翻訳日:2023-03-15 16:09:04 公開日:2023-03-14
# Sr-init:解釈可能な層プルーニング法

Sr-init: An interpretable layer pruning method ( http://arxiv.org/abs/2303.07677v1 )

ライセンス: Link先を確認
Hui Tang, Yao Lu, Qi Xuan(参考訳) 多くの分野でディープニューラルネットワーク(DNN)が普及しているが、高い計算オーバーヘッドのため、リソース制約のあるデバイスに最先端のモデルをデプロイすることは依然として困難である。 モデルプルーニングは、上記の課題に対する実現可能な解決策を提供する。 しかし、既存の刈り取り基準の解釈は常に見過ごされている。 そこで本研究では, 確率的再初期化を探求し, 新たな層刈り法を提案する。 sr-init法は,層パラメータの確率的再初期化による精度低下が各層で異なることを発見したことから着想を得た。 この観察に基づいて,確率的再初期化(低い精度低下)に敏感でない層がモデルへの寄与を少なくし,許容される損失で刈り取ることが可能な,層刈りの基準を導き出した。 その後,特徴可視化によるSR-initの解釈可能性について実験的に検証した。 視覚的な説明はsr-initが理論的に実現可能であることを示し、その実用性をさらに評価するために最先端の手法と比較する。 CIFAR-10とCIFAR-100のResNet56では、SR-initはパラメータの大幅な減少(63.98%と37.71%)とトップ1の精度の低下(-0.56%と0.8%)を達成している。 ImageNet上でResNet50を使用することで、パラメータの39.29%を削除し、15.59%のFLOPを削減できます。 私たちのコードはhttps://github.com/huitang-zjut/srinitで入手できます。

Despite the popularization of deep neural networks (DNNs) in many fields, it is still challenging to deploy state-of-the-art models to resource-constrained devices due to high computational overhead. Model pruning provides a feasible solution to the aforementioned challenges. However, the interpretation of existing pruning criteria is always overlooked. To counter this issue, we propose a novel layer pruning method by exploring the Stochastic Re-initialization. Our SR-init method is inspired by the discovery that the accuracy drop due to stochastic re-initialization of layer parameters differs in various layers. On the basis of this observation, we come up with a layer pruning criterion, i.e., those layers that are not sensitive to stochastic re-initialization (low accuracy drop) produce less contribution to the model and could be pruned with acceptable loss. Afterward, we experimentally verify the interpretability of SR-init via feature visualization. The visual explanation demonstrates that SR-init is theoretically feasible, thus we compare it with state-of-the-art methods to further evaluate its practicability. As for ResNet56 on CIFAR-10 and CIFAR-100, SR-init achieves a great reduction in parameters (63.98% and 37.71%) with an ignorable drop in top-1 accuracy (-0.56% and 0.8%). With ResNet50 on ImageNet, we achieve a 15.59% FLOPs reduction by removing 39.29% of the parameters, with only a drop of 0.6% in top-1 accuracy. Our code is available at https://github.com/huitang-zjut/SRinit.
翻訳日:2023-03-15 16:08:39 公開日:2023-03-14
# シンクホーンフロー:最適輸送を用いた力学系における確率質量流の予測

Sinkhorn-Flow: Predicting Probability Mass Flow in Dynamical Systems Using Optimal Transport ( http://arxiv.org/abs/2303.07675v1 )

ライセンス: Link先を確認
Mukul Bhutani and J. Zico Kolter(参考訳) 離散変数上の分布が時間とともにどのように変化するかを予測することは、時系列予測において一般的なタスクである。 しかし、ほとんどのアプローチは、後続のステップで分布を予測することだけに重点を置いているが、多くの設定において重要な情報は、この確率質量が時間とともに異なる要素間でどのように流れるかを決定することである。 そこで本稿では, 最適輸送を用いた時間的変動予測手法を提案する。 具体的には、エンド・ツー・エンドのディープラーニングシステムにおいて、標準的なソフトマックス演算をシンクホーン繰り返しに置き換え、輸送行列を予測する一般的な手法を提案する。 提案手法は,ソーシャル・ネットワークにおいて,時間とともにコミュニティがどのように発展していくかを予測するタスクに適用し,そのアプローチが代替予測手法よりも大幅に改善することを示す。 特に,ウクライナ議会投票における派閥進化予測の課題について注目する。

Predicting how distributions over discrete variables vary over time is a common task in time series forecasting. But whereas most approaches focus on merely predicting the distribution at subsequent time steps, a crucial piece of information in many settings is to determine how this probability mass flows between the different elements over time. We propose a new approach to predicting such mass flow over time using optimal transport. Specifically, we propose a generic approach to predicting transport matrices in end-to-end deep learning systems, replacing the standard softmax operation with Sinkhorn iterations. We apply our approach to the task of predicting how communities will evolve over time in social network settings, and show that the approach improves substantially over alternative prediction methods. We specifically highlight results on the task of predicting faction evolution in Ukrainian parliamentary voting.
翻訳日:2023-03-15 16:08:11 公開日:2023-03-14
# 画像翻訳に基づく非教師なしクロスモダリティ領域適応による前庭シュワルノーマのkoos分類

Koos Classification of Vestibular Schwannoma via Image Translation-Based Unsupervised Cross-Modality Domain Adaptation ( http://arxiv.org/abs/2303.07674v1 )

ライセンス: Link先を確認
Tao Yang and Lisheng Wang(参考訳) クースグレーディングスケール(Koos grading scale)は、腫瘍とその隣接する脳構造に対する効果を特徴付けるために使用される前庭神経ショーノーマ(VS)の分類システムである。 koos分類は治療十進法の特徴の多くを捉え、治療計画を決定するためにしばしば用いられる。 コントラスト強化型T1(ceT1)スキャンと高分解能型T2(hrT2)スキャンの両方がKoos分類に利用できるが、高安全性とコスト効率のためにhrT2スキャンが注目されている。 しかし、hrT2スキャンのアノテーションがないため、深層学習法は教師なし学習によるパフォーマンス劣化に必然的に悩まされる。 ceT1 スキャンとそのアノテーションを hrT2 スキャンの教師なし学習に使用すれば,未ラベルの hrT2 スキャンを用いた Koos classifi-cation の性能が大幅に向上する。 本稿では,注釈付きceT1スキャンをhrT2モダリティに変換し,それらのアノテーションを利用してhrT2モダリティの教師あり学習を行うことにより,Im-age翻訳に基づく教師なしクロスモダリティドメイン適応手法を提案する。 次に, hrT2スキャンにおけるKoos分類に関連するVSと7の隣接する脳構造を抽出した。 最後に, セグナオンの結果から手作りの特徴を抽出し, ランダム森林分類器を用いてクースグレードを分類した。 提案手法は,Cross-Modality Domain Adaptation (crossMoDA 2022) 課題の Koos 分類タスクにおいて,検証セットの Macro-Averaged Mean Absolute Error (MA-MAE) が0.2148,テストセットの 0.26 が与えられた。

The Koos grading scale is a classification system for vestibular schwannoma (VS) used to characterize the tumor and its effects on adjacent brain structures. The Koos classification captures many of the characteristics of treatment deci-sions and is often used to determine treatment plans. Although both contrast-enhanced T1 (ceT1) scanning and high-resolution T2 (hrT2) scanning can be used for Koos Classification, hrT2 scanning is gaining interest because of its higher safety and cost-effectiveness. However, in the absence of annotations for hrT2 scans, deep learning methods often inevitably suffer from performance deg-radation due to unsupervised learning. If ceT1 scans and their annotations can be used for unsupervised learning of hrT2 scans, the performance of Koos classifi-cation using unlabeled hrT2 scans will be greatly improved. In this regard, we propose an unsupervised cross-modality domain adaptation method based on im-age translation by transforming annotated ceT1 scans into hrT2 modality and us-ing their annotations to achieve supervised learning of hrT2 modality. Then, the VS and 7 adjacent brain structures related to Koos classification in hrT2 scans were segmented. Finally, handcrafted features are extracted from the segmenta-tion results, and Koos grade is classified using a random forest classifier. The proposed method received rank 1 on the Koos classification task of the Cross-Modality Domain Adaptation (crossMoDA 2022) challenge, with Macro-Averaged Mean Absolute Error (MA-MAE) of 0.2148 for the validation set and 0.26 for the test set.
翻訳日:2023-03-15 16:07:55 公開日:2023-03-14
# 共発現浄化による共塩物体検出

Co-Salient Object Detection with Co-Representation Purification ( http://arxiv.org/abs/2303.07670v1 )

ライセンス: Link先を確認
Ziyue Zhu, Zhao Zhang, Zheng Lin, Xing Sun, Ming-Ming Cheng(参考訳) Co-Salient Object Detection (Co-SOD) は、関連画像のグループ内の共通オブジェクトを発見することを目的としている。 co-representation のマイニングは co-salient オブジェクトの配置に不可欠である。 残念なことに、現在のCo-SOD法では、コサリエントオブジェクトに関連のない情報が共表現に含まれるほど、十分な注意を払わない。 コリート表現におけるそのような無関係な情報は、コリート対象の位置を妨害する。 本稿では,雑音のない共表現探索を目的としたCoRP(Co-Representation Purification)手法を提案する。 我々は、おそらく共存領域に属するいくつかのピクセルワイド埋め込みを探索する。 これらの埋め込みは私たちの共表現を構成し、予測を導く。 清浄な共表現を得るため、予測を用いて共表現における無関係な埋め込みを反復的に減少させる。 3つのデータセットの実験は、私たちのCoRPがベンチマークデータセット上で最先端のパフォーマンスを達成することを示す。 ソースコードはhttps://github.com/zzy816/corpで入手できます。

Co-salient object detection (Co-SOD) aims at discovering the common objects in a group of relevant images. Mining a co-representation is essential for locating co-salient objects. Unfortunately, the current Co-SOD method does not pay enough attention that the information not related to the co-salient object is included in the co-representation. Such irrelevant information in the co-representation interferes with its locating of co-salient objects. In this paper, we propose a Co-Representation Purification (CoRP) method aiming at searching noise-free co-representation. We search a few pixel-wise embeddings probably belonging to co-salient regions. These embeddings constitute our co-representation and guide our prediction. For obtaining purer co-representation, we use the prediction to iteratively reduce irrelevant embeddings in our co-representation. Experiments on three datasets demonstrate that our CoRP achieves state-of-the-art performances on the benchmark datasets. Our source code is available at https://github.com/ZZY816/CoRP.
翻訳日:2023-03-15 16:07:20 公開日:2023-03-14
# AutoTransfer: 知識伝達を備えたAutoML - グラフニューラルネットワークへの応用

AutoTransfer: AutoML with Knowledge Transfer -- An Application to Graph Neural Networks ( http://arxiv.org/abs/2303.07669v1 )

ライセンス: Link先を確認
Kaidi Cao, Jiaxuan You, Jiaju Liu, Jure Leskovec(参考訳) AutoMLは、特定のデータセットと評価指標によって定義された所定の機械学習タスクに対して、効果的なニューラルアーキテクチャを見つけるのに顕著な成功を収めた。 しかし、現在のAutoML技術のほとんどは、各タスクをスクラッチから独立して考慮しており、多くのアーキテクチャを探索する必要がある。 本稿では,先行設計知識を新たな課題に移し,検索効率を向上させるautomlソリューションであるautotransferを提案する。 私たちの重要なイノベーションは、GNNアーキテクチャとタスクの多様なセットでモデルパフォーマンスをキャプチャするタスクモデルバンクと、異なるタスク間の類似性を正確に測定する計算効率の良いタスク埋め込みです。 タスクモデルバンクとタスク埋め込みに基づいて、興味のあるタスクに類似したタスクに基づいてトップK設計分布の類似度重み付け和を集約することにより、新しいタスクの望ましいモデルの設計優先順位を推定する。 計算済みの設計先は任意のAutoML検索アルゴリズムで使用することができる。 グラフ機械学習領域の6つのデータセット上でAutoTransferを評価する。 実験が示すのは (i)提案するタスク組込みは効率的に計算でき、同様の組込みを持つタスクも同様に優れたアーキテクチャを有する。 (II) AutoTransferは, 先行設計による探索効率を著しく向上させ, 探索アーキテクチャの規模を桁違いに削減する。 最後に、GNN-Bank-101をリリースし、GNNの詳細なトレーニング情報を12万のタスクモデルの組み合わせで収集し、今後の研究を促進する。

AutoML has demonstrated remarkable success in finding an effective neural architecture for a given machine learning task defined by a specific dataset and an evaluation metric. However, most present AutoML techniques consider each task independently from scratch, which requires exploring many architectures, leading to high computational cost. Here we propose AutoTransfer, an AutoML solution that improves search efficiency by transferring the prior architectural design knowledge to the novel task of interest. Our key innovation includes a task-model bank that captures the model performance over a diverse set of GNN architectures and tasks, and a computationally efficient task embedding that can accurately measure the similarity among different tasks. Based on the task-model bank and the task embeddings, we estimate the design priors of desirable models of the novel task, by aggregating a similarity-weighted sum of the top-K design distributions on tasks that are similar to the task of interest. The computed design priors can be used with any AutoML search algorithm. We evaluate AutoTransfer on six datasets in the graph machine learning domain. Experiments demonstrate that (i) our proposed task embedding can be computed efficiently, and that tasks with similar embeddings have similar best-performing architectures; (ii) AutoTransfer significantly improves search efficiency with the transferred design priors, reducing the number of explored architectures by an order of magnitude. Finally, we release GNN-Bank-101, a large-scale dataset of detailed GNN training information of 120,000 task-model combinations to facilitate and inspire future research.
翻訳日:2023-03-15 16:07:04 公開日:2023-03-14
# 関係型マルチタスク学習:データとタスクの関係のモデリング

Relational Multi-Task Learning: Modeling Relations between Data and Tasks ( http://arxiv.org/abs/2303.07666v1 )

ライセンス: Link先を確認
Kaidi Cao, Jiaxuan You, Jure Leskovec(参考訳) マルチタスク学習における重要な前提は、推論時にマルチタスクモデルが与えられたデータポイントにのみアクセスできるが、他のタスクからのデータポイントのラベルにアクセスできないことである。 これにより、マルチタスク学習を拡張して、データポイントラベルを他の補助タスクから活用する機会が得られ、新しいタスクの性能が向上する。 本稿では,補助タスクからデータポイントラベルを活用し,新しいタスクの正確な予測を行う,新しいリレーショナルマルチタスク学習設定を提案する。 私たちはmetalinkを開発し、データポイントとタスクをつなぐナレッジグラフを構築することで、補助的なタスクからラベルを活用することができます。 ナレッジグラフは、(1)ノードの特徴がニューラルネットワークによって計算されたデータ埋め込みであるデータノード、(2)タスクノードの2つのタイプのノードで構成される。 この知識グラフのエッジはデータとタスクの関係をキャプチャし、エッジラベルは特定のタスク上のデータポイントのラベルをキャプチャする。 MetaLinkでは,データノードとタスクノード間のリンクラベル予測問題として,新しいタスクを再構成する。 metalinkフレームワークは、補助的なタスクラベルから関心のあるタスクへの知識転送をモデル化する柔軟性を提供します。 我々は生化学領域と視覚領域の両方で6つのベンチマークデータセットでmetalinkを評価する。 実験により、MetaLinkは様々なタスク間の関係をうまく利用でき、提案した関係マルチタスク学習環境下で最先端の手法より優れており、ROC AUCでは最大27%改善されている。

A key assumption in multi-task learning is that at the inference time the multi-task model only has access to a given data point but not to the data point's labels from other tasks. This presents an opportunity to extend multi-task learning to utilize data point's labels from other auxiliary tasks, and this way improves performance on the new task. Here we introduce a novel relational multi-task learning setting where we leverage data point labels from auxiliary tasks to make more accurate predictions on the new task. We develop MetaLink, where our key innovation is to build a knowledge graph that connects data points and tasks and thus allows us to leverage labels from auxiliary tasks. The knowledge graph consists of two types of nodes: (1) data nodes, where node features are data embeddings computed by the neural network, and (2) task nodes, with the last layer's weights for each task as node features. The edges in this knowledge graph capture data-task relationships, and the edge label captures the label of a data point on a particular task. Under MetaLink, we reformulate the new task as a link label prediction problem between a data node and a task node. The MetaLink framework provides flexibility to model knowledge transfer from auxiliary task labels to the task of interest. We evaluate MetaLink on 6 benchmark datasets in both biochemical and vision domains. Experiments demonstrate that MetaLink can successfully utilize the relations among different tasks, outperforming the state-of-the-art methods under the proposed relational multi-task learning setting, with up to 27% improvement in ROC AUC.
翻訳日:2023-03-15 16:06:39 公開日:2023-03-14
# RenewNAT:非自己回帰変換器の電位変換の更新

RenewNAT: Renewing Potential Translation for Non-Autoregressive Transformer ( http://arxiv.org/abs/2303.07665v1 )

ライセンス: Link先を確認
Pei Guo, Yisheng Xiao, Juntao Li and Min Zhang(参考訳) 非自己回帰型ニューラルマシン翻訳(nat)モデルは、比較的高い性能を維持しながら推論プロセスを加速するために提案されている。 しかし、既存のNATモデルは、望ましい効率品質のトレードオフを達成するのは難しい。 例えば、効率的な推論を持つ完全なNATモデルは、自己回帰モデルよりも劣る。 別の例では、繰り返しNATモデルは、速度の利点を減らしながら同等のパフォーマンスを達成することができる。 本稿では,完全かつ反復的なNATモデルの利点を取り入れた,高い効率性と有効性を有するフレキシブルなフレームワークであるRenewNATを提案する。 RenewNATは、まず潜在的な翻訳結果を生成し、その後、1回のパスで更新する。 従来のNATモデルと同じコストで、大幅なパフォーマンス向上を実現できます(追加のモデルパラメータやデコード遅延を導入せずに)。 様々な翻訳ベンチマーク(例えば、 \textbf{4} wmt)の実験結果から、我々のフレームワークは、さらなる速度オーバーヘッドなしで、強力な完全なnatメソッド(glatやdslpなど)のパフォーマンスを一貫して改善していることがわかる。

Non-autoregressive neural machine translation (NAT) models are proposed to accelerate the inference process while maintaining relatively high performance. However, existing NAT models are difficult to achieve the desired efficiency-quality trade-off. For one thing, fully NAT models with efficient inference perform inferior to their autoregressive counterparts. For another, iterative NAT models can, though, achieve comparable performance while diminishing the advantage of speed. In this paper, we propose RenewNAT, a flexible framework with high efficiency and effectiveness, to incorporate the merits of fully and iterative NAT models. RenewNAT first generates the potential translation results and then renews them in a single pass. It can achieve significant performance improvements at the same expense as traditional NAT models (without introducing additional model parameters and decoding latency). Experimental results on various translation benchmarks (e.g., \textbf{4} WMT) show that our framework consistently improves the performance of strong fully NAT methods (e.g., GLAT and DSLP) without additional speed overhead.
翻訳日:2023-03-15 16:06:12 公開日:2023-03-14
# 1つのスカラーは必要なすべて -- 単分子自己スーパービジョンを用いた絶対深度推定

One scalar is all you need -- absolute depth estimation using monocular self-supervision ( http://arxiv.org/abs/2303.07662v1 )

ライセンス: Link先を確認
Alexandra Dana, Nadav Carmel, Amit Shomer, Ofer Manela and Tomer Peleg(参考訳) 自己教師付き単眼深度推定器は、画像のみを用いて訓練または微調整が可能で、地上の深度データがないため精度がよい。 しかし、これらの推定器は深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。 本研究では,画像のみからなる新たに収集したターゲットデータセットの自己スーパービジョンを用いて訓練した深度推定器に,地中深度で収集した既存のソースデータセットから深度スケールを転送する手法を提案する。 射影幾何学に基づく自己スーパービジョンは、地対深度と線形に相関する予測深度をもたらすことを示す。 さらに、この関係の線形性は、2つの異なる(実または合成)ソースとターゲットドメインからのイメージを共同でトレーニングする場合にも保持される。 この観測された特性を利用し、単一のグローバルスカラーを用いて、ソースドメインからの画像の奥行きと地表面の関係をモデル化する。 次に,推定された大域的スケーリング係数を用いて,対象領域からの画像の奥行きを推定し,この2領域間の奥行き移動を行う。 提案手法は,対象とするKITTIデータセットとDDADデータセットで評価され,他の実あるいは合成ソースデータセットでは,視野,他の画像スタイル,構造的内容がより大きい。 提案手法は,VKITTIデータセットやvKITTI2データセットを使用しなくても,KITTI上での競合精度を実現し,実データと合成データの両方を用いてDDAD上で高い精度を実現する。

Self-supervised monocular depth estimators can be trained or fine-tuned on new scenes using only images and no ground-truth depth data, achieving good accuracy. However, these estimators suffer from the inherent ambiguity of the depth scale, significantly limiting their applicability. In this work, we present a method for transferring the depth-scale from existing source datasets collected with ground-truth depths to depth estimators that are trained using self-supervision on a newly collected target dataset consisting of images only, solving a significant limiting factor. We show that self-supervision based on projective geometry results in predicted depths that are linearly correlated with their ground-truth depths. Moreover, the linearity of this relationship also holds when jointly training on images from two different (real or synthetic) source and target domains. We utilize this observed property and model the relationship between the ground-truth and the predicted up-to-scale depths of images from the source domain using a single global scalar. Then, we scale the predicted up-to-scale depths of images from the target domain using the estimated global scaling factor, performing depth-scale transfer between the two domains. This suggested method was evaluated on the target KITTI and DDAD datasets, while using other real or synthetic source datasets, that have a larger field-of-view, other image style or structural content. Our approach achieves competitive accuracy on KITTI, even without using the specially tailored vKITTI or vKITTI2 datasets, and higher accuracy on DDAD, when using both real or synthetic source datasets.
翻訳日:2023-03-15 16:05:55 公開日:2023-03-14
# 半教師形抽出器によるクロススピーカー方式の韻律改善と音声合成における階層モデル

Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised Style Extractor and Hierarchical Modeling in Speech Synthesis ( http://arxiv.org/abs/2303.07711v1 )

ライセンス: Link先を確認
Chunyu Qiang, Peng Yang, Hao Che, Ying Zhang, Xiaorui Wang, Zhongyuan Wang(参考訳) 音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色の合成音声へスタイルを伝達することを目的としている。 以前のほとんどの方法では、合成された細粒度の韻律特徴はしばしばソース話者の平均的なスタイルを表し、1対1の問題(つまり、複数の韻律変化が同じテキストに対応する)と類似している。 この問題に対応するために,コンテンツと音色からスタイルを分離し,一対多のマッピングとデータ不均衡を回避できるグローバルスタイル埋め込みの表現と解釈性を向上させるために,強度制御された半教師付きスタイル抽出器を提案する。 韻律モデリングを改善するために階層的韻律予測器を提案する。 予測が容易な音源話者の韻律的特徴を用いることで,より優れたスタイル伝達を実現することができる。 さらに, 学習段階における非知覚スタイルと音色の組み合わせの学習において, モデルを支援するために, 話者間伝達周期の一貫性損失が提案されている。 実験の結果,本手法はベースラインよりも優れていた。 オーディオサンプルをWebサイトに提供する。

Cross-speaker style transfer in speech synthesis aims at transferring a style from source speaker to synthesized speech of a target speaker's timbre. In most previous methods, the synthesized fine-grained prosody features often represent the source speaker's average style, similar to the one-to-many problem(i.e., multiple prosody variations correspond to the same text). In response to this problem, a strength-controlled semi-supervised style extractor is proposed to disentangle the style from content and timbre, improving the representation and interpretability of the global style embedding, which can alleviate the one-to-many mapping and data imbalance problems in prosody prediction. A hierarchical prosody predictor is proposed to improve prosody modeling. We find that better style transfer can be achieved by using the source speaker's prosody features that are easily predicted. Additionally, a speaker-transfer-wise cycle consistency loss is proposed to assist the model in learning unseen style-timbre combinations during the training phase. Experimental results show that the method outperforms the baseline. We provide a website with audio samples.
翻訳日:2023-03-15 16:00:01 公開日:2023-03-14
# 3次元顔任意形状移動

3D Face Arbitrary Style Transfer ( http://arxiv.org/abs/2303.07709v1 )

ライセンス: Link先を確認
Xiangwen Deng, Yingshuang Zou, Yuanhao Cai, Chendong Zhao, Yang Liu, Zhifang Liu, Yuxiao Liu, Jiawei Zhou, Haoqian Wang(参考訳) 3d顔のスタイル転送はますます注目を集めている。 しかし、従来は抽象画などの任意のスタイルのイメージを無視しつつ、画風のイメージをスタイル伝達に用いていた。 そこで本稿では,FDST(Face-Guided Dual Style Transfer)という新しい手法を提案する。 まず、FDSTは3Dデカップリングモジュールを使って顔の形状とテクスチャを分離する。 次に,顔面形状の融合戦略を提案する。 その後,テクスチャの最適化に基づくDDSG機構を設計し,スタイル転送を2つのスタイルイメージでガイドする。 通常のスタイルの画像入力に加えて、DDSGは元の顔入力を以前の顔入力として利用できる。 これにより、高品質な顔任意のスタイル転送結果が得られる。 さらに、FDSTは、領域制御可能なスタイル転送、高忠実な顔テクスチャ再構築、大規模な顔再構成、芸術的な顔再構成など、多くの下流タスクに適用できる。 定量的および定性的な総合的な結果は,本手法が同等の性能を発揮することを示す。 すべてのソースコードとトレーニング済みのウェイトが一般公開される。

Style transfer of 3D faces has gained more and more attention. However, previous methods mainly use images of artistic faces for style transfer while ignoring arbitrary style images such as abstract paintings. To solve this problem, we propose a novel method, namely Face-guided Dual Style Transfer (FDST). To begin with, FDST employs a 3D decoupling module to separate facial geometry and texture. Then we propose a style fusion strategy for facial geometry. Subsequently, we design an optimization-based DDSG mechanism for textures that can guide the style transfer by two style images. Besides the normal style image input, DDSG can utilize the original face input as another style input as the face prior. By this means, high-quality face arbitrary style transfer results can be obtained. Furthermore, FDST can be applied in many downstream tasks, including region-controllable style transfer, high-fidelity face texture reconstruction, large-pose face reconstruction, and artistic face reconstruction. Comprehensive quantitative and qualitative results show that our method can achieve comparable performance. All source codes and pre-trained weights will be released to the public.
翻訳日:2023-03-15 15:59:41 公開日:2023-03-14
# 反転対称性破壊MoTe2ジョセフソン接合における超伝導ダイオード効果

Superconducting diode effect in inversion symmetry breaking MoTe2 Josephson junctions ( http://arxiv.org/abs/2303.07701v1 )

ライセンス: Link先を確認
P. B. Chen, B. C. Ye, J. H. Wang, L. Zhou, X. Lei, Z. Z. Tang, J. N. Wang, J. W. Mei, and H. T. He(参考訳) 超伝導ダイオード効果(SDE)と非相反超電流輸送は、その興味深い物理と超伝導回路への応用の両方で近年大きな注目を集めている。 本研究は,II型ワイル半金属 (WSM) MoTe2 に基づく平面ジョセフソン接合 (JJs) が垂直磁場中における非対称ジョセフソン効果 (AJE) の出現により顕著なSDEを示すことを示す。 AJE の結果、臨界超電流 Ic は電流方向 [/Delta]Ic に関して非常に非対称である。 [/delta]icは外部磁場によっても効果的に変調できる。 WSMの反転対称性の破れの結果、これらの結果は理論上予測された固有AJEと一致している。 電場調整可能なAJEにより,超伝導エレクトロニクスへの応用の道を開いたMoTe2 JJにおける超電流の整流を最大17%の精度で実証することができる。

The superconducting diode effect (SDE) with nonreciprocal supercurrent transport has attracted considerable attention in recent years, both for its intriguing physics and for its potential applications in superconducting circuits. This study shows that planar Josephson junctions (JJs) based on type-II Weyl semimetal (WSM) MoTe2 can exhibit a prominent SDE due to the emergence of asymmetric Josephson effect (AJE) in perpendicular magnetic fields. As a result of the AJE, the critical supercurrents Ic are very asymmetrical regarding the current direction [/Delta]Ic. [/Delta]Ic can also be modulated effectively by an external magnetic field. As a result of the inversion symmetry breaking in WSM, all these results are in agreement with theoretically predicted intrinsic AJEs. The field-tunable AJE allows us to demonstrate the rectification of supercurrent in such MoTe2 JJs, with rectification efficiency up to 17%, paving the way for their application in superconducting electronics.
翻訳日:2023-03-15 15:59:25 公開日:2023-03-14
# PATS:地域特徴マッチングのための部分分割型パッチエリア交通

PATS: Patch Area Transportation with Subdivision for Local Feature Matching ( http://arxiv.org/abs/2303.07700v1 )

ライセンス: Link先を確認
Junjie Ni, Yijin Li, Zhaoyang Huang, Hongsheng Li, Hujun Bao, Zhaopeng Cui, Guofeng Zhang(参考訳) ローカル機能マッチングは、イメージペア間のスパース対応を確立することを目的としている。 近年,検出不要な手法は一般的に優れた性能を示すが,大規模な差のある画像対では満足できない。 本稿では,この問題を解決するために,PATS(Patch Area Transportation with Subdivision)を提案する。 高価なイメージピラミッドを構築する代わりに、元のイメージペアを同じサイズのパッチに分割し、徐々にサイズを変えて、同じ規模の小さなパッチに分割し始めます。 しかし、相対的なカメラポーズとシーン構造の両方でスケール差が決定されるため、これらのパッチ間のスケール差は自明ではない。 また、実際の場面の根拠となる真理を得ることは困難である。 そこで本研究では,自己教師あり方式でスケール差を学習できるパッチエリア輸送を提案する。 1対1のマッチングのみを扱う2部グラフマッチングとは対照的に、パッチエリアトランスポーテーションは多対多の関係を扱うことができる。 PATSは、マッチング精度とカバレッジの両方を改善し、相対的なポーズ推定、視覚的ローカライゼーション、光フロー推定などの下流タスクにおいて優れた性能を示す。 ソースコードはコミュニティのためにリリースされる予定だ。

Local feature matching aims at establishing sparse correspondences between a pair of images. Recently, detectorfree methods present generally better performance but are not satisfactory in image pairs with large scale differences. In this paper, we propose Patch Area Transportation with Subdivision (PATS) to tackle this issue. Instead of building an expensive image pyramid, we start by splitting the original image pair into equal-sized patches and gradually resizing and subdividing them into smaller patches with the same scale. However, estimating scale differences between these patches is non-trivial since the scale differences are determined by both relative camera poses and scene structures, and thus spatially varying over image pairs. Moreover, it is hard to obtain the ground truth for real scenes. To this end, we propose patch area transportation, which enables learning scale differences in a self-supervised manner. In contrast to bipartite graph matching, which only handles one-to-one matching, our patch area transportation can deal with many-to-many relationships. PATS improves both matching accuracy and coverage, and shows superior performance in downstream tasks, such as relative pose estimation, visual localization, and optical flow estimation. The source code will be released to benefit the community.
翻訳日:2023-03-15 15:59:10 公開日:2023-03-14
# DisCoHead: 頭部と顔の表情のアンタングル制御による音声・ビデオ駆動型トーキングヘッド生成

DisCoHead: Audio-and-Video-Driven Talking Head Generation by Disentangled Control of Head Pose and Facial Expressions ( http://arxiv.org/abs/2303.07697v1 )

ライセンス: Link先を確認
Geumbyeol Hwang, Sunwon Hong, Seunghyun Lee, Sungwoo Park, Gyeongsu Chae(参考訳) リアルな会話ヘッド生成には、正確な唇同期を維持しながら自然な頭部の動きを作り出すことが不可欠である。 そこで本研究では,この課題を達成するために,頭部ポーズや表情を制御・制御する新しい手法であるDisCoHeadを提案する。 DisCoHeadは、1つの幾何学変換をボトルネックとして、ヘッドドライブビデオから頭部の動きを分離して抽出する。 アフィンまたは薄板のスプライン変換が使用でき、どちらも幾何学的ボトルネックとして機能する。 独立モジュールであるジェネレータの高密度動作推定器とエンコーダを統合することにより,DisCoHeadの効率を向上させる。 さらにさらに,エンコーダによって濃密な動きを推定し,暗黙的に適用するニューラルミックス手法を提案する。 遠絡した頭部の動きを音源の同一性に適用した後、DisCoHeadは音声で口領域を制御し、畳み込みニューラルネットワークの重み付けにより、目領域の別々に駆動するビデオの後、眼球を点滅させる。 複数のデータセットを用いた実験は、DisCoHeadが現実的な音声とビデオ駆動の会話ヘッドをうまく生成し、最先端の手法より優れていることを示している。 プロジェクトページ: https://deepbrainai-research.github.io/discohead/

For realistic talking head generation, creating natural head motion while maintaining accurate lip synchronization is essential. To fulfill this challenging task, we propose DisCoHead, a novel method to disentangle and control head pose and facial expressions without supervision. DisCoHead uses a single geometric transformation as a bottleneck to isolate and extract head motion from a head-driving video. Either an affine or a thin-plate spline transformation can be used and both work well as geometric bottlenecks. We enhance the efficiency of DisCoHead by integrating a dense motion estimator and the encoder of a generator which are originally separate modules. Taking a step further, we also propose a neural mix approach where dense motion is estimated and applied implicitly by the encoder. After applying the disentangled head motion to a source identity, DisCoHead controls the mouth region according to speech audio, and it blinks eyes and moves eyebrows following a separate driving video of the eye region, via the weight modulation of convolutional neural networks. The experiments using multiple datasets show that DisCoHead successfully generates realistic audio-and-video-driven talking heads and outperforms state-of-the-art methods. Project page: https://deepbrainai-research.github.io/discohead/
翻訳日:2023-03-15 15:58:50 公開日:2023-03-14
# オフライン・オンライン強化学習のための適応的政策学習

Adaptive Policy Learning for Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2303.07693v1 )

ライセンス: Link先を確認
Han Zheng, Xufang Luo, Pengfei Wei, Xuan Song, Dongsheng Li, Jing Jiang(参考訳) 従来の強化学習(RL)では、オンラインインタラクションがコストがかかる場合には、新しいデータを集める環境が必要である。 オフラインRLは、以前に収集したデータセットから直接学習することで、代替ソリューションを提供する。 しかし、オフラインデータセットの品質が低ければ、不満足なパフォーマンスが得られるだろう。 本稿では,エージェントがまずオフラインデータセットから学び,次にオンライントレーニングを行うオフライン-オンライン設定を検討し,オフライン/オンラインデータを有効に活用するための適応ポリシー学習というフレームワークを提案する。 具体的には、オンラインデータとオフラインデータの違いを明示的に考慮し、オフラインデータセットの悲観的更新戦略とオンラインデータセットの楽観的/欲望的な更新スキームに対応する適応更新スキームを適用する。 このようなシンプルで効果的な方法は、オフラインとオンラインのRLを混合し、両方の世界のベストを達成する方法を提供する。 さらに、価値やポリシーに基づくRLアルゴリズムを組み込むことで、フレームワークを実装するための2つの詳細なアルゴリズムを提供する。 最後に,一般的な連続制御タスクを広範囲に実験した結果,オフラインデータセットの品質が貧弱な場合,例えばランダムデータセットなどであっても,アルゴリズムは高いサンプル効率でエキスパートポリシーを学習できることを示した。

Conventional reinforcement learning (RL) needs an environment to collect fresh data, which is impractical when online interactions are costly. Offline RL provides an alternative solution by directly learning from the previously collected dataset. However, it will yield unsatisfactory performance if the quality of the offline datasets is poor. In this paper, we consider an offline-to-online setting where the agent is first learned from the offline dataset and then trained online, and propose a framework called Adaptive Policy Learning for effectively taking advantage of offline and online data. Specifically, we explicitly consider the difference between the online and offline data and apply an adaptive update scheme accordingly, that is, a pessimistic update strategy for the offline dataset and an optimistic/greedy update scheme for the online dataset. Such a simple and effective method provides a way to mix the offline and online RL and achieve the best of both worlds. We further provide two detailed algorithms for implementing the framework through embedding value or policy-based RL algorithms into it. Finally, we conduct extensive experiments on popular continuous control tasks, and results show that our algorithm can learn the expert policy with high sample efficiency even when the quality of offline dataset is poor, e.g., random dataset.
翻訳日:2023-03-15 15:58:25 公開日:2023-03-14
# アスペクトレベル感性分類のためのデュアルアテンションモデル

Dual-Attention Model for Aspect-Level Sentiment Classification ( http://arxiv.org/abs/2303.07689v1 )

ライセンス: Link先を確認
Mengfei Ye(参考訳) アスペクトレベルの感情分類のための新しいデュアルアテンションモデル(DAM)を提案する。 人工設計のためのベクトルマシンのサポート、注意機構に基づく長期記憶ネットワーク、依存解析に基づくグラフニューラルネットワークなど、多くの手法が提案されている。 これらのメソッドはすべてまともなパフォーマンスですが、すべて重要な構文情報である依存性ラベルを見逃していると思います。 そこで本研究では,この課題に対する注意機構として依存性ラベルを用いたモデルを提案する。 提案手法を3つのデータセットで評価した。 ラップトップとレストランはsemeval 2014のもので、最後の1つはtwitterデータセットである。 実験結果から,2重注意モデルは3つのデータセットに対して良好な性能を示した。

I propose a novel dual-attention model(DAM) for aspect-level sentiment classification. Many methods have been proposed, such as support vector machines for artificial design features, long short-term memory networks based on attention mechanisms, and graph neural networks based on dependency parsing. While these methods all have decent performance, I think they all miss one important piece of syntactic information: dependency labels. Based on this idea, this paper proposes a model using dependency labels for the attention mechanism to do this task. We evaluate the proposed approach on three datasets: laptop and restaurant are from SemEval 2014, and the last one is a twitter dataset. Experimental results show that the dual attention model has good performance on all three datasets.
翻訳日:2023-03-15 15:58:05 公開日:2023-03-14
# ダイナミックアライメントマスクCTC: クロスエントロピーを考慮したマスクCTCの改良

Dynamic Alignment Mask CTC: Improved Mask-CTC with Aligned Cross Entropy ( http://arxiv.org/abs/2303.07687v1 )

ライセンス: Link先を確認
Xulong Zhang, Haobin Tang, Jianzong Wang, Ning Cheng, Jian Luo, Jing Xiao(参考訳) 全ての目標トークンを並列に予測するため、非自己回帰モデルは従来の自己回帰モデルと比較して音声認識の復号効率を大幅に向上させる。 本稿では,動的アライメントMask CTCを紹介し,(1)アラインド・クロス・エントロピー(AXE),(2)動的プログラミングによるクロス・エントロピー損失を最小限に抑えるモノトニックアライメント,(2)動的レクリエーション,(2)いくつかのマスクをモデル予測トークンに置き換えて新しいトレーニングサンプルを作成する。 AXEは、予測と接地真理文の絶対位置アライメントを無視し、相対順序で一致するトークンに焦点を当てる。 動的修正法は、たとえ高い信頼性を持つとしても、非マスクをシミュレートできるが、間違ったトークンが可能である。 WSJ データセットを用いた実験により,AXE 損失だけでなく,修正法により Mask CTC の WER 性能が向上することが示された。

Because of predicting all the target tokens in parallel, the non-autoregressive models greatly improve the decoding efficiency of speech recognition compared with traditional autoregressive models. In this work, we present dynamic alignment Mask CTC, introducing two methods: (1) Aligned Cross Entropy (AXE), finding the monotonic alignment that minimizes the cross-entropy loss through dynamic programming, (2) Dynamic Rectification, creating new training samples by replacing some masks with model predicted tokens. The AXE ignores the absolute position alignment between prediction and ground truth sentence and focuses on tokens matching in relative order. The dynamic rectification method makes the model capable of simulating the non-mask but possible wrong tokens, even if they have high confidence. Our experiments on WSJ dataset demonstrated that not only AXE loss but also the rectification method could improve the WER performance of Mask CTC.
翻訳日:2023-03-15 15:57:53 公開日:2023-03-14
# FPTN:交通流予測のための高速純変圧器ネットワーク

FPTN: Fast Pure Transformer Network for Traffic Flow Forecasting ( http://arxiv.org/abs/2303.07685v1 )

ライセンス: Link先を確認
Junhao Zhang, Junjie Tang, Juncheng Jin, Zehui Qu(参考訳) 交通流データの複雑な時空間相関のため,交通流予測は困難である。 既存のTransformerベースの手法では、トラフィックフロー予測を多変量時系列(MTS)予測として扱うのが一般的である。 しかし、多くのセンサが800以上のベクトルを発生させる可能性があるため、情報損失なしでは処理が困難である。 さらに、これらの手法はmts内の空間依存性を捉える複雑なメカニズムを設計し、予測速度を遅くする。 本稿では,上記の問題を解決するために高速トランスフォーマネットワーク(fptn)を提案する。 まず、トラヒックフローデータは、時間次元ではなくセンサ次元に沿ってシーケンスに分割される。 そして、複素時空間相関を適切に表現するために、これらのベクトルを適当なベクトル空間に射影する3種類の埋め込みを提案する。 その後、これらのベクトルにおける複素時空間相関を同時に捉えるために、トランスコーダを利用して複数の層を積み重ねる。 大規模な実験は4つの実世界のデータセットと13のベースラインで行われ、FPTNが2つの指標で最先端よりも優れていることを示した。 一方、FPTNの計算時間は、他の最先端のTransformerベースのモデルの4分の1以下であり、計算リソースの要求は大幅に削減されている。

Traffic flow forecasting is challenging due to the intricate spatio-temporal correlations in traffic flow data. Existing Transformer-based methods usually treat traffic flow forecasting as multivariate time series (MTS) forecasting. However, too many sensors can cause a vector with a dimension greater than 800, which is difficult to process without information loss. In addition, these methods design complex mechanisms to capture spatial dependencies in MTS, resulting in slow forecasting speed. To solve the abovementioned problems, we propose a Fast Pure Transformer Network (FPTN) in this paper. First, the traffic flow data are divided into sequences along the sensor dimension instead of the time dimension. Then, to adequately represent complex spatio-temporal correlations, Three types of embeddings are proposed for projecting these vectors into a suitable vector space. After that, to capture the complex spatio-temporal correlations simultaneously in these vectors, we utilize Transformer encoder and stack it with several layers. Extensive experiments are conducted with 4 real-world datasets and 13 baselines, which demonstrate that FPTN outperforms the state-of-the-art on two metrics. Meanwhile, the computational time of FPTN spent is less than a quarter of other state-of-the-art Transformer-based models spent, and the requirements for computing resources are significantly reduced.
翻訳日:2023-03-15 15:57:32 公開日:2023-03-14
# QI-TTS:感情音声合成のための質問イントネーション制御

QI-TTS: Questioning Intonation Control for Emotional Speech Synthesis ( http://arxiv.org/abs/2303.07682v1 )

ライセンス: Link先を確認
Haobin Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 最近の表現テキスト・トゥ・スピーチ(tts)モデルは感情音声の合成に焦点を当てているが、イントネーションのような細かいスタイルは無視されている。 本稿では,QI-TTSを提案する。このQI-TTSは,参照音声から感情を伝達しながら,話者の質問意図をさらに伝達する。 2つの異なるレベルからスタイル埋め込みを抽出するマルチスタイル抽出器を提案する。 文レベルは感情を表すが、最後の音節レベルはイントネーションを表す。 音節レベルでのイントネーション強度を表すための相対特性を用いて,感情音声合成におけるイントネーション表現性向上のためのQI-TTSの有効性を実証した。

Recent expressive text to speech (TTS) models focus on synthesizing emotional speech, but some fine-grained styles such as intonation are neglected. In this paper, we propose QI-TTS which aims to better transfer and control intonation to further deliver the speaker's questioning intention while transferring emotion from reference speech. We propose a multi-style extractor to extract style embedding from two different levels. While the sentence level represents emotion, the final syllable level represents intonation. For fine-grained intonation control, we use relative attributes to represent intonation intensity at the syllable level.Experiments have validated the effectiveness of QI-TTS for improving intonation expressiveness in emotional speech synthesis.
翻訳日:2023-03-15 15:56:55 公開日:2023-03-14
# キーワードガイドによる画像テキスト検索の効率化

Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening ( http://arxiv.org/abs/2303.07740v1 )

ライセンス: Link先を確認
Min Cao, Yang Bai, Jingyao Wang, Ziqiang Cao, Liqiang Nie, Min Zhang(参考訳) パフォーマンスの隆盛の下で、現在の画像テキスト検索手法は、実際のアプリケーションを妨げる、n$関連の時間の複雑さに苦しめられている。 本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。 具体的には、画像とテキストデータをキーワードに変換し、モダリティ間のキーワードマッチングを実行し、検索ネットワークに先立って多数の無関係なギャラリーサンプルを除外する。 キーワード予測のために,マルチラベル分類問題に変換し,マルチラベル分類器を画像テキスト検索ネットワークに付加して,軽量かつ高性能なキーワード予測を実現するマルチタスク学習手法を提案する。 キーワードマッチングでは,逆インデックスを検索エンジンに導入し,プレスクリーニングの時間と空間の複雑さの両方においてwin-winの状況を生成する。 Flickr30KとMS-COCOの2つの広く使われているデータセットに対する大規模な実験は、提案フレームワークの有効性を検証する。 2つの埋め込み層のみを備えるフレームワークは,共通の画像テキスト検索手法に先立って適用することで,検索効率の向上と性能維持を図りながら,$o(1)$クエリ時間の複雑さを実現している。 私たちのコードはリリースされます。

Under the flourishing development in performance, current image-text retrieval methods suffer from $N$-related time complexity, which hinders their application in practice. Targeting at efficiency improvement, this paper presents a simple and effective keyword-guided pre-screening framework for the image-text retrieval. Specifically, we convert the image and text data into the keywords and perform the keyword matching across modalities to exclude a large number of irrelevant gallery samples prior to the retrieval network. For the keyword prediction, we transfer it into a multi-label classification problem and propose a multi-task learning scheme by appending the multi-label classifiers to the image-text retrieval network to achieve a lightweight and high-performance keyword prediction. For the keyword matching, we introduce the inverted index in the search engine and create a win-win situation on both time and space complexities for the pre-screening. Extensive experiments on two widely-used datasets, i.e., Flickr30K and MS-COCO, verify the effectiveness of the proposed framework. The proposed framework equipped with only two embedding layers achieves $O(1)$ querying time complexity, while improving the retrieval efficiency and keeping its performance, when applied prior to the common image-text retrieval methods. Our code will be released.
翻訳日:2023-03-15 15:49:53 公開日:2023-03-14
# 測定シャープネスの完全かつ運用的資源理論

A complete and operational resource theory of measurement sharpness ( http://arxiv.org/abs/2303.07737v1 )

ライセンス: Link先を確認
Francesco Buscemi, Kodai Kobayashi, Shintaro Minagawa(参考訳) 有限次元正の演算子値測度(POVM)に対するシャープネスの資源理論を構築し、そのシャープネス非増加演算は、量子前処理チャネルと、全ての要素が恒等演算子に比例するPOVMとの凸混合によって与えられる。 シャープネスの音響資源理論に要求されるように、我々の理論は最大(つまり最もシャープな)要素を持ち、すべて等価であり、繰り返し可能な測度を持つPOVMの集合と一致することを示す。 最も大きな要素のうち、従来の非退化可観測性は最小の要素として特徴づけられる。 より一般的には、与えられた povm と任意の参照 povm の間の epr-ozawa 相関として表される単調のクラスの観点からシャープネスを定量化する。 一方のPOVMは,すべてのモノトーンに対して前者が後者よりも鋭い場合に限り,シャープネス非増加操作により別のPOVMに変換可能であることを示す。 したがって、全てのモノトンの比較は、2つのPOVM間のシャープネス非増加操作の存在に必要かつ十分な条件を与え、全てのモノトンが原理的に実験的にアクセス可能であるという意味で、我々のシャープネスの資源理論は完全である。

We construct a resource theory of sharpness for finite-dimensional positive operator-valued measures (POVMs), where the sharpness-non-increasing operations are given by quantum preprocessing channels and convex mixtures with POVMs whose elements are all proportional to the identity operator. As required for a sound resource theory of sharpness, we show that our theory has greatest (i.e., sharpest) elements, which are all equivalent, and coincide with the set of POVMs that admit a repeatable measurement. Among the greatest elements, conventional non-degenerate observables are characterized as the minimal ones. More generally, we quantify sharpness in terms of a class of monotones, expressed as the EPR--Ozawa correlations between the given POVM and an arbitrary reference POVM. We show that one POVM can be transformed into another by means of a sharpness-non-increasing operation if and only if the former is sharper than the latter with respect to all monotones. Thus, our resource theory of sharpness is complete, in the sense that the comparison of all monotones provide a necessary and sufficient condition for the existence of a sharpness-non-increasing operation between two POVMs, and operational, in the sense that all monotones are in principle experimentally accessible.
翻訳日:2023-03-15 15:49:31 公開日:2023-03-14
# ニューラルネットワークは算術できるのか? 最先端ディープラーニングモデルの初歩的数値的技能に関する調査研究

Can neural networks do arithmetic? A survey on the elementary numerical skills of state-of-the-art deep learning models ( http://arxiv.org/abs/2303.07735v1 )

ライセンス: Link先を確認
Alberto Testolin(参考訳) 高度な推論スキルを発揮できる学習モデルを作成することは、ディープラーニング研究の最大の課題の1つであり、数学はこの方向の科学的進歩を評価するためのターゲット領域の1つに急速になっている。 過去数年間、数学的な問題に対処するために設計されたニューラルネットワークアーキテクチャ、データセット、ベンチマークの爆発があり、自動定理証明、数値積分、新しい予想や行列乗算アルゴリズムの発見など、異なる分野における顕著な成功を報告している。 しかし、これらの顕著な成果にもかかわらず、深層学習モデルが量と記号数の基本的な理解を持っているかどうかは不明である。 本研究では最近の文献を批判的に検討し,基本的な数値的,算術的知識をテストするための比較的単純なタスクを探索する場合,最先端のアーキテクチャでさえ不足することが多いことを結論づけた。

Creating learning models that can exhibit sophisticated reasoning skills is one of the greatest challenges in deep learning research, and mathematics is rapidly becoming one of the target domains for assessing scientific progress in this direction. In the past few years there has been an explosion of neural network architectures, data sets, and benchmarks specifically designed to tackle mathematical problems, reporting notable success in disparate fields such as automated theorem proving, numerical integration, and discovery of new conjectures or matrix multiplication algorithms. However, despite these impressive achievements it is still unclear whether deep learning models possess an elementary understanding of quantities and symbolic numbers. In this survey we critically examine the recent literature, concluding that even state-of-the-art architectures often fall short when probed with relatively simple tasks designed to test basic numerical and arithmetic knowledge.
翻訳日:2023-03-15 15:49:07 公開日:2023-03-14
# 中国語のgrapheme-to-phoneme変換に必要なのは隣人だけ

Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme Conversion ( http://arxiv.org/abs/2303.07726v1 )

ライセンス: Link先を確認
Jungjun Kim, Changjin Han, Gyuhyeon Nam, Gyeongsu Chae(参考訳) 中国語のGrapheme-to-Phoneme(G2P)システムでは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、入力シーケンス全体のグローバルコンテキストに基づいて音素を予測する3段階のフレームワークを採用している。 しかし、言語知識だけでは不十分であることが多い。 言語モデルは、しばしば文の過度に一般的な構造を符号化し、音韻的知識を使用するのに必要な特定のケースをカバーできない。 また,文字のトーンに関連する問題に対処するために,手作りのポストプロセッシングシステムが必要である。 しかし,このシステムでは単語境界のセグメンテーションに矛盾が生じ,結果としてG2Pシステムの性能が低下する。 これらの問題に対処するために,隣接する文字間の音韻情報を強調することにより,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。 実験の結果,Reinforcerは最先端のアーキテクチャを大きなマージンで強化することがわかった。 また,強化器を大規模事前学習モデルと組み合わせ,知識伝達シナリオにおける隣接コンテキストの利用の有効性を示す。

Most Chinese Grapheme-to-Phoneme (G2P) systems employ a three-stage framework that first transforms input sequences into character embeddings, obtains linguistic information using language models, and then predicts the phonemes based on global context about the entire input sequence. However, linguistic knowledge alone is often inadequate. Language models frequently encode overly general structures of a sentence and fail to cover specific cases needed to use phonetic knowledge. Also, a handcrafted post-processing system is needed to address the problems relevant to the tone of the characters. However, the system exhibits inconsistency in the segmentation of word boundaries which consequently degrades the performance of the G2P system. To address these issues, we propose the Reinforcer that provides strong inductive bias for language models by emphasizing the phonological information between neighboring characters to help disambiguate pronunciations. Experimental results show that the Reinforcer boosts the cutting-edge architectures by a large margin. We also combine the Reinforcer with a large-scale pre-trained model and demonstrate the validity of using neighboring context in knowledge transfer scenarios.
翻訳日:2023-03-15 15:48:50 公開日:2023-03-14
# オープン量子光マッター系における絡み合った時間-結晶相

Entangled time-crystal phase in an open quantum light-matter system ( http://arxiv.org/abs/2303.07725v1 )

ライセンス: Link先を確認
Robert Mattes, Igor Lesanovsky, Federico Carollo(参考訳) 時間結晶は、系の状態が極限サイクルに動的に近づく非平衡多体相である。 これらのフェーズは最近集中的な研究の焦点となっているが、量子相関をホストできるかどうかはまだはっきりしていない。 実際、ほとんどの古典的相関はこれまでに観測されており、時間結晶は実質的に古典的高エントロピー相であるように見える。 本稿では,光場を断熱的に除去した後のパラダイム的時間結晶モデルにマップする,現在の実験で実現可能な開量子光マター系の非平衡挙動について考察する。 このシステムは、2階の位相遷移線が出発する三臨界点で終端する、共存する時間結晶および定常相の双安定状態を示す。 光と物質は静止相では相関しないが、時間-結晶相は量子的および古典的両方の二部相関を特徴とする。 我々の研究は、集合的開量子系における時間結晶相は、絡み合いを含む量子相関を維持でき、従って古典的多体相以上であることを明らかにした。

Time-crystals are nonequilibrium many-body phases in which the state of the system dynamically approaches a limit cycle. While these phases are recently in the focus of intensive research, it is still far from clear whether they can host quantum correlations. In fact, mostly classical correlations have been observed so far and time-crystals appear to be effectively classical high-entropy phases. Here, we consider the nonequilibrium behavior of an open quantum light-matter system, realizable in current experiments, which maps onto a paradigmatic time-crystal model after an adiabatic elimination of the light field. The system displays a bistable regime, with coexistent time-crystal and stationary phases, terminating at a tricritical point from which a second-order phase transition line departs. While light and matter are uncorrelated in the stationary phase, the time-crystal phase features bipartite correlations, both of quantum and classical nature. Our work unveils that time-crystal phases in collective open quantum systems can sustain quantum correlations, including entanglement, and are thus more than effectively classical many-body phases.
翻訳日:2023-03-15 15:48:31 公開日:2023-03-14
# ビラソロエンタングルメント分解能

Virasoro Entanglement Resolution ( http://arxiv.org/abs/2303.07724v1 )

ライセンス: Link先を確認
Christian Northe(参考訳) エンタングルメントは、uvカットオフの全ての順序に対する共形族に関して共形場理論(cft)によって解決される。 対称分解された絡み合いは共形族(英語版)の量子次元と接続され、全ての順序に対してヌルベクトルに依存する。 どちらの場合においても、セクター間の公平性の基準が提供される。 この分析はすべてのユニタリ共形族を排出する。 さらに、トポロジカルな絡み合いエントロピーは、Affleck-Ludwig境界エントロピーの対称性を解消する。 構成とゆらぎエントロピーは共形対称性に基づいて解析される。

Entanglement is resolved in conformal field theory (CFT) with respect to conformal families to all orders in the UV cutoff. To leading order, symmetry-resolved entanglement is connected to the quantum dimension of a conformal family, while to all orders it depends on null vectors. Criteria for equipartition between sectors are provided in both cases. This analysis exhausts all unitary conformal families. Furthermore, topological entanglement entropy is shown to symmetry-resolve the Affleck-Ludwig boundary entropy. Configuration and fluctuation entropy are analyzed on grounds of conformal symmetry.
翻訳日:2023-03-15 15:48:12 公開日:2023-03-14
# HALOS : 臓器切除後の幻覚を伴わない臓器切除

HALOS: Hallucination-free Organ Segmentation after Organ Resection Surgery ( http://arxiv.org/abs/2303.07717v1 )

ライセンス: Link先を確認
Anne-Marie Rickmann, Murong Xu, Tom Nuno Wolf, Oksana Kovalenko, Christian Wachinger(参考訳) 深層学習に基づく医用画像のセグメンテーションに関する幅広い研究が、多くの応用において境界線を推し進めた。 臨床的に関連性のある問題として、臓器切除後の不規則解剖によるスキャンの取り扱いがある。 最先端のセグメンテーションモデルは、しばしば臓器の幻覚、すなわち臓器の偽陽性予測を引き起こす。 そこで,本研究では,臓器切除後の症例に対応するmr画像の腹部臓器分割のためのhalosを提案する。 この目的のために,臓器分類の欠如とマルチオーガンセグメンテーションタスクをマルチタスクモデルに結合し,分類支援セグメンテーションパイプラインを生成する。 セグメンテーションネットワークは、機能融合モジュールを介して臓器の存在に関する知識を取り入れることを学ぶ。 小規模のラベル付きテストセットと大規模イギリスのバイオバンクデータに対する広範囲な実験は、より高いセグメンテーションdiceスコアとほぼゼロの偽陽性予測率という観点で、このアプローチの有効性を示している。

The wide range of research in deep learning-based medical image segmentation pushed the boundaries in a multitude of applications. A clinically relevant problem that received less attention is the handling of scans with irregular anatomy, e.g., after organ resection. State-of-the-art segmentation models often lead to organ hallucinations, i.e., false-positive predictions of organs, which cannot be alleviated by oversampling or post-processing. Motivated by the increasing need to develop robust deep learning models, we propose HALOS for abdominal organ segmentation in MR images that handles cases after organ resection surgery. To this end, we combine missing organ classification and multi-organ segmentation tasks into a multi-task model, yielding a classification-assisted segmentation pipeline. The segmentation network learns to incorporate knowledge about organ existence via feature fusion modules. Extensive experiments on a small labeled test set and large-scale UK Biobank data demonstrate the effectiveness of our approach in terms of higher segmentation Dice scores and near-to-zero false positive prediction rate.
翻訳日:2023-03-15 15:48:03 公開日:2023-03-14
# BlinkFlow: イベントベースの光フロー推定の限界をプッシュするデータセット

BlinkFlow: A Dataset to Push the Limits of Event-based Optical Flow Estimation ( http://arxiv.org/abs/2303.07716v1 )

ライセンス: Link先を確認
Yijin Li, Zhaoyang Huang, Shuo Chen, Xiaoyu Shi, Hongsheng Li, Hujun Bao, Zhaopeng Cui, Guofeng Zhang(参考訳) イベントカメラは、光フロー推定に適した高い時間精度、低データレート、高ダイナミックレンジの視覚知覚を提供する。 データ駆動光フロー推定はrgbカメラで大きな成功を収めているが、その一般化性能は、主に制限された偏りのあるトレーニングデータのために、イベントカメラでは著しく阻害されている。 本稿では,イベントベース光フローのための大規模データを高速に生成するための新しいシミュレータBlinkSimを提案する。 BlinkSimは、設定可能なレンダリングエンジンと、イベントデータシミュレーションのための柔軟なエンジンで構成されている。 現在の3Dアセットの豊富な活用により、レンダリングエンジンは、異なるオブジェクト、テクスチャ、モーションパターンで数千のシーンを自動的に構築し、非常に高周波な画像をリアルなイベントデータシミュレーションのためにレンダリングする。 BlinkSimをベースとした大規模なトレーニングデータセットと評価ベンチマークBlinkFlowを構築する。 実験の結果、BlinkFlowは最先端手法の一般化性能を平均40%以上改善し、最大90%向上した。 さらに,イベント光フロートランスフォーマー(E-FlowFormer)アーキテクチャを提案する。 当社のBlinkFlowによって開発されたE-FlowFormerは,MVSECデータセットで最大91%,DSECデータセットで14%,SOTAメソッドで最大91%,最高の一般化性能を示している。

Event cameras provide high temporal precision, low data rates, and high dynamic range visual perception, which are well-suited for optical flow estimation. While data-driven optical flow estimation has obtained great success in RGB cameras, its generalization performance is seriously hindered in event cameras mainly due to the limited and biased training data. In this paper, we present a novel simulator, BlinkSim, for the fast generation of large-scale data for event-based optical flow. BlinkSim consists of a configurable rendering engine and a flexible engine for event data simulation. By leveraging the wealth of current 3D assets, the rendering engine enables us to automatically build up thousands of scenes with different objects, textures, and motion patterns and render very high-frequency images for realistic event data simulation. Based on BlinkSim, we construct a large training dataset and evaluation benchmark BlinkFlow that contains sufficient, diversiform, and challenging event data with optical flow ground truth. Experiments show that BlinkFlow improves the generalization performance of state-of-the-art methods by more than 40% on average and up to 90%. Moreover, we further propose an Event optical Flow transFormer (E-FlowFormer) architecture. Powered by our BlinkFlow, E-FlowFormer outperforms the SOTA methods by up to 91% on MVSEC dataset and 14% on DSEC dataset and presents the best generalization performance.
翻訳日:2023-03-15 15:47:44 公開日:2023-03-14
# 外部駆動による長距離分子ポテンシャル

Engineering long-range molecular potentials by external drive ( http://arxiv.org/abs/2303.07715v1 )

ライセンス: Link先を確認
Tanita Klas, Jana Bender, Patrick Mischke, Thomas Niederpr\"um, Herwig Ott(参考訳) 我々は原子間距離が大きい分子ポテンシャルの工学を報告する。 分子状態は、共鳴外光カップリングによって高励起で長距離のリドバーグ分子ポテンシャルに生成される。 この結合は、結合状態を支持する低層分子ポテンシャルにおいてポテンシャルをうまく生成する。 ポテンシャル井戸の深さ、したがって分子の結合エネルギーは結合パラメータによって調整できる。 これらの分子を特徴付け、関連する2つの断熱ポテンシャルエネルギー曲線の結合に基づく理論モデルと良好な一致を見出す。 以上の結果から,超低温基底状態原子間の長距離分子を創り出し,超低温化学やfeshbach共鳴,efimov物理,ハロ分子の研究に応用できる可能性が示唆された。

We report the engineering of molecular potentials at large interatomic distances. The molecular states are generated by off-resonant optical coupling to a highly excited, long-range Rydberg molecular potential. The coupling produces a potential well in the low-lying molecular potential, which supports a bound state. The depth of the potential well, and thus the binding energy of the molecule, can be tuned by the coupling parameters. We characterize these molecules and find good agreement with a theoretical model based on the coupling of the two involved adiabatic potential energy curves. Our results open numerous possibilities to create long-range molecules between ultracold ground state atoms and to use them for ultracold chemistry and applications such as Feshbach resonances, Efimov physics or the study of halo molecules.
翻訳日:2023-03-15 15:47:19 公開日:2023-03-14
# 3次元MRI/CTを用いた画像融合用2次元超音波探触子校正

Freehand 2D Ultrasound Probe Calibration for Image Fusion with 3D MRI/CT ( http://arxiv.org/abs/2303.07714v1 )

ライセンス: Link先を確認
Yogesh Langhe, Katrin Skerl, Adrien Bartoli(参考訳) 本研究の目的は、簡易な自由手超音波プローブ校正技術を実装することである。 これにより、拡張現実を使って手術中の画像データを可視化できます。 システムの性能は2つの異なるポーズ推定手法を用いて異なる実験で評価した。 提案手法によりほぼミリメートルの精度が得られる。 開発したシステムは, コスト効率が高く, 単純で, キャリブレーションエラーが少ない。

The aim of this work is to implement a simple freehand ultrasound (US) probe calibration technique. This will enable us to visualize US image data during surgical procedures using augmented reality. The performance of the system was evaluated with different experiments using two different pose estimation techniques. A near-millimeter accuracy can be achieved with the proposed approach. The developed system is cost-effective, simple and rapid with low calibration error
翻訳日:2023-03-15 15:47:07 公開日:2023-03-14
# 血液細胞形態におけるロバスト単一細胞分類のための不均衡領域の一般化

Imbalanced Domain Generalization for Robust Single Cell Classification in Hematological Cytomorphology ( http://arxiv.org/abs/2303.07771v1 )

ライセンス: Link先を確認
Rao Muhammad Umer, Armin Gruber, Sayedali Shetab Boushehri, Christian Metak, Carsten Marr(参考訳) 白血球の正確な形態分類(WBCs)は白血病の診断において重要なステップであり、非機能的ブラスト細胞が骨髄に蓄積する疾患である。 近年、深層畳み込みニューラルネットワーク(CNN)は特定の領域からの単細胞画像に基づいて、白血球の分類に成功している。 多くのcnnモデルは、トレーニングデータとテストデータの分布が類似している、すなわち、データは独立して、同じ分散である、と仮定している。 したがって、異なる染色プロトコル、倍率、解像度、スキャナー、イメージングプロトコル、および臨床センターや患者のコホートの変化に対して堅牢ではない。 さらに、ドメイン固有のデータ不均衡は分類器の一般化性能に影響する。 本稿では,wbc分類のためのロバストなcnnを,クロスドメインデータ不均衡とドメインシフトに対処して訓練する。 この目的のために2つの損失関数を用い,out-of-distribution (ood) 一般化の有効性を示す。 本手法は他の方法と比較してF1マクロスコアが最適であり, 稀な細胞型を考慮できる。 これは血液形態学における不均衡領域の一般化の初めての実証であり、実験室や診療所への応用のための堅牢な単細胞分類方法の道を開くものである。

Accurate morphological classification of white blood cells (WBCs) is an important step in the diagnosis of leukemia, a disease in which nonfunctional blast cells accumulate in the bone marrow. Recently, deep convolutional neural networks (CNNs) have been successfully used to classify leukocytes by training them on single-cell images from a specific domain. Most CNN models assume that the distributions of the training and test data are similar, i.e., that the data are independently and identically distributed. Therefore, they are not robust to different staining protocols, magnifications, resolutions, scanners, or imaging protocols, as well as variations in clinical centers or patient cohorts. In addition, domain-specific data imbalances affect the generalization performance of classifiers. Here, we train a robust CNN for WBC classification by addressing cross-domain data imbalance and domain shifts. To this end, we use two loss functions and demonstrate the effectiveness on out-of-distribution (OOD) generalization. Our approach achieves the best F1 macro score compared to other existing methods, and is able to consider rare cell types. This is the first demonstration of imbalanced domain generalization in hematological cytomorphology and paves the way for robust single cell classification methods for the application in laboratories and clinics.
翻訳日:2023-03-15 15:41:15 公開日:2023-03-14
# 3次テンソル用マルチスライスクラスタリングのDBSCAN

DBSCAN of Multi-Slice Clustering for three-order Tensor ( http://arxiv.org/abs/2303.07768v1 )

ライセンス: Link先を確認
Dina Faneva Andriantsiory, Joseph Ben Geloun, Mustapha Lebbah(参考訳) 3次元データのトリクラスタリングには、各次元のクラスタサイズやクラスタ数を指定する必要がある。 この問題に対処するために、3階テンソルのマルチスライスクラスタリング(msc)は、しきい値の類似性に基づいてクラスタを見つけるために、ランク1テンソルデータセットの低次元部分空間にある信号スライスを見つける。 データセットがrランク1テンソル(r > 1)の和である場合、データから異なる部分空間にある異なるスライス群を抽出するMSC-DBSCANという拡張アルゴリズムを提案する。 我々のアルゴリズムはMSCアルゴリズムと同じ入力を使い、MSCとランクワンテンソルデータの解を見つけることができる。

Several methods for triclustering three-dimensional data require the cluster size or the number of clusters in each dimension to be specified. To address this issue, the Multi-Slice Clustering (MSC) for 3-order tensor finds signal slices that lie in a low dimensional subspace for a rank-one tensor dataset in order to find a cluster based on the threshold similarity. We propose an extension algorithm called MSC-DBSCAN to extract the different clusters of slices that lie in the different subspaces from the data if the dataset is a sum of r rank-one tensor (r > 1). Our algorithm uses the same input as the MSC algorithm and can find the same solution for rank-one tensor data as MSC.
翻訳日:2023-03-15 15:40:53 公開日:2023-03-14
# トレース多項式を用いた絡み検出

Entanglement detection with trace polynomials ( http://arxiv.org/abs/2303.07761v1 )

ライセンス: Link先を確認
Albert Rico and Felix Huber(参考訳) トレース多項式の不等式に基づく非線形絡み検出の系統的手法を提案する。 特に、二成分状態の検出には多成分目撃者を用いることができ、その逆も可能である。 絡み合った状態の線形検出が失敗するが、非線形検出が成功する目撃者を特定する。 トレース多項式の定式化では、無数の測定によって実験室で実装できる不等式から多くの目撃者が生まれる。

We provide a systematic method for nonlinear entanglement detection based on trace polynomial inequalities. In particular, this allows to employ multi-partite witnesses for the detection of bipartite states, and vice versa. We identify witnesses for which linear detection of an entangled state fails, but for which nonlinear detection succeeds. With the trace polynomial formulation a great variety of witnesses arise from immamant inequalities, which can be implemented in the laboratory through randomized measurements.
翻訳日:2023-03-15 15:40:39 公開日:2023-03-14
# 教師付きサラウンドビュー深度推定のための簡易ベースライン

A Simple Baseline for Supervised Surround-view Depth Estimation ( http://arxiv.org/abs/2303.07759v1 )

ライセンス: Link先を確認
Xianda Guo, Wenjie Yuan, Yunpeng Zhang, Tian Yang, Chenming Zhang, Zheng Zhu(参考訳) 深度推定は広く研究され、自律運転のための3次元知覚の基本的なステップとなっている。 過去数十年間、単眼深度推定には大きな進歩があったが、これらの試みは主に、周囲カメラ間の相関を無視する前面カメラのみを用いたKITTIベンチマークで行われている。 本稿では,S3Depthを提案する。S3Depthは,複数の周囲カメラにまたがる深度マップを共同で予測する簡易ベースラインである。 具体的には,CNNとトランスフォーマー層を組み合わせたグローバル-ローカルな特徴抽出モジュールを用いて表現を豊かにする。 さらに、ビュー内およびビュー間特徴伝搬を可能にするために、アジャセントビュー注意機構を提案する。 前者は各ビュー内のセルフアテンションモジュールで達成され、後者はアテンションモジュールで実現され、マルチカメラ間でアテンションを計算し、サラウンドビュー特徴マップでマルチスケール表現を交換する。 本手法はDDADとnuScenesの両方のデータセット上で,既存の最先端手法よりも優れた性能を示す。

Depth estimation has been widely studied and serves as the fundamental step of 3D perception for autonomous driving. Though significant progress has been made for monocular depth estimation in the past decades, these attempts are mainly conducted on the KITTI benchmark with only front-view cameras, which ignores the correlations across surround-view cameras. In this paper, we propose S3Depth, a Simple Baseline for Supervised Surround-view Depth Estimation, to jointly predict the depth maps across multiple surrounding cameras. Specifically, we employ a global-to-local feature extraction module which combines CNN with transformer layers for enriched representations. Further, the Adjacent-view Attention mechanism is proposed to enable the intra-view and inter-view feature propagation. The former is achieved by the self-attention module within each view, while the latter is realized by the adjacent attention module, which computes the attention across multi-cameras to exchange the multi-scale representations across surround-view feature maps. Extensive experiments show that our method achieves superior performance over existing state-of-the-art methods on both DDAD and nuScenes datasets.
翻訳日:2023-03-15 15:40:31 公開日:2023-03-14
# Traffic4cast at NeurIPS 2022 -- スパースノードデータによるグラフエッジの予測ダイナミクス: 静止車両検出器による都市交通とETA

Traffic4cast at NeurIPS 2022 -- Predict Dynamics along Graph Edges from Sparse Node Data: Whole City Traffic and ETA from Stationary Vehicle Detectors ( http://arxiv.org/abs/2303.07758v1 )

ライセンス: Link先を確認
Moritz Neun, Christian Eichenberger, Henry Martin, Markus Spanring, Rahul Siripurapu, Daniel Springer, Leyan Deng, Chenwang Wu, Defu Lian, Min Zhou, Martin Lumiste, Andrei Ilie, Xinhua Wu, Cheng Lyu, Qing-Long Lu, Vishal Mahajan, Yichao Lu, Jiezhang Li, Junjun Li, Yue-Jiao Gong, Florian Gr\"otschla, Jo\"el Mathys, Ye Wei, He Haitao, Hui Fang, Kevin Malm, Fei Tang, Michael Kopp, David Kreil, Sepp Hochreiter(参考訳) 都市化と個人の移動性の向上のグローバルな傾向は、私たちの生活や都市空間の使い方を再考させます。 traffic4castコンペティションシリーズは、データ駆動の方法でこの問題に取り組み、複雑な空間システムを時間とともにモデリングするための機械学習の最新手法を前進させる。 この版では、道路地図から得られる情報、10〜12ドル(約10万円)のプローブデータポイントと2年間にわたる3つの都市における静止車検出データを組み合わせています。 静止車両検出器は交通量を捉える最も正確な方法であるが、少数の場所でしか利用できない。 traffic4cast 2022は、わずか数ノードのゆるい時間的頂点データを一般化し、道路グラフ全体の端にある動的な将来のトラフィック状態を予測できるモデルを調査している。 その中核となる課題として,3都市15分後の道路グラフ全体のGPSデータの速度レベルから,3つの渋滞クラスが生じる可能性を予測することが挙げられる。 この課題のモデル入力として,これらの3都市における空間的に疎い静止車両検出器からの車両数データのみを提供する。 データは予測時間より1時間前に15分間の時間ビンに集約される。 課題を拡大するために、参加者は15分以内のスーパーセグメントの平均走行時間を予測することが義務付けられている。 競争の結果は、公共に利用可能なスパース車両データから大量のリアルタイム浮動車データを必要とせず、複雑な都市全体の交通状態を予測する上で重要な進歩をもたらす。

The global trends of urbanization and increased personal mobility force us to rethink the way we live and use urban space. The Traffic4cast competition series tackles this problem in a data-driven way, advancing the latest methods in machine learning for modeling complex spatial systems over time. In this edition, our dynamic road graph data combine information from road maps, $10^{12}$ probe data points, and stationary vehicle detectors in three cities over the span of two years. While stationary vehicle detectors are the most accurate way to capture traffic volume, they are only available in few locations. Traffic4cast 2022 explores models that have the ability to generalize loosely related temporal vertex data on just a few nodes to predict dynamic future traffic states on the edges of the entire road graph. In the core challenge, participants are invited to predict the likelihoods of three congestion classes derived from the speed levels in the GPS data for the entire road graph in three cities 15 min into the future. We only provide vehicle count data from spatially sparse stationary vehicle detectors in these three cities as model input for this task. The data are aggregated in 15 min time bins for one hour prior to the prediction time. For the extended challenge, participants are tasked to predict the average travel times on super-segments 15 min into the future - super-segments are longer sequences of road segments in the graph. The competition results provide an important advance in the prediction of complex city-wide traffic states just from publicly available sparse vehicle data and without the need for large amounts of real-time floating vehicle data.
翻訳日:2023-03-15 15:40:10 公開日:2023-03-14
# アフィニティ行列による3階テンソルのマルチウェイクラスタリング

Multiway clustering of 3-order tensor via affinity matrix ( http://arxiv.org/abs/2303.07757v1 )

ライセンス: Link先を確認
Dina Faneva Andriantsiory, Joseph Ben Geloun, Mustapha Lebbah(参考訳) 本稿では,アフィニティ行列(MCAM)を用いた3階テンソルのマルチウェイクラスタリング手法を提案する。 テンソルスライスと各スライスに関する情報の拡散の類似性の概念に基づいて、我々は高度なクラスタリング手法を適用した親和性/類似性行列を構築した。 3つのモードのすべてのクラスタの組み合わせは、所望のマルチウェイクラスタリングを提供する。 最後に、MCAMは、合成や実際のデータセットに関する他の既知のアルゴリズムと比較して、競合的な結果が得られる。

We propose a new method of multiway clustering for 3-order tensors via affinity matrix (MCAM). Based on a notion of similarity between the tensor slices and the spread of information of each slice, our model builds an affinity/similarity matrix on which we apply advanced clustering methods. The combination of all clusters of the three modes delivers the desired multiway clustering. Finally, MCAM achieves competitive results compared with other known algorithms on synthetics and real datasets.
翻訳日:2023-03-15 15:39:44 公開日:2023-03-14
# ビデオグラウンドのための世代誘導多層統一ネットワーク

Generation-Guided Multi-Level Unified Network for Video Grounding ( http://arxiv.org/abs/2303.07748v1 )

ライセンス: Link先を確認
Xing Cheng, Xiangyu Wu, Dong Shen, Hezheng Lin, Fan Yang(参考訳) ビデオグラウンディングは、クエリ記述に最も適したタイムスタンプを未トリミングビデオ内で見つけることを目的としている。 一般的なメソッドはモーメントレベルとクリップレベルに分けることができる。 モーメントレベルアプローチは、各過渡モーメントが大域的な視点で境界となる確率を直接予測し、粗い接地においてよりよく機能する。 一方、クリップレベルのものは、異なる時間ウィンドウのモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドディングにおいてその優位性をもたらす。 本稿では,モーメントレベルとクリップレベルの両方の手法の利点を生かして,パフォーマンスを向上させるマルチレベル統一フレームワークを提案する。 さらに、両レベルの新しい世代誘導パラダイムが採用されている。 これはマルチモーダルジェネレータを導入し、暗黙の境界特徴とクリップ特徴を生成し、後に判別器によって境界スコアを計算するクエリとみなされる。 生成誘導ソリューションは、2つの共通モダルのマッチングタスクから、以前のフレームワークからステップアウトして顕著なゲインを得るクロスモーダルアテンションタスクへのビデオグラウンドを向上する。 提案する世代誘導型多レベル統一ネットワーク (gmu) は,従来の手法を上回って,さまざまな特徴を備えたベンチマーク,例えばcharades-sta, activitynet キャプションに到達した。

Video grounding aims to locate the timestamps best matching the query description within an untrimmed video. Prevalent methods can be divided into moment-level and clip-level frameworks. Moment-level approaches directly predict the probability of each transient moment to be the boundary in a global perspective, and they usually perform better in coarse grounding. On the other hand, clip-level ones aggregate the moments in different time windows into proposals and then deduce the most similar one, leading to its advantage in fine-grained grounding. In this paper, we propose a multi-level unified framework to enhance performance by leveraging the merits of both moment-level and clip-level methods. Moreover, a novel generation-guided paradigm in both levels is adopted. It introduces a multi-modal generator to produce the implicit boundary feature and clip feature, later regarded as queries to calculate the boundary scores by a discriminator. The generation-guided solution enhances video grounding from a two-unique-modals' match task to a cross-modal attention task, which steps out of the previous framework and obtains notable gains. The proposed Generation-guided Multi-level Unified network (GMU) surpasses previous methods and reaches State-Of-The-Art on various benchmarks with disparate features, e.g., Charades-STA, ActivityNet captions.
翻訳日:2023-03-15 15:39:37 公開日:2023-03-14
# LoG-CAN:リモートセンシング画像のセマンティックセグメンテーションのためのローカルグローバルクラスアウェアネットワーク

LoG-CAN: local-global Class-aware Network for semantic segmentation of remote sensing images ( http://arxiv.org/abs/2303.07747v1 )

ライセンス: Link先を確認
Xiaowen Ma, Mengting Ma, Chenlu Hu, Zhiyuan Song, Ziyan Zhao, Tian Feng, Wei Zhang(参考訳) リモートセンシング画像は複雑な背景を持ち、クラス内分散度が高く、スケールのばらつきが大きいことで知られ、セマンティックセグメンテーションに挑戦する。 リモートセンシング画像にグローバルクラス認識(GCA)モジュールとローカルクラス認識(LCA)モジュールを備えたマルチスケールセマンティックセマンティックセマンティクスネットワークであるLoG-CANを提案する。 具体的には、LCAモジュールは背景干渉を回避するために、クラスワイドコンテキストモデリングのグローバル表現をキャプチャし、LCAモジュールは中間認識要素として局所クラス表現を生成し、クラス内のばらつきを軽減するために、画素とグローバルクラス表現を間接的に関連付け、GCAモジュールとLCAモジュールとのマルチスケールアーキテクチャは、カスケードされた精細化と特徴の融合を通じて、異なるスケールでのオブジェクトの効果的なセグメンテーションをもたらす。 ISPRS Vaihingen データセットと ISPRS Potsdam データセットを評価した結果,LoG-CAN は汎用セマンティックセグメンテーションの最先端手法よりも優れ,ネットワークパラメータや計算処理の大幅な削減を図っている。 コードは~\href{https://github.com/xwmaxwma/rssegmentation}{https://github.com/xwmaxwma/rssegmentation}で入手できる。

Remote sensing images are known of having complex backgrounds, high intra-class variance and large variation of scales, which bring challenge to semantic segmentation. We present LoG-CAN, a multi-scale semantic segmentation network with a global class-aware (GCA) module and local class-aware (LCA) modules to remote sensing images. Specifically, the GCA module captures the global representations of class-wise context modeling to circumvent background interference; the LCA modules generate local class representations as intermediate aware elements, indirectly associating pixels with global class representations to reduce variance within a class; and a multi-scale architecture with GCA and LCA modules yields effective segmentation of objects at different scales via cascaded refinement and fusion of features. Through the evaluation on the ISPRS Vaihingen dataset and the ISPRS Potsdam dataset, experimental results indicate that LoG-CAN outperforms the state-of-the-art methods for general semantic segmentation, while significantly reducing network parameters and computation. Code is available at~\href{https://github.com/xwmaxwma/rssegmentation}{https://github.com/xwmaxwma/rssegmentation}.
翻訳日:2023-03-15 15:39:11 公開日:2023-03-14
# 1次スライディング:不連続画像登録のための高次運動量分布

Sliding at first order: Higher-order momentum distributions for discontinuous image registration ( http://arxiv.org/abs/2303.07744v1 )

ライセンス: Link先を確認
Lili Bao, Jiahao Lu, Shihui Ying, Stefan Sommer(参考訳) 本稿では,スライディング動作をキャプチャする変形可能な画像登録手法を提案する。 large deformation diffeomorphic metric mapping (lddmm) の登録手法は,スライディング動作を表現する際の課題に直面している。 この問題に対処するため、ゼロと1階のモータを非微分可能なカーネルに組み込むことで LDDMM を拡張した。 これにより、スイッチング境界における不連続な変形と均質領域における微分同相変形の両方を表現することができる。 不連続系の観点から,提案した変形モデルの数学的解析を行う。 提案手法を評価するため,DIR-Lab 4DCTデータセットと人工画像を用いた実験を行った。 以上の結果から,本手法の有効性が示唆された。

In this paper, we propose a new approach to deformable image registration that captures sliding motions. The large deformation diffeomorphic metric mapping (LDDMM) registration method faces challenges in representing sliding motion since it per construction generates smooth warps. To address this issue, we extend LDDMM by incorporating both zeroth- and first-order momenta with a non-differentiable kernel. This allows to represent both discontinuous deformation at switching boundaries and diffeomorphic deformation in homogeneous regions. We provide a mathematical analysis of the proposed deformation model from the viewpoint of discontinuous systems. To evaluate our approach, we conduct experiments on both artificial images and the publicly available DIR-Lab 4DCT dataset. Results show the effectiveness of our approach in capturing plausible sliding motion.
翻訳日:2023-03-15 15:38:43 公開日:2023-03-14
# ForDigitStress: ディジタル面接シナリオを用いたマルチモーダルストレスデータセット

ForDigitStress: A multi-modal stress dataset employing a digital job interview scenario ( http://arxiv.org/abs/2303.07742v1 )

ライセンス: Link先を確認
Alexander Heimerl, Pooja Prajod, Silvan Mertes, Tobias Baur, Matthias Kraus, Ailin Liu, Helen Risack, Nicolas Rohleder, Elisabeth Andr\'e, Linda Becker(参考訳) 本稿では,デジタル面接を用いてストレスを誘発するマルチモーダルストレスデータセットを提案する。 このデータセットは、オーディオ、ビデオ(モーションキャプチャ、顔認識、アイトラッキング)、生理情報(フォトプレチモグラフィ、電極活動)を含む40人の参加者のマルチモーダルデータを提供する。 それに加えてデータセットには、ストレスと発生した感情(恥、怒り、不安、驚きなど)に対する時系列アノテーションが含まれている。 ベースラインを確立するために,提案する2元応力分類タスクのデータセット上で,5つの異なる機械学習分類器(サポートベクターマシン,k-ネアレスト近傍,ランダムフォレスト,長期記憶ネットワーク)を訓練し,評価した。 最高の性能の分類器は88.3%の精度と87.5%のF1スコアを達成した。

We present a multi-modal stress dataset that uses digital job interviews to induce stress. The dataset provides multi-modal data of 40 participants including audio, video (motion capturing, facial recognition, eye tracking) as well as physiological information (photoplethysmography, electrodermal activity). In addition to that, the dataset contains time-continuous annotations for stress and occurred emotions (e.g. shame, anger, anxiety, surprise). In order to establish a baseline, five different machine learning classifiers (Support Vector Machine, K-Nearest Neighbors, Random Forest, Long-Short-Term Memory Network) have been trained and evaluated on the proposed dataset for a binary stress classification task. The best-performing classifier achieved an accuracy of 88.3% and an F1-score of 87.5%.
翻訳日:2023-03-15 15:38:31 公開日:2023-03-14
# UAGE: 弱監視セマンティックセマンティックセグメンテーションのための統一シードエリア生成パラダイム

USAGE: A Unified Seed Area Generation Paradigm for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.07806v1 )

ライセンス: Link先を確認
Zelin Peng, Guanchun Wang, Lingxi Xie, Dongsheng Jiang, Wei Shen, Qi Tian(参考訳) 種子領域の生成は通常、弱教師付きセマンティックセグメンテーション(WSSS)の出発点である。 マルチラベル分類ネットワークからクラスアクティベーションマップ(cam)を計算することは、シード領域生成のデファクトパラダイムであるが、畳み込みニューラルネットワーク(cnns)とトランスフォーマーから生成されるcamは、それぞれ過度に活性化されやすいため、通常はトランスフォーマーに不適当であるcnn用のcamを洗練する戦略と、その逆の方法である。 In this paper, we propose a Unified optimization paradigm for Seed Area GEneration (USAGE) for both types of networks, in which the objective function to be optimized consists of two terms: One is a generation loss, which controls the shape of seed areas by a temperature parameter following a deterministic principle for different types of networks; The other is a regularization loss, which ensures the consistency between the seed areas that are generated by self-adaptive network adjustment from different views, to overturn false activation in seed areas. 実験結果から,UAGEはCNNとトランスフォーマーの両方のシード領域の生成を,PASCAL VOCで4.1%のmIoUで,大きなマージンで一貫して改善していることがわかった。 さらに, トランスフォーマーのUSAGE生成種面積に基づいて, PASCAL VOCとMS COCOの2種類のWSSS結果を得た。

Seed area generation is usually the starting point of weakly supervised semantic segmentation (WSSS). Computing the Class Activation Map (CAM) from a multi-label classification network is the de facto paradigm for seed area generation, but CAMs generated from Convolutional Neural Networks (CNNs) and Transformers are prone to be under- and over-activated, respectively, which makes the strategies to refine CAMs for CNNs usually inappropriate for Transformers, and vice versa. In this paper, we propose a Unified optimization paradigm for Seed Area GEneration (USAGE) for both types of networks, in which the objective function to be optimized consists of two terms: One is a generation loss, which controls the shape of seed areas by a temperature parameter following a deterministic principle for different types of networks; The other is a regularization loss, which ensures the consistency between the seed areas that are generated by self-adaptive network adjustment from different views, to overturn false activation in seed areas. Experimental results show that USAGE consistently improves seed area generation for both CNNs and Transformers by large margins, e.g., outperforming state-of-the-art methods by a mIoU of 4.1% on PASCAL VOC. Moreover, based on the USAGE-generated seed areas on Transformers, we achieve state-of-the-art WSSS results on both PASCAL VOC and MS COCO.
翻訳日:2023-03-15 15:32:41 公開日:2023-03-14
# COVID-19パンデミックの第一波における移動選択の変化--イタリアとスウェーデンの比較

Changes in mobility choices during the first wave of the COVID-19 pandemic: a comparison between Italy and Sweden ( http://arxiv.org/abs/2303.07803v1 )

ライセンス: Link先を確認
Daniele Giubergia, Elisa Bin, Marco Diana(参考訳) 新型コロナウイルスの感染拡大は世界中の人々の生活、特に旅行行動や日々の行動に影響を及ぼした。 2020年春のパンデミックの最初の波で、各国はウイルスの感染拡大を抑えるために異なる戦略を採用した。 本研究の目的は,イタリアとスウェーデンの2国において,パンデミックによるモビリティ選択の持続可能性レベルに着目し,モビリティ行動の変化を分析することである。 調査の結果、パンデミックの最初の波の前後で、どの交通手段が3つの異なる旅行目的(食料品の買い物、非食料品の買い物、通勤)に最も使われたかが判明した。 モーダル選択の持続可能性レベルの変動は記述統計と意義試験によって観察された。 旅行目的ごとに3つの多項ロジスティック回帰モデルを推定することで,パンデミックの開始に伴うモダル選択の持続可能性レベルの変化に影響を及ぼす要因を明らかにすることを試みた。 その結果,スウェーデン人に比べ,特に公共交通機関では移動率の低下がみられ,また,パンデミックの最初の波で旅行を行う可能性も高かったため,徒歩や自転車での移動ではスウェーデン人の方が大きな傾向を示した。 最後に,公共交通機関の安全に対する意識は,規制の開始に伴うモーダル選択の持続可能性レベルの変化に有意な影響を及ぼさないと考えられる。 今回の結果は、新型コロナウイルスのパンデミックが旅行代替案に対する態度や好みにどのように影響するかについての議論の出発点として利用できる。 また、本研究では、異国間における異例の状況に対して、反対の封じ込め戦略で人々がどう反応したかを強調した。

The spread of COVID-19 disease affected people's lives worldwide, particularly their travel behaviours and how they performed daily activities. During the first wave of the pandemic, spring 2020, countries adopted different strategies to contain the spread of the virus. The aim of this paper is to analyse the changes in mobility behaviours, focusing on the sustainability level of modal choices caused by the pandemic in two countries with different containment policies in place: Italy and Sweden. Survey data uncovered which transport means was the most used for three different trip purposes (grocery shopping, non-grocery shopping and commuting) both before and during the first wave of the pandemic. The variation in the sustainability level of modal choices was then observed through descriptive statistics and significance tests. By estimating three multinomial logistic regression models, one for each trip purpose, we tried to identify which factors, beyond the country, affected the variation in the sustainability level of the modal choice with the beginning of the pandemic. Results show a greater reduction in mobility among the Italian sample compared to the Swedish one, especially for public transit, and a major inclination by Swedes in travelling by foot and by bike compared to Italians, also due to the greater possibility of making trips during the first wave of the pandemic. Finally, perceived safety on public transit seems to have no significant effects on the variation in the sustainability level of the modal choice with the beginning of restrictions. Our results can be used as a starting point for a discussion on how the COVID-19 pandemic affected attitudes and preferences towards the different travel alternatives. Also, in this work we highlighted how people reacted in different ways to an unprecedented situation in two Countries with opposite containment strategies in place.
翻訳日:2023-03-15 15:31:54 公開日:2023-03-14
# OVRL-V2: ImageNavとObjectNavのためのシンプルな最先端ベースライン

OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav ( http://arxiv.org/abs/2303.07798v1 )

ライセンス: Link先を確認
Karmesh Yadav, Arjun Majumdar, Ram Ramrakhya, Naoki Yokoyama, Alexei Baevski, Zsolt Kira, Oleksandr Maksymets, Dhruv Batra(参考訳) タスクに依存しないコンポーネント(vits, convolutions, lstms)で構成された単一のニューラルネットワークアーキテクチャを提案する。これはimagenav(<this picture>)とobjectnav("find a chair")タスクの両方において,オブジェクト検出やセグメンテーション,マッピング,プランニングモジュールといったタスク固有のモジュールを必要とせずに,最先端の結果を得る。 このような汎用メソッドは、設計の単純さ、利用可能な計算によるポジティブなスケーリング、複数のタスクに適用可能な汎用性といった利点を提供する。 我々の研究は、ビジョントランスフォーマー(ViT)の自己教師型学習(SSL)の成功に基づいている。 しかし、畳み込みネットワークのトレーニングレシピは成熟し堅牢であるが、ViTsのレシピは断続的で脆く、視覚ナビゲーションのViTsの場合、まだ完全には発見されていない。 具体的には、バニラ ViT が視覚ナビゲーションにおいて ResNet を上回りません。 本稿では,ViTパッチ表現上で動作する圧縮層を用いて空間情報を保存し,ポリシトレーニングの改善を提案する。 これらの改善により、ビジュアルナビゲーションタスクで初めてポジティブなスケーリング法則を実証することができます。 その結果、ImageNavの最先端性能は54.2%から82.0%に向上し、64.0%と65.0%とでObjectNavの同時最先端性能と競合する。 全体として、この作業は基本的な新しいアプローチではなく、今日の最先端のパフォーマンスを達成し、将来のメソッドの強力なベースラインとなる汎用アーキテクチャをトレーニングするための推奨事項である。

We present a single neural network architecture composed of task-agnostic components (ViTs, convolutions, and LSTMs) that achieves state-of-art results on both the ImageNav ("go to location in <this picture>") and ObjectNav ("find a chair") tasks without any task-specific modules like object detection, segmentation, mapping, or planning modules. Such general-purpose methods offer advantages of simplicity in design, positive scaling with available compute, and versatile applicability to multiple tasks. Our work builds upon the recent success of self-supervised learning (SSL) for pre-training vision transformers (ViT). However, while the training recipes for convolutional networks are mature and robust, the recipes for ViTs are contingent and brittle, and in the case of ViTs for visual navigation, yet to be fully discovered. Specifically, we find that vanilla ViTs do not outperform ResNets on visual navigation. We propose the use of a compression layer operating over ViT patch representations to preserve spatial information along with policy training improvements. These improvements allow us to demonstrate positive scaling laws for the first time in visual navigation tasks. Consequently, our model advances state-of-the-art performance on ImageNav from 54.2% to 82.0% success and performs competitively against concurrent state-of-art on ObjectNav with success rate of 64.0% vs. 65.0%. Overall, this work does not present a fundamentally new approach, but rather recommendations for training a general-purpose architecture that achieves state-of-art performance today and could serve as a strong baseline for future methods.
翻訳日:2023-03-15 15:31:25 公開日:2023-03-14
# 自己量子コヒーレンス合成と多重化

Synthesizing and multiplexing autonomous quantum coherences ( http://arxiv.org/abs/2303.07795v1 )

ライセンス: Link先を確認
Artur Slobodeniuk, Tom\'a\v{s} Novotn\'y, Radim Filip(参考訳) 量子コヒーレンスは量子技術にとって重要な前提条件である。 したがって、量子コヒーレンスを可能な限り自律的に生成することは、この分野の発展に不可欠な問題である。 本研究では,スピン系から量子コヒーレンスを合成・多重化する手法について検討する。 この分野での以前の研究では、スピンサブシステムへの浴のバックアクションが生成に重要であることが示されているが、同時に生成したコヒーレンスにかなりの制限を与える。 バックアクションプロセスの破壊的影響を回避し,これらの限界を克服できるボソニック浴を用いた実用的アプローチを提案する。 このアプローチを用いて,複数ボソニック浴のスピン-ボソン結合パラメータにおいて,量子コヒーレンスを非摂動的に非摂動的に合成し,その増加と多重化を今後の実証-基本実験のために提案する。

Quantum coherence is a crucial prerequisite for quantum technologies. Therefore, the robust generation, as autonomous as possible, of quantum coherence remains the essential problem for developing this field. We consider a method of synthesizing and multiplexing quantum coherence from spin systems without any direct drives only coupled to bosonic baths. The previous studies in this field have demonstrated that a back-action of the bath to the spin subsystem is important to generate it, however, it simultaneously gives significant limits to the generated coherence. We propose a viable approach with the bosonic bath that allows overcoming these limits by avoiding the destructive effect of the back-action processes. Using this approach, we suggest an advanced synthesis of the quantum coherence non-perturbatively in the spin-boson coupling parameters of multiple bosonic baths to increase and multiplex it for upcoming proof-of-principle experiments.
翻訳日:2023-03-15 15:30:52 公開日:2023-03-14
# 新生児蘇生活動中の物体検出

Object Detection During Newborn Resuscitation Activities ( http://arxiv.org/abs/2303.07790v1 )

ライセンス: Link先を確認
{\O}yvind Meinich-Bache, Kjersti Engan, Ivar Austvoll, Trygve Eftest{\o}l, Helge Myklebust, Ladislaus Blacy Yarrot, Hussein Kidanto and Hege Ersdal(参考訳) 出生性アスフィキジアは低資源国では新生児の死亡率の大きな問題である。 国際ガイドラインは治療勧告を提供するが、異なる治療の重要性と効果は十分に調査されていない。 利用可能なデータは、新生児の蘇生中にタンザニアで収集され、新生児の蘇生活動と反応を分析する。 分析の重要なステップは、換気、吸引、刺激などを含むエピソードのアクティビティ・タイムラインを作成することである。 メソッド: 利用可能な録音は、大きなバリエーションを持つ実世界の騒々しいビデオである。 本研究では,重複する可能性のある活動を検出するための2段階のプロセスを提案する。 第1のステップは、バッグマスクの蘇生器や心拍センサーなどの関連物体を検出し追跡することであり、第2のステップは、この情報を使用して蘇生活動を認識することである。 本論文のトピックは第1ステップであり,オブジェクト検出と追跡は畳み込みニューラルネットワークを基盤とし,後処理を行う。 結果: 動作中の物体検出性能は, 96.97 % (換気), 100 % (心拍センサの付着・除去), 75 % (吸引) であった。 また、このシステムは71.16パーセントのパフォーマンスを持つ医療提供者数を推定している。 結論: 提案した物体検出・追跡システムは, 騒々しい新生児の蘇生ビデオに有望な結果をもたらす。 意味:これは新生児蘇生のエピソードを徹底的に分析する最初のステップであり、新生児蘇生活動の重要性と効果に関する重要な洞察を提供する。

Birth asphyxia is a major newborn mortality problem in low-resource countries. International guideline provides treatment recommendations; however, the importance and effect of the different treatments are not fully explored. The available data is collected in Tanzania, during newborn resuscitation, for analysis of the resuscitation activities and the response of the newborn. An important step in the analysis is to create activity timelines of the episodes, where activities include ventilation, suction, stimulation etc. Methods: The available recordings are noisy real-world videos with large variations. We propose a two-step process in order to detect activities possibly overlapping in time. The first step is to detect and track the relevant objects, like bag-mask resuscitator, heart rate sensors etc., and the second step is to use this information to recognize the resuscitation activities. The topic of this paper is the first step, and the object detection and tracking are based on convolutional neural networks followed by post processing. Results: The performance of the object detection during activities were 96.97 % (ventilations), 100 % (attaching/removing heart rate sensor) and 75 % (suction) on a test set of 20 videos. The system also estimate the number of health care providers present with a performance of 71.16 %. Conclusion: The proposed object detection and tracking system provides promising results in noisy newborn resuscitation videos. Significance: This is the first step in a thorough analysis of newborn resuscitation episodes, which could provide important insight about the importance and effect of different newborn resuscitation activities
翻訳日:2023-03-15 15:30:37 公開日:2023-03-14
# 新生児蘇生ビデオからの行動認識

Activity Recognition From Newborn Resuscitation Videos ( http://arxiv.org/abs/2303.07789v1 )

ライセンス: Link先を確認
{\O}yvind Meinich-Bache, Simon Lennart Austnes, Kjersti Engan, Ivar Austvoll, Trygve Eftest{\o}l, Helge Myklebust, Simeon Kusulla, Hussein Kidanto and Hege Ersdal(参考訳) 目的:出生性失調症は新生児死亡の主な原因の1つである。 生存の鍵は、即時かつ継続的な品質の新生児の蘇生である。 タンザニアのヘイドムで、ビデオを含む新生児蘇生中の記録された信号のデータセットが収集され、新生児の治療とその影響を分析することが目的である。 重要なステップは、蘇生エピソードの間、換気、刺激、吸引などの関連する蘇生活動の時系列を生成することである。 方法:我々は2段階深層ニューラルネットワークシステム,oraa-netを提案する。 第1ステップは畳み込みニューラルネットワーク(cnn)とポストプロセッシングを用いて関連物体を検出し追跡することであり,第2ステップはステップ1からアクティビティ領域を分析し,3d cnnを用いてアクティビティ認識を行うことである。 結果: 本システムは, 新生児, 刺激, 換気および吸引を平均精度77.67 %, 平均リコール率77,64 %, 平均精度92.40 %と認識した。 また,蘇生エピソードにおけるHCP(Health Care Providers)推定数の精度は68.32 %であった。 結論: 提案手法は低品質新生児蘇生ビデオにおける物体検出と活動認識に有効であることが示唆された。 意義: 異なる蘇生活動が新生児の予後に及ぼす影響を徹底的に分析することで, 新生児蘇生における治療ガイドライン, 訓練, 報告, 局所的品質改善を最適化できる可能性が示唆された。

Objective: Birth asphyxia is one of the leading causes of neonatal deaths. A key for survival is performing immediate and continuous quality newborn resuscitation. A dataset of recorded signals during newborn resuscitation, including videos, has been collected in Haydom, Tanzania, and the aim is to analyze the treatment and its effect on the newborn outcome. An important step is to generate timelines of relevant resuscitation activities, including ventilation, stimulation, suction, etc., during the resuscitation episodes. Methods: We propose a two-step deep neural network system, ORAA-net, utilizing low-quality video recordings of resuscitation episodes to do activity recognition during newborn resuscitation. The first step is to detect and track relevant objects using Convolutional Neural Networks (CNN) and post-processing, and the second step is to analyze the proposed activity regions from step 1 to do activity recognition using 3D CNNs. Results: The system recognized the activities newborn uncovered, stimulation, ventilation and suction with a mean precision of 77.67 %, a mean recall of 77,64 %, and a mean accuracy of 92.40 %. Moreover, the accuracy of the estimated number of Health Care Providers (HCPs) present during the resuscitation episodes was 68.32 %. Conclusion: The results indicate that the proposed CNN-based two-step ORAAnet could be used for object detection and activity recognition in noisy low-quality newborn resuscitation videos. Significance: A thorough analysis of the effect the different resuscitation activities have on the newborn outcome could potentially allow us to optimize treatment guidelines, training, debriefing, and local quality improvement in newborn resuscitation.
翻訳日:2023-03-15 15:30:15 公開日:2023-03-14
# GANN:半教師付き学習のためのグラフアライメントニューラルネットワーク

GANN: Graph Alignment Neural Network for Semi-Supervised Learning ( http://arxiv.org/abs/2303.07778v1 )

ライセンス: Link先を確認
Linxuan Song and Wenxuan Tu and Sihang Zhou and Xinwang Liu and En Zhu(参考訳) グラフニューラルネットワーク(GNN)は、半教師付きグラフ機械学習の分野で広く研究されている。 ラベル付きデータが制限されている場合、ほとんどのメソッドは適切なグラフ情報を利用することができず、過度なスムース化の問題につながる。 この問題を解決するために,グラフアライメントニューラルネットワーク(GANN, Graph Alignment Neural Network)を提案する。 3つのアライメントルールを持つユニークな学習アルゴリズムが提案され、不十分なラベルに対して隠れた情報を徹底的に探索する。 まず、属性特異性をよりよく調査するために、属性と埋め込み行列の両方の内部積を整列する特徴アライメントルールを提案する。 次に,高次隣接情報を適切に活用するために,クラスタ中心行列の内積を単位行列にアライメントするクラスタ中心アライメント規則を提案する。 最後に、ラベルの少ない信頼性予測結果を得るために、予測確率行列をそのシャープな結果で並べることにより、最小エントロピーアライメントルールを確立する。 グラフベンチマークデータセットに関する大規模な研究は、GANNが半教師付きノードの分類と最先端の競合においてかなりの利益を得られることを示した。

Graph neural networks (GNNs) have been widely investigated in the field of semi-supervised graph machine learning. Most methods fail to exploit adequate graph information when labeled data is limited, leading to the problem of oversmoothing. To overcome this issue, we propose the Graph Alignment Neural Network (GANN), a simple and effective graph neural architecture. A unique learning algorithm with three alignment rules is proposed to thoroughly explore hidden information for insufficient labels. Firstly, to better investigate attribute specifics, we suggest the feature alignment rule to align the inner product of both the attribute and embedding matrices. Secondly, to properly utilize the higher-order neighbor information, we propose the cluster center alignment rule, which involves aligning the inner product of the cluster center matrix with the unit matrix. Finally, to get reliable prediction results with few labels, we establish the minimum entropy alignment rule by lining up the prediction probability matrix with its sharpened result. Extensive studies on graph benchmark datasets demonstrate that GANN can achieve considerable benefits in semi-supervised node classification and outperform state-of-the-art competitors.
翻訳日:2023-03-15 15:29:46 公開日:2023-03-14
# データフリースケッチに基づく画像検索

Data-Free Sketch-Based Image Retrieval ( http://arxiv.org/abs/2303.07775v1 )

ライセンス: Link先を確認
Abhra Chaudhuri, Ayan Kumar Bhunia, Yi-Zhe Song, Anjan Dutta(参考訳) ディープラーニングモデルのプライバシーと匿名性に関する懸念が高まり、データフリーラーニング(DFL)の研究が促進された。 まず,Sketch-based Image Retrieval (SBIR) のようなデータ共有タスクにおいて,ペア写真と手書きスケッチの取得が困難である場合には,データ依存のクロスモーダル学習アルゴリズムが制限されるため,DFLはより実用的なパラダイムであることが証明できる。 そこで本研究では,既存のDFL問題と異なり,事前学習された単一モード分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習する必要があるデータ自由(DF)-SBIRを提案する。 事前訓練された分類モデルの普及と、SBIR用のペア写真スケッチデータセット取得の難しさは、この設定の実用性を正当化する。 本稿では,写真やスケッチの分類を個別に訓練したモデルからの知識を活用できるdf-sbirの方法論を提案する。 我々は,sketchy,tu-berlin,quickdrawベンチマークのモデルを評価し,最先端dfl文献に基づく各種ベースラインの設計を行い,提案手法がこれらすべてを大幅に超えることを確かめた。 また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。 実装は \url{https://github.com/abhrac/data-free-sbir} で利用可能である。

Rising concerns about privacy and anonymity preservation of deep learning models have facilitated research in data-free learning (DFL). For the first time, we identify that for data-scarce tasks like Sketch-Based Image Retrieval (SBIR), where the difficulty in acquiring paired photos and hand-drawn sketches limits data-dependent cross-modal learning algorithms, DFL can prove to be a much more practical paradigm. We thus propose Data-Free (DF)-SBIR, where, unlike existing DFL problems, pre-trained, single-modality classification models have to be leveraged to learn a cross-modal metric-space for retrieval without access to any training data. The widespread availability of pre-trained classification models, along with the difficulty in acquiring paired photo-sketch datasets for SBIR justify the practicality of this setting. We present a methodology for DF-SBIR, which can leverage knowledge from models independently trained to perform classification on photos and sketches. We evaluate our model on the Sketchy, TU-Berlin, and QuickDraw benchmarks, designing a variety of baselines based on state-of-the-art DFL literature, and observe that our method surpasses all of them by significant margins. Our method also achieves mAPs competitive with data-dependent approaches, all the while requiring no training data. Implementation is available at \url{https://github.com/abhrac/data-free-sbir}.
翻訳日:2023-03-15 15:29:28 公開日:2023-03-14
# 高次元データに対するテスト因果性

Testing Causality for High Dimensional Data ( http://arxiv.org/abs/2303.07774v1 )

ライセンス: Link先を確認
Arun Jambulapati and Hilaf Hasson and Youngsuk Park and Yuyang Wang(参考訳) 高次元観測における因果関係の決定は、科学的発見において最も重要な課題である。 本稿では,高次元の確率変数間の因果方向を推定するために,-\citep{janzing2009telling,zscheischler2011testing} で提案する手法である \emph{linear trace method} を再検討した。 我々は,ある分布的仮定の下で,より鋭い信頼境界を持つ非線形トレース汎関数への結果拡張に加えて,改良された末尾解析を提供することにより,既存の結果を大幅に強化する。 このような空間上のリプシッツ関数の濃度を適用可能なランダム直交行列上の関数として因果関係におけるトレース推定子を解釈し,結果を得た。 さらに,新たなリッジ正規化型を \cite{zscheischler2011testing} で提案し,リッジ推定項と接頭辞の関係を証明可能な境界を与える。 我々は,高次元低試料サイズ条件下での合成データセットの実験を奨励する理論結果を支持した。

Determining causal relationship between high dimensional observations are among the most important tasks in scientific discoveries. In this paper, we revisited the \emph{linear trace method}, a technique proposed in~\citep{janzing2009telling,zscheischler2011testing} to infer the causal direction between two random variables of high dimensions. We strengthen the existing results significantly by providing an improved tail analysis in addition to extending the results to nonlinear trace functionals with sharper confidence bounds under certain distributional assumptions. We obtain our results by interpreting the trace estimator in the causal regime as a function over random orthogonal matrices, where the concentration of Lipschitz functions over such space could be applied. We additionally propose a novel ridge-regularized variant of the estimator in \cite{zscheischler2011testing}, and give provable bounds relating the ridge-estimated terms to their ground-truth counterparts. We support our theoretical results with encouraging experiments on synthetic datasets, more prominently, under high-dimension low sample size regime.
翻訳日:2023-03-15 15:29:03 公開日:2023-03-14
# 点状シャプリー分解の公理的特性

Axiomatic characterization of pointwise Shapley decompositions ( http://arxiv.org/abs/2303.07773v1 )

ライセンス: Link先を確認
Marcus C Christiansen(参考訳) 様々な応用における一般的な問題は、入力変数に対する関数の出力の加法分解である。 二項引数を持つ関数は、有名なShapley値によって公理的に分解することができる。 実引数を持つ関数の分解に対して、一般的な方法は領域上のShapley値のポイントワイズ適用である。 しかし、この点的応用は関数全体の構造をほとんど無視する。 本稿では,関数構造を完全に保存し,ボレル可測関数のユニークな分解をもたらす公理を開発した。

A common problem in various applications is the additive decomposition of the output of a function with respect to its input variables. Functions with binary arguments can be axiomatically decomposed by the famous Shapley value. For the decomposition of functions with real arguments, a popular method is the pointwise application of the Shapley value on the domain. However, this pointwise application largely ignores the overall structure of functions. In this paper, axioms are developed which fully preserve functional structures and lead to unique decompositions for all Borel measurable functions.
翻訳日:2023-03-15 15:28:42 公開日:2023-03-14
# 白人至上主義プロパガンダのオンラインクロスオーバー

Online to Offline Crossover of White Supremacist Propaganda ( http://arxiv.org/abs/2303.07838v1 )

ライセンス: Link先を確認
Ahmad Diab, Bolor-Erdene Jagdagdorj, Lynnette Hui Xian Ng, Yu-Ru Lin and Michael Yoder(参考訳) 白人至上主義過激派は、多くの西側諸国において重要な国内テロの脅威である。 これらのグループはインターネットを利用して、オンラインプラットフォーム(ブログ、チャットルーム、フォーラム、ソーシャルメディア)を通じて彼らのイデオロギーを広める。 本研究では,オンラインおよびオフライン環境における白人至上主義プロパガンダの持続性と到達度について検討する。 また、オンラインからオフライン環境にまたがる物語のパターンも研究しています。 地理空間分析から,アメリカ合衆国ではオフラインプロパガンダが地理的に広く普及しており,北東部ではわずかに傾向が見られた。 最も遠くに広がり、最も長く続くプロパガンダは愛国的なフレーミングを持ち、短く、記憶力があり、反復可能である。 テキストの比較によって,オンラインプロパガンダは,オフラインフライヤーやバナー,落書きなどにおいて,同じプロパガンダの出現を典型的に導く。 この研究は、オンラインとオフラインの両方で永続的な白人至上主義の物語の特徴に光を当てることを願っている。

White supremacist extremist groups are a significant domestic terror threat in many Western nations. These groups harness the Internet to spread their ideology via online platforms: blogs, chat rooms, forums, and social media, which can inspire violence offline. In this work, we study the persistence and reach of white supremacist propaganda in both online and offline environments. We also study patterns in narratives that crossover from online to offline environments, or vice versa. From a geospatial analysis, we find that offline propaganda is geographically widespread in the United States, with a slight tendency toward Northeastern states. Propaganda that spreads the farthest and lasts the longest has a patriotic framing and is short, memorable, and repeatable. Through text comparison methods, we illustrate that online propaganda typically leads the appearance of the same propaganda in offline flyers, banners, and graffiti. We hope that this study sheds light on the characteristics of persistent white supremacist narratives both online and offline.
翻訳日:2023-03-15 15:23:00 公開日:2023-03-14
# X-ReCoSa:マルチスレッド対話生成のためのマルチスケールコンテキストアグリゲーション

X-ReCoSa: Multi-Scale Context Aggregation For Multi-Turn Dialogue Generation ( http://arxiv.org/abs/2303.07833v1 )

ライセンス: Link先を確認
Danqin Wu(参考訳) 多段対話生成では、応答は文脈の話題や背景だけでなく、文脈の文中の単語や句にも関連している。 しかし、現在広く使われている階層型ダイアログモデルは、単語レベルのエンコーダから出力される文表現を無視して、発話レベルのエンコーダからの文脈表現のみに依存している。 これは必然的に、デコードおよび生成中に情報の損失をもたらす。 本稿では,階層型ダイアログモデルのためのマルチスケールコンテキスト情報を集約する,新しいダイアログモデルX-ReCoSaを提案する。 具体的には、生成デコーダを上位と下部、すなわち意図部と生成部とに分割する。 まず、意図部は、文脈表現を入力として受け取り、応答の意図を生成する。 そして、生成部は、文表現に応じて単語を生成する。 そのため、階層情報は応答生成に融合されている。 英文データセットDailyDialogで実験を行った。 実験の結果, 自動計測と人的評価の両方において, 本手法がベースラインモデルを上回ることがわかった。

In multi-turn dialogue generation, responses are not only related to the topic and background of the context but also related to words and phrases in the sentences of the context. However, currently widely used hierarchical dialog models solely rely on context representations from the utterance-level encoder, ignoring the sentence representations output by the word-level encoder. This inevitably results in a loss of information while decoding and generating. In this paper, we propose a new dialog model X-ReCoSa to tackle this problem which aggregates multi-scale context information for hierarchical dialog models. Specifically, we divide the generation decoder into upper and lower parts, namely the intention part and the generation part. Firstly, the intention part takes context representations as input to generate the intention of the response. Then the generation part generates words depending on sentence representations. Therefore, the hierarchical information has been fused into response generation. we conduct experiments on the English dataset DailyDialog. Experimental results exhibit that our method outperforms baseline models on both automatic metric-based and human-based evaluations.
翻訳日:2023-03-15 15:22:42 公開日:2023-03-14
# 野生における表情認識のための四元直交変換器

Quaternion Orthogonal Transformer for Facial Expression Recognition in the Wild ( http://arxiv.org/abs/2303.07831v1 )

ライセンス: Link先を確認
Yu Zhou, Liyuan Guo, Lianghai Jin(参考訳) 表情認識(FER)は人工知能における課題である。 近年、多くの研究者がFERタスクにViT(Vision Transformer)を導入しようと試みている。 しかし、ViTは生画像から抽出した感情的特徴を完全に活用できず、多くのコンピューティングリソースを必要とする。 これらの問題を克服するために, fer の四元直交変圧器 (qot) を提案する。 まず,事前訓練したResNet-50から抽出した特徴の冗長性を低減するために,これらの特徴を3組の直交サブ機能に分解・コンパクト化する。 次に、3つの直交部分特徴を四元数行列に統合し、異なる直交成分間の相関を維持する。 最後に,特徴分類のための四元視覚変換器(Q-ViT)を開発した。 Q-ViTは、ViTの元々の操作の代わりに四元演算を採用し、パラメータが少なく最終的な精度を改善する。 3つの組込みFERデータセットの実験結果から、提案したQOTはいくつかの最先端モデルを上回る性能を示し、計算量を削減している。

Facial expression recognition (FER) is a challenging topic in artificial intelligence. Recently, many researchers have attempted to introduce Vision Transformer (ViT) to the FER task. However, ViT cannot fully utilize emotional features extracted from raw images and requires a lot of computing resources. To overcome these problems, we propose a quaternion orthogonal transformer (QOT) for FER. Firstly, to reduce redundancy among features extracted from pre-trained ResNet-50, we use the orthogonal loss to decompose and compact these features into three sets of orthogonal sub-features. Secondly, three orthogonal sub-features are integrated into a quaternion matrix, which maintains the correlations between different orthogonal components. Finally, we develop a quaternion vision transformer (Q-ViT) for feature classification. The Q-ViT adopts quaternion operations instead of the original operations in ViT, which improves the final accuracies with fewer parameters. Experimental results on three in-the-wild FER datasets show that the proposed QOT outperforms several state-of-the-art models and reduces the computations.
翻訳日:2023-03-15 15:22:25 公開日:2023-03-14
# 皮質-スパイク-トレイン-デコード・スパイキングニューラルネットワークの神経計算予測における創発的バイオファンクション類似性

Emergent Bio-Functional Similarities in a Cortical-Spike-Train-Decoding Spiking Neural Network Facilitate Predictions of Neural Computation ( http://arxiv.org/abs/2303.07830v1 )

ライセンス: Link先を確認
Tengjun Liu, Yansong Chua, Yiwei Zhang, Yuxiao Ning, Pengfu Liu, Guihua Wan, Zijun Wan, Shaomin Zhang, Weidong Chen(参考訳) バイオプルーサビリティが向上したにもかかわらず、目標駆動スパイクニューラルネットワーク(snn)は生物学的スパイクトレインの分類に応用可能な性能を得られておらず、従来の人工ニューラルネットワークと比較して生物機能的な類似性はほとんど示されていない。 本研究では,霊長類の神経モーター回路にインスパイアされたSNNトポロジカルリカレントSNNモータSRNNを提案する。 サルの一次運動野からのスパイク列車の復号にモーターSRNNを用い,分類精度とエネルギー消費のバランスが良好であった。 motorsrnnは、運動野のニューロンの必須特性であるより多くのコサインチューニングを捕捉して培養することで入力と通信し、トレーニング中にその安定性を維持した。 サルでは,コサインチューニングの訓練による栽培と持続性も観察された。 さらに、モーターSRNNは、単一ニューロン、集団、回路レベルで追加の生体機能的類似性を生み出し、生物学的信頼性を示した。 これにより, 運動野における長期安定フィードバックシナプスがトレーニング誘発培養に寄与することが示唆された。 これらの新たな発見と予測に加えて,神経計算の真のモデルを構築するための新しいフレームワークを提供する。

Despite its better bio-plausibility, goal-driven spiking neural network (SNN) has not achieved applicable performance for classifying biological spike trains, and showed little bio-functional similarities compared to traditional artificial neural networks. In this study, we proposed the motorSRNN, a recurrent SNN topologically inspired by the neural motor circuit of primates. By employing the motorSRNN in decoding spike trains from the primary motor cortex of monkeys, we achieved a good balance between classification accuracy and energy consumption. The motorSRNN communicated with the input by capturing and cultivating more cosine-tuning, an essential property of neurons in the motor cortex, and maintained its stability during training. Such training-induced cultivation and persistency of cosine-tuning was also observed in our monkeys. Moreover, the motorSRNN produced additional bio-functional similarities at the single-neuron, population, and circuit levels, demonstrating biological authenticity. Thereby, ablation studies on motorSRNN have suggested long-term stable feedback synapses contribute to the training-induced cultivation in the motor cortex. Besides these novel findings and predictions, we offer a new framework for building authentic models of neural computation.
翻訳日:2023-03-15 15:22:08 公開日:2023-03-14
# シーケンスベースコード表現モデルへのグローバルおよびローカル階層情報の埋め込み

Implant Global and Local Hierarchy Information to Sequence based Code Representation Models ( http://arxiv.org/abs/2303.07826v1 )

ライセンス: Link先を確認
Kechi Zhang, Zhuo Li, Zhi Jin, Ge Li(参考訳) ディープラーニング技術を用いたソースコード表現は重要な研究分野である。 コード表現のための逐次的または構造的な情報を学ぶ多くの研究がある。 しかし、シーケンスベースモデルと非シーケンスモデルの両方に制限がある。 研究者たちは、シーケンスベースのモデルに構造情報を組み込もうとするが、トークンレベルの階層構造情報の一部だけをマイニングする。 本稿では,完全な階層構造がコードシーケンスのトークンに与える影響を分析し,その影響を階層埋め込みと呼ばれるコードトークンの特性として抽象化する。 階層埋め込みはさらにステートメントレベルのグローバル階層とトークンレベルのローカル階層に分けられる。 さらに、ソースコードの完全な階層的埋め込みをトランスフォーマーモデルに組み込むための、単純だが効果的なシーケンスモデルである階層変換器(HiT)を提案する。 可変スコープ検出タスクの実験により,学習コード構造における階層埋め込みの有効性を実証する。 さらなる評価により、HiTはSOTAベースラインモデルより優れ、8つのデータセットにわたる分類および生成タスクを含む3つのソースコード関連タスクに対して安定したトレーニング効率を示す。

Source code representation with deep learning techniques is an important research field. There have been many studies that learn sequential or structural information for code representation. But sequence-based models and non-sequence-models both have their limitations. Researchers attempt to incorporate structural information to sequence-based models, but they only mine part of token-level hierarchical structure information. In this paper, we analyze how the complete hierarchical structure influences the tokens in code sequences and abstract this influence as a property of code tokens called hierarchical embedding. The hierarchical embedding is further divided into statement-level global hierarchy and token-level local hierarchy. Furthermore, we propose the Hierarchy Transformer (HiT), a simple but effective sequence model to incorporate the complete hierarchical embeddings of source code into a Transformer model. We demonstrate the effectiveness of hierarchical embedding on learning code structure with an experiment on variable scope detection task. Further evaluation shows that HiT outperforms SOTA baseline models and show stable training efficiency on three source code-related tasks involving classification and generation tasks across 8 different datasets.
翻訳日:2023-03-15 15:21:48 公開日:2023-03-14
# 回転物体検出のための適応回転畳み込み

Adaptive Rotated Convolution for Rotated Object Detection ( http://arxiv.org/abs/2303.07820v1 )

ライセンス: Link先を確認
Yifan Pu, Yiru Wang, Zhuofan Xia, Yizeng Han, Yulin Wang, Weihao Gan, Zidong Wang, Shiji Song and Gao Huang(参考訳) 回転物体検出は、任意の向きで画像内の物体を識別・発見することを目的としている。 このシナリオでは、オブジェクトの向きの方向は異なる画像間で大きく異なり、オブジェクトの複数の方向は画像内に存在している。 この本質的な特徴は、標準バックボーンネットワークがこれらの任意の向きのオブジェクトの高品質な特徴を抽出することを困難にしている。 本稿では,上述の課題に対処するために,適応回転畳み込み(arc)モジュールを提案する。 ARCモジュールでは、コンボリューションカーネルが適応的に回転して、異なる画像の向きの異なる物体の特徴を抽出し、画像内の物体の大きな向き変化に対応するための効率的な条件計算機構を導入する。 2つの設計は回転物体検出問題においてシームレスに動作する。 さらに、ARCは様々な視覚バックボーンのプラグアンドプレイモジュールとして便利に機能し、オブジェクト指向オブジェクトを正確に検出する表現能力を高めることができる。 一般的なベンチマーク(DOTAとHRSC2016)の実験では、バックボーンネットワークに提案したARCモジュールを組み込むことで、複数の一般的なオブジェクト指向オブジェクト検出器の性能が大幅に向上した(例えば、回転RetinaNetでは+3.03% mAP、CFAでは+4.16%)。 高度に競争力のある方法であるOriented R-CNNと組み合わせて、提案手法は81.77%のmAPでDOTAデータセットの最先端のパフォーマンスを実現する。

Rotated object detection aims to identify and locate objects in images with arbitrary orientation. In this scenario, the oriented directions of objects vary considerably across different images, while multiple orientations of objects exist within an image. This intrinsic characteristic makes it challenging for standard backbone networks to extract high-quality features of these arbitrarily orientated objects. In this paper, we present Adaptive Rotated Convolution (ARC) module to handle the aforementioned challenges. In our ARC module, the convolution kernels rotate adaptively to extract object features with varying orientations in different images, and an efficient conditional computation mechanism is introduced to accommodate the large orientation variations of objects within an image. The two designs work seamlessly in rotated object detection problem. Moreover, ARC can conveniently serve as a plug-and-play module in various vision backbones to boost their representation ability to detect oriented objects accurately. Experiments on commonly used benchmarks (DOTA and HRSC2016) demonstrate that equipped with our proposed ARC module in the backbone network, the performance of multiple popular oriented object detectors is significantly improved (e.g. +3.03% mAP on Rotated RetinaNet and +4.16% on CFA). Combined with the highly competitive method Oriented R-CNN, the proposed approach achieves state-of-the-art performance on the DOTA dataset with 81.77% mAP.
翻訳日:2023-03-15 15:21:33 公開日:2023-03-14
# MobileVOS: リアルタイムビデオオブジェクトセグメンテーションコントラスト学習が知識蒸留に適合

MobileVOS: Real-Time Video Object Segmentation Contrastive Learning meets Knowledge Distillation ( http://arxiv.org/abs/2303.07815v1 )

ライセンス: Link先を確認
Roy Miles, Mehmet Kerim Yucel, Bruno Manganelli, Albert Saa-Garriga(参考訳) 本稿では,携帯電話などの資源制約のあるデバイスにおける半教師付きビデオオブジェクトセグメンテーションの問題に取り組む。 我々は,この問題を蒸留作業として定式化し,有限メモリの空間記憶ネットワークが,Samsung Galaxy S22上での計算コスト(32ミリ秒)のごく一部で,技術状況と競合する結果が得られることを示した。 具体的には,教師付きコントラスト表現学習で知識蒸留を統一する理論的根拠付き枠組みを提案する。 これらのモデルは、事前訓練された教師からの画素単位のコントラスト学習と蒸留の両方の恩恵を受けることができる。 最大で5倍速く、パラメータが32倍も少ないのに、標準的なDAVISとYouTubeのベンチマークの両方で、競争力のあるJ&Fを達成することで、この損失を検証する。

This paper tackles the problem of semi-supervised video object segmentation on resource-constrained devices, such as mobile phones. We formulate this problem as a distillation task, whereby we demonstrate that small space-time-memory networks with finite memory can achieve competitive results with state of the art, but at a fraction of the computational cost (32 milliseconds per frame on a Samsung Galaxy S22). Specifically, we provide a theoretically grounded framework that unifies knowledge distillation with supervised contrastive representation learning. These models are able to jointly benefit from both pixel-wise contrastive learning and distillation from a pre-trained teacher. We validate this loss by achieving competitive J&F to state of the art on both the standard DAVIS and YouTube benchmarks, despite running up to 5x faster, and with 32x fewer parameters.
翻訳日:2023-03-15 15:21:08 公開日:2023-03-14
# キネマティックデータに基づく手術用アクションセグメンテーション

Kinematic Data-Based Action Segmentation for Surgical Applications ( http://arxiv.org/abs/2303.07814v1 )

ライセンス: Link先を確認
Adam Goldbraikh, Omer Shubi, Or Rubin, Carla M Pugh, Shlomi Laufer(参考訳) アクションセグメンテーション(Action segmentation)は、様々なセンサーから得られるビデオやキネマティックデータで通常実行される、ハイレベルなプロセス分析において難しいタスクである。 手術手順の文脈では、ワークフロー分析アルゴリズムではアクションセグメンテーションが重要である。 本研究は,運動データに対するアクションセグメンテーションに関する2つの貢献を示す。 まず,2つのマルチステージアーキテクチャ,MS-TCN-BiLSTMとMS-TCN-BiGRUを紹介する。 アーキテクチャは、ステージ内正規化を備えた予測生成器と、双方向LSTMまたはGRUベースの洗練段階で構成される。 第2に,キネマティックデータの強い幾何学的構造を利用してアルゴリズムの性能とロバスト性を向上させる,世界フレーム回転と水平フリップという2つの新しいデータ拡張手法を提案する。 本研究は,我々が収集したオープン手術シミュレーションデータセットである可変組織シミュレーション(vts)データセットと新たに導入した腸修復シミュレーション(brs)データセットと,ロボット手術における有名なベンチマークであるjigsaws(jhu-isi gesture and skill assessment working set)の3つの手術縫合課題について評価した。 提案手法は,すべてのベンチマークデータセットに対して最先端のパフォーマンスを達成し,BRSデータセットの強力なベースラインを確立する。

Action segmentation is a challenging task in high-level process analysis, typically performed on video or kinematic data obtained from various sensors. In the context of surgical procedures, action segmentation is critical for workflow analysis algorithms. This work presents two contributions related to action segmentation on kinematic data. Firstly, we introduce two multi-stage architectures, MS-TCN-BiLSTM and MS-TCN-BiGRU, specifically designed for kinematic data. The architectures consist of a prediction generator with intra-stage regularization and Bidirectional LSTM or GRU-based refinement stages. Secondly, we propose two new data augmentation techniques, World Frame Rotation and Horizontal-Flip, which utilize the strong geometric structure of kinematic data to improve algorithm performance and robustness. We evaluate our models on three datasets of surgical suturing tasks: the Variable Tissue Simulation (VTS) Dataset and the newly introduced Bowel Repair Simulation (BRS) Dataset, both of which are open surgery simulation datasets collected by us, as well as the JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS), a well-known benchmark in robotic surgery. Our methods achieve state-of-the-art performance on all benchmark datasets and establish a strong baseline for the BRS dataset.
翻訳日:2023-03-15 15:20:53 公開日:2023-03-14
# ICICLE:解釈可能なクラスインクリメンタル学習

ICICLE: Interpretable Class Incremental Continual Learning ( http://arxiv.org/abs/2303.07811v1 )

ライセンス: Link先を確認
Dawid Rymarczyk, Joost van de Weijer, Bartosz Zieli\'nski, Bart{\l}omiej Twardowski(参考訳) 継続的な学習は、前回の学習を忘れずに新しいタスクを漸進的に学習することを可能にし、結果として、新しいタスクと古いタスクの両方のパフォーマンスを向上させるポジティブな知識伝達をもたらす。 しかし、連続学習は、モデル予測の背後にある理論的根拠が時間とともに変化し、解釈可能性の概念の漂流につながるため、解釈可能性に新たな課題をもたらす。 そこで本研究では, 解釈型クラス-InCremental LEarning (ICICLE) を提案する。 ユーザフレンドリーな肯定的推論を維持しながら学習した概念を蒸留する解釈可能性の正則化、きめ細かい設定に特化した近接型プロトタイプ初期化戦略、原型部品に特化したタスク関連バイアス補償である。 実験の結果,ICICLEは解釈可能性の概念のドリフトを低減し,概念ベースモデルに適用した場合,従来のクラス増分学習法よりも優れた性能を発揮することがわかった。 コードを利用可能にします。

Continual learning enables incremental learning of new tasks without forgetting those previously learned, resulting in positive knowledge transfer that can enhance performance on both new and old tasks. However, continual learning poses new challenges for interpretability, as the rationale behind model predictions may change over time, leading to interpretability concept drift. We address this problem by proposing Interpretable Class-InCremental LEarning (ICICLE), an exemplar-free approach that adopts a prototypical part-based approach. It consists of three crucial novelties: interpretability regularization that distills previously learned concepts while preserving user-friendly positive reasoning; proximity-based prototype initialization strategy dedicated to the fine-grained setting; and task-recency bias compensation devoted to prototypical parts. Our experimental results demonstrate that ICICLE reduces the interpretability concept drift and outperforms the existing exemplar-free methods of common class-incremental learning when applied to concept-based models. We make the code available.
翻訳日:2023-03-15 15:20:28 公開日:2023-03-14
# ロボットの把持と操作:展望

Robot Grasping and Manipulation: A Prospective ( http://arxiv.org/abs/2303.07807v1 )

ライセンス: Link先を確認
Claudio Zito(参考訳) 「簡単な握手なら手を放すだろう。」 アンソニー・ホプキンスの架空の人物であるロバート・フォード博士は、2016年のsf小説『ウェストワールド』のホストの欠陥を要約している。 ストーリーラインでは、Westworldは未来的なテーマパークであり、ホストはまだ完成していない手を除いて、人間のゲストと区別できないよう、自律的なロボットが設計されている。 別の古典的なsf小説では、科学者が未来的な手をリバースエンジニアリングすることで、完全な人工知能であるスカイネットの秘密を解き放ちます。 両手をデザインし、堅牢で信頼性の高い操作アクションを再現することは、ロボット工学における最大の課題の1つだ。 この問題を解決することで、新たな自律性の時代が生まれます。 1世紀前、第三次産業革命はロボットを組立ラインに持ち込み、我々の働き方を変えました。 人工知能(AI)アシスタントを導入し、私たちの仕事や日常生活における生活の質を高めることで、世界規模のパンデミックと戦っても、次の革命はすでに始まっている。

``A simple handshake would give them away''. This is how Anthony Hopkins' fictional character, Dr Robert Ford, summarises a particular flaw of the 2016 science-fiction \emph{Westworld}'s hosts. In the storyline, Westworld is a futuristic theme park and the hosts are autonomous robots engineered to be indistinguishable from the human guests, except for their hands that have not been perfected yet. In another classic science-fiction saga, scientists unlock the secrets of full synthetic intelligence, Skynet, by reverse engineering a futuristic hand. In both storylines, reality inspires fiction on one crucial point: designing hands and reproducing robust and reliable manipulation actions is one of the biggest challenges in robotics. Solving this problem would lead us to a new, improved era of autonomy. A century ago, the third industrial revolution brought robots into the assembly lines, changing our way of working forever. The next revolution has already started by bringing us artificial intelligence (AI) assistants, enhancing our quality of life in our jobs and everyday lives--even combating worldwide pandemics.
翻訳日:2023-03-15 15:20:08 公開日:2023-03-14
# youtube と bitchute における共同チャンネル制作の検討

Examining the Production of Co-active Channels on YouTube and BitChute ( http://arxiv.org/abs/2303.07861v1 )

ライセンス: Link先を確認
Matthew C. Childs and Benjamin D. Horne(参考訳) コンテンツモデレーションの研究者の間で懸念されているのは、コンテンツプロデューサの禁止などのハードモデレーションの措置が、ユーザーをより極端な情報環境へと押し上げることだ。 この分野の研究はまだ新しいものだが、この懸念から片道移動(主流からアルトテック)に重点を置いている。 しかし、Alt-techのソーシャルメディアプラットフォーム上のコンテンツ制作者は、必ずしもメインストリームのプラットフォームからユーザーを追放するわけではない。 われわれは、YouTubeとBitChuteの2つのプラットフォームでコアクティビティについて検討している。 具体的には,27のコアクティブチャネル間における映像制作の差異について述べる。 殆どのチャンネルは、BitChute上のビデオタイトルで、YouTube上のビデオタイトルよりもはるかに道徳的で政治的な言葉を使っている。 しかし、このシフトの理由はチャネルによって異なるようだ。 いくつかのケースでは、チャンネルはプラットフォーム全体で異なるトピックのセットでビデオを生成しており、多くの場合、BitChuteでコンテンツを生成している。 まれに、プラットフォーム全体で同じビデオのタイトルが変わることもあります。 全体として、当社のサンプルにはコアクティブチャネル間の一貫した傾向はなく、アルトテックソーシャルメディアプラットフォームでの制作が1つの物語に合っていないことを示唆している。

A concern among content moderation researchers is that hard moderation measures, such as banning content producers, will push users to more extreme information environments. Research in this area is still new, but predominately focuses on one-way migration (from mainstream to alt-tech) due to this concern. However, content producers on alt-tech social media platforms are not always banned users from mainstream platforms, instead they may be co-active across platforms. We explore co-activity on two such platforms: YouTube and BitChute. Specifically, we describe differences in video production across 27 co-active channels. We find that the majority of channels use significantly more moral and political words in their video titles on BitChute than in their video titles on YouTube. However, the reasoning for this shift seems to be different across channels. In some cases, we find that channels produce videos on different sets of topics across the platforms, often producing content on BitChute that would likely be moderated on YouTube. In rare cases, we find video titles of the same video change across the platforms. Overall, there is not a consistent trend across co-active channels in our sample, suggesting that the production on alt-tech social media platforms does not fit a single narrative.
翻訳日:2023-03-15 15:13:36 公開日:2023-03-14
# バウンダリーCAM:医療画像の弱教師付きセマンティックセグメンテーションのための境界ベースリファインメントフレームワーク

BoundaryCAM: A Boundary-based Refinement Framework for Weakly Supervised Semantic Segmentation of Medical Images ( http://arxiv.org/abs/2303.07853v1 )

ライセンス: Link先を確認
Bharath Srinivas Prabakaran and Erik Ostrowski and Muhammad Shafique(参考訳) 画像レベルの監視のみを含む弱い教師付きセマンティックセグメンテーション(wsss)は、セグメンテーションネットワークの必要性に対処するための有望なアプローチである。 しかし、ほとんどの最先端の画像レベルWSSS技術は、ネットワークが単に画像レベルラベルからオブジェクト境界情報を導き出すことができないため、画像に埋め込まれた幾何学的特徴の理解を欠いている。 ここで境界を、オブジェクトとその背景を分離する線、または2つの異なるオブジェクトとして定義する。 この欠点に対処するため,我々は,精密な高精度セグメンテーションマスクを実現するために,最先端のクラスアクティベーションマップと各種ポストプロセッシング手法を併用したBoundaryCAMフレームワークを提案する。 そこで本研究では,境界マップの構築に使用可能な,最先端の教師なしセマンティクスセグメンテーションネットワークについて検討する。 本手法をWSSS予測に適用することにより,最新の医用画像診断技術であるWSSS法の利点を生かして,最大10%の改善が達成できた。 このフレームワークは、https://github.com/bharathprabakaran/BoundaryCAMで公開されている。

Weakly Supervised Semantic Segmentation (WSSS) with only image-level supervision is a promising approach to deal with the need for Segmentation networks, especially for generating a large number of pixel-wise masks in a given dataset. However, most state-of-the-art image-level WSSS techniques lack an understanding of the geometric features embedded in the images since the network cannot derive any object boundary information from just image-level labels. We define a boundary here as the line separating an object and its background, or two different objects. To address this drawback, we propose our novel BoundaryCAM framework, which deploys state-of-the-art class activation maps combined with various post-processing techniques in order to achieve fine-grained higher-accuracy segmentation masks. To achieve this, we investigate a state-of-the-art unsupervised semantic segmentation network that can be used to construct a boundary map, which enables BoundaryCAM to predict object locations with sharper boundaries. By applying our method to WSSS predictions, we were able to achieve up to 10% improvements even to the benefit of the current state-of-the-art WSSS methods for medical imaging. The framework is open-source and accessible online at https://github.com/bharathprabakaran/BoundaryCAM.
翻訳日:2023-03-15 15:13:17 公開日:2023-03-14
# FPUS23:胎児の向き、胎児の平面、解剖学的特徴をニューラルネットワークで評価した超音波胎児ファントムデータセット

FPUS23: An Ultrasound Fetus Phantom Dataset with Deep Neural Network Evaluations for Fetus Orientations, Fetal Planes, and Anatomical Features ( http://arxiv.org/abs/2303.07852v1 )

ライセンス: Link先を確認
Bharath Srinivas Prabakaran and Paul Hamelmann and Erik Ostrowski and Muhammad Shafique(参考訳) 超音波イメージングは、妊娠中の胎児の成長、進行、および全体の健康を評価する最も顕著な技術の1つである。 しかし、これらの研究から得られたデータの解釈は、そのような画像の分析に精通した専門医や技術者に最適である。 そこで本研究では,(1)胎児の生体計測値推定のための正しい診断面,(2)胎児の向き,(3)解剖学的特徴,(4)胎児の胎盤解剖学的境界ボックスを,23週の胎盤で識別できる新しい胎児用ファントム超音波データセット,fpus23を提案する。 データセット全体は15,728イメージで構成されており、前述の胎児の特徴とユースケースを検出するために、ResNet34バックボーン上に構築された4つの異なるディープニューラルネットワークモデルをトレーニングするために使用される。 また、FPUS23データセットを用いてトレーニングしたモデルを評価し、これらのモデルによって得られた情報を実世界の超音波胎児データセットの精度を大幅に向上させることができることを示した。 FPUS23データセットと事前訓練されたモデルをhttps://github.com/bharathprabakaran/FPUS23で公開し、胎児超音波画像と分析のさらなる研究を促進する。

Ultrasound imaging is one of the most prominent technologies to evaluate the growth, progression, and overall health of a fetus during its gestation. However, the interpretation of the data obtained from such studies is best left to expert physicians and technicians who are trained and well-versed in analyzing such images. To improve the clinical workflow and potentially develop an at-home ultrasound-based fetal monitoring platform, we present a novel fetus phantom ultrasound dataset, FPUS23, which can be used to identify (1) the correct diagnostic planes for estimating fetal biometric values, (2) fetus orientation, (3) their anatomical features, and (4) bounding boxes of the fetus phantom anatomies at 23 weeks gestation. The entire dataset is composed of 15,728 images, which are used to train four different Deep Neural Network models, built upon a ResNet34 backbone, for detecting aforementioned fetus features and use-cases. We have also evaluated the models trained using our FPUS23 dataset, to show that the information learned by these models can be used to substantially increase the accuracy on real-world ultrasound fetus datasets. We make the FPUS23 dataset and the pre-trained models publicly accessible at https://github.com/bharathprabakaran/FPUS23, which will further facilitate future research on fetal ultrasound imaging and analysis.
翻訳日:2023-03-15 15:12:49 公開日:2023-03-14
# 映像予測のための暗黙的積み重ね自己回帰モデル

Implicit Stacked Autoregressive Model for Video Prediction ( http://arxiv.org/abs/2303.07849v1 )

ライセンス: Link先を確認
Minseok Seo, Hakjin Lee, Doyi Kim, Junghoon Seo(参考訳) 将来のフレーム予測は、自己回帰と非自己回帰の2つの主要な方法によってアプローチされてきた。 自己回帰的手法はマルコフの仮定に依拠しており、誤差が蓄積されていない場合の予測の初期段階において高い精度を達成することができる。 しかし、時間ステップの数が増えるにつれてパフォーマンスは低下する傾向にある。 対照的に、非自己回帰法は比較的高い性能を達成できるが、各時間ステップの予測には相関がない。 本稿では,自己回帰的手法を適用した暗黙的ビデオ予測モデルである,ビデオ予測のための暗黙的スタック化自己回帰モデル(iam4vp)を提案する。 非自己回帰法と同様に、積み重ねられた自己回帰法は観測された全ての将来のフレームを推定するために同じフレームを使用する。 しかし、彼らは自己回帰法と同様に、独自の予測を入力として使用する。 時間ステップの数が増えるにつれて、予測はキューに順次積み上げられる。 iam4vpの有効性を評価するために,3つの共通フレーム予測ベンチマークデータセットとweather\&climate prediction benchmarkデータセットについて実験を行った。 この結果から,提案モデルが最先端性能を実現することを示す。

Future frame prediction has been approached through two primary methods: autoregressive and non-autoregressive. Autoregressive methods rely on the Markov assumption and can achieve high accuracy in the early stages of prediction when errors are not yet accumulated. However, their performance tends to decline as the number of time steps increases. In contrast, non-autoregressive methods can achieve relatively high performance but lack correlation between predictions for each time step. In this paper, we propose an Implicit Stacked Autoregressive Model for Video Prediction (IAM4VP), which is an implicit video prediction model that applies a stacked autoregressive method. Like non-autoregressive methods, stacked autoregressive methods use the same observed frame to estimate all future frames. However, they use their own predictions as input, similar to autoregressive methods. As the number of time steps increases, predictions are sequentially stacked in the queue. To evaluate the effectiveness of IAM4VP, we conducted experiments on three common future frame prediction benchmark datasets and weather\&climate prediction benchmark datasets. The results demonstrate that our proposed model achieves state-of-the-art performance.
翻訳日:2023-03-15 15:12:22 公開日:2023-03-14
# 計測及び絡み合い相転移のための再正規化群

Renormalization group for measurement and entanglement phase transitions ( http://arxiv.org/abs/2303.07848v1 )

ライセンス: Link先を確認
Adam Nahum and Kay Joerg Wiese(参考訳) 2つの有効ラグランジアンの正規化群 (RG) の流れを解析し、1つは監視された量子系の遷移を計測し、もう1つはランダムなテンソルネットワークにおける絡み合い遷移を計測する。 これらのラグランジアンは、以前に複製対称性の前提として提案され、テンソルネットワークのイラストレーター系に対して制御された状態に導かれる。 2つのケースで異なる形態を持ち、異なる複製制限を含む。 摂動 rg は臨界次元に近く、測定には${d_c=6}$、ランダムテンソルでは${d_c=10}$、相互作用は限界となる。 結果として生じるRGフローは、いくつかの点で驚くべきものである。 それらは、高次元の $d>d_c$ において、各種類の遷移に対して少なくとも2つの(安定な)普遍性類が存在し、非自明な三臨界点によって分離されることを示している。 いずれの場合も、2つの安定な固定点のうちの1つはガウスであり、もう1つは非摂動的である。 より低次元の$d<d_c$では、流れは常に非摂動状態に流れる。 この図は、全ての量子回路の位相図を含むこれらの問題の「平均場理論」を明確にしている。 これは、木テンソルネットワークの正確な結果と場理論とを調和させる方法を提案する。 最も驚くべきことに、ランダムテンソルネットワークの摂動理論(これは「強制的」測定による測定遷移のバージョンにも適用される)は、ランダム場イジングモデルに類似した次元還元特性を正式に持っている。 主相互作用のみが保持されるとき、$d$次元の摂動計算は${d-4}$次元の単純なスカラー場理論のそれに還元される。 これは超空間の定式化で作用を記述することで全ての順序に当てはまることを示す。

We analyze the renormalization-group (RG) flows of two effective Lagrangians, one for measurement induced transitions of monitored quantum systems and one for entanglement transitions in random tensor networks. These Lagrangians, previously proposed on grounds of replica symmetry, are derived in a controlled regime for an illustrative family of tensor networks. They have different forms in the two cases, and involve distinct replica limits. The perturbative RG is controlled by working close to a critical dimensionality, ${d_c=6}$ for measurements and ${d_c=10}$ for random tensors, where interactions become marginal. The resulting RG flows are surprising in several ways. They indicate that in high dimensions $d>d_c$ there are at least two (stable) universality classes for each kind of transition, separated by a nontrivial tricritical point. In each case one of the two stable fixed points is Gaussian, while the other is nonperturbative. In lower dimensions, $d<d_c$, the flow always runs to the nonperturbative regime. This picture clarifies the "mean-field theory" of these problems, including the phase diagram of all-to-all quantum circuits. It suggests a way of reconciling exact results on tree tensor networks with field theory. Most surprisingly, the perturbation theory for the random tensor network (which also applies to a version of the measurement transition with "forced" measurements) formally possesses a dimensional reduction property analogous to that of the random-field Ising model. When only the leading interactions are retained, perturbative calculations in $d$ dimensions reduce to those in a simple scalar field theory in ${d-4}$ dimensions. We show that this holds to all orders by writing the action in a superspace formulation.
翻訳日:2023-03-15 15:12:07 公開日:2023-03-14
# actigraphyを用いたうつ病検出のためのスクリーニングツールのリアルタイム展開のための転送学習

Transfer Learning for Real-time Deployment of a Screening Tool for Depression Detection Using Actigraphy ( http://arxiv.org/abs/2303.07847v1 )

ライセンス: Link先を確認
Rajanikant Ghate, Nayan Kalnad, Rahee Walambe, Ketan Kotecha(参考訳) 自動うつ病スクリーニングと診断は、今日非常に重要な問題である。 従来のうつ病検出法にはいくつかの制限があり、すなわち、臨床医への高い依存度と偏りのある自己報告がある。 近年,ウェアラブルデバイスを介して収集されたユーザの受動的データを利用する機械学習(ML)ベースの手法に強い可能性を示唆している。 しかし、MLはデータ不足です。 特に医療分野におけるプライマリデータ収集は困難である。 本研究では,利用者のアクチグラフィーデータに基づいて,うつ病スクリーニングツールをリアルタイムに展開するために,二次データセットに基づいて訓練されたモデルからトランスファーラーニングに基づくアプローチを提案する。 このアプローチは、限られた一次データサンプルであっても、機械学習のモデリングを可能にする。 プライマリセットで行ったrefing one out cross validationアプローチの修正版では、平均精度が0.96となり、各イテレーションでプライマリセットから1人の被験者のデータをテスト用に設定した。

Automated depression screening and diagnosis is a highly relevant problem today. There are a number of limitations of the traditional depression detection methods, namely, high dependence on clinicians and biased self-reporting. In recent years, research has suggested strong potential in machine learning (ML) based methods that make use of the user's passive data collected via wearable devices. However, ML is data hungry. Especially in the healthcare domain primary data collection is challenging. In this work, we present an approach based on transfer learning, from a model trained on a secondary dataset, for the real time deployment of the depression screening tool based on the actigraphy data of users. This approach enables machine learning modelling even with limited primary data samples. A modified version of leave one out cross validation approach performed on the primary set resulted in mean accuracy of 0.96, where in each iteration one subject's data from the primary set was set aside for testing.
翻訳日:2023-03-15 15:11:37 公開日:2023-03-14
# サンプル効率のよい対人模倣学習

Sample-efficient Adversarial Imitation Learning ( http://arxiv.org/abs/2303.07846v1 )

ライセンス: Link先を確認
Dahuin Jung, Hyungyu Lee, Sungroh Yoon(参考訳) 学習を実演して行う模倣学習は, 報酬関数を事前に定義しない逐次意思決定課題に対して研究され, 進歩してきた。 しかし、模擬学習法は、専門家の行動をうまく模倣するために、多くの専門家のデモンストレーションサンプルを必要とする。 サンプル効率を向上させるために,与えられたデータから膨大なトレーニング信号を生成できる自己教師あり表現学習を用いる。 本研究では,非画像制御タスクにおいて,多様な歪みや時間予測に頑健な状態や行動表現を学習するための,自己教師付き表現に基づく敵対的模倣学習手法を提案する。 特に,表データに対する既存の自己教師あり学習法と比較して,多様な歪みに対して頑健な状態表現と行動表現の異なる腐敗法を提案する。 我々は,サンプル複雑性の少ない情報的特徴多様体を作ることで,模倣学習の性能が著しく向上することを理論的に実証的に観察する。 提案手法は,MuJoCo上での既存の逆模倣学習法に対して,100の専門的状態-作用対に制限された設定で相対的に39%改善したことを示す。 さらに, 各種因子に対する洞察を与えるために, 種々の最適性を有する実験を用いて包括的アブレーションを行い, 追加実験を行った。

Imitation learning, in which learning is performed by demonstration, has been studied and advanced for sequential decision-making tasks in which a reward function is not predefined. However, imitation learning methods still require numerous expert demonstration samples to successfully imitate an expert's behavior. To improve sample efficiency, we utilize self-supervised representation learning, which can generate vast training signals from the given data. In this study, we propose a self-supervised representation-based adversarial imitation learning method to learn state and action representations that are robust to diverse distortions and temporally predictive, on non-image control tasks. In particular, in comparison with existing self-supervised learning methods for tabular data, we propose a different corruption method for state and action representations that is robust to diverse distortions. We theoretically and empirically observe that making an informative feature manifold with less sample complexity significantly improves the performance of imitation learning. The proposed method shows a 39% relative improvement over existing adversarial imitation learning methods on MuJoCo in a setting limited to 100 expert state-action pairs. Moreover, we conduct comprehensive ablations and additional experiments using demonstrations with varying optimality to provide insights into a range of factors.
翻訳日:2023-03-15 15:11:20 公開日:2023-03-14
# 最大量子電池充電電力は絡み合いモノトンではない

Maximum quantum battery charging power is not an entanglement monotone ( http://arxiv.org/abs/2303.07841v1 )

ライセンス: Link先を確認
Ju-Yeon Gyhm and Uwe R. Fischer(参考訳) 量子バッテリの最大チャージパワーを高めるために、高絡み合い量子状態を用いる潜在的な利点を評価するために、実装に依存しない一般的なアプローチを確立した。 エンタングルメントの電力への影響は、ハミルトニアン駆動の最適選択に関連する大域的な量子速度限界と電池のエネルギーギャップの両方から分離できることが示されている。 次に、与えられた量子速度限界とエネルギーギャップに対して得られる電力として定義される電池充電の量子状態の利点が絡み合いモノトンではないことを示す。 特筆すべき例は、局所電池の独立な熱化が、あらゆる絡み合いを完全に破壊し、初期最大絡み状態よりも大きな帯電力をもたらすことである。 したがって、電池充電の古典的な限界を表す単純な製品状態と比較すると、非常に絡み合った状態は、潜在的に$disadvantageous$となる可能性がある。 また,w や $k$ のような非常に絡み合った状態を生成するというかなりの労力は,バッテリセル数で量子エンハンスドスケーリング動作を得るには不十分であることを示す。

We establish a general implementation-independent approach to assess the potential advantage of using highly entangled quantum states for enhancing the maximum charging power of quantum batteries. It is shown that the impact of entanglement on power can be separated from both the global quantum speed limit associated to an optimal choice of driving Hamiltonian and the energy gap of the batteries. We then demonstrate that the quantum state advantage of battery charging, defined as the power obtainable for given quantum speed limit and energy gap, is not an entanglement monotone. A striking example we provide is that, counterintuitively, independent thermalization of the local batteries, completely destroying any entanglement, can lead to larger charging power than that of the initial maximally entangled state. Highly entangled states can thus also be potentially $disadvantageous$ when compared to simple product states representing the well known classical limit of battery charging. We also demonstrate that taking the considerable effort of producing highly entangled states, such as W or $k$-locally entangled states is not sufficient to obtain quantum-enhanced scaling behavior with the number of battery cells.
翻訳日:2023-03-15 15:11:00 公開日:2023-03-14
# 参照熱マップ変換器による顔の高精度ランドマーク検出

Precise Facial Landmark Detection by Reference Heatmap Transformer ( http://arxiv.org/abs/2303.07840v1 )

ライセンス: Link先を確認
Jun Wan, Jun Liu, Jie Zhou, Zhihui Lai, Linlin Shen, Hang Sun, Ping Xiong, Wenwen Min(参考訳) ほとんどの顔ランドマーク検出方法は、入力された顔の外観特徴をランドマークのヒートマップにマッピングすることでランドマークを予測し、有望な結果を得た。 しかし、顔画像が大きなポーズ、重い咬合、複雑な照度に苦しんでいる場合、識別的特徴表現や効果的な顔形状の制約を学習することはできず、ランドマークのヒートマップの各要素の値を正確に予測することもできず、検出精度を制限できる。 この問題に対処するために,より正確な顔のランドマーク検出のための参照ヒートマップ情報を導入し,新しい参照ヒートマップ変換器(RHT)を提案する。 提案するRHTはソフトトランスフォーメーションモジュール (STM) とハードトランスフォーメーションモジュール (HTM) で構成され, 参照熱マップ情報と顔形状制約の正確な変換を促進する。 次に,マルチスケール機能融合モジュール (msffm) を提案し,変換されたヒートマップの特徴と,元の顔画像から得られた意味的特徴を融合し,より正確なターゲットヒートマップを生成する特徴表現を強化する。 私たちの知る限りでは、これは参照ヒートマップ情報を変換して顔のランドマークを検出する方法を検討する最初の研究です。 評価実験の結果,提案手法は文献の最先端手法よりも優れていることが示された。

Most facial landmark detection methods predict landmarks by mapping the input facial appearance features to landmark heatmaps and have achieved promising results. However, when the face image is suffering from large poses, heavy occlusions and complicated illuminations, they cannot learn discriminative feature representations and effective facial shape constraints, nor can they accurately predict the value of each element in the landmark heatmap, limiting their detection accuracy. To address this problem, we propose a novel Reference Heatmap Transformer (RHT) by introducing reference heatmap information for more precise facial landmark detection. The proposed RHT consists of a Soft Transformation Module (STM) and a Hard Transformation Module (HTM), which can cooperate with each other to encourage the accurate transformation of the reference heatmap information and facial shape constraints. Then, a Multi-Scale Feature Fusion Module (MSFFM) is proposed to fuse the transformed heatmap features and the semantic features learned from the original face images to enhance feature representations for producing more accurate target heatmaps. To the best of our knowledge, this is the first study to explore how to enhance facial landmark detection by transforming the reference heatmap information. The experimental results from challenging benchmark datasets demonstrate that our proposed method outperforms the state-of-the-art methods in the literature.
翻訳日:2023-03-15 15:10:39 公開日:2023-03-14
# インテクスト学習の学習性

The Learnability of In-Context Learning ( http://arxiv.org/abs/2303.07895v1 )

ライセンス: Link先を確認
Noam Wies, Yoav Levine, Amnon Shashua(参考訳) テキスト内学習は、現代の言語モデルが何十億もの学習パラメータにスケールされたときに現れた驚くべき、重要な現象である。 大きな言語モデルの重みを変更せずに、入力にこれらのタスクの連結したトレーニング例を含めるだけで、ダウンストリームの自然言語タスクを実行するように調整できる。 大規模言語モデルの多くの実践的応用において破壊的であるが、この創発的な学習パラダイムは理論的観点からはよく理解されていない。 本稿では,コンテキスト内学習性のための第一段階のpacベースフレームワークを提案し,それを用いて,コンテキスト内学習環境における最初の有限個のサンプル複雑性結果を提供する。 我々のフレームワークは、事前学習された分布に関数を適合させる最初の事前学習フェーズと、この関数を一定に保ち、入力中の下流タスクのトレーニング例を結合する第2のコンテキスト内学習フェーズを含む。 筆者らは,事前学習分布が潜在タスク(自然言語事前学習のモデルとしてよく考えられる)の混合である場合,モデルの重みが変化せず,入力が事前学習分布から著しく逸脱した場合でも,文脈内学習によってこれらのタスクを効率的に学習できることを証明するために,本フレームワークを用いた。 我々の理論的分析では、文脈内学習はタスクを学習するよりも、タスクを識別することの方が重要であり、その結果は最近の経験的発見と一致している。 本稿では,この重要な学習パラダイムのより深い理解に向けて,文脈内学習可能性フレームワークが今後の進展を促進することを期待する。

In-context learning is a surprising and important phenomenon that emerged when modern language models were scaled to billions of learned parameters. Without modifying a large language model's weights, it can be tuned to perform various downstream natural language tasks simply by including concatenated training examples of these tasks in its input. Though disruptive for many practical applications of large language models, this emergent learning paradigm is not well understood from a theoretical perspective. In this paper, we propose a first-of-its-kind PAC based framework for in-context learnability, and use it to provide the first finite sample complexity results for the in-context learning setup. Our framework includes an initial pretraining phase, which fits a function to the pretraining distribution, and then a second in-context learning phase, which keeps this function constant and concatenates training examples of the downstream task in its input. We use our framework in order to prove that, under mild assumptions, when the pretraining distribution is a mixture of latent tasks (a model often considered for natural language pretraining), these tasks can be efficiently learned via in-context learning, even though the model's weights are unchanged and the input significantly diverges from the pretraining distribution. Our theoretical analysis reveals that in this setting, in-context learning is more about identifying the task than about learning it, a result which is in line with a series of recent empirical findings. We hope that the in-context learnability framework presented in this paper will facilitate future progress towards a deeper understanding of this important new learning paradigm.
翻訳日:2023-03-15 15:04:34 公開日:2023-03-14
# オブジェクトペリメータを用いた画像ラベルに基づく意味セグメンテーションフレームワーク

Image Label based Semantic Segmentation Framework using Object Perimeters ( http://arxiv.org/abs/2303.07892v1 )

ライセンス: Link先を確認
Erik Ostrowski and Bharath Srinivas Prabakaran and Muhammad Shafique(参考訳) 画像レベルラベルのみを使用して高品質な意味セグメンテーション予測を実現することで、新しいレベルの現実世界の適用性が実現される。 最先端のネットワークは信頼性の高い予測を提供するが、これらの結果を実現するための手作りのピクセルワイドアノテーションの量は、現実の多くのアプリケーションでは実現不可能である。 そのため、クラスアクティベーションマップ(CAM)のような分類器ベースのネットワークをベースとして、いくつかの研究がすでにこのボトルネックをターゲットにしている。 CAMのファジィ境界の弱点と不完全な予測に対処するために、最先端のアプローチは、分類器の損失に規則を追加することや、その後にピクセル類似性に基づく改善を使用することにのみ依存する。 本稿では,サリエンシ向上のためにオブジェクト周辺計を用いた追加モジュールを導入するフレームワークを提案する。 オブジェクトと背景を分離する行として、オブジェクト周辺情報を定義します。 我々の新しいPerimeterFitモジュールは、ピクセル類似性に基づくネットワークを使用する前に、CAM予測を事前に再定義する。 このようにして、我々のPerimeterFitは、偽陰率を同時に改善しながら、CAM予測の品質を向上させる。 我々は,最先端の非教師付きセマンティックセグメンテーションネットワークとエッジ検出手法を幅広く検討し,よりシャープな周辺空間で物体の位置を予測できるようにした。 PerimeterFitモジュールなしでは、フレームワークよりも1.5\%改善しました。 我々は、画像レベルに基づくセマンティックセグメンテーションのための既存の最先端フレームワークを強化することを示すために、徹底的な分析を行う。 このフレームワークはオープンソースで、https://github.com/erikostrowski/perimeter-based-semantic-segmentationでアクセスできる。

Achieving high-quality semantic segmentation predictions using only image-level labels enables a new level of real-world applicability. Although state-of-the-art networks deliver reliable predictions, the amount of handcrafted pixel-wise annotations to enable these results are not feasible in many real-world applications. Hence, several works have already targeted this bottleneck, using classifier-based networks like Class Activation Maps (CAMs) as a base. Addressing CAM's weaknesses of fuzzy borders and incomplete predictions, state-of-the-art approaches rely only on adding regulations to the classifier loss or using pixel-similarity-based refinement after the fact. We propose a framework that introduces an additional module using object perimeters for improved saliency. We define object perimeter information as the line separating the object and background. Our new PerimeterFit module will be applied to pre-refine the CAM predictions before using the pixel-similarity-based network. In this way, our PerimeterFit increases the quality of the CAM prediction while simultaneously improving the false negative rate. We investigated a wide range of state-of-the-art unsupervised semantic segmentation networks and edge detection techniques to create useful perimeter maps, which enable our framework to predict object locations with sharper perimeters. We achieved up to 1.5\% improvement over frameworks without our PerimeterFit module. We conduct an exhaustive analysis to illustrate that our framework enhances existing state-of-the-art frameworks for image-level-based semantic segmentation. The framework is open-source and accessible online at https://github.com/ErikOstrowski/Perimeter-based-Semantic-Segmentation.
翻訳日:2023-03-15 15:04:07 公開日:2023-03-14
# 量子ミックスマスター宇宙は自発的なインフレーション相になるのか?

Can a quantum mixmaster universe undergo a spontaneous inflationary phase? ( http://arxiv.org/abs/2303.07873v1 )

ライセンス: Link先を確認
Herve Bergeron, Jaime de Cabo Martin, Jean-Pierre Gazeau and Przemyslaw Malkiewicz(参考訳) 我々はミックスマスター宇宙の半古典モデルを研究する。 まず量子モデルを導出し,その半古典近似を導入する。 我々は、アフィンとワイル・ハイゼンベルク群によって与えられるモデルの対称性を尊重する一般積分量子化法を用い、幅広い種類の量子モデルを生成できる。 半古典近似はコヒーレント状態に基づいている。 半古典力学は複雑であり、解析的な方法では解けない。 我々は,この力学の重要な定性的特徴,すなわち初期異方性宇宙が,異方性エネルギーと半古典的補正を組み合わせた自発的インフレーション相を生じ得るかどうかを考察する。 この質問に対する答えは、代替バウンシングモデルと同様にインフレーションパラダイムに関する有用な視点を提供する。

We study a semi-classical model of the mixmaster universe. We first derive the quantum model and then introduce its semi-classical approximation. We employ a general integral quantization method that respects the symmetries of the model given by the affine and the Weyl-Heisenberg groups, and can produce a wide class of quantum models. The semi-classical approximation is based on the coherent states. The semi-classical dynamics is complex and can not be solved by analytical methods. We focus on a key qualitative feature of the dynamics, namely, we investigate whether the primordial anisotropic universe can undergo a spontaneous inflationary phase driven by the anisotropic energy combined with semi-classical corrections. The answer to this question provides a useful perspective on the inflationary paradigm as well as on alternative bouncing models.
翻訳日:2023-03-15 15:03:05 公開日:2023-03-14
# DynaMask: インスタンスセグメンテーションのための動的マスク選択

DynaMask: Dynamic Mask Selection for Instance Segmentation ( http://arxiv.org/abs/2303.07868v1 )

ライセンス: Link先を確認
Ruihuang Li, Chenhang He, Shuai Li, Yabin Zhang, Lei Zhang(参考訳) 代表的なインスタンスセグメンテーションメソッドは、主に28*28グリッドのような固定解像度のマスクで異なるオブジェクトインスタンスを分割する。 しかし、低解像度のマスクは詳細な情報を失う一方、高解像度のマスクは二次計算のオーバーヘッドを負う。 各インスタンスに対して最適なバイナリマスクを予測するのは難しい作業です。 本稿では,異なるオブジェクトの提案に対して適切なマスクを動的に選択することを提案する。 まず、適応的な特徴集約を備えたデュアルレベル特徴ピラミッドネットワーク(FPN)を開発し、マスクグリッドの解像度を徐々に向上させ、オブジェクトの高品質なセグメンテーションを保証する。 具体的には、画像レベルのFPN(i-FPN)の異なる段階からの相補的コンテキストおよび詳細情報を組み込むために、効率的な領域レベルのトップダウンパス(r-FPN)を導入する。 そこで,大規模なマスクによる計算とメモリコストの増大を軽減するため,各インスタンスに最適なマスク解像度を選択するためのマスクスイッチモジュール(MSM)を開発し,高いセグメンテーション精度を維持しつつ高い効率を実現する。 ベルとホイッスルがなければ、提案手法、すなわちDynaMaskは、適度な計算オーバーヘッドで、他の最先端技術よりも一貫した、顕著なパフォーマンス改善をもたらす。 ソースコードはhttps://github.com/lslrh/dynamask。

The representative instance segmentation methods mostly segment different object instances with a mask of the fixed resolution, e.g., 28*28 grid. However, a low-resolution mask loses rich details, while a high-resolution mask incurs quadratic computation overhead. It is a challenging task to predict the optimal binary mask for each instance. In this paper, we propose to dynamically select suitable masks for different object proposals. First, a dual-level Feature Pyramid Network (FPN) with adaptive feature aggregation is developed to gradually increase the mask grid resolution, ensuring high-quality segmentation of objects. Specifically, an efficient region-level top-down path (r-FPN) is introduced to incorporate complementary contextual and detailed information from different stages of image-level FPN (i-FPN). Then, to alleviate the increase of computation and memory costs caused by using large masks, we develop a Mask Switch Module (MSM) with negligible computational cost to select the most suitable mask resolution for each instance, achieving high efficiency while maintaining high segmentation accuracy. Without bells and whistles, the proposed method, namely DynaMask, brings consistent and noticeable performance improvements over other state-of-the-arts at a moderate computation overhead. The source code: https://github.com/lslrh/DynaMask.
翻訳日:2023-03-15 15:02:35 公開日:2023-03-14
# BERTモデルを用いたツイートの位置推定

Geolocation Predicting of Tweets Using BERT-Based Models ( http://arxiv.org/abs/2303.07865v1 )

ライセンス: Link先を確認
Kateryna Lutsai and Christoph H. Lampert(参考訳) 本研究の目的は、ツイート/ユーザ位置情報予測タスクの解決と、テキストビッグデータのジオタグ化のための柔軟な方法論を提供することである。 提案手法はニューラルネットワークを用いて自然言語処理(NLP)を行い,その位置を座標対(経度,緯度)と2次元ガウス混合モデル(GMM)として推定する。 提案モデルの範囲は、トレーニング済みの双方向エンコーダ表現(BERT)をベースモデルとして、Twitterデータセット上で微調整されている。 パフォーマンスメトリクスは、世界中のレベルで30km未満の中央値エラーを示し、ツイートの内容とメタデータコンテキストのテキスト特徴に基づいてトレーニングされ評価されたモデルに対する米国レベルのデータセットでは15km未満である。

This research is aimed to solve the tweet/user geolocation prediction task and provide a flexible methodology for the geotagging of textual big data. The suggested approach implements neural networks for natural language processing (NLP) to estimate the location as coordinate pairs (longitude, latitude) and two-dimensional Gaussian Mixture Models (GMMs). The scope of proposed models has been finetuned on a Twitter dataset using pretrained Bidirectional Encoder Representations from Transformers (BERT) as base models. Performance metrics show a median error of fewer than 30 km on a worldwide-level, and fewer than 15 km on the US-level datasets for the models trained and evaluated on text features of tweets' content and metadata context.
翻訳日:2023-03-15 15:02:14 公開日:2023-03-14
# DualMix: オンライン授業増分学習におけるデータ強化の可能性

DualMix: Unleashing the Potential of Data Augmentation for Online Class-Incremental Learning ( http://arxiv.org/abs/2303.07864v1 )

ライセンス: Link先を確認
Yunfeng Fan, Wenchao Xu, Haozhao Wang, Jiaqi Zhu, Junxiao Wang and Song Guo(参考訳) オンラインクラスインクリメンタル(OCI)学習は、トレーニング済みのモデル知識を、新しいクラスでシーケンシャルに到着するデータストリームから拡張する、新たなアプローチを生み出した。 残念ながら、OCI学習は、古いクラスの決定境界が新しいクラスによって摂動されると不正確になるため、破滅的な忘れ(CF)に悩まされる可能性がある。 既存の文献では、OCIにおけるDAの役割はよく理解されていないが、モデル忘れを緩和するためにデータ拡張(DA)を適用している。 本稿では,元のデータとの相関が小さい拡張サンプルが,忘れ防止に有効であることを理論的に示す。 しかし、アグレッシブな拡張はまた、データと対応するラベル間の一貫性を低下させる可能性があるため、適切なDAを利用してOCI性能を高め、CF問題を防止する動機となる。 本稿では,拡張されたサンプルとラベルを同時に混合するenmix(enmix)法を提案する。 さらに、クラス不均衡問題を解決するために、古いクラスと新しいクラスの両方からサンプルを混合し、ラベル混合比を動的に調整することで、決定境界を校正する適応的ミックスアップ(adpmix)法を設計する。 提案手法は,広範囲な実験を通じて,複数のベンチマークデータセットに対して有効であることが実証され,他のリプレイ手法と互換性があることが示されている。

Online Class-Incremental (OCI) learning has sparked new approaches to expand the previously trained model knowledge from sequentially arriving data streams with new classes. Unfortunately, OCI learning can suffer from catastrophic forgetting (CF) as the decision boundaries for old classes can become inaccurate when perturbated by new ones. Existing literature have applied the data augmentation (DA) to alleviate the model forgetting, while the role of DA in OCI has not been well understood so far. In this paper, we theoretically show that augmented samples with lower correlation to the original data are more effective in preventing forgetting. However, aggressive augmentation may also reduce the consistency between data and corresponding labels, which motivates us to exploit proper DA to boost the OCI performance and prevent the CF problem. We propose the Enhanced Mixup (EnMix) method that mixes the augmented samples and their labels simultaneously, which is shown to enhance the sample diversity while maintaining strong consistency with corresponding labels. Further, to solve the class imbalance problem, we design an Adaptive Mixup (AdpMix) method to calibrate the decision boundaries by mixing samples from both old and new classes and dynamically adjusting the label mixing ratio. Our approach is demonstrated to be effective on several benchmark datasets through extensive experiments, and it is shown to be compatible with other replay-based techniques.
翻訳日:2023-03-15 15:02:00 公開日:2023-03-14
# 圧縮ビデオの時間的接地に効果的で効率的なパイプライン

You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos ( http://arxiv.org/abs/2303.07863v1 )

ライセンス: Link先を確認
Xiang Fang, Daizong Liu, Pan Zhou, Guoshun Nan(参考訳) ビデオがトリミングされていない場合、時間的文接地(TSG)は、文問合せに応じて意味的にターゲットモーメントを見つけることを目的としている。 これまでの卓越した作品は、十分に成功したものの、連続した復号化フレームから抽出された高レベルな視覚的特徴にのみ焦点を合わせ、クエリモデリングのための圧縮ビデオの処理に失敗した。 本稿では,画像入力として完全にデ圧縮されたフレームではなく,圧縮されたビデオを直接利用する圧縮ドメインtsgを提案する。 生のビデオビットストリーム入力を処理するために,3種類の低レベル視覚特徴(iフレーム,運動ベクトル,残差特徴)を抽出・集約し,効率的かつ効率的な接地を行う,圧縮領域空間時空間融合(tcsf)フレームワークを提案する。 特に、以前の処理のようにデコードされたフレーム全体をエンコードする代わりに、I-frame機能のみを学習して、遅延やレイテンシを低減することで、外観表現をキャプチャします。 さらに, 動きベクトルの特徴を学習するだけでなく, 残像を通して隣接するフレームの関係を探索することで, 動き情報を探究する。 このようにして、適応的な動き出現融合モジュールを備えた3分岐空間時間的注意層を設計し、最終接地のための外観情報と動き情報の両方を抽出・集約する。 3つの挑戦的なデータセットの実験から、我々のTCSFは、複雑さの低い他の最先端のメソッドよりも優れたパフォーマンスを実現しています。

Given an untrimmed video, temporal sentence grounding (TSG) aims to locate a target moment semantically according to a sentence query. Although previous respectable works have made decent success, they only focus on high-level visual features extracted from the consecutive decoded frames and fail to handle the compressed videos for query modelling, suffering from insufficient representation capability and significant computational complexity during training and testing. In this paper, we pose a new setting, compressed-domain TSG, which directly utilizes compressed videos rather than fully-decompressed frames as the visual input. To handle the raw video bit-stream input, we propose a novel Three-branch Compressed-domain Spatial-temporal Fusion (TCSF) framework, which extracts and aggregates three kinds of low-level visual features (I-frame, motion vector and residual features) for effective and efficient grounding. Particularly, instead of encoding the whole decoded frames like previous works, we capture the appearance representation by only learning the I-frame feature to reduce delay or latency. Besides, we explore the motion information not only by learning the motion vector feature, but also by exploring the relations of neighboring frames via the residual feature. In this way, a three-branch spatial-temporal attention layer with an adaptive motion-appearance fusion module is further designed to extract and aggregate both appearance and motion information for the final grounding. Experiments on three challenging datasets shows that our TCSF achieves better performance than other state-of-the-art methods with lower complexity.
翻訳日:2023-03-15 15:01:35 公開日:2023-03-14
# 将来の蒸留と推論を考慮したオフライン音声翻訳モデルへの適応

Adapting Offline Speech Translation Models for Streaming with Future-Aware Distillation and Inference ( http://arxiv.org/abs/2303.07914v1 )

ライセンス: Link先を確認
Biao Fu, Kai Fan, Minpeng Liao, Zhongqiang Huang, Boxing Chen, Yidong Chen, Xiaodong Shi(参考訳) ストリーミング音声翻訳に対する一般的なアプローチは、異なるレイテンシ要件をサポートするために、‘textit{wait-$k$}’ポリシを備えた単一のオフラインモデルを使用することである。 しかし、完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチの問題が発生する。 ストリーム入力の最後に抽出された音声表現は,完全発話から抽出した音声とは大きく異なることを示す。 この問題に対処するため,FAST(Future-Aware Streaming Translation)と呼ばれる新しいアプローチを提案し,ストリーミング入力にオフラインSTモデルを適用する。 FASTには、トレーニング可能なマスク埋め込みを通じて将来のコンテキストを組み込むFuture-Aware Inference(FAI)戦略と、完全な音声の近似からストリーミング入力へ将来のコンテキストを転送するFuture-Aware Distillation(FAD)フレームワークが含まれている。 MuST-C EnDe, EnEs, EnFr のベンチマーク実験により,FAST は翻訳品質とレイテンシのトレードオフが強いベースラインよりも優れていることが示された。 本手法は,オフライントレーニングとオンライン推論のミスマッチ問題を効果的に緩和するものである。

A popular approach to streaming speech translation is to employ a single offline model with a \textit{wait-$k$} policy to support different latency requirements, which is simpler than training multiple online models with different latency constraints. However, there is a mismatch problem in using a model trained with complete utterances for streaming inference with partial input. We demonstrate that speech representations extracted at the end of a streaming input are significantly different from those extracted from a complete utterance. To address this issue, we propose a new approach called Future-Aware Streaming Translation (FAST) that adapts an offline ST model for streaming input. FAST includes a Future-Aware Inference (FAI) strategy that incorporates future context through a trainable masked embedding, and a Future-Aware Distillation (FAD) framework that transfers future context from an approximation of full speech to streaming input. Our experiments on the MuST-C EnDe, EnEs, and EnFr benchmarks show that FAST achieves better trade-offs between translation quality and latency than strong baselines. Extensive analyses suggest that our methods effectively alleviate the aforementioned mismatch problem between offline training and online inference.
翻訳日:2023-03-15 14:54:27 公開日:2023-03-14
# 分離度推定のための量子ステアリングアルゴリズム

Quantum Steering Algorithm for Estimating Fidelity of Separability ( http://arxiv.org/abs/2303.07911v1 )

ライセンス: Link先を確認
Aby Philip, Soorya Rethinasamy, Vincent Russo, Mark M. Wilde(参考訳) エンタングルメントの定量化は、状態の資源性を測定する重要なタスクである。 本研究では, 量子ステアリング効果を用いて, 一般二成分状態の分離性をテストし, 定量化する量子アルゴリズムを開発した。 我々の最初の分離性テストは、関心状態の浄化を準備する計算限定のクライアントと、還元されたシステムを純積状態の確率的アンサンブルに操ろうとする計算無制限のサーバの2つを含む分散量子計算からなる。 実用的なアルゴリズムを設計するために、パラメータ化ユニタリ回路と古典最適化技術を組み合わせてサーバの役割を置き換え、必要な計算を行う。 その結果は変分量子ステアリングアルゴリズム (VQSA) であり、今日の量子コンピュータの能力によく適合する2番目の分離性テストである。 このVQSAは、分散変分量子アルゴリズム(VQA)として追加の解釈を持ち、量子ネットワーク上で実行できる。 次に,ノイズ量子シミュレータ上でのvqsaをシミュレートし,実験例の収束特性を求める。 また,vqsaから得られた結果のベンチマークを行うために,古典的コンピュータ上で実行可能な半定値プログラムを開発した。 この結果から, ステアリング, 絡み合い, 量子アルゴリズム, 量子計算複雑性理論との有意義な関係が得られた。 彼らはまた、VQSAにおけるパラメータ化中間回路の測定値を示し、分散VQAに対する第一種応用を示す。 最後に、フレームワーク全体が多部状態や絡み合いの場合に一般化される。

Quantifying entanglement is an important task by which the resourcefulness of a state can be measured. Here we develop a quantum algorithm that tests for and quantifies the separability of a general bipartite state, by making use of the quantum steering effect. Our first separability test consists of a distributed quantum computation involving two parties: a computationally limited client, who prepares a purification of the state of interest, and a computationally unbounded server, who tries to steer the reduced systems to a probabilistic ensemble of pure product states. To design a practical algorithm, we replace the role of the server by a combination of parameterized unitary circuits and classical optimization techniques to perform the necessary computation. The result is a variational quantum steering algorithm (VQSA), which is our second separability test that is better suited for the capabilities of quantum computers available today. This VQSA has an additional interpretation as a distributed variational quantum algorithm (VQA) that can be executed over a quantum network, in which each node is equipped with classical and quantum computers capable of executing VQA. We then simulate our VQSA on noisy quantum simulators and find favorable convergence properties on the examples tested. We also develop semidefinite programs, executable on classical computers, that benchmark the results obtained from our VQSA. Our findings here thus provide a meaningful connection between steering, entanglement, quantum algorithms, and quantum computational complexity theory. They also demonstrate the value of a parameterized mid-circuit measurement in a VQSA and represent a first-of-its-kind application for a distributed VQA. Finally, the whole framework generalizes to the case of multipartite states and entanglement.
翻訳日:2023-03-15 14:54:05 公開日:2023-03-14
# リビジットパラメータ-効率的な伝達学習:2段階パラダイム

Revisit Parameter-Efficient Transfer Learning: A Two-Stage Paradigm ( http://arxiv.org/abs/2303.07910v1 )

ライセンス: Link先を確認
Hengyuan Zhao, Hao Luo, Yuyang Zhao, Pichao Wang, Fan Wang, Mike Zheng Shou(参考訳) パラメータ効率変換学習(PETL)は,大規模データに事前訓練された大規模モデルを,タスク固有の限られたデータで下流タスクに効率的に適応することを目的としている。 PETLの実用性の観点からは、従来の研究は、各下流タスクの小さなパラメータセットをエンドツーエンドに調整することに重点を置いており、事前学習タスクと下流タスク間のタスク分散シフト問題をほとんど考慮していない。 本稿では,事前学習モデルがまずターゲット分布に整列する,新しい2段階のパラダイムを提案する。 そして、タスク関連情報を有効適応に活用する。 具体的には、第1ステージは、レイヤノルム層のスケールとシフトを調整してタスク分散シフトを狭める。 第2段階では、タスク関連情報を効率的に学習するために、下流タスクのタスク関連チャンネルを特定し、そのようなチャンネルの一部だけを調整し、パラメータ効率を高めるためにテイラー拡張に基づく重要スコアを提案する。 全体としてPETLの新たな方向性を示すとともに,提案手法は19の下流タスクの平均精度で最先端の性能を達成する。

Parameter-Efficient Transfer Learning (PETL) aims at efficiently adapting large models pre-trained on massive data to downstream tasks with limited task-specific data. In view of the practicality of PETL, previous works focus on tuning a small set of parameters for each downstream task in an end-to-end manner while rarely considering the task distribution shift issue between the pre-training task and the downstream task. This paper proposes a novel two-stage paradigm, where the pre-trained model is first aligned to the target distribution. Then the task-relevant information is leveraged for effective adaptation. Specifically, the first stage narrows the task distribution shift by tuning the scale and shift in the LayerNorm layers. In the second stage, to efficiently learn the task-relevant information, we propose a Taylor expansion-based importance score to identify task-relevant channels for the downstream task and then only tune such a small portion of channels, making the adaptation to be parameter-efficient. Overall, we present a promising new direction for PETL, and the proposed paradigm achieves state-of-the-art performance on the average accuracy of 19 downstream tasks.
翻訳日:2023-03-15 14:53:36 公開日:2023-03-14
# 生成AIにおけるテキスト・画像拡散モデル

Text-to-image Diffusion Model in Generative AI: A Survey ( http://arxiv.org/abs/2303.07909v1 )

ライセンス: Link先を確認
Chenshuang Zhang, Chaoning Zhang, Mengchun Zhang, In So Kweon(参考訳) 本研究は,多種多様な生成タスクにおいて拡散モデルが普及しつつある状況下でのテキスト・画像拡散モデルについてレビューする。 自己完結型研究として、この調査は、画像合成のための基本拡散モデルがどのように機能するかの簡単な紹介から始まり、続いて条件やガイダンスが学習を改善するかを示す。 そこで本研究では,テキストコンディション画像合成,すなわちテキストから画像への合成に関する最先端手法について概観する。 さらに、テキストから画像への生成以外のアプリケーションを要約する: テキストガイドによる創造的生成とテキストガイドによる画像編集。 これまでの進歩以外にも,既存の課題と今後の方向性を議論する。

This survey reviews text-to-image diffusion models in the context that diffusion models have emerged to be popular for a wide range of generative tasks. As a self-contained work, this survey starts with a brief introduction of how a basic diffusion model works for image synthesis, followed by how condition or guidance improves learning. Based on that, we present a review of state-of-the-art methods on text-conditioned image synthesis, i.e., text-to-image. We further summarize applications beyond text-to-image generation: text-guided creative generation and text-guided image editing. Beyond the progress made so far, we discuss existing challenges and promising future directions.
翻訳日:2023-03-15 14:53:15 公開日:2023-03-14
# 弱絡みは受動線形光学のみを用いた量子通信を改善する

Weak entanglement improves quantum communication using only passive linear optics ( http://arxiv.org/abs/2303.07907v1 )

ライセンス: Link先を確認
Am\'elie Piveteau, Alastair A. Abbott, Sadiq Muhammad, Mohamed Bourennane, Armin Tavakoli(参考訳) ベルの不等式を破ることができない雑音の絡み合った状態は、標準のアンシラフリーな線形光学と互換性がある場合の量子通信を改善するために使用できることを示した。 我々は、秘密共有と呼ばれる暗号プリミティブに着想を得たコミュニケーションタスクを導入し、Einstein-Podolsky-Rosen ステアリングは、復号のための標準的な部分的なベル状態解析器のみを使用することで、まだ成功率を高めることができることを示す。 さらにさらに、最も単純なデコーディング、すなわち、光学干渉を全く必要としない製品測定であっても、エンタグルメントが操縦可能であるがベルローカルである場合にもメリットがあることを示した。 我々は、不安定な絡み合い状態に偏光量子ビットを準備し、最も絡み合いのない量子ビットプロトコル以上の成功率を観測するビームスプリッタと位相シフト器のみを用いることで、前者の利点を実証する。

We show that noisy entangled states, that cannot violate any Bell inequality, can be used to improve quantum communication when measurements are limited to being compatible with standard, ancilla-free, linear optics. We introduce a communication task inspired by the cryptographic primitive known as secret sharing and show that entanglement that is too weak to permit possible Einstein-Podolsky-Rosen steering can still enhance the success rate when using only standard partial Bell state analysers for decoding. We then go further and show that even the simplest type of decoding, namely product measurements, which require no optical interference at all, can still lead to an advantage when the entanglement is steerable but still Bell-local. We demonstrate the former advantage by preparing polarisation qubits in an unsteerable entangled state and by using only beam-splitters and phase-shifters observing a boost in the success rate of beyond the best entanglement-unassisted qubit protocol.
翻訳日:2023-03-15 14:53:04 公開日:2023-03-14
# 分岐型マルチスケールエンタングルメント再正規化アンサッツに基づくハイブリッド量子古典分類器

A hybrid quantum-classical classifier based on branching multi-scale entanglement renormalization ansatz ( http://arxiv.org/abs/2303.07906v1 )

ライセンス: Link先を確認
Yan-Yan Hou, Jian Li, Xiu-Bo Chen, Chong-Qiang Ye(参考訳) ラベル伝搬は,パターン認識やデータマイニングにおける幅広い応用分野を有するグラフに基づく,基本的な半教師付き学習手法である。 本稿ではラベル伝搬に基づく量子半教師付き分類器を提案する。 グラフ構築の難しさを考慮し,変分量子ラベル伝搬法(VQLP)を開発した。 この方法では、最適化に必要なパラメータを減らすために、局所パラメータ化量子回路が作成される。 さらに,回路深度が浅く,近い将来の量子デバイスの実装に適する,ハイブリッドベルと$z$ベースス測定に基づく量子半教師付きバイナリ分類器を設計した。 我々はIrisデータセット上で量子半教師付き分類器の性能を実証し、シミュレーションの結果、量子半教師付き分類器はスワップテスト分類器よりも高い分類精度を示した。 この研究は、グラフに基づいた量子機械学習への新たな道を開く。

Label propagation is an essential semi-supervised learning method based on graphs, which has a broad spectrum of applications in pattern recognition and data mining. This paper proposes a quantum semi-supervised classifier based on label propagation. Considering the difficulty of graph construction, we develop a variational quantum label propagation (VQLP) method. In this method, a locally parameterized quantum circuit is created to reduce the parameters required in the optimization. Furthermore, we design a quantum semi-supervised binary classifier based on hybrid Bell and $Z$ bases measurement, which has shallower circuit depth and is more suitable for implementation on near-term quantum devices. We demonstrate the performance of the quantum semi-supervised classifier on the Iris data set, and the simulation results show that the quantum semi-supervised classifier has higher classification accuracy than the swap test classifier. This work opens a new path to quantum machine learning based on graphs.
翻訳日:2023-03-15 14:52:43 公開日:2023-03-14
# 確率的拡散モデルのための一般化スケール空間特性

Generalised Scale-Space Properties for Probabilistic Diffusion Models ( http://arxiv.org/abs/2303.07900v1 )

ライセンス: Link先を確認
Pascal Peter(参考訳) 確率的拡散モデルは、ディープラーニングコミュニティで人気が高まっている。 応用分野の広い入力画像の学習分布から説得力のあるサンプルを生成する。 もともとこれらのアプローチはドリフト拡散過程から動機づけられていたが、これらの起源は近年の実践指向の出版物ではあまり注目されなかった。 確率的拡散モデルについて, スケール空間研究の観点から検討し, 進化する確率分布のスケール空間特性を一般化した。 さらに,深層学習とモデルに基づく世界におけるドリフト拡散の物理コア概念の解釈の類似性と相違について論じる。 そこで本研究では,オサムシスフィルタと確率拡散の関係について検討する。

Probabilistic diffusion models enjoy increasing popularity in the deep learning community. They generate convincing samples from a learned distribution of input images with a wide field of practical applications. Originally, these approaches were motivated from drift-diffusion processes, but these origins find less attention in recent, practice-oriented publications. We investigate probabilistic diffusion models from the viewpoint of scale-space research and show that they fulfil generalised scale-space properties on evolving probability distributions. Moreover, we discuss similarities and differences between interpretations of the physical core concept of drift-diffusion in the deep learning and model-based world. To this end, we examine relations of probabilistic diffusion to osmosis filters.
翻訳日:2023-03-15 14:52:29 公開日:2023-03-14
# AutoEnsemble:イメージラベルを用いたセマンティックセグメンテーションのための自動アンサンブル検索フレームワーク

AutoEnsemble: Automated Ensemble Search Framework for Semantic Segmentation Using Image Labels ( http://arxiv.org/abs/2303.07898v1 )

ライセンス: Link先を確認
Erik Ostrowski and Muhammad Shafique(参考訳) 最先端のセマンティクスセグメンテーションネットワークを現実世界で採用する上で重要なボトルネックは、トレーニングラベルの可用性である。 標準的なセマンティクスセグメンテーションネットワークは、最先端の予測品質に達するために大量のピクセル単位で注釈付きラベルを必要とする。 したがって、いくつかの作品は画像レベルのアノテーションだけで訓練されたセマンティックセグメンテーションネットワークに焦点を当てている。 しかし、最先端の成果をより詳細に調べると、平均的な予測品質では互いに非常に近いが、異なるアプローチは異なるクラスでより優れた性能を示し、他のクラスでは低い品質を提供する。 この問題に対処するため,我々は,クラスレベルでの異なるセグメンテーション手法の集合に対して,"pseudo-labels"のアンサンブルを用いた,新しいフレームワークであるautoensembleを提案する。 Pseudo-labelsは、最終的なセグメンテーションモデルをトレーニングするために使用される画像レベルのセグメンテーションフレームワークのピクセルワイズ予測である。 擬似ラベルは複数のセグメンテーション手法の強い点をシームレスに組み合わせて予測精度を向上させる。 AutoEnsembleのコンポーネントよりも2.4%改善しています。 画像レベルのセマンティックセグメンテーションのための最先端フレームワークに対するAutoEnsembleの有効性を示すために、徹底的な分析を行った。

A key bottleneck of employing state-of-the-art semantic segmentation networks in the real world is the availability of training labels. Standard semantic segmentation networks require massive pixel-wise annotated labels to reach state-of-the-art prediction quality. Hence, several works focus on semantic segmentation networks trained with only image-level annotations. However, when scrutinizing the state-of-the-art results in more detail, we notice that although they are very close to each other on average prediction quality, different approaches perform better in different classes while providing low quality in others. To address this problem, we propose a novel framework, AutoEnsemble, which employs an ensemble of the "pseudo-labels" for a given set of different segmentation techniques on a class-wise level. Pseudo-labels are the pixel-wise predictions of the image-level semantic segmentation frameworks used to train the final segmentation model. Our pseudo-labels seamlessly combine the strong points of multiple segmentation techniques approaches to reach superior prediction quality. We reach up to 2.4% improvement over AutoEnsemble's components. An exhaustive analysis was performed to demonstrate AutoEnsemble's effectiveness over state-of-the-art frameworks for image-level semantic segmentation.
翻訳日:2023-03-15 14:52:18 公開日:2023-03-14
# 対称環境における物体定位のための多粒子カルマンフィルタ

Multiparticle Kalman filter for object localization in symmetric environments ( http://arxiv.org/abs/2303.07897v1 )

ライセンス: Link先を確認
Roman Korkin and Ivan Oseledets and Aleksandr Katrutsa(参考訳) 本研究では,物体の局在化問題を考察し,複素および対称環境下での多粒子カルマンフィルタを提案する。 ローカライズ問題を解決するためによく知られたフィルタリングアルゴリズムのクラスは、カルマンフィルタ法と粒子フィルタ法である。 これらのクラスを考察し,それらの相補的特性を実証し,二つのクラスから最善を尽くす新しいフィルタリングアルゴリズムを提案する。 対称および雑音環境における多粒子カルマンフィルタの評価を行った。 このような環境は古典的手法の両クラスにとって特に困難である。 本手法は初期状態が不明な場合にのみ実現可能であるので,提案手法を粒子フィルタと比較する。 提案手法は, 局所化誤差と実行時間の両方において, 粒子フィルタよりも優れた性能を示す。

This study considers the object localization problem and proposes a novel multiparticle Kalman filter to solve it in complex and symmetric environments. Two well-known classes of filtering algorithms to solve the localization problem are Kalman filter-based methods and particle filter-based methods. We consider these classes, demonstrate their complementary properties, and propose a novel filtering algorithm that takes the best from two classes. We evaluate the multiparticle Kalman filter in symmetric and noisy environments. Such environments are especially challenging for both classes of classical methods. We compare the proposed approach with the particle filter since only this method is feasible if the initial state is unknown. In the considered challenging environments, our method outperforms the particle filter in terms of both localization error and runtime.
翻訳日:2023-03-15 14:52:00 公開日:2023-03-14
# 医用画像ラベルを用いた意味セグメンテーションの自動アンサンブル探索フレームワーク

Automated Ensemble Search Framework for Semantic Segmentation Using Medical Imaging Labels ( http://arxiv.org/abs/2303.07896v1 )

ライセンス: Link先を確認
Erik Ostrowski and Bharath Srinivas Prabakaran and Muhammad Shafique(参考訳) 画像中の特定の医療状態の信頼性の高い分類と検出には、最先端のセマンティックセグメンテーションネットワークが必要となる。 しかし、そのようなデータセットの公開は最小限である。 したがって,画像レベルのラベルによるセマンティックセグメンテーションは,この問題に対して有望な代替手段となる。 それにもかかわらず、この技術とその医療分野への適用性を評価することに重点を置く研究はほとんどない。 その複雑さと、医療データセットにおける少数のトレーニング例のため、分類器に基づくクラスアクティベーションマップ(CAM)のような弱い教師付きネットワークは、それらから有用な情報を抽出するのに苦労する。 しかし、最先端のアプローチのほとんどは、改善を達成するためにそれらに依存している。 そこで本稿では,複雑なデータセットの低品質CAM予測を引き続き活用して,結果の精度を向上させるフレームワークを提案する。 本フレームワークは,まず低閾値CAMを用いて目標対象を高い精度でカバーし,第2に,目標対象を強調表示しながらエラーを発生させる複数の低閾値CAMを組み合わせる。 人気のあるマルチモーダルブラットと前立腺デカトロンセグメンテーションチャレンジデータセットについて,徹底的な実験を行った。 提案フレームワークを用いて,従来のデータと比較して,ブラットで最大8%,デキャスロンデータセットで6%の改善diceスコアを実証した。

Reliable classification and detection of certain medical conditions, in images, with state-of-the-art semantic segmentation networks, require vast amounts of pixel-wise annotation. However, the public availability of such datasets is minimal. Therefore, semantic segmentation with image-level labels presents a promising alternative to this problem. Nevertheless, very few works have focused on evaluating this technique and its applicability to the medical sector. Due to their complexity and the small number of training examples in medical datasets, classifier-based weakly supervised networks like class activation maps (CAMs) struggle to extract useful information from them. However, most state-of-the-art approaches rely on them to achieve their improvements. Therefore, we propose a framework that can still utilize the low-quality CAM predictions of complicated datasets to improve the accuracy of our results. Our framework achieves that by first utilizing lower threshold CAMs to cover the target object with high certainty; second, by combining multiple low-threshold CAMs that even out their errors while highlighting the target object. We performed exhaustive experiments on the popular multi-modal BRATS and prostate DECATHLON segmentation challenge datasets. Using the proposed framework, we have demonstrated an improved dice score of up to 8% on BRATS and 6% on DECATHLON datasets compared to the previous state-of-the-art.
翻訳日:2023-03-15 14:51:50 公開日:2023-03-14
# MetaMixer: オンライン知識蒸留のための正規化戦略

MetaMixer: A Regularization Strategy for Online Knowledge Distillation ( http://arxiv.org/abs/2303.07951v1 )

ライセンス: Link先を確認
Maorong Wang, Ling Xiao, Toshihiko Yamasaki(参考訳) 近年,オンライン知識蒸留(KD)が注目されている。 しかしながら、既存のオンラインKD手法の多くは、確率分布のような高レベルの知識の蒸留を改善するための複雑なモデル構造や訓練戦略の開発に重点を置いているが、オンラインKDにおける多レベルの知識の影響は、特に低レベルの知識を大きく見落としている。 そこで,本研究では,ネットワークのローカライゼーション能力に影響を与える低レベルの知識と,画像全体に焦点を当てた高レベルの知識を組み合わせることで,蒸留を強化するための正規化戦略であるMetaMixerを提案する。 異なる条件下での実験では、MetaMixerは最先端の手法よりも大きなパフォーマンス向上を達成できる。

Online knowledge distillation (KD) has received increasing attention in recent years. However, while most existing online KD methods focus on developing complicated model structures and training strategies to improve the distillation of high-level knowledge like probability distribution, the effects of the multi-level knowledge in the online KD are greatly overlooked, especially the low-level knowledge. Thus, to provide a novel viewpoint to online KD, we propose MetaMixer, a regularization strategy that can strengthen the distillation by combining the low-level knowledge that impacts the localization capability of the networks, and high-level knowledge that focuses on the whole image. Experiments under different conditions show that MetaMixer can achieve significant performance gains over state-of-the-art methods.
翻訳日:2023-03-15 14:46:34 公開日:2023-03-14
# Edit-A-Video:Object-Aware Consistencyによるシングルビデオ編集

Edit-A-Video: Single Video Editing with Object-Aware Consistency ( http://arxiv.org/abs/2303.07945v1 )

ライセンス: Link先を確認
Chaehun Shin, Heeseung Kim, Che Hyun Lee, Sang-gil Lee, Sungroh Yoon(参考訳) 近年,テキスト・ツー・ビデオ(TTV)モデルが顕著な成功を収めているにもかかわらず,ビデオ編集の拡張に対するTTVへのアプローチはほとんどない。 拡散に基づくテキスト・ツー・イメージ(tti)モデルに適応したttvモデルのアプローチに動機づけられ,事前学習されたttiモデルと<text, video>ペアのみを与えられた映像編集フレームワークを提案する。 このフレームワークは、(1)時間的モジュールを付加して2dモデルを3dモデルに拡張し、ソースビデオにチューニングする(2)ソースビデオをノイズに反転させ、ターゲットテキストプロンプトとアテンションマップインジェクションで編集する2段階からなる。 各ステージは、ソースビデオの意味的属性の時間的モデリングと保存を可能にする。 ビデオ編集における重要な課題の1つは、編集に含まれない領域が望ましくない時間変化に悩まされる背景の不整合の問題である。 この問題を軽減するため,sparse-causal blending (sc blending) と呼ばれる新しいマスクブレンディング法を提案する。 従来のマスクブレンディング法を改良して時間的一貫性を反映し,編集対象領域のスムーズな遷移と,未編集領域の時空間的一貫性を実現する。 提案手法は,様々な種類のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,映像編集品質の面でのベースラインと比較し,提案手法の優位性を示す。

Despite the fact that text-to-video (TTV) model has recently achieved remarkable success, there have been few approaches on TTV for its extension to video editing. Motivated by approaches on TTV models adapting from diffusion-based text-to-image (TTI) models, we suggest the video editing framework given only a pretrained TTI model and a single <text, video> pair, which we term Edit-A-Video. The framework consists of two stages: (1) inflating the 2D model into the 3D model by appending temporal modules and tuning on the source video (2) inverting the source video into the noise and editing with target text prompt and attention map injection. Each stage enables the temporal modeling and preservation of semantic attributes of the source video. One of the key challenges for video editing include a background inconsistency problem, where the regions not included for the edit suffer from undesirable and inconsistent temporal alterations. To mitigate this issue, we also introduce a novel mask blending method, termed as sparse-causal blending (SC Blending). We improve previous mask blending methods to reflect the temporal consistency so that the area where the editing is applied exhibits smooth transition while also achieving spatio-temporal consistency of the unedited regions. We present extensive experimental results over various types of text and videos, and demonstrate the superiority of the proposed method compared to baselines in terms of background consistency, text alignment, and video editing quality.
翻訳日:2023-03-15 14:46:20 公開日:2023-03-14
# 映像からの生理的信号の非連続的教師なし学習

Non-Contrastive Unsupervised Learning of Physiological Signals from Video ( http://arxiv.org/abs/2303.07944v1 )

ライセンス: Link先を確認
Jeremy Speth, Nathan Vance, Patrick Flynn, Adam Czajka(参考訳) 脈拍や呼吸などの微妙な周期的信号はrgbビデオから抽出でき、低コストで遠隔の健康モニタリングが可能となる。 リモートパルス推定の進歩 -- またはリモートフォトプレチモグラフィ (rppg) -- は現在、ディープラーニングソリューションによって駆動されている。 しかし、現代のアプローチは、コンタクトppgセンサーから関連する基底真理を伴うベンチマークデータセットで訓練され、評価される。 ラベル付きビデオデータの制約から解放される信号回帰のための非競合的教師なし学習フレームワークを提案する。 周期性と有限帯域幅の仮定を最小にすることで,非ラベルビデオから直接血液量パルスを検出できる。 正常な生理的帯域内におけるスパースパワースペクトルの促進とパワースペクトルのバッチによるばらつきは周期的信号の視覚的特徴の学習に十分であることがわかった。 rppg用に特別に作成されていない非ラベルビデオデータを用いて,ロバストなパルスレート推定器を訓練する最初の実験を行った。 限定的な帰納バイアスと印象的な経験的結果を考えると、この手法は理論的にはビデオから他の周期的な信号を発見し、地上の真実の信号を必要としない複数の生理的測定を可能にする。 実験を完全再現するコードは、論文とともに利用可能である。

Subtle periodic signals such as blood volume pulse and respiration can be extracted from RGB video, enabling remote health monitoring at low cost. Advancements in remote pulse estimation -- or remote photoplethysmography (rPPG) -- are currently driven by deep learning solutions. However, modern approaches are trained and evaluated on benchmark datasets with associated ground truth from contact-PPG sensors. We present the first non-contrastive unsupervised learning framework for signal regression to break free from the constraints of labelled video data. With minimal assumptions of periodicity and finite bandwidth, our approach is capable of discovering the blood volume pulse directly from unlabelled videos. We find that encouraging sparse power spectra within normal physiological bandlimits and variance over batches of power spectra is sufficient for learning visual features of periodic signals. We perform the first experiments utilizing unlabelled video data not specifically created for rPPG to train robust pulse rate estimators. Given the limited inductive biases and impressive empirical results, the approach is theoretically capable of discovering other periodic signals from video, enabling multiple physiological measurements without the need for ground truth signals. Codes to fully reproduce the experiments are made available along with the paper.
翻訳日:2023-03-15 14:45:50 公開日:2023-03-14
# 産業人工知能におけるコンセプトドリフトと不確かさの関連について

On the Connection between Concept Drift and Uncertainty in Industrial Artificial Intelligence ( http://arxiv.org/abs/2303.07940v1 )

ライセンス: Link先を確認
Jesus L. Lobo, Ibai La\~na, Eneko Osaba and Javier Del Ser(参考訳) AIベースのデジタルツインは、モノのインターネットとリアルタイムデータ分析によって技術的に強化された産業4.0革命の最先端にある。 産業資産から収集された情報は連続的に生成され、厳しいタイミング制約の下で処理しなければならないデータストリームが生成される。 このようなデータストリームは通常、非定常的な現象の影響を受けるため、ストリームのデータ分布が変化し、データ解析に使用されるモデルによって得られる知識は時代遅れになる(いわゆるコンセプトドリフト効果)。 変更の早期検出(ドリフト)はモデルの知識を更新するために不可欠であり、特にストリームデータに関連する基礎的な真実が容易に利用できないシナリオでは困難である。 その他の多くの手法の中で、モデルの信頼度の推定は、教師なし環境での漂流を検出するための基準として、いくつかの研究でひどく提案されている。 本書の目標は、モデルが出力に対する自信とコンセプトドリフトの存在を確証し、確証することであり、それを実験的に示し、将来報告される比較研究における不確実性評価の大幅な検討を提唱することである。

AI-based digital twins are at the leading edge of the Industry 4.0 revolution, which are technologically empowered by the Internet of Things and real-time data analysis. Information collected from industrial assets is produced in a continuous fashion, yielding data streams that must be processed under stringent timing constraints. Such data streams are usually subject to non-stationary phenomena, causing that the data distribution of the streams may change, and thus the knowledge captured by models used for data analysis may become obsolete (leading to the so-called concept drift effect). The early detection of the change (drift) is crucial for updating the model's knowledge, which is challenging especially in scenarios where the ground truth associated to the stream data is not readily available. Among many other techniques, the estimation of the model's confidence has been timidly suggested in a few studies as a criterion for detecting drifts in unsupervised settings. The goal of this manuscript is to confirm and expose solidly the connection between the model's confidence in its output and the presence of a concept drift, showcasing it experimentally and advocating for a major consideration of uncertainty estimation in comparative studies to be reported in the future.
翻訳日:2023-03-15 14:45:30 公開日:2023-03-14
# スパース潜点拡散モデルによる制御可能なメッシュ生成

Controllable Mesh Generation Through Sparse Latent Point Diffusion Models ( http://arxiv.org/abs/2303.07938v1 )

ライセンス: Link先を確認
Zhaoyang Lyu, Jinyi Wang, Yuwei An, Ya Zhang, Dahua Lin, Bo Dai(参考訳) メッシュ生成は、コンピュータグラフィックスや仮想コンテンツを含む様々なアプリケーションにおいて大きな価値があるが、メッシュの生成モデルの設計は、その不規則なデータ構造と、同じカテゴリのメッシュの一貫性のないトポロジーのために困難である。 本研究では,メッシュ生成のための新しいスパース潜点拡散モデルを設計する。 私たちの重要な洞察は、ポイントクラウドをメッシュの中間表現と見なし、代わりにポイントクラウドの分布をモデル化することです。 メッシュはShape as Points (SAP)のような技術を通じてポイントクラウドから生成することができるが、メッシュを直接生成する際の課題は、効果的に回避できる。 メッシュ生成手法の効率性と制御性を高めるために,2つのDDPMをそれぞれスパース潜在点の空間で訓練し,これらの潜在点の位置と特徴の分布をモデル化する,ポイント意味的特徴を持つスパース潜在点の集合に,さらにポイント雲を符号化することを提案する。 この潜伏空間におけるサンプリングは、密度の高い雲を直接サンプリングするよりも高速である。 さらに、スパースな潜在ポイントは、生成されたメッシュの全体構造と局所的な詳細の両方を明示的に制御することもできます。 提案したスパース遅延点拡散モデルを用いてShapeNetデータセットを用いて大規模な実験を行い,既存の手法と比較して生成品質と制御性において優れた性能が得られることを示した。

Mesh generation is of great value in various applications involving computer graphics and virtual content, yet designing generative models for meshes is challenging due to their irregular data structure and inconsistent topology of meshes in the same category. In this work, we design a novel sparse latent point diffusion model for mesh generation. Our key insight is to regard point clouds as an intermediate representation of meshes, and model the distribution of point clouds instead. While meshes can be generated from point clouds via techniques like Shape as Points (SAP), the challenges of directly generating meshes can be effectively avoided. To boost the efficiency and controllability of our mesh generation method, we propose to further encode point clouds to a set of sparse latent points with point-wise semantic meaningful features, where two DDPMs are trained in the space of sparse latent points to respectively model the distribution of the latent point positions and features at these latent points. We find that sampling in this latent space is faster than directly sampling dense point clouds. Moreover, the sparse latent points also enable us to explicitly control both the overall structures and local details of the generated meshes. Extensive experiments are conducted on the ShapeNet dataset, where our proposed sparse latent point diffusion model achieves superior performance in terms of generation quality and controllability when compared to existing methods.
翻訳日:2023-03-15 14:45:10 公開日:2023-03-14
# 2次元拡散モデルにロバストテキスト-3次元生成のための3次元一貫性を知らせる

Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D Generation ( http://arxiv.org/abs/2303.07937v1 )

ライセンス: Link先を確認
Junyoung Seo, Wooseok Jang, Min-Seop Kwak, Jaehoon Ko, Hyeonsu Kim, Junho Kim, Jin-Hwa Kim, Jiyoung Lee, Seungryong Kim(参考訳) テキスト対3d生成は、前訓練されたテキスト対2d拡散モデルを用いてゼロショット設定で神経放射場(nerf)を最適化する手法であるスコア蒸留の出現により、近年急速に進歩している。 しかし, 2次元拡散モデルにおける3次元認識の欠如は, スコア蒸留法による3次元シーンの再構成を不安定にする。 この問題に対処するため,我々は,事前学習した2次元拡散モデルに3次元認識を組み込んだ新しいフレームワークであるShaoursを提案する。 まず,与えられたテキストプロンプトの粗い3次元構造を構築し,拡散モデルの条件として投影された視点特異的深度マップを用いた。 さらに,ロバストな生成のための粗い3次元構造内の誤差や空間性を扱う2次元拡散モデルの学習を可能にするトレーニング戦略と,シーンのすべての視点において意味的一貫性を確保する手法を導入する。 我々の枠組みは, 先行技術の限界を超え, 2次元拡散モデルの3次元整合生成に大きな影響を与える。

Text-to-3D generation has shown rapid progress in recent days with the advent of score distillation, a methodology of using pretrained text-to-2D diffusion models to optimize neural radiance field (NeRF) in the zero-shot setting. However, the lack of 3D awareness in the 2D diffusion models destabilizes score distillation-based methods from reconstructing a plausible 3D scene. To address this issue, we propose \ours, a novel framework that incorporates 3D awareness into pretrained 2D diffusion models, enhancing the robustness and 3D consistency of score distillation-based methods. We realize this by first constructing a coarse 3D structure of a given text prompt and then utilizing projected, view-specific depth map as a condition for the diffusion model. Additionally, we introduce a training strategy that enables the 2D diffusion model learns to handle the errors and sparsity within the coarse 3D structure for robust generation, as well as a method for ensuring semantic consistency throughout all viewpoints of the scene. Our framework surpasses the limitations of prior arts, and has significant implications for 3D consistent generation of 2D diffusion models.
翻訳日:2023-03-15 14:44:46 公開日:2023-03-14
# DAA:バイナリコード変換器による年齢推定のためのデルタエイジAdaIN演算

DAA: A Delta Age AdaIN operation for age estimation via binary code transformer ( http://arxiv.org/abs/2303.07929v1 )

ライセンス: Link先を確認
Ping Chen, Xingpeng Zhang, Ye Li, Ju Tao, Bin Xiao, Bing Wang, Zongjie Jiang(参考訳) 裸眼での年齢認識は、通常、他の年齢との比較に基づいて行われる。 しかし,各年齢の代表コントラスト画像の取得が困難であるため,コンピュータタスクでは無視されている。 トランスファー学習に触発されてデルタエイジ・アダイン(daa)演算を設計,各年齢の特徴差を求め,平均偏差と標準偏差を表す学習値を用いて各年齢のスタイルマップを得る。 我々は、転帰学習の入力を、連続年齢特徴情報を得るために、年齢自然数のバイナリコードとして与える。 バイナリコードマッピングで得られた2つの値群は、比較年齢の平均と標準偏差に対応している。 要約すると,本手法はFaceEncoder,DAA操作,バイナリコードマッピング,AgeDecoderモジュールの4つの部分から構成される。 agedecoderを介してデルタ年齢を得た後、すべての比較年齢とデルタ年齢の平均値を予測年齢として捉えます。 提案手法は最先端の手法と比較して,複数の顔年齢データセットのパラメータが少なく,性能が向上する。

Naked eye recognition of age is usually based on comparison with the age of others. However, this idea is ignored by computer tasks because it is difficult to obtain representative contrast images of each age. Inspired by the transfer learning, we designed the Delta Age AdaIN (DAA) operation to obtain the feature difference with each age, which obtains the style map of each age through the learned values representing the mean and standard deviation. We let the input of transfer learning as the binary code of age natural number to obtain continuous age feature information. The learned two groups of values in Binary code mapping are corresponding to the mean and standard deviation of the comparison ages. In summary, our method consists of four parts: FaceEncoder, DAA operation, Binary code mapping, and AgeDecoder modules. After getting the delta age via AgeDecoder, we take the average value of all comparison ages and delta ages as the predicted age. Compared with state-of-the-art methods, our method achieves better performance with fewer parameters on multiple facial age datasets.
翻訳日:2023-03-15 14:44:25 公開日:2023-03-14
# 時系列表と多変量時系列のモデル複雑性の理解 : ヌメライデータサイエンストーナメントを事例として

Understanding Model Complexity for temporal tabular and multi-variate time series, case study with Numerai data science tournament ( http://arxiv.org/abs/2303.07925v1 )

ライセンス: Link先を確認
Thomas Wong, Prof. Mauricio Barahona(参考訳) 本稿では,多変量時系列モデリングにおける特徴工学と次元減少法の利用について検討する。 ニュメライトーナメントから作成した特徴的相互相関時系列データセットを用いて,異なる特徴工学手法による性能と予測の両方が同じ平衡に収束し,再生核ヒルベルト空間によって特徴づけられることを示した。 高次元時系列モデリングのためのランダムな非線形変換とリッジ回帰を組み合わせた新しいアンサンブル法を提案する。 LSTMやトランスフォーマーなどのシーケンスモデリングによく用いられるディープラーニングモデルと比較して,本手法はより堅牢である(異なるランダムシードに対するモデル分散が低く,アーキテクチャの選択に敏感でない)。 また、PyTorchのような高度なディープラーニングフレームワークを使う必要がなくなるため、モデルの単純さも利点である。 次に、学習した特徴ランキングを、ヌメライトーナメントにおける時間表予測問題に適用し、本手法から得られた特徴ランキングの予測力は、移動平均値に基づくベースライン予測モデルよりも優れている。

In this paper, we explore the use of different feature engineering and dimensionality reduction methods in multi-variate time-series modelling. Using a feature-target cross correlation time series dataset created from Numerai tournament, we demonstrate under over-parameterised regime, both the performance and predictions from different feature engineering methods converge to the same equilibrium, which can be characterised by the reproducing kernel Hilbert space. We suggest a new Ensemble method, which combines different random non-linear transforms followed by ridge regression for modelling high dimensional time-series. Compared to some commonly used deep learning models for sequence modelling, such as LSTM and transformers, our method is more robust (lower model variance over different random seeds and less sensitive to the choice of architecture) and more efficient. An additional advantage of our method is model simplicity as there is no need to use sophisticated deep learning frameworks such as PyTorch. The learned feature rankings are then applied to the temporal tabular prediction problem in the Numerai tournament, and the predictive power of feature rankings obtained from our method is better than the baseline prediction model based on moving averages
翻訳日:2023-03-15 14:43:56 公開日:2023-03-14
# マルチドメイン学習によるアクセント音声認識の改善

Improving Accented Speech Recognition with Multi-Domain Training ( http://arxiv.org/abs/2303.07924v1 )

ライセンス: Link先を確認
Lucas Maison, Yannick Est\`eve(参考訳) 自己教師付き学習の台頭により、音声認識(asr)システムは様々なデータセットで人間に近いパフォーマンスを達成している。 しかし、それらはまだ一般化能力がなく、アクセントのバリエーションのようなドメインシフトに対して堅牢ではない。 本研究では、4つの異なるフランス語アクセントを表す音声を用いて、事前学習されたASRモデルの堅牢性を改善するための微調整データセットを作成する。 トレーニングセットに様々なアクセントを組み込むことにより、ドメイン内およびドメイン外の両方の改善を得る。 数値実験の結果,アフリカ・ベルギーのアクセントにおいて,標準フランス語では高い性能を維持しつつ,単ドメイン学習に比べて最大25%(相対)の誤り率を低減できることがわかった。

Thanks to the rise of self-supervised learning, automatic speech recognition (ASR) systems now achieve near-human performance on a wide variety of datasets. However, they still lack generalization capability and are not robust to domain shifts like accent variations. In this work, we use speech audio representing four different French accents to create fine-tuning datasets that improve the robustness of pre-trained ASR models. By incorporating various accents in the training set, we obtain both in-domain and out-of-domain improvements. Our numerical experiments show that we can reduce error rates by up to 25% (relative) on African and Belgian accents compared to single-domain training while keeping a good performance on standard French.
翻訳日:2023-03-15 14:43:16 公開日:2023-03-14
# 不確定パラメータを持つニューラルネットワークの到達可能性解析

Reachability Analysis of Neural Networks with Uncertain Parameters ( http://arxiv.org/abs/2303.07917v1 )

ライセンス: Link先を確認
Pierre-Jean Meyer(参考訳) ニューラルネットワークの到達可能性分析手法に関する文献は、現在、ネットワークの入力の不確実性のみに焦点を当てている。 本稿では,ニューラルネットワークの到達性解析に新たな2つのアプローチを導入し,内部パラメータ(各層の重み行列とバイアスベクトル)に不確実性を加えることにより,ニューラルネットワークの形式的手法の分野を,安全なトレーニングやネットワーク修復といった新たなトピックに開放する。 最初に提案する手法は,混合単調性(最初は力学系に導入)に基づく既存の到達可能性解析手法に依存する。 2つ目の提案されたアプローチは、検証ツールNeurifyで最初に実装されたESIP(エラーベースのシンボリックインターバル伝搬)アプローチを拡張し、ツールVeriNetで最初に言及された。 ESIP手法は,ネットワークの入力にのみ不確実性を有する古典的ケースにおいて,混合単調性到達可能性解析よりも優れていることがしばしば示されているが,本論文では,重みとバイアスの不確実性を扱う場合の状況(精度,計算時間,メモリ使用量,より広い適用性)が大幅に逆転していることを示す数値シミュレーションを通して示す。

The literature on reachability analysis methods for neural networks currently only focuses on uncertainties on the network's inputs. In this paper, we introduce two new approaches for the reachability analysis of neural networks with additional uncertainties on their internal parameters (weight matrices and bias vectors of each layer), which may open the field of formal methods on neural networks to new topics, such as safe training or network repair. The first and main method that we propose relies on existing reachability analysis approach based on mixed monotonicity (initially introduced for dynamical systems). The second proposed approach extends the ESIP (Error-based Symbolic Interval Propagation) approach which was first implemented in the verification tool Neurify, and first mentioned in the publication of the tool VeriNet. Although the ESIP approach has been shown to often outperform the mixed-monotonicity reachability analysis in the classical case with uncertainties only on the network's inputs, we show in this paper through numerical simulations that the situation is greatly reversed (in terms of precision, computation time, memory usage, and broader applicability) when dealing with uncertainties on the weights and biases.
翻訳日:2023-03-15 14:42:56 公開日:2023-03-14
# エアライティングにおけるシングルストローク数認識のためのCNNフレームワーク

A CNN Based Framework for Unistroke Numeral Recognition in Air-Writing ( http://arxiv.org/abs/2303.07989v1 )

ライセンス: Link先を確認
Prasun Roy, Subhankar Ghosh, Umapada Pal(参考訳) エアライティング(Air-writing)とは、6自由度を持つ3次元空間で手振りで言語文字を仮想的に書くこと。 本稿では,CNNを用いた汎用ビデオカメラ支援畳み込みニューラルネットワークを提案する。 ジェネリックビデオカメラの前に固定色のマーカーを用いてジェスチャーを行い、続いて色に基づくセグメンテーションを行い、マーカーを識別し、マーカー先端の軌跡を追跡する。 その後、トレーニング済みのCNNを使用してジェスチャーを分類する。 新たに取得したデータを用いた転写学習により、認識精度をさらに向上する。 システムの性能は、色に基づくセグメンテーションによる照明条件によって大きく異なる。 変動の少ない照明条件下では、システムは複数の言語の孤立した一ストローク数字を認識できる。 提案手法は英語,ベンガル語,デヴァナガリー数字の個人別評価において97.7%,95.4%,93.7%の認識率を達成した。

Air-writing refers to virtually writing linguistic characters through hand gestures in three-dimensional space with six degrees of freedom. This paper proposes a generic video camera-aided convolutional neural network (CNN) based air-writing framework. Gestures are performed using a marker of fixed color in front of a generic video camera, followed by color-based segmentation to identify the marker and track the trajectory of the marker tip. A pre-trained CNN is then used to classify the gesture. The recognition accuracy is further improved using transfer learning with the newly acquired data. The performance of the system varies significantly on the illumination condition due to color-based segmentation. In a less fluctuating illumination condition, the system is able to recognize isolated unistroke numerals of multiple languages. The proposed framework has achieved 97.7%, 95.4% and 93.7% recognition rates in person independent evaluations on English, Bengali and Devanagari numerals, respectively.
翻訳日:2023-03-15 14:35:44 公開日:2023-03-14
# 部分神経の最適輸送

Partial Neural Optimal Transport ( http://arxiv.org/abs/2303.07988v1 )

ライセンス: Link先を確認
Milena Gazdieva, Alexander Korotin, Evgeny Burnaev(参考訳) 本稿では,部分最適輸送(ot)マップ,すなわち特定の質量の測度の部分間のotマップを計算する新しいニューラル手法を提案する。 合成例を用いて部分的神経最適輸送アルゴリズムをテストする。

We propose a novel neural method to compute partial optimal transport (OT) maps, i.e., OT maps between parts of measures of the specified masses. We test our partial neural optimal transport algorithm on synthetic examples.
翻訳日:2023-03-15 14:35:32 公開日:2023-03-14
# ニューラルネットワークによる高騒音レジームにおけるLPNの解法

Practically Solving LPN in High Noise Regimes Faster Using Neural Networks ( http://arxiv.org/abs/2303.07987v1 )

ライセンス: Link先を確認
Haozhe Jiang, Kaiyue Wen, Yilei Chen(参考訳) ニューラルネットワークを用いて,雑音問題(LPN)を用いた学習パリティの解法を系統的に検討する。 我々の主な貢献は、2層ニューラルネットワークのファミリを設計し、高ノイズ、低次元のシステムにおいて古典的アルゴリズムを実質的に上回ります。 LPNサンプルの数が豊富で、非常に限られている3つの設定について検討する。 それぞれの設定で、できるだけ早くlpnを解くニューラルネットワークモデルを提供します。 いくつかの設定では、モデルの設計の合理性を説明する理論を提供することもできます。 Esser、Kubler、May(CRYPTO 2017)の以前の実験と比較すると、次元$n = 26$、ノイズレート$\tau = 0.498$、'Guess-then-Gaussian-elimination'アルゴリズムは64CPUコアで3.12日かかり、ニューラルネットワークアルゴリズムは8GPUで66分かかる。 我々のアルゴリズムは、中または大次元のLPNインスタンスを解くためのハイブリッドアルゴリズムにプラグインすることもできる。

We conduct a systematic study of solving the learning parity with noise problem (LPN) using neural networks. Our main contribution is designing families of two-layer neural networks that practically outperform classical algorithms in high-noise, low-dimension regimes. We consider three settings where the numbers of LPN samples are abundant, very limited, and in between. In each setting we provide neural network models that solve LPN as fast as possible. For some settings we are also able to provide theories that explain the rationale of the design of our models. Comparing with the previous experiments of Esser, Kubler, and May (CRYPTO 2017), for dimension $n = 26$, noise rate $\tau = 0.498$, the ''Guess-then-Gaussian-elimination'' algorithm takes 3.12 days on 64 CPU cores, whereas our neural network algorithm takes 66 minutes on 8 GPUs. Our algorithm can also be plugged into the hybrid algorithms for solving middle or large dimension LPN instances.
翻訳日:2023-03-15 14:35:28 公開日:2023-03-14
# 原子蒸気中における時間エネルギー絡み合いw三光子の直接生成

Direct generation of time-energy-entangled W triphotons in atomic vapor ( http://arxiv.org/abs/2303.07977v1 )

ライセンス: Link先を確認
Kangkang Li, Jianming Wen, Yin Cai, Saeid Vashahri Ghamsari, Changbiao Li, Feng Li, Zhaoyang Zhang, Yanpeng Zhang, Min Xiao(参考訳) 絡み合った多光子の源は量子基礎の基礎試験に必須であるだけでなく、今日の様々な光学量子技術の基盤でもある。 過去30年にわたって、既存の双光子源を線形光学とポストセレクションで多重化することで、多光子絡みの創出に多大な努力が注がれている。 本報告では, 従来と異なり, 連続モードの時間-エネルギー-絡み合ったW級三重項の観察を, 4段原子蒸気セルにおける自発6波混合(SSWM)のプロセスを通して直接行った前例のない生成率で行った。 電磁誘導型透過性およびコヒーレンス制御によって実現されたSSWM方式により、長い時間的コヒーレンスや制御可能な波形を含む多くの興味深い特性を持つ多目的狭帯域トリトン生成が可能となり、長距離量子通信、ネットワーク、および光子と原子の相互作用による情報処理に最適である。 最も重要なことは、我々の研究は信頼性と効率のよい真の三光子源の開発の道を開くことで、容易に到達可能な多光子絡みの研究を可能にします。

Sources of entangled multiphotons are not only essential for fundamental tests of quantum foundations, but are also the cornerstone of a variety of optical quantum technologies today. Over past three decades, tremendous efforts have been devoted to creating multiphoton entanglement by multiplexing existing biphoton sources with linear optics and postselections. Different from all previous protocols, here we report, for the first time, the observation of continuous-mode time-energy-entangled W-class triphotons with an unprecedented generation rate directly through the process of spontaneous six-wave mixing (SSWM) in a four-level triple-Lambda atomic vapor cell. Facilitated by electromagnetically induced transparency and coherence control, our SSWM scheme enables versatile narrowband triphoton generation with many intriguing properties including long temporal coherence and controllable waveforms, ideal for implementing long-distance quantum communications, networking, and information processing by interfacing photons and atoms. Most importantly, our work paves a way for the development of a reliable and efficient genuine triphoton source, thus making the research on multiphoton entanglement within easy reach.
翻訳日:2023-03-15 14:35:07 公開日:2023-03-14
# 有界電子$g$因子に対するハドロン真空偏極補正

Hadronic vacuum polarization correction to the bound-electron $g$ factor ( http://arxiv.org/abs/2303.07973v1 )

ライセンス: Link先を確認
Eugen Dizer and Zolt\'an Harman(参考訳) 有界電子の$g$因子に対するハドロン真空偏極補正を理論的に検討した。 ハドロンへのe^-e^+$消滅の計測された断面積から得られる有効ハドロンuehling電位を用いて、低リン化水素レベルに対するg$因子補正を計算する。 解析的ディラック・クーロン波動関数と有限核半径を考慮した有界波動関数を用いる。 点状核の場合の$g$因子シフトの閉公式は導出される。 重イオンでは、そのような効果は自由電子$g$因子よりもはるかに大きいことが分かる。

The hadronic vacuum polarization correction to the $g$ factor of a bound electron is investigated theoretically. An effective hadronic Uehling potential obtained from measured cross sections of $e^- e^+$ annihilation into hadrons is employed to calculate $g$ factor corrections for low-lying hydrogenic levels. Analytical Dirac-Coulomb wave functions, as well as bound wave functions accounting for the finite nuclear radius are used. Closed formulas for the $g$ factor shift in case of a point-like nucleus are derived. In heavy ions, such effects are found to be much larger than for the free-electron $g$ factor.
翻訳日:2023-03-15 14:34:39 公開日:2023-03-14
# 暗黙的構造誘導としての創発的文脈学習の理論

A Theory of Emergent In-Context Learning as Implicit Structure Induction ( http://arxiv.org/abs/2303.07971v1 )

ライセンス: Link先を確認
Michael Hahn, Navin Goyal(参考訳) 大規模言語モデル(LLM)のスケーリングは、サンプルデモからコンテキスト内で学習する緊急能力をもたらす。 進歩にもかかわらず、この現象の理論的理解は限られている。 文脈内学習は、自然言語データに見られる合成操作の組換えに依存している。 事前学習分布が言語的動機づけのある仮定の下で十分な構成構造を持つ場合、文脈内学習能力がジェネリックな次の予測からどのように生じるかを示す情報理論的境界を導出する。 2つ目の境界は LLM に解への中間ステップを出力させる経験的成功の理論的正当化を与える。 理論的予測を検証するために,従来の手法とは異なり,言語の構成的性質を考慮し,文脈内学習を誘導するための制御された設定を導入する。 訓練されたトランスフォーマーは、理論的結果と一致した方法で、様々なタスクに対してコンテキスト内学習を行うことができる。 現実世界のLLMをミニチュアなセットアップでミラーリングすると、パラメータやデータをスケーリングするときにコンテキスト内学習が出現し、中間ステップを出力する時にモデルのパフォーマンスが向上する。 Probingは、入力の合成構造の表現によって、コンテキスト内学習が支持されることを示している。 これらの結果は、大規模言語モデルにおける創発的行動の理論的理解への一歩となる。

Scaling large language models (LLMs) leads to an emergent capacity to learn in-context from example demonstrations. Despite progress, theoretical understanding of this phenomenon remains limited. We argue that in-context learning relies on recombination of compositional operations found in natural language data. We derive an information-theoretic bound showing how in-context learning abilities arise from generic next-token prediction when the pretraining distribution has sufficient amounts of compositional structure, under linguistically motivated assumptions. A second bound provides a theoretical justification for the empirical success of prompting LLMs to output intermediate steps towards an answer. To validate theoretical predictions, we introduce a controlled setup for inducing in-context learning; unlike previous approaches, it accounts for the compositional nature of language. Trained transformers can perform in-context learning for a range of tasks, in a manner consistent with the theoretical results. Mirroring real-world LLMs in a miniature setup, in-context learning emerges when scaling parameters and data, and models perform better when prompted to output intermediate steps. Probing shows that in-context learning is supported by a representation of the input's compositional structure. Taken together, these results provide a step towards theoretical understanding of emergent behavior in large language models.
翻訳日:2023-03-15 14:34:28 公開日:2023-03-14
# 量子計測における普遍性

Universality in Quantum Measurements ( http://arxiv.org/abs/2303.07966v1 )

ライセンス: Link先を確認
Avijit Lahiri(参考訳) 本稿では, 波動関数崩壊仮説とは違って, 波動関数のユニタリなSchr\odinger進化と整合した理論として出現するという, 2つの一般的な原理の形で, 測定装置の環境誘起デコヒーレンスに基づく量子計測理論のアプローチの主な特徴を概観する。 我々は、量子論が現実を記述せず、我々の現象的現実を文脈内で解釈する「it解釈」を構成するという、プランクスケールが交差しないような、哲学的性質のいくつかの観察で締めくくった。 プランクスケールを超えて、現実の根本的に新しい解釈が現れる可能性が高い。

We briefly review a number of major features of the approach to quantum measurement theory based on environment-induced decoherence of the measuring apparatus, and summarize our observations in the form of a couple of general principles that, unlike the wave function collapse hypothesis, emerge as ones consistent with the unitary Schr\"odinger evolution of wave functions. We conclude with a few observations of a philosophical nature, to the effect that that quantum theory does not purport to describe reality but constitutes an {\it interpretation} of our phenomenal reality within a context -- one where the Planck scale is not crossed. Beyond the Planck scale, a radically new interpretation of reality is likely to emerge.
翻訳日:2023-03-15 14:34:05 公開日:2023-03-14
# RoCNet:ディープラーニングを用いたポイントクラウドの3次元ロバスト登録

RoCNet: 3D Robust Registration of Point-Clouds using Deep Learning ( http://arxiv.org/abs/2303.07963v1 )

ライセンス: Link先を確認
Karim Slimani, Brahim Tamadazte, Catherine Achard(参考訳) 本稿では,ディープラーニングに基づく3Dポイントクラウド登録手法を提案する。 アーキテクチャは3つの異なるブロックで構成されている。 (i)各点の直近近傍を符号化する畳み込みグラフに基づく記述子と、表面正規値の変動を符号化する注意機構とからなるエンコーダ。 このような記述子は、同じ集合の点と2つの集合の点の間の注意を強調することで洗練される。 (ii)シンクホーンアルゴリズムを用いて対応の行列を推定するマッチングプロセス。 (iii) 最後に、対応行列からのkcベストスコアを用いて、2つの点雲間の剛性変換をransacにより計算する。 我々はModelNet40データセット上で実験を行い、提案アーキテクチャはガウス雑音による部分的な重なり合いやデータ拡張を含む、ほとんどのシミュレーション構成において最先端の手法よりも優れていることを示す。

This paper introduces a new method for 3D point cloud registration based on deep learning. The architecture is composed of three distinct blocs: (i) an encoder composed of a convolutional graph-based descriptor that encodes the immediate neighbourhood of each point and an attention mechanism that encodes the variations of the surface normals. Such descriptors are refined by highlighting attention between the points of the same set and then between the points of the two sets. (ii) a matching process that estimates a matrix of correspondences using the Sinkhorn algorithm. (iii) Finally, the rigid transformation between the two point clouds is calculated by RANSAC using the Kc best scores from the correspondence matrix. We conduct experiments on the ModelNet40 dataset, and our proposed architecture shows very promising results, outperforming state-of-the-art methods in most of the simulated configurations, including partial overlap and data augmentation with Gaussian noise.
翻訳日:2023-03-15 14:33:52 公開日:2023-03-14
# 広二重ポテンシャルにおけるマクロ量子重ね合わせ

Macroscopic Quantum Superpositions in a Wide Double-Well Potential ( http://arxiv.org/abs/2303.07959v1 )

ライセンス: Link先を確認
Marc Roda-Llordes, Andreu Riera-Campeny, Davide Candoli, Piotr T. Grochowski, Oriol Romero-Isart(参考訳) 本研究では, 量子状態における浮遊粒子の質量中心の高速合成に関する実験的提案を行い, ゼロ点運動よりも長いスケールで非局在化状態であり, 古典的類似性を持たない状態について述べる。 この状態は、高調波トラップが突然切り替わった後、粒子を十分に純粋な量子状態へ初期冷却した後、静的な二重ウェルポテンシャルで進化させることで得られる。 ナノ粒子とマイクロ粒子の共振実験に関係のあるノイズとデコヒーレンスを徹底的に解析する。 この文脈では、ノイズとデコヒーレンスの集合的源の影響を緩和するために、2つの粒子がそれぞれのポテンシャル井戸で進化する可能性を強調している。 提案の汎用性と拡張性は,単一原子,イオン,ボース・アインシュタイン凝縮など,幅広い系での実装に適している。 この結果から,非局在化量子状態において,ソース質量が生成する重力場を実験的に探索する方法が確立された。

We present an experimental proposal for the rapid preparation of the center of mass of a levitated particle in a macroscopic quantum state, that is a state delocalized over a length scale much larger than its zero-point motion and that has no classical analog. This state is prepared by letting the particle evolve in a static double-well potential after a sudden switchoff of the harmonic trap, following initial center-of-mass cooling to a sufficiently pure quantum state. We provide a thorough analysis of the noise and decoherence that is relevant to current experiments with levitated nano- and microparticles. In this context, we highlight the possibility of using two particles, one evolving in each potential well, to mitigate the impact of collective sources of noise and decoherence. The generality and scalability of our proposal make it suitable for implementation with a wide range of systems, including single atoms, ions, and Bose-Einstein condensates. Our results have the potential to enable the generation of macroscopic quantum states at unprecedented scales of length and mass, thereby paving the way for experimental exploration of the gravitational field generated by a source mass in a delocalized quantum state.
翻訳日:2023-03-15 14:33:35 公開日:2023-03-14
# 意味と統計的アプローチを組み合わせたInstagramソーシャルネットワーク投稿の自動要約

Automatic summarisation of Instagram social network posts Combining semantic and statistical approaches ( http://arxiv.org/abs/2303.07957v1 )

ライセンス: Link先を確認
Kazem Taghandiki, Mohammad Hassan Ahmadi, Elnaz Rezaei Ehsan(参考訳) インターネット上の記事、webページ、書籍、ソーシャルネットワーク投稿などのデータやテキストドキュメントの普及は、「自動テキスト要約」というタイトルでテキスト処理の様々な分野において根本的な課題を生み出した。 大量のテキストデータの手作業による処理と要約は、人間ユーザにとって非常に難しく、高価で、時間がかかり、不可能である。 テキスト要約システムは抽出カテゴリーと抽象カテゴリに分けられる。 抽出要約方式では、テキスト文書の最終要約を同一文書の重要な文から変更することなく抽出する。 この方法では、一連の文を繰り返して、代名詞を干渉することができる。 しかし、抽象要約法では、同一文書又は他の文書の文章及び単語の意味及び意義から、テキスト文書の最終要約を抽出する。 研究の多くは、ウェブ文書の収集を要約するために抽出方法や要約を用いており、それぞれが類似性や大きさの点で得られた結果に長所と短所がある。 本研究では,instagramのソーシャルネットワークから人気のあるテキスト投稿を適切な前処理で抽出するためにクローラが開発され,抽出・抽象化アルゴリズムが組み合わされ,それぞれの抽象化アルゴリズムの使用方法が示されている。 Instagram上の人気テキスト投稿820件の観察では、提案システムの精度(80%)が示されている。

The proliferation of data and text documents such as articles, web pages, books, social network posts, etc. on the Internet has created a fundamental challenge in various fields of text processing under the title of "automatic text summarisation". Manual processing and summarisation of large volumes of textual data is a very difficult, expensive, time-consuming and impossible process for human users. Text summarisation systems are divided into extractive and abstract categories. In the extractive summarisation method, the final summary of a text document is extracted from the important sentences of the same document without any modification. In this method, it is possible to repeat a series of sentences and to interfere with pronouns. However, in the abstract summarisation method, the final summary of a textual document is extracted from the meaning and significance of the sentences and words of the same document or other documents. Many of the works carried out have used extraction methods or abstracts to summarise the collection of web documents, each of which has advantages and disadvantages in the results obtained in terms of similarity or size. In this work, a crawler has been developed to extract popular text posts from the Instagram social network with appropriate preprocessing, and a set of extraction and abstraction algorithms have been combined to show how each of the abstraction algorithms can be used. Observations made on 820 popular text posts on the social network Instagram show the accuracy (80%) of the proposed system.
翻訳日:2023-03-15 14:33:14 公開日:2023-03-14
# 不確実性推定のためのウィンドウベース早期実行カスケード:深部アンサンブルが単一モデルよりも効率的である場合

Window-Based Early-Exit Cascades for Uncertainty Estimation: When Deep Ensembles are More Efficient than Single Models ( http://arxiv.org/abs/2303.08010v1 )

ライセンス: Link先を確認
Guoxuan Xia and Christos-Savvas Bouganis(参考訳) Deep Ensemblesは、ディープラーニングアプローチの予測性能と不確実性の両方を改善するための、シンプルで信頼性が高く効果的な方法である。 しかし、複数の独立したモデルをデプロイする必要があるため、計算コストが高いと広く批判されている。 最近の研究は、予測精度において、アンサンブルはアーキテクチャファミリ内の単一モデルをスケーリングするよりも、より計算効率(推論時)が高いことを示している。 これは初期のアプローチでアンサンブルメンバーをカスケードすることで達成される。 本研究では,これらの効率向上を不確実性推定に関連するタスクに拡張することを検討する。 このようなタスクの多く、例えば選択的分類はバイナリ分類であり、我々の重要な洞察は、バイナリ決定境界に近いウィンドウ内でのみサンプルを後続のカスケードステージに渡すことである。 複数のネットワークアーキテクチャと不確実性タスクにわたるimagenetスケールデータの実験により、提案するウィンドウベースのアーリーエクイットアプローチが、単一モデルのスケーリングよりも優れた不確実性-計算トレードオフを達成できることが示されている。 例えば、カスケードされたEfficientNet-B2アンサンブルは、MAC数の30%以下の単一のEfficientNet-B4と同様のカバレッジを5%のリスクで達成することができる。 また、カスケード/アンサンブルはOODデータに対して、スケールアップモデルよりも信頼性の高い改善を提供します。 この作業のコードは、https://github.com/guoxoug/window-early-exitで入手できる。

Deep Ensembles are a simple, reliable, and effective method of improving both the predictive performance and uncertainty estimates of deep learning approaches. However, they are widely criticised as being computationally expensive, due to the need to deploy multiple independent models. Recent work has challenged this view, showing that for predictive accuracy, ensembles can be more computationally efficient (at inference) than scaling single models within an architecture family. This is achieved by cascading ensemble members via an early-exit approach. In this work, we investigate extending these efficiency gains to tasks related to uncertainty estimation. As many such tasks, e.g. selective classification, are binary classification, our key novel insight is to only pass samples within a window close to the binary decision boundary to later cascade stages. Experiments on ImageNet-scale data across a number of network architectures and uncertainty tasks show that the proposed window-based early-exit approach is able to achieve a superior uncertainty-computation trade-off compared to scaling single models. For example, a cascaded EfficientNet-B2 ensemble is able to achieve similar coverage at 5% risk as a single EfficientNet-B4 with <30% the number of MACs. We also find that cascades/ensembles give more reliable improvements on OOD data vs scaling models up. Code for this work is available at: https://github.com/Guoxoug/window-early-exit.
翻訳日:2023-03-15 14:26:23 公開日:2023-03-14
# 超電導ナノワイヤ単光子検出器の最適振幅多重化

Optimal Amplitude Multiplexing of a Series of Superconducting Nanowire Single Photon Detectors ( http://arxiv.org/abs/2303.08009v1 )

ライセンス: Link先を確認
Fabio Chiarello, Roberto Leoni, Francesco Martini, Francesco Mattioli, Alessandro Gaggero(参考訳) 超伝導ナノワイヤ単光子検出器(SNSPD)の集積配列は、光子数分解能、単一光子イメージング、偶然検出などの機能を示しており、量子光学関連の他の応用にも効果的に利用できる。 このようなアプリケーションの複雑さの増大は、異なる検出器の同時読み出しに多重化スキームを使用する必要がある。 一連のSNSPD要素を適切に配置することで、単純な多重化方式を実現することができる。 この研究の目標は、このスキームを調査し最適化することであり、異なるアプリケーションに対して、抵抗を回避できる最適なセットを識別できる一般的な方法を開発することである。 得られた手法は非常に一般的であり、他の検出システムにも拡張できる。

Integrated arrays of Superconducting Nanowire Single Photon Detectors (SNSPDs) have shown capabilities such as Photon Number Resolution, single photon imaging and coincidences detection, and can be effectively used also in other different applications related to quantum optics. The growing complexity of such applications requires the use of multiplexing schemes for the simultaneous readout of different detectors. A simple multiplexing scheme can be realized by arranging a series of SNSPDs elements, shunted by appropriate resistances. The goal of this work is to investigate and optimize this scheme, developing a general method able to identify the optimal sets of shunting resistences for any different application. The methodology obtained is very general, and can be extended to other detection systems.
翻訳日:2023-03-15 14:25:56 公開日:2023-03-14
# 運転支援のための持続的リスク対策

Continuous Risk Measures for Driving Support ( http://arxiv.org/abs/2303.08007v1 )

ライセンス: Link先を確認
Julian Eggert and Tim Puphal(参考訳) 本稿では,モデルの安定性と弱点を質的に評価し,実際の縦断・横断のシナリオで定量的に検証することにより,モデルに基づく3つのリスク尺度を比較した。 まず2D操作と非クラッシュケースに拡張して,TTCE(Time-To-Closest-Encounter)を検索する,従来のヒューリスティックなTime-To-Collision(TTC)から始める。 第2のリスク測度はガウス分布による位置の不確かさをモデル化し、衝突リスクに空間占有確率を用いる。 そこで我々は,スパース臨界事象といわゆる生存条件の統計に基づいて,新たなリスク尺度を導出する。 得られた生存分析は、衝突の早期検出時間と、その固い理論的根拠によって支持される近クラッシュおよび非クラッシュのケースにおける偽陽性検出の少ないことを示す。 TTCEの一般化とADASとADの検証に適したガウス法と見ることができる。

In this paper, we compare three different model-based risk measures by evaluating their stengths and weaknesses qualitatively and testing them quantitatively on a set of real longitudinal and intersection scenarios. We start with the traditional heuristic Time-To-Collision (TTC), which we extend towards 2D operation and non-crash cases to retrieve the Time-To-Closest-Encounter (TTCE). The second risk measure models position uncertainty with a Gaussian distribution and uses spatial occupancy probabilities for collision risks. We then derive a novel risk measure based on the statistics of sparse critical events and so-called survival conditions. The resulting survival analysis shows to have an earlier detection time of crashes and less false positive detections in near-crash and non-crash cases supported by its solid theoretical grounding. It can be seen as a generalization of TTCE and the Gaussian method which is suitable for the validation of ADAS and AD.
翻訳日:2023-03-15 14:25:44 公開日:2023-03-14
# セルネットワークにおける負荷分散のためのマルチエージェントアテンションアクタクリティカルアルゴリズム

Multi-agent Attention Actor-Critic Algorithm for Load Balancing in Cellular Networks ( http://arxiv.org/abs/2303.08003v1 )

ライセンス: Link先を確認
Jikun Kang, Di Wu, Ju Wang, Ekram Hossain, Xue Liu, Gregory Dudek(参考訳) セルラーネットワークでは、ユーザ機器(UE)が基地局(BS)から別の基地局(BS)へハンドオフし、BS間の負荷分散問題を引き起こす。 この問題に対処するため、BSは協調して、スムーズなマイグレーション(あるいはハンドオフ)を提供し、UEのサービス要件を満たすことができる。 本稿では,負荷分散問題をマルコフゲームとして定式化し,bss(すなわちエージェント)間の協調を容易にするロバスト-ma3cアルゴリズムを提案する。 特に,マルコフゲームを解き,ナッシュ均衡政策を見出すために,システムの不確かさをモデル化するために自然エージェントを採用するという考え方を取り入れた。 さらに,低性能BSを支援するために,高性能BSの自己認識機構を利用する。 さらに,アクティブなUEとアイドルなUEのロードバランシングを容易にする2種類のスキームについても検討する。 シミュレーションによる広範な評価を行い,最先端のmarl法と比較して,ロバスト・\ours~schemeは全体の性能を最大45%向上できることを示した。

In cellular networks, User Equipment (UE) handoff from one Base Station (BS) to another, giving rise to the load balancing problem among the BSs. To address this problem, BSs can work collaboratively to deliver a smooth migration (or handoff) and satisfy the UEs' service requirements. This paper formulates the load balancing problem as a Markov game and proposes a Robust Multi-agent Attention Actor-Critic (Robust-MA3C) algorithm that can facilitate collaboration among the BSs (i.e., agents). In particular, to solve the Markov game and find a Nash equilibrium policy, we embrace the idea of adopting a nature agent to model the system uncertainty. Moreover, we utilize the self-attention mechanism, which encourages high-performance BSs to assist low-performance BSs. In addition, we consider two types of schemes, which can facilitate load balancing for both active UEs and idle UEs. We carry out extensive evaluations by simulations, and simulation results illustrate that, compared to the state-of-the-art MARL methods, Robust-\ours~scheme can improve the overall performance by up to 45%.
翻訳日:2023-03-15 14:25:25 公開日:2023-03-14
# FingerSLAM: Visuo-tactile フィードバックからの物体定位と再構成

FingerSLAM: Closed-loop Unknown Object Localization and Reconstruction from Visuo-tactile Feedback ( http://arxiv.org/abs/2303.07997v1 )

ライセンス: Link先を確認
Jialiang Zhao, Maria Bauza, Edward H. Adelson(参考訳) 本稿では,未知の物体の6自由度位置推定と3次元再構成に視覚触覚フィードバックを用いる問題に対処する。 指先での局所触覚センシングと手首カメラからのグローバル視覚センシングを組み合わせた閉ループ係数グラフに基づくポーズ推定器であるFingerSLAMを提案する。 FingerSLAMは、2つの構成されたポーズ推定器で構成されている: マルチパス洗練された触覚ベースのポーズ推定器で、詳細な局所的なテクスチャから動きを捉える。 また,現在の視覚や触覚画像を予め保存したキーフレームに積極的にマッチさせるループクロージャ機構も設計し,累積誤差を低減した。 fingerslamには触覚と視覚の2つのセンシングモードと、ファクタグラフベースの最適化フレームワークによるループクロージャメカニズムが組み込まれている。 このようなフレームワークは、スタンドアローン推定器よりも正確な最適化されたポーズ推定ソリューションを生成する。 推定されたポーズは、触覚画像から回収した局所点雲を縫い合わせることで、未知物体の形状を漸進的に再構築する。 我々は20個のオブジェクトで収集した実世界のデータに基づいてシステムを訓練する。 トレーニング中に見つからない6つの物体の定量的および定性的な実世界評価により,信頼性の高いビジュオ触覚ポーズ推定と形状復元を行う。

In this paper, we address the problem of using visuo-tactile feedback for 6-DoF localization and 3D reconstruction of unknown in-hand objects. We propose FingerSLAM, a closed-loop factor graph-based pose estimator that combines local tactile sensing at finger-tip and global vision sensing from a wrist-mount camera. FingerSLAM is constructed with two constituent pose estimators: a multi-pass refined tactile-based pose estimator that captures movements from detailed local textures, and a single-pass vision-based pose estimator that predicts from a global view of the object. We also design a loop closure mechanism that actively matches current vision and tactile images to previously stored key-frames to reduce accumulated error. FingerSLAM incorporates the two sensing modalities of tactile and vision, as well as the loop closure mechanism with a factor graph-based optimization framework. Such a framework produces an optimized pose estimation solution that is more accurate than the standalone estimators. The estimated poses are then used to reconstruct the shape of the unknown object incrementally by stitching the local point clouds recovered from tactile images. We train our system on real-world data collected with 20 objects. We demonstrate reliable visuo-tactile pose estimation and shape reconstruction through quantitative and qualitative real-world evaluations on 6 objects that are unseen during training.
翻訳日:2023-03-15 14:25:03 公開日:2023-03-14
# 質問応答システムとしてのChatGPTの評価

Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions ( http://arxiv.org/abs/2303.07992v1 )

ライセンス: Link先を確認
Yiming Tan, Dehai Min, Yu Li, Wenbo Li, Nan Hu, Yongrui Chen, Guilin Qi(参考訳) ChatGPTは強力な大規模言語モデル(LLM)であり、自然言語理解において顕著な進歩を遂げている。 それでも、モデルの性能と限界を広く評価する必要がある。 ChatGPTはWikipediaなどのリソースをカバーし、自然言語による質問応答をサポートするため、従来の知識に基づく質問応答(KBQA)モデルの代替として注目されている。 複雑な質問応答はKBQAの課題であり、意味解析と推論におけるモデルの能力を包括的にテストする。 質問応答システム(QAS)としてのChatGPTの性能を自身の知識で評価するために,複雑な質問に答える能力を評価する枠組みを提案する。 我々のアプローチでは、複雑な質問の潜在的な特徴を分類し、各テスト質問を複数のラベルで記述し、組合せ推論を識別する。 Ribeiroらによって提案されたCheckListのブラックボックステスト仕様に従い、複雑な質問に答えるためにChatGPTの機能と信頼性を評価する評価手法を開発した。 提案手法を用いて、約190,000のテストケースを含む6つの実世界のKBベースのCQAデータセットに対して、ChatGPTの性能を評価する。 LLMの長期的問題を特定するため,ChatGPT,GPT-3.5,GPT-3,FLAN-T5の評価結果を比較した。 データセットとコードはhttps://github.com/tan92hl/complex-Question-Answering-Evaluation-of-ChatGPTで公開されている。

ChatGPT is a powerful large language model (LLM) that has made remarkable progress in natural language understanding. Nevertheless, the performance and limitations of the model still need to be extensively evaluated. As ChatGPT covers resources such as Wikipedia and supports natural language question answering, it has garnered attention as a potential replacement for traditional knowledge based question answering (KBQA) models. Complex question answering is a challenge task of KBQA, which comprehensively tests the ability of models in semantic parsing and reasoning. To assess the performance of ChatGPT as a question answering system (QAS) using its own knowledge, we present a framework that evaluates its ability to answer complex questions. Our approach involves categorizing the potential features of complex questions and describing each test question with multiple labels to identify combinatorial reasoning. Following the black-box testing specifications of CheckList proposed by Ribeiro et.al, we develop an evaluation method to measure the functionality and reliability of ChatGPT in reasoning for answering complex questions. We use the proposed framework to evaluate the performance of ChatGPT in question answering on 8 real-world KB-based CQA datasets, including 6 English and 2 multilingual datasets, with a total of approximately 190,000 test cases. We compare the evaluation results of ChatGPT, GPT-3.5, GPT-3, and FLAN-T5 to identify common long-term problems in LLMs. The dataset and code are available at https://github.com/tan92hl/Complex-Question-Answering-Evaluation-of-ChatGPT.
翻訳日:2023-03-15 14:24:37 公開日:2023-03-14
# 干し草の山から針を見つける:長いテキスト分類器からの教師なし合理的抽出

Finding the Needle in a Haystack: Unsupervised Rationale Extraction from Long Text Classifiers ( http://arxiv.org/abs/2303.07991v1 )

ライセンス: Link先を確認
Kamil Bujel, Andrew Caines, Helen Yannakoudakis and Marek Rei(参考訳) 長文変換器は、言語モデルによる長文表現の改善と、下流の文書レベルのタスクにおけるその性能向上を目的として設計されている。 しかし、ロングフォームモデルにおけるトークンレベルの予測の品質についてはあまり理解されていない。 教師なし合理抽出を用いた文書分類の文脈におけるそのようなアーキテクチャの性能について検討する。 また,Longformer言語モデルと組み合わせた場合,標準的なソフトアテンション手法が著しく悪化することがわかった。 本稿では,RoBERTaを文的に適用し,トークンレベルで有意な有理を抽出する構成的ソフトアテンションアーキテクチャを提案する。 本手法は,感情分類データセットにおいて,Longformer主導のベースラインを大幅に上回るが,ランタイムも著しく低い。

Long-sequence transformers are designed to improve the representation of longer texts by language models and their performance on downstream document-level tasks. However, not much is understood about the quality of token-level predictions in long-form models. We investigate the performance of such architectures in the context of document classification with unsupervised rationale extraction. We find standard soft attention methods to perform significantly worse when combined with the Longformer language model. We propose a compositional soft attention architecture that applies RoBERTa sentence-wise to extract plausible rationales at the token-level. We find this method to significantly outperform Longformer-driven baselines on sentiment classification datasets, while also exhibiting significantly lower runtimes.
翻訳日:2023-03-15 14:24:13 公開日:2023-03-14
# 進捗ノート理解-評価と計画推論--2022年N2C2トラック3共有タスクの概要

Progress Note Understanding -- Assessment and Plan Reasoning: Overview of the 2022 N2C2 Track 3 Shared Task ( http://arxiv.org/abs/2303.08038v1 )

ライセンス: Link先を確認
Yanjun Gao, Dmitriy Dligach, Timothy Miller, Matthew M Churpek, Ozlem Uzuner, Majid Afshar(参考訳) EHR(Electronic Health Record)では、医療提供者が患者の日々の進歩と治療計画を文書化している。 EHRは、患者に提供されたすべてのケアを文書化するように設計されていますが、診断や治療計画から逸脱する余計な情報で注意を喚起することができます。 EHRにおける自然言語処理 (NLP) の応用は、情報抽出における手法の多数と共に成長する分野である。 下流診断決定支援にNLPメソッドを使用するタスクはほとんどない。 2022 national nlp clinical challenge (n2c2) track 3: progress note understanding - assessment and plan reasoningを新しいタスクスイートへの一歩として紹介した。 アセスメントとプラン推論のタスクは、健康問題や診断を含む進歩ノート、アセスメントとプランのサブセクションの最も重要な要素に焦点を当てている。 本研究の目的は、評価部に含まれる患者の全体状態と、診断及び治療計画を含む計画部の各構成要素との因果関係を自動的に予測するnlpシステムを開発し、評価することであった。 このタスクの目的は、診断を診断決定支援の最初のステップとして特定し、優先順位付けし、日々の進歩ノートのような長い文書で最も関連性の高い情報を見つけることである。 2022 n2c2 Track 3の結果を提示し,データ,評価,参加,システム性能について述べる。

Daily progress notes are common types in the electronic health record (EHR) where healthcare providers document the patient's daily progress and treatment plans. The EHR is designed to document all the care provided to patients, but it also enables note bloat with extraneous information that distracts from the diagnoses and treatment plans. Applications of natural language processing (NLP) in the EHR is a growing field with the majority of methods in information extraction. Few tasks use NLP methods for downstream diagnostic decision support. We introduced the 2022 National NLP Clinical Challenge (N2C2) Track 3: Progress Note Understanding - Assessment and Plan Reasoning as one step towards a new suite of tasks. The Assessment and Plan Reasoning task focuses on the most critical components of progress notes, Assessment and Plan subsections where health problems and diagnoses are contained. The goal of the task was to develop and evaluate NLP systems that automatically predict causal relations between the overall status of the patient contained in the Assessment section and its relation to each component of the Plan section which contains the diagnoses and treatment plans. The goal of the task was to identify and prioritize diagnoses as the first steps in diagnostic decision support to find the most relevant information in long documents like daily progress notes. We present the results of 2022 n2c2 Track 3 and provide a description of the data, evaluation, participation and system performance.
翻訳日:2023-03-15 14:17:29 公開日:2023-03-14
# ISimDL: 深層学習のロバスト性評価のための断層注入シミュレーションの重要サンプリング駆動高速化

ISimDL: Importance Sampling-Driven Acceleration of Fault Injection Simulations for Evaluating the Robustness of Deep Learning ( http://arxiv.org/abs/2303.08035v1 )

ライセンス: Link先を確認
Alessio Colucci, Andreas Steininger, Muhammad Shafique(参考訳) ディープラーニング(DL)システムは多くのアプリケーションで普及しており、特別なハードウェアアクセラレータとチップを必要とする。 ナノ時代には、デバイスは永久的および一時的な障害の影響を受けやすくなってきた。 したがって,このような障害に対して高度なDLシステムのレジリエンスを解析し,その欠陥がDLアプリケーションレベルでエラーとして現れるかを理解するための効率的な手法が必要である。 故障注入を用いて, ソフトウェアレベルでのニューロンの重みや出力を, 過渡的故障の影響を受けていたかのように変更することにより, DLシステムのレジリエンス調査を行うことができる。 既存のフォールトモデルでは探索空間を縮小し、より高速な解析が可能だが、モデルに関する予備知識が必要であり、フィルタリングされた探索空間のさらなる解析はできない。 そこで本研究では,ニューロンの感度を利用した新しい手法であるisimdlを提案する。 モデルアンダーテストに関するアプリオリ知識がなければ、ISimDLは既存の作業と同等の検索スペースを削減し、長いシミュレーションで可能なすべての障害をカバーし、既存のモデル要求を改善することができる。 実験の結果, ランダムな一様サンプリングよりも臨界断層を選択する場合, 重要サンプリングは最大15倍の精度で, 100個未満の故障でその精度に達することがわかった。 さらに,信頼性の高いDNN設計,すなわちフォールト・アウェア・トレーニング(FAT)において,重要なサンプリングを行うための実用的ユースケースを紹介した。 ISimDLを使用してエラーにつながる障害を選択することで、DNNトレーニングプロセス中に障害を挿入して、そのような障害に対してDNNを強化できます。 FATにおける重要サンプリングを使用することで、所定の精度の低下につながる障害を見つけるのに必要なオーバーヘッドを12倍以上削減できる。

Deep Learning (DL) systems have proliferated in many applications, requiring specialized hardware accelerators and chips. In the nano-era, devices have become increasingly more susceptible to permanent and transient faults. Therefore, we need an efficient methodology for analyzing the resilience of advanced DL systems against such faults, and understand how the faults in neural accelerator chips manifest as errors at the DL application level, where faults can lead to undetectable and unrecoverable errors. Using fault injection, we can perform resilience investigations of the DL system by modifying neuron weights and outputs at the software-level, as if the hardware had been affected by a transient fault. Existing fault models reduce the search space, allowing faster analysis, but requiring a-priori knowledge on the model, and not allowing further analysis of the filtered-out search space. Therefore, we propose ISimDL, a novel methodology that employs neuron sensitivity to generate importance sampling-based fault-scenarios. Without any a-priori knowledge of the model-under-test, ISimDL provides an equivalent reduction of the search space as existing works, while allowing long simulations to cover all the possible faults, improving on existing model requirements. Our experiments show that the importance sampling provides up to 15x higher precision in selecting critical faults than the random uniform sampling, reaching such precision in less than 100 faults. Additionally, we showcase another practical use-case for importance sampling for reliable DNN design, namely Fault Aware Training (FAT). By using ISimDL to select the faults leading to errors, we can insert the faults during the DNN training process to harden the DNN against such faults. Using importance sampling in FAT reduces the overhead required for finding faults that lead to a predetermined drop in accuracy by more than 12x.
翻訳日:2023-03-15 14:17:06 公開日:2023-03-14
# bodega: 信頼度評価における逆例生成ベンチマーク

BODEGA: Benchmark for Adversarial Example Generation in Credibility Assessment ( http://arxiv.org/abs/2303.08032v1 )

ライセンス: Link先を確認
Piotr Przyby{\l}a, Alexander Shvets, Horacio Saggion(参考訳) テキスト分類法は、偽ニュース、ソーシャルメディアボット、プロパガンダなど、信頼性の低いコンテンツを検出する手段として広く研究されている。 非常に正確なモデル(おそらくディープニューラルネットワークに基づく)は、パブリックな電子プラットフォームをモデレートするのに役立ち、コンテンツクリエーターが既に公開されたテキストの提出や削除を拒否されることが多い。 コンテンツクリエーターは、さらなる検出を避けるインセンティブを得て、分類器の弱点を悪用して異なる出力をもたらす、わずかに修正されたテキスト(敵の例による攻撃として知られる)の版を考え出そうとする。 コンテンツモデレーションの実際のユースケースをシミュレートするために設計された評価フレームワークにおいて、被害者モデルと攻撃方法の両方を4つの誤情報検出タスクでテストするためのベンチマークであるbodegaを紹介します。 また,一般的なテキスト分類器のロバスト性を攻撃的手法に対して系統的にテストし,場合によっては入力テキストの大幅な変更がモデルの誤解を招くことを発見した。 我々はBODEGAコードとデータをオープンに共有し、この分野におけるさらなる研究の可視性と複製性を高めることを期待する。

Text classification methods have been widely investigated as a way to detect content of low credibility: fake news, social media bots, propaganda, etc. Quite accurate models (likely based on deep neural networks) help in moderating public electronic platforms and often cause content creators to face rejection of their submissions or removal of already published texts. Having the incentive to evade further detection, content creators try to come up with a slightly modified version of the text (known as an attack with an adversarial example) that exploit the weaknesses of classifiers and result in a different output. Here we introduce BODEGA: a benchmark for testing both victim models and attack methods on four misinformation detection tasks in an evaluation framework designed to simulate real use-cases of content moderation. We also systematically test the robustness of popular text classifiers against available attacking techniques and discover that, indeed, in some cases barely significant changes in input text can mislead the models. We openly share the BODEGA code and data in hope of enhancing the comparability and replicability of further research in this area.
翻訳日:2023-03-15 14:16:33 公開日:2023-03-14
# セマンティックセグメンテーションに必要なクラスレベルの多重分布表現

Class-level Multiple Distributions Representation are Necessary for Semantic Segmentation ( http://arxiv.org/abs/2303.08029v1 )

ライセンス: Link先を確認
Jianjian Yin, Zhichao Zheng, Yanhui Gu, Junsheng Zhou, Yi Chen(参考訳) 既存のアプローチでは、セマンティクスのセグメンテーションパフォーマンスを改善するためにクラスレベルの機能を使うことに重点を置いている。 クラス内画素とクラス間画素の関係を特徴付ける方法が、識別可能なクラスレベルの特徴を抽出する鍵である。 本稿では,複数分布によるクラス内変動を初めて記述する。 次に、複数の分布表現学習(\textbf{MDRL})を提案し、セマンティックセグメンテーションのためのピクセル表現を強化する。 一方,組込み画素の判別的多重分布表現を構築するために,クラス多重分布一貫性戦略を設計する。 さらに、画素意味情報を強化するために、対応するクラスの複数の分布を集約する多重分布意味集約モジュールも提案する。 我々のアプローチは、一般的なセグメンテーションフレームワークFCN/PSPNet/CCNetにシームレスに統合され、5.61\%/1.75\%/0.75\% mIoUの改善がADE20K上で達成される。 都市景観に関する広範囲な実験、ade20kデータセットは、本手法が大幅な性能向上をもたらすことを証明した。

Existing approaches focus on using class-level features to improve semantic segmentation performance. How to characterize the relationships of intra-class pixels and inter-class pixels is the key to extract the discriminative representative class-level features. In this paper, we introduce for the first time to describe intra-class variations by multiple distributions. Then, multiple distributions representation learning(\textbf{MDRL}) is proposed to augment the pixel representations for semantic segmentation. Meanwhile, we design a class multiple distributions consistency strategy to construct discriminative multiple distribution representations of embedded pixels. Moreover, we put forward a multiple distribution semantic aggregation module to aggregate multiple distributions of the corresponding class to enhance pixel semantic information. Our approach can be seamlessly integrated into popular segmentation frameworks FCN/PSPNet/CCNet and achieve 5.61\%/1.75\%/0.75\% mIoU improvements on ADE20K. Extensive experiments on the Cityscapes, ADE20K datasets have proved that our method can bring significant performance improvement.
翻訳日:2023-03-15 14:16:07 公開日:2023-03-14
# 音声バースト認識のための階層的回帰連鎖フレームワーク

A Hierarchical Regression Chain Framework for Affective Vocal Burst Recognition ( http://arxiv.org/abs/2303.08027v1 )

ライセンス: Link先を確認
Jinchao Li, Xixin Wu, Kaitao Song, Dongsheng Li, Xunying Liu, Helen Meng(参考訳) 非言語的発声による感情伝達の一般的な方法として、音声バースト(VB)は日々の社会的相互作用において重要な役割を果たす。 人間の声帯バーストの理解とモデル化は、堅牢で汎用的な人工知能を開発する上で不可欠である。 発声バーストを理解するための計算手法の探求は、研究の注目を集めている。 本稿では,複数の関係を明示的に考慮したvbsからの感情認識のための連鎖回帰モデルに基づく階層的フレームワークを提案する。 (i)感情状態と多様な文化の間 (ii)低次元(10の感情クラス)と高次元(10の感情クラス)の感情空間 (三)高次元空間内の様々な感情クラス間の関係 データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。 提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」と「CULTURE」のタスクで第1位となった。 acii challenge 2022データセットに基づく実験結果は,提案システムの優れた性能と,階層的回帰連鎖モデルを用いた多元関係の考察の有効性を示す。

As a common way of emotion signaling via non-linguistic vocalizations, vocal burst (VB) plays an important role in daily social interaction. Understanding and modeling human vocal bursts are indispensable for developing robust and general artificial intelligence. Exploring computational approaches for understanding vocal bursts is attracting increasing research attention. In this work, we propose a hierarchical framework, based on chain regression models, for affective recognition from VBs, that explicitly considers multiple relationships: (i) between emotional states and diverse cultures; (ii) between low-dimensional (arousal & valence) and high-dimensional (10 emotion classes) emotion spaces; and (iii) between various emotion classes within the high-dimensional space. To address the challenge of data sparsity, we also use self-supervised learning (SSL) representations with layer-wise and temporal aggregation modules. The proposed systems participated in the ACII Affective Vocal Burst (A-VB) Challenge 2022 and ranked first in the "TWO'' and "CULTURE'' tasks. Experimental results based on the ACII Challenge 2022 dataset demonstrate the superior performance of the proposed system and the effectiveness of considering multiple relationships using hierarchical regression chain models.
翻訳日:2023-03-15 14:15:49 公開日:2023-03-14
# 深部話者認識におけるバイアスと公平性の検討

A Study on Bias and Fairness In Deep Speaker Recognition ( http://arxiv.org/abs/2303.08026v1 )

ライセンス: Link先を確認
Amirhossein Hajavi and Ali Etemad(参考訳) 個人を認証し、サービスをパーソナライズする手段として、話者認識(SR)システムを使用するスマートデバイスの普及に伴い、SRシステムの公正性は重要な焦点となっている。 本稿では,最近のsrシステムにおける公平性の概念を,統計的パリティ,等化オッズ,等機会という3つの一般的かつ関連する定義に基づいて検討する。 SRシステムのトレーニングにおいて,一般的な5つのニューラルネットワークと5つの損失関数について検討し,性別や国籍グループに対する公正性を評価した。 我々の詳細な実験は、この概念に光を当て、より洗練されたエンコーダアーキテクチャが公正の定義に合致することを示した。 さらに,損失関数の選択はSRモデルのバイアスに大きく影響することがわかった。

With the ubiquity of smart devices that use speaker recognition (SR) systems as a means of authenticating individuals and personalizing their services, fairness of SR systems has becomes an important point of focus. In this paper we study the notion of fairness in recent SR systems based on 3 popular and relevant definitions, namely Statistical Parity, Equalized Odds, and Equal Opportunity. We examine 5 popular neural architectures and 5 commonly used loss functions in training SR systems, while evaluating their fairness against gender and nationality groups. Our detailed experiments shed light on this concept and demonstrate that more sophisticated encoder architectures better align with the definitions of fairness. Additionally, we find that the choice of loss functions can significantly impact the bias of SR models.
翻訳日:2023-03-15 14:15:30 公開日:2023-03-14
# ミツバチアルゴリズムを用いた深層学習モデルパラメータの最適化による医用テキスト分類の改善

Optimizing Deep Learning Model Parameters with the Bees Algorithm for Improved Medical Text Classification ( http://arxiv.org/abs/2303.08021v1 )

ライセンス: Link先を確認
Mai A. Shaaban, Mariam Kashkash, Maryam Alghfeli, Adham Ibrahim(参考訳) 本稿では,最近期待されているswarm intelligenceアルゴリズムであるbeesアルゴリズムを用いて,ディープラーニングモデルの最適パラメータを得るための新しいメカニズムを提案する。 最適化問題は,初期過度パラメータが一定回数の反復で調整される場合の医療用テキストに基づく病気の分類精度を最大化することである。 実験には英語とアラビア語の2つの異なるデータセットが含まれていた。 最も高い精度は、Long Short-Term Memory (LSTM) と Bees Algorithm を用いた英語データセットで99.63%、AraBERT を用いたアラビアデータセットで88%である。

This paper introduces a novel mechanism to obtain the optimal parameters of a deep learning model using the Bees Algorithm, which is a recent promising swarm intelligence algorithm. The optimization problem is to maximize the accuracy of classifying ailments based on medical text given the initial hyper-parameters to be adjusted throughout a definite number of iterations. Experiments included two different datasets: English and Arabic. The highest accuracy achieved is 99.63% on the English dataset using Long Short-Term Memory (LSTM) along with the Bees Algorithm, and 88% on the Arabic dataset using AraBERT.
翻訳日:2023-03-15 14:15:16 公開日:2023-03-14
# アルツハイマー病検出のためのタスク関連キーワードを用いた事前訓練表現の活用

Leveraging Pretrained Representations with Task-related Keywords for Alzheimer's Disease Detection ( http://arxiv.org/abs/2303.08019v1 )

ライセンス: Link先を確認
Jinchao Li, Kaitao Song, Junan Li, Bo Zheng, Dongsheng Li, Xixin Wu, Xunying Liu, Helen Meng(参考訳) 世界の人口が急速に増加する中で、アルツハイマー病(AD)は特に高齢者において顕著であり、不安な発症を持ち、認知ドメイン(記憶、コミュニケーションなど)が徐々に悪化する。 音声に基づくAD検出は、広範囲なスクリーニングとタイムリーな疾患介入の可能性を開く。 事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。 本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する方法を提案する。 また,これらの特徴に基づき,被験者の記述と認知的タスクの関係をモデル化し,新しいタスク指向アプローチを提案する。 バイナリ分類設定でADReSSデータセット上で実験を行い、未知のテストセットでモデルを評価する。 結果と最近の文献との比較により,提案する音響的,言語的,タスク指向の手法の有効性と性能が実証された。 また, 意味的, 構文的情報の重要性, 広告検出タスクに有望な音声のみとタスク指向の手法を用いて, 自動化と一般化の実現可能性を示す。

With the global population aging rapidly, Alzheimer's disease (AD) is particularly prominent in older adults, which has an insidious onset and leads to a gradual, irreversible deterioration in cognitive domains (memory, communication, etc.). Speech-based AD detection opens up the possibility of widespread screening and timely disease intervention. Recent advances in pre-trained models motivate AD detection modeling to shift from low-level features to high-level representations. This paper presents several efficient methods to extract better AD-related cues from high-level acoustic and linguistic features. Based on these features, the paper also proposes a novel task-oriented approach by modeling the relationship between the participants' description and the cognitive task. Experiments are carried out on the ADReSS dataset in a binary classification setup, and models are evaluated on the unseen test set. Results and comparison with recent literature demonstrate the efficiency and superior performance of proposed acoustic, linguistic and task-oriented methods. The findings also show the importance of semantic and syntactic information, and feasibility of automation and generalization with the promising audio-only and task-oriented methods for the AD detection task.
翻訳日:2023-03-15 14:15:04 公開日:2023-03-14
# テラヘルツ帯の信頼性ビームフォーミング:因果表現は前向きか?

Reliable Beamforming at Terahertz Bands: Are Causal Representations the Way Forward? ( http://arxiv.org/abs/2303.08017v1 )

ライセンス: Link先を確認
Christo Kurisummoottil Thomas, Walid Saad(参考訳) metaverseのような将来のワイヤレスサービスは、高い情報レート、信頼性、低レイテンシを必要とする。 マルチユーザ無線システムは、テラヘルツ帯域を大量のアンテナで利用し、ビームフォーミングソリューションを狭くすることで、そのような要件を満たすことができる。 しかし、既存の解はチャネルダイナミクスの適切なモデリングを欠いており、高機動性シナリオにおいて不正確なビームフォーミングソリューションを生み出している。 本稿では,マルチモーダルデータとビームフォーミングの因果表現の時間変化ダイナミクスを計算するために,変分因果推論における新しい人工知能アルゴリズムを用いた動的意味論的ビームフォーミングソリューションを初めて提案する。 シミュレーションにより、テラヘルツビームフォーミング法(THz)の因果誘導法が従来のMIMOビームフォーミング法より優れていることが示された。

Future wireless services, such as the metaverse require high information rate, reliability, and low latency. Multi-user wireless systems can meet such requirements by utilizing the abundant terahertz bandwidth with a massive number of antennas, creating narrow beamforming solutions. However, existing solutions lack proper modeling of channel dynamics, resulting in inaccurate beamforming solutions in high-mobility scenarios. Herein, a dynamic, semantically aware beamforming solution is proposed for the first time, utilizing novel artificial intelligence algorithms in variational causal inference to compute the time-varying dynamics of the causal representation of multi-modal data and the beamforming. Simulations show that the proposed causality-guided approach for Terahertz (THz) beamforming outperforms classical MIMO beamforming techniques.
翻訳日:2023-03-15 14:14:45 公開日:2023-03-14
# インプラント自動生成のための点雲拡散モデル

Point Cloud Diffusion Models for Automatic Implant Generation ( http://arxiv.org/abs/2303.08061v1 )

ライセンス: Link先を確認
Paul Friedrich, Julia Wolleb, Florentin Bieder, Florian M. Thieringer and Philippe C. Cattin(参考訳) 生体適合性材料の3Dプリンティングの進歩は、患者固有のインプラントを普及させる。 しかし、これらのインプラントの設計はいまだに面倒で手作業のプロセスである。 インプラント生成を自動化する既存のアプローチは、主にダウンサンプルデータやパッチワイズデータの3d u-netアーキテクチャに基づいており、詳細情報や文脈情報を失う可能性がある。 近年の拡散確率モデルの成功に続いて,3次元点流拡散モデルとボキセル化ネットワークを組み合わせたインプラント生成手法を提案する。 拡散モデルにおける確率的サンプリング法により, 欠陥ごとに異なるインプラントのアンサンブルが提案され, 医師が最適なものを選択することができる。 SkullBreak と SkullFix のデータセット上で評価を行い,高品質なインプラントを作製し,競争性評価スコアを得る。

Advances in 3D printing of biocompatible materials make patient-specific implants increasingly popular. The design of these implants is, however, still a tedious and largely manual process. Existing approaches to automate implant generation are mainly based on 3D U-Net architectures on downsampled or patch-wise data, which can result in a loss of detail or contextual information. Following the recent success of Diffusion Probabilistic Models, we propose a novel approach for implant generation based on a combination of 3D point cloud diffusion models and voxelization networks. Due to the stochastic sampling process in our diffusion model, we can propose an ensemble of different implants per defect, from which the physicians can choose the most suitable one. We evaluate our method on the SkullBreak and SkullFix datasets, generating high-quality implants and achieving competitive evaluation scores.
翻訳日:2023-03-15 14:09:07 公開日:2023-03-14
# Beyond Games: ニューラルモンテカルロ木探索アプリケーションのシステムレビュー

Beyond Games: A Systematic Review of Neural Monte Carlo Tree Search Applications ( http://arxiv.org/abs/2303.08060v1 )

ライセンス: Link先を確認
Marco Kemmerling, Daniel L\"utticke, Robert H. Schmitt(参考訳) AlphaGoとその後継者の出現は、人工知能を使ってゲームをする新しいパラダイムの始まりとなった。 これはモンテカルロ木探索、計画手順、深層学習を組み合わせることで達成された。 ゲーム領域への影響は否定できないが、ゲーム以外のアプリケーションで同様のアプローチがどの程度有用か、元の方法論からどのように適用する必要があるかは、はっきりしない。 ゲーム以外の領域におけるニューラルモンテカルロ木探索法の適用について,129のピアレビュー論文をレビューする。 私たちの目標は、そのようなメソッドが実際にどのように構成されているか、その成功を他のドメインに拡張できるかを体系的に評価することにあります。 我々は、様々な領域の応用、学習したポリシーと値関数を用いて木探索を導く多くの異なる方法、および様々なトレーニング方法を見つける。 本稿では, ニューラルネットワークによるモンテカルロ木探索を実践的な問題に適用し, 特定の問題とその要求に対して, アルゴリズムを設計する上で, より原則的な方法に向けた第一歩として, アルゴリズムの現在の状況について概説する。

The advent of AlphaGo and its successors marked the beginning of a new paradigm in playing games using artificial intelligence. This was achieved by combining Monte Carlo tree search, a planning procedure, and deep learning. While the impact on the domain of games has been undeniable, it is less clear how useful similar approaches are in applications beyond games and how they need to be adapted from the original methodology. We review 129 peer-reviewed articles detailing the application of neural Monte Carlo tree search methods in domains other than games. Our goal is to systematically assess how such methods are structured in practice and if their success can be extended to other domains. We find applications in a variety of domains, many distinct ways of guiding the tree search using learned policy and value functions, and various training methods. Our review maps the current landscape of algorithms in the family of neural monte carlo tree search as they are applied to practical problems, which is a first step towards a more principled way of designing such algorithms for specific problems and their requirements.
翻訳日:2023-03-15 14:08:55 公開日:2023-03-14
# 最大エントロピー探査のための高速速度

Fast Rates for Maximum Entropy Exploration ( http://arxiv.org/abs/2303.08059v1 )

ライセンス: Link先を確認
Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines, Remi Munos, Alexey Naumov, Pierre Perrault, Yunhao Tang, Michal Valko, Pierre Menard(参考訳) 本稿では,マークフ決定プロセス(MDP)によって駆動される未知の環境でエージェントが動作しなければならない強化学習(RL)について考察する。 この状況では、探索が主な課題となる。 本研究では,2種類のエントロピー探索問題について検討する。 最初のタイプは、割引設定で以前Hazanらによって検討された訪問エントロピー最大化(2019)である。 このタイプの探索では、$\widetilde{\mathcal{O}}(H^3 S^2 A / \varepsilon^2)$サンプルの複雑さにより$\varepsilon$-dependence of Hazan et al. (2019) が向上するゲーム理論表現に基づくアルゴリズムを提案し、$S$は多数の状態であり、$A$はアクションの数であり、$H$はエピソード長であり、$\varepsilon$は望ましい精度である。 我々が研究している2つ目のエントロピーは軌道エントロピーである。 この目的関数はエントロピー規則化された MDP と密接に関連しており、より単純な UCBVI アルゴリズムの修正を提案し、このアルゴリズムは$S, A, H$ の依存を無視するオーダー $\widetilde{\mathcal{O}}(1/\varepsilon)$ のサンプル複雑性を持つ。 興味深いことに、正規化されたMDPの探索問題は通常のMDPよりも統計的に(サンプルの複雑さの観点から)簡単であることが証明されたRL文献における最初の理論的結果である。

We consider the reinforcement learning (RL) setting, in which the agent has to act in unknown environment driven by a Markov Decision Process (MDP) with sparse or even reward free signals. In this situation, exploration becomes the main challenge. In this work, we study the maximum entropy exploration problem of two different types. The first type is visitation entropy maximization that was previously considered by Hazan et al. (2019) in the discounted setting. For this type of exploration, we propose an algorithm based on a game theoretic representation that has $\widetilde{\mathcal{O}}(H^3 S^2 A / \varepsilon^2)$ sample complexity thus improving the $\varepsilon$-dependence of Hazan et al. (2019), where $S$ is a number of states, $A$ is a number of actions, $H$ is an episode length, and $\varepsilon$ is a desired accuracy. The second type of entropy we study is the trajectory entropy. This objective function is closely related to the entropy-regularized MDPs, and we propose a simple modification of the UCBVI algorithm that has a sample complexity of order $\widetilde{\mathcal{O}}(1/\varepsilon)$ ignoring dependence in $S, A, H$. Interestingly enough, it is the first theoretical result in RL literature establishing that the exploration problem for the regularized MDPs can be statistically strictly easier (in terms of sample complexity) than for the ordinary MDPs.
翻訳日:2023-03-15 14:08:35 公開日:2023-03-14
# ランダム性の物理的定義

Physical defintion of randomness ( http://arxiv.org/abs/2303.08057v1 )

ライセンス: Link先を確認
Mario Stip\v{c}evi\'c(参考訳) 乱数を生成する能力は、科学研究から実用的な暗号や量子技術まで、多くのアプリケーションにとって重要なリソースである。 しかし、ランダム数(ランダム性)の広く受け入れられている定義は、これまで研究者を困惑させてきた。 定義がなければ、セキュリティ証明を完成させたり、新しい産業標準を作ることは不可能である。 本稿では,ランダム性に関する情報理論に基づく定義を提案し,その手法とは違って,生成する数の望ましい性質を見出すのではなく,ランダム数生成の物理的プロセスに焦点をあてる。 その直感性を説明し、その妥当性を示し、乱数生成プロセスや装置の品質の尺度として乱数偏差を更に定義する。

Ability to generate random numbers is an important resource for many applications ranging from scientific research to practical cryptography and quantum technologies. However, a widely accepted definition of random numbers, or randomness, has eluded researchers thus far. Without a definition, it is impossible to complete security proofs or make new industrial standards. Here, we propose an information-theory-based definition of randomness which, unlike state of the art, does not try to find desirable properties of generated numbers, but rather focus on the physical process of random number generation. We explain its intuitiveness, demonstrate its verifiability and further define randomness deviation as a measure of quality of the random number generating process or device.
翻訳日:2023-03-15 14:08:04 公開日:2023-03-14
# マルチモデルアクティブラーニングによる統計ハードウェア設計

Statistical Hardware Design With Multi-model Active Learning ( http://arxiv.org/abs/2303.08054v1 )

ライセンス: Link先を確認
Alireza Ghaffari, Masoud Asgharian, Yvon Savaria(参考訳) 現代の社会に貢献する多くの新しいアプリケーションが複雑化するにつれ、効率的なコンピューティングプラットフォームを設計する必要がある。 しかし、効率的なハードウェアの設計は、複数のパラメータとその相互作用を扱う複雑な多目的問題である。 ハードウェア設計には多数のパラメータや目的があるので、可能な組み合わせをすべて合成することは、最適解を見つけるための実現可能な方法ではない。 この問題に取り組むための有望なアプローチは、望ましいハードウェア性能の統計的モデリングである。 本稿では,この問題を解決するためのモデルベースアクティブラーニング手法を提案する。 提案手法はベイズモデルを用いてハードウェア性能の様々な側面を特徴付ける。 また、より正確なモデルを作成するために、トランスファー学習とガウス回帰ブートストラップ技術とアクティブラーニングを併用しています。 提案手法は,設計空間探索と性能予測を同時に行うのに十分な精度のハードウェアモデルを提供する。 提案手法は,FPGAターゲット用マイクロアーキテクチャ設計やOpenCLカーネルなど,様々なハードウェア構成のための設計空間探索と性能予測を行う。 実験により,提案する統計モデルの予測力を維持しつつ,性能モデル作成に必要なサンプル数が大幅に減少することを示した。 例えば、性能予測設定では、提案手法はモデルを作成するのに65\%のサンプルが必要であり、設計空間探索設定では、提案手法は50以下のサンプルを探索することで最適なパラメータ設定を見つけることができる。

With the rising complexity of numerous novel applications that serve our modern society comes the strong need to design efficient computing platforms. Designing efficient hardware is, however, a complex multi-objective problem that deals with multiple parameters and their interactions. Given that there are a large number of parameters and objectives involved in hardware design, synthesizing all possible combinations is not a feasible method to find the optimal solution. One promising approach to tackle this problem is statistical modeling of a desired hardware performance. Here, we propose a model-based active learning approach to solve this problem. Our proposed method uses Bayesian models to characterize various aspects of hardware performance. We also use transfer learning and Gaussian regression bootstrapping techniques in conjunction with active learning to create more accurate models. Our proposed statistical modeling method provides hardware models that are sufficiently accurate to perform design space exploration as well as performance prediction simultaneously. We use our proposed method to perform design space exploration and performance prediction for various hardware setups, such as micro-architecture design and OpenCL kernels for FPGA targets. Our experiments show that the number of samples required to create performance models significantly reduces while maintaining the predictive power of our proposed statistical models. For instance, in our performance prediction setting, the proposed method needs 65\% fewer samples to create the model, and in the design space exploration setting, our proposed method can find the best parameter settings by exploring less than 50 samples.
翻訳日:2023-03-15 14:07:54 公開日:2023-03-14
# 双極子Rydberg原子アレイにおけるスケーラブルスピンスクイーズ

Scalable spin squeezing in a dipolar Rydberg atom array ( http://arxiv.org/abs/2303.08053v1 )

ライセンス: Link先を確認
Guillaume Bornet, Gabriel Emperauger, Cheng Chen, Bingtian Ye, Maxwell Block, Marcus Bintz, Jamie A. Boyd, Daniel Barredo, Tommaso Comparin, Fabio Mezzacapo, Tommaso Roscilde, Thierry Lahaye, Norman Y. Yao, Antoine Browaeys(参考訳) 標準量子極限は、非相関粒子のアンサンブルによって達成できる測定の精度を制限している。 基本的に、この制限は量子力学の非可換性から生じ、しばしば量子射影ノイズと呼ばれるゆらぎが存在する。 量子メートル法は、標準量子限界を超える測定精度を高めるために、多体系の非古典状態の使用に依存している。 そのために、量子プロジェクションノイズ(squeezingとして知られる戦略)を再構成することができる。 多体スピン系の文脈では、通常、成分間のオール・ツー・オール相互作用(例えば1軸ねじれモデル)を利用してスピンスクイージングの構造的絡み合い特性を生成する。 近年の理論的研究に動機づけられ、近距離相互作用(特に二次元双極子xyモデル)がスケーラブルなスピンスクイーズの実現を可能にすると予測している。 最大100個の原子からなる双極子リドバーグ量子シミュレータを用いて、偏極初期状態からのクエンチダイナミクスがスピンスクイーズを誘導し、最大で-3.5dB(検出エラーの修正に先立ち、修正後の約5dB)までシステムサイズを増大させることを示した。 最後に,マルチステップのスピンスクイージングプロトコルを用いて,約1dBのスケジングをさらに強化し,フロッケ工学を利用してハイゼンベルク相互作用を実現することにより,圧縮状態の寿命を動的に凍結することにより拡張する能力を示す。

The standard quantum limit bounds the precision of measurements that can be achieved by ensembles of uncorrelated particles. Fundamentally, this limit arises from the non-commuting nature of quantum mechanics, leading to the presence of fluctuations often referred to as quantum projection noise. Quantum metrology relies on the use of non-classical states of many-body systems in order to enhance the precision of measurements beyond the standard quantum limit. To do so, one can reshape the quantum projection noise -- a strategy known as squeezing. In the context of many-body spin systems, one typically utilizes all-to-all interactions (e.g. the one-axis twisting model) between the constituents to generate the structured entanglement characteristic of spin squeezing. Motivated by recent theoretical work, here we explore the prediction that short-range interactions -- and in particular, the two-dimensional dipolar XY model -- can also enable the realization of scalable spin squeezing. Working with a dipolar Rydberg quantum simulator of up to 100 atoms, we demonstrate that quench dynamics from a polarized initial state lead to spin squeezing that improves with increasing system size up to a maximum of -3.5 dB (prior to correcting for detection errors, or approximately -5 dB after correction). Finally, we present two independent refinements: first, using a multistep spin-squeezing protocol allows us to further enhance the squeezing by approximately 1 dB, and second, leveraging Floquet engineering to realize Heisenberg interactions, we demonstrate the ability to extend the lifetime of the squeezed state by freezing its dynamics.
翻訳日:2023-03-15 14:07:33 公開日:2023-03-14
# コンピュータグラフィックス画像の主観的・客観的品質評価

Subjective and Objective Quality Assessment for in-the-Wild Computer Graphics Images ( http://arxiv.org/abs/2303.08050v1 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Tao Wang, Wei Lu, Quan Zhou, Jun he, Qiyuan Wang, Xiongkuo Min, and Guangtao Zhai(参考訳) コンピュータグラフィックス画像(CGI)は、コンピュータプログラムによって人工的に生成され、ゲームやストリーミングメディアなどの様々なシナリオにおいて広く認識されている。 実際、CGIの品質は、製造中のレンダリングが悪く、マルチメディアアプリケーションの送信時に必然的に圧縮アーティファクトに悩まされる。 しかし、コンピュータグラフィックス画像品質評価(CGIQA)の課題に対処する研究はほとんど行われていない。 ほとんどの画像品質評価(IQA)メトリクスは、自然シーン画像(NSI)のために開発され、合成歪みを持つNSIからなるデータベース上で検証される。 NSIとCGIの品質評価のギャップを埋めるため,6,000のCGI(CGIQA-6k)からなる大規模CGIQAデータベースを構築し,CGIの正確な知覚評価を得るために,よく制御された実験環境において主観的な実験を行う。 そこで我々は,多段階特徴融合戦略と多段階チャネルアテンション機構を利用して,実効的な深層学習に基づくno-reference (NR) IQAモデルを提案する。 提案手法の主な動機は,cgiが明瞭なパターンとリッチな対話的意味コンテンツを持つため,低レベルから高レベルまでのチャネル間情報のフル活用である。 実験の結果,提案手法は構築されたCGIQA-6kデータベースや他のCGIQA関連データベース上で,最先端のNR IQA手法よりも優れていた。 コードとともにデータベースがリリースされ、さらなる研究が促進される。

Computer graphics images (CGIs) are artificially generated by means of computer programs and are widely perceived under various scenarios, such as games, streaming media, etc. In practical, the quality of CGIs consistently suffers from poor rendering during the production and inevitable compression artifacts during the transmission of multimedia applications. However, few works have been dedicated to dealing with the challenge of computer graphics images quality assessment (CGIQA). Most image quality assessment (IQA) metrics are developed for natural scene images (NSIs) and validated on the databases consisting of NSIs with synthetic distortions, which are not suitable for in-the-wild CGIs. To bridge the gap between evaluating the quality of NSIs and CGIs, we construct a large-scale in-the-wild CGIQA database consisting of 6,000 CGIs (CGIQA-6k) and carry out the subjective experiment in a well-controlled laboratory environment to obtain the accurate perceptual ratings of the CGIs. Then, we propose an effective deep learning-based no-reference (NR) IQA model by utilizing multi-stage feature fusion strategy and multi-stage channel attention mechanism. The major motivation of the proposed model is to make full use of inter-channel information from low-level to high-level since CGIs have apparent patterns as well as rich interactive semantic content. Experimental results show that the proposed method outperforms all other state-of-the-art NR IQA methods on the constructed CGIQA-6k database and other CGIQA-related databases. The database along with the code will be released to facilitate further research.
翻訳日:2023-03-15 14:07:05 公開日:2023-03-14
# Happy-GLL:パラメータ化された非終端に対するモジュラー、再利用可能な完全なトップダウンパーサ

Happy-GLL: modular, reusable and complete top-down parsers for parameterized nonterminals ( http://arxiv.org/abs/2303.08044v1 )

ライセンス: Link先を確認
L. Thomas van Binsbergen and Damian Frolich(参考訳) パーサジェネレータとパーサコンビネータライブラリは、パーサを生成する最も一般的なツールである。 パーサコンビネータはホスト言語を使用して、パーサをパラメータとして高階関数の形で再利用可能なコンポーネントを提供する。 抽象化によるこの種の再利用をサポートするパーサジェネレータはごくわずかであり、生成する文法の一部と同じくらいモジュール化され再利用されるパーサも少なくない。 本稿では,GLL アルゴリズムの FUN-GLL 変種に基づいて,パラメータ付き非終端項を用いた構文記述から,モジュール型で再利用可能な完全なトップダウンパーサを生成する戦略を提案する。 この戦略はhappy parser generatorの新たなバックエンドとして議論され、実証されている。 幸せな文法は、パラメータが文法記号を抽象化し、再利用可能な文法演算子を定義する抽象化メカニズムを与える「パラメータ化された非終端」を含むことができる。 しかし、既存のHappyバックエンドは、パラメータ化された非終端が文法で再利用できないため、パラメータ化された非終端の完全なポテンシャルを発揮できない。 さらに、パーサ生成プロセスは終了に失敗したり、指数的に大きなパーサが指数的な時間で生成される可能性がある。 本稿では, パーサコンビネータに類似した高次関数を生成し, トップダウン解析の利点をすべて継承することによって, パラメータ化された非終端関数をうまく実装する。 バックエンドは、文脈自由文法の全クラスのパーサを生成し、線形時間でパーサを生成し、入力文字列のすべての派生を見つけるパーサを生成する。 私たちの知る限り、提示されたGLLバックエンドにより、Happyはこれらの機能をすべて組み合わせた最初のパーサジェネレータになります。 本稿では,GLLバックエンドの翻訳手順を説明し,HappyのLALRおよびGLRバックエンドと比較する。

Parser generators and parser combinator libraries are the most popular tools for producing parsers. Parser combinators use the host language to provide reusable components in the form of higher-order functions with parsers as parameters. Very few parser generators support this kind of reuse through abstraction and even fewer generate parsers that are as modular and reusable as the parts of the grammar for which they are produced. This paper presents a strategy for generating modular, reusable and complete top-down parsers from syntax descriptions with parameterized nonterminals, based on the FUN-GLL variant of the GLL algorithm. The strategy is discussed and demonstrated as a novel back-end for the Happy parser generator. Happy grammars can contain `parameterized nonterminals' in which parameters abstract over grammar symbols, granting an abstraction mechanism to define reusable grammar operators. However, the existing Happy back-ends do not deliver on the full potential of parameterized nonterminals as parameterized nonterminals cannot be reused across grammars. Moreover, the parser generation process may fail to terminate or may result in exponentially large parsers generated in an exponential amount of time. The GLL back-end presented in this paper implements parameterized nonterminals successfully by generating higher-order functions that resemble parser combinators, inheriting all the advantages of top-down parsing. The back-end is capable of generating parsers for the full class of context-free grammars, generates parsers in linear time and generates parsers that find all derivations of the input string. To our knowledge, the presented GLL back-end makes Happy the first parser generator that combines all these features. This paper describes the translation procedure of the GLL back-end and compares it to the LALR and GLR back-ends of Happy in several experiments.
翻訳日:2023-03-15 14:06:26 公開日:2023-03-14
# デモグラフィー・パリティ・インスペクタ:説明空間による公正監査

Demographic Parity Inspector: Fairness Audits via the Explanation Space ( http://arxiv.org/abs/2303.08040v1 )

ライセンス: Link先を確認
Carlos Mougan, Laura State, Antonio Ferrara, Salvatore Ruggieri, Steffen Staab(参考訳) 最良の意図でデプロイしても、機械学習の手法は永続的、増幅的、さらには社会的バイアスを生み出すことができる。 機械学習モデルの(非)差別性を評価する手段として、(非)公正性の尺度が提案されている。 しかし、差別的影響を引き起こす保護属性のプロキシは、解決が困難なままである。 本研究は,グループ間集団間差別の原因を検証できる,グループ毎の人口階層的パリティ違反を計測する新しいアルゴリズム的アプローチを提案する。 提案手法は,入力データや予測分布の一次空間よりも敏感な監査を可能にする情報空間と,理論的人口統計学的パーティ監査の保証を保証できる情報空間とに基づいて,保護属性に対するモデルの依存性を測定するという新しい考え方に依存している。 実世界のデータの数学的解析,合成例,実験評価を行う。 我々は、メソッド、ルーチン、チュートリアルを備えたオープンソースのPythonパッケージをリリースします。

Even if deployed with the best intentions, machine learning methods can perpetuate, amplify or even create social biases. Measures of (un-)fairness have been proposed as a way to gauge the (non-)discriminatory nature of machine learning models. However, proxies of protected attributes causing discriminatory effects remain challenging to address. In this work, we propose a new algorithmic approach that measures group-wise demographic parity violations and allows us to inspect the causes of inter-group discrimination. Our method relies on the novel idea of measuring the dependence of a model on the protected attribute based on the explanation space, an informative space that allows for more sensitive audits than the primary space of input data or prediction distributions, and allowing for the assertion of theoretical demographic parity auditing guarantees. We provide a mathematical analysis, synthetic examples, and experimental evaluation of real-world data. We release an open-source Python package with methods, routines, and tutorials.
翻訳日:2023-03-15 14:05:57 公開日:2023-03-14
# MELON:等値クラス推定を用いた画像未知のNeRF

MELON: NeRF with Unposed Images Using Equivalence Class Estimation ( http://arxiv.org/abs/2303.08096v1 )

ライセンス: Link先を確認
Axel Levy, Mark Matthews, Matan Sela, Gordon Wetzstein, Dmitry Lagun(参考訳) ニューラル・ラディアンス・フィールドは、いくつかの画像から写実的な画質で新規なビュー合成とシーン再構築を可能にするが、既知の正確なカメラポーズを必要とする。 従来のポーズ推定アルゴリズムは、滑らかまたは自己類似のシーンでは失敗するが、不適切なビューから逆レンダリングを行うには、カメラの向きを粗い初期化する必要がある。 ポーズ推定の主な難しさは、ある変換の下ではほとんど不変であり、カメラパラメータに関してレンダリングされたビュー間の光度距離を非凸にすることである。 カメラ空間における局所最小値の分布に一致する同値関係を用いて、この空間を商集合に還元し、ポーズ推定がより凸問題となる。 ニューラルネットワークを用いてポーズ推定を正則化することにより,提案手法であるmelonが,最先端の精度で画像からニューラルネットワークの放射場を再構築し,逆のアプローチに比べて10倍のビューを要できることを実証した。

Neural radiance fields enable novel-view synthesis and scene reconstruction with photorealistic quality from a few images, but require known and accurate camera poses. Conventional pose estimation algorithms fail on smooth or self-similar scenes, while methods performing inverse rendering from unposed views require a rough initialization of the camera orientations. The main difficulty of pose estimation lies in real-life objects being almost invariant under certain transformations, making the photometric distance between rendered views non-convex with respect to the camera parameters. Using an equivalence relation that matches the distribution of local minima in camera space, we reduce this space to its quotient set, in which pose estimation becomes a more convex problem. Using a neural-network to regularize pose estimation, we demonstrate that our method - MELON - can reconstruct a neural radiance field from unposed images with state-of-the-art accuracy while requiring ten times fewer views than adversarial approaches.
翻訳日:2023-03-15 13:59:20 公開日:2023-03-14
# 高nv濃度ダイヤモンドにおける光損失低減のための吸収・複屈折の研究

Absorption and birefringence study for reduced optical losses in diamond with high NV concentration ( http://arxiv.org/abs/2303.08091v1 )

ライセンス: Link先を確認
T. Luo, F. A. Hahl, J. Langer, V. Cimalla, L. Lindner, X. Vidal, M. Haertelt, R. Blinder, S. Onoda, T. Ohshima, and J. Jeske(参考訳) 窒素空白(nv)センターのようなダイヤモンドカラーセンターの利用は、量子センシングや計算の応用を可能にしている。 キャビティカップリングや読み出し、レーザーしきい値磁力計、マルチパスジオメトリといった新しい概念により、信号の増加と強い光野による感度と性能が大幅に向上する。 これらの技術の材料特性とさらなる改良は、信号光の光吸収による低光材料損失と低複屈折である。 本研究では, 700nm前後の吸収挙動と窒素およびnvドーピングの増加による複屈折, ダイヤモンド成長, 電子線照射および焼鈍処理によるnv生成時の挙動を系統的に検討した。 吸収は窒素ドーピングの増加と相関するが、置換窒素は直接吸収とは見なされない。 複屈折は窒素ドーピングの増加とともに減少する。 本研究は, 吸収分光法による結晶欠陥濃度とその物質加工過程の変化を同定し, 吸収・複屈折の潜在的な原因と, 高NV密度で低吸収・低複屈折のCVDダイヤモンド製造戦略を同定する。

The use of diamond color centers such as the nitrogen-vacancy (NV) center is increasingly enabling quantum sensing and computing applications. Novel concepts like cavity coupling and readout, laser threshold magnetometry and multi-pass geometries allow significantly improved sensitivity and performance via increased signals and strong light fields. Enabling material properties for these techniques and their further improvements are low optical material losses via optical absorption of signal light and low birefringence. Here we study systematically the behavior of absorption around 700 nm and birefringence with increasing nitrogen- and NV-doping, as well as their behavior during NV creation via diamond growth, electron beam irradiation and annealing treatments. Absorption correlates with increased nitrogen-doping yet substitutional nitrogen does not seem to be the direct absorber. Birefringence reduces with increasing nitrogen doping. We identify multiple crystal defect concentrations via absorption spectroscopy and their changes during the material processing steps and thus identify potential causes of absorption and birefringence as well as strategies to fabricate CVD diamonds with high NV density yet low absorption and low birefringence.
翻訳日:2023-03-15 13:59:00 公開日:2023-03-14
# エイリアスフリー共振器:ポリノミアル活性化によるフラクショナルシフト不変性

Alias-Free Convnets: Fractional Shift Invariance via Polynomial Activations ( http://arxiv.org/abs/2303.08085v1 )

ライセンス: Link先を確認
Hagay Michaeli, Tomer Michaeli, Daniel Soudry(参考訳) CNNは翻訳に不変であると考えられているが、最近の研究では、ダウンサンプリング層に由来するエイリアス効果のため、そうではないことが示されている。 エイリアスを防止するための既存のアーキテクチャソリューションは、これらの効果を解決しないため部分的である。 本稿では,ダウンサンプリング層と非線形層の両方に対処する拡張アンチエイリアス手法を提案する。 提案モデルは整数および分数(すなわちサブピクセル)変換に対して不変であり、従って逆変換に対するロバスト性の観点から他のシフト不変法よりも優れていることを示す。

Although CNNs are believed to be invariant to translations, recent works have shown this is not the case, due to aliasing effects that stem from downsampling layers. The existing architectural solutions to prevent aliasing are partial since they do not solve these effects, that originate in non-linearities. We propose an extended anti-aliasing method that tackles both downsampling and non-linear layers, thus creating truly alias-free, shift-invariant CNNs. We show that the presented model is invariant to integer as well as fractional (i.e., sub-pixel) translations, thus outperforming other shift-invariant methods in terms of robustness to adversarial translations.
翻訳日:2023-03-15 13:58:39 公開日:2023-03-14
# テキスト・画像拡散モデルにおける帰属推定の編集

Editing Implicit Assumptions in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2303.08084v1 )

ライセンス: Link先を確認
Hadas Orgad, Bahjat Kawar, Yonatan Belinkov(参考訳) テキストから画像への拡散モデルは、しばしば画像を生成するときに世界の暗黙の仮定を作る。 いくつかの仮定は有用(例えば空は青)であるが、トレーニングデータに存在する社会的バイアスを時代遅れ、不正確な、あるいは反映することもできる。 したがって、明示的なユーザ入力やコストのかかる再トレーニングを必要とせずに、これらの仮定を制御する必要がある。 本研究では,事前学習した拡散モデルにおいて,与えられた暗黙の仮定を編集することを目的とする。 テキストから画像へのモデル編集方法であるtime for shortは、2つの入力を受け取る: モデルが暗黙の仮定(例えば「バラのパック」)を行う「ソース」未特定プロンプトと、同じ設定を記述しつつ、指定された所望の属性(例えば「青いバラのパック」)を持つ「運命」プロンプト。 timeはモデルのクロスアテンションレイヤを更新し、これらのレイヤはテキストトークンに視覚的な意味を割り当てる。 ソースプロンプトが宛先プロンプトの近くに投影されるように,これらのレイヤ内のプロジェクション行列を編集する。 本手法は,モデルパラメータの2.2%を1秒未満で修正できるため,非常に効率的である。 モデル編集手法を評価するために、様々なドメインから147個のソースと宛先プロンプトペアを含むtimed(time dataset)を導入する。 我々の実験(安定拡散を用いた)では、TIMEはモデル編集に成功し、編集中に見えないプロンプトを一般化し、関係のない世代に最小限の効果を与える。

Text-to-image diffusion models often make implicit assumptions about the world when generating images. While some assumptions are useful (e.g., the sky is blue), they can also be outdated, incorrect, or reflective of social biases present in the training data. Thus, there is a need to control these assumptions without requiring explicit user input or costly re-training. In this work, we aim to edit a given implicit assumption in a pre-trained diffusion model. Our Text-to-Image Model Editing method, TIME for short, receives a pair of inputs: a "source" under-specified prompt for which the model makes an implicit assumption (e.g., "a pack of roses"), and a "destination" prompt that describes the same setting, but with a specified desired attribute (e.g., "a pack of blue roses"). TIME then updates the model's cross-attention layers, as these layers assign visual meaning to textual tokens. We edit the projection matrices in these layers such that the source prompt is projected close to the destination prompt. Our method is highly efficient, as it modifies a mere 2.2% of the model's parameters in under one second. To evaluate model editing approaches, we introduce TIMED (TIME Dataset), containing 147 source and destination prompt pairs from various domains. Our experiments (using Stable Diffusion) show that TIME is successful in model editing, generalizes well for related prompts unseen during editing, and imposes minimal effect on unrelated generations.
翻訳日:2023-03-15 13:58:26 公開日:2023-03-14
# 説明のシフト:モデル間の相互作用とデータ分布のシフト

Explanation Shift: Investigating Interactions between Models and Shifting Data Distributions ( http://arxiv.org/abs/2303.08081v1 )

ライセンス: Link先を確認
Carlos Mougan, Klaus Broelemann, David Masip, Gjergji Kasneci, Thanassis Thiropanis, Steffen Staab(参考訳) 入力データ分布が進化するにつれて、機械学習モデルの予測性能は低下する傾向にある。 実際には、新しい入力データにはターゲットラベルがない傾向がある。 次に、最先端技術が入力データ分布やモデル予測分布をモデル化し、学習モデルとシフト分布の相互作用に関する問題を理解する。 本稿では,分布変化による説明特性の変化をモデル化する手法を提案する。 また, 説明シフトのモデル化は, 最先端技術よりも分布外モデル行動の検出に有効であることがわかった。 合成例と実世界のデータセットを用いて,様々な分布シフトを分析する。 我々は,データセットの特徴と学習モデルとの相互作用を検査し,それらを最先端技術と比較するアルゴリズムを提案する。 私たちは、実験を再現するコードだけでなく、オープンソースのpythonパッケージでメソッドをリリースします。

As input data distributions evolve, the predictive performance of machine learning models tends to deteriorate. In practice, new input data tend to come without target labels. Then, state-of-the-art techniques model input data distributions or model prediction distributions and try to understand issues regarding the interactions between learned models and shifting distributions. We suggest a novel approach that models how explanation characteristics shift when affected by distribution shifts. We find that the modeling of explanation shifts can be a better indicator for detecting out-of-distribution model behaviour than state-of-the-art techniques. We analyze different types of distribution shifts using synthetic examples and real-world data sets. We provide an algorithmic method that allows us to inspect the interaction between data set features and learned models and compare them to the state-of-the-art. We release our methods in an open-source Python package, as well as the code used to reproduce our experiments.
翻訳日:2023-03-15 13:57:55 公開日:2023-03-14
# プログラム可能な光時計におけるrydberg相互作用によるスピンスクイーズの実現

Realizing spin squeezing with Rydberg interactions in a programmable optical clock ( http://arxiv.org/abs/2303.08078v1 )

ライセンス: Link先を確認
William J. Eckner, Nelson Darkwah Oppong, Alec Cao, Aaron W. Young, William R. Milner, John M. Robinson, Jun Ye, Adam M. Kaufman(参考訳) 光学ポテンシャルに閉じ込められた中性原子配列は、量子物理学を研究するための強力なプラットフォームであり、精密な単一粒子制御と検出と調整可能な相互作用を組み合わせている。 例えば、これらの能力は、最先端の周波数計測や、絡み合った多粒子状態の顕微鏡的研究に活用されている。 本研究では、これらの応用を組み合わせることで、相互作用する光量子ビットのプログラマブルアレイに基づく光原子時計におけるスピンスクイージング(metrologically useful entanglement)を実現する。 Rydbergによる中性原子光時計によるスクイーズの最初のデモでは、ほぼ4dBのメトロジカルゲインを持つ状態を生成する。 さらに, 1秒平均時間で1.087(1)\times 10^{-15}$の分数周波数安定性を観測し, 標準量子限界より1,9,4(1) db低く, 半時間測定で10^{-17}$の分数精度に達した。 さらに,光学的局所発振器と相対的コヒーレンス時間を超えて動作する測定におけるスピンスクイーズを探索するために,光トウィーザアレイによるプログラム可能な制御を利用して局所位相シフトを適用する。 プログラマブルな原子アレイ時計におけるスピン配列プロトコルの実現は、最適な位相推定とハイゼンベルク制限光原子時計のための幅広い量子情報インスパイアされた技術への扉を開く。

Neutral-atom arrays trapped in optical potentials are a powerful platform for studying quantum physics, combining precise single-particle control and detection with a range of tunable entangling interactions. For example, these capabilities have been leveraged for state-of-the-art frequency metrology as well as microscopic studies of entangled many-particle states. In this work, we combine these applications to realize spin squeezing - a widely studied operation for producing metrologically useful entanglement - in an optical atomic clock based on a programmable array of interacting optical qubits. In this first demonstration of Rydberg-mediated squeezing with a neutral-atom optical clock, we generate states that have almost 4 dB of metrological gain. Additionally, we perform a synchronous frequency comparison between independent squeezed states and observe a fractional frequency stability of $1.087(1)\times 10^{-15}$ at one-second averaging time, which is 1.94(1) dB below the standard quantum limit, and reaches a fractional precision at the $10^{-17}$ level during a half-hour measurement. We further leverage the programmable control afforded by optical tweezer arrays to apply local phase shifts in order to explore spin squeezing in measurements that operate beyond the relative coherence time with the optical local oscillator. The realization of this spin-squeezing protocol in a programmable atom-array clock opens the door to a wide range of quantum-information inspired techniques for optimal phase estimation and Heisenberg-limited optical atomic clocks.
翻訳日:2023-03-15 13:57:27 公開日:2023-03-14
# 線形エントロピーは低密度フェルミオン系における絡み合い挙動を予測できない

Linear entropy fails to predict entanglement behavior in low-density fermionic systems ( http://arxiv.org/abs/2303.08075v1 )

ライセンス: Link先を確認
T.Pauletti, M.Garcia, G.A.Canella and V.V.Fran\c{c}a(参考訳) 絡み合いは量子技術の基本的な要素と考えられており、凝縮物質系は量子デバイスにとって良い候補である。 バイパルタイト純状態の場合、フォン・ノイマンエントロピーは絡み合いの適切な尺度であり、リニアエントロピーは減少密度行列の混合性に関連するもので、得られるより単純な量であり、フォン・ノイマンと質的に等価であると考えられている。 本稿では,均質,超格子,不規則ハバード鎖の絡み合いを定量化するための線形エントロピーとフォン・ノイマンエントロピーについて検討する。 我々は、リニアエントロピーがフォン・ノイマンエントロピーの定性的振る舞いを再現するのに失敗するパラメータの体系を見つける。 これは誤った予測につながる可能性がある 一 最大及び最小の絡み合い状態、及び ii) 量子相転移。

Entanglement is considered a fundamental ingredient for quantum technologies and condensed matter systems are among the good candidates for quantum devices. For bipartite pure states the von Neumann entropy is a proper measure of entanglement, while the linear entropy, associated to the mixedness of the reduced density matrices, is a simpler quantity to be obtained and is considered to be qualitatively equivalent to the von Neumann. Here we investigate both linear and von Neumann entropies for quantifying entanglement in homogeneous, superlattice and disordered Hubbard chains. We find regimes of parameters for which the linear entropy fails in reproducing the qualitative behavior of the von Neumann entropy. This then may lead to incorrect predictions i) of maximum and minimum entanglement states and ii) of quantum phase transitions.
翻訳日:2023-03-15 13:57:00 公開日:2023-03-14
# 力場構築によるODEスタイル生成拡散モデルの解釈

Interpretable ODE-style Generative Diffusion Model via Force Field Construction ( http://arxiv.org/abs/2303.08063v1 )

ライセンス: Link先を確認
Weiyang Jin and Yongpei Zhu and Yuxi Peng(参考訳) しばらくの間、研究者は生成拡散モデルと数理物理学の深い関係を確立する方法の開発に注力してきた。 これまでの努力にもかかわらず、進歩は単一の専門的な方法の追求に限定されてきた。 拡散モデルの解釈可能性を高め, 新たな研究方向を探るためには, 統一ode型生成拡散モデルを確立することが不可欠である。 このようなモデルは物理モデルからインスピレーションを得て、明確な幾何学的意味を持つべきである。 本稿では, 数学的観点から, ode型生成拡散モデルの構築に適した様々な物理モデルを特定することを目的とする。 そして、これらのモデルを統一した手法にまとめる。 さらに,本手法によって同定された理論モデルを用いて,新しい拡散モデル手法を開発し,実験を行うケーススタディを実施している。 CIFAR-10の実験は、我々のアプローチの有効性を実証した。 画像生成速度に関して非常に熟練した結果を得る計算フレームワークを構築し,インセプションスコアとfidスコアの両方において優れた性能を示す追加モデルを構築した。 これらの結果は拡散モデルの発展における本手法の意義を浮き彫りにするものである。

For a considerable time, researchers have focused on developing a method that establishes a deep connection between the generative diffusion model and mathematical physics. Despite previous efforts, progress has been limited to the pursuit of a single specialized method. In order to advance the interpretability of diffusion models and explore new research directions, it is essential to establish a unified ODE-style generative diffusion model. Such a model should draw inspiration from physical models and possess a clear geometric meaning. This paper aims to identify various physical models that are suitable for constructing ODE-style generative diffusion models accurately from a mathematical perspective. We then summarize these models into a unified method. Additionally, we perform a case study where we use the theoretical model identified by our method to develop a range of new diffusion model methods, and conduct experiments. Our experiments on CIFAR-10 demonstrate the effectiveness of our approach. We have constructed a computational framework that attains highly proficient results with regards to image generation speed, alongside an additional model that demonstrates exceptional performance in both Inception score and FID score. These results underscore the significance of our method in advancing the field of diffusion models.
翻訳日:2023-03-15 13:56:30 公開日:2023-03-14
# 欠陥アトラスを用いたニューラルフィルタによるブラインドビデオデクリッカー

Blind Video Deflickering by Neural Filtering with a Flawed Atlas ( http://arxiv.org/abs/2303.08120v1 )

ライセンス: Link先を確認
Chenyang Lei, Xuanchi Ren, Zhaoxiang Zhang, Qifeng Chen(参考訳) 多くのビデオにはフリックなアーティファクトが含まれている。 flickerの一般的な原因は、ビデオ処理アルゴリズム、ビデオ生成アルゴリズム、特定の状況下でのビデオ撮影である。 以前の作業は通常、フリックの頻度、手動のアノテーション、あるいはフリックを除去するために一貫したビデオなど、特定のガイダンスを必要とする。 本研究では,1つのフリックアリング映像のみを入力として受信する一般的なフリックア除去フレームワークを提案する。 特定のフリッカリングタイプやガイダンスに盲目であるため、我々はこれを「ブラインドデクリッカリング」と呼ぶ。 このアプローチの核心は、ニューラルネットワークのフィルタリング戦略と協調して、neural atlasを活用することです。 neural atlasはビデオ内のすべてのフレームの統一表現であり、時間的一貫性のガイダンスを提供するが、多くの場合、欠陥がある。 この目的のために、ニューラルネットワークはフィルタを模倣して一貫した特徴(色、明るさなど)を学習し、atlasにアーティファクトを導入するのを避けるように訓練される。 提案手法を検証するために,実世界のフリックングビデオを含むデータセットを構築した。 広範な実験により,提案手法は,公開ベンチマークで追加のガイダンスを用いたベースラインよりも優れた性能を実現することが示された。

Many videos contain flickering artifacts. Common causes of flicker include video processing algorithms, video generation algorithms, and capturing videos under specific situations. Prior work usually requires specific guidance such as the flickering frequency, manual annotations, or extra consistent videos to remove the flicker. In this work, we propose a general flicker removal framework that only receives a single flickering video as input without additional guidance. Since it is blind to a specific flickering type or guidance, we name this "blind deflickering." The core of our approach is utilizing the neural atlas in cooperation with a neural filtering strategy. The neural atlas is a unified representation for all frames in a video that provides temporal consistency guidance but is flawed in many cases. To this end, a neural network is trained to mimic a filter to learn the consistent features (e.g., color, brightness) and avoid introducing the artifacts in the atlas. To validate our method, we construct a dataset that contains diverse real-world flickering videos. Extensive experiments show that our method achieves satisfying deflickering performance and even outperforms baselines that use extra guidance on a public benchmark.
翻訳日:2023-03-15 13:51:01 公開日:2023-03-14
# タンゴまで1回はかかるが、もっとトラブルを起こすのか? さまざまなデモによるコンテキスト内トレーニング

It Takes One to Tango but More Make Trouble? In-Context Training with Different Number of Demonstrations ( http://arxiv.org/abs/2303.08119v1 )

ライセンス: Link先を確認
Jiuhai Chen, LiChang Chen, Tianyi Zhou(参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)によっていくつかのインプット・アウトプット・デモ(デム)が提供されると複雑な推論を行うことができ、デモの中間的推論ステップ(CoT)が与えられるとより強力になる。 ICLでマルチデモを使う必要はあるか? 本稿では,<wei2022chain} のタスクにおける各テストクエリのデモを減らして ICL について検討する。 驚いたことに、ランダムに選択されたデモのみを使用する場合、大きな劣化は観察されない。 この現象を研究するために、各テストクエリに対して、デモを"正しいデモ"に分類し、正しい回答を導き、"間違ったデモ"を誤った回答に導く。 私たちの分析では、これらの広く研究されているデータセットに固有のバイアスが示されています。ほとんどのデモは、テストクエリの大部分に対して正しいものです。 さらに、ICL(with and w/o CoT)は1つの正しいデモのみを使用しており、これまでのほとんどの研究で採用されていた全デモICLよりも大幅に優れており、バイアス付きデータセットでは評価が難しい入力クエリの正しいデモ(s)を見つける際のLCMの弱点を示している。 さらに,より正確なデモを行うと,その正確性が低下(改善)するマルチデモを用いて,iclの直観に反する行動が観察される。 これは、iclがデモとそれらのスプリアス相関の間の干渉によって容易に誤解されることを意味する。 我々の分析では、LLMのトレーニング、ICL、ベンチマーク設計で対処する必要があるいくつかの基本的な課題を取り上げている。

Large language models (LLMs) are capable to perform complex reasoning by in-context learning (ICL) when provided with a few input-output demonstrations (demos) and more powerful when intermediate reasoning steps ("chain of thoughts (CoT)") of the demos are given. Is it necessary to use multi-demo in ICL? In this paper, we study ICL using fewer demos for each test query on the tasks in~\cite{wei2022chain}. Surprisingly, we do not observe significant degradation when using only one randomly chosen demo. To study this phenomenon, for each test query, we categorize demos into "correct demos" leading to the correct answer, and "wrong demos" resulting in wrong answers. Our analysis reveals an inherent bias in those widely studied datasets: most demos are correct for a majority of test queries, which explains the good performance of using one random demo. Moreover, ICL (with and w/o CoT) using only one correct demo significantly outperforms all-demo ICL adopted by most previous works, indicating the weakness of LLMs in finding correct demo(s) for input queries, which is difficult to evaluate on the biased datasets. Furthermore, we observe a counterintuitive behavior of ICL using multi-demo, i.e., its accuracy degrades(improves) when given more correct(wrong) demos. This implies that ICL can be easily misguided by interference among demos and their spurious correlations. Our analyses highlight several fundamental challenges that need to be addressed in LLMs training, ICL, and benchmark design.
翻訳日:2023-03-15 13:50:39 公開日:2023-03-14
# Transformers Parse は Masked Word を予測中か?

Do Transformers Parse while Predicting the Masked Word? ( http://arxiv.org/abs/2303.08117v1 )

ライセンス: Link先を確認
Haoyu Zhao, Abhishek Panigrahi, Rong Ge, Sanjeev Arora(参考訳) 事前学習された言語モデルは、例えば依存木や構成構文解析木のような言語構造を埋め込みでエンコードし、マスク付き言語モデリングのような教師なしの損失関数で訓練されることが示されている。 モデルが実際に解析を行っているのか、あるいはそれと弱い相関関係にある計算だけなのか、いくつかの疑問が持ち上がっている。 質問を勉強します (a) 構文解析を行うことができる現実的な埋め込み次元や頭数などのトランスフォーマーを明示的に記述することは可能か -- あるいは近似解析さえ可能か? b) 事前学習モデルが解析構造をキャプチャする理由 本稿では,PCFGを用いた生成モデリングの文脈において,これらの疑問に答えるための一歩を踏み出した。 bertやrobertaのような中規模のマスキング言語モデルは、英語のpcfg [marcus et al, 1993] の内側側アルゴリズムをほぼ実行可能であることを示した。 Inside-OutsideアルゴリズムはPCFG生成データに対するマスク付き言語モデリング損失に対して最適であることを示す。 また、50ドルのレイヤ、15ドルのアテンションヘッド、そして平均1275ドルの埋め込みを持つトランスフォーマーを構築し、その埋め込みを使用することでptbデータセットに$70\%$ f1スコアで構成解析を行うことができます。 我々はPCFG生成データ上で事前学習されたモデルに対する探索実験を行い、この手法により近似解析木を復元できるだけでなく、インサイド・アウトサイド・アルゴリズムによって計算された限界範囲の確率を復元できることを示す。

Pre-trained language models have been shown to encode linguistic structures, e.g. dependency and constituency parse trees, in their embeddings while being trained on unsupervised loss functions like masked language modeling. Some doubts have been raised whether the models actually are doing parsing or only some computation weakly correlated with it. We study questions: (a) Is it possible to explicitly describe transformers with realistic embedding dimension, number of heads, etc. that are capable of doing parsing -- or even approximate parsing? (b) Why do pre-trained models capture parsing structure? This paper takes a step toward answering these questions in the context of generative modeling with PCFGs. We show that masked language models like BERT or RoBERTa of moderate sizes can approximately execute the Inside-Outside algorithm for the English PCFG [Marcus et al, 1993]. We also show that the Inside-Outside algorithm is optimal for masked language modeling loss on the PCFG-generated data. We also give a construction of transformers with $50$ layers, $15$ attention heads, and $1275$ dimensional embeddings in average such that using its embeddings it is possible to do constituency parsing with $>70\%$ F1 score on PTB dataset. We conduct probing experiments on models pre-trained on PCFG-generated data to show that this not only allows recovery of approximate parse tree, but also recovers marginal span probabilities computed by the Inside-Outside algorithm, which suggests an implicit bias of masked language modeling towards this algorithm.
翻訳日:2023-03-15 13:50:09 公開日:2023-03-14
# simfluence: トレーニング実行のシミュレーションによる個々のトレーニング例の影響のモデル化

Simfluence: Modeling the Influence of Individual Training Examples by Simulating Training Runs ( http://arxiv.org/abs/2303.08114v1 )

ライセンス: Link先を確認
Kelvin Guu, Albert Webson, Ellie Pavlick, Lucas Dixon, Ian Tenney, Tolga Bolukbasi(参考訳) トレーニングデータ属性(TDA)メソッドは、任意の例に対するモデルの予測を、特定の影響力のあるトレーニング例に遡ることができる。 既存のアプローチでは、影響が付加的であるという単純な仮定の下で、各トレーニング例にスカラー影響スコアを割り当てている。 しかし,実のところ,実例では,実例間冗長性,訓練順序,カリキュラム学習効果などの要因により,高度に非加法的な相互作用がみられた。 このような相互作用を研究するために、我々はTDAの新しいパラダイムであるSimfluenceを提案する。このパラダイムは、サンプルあたりの1つの影響スコアを生成するのではなく、トレーニング実行シミュレータを目標とするものだ。 "もし、私のモデルが例$z_1$, then $z_2$, ..., then $z_n$でトレーニングされたなら、$z_{test}$?'でどのように振る舞うか?" と、シミュレータはシミュレートされた実行のすべてのステップで、$z_{test}$の損失を予測する時系列であるシミュレートされたトレーニング実行を出力すべきである。 これにより、ユーザーは異なるトレーニングカリキュラムの下でモデルが学習したであろうことに関する反現実的な質問に答え、学習がどこで起こるかを直接確認することができる。 我々は,非加法的相互作用を捉えるシミュレータであるシムフルエンス線形(simfluence-linear)を提案する。 さらに,TracInやインフルエンス関数といった既存のTDA手法をSimfluence-Linearの特殊なケースとみなせることを示す。 これにより,提案手法をシミュレーション精度で直接比較し,いくつかの先行TDA手法による評価を行うことができる。 大規模言語モデル(LLM)の微調整実験において,提案手法は既存のTDA法(スピアマンの相関を2倍にし,平均二乗誤差を75%削減する)に比べて,いくつかのタスク,モデル,トレーニング手法ではるかに高精度に損失軌跡を予測する。

Training data attribution (TDA) methods offer to trace a model's prediction on any given example back to specific influential training examples. Existing approaches do so by assigning a scalar influence score to each training example, under a simplifying assumption that influence is additive. But in reality, we observe that training examples interact in highly non-additive ways due to factors such as inter-example redundancy, training order, and curriculum learning effects. To study such interactions, we propose Simfluence, a new paradigm for TDA where the goal is not to produce a single influence score per example, but instead a training run simulator: the user asks, ``If my model had trained on example $z_1$, then $z_2$, ..., then $z_n$, how would it behave on $z_{test}$?''; the simulator should then output a simulated training run, which is a time series predicting the loss on $z_{test}$ at every step of the simulated run. This enables users to answer counterfactual questions about what their model would have learned under different training curricula, and to directly see where in training that learning would occur. We present a simulator, Simfluence-Linear, that captures non-additive interactions and is often able to predict the spiky trajectory of individual example losses with surprising fidelity. Furthermore, we show that existing TDA methods such as TracIn and influence functions can be viewed as special cases of Simfluence-Linear. This enables us to directly compare methods in terms of their simulation accuracy, subsuming several prior TDA approaches to evaluation. In experiments on large language model (LLM) fine-tuning, we show that our method predicts loss trajectories with much higher accuracy than existing TDA methods (doubling Spearman's correlation and reducing mean-squared error by 75%) across several tasks, models, and training methods.
翻訳日:2023-03-15 13:49:41 公開日:2023-03-14
# 等角不変超弾性規則化によるホロモルフィック画像の登録

Homeomorphic Image Registration via Conformal-Invariant Hyperelastic Regularisation ( http://arxiv.org/abs/2303.08113v1 )

ライセンス: Link先を確認
Jing Zou, No\'emie Debroux, Lihao Liu, Jing Qin, Carola-Bibiane Sch\"onlieb, and Angelica I Aviles-Rivero(参考訳) 変形可能な画像登録は、医療画像解析の基本的な課題であり、幅広い臨床応用において重要な役割を果たす。 近年,変形可能な医用画像登録のための深層学習アプローチが広く研究され,有望な成果を上げている。 しかし、既存のディープラーニング画像登録技術は、トポロジー保存変換を理論的に保証していない。 これは解剖学的構造を保存し、実際の臨床で使用できる、妥当な変換を達成するための重要な特性である。 変形可能な画像登録のための新しいフレームワークを提案する。 まず, 非線形弾性設定において, 共形不変性に基づく新しい正則性を導入する。 我々の正規化器は変形場を滑らかで、可逆的で、配向保存するために強制する。 さらに,臨床的に有意な登録を得られるトポロジー保存を厳格に保証する。 第2に,登録済み画像を連続的に識別可能なエンティティとして見ることのできる座標MLPを用いて,正規化器の性能を向上する。 我々は,数値的および視覚的な実験により,現在の画像登録手法を上回ることができることを示す。

Deformable image registration is a fundamental task in medical image analysis and plays a crucial role in a wide range of clinical applications. Recently, deep learning-based approaches have been widely studied for deformable medical image registration and achieved promising results. However, existing deep learning image registration techniques do not theoretically guarantee topology-preserving transformations. This is a key property to preserve anatomical structures and achieve plausible transformations that can be used in real clinical settings. We propose a novel framework for deformable image registration. Firstly, we introduce a novel regulariser based on conformal-invariant properties in a nonlinear elasticity setting. Our regulariser enforces the deformation field to be smooth, invertible and orientation-preserving. More importantly, we strictly guarantee topology preservation yielding to a clinical meaningful registration. Secondly, we boost the performance of our regulariser through coordinate MLPs, where one can view the to-be-registered images as continuously differentiable entities. We demonstrate, through numerical and visual experiments, that our framework is able to outperform current techniques for image registration.
翻訳日:2023-03-15 13:48:59 公開日:2023-03-14
# 可変レンズを用いた変圧器の潜時予測

Eliciting Latent Predictions from Transformers with the Tuned Lens ( http://arxiv.org/abs/2303.08112v1 )

ライセンス: Link先を確認
Nora Belrose, Zach Furman, Logan Smith, Danny Halawi, Igor Ostrovsky, Lev McKinney, Stella Biderman, Jacob Steinhardt(参考訳) 反復推論の観点からトランスフォーマーを解析し,モデル予測がレイヤ単位でどのように洗練されるかを理解する。 そのため、凍結事前訓練されたモデルで各ブロックに対するアフィンプローブを訓練し、すべての隠れた状態を語彙上の分布に復号することができる。 我々の方法である 'emph{tuned Lens} は、初期の 'logit Lens' 技術の洗練であり、有用な洞察を得たが、しばしば脆弱である。 我々は,最大20Bパラメータを持つ多種多様な自己回帰言語モデルを用いて,ロジットレンズよりも予測的かつ信頼性が高く,偏りがないことを示す。 因果実験により、調整レンズはモデル自体と同様の機能を使用することを示した。 また,悪意のある入力を高精度に検出するために,潜在予測の軌跡が利用できることも見いだした。 結果の再現に必要なコードは、https://github.com/alignmentresearch/tuned-lensにある。

We analyze transformers from the perspective of iterative inference, seeking to understand how model predictions are refined layer by layer. To do so, we train an affine probe for each block in a frozen pretrained model, making it possible to decode every hidden state into a distribution over the vocabulary. Our method, the \emph{tuned lens}, is a refinement of the earlier ``logit lens'' technique, which yielded useful insights but is often brittle. We test our method on various autoregressive language models with up to 20B parameters, showing it to be more predictive, reliable and unbiased than the logit lens. With causal experiments, we show the tuned lens uses similar features to the model itself. We also find the trajectory of latent predictions can be used to detect malicious inputs with high accuracy. All code needed to reproduce our results can be found at https://github.com/AlignmentResearch/tuned-lens.
翻訳日:2023-03-15 13:48:44 公開日:2023-03-14
# 昆虫にインスパイアされたスパースニューラルネットワークによる視覚経路の追従

Vision-based route following by an embodied insect-inspired sparse neural network ( http://arxiv.org/abs/2303.08109v1 )

ライセンス: Link先を確認
Lu Yihe, Rana Alkhoury Maroun, Barbara Webb(参考訳) 昆虫に触発されたスパースニューラルネットワーク(dasgupta et al., 2017)であるflyhashモデルの効率を,具体化されたナビゲーションタスクにおいて類似しているが非スパースモデルと比較した。 これには、現在の視覚入力とトレーニングルートに格納されたメモリを比較することによって、ステアリングを制御するモデルが必要である。 FlyHashモデルは、特にデータエンコーディングの点で、他のモデルよりも効率的である、と結論付けました。

We compared the efficiency of the FlyHash model, an insect-inspired sparse neural network (Dasgupta et al., 2017), to similar but non-sparse models in an embodied navigation task. This requires a model to control steering by comparing current visual inputs to memories stored along a training route. We concluded the FlyHash model is more efficient than others, especially in terms of data encoding.
翻訳日:2023-03-15 13:48:27 公開日:2023-03-14
# 固定専門家アドバイザを用いた帯域情報理論レグレクト境界

Information-Theoretic Regret Bounds for Bandits with Fixed Expert Advice ( http://arxiv.org/abs/2303.08102v1 )

ライセンス: Link先を確認
Khaled Eldowa, Nicol\`o Cesa-Bianchi, Alberto Maria Metelli, Marcello Restelli(参考訳) 我々は,専門家が修正され,行動に関する既知の分布が存在する場合に,専門家のアドバイスにより,バンディットの問題を調査する。 先行分析を改良した結果,後悔は専門家間の類似性を測定する情報理論量によって制御されることがわかった。 いくつかの自然の特殊ケースでは、専門家が十分に類似しているならば、任意に0に近づくことができるEXP4の最初の後悔境界が得られる。 別のアルゴリズムでは、kl-ダイバージェンスの観点から専門家間の類似性を記述する別のバウンドを提供し、ある場合においてこのバウンドが exp4 のバウンドよりも小さいことを示す。 さらに、ある専門家のクラスに対して、分析したアルゴリズムがほぼ最適であることを示す下限を提供する。

We investigate the problem of bandits with expert advice when the experts are fixed and known distributions over the actions. Improving on previous analyses, we show that the regret in this setting is controlled by information-theoretic quantities that measure the similarity between experts. In some natural special cases, this allows us to obtain the first regret bound for EXP4 that can get arbitrarily close to zero if the experts are similar enough. While for a different algorithm, we provide another bound that describes the similarity between the experts in terms of the KL-divergence, and we show that this bound can be smaller than the one of EXP4 in some cases. Additionally, we provide lower bounds for certain classes of experts showing that the algorithms we analyzed are nearly optimal in some cases.
翻訳日:2023-03-15 13:48:00 公開日:2023-03-14
# ロバスト多相推定のための低深さ量子アルゴリズムについて

On low-depth quantum algorithms for robust multiple-phase estimation ( http://arxiv.org/abs/2303.08099v1 )

ライセンス: Link先を確認
Haoya Li, Hongkang Ni, Lexing Ying(参考訳) 本稿では,複数の固有値を持つ量子位相推定のアルゴリズムによる検討を行う。 1) 初期フォールトトレラント量子コンピュータに特に適合する,ロバストな多重位相推定 (rmpe) アルゴリズムを提案する。(1) 極小のアンシラ量子ビットを使用し, (2) かなりの残差を持つ不完全な初期状態が許容され, (3) 最大ランタイムにおけるプリファクターは,残差が十分に小さく,支配的固有値間のギャップが事前に分かっているので,任意に小さくすることができる。 固有値ギャップが存在しない場合でも、提案したRMPEアルゴリズムは上記の利点(1)と(2)を維持しながらハイゼンベルク限界を達成することができる。 さらに、本手法では、ユニタリ$u$ が整数パワーのみアクセス可能なブラックボックスとして与えられる "em integer-power} モデルと、ユニタリ$u$ が $u = \exp(-2\pi\mathrm{i} h)$ のハミルトニアン $h$ で定義される "em real-power} モデルの両方を扱う。

This paper is an algorithmic study of quantum phase estimation with multiple eigenvalues. We present robust multiple-phase estimation (RMPE) algorithms with Heisenberg-limited scaling that are particularly suitable for early fault-tolerant quantum computers in the following senses: (1) a minimal number of ancilla qubits are used, (2) an imperfect initial state with a significant residue is allowed, (3) the prefactor in the maximum runtime can be arbitrarily small given that the residue is sufficiently small and a gap among the dominant eigenvalues is known in advance. Even if the eigenvalue gap does not exist, the proposed RMPE algorithms are able to achieve the Heisenberg limit while maintaining the aforementioned benefits (1) and (2). In addition, our method handles both the {\em integer-power} model, where the unitary $U$ is given as a black box with only integer powers accessible, and the {\em real-power} model, where the unitary $U$ is defined through a Hamiltonian $H$ with $U = \exp(-2\pi\mathrm{i} H)$.
翻訳日:2023-03-15 13:47:46 公開日:2023-03-14
# 多様性を意識したメタビジュアルプロンプティング

Diversity-Aware Meta Visual Prompting ( http://arxiv.org/abs/2303.08138v1 )

ライセンス: Link先を確認
Qidong Huang and Xiaoyi Dong and Dongdong Chen and Weiming Zhang and Feifei Wang and Gang Hua and Nenghai Yu(参考訳) DAM-VP(Diversity-Aware Meta Visual Prompting~)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送するための効率的かつ効果的なプロンプト手法である。 ビジュアルプロンプトの課題は、画像データセットが大規模なデータ多様性を持つ場合があり、データセット毎のジェネリックプロンプトは、元のプリトレーニングデータ分散への複雑な分散シフトを適切に処理できないことである。 この問題に対処するために,メタプロンプトによって初期化を実現したデータセットの多様性認識促進戦略を提案する。 具体的には、下流データセットを多様性適応的な方法で小さな均一なサブセットにクラスタ化し、各サブセットは独自のプロンプトを個別に最適化する。 このような分割・分散設計は最適化の難しさを大幅に減らし、プロンプト性能を大幅に向上させる。 さらに、すべてのプロンプトはmeta-promptで初期化され、複数のデータセットで学習される。 これはブートストラップされたパラダイムであり、以前のデータセットから学習した知識がプロンプトがより早く収束し、新しいデータセットでより良いパフォーマンスを発揮するのに役立つという重要な観察がある。 推論中、入力と各サブセット間の特徴距離に基づいて、各入力に対して適切なプロンプトを動的に選択する。 dam-vpは,様々な事前学習モデルに対する一連のダウンストリームデータセットにおいて,従来のプロンプト手法を明らかに上回って,優れた効率性と有効性を実証する。 私たちのコードは、 \url{https://github.com/shikiw/dam-vp} で利用可能です。

We present Diversity-Aware Meta Visual Prompting~(DAM-VP), an efficient and effective prompting method for transferring pre-trained models to downstream tasks with frozen backbone. A challenging issue in visual prompting is that image datasets sometimes have a large data diversity whereas a per-dataset generic prompt can hardly handle the complex distribution shift toward the original pretraining data distribution properly. To address this issue, we propose a dataset Diversity-Aware prompting strategy whose initialization is realized by a Meta-prompt. Specifically, we cluster the downstream dataset into small homogeneity subsets in a diversity-adaptive way, with each subset has its own prompt optimized separately. Such a divide-and-conquer design reduces the optimization difficulty greatly and significantly boosts the prompting performance. Furthermore, all the prompts are initialized with a meta-prompt, which is learned across several datasets. It is a bootstrapped paradigm, with the key observation that the prompting knowledge learned from previous datasets could help the prompt to converge faster and perform better on a new dataset. During inference, we dynamically select a proper prompt for each input, based on the feature distance between the input and each subset. Through extensive experiments, our DAM-VP demonstrates superior efficiency and effectiveness, clearly surpassing previous prompting methods in a series of downstream datasets for different pretraining models. Our code is available at: \url{https://github.com/shikiw/DAM-VP}.
翻訳日:2023-03-15 13:41:36 公開日:2023-03-14
# LayoutDM:制御可能なレイアウト生成のための離散拡散モデル

LayoutDM: Discrete Diffusion Model for Controllable Layout Generation ( http://arxiv.org/abs/2303.08137v1 )

ライセンス: Link先を確認
Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi(参考訳) 制御可能なレイアウト生成は、特定の要素の型や位置といった任意の制約付き要素バウンディングボックスの可能な配置を合成することを目的としている。 本研究では,離散状態空間拡散モデルに基づく単一モデルにおいて,幅広いレイアウト生成タスクを解こうとする。 layoutdmと名づけたこのモデルでは,構造化レイアウトデータを離散表現で処理し,初期入力からノイズのないレイアウトを漸進的に推測することを学び,モダリティを考慮した離散拡散によるレイアウト破壊過程をモデル化する。 条件付き生成では,推論中のマスキングやロジット調整の形でレイアウト制約を注入する。 実験の結果、LayoutDMは高品質なレイアウトを生成でき、複数のレイアウトタスクにおいてタスク固有のベースラインとタスクに依存しないベースラインの両方に優れることがわかった。

Controllable layout generation aims at synthesizing plausible arrangement of element bounding boxes with optional constraints, such as type or position of a specific element. In this work, we try to solve a broad range of layout generation tasks in a single model that is based on discrete state-space diffusion models. Our model, named LayoutDM, naturally handles the structured layout data in the discrete representation and learns to progressively infer a noiseless layout from the initial input, where we model the layout corruption process by modality-wise discrete diffusion. For conditional generation, we propose to inject layout constraints in the form of masking or logit adjustment during inference. We show in the experiments that our LayoutDM successfully generates high-quality layouts and outperforms both task-specific and task-agnostic baselines on several layout tasks.
翻訳日:2023-03-15 13:41:10 公開日:2023-03-14
# Higgs Condensates is Symmetry-Protected Topological Phases: II。 $U(1)$ゲージ理論と超伝導体

Higgs Condensates are Symmetry-Protected Topological Phases: II. $U(1)$ Gauge Theory and Superconductors ( http://arxiv.org/abs/2303.08136v1 )

ライセンス: Link先を確認
Ryan Thorngren, Tibor Rakovszky, Ruben Verresen, and Ashvin Vishwanath(参考訳) 空隙と対称保存状態の風景の中でヒッグス相を分類することは概念的な挑戦である。 U(1)$ヒッグス相は対称性保護トポロジカル(SPT)相であり、そのトポロジカル応答理論と境界異常を導出する。 これは、Verresen et al., arXiv:2211.01376 による離散ゲージ理論の議論を一般化する。 空間次元$d$のヒッグス位相は、ヒッグス場に付随する大域的な$U(1)$対称性で保護された非自明なSPTクラスであり、磁気モノポールの欠如に関連する$d-2$形式$U(1)$磁気対称性であることを示す。 $d=2$ の場合、これは従来の対称性間の混合ホール応答を持つ SPT を与えるが、$d=3$ では 0-形式と 1-形式対称性で保護された新しい SPT を得る。 超伝導体 - ヒッグス相 - の電気磁気特性は、このspt応答から再現することができる。 例えば、ジョセフソン効果は前述の境界超流動から直接生じる。 ランダウ・ギンズバーグ理論を補完するこの最小主義的アプローチに加えて、その非摂動的性質は変動が重要である状況において有用である。 我々は、電荷-1ヒッグス位相から閉じ込められた位相へのチューニングがジャンクションの量子臨界点につながるような、$U(1)$格子ゲージ理論におけるモノポールの導入によるジョセフソン効果の安定性を予測することによってこれを裏付ける。 さらに、この視点は、超伝導体の表面の永続的な電流が一般化されたThoulessポンプから生じるなど、予期せぬ接続を明らかにしている。 また,電子超伝導体中の"2e"凝縮を含む部分ヒッグス相への一般化を,対称性に富む位相秩序に対応するように扱う。

Classifying Higgs phases within the landscape of gapped and symmetry preserving states of matter presents a conceptual challenge. We argue that $U(1)$ Higgs phases are symmetry-protected topological (SPT) phases and we derive their topological response theory and boundary anomaly -- applicable to superconductors treated with dynamical electromagnetic field. This generalizes the discussion of discrete gauge theories by Verresen et al., arXiv:2211.01376. We show that a Higgs phase in $d$ spatial dimensions is in a non-trivial SPT class protected by a global $U(1)$ symmetry associated with the Higgs field, and a $d-2$ form $U(1)$ magnetic symmetry, associated with the absence of magnetic monopoles. In $d=2$, this gives an SPT with a mixed Hall response between conventional symmetries, whereas in $d=3$ we obtain a novel SPT protected by a 0-form and 1-form symmetry whose 2+1d boundary anomaly is satisfied by a superfluid. The signature properties of superconductors -- Higgs phases for electromagnetism -- can be reproduced from this SPT response. For instance, the Josephson effect directly arises from the aforementioned boundary superfluid. In addition to this minimalist approach being complementary to Landau-Ginzburg theory, its non-perturbative nature is useful in situations where fluctuations are significant. We substantiate this by predicting the stability of the Josephson effect upon introducing monopoles in $U(1)$ lattice gauge theory, where tuning from the charge-1 Higgs phase to the confined phase leads to a quantum critical point in the junction. Furthermore, this perspective reveals unexpected connections, such as how persistent currents at the surface of a superconductor arise from generalized Thouless pumps. We also treat generalizations to partial-Higgs phases, including "2e" condensates in electronic superconductors, corresponding to symmetry-enriched topological orders.
翻訳日:2023-03-15 13:40:54 公開日:2023-03-14
# パラメータがすべてではない:3Dポイントクラウド分析のための非パラメトリックネットワークから始める

Parameter is Not All You Need: Starting from Non-Parametric Networks for 3D Point Cloud Analysis ( http://arxiv.org/abs/2303.08134v1 )

ライセンス: Link先を確認
Renrui Zhang, Liuhui Wang, Yali Wang, Peng Gao, Hongsheng Li, Jianbo Shi(参考訳) 本稿では,3次元点クラウド解析のための非パラメトリックネットワークであるpoint-nnについて述べる。これは,最も遠い点サンプリング(fps),k-nearest近傍(k-nn),および三角関数を持つプール操作である。 驚くべきことに、さまざまな3Dタスクでうまく機能し、パラメータやトレーニングを必要とせず、既存の完全に訓練されたモデルを超えています。 この基本的非パラメトリックモデルから、2つの拡張を提案する。 まず、Point-NNは、単に線形レイヤを上部に挿入することでパラメトリックネットワークを構築するための基盤となるアーキテクチャフレームワークとして機能する。 優れた非パラメトリック基盤が与えられた場合、派生したPoint-PNは、学習可能なパラメータがほんのわずかしかない高いパフォーマンス効率のトレードオフを示す。 第二に、Point-NNは推論中に既に訓練された3Dモデルのプラグアンドプレイモジュールと見なすことができる。 Point-NNは、相補的な幾何学的知識を捉え、異なる3Dベンチマークのための既存の方法を強化する。 私たちは、パラメトリックでない方法で3Dポイントクラウドを理解するために、コミュニティに光を当てることを願っています。 コードはhttps://github.com/ZrrSkywalker/Point-NNで入手できる。

We present a Non-parametric Network for 3D point cloud analysis, Point-NN, which consists of purely non-learnable components: farthest point sampling (FPS), k-nearest neighbors (k-NN), and pooling operations, with trigonometric functions. Surprisingly, it performs well on various 3D tasks, requiring no parameters or training, and even surpasses existing fully trained models. Starting from this basic non-parametric model, we propose two extensions. First, Point-NN can serve as a base architectural framework to construct Parametric Networks by simply inserting linear layers on top. Given the superior non-parametric foundation, the derived Point-PN exhibits a high performance-efficiency trade-off with only a few learnable parameters. Second, Point-NN can be regarded as a plug-and-play module for the already trained 3D models during inference. Point-NN captures the complementary geometric knowledge and enhances existing methods for different 3D benchmarks without re-training. We hope our work may cast a light on the community for understanding 3D point clouds with non-parametric methods. Code is available at https://github.com/ZrrSkywalker/Point-NN.
翻訳日:2023-03-15 13:40:17 公開日:2023-03-14
# MeshDiffusion: スコアベースの生成3Dメッシュモデリング

MeshDiffusion: Score-based Generative 3D Mesh Modeling ( http://arxiv.org/abs/2303.08133v1 )

ライセンス: Link先を確認
Zhen Liu, Yao Feng, Michael J. Black, Derek Nowrouzezahrai, Liam Paull, Weiyang Liu(参考訳) 本稿では,シーンの自動生成や物理シミュレーションなど,様々な応用に有用な現実的な3次元形状を生成するタスクについて考察する。 voxelsやpoint cloudのような他の3d表現と比較して、メッシュは(1)リライトやシミュレーションのために簡単に任意の形状の操作を可能にし、(2)メッシュに最適化されたモダンなグラフィックパイプラインのパワーを十分に活用できるため、実際にはより望ましい。 従来のスケーラブルなメッシュ生成手法では,サブ最適ポストプロセッシングが一般的であり,粒度の細かい幾何学的詳細を必要とせず,過度にスムースあるいはノイズの多い表面を生成する傾向がある。 これらの欠点を克服するために,メッシュのグラフ構造を利用し,単純かつ非常に効果的な生成モデリング手法を用いて3dメッシュを生成する。 具体的には、変形可能な四面体格子でメッシュを表現し、この直接パラメトリゼーション上で拡散モデルを訓練する。 複数の生成タスクにおけるモデルの有効性を示す。

We consider the task of generating realistic 3D shapes, which is useful for a variety of applications such as automatic scene generation and physical simulation. Compared to other 3D representations like voxels and point clouds, meshes are more desirable in practice, because (1) they enable easy and arbitrary manipulation of shapes for relighting and simulation, and (2) they can fully leverage the power of modern graphics pipelines which are mostly optimized for meshes. Previous scalable methods for generating meshes typically rely on sub-optimal post-processing, and they tend to produce overly-smooth or noisy surfaces without fine-grained geometric details. To overcome these shortcomings, we take advantage of the graph structure of meshes and use a simple yet very effective generative modeling method to generate 3D meshes. Specifically, we represent meshes with deformable tetrahedral grids, and then train a diffusion model on this direct parametrization. We demonstrate the effectiveness of our model on multiple generative tasks.
翻訳日:2023-03-15 13:39:58 公開日:2023-03-14
# InstMove: オブジェクト中心のビデオセグメンテーションのためのインスタンスモーション

InstMove: Instance Motion for Object-centric Video Segmentation ( http://arxiv.org/abs/2303.08132v1 )

ライセンス: Link先を確認
Qihao Liu, Junfeng Wu, Yi Jiang, Xiang Bai, Alan Yuille, Song Bai(参考訳) 重要な努力にもかかわらず、最先端のビデオセグメンテーション法は、これらの乱れに弱い物体の埋め込み形式における物体の出現に依存しているため、依然として閉塞や急激な動きに敏感である。 一般的な解決策は、光学フローを使ってモーション情報を提供することだが、基本的にはピクセルレベルの動きのみを考慮し、見た目の類似性に依存しており、オクルージョンや速い動きでは不正確であることが多い。 本研究では、オブジェクト中心ビデオセグメンテーションにおけるインスタンスレベルの動きとインスタンスレベルの動きについて検討する。 InstMoveは主に画像特徴の埋め込みが不要なインスタンスレベルのモーション情報に依存しており、物理的解釈が特徴であり、閉塞や高速移動に対してより正確で堅牢である。 ビデオセグメンテーションタスクにもっとうまく適合するために、InstMoveはインスタンスマスクを使用してオブジェクトの物理的存在をモデル化し、メモリネットワークを通じて動的モデルを学び、次のフレームの位置と形状を予測する。 数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために現在のSOTAメソッドに統合され、パフォーマンスが向上する。 具体的には,ovisデータセットでは1.5 ap,youtubevis-longデータセットでは4.9 ap,高速に移動するオブジェクトを主とする。 これらの結果は、インスタンスレベルの動きは堅牢で正確であり、オブジェクト中心のビデオセグメンテーションの複雑なシナリオにおいて強力な解決策となることを示唆している。

Despite significant efforts, cutting-edge video segmentation methods still remain sensitive to occlusion and rapid movement, due to their reliance on the appearance of objects in the form of object embeddings, which are vulnerable to these disturbances. A common solution is to use optical flow to provide motion information, but essentially it only considers pixel-level motion, which still relies on appearance similarity and hence is often inaccurate under occlusion and fast movement. In this work, we study the instance-level motion and present InstMove, which stands for Instance Motion for Object-centric Video Segmentation. In comparison to pixel-wise motion, InstMove mainly relies on instance-level motion information that is free from image feature embeddings, and features physical interpretations, making it more accurate and robust toward occlusion and fast-moving objects. To better fit in with the video segmentation tasks, InstMove uses instance masks to model the physical presence of an object and learns the dynamic model through a memory network to predict its position and shape in the next frame. With only a few lines of code, InstMove can be integrated into current SOTA methods for three different video segmentation tasks and boost their performance. Specifically, we improve the previous arts by 1.5 AP on OVIS dataset, which features heavy occlusions, and 4.9 AP on YouTubeVIS-Long dataset, which mainly contains fast-moving objects. These results suggest that instance-level motion is robust and accurate, and hence serving as a powerful solution in complex scenarios for object-centric video segmentation.
翻訳日:2023-03-15 13:39:42 公開日:2023-03-14
# Open-Vocabulary Segmentation and Detection のための簡易フレームワーク

A Simple Framework for Open-Vocabulary Segmentation and Detection ( http://arxiv.org/abs/2303.08131v1 )

ライセンス: Link先を確認
Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng Gao, Jianwei Yang, Lei Zhang(参考訳) 異なるセグメンテーションと検出データセットから共同で学習する,単純なopen-vocabulary segmentation and detection frameworkである \ourmodel{} を提案する。 語彙と注釈の粒度のギャップを埋めるために,まず事前学習されたテキストエンコーダを導入し,視覚概念を2つのタスクにエンコードし,それらの共通意味空間を学習する。 これにより、セグメンテーションタスクのみをトレーニングした相手と比較すると、合理的な結果が得られる。 タスクの差分処理 - セグメンテーションでは、前景オブジェクトと背景オブジェクトの両方のマスクを抽出する必要があるが、検出は単に前景を気にするだけである。 これらの問題に対処するために,前景/後景と条件付きマスクデコードとの干渉を低減し,与えられた箱のマスク生成を支援するデコードを提案する。 そこで本研究では,COCOとObjects365を併用した簡単なエンコーダデコーダモデルを開発した。 プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。 具体的には、Open-vocabularyインスタンスとpanopticセグメンテーションを5つのデータセットで比較し、同様の設定でLVISとODinWでオープン-vocabulary検出を行うというこれまでの作業を上回っている。 特定のタスクに移行すると,COCOとADE20Kの単眼セグメンテーションとADE20KとCityscapesのインスタンスセグメンテーションのための新しいSoTAを実現する。 最後に,有理モデル{} はセグメンテーションと検出に関する共同トレーニングの可能性を初めて探求し,オープンワールドにおける両タスクの単一モデル開発のための強力なベースラインとして受け取れることを期待する。

We present \ourmodel{}, a simple Open-vocabulary Segmentation and Detection framework that jointly learns from different segmentation and detection datasets. To bridge the gap of vocabulary and annotation granularity, we first introduce a pre-trained text encoder to encode all the visual concepts in two tasks and learn a common semantic space for them. This gives us reasonably good results compared with the counterparts trained on segmentation task only. To further reconcile them, we locate two discrepancies: $i$) task discrepancy -- segmentation requires extracting masks for both foreground objects and background stuff, while detection merely cares about the former; $ii$) data discrepancy -- box and mask annotations are with different spatial granularity, and thus not directly interchangeable. To address these issues, we propose a decoupled decoding to reduce the interference between foreground/background and a conditioned mask decoding to assist in generating masks for given boxes. To this end, we develop a simple encoder-decoder model encompassing all three techniques and train it jointly on COCO and Objects365. After pre-training, our model exhibits competitive or stronger zero-shot transferability for both segmentation and detection. Specifically, \ourmodel{} beats the state-of-the-art method for open-vocabulary instance and panoptic segmentation across 5 datasets, and outperforms previous work for open-vocabulary detection on LVIS and ODinW under similar settings. When transferred to specific tasks, our model achieves new SoTA for panoptic segmentation on COCO and ADE20K, and instance segmentation on ADE20K and Cityscapes. Finally, we note that \ourmodel{} is the first to explore the potential of joint training on segmentation and detection, and hope it can be received as a strong baseline for developing a single model for both tasks in open world.
翻訳日:2023-03-15 13:39:12 公開日:2023-03-14
# PiMAE:3Dオブジェクト検出のためのポイントクラウドと画像対話型マスク付きオートエンコーダ

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection ( http://arxiv.org/abs/2303.08129v1 )

ライセンス: Link先を確認
Anthony Chen, Kevin Zhang, Renrui Zhang, Zihan Wang, Yuheng Lu, Yandong Guo, Shanghang Zhang(参考訳) Masked Autoencodersは、強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を達成する。 本研究では,実世界でしばしば提示される2つのモダリティであるポイントクラウドとrgb画像データに注目し,それらの有意義な相互作用を探求する。 既存の作業における相互相乗効果を改善するために,3つの側面を通じて3次元および2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。 具体的には、まず2つのソース間のマスキング戦略の重要性に気付き、二つのモダリティのマスクと可視トークンを相補的に調整するプロジェクションモジュールを利用する。 次に,マスクトークンのクロスモダリティインタラクションを促進するために,新しい共有デコーダを用いた,手作りの2分岐型maeパイプラインを利用する。 最後に,両様相の表現学習を強化するために,一意なクロスモーダル再構築モジュールを設計した。 大規模rgb-dシーン理解ベンチマーク(sun rgb-d と scannetv2)で行った広範囲な実験を通じて,ポイントイメージの特徴をインタラクティブに学習することは非自明であり,複数の3d検出器,2d検出器,少数ショット分類器をそれぞれ2.9%,6.7%,2.4%改善した。 コードはhttps://github.com/BLVLab/PiMAEで入手できる。

Masked Autoencoders learn strong visual representations and achieve state-of-the-art results in several independent modalities, yet very few works have addressed their capabilities in multi-modality settings. In this work, we focus on point cloud and RGB image data, two modalities that are often presented together in the real world, and explore their meaningful interactions. To improve upon the cross-modal synergy in existing works, we propose PiMAE, a self-supervised pre-training framework that promotes 3D and 2D interaction through three aspects. Specifically, we first notice the importance of masking strategies between the two sources and utilize a projection module to complementarily align the mask and visible tokens of the two modalities. Then, we utilize a well-crafted two-branch MAE pipeline with a novel shared decoder to promote cross-modality interaction in the mask tokens. Finally, we design a unique cross-modal reconstruction module to enhance representation learning for both modalities. Through extensive experiments performed on large-scale RGB-D scene understanding benchmarks (SUN RGB-D and ScannetV2), we discover it is nontrivial to interactively learn point-image features, where we greatly improve multiple 3D detectors, 2D detectors, and few-shot classifiers by 2.9%, 6.7%, and 2.4%, respectively. Code is available at https://github.com/BLVLab/PiMAE.
翻訳日:2023-03-15 13:38:34 公開日:2023-03-14
# ViperGPT: 推論のためのPythonの実行によるビジュアル推論

ViperGPT: Visual Inference via Python Execution for Reasoning ( http://arxiv.org/abs/2303.08128v1 )

ライセンス: Link先を確認
D\'idac Sur\'is and Sachit Menon and Carl Vondrick(参考訳) ビジュアルクエリの回答は、ビジュアル処理と推論の両方を必要とする複雑なタスクである。 このタスクの主要なアプローチであるエンド・ツー・エンドのモデルは、解釈可能性と一般化の制限を明示的に区別しない。 モジュールプログラムの学習は有望な代替手段であるが、プログラムとモジュールを同時に学習することが困難であることから、難しいことが証明されている。 ViperGPTは、コード生成モデルを利用して視覚・言語モデルをサブルーチンに構成し、任意のクエリの結果を生成するフレームワークである。 ViperGPTは提供されたAPIを使って利用可能なモジュールにアクセスし、後に実行されるPythonコードを生成する。 このシンプルなアプローチは、さらなるトレーニングを必要とせず、様々な複雑なビジュアルタスクで最先端の成果を達成します。

Answering visual queries is a complex task that requires both visual processing and reasoning. End-to-end models, the dominant approach for this task, do not explicitly differentiate between the two, limiting interpretability and generalization. Learning modular programs presents a promising alternative, but has proven challenging due to the difficulty of learning both the programs and modules simultaneously. We introduce ViperGPT, a framework that leverages code-generation models to compose vision-and-language models into subroutines to produce a result for any query. ViperGPT utilizes a provided API to access the available modules, and composes them by generating Python code that is later executed. This simple approach requires no further training, and achieves state-of-the-art results across various complex visual tasks.
翻訳日:2023-03-15 13:38:04 公開日:2023-03-14
# CB2: 共同自然言語インタラクション研究プラットフォーム

CB2: Collaborative Natural Language Interaction Research Platform ( http://arxiv.org/abs/2303.08127v1 )

ライセンス: Link先を確認
Jacob Sharf, Mustafa Omer Gul, Yoav Artzi(参考訳) CB2はタスク指向のシナリオで協調的な自然言語インタラクションを研究するマルチエージェントプラットフォームである。 3dゲーム環境、トレーニングされたモデルを人間エージェントに提供するように設計されたバックエンドサーバ、スケーラブルな研究を可能にするためのさまざまなツールやプロセスが含まれている。 我々は CB2 を https://cb2.ai にデプロイし、学習した命令に従うモデルでシステムデモを行う。

CB2 is a multi-agent platform to study collaborative natural language interaction in a grounded task-oriented scenario. It includes a 3D game environment, a backend server designed to serve trained models to human agents, and various tools and processes to enable scalable studies. We deploy CB2 at https://cb2.ai as a system demonstration with a learned instruction following model.
翻訳日:2023-03-15 13:37:52 公開日:2023-03-14
# ニューラルネットワークのハードウェア高速化

Hardware Acceleration of Neural Graphics ( http://arxiv.org/abs/2303.05735v2 )

ライセンス: Link先を確認
Muhammad Husnain Mubarik, Ramakrishna Kanungo, Tobias Zirr and Rakesh Kumar(参考訳) 従来のコンピュータグラフィックスを駆動するレンダリングと逆レンダリングアルゴリズムは、最近neural representations (nr)に取って代わられた。 NRは、最近、シーンの幾何学的および物質的特性を学び、その情報を使ってフォトリアリスティックな画像を合成し、スケーラブルで予測可能なパフォーマンスで従来のレンダリングアルゴリズムを置き換えることを約束している。 neural graphics (ng) はハードウェアサポートが必要か? 60FPSで4kの解像度をレンダリングしたい場合、現在のGPUで所望のパフォーマンスで1.5X-55Xの差があることを示す代表NGアプリケーションについて検討した。 AR/VRアプリケーションでは、所望のパフォーマンスと必要なシステムパワーの間に2-4 OOMのギャップがさらに大きい。 入力エンコーディングとmlpカーネルは性能ボトルネックであり,マルチres.hashgrid,multi res. densegrid,low res. densegridエンコーディングのアプリケーション時間の72%,60%,59%を消費する。 我々は,専用エンジンによる入力エンコーディングとmlpカーネルを直接高速化し,幅広いngアプリケーションをサポートするスケーラブルでフレキシブルなハードウェアアーキテクチャであるng処理クラスタを提案する。 Vulkanでは、前処理や後処理のカーネルの未使用実装と比較して、9.94倍のカーネルレベルのパフォーマンス向上を実現しています。 以上の結果から,NGPCは最大58倍のエンド・ツー・エンドの性能向上を実現し,Hashgridエンコーディングは4つのNGアプリケーションで平均12X,20X,33X,39Xのスケーリング係数でそれぞれ8,16,32,64。 以上の結果から,NGPCでは,NeRFで30FPSで4k,他のNGアプリケーションで120FPSで8kのレンダリングが可能であることが示唆された。

Rendering and inverse-rendering algorithms that drive conventional computer graphics have recently been superseded by neural representations (NR). NRs have recently been used to learn the geometric and the material properties of the scenes and use the information to synthesize photorealistic imagery, thereby promising a replacement for traditional rendering algorithms with scalable quality and predictable performance. In this work we ask the question: Does neural graphics (NG) need hardware support? We studied representative NG applications showing that, if we want to render 4k res. at 60FPS there is a gap of 1.5X-55X in the desired performance on current GPUs. For AR/VR applications, there is an even larger gap of 2-4 OOM between the desired performance and the required system power. We identify that the input encoding and the MLP kernels are the performance bottlenecks, consuming 72%,60% and 59% of application time for multi res. hashgrid, multi res. densegrid and low res. densegrid encodings, respectively. We propose a NG processing cluster, a scalable and flexible hardware architecture that directly accelerates the input encoding and MLP kernels through dedicated engines and supports a wide range of NG applications. We also accelerate the rest of the kernels by fusing them together in Vulkan, which leads to 9.94X kernel-level performance improvement compared to un-fused implementation of the pre-processing and the post-processing kernels. Our results show that, NGPC gives up to 58X end-to-end application-level performance improvement, for multi res. hashgrid encoding on average across the four NG applications, the performance benefits are 12X,20X,33X and 39X for the scaling factor of 8,16,32 and 64, respectively. Our results show that with multi res. hashgrid encoding, NGPC enables the rendering of 4k res. at 30FPS for NeRF and 8k res. at 120FPS for all our other NG applications.
翻訳日:2023-03-15 11:30:06 公開日:2023-03-14
# より良い交通量推定に向けて:相関適応グラフ畳み込みネットワークによる過小決定問題と非平衡問題の両方に取り組む

Towards better traffic volume estimation: Tackling both underdetermined and non-equilibrium problems via a correlation-adaptive graph convolution network ( http://arxiv.org/abs/2303.05660v2 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Yunpeng Wang, Jian Sun(参考訳) 交通量は交通管理と制御のためにきめ細かい情報を提供するのに欠かせない要素である。 しかし、交通センサの配備が限られているため、本格的なボリューム情報を得ることは容易ではない。 このトピックに関する既存の研究は、主に特定のメソッドの全体的な推定精度の改善に焦点をあて、ボリューム推定の根本的な課題を無視し、いくつかの重要なタスクにおいて性能が劣る。 本稿では, 交通量推定に関する2つの重要な問題について考察する。(1) 未検出運動による交通流の過小評価, (2) 渋滞伝播による非平衡交通流。 本稿では,上記の問題に対処し,ネットワーク全体のトラフィック量推定を高精度に行うために,データ駆動型,モデルフリー,相関適応アプローチを提供するグラフベースのディープラーニング手法を提案する。 特に、未決定フローの推定における交通速度とボリュームの動的および非線形な関係を定量化するために、グラフアテンションに基づく速度パターン適応隣接行列を開発し、グラフ畳み込みプロセスに統合し、センサ間の非局所的相関を捉える。 非平衡流の影響を測定するため、上流と下流のセンサ間の時間-非同期相関を捉えるために、仮面とクリップされた注意をゲート時間畳み込み層と組み合わせてカスタマイズする。 次に、実世界の高速道路交通量データセットでモデルを評価し、いくつかのベンチマークモデルと比較する。 提案モデルでは,センサのカバレッジ率20%以下でも高い推定精度を達成し,他のベースライン,特に過度に決定された非平衡フロー位置において有意に性能を向上することを示した。 さらに,モデル設計を正当化するために,包括的定量的モデル解析を行った。

Traffic volume is an indispensable ingredient to provide fine-grained information for traffic management and control. However, due to limited deployment of traffic sensors, obtaining full-scale volume information is far from easy. Existing works on this topic primarily focus on improving the overall estimation accuracy of a particular method and ignore the underlying challenges of volume estimation, thereby having inferior performances on some critical tasks. This paper studies two key problems with regard to traffic volume estimation: (1) underdetermined traffic flows caused by undetected movements, and (2) non-equilibrium traffic flows arise from congestion propagation. Here we demonstrate a graph-based deep learning method that can offer a data-driven, model-free and correlation adaptive approach to tackle the above issues and perform accurate network-wide traffic volume estimation. Particularly, in order to quantify the dynamic and nonlinear relationships between traffic speed and volume for the estimation of underdetermined flows, a speed patternadaptive adjacent matrix based on graph attention is developed and integrated into the graph convolution process, to capture non-local correlations between sensors. To measure the impacts of non-equilibrium flows, a temporal masked and clipped attention combined with a gated temporal convolution layer is customized to capture time-asynchronous correlations between upstream and downstream sensors. We then evaluate our model on a real-world highway traffic volume dataset and compare it with several benchmark models. It is demonstrated that the proposed model achieves high estimation accuracy even under 20% sensor coverage rate and outperforms other baselines significantly, especially on underdetermined and non-equilibrium flow locations. Furthermore, comprehensive quantitative model analysis are also carried out to justify the model designs.
翻訳日:2023-03-15 11:29:30 公開日:2023-03-14
# ラベルエンハンスメントのためのラベル情報ボトルネック

Label Information Bottleneck for Label Enhancement ( http://arxiv.org/abs/2303.06836v2 )

ライセンス: Link先を確認
Qinghai Zheng, Jihua Zhu, Haoyu Tang(参考訳) 本研究では,論理ラベルからラベル分布を正確に復元することを目的としたラベル拡張(LE)の課題に焦点をあて,LEのための新しいラベル情報ボトルネック(LIB)手法を提案する。 ラベル分布の回復過程において、データセットに含まれる無関係なラベル情報は、不満足な回復性能をもたらす可能性がある。 この制限に対処するため,我々は,リカバリ性能を向上させるために必要不可欠なラベル関連情報を発掘する努力を行う。 LE問題を以下の2つの共同プロセスとして定式化する。 1) 本質的ラベル関連情報で表現を学習すること。 2)学習した表現に基づいてラベル分布を復元する。 ラベル関連情報は、学習表現によって形成された「ボトルネック」に基づいて発掘することができる。 本手法では,ラベル割り当てに関するラベル関連情報とラベルギャップに関するラベル関連情報の両方を探索することができる。 複数のベンチマークラベル分布学習データセットで実施した評価実験により,LIBの有効性と競争性を検証した。 ソースコードはhttps://github.com/qinghai-zheng/lible

In this work, we focus on the challenging problem of Label Enhancement (LE), which aims to exactly recover label distributions from logical labels, and present a novel Label Information Bottleneck (LIB) method for LE. For the recovery process of label distributions, the label irrelevant information contained in the dataset may lead to unsatisfactory recovery performance. To address this limitation, we make efforts to excavate the essential label relevant information to improve the recovery performance. Our method formulates the LE problem as the following two joint processes: 1) learning the representation with the essential label relevant information, 2) recovering label distributions based on the learned representation. The label relevant information can be excavated based on the "bottleneck" formed by the learned representation. Significantly, both the label relevant information about the label assignments and the label relevant information about the label gaps can be explored in our method. Evaluation experiments conducted on several benchmark label distribution learning datasets verify the effectiveness and competitiveness of LIB. Our source codes are available https://github.com/qinghai-zheng/LIBLE
翻訳日:2023-03-15 11:20:41 公開日:2023-03-14
# 有意義なヒューマンコマンド:自律兵器システムの道徳的・法的責任を可能にする方法としての事前制御指令

Meaningful human command: Advance control directives as a method to enable moral and legal responsibility for autonomous weapons systems ( http://arxiv.org/abs/2303.06813v2 )

ライセンス: Link先を確認
Susannah Kate Devitt(参考訳) 21世紀の戦争はスピードが増しており、従来の力は自律システムと人間と機械の統合の大量利用と組み合わせられている。 しかし、重要な課題は、人間が通常の時間的パラメータの外で動作するシステムに対して、道徳的および法的責任を確実にする方法である。 本章では,人間の意識や集中力を十分に把握できないような,非常に遅い作業において,特にリアルタイムよりも早く,将来の状況において起こる行動について,契約の事前の確立により,人間がリアルタイムの外に立ち,自律システムに対する行動の権限を付与できるかどうかを考察する。 advance control driective(advance control driective、advances control driective、acd)では、武器システムの説明責任と責任に要する時間を消費し、熟慮するプロセスが、リアルタイムに捉えられる可能性があることを「advance control driective(advance control driective)」に示す。 この章では、自律システムの展開に先立って、ACDの構築を通じて足場を組み、合法化された「自律コマンド」を提案している。

21st Century war is increasing in speed, with conventional forces combined with massed use of autonomous systems and human-machine integration. However, a significant challenge is how humans can ensure moral and legal responsibility for systems operating outside of normal temporal parameters. This chapter considers whether humans can stand outside of real time and authorise actions for autonomous systems by the prior establishment of a contract, for actions to occur in a future context particularly in faster than real time or in very slow operations where human consciousness and concentration could not remain well informed. The medical legal precdent found in 'advance care directives' suggests how the time-consuming, deliberative process required for accountability and responsibility of weapons systems may be achievable outside real time captured in an 'advance control driective' (ACD). The chapter proposes 'autonomy command' scaffolded and legitimised through the construction of ACD ahead of the deployment of autonomous systems.
翻訳日:2023-03-15 11:20:27 公開日:2023-03-14
# planner最適化問題:定式化とフレームワーク

The Planner Optimization Problem: Formulations and Frameworks ( http://arxiv.org/abs/2303.06768v2 )

ライセンス: Link先を確認
Yiyuan Lee, Katie Lee, Panpan Cai, David Hsu, Lydia E. Kavraki(参考訳) プランナーのパフォーマンスを最大化するためには、計画のための内部パラメータを特定することが重要です。 しかし、問題インスタンスで条件付けられた内部パラメータの自動チューニングは、特に難しい。 最近の作業は、計画パラメータジェネレータの学習に焦点を当てているが、一貫した問題定義とソフトウェアフレームワークが欠けている。 本研究では,これらの問題を再利用可能な方法で特定・解決するための拡張性の高いソフトウェアフレームワークであるOpen Planner Optimization Framework(OPOF)とともに,統一プランナー最適化問題(POP)の定式化を提案する。

Identifying internal parameters for planning is crucial to maximizing the performance of a planner. However, automatically tuning internal parameters which are conditioned on the problem instance is especially challenging. A recent line of work focuses on learning planning parameter generators, but lack a consistent problem definition and software framework. This work proposes the unified planner optimization problem (POP) formulation, along with the Open Planner Optimization Framework (OPOF), a highly extensible software framework to specify and to solve these problems in a reusable manner.
翻訳日:2023-03-15 11:20:07 公開日:2023-03-14
# 同周波数信号ポート、200mhz帯域、高ダイナミックレンジを有するジョセフソンパラメトリック循環器

Josephson parametric circulator with same-frequency signal ports, 200 MHz bandwidth, and high dynamic range ( http://arxiv.org/abs/2303.06757v2 )

ライセンス: Link先を確認
Randy Kwende, Theodore White, Ofer Naaman(参考訳) 2次chebyshevネットワークを用いて3ポートジョセフソンパラメトリック循環器を50オームに一致させた。 このデバイスは、同じ周波数で2つの信号ポートで動作し、単一の周波数で2つの相外ポンプのみを使用する。 その結果、アイソレータとして動作した場合、ポンプと信号の位相コヒーレンスを必要としないため、標準分散キュービット読み出し設定への統合要件が単純化される。 パラメトリック結合と高ダイナミックレンジを提供するrf-SQUIDアレイのバランスの取れたブリッジに基づいてパラメトリックカプラを利用する。 両ポンプ間の周波数と相対位相の関数として,その全3x3 S行列を計測して特徴付けする。 200MHzの信号帯域で最大15dBの非相互性、ポートマッチが10dB以上、挿入損失が0.6dB以下、飽和電力が-80dBm以上である。

We demonstrate a 3-port Josephson parametric circulator, matched to 50 Ohm using second order Chebyshev networks. The device notably operates with two of its signal ports at the same frequency and uses only two out-of-phase pumps at a single frequency. As a consequence, when operated as an isolator it does not require phase coherence between the pumps and the signal, thus simplifying the requirements for its integration into standard dispersive qubit readout setups. The device utilizes parametric couplers based on a balanced bridge of rf-SQUID arrays, which offer purely parametric coupling and high dynamic range. We characterize the device by measuring its full 3x3 S-matrix as a function of frequency and the relative phase between the two pumps. We find up to 15 dB nonreciprocity over a 200 MHz signal band, port match better than 10 dB, low insertion loss of 0.6 dB, and saturation power exceeding -80 dBm.
翻訳日:2023-03-15 11:19:57 公開日:2023-03-14
# 不確実性を考慮した強化学習によるロボットエージェントの意思決定

Decision Making for Human-in-the-loop Robotic Agents via Uncertainty-Aware Reinforcement Learning ( http://arxiv.org/abs/2303.06710v2 )

ライセンス: Link先を確認
Siddharth Singi, Zhanpeng He, Alvin Pan, Sandip Patel, Gunnar A. Sigurdsson, Robinson Piramuthu, Shuran Song, Matei Ciocarlie(参考訳) ヒューマン・イン・ザ・ループ(Human-in-the-Loop)パラダイムでは、ロボットエージェントはタスクの解決において主に自律的に行動するが、必要に応じて外部の専門家から助けを求めることができる。 要求が多すぎるとロボットがミスを犯しかねないが、要求が多すぎると専門家が過負荷になる。 本稿では,この課題に対する強化学習に基づくアプローチを提案する。そこでは,半自律エージェントがタスクの最終的な成功に対する信頼度が低い場合に,外部支援を求める。 信頼度は、現在の状態からのリターンのばらつきを推定することによって算出される。 この推定は,ベルマン型再帰法を用いて,訓練中に反復的に改善できることを示す。 完全かつ部分的に観測可能な状態情報を含む個別のナビゲーション問題に対して,本手法は,訓練時に専門家にアクセスできないにも関わらず,実行時に限られた専門家の呼び出しを効果的に利用することを示す。

In a Human-in-the-Loop paradigm, a robotic agent is able to act mostly autonomously in solving a task, but can request help from an external expert when needed. However, knowing when to request such assistance is critical: too few requests can lead to the robot making mistakes, but too many requests can overload the expert. In this paper, we present a Reinforcement Learning based approach to this problem, where a semi-autonomous agent asks for external assistance when it has low confidence in the eventual success of the task. The confidence level is computed by estimating the variance of the return from the current state. We show that this estimate can be iteratively improved during training using a Bellman-like recursion. On discrete navigation problems with both fully- and partially-observable state information, we show that our method makes effective use of a limited budget of expert calls at run-time, despite having no access to the expert at training time.
翻訳日:2023-03-15 11:19:39 公開日:2023-03-14
# ステレオマッチングのための反復幾何符号化ボリューム

Iterative Geometry Encoding Volume for Stereo Matching ( http://arxiv.org/abs/2303.06615v2 )

ライセンス: Link先を確認
Gangwei Xu, Xianqi Wang, Xiaohuan Ding, Xin Yang(参考訳) Recurrent All-Pairs Field Transforms (RAFT) は、マッチングタスクに大きな可能性を示している。 しかしながら、全ペア相関は非局所幾何学的知識を欠き、不適切な領域における局所曖昧性に取り組むのに苦労している。 本稿では,ステレオマッチングのための新しいディープネットワークアーキテクチャである反復幾何符号化ボリューム(igev-stereo)を提案する。 提案する igev-stereo は、ジオメトリとコンテキスト情報と局所マッチングの詳細をエンコードする複合幾何符号化ボリュームを構築し、それを反復インデックス化して不一致マップを更新する。 収束を高速化するため、我々はGEVを利用して、ConvGRUsイテレーションの正確な開始点を回帰する。 われわれのigev-stereoは、2015年と2012年(反射的)のkittiで$1^{st}$をランク付けし、トップ10のメソッドの中で最速である。 さらにIGEV-Stereoは強力なクロスデータセットの一般化と高い推論効率を持つ。 また、IGEVをマルチビューステレオ(MVS)、すなわちIGEV-MVSに拡張し、DTUベンチマーク上で競合精度を達成する。 コードはhttps://github.com/gangweiX/IGEVで入手できる。

Recurrent All-Pairs Field Transforms (RAFT) has shown great potentials in matching tasks. However, all-pairs correlations lack non-local geometry knowledge and have difficulties tackling local ambiguities in ill-posed regions. In this paper, we propose Iterative Geometry Encoding Volume (IGEV-Stereo), a new deep network architecture for stereo matching. The proposed IGEV-Stereo builds a combined geometry encoding volume that encodes geometry and context information as well as local matching details, and iteratively indexes it to update the disparity map. To speed up the convergence, we exploit GEV to regress an accurate starting point for ConvGRUs iterations. Our IGEV-Stereo ranks $1^{st}$ on KITTI 2015 and 2012 (Reflective) among all published methods and is the fastest among the top 10 methods. In addition, IGEV-Stereo has strong cross-dataset generalization as well as high inference efficiency. We also extend our IGEV to multi-view stereo (MVS), i.e. IGEV-MVS, which achieves competitive accuracy on DTU benchmark. Code is available at https://github.com/gangweiX/IGEV.
翻訳日:2023-03-15 11:19:21 公開日:2023-03-14
# 人間-AIテキスト協調作業におけるインタラクションのデザイン空間のマッピング

Mapping the Design Space of Interactions in Human-AI Text Co-creation Tasks ( http://arxiv.org/abs/2303.06430v2 )

ライセンス: Link先を確認
Zijian Ding, Joel Chan(参考訳) 大規模言語モデル (LLM) は印象的なテキスト生成能力を示し、人間とAIの共創の未来と、人間がLLMとどのように相互作用するかを再考するきっかけとなった。 本稿では,コンテンツ生成タスクとそれに対応するヒューマン・AIインタラクションパターンについて述べる。 これらのタスクには以下のものがある。 1)人間とaiの相互作用を最小限に抑える固定スコープコンテンツキュレーションタスク 2)人間とAIのインタラクションを正確に行う独立した創造的タスク 3) 反復的人間-AIインタラクションによる複雑で相互依存的な創造的タスク。 我々は、生成的なaiとhci研究コミュニティに対して、より複雑な、相互依存的なタスクに焦点を合わせることを奨励します。

Large Language Models (LLMs) have demonstrated impressive text generation capabilities, prompting us to reconsider the future of human-AI co-creation and how humans interact with LLMs. In this paper, we present a spectrum of content generation tasks and their corresponding human-AI interaction patterns. These tasks include: 1) fixed-scope content curation tasks with minimal human-AI interactions, 2) independent creative tasks with precise human-AI interactions, and 3) complex and interdependent creative tasks with iterative human-AI interactions. We encourage the generative AI and HCI research communities to focus on the more complex and interdependent tasks, which require greater levels of human involvement.
翻訳日:2023-03-15 11:19:01 公開日:2023-03-14
# 画像超解像用再帰一般化変換器

Recursive Generalization Transformer for Image Super-Resolution ( http://arxiv.org/abs/2303.06373v2 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang(参考訳) トランスフォーマーアーキテクチャは、画像超解像(SR)において顕著な性能を示した。 トランスフォーマーにおける自己注意(SA)の2次計算複雑性のため、既存の手法ではオーバーヘッドを減らすために局所的にSAを採用する傾向にある。 しかし、局所的な設計は、正確な画像再構成に欠かせないグローバルな文脈利用を制限する。 本研究では,大域空間情報を捕捉し,高解像度画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。 具体的には、再帰的一般化自己注意(RG-SA)を提案する。 入力特徴を代表的特徴マップに再帰的に集約し,グローバル情報抽出にクロスアテンションを利用する。 一方、注意行列(クエリ、キー、値)のチャネル次元は、計算オーバーヘッドとパフォーマンスのトレードオフを改善するためにさらにスケールされる。 さらに,RG-SAと局所自己意識を組み合わせることで,グローバルコンテキストの活用を促進するとともに,モジュール統合のためのハイブリッド適応統合(HAI)を提案する。 HAIは、異なるレベル(ローカルまたはグローバル)の機能間の直接的で効果的な融合を可能にする。 我々のRGTは最近の最先端手法よりも優れています。

Transformer architectures have exhibited remarkable performance in image super-resolution (SR). Since the quadratic computational complexity of the self-attention (SA) in Transformer, existing methods tend to adopt SA in a local region to reduce overheads. However, the local design restricts the global context exploitation, which is critical for accurate image reconstruction. In this work, we propose the Recursive Generalization Transformer (RGT) for image SR, which can capture global spatial information and is suitable for high-resolution images. Specifically, we propose the recursive-generalization self-attention (RG-SA). It recursively aggregates input features into representative feature maps, and then utilizes cross-attention to extract global information. Meanwhile, the channel dimensions of attention matrices (query, key, and value) are further scaled for a better trade-off between computational overheads and performance. Furthermore, we combine the RG-SA with local self-attention to enhance the exploitation of the global context, and propose the hybrid adaptive integration (HAI) for module integration. The HAI allows the direct and effective fusion between features at different levels (local or global). Extensive experiments demonstrate that our RGT outperforms recent state-of-the-art methods.
翻訳日:2023-03-15 11:18:49 公開日:2023-03-14
# conic challenge: 核検出、セグメンテーション、分類、数え上げのフロンティアを推進する

CoNIC Challenge: Pushing the Frontiers of Nuclear Detection, Segmentation, Classification and Counting ( http://arxiv.org/abs/2303.06274v2 )

ライセンス: Link先を確認
Simon Graham, Quoc Dang Vu, Mostafa Jahanifar, Martin Weigert, Uwe Schmidt, Wenhua Zhang, Jun Zhang, Sen Yang, Jinxi Xiang, Xiyue Wang, Josef Lorenz Rumberger, Elias Baumann, Peter Hirsch, Lihao Liu, Chenyang Hong, Angelica I. Aviles-Rivero, Ayushi Jain, Heeyoung Ahn, Yiyu Hong, Hussam Azzuni, Min Xu, Mohammad Yaqub, Marie-Claire Blache, Beno\^it Pi\'egu, Bertrand Vernay, Tim Scherr, Moritz B\"ohland, Katharina L\"offler, Jiachen Li, Weiqin Ying, Chixin Wang, Dagmar Kainmueller, Carola-Bibiane Sch\"onlieb, Shuolin Liu, Dhairya Talsania, Yughender Meda, Prakash Mishra, Muhammad Ridzuan, Oliver Neumann, Marcel P. Schilling, Markus Reischl, Ralf Mikut, Banban Huang, Hsiang-Chin Chien, Ching-Ping Wang, Chia-Yen Lee, Hong-Kun Lin, Zaiyi Liu, Xipeng Pan, Chu Han, Jijun Cheng, Muhammad Dawood, Srijay Deshpande, Raja Muhammad Saad Bashir, Adam Shephard, Pedro Costa, Jo\~ao D. Nunes, Aur\'elio Campilho, Jaime S. Cardoso, Hrishikesh P S, Densen Puthussery, Devika R G, Jiji C V, Ye Zhang, Zijie Fang, Zhifan Lin, Yongbing Zhang, Chunhui Lin, Liukun Zhang, Lijian Mao, Min Wu, Vi Thi-Tuong Vo, Soo-Hyung Kim, Taebum Lee, Satoshi Kondo, Satoshi Kasai, Pranay Dumbhare, Vedant Phuse, Yash Dubey, Ankush Jamthikar, Trinh Thi Le Vuong, Jin Tae Kwak, Dorsa Ziaei, Hyun Jung, Tianyi Miao, David Snead, Shan E Ahmed Raza, Fayyaz Minhas, Nasir M. Rajpoot(参考訳) 核検出, セグメンテーション, 形態計測は, 組織学と患者の予後との関係をより深く理解する上で不可欠である。 この分野のイノベーションを推進するため,我々は,その種の最大のデータセットを使用して,核分裂と細胞構成を評価するコミュニティ全体の課題を設定した。 われわれの挑戦はCoNICと呼ばれ、公衆のリーダーボードのリアルタイムな結果検査による細胞認識のための再現可能なアルゴリズムの開発を刺激した。 大腸組織1,658枚の全スライディング画像を用いて,トップパフォーマンスモデルに基づく広範囲な解析を行った。 7億個の検出された核がモデルごとに検出され、関連する特徴がdysplasia gradingとサバイバル分析に使われ、前回の最先端技術に対するチャレンジの改善が下流のパフォーマンスを著しく向上させたことを実証した。 また, 好酸球および好中球が腫瘍微小環境において重要な役割を担っていることも示唆された。 我々は, バイオマーカー発見のためのさらなる手法の開発を促進するために, 挑戦モデルとwsiレベルの結果をリリースする。

Nuclear detection, segmentation and morphometric profiling are essential in helping us further understand the relationship between histology and patient outcome. To drive innovation in this area, we setup a community-wide challenge using the largest available dataset of its kind to assess nuclear segmentation and cellular composition. Our challenge, named CoNIC, stimulated the development of reproducible algorithms for cellular recognition with real-time result inspection on public leaderboards. We conducted an extensive post-challenge analysis based on the top-performing models using 1,658 whole-slide images of colon tissue. With around 700 million detected nuclei per model, associated features were used for dysplasia grading and survival analysis, where we demonstrated that the challenge's improvement over the previous state-of-the-art led to significant boosts in downstream performance. Our findings also suggest that eosinophils and neutrophils play an important role in the tumour microevironment. We release challenge models and WSI-level results to foster the development of further methods for biomarker discovery.
翻訳日:2023-03-15 11:18:32 公開日:2023-03-14
# HiNet:階層型情報抽出による新しいマルチシナリオとマルチタスク学習

HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction ( http://arxiv.org/abs/2303.06095v2 )

ライセンス: Link先を確認
Jie Zhou, Xianshuai Cao, Wenhao Li, Lin Bo, Kun Zhang, Chuan Luo and Qian Yu(参考訳) マルチシナリオ・マルチタスク学習は,Mixture-of-Expert(MoE)アーキテクチャに基づいて,マルチシナリオ・トランスファー学習を効果的かつ実践的に実施するための産業用レコメンデーションシステムに広く応用されている。 しかし,同じ特徴空間に全ての情報を投影することを目的としたMoEベースの手法では,様々なシナリオやタスクに固有の複雑な関係を効果的に扱うことはできない。 そこで本研究では,マルチタスクレコメンデーションとマルチタスクレコメンデーションのための階層的情報抽出ネットワーク(hinet)を提案する。 階層型ネットワークの複数の抽出層により、シナリオやタスクの特定の機能を保持しながら、シナリオ間で貴重な情報を転送する能力を高めることができる。 さらに,シナリオ間の相関を明示的にモデル化するために,シナリオ認識型注意ネットワークモジュールを提案する。 meituan meishi platformによる実世界の産業データセットに関する包括的な実験は、hinetが新たな最先端のパフォーマンスを達成し、既存のソリューションを大きく上回っていることを示している。 HiNetは現在、2つのシナリオで完全にデプロイされており、それぞれ2.87%と1.75%の注文量を獲得した。

Multi-scenario & multi-task learning has been widely applied to many recommendation systems in industrial applications, wherein an effective and practical approach is to carry out multi-scenario transfer learning on the basis of the Mixture-of-Expert (MoE) architecture. However, the MoE-based method, which aims to project all information in the same feature space, cannot effectively deal with the complex relationships inherent among various scenarios and tasks, resulting in unsatisfactory performance. To tackle the problem, we propose a Hierarchical information extraction Network (HiNet) for multi-scenario and multi-task recommendation, which achieves hierarchical extraction based on coarse-to-fine knowledge transfer scheme. The multiple extraction layers of the hierarchical network enable the model to enhance the capability of transferring valuable information across scenarios while preserving specific features of scenarios and tasks. Furthermore, a novel scenario-aware attentive network module is proposed to model correlations between scenarios explicitly. Comprehensive experiments conducted on real-world industrial datasets from Meituan Meishi platform demonstrate that HiNet achieves a new state-of-the-art performance and significantly outperforms existing solutions. HiNet is currently fully deployed in two scenarios and has achieved 2.87% and 1.75% order quantity gain respectively.
翻訳日:2023-03-15 11:18:14 公開日:2023-03-14
# モデルはインドの法律データフェアで訓練されているか?

Are Models Trained on Indian Legal Data Fair? ( http://arxiv.org/abs/2303.07247v2 )

ライセンス: Link先を確認
Sahil Girhepuje, Anmol Goel, Gokul S Krishnan, Shreya Goyal, Satyendra Pandey, Ponnurangam Kumaraguru and Balaraman Ravindran(参考訳) 言語技術と人工知能の最近の進歩と応用は、法律、医療、精神保健といった複数の領域で大きな成功を収めている。 AIベースの言語モデル、例えば判断予測は、最近法分野に提案されている。 しかし、これらのモデルは、トレーニングデータから取り出された社会的バイアスが符号化されている。 偏見と公平性はNLP全体で研究されているが、ほとんどの研究は主に西洋の文脈にある。 本研究は,インドの法律分野における公正性に関する最初の調査である。 ヒンディー語法文書で訓練されたモデルに対する保留予測タスクにおける学習アルゴリズムバイアスの伝播に注目した。 人口統計学的パリティを用いてフェアネスギャップを評価し,保釈予測タスクに訓練された決定木モデルが,ヒンドゥー教とムスリムに関連する入力特徴間で0.237のフェアネス差を持つことを示した。 さらに、インドの文脈に焦点を絞った法律分野におけるaiの適用において、公正/バイアスの道筋でさらなる研究と研究が必要であることも強調する。

Recent advances and applications of language technology and artificial intelligence have enabled much success across multiple domains like law, medical and mental health. AI-based Language Models, like Judgement Prediction, have recently been proposed for the legal sector. However, these models are strife with encoded social biases picked up from the training data. While bias and fairness have been studied across NLP, most studies primarily locate themselves within a Western context. In this work, we present an initial investigation of fairness from the Indian perspective in the legal domain. We highlight the propagation of learnt algorithmic biases in the bail prediction task for models trained on Hindi legal documents. We evaluate the fairness gap using demographic parity and show that a decision tree model trained for the bail prediction task has an overall fairness disparity of 0.237 between input features associated with Hindus and Muslims. Additionally, we highlight the need for further research and studies in the avenues of fairness/bias in applying AI in the legal sector with a specific focus on the Indian context.
翻訳日:2023-03-15 11:11:44 公開日:2023-03-14
# 視界統一のための平行渦拡散

Parallel Vertex Diffusion for Unified Visual Grounding ( http://arxiv.org/abs/2303.07216v2 )

ライセンス: Link先を確認
Zesen Cheng and Kehan Li and Peng Jin and Xiangyang Ji and Li Yuan and Chang Liu and Jie Chen(参考訳) 統一ビジュアルグラウンドティングは、タスク固有の設計の少ないマルチタスクデータを活用するためのシンプルで汎用的な技術経路を追求する。 最も先進的な手法は、自己回帰的な逐次的頂点生成パラダイムとしてのモデル参照検出とセグメンテーションのための頂点シーケンスとしてボックスとマスクを表示する。 しかし,高次元頂点列を逐次生成することは,上流が静的なままであり,重要な位置ギャップがあるとしても下流頂点情報では洗練できないため,誤りやすい。 さらに、頂点が限られているため、複雑な輪郭を持つ物体の劣る適合性は、性能上界を制限する。 このジレンマに対処するため,ノイズ次元を簡易に変化させることで,拡散モデルによる高次元スケーラビリティを実現するための並列頂点生成パラダイムを提案する。 我々のパラダイムの直感的な実体化は、頂点座標を生成対象として直接設定し、拡散モデルを用いてトレーニングと推論を行う並列頂点拡散(PVD)である。 1) 正規化されていない座標は損失値のばらつきを生じさせ,(2) PVD の本来の訓練目的は点整合性のみを考慮しつつ幾何整合性を無視することである。 最初の欠陥を解決するため、CAM(Central Anchor Mechanism)は、座標を正規化されたオフセット値として変換してトレーニング損失値を安定化するように設計されている。 第2の欠点として、アングル和損失(ASL)は、幾何レベルの整合性に対する予測と基底真理頂点の幾何学的差を制限するように設計されている。 実験の結果,PVDは検出とセグメンテーションの両面において最先端を実現しており,そのパラダイムは高次元データを用いた逐次頂点生成よりもスケーラブルで効率的であることがわかった。

Unified visual grounding pursues a simple and generic technical route to leverage multi-task data with less task-specific design. The most advanced methods typically present boxes and masks as vertex sequences to model referring detection and segmentation as an autoregressive sequential vertex generation paradigm. However, generating high-dimensional vertex sequences sequentially is error-prone because the upstream of the sequence remains static and cannot be refined based on downstream vertex information, even if there is a significant location gap. Besides, with limited vertexes, the inferior fitting of objects with complex contours restricts the performance upper bound. To deal with this dilemma, we propose a parallel vertex generation paradigm for superior high-dimension scalability with a diffusion model by simply modifying the noise dimension. An intuitive materialization of our paradigm is Parallel Vertex Diffusion (PVD) to directly set vertex coordinates as the generation target and use a diffusion model to train and infer. We claim that it has two flaws: (1) unnormalized coordinate caused a high variance of loss value; (2) the original training objective of PVD only considers point consistency but ignores geometry consistency. To solve the first flaw, Center Anchor Mechanism (CAM) is designed to convert coordinates as normalized offset values to stabilize the training loss value. For the second flaw, Angle summation loss (ASL) is designed to constrain the geometry difference of prediction and ground truth vertexes for geometry-level consistency. Empirical results show that our PVD achieves state-of-the-art in both referring detection and segmentation, and our paradigm is more scalable and efficient than sequential vertex generation with high-dimension data.
翻訳日:2023-03-15 11:11:33 公開日:2023-03-14
# スパースニューラルネットワークにおけるニューロン進化による特徴選択の監督

Supervised Feature Selection with Neuron Evolution in Sparse Neural Networks ( http://arxiv.org/abs/2303.07200v2 )

ライセンス: Link先を確認
Zahra Atashgahi, Xuhao Zhang, Neil Kichler, Shiwei Liu, Lu Yin, Mykola Pechenizkiy, Raymond Veldhuis, Decebal Constantin Mocanu(参考訳) データから変数の有益サブセットを選択する機能選択は、モデル解釈性と性能を向上させるだけでなく、リソース要求を緩和する。 近年,ニューラルネットワークを用いた特徴選択に注目が集まっている。 しかし、既存の手法は通常、高次元データセットに適用すると高い計算コストを被る。 本稿では,進化過程にインスパイアされたスパースニューラルネットワークを用いた資源効率の高い新しい特徴選択法である「enquote{NeuroFS}」を提案する。 NeuroFSは、スクラッチからトレーニングされたスパースニューラルネットワークの入力層から、不定形特徴を徐々に抜き取ることで、機能の情報サブセットを効率的に導き出す。 異なるタイプの低次元および高次元の実世界のベンチマークを数回実施することにより、NeuroFSが最先端の教師付き特徴選択モデルの中で最高のスコアを獲得することを示す。 コードはGitHubで入手できる。

Feature selection that selects an informative subset of variables from data not only enhances the model interpretability and performance but also alleviates the resource demands. Recently, there has been growing attention on feature selection using neural networks. However, existing methods usually suffer from high computational costs when applied to high-dimensional datasets. In this paper, inspired by evolution processes, we propose a novel resource-efficient supervised feature selection method using sparse neural networks, named \enquote{NeuroFS}. By gradually pruning the uninformative features from the input layer of a sparse neural network trained from scratch, NeuroFS derives an informative subset of features efficiently. By performing several experiments on $11$ low and high-dimensional real-world benchmarks of different types, we demonstrate that NeuroFS achieves the highest ranking-based score among the considered state-of-the-art supervised feature selection models. The code is available on GitHub.
翻訳日:2023-03-15 11:11:01 公開日:2023-03-14
# 職場における大規模言語モデル:職種分類のためのプロンプト工学の事例研究

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification ( http://arxiv.org/abs/2303.07142v2 )

ライセンス: Link先を確認
Benjamin Clavi\'e and Alexandru Ciceu and Frederick Naylor and Guillaume Souli\'e and Thomas Brightwell(参考訳) 本研究は,英語の求職が大学・入学レベルの職位に適切かどうかを判断することを目的として,実世界の職種分類の課題について検討する。 本稿では,SVM(Support Vector Machines)のような従来のモデルやDeBERTaのような最先端のディープラーニング手法など,テキスト分類に対する複数のアプローチを検討する。 少数ショットとゼロショットの両方の分類設定で使用されるLarge Language Models (LLM)と比較する。 そこで我々は,所望の出力に向けてLLMを誘導するプロンプトを設計する手法であるプロンプトエンジニアリングを採用する。 具体的には,市販のgpt-3.5言語モデルtext-davinci-003とgpt-3.5-turboの性能評価を行った。 また,プロンプトエンジニアリングのさまざまな側面がモデルの性能に与える影響について詳細な分析を行った。 以上の結果から,ゼロショットgpt-3.5ターボ分類器は,最善の教師付きアプローチと比較して精度@95%のリコールを6%向上させた。 さらに,プロンプトの単語化はモデルにおける適切な「推論」を導き出す上で重要な要素であり,プロンプトの微妙な側面がモデルの性能に大きく影響していることが観察された。

This case study investigates the task of job classification in a real-world setting, where the goal is to determine whether an English-language job posting is appropriate for a graduate or entry-level position. We explore multiple approaches to text classification, including supervised approaches such as traditional models like Support Vector Machines (SVMs) and state-of-the-art deep learning methods such as DeBERTa. We compare them with Large Language Models (LLMs) used in both few-shot and zero-shot classification settings. To accomplish this task, we employ prompt engineering, a technique that involves designing prompts to guide the LLMs towards the desired output. Specifically, we evaluate the performance of two commercially available state-of-the-art GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also conduct a detailed analysis of the impact of different aspects of prompt engineering on the model's performance. Our results show that, with a well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all other models, achieving a 6% increase in Precision@95% Recall compared to the best supervised approach. Furthermore, we observe that the wording of the prompt is a critical factor in eliciting the appropriate "reasoning" in the model, and that seemingly minor aspects of the prompt significantly affect the model's performance.
翻訳日:2023-03-15 11:10:46 公開日:2023-03-14
# メタ学習最適化による物理形ニューラルネットワークの改良

Improving physics-informed neural networks with meta-learned optimization ( http://arxiv.org/abs/2303.07127v2 )

ライセンス: Link先を確認
Alex Bihlo(参考訳) 本稿では,従来の定型手作りオプティマイザではなく,メタ学習最適化法を用いて,差分方程式系を解くための物理インフォームドニューラルネットワークを用いた誤差を大幅に低減できることを示す。 微分方程式の特定のクラスに対してメタ訓練された浅い多層パーセプトロンに基づく学習可能な最適化法を選択する。 本稿では,線形随伴方程式,ポアソン方程式,コルテウェグ・ド・ブリース方程式,バーガーズ方程式など,数理物理学における実用的妥当性の方程式に対するメタトレーニング最適化について述べる。 また,ある微分方程式上のメタ学習オプティマイザが別の微分方程式上でもうまく展開できることから,メタ学習オプティマイザがトランスファー学習能力を示すことも示す。

We show that the error achievable using physics-informed neural networks for solving systems of differential equations can be substantially reduced when these networks are trained using meta-learned optimization methods rather than to using fixed, hand-crafted optimizers as traditionally done. We choose a learnable optimization method based on a shallow multi-layer perceptron that is meta-trained for specific classes of differential equations. We illustrate meta-trained optimizers for several equations of practical relevance in mathematical physics, including the linear advection equation, Poisson's equation, the Korteweg--de Vries equation and Burgers' equation. We also illustrate that meta-learned optimizers exhibit transfer learning abilities, in that a meta-trained optimizer on one differential equation can also be successfully deployed on another differential equation.
翻訳日:2023-03-15 11:10:17 公開日:2023-03-14
# don't panic: アルツハイマー病の解釈可能な分類のための典型的付加型ニューラルネットワーク

Don't PANIC: Prototypical Additive Neural Network for Interpretable Classification of Alzheimer's Disease ( http://arxiv.org/abs/2303.07125v2 )

ライセンス: Link先を確認
Tom Nuno Wolf, Sebastian P\"olsterl, and Christian Wachinger(参考訳) アルツハイマー病(ad)は、神経解剖学、遺伝学、脳脊髄液バイオマーカーに関する情報を統合して正確な診断を行う複雑な多因子性疾患である。 したがって、最近のディープラーニングアプローチでは、画像と表情報を組み合わせて診断性能を向上させる。 しかしながら、そのようなニューラルネットワークのブラックボックスの性質は、異種モデルの決定を理解することが不可欠である臨床応用の障壁である。 本稿では,3次元画像と表データを組み合わせたAD分類のための原型付加型ニューラルネットワークPANICを提案する。 設計によって解釈可能であり、ネットワークの決定を近似しようとするポストホックな説明は不要である。 以上の結果から,PANICはAD分類における最先端性能を実現し,局所的およびグローバルな説明を直接提供する。 最後に,PAICは生物学的に意味のあるADのシグネチャを抽出し,信頼できる機械学習のための望ましいデシラタのセットを満たすことを示す。 私たちの実装はhttps://github.com/ai-med/PANIC で公開されています。

Alzheimer's disease (AD) has a complex and multifactorial etiology, which requires integrating information about neuroanatomy, genetics, and cerebrospinal fluid biomarkers for accurate diagnosis. Hence, recent deep learning approaches combined image and tabular information to improve diagnostic performance. However, the black-box nature of such neural networks is still a barrier for clinical applications, in which understanding the decision of a heterogeneous model is integral. We propose PANIC, a prototypical additive neural network for interpretable AD classification that integrates 3D image and tabular data. It is interpretable by design and, thus, avoids the need for post-hoc explanations that try to approximate the decision of a network. Our results demonstrate that PANIC achieves state-of-the-art performance in AD classification, while directly providing local and global explanations. Finally, we show that PANIC extracts biologically meaningful signatures of AD, and satisfies a set of desirable desiderata for trustworthy machine learning. Our implementation is available at https://github.com/ai-med/PANIC .
翻訳日:2023-03-15 11:10:01 公開日:2023-03-14
# 医用画像におけるVTの事前表現

Pretrained ViTs Yield Versatile Representations For Medical Images ( http://arxiv.org/abs/2303.07034v2 )

ライセンス: Link先を確認
Christos Matsoukas, Johan Fredin Haslum, Magnus S\"oderberg and Kevin Smith(参考訳) 畳み込みニューラルネットワーク(CNN)は10年間、医療画像の自動診断における事実上のアプローチとして支配され、分類、検出、セグメンテーションタスクの最先端を推し進めてきた。 過去数年間、ヴィジュアルトランスフォーマー(vits)はcnnの代替品として登場し、自然画像領域における驚くべきレベルのパフォーマンスをもたらし、また医療画像のタスクに有益ないくつかの興味深い特性を持っている。 本研究では,医療画像分類におけるトランスフォーマーモデルの有用性と欠点について検討する。 我々は,いくつかの標準2次元医用画像ベンチマークデータセットとタスクについて,一連の実験を行った。 以上の結果から,CNNはスクラッチからトレーニングした場合は性能が向上するが,ImageNetで事前トレーニングを行うと,市販のビジョントランスフォーマーはCNNと同等に動作し,教師付きおよび自己教師型の両方で動作し,CNNの代替となる可能性が示唆された。

Convolutional Neural Networks (CNNs) have reigned for a decade as the de facto approach to automated medical image diagnosis, pushing the state-of-the-art in classification, detection and segmentation tasks. Over the last years, vision transformers (ViTs) have appeared as a competitive alternative to CNNs, yielding impressive levels of performance in the natural image domain, while possessing several interesting properties that could prove beneficial for medical imaging tasks. In this work, we explore the benefits and drawbacks of transformer-based models for medical image classification. We conduct a series of experiments on several standard 2D medical image benchmark datasets and tasks. Our findings show that, while CNNs perform better if trained from scratch, off-the-shelf vision transformers can perform on par with CNNs when pretrained on ImageNet, both in a supervised and self-supervised setting, rendering them as a viable alternative to CNNs.
翻訳日:2023-03-15 11:09:40 公開日:2023-03-14
# 動的デカップリング列を用いたcs量子ビットの環境計測

Measuring the environment of a Cs qubit with dynamical decoupling sequences ( http://arxiv.org/abs/2303.06983v2 )

ライセンス: Link先を確認
Sabrina Burgardt, Simon B. J\"ager, Julian Fe{\ss}, Silvia Hiebel, Imke Schneider, Artur Widera(参考訳) 最大25個の光捕捉型中性cs原子からなる非相互作用アンサンブル上での動的デカップリングの実験的実装について報告する。 量子ビットは、2つの磁気非感受性csクロック状態である$\left|f=3, m_f=0 \right>$と$\left|f=4, m_f=0\right>$からなる。 Carr-Purcell-Meiboom-Gill (CPMG) 動的疎結合を用いた場合のコヒーレンス時間を大幅に向上させる。 10個の再焦点パルスを持つcpmgシーケンスは16.2(9)msのコヒーレンス時間を1桁以上178(2)msに増加させ、さらにフィルタ関数形式を利用し、cpmgシーケンスを用いてクビットコヒーレンスに影響する背景雑音床を測定し、パワーローノイズスペクトル $1/\omega^\alpha$ with $\mathit{\alpha} = 0.89(2)$を求める。 この発見は、トラップレーザーの強度におけるノイズの独立測定と非常によく一致している。 さらに、測定されたコヒーレンス進化は、異なる周波数で発生する低周波雑音の符号も示している。 以上の結果から,超低温の$^{87}$Rb浴に浸漬した個々のCs不純物系の単一原子ダイナミックデカップリングによる原子浴のノイズスペクトルが示唆された。

We report the experimental implementation of dynamical decoupling on a small, non-interacting ensemble of up to 25 optically trapped, neutral Cs atoms. The qubit consists of the two magnetic-insensitive Cs clock states $\left| F=3, m_F=0 \right>$ and $\left|F=4, m_F=0\right>$, which are coupled by microwave radiation. We observe a significant enhancement of the coherence time when employing Carr-Purcell-Meiboom-Gill (CPMG) dynamical decoupling. A CPMG sequence with ten refocusing pulses increases the coherence time of 16.2(9) ms by more than one order of magnitude to 178(2) ms. In addition, we make use of the filter function formalism and utilize the CPMG sequence to measure the background noise floor affecting the qubit coherence, finding a power-law noise spectrum $1/\omega^\alpha$ with $\mathit{\alpha} = 0.89(2)$. This finding is in very good agreement with an independent measurement of the noise in the intensity of the trapping laser. Moreover, the measured coherence evolutions also exhibit signatures of low-frequency noise originating at distinct frequencies. Our findings point toward noise spectroscopy of engineered atomic baths through single-atom dynamical decoupling in a system of individual Cs impurities immersed in an ultracold $^{87}$Rb bath.
翻訳日:2023-03-15 11:09:22 公開日:2023-03-14
# Uni-RXN: 化学反応予測と条件分子生成のギャップを埋める統一フレームワーク

Uni-RXN: A Unified Framework Bridging the Gap between Chemical Reaction Pretraining and Conditional Molecule Generation ( http://arxiv.org/abs/2303.06965v2 )

ライセンス: Link先を確認
Bo Qiang, Yiran Zhou, Yuheng Ding, Ningfeng Liu, Song Song, Liangren Zhang, Bo Huang, Zhenming Liu(参考訳) 化学反応は薬物設計と有機化学研究の基本的な構成要素である。 近年,化学反応の基本ルールを効率的に把握できる大規模ディープラーニングフレームワークの必要性が高まっている。 本稿では,反応表現学習と分子生成タスクの両方に対処し,より総合的なアプローチを可能にする統一的な枠組みを提案する。 有機化学機構にインスパイアされた我々は,モデルに誘導バイアスを組み込むことのできる,新しい事前学習フレームワークを開発した。 我々のフレームワークは、下流タスクに挑戦する最先端の成果を達成する。 化学知識を持つことによって、この枠組みは反応ベースの生成モデルに適用でき、少数の反応テンプレートに依存する現在の分子生成モデルの限界を克服することができる。 広範な実験において,本モデルは高品質の合成可能な薬物様構造を生成する。 全体として、我々の研究は、さまざまな反応ベースのアプリケーションのための大規模なディープラーニングフレームワークに向けて大きな一歩を踏み出した。

Chemical reactions are the fundamental building blocks of drug design and organic chemistry research. In recent years, there has been a growing need for a large-scale deep-learning framework that can efficiently capture the basic rules of chemical reactions. In this paper, we have proposed a unified framework that addresses both the reaction representation learning and molecule generation tasks, which allows for a more holistic approach. Inspired by the organic chemistry mechanism, we develop a novel pretraining framework that enables us to incorporate inductive biases into the model. Our framework achieves state-of-the-art results on challenging downstream tasks. By possessing chemical knowledge, this framework can be applied to reaction-based generative models, overcoming the limitations of current molecule generation models that rely on a small number of reaction templates. In the extensive experiments, our model generates synthesizable drug-like structures of high quality. Overall, our work presents a significant step toward a large-scale deep-learning framework for a variety of reaction-based applications.
翻訳日:2023-03-15 11:08:56 公開日:2023-03-14
# PyTorchとFiredrakeを結合した物理駆動機械学習モデル

Physics-driven machine learning models coupling PyTorch and Firedrake ( http://arxiv.org/abs/2303.06871v2 )

ライセンス: Link先を確認
Nacime Bouziani, David A. Ham(参考訳) 偏微分方程式 (Partial differential equation, PDE) は、科学や工学の分野にまたがる複雑な物理系の記述とモデル化の中心である。 しかし、多くの現実的な応用において、PDEモデリングは関心の物理学の不完全な記述を提供する。 PDEベースの機械学習技術はこの制限に対処するために設計されている。 このアプローチでは、PDEはインダクティブバイアスとして使われ、結合されたモデルは、トレーニングデータが少なくとも基本的な物理法則に依存することができる。 PDEと機械学習を複雑な問題に結合する高性能シミュレーションの展開は、機械学習とPDEベースのフレームワークが提供する機能の構成を必要とする。 我々は、機械学習フレームワークPyTorchと、研究者、エンジニア、ドメインスペシャリストに、既存のコードに簡単な変更しか必要とせず、結合したモデルを特定する高い生産性の方法を提供するPDEシステムFiredrakeとの、シンプルで効果的な結合を提示する。

Partial differential equations (PDEs) are central to describing and modelling complex physical systems that arise in many disciplines across science and engineering. However, in many realistic applications PDE modelling provides an incomplete description of the physics of interest. PDE-based machine learning techniques are designed to address this limitation. In this approach, the PDE is used as an inductive bias enabling the coupled model to rely on fundamental physical laws while requiring less training data. The deployment of high-performance simulations coupling PDEs and machine learning to complex problems necessitates the composition of capabilities provided by machine learning and PDE-based frameworks. We present a simple yet effective coupling between the machine learning framework PyTorch and the PDE system Firedrake that provides researchers, engineers and domain specialists with a high productive way of specifying coupled models while only requiring trivial changes to existing code.
翻訳日:2023-03-15 11:08:42 公開日:2023-03-14