このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230415となっている論文です。

PDF登録状況(公開日: 20230415)

TitleAuthorsAbstract論文公表日・翻訳日
# 感情音声における話者匿名化の評価

Evaluation of Speaker Anonymization on Emotional Speech ( http://arxiv.org/abs/2305.01759v1 )

ライセンス: Link先を確認
Hubert Nourtel, Pierre Champion, Denis Jouvet, Anthony Larcher, Marie Tahon(参考訳) 音声データには、話者のアイデンティティや感情状態など、さまざまな個人情報が含まれている。 これらの属性は悪意のある目的で使用できる。 バーチャルアシスタントの開発により、新しい世代のプライバシーの脅威が現れた。 最近の研究は、音声のプライバシーを守るという話題に対処している。 その1つとして、VoicePrivacyイニシアチブは、音声技術のプライバシー保護ツールの開発を促進することを目的としている。 VoicePrivacy 2020 Challenge (VPC)で選ばれたタスクは、話者の匿名化である。 目標は、言語情報を保存しながら、ソース話者のアイデンティティを隠すことである。 VPCのベースラインは音声変換を利用する。 本稿では,VPCの話者匿名化ベースラインが発話中の感情情報に与える影響について検討する。 匿名化システムに関する攻撃者の知識に関するVPCルールに従って評価を行う。 以上の結果から,VPCベースラインシステムは,攻撃者に対する話者の感情を抑えるものではないことがわかった。 匿名化音声と原音声を比較する場合、言語情報の保存を評価するために使用される自動音声認識で観測される劣化と同様のiemocapデータに対して、感情認識性能を15\%低下させる。

Speech data carries a range of personal information, such as the speaker's identity and emotional state. These attributes can be used for malicious purposes. With the development of virtual assistants, a new generation of privacy threats has emerged. Current studies have addressed the topic of preserving speech privacy. One of them, the VoicePrivacy initiative aims to promote the development of privacy preservation tools for speech technology. The task selected for the VoicePrivacy 2020 Challenge (VPC) is about speaker anonymization. The goal is to hide the source speaker's identity while preserving the linguistic information. The baseline of the VPC makes use of a voice conversion. This paper studies the impact of the speaker anonymization baseline system of the VPC on emotional information present in speech utterances. Evaluation is performed following the VPC rules regarding the attackers' knowledge about the anonymization system. Our results show that the VPC baseline system does not suppress speakers' emotions against informed attackers. When comparing anonymized speech to original speech, the emotion recognition performance is degraded by 15\% relative to IEMOCAP data, similar to the degradation observed for automatic speech recognition used to evaluate the preservation of the linguistic information.
翻訳日:2023-05-07 15:54:19 公開日:2023-04-15
# 生成モデルの設計空間

The Design Space of Generative Models ( http://arxiv.org/abs/2304.10547v1 )

ライセンス: Link先を確認
Meredith Ringel Morris, Carrie J. Cai, Jess Holbrook, Chinmay Kulkarni, Michael Terry(参考訳) card et al. の古典的な論文 "the design space of input devices" は、hci分析と発明のためのツールとしてデザインスペースの価値を確立した。 我々は、人間中心のシステムやプラクティスへの統合を支援するためには、新しいトレーニング済みの生成AIモデルのためのデザインスペースを開発する必要があると仮定する。 生成型AIモデルに関連する2つの設計空間を提案することにより、AIモデル設計空間を開発することの意味を探求する: 第一に、生成型モデル(モデルのためのインターフェース)にHCIがどのように影響するか、第二に、生成型モデルがHCI(すなわち、HCIプロトタイピング材料としてのモデル)に影響を及ぼすかを考察する。

Card et al.'s classic paper "The Design Space of Input Devices" established the value of design spaces as a tool for HCI analysis and invention. We posit that developing design spaces for emerging pre-trained, generative AI models is necessary for supporting their integration into human-centered systems and practices. We explore what it means to develop an AI model design space by proposing two design spaces relating to generative AI models: the first considers how HCI can impact generative models (i.e., interfaces for models) and the second considers how generative models can impact HCI (i.e., models as an HCI prototyping material).
翻訳日:2023-04-30 08:12:52 公開日:2023-04-15
# 農業作物の正確な価格予測のための革新的深層学習アプローチ

An innovative Deep Learning Based Approach for Accurate Agricultural Crop Price Prediction ( http://arxiv.org/abs/2304.09761v1 )

ライセンス: Link先を確認
Mayank Ratan Bhardwaj (1), Jaydeep Pawar (1), Abhijnya Bhat (2), Deepanshu (1), Inavamsi Enaganti (1), Kartik Sagar (1), Y. Narahari (1) ((1) Indian Institute of Science, (2) PES University)(参考訳) 農作物価格の正確な予測は、農家、消費者、小売業者、問屋、政府といった様々な利害関係者による意思決定の重要な入力である。 これらの決定は農民の経済的幸福を含む重要な意味を持っている。 本稿では, 歴史的価格情報, 気候条件, 土壌タイプ, 立地, その他の重要な価格決定要因を用いて, 作物の価格を正確に予測することを目的とする。 これは技術的に難しい問題であり、これまで試みられてきた。 本稿では,価格予測の精度を高めるために,革新的なディープラーニングに基づくアプローチを提案する。 提案手法では、標準畳み込みニューラルネットワーク(CNN)モデルとともにグラフニューラルネットワーク(GNN)を使用して、地空間依存性を価格で活用する。 我々のアプローチは、ノイズの多いレガシーデータとうまく連携し、文献で得られる結果よりも少なくとも20%良いパフォーマンスを生み出す。 価格は30日先まで予測できる」と述べた。 ジャガイモ(安定価格行動)とトマト(揮発性価格行動)の2つの野菜を選択し,インドの農業市場から利用可能な騒がしい公開データを扱う。

Accurate prediction of agricultural crop prices is a crucial input for decision-making by various stakeholders in agriculture: farmers, consumers, retailers, wholesalers, and the Government. These decisions have significant implications including, most importantly, the economic well-being of the farmers. In this paper, our objective is to accurately predict crop prices using historical price information, climate conditions, soil type, location, and other key determinants of crop prices. This is a technically challenging problem, which has been attempted before. In this paper, we propose an innovative deep learning based approach to achieve increased accuracy in price prediction. The proposed approach uses graph neural networks (GNNs) in conjunction with a standard convolutional neural network (CNN) model to exploit geospatial dependencies in prices. Our approach works well with noisy legacy data and produces a performance that is at least 20% better than the results available in the literature. We are able to predict prices up to 30 days ahead. We choose two vegetables, potato (stable price behavior) and tomato (volatile price behavior) and work with noisy public data available from Indian agricultural markets.
翻訳日:2023-04-20 13:56:28 公開日:2023-04-15
# 実践的差分的・ビザンチン耐性フェデレート学習

Practical Differentially Private and Byzantine-resilient Federated Learning ( http://arxiv.org/abs/2304.09762v1 )

ライセンス: Link先を確認
Zihang Xiang, Tianhao Wang, Wanyu Lin, Di Wang(参考訳) プライバシーとビザンチンのレジリエンスは、連邦学習(FL)システムに必要な2つの要件である。 プライバシとビザンチンのセキュリティに関する広範な研究は自社で行われているが、どちらも疎外されている。 これはプライバシー保護とビザンチン耐性アルゴリズムの整合が難しいためである。 本研究では,このような2つの問題に対する解決法を提案する。 我々は,DP-SGDアルゴリズムを用いて,プライバシーを保護し,ビザンチン耐性アルゴリズムを適用した。 既存の研究はこの一般的なアプローチに従っているが、DPとビザンチンのレジリエンスの相互作用に関する詳細な分析は無視されており、不満足な性能をもたらす。 具体的には、DPが導入したランダムノイズに対して、以前の研究はビザンツの集合に対する影響を減らそうとしている。 対照的に、既存のビザンチン攻撃を効果的に拒否するアグリゲーションを構築するためにランダムノイズを利用する。 我々は,DP保証とビザンチンレジリエンスを維持しながら高い精度を維持しながら,我々のプロトコルが有効であることを示す理論的証明と実証実験の両方を提供する。 前回の仕事と比較すると プロトコルは 1) 高いプライバシー体制においても極めて高い精度を達成する。 2) 分配労働者の90%がビザンチンである場合でも、うまく機能する。

Privacy and Byzantine resilience are two indispensable requirements for a federated learning (FL) system. Although there have been extensive studies on privacy and Byzantine security in their own track, solutions that consider both remain sparse. This is due to difficulties in reconciling privacy-preserving and Byzantine-resilient algorithms. In this work, we propose a solution to such a two-fold issue. We use our version of differentially private stochastic gradient descent (DP-SGD) algorithm to preserve privacy and then apply our Byzantine-resilient algorithms. We note that while existing works follow this general approach, an in-depth analysis on the interplay between DP and Byzantine resilience has been ignored, leading to unsatisfactory performance. Specifically, for the random noise introduced by DP, previous works strive to reduce its impact on the Byzantine aggregation. In contrast, we leverage the random noise to construct an aggregation that effectively rejects many existing Byzantine attacks. We provide both theoretical proof and empirical experiments to show our protocol is effective: retaining high accuracy while preserving the DP guarantee and Byzantine resilience. Compared with the previous work, our protocol 1) achieves significantly higher accuracy even in a high privacy regime; 2) works well even when up to 90% of distributive workers are Byzantine.
翻訳日:2023-04-20 13:44:29 公開日:2023-04-15
# XAISuiteフレームワークと説明系不協和の意義

The XAISuite framework and the implications of explanatory system dissonance ( http://arxiv.org/abs/2304.08499v1 )

ライセンス: Link先を確認
Shreyan Mitra and Leilani Gilpin(参考訳) 説明システムは、機械学習モデルをより透明にする。 しかし、それらはしばしば矛盾する。 そこで本研究では,14の機械学習モデル (7回帰と7分類) と4つの表型データセット (2回帰と2分類) を用いて, それぞれの重要度スコアの相関に基づいて, SHAPとLIMEという2つの説明システムを比較した。 2つの新しい発見をしました 第一に、重要度は説明整合性において重要ではない。 shapとlimeの重要度スコアの相関は、すべての機能で平均されるshapとlime重要度スコアの相関よりも可変であるかもしれないし、そうでないかもしれない。 第二に、SHAPとLIMEの重要度スコアの類似性はモデル精度を予測できない。 私たちの研究の過程では、モデルのトレーニングと説明のプロセスを統合するオープンソースライブラリxaisuiteを構築しました。 最後に,機械学習モデルを説明し,その性能を最適化する汎用フレームワークを提案する。

Explanatory systems make machine learning models more transparent. However, they are often inconsistent. In order to quantify and isolate possible scenarios leading to this discrepancy, this paper compares two explanatory systems, SHAP and LIME, based on the correlation of their respective importance scores using 14 machine learning models (7 regression and 7 classification) and 4 tabular datasets (2 regression and 2 classification). We make two novel findings. Firstly, the magnitude of importance is not significant in explanation consistency. The correlations between SHAP and LIME importance scores for the most important features may or may not be more variable than the correlation between SHAP and LIME importance scores averaged across all features. Secondly, the similarity between SHAP and LIME importance scores cannot predict model accuracy. In the process of our research, we construct an open-source library, XAISuite, that unifies the process of training and explaining models. Finally, this paper contributes a generalized framework to better explain machine learning models and optimize their performance.
翻訳日:2023-04-19 17:00:26 公開日:2023-04-15
# 病理組織における画像検索バイアス低減のためのランク付け損失とシーカリング学習

Ranking Loss and Sequestering Learning for Reducing Image Search Bias in Histopathology ( http://arxiv.org/abs/2304.08498v1 )

ライセンス: Link先を確認
Pooria Mazaheri, Azam Asilian Bidgoli, Shahryar Rahnamayan, H.R. Tizhoosh(参考訳) 近年,デジタル病理学における画像検索などの医療応用において,深層学習が重要な役割を担っている。 近年のコンピュータビジョンの進歩にもかかわらず、画像検索には重要な問題がある。 有名な問題はAIバイアスと一般化の欠如である。 深いモデルのより特筆すべき欠点は、検索機能に対する無知である。 前者は全てのモデルに影響を与え、後者は検索とマッチングのみである。 ランキングベースの学習が欠如しているため、研究者は分類エラーに基づいてモデルを訓練し、画像検索のために結果の埋め込みを使用する必要がある。 さらに, 深部モデルでは, 各種病院の大規模画像リポジトリを用いても, 内部バイアスが生じる傾向がみられた。 本稿では,画像検索性能を改善するための2つの新しいアイデアを提案する。 まず,検索のマッチング指向性に対して特徴抽出を導くために,ランキング損失関数を用いる。 モデルにマッチした出力のランキングを学習させることにより、表現学習はクラスラベルを学習するのではなく、画像検索にカスタマイズされる。 第2に,特徴抽出の一般化を促進するために,選択学習の概念を導入する。 入力された出力から入力された病院の画像、すなわち入力ドメインを隔離することにより、制度バイアスを低減させる。 提案したアイデアは、スライド画像全体の最大の公開データセットを通じて実装され、検証される。 この実験は最先端技術と比較して優れた結果を示している。

Recently, deep learning has started to play an essential role in healthcare applications, including image search in digital pathology. Despite the recent progress in computer vision, significant issues remain for image searching in histopathology archives. A well-known problem is AI bias and lack of generalization. A more particular shortcoming of deep models is the ignorance toward search functionality. The former affects every model, the latter only search and matching. Due to the lack of ranking-based learning, researchers must train models based on the classification error and then use the resultant embedding for image search purposes. Moreover, deep models appear to be prone to internal bias even if using a large image repository of various hospitals. This paper proposes two novel ideas to improve image search performance. First, we use a ranking loss function to guide feature extraction toward the matching-oriented nature of the search. By forcing the model to learn the ranking of matched outputs, the representation learning is customized toward image search instead of learning a class label. Second, we introduce the concept of sequestering learning to enhance the generalization of feature extraction. By excluding the images of the input hospital from the matched outputs, i.e., sequestering the input domain, the institutional bias is reduced. The proposed ideas are implemented and validated through the largest public dataset of whole slide images. The experiments demonstrate superior results compare to the-state-of-art.
翻訳日:2023-04-19 16:59:55 公開日:2023-04-15
# 非エルミート的キタエフはしごとしての散逸スピン鎖

Dissipative spin chain as a non-Hermitian Kitaev ladder ( http://arxiv.org/abs/1812.10373v4 )

ライセンス: Link先を確認
Naoyuki Shibata and Hosho Katsura(参考訳) ノイズを強調する量子スピンチェーン(一次元量子コンパスモデル)のリンドブラッド方程式の正確な結果を導出する。 この系はハミルトン作用素とリンドブラッド作用素と交換する保存電荷の存在により、二重縮退非平衡定常状態を持つ。 この系は、マヨラナフェルミオン(Majorana fermions)という観点からスピンを表現して解ける2脚はしご上の非エルミート・キータエフモデルに写像可能であることを示す。 これにより、緩和時間の逆であるリウヴィリアのギャップを詳細に研究することができる。 リウヴィリアンギャップは、散逸強度$ \gamma $が小さいとき単調に増加するのに対し、大きな$ \gamma $では単調に減少し、最初の崩壊モードにおける相転移の一種を意味する。 スピン鎖が臨界である場合には、リウビリアンギャップと遷移点が閉じた形で得られる。 また、エッジスピンのオートコレータに対する明示的な表現を得る。 その結果、スピン鎖がトポロジカルレジーム内にある場合、デコヒーレンスが抑制される。

We derive exact results for the Lindblad equation for a quantum spin chain (one-dimensional quantum compass model) with dephasing noise. The system possesses doubly degenerate nonequilibrium steady states due to the presence of a conserved charge commuting with the Hamiltonian and Lindblad operators. We show that the system can be mapped to a non-Hermitian Kitaev model on a two-leg ladder, which is solvable by representing the spins in terms of Majorana fermions. This allows us to study the Liouvillian gap, the inverse of relaxation time, in detail. We find that the Liouvillian gap increases monotonically when the dissipation strength $ \gamma $ is small, while it decreases monotonically for large $ \gamma $, implying a kind of phase transition in the first decay mode. The Liouvillian gap and the transition point are obtained in closed form in the case where the spin chain is critical. We also obtain the explicit expression for the autocorrelator of the edge spin. The result implies the suppression of decoherence when the spin chain is in the topological regime.
翻訳日:2023-04-19 02:12:21 公開日:2023-04-15
# マルチモーダル融合のためのモダリティに基づく因子分解

Modality-based Factorization for Multimodal Fusion ( http://arxiv.org/abs/1811.12624v3 )

ライセンス: Link先を確認
Elham J. Barezi, Peyman Momeni, Pascale Fung(参考訳) マルチモーダル推論タスクにおける各モーダルの相対的寄与を理解し,調整するための新しい手法であるMRRF(Modality-based Redundancy Reduction Fusion)を提案する。 これは、$(m+1)$-wayテンソルを得て、$m$モダリティとニューラルネットワークモデルの出力層の間の高次関係を考えることによって達成される。 モダリティに基づくテンソル因子分解法を適用すると、モダリティに存在する他のモダリティによって補うことができる情報をモデル出力に対して取り除くことができる。 これは各モダリティにおける情報の相対的有用性を理解するのに役立つ。 さらに、パラメータの少ないより複雑なモデルにつながり、オーバーフィッティングを避けるためのレギュレータとして適用することができる。 本手法は感情分析,パーソナリティ特性認識,感情認識の3つの異なるマルチモーダルデータセットに適用した。 これらのタスクにおける異なるモダリティの関係と相対的重要性を認識でき、3つのタスクの最先端と比較して、いくつかの評価尺度において1〜4\%改善できる。

We propose a novel method, Modality-based Redundancy Reduction Fusion (MRRF), for understanding and modulating the relative contribution of each modality in multimodal inference tasks. This is achieved by obtaining an $(M+1)$-way tensor to consider the high-order relationships between $M$ modalities and the output layer of a neural network model. Applying a modality-based tensor factorization method, which adopts different factors for different modalities, results in removing information present in a modality that can be compensated by other modalities, with respect to model outputs. This helps to understand the relative utility of information in each modality. In addition it leads to a less complicated model with less parameters and therefore could be applied as a regularizer avoiding overfitting. We have applied this method to three different multimodal datasets in sentiment analysis, personality trait recognition, and emotion recognition. We are able to recognize relationships and relative importance of different modalities in these tasks and achieves a 1\% to 4\% improvement on several evaluation measures compared to the state-of-the-art for all three tasks.
翻訳日:2023-04-19 02:11:51 公開日:2023-04-15
# 事前知識を活用したガンマ・ミニマックス推定器の対数メタラーニング

Adversarial Meta-Learning of Gamma-Minimax Estimators That Leverage Prior Knowledge ( http://arxiv.org/abs/2012.05465v4 )

ライセンス: Link先を確認
Hongxiang Qiu, Alex Luedtke(参考訳) ベイズ推定器は、単一の事前分布で表現できる事前知識を組み込む手段としてよく知られている。 しかし、この知識が単一の事前で表現するには曖昧すぎる場合、別のアプローチが必要である。 ガンマ-ミニマックス推定器はそのようなアプローチを提供する。 これらの推定者は、利用可能な知識と互換性のある事前分布のセットの$\gamma$に対する最悪のベイズリスクを最小限に抑える。 伝統的に、ガンマ極大はパラメトリックモデルに対して定義される。 本研究では,一般モデルに対するガンマ・ミニマックス推定器を定義し,事前分布の集合が一般化モーメントによって制約された場合に,その計算を行う逆メタ学習アルゴリズムを提案する。 収束保証も用意されている。 また,ガンマ・ミニマックス推定器を選択可能な,リッチだが有限次元の推定器クラスを提供するニューラルネットワーククラスも導入する。 本手法は,生物多様性研究で発生するエントロピー推定と予測問題という2つの設定で説明する。

Bayes estimators are well known to provide a means to incorporate prior knowledge that can be expressed in terms of a single prior distribution. However, when this knowledge is too vague to express with a single prior, an alternative approach is needed. Gamma-minimax estimators provide such an approach. These estimators minimize the worst-case Bayes risk over a set $\Gamma$ of prior distributions that are compatible with the available knowledge. Traditionally, Gamma-minimaxity is defined for parametric models. In this work, we define Gamma-minimax estimators for general models and propose adversarial meta-learning algorithms to compute them when the set of prior distributions is constrained by generalized moments. Accompanying convergence guarantees are also provided. We also introduce a neural network class that provides a rich, but finite-dimensional, class of estimators from which a Gamma-minimax estimator can be selected. We illustrate our method in two settings, namely entropy estimation and a prediction problem that arises in biodiversity studies.
翻訳日:2023-04-19 01:56:33 公開日:2023-04-15
# 線形系を解くための高速量子インスパイアアルゴリズム

Faster quantum-inspired algorithms for solving linear systems ( http://arxiv.org/abs/2103.10309v2 )

ライセンス: Link先を確認
Changpeng Shao and Ashley Montanaro(参考訳) 量子線形解法で用いられるQRAMに類似したモデルで線形系を解くための古典的アルゴリズムを改良した。 正確には、線形システム $A\x = \b$ に対して、$\x$ に対してデータ構造を出力する古典的アルゴリズムがあることを示し、$\x$ は$\|\x - A^{+}\b\|\leq \epsilon \|A^{+}\b\|$ である。 この出力は量子線形解法の出力の古典的な類似物と見なすことができる。 アルゴリズムの複雑さは$\widetilde{O}(\kappa_F^4 \kappa^2/\epsilon^2 )$, $\kappa_F = \|A\|_F\|A^{+}\|$, $\kappa = \|A\|\|A^{+}\|$である。 これにより、以前の最良のアルゴリズム (Gily{\'e}n, Song and Tang, arXiv:2009.07268] の複雑さ$\widetilde{O}(\kappa_F^6 \kappa^6/\epsilon^4)$ が改善される。 このアルゴリズムは確率勾配降下の特別な場合であるランダム化Kaczmarz法に基づいている。 また、$a$ が行スパースである場合、このメソッドはすでに近似解 $\x$ in time $\widetilde{o}(\kappa_f^2)$ を返しますが、既知の最良の量子アルゴリズムは$\ket{\x}$ in time $\widetilde{o}(\kappa_f)$ をqramデータ構造に格納すると返します。 その結果、QRAMへのアクセスと$A$が行スパースであれば、現在の量子アルゴリズムに基づくスピードアップは二次的である。

We establish an improved classical algorithm for solving linear systems in a model analogous to the QRAM that is used by quantum linear solvers. Precisely, for the linear system $A\x = \b$, we show that there is a classical algorithm that outputs a data structure for $\x$ allowing sampling and querying to the entries, where $\x$ is such that $\|\x - A^{+}\b\|\leq \epsilon \|A^{+}\b\|$. This output can be viewed as a classical analogue to the output of quantum linear solvers. The complexity of our algorithm is $\widetilde{O}(\kappa_F^4 \kappa^2/\epsilon^2 )$, where $\kappa_F = \|A\|_F\|A^{+}\|$ and $\kappa = \|A\|\|A^{+}\|$. This improves the previous best algorithm [Gily{\'e}n, Song and Tang, arXiv:2009.07268] of complexity $\widetilde{O}(\kappa_F^6 \kappa^6/\epsilon^4)$. Our algorithm is based on the randomized Kaczmarz method, which is a particular case of stochastic gradient descent. We also find that when $A$ is row sparse, this method already returns an approximate solution $\x$ in time $\widetilde{O}(\kappa_F^2)$, while the best quantum algorithm known returns $\ket{\x}$ in time $\widetilde{O}(\kappa_F)$ when $A$ is stored in the QRAM data structure. As a result, assuming access to QRAM and if $A$ is row sparse, the speedup based on current quantum algorithms is quadratic.
翻訳日:2023-04-19 01:32:30 公開日:2023-04-15
# 質的回帰のためのフレキシブルモデルアグリゲーション

Flexible Model Aggregation for Quantile Regression ( http://arxiv.org/abs/2103.00083v5 )

ライセンス: Link先を確認
Rasool Fakoor, Taesup Kim, Jonas Mueller, Alexander J. Smola, Ryan J. Tibshirani(参考訳) 量子回帰は、予測の不確実性を定量化したり、過度に還元されることなく多様な人口をモデル化する必要性によって動機付けられた統計学習の基本的な問題である。 例えば、疫学予測、コスト推定、収益予測などは、可能な値の範囲を正確に定量化できることの恩恵を受ける。 このように、統計学、機械学習、関連する分野の研究で長年にわたって、この問題のために多くのモデルが開発されてきた。 我々は, 質的回帰のための新たな(新しい)アルゴリズムを提案するのではなく, 任意の条件的質的モデルを集約する手法について, 精度と頑健性を改善するために検討する。 重み付けされたアンサンブルを考えると、重み付けは個々のモデルだけでなく、質的レベルや特徴量でも変化する。 この論文で検討するすべてのモデルは、現代のディープラーニングツールキットを使用して適合し得るので、(実装の観点から)広くアクセス可能で、スケーラブルです。 予測量子化の精度を向上させるために,予測量子化の単調な順序を保つためのツールを開発し,共形キャリブレーション法を適用した。 これらは、ベースモデルのオリジナルのライブラリを変更することなく使用できる。 また, 質的集合とそれに関連するスコアリング規則に関する基礎理論を概観し, この文献にいくつかの新しい結果を与える(例えば, ポストソートやポスト等調回帰は, 重み付けされた区間スコアだけを改善することができる)。 最後に、2つの異なるベンチマークレポジトリから34データセットにまたがる実験的な比較スイートを提供する。

Quantile regression is a fundamental problem in statistical learning motivated by a need to quantify uncertainty in predictions, or to model a diverse population without being overly reductive. For instance, epidemiological forecasts, cost estimates, and revenue predictions all benefit from being able to quantify the range of possible values accurately. As such, many models have been developed for this problem over many years of research in statistics, machine learning, and related fields. Rather than proposing yet another (new) algorithm for quantile regression we adopt a meta viewpoint: we investigate methods for aggregating any number of conditional quantile models, in order to improve accuracy and robustness. We consider weighted ensembles where weights may vary over not only individual models, but also over quantile levels, and feature values. All of the models we consider in this paper can be fit using modern deep learning toolkits, and hence are widely accessible (from an implementation point of view) and scalable. To improve the accuracy of the predicted quantiles (or equivalently, prediction intervals), we develop tools for ensuring that quantiles remain monotonically ordered, and apply conformal calibration methods. These can be used without any modification of the original library of base models. We also review some basic theory surrounding quantile aggregation and related scoring rules, and contribute a few new results to this literature (for example, the fact that post sorting or post isotonic regression can only improve the weighted interval score). Finally, we provide an extensive suite of empirical comparisons across 34 data sets from two different benchmark repositories.
翻訳日:2023-04-19 01:31:27 公開日:2023-04-15
# Z2同期化のためのTAP自由エネルギーの局所凸性とAMP収束

Local convexity of the TAP free energy and AMP convergence for Z2-synchronization ( http://arxiv.org/abs/2106.11428v3 )

ライセンス: Link先を確認
Michael Celentano, Zhou Fan, Song Mei(参考訳) 我々は,高次元ベイズモデルのプロトタイプ例として,Z2同期化のためのTAPアプローチを用いた平均場変動ベイズ推定について検討した。 任意の信号強度$\lambda > 1$(弱回復しきい値)に対して、ベイズ後法の平均に近いタップ自由エネルギー汎関数の局所的な最小化が存在することを示す。 さらに、この最小化器の局所近傍におけるTAP自由エネルギーは強い凸である。 したがって、自然勾配/ミラー希薄アルゴリズムは、近似メッセージパッシング(amp)の一定数のイテレートによって得られる局所初期化から、この最小化への線形収束を達成することができる。 これにより、タップ自由エネルギーの最小化による高次元の変分推論の厳密な基礎が得られる。 また、AMPの有限サンプル収束を解析し、AMPは任意の$\lambda > 1$のTAP最小値において漸近的に安定であり、十分に大きな$\lambda$のスペクトル初期化からこの最小値に線型収束することを示す。 このような保証は状態進化解析によって得られる結果よりも強く、無限サンプル極限における固定数のAMP反復のみを記述する。 この証明は、kac-rice 公式と sudakov-fernique gaussian comparison inequality を組み合わせることで、局所近傍における強い凸性と安定性条件を満たす臨界点の複雑性を分析する。

We study mean-field variational Bayesian inference using the TAP approach, for Z2-synchronization as a prototypical example of a high-dimensional Bayesian model. We show that for any signal strength $\lambda > 1$ (the weak-recovery threshold), there exists a unique local minimizer of the TAP free energy functional near the mean of the Bayes posterior law. Furthermore, the TAP free energy in a local neighborhood of this minimizer is strongly convex. Consequently, a natural-gradient/mirror-descent algorithm achieves linear convergence to this minimizer from a local initialization, which may be obtained by a constant number of iterates of Approximate Message Passing (AMP). This provides a rigorous foundation for variational inference in high dimensions via minimization of the TAP free energy. We also analyze the finite-sample convergence of AMP, showing that AMP is asymptotically stable at the TAP minimizer for any $\lambda > 1$, and is linearly convergent to this minimizer from a spectral initialization for sufficiently large $\lambda$. Such a guarantee is stronger than results obtainable by state evolution analyses, which only describe a fixed number of AMP iterations in the infinite-sample limit. Our proofs combine the Kac-Rice formula and Sudakov-Fernique Gaussian comparison inequality to analyze the complexity of critical points that satisfy strong convexity and stability conditions within their local neighborhoods.
翻訳日:2023-04-19 01:21:51 公開日:2023-04-15
# 実数値時系列に対するコンテキストツリー重み付け:階層混合モデルを用いたベイズ推定

Context-tree weighting for real-valued time series: Bayesian inference with hierarchical mixture models ( http://arxiv.org/abs/2106.03023v4 )

ライセンス: Link先を確認
Ioannis Papageorgiou, Ioannis Kontoyiannis(参考訳) 実数値時系列は科学と工学においてユビキタスである。 本研究では、時系列の混合モデルを構築するための一般的な階層型ベイズモデリングフレームワークを開発する。 この開発は、部分的にはコンテキストツリーの使用に基づいており、学習と推論のための効果的なアルゴリズムツールのコレクションを含んでいる。 個別の文脈(または状態)はサンプルごとに抽出され、その前の最新の観測のいくつかの離散化されたバージョンから構成される。 すべての関連するコンテキストの集合は、個別のコンテキストツリーとして表現される。 下位レベルでは、異なる実値の時系列モデルがそれぞれの文脈状態、すなわち木の葉に関連付けられている。 これは、フレキシブルで解釈可能な混合モデルを構築するために、既存のモデルクラスと組み合わせて使用できる非常に一般的なフレームワークを定義する。 文脈木重み付けの考え方を拡張することは、この設定において効率よく正確なベイズ推定を可能にするアルゴリズムにつながる。 汎用フレームワークの実用性は、自己回帰(AR)モデルが底面で使用されるときに詳細に説明され、結果として非線形AR混合モデルが得られる。 関連する手法は、シミュレーションおよび実世界の実験において、いくつかの最先端技術よりも優れていることが判明した。

Real-valued time series are ubiquitous in the sciences and engineering. In this work, a general, hierarchical Bayesian modelling framework is developed for building mixture models for times series. This development is based, in part, on the use of context trees, and it includes a collection of effective algorithmic tools for learning and inference. A discrete context (or 'state') is extracted for each sample, consisting of a discretised version of some of the most recent observations preceding it. The set of all relevant contexts are represented as a discrete context-tree. At the bottom level, a different real-valued time series model is associated with each context-state, i.e., with each leaf of the tree. This defines a very general framework that can be used in conjunction with any existing model class to build flexible and interpretable mixture models. Extending the idea of context-tree weighting leads to algorithms that allow for efficient, exact Bayesian inference in this setting. The utility of the general framework is illustrated in detail when autoregressive (AR) models are used at the bottom level, resulting in a nonlinear AR mixture model. The associated methods are found to outperform several state-of-the-art techniques on simulated and real-world experiments.
翻訳日:2023-04-19 01:21:24 公開日:2023-04-15
# 自己と相互にエキサイティングな時系列から因果グラフの発見

Causal Graph Discovery from Self and Mutually Exciting Time Series ( http://arxiv.org/abs/2106.02600v4 )

ライセンス: Link先を確認
Song Wei, Yao Xie, Christopher S. Josef, Rishikesan Kamaleswaran(参考訳) 時系列から因果指向非巡回グラフ (DAG) を復元するために, 線形因果モデルと新しいデータ適応線形正則化を組み合わせた一般化線形因果モデルを提案する。 最近開発された確率的単調変分不等式(vi)の定式化を利用して,因果発見問題を一般凸最適化として位置づけた。 さらに,幅広い非線形モノトンリンク関数に対する信頼区間を確立するための線形プログラムを解いて,非漸近的回復保証と定量化可能不確実性を開発する。 実験の結果を検証し, 広範な数値実験により, 提案手法の競争力を示す。 最も重要なことは、セプシス関連乱れ (SAD) に対する高度に解釈可能な因果DAGの復元におけるアプローチの有効性を示すと同時に、XGBoost のような強力な `black-box' モデルに匹敵する予測性能を実現することである。 したがって, 今後, 高リスク患者を臨床医が継続的に監視する手法が採用される可能性が高い。

We present a generalized linear structural causal model, coupled with a novel data-adaptive linear regularization, to recover causal directed acyclic graphs (DAGs) from time series. By leveraging a recently developed stochastic monotone Variational Inequality (VI) formulation, we cast the causal discovery problem as a general convex optimization. Furthermore, we develop a non-asymptotic recovery guarantee and quantifiable uncertainty by solving a linear program to establish confidence intervals for a wide range of non-linear monotone link functions. We validate our theoretical results and show the competitive performance of our method via extensive numerical experiments. Most importantly, we demonstrate the effectiveness of our approach in recovering highly interpretable causal DAGs over Sepsis Associated Derangements (SADs) while achieving comparable prediction performance to powerful ``black-box'' models such as XGBoost. Thus, the future adoption of our proposed method to conduct continuous surveillance of high-risk patients by clinicians is much more likely.
翻訳日:2023-04-19 01:21:04 公開日:2023-04-15
# 平衡エントロピー学習原理を持つベイズニューラルネットワークのアクティブラーニング

Active Learning in Bayesian Neural Networks with Balanced Entropy Learning Principle ( http://arxiv.org/abs/2105.14559v3 )

ライセンス: Link先を確認
Jae Oh Woo(参考訳) ラベル付きデータの取得は、予算が限られている多くの機械学習アプリケーションにおいて困難である。 アクティブラーニングは、最も有益なデータポイントを選択し、ラベリングコストを削減し、データ効率を向上させる手順を与える。 BALDのような相互情報を最大化するインフォマックス学習原理は、様々なアクティブラーニング応用に成功し、広く応用されている。 しかし、このプールベースの特定の目的は本質的に冗長な選択を導入し、さらにバッチ選択に高い計算コストを必要とする。 本稿では,基礎となるソフトマックス確率の不確実性とラベル変数との間の情報バランスを捉える,新たな不確実性尺度BalEntAcqの設計と提案を行う。 これを実現するために,各辺分布をベータ分布で近似する。 ベータ近似により,拡張エントロピーと辺縁化関節エントロピーとの比としてbalentacqを定式化できる。 BalEntAcqの閉形式表現は、各辺ベータ分布の2つのパラメータを推定することにより並列化を容易にする。 BalEntAcqは純粋に独立した尺度であり、他のデータポイントとのリレーショナル計算を必要としない。 それでもbalentacqは、ハゲ、エントロピー、平均標準偏差 (meansd) のような他の既存の不確実性尺度とは異なり、決定境界付近でマージンを持つよく異なる選択を捉えている。 最後に、balentacqを用いたバランスのとれたエントロピー学習原理が、mnist、cifar-100、svhn、tinyimagenetデータセットから得られた実験結果を示し、最近提案されたpowerbaldを含む、線形スケーラブルなアクティブラーニング手法を一貫して上回っていることを実証する。

Acquiring labeled data is challenging in many machine learning applications with limited budgets. Active learning gives a procedure to select the most informative data points and improve data efficiency by reducing the cost of labeling. The info-max learning principle maximizing mutual information such as BALD has been successful and widely adapted in various active learning applications. However, this pool-based specific objective inherently introduces a redundant selection and further requires a high computational cost for batch selection. In this paper, we design and propose a new uncertainty measure, Balanced Entropy Acquisition (BalEntAcq), which captures the information balance between the uncertainty of underlying softmax probability and the label variable. To do this, we approximate each marginal distribution by Beta distribution. Beta approximation enables us to formulate BalEntAcq as a ratio between an augmented entropy and the marginalized joint entropy. The closed-form expression of BalEntAcq facilitates parallelization by estimating two parameters in each marginal Beta distribution. BalEntAcq is a purely standalone measure without requiring any relational computations with other data points. Nevertheless, BalEntAcq captures a well-diversified selection near the decision boundary with a margin, unlike other existing uncertainty measures such as BALD, Entropy, or Mean Standard Deviation (MeanSD). Finally, we demonstrate that our balanced entropy learning principle with BalEntAcq consistently outperforms well-known linearly scalable active learning methods, including a recently proposed PowerBALD, a simple but diversified version of BALD, by showing experimental results obtained from MNIST, CIFAR-100, SVHN, and TinyImageNet datasets.
翻訳日:2023-04-19 01:20:15 公開日:2023-04-15
# 超ニューロン

Super Neurons ( http://arxiv.org/abs/2109.01594v2 )

ライセンス: Link先を確認
Serkan Kiranyaz, Junaid Malik, Mehmet Yamac, Mert Duman, Ilke Adalioglu, Esin Guldogan, Turker Ince, and Moncef Gabbouj(参考訳) 自己組織型オペレーショナルニューラルネットワーク(self-onns)は、非線形学習単位(すなわち、エレガントな多様性をもたらす生成ニューロン)を持つ新しい世代のニューラルネットワークモデルとして最近提案されているが、従来の畳み込みニューラルネットワーク(cnns)と同様に、ローカライズ(固定)カーネル操作という共通の欠点がある。 これにより、層間の受容領域と情報フローが著しく制限され、深い複雑なモデルの必要性が生じる。 カーネル次元を増加させずに受容体サイズを改善することが非常に望まれる。 これにより、連続層間の接続毎に非局在化されたカーネル操作を実現するために、生成ニューロンに対する大幅なアップグレードが必要となる。 本稿では、ランダムまたは学習可能なカーネルシフトを許容し、各接続の受容野サイズを増加させることができる優れた(生成的)ニューロンモデル(または、略してスーパーニューロン)を提案する。 核局在過程は2つのスーパーニューロンモデルによって異なる。 第1モデルはランダムに局所化されたカーネルを範囲内に仮定し、第2モデルはトレーニング中にカーネルの位置を学習(最適化)する。 従来の畳み込みと変形可能な畳み込みに対する広範囲な比較評価と生成ニューロンは、スーパーニューロンが、計算の複雑さを最小に抑えながら、優れた学習と一般化能力を達成することができることを証明している。

Self-Organized Operational Neural Networks (Self-ONNs) have recently been proposed as new-generation neural network models with nonlinear learning units, i.e., the generative neurons that yield an elegant level of diversity; however, like its predecessor, conventional Convolutional Neural Networks (CNNs), they still have a common drawback: localized (fixed) kernel operations. This severely limits the receptive field and information flow between layers and thus brings the necessity for deep and complex models. It is highly desired to improve the receptive field size without increasing the kernel dimensions. This requires a significant upgrade over the generative neurons to achieve the non-localized kernel operations for each connection between consecutive layers. In this article, we present superior (generative) neuron models (or super neurons in short) that allow random or learnable kernel shifts and thus can increase the receptive field size of each connection. The kernel localization process varies among the two super-neuron models. The first model assumes randomly localized kernels within a range and the second one learns (optimizes) the kernel locations during training. An extensive set of comparative evaluations against conventional and deformable convolutional, along with the generative neurons demonstrates that super neurons can empower Self-ONNs to achieve a superior learning and generalization capability with a minimal computational complexity burden.
翻訳日:2023-04-19 01:12:59 公開日:2023-04-15
# gnn-geo:グラフニューラルネットワークベースの細粒度ip位置情報フレームワーク

GNN-Geo: A Graph Neural Network-based Fine-grained IP geolocation Framework ( http://arxiv.org/abs/2112.10767v7 )

ライセンス: Link先を確認
Shichang Ding, Xiangyang Luo, Jinwei Wang, Xiaoming Fu(参考訳) 規則に基づく微粒なIP位置情報法は、仮説的な規則に従わないコンピュータネットワークでは一般化が難しい。 近年,多層パーセプトロン(mlp)のような深層学習手法が一般化能力の向上を試みている。 しかし、MLPはネットワークのようなグラフ構造化データには適していない。 MLPはIPアドレスを独立したインスタンスとして扱い、接続情報を無視する。 本研究では,新しいグラフ深層学習手法であるグラフニューラルネットワーク(GNN)による一般化能力の向上について検討する。 まず、IP位置情報を属性付きグラフノード回帰問題として再フォーマットする。 そこで我々は,GNN-GeoというIP位置情報フレームワークを提案する。 GNN-Geoはプリプロセッサ、エンコーダ、メッセージパッシング(MP)層、デコーダで構成される。 プリプロセッサおよびエンコーダは測定データを初期ノード埋め込みに変換する。 MP層は接続情報をモデル化することで初期ノードの埋め込みを洗練する。 デコーダは、洗練された埋め込みをノードの位置にマッピングし、事前の知識を考慮して収束問題を緩和する。 北米、ヨーロッパ、アジアの8つの実世界のIPv4/IPv6ネットワークの実験では、提案されたGNN-Geoは、最先端のルールベースおよび学習ベースラインよりも明らかに優れていた。 この研究は、粒度の細かいIP位置情報に対するGNNの大きな可能性を検証する。

Rule-based fine-grained IP geolocation methods are hard to generalize in computer networks which do not follow hypothetical rules. Recently, deep learning methods, like multi-layer perceptron (MLP), are tried to increase generalization capabilities. However, MLP is not so suitable for graph-structured data like networks. MLP treats IP addresses as isolated instances and ignores the connection information, which limits geolocation accuracy. In this work, we research how to increase the generalization capability with an emerging graph deep learning method -- Graph Neural Network (GNN). First, IP geolocation is re-formulated as an attributed graph node regression problem. Then, we propose a GNN-based IP geolocation framework named GNN-Geo. GNN-Geo consists of a preprocessor, an encoder, messaging passing (MP) layers and a decoder. The preprocessor and encoder transform measurement data into the initial node embeddings. MP layers refine the initial node embeddings by modeling the connection information. The decoder maps the refined embeddings to nodes' locations and relieves the convergence problem by considering prior knowledge. The experiments in 8 real-world IPv4/IPv6 networks in North America, Europe and Asia show the proposed GNN-Geo clearly outperforms the state-of-art rule-based and learning-based baselines. This work verifies the great potential of GNN for fine-grained IP geolocation.
翻訳日:2023-04-19 01:03:02 公開日:2023-04-15
# リモートセンシングのための半教師付きコントラスト学習--アンデス南部における古代都市化の同定

Semi-Supervised Contrastive Learning for Remote Sensing: Identifying Ancient Urbanization in the South Central Andes ( http://arxiv.org/abs/2112.06437v2 )

ライセンス: Link先を確認
Jiachen Xu, Junlin Guo, James Zimmer-Dauphinee, Quan Liu, Yuxuan Shi, Zuhayr Asad, D. Mitchell Wilkes, Parker VanValkenburgh, Steven A. Wernke, Yuankai Huo(参考訳) 考古学は長い間、サンプリングとスカラー表現の根本的な問題に直面してきた。 伝統的に、居住パターンの地域から地域への視点は、体系的な歩行者調査によって生み出される。 近年,衛星・航空画像の体系的手動調査により,地域間規模での考古学的現象の連続的な分布把握が可能となった。 しかし、このような「鈍力」による手動画像検査法は、時間と労働集約性の両方であり、感度と特異性において、サーバ間の差異が生じる傾向にある。 自己教師付き学習手法の開発は、未ラベルの衛星画像と歴史的航空画像を用いて考古学的特徴を特定するためのスケーラブルな学習手法を提供する。 しかし、考古学的特徴は概して風景と比較して非常に少ない割合でしか見えず、現代の対照的な教師付き学習アプローチは、高度に不均衡なデータセットでは劣るパフォーマンスをもたらす。 本稿では,このロングテール問題に対処するフレームワークを提案する。 ラベル付きデータとラベル付きデータとを別々に扱う既存の対比学習アプローチとは対照的に,提案手法では,貴重な注釈付きデータを利用するために,半教師付きで学習パラダイムを改革する(<7%)。 具体的には、注釈付画像パッチと注釈付アンカー画像との類似度をランク付けし、擬似負対を形成するための事前知識としてデータの高度に不均衡な性質を用いる。 本研究では,95,358枚の未ラベル画像と5,830枚のラベル画像を用いて,長い尾を持つ衛星画像データセットから古代の建物を検知する問題の解決を試みた。 その結果, 半教師付きコントラスト学習モデルは, 他の最先端手法と比較して3.8%改善した79.0%の有望な検定精度を達成した。

Archaeology has long faced fundamental issues of sampling and scalar representation. Traditionally, the local-to-regional-scale views of settlement patterns are produced through systematic pedestrian surveys. Recently, systematic manual survey of satellite and aerial imagery has enabled continuous distributional views of archaeological phenomena at interregional scales. However, such 'brute force' manual imagery survey methods are both time- and labor-intensive, as well as prone to inter-observer differences in sensitivity and specificity. The development of self-supervised learning methods offers a scalable learning scheme for locating archaeological features using unlabeled satellite and historical aerial images. However, archaeological features are generally only visible in a very small proportion relative to the landscape, while the modern contrastive-supervised learning approach typically yields an inferior performance on highly imbalanced datasets. In this work, we propose a framework to address this long-tail problem. As opposed to the existing contrastive learning approaches that treat the labelled and unlabeled data separately, our proposed method reforms the learning paradigm under a semi-supervised setting in order to utilize the precious annotated data (<7% in our setting). Specifically, the highly unbalanced nature of the data is employed as the prior knowledge in order to form pseudo negative pairs by ranking the similarities between unannotated image patches and annotated anchor images. In this study, we used 95,358 unlabeled images and 5,830 labelled images in order to solve the issues associated with detecting ancient buildings from a long-tailed satellite image dataset. From the results, our semi-supervised contrastive learning model achieved a promising testing balanced accuracy of 79.0%, which is a 3.8% improvement as compared to other state-of-the-art approaches.
翻訳日:2023-04-19 01:02:46 公開日:2023-04-15
# travlr: 今、あなたはそれを見て、あなたはそうしません! Visio-Linguistic Reasoningの評価のためのバイモーダルデータセット

TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating Visio-Linguistic Reasoning ( http://arxiv.org/abs/2111.10756v3 )

ライセンス: Link先を確認
Keng Ji Chow, Samson Tan, Min-Yen Kan(参考訳) 多くのヴィシオ言語学(v+l)表現学習法が開発されているが、既存のデータセットでは、視覚と言語の概念を統一空間で表現する範囲を十分に評価していない。 クロスモーダル転送を含む,V+Lモデルの新たな評価設定を提案する。 さらに、既存のV+Lベンチマークでは、データセット全体のグローバルな精度スコアが報告されることが多いため、モデルが失敗して成功した特定の推論タスクを特定することは困難である。 本稿では,4つのV+L推論タスクからなる合成データセットTraVLRを提案する。 travlrの合成的な性質は、タスク関連次元に沿ってトレーニングとテストの分布を制約し、分散一般化の評価を可能にする。 TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。 4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送で失敗し、1つのモダリティの追加や削除を調節することに成功した。 我々は研究コミュニティのオープンチャレンジとしてTraVLRをリリースする。

Numerous visio-linguistic (V+L) representation learning methods have been developed, yet existing datasets do not adequately evaluate the extent to which they represent visual and linguistic concepts in a unified space. We propose several novel evaluation settings for V+L models, including cross-modal transfer. Furthermore, existing V+L benchmarks often report global accuracy scores on the entire dataset, making it difficult to pinpoint the specific reasoning tasks that models fail and succeed at. We present TraVLR, a synthetic dataset comprising four V+L reasoning tasks. TraVLR's synthetic nature allows us to constrain its training and testing distributions along task-relevant dimensions, enabling the evaluation of out-of-distribution generalisation. Each example in TraVLR redundantly encodes the scene in two modalities, allowing either to be dropped or added during training or testing without losing relevant information. We compare the performance of four state-of-the-art V+L models, finding that while they perform well on test examples from the same modality, they all fail at cross-modal transfer and have limited success accommodating the addition or deletion of one modality. We release TraVLR as an open challenge for the research community.
翻訳日:2023-04-19 01:02:17 公開日:2023-04-15
# アスペクトベース感情分析のための統一インスタンスと知識アライメント事前学習

Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2110.13398v2 )

ライセンス: Link先を確認
Juhua Liu, Qihuang Zhong, Liang Ding, Hua Jin, Bo Du, Dacheng Tao(参考訳) Aspect-based Sentiment Analysis (ABSA)は、ある側面に対する感情の極性を決定することを目的としている。 ラベル付きデータが高価で制限されているため、プレトレーニング戦略はABSAのデファクトスタンダードになっている。 しかしながら、プレトレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在し、下流タスクを直接微調整し、下流タスクを準最適にする際の効果的な知識伝達を妨げる。 このようなドメインシフトを軽減するために,インスタンスレベルのアライメントと知識レベルのアライメントを併用した,バニラプレトレイン・ファインチューンパイプラインにアライメント事前トレーニングフレームワークを導入する。 具体的には,まず,大規模事前学習データセットから対象ドメイン関連インスタンスを抽出し,事前学習と対象ドメイン(第1ステージ)のインスタンスを整列させる,新しい粗大な検索手法を提案する。 次に、知識レベルでのドメインギャップをさらに橋渡しするための知識ガイダンスに基づく戦略を導入する。 実際に,サンプルインスタンス上で事前学習したモデルを,知識指導モデルと学習者モデルにそれぞれ定式化する。 目標データセットに基づいて,知識指導モデルから学習者モデル(第2段階)に段階的に知識を伝達する,オンザフライの教師-学生共同微調整アプローチを設計する。 これにより、学習者モデルは、対象データセットから新たな知識を学習する際に、より多くのドメイン不変知識を維持できる。 第3段階では、学習者モデルは、学習した知識をターゲットデータセットに適応させるために微調整される。 複数のabsaベンチマークにおける広範囲な実験と解析は、提案する事前学習フレームワークの有効性と普遍性を示している。 ソースコードとモデルはhttps://github.com/WHU-ZQH/UIKAで公開されています。

Aspect-based Sentiment Analysis (ABSA) aims to determine the sentiment polarity towards an aspect. Because of the expensive and limited labelled data, the pretraining strategy has become the de-facto standard for ABSA. However, there always exists severe domain shift between the pretraining and downstream ABSA datasets, hindering the effective knowledge transfer when directly finetuning and making the downstream task performs sub-optimal. To mitigate such domain shift, we introduce a unified alignment pretraining framework into the vanilla pretrain-finetune pipeline with both instance- and knowledge-level alignments. Specifically, we first devise a novel coarse-to-fine retrieval sampling approach to select target domain-related instances from the large-scale pretraining dataset, thus aligning the instances between pretraining and target domains (First Stage). Then, we introduce a knowledge guidance-based strategy to further bridge the domain gap at the knowledge level. In practice, we formulate the model pretrained on the sampled instances into a knowledge guidance model and a learner model, respectively. On the target dataset, we design an on-the-fly teacher-student joint fine-tuning approach to progressively transfer the knowledge from the knowledge guidance model to the learner model (Second Stage). Thereby, the learner model can maintain more domain-invariant knowledge when learning new knowledge from the target dataset. In the Third Stage, the learner model is finetuned to better adapt its learned knowledge to the target dataset. Extensive experiments and analyses on several ABSA benchmarks demonstrate the effectiveness and universality of our proposed pretraining framework. Our source code and models are publicly available at https://github.com/WHU-ZQH/UIKA.
翻訳日:2023-04-19 01:01:30 公開日:2023-04-15
# 深層ロングテール学習:調査

Deep Long-Tailed Learning: A Survey ( http://arxiv.org/abs/2110.04596v2 )

ライセンス: Link先を確認
Yifan Zhang, Bingyi Kang, Bryan Hooi, Shuicheng Yan, Jiashi Feng(参考訳) ディープロングテール学習(deep long-tailed learning)は、視覚認識における最も難しい問題の1つで、ロングテールのクラス分布に従う多数の画像から、高性能なディープラーニングモデルをトレーニングすることを目的としている。 過去10年間で、ディープラーニングは高品質な画像表現を学習するための強力な認識モデルとして現れ、一般的な視覚認識において顕著なブレークスルーをもたらした。 しかし、現実的な視覚認識タスクにおける一般的な問題である長い尾のクラス不均衡は、しばしば現実世界のアプリケーションにおけるディープネットワークベースの認識モデルの実用性を制限している。 この問題に対処するために、近年多くの研究が行われており、長い長い学習分野において有望な進歩を遂げている。 本稿では,この分野の急速な発展を考慮し,深層ロングテール学習の最近の進歩に関する包括的調査を行う。 具体的には,既存の長期学習研究を3つの主要なカテゴリ(クラス再バランス,情報強化,モジュール改良)に分類し,これらの手法を詳細に検討する。 その後,新しく提案された評価基準,すなわち相対的精度を用いて,クラス不均衡の問題にどの程度対処しているかを評価することにより,いくつかの最先端手法を実証的に分析した。 我々は,深層ロングテール学習の重要な応用を強調し,今後の研究への有望な方向性を明らかにした。

Deep long-tailed learning, one of the most challenging problems in visual recognition, aims to train well-performing deep models from a large number of images that follow a long-tailed class distribution. In the last decade, deep learning has emerged as a powerful recognition model for learning high-quality image representations and has led to remarkable breakthroughs in generic visual recognition. However, long-tailed class imbalance, a common problem in practical visual recognition tasks, often limits the practicality of deep network based recognition models in real-world applications, since they can be easily biased towards dominant classes and perform poorly on tail classes. To address this problem, a large number of studies have been conducted in recent years, making promising progress in the field of deep long-tailed learning. Considering the rapid evolution of this field, this paper aims to provide a comprehensive survey on recent advances in deep long-tailed learning. To be specific, we group existing deep long-tailed learning studies into three main categories (i.e., class re-balancing, information augmentation and module improvement), and review these methods following this taxonomy in detail. Afterward, we empirically analyze several state-of-the-art methods by evaluating to what extent they address the issue of class imbalance via a newly proposed evaluation metric, i.e., relative accuracy. We conclude the survey by highlighting important applications of deep long-tailed learning and identifying several promising directions for future research.
翻訳日:2023-04-19 01:00:26 公開日:2023-04-15
# FUTR3D:3次元検出のための統合センサフュージョンフレームワーク

FUTR3D: A Unified Sensor Fusion Framework for 3D Detection ( http://arxiv.org/abs/2203.10642v2 )

ライセンス: Link先を確認
Xuanyao Chen, Tianyuan Zhang, Yue Wang, Yilun Wang, Hang Zhao(参考訳) センサ融合は、自動運転やロボティクスなど、多くの認識システムにおいて重要なトピックである。 既存のマルチモーダル3D検出モデルは通常、センサーの組み合わせや設定に応じてカスタマイズされた設計を含む。 本研究は, FUTR3Dと呼ばれる, センサ構成のほぼすべてに使用可能な3次元検出のための, 初の統合エンドツーエンドセンサ融合フレームワークを提案する。 futr3dはクエリベースのモダリティ非依存機能サンプリング(mafs)と、3d検出のためのセット・ツー・セットの損失を持つトランスデコーダを使用する。 我々は,カメラ,低解像度LiDAR,高解像度LiDAR,レーダの様々な組み合わせにおけるフレームワークの有効性を検証する。 NuScenesデータセットでは、FUTR3Dは、さまざまなセンサーの組み合わせで特別に設計されたメソッドよりも優れたパフォーマンスを実現する。 さらに、FUTR3Dはセンサー構成の異なる優れた柔軟性を実現し、低コストの自動運転を可能にする。 例えば、カメラ付き4ビームLiDARのみを使用するFUTR3D (58.0 mAP)は、32ビームLiDARを使用した最先端の3D検出モデルCenterPoint (56.6 mAP)と同等の性能を達成する。

Sensor fusion is an essential topic in many perception systems, such as autonomous driving and robotics. Existing multi-modal 3D detection models usually involve customized designs depending on the sensor combinations or setups. In this work, we propose the first unified end-to-end sensor fusion framework for 3D detection, named FUTR3D, which can be used in (almost) any sensor configuration. FUTR3D employs a query-based Modality-Agnostic Feature Sampler (MAFS), together with a transformer decoder with a set-to-set loss for 3D detection, thus avoiding using late fusion heuristics and post-processing tricks. We validate the effectiveness of our framework on various combinations of cameras, low-resolution LiDARs, high-resolution LiDARs, and Radars. On NuScenes dataset, FUTR3D achieves better performance over specifically designed methods across different sensor combinations. Moreover, FUTR3D achieves great flexibility with different sensor configurations and enables low-cost autonomous driving. For example, only using a 4-beam LiDAR with cameras, FUTR3D (58.0 mAP) achieves on par performance with state-of-the-art 3D detection model CenterPoint (56.6 mAP) using a 32-beam LiDAR.
翻訳日:2023-04-19 00:52:16 公開日:2023-04-15
# 分布外検出のための超球面埋め込みの爆発法

How to Exploit Hyperspherical Embeddings for Out-of-Distribution Detection? ( http://arxiv.org/abs/2203.04450v3 )

ライセンス: Link先を確認
Yifei Ming, Yiyou Sun, Ousmane Dia, Yixuan Li(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、信頼できる機械学習にとって重要なタスクである。 表象学習の最近の進歩は距離に基づくOOD検出をもたらし、テストサンプルがセントロイドやID(In-distriion)クラスのプロトタイプから比較的離れている場合、OODとして検出される。 しかし、事前の手法は、IDサンプルを分類するのに十分な対照的な損失を直接取り除くが、テスト入力がOODサンプルを含む場合、最適設計はされない。 本研究では,OOD検出のための超球面埋め込みを利用した表現学習フレームワークCIDERを提案する。 ciderは、異なるクラスプロトタイプ間の大きな角距離を促進する分散損失と、クラスプロトタイプに近いサンプルを推奨するコンパクトさ損失という、2つの損失を共同で最適化している。 我々は超球面空間におけるOOD検出性能と埋め込み特性の関係を解析・確立し,分散性とコンパクト性の重要性を実証する。 CIDERは優れたパフォーマンスを確立し、FPR95では19.36%を上回っている。 コードはhttps://github.com/deeplearning-wisc/ciderで入手できる。

Out-of-distribution (OOD) detection is a critical task for reliable machine learning. Recent advances in representation learning give rise to distance-based OOD detection, where testing samples are detected as OOD if they are relatively far away from the centroids or prototypes of in-distribution (ID) classes. However, prior methods directly take off-the-shelf contrastive losses that suffice for classifying ID samples, but are not optimally designed when test inputs contain OOD samples. In this work, we propose CIDER, a novel representation learning framework that exploits hyperspherical embeddings for OOD detection. CIDER jointly optimizes two losses to promote strong ID-OOD separability: a dispersion loss that promotes large angular distances among different class prototypes, and a compactness loss that encourages samples to be close to their class prototypes. We analyze and establish the unexplored relationship between OOD detection performance and the embedding properties in the hyperspherical space, and demonstrate the importance of dispersion and compactness. CIDER establishes superior performance, outperforming the latest rival by 19.36% in FPR95. Code is available at https://github.com/deeplearning-wisc/cider.
翻訳日:2023-04-19 00:51:41 公開日:2023-04-15
# 少数ショット画像生成をよく見る

A Closer Look at Few-shot Image Generation ( http://arxiv.org/abs/2205.03805v2 )

ライセンス: Link先を確認
Yunqing Zhao, Henghui Ding, Houjing Huang, Ngai-Man Cheung(参考訳) 現代のGANは高品質で多様な画像を生成するのに優れています。 しかしながら、訓練済みのGANを小さなターゲットデータ(例:10ショット)で転送する場合、ジェネレータはトレーニングサンプルを複製する傾向がある。 この数少ない画像生成タスクに対処するために、いくつかの方法が提案されているが、それらを統一されたフレームワークで分析する努力が欠如している。 第1の貢献として,適応中の既存手法を解析するためのフレームワークを提案する。 分析の結果,品質改善を阻害する多様性維持に不釣り合いに焦点を合わせている手法もあるが,すべての手法が収束後に同様の品質が得られることがわかった。 したがって、より良い方法は多様性の低下を遅らせるものである。 さらに分析の結果,多様性の劣化をさらに遅らせる余地がまだたくさんあることが判明した。 提案する2つ目のコントリビューションは,適応中のターゲットジェネレータの多様性劣化を遅くするため,ソースドメインの豊富な多層多様性情報をターゲットドメインジェネレータに保持するために相互情報(MI)を最大化することを提案する。 比較損失(CL)によるMI最大化を行い、ジェネレータと識別器を2つの特徴エンコーダとして利用し、CLの異なるマルチレベル特徴を抽出する。 本手法をDCL(Dual Contrastive Learning)と呼ぶ。 いくつかの公開データセットに対する大規模な実験により、適応中に多様性劣化の発生が遅くなる一方で、提案したDCLは視覚的に快適な品質と最先端の定量的性能をもたらすことが示された。 プロジェクトページ: Yunqing-me.github.io/A-Closer-Look-at-FSIG

Modern GANs excel at generating high quality and diverse images. However, when transferring the pretrained GANs on small target data (e.g., 10-shot), the generator tends to replicate the training samples. Several methods have been proposed to address this few-shot image generation task, but there is a lack of effort to analyze them under a unified framework. As our first contribution, we propose a framework to analyze existing methods during the adaptation. Our analysis discovers that while some methods have disproportionate focus on diversity preserving which impede quality improvement, all methods achieve similar quality after convergence. Therefore, the better methods are those that can slow down diversity degradation. Furthermore, our analysis reveals that there is still plenty of room to further slow down diversity degradation. Informed by our analysis and to slow down the diversity degradation of the target generator during adaptation, our second contribution proposes to apply mutual information (MI) maximization to retain the source domain's rich multi-level diversity information in the target domain generator. We propose to perform MI maximization by contrastive loss (CL), leverage the generator and discriminator as two feature encoders to extract different multi-level features for computing CL. We refer to our method as Dual Contrastive Learning (DCL). Extensive experiments on several public datasets show that, while leading to a slower diversity-degrading generator during adaptation, our proposed DCL brings visually pleasant quality and state-of-the-art quantitative performance. Project Page: yunqing-me.github.io/A-Closer-Look-at-FSIG.
翻訳日:2023-04-19 00:41:31 公開日:2023-04-15
# メトロポリスモンテカルロサンプリング:収束、局在化遷移および最適性

Metropolis Monte Carlo sampling: convergence, localization transition and optimality ( http://arxiv.org/abs/2207.10488v4 )

ライセンス: Link先を確認
Alexei D. Chepelianskii, Satya N. Majumdar, Hendrik Schawe and Emmanuel Trizac(参考訳) ランダムサンプリング法のうち、マルコフ・チェイン・モンテカルロアルゴリズムが最も多い。 解析的および数値的アプローチの組み合わせを用いて、ランダムウォークメトロポリススキームにおいて、それらの収束特性を定常状態に向けて研究する。 解析的な進行を可能にするためにモデルアルゴリズムの緩和特性を十分に簡易に解析し、目標定常分布からの偏差がランダムウォークを定義するジャンプの特性長の関数として局所化遷移を特徴付けることを示した。 モンテカルロアルゴリズムの反復はジャンプパラメータのすべての選択に対して平衡に収束するが、局所化遷移はアルゴリズムの有限ステップ後に到達した確率分布と目標平衡分布との差の漸近的な形状を劇的に変化させる。 局所化移行前後の緩和は拡散率と拒絶率によってそれぞれ制限されていると論じる。

Among random sampling methods, Markov Chain Monte Carlo algorithms are foremost. Using a combination of analytical and numerical approaches, we study their convergence properties towards the steady state, within a random walk Metropolis scheme. Analysing the relaxation properties of some model algorithms sufficiently simple to enable analytic progress, we show that the deviations from the target steady-state distribution can feature a localization transition as a function of the characteristic length of the attempted jumps defining the random walk. While the iteration of the Monte Carlo algorithm converges to equilibrium for all choices of jump parameters, the localization transition changes drastically the asymptotic shape of the difference between the probability distribution reached after a finite number of steps of the algorithm and the target equilibrium distribution. We argue that the relaxation before and after the localisation transition is respectively limited by diffusion and rejection rates.
翻訳日:2023-04-19 00:35:36 公開日:2023-04-15
# LUT-GEMM:大規模生成言語モデルにおける効率的な推論のためのLUTに基づく量子行列乗法

LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models ( http://arxiv.org/abs/2206.09557v3 )

ライセンス: Link先を確認
Gunho Park, Baeseong Park, Minsub Kim, Sungjae Lee, Jeonghoon Kim, Beomseok Kwon, Se Jung Kwon, Byeongwook Kim, Youngjoo Lee, and Dongsoo Lee(参考訳) 近年の自己教師型学習の進歩とTransformerアーキテクチャが組み合わさって、自然言語処理(NLP)が著しく低難易度を実現している。 しかし、強力なnlpモデルはモデルサイズを増加させ、かなりの計算量とメモリ要件をもたらす。 本稿では,大規模生成言語モデルに適した効率的な推論フレームワークを提案する。 モデルサイズを小さくするために、活性化の完全精度を維持しながら、重量のみの量子化戦略を用いる。 その結果,非一様あるいは一様量子化技術により,各重みに対するサブ4ビット量子化を実現する。 提案手法はlut-gemmと呼ばれ,圧縮率と精度のバランスを柔軟に保ち,量子化行列の乗算を高速化する。 重みのみ量子化に対応する以前の行列乗算核とは異なり、lut-gemmは一様および非一様量子化法の両方の資源要求非量子化プロセスを効率的に除去する。 個々のGPUのレイテンシと大規模言語モデルの全体的な推論プロセスを削減することで、LUT-GEMMは推論の性能を大幅に改善する。 LUT-GEMMの影響は、低ビット量子化と効率的なLUTベースの演算によって高い圧縮比を実装し、必要なGPUの数を減少させることで促進される。 3ビット量子化を用いた OPT-175B モデルでは,LUT-GEMM がコストのかかる OPTQ と比較して,各トークンの生成遅延を 2.1 倍高速化することを示した。 したがって、LUT-GEMMは1つのGPU上でOPT-175Bモデルの精度や性能を著しく低下させることなく推定できる。

The recent advancements in self-supervised learning, combined with the Transformer architecture, have enabled natural language processing (NLP) to achieve remarkably low perplexity. However, powerful NLP models necessitate increasing model size, leading to substantial computational and memory requirements. In this paper, we introduce an efficient inference framework tailored for large-scale generative language models. To reduce the model size, we employ a weight-only quantization strategy while preserving full precision for activations. As a result, we attain sub-4-bit quantization for each weight through non-uniform or uniform quantization techniques. Our proposed kernel, called LUT-GEMM, then accelerates quantized matrix multiplications, offering a flexible balance between compression ratio and accuracy. Unlike earlier matrix multiplication kernels that accommodated weight-only quantization, LUT-GEMM efficiently eliminates the resource-demanding dequantization process for both uniform and non-uniform quantization methods. By reducing the latency of individual GPUs and the overall inference process for large-scale language models, LUT-GEMM provides significant performance improvements in inference. The impact of LUT-GEMM is facilitated by implementing high compression ratios through low-bit quantization and efficient LUT-based operations, which decreases the number of required GPUs. For the OPT-175B model with 3-bit quantization, we show that LUT-GEMM accelerates the latency for generating each token by 2.1x compared to OPTQ, which requires costly dequantization. Consequently, LUT-GEMM enables inference of the OPT-175B model on a single GPU without noticeable degradation in accuracy or performance, while the non-quantized OPT-175B model requires a minimum of 8 GPUs.
翻訳日:2023-04-19 00:32:45 公開日:2023-04-15
# 複数のミサイルの協調誘導--ハイブリッド共進化的アプローチ

Cooperative guidance of multiple missiles: a hybrid co-evolutionary approach ( http://arxiv.org/abs/2208.07156v2 )

ライセンス: Link先を確認
Xuejing Lan, Junda Chen, Zhijia Zhao, Tao Zou(参考訳) 複数のミサイルの協調的誘導は、時間と空間のコンセンサス、特に動的標的を攻撃する場合の厳密な制約を伴う困難な課題である。 本稿では,分散多目的協調最適化問題として協調誘導タスクを記述する。 協調指導によって直面する非定常性と連続制御の問題に対処するために、エリート適応学習技術とともに自然進化戦略(nes)を改善し、新たな自然共進化戦略(nces)を開発する。 元の進化戦略の勾配は、複数のミサイル間の相互作用による推定バイアスを減らすために再スケールされる。 次に,高度にスケーラブルな共進化機構と従来の指導戦略を統合することにより,ハイブリッド共進化協調指導法(hccgl)を提案する。 最後に, 異なる条件下での3つのシミュレーションにより, 協調指導課題の高精度解法の有効性と優越性を示す。 提案手法は,協調的指導だけでなく,多目的最適化,動的最適化,分散制御といった応用シナリオにおいても大きな期待が持たれている。

Cooperative guidance of multiple missiles is a challenging task with rigorous constraints of time and space consensus, especially when attacking dynamic targets. In this paper, the cooperative guidance task is described as a distributed multi-objective cooperative optimization problem. To address the issues of non-stationarity and continuous control faced by cooperative guidance, the natural evolutionary strategy (NES) is improved along with an elitist adaptive learning technique to develop a novel natural co-evolutionary strategy (NCES). The gradients of original evolutionary strategy are rescaled to reduce the estimation bias caused by the interaction between the multiple missiles. Then, a hybrid co-evolutionary cooperative guidance law (HCCGL) is proposed by integrating the highly scalable co-evolutionary mechanism and the traditional guidance strategy. Finally, three simulations under different conditions demonstrate the effectiveness and superiority of this guidance law in solving cooperative guidance tasks with high accuracy. The proposed co-evolutionary approach has great prospects not only in cooperative guidance, but also in other application scenarios of multi-objective optimization, dynamic optimization and distributed control.
翻訳日:2023-04-19 00:24:20 公開日:2023-04-15
# サンプリングはスコアを学ぶのと同じくらい簡単:最小データ仮定を持つ拡散モデルの理論

Sampling is as easy as learning the score: theory for diffusion models with minimal data assumptions ( http://arxiv.org/abs/2209.11215v3 )

ライセンス: Link先を確認
Sitan Chen, Sinho Chewi, Jerry Li, Yuanzhi Li, Adil Salim, Anru R. Zhang(参考訳) dall$\cdot$e 2 のような大規模実世界生成モデルのバックボーンを構成するdirising diffusion probabilistic models (ddpms) のようなスコアベース生成モデル (sgm) に対する理論的収束保証を提供する。 我々の主な成果は、正確なスコア推定を仮定すると、そのようなSGMは事実上あらゆる現実的なデータ分布から効率的にサンプリングできるということである。 先行研究とは対照的に,(1)l^2$-accurateスコア推定($l^\infty$-accurateではなく)を保持,(2)実質的な非log-concavityを妨げる制限的機能不等式条件を必要とせず,(3)すべての関連する問題パラメータにおいて多項式的にスケールし,(4)ランジュバン拡散の離散化に関する最先端の複雑性保証を一致させる。 我々はこれをSGMの実証的成功の強い理論的正当化と見なしている。 また,臨界減衰ランゲヴィン拡散(CLD)に基づくSGMについても検討した。 従来の知見とは対照的に,cldの使用はsgmの複雑さを減少させないことを示す。

We provide theoretical convergence guarantees for score-based generative models (SGMs) such as denoising diffusion probabilistic models (DDPMs), which constitute the backbone of large-scale real-world generative models such as DALL$\cdot$E 2. Our main result is that, assuming accurate score estimates, such SGMs can efficiently sample from essentially any realistic data distribution. In contrast to prior works, our results (1) hold for an $L^2$-accurate score estimate (rather than $L^\infty$-accurate); (2) do not require restrictive functional inequality conditions that preclude substantial non-log-concavity; (3) scale polynomially in all relevant problem parameters; and (4) match state-of-the-art complexity guarantees for discretization of the Langevin diffusion, provided that the score error is sufficiently small. We view this as strong theoretical justification for the empirical success of SGMs. We also examine SGMs based on the critically damped Langevin diffusion (CLD). Contrary to conventional wisdom, we provide evidence that the use of the CLD does not reduce the complexity of SGMs.
翻訳日:2023-04-19 00:16:15 公開日:2023-04-15
# 捕捉イオンを用いた動的分離量子シミュレーション

Engineering dynamically decoupled quantum simulations with trapped ions ( http://arxiv.org/abs/2209.05509v2 )

ライセンス: Link先を確認
W. Morong, K. S. Collins, A. De, E. Stavropoulos, T. You, C. Monroe(参考訳) 外部ドライブは、ノイズ源を平均化することにより、量子多体系のコヒーレンスを向上させることができる。 また、Floquet Hamiltonian Engineeringを通じて、静的極限で到達不能なモデルを実現するためにも使用できる。 これらのツールが組み合わされる可能性についてはまだ検討されていない。 パルス列において,量子多体系を外界から切り離すために必要な要件を,動的に変化させることなく開発する。 この手法をイオントラッププラットフォームで実験的に実証し,実世界のアプリケーションにおいてコヒーレンスを大幅に改善できることを示す。 最後に、長距離相互作用スピンの正確に解けるパラダイムであるHaldane-Shastryモデルの近似量子シミュレーションを設計した。 我々の結果は量子シミュレーションツールボックスを拡大し、統一する。

An external drive can improve the coherence of a quantum many-body system by averaging out noise sources. It can also be used to realize models that are inaccessible in the static limit, through Floquet Hamiltonian engineering. The full possibilities for combining these tools remain unexplored. We develop the requirements needed for a pulse sequence to decouple a quantum many-body system from an external field without altering the intended dynamics. Demonstrating this technique experimentally in an ion-trap platform, we show that it can provide a large improvement to coherence in real-world applications. Finally, we engineer an approximate quantum simulation of the Haldane-Shastry model, an exactly solvable paradigm for long-range interacting spins. Our results expand and unify the quantum simulation toolbox.
翻訳日:2023-04-19 00:15:13 公開日:2023-04-15
# 赤外線小目標検出用コートネット

CourtNet for Infrared Small-Target Detection ( http://arxiv.org/abs/2209.13780v2 )

ライセンス: Link先を確認
Jingchao Peng, Haitao Zhao, Kaijie Zhao, Zhongze Wang, Lujian Yao(参考訳) 赤外線小ターゲット検出(ISTD)は重要なコンピュータビジョンタスクである。 ISTDは、複雑なバックグラウンドクラッタから小さなターゲットを分離することを目的としている。 赤外線は遠距離で減衰し、ターゲットは非常に暗くなり、背景のクラッタと混同しやすいため、検出器は精度とリコール率のバランスをとるのが難しくなる。 この課題に対処するために,CourtNetと呼ばれるニューラルネットワークベースのISTD手法を提案する。3つのサブネットワーク – 訴追ネットワークはリコール率を改善するように設計され,被告ネットワークは精度向上に専心し,陪審ネットワークは結果の重み付けを行い,精度とリコール率を適応的にバランスさせる。 さらに、この訴追ネットワークは、ネットワーク前方伝播において小さな目標が消滅することを防止し、密結合されたトランス構造を用いる。 さらに、小さなターゲットを正確に特定するために、きめ細かい注意モジュールが採用されている。 実験の結果、CourtNetは2つのISTDデータセット MFIRST (0.62) と SIRST (0.73) で最高のF1スコアを達成した。

Infrared small-target detection (ISTD) is an important computer vision task. ISTD aims at separating small targets from complex background clutter. The infrared radiation decays over distances, making the targets highly dim and prone to confusion with the background clutter, which makes the detector challenging to balance the precision and recall rate. To deal with this difficulty, this paper proposes a neural-network-based ISTD method called CourtNet, which has three sub-networks: the prosecution network is designed for improving the recall rate; the defendant network is devoted to increasing the precision rate; the jury network weights their results to adaptively balance the precision and recall rate. Furthermore, the prosecution network utilizes a densely connected transformer structure, which can prevent small targets from disappearing in the network forward propagation. In addition, a fine-grained attention module is adopted to accurately locate the small targets. Experimental results show that CourtNet achieves the best F1-score on the two ISTD datasets, MFIRST (0.62) and SIRST (0.73).
翻訳日:2023-04-19 00:05:35 公開日:2023-04-15
# 深部生成モデルによる空間相関多地域気候データの構築

Deep generative model super-resolves spatially correlated multiregional climate data ( http://arxiv.org/abs/2209.12433v2 )

ライセンス: Link先を確認
Norihiro Oyama, Noriko N. Ishizaki, Satoshi Koide, and Hiroaki Yoshida(参考訳) 地球温暖化の長期予測を必要とするシステムの政治的・社会的決定には、世界気候シミュレーションの粗い結果の超解き方(ダウンスケール)が不可欠である。 しかし, 既存の高速超解像技術は, 交通インフラの整備など, 空間的拡張を伴うシステムに対処する上で特に重要となる, 気象データの空間的相関性を維持していない。 本稿では, 対角的ネットワークに基づく機械学習により, ダウンスケーリングにおける領域間空間相関を最大50倍の高倍率で正確に再構築できることを示す。 気温と降水分布の気象データと直接比較すると、気候学的に重要な物理情報を統合することでダウンスケーリング性能が向上し、このアプローチを$\pi$SRGAN(Physics Informed Super-Resolution Generative Adversarial Network)と呼ぶことができる。 提案手法は,気候変動の影響を地域間一貫した評価に応用できる可能性がある。 さらに, 低分解能の降水場を圧力場に置き換える深層生成モデルに基づくダウンスケーリング手法である$\psi$srgan (precipitation source inaccessible srgan) の別の変種について述べる。 この手法は降水場において予期せぬ優れたダウンスケーリング性能を示す。

Super-resolving the coarse outputs of global climate simulations, termed downscaling, is crucial in making political and social decisions on systems requiring long-term climate change projections. Existing fast super-resolution techniques, however, have yet to preserve the spatially correlated nature of climatological data, which is particularly important when we address systems with spatial expanse, such as the development of transportation infrastructure. Herein, we show an adversarial network-based machine learning enables us to correctly reconstruct the inter-regional spatial correlations in downscaling with high magnification of up to fifty while maintaining pixel-wise statistical consistency. Direct comparison with the measured meteorological data of temperature and precipitation distributions reveals that integrating climatologically important physical information improves the downscaling performance, which prompts us to call this approach $\pi$SRGAN (Physics Informed Super-Resolution Generative Adversarial Network). The proposed method has a potential application to the inter-regionally consistent assessment of the climate change impact. Additionally, we present the outcomes of another variant of the deep generative model-based downscaling approach in which the low-resolution precipitation field is substituted with the pressure field, referred to as $\psi$SRGAN (Precipitation Source Inaccessible SRGAN). Remarkably, this method demonstrates unexpectedly good downscaling performance for the precipitation field.
翻訳日:2023-04-19 00:04:12 公開日:2023-04-15
# ターボチャージソリューションの概念:ニューラル平衡解を用いたNE、CE、CCEの解法

Turbocharging Solution Concepts: Solving NEs, CEs and CCEs with Neural Equilibrium Solvers ( http://arxiv.org/abs/2210.09257v2 )

ライセンス: Link先を確認
Luke Marris, Ian Gemp, Thomas Anthony, Andrea Tacchetti, Siqi Liu, Karl Tuyls(参考訳) Nash Equilibria、Correlated Equilibria、Coarse Correlated Equilibriaといったソリューション概念は多くのマルチエージェント機械学習アルゴリズムに有用なコンポーネントである。 残念なことに、通常の形式のゲームを解くには、収束するのに制限的または非決定論的時間が必要であり、失敗する可能性がある。 本稿では, 固定形状, 購買速度, 決定論の全てのゲーム空間を近似的に解くために, ニューラルネットワークアーキテクチャを用いたニューラル平衡解法を提案する。 我々は,相対エントロピーを最小化したり,福祉を最大化するような一意的に平衡を選択できる柔軟な平衡選択フレームワークを定義する。 ネットワークは教師付きトレーニングデータを生成することなくトレーニングされる。 我々は大きなゲームに目覚ましいゼロショット一般化を示す。 このようなネットワークは、多くの可能なマルチエージェントアルゴリズムの強力なコンポーネントであると主張する。

Solution concepts such as Nash Equilibria, Correlated Equilibria, and Coarse Correlated Equilibria are useful components for many multiagent machine learning algorithms. Unfortunately, solving a normal-form game could take prohibitive or non-deterministic time to converge, and could fail. We introduce the Neural Equilibrium Solver which utilizes a special equivariant neural network architecture to approximately solve the space of all games of fixed shape, buying speed and determinism. We define a flexible equilibrium selection framework, that is capable of uniquely selecting an equilibrium that minimizes relative entropy, or maximizes welfare. The network is trained without needing to generate any supervised training data. We show remarkable zero-shot generalization to larger games. We argue that such a network is a powerful component for many possible multiagent algorithms.
翻訳日:2023-04-18 23:56:58 公開日:2023-04-15
# 異常検出のための学習画像表現:創薬における組織学的変化の発見への応用

Learning image representations for anomaly detection: application to discovery of histological alterations in drug development ( http://arxiv.org/abs/2210.07675v4 )

ライセンス: Link先を確認
Igor Zingman, Birgit Stierstorfer, Charlotte Lempp, Fabian Heinemann(参考訳) 病理組織像における異常検出システムを提案する。 組織学では、正常なサンプルは通常豊富であるが、異常な(病理学的)症例は少ないか、使用できない。 このような設定下では、健全なデータで訓練された1つのクラス分類器は、分布異常なサンプルを検出することができる。 このようなアプローチと、事前訓練された画像の畳み込みニューラルネットワーク(CNN)表現が組み合わさって、以前は異常検出(AD)に用いられていた。 しかし、事前訓練された市販のcnn表現は、組織の異常な状況に敏感ではなく、健康な組織の自然な変化は遠方からの表現をもたらす可能性がある。 健康組織における関連詳細への表現を適応させるために, 異なる種, 臓器, 染色試薬の健康組織を識別する補助課題に対して, cnnを訓練することを提案する。 健全なサンプルには上記のラベルが付属するため、追加のラベル付け作業は必要ない。 トレーニング中、我々はセンターロス項でコンパクトな画像表現を強制し、ADの表現をさらに改善する。 提案するシステムは,肝臓異常の公開データセット上で確立したad法を上回っている。 さらに,肝異常の定量化に特化する従来の方法と同等の結果を得た。 本手法は, 早期開発段階における候補薬の毒性評価に有用であり, 費用のかかる後期薬乱用を低減できることを示す。

We present a system for anomaly detection in histopathological images. In histology, normal samples are usually abundant, whereas anomalous (pathological) cases are scarce or not available. Under such settings, one-class classifiers trained on healthy data can detect out-of-distribution anomalous samples. Such approaches combined with pre-trained Convolutional Neural Network (CNN) representations of images were previously employed for anomaly detection (AD). However, pre-trained off-the-shelf CNN representations may not be sensitive to abnormal conditions in tissues, while natural variations of healthy tissue may result in distant representations. To adapt representations to relevant details in healthy tissue we propose training a CNN on an auxiliary task that discriminates healthy tissue of different species, organs, and staining reagents. Almost no additional labeling workload is required, since healthy samples come automatically with aforementioned labels. During training we enforce compact image representations with a center-loss term, which further improves representations for AD. The proposed system outperforms established AD methods on a published dataset of liver anomalies. Moreover, it provided comparable results to conventional methods specifically tailored for quantification of liver anomalies. We show that our approach can be used for toxicity assessment of candidate drugs at early development stages and thereby may reduce expensive late-stage drug attrition.
翻訳日:2023-04-18 23:56:23 公開日:2023-04-15
# 対人ロバストネスのための視覚プロンプト

Visual Prompting for Adversarial Robustness ( http://arxiv.org/abs/2210.06284v3 )

ライセンス: Link先を確認
Aochuan Chen, Peter Lorenz, Yuguang Yao, Pin-Yu Chen, Sijia Liu(参考訳) 本研究では,視覚プロンプト(vp)を利用して,テスト時の固定された事前学習モデルの敵対的ロバスト性を改善する。 従来の敵対的防御と比べて、vpは、多くの計算オーバーヘッドを導入することなく、望ましいモデルパフォーマンスを達成するためにテスト時にプラグアンドプレイ機能を持つユニバーサル(データ非依存)入力プロンプトテンプレートを設計することができます。 VPはモデル一般化の改善に成功しているが、それが敵の攻撃に対する防御にどのように使用できるかは解明されていない。 本稿では,バニラVPアプローチが,サンプル特異的な対向的摂動に対する頑健な学習能力に欠けるため,対向防御に有効でないことを示す。 これを回避するために,クラスワイド・アドバイザリ・ビジュアル・プロンプト(C-AVP)と呼ばれる新しいVP手法を提案し,アンサンブル・プロンプトの強みを利用するだけでなく,それらの相互関係を最適化してモデルロバスト性を向上させる。 実験の結果,C-AVPは標準精度2.1倍,頑健さ2倍の精度で従来のVP法より優れていた。 古典的なテストタイムディフェンスと比較すると、C-AVPは42倍の推論タイムスピードアップをもたらす。

In this work, we leverage visual prompting (VP) to improve adversarial robustness of a fixed, pre-trained model at testing time. Compared to conventional adversarial defenses, VP allows us to design universal (i.e., data-agnostic) input prompting templates, which have plug-and-play capabilities at testing time to achieve desired model performance without introducing much computation overhead. Although VP has been successfully applied to improving model generalization, it remains elusive whether and how it can be used to defend against adversarial attacks. We investigate this problem and show that the vanilla VP approach is not effective in adversarial defense since a universal input prompt lacks the capacity for robust learning against sample-specific adversarial perturbations. To circumvent it, we propose a new VP method, termed Class-wise Adversarial Visual Prompting (C-AVP), to generate class-wise visual prompts so as to not only leverage the strengths of ensemble prompts but also optimize their interrelations to improve model robustness. Our experiments show that C-AVP outperforms the conventional VP method, with 2.1X standard accuracy gain and 2X robust accuracy gain. Compared to classical test-time defenses, C-AVP also yields a 42X inference time speedup.
翻訳日:2023-04-18 23:55:22 公開日:2023-04-15
# 任意の量子過程を予測する学習

Learning to predict arbitrary quantum processes ( http://arxiv.org/abs/2210.14894v3 )

ライセンス: Link先を確認
Hsin-Yuan Huang, Sitan Chen, John Preskill(参考訳) 我々は、未知の量子プロセスである$\mathcal{E}$ over $n$ qubitsを予測するための効率的な機械学習(ML)アルゴリズムを提案する。 任意の$n$-qubit状態上の分布$\mathcal{D}$に対して、このMLアルゴリズムは未知のプロセス~$\mathcal{E}$からの出力の局所的な特性を、$\mathcal{D}$から引き出された入力状態よりも小さな平均誤差で予測することができることを示す。 mlアルゴリズムは、未知のプロセスが指数関数的に多くのゲートを持つ量子回路であっても計算効率が高い。 本アルゴリズムは,未知状態の性質を学習し,未知観測量に対する低次近似を学習するための効率的な手順を組み合わせる。 この分析は、古典的ボネンブラスト・ヒル不等式(英語版)の量子アナログを含む新しいノルム不等式を証明し、局所ハミルトニアンを最適化するための改良されたアルゴリズムを提供することで導かれる。 進化時間最大10^6$、システムサイズ最大50$ qubitsの量子力学予測に関する数値実験は、我々の証明を裏付けるものである。 その結果,MLモデルが複雑な量子力学の出力を,プロセス自体の実行時間よりもはるかに高速に予測できる可能性が示された。

We present an efficient machine learning (ML) algorithm for predicting any unknown quantum process $\mathcal{E}$ over $n$ qubits. For a wide range of distributions $\mathcal{D}$ on arbitrary $n$-qubit states, we show that this ML algorithm can learn to predict any local property of the output from the unknown process~$\mathcal{E}$, with a small average error over input states drawn from $\mathcal{D}$. The ML algorithm is computationally efficient even when the unknown process is a quantum circuit with exponentially many gates. Our algorithm combines efficient procedures for learning properties of an unknown state and for learning a low-degree approximation to an unknown observable. The analysis hinges on proving new norm inequalities, including a quantum analogue of the classical Bohnenblust-Hille inequality, which we derive by giving an improved algorithm for optimizing local Hamiltonians. Numerical experiments on predicting quantum dynamics with evolution time up to $10^6$ and system size up to $50$ qubits corroborate our proof. Overall, our results highlight the potential for ML models to predict the output of complex quantum dynamics much faster than the time needed to run the process itself.
翻訳日:2023-04-18 23:46:42 公開日:2023-04-15
# 混合イニシアティブ品質多様性アルゴリズムのための選好学習エミッタ

Preference-Learning Emitters for Mixed-Initiative Quality-Diversity Algorithms ( http://arxiv.org/abs/2210.13839v2 )

ライセンス: Link先を確認
Roberto Gallotta, Kai Arulkumaran, L. B. Soros(参考訳) 人間と機械が共同でアイテムを作成する混合開始型共同作成タスクでは、デザイナーに複数の関連する提案を行うことが重要である。 品質多様性アルゴリズムはこの目的のために一般的に使われており、ソリューション空間の健全な領域を表現し、高い適合性と多種多様なデザインを示す様々な提案を提供することができる。 生成した提案が検索プロセスを促進するため、インスピレーションを提供するだけでなく、デザイナーの意図に沿うことも重要である。 さらに、デザイナがソリューションに満足する前に、システムとの対話が頻繁に必要になります。 本研究では,エミッタを利用してデザイナーの好みを学習し,自動ステップで使用する,インタラクティブな制約付きMAP-Elitesシステムを用いて,これらの課題に取り組む。 好みを学習することで、生成したデザインはデザイナーの意図と一致し、自動ステップを適用することで、ユーザインタラクション毎により多くのソリューションを生成し、デザイナーにより多くの選択肢を与え、検索を高速化します。 本稿では,選好学習エミッタ(ple)のための汎用フレームワークを提案し,ゲーム空間エンジニアの手続き的コンテンツ生成タスクに適用する。 我々はアルゴリズムの対話型アプリケーションを構築し、プレイヤーとユーザスタディを行った。

In mixed-initiative co-creation tasks, wherein a human and a machine jointly create items, it is important to provide multiple relevant suggestions to the designer. Quality-diversity algorithms are commonly used for this purpose, as they can provide diverse suggestions that represent salient areas of the solution space, showcasing designs with high fitness and wide variety. Because generated suggestions drive the search process, it is important that they provide inspiration, but also stay aligned with the designer's intentions. Additionally, often many interactions with the system are required before the designer is content with a solution. In this work, we tackle these challenges with an interactive constrained MAP-Elites system that leverages emitters to learn the preferences of the designer and then use them in automated steps. By learning preferences, the generated designs remain aligned with the designer's intent, and by applying automatic steps, we generate more solutions per user interaction, giving a larger number of choices to the designer and thereby speeding up the search. We propose a general framework for preference-learning emitters (PLEs) and apply it to a procedural content generation task in the video game Space Engineers. We built an interactive application for our algorithm and performed a user study with players.
翻訳日:2023-04-18 23:45:47 公開日:2023-04-15
# 共形臨界点近傍のクラインボトルエントロピーの普遍的スケーリング

Universal scaling of Klein bottle entropy near conformal critical points ( http://arxiv.org/abs/2211.09745v2 )

ライセンス: Link先を確認
Yueshui Zhang, Anton Hulsch, Hua-Chen Zhang, Wei Tang, Lei Wang, Hong-Hao Tu(参考訳) 関係作用素によって摂動される共形場理論(CFT)に対するクレインボトルエントロピー [Phys. Rev. Lett. 119, 261603 (2017)] は、次元を持たないカップリング定数の普遍函数であることを示す。 クラインボトルエントロピーの普遍的スケーリングは、データ崩壊を通じて格子作用素のスケーリング次元を抽出する効率的なアプローチを提供する。 パラダイム的な例として,連続行列積演算子を用いた数値シミュレーションを用いて,Ising および Z3 パラフェルミオン CFT に対するKlein ボトルエントロピーの普遍的スケーリングを検証する。

We show that the Klein bottle entropy [Phys. Rev. Lett. 119, 261603 (2017)] for conformal field theories (CFTs) perturbed by a relevant operator is a universal function of the dimensionless coupling constant. The universal scaling of the Klein bottle entropy near criticality provides an efficient approach to extract the scaling dimension of lattice operators via data collapse. As paradigmatic examples, we validate the universal scaling of the Klein bottle entropy for Ising and Z3 parafermion CFTs with various perturbations using numerical simulation with continuous matrix product operator approach.
翻訳日:2023-04-18 23:26:46 公開日:2023-04-15
# 線形力学系の安定性に対する後悔の意義

Implications of Regret on Stability of Linear Dynamical Systems ( http://arxiv.org/abs/2211.07411v2 )

ライセンス: Link先を確認
Aren Karapetyan, Anastasios Tsiamis, Efe C. Balta, Andrea Iannelli, John Lygeros(参考訳) 不確実性と動的制約の下で決定を行うエージェントの設定は、最適制御、強化学習、そして最近オンライン学習の分野でも一般的である。 オンライン学習環境において、エージェントの判断の質は、しばしば後悔の概念によって定量化され、選択された決定のパフォーマンスを後から見て最良の決定と比較する。 後悔はパフォーマンスの指標として有用であるが,力学系に関しては,選択した政策に対する閉ループシステムの安定性も評価することが重要である。 本研究では, 線形状態フィードバックポリシと線形システムに対して, 線形後悔は時間変化と時間不変の両条件において漸近安定性を示すことを示す。 逆に、状態遷移行列の有界入力境界状態安定性と総和性は線形後悔を暗示することを示す。

The setting of an agent making decisions under uncertainty and under dynamic constraints is common for the fields of optimal control, reinforcement learning, and recently also for online learning. In the online learning setting, the quality of an agent's decision is often quantified by the concept of regret, comparing the performance of the chosen decisions to the best possible ones in hindsight. While regret is a useful performance measure, when dynamical systems are concerned, it is important to also assess the stability of the closed-loop system for a chosen policy. In this work, we show that for linear state feedback policies and linear systems subject to adversarial disturbances, linear regret implies asymptotic stability in both time-varying and time-invariant settings. Conversely, we also show that bounded input bounded state stability and summability of the state transition matrices imply linear regret.
翻訳日:2023-04-18 23:25:54 公開日:2023-04-15
# 物理的世界における視覚的な敵対的攻撃と防御--調査から

Visually Adversarial Attacks and Defenses in the Physical World: A Survey ( http://arxiv.org/abs/2211.01671v4 )

ライセンス: Link先を確認
Xingxing Wei, Bangzheng Pu, Jiefan Lu, and Baoyuan Wu(参考訳) ディープニューラルネットワーク(DNN)は様々な現実世界のシナリオで広く応用されているが、敵の例には弱い。 コンピュータビジョンにおける現在の敵攻撃は、それぞれの攻撃形態に応じてデジタル攻撃と物理的攻撃に分けられる。 デジタルピクセルの摂動を発生させるデジタルアタックと比較して、物理的なアタックは現実の世界でより実用的である。 物理的に敵対的な事例によって引き起こされる深刻なセキュリティ問題により、過去数年間のDNNの物理的敵対的堅牢性を評価するために多くの研究が提案されている。 本稿では,コンピュータビジョンにおける現在の物理的敵攻撃と物理的敵防御に対する調査を要約する。 分類の確立のために,攻撃タスク,攻撃形態,攻撃方法から,現在行われている物理的攻撃を整理する。 したがって、読者は異なる側面からこのトピックについて体系的な知識を得ることができる。 物理的防衛については,DNNモデルに対する前処理,内処理,後処理による分類を確立し,敵防衛を全面的に網羅する。 本稿では,本研究の課題と今後の展望について考察する。

Although Deep Neural Networks (DNNs) have been widely applied in various real-world scenarios, they are vulnerable to adversarial examples. The current adversarial attacks in computer vision can be divided into digital attacks and physical attacks according to their different attack forms. Compared with digital attacks, which generate perturbations in the digital pixels, physical attacks are more practical in the real world. Owing to the serious security problem caused by physically adversarial examples, many works have been proposed to evaluate the physically adversarial robustness of DNNs in the past years. In this paper, we summarize a survey versus the current physically adversarial attacks and physically adversarial defenses in computer vision. To establish a taxonomy, we organize the current physical attacks from attack tasks, attack forms, and attack methods, respectively. Thus, readers can have a systematic knowledge of this topic from different aspects. For the physical defenses, we establish the taxonomy from pre-processing, in-processing, and post-processing for the DNN models to achieve full coverage of the adversarial defenses. Based on the above survey, we finally discuss the challenges of this research field and further outlook on the future direction.
翻訳日:2023-04-18 23:24:26 公開日:2023-04-15
# 制御可能なアバターの再構成のための構造的3次元特徴

Structured 3D Features for Reconstructing Controllable Avatars ( http://arxiv.org/abs/2212.06820v3 )

ライセンス: Link先を確認
Enric Corona, Mihai Zanfir, Thiemo Alldieck, Eduard Gabriel Bazavan, Andrei Zanfir, Cristian Sminchisescu(参考訳) パラメトリックな統計的メッシュ表面からサンプリングされた高密度な3次元点に画素整列画像特徴をプールする,新しい暗黙の3次元表現に基づくモデルであるStructured 3D Featuresを紹介する。 3Dポイントは関連する意味を持ち、3D空間で自由に移動することができる。 これにより、身体の形状だけでなく、興味のある人物の最適なカバーが可能になり、さらにアクセサリー、髪、ゆるい衣服のモデリングにも役立ちます。 そこで本研究では,アルベドと照明分解を併用したアニマタブルな3次元再構成を,一方のエンド・ツー・エンドモデル,訓練された半教師付きセミプロセッサ,追加のポストプロセッシングを伴わない,完全な3次元トランスフォーマーベースのアテンション・フレームワークを提案する。 本研究では,S3Fモデルがモノクロ3D再構成やアルベド,シェーディング推定など,これまでの課題を超越していることを示す。 さらに,提案手法では,新しい視点合成,リライト,再構成が可能であり,複数の入力画像(例えば,人物の異なる視点,あるいは同じ視点を異なるポーズで,映像内で)を自然に処理できるように拡張できることを示す。 最後に,3次元仮想トライオンアプリケーションのためのモデルの編集機能を示す。

We introduce Structured 3D Features, a model based on a novel implicit 3D representation that pools pixel-aligned image features onto dense 3D points sampled from a parametric, statistical human mesh surface. The 3D points have associated semantics and can move freely in 3D space. This allows for optimal coverage of the person of interest, beyond just the body shape, which in turn, additionally helps modeling accessories, hair, and loose clothing. Owing to this, we present a complete 3D transformer-based attention framework which, given a single image of a person in an unconstrained pose, generates an animatable 3D reconstruction with albedo and illumination decomposition, as a result of a single end-to-end model, trained semi-supervised, and with no additional postprocessing. We show that our S3F model surpasses the previous state-of-the-art on various tasks, including monocular 3D reconstruction, as well as albedo and shading estimation. Moreover, we show that the proposed methodology allows novel view synthesis, relighting, and re-posing the reconstruction, and can naturally be extended to handle multiple input images (e.g. different views of a person, or the same view, in different poses, in video). Finally, we demonstrate the editing capabilities of our model for 3D virtual try-on applications.
翻訳日:2023-04-18 23:17:01 公開日:2023-04-15
# モデル拡張によるデータセット蒸留の促進

Accelerating Dataset Distillation via Model Augmentation ( http://arxiv.org/abs/2212.06152v2 )

ライセンス: Link先を確認
Lei Zhang, Jie Zhang, Bowen Lei, Subhabrata Mukherjee, Xiang Pan, Bo Zhao, Caiwen Ding, Yao Li, Dongkuan Xu(参考訳) 新たな分野であるDataset Distillation (DD)は、大規模なデータからはるかに小さくて効率的な合成トレーニングデータセットを生成することを目的としている。 勾配マッチングに基づく既存のDD手法は、先行性能を達成するが、数千のランダム初期化モデルの間でデータセットを継続的に最適化する必要があるため、非常に計算集約的である。 本稿では,多種多様なモデルを用いた合成データの学習が一般化性能の向上につながると仮定する。 そこで本研究では,初期モデルとパラメータ摂動を用いて,学習コストを大幅に削減した情報合成集合を学習する2つのモデル拡張手法を提案する。 実験により,本手法は20倍の高速化を実現し,最先端手法と同等の性能を示した。

Dataset Distillation (DD), a newly emerging field, aims at generating much smaller but efficient synthetic training datasets from large ones. Existing DD methods based on gradient matching achieve leading performance; however, they are extremely computationally intensive as they require continuously optimizing a dataset among thousands of randomly initialized models. In this paper, we assume that training the synthetic data with diverse models leads to better generalization performance. Thus we propose two model augmentation techniques, i.e. using early-stage models and parameter perturbation to learn an informative synthetic set with significantly reduced training cost. Extensive experiments demonstrate that our method achieves up to 20x speedup and comparable performance on par with state-of-the-art methods.
翻訳日:2023-04-18 23:16:37 公開日:2023-04-15
# リング交換系における密度波の異常緩和

Anomalous relaxation of density waves in a ring-exchange system ( http://arxiv.org/abs/2211.16788v2 )

ライセンス: Link先を確認
Pranay Patil, Markus Heyl, Fabien Alet(参考訳) 本稿では,2乗格子上でのリング交換モデルの確率的ダイナミクスによる速度低下の解析を数値シミュレーションにより行った。 密度波型の初期状態の粗粒度記憶を予期せぬ長時間保存することを発見した。 この挙動は平均場解を仮定して開発された低周波連続体理論の予測と矛盾しない。 動的活性領域の相関関数の詳細な解析を通じて, 初期状態に特徴のない方向に, 従来からある過渡的長周期構造が形成され, 融解が減速機構において重要な役割を担っていると主張している。 我々の結果は、ハードコアボソンの量子リング交換ダイナミクスや、より一般に双極子モーメント保存モデルにも関係していると期待する。

We present the analysis of the slowing down exhibited by stochastic dynamics of a ring-exchange model on a square lattice, by means of numerical simulations. We find the preservation of coarse-grained memory of initial state of density-wave types for unexpectedly long times. This behavior is inconsistent with the prediction from a low frequency continuum theory developed by assuming a mean-field solution. Through a detailed analysis of correlation functions of the dynamically active regions, we exhibit an unconventional transient long ranged structure formation in a direction which is featureless for the initial condition, and argue that its slow melting plays a crucial role in the slowing-down mechanism. We expect our results to be relevant also for the dynamics of quantum ring-exchange dynamics of hard-core bosons and more generally for dipole moment conserving models
翻訳日:2023-04-18 23:15:15 公開日:2023-04-15
# CT-LungNet : 3次元胸部CTスキャンにおける精密肺組織切開のためのディープラーニングフレームワーク

CT-LungNet: A Deep Learning Framework for Precise Lung Tissue Segmentation in 3D Thoracic CT Scans ( http://arxiv.org/abs/2212.13971v2 )

ライセンス: Link先を確認
Niloufar Delfan, Hamid Abrishami Moghaddam, Kimia Afshari, Kasra Nezamabadi, Mohamad Forouzanfa(参考訳) ct画像における肺組織の分節化は、ほとんどの肺画像解析応用の前駆体である。 近年, 深層学習を用いたセマンティックセグメンテーション手法は, 形状, サイズ, 方向の相違により, 肺組織に対する高精度で堅牢なセグメンテーションモデルを設計することは困難である。 さらに、医用画像アーティファクトやノイズは肺組織セグメンテーションに影響を与え、下流分析の精度を低下させる。 現在の肺組織分割のための深層学習法の実用性は、重要な計算資源を必要とし、臨床環境では容易に展開できないため限られている。 本稿では,深層ネットワークとトランスファーラーニングを用いて3次元肺ct画像中の肺を完全自動識別する手法を提案する。 本稿では,(1)容積情報を簡潔に表現する連続CTスライスからの新しい2.5次元画像表現,(2)学習可能なパラメータの数を極力低く保ちながら,事前学習したInceptionV3ブロックを備えたU-Netアーキテクチャを提案する。 VESSEL12とCRPFの2つの公開データセットとトレーニングとテストのために,LUNA16という1つの公開データセットを用いて定量的に評価した。 学習可能なパラメータの少なさから,luna16よりも優れた性能(各luna16, vessel12, crpfデータセットに対して,それぞれ99.7, 99.1, 98.8のdice係数)を得るとともに,luna16よりも高い汎用性を達成した。 我々はこの手法を medvispy.ee.kntu.ac.ir のグラフィカルユーザインタフェースを通じて一般公開した。

Segmentation of lung tissue in computed tomography (CT) images is a precursor to most pulmonary image analysis applications. Semantic segmentation methods using deep learning have exhibited top-tier performance in recent years, however designing accurate and robust segmentation models for lung tissue is challenging due to the variations in shape, size, and orientation. Additionally, medical image artifacts and noise can affect lung tissue segmentation and degrade the accuracy of downstream analysis. The practicality of current deep learning methods for lung tissue segmentation is limited as they require significant computational resources and may not be easily deployable in clinical settings. This paper presents a fully automatic method that identifies the lungs in three-dimensional (3D) pulmonary CT images using deep networks and transfer learning. We introduce (1) a novel 2.5-dimensional image representation from consecutive CT slices that succinctly represents volumetric information and (2) a U-Net architecture equipped with pre-trained InceptionV3 blocks to segment 3D CT scans while maintaining the number of learnable parameters as low as possible. Our method was quantitatively assessed using one public dataset, LUNA16, for training and testing and two public datasets, namely, VESSEL12 and CRPF, only for testing. Due to the low number of learnable parameters, our method achieved high generalizability to the unseen VESSEL12 and CRPF datasets while obtaining superior performance over Luna16 compared to existing methods (Dice coefficients of 99.7, 99.1, and 98.8 over LUNA16, VESSEL12, and CRPF datasets, respectively). We made our method publicly accessible via a graphical user interface at medvispy.ee.kntu.ac.ir.
翻訳日:2023-04-18 21:32:06 公開日:2023-04-15
# マルチレーン検出

Multi Lane Detection ( http://arxiv.org/abs/2212.11533v4 )

ライセンス: Link先を確認
Fei Wu and Luoyu Chen(参考訳) 車線検出は長年の課題であり、自動運転の基本モジュールである。 課題は、現在の運転道路の車線を検知し、ID、方向、曲率、幅、長さなどの関連情報と視覚化を提供することである。 我々の研究は、CNNのバックボーンDLA-34とアフィニティ・フィールズ(Affinity Fields)をベースとし、車線数を仮定することなく、様々な車線を頑健に検出することを目的としている。 さらに,より効率的な車線検出アルゴリズムを実現するための新しい復号法について検討する。

Lane detection is a long-standing task and a basic module in autonomous driving. The task is to detect the lane of the current driving road, and provide relevant information such as the ID, direction, curvature, width, length, with visualization. Our work is based on CNN backbone DLA-34, along with Affinity Fields, aims to achieve robust detection of various lanes without assuming the number of lanes. Besides, we investigate novel decoding methods to achieve more efficient lane detection algorithm.
翻訳日:2023-04-18 21:30:57 公開日:2023-04-15
# 複合ドメイン知識管理による動的世界のテスト時間適応

Test-time Adaptation in the Dynamic World with Compound Domain Knowledge Management ( http://arxiv.org/abs/2212.08356v3 )

ライセンス: Link先を確認
Junha Song, Kwanyong Park, InKyu Shin, Sanghyun Woo, Chaoning Zhang, and In So Kweon(参考訳) ロボットシステムの導入に先立ち、すべての潜在的な視覚ケースでディープラーニングモデルを事前トレーニングすることは、実際には不可能である。 したがって、テスト時間適応(TTA)により、モデルは新しい環境に適応し、テスト時間(すなわち寿命適応)におけるパフォーマンスを向上させることができる。 TTAのいくつかの研究は、継続的に変化する環境において有望な適応性能を示している。 しかし,本研究では,既存の手法は動的分布変化に対して脆弱であり,TTAモデルの過度な適合につながることが判明した。 この問題に対処するために,本稿ではまず,複雑なドメイン知識管理を備えた堅牢なTTAフレームワークを提案する。 我々のフレームワークは、TTAモデルが複数の代表ドメイン(複合ドメイン)の知識を収集し、複合ドメインの知識に基づいてTTAを実行するのに役立ちます。 さらに,ttaモデルの過剰適合を防止するため,ソースと現在のターゲット領域のドメイン類似性を用いて適応率を変調する新しい正規化法を考案する。 提案するフレームワークと正規化の相乗効果により,様々なttaシナリオ,特に動的ドメインシフトにおいて一貫した性能改善を実現する。 我々は、ImageNet-Cの画像分類や、GTA5のセマンティックセマンティックセグメンテーション、Cドライブ、Cityscapesデータセットの破損など、幅広い実験を通じて提案の一般化を実証する。

Prior to the deployment of robotic systems, pre-training the deep-recognition models on all potential visual cases is infeasible in practice. Hence, test-time adaptation (TTA) allows the model to adapt itself to novel environments and improve its performance during test time (i.e., lifelong adaptation). Several works for TTA have shown promising adaptation performances in continuously changing environments. However, our investigation reveals that existing methods are vulnerable to dynamic distributional changes and often lead to overfitting of TTA models. To address this problem, this paper first presents a robust TTA framework with compound domain knowledge management. Our framework helps the TTA model to harvest the knowledge of multiple representative domains (i.e., compound domain) and conduct the TTA based on the compound domain knowledge. In addition, to prevent overfitting of the TTA model, we devise novel regularization which modulates the adaptation rates using domain-similarity between the source and the current target domain. With the synergy of the proposed framework and regularization, we achieve consistent performance improvements in diverse TTA scenarios, especially on dynamic domain shifts. We demonstrate the generality of proposals via extensive experiments including image classification on ImageNet-C and semantic segmentation on GTA5, C-driving, and corrupted Cityscapes datasets.
翻訳日:2023-04-18 21:29:53 公開日:2023-04-15
# スライス最適部分輸送

Sliced Optimal Partial Transport ( http://arxiv.org/abs/2212.08049v7 )

ライセンス: Link先を確認
Yikun Bai and Bernard Schmitzer and Mathew Thorpe and Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、データサイエンス、コンピュータビジョンにおいて非常に人気がある。 OT問題における中核的な仮定は、ソースおよびターゲット測度における質量の等しい総量であり、その応用を制限する。 最適部分輸送(OPT)はこの制限に対する最近提案された解決策である。 OT問題と同様に、OPTの計算は線形プログラミング問題(しばしば高次元)の解法に依存しており、計算的に禁止される。 本稿では,2つの非負測度間のオプト問題を1次元で計算する効率的なアルゴリズムを提案する。 次に、スライスされたOT距離のアイデアに従い、スライスされたOPT距離を定義するためにスライスを利用する。 最後に、様々な数値実験において、スライスされたOPT法による計算と精度の利点を示す。 特に,提案するスライテッドOPTのノイズ点クラウド登録への応用について述べる。

Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
翻訳日:2023-04-18 21:29:30 公開日:2023-04-15
# VaxxHesitancy:Twitter上でのCOVID-19ワクチン接種を調査するデータセット

VaxxHesitancy: A Dataset for Studying Hesitancy towards COVID-19 Vaccination on Twitter ( http://arxiv.org/abs/2301.06660v4 )

ライセンス: Link先を確認
Yida Mu, Mali Jin, Charlie Grimshaw, Carolina Scarton, Kalina Bontcheva, Xingyi Song(参考訳) おそらくワクチンが作られ、ソーシャルメディアの普及とともに、人々は予防接種や反ワクチンコンテンツを投稿する人たちと並んで、オンラインでワクチンに関する懸念を表明し始めたためである。 新型コロナウイルス(COVID-19)ワクチンの最初の言及以来、ソーシャルメディアのユーザーは、彼らの恐怖や懸念や、これらの急速に発展するワクチンの有効性に対する支持や信念について投稿してきた。 ワクチン接種拡大を目標に、住民により良い情報提供を行うための行動を開発する必要がある政策マーカーにとって、新型コロナウイルスワクチンに対する公衆の執着の背景にある理由を特定・理解することが重要である。 ワクチンの急速な発展が反vaxx情報の成長に密接に反映された新型コロナウイルスの場合、予防接種に対する市民の態度を検出する自動的な手段が必要となった。 これは、目の前の現象を深く理解するためにデータ分析を必要とする重要な計算社会科学タスクである。 注釈付きデータは、予防接種に対する態度をより微妙な分析のためにデータ駆動モデルの訓練にも必要である。 この目的のために、新型コロナウイルス(covid-19)予防接種(stance)に対するユーザーの態度にアノテートされた3,101以上のツイートのコレクションを作成しました。 また,ドメイン固有言語モデル(VaxxBERT)を開発し,ベースラインの頑健なセットと比較して,最高の予測性能(73.0精度,69.3F1スコア)を実現する。 私たちの知る限りでは、ワクチンのヘシタシーを、予防的および抗ワクチン的スタンスとは異なるカテゴリとしてモデル化する最初のデータセットとモデルです。

Vaccine hesitancy has been a common concern, probably since vaccines were created and, with the popularisation of social media, people started to express their concerns about vaccines online alongside those posting pro- and anti-vaccine content. Predictably, since the first mentions of a COVID-19 vaccine, social media users posted about their fears and concerns or about their support and belief into the effectiveness of these rapidly developing vaccines. Identifying and understanding the reasons behind public hesitancy towards COVID-19 vaccines is important for policy markers that need to develop actions to better inform the population with the aim of increasing vaccine take-up. In the case of COVID-19, where the fast development of the vaccines was mirrored closely by growth in anti-vaxx disinformation, automatic means of detecting citizen attitudes towards vaccination became necessary. This is an important computational social sciences task that requires data analysis in order to gain in-depth understanding of the phenomena at hand. Annotated data is also necessary for training data-driven models for more nuanced analysis of attitudes towards vaccination. To this end, we created a new collection of over 3,101 tweets annotated with users' attitudes towards COVID-19 vaccination (stance). Besides, we also develop a domain-specific language model (VaxxBERT) that achieves the best predictive performance (73.0 accuracy and 69.3 F1-score) as compared to a robust set of baselines. To the best of our knowledge, these are the first dataset and model that model vaccine hesitancy as a category distinct from pro- and anti-vaccine stance.
翻訳日:2023-04-18 21:22:31 公開日:2023-04-15
# 非一様磁場における宇宙線レインボー重力時空におけるPDMKG振動子

PDM KG-oscillators in cosmic string rainbow gravity spacetime in a non-uniform magnetic field ( http://arxiv.org/abs/2301.05464v3 )

ライセンス: Link先を確認
Omar Mustafa(参考訳) 非一様磁場中の宇宙弦レインボー時空における位置依存質量(pdm)クラインゴルドン(kg)粒子について考察する。 対応するkg方程式は二次元放射状schr\"{o}dinger-oscillator様方程式(kg-oscillator)の1次元形式に還元される。 まず, 一定質量のKGオシレータのエネルギーレベルに及ぼすレインボー重力の影響について報告する。 次に、インタラクションのようなKGオシレータを導入するために、PDM設定を含める。 また,宇宙ストリングレインボー重力時空におけるKGオシレータのスペクトルに及ぼすPDMの影響も報告した。 いずれの場合も4対の虹関数が考慮される。 (a) $% g_{_{0}}\left(y\right) =1$, $g_{_{1}}\left(y\right) =\sqrt{1-\epsilon y^{2}% }$, である。 (b) $g_{_{0}}\left(y\right) =1$, $g_{_{1}}\left(y\right) =\sqrt{% 1-\epsilon y}$, である。 (c) $g_{_{0}}\left( y\right) =g_{_{1}}\left( y\right) =\left( 1-\epsilon y\right) ^{-1}$, and (d) $g_{_{0}}\left( y\right) =\left(e^{\epsilon y}-1\right) /\epsilon y$, $g_{_{1}}\left( y\right) =1$, ここで $y=E/E_p$ と $\epsilon$ はレインボーパラメータである。 kg粒子が点にある限り、レインボー関数はペアインしていると報告します。 (a) プランクエネルギーがkg粒子が持つ可能性のある最大エネルギーであることを強調する唯一のペアである。

We consider position-dependent mass (PDM) Klein-Gordon (KG) particles in cosmic string rainbow gravity spacetime in a non-uniform magnetic field. The corresponding KG-equation is reduced into the one-dimensional form of the two-dimensional radial Schr\"{o}dinger-oscillator like equation (hence the notion KG-oscillator). We first report on the effects of rainbow gravity on the energy levels of KG-oscillators with constant mass. Next, we include the PDM settings so that KG-oscillators like interaction are introduced. The effects of PDM on the spectra of KG-oscillators in cosmic string rainbow gravity spacetime are also reported. In both cases four pairs of rainbow functions are considered: (a) $% g_{_{0}}\left( y\right) =1$, $g_{_{1}}\left( y\right) =\sqrt{1-\epsilon y^{2}% }$, (b) $g_{_{0}}\left( y\right) =1$, $g_{_{1}}\left( y\right) =\sqrt{% 1-\epsilon y}$, (c) $g_{_{0}}\left( y\right) =g_{_{1}}\left( y\right) =\left( 1-\epsilon y\right) ^{-1}$, and (d) $g_{_{0}}\left( y\right) =\left( e^{\epsilon y}-1\right) /\epsilon y$, $g_{_{1}}\left( y\right) =1$, where $y=E/E_p$ and $\epsilon$ is the rainbow parameter. We report that, as long as KG-particles are in point, the rainbow functions pair in (a) is the only pair to emphasis that the Planck energy is the maximum possible energy the KG-particles may have.
翻訳日:2023-04-18 21:22:07 公開日:2023-04-15
# vision transformerを用いた単回自己教師付き分散学習

Single-round Self-supervised Distributed Learning using Vision Transformer ( http://arxiv.org/abs/2301.02064v3 )

ライセンス: Link先を確認
Sangjoon Park, Ik-Jae Lee, Jun Won Kim, Jong Chul Ye(参考訳) 医学分野でのディープラーニングの成功にもかかわらず、データの不足はプライバシとデータオーナシップに関する懸念によって悪化している。 これらの問題に対処するために、連合学習を含む分散学習アプローチが研究されている。 しかし、プライバシー保護における面倒な通信オーバーヘッドと弱点の必要性によって、それらは妨げられている。 そこで本研究では,視覚トランスフォーマーの自己教師ありマスキングサンプリング蒸留法を提案する。 この方法は連続的な通信なしに実装でき、視覚変換器固有の暗号化技術を利用することでプライバシーを向上させることができる。 提案手法の有効性を実証した2つのタスクについて広範な実験を行った。 既存の分散学習戦略や微調整のみのベースラインよりも優れたパフォーマンスを達成しました。 さらに,提案手法を用いて作成した自己教師型モデルにより画像の一般的な意味理解が達成できるため,様々な下流タスクに対するタスクに依存しない自己教師型基盤モデルとしての可能性を示す。

Despite the recent success of deep learning in the field of medicine, the issue of data scarcity is exacerbated by concerns about privacy and data ownership. Distributed learning approaches, including federated learning, have been investigated to address these issues. However, they are hindered by the need for cumbersome communication overheads and weaknesses in privacy protection. To tackle these challenges, we propose a self-supervised masked sampling distillation method for the vision transformer. This method can be implemented without continuous communication and can enhance privacy by utilizing a vision transformer-specific encryption technique. We conducted extensive experiments on two different tasks, which demonstrated the effectiveness of our method. We achieved superior performance compared to the existing distributed learning strategy as well as the fine-tuning only baseline. Furthermore, since the self-supervised model created using our proposed method can achieve a general semantic understanding of the image, we demonstrate its potential as a task-agnostic self-supervised foundation model for various downstream tasks, thereby expanding its applicability in the medical domain.
翻訳日:2023-04-18 21:20:52 公開日:2023-04-15
# 対向ロバストネスのための決定境界ダイナミクスの探索と爆発

Exploring and Exploiting Decision Boundary Dynamics for Adversarial Robustness ( http://arxiv.org/abs/2302.03015v2 )

ライセンス: Link先を確認
Yuancheng Xu, Yanchao Sun, Micah Goldblum, Tom Goldstein, Furong Huang(参考訳) 深い分類器のロバスト性は、決定境界から自然のデータ点までの距離のマージンによって特徴づけられる。 しかし、既存の頑健な訓練手法が訓練中の各弱点点のマージンを効果的に増加させるかどうかは不明である。 これを理解するために,各点に対する決定境界の相対速度を定量化する連続時間フレームワークを提案する。 敵の訓練下での意思決定境界の移動速度を可視化することで、最も効果的なロバストなトレーニングアルゴリズムの1つとして、決定境界はいくつかの脆弱な点から離れ、同時に他の点に近づいたり、マージンを減少させたり、驚くべき移動行動が明らかにされる。 決定境界のこれらの矛盾するダイナミクスを緩和するため、より小さなマージンの増大を優先する運動に決定境界が関与することを奨励するDynamics-Aware Robust Training (DyART)を提案する。 従来の作業とは対照的に、DyARTは間接的な近似よりもマージンを直接操作し、より標的的で効果的な堅牢性の改善を可能にする。 CIFAR-10とTiny-ImageNetデータセットの実験では、DyARTは決定境界の矛盾するダイナミクスを緩和し、最先端の防御よりも様々な摂動サイズで堅牢性を向上させる。 私たちのコードはhttps://github.com/Yuancheng-Xu/Dynamics-Aware-Robust-Trainingで公開しています。

The robustness of a deep classifier can be characterized by its margins: the decision boundary's distances to natural data points. However, it is unclear whether existing robust training methods effectively increase the margin for each vulnerable point during training. To understand this, we propose a continuous-time framework for quantifying the relative speed of the decision boundary with respect to each individual point. Through visualizing the moving speed of the decision boundary under Adversarial Training, one of the most effective robust training algorithms, a surprising moving-behavior is revealed: the decision boundary moves away from some vulnerable points but simultaneously moves closer to others, decreasing their margins. To alleviate these conflicting dynamics of the decision boundary, we propose Dynamics-aware Robust Training (DyART), which encourages the decision boundary to engage in movement that prioritizes increasing smaller margins. In contrast to prior works, DyART directly operates on the margins rather than their indirect approximations, allowing for more targeted and effective robustness improvement. Experiments on the CIFAR-10 and Tiny-ImageNet datasets verify that DyART alleviates the conflicting dynamics of the decision boundary and obtains improved robustness under various perturbation sizes compared to the state-of-the-art defenses. Our code is available at https://github.com/Yuancheng-Xu/Dynamics-Aware-Robust-Training.
翻訳日:2023-04-18 21:13:32 公開日:2023-04-15
# オフライン・オンライン強化学習のための政策拡張

Policy Expansion for Bridging Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2302.00935v3 )

ライセンス: Link先を確認
Haichao Zhang, We Xu, Haonan Yu(参考訳) オフラインデータによる事前学習と強化学習を用いたオンライン微調整は、サンプル効率と性能の観点から両世界の最善を生かして制御政策を学ぶ上で有望な戦略である。 1つの自然なアプローチは、オンライン学習のポリシーをトレーニングされたオフラインで初期化することだ。 本稿では,この課題に対する政策拡張スキームを紹介する。 オフラインポリシーを学んだ後、ポリシーセットでひとつの候補ポリシーとして使用します。 そして、そのポリシーセットを、さらなる学習に責任を持つ別のポリシーで拡張します。 2つのポリシーは、環境と対話するための適応的な方法で構成されます。 このアプローチでは、以前に学習したオフラインポリシがオンライン学習中に完全に保持されるため、オンライン学習の初期段階におけるオフラインポリシの有用な動作の破棄や、オフラインポリシが自然に探索に適応的に参加することといった潜在的な問題を軽減できる。 さらに、新たな有用な行動は、学習を通じて新たに追加されたポリシーによって捉えられる可能性がある。 様々な課題に対して実験を行い,提案手法の有効性を実証した。

Pre-training with offline data and online fine-tuning using reinforcement learning is a promising strategy for learning control policies by leveraging the best of both worlds in terms of sample efficiency and performance. One natural approach is to initialize the policy for online learning with the one trained offline. In this work, we introduce a policy expansion scheme for this task. After learning the offline policy, we use it as one candidate policy in a policy set. We then expand the policy set with another policy which will be responsible for further learning. The two policies will be composed in an adaptive manner for interacting with the environment. With this approach, the policy previously learned offline is fully retained during online learning, thus mitigating the potential issues such as destroying the useful behaviors of the offline policy in the initial stage of online learning while allowing the offline policy participate in the exploration naturally in an adaptive manner. Moreover, new useful behaviors can potentially be captured by the newly added policy through learning. Experiments are conducted on a number of tasks and the results demonstrate the effectiveness of the proposed approach.
翻訳日:2023-04-18 21:12:18 公開日:2023-04-15
# 量子ナノ構造シミュレーションのための第一原理からの物理インフォームド還元次学習

Physics-informed Reduced-Order Learning from the First Principles for Simulation of Quantum Nanostructures ( http://arxiv.org/abs/2302.00100v2 )

ライセンス: Link先を確認
Martin Veresko and Ming-Cheng Cheng(参考訳) Schr\\odinger方程式の多次元直接数値シミュレーション(DNS)は、生物学、医学、材料、電子・フォトニックデバイスなどの多くの応用を提供する量子ナノ構造の設計と解析に必要である。 大規模なナノ構造では、DNSに必要な広範な計算作業は、高い自由度(DoF)のために禁止される可能性がある。 本研究は,シュル=オディンガー方程式のシミュレーションを第一原理により実現し,高い精度と効率を達成するための低次学習アルゴリズムを用いる。 提案手法は,2つの量子ドット構造の研究に応用され,一方は外部電界下で動作し,他方は周期的境界条件による内部電位変動の影響を受けている。 前者はナノエレクトロニクスデバイスの典型的な操作に似ており、後者は密度汎関数理論の応用など、ナノ構造や材料のシミュレーションと設計に興味がある。 提案手法を用いることで,DNSと比較してDoFを3桁以上削減し,計算時間を2桁以上削減することで,高精度な予測が可能となる。 提案した物理インフォームドラーニング手法は、トレーニング条件を超えて、より高い外部場と未学習量子状態の内部ポテンシャルを含む正確な予測を提供することもできる。

Multi-dimensional direct numerical simulation (DNS) of the Schr\"odinger equation is needed for design and analysis of quantum nanostructures that offer numerous applications in biology, medicine, materials, electronic/photonic devices, etc. In large-scale nanostructures, extensive computational effort needed in DNS may become prohibitive due to the high degrees of freedom (DoF). This study employs a reduced-order learning algorithm, enabled by the first principles, for simulation of the Schr\"odinger equation to achieve high accuracy and efficiency. The proposed simulation methodology is applied to investigate two quantum-dot structures; one operates under external electric field, and the other is influenced by internal potential variation with periodic boundary conditions. The former is similar to typical operations of nanoelectronic devices, and the latter is of interest to simulation and design of nanostructures and materials, such as applications of density functional theory. Using the proposed methodology, a very accurate prediction can be realized with a reduction in the DoF by more than 3 orders of magnitude and in the computational time by 2 orders, compared to DNS. The proposed physics-informed learning methodology is also able to offer an accurate prediction beyond the training conditions, including higher external field and larger internal potential in untrained quantum states.
翻訳日:2023-04-18 21:12:02 公開日:2023-04-15
# 時系列からの因果構造学習:凸最適化アプローチ

Causal Structural Learning from Time Series: A Convex Optimization Approach ( http://arxiv.org/abs/2301.11336v2 )

ライセンス: Link先を確認
Song Wei, Yao Xie(参考訳) 観測データから有向非循環グラフ(dag)を学ぶことを目的とした構造学習は、因果推論と科学的発見の基盤である。 近年、構造学習を連続最適化問題に定式化しているが、DAG学習は依然として非凸問題であり、因果構造学習によく発達した凸最適化技術を活用する研究はあまり行われていない。 このギャップを補うために、時系列データから因果構造学習のためのデータ適応線形アプローチを提案し、最近開発された単調演算子変分不等式(VI)を用いて凸最適化問題に都合よく打ち込むことができる。 さらに,viベースアプローチの非漸近的回復保証を確立し,提案手法が既存の手法よりも優れた性能を示す。

Structural learning, which aims to learn directed acyclic graphs (DAGs) from observational data, is foundational to causal reasoning and scientific discovery. Recent advancements formulate structural learning into a continuous optimization problem; however, DAG learning remains a highly non-convex problem, and there has not been much work on leveraging well-developed convex optimization techniques for causal structural learning. We fill this gap by proposing a data-adaptive linear approach for causal structural learning from time series data, which can be conveniently cast into a convex optimization problem using a recently developed monotone operator variational inequality (VI) formulation. Furthermore, we establish non-asymptotic recovery guarantee of the VI-based approach and show the superior performance of our proposed method on structure recovery over existing methods via extensive numerical experiments.
翻訳日:2023-04-18 21:11:03 公開日:2023-04-15
# CADIS:クラスタ化集約と知識分散正規化によるフェデレーション学習におけるクラスタスキュー非IIDデータの扱い

CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with Clustered Aggregation and Knowledge DIStilled Regularization ( http://arxiv.org/abs/2302.10413v3 )

ライセンス: Link先を確認
Nang Hung Nguyen, Duc Long Nguyen, Trong Bang Nguyen, Thanh-Hung Nguyen, Huy Hieu Pham, Truong Thao Nguyen, Phi Le Nguyen(参考訳) フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。 コンピューティング効率とプライバシ保護において卓越した優位性を実現したにもかかわらず、フェデレーション学習は、非iidデータ、すなわち、通常独立で分散していないクライアントによって生成されるデータを扱う場合、大きな課題に直面している。 本稿では,クラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに対処する。 クラスタスキュード非IIDは、クライアントが同様のデータ分散を持つクラスタにグループ化できる現象である。 分類モデルのペナルティファイト層の挙動を詳細に分析することにより、プライバシに違反することなく、2つのクライアントのデータ分散間の類似性を定量化するメトリクスを導入する。 次に,クラスタ間の平等性を保証する集約スキームを提案する。 さらに,クライアントの過度な適合問題を減らし,トレーニングスキームの性能を劇的に向上させる知識蒸留技術に基づく,新たなローカルトレーニングレギュラー化を提供する。 ベンチマークfedavgよりも,提案手法が優れていることを理論的に証明する。 標準パブリックデータセットと実世界データセットの両方の広範な実験結果から,fedavgアルゴリズムと比較して,提案手法が精度を最大16%向上することが示された。

Federated learning enables edge devices to train a global model collaboratively without exposing their data. Despite achieving outstanding advantages in computing efficiency and privacy protection, federated learning faces a significant challenge when dealing with non-IID data, i.e., data generated by clients that are typically not independent and identically distributed. In this paper, we tackle a new type of Non-IID data, called cluster-skewed non-IID, discovered in actual data sets. The cluster-skewed non-IID is a phenomenon in which clients can be grouped into clusters with similar data distributions. By performing an in-depth analysis of the behavior of a classification model's penultimate layer, we introduce a metric that quantifies the similarity between two clients' data distributions without violating their privacy. We then propose an aggregation scheme that guarantees equality between clusters. In addition, we offer a novel local training regularization based on the knowledge-distillation technique that reduces the overfitting problem at clients and dramatically boosts the training scheme's performance. We theoretically prove the superiority of the proposed aggregation over the benchmark FedAvg. Extensive experimental results on both standard public datasets and our in-house real-world dataset demonstrate that the proposed approach improves accuracy by up to 16% compared to the FedAvg algorithm.
翻訳日:2023-04-18 21:04:27 公開日:2023-04-15
# 意味的不確かさ:自然言語生成における不確かさ推定のための言語的不変性

Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation ( http://arxiv.org/abs/2302.09664v3 )

ライセンス: Link先を確認
Lorenz Kuhn, Yarin Gal, Sebastian Farquhar(参考訳) 大規模言語モデルにおける不確実性を測定する手法を提案する。 質問応答のようなタスクでは、基礎モデルの自然言語出力をいつ信頼できるかを知ることが不可欠である。 自然言語における不確実性を測定することは「意味的同値性」によって困難であることが示され、異なる文が同じ意味を持つ可能性がある。これらの課題を克服するためには、共通意味によって生成された言語的不変性を組み込んだ意味的エントロピーを導入する。 本手法は教師なしで,単一のモデルのみを使用し,既製の言語モデルの変更は不要である。 包括的アブレーション研究において,semantic entropyは,質問応答データセットにおけるモデルの精度を,同等のベースラインよりも予測できることを示した。

We introduce a method to measure uncertainty in large language models. For tasks like question answering, it is essential to know when we can trust the natural language outputs of foundation models. We show that measuring uncertainty in natural language is challenging because of "semantic equivalence" -- different sentences can mean the same thing. To overcome these challenges we introduce semantic entropy -- an entropy which incorporates linguistic invariances created by shared meanings. Our method is unsupervised, uses only a single model, and requires no modifications to off-the-shelf language models. In comprehensive ablation studies we show that the semantic entropy is more predictive of model accuracy on question answering data sets than comparable baselines.
翻訳日:2023-04-18 21:03:46 公開日:2023-04-15
# XploreNAS:非理想的Xbarのための逆ロバストでハードウェア効率の良いニューラルネットワーク

XploreNAS: Explore Adversarially Robust & Hardware-efficient Neural Architectures for Non-ideal Xbars ( http://arxiv.org/abs/2302.07769v2 )

ライセンス: Link先を確認
Abhiroop Bhattacharjee, Abhishek Moitra, and Priyadarshini Panda(参考訳) メムリシティブクロスバーのような計算インメモリプラットフォームは、高い領域と計算効率でディープニューラルネットワーク(DNN)の加速を促進することで注目されている。 しかし、クロスバーにおける計算の類似性に関連する本質的な非理想性は、デプロイされたDNNの性能を制限している。 さらに、DNNは敵の攻撃に弱いことが示され、大規模な展開において深刻なセキュリティ上の脅威が生じる。 したがって、非理想のクロスバーに対して逆向きに堅牢なDNNアーキテクチャを見つけることは、エッジ上でのDNNの安全かつセキュアなデプロイに不可欠である。 この研究はXploreNASと呼ばれる二相アルゴリズム-ハードウェア共最適化アプローチを提案し、非理想的クロスバープラットフォームのためのハードウェア効率と対角的堅牢なニューラルネットワークアーキテクチャを探索する。 我々はone-shot neural architecture search (nas) アプローチを用いて,クロスバー認識とサンプルロバストなサブネットを用いた大規模スーパーネットのトレーニングを行い,ハードウェア効率の競争力を維持した。 ベンチマークデータセット(svhn、cifar10、cifar100)を用いたクロスバー実験では、クロスバー対応の対向学習を受けたベースラインresnet-18モデルに対する検索サブネットの対向ロバスト性が8-16%向上した。 我々は,neurosimツールを用いたエネルギデレーエリア製品(edaps)のためのロバストなサブネットのベンチマークを行い,ハードウェア効率による最適化により,resnet-18ベースラインよりも1.5~1.6倍低いedapが得られることを確認した。

Compute In-Memory platforms such as memristive crossbars are gaining focus as they facilitate acceleration of Deep Neural Networks (DNNs) with high area and compute-efficiencies. However, the intrinsic non-idealities associated with the analog nature of computing in crossbars limits the performance of the deployed DNNs. Furthermore, DNNs are shown to be vulnerable to adversarial attacks leading to severe security threats in their large-scale deployment. Thus, finding adversarially robust DNN architectures for non-ideal crossbars is critical to the safe and secure deployment of DNNs on the edge. This work proposes a two-phase algorithm-hardware co-optimization approach called XploreNAS that searches for hardware-efficient & adversarially robust neural architectures for non-ideal crossbar platforms. We use the one-shot Neural Architecture Search (NAS) approach to train a large Supernet with crossbar-awareness and sample adversarially robust Subnets therefrom, maintaining competitive hardware-efficiency. Our experiments on crossbars with benchmark datasets (SVHN, CIFAR10 & CIFAR100) show upto ~8-16% improvement in the adversarial robustness of the searched Subnets against a baseline ResNet-18 model subjected to crossbar-aware adversarial training. We benchmark our robust Subnets for Energy-Delay-Area-Products (EDAPs) using the Neurosim tool and find that with additional hardware-efficiency driven optimizations, the Subnets attain ~1.5-1.6x lower EDAPs than ResNet-18 baseline.
翻訳日:2023-04-18 21:03:03 公開日:2023-04-15
# 知識強化セマンティック通信受信機

Knowledge Enhanced Semantic Communication Receiver ( http://arxiv.org/abs/2302.07727v2 )

ライセンス: Link先を確認
Bingyan Wang, Rongpeng Li, Jianhang Zhu, Zhifeng Zhao, and Honggang Zhang(参考訳) 近年,ディープラーニングや自然言語処理技術の急速な発展に伴い,セマンティックコミュニケーションはコミュニケーション分野への関心が高まりつつある。 既存のディープラーニングベースのセマンティックコミュニケーションアプローチは、多くの利点を示してきたが、まだ事前知識を十分に活用していない。 また,既存の意味的通信手法では送信側における意味的符号化に重点を置いているが,受信側の意味的復号化も考慮すべきである。 本稿では,トランスミッター側のニューラルネットワークの構造ではなく,パラメータにのみ影響を及ぼすことに基づいて,知識ベースにおける事実をより積極的に利用し,意味推論や復号を行う知識強化意味コミュニケーションフレームワークを提案する。 具体的には、受信した雑音信号に関連性のある事実三重項を求めるための変圧器に基づく知識抽出器を設計する。 webnlgデータセットの広範なシミュレーション結果から,提案する受信機は,知識グラフのエンハンスドデコード上で優れた性能をもたらすことが示された。

In recent years, with the rapid development of deep learning and natural language processing technologies, semantic communication has become a topic of great interest in the field of communication. Although existing deep learning-based semantic communication approaches have shown many advantages, they still do not make sufficient use of prior knowledge. Moreover, most existing semantic communication methods focus on the semantic encoding at the transmitter side, while we believe that the semantic decoding capability of the receiver should also be concerned. In this paper, we propose a knowledge enhanced semantic communication framework in which the receiver can more actively utilize the facts in the knowledge base for semantic reasoning and decoding, on the basis of only affecting the parameters rather than the structure of the neural networks at the transmitter side. Specifically, we design a transformer-based knowledge extractor to find relevant factual triples for the received noisy signal. Extensive simulation results on the WebNLG dataset demonstrate that the proposed receiver yields superior performance on top of the knowledge graph enhanced decoding.
翻訳日:2023-04-18 21:02:34 公開日:2023-04-15
# マルチモーダルビジョンの監督は言語に有益か?

Is Multimodal Vision Supervision Beneficial to Language? ( http://arxiv.org/abs/2302.05016v2 )

ライセンス: Link先を確認
Avinash Madasu, Vasudev Lal(参考訳) vision (image and video) - 言語(vl) 事前トレーニングは、イメージリトライ、ビデオリトライ、ビジュアル質問応答など、マルチモーダルタスクの最先端結果を達成する、最近の一般的なパラダイムである。 これらのモデルは教師なしの方法で訓練され、相補的なモダリティ監督の恩恵を受ける。 本稿では,視覚指導を用いて訓練された言語表現が,自然言語理解や常識推論のベンチマークにおいて,バニラ言語表現よりも優れているかを検討する。 本研究では,ALBEF,BLIP,METER,ALPRO,Frozen-in-Time (FiT),VIOLETといった多様な画像テキストモデルの実験を行った。 これらのモデルのスタンドアロンテキストエンコーダの言語表現の性能と,視覚監視により学習したテキストエンコーダの言語表現の比較を行った。 我々の実験は、バニラ言語表現がほとんどのタスクにおいて優れたパフォーマンスを示すことを示唆している。 これらの結果は、視覚言語モデルの現在の欠点に光を当てた。

Vision (image and video) - Language (VL) pre-training is the recent popular paradigm that achieved state-of-the-art results on multi-modal tasks like image-retrieval, video-retrieval, visual question answering etc. These models are trained in an unsupervised way and greatly benefit from the complementary modality supervision. In this paper, we explore if the language representations trained using vision supervision perform better than vanilla language representations on Natural Language Understanding and commonsense reasoning benchmarks. We experiment with a diverse set of image-text models such as ALBEF, BLIP, METER and video-text models like ALPRO, Frozen-in-Time (FiT), VIOLET. We compare the performance of language representations of stand-alone text encoders of these models to the language representations of text encoders learnt through vision supervision. Our experiments suggest that vanilla language representations show superior performance on most of the tasks. These results shed light on the current drawbacks of the vision-language models.
翻訳日:2023-04-18 21:01:37 公開日:2023-04-15
# 人間は人工知能の説明の基本的なブロックをどう認識するか

Helpful, Misleading or Confusing: How Humans Perceive Fundamental Building Blocks of Artificial Intelligence Explanations ( http://arxiv.org/abs/2303.00934v2 )

ライセンス: Link先を確認
Edward Small, Yueqing Xuan, Danula Hettiachchi, Kacper Sokol(参考訳) 説明可能な人工知能技術はブレークネックスピードで開発されているが、適切な評価アプローチは遅れている。 説明者はますます複雑になり、その有用性を評価するためのコンセンサスが欠如しているため、異なる説明の利点と効果を判断することは困難である。 このギャップに対処するために、私たちは高度な予測アルゴリズムから一歩後退し、単純な意思決定モデルの説明可能性を調べます。 本研究では,数学的定式化,グラフィカル表現,テキスト要約(複雑性と範囲の異なる)といった異なる表現の理解可能性を評価することを目的とした。 これによって、エンジニア、研究者、消費者、規制当局など、さまざまなステークホルダーが、より精巧な人工知能の説明が構築される基本的な概念の理解性を判断できるのです。 本稿では,適切な評価手法を確立するためのアプローチと,関連するユーザ研究のセットアップと実行を容易にする概念的かつ実践的な枠組みを示す。

Explainable artificial intelligence techniques are developed at breakneck speed, but suitable evaluation approaches lag behind. With explainers becoming increasingly complex and a lack of consensus on how to assess their utility, it is challenging to judge the benefit and effectiveness of different explanations. To address this gap, we take a step back from sophisticated predictive algorithms and instead look into explainability of simple decision-making models. In this setting, we aim to assess how people perceive comprehensibility of their different representations such as mathematical formulation, graphical representation and textual summarisation (of varying complexity and scope). This allows us to capture how diverse stakeholders -- engineers, researchers, consumers, regulators and the like -- judge intelligibility of fundamental concepts that more elaborate artificial intelligence explanations are built from. This position paper charts our approach to establishing appropriate evaluation methodology as well as a conceptual and practical framework to facilitate setting up and executing relevant user studies.
翻訳日:2023-04-18 20:54:20 公開日:2023-04-15
# pyribs: 品質の多様性を最適化するベアボーンpythonライブラリ

pyribs: A Bare-Bones Python Library for Quality Diversity Optimization ( http://arxiv.org/abs/2303.00191v2 )

ライセンス: Link先を確認
Bryon Tjanaka, Matthew C. Fontaine, David H. Lee, Yulun Zhang, Nivedit Reddy Balam, Nathaniel Dennler, Sujay S. Garlanka, Nikitas Dimitri Klapsis, Stefanos Nikolaidis(参考訳) 近年、与えられた問題に対する多様でハイパフォーマンスなソリューションの集合を見つけることを目的とした最適化の分野であるqd(quality diversity)最適化の人気が高まっている。 さらに拡大するために、QDコミュニティは2つの課題に直面している: フィールドの増大するアルゴリズムの配列を表現するフレームワークを開発すること、そして、研究者や実践者をサポートするソフトウェアにそのフレームワークを実装すること。 これらの課題に対処するため,高度にモジュール化された概念QDフレームワーク上に構築されたpyribsを開発した。 概念的フレームワークのコンポーネントを置き換えることで、ユーザーはQD文学全体からアルゴリズムを構成することができる。 さらにpyribsは、幅広いドキュメンテーションとチュートリアルによってユーザフレンドリなapiをサポートすることで、このフレームワークをシンプルで、柔軟で、アクセスしやすくする。 本稿では, 実装する概念的枠組みと, ライブラリの開発を導く設計原則に着目し, ピリブの作成について概説する。

Recent years have seen a rise in the popularity of quality diversity (QD) optimization, a branch of optimization that seeks to find a collection of diverse, high-performing solutions to a given problem. To grow further, we believe the QD community faces two challenges: developing a framework to represent the field's growing array of algorithms, and implementing that framework in software that supports a range of researchers and practitioners. To address these challenges, we have developed pyribs, a library built on a highly modular conceptual QD framework. By replacing components in the conceptual framework, and hence in pyribs, users can compose algorithms from across the QD literature; equally important, they can identify unexplored algorithm variations. Furthermore, pyribs makes this framework simple, flexible, and accessible, with a user-friendly API supported by extensive documentation and tutorials. This paper overviews the creation of pyribs, focusing on the conceptual framework that it implements and the design principles that have guided the library's development.
翻訳日:2023-04-18 20:54:02 公開日:2023-04-15
# MeshDiffusion: スコアベースの生成3Dメッシュモデリング

MeshDiffusion: Score-based Generative 3D Mesh Modeling ( http://arxiv.org/abs/2303.08133v2 )

ライセンス: Link先を確認
Zhen Liu, Yao Feng, Michael J. Black, Derek Nowrouzezahrai, Liam Paull, Weiyang Liu(参考訳) 本稿では,シーンの自動生成や物理シミュレーションなど,様々な応用に有用な現実的な3次元形状を生成するタスクについて考察する。 voxelsやpoint cloudのような他の3d表現と比較して、メッシュは(1)リライトやシミュレーションのために簡単に任意の形状の操作を可能にし、(2)メッシュに最適化されたモダンなグラフィックパイプラインのパワーを十分に活用できるため、実際にはより望ましい。 従来のスケーラブルなメッシュ生成手法では,サブ最適ポストプロセッシングが一般的であり,粒度の細かい幾何学的詳細を必要とせず,過度にスムースあるいはノイズの多い表面を生成する傾向がある。 これらの欠点を克服するために,メッシュのグラフ構造を利用し,単純かつ非常に効果的な生成モデリング手法を用いて3dメッシュを生成する。 具体的には、変形可能な四面体格子でメッシュを表現し、この直接パラメトリゼーション上で拡散モデルを訓練する。 複数の生成タスクにおけるモデルの有効性を示す。

We consider the task of generating realistic 3D shapes, which is useful for a variety of applications such as automatic scene generation and physical simulation. Compared to other 3D representations like voxels and point clouds, meshes are more desirable in practice, because (1) they enable easy and arbitrary manipulation of shapes for relighting and simulation, and (2) they can fully leverage the power of modern graphics pipelines which are mostly optimized for meshes. Previous scalable methods for generating meshes typically rely on sub-optimal post-processing, and they tend to produce overly-smooth or noisy surfaces without fine-grained geometric details. To overcome these shortcomings, we take advantage of the graph structure of meshes and use a simple yet very effective generative modeling method to generate 3D meshes. Specifically, we represent meshes with deformable tetrahedral grids, and then train a diffusion model on this direct parametrization. We demonstrate the effectiveness of our model on multiple generative tasks.
翻訳日:2023-04-18 20:44:53 公開日:2023-04-15
# 超球面一様ギャップによる神経崩壊の一般化とデカップリング

Generalizing and Decoupling Neural Collapse via Hyperspherical Uniformity Gap ( http://arxiv.org/abs/2303.06484v2 )

ライセンス: Link先を確認
Weiyang Liu, Longhui Yu, Adrian Weller, Bernhard Sch\"olkopf(参考訳) 神経崩壊(NC)現象は、深い学習された特徴と分類器の両方が単純な等角的タイトフレームに収束する深層ニューラルネットワークの基本的な幾何学対称性を記述する。 クロスエントロピー損失と平均二乗誤差の両方がncにつながることが示されている。 我々は、NCの特徴次元とクラス数に関する重要な仮定を取り除き、元のNCを効果的に仮定する一般化された神経崩壊(GNC)仮説を示す。 NCがニューラルネットワークのトレーニングターゲットをいかに特徴付けるかに着想を得て、GNCを最小クラス内変動と最大クラス間分離の2つの目標に分離する。 次に、これらの2つの目的を定量化するための統一フレームワークとして、超球面均一性(単位超球面上の均一性の度合いを特徴付ける)を用いる。 最後に、クラス間およびクラス内超球面均一性の違いによって定義される汎用超球面均一性ギャップ(HUG)を提案する。 HUG は GNC に確実に収束するだけでなく、GNC を 2 つの別々の目的に分離する。 クラス内コンパクト性とクラス間分離性を結合したクロスエントロピー損失とは異なり、HUGはより柔軟性があり、優れた代替損失関数として機能する。 経験的結果は、HUGが一般化と堅牢性の観点からうまく機能することを示している。

The neural collapse (NC) phenomenon describes an underlying geometric symmetry for deep neural networks, where both deeply learned features and classifiers converge to a simplex equiangular tight frame. It has been shown that both cross-entropy loss and mean square error can provably lead to NC. We remove NC's key assumption on the feature dimension and the number of classes, and then present a generalized neural collapse (GNC) hypothesis that effectively subsumes the original NC. Inspired by how NC characterizes the training target of neural networks, we decouple GNC into two objectives: minimal intra-class variability and maximal inter-class separability. We then use hyperspherical uniformity (which characterizes the degree of uniformity on the unit hypersphere) as a unified framework to quantify these two objectives. Finally, we propose a general objective -- hyperspherical uniformity gap (HUG), which is defined by the difference between inter-class and intra-class hyperspherical uniformity. HUG not only provably converges to GNC, but also decouples GNC into two separate objectives. Unlike cross-entropy loss that couples intra-class compactness and inter-class separability, HUG enjoys more flexibility and serves as a good alternative loss function. Empirical results show that HUG works well in terms of generalization and robustness.
翻訳日:2023-04-18 20:44:27 公開日:2023-04-15
# ディープリカレントネットワークによる企業名の曖昧化

Disambiguation of Company names via Deep Recurrent Networks ( http://arxiv.org/abs/2303.05391v2 )

ライセンス: Link先を確認
Alessandro Basile, Riccardo Crupi, Michele Grasso, Alessandro Mercanti, Daniele Regoli, Simone Scarsi, Shuyi Yang, Andrea Cosentini(参考訳) 名前の曖昧さ(英: Name Entity Disambiguation)とは、属性のリスト(名前、場所、組織など)として表される現実世界のエンティティである、同じ名前のエンティティに対応するテキストレコードを識別する自然言語処理タスクである。 本研究では,企業名を記載した上で,企業を曖昧にすることの課題に直面する。 本稿では,企業名列を(相対的に)低次元ベクトル空間に埋め込んで,同一企業(すなわち同一エンティティ)を実際に表わす企業名のペアを識別する,Siamese LSTM Networkアプローチを提案する。 文字列ペアの手動ラベリングがやや面倒な作業であることを考慮すると、ラベル付けされるサンプルを優先順位付けするアクティブな学習アプローチが、より効率的な学習パイプラインにつながるかを分析します。 経験的調査により,提案手法は,ラベル付きデータの利用が十分であれば,標準文字列マッチングアルゴリズムに基づくベンチマーク手法を上回ることを示した。 さらに,ラベリング資源が限られている場合,アクティブラーニングの優先順位付けが有効であることを示すとともに,標準(ランダム)データラベリングアプローチに対するラベル付きデータが少ない場合,サンプルのパフォーマンス飽和度を学習モデルに到達させる。

Name Entity Disambiguation is the Natural Language Processing task of identifying textual records corresponding to the same Named Entity, i.e. real-world entities represented as a list of attributes (names, places, organisations, etc.). In this work, we face the task of disambiguating companies on the basis of their written names. We propose a Siamese LSTM Network approach to extract -- via supervised learning -- an embedding of company name strings in a (relatively) low dimensional vector space and use this representation to identify pairs of company names that actually represent the same company (i.e. the same Entity). Given that the manual labelling of string pairs is a rather onerous task, we analyse how an Active Learning approach to prioritise the samples to be labelled leads to a more efficient overall learning pipeline. With empirical investigations, we show that our proposed Siamese Network outperforms several benchmark approaches based on standard string matching algorithms when enough labelled data are available. Moreover, we show that Active Learning prioritisation is indeed helpful when labelling resources are limited, and let the learning models reach the out-of-sample performance saturation with less labelled data with respect to standard (random) data labelling approaches.
翻訳日:2023-04-18 20:44:03 公開日:2023-04-15
# 離散高次ベリー相とマトリックス生成物状態

Discrete Higher Berry Phases and Matrix Product States ( http://arxiv.org/abs/2303.04252v2 )

ライセンス: Link先を確認
Shuhei Ohyama, Yuji Terashima, Ken Shiozaki(参考訳) 可逆状態の1ドルのパラメタ族は、トゥーレスポンピングに似たトポロジカルな輸送現象を与える。 この自然な一般化として、ある位相空間$X$でパラメータ化された可逆状態の族を考えることができる。 これを高ポンプという。 1+1)$-次元ボソニックな非可逆状態が$X$でパラメータ化され、$\mathrm{H}^{3}(X;\mathbb{Z})$に分類される。 本稿では、$X=\mathbb{R}P^{2}\times S^1$と$X=\mathrm{L}(3,1)\times S^1$によりパラメータ化された2つの高いポンプモデルを構築し、$\mathrm{H}^{3}(X;\mathbb{Z})$のねじれ部分に対応する。 族としての非自明性の結果、非自明な離散ベリー相を持つ量子力学系が$(1+1)$-次元系の境界に励起されることが分かる。 また,行列積状態 (mps) を用いて高次ポンプ現象を研究し,$\mathrm{h}^{3}(x;\mathbb{z})$ のねじれ部で値を取る高次ポンプ不変量を構成する。 これは通常の離散ベリー位相のより高いアナログであり、$\mathrm{H}^{2}(X;\mathbb{Z})$のねじれ部分で値を取る。 高次ポンプ不変量を定義するために、滑らかなデリジェンコホモロジーとその積分理論を利用する。 このモデルの高次ポンプ不変量は非自明な値であることを確認する。

A $1$-parameter family of invertible states gives a topological transport phenomenon, similar to the Thouless pumping. As a natural generalization of this, we can consider a family of invertible states parametrized by some topological space $X$. This is called a higher pump. It is conjectured that $(1+1)$-dimensional bosonic invertible state parametrized by $X$ is classified by $\mathrm{H}^{3}(X;\mathbb{Z})$. In this paper, we construct two higher pumping models parametrized by $X=\mathbb{R}P^{2}\times S^1$ and $X=\mathrm{L}(3,1)\times S^1$ that corresponds to the torsion part of $\mathrm{H}^{3}(X;\mathbb{Z})$. As a consequence of the nontriviality as a family, we find that a quantum mechanical system with a nontrivial discrete Berry phase is pumped to the boundary of the $(1+1)$-dimensional system. We also study higher pump phenomena by using matrix product states (MPS), and construct a higher pump invariant which takes value in a torsion part of $\mathrm{H}^{3}(X;\mathbb{Z})$. This is a higher analog of the ordinary discrete Berry phase that takes value in the torsion part of $\mathrm{H}^{2}(X;\mathbb{Z})$. In order to define the higher pump invariant, we utilize the smooth Deligne cohomology and its integration theory. We confirm that the higher pump invariant of the model has a nontrivial value.
翻訳日:2023-04-18 20:43:15 公開日:2023-04-15
# 半教師付き医用画像セグメンテーションにおける固有一貫性学習

Inherent Consistent Learning for Accurate Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2303.14175v3 )

ライセンス: Link先を確認
Ye Zhu, Jie Yang, Si-Qi Liu and Ruimao Zhang(参考訳) 近年,医用画像アノテーションのコストが高いことから,半監督的医用画像分割が注目されている。 本稿では,ラベル付きおよびラベル付きデータの意味的一貫性ガイダンスを通じて,ロバストな意味カテゴリー表現を学習し,セグメンテーションを支援する新しい本質的一貫性学習法を提案する。 実際には、ラベル付きデータとラベルなしデータのセマンティックなカテゴリ表現を整列するアテンション機構に基づく、SSPA(Supervised Semantic Proxy Adaptor)とunsupervised Semantic Consistent Learner(USCL)という2つの外部モジュールを導入し、トレーニングセット全体にわたってグローバルなセマンティックなセマンティックな表現を更新する。 ICLは様々なネットワークアーキテクチャのためのプラグイン・アンド・プレイ方式であり、この2つのモジュールはテスト段階に関与していない。 3つの公開ベンチマークにおける実験結果から,提案手法は,特に注釈付きデータの数が極めて限られている場合に,最先端の手法を上回ることができることが示された。 コードはhttps://github.com/zhuye98/icl.git。

Semi-supervised medical image segmentation has attracted much attention in recent years because of the high cost of medical image annotations. In this paper, we propose a novel Inherent Consistent Learning (ICL) method, aims to learn robust semantic category representations through the semantic consistency guidance of labeled and unlabeled data to help segmentation. In practice, we introduce two external modules, namely Supervised Semantic Proxy Adaptor (SSPA) and Unsupervised Semantic Consistent Learner (USCL) that is based on the attention mechanism to align the semantic category representations of labeled and unlabeled data, as well as update the global semantic representations over the entire training set. The proposed ICL is a plug-and-play scheme for various network architectures, and the two modules are not involved in the testing stage. Experimental results on three public benchmarks show that the proposed method can outperform the state-of-the-art, especially when the number of annotated data is extremely limited. Code is available at: https://github.com/zhuye98/ICL.git.
翻訳日:2023-04-18 20:37:39 公開日:2023-04-15
# 大規模適応実験:フレキシブルバッチのためのベイズアルゴリズム

Adaptive Experimentation at Scale: Bayesian Algorithms for Flexible Batches ( http://arxiv.org/abs/2303.11582v2 )

ライセンス: Link先を確認
Ethan Che, Hongseok Namkoong(参考訳) 計測努力の継続的な再配置を仮定する標準的なバンディットアルゴリズムは、遅延したフィードバックとインフラ/組織的困難のために実装が困難である。 結果がバッチで測定される少数の再配置時代の実例に動機づけられ,任意のバッチサイズを柔軟に処理可能な,新たな適応型実験フレームワークを開発した。 我々の主な観察は、統計的推論において普遍的な正規近似は、スケーラブルな適応設計の設計を導くことができることである。 漸近的な逐次実験を導出することにより,先行情報を平均報酬に活用可能な動的プログラムを定式化する。 本稿では,確率勾配勾配で計画目標を最適化することにより,サンプリングアロケーションを選択する簡易な反復計画手法であるResidual Horizon Optimizationを提案する。 提案手法は,個人報酬の完全な分布的知識を必要とするベイズ帯域幅アルゴリズム(例えばトンプソンサンプリング)と比較しても,標準適応ポリシーよりも統計的パワーを著しく向上させる。 全体としては,少数の再配置時間,低信号対雑音比,未知報酬分布などの問題を含む,標準適応ポリシーでは難しい設定に適応実験の範囲を広げる。

Standard bandit algorithms that assume continual reallocation of measurement effort are challenging to implement due to delayed feedback and infrastructural/organizational difficulties. Motivated by practical instances involving a handful of reallocation epochs in which outcomes are measured in batches, we develop a new adaptive experimentation framework that can flexibly handle any batch size. Our main observation is that normal approximations, which are universal in statistical inference, can also guide the design of scalable adaptive designs. By deriving an asymptotic sequential experiment, we formulate a dynamic program that can leverage prior information on average rewards. We propose a simple iterative planning method, Residual Horizon Optimization, which selects sampling allocations by optimizing a planning objective with stochastic gradient descent. Our method significantly improves statistical power over standard adaptive policies, even when compared to Bayesian bandit algorithms (e.g., Thompson sampling) that require full distributional knowledge of individual rewards. Overall, we expand the scope of adaptive experimentation to settings which are difficult for standard adaptive policies, including problems with a small number of reallocation epochs, low signal-to-noise ratio, and unknown reward distributions.
翻訳日:2023-04-18 20:35:34 公開日:2023-04-15
# 非キャラクタリゼーションデバイスを用いた量子ディスコード証人

Quantum Discord Witness with Uncharacterized Devices ( http://arxiv.org/abs/2303.11167v2 )

ライセンス: Link先を確認
Rong Wang, Yao Yao, Zhen-Qiang Yin, Hoi-Kwong Lo(参考訳) 量子不協和は、多くの量子情報処理に有用な古典性を超えた相関関係を表しており、そのため貴重な量子資源と見なされている。 理論的には、二成分量子状態が非零量の量子不和を持つか否かは、密度行列が与えられると決定できる。 しかし, デバイスの不完全性を考慮した場合, 実験上, 信頼性の高いトモグラフィーを行うことは容易ではない。 ここでは、いわゆる次元証人に触発されて、任意の次元系内で未知の2成分状態の量子不一致を目撃するために、非キャラクタライズド測定を用いた新しいアプローチを提案する。 任意の2量子ビット状態について、各量子ビットに対して相互直交基底測定を行うと、証人の最大値が現れることを示す。 損失耐性やエラー耐性などのデバイス不完全性に対する高い堅牢性の特徴は,本手法が実験的に実現可能であることを示している。 さらに,この証人が量子鍵分布のセキュリティを保証できることを示す。

Quantum discord represents a correlation beyond classicality that could be useful for many quantum information tasks, and therefore is viewed as a valuable quantum resource. Theoretically, whether a bipartite quantum state has a non-zero amount of quantum discord or not can be determined once its density matrix is given. Experimentally, however, it is not easy to perform a reliable tomography on the state, especially when considering the imperfection of devices. Here, inspired by the so-called dimension witness, we propose a new approach using uncharacterized measurements to witness quantum discord of an unknown bipartite state within arbitrary dimension system. For any two-qubit state, we show that the maximum of witness happens when one performs mutually orthogonal basis measurement on each qubit. The feature of high robustness against device imperfections, such as loss-tolerance and error-tolerance, shows our method is experimentally feasible. Furthermore, we show that this witness can help us guarantee security in quantum key distribution.
翻訳日:2023-04-18 20:35:17 公開日:2023-04-15
# BEVSimDet:多視点3次元物体検出のためのバードアイビューにおけるマルチモーダル蒸留のシミュレーション

BEVSimDet: Simulated Multi-modal Distillation in Bird's-Eye View for Multi-view 3D Object Detection ( http://arxiv.org/abs/2303.16818v3 )

ライセンス: Link先を確認
Haimei Zhao, Qiming Zhang, Shanshan Zhao, Jing Zhang, Dacheng Tao(参考訳) マルチビューカメラベースの3dオブジェクト検出は低コストで人気を集めている。 しかし、カメラデータのみから正確な3D形状を推定することは、モデルの性能に影響を及ぼす。 この問題に対処する1つの有望なアプローチは、LiDARデータから正確な3D幾何学的知識を抽出することである。 しかし、異なるセンサモダリティ間の知識の伝達は、重要なモダリティギャップによって妨げられる。 本稿では,建築設計と知識蒸留の両面からこの課題に取り組み,BEVSimDetという新しいシミュレーション型マルチモーダル3Dオブジェクト検出手法を提案する。 まず,lidarとカメラ融合による教師とシミュレートされたマルチモーダル学習者を含む新しいフレームワークを紹介し,学生は画像のみの入力でマルチモーダル機能をシミュレートする。 有効蒸留を容易にするために,バードズ・アイ・ビュー(bev)空間において,マルチモーダル蒸留,クロスモーダル蒸留,マルチモーダル蒸留を同時にサポートする模擬マルチモーダル蒸留スキームを提案する。 bevsimdetはそれらを組み合わせて、3dオブジェクト検出のための優れた機能表現を学習し、費用対効果の高いカメラのみのデプロイを享受できる。 挑戦的なnuScenesベンチマークの実験結果は、最近の代表法よりもBEVSimDetの有効性と優位性を示している。 ソースコードは \href{https://github.com/ViTAE-Transformer/BEVSimDet}{BEVSimDet} でリリースされる。

Multi-view camera-based 3D object detection has gained popularity due to its low cost. But accurately inferring 3D geometry solely from camera data remains challenging, which impacts model performance. One promising approach to address this issue is to distill precise 3D geometry knowledge from LiDAR data. However, transferring knowledge between different sensor modalities is hindered by the significant modality gap. In this paper, we approach this challenge from the perspective of both architecture design and knowledge distillation and present a new simulated multi-modal 3D object detection method named BEVSimDet. We first introduce a novel framework that includes a LiDAR and camera fusion-based teacher and a simulated multi-modal student, where the student simulates multi-modal features with image-only input. To facilitate effective distillation, we propose a simulated multi-modal distillation scheme that supports intra-modal, cross-modal, and multi-modal distillation simultaneously, in Bird's-eye-view (BEV) space. By combining them together, BEVSimDet can learn better feature representations for 3D object detection while enjoying cost-effective camera-only deployment. Experimental results on the challenging nuScenes benchmark demonstrate the effectiveness and superiority of BEVSimDet over recent representative methods. The source code will be released at \href{https://github.com/ViTAE-Transformer/BEVSimDet}{BEVSimDet}.
翻訳日:2023-04-18 20:25:35 公開日:2023-04-15
# 閉じ込められたイオンによる量子コンピューティング:初心者のガイド

Quantum computing with trapped ions: a beginner's guide ( http://arxiv.org/abs/2303.16358v2 )

ライセンス: Link先を確認
Francesco Bernardini, Abhijit Chakraborty, and Carlos Ord\'o\~nez(参考訳) この教育的な記事では、スケーラブルな量子コンピュータのための最もよく使われるプラットフォームであるイオンを捕捉する量子コンピューティングの基礎を説明します。 ソリューションの適合性は、DiVincenzo基準に対する性能を示すことで解決される。

This pedagogical article explains the basics of quantum computing using one of the most-used platform for scalable quantum computers: trapped ions. The suitability of the solution is addressed by showing its performance towards DiVincenzo criteria.
翻訳日:2023-04-18 20:25:11 公開日:2023-04-15
# SAM vs BET:深層学習を用いた磁気共鳴画像の脳抽出と分割の比較研究

SAM vs BET: A Comparative Study for Brain Extraction and Segmentation of Magnetic Resonance Images using Deep Learning ( http://arxiv.org/abs/2304.04738v2 )

ライセンス: Link先を確認
Sovesh Mohapatra, Advait Gosai, Gottfried Schlaug(参考訳) 脳の抽出は、MRIデータを用いて脳組織と非脳組織を分離する神経画像研究において重要な前処理ステップである。 FSLのBrain extract Tool (BET) は、現在のゴールドスタンダードであるが、画像品質の問題によりエラーを起こしやすい。 Meta AIによるSegment Anything Model (SAM)は、ゼロショットセグメンテーションの可能性を示している。 本稿では, 画像品質, MRI 配列, 病変位置を考慮し, 多様な脳スキャンにおける脳抽出のためのSAM と BET を比較した。 その結果、SAMは様々な評価パラメータ、特に信号不均一性、非等方性ボキセル分解能、脳の外野や髄膜付近の病変においてBETより優れていた。 SAMの優れた性能は、脳の抽出とセグメンテーションの応用のためのより正確で堅牢で汎用的なツールとしての可能性を示している。

Brain extraction is a critical preprocessing step in neuroimaging studies, involving the separation of brain tissue from non-brain tissue using MRI data. FSL's Brain Extraction Tool (BET) is the current gold standard but is prone to errors due to image quality issues. The Segment Anything Model (SAM) by Meta AI has shown promising zero-shot segmentation potential. This paper compares SAM with BET for brain extraction on diverse brain scans, considering image quality, MRI sequences, and lesion locations. Results demonstrate that SAM outperforms BET in various evaluation parameters, particularly in cases with signal inhomogeneities, non-isotropic voxel resolutions, or lesions near the brain's outer regions and meninges. SAM's superior performance indicates its potential as a more accurate, robust, and versatile tool for brain extraction and segmentation applications.
翻訳日:2023-04-18 20:08:45 公開日:2023-04-15
# NeuroBench: コラボレーション,公正,代表的ベンチマークによるニューロモルフィックコンピューティングの促進

NeuroBench: Advancing Neuromorphic Computing through Collaborative, Fair and Representative Benchmarking ( http://arxiv.org/abs/2304.04640v2 )

ライセンス: Link先を確認
Jason Yik, Soikat Hasan Ahmed, Zergham Ahmed, Brian Anderson, Andreas G. Andreou, Chiara Bartolozzi, Arindam Basu, Douwe den Blanken, Petrut Bogdan, Sander Bohte, Younes Bouhadjar, Sonia Buckley, Gert Cauwenberghs, Federico Corradi, Guido de Croon, Andreea Danielescu, Anurag Daram, Mike Davies, Yigit Demirag, Jason Eshraghian, Jeremy Forest, Steve Furber, Michael Furlong, Aditya Gilra, Giacomo Indiveri, Siddharth Joshi, Vedant Karia, Lyes Khacef, James C. Knight, Laura Kriener, Rajkumar Kubendran, Dhireesha Kudithipudi, Gregor Lenz, Rajit Manohar, Christian Mayr, Konstantinos Michmizos, Dylan Muir, Emre Neftci, Thomas Nowotny, Fabrizio Ottati, Ayca Ozcelikkale, Noah Pacik-Nelson, Priyadarshini Panda, Sun Pao-Sheng, Melika Payvand, Christian Pehle, Mihai A. Petrovici, Christoph Posch, Alpha Renner, Yulia Sandamirskaya, Clemens JS Schaefer, Andr\'e van Schaik, Johannes Schemmel, Catherine Schuman, Jae-sun Seo, Sadique Sheik, Sumit Bam Shrestha, Manolis Sifalakis, Amos Sironi, Kenneth Stewart, Terrence C. Stewart, Philipp Stratmann, Guangzhi Tang, Jonathan Timcheck, Marian Verhelst, Craig M. Vineyard, Bernhard Vogginger, Amirreza Yousefzadeh, Biyan Zhou, Fatima Tuz Zohora, Charlotte Frenkel, Vijay Janapa Reddi(参考訳) ニューロモルフィックコンピューティングの分野は、脳にインスパイアされた原則に従うことによって、コンピューティングの効率と能力を高めるという大きな期待を持っている。 しかし、ニューロモルフィック研究で用いられる技術の多様性は、ベンチマークの明確な基準が欠如しており、従来のディープラーニングベースの手法と比較して、ニューロモルフィックな手法の長所と長所の効果的な評価を妨げている。 本稿では,アカデミアと産業のメンバを集めて,ニューロモルフィックコンピューティングのベンチマーク(neurobench)を定義するための協力的取り組みについて述べる。 NeuroBenchの目標は、コミュニティがコミュニティのために開発した、共同で公平で代表的なベンチマークスイートである。 本稿では、ニューロモルフィックソリューションのベンチマークに関する課題について論じ、NeuroBenchの重要な特徴を概説する。 neurobenchは、ニューロモルフィックコンピューティングの目標を統一し、その技術的進歩を促進する標準を定義するための重要なステップであると考えています。 ベンチマークタスクとメトリクスの最新情報については、neurobench.aiをご覧ください。

The field of neuromorphic computing holds great promise in terms of advancing computing efficiency and capabilities by following brain-inspired principles. However, the rich diversity of techniques employed in neuromorphic research has resulted in a lack of clear standards for benchmarking, hindering effective evaluation of the advantages and strengths of neuromorphic methods compared to traditional deep-learning-based methods. This paper presents a collaborative effort, bringing together members from academia and the industry, to define benchmarks for neuromorphic computing: NeuroBench. The goals of NeuroBench are to be a collaborative, fair, and representative benchmark suite developed by the community, for the community. In this paper, we discuss the challenges associated with benchmarking neuromorphic solutions, and outline the key features of NeuroBench. We believe that NeuroBench will be a significant step towards defining standards that can unify the goals of neuromorphic computing and drive its technological progress. Please visit neurobench.ai for the latest updates on the benchmark tasks and metrics.
翻訳日:2023-04-18 20:08:32 公開日:2023-04-15
# 本物のシュレーディンガーの猫を観察する簡単なノーゴー証明

Simple no-go proof on observing real Schroedinger's cats ( http://arxiv.org/abs/2304.03336v2 )

ライセンス: Link先を確認
Guang Ping He(参考訳) 可逆過程が一旦関与すると、射影測定のクラスは不可能であることを示す一般的な証明を与える。 このノーゴーの結果をシュレーディンガーの猫パラドックスに適用すると、もし何かが本物のシュレーディンガーの猫であると主張されたら、物理的に実装可能なプロセスにおいて、通常の猫の自明な混合物とそれとの計測可能な違いは存在しない。 我々の証明は量子解釈理論と仮説を一切含まない。

We give a general proof showing that once irreversible processes are involved, a class of projective measurements is impossible. Applying this no-go result to the Schroedinger's cat paradox implies that if something is claimed to be a real Schroedinger's cat, there will be no measurable difference between it and a trivial classical mixture of ordinary cats in any physically implementable process, otherwise raising the dead will become reality. Our proof does not involve any quantum interpretation theory and hypothesis.
翻訳日:2023-04-18 20:06:00 公開日:2023-04-15
# AI支援型保護行動:気候障害に対する情報源としてのChatGPTの研究

AI-assisted Protective Action: Study of ChatGPT as an Information Source for a Population Facing Climate Hazards ( http://arxiv.org/abs/2304.06124v2 )

ライセンス: Link先を確認
Xiangpeng Li, Yuqin Jiang, Ali Mostafavi(参考訳) ChatGPTは新たな情報ソースとして登場しており、洪水やハリケーンなどの気候の危険に直面する際に、保護措置を講じながらChatGPTから情報を求める可能性がある。 本研究の目的は,ChatGPTが個人が保護行動をとる側面に関する情報を求める際に生じる応答の正確さと完全性を評価することである。 The survey analysis results indicated that: (1) the emergency managers considered the responses provided by ChatGPT as accurate and complete to a great extent; (2) it was statistically verified in evaluations that the generated information was accurate, but lacked completeness, implying that the extent of information provided is accurate; and (3) information generated for prompts related to hazard insurance received the highest evaluation, whereas the information generated related to evacuation received the lowest. この最後の結果は、複雑な状況に固有の保護行動(避難など)では、他の保護行動と比較して情報の完成度が低かったことを示している。 また,ChatGPT等のAIasistive Technology(AIassistive Technology)の緊急準備と対応性に対する意識は,ChatGPTが生成した情報を用いて評価した結果,改善した。 本研究は,災害時の公衆の意思決定と保護行動を改善するためのAIアシスト技術の有用性について,実証評価を行った。

ChatGPT has been emerging as a novel information source, and it is likely that the public might seek information from ChatGPT while taking protective actions when facing climate hazards such as floods and hurricanes. The objective of this study is to evaluate the accuracy and completeness of responses generated by ChatGPT when individuals seek information about aspects of taking protective actions. The survey analysis results indicated that: (1) the emergency managers considered the responses provided by ChatGPT as accurate and complete to a great extent; (2) it was statistically verified in evaluations that the generated information was accurate, but lacked completeness, implying that the extent of information provided is accurate; and (3) information generated for prompts related to hazard insurance received the highest evaluation, whereas the information generated related to evacuation received the lowest. This last result implies that, for complex, context-specific protective actions (such as evacuation), the information was rated as less complete compared with other protective actions. Also, the results showed that the perception of respondents regarding the utility of AI- assistive technologies (such as ChatGPT) for emergency preparedness and response improved after taking the survey and evaluating the information generated by ChatGPT. The findings from this study provide empirical evaluation regarding the utility of AI-assistive technologies for improving public decision-making and protective actions in disasters.
翻訳日:2023-04-18 20:00:33 公開日:2023-04-15
# コンセサイテッドシーンにおけるSAMストラグル-「セグメント」に関する実証的研究

SAM Struggles in Concealed Scenes -- Empirical Study on "Segment Anything" ( http://arxiv.org/abs/2304.06022v2 )

ライセンス: Link先を確認
Ge-Peng Ji, Deng-Ping Fan, Peng Xu, Ming-Ming Cheng, Bowen Zhou, Luc Van Gool(参考訳) セグメンテーションは人工知能に向けた画期的なステップであり、SAM(Segment Anything Model)はコンピュータビジョンの基礎モデルを大きく発展させる。 SAMのパフォーマンス特性を調べることに、これ以上興奮することはできませんでした。 特にSAMがうまく機能しない状況の探索は興味深い。 本報告では,隠れた3つのシーン,すなわちカモフラージュされた動物,工業的欠陥,医療的病変を選択し,SAMを未開の環境で評価する。 私たちの主な観察では、SAMは隠されたシーンではスキルがないように見えます。

Segmenting anything is a ground-breaking step toward artificial general intelligence, and the Segment Anything Model (SAM) greatly fosters the foundation models for computer vision. We could not be more excited to probe the performance traits of SAM. In particular, exploring situations in which SAM does not perform well is interesting. In this report, we choose three concealed scenes, i.e., camouflaged animals, industrial defects, and medical lesions, to evaluate SAM under unprompted settings. Our main observation is that SAM looks unskilled in concealed scenes.
翻訳日:2023-04-18 19:59:59 公開日:2023-04-15
# 行列積状態における高次構造

Higher structures in matrix product states ( http://arxiv.org/abs/2304.05356v2 )

ライセンス: Link先を確認
Shuhei Ohyama, Shinsei Ryu(参考訳) 1+1$次元の可逆状態(短距離交絡状態)のパラメータ化族について、ベリー位相の一般化について議論する。 変換不変な無限行列積状態 (MPSs) を用いて、複素ラインバンドルのより高次一般化であるゲルベ構造を導入し、行列積状態のパラメータ化族の位相的性質を記述する基礎となる数学的構造とする。 また、3つの行列積状態に対して「三つの内積」を導入し、パラメータ空間上の位相不変量Dixmier-Douadyクラスを抽出する。

For a parameterized family of invertible states (short-range-entangled states) in $(1+1)$ dimensions, we discuss a generalization of the Berry phase. Using translationally-invariant, infinite matrix product states (MPSs), we introduce a gerbe structure, a higher generalization of complex line bundles, as an underlying mathematical structure describing topological properties of a parameterized family of matrix product states. We also introduce a "triple inner product" for three matrix product states, which allows us to extract a topological invariant, the Dixmier-Douady class over the parameter space.
翻訳日:2023-04-18 19:58:35 公開日:2023-04-15
# 負のプロンプトアルゴリズムを再想像する: 2次元拡散を3Dに変換し、ヤヌス問題を緩和する

Re-imagine the Negative Prompt Algorithm: Transform 2D Diffusion into 3D, alleviate Janus problem and Beyond ( http://arxiv.org/abs/2304.04968v2 )

ライセンス: Link先を確認
Mohammadreza Armandpour, Huangjie Zheng, Ali Sadeghian, Amir Sadeghian, Mingyuan Zhou(参考訳) テキスト間の拡散モデルは、テキストから画像を生成するために大きな進歩を遂げてきたが、提供されるテキストではなく、モデルがトレーニングされたデータのような画像を生成する傾向が強かった。 この制限は、2Dアプリケーションと3Dアプリケーションの両方での使用を妨げる。 この問題に対処するため,我々は負のプロンプトの使用を検討したが,現在の実装では望ましい結果が得られず,特に主プロンプトと負のプロンプトが重複していることが判明した。 この問題を克服するために,スコア空間の幾何学的性質を活かし,現在の負のプロンプトアルゴリズムの欠点に対処する新しいアルゴリズムであるperp-negを提案する。 Perp-Negはモデルのトレーニングや微調整を一切必要としない。 さらに,初期生成画像から不要な概念を2Dケースで編集可能にすることにより,Perp-Negは画像生成の柔軟性を向上することを示した。 さらに,3dへのperp-negの適用を拡大するために,2dでのperp-negの利用法を徹底的に検討し,標準的視点に偏ることなく,拡散モデルを用いて所望のビューを生成するように条件づけた。 最後に,2次元直観を用いてPerp-Negを最先端のテキスト・トゥ・3D(DreamFusion)手法に統合し,Janus(マルチヘッド)問題を効果的に解決した。 プロジェクトページはhttps://perp-neg.github.io/で閲覧できます。

Although text-to-image diffusion models have made significant strides in generating images from text, they are sometimes more inclined to generate images like the data on which the model was trained rather than the provided text. This limitation has hindered their usage in both 2D and 3D applications. To address this problem, we explored the use of negative prompts but found that the current implementation fails to produce desired results, particularly when there is an overlap between the main and negative prompts. To overcome this issue, we propose Perp-Neg, a new algorithm that leverages the geometrical properties of the score space to address the shortcomings of the current negative prompts algorithm. Perp-Neg does not require any training or fine-tuning of the model. Moreover, we experimentally demonstrate that Perp-Neg provides greater flexibility in generating images by enabling users to edit out unwanted concepts from the initially generated images in 2D cases. Furthermore, to extend the application of Perp-Neg to 3D, we conducted a thorough exploration of how Perp-Neg can be used in 2D to condition the diffusion model to generate desired views, rather than being biased toward the canonical views. Finally, we applied our 2D intuition to integrate Perp-Neg with the state-of-the-art text-to-3D (DreamFusion) method, effectively addressing its Janus (multi-head) problem. Our project page is available at https://Perp-Neg.github.io/
翻訳日:2023-04-18 19:57:58 公開日:2023-04-15
# 自動回帰言語生成のためのトラクタブル制御

Tractable Control for Autoregressive Language Generation ( http://arxiv.org/abs/2304.07438v1 )

ライセンス: Link先を確認
Honghua Zhang, Meihua Dang, Nanyun Peng, Guy Van den Broeck(参考訳) テキスト生成における自己回帰的な大規模言語モデルの成功にもかかわらず、複雑な制約を満たすテキストを生成することは依然として大きな課題である。 この課題を克服するために,我々は,GeLaToと呼ばれる自動回帰テキスト生成に語彙制約を課すために,トラクタブル確率モデルを提案する。 本フレームワークの有効性を示すため, 蒸留したマルコフモデルを用いて, GPT2からの自己回帰生成を制御する。 GeLaToは制約付きテキスト生成の挑戦的なベンチマークであるCommonGenの最先端のパフォーマンスを達成し、幅広い強力なベースラインを大きなマージンで上回る。 我々の研究は、大きな言語モデルを制御するための新しい道を開くだけでなく、より表現力のある扱いやすい確率モデルの開発を動機付ける。

Despite the success of autoregressive large language models in text generation, it remains a major challenge to generate text that satisfies complex constraints: sampling from the conditional distribution $\Pr(\text{text} | \alpha)$ is intractable for even the simplest lexical constraints $\alpha$. To overcome this challenge, we propose to use tractable probabilistic models to impose lexical constraints in autoregressive text generation, which we refer to as GeLaTo. To demonstrate the effectiveness of this framework, we use distilled hidden Markov models to control autoregressive generation from GPT2. GeLaTo achieves state-of-the-art performance on CommonGen, a challenging benchmark for constrained text generation, beating a wide range of strong baselines by a large margin. Our work not only opens up new avenues for controlling large language models but also motivates the development of more expressive tractable probabilistic models.
翻訳日:2023-04-18 19:13:12 公開日:2023-04-15
# エンティティ駆動型コントラスト学習による医療質問要約

Medical Question Summarization with Entity-driven Contrastive Learning ( http://arxiv.org/abs/2304.07437v1 )

ライセンス: Link先を確認
Sibo Wei, Wenpeng Lu, Xueping Peng, Shoujin Wang, Yi-Fei Wang and Weiyu Zhang(参考訳) より長い消費者健康質問を短く重要な質問にまとめることで、医療質問応答(MQA)システムは消費者の意図をより正確に理解し、適切な回答を得ることができる。 しかし、医療質問要約は患者と医師との健康問題記述の明らかな区別のため、非常に困難である。 既存の研究では、Seq2Seq、強化学習、あるいはコントラスト学習を用いてこの問題を解決しようとしているが、質問の焦点を正確に捉えて意味的な意図をモデル化する方法、信頼性のあるデータセットを取得してパフォーマンスを適切に評価する方法の2つの課題が残っている。 これらの課題に対処するために,エンティティ駆動型コントラスト学習(ECL)を用いた新しい医療質問要約フレームワークを提案する。 ECLは、しばしば質問される質問(FAQ)に医療機関を採用し、硬い負のサンプルを生成する効果的なメカニズムを考案している。 このアプローチでは、モデルに重要な焦点情報に注意を払って、より理想的な質問要約を生成する。 さらに、いくつかのMQAデータセットは、iCliniqデータセットの33%の重複率など、深刻なデータ漏洩問題に悩まされている。 関連手法を公平に評価するために,リークしたサンプルを慎重にチェックし,より合理的なデータセットを再編成する。 ECL法は,質問焦点を正確に把握し,医学的質問要約を生成することにより,最先端の手法よりも優れていることを示す。 コードとデータセットはhttps://github.com/yrbobo/mqs-eclで入手できる。

By summarizing longer consumer health questions into shorter and essential ones, medical question answering (MQA) systems can more accurately understand consumer intentions and retrieve suitable answers. However, medical question summarization is very challenging due to obvious distinctions in health trouble descriptions from patients and doctors. Although existing works have attempted to utilize Seq2Seq, reinforcement learning, or contrastive learning to solve the problem, two challenges remain: how to correctly capture question focus to model its semantic intention, and how to obtain reliable datasets to fairly evaluate performance. To address these challenges, this paper proposes a novel medical question summarization framework using entity-driven contrastive learning (ECL). ECL employs medical entities in frequently asked questions (FAQs) as focuses and devises an effective mechanism to generate hard negative samples. This approach forces models to pay attention to the crucial focus information and generate more ideal question summarization. Additionally, we find that some MQA datasets suffer from serious data leakage problems, such as the iCliniq dataset's 33% duplicate rate. To evaluate the related methods fairly, this paper carefully checks leaked samples to reorganize more reasonable datasets. Extensive experiments demonstrate that our ECL method outperforms state-of-the-art methods by accurately capturing question focus and generating medical question summaries. The code and datasets are available at https://github.com/yrbobo/MQS-ECL.
翻訳日:2023-04-18 19:12:56 公開日:2023-04-15
# point-based fusion を用いた時間整合オンライン奥行き推定

Temporally Consistent Online Depth Estimation Using Point-Based Fusion ( http://arxiv.org/abs/2304.07435v1 )

ライセンス: Link先を確認
Numair Khan, Eric Penner, Douglas Lanman, and Lei Xiao(参考訳) 深度推定は、3次元再構成、新しい視点合成、計算写真などの多くのコンピュータビジョン問題において重要なステップである。 既存の作業のほとんどは、シングルフレームからの深さ推定に重点を置いている。 ビデオに適用すると、その結果は時間的一貫性が欠如し、フリックや水泳のアーティファクトが表示される。 本稿では,オンライン環境での映像ストリームの時間的一貫した深度マップを推定することを目的とする。 これは、将来のフレームが利用できないため難しい問題であり、メソッドは一貫性を強制するか、以前の推定からエラーを修正するかを選択する必要がある。 動的オブジェクトの存在はさらに問題を複雑にする。 本稿では、各フレームを動的に更新するグローバルポイントクラウドと、画像空間における学習融合アプローチを用いて、これらの課題に対処することを提案する。 当社のアプローチは一貫性を促進し、同時にエラーや動的オブジェクトの処理も可能にします。 定性的,定量的な結果から,一貫した映像深度推定のための最先端の精度が得られた。

Depth estimation is an important step in many computer vision problems such as 3D reconstruction, novel view synthesis, and computational photography. Most existing work focuses on depth estimation from single frames. When applied to videos, the result lacks temporal consistency, showing flickering and swimming artifacts. In this paper we aim to estimate temporally consistent depth maps of video streams in an online setting. This is a difficult problem as future frames are not available and the method must choose between enforcing consistency and correcting errors from previous estimations. The presence of dynamic objects further complicates the problem. We propose to address these challenges by using a global point cloud that is dynamically updated each frame, along with a learned fusion approach in image space. Our approach encourages consistency while simultaneously allowing updates to handle errors and dynamic objects. Qualitative and quantitative results show that our method achieves state-of-the-art quality for consistent video depth estimation.
翻訳日:2023-04-18 19:12:30 公開日:2023-04-15
# mvco-dot:医療レポート生成のためのマルチビューコントラストドメイン転送ネットワーク

MvCo-DoT:Multi-View Contrastive Domain Transfer Network for Medical Report Generation ( http://arxiv.org/abs/2304.07465v1 )

ライセンス: Link先を確認
Ruizhi Wang, Xiangtao Wang, Zhenghua Xu, Wenting Xu, Junyang Chen, Thomas Lukasiewicz(参考訳) 臨床シナリオでは、異なる視点を持つ複数の医療画像は、通常、同時に生成され、セマンティックな一貫性が高い。 しかし,既存の医療報告生成手法では,医用画像の多視点相互情報を活用できない。 そこで本研究では,MvCo-DoTと呼ばれるマルチビュー医療報告生成モデルを提案する。 具体的には、MvCo-DoTはまず、深層強化学習に基づくモデルにおいて、マルチビュー入力の一貫性を利用してモデル学習を改善するためのマルチビューコントラスト学習(MvCo)戦略を提案する。 次に、MvCo-DoTがシングルビュー入力のみを用いてマルチビュー入力とほぼ同等の性能を達成するために、マルチビュー入力とシングルビュー入力とのパフォーマンスギャップを埋めるため、ドメイン転送ネットワークが提案されている。

In clinical scenarios, multiple medical images with different views are usually generated at the same time, and they have high semantic consistency. However, the existing medical report generation methods cannot exploit the rich multi-view mutual information of medical images. Therefore, in this work, we propose the first multi-view medical report generation model, called MvCo-DoT. Specifically, MvCo-DoT first propose a multi-view contrastive learning (MvCo) strategy to help the deep reinforcement learning based model utilize the consistency of multi-view inputs for better model learning. Then, to close the performance gaps of using multi-view and single-view inputs, a domain transfer network is further proposed to ensure MvCo-DoT achieve almost the same performance as multi-view inputs using only single-view inputs.Extensive experiments on the IU X-Ray public dataset show that MvCo-DoT outperforms the SOTA medical report generation baselines in all metrics.
翻訳日:2023-04-18 19:03:54 公開日:2023-04-15
# β-rank:不均衡医用画像解析のためのロバスト畳み込みフィルタプルーニング法

Beta-Rank: A Robust Convolutional Filter Pruning Method For Imbalanced Medical Image Analysis ( http://arxiv.org/abs/2304.07461v1 )

ライセンス: Link先を確認
Morteza Homayounfar, Mohamad Koohi-Moghadam, Reza Rawassizadeh, Varut Vardhanabhuti(参考訳) ディープニューラルネットワークは多数のパラメータや演算を含むため、計算資源が限られているデバイス上でこれらのモデルを実装することは困難である。 資源効率のよいモデルに向けた新しい刈り取り手法の開発にもかかわらず、これらのモデルは「不均衡」と「限られた数のデータポイント」を扱うことができないことが判明した。 入力および出力情報とともにフィルタの値とともに,新しいフィルタプルーニング法を提案する。 本手法は,フィルタの重要性に関するすべての情報がフィルタの値に反映されないことを考慮したものである。 代わりに、フィルタが適用された後にデータに行われた変更に反映される。 本研究では,各手法のランク付け以外の3つの手法を同一の訓練条件と比較する。 我々は,本モデルが本質的に不均衡な医療データセットの他の手法よりも有意に優れていることを示した。 IDRIDデータセットのFLOPの最大58%、ISICデータセットの最大45%を除去すると、我々のモデルはベースラインモデルと同等(あるいはさらに優れている)結果を得ることができ、他のモデルも同様の結果を得ることができなかった。 実際の環境でのモデルを用いたフロップとパラメータ低減を評価するために、スマートフォンアプリを構築し、最大79%のメモリ使用量と72%の予測時間を削減できることを実証した。 異なるモデルをトレーニングするためのすべてのコードとパラメータはhttps://github.com/mohofar/Beta-Rankで公開されている。

As deep neural networks include a high number of parameters and operations, it can be a challenge to implement these models on devices with limited computational resources. Despite the development of novel pruning methods toward resource-efficient models, it has become evident that these models are not capable of handling "imbalanced" and "limited number of data points". With input and output information, along with the values of the filters, a novel filter pruning method is proposed. Our pruning method considers the fact that all information about the importance of a filter may not be reflected in the value of the filter. Instead, it is reflected in the changes made to the data after the filter is applied to it. In this work, three methods are compared with the same training conditions except for the ranking of each method. We demonstrated that our model performed significantly better than other methods for medical datasets which are inherently imbalanced. When we removed up to 58% of FLOPs for the IDRID dataset and up to 45% for the ISIC dataset, our model was able to yield an equivalent (or even superior) result to the baseline model while other models were unable to achieve similar results. To evaluate FLOP and parameter reduction using our model in real-world settings, we built a smartphone app, where we demonstrated a reduction of up to 79% in memory usage and 72% in prediction time. All codes and parameters for training different models are available at https://github.com/mohofar/Beta-Rank
翻訳日:2023-04-18 19:03:34 公開日:2023-04-15
# 固有プライバシーを用いた無線フェデレーション学習のコミュニケーションとエネルギー効率

Communication and Energy Efficient Wireless Federated Learning with Intrinsic Privacy ( http://arxiv.org/abs/2304.07460v1 )

ライセンス: Link先を確認
Zhenxiao Zhang, Yuanxiong Guo, Yuguang Fang and Yanmin Gong(参考訳) Federated Learning(FL)は、エッジデバイスが生データをローカルに保持しながら、グローバルモデルを共同で学習することを可能にする、協調学習フレームワークである。 flはローカルデータセットから直接情報を漏洩するのを避けるが、機密情報は共有モデルから推測できる。 FLのプライバシー問題に対処するために、差分プライバシー(DP)機構を利用して正式なプライバシー保証を提供する。 しかし、無線エッジにFLをオーバー・ザ・エア計算でデプロイする場合、クライアントレベルのDPが大きな課題に直面している。 本稿では,PFELS(Private Federated Edge Learning with Sparsification)と呼ばれる新しい無線FL方式を提案する。 PFELSの鍵となる考え方は、各デバイスがまずモデル更新を圧縮し、その後、無線チャネルの状態に応じて圧縮されたモデル更新の送信電力を、人工的なノイズを付加せずに適応的に設計することである。 PFELSのプライバシー分析を行い、一般の非凸および非IID設定下でのPFELSの収束を実証する。 実験の結果,PFELSは従来の作業と比較してDP保証と同じ精度で精度を向上し,通信コストとエネルギーコストを同時に節約できることがわかった。

Federated Learning (FL) is a collaborative learning framework that enables edge devices to collaboratively learn a global model while keeping raw data locally. Although FL avoids leaking direct information from local datasets, sensitive information can still be inferred from the shared models. To address the privacy issue in FL, differential privacy (DP) mechanisms are leveraged to provide formal privacy guarantee. However, when deploying FL at the wireless edge with over-the-air computation, ensuring client-level DP faces significant challenges. In this paper, we propose a novel wireless FL scheme called private federated edge learning with sparsification (PFELS) to provide client-level DP guarantee with intrinsic channel noise while reducing communication and energy overhead and improving model accuracy. The key idea of PFELS is for each device to first compress its model update and then adaptively design the transmit power of the compressed model update according to the wireless channel status without any artificial noise addition. We provide a privacy analysis for PFELS and prove the convergence of PFELS under general non-convex and non-IID settings. Experimental results show that compared with prior work, PFELS can improve the accuracy with the same DP guarantee and save communication and energy costs simultaneously.
翻訳日:2023-04-18 19:03:10 公開日:2023-04-15
# クラス階層マイニングによるインスタンスレベルのマイニング

Instance-level Few-shot Learning with Class Hierarchy Mining ( http://arxiv.org/abs/2304.07459v1 )

ライセンス: Link先を確認
Anh-Khoa Nguyen Vu, Thanh-Toan Do, Nhat-Duy Nguyen, Vinh-Tiep Nguyen, Thanh Duc Ngo, Tam V. Nguyen(参考訳) 新規授業における学習データ不足問題に取り組むために, 少人数学習を提案する。 しかし、事例レベルの少数ショット学習における先行研究は、カテゴリ間の関係を効果的に活用することにはあまり注意を払わなかった。 本稿では,階層情報を利用して,基本クラスの識別的・関連する特徴を活用し,新規なオブジェクトを効果的に分類する。 これらの特徴はベースクラスの豊富なデータから抽出され、不足しているクラスを合理的に記述するのに利用できる。 具体的には、ファインショットインスタンスセグメンテーション(FSIS)のためのきめ細かいクラスとして、ベースクラスと新規クラスの階層を自動的に生成する新しいスーパークラスアプローチを提案する。 階層的な情報に基づいて、同じスーパークラスのクラスの特徴や特徴を抽出するソフトマルチスーパークラス(SMS)と呼ばれる新しいフレームワークを設計する。 スーパークラスに割り当てられた新しいクラスは、これらの機能を利用することで分類が容易になる。 さらに,fsisで階層型検出器を効果的に訓練するために,ラベル改良を行い,細粒度クラス間の関係をより詳細に記述する。 広範な実験により,fsisベンチマークにおける本手法の有効性が実証された。 コードはオンラインで入手できる。

Few-shot learning is proposed to tackle the problem of scarce training data in novel classes. However, prior works in instance-level few-shot learning have paid less attention to effectively utilizing the relationship between categories. In this paper, we exploit the hierarchical information to leverage discriminative and relevant features of base classes to effectively classify novel objects. These features are extracted from abundant data of base classes, which could be utilized to reasonably describe classes with scarce data. Specifically, we propose a novel superclass approach that automatically creates a hierarchy considering base and novel classes as fine-grained classes for few-shot instance segmentation (FSIS). Based on the hierarchical information, we design a novel framework called Soft Multiple Superclass (SMS) to extract relevant features or characteristics of classes in the same superclass. A new class assigned to the superclass is easier to classify by leveraging these relevant features. Besides, in order to effectively train the hierarchy-based-detector in FSIS, we apply the label refinement to further describe the associations between fine-grained classes. The extensive experiments demonstrate the effectiveness of our method on FSIS benchmarks. Code is available online.
翻訳日:2023-04-18 19:02:47 公開日:2023-04-15
# 時系列異常検出のためのコンテキスト対応ドメイン適応

Context-aware Domain Adaptation for Time Series Anomaly Detection ( http://arxiv.org/abs/2304.07453v1 )

ライセンス: Link先を確認
Kwei-Herng Lai, Lan Wang, Huiyuan Chen, Kaixiong Zhou, Fei Wang, Hao Yang, Xia Hu(参考訳) 時系列異常検出は、幅広い現実世界の応用において難しい課題である。 ラベルのスパーシティのため、深い異常検出器の訓練はしばしば教師なしのアプローチに依存する。 近年,類似分野の知識を活用するため,時系列領域適応への取り組みが進められている。 しかし、既存の解は、その多様性と疎さにより異常な知識伝達に悩まされる可能性がある。 2つのドメイン間のコンテキストアライメントに関する経験的研究を動機付け,2つのドメインのコンテキスト情報を適応的にサンプリングすることで,2つのドメイン間の知識の伝達を目指す。 これは、ソースドメインからラベル情報を活用しながら、複雑なドメイン内時間依存とドメイン間相関を同時にモデル化する必要があるため、難しい。 そこで本研究では,コンテキストサンプリングと異常検出を組み合わせた共同学習手法を提案する。 我々は、マルコフ決定プロセスにコンテキストサンプリングを定式化し、文脈サンプリングによる時系列ドメイン適応プロセスを最適化するために深層強化学習を利用する。 3つの公開データセットの実験では、2つの類似したドメインと2つの全く異なるドメイン間の知識伝達が約束されている。

Time series anomaly detection is a challenging task with a wide range of real-world applications. Due to label sparsity, training a deep anomaly detector often relies on unsupervised approaches. Recent efforts have been devoted to time series domain adaptation to leverage knowledge from similar domains. However, existing solutions may suffer from negative knowledge transfer on anomalies due to their diversity and sparsity. Motivated by the empirical study of context alignment between two domains, we aim to transfer knowledge between two domains via adaptively sampling context information for two domains. This is challenging because it requires simultaneously modeling the complex in-domain temporal dependencies and cross-domain correlations while exploiting label information from the source domain. To this end, we propose a framework that combines context sampling and anomaly detection into a joint learning procedure. We formulate context sampling into the Markov decision process and exploit deep reinforcement learning to optimize the time series domain adaptation process via context sampling and design a tailored reward function to generate domain-invariant features that better align two domains for anomaly detection. Experiments on three public datasets show promise for knowledge transfer between two similar domains and two entirely different domains.
翻訳日:2023-04-18 19:02:29 公開日:2023-04-15
# スパース正規化による積分解析における多変量回帰モデル

Multivariate regression modeling in integrative analysis via sparse regularization ( http://arxiv.org/abs/2304.07451v1 )

ライセンス: Link先を確認
Shuichi Kawano, Toshikazu Fukushima, Junichi Nakagawa, Mamoru Oshiki(参考訳) 多変量回帰モデルは基本的に、複数の応答を持つ単一のデータセットの分析を提供する。 しかし、このような単一データセット分析は、しばしば不十分な結果をもたらす。 統合分析は、複数の独立したデータセットから有用な情報をプールする効果的な方法であり、シングルデータセット分析よりも優れたパフォーマンスを提供する。 本研究では,積分解析における多変量回帰モデルを提案する。 この統合は、変数とグループ選択を実行するスパース推定によって達成される。 乗算器の交互方向法という考え方に基づき,収束特性を享受する計算アルゴリズムを開発した。 提案手法の性能をモンテカルロシミュレーションおよび微生物測定による排水処理データの解析により実証した。

The multivariate regression model basically offers the analysis of a single dataset with multiple responses. However, such a single-dataset analysis often leads to unsatisfactory results. Integrative analysis is an effective method to pool useful information from multiple independent datasets and provides better performance than single-dataset analysis. In this study, we propose a multivariate regression modeling in integrative analysis. The integration is achieved by sparse estimation that performs variable and group selection. Based on the idea of alternating direction method of multipliers, we develop its computational algorithm that enjoys the convergence property. The performance of the proposed method is demonstrated through Monte Carlo simulation and analyzing wastewater treatment data with microbe measurements.
翻訳日:2023-04-18 19:02:10 公開日:2023-04-15
# 音楽類似性に基づく検索と自動タグ付けにおけるメトリック学習のための自己教師付き補助損失

Self-supervised Auxiliary Loss for Metric Learning in Music Similarity-based Retrieval and Auto-tagging ( http://arxiv.org/abs/2304.07449v1 )

ライセンス: Link先を確認
Taketo Akama, Hiroaki Kitano, Katsuhiro Takematsu, Yasushi Miyajima, and Natalia Polouliakh(参考訳) 音楽情報検索の分野では、類似性に基づく検索と自動タグ付けが不可欠である。 人間の監視信号の制限と非スケーリング性を考えると、モデルが代替ソースから学習し、性能を高めることが重要である。 音楽音声データから得られる学習信号にのみ依存する自己教師型学習は,その効果を自動タグ付けの文脈で実証している。 本研究では,自己教師付き補助的損失を伴う計量学習手法を導入することにより,類似性に基づく検索課題に対処する自己教師型学習アプローチに基づくモデルを提案する。 さらに,従来の自己教師あり学習手法から逸脱し,事前学習モデルの凍結を伴わずに自己監督信号と監督信号の両方でモデルを同時に訓練する利点を見出した。 また, 微調整期間中の増員を控えることで, 良好な結果が得られた。 実験の結果,提案手法は,すべての楽曲に対して,人称タグが一貫して利用可能である場合と,そのタグが一部の楽曲に対してのみアクセス可能な場合の2つの異なるシナリオにおいて,検索とタグ付けのパフォーマンス指標を強化することが確認された。

In the realm of music information retrieval, similarity-based retrieval and auto-tagging serve as essential components. Given the limitations and non-scalability of human supervision signals, it becomes crucial for models to learn from alternative sources to enhance their performance. Self-supervised learning, which exclusively relies on learning signals derived from music audio data, has demonstrated its efficacy in the context of auto-tagging. In this study, we propose a model that builds on the self-supervised learning approach to address the similarity-based retrieval challenge by introducing our method of metric learning with a self-supervised auxiliary loss. Furthermore, diverging from conventional self-supervised learning methodologies, we discovered the advantages of concurrently training the model with both self-supervision and supervision signals, without freezing pre-trained models. We also found that refraining from employing augmentation during the fine-tuning phase yields better results. Our experimental results confirm that the proposed methodology enhances retrieval and tagging performance metrics in two distinct scenarios: one where human-annotated tags are consistently available for all music tracks, and another where such tags are accessible only for a subset of tracks.
翻訳日:2023-04-18 19:02:02 公開日:2023-04-15
# 多目的最適化とアクティブラーニングによる材料の完全自律設計のためのフレームワーク:挑戦と次のステップ

A framework for fully autonomous design of materials via multiobjective optimization and active learning: challenges and next steps ( http://arxiv.org/abs/2304.07445v1 )

ライセンス: Link先を確認
Tyler H. Chang and Jakob R. Elias and Stefan M. Wild and Santanu Chaudhuri and Joseph A. Libera(参考訳) データ取得にコストがかかり、競合する設計基準が複数存在する現実の自動運転ラボに機械学習をデプロイするためには、システムはパフォーマンスのトレードオフと制約のバランスを保ちながらインテリジェントにサンプリングできる必要がある。 これらの理由から,機械学習モデルを継続的に更新することで,多目的ブラックボックス最適化に基づくアクティブな学習プロセスを提案する。 このワークフローは、リアルタイムデータストリーミングとモジュール化された多目的最適化ソフトウェア開発のためのオープンソースの技術に基づいている。 2,2,2-トリフルオロエチルメチル炭酸塩の理想的な製造条件を特定する連続フロー化学実験室の自律運転を通じて,このワークフローの概念実証を行う。

In order to deploy machine learning in a real-world self-driving laboratory where data acquisition is costly and there are multiple competing design criteria, systems need to be able to intelligently sample while balancing performance trade-offs and constraints. For these reasons, we present an active learning process based on multiobjective black-box optimization with continuously updated machine learning models. This workflow is built on open-source technologies for real-time data streaming and modular multiobjective optimization software development. We demonstrate a proof of concept for this workflow through the autonomous operation of a continuous-flow chemistry laboratory, which identifies ideal manufacturing conditions for the electrolyte 2,2,2-trifluoroethyl methyl carbonate.
翻訳日:2023-04-18 19:01:40 公開日:2023-04-15
# 数発迷彩動物検出とセグメンテーション

Few-shot Camouflaged Animal Detection and Segmentation ( http://arxiv.org/abs/2304.07444v1 )

ライセンス: Link先を確認
Thanh-Danh Nguyen, Anh-Khoa Nguyen Vu, Nhat-Duy Nguyen, Vinh-Tiep Nguyen, Thanh Duc Ngo, Thanh-Toan Do, Minh-Triet Tran, and Tam V. Nguyen(参考訳) camouflaged object detection and segmentationはコンピュータビジョンにおける新しい挑戦的な研究テーマである。 自然の場面では迷彩動物などの迷彩物のデータが欠落しているという深刻な問題がある。 本稿では,カモフラージュ物体検出とセグメンテーションのためのマイズショット学習の課題について述べる。 この目的のために、ベンチマークのためにまず新しいデータセットであるCAMO-FSを収集します。 次に,画像中の擬似物体を効率的に検出し,分割する手法を提案する。 特に、インスタンス三重項損失とインスタンスメモリストレージを導入します。 提案手法は,新たに収集したデータセットの最先端性能を実現することを実証した。

Camouflaged object detection and segmentation is a new and challenging research topic in computer vision. There is a serious issue of lacking data of camouflaged objects such as camouflaged animals in natural scenes. In this paper, we address the problem of few-shot learning for camouflaged object detection and segmentation. To this end, we first collect a new dataset, CAMO-FS, for the benchmark. We then propose a novel method to efficiently detect and segment the camouflaged objects in the images. In particular, we introduce the instance triplet loss and the instance memory storage. The extensive experiments demonstrated that our proposed method achieves state-of-the-art performance on the newly collected dataset.
翻訳日:2023-04-18 19:01:27 公開日:2023-04-15
# グラディエントなしで量子ニューラルネットワークを最適化する学習

Learning To Optimize Quantum Neural Network Without Gradients ( http://arxiv.org/abs/2304.07442v1 )

ライセンス: Link先を確認
Ankit Kulshrestha, Xiaoyuan Liu, Hayato Ushijima-Mwesigwa, Ilya Safro(参考訳) 量子機械学習(Quantum Machine Learning)は、量子状態にデータをエンコードすることでパターン認識タスクを実行することを目的とした、機械学習の新たなサブフィールドである。 古典的領域から量子領域へのこの拡張は、古典的コンピュータ上で動作する勾配に基づくアルゴリズムを用いてパラメータ化量子回路を最適化できるハイブリッド量子古典的アルゴリズムの開発によって可能になった。 これらのハイブリッドアルゴリズムと古典的ニューラルネットワークのトレーニングにおける類似性は、さらに量子ニューラルネットワーク(QNN)の開発につながっている。 しかし、現在のQNNのトレーニングシステムでは、量子デバイス上での勾配w.r.t目的関数を計算する必要がある。 この計算は難解であり、現在の世代の量子ハードウェアに存在するハードウェアやサンプリングノイズの影響を受けている。 本稿では,勾配情報に依存しない学習アルゴリズムを提案する。 具体的には、目的関数が最小となるように量子回路のパラメータを出力するために、emph{meta-optimizer}ネットワークをトレーニングする新しいメタ最適化アルゴリズムを導入する。 実験的および理論的に、既存の勾配に基づくアルゴリズムよりも少ない回路評価で品質の最小値が得られることを示した。

Quantum Machine Learning is an emerging sub-field in machine learning where one of the goals is to perform pattern recognition tasks by encoding data into quantum states. This extension from classical to quantum domain has been made possible due to the development of hybrid quantum-classical algorithms that allow a parameterized quantum circuit to be optimized using gradient based algorithms that run on a classical computer. The similarities in training of these hybrid algorithms and classical neural networks has further led to the development of Quantum Neural Networks (QNNs). However, in the current training regime for QNNs, the gradients w.r.t objective function have to be computed on the quantum device. This computation is highly non-scalable and is affected by hardware and sampling noise present in the current generation of quantum hardware. In this paper, we propose a training algorithm that does not rely on gradient information. Specifically, we introduce a novel meta-optimization algorithm that trains a \emph{meta-optimizer} network to output parameters for the quantum circuit such that the objective function is minimized. We empirically and theoretically show that we achieve a better quality minima in fewer circuit evaluations than existing gradient based algorithms on different datasets.
翻訳日:2023-04-18 19:01:15 公開日:2023-04-15
# 自閉症スペクトラム障害におけるソーシャルスキルのバーチャルリアリティトレーニング--受容性、ユーザビリティ、ユーザエクスペリエンス、ソーシャルスキル、エグゼクティブ機能の検討

Virtual Reality Training of Social Skills in Autism Spectrum Disorder: An Examination of Acceptability, Usability, User Experience, Social Skills, and Executive Functions ( http://arxiv.org/abs/2304.07498v1 )

ライセンス: Link先を確認
Panagiotis Kourtesis, Evangelia-Chrysanthi Kouklari, Petros Roussos, Vasileios Mantas, Katerina Papanikolaou, Christos Skaloumbakas, Artemios Pehlivanidis(参考訳) 自閉症スペクトラム障害(ASD)における社会的スキルの低下は、日常生活における自立の低下と関連している。 ASDを持つ個人の社会的スキルを改善するための現在の介入は、現実の社会的設定や状況の複雑さを表すことができない。 バーチャルリアリティ(VR)は、現実に近づいた社会環境や状況における社会的スキルトレーニングを促進する可能性があるが、ASDにおけるVRシステムの受容性、ユーザビリティ、ユーザエクスペリエンスといった側面を解明するためには、さらなる研究が必要である。 asdの25名の参加者は、神経心理学的評価とvrソーシャルスキルトレーニングの3つのセッションに参加し、それぞれに難易度3の5つのソーシャルシナリオを取り入れた。 参加者は高い受容性、システムユーザビリティ、ユーザエクスペリエンスを報告した。 ソーシャルシナリオのパフォーマンス,自己報告,エグゼクティブ機能との間に有意な相関が認められた。 ワーキングメモリと計画能力は、それぞれASDとVRシステムのユーザビリティを認識する機能レベルの重要な予測要因であった。 しかし、ソーシャルシナリオのパフォーマンスは、ASDにおけるユーザビリティ、アクセプタビリティ、機能レベルの最高の予測要因でした。 計画能力は、社会的シナリオにおけるパフォーマンスを実質的に予測し、社会的スキルの含意を仮定する。 没入型VRソーシャルスキルトレーニングは、ASDを持つ個人に有効であるように見えるが、個人のニーズに適応したエラーのないアプローチが望ましい。

Poor social skills in autism spectrum disorder (ASD) are associated with reduced independence in daily life. Current interventions for improving the social skills of individuals with ASD fail to represent the complexity of real-life social settings and situations. Virtual reality (VR) may facilitate social skills training in social environments and situations proximal to real life, however, more research is needed for elucidating aspects such as the acceptability, usability, and user experience of VR systems in ASD. Twenty-five participants with ASD attended a neuropsychological evaluation and three sessions of VR social skills training, incorporating five (5) social scenarios with three difficulty levels for each. Participants reported high acceptability, system usability, and user experience. Significant correlations were observed between performance in social scenarios, self-reports, and executive functions. Working memory and planning ability were significant predictors of functionality level in ASD and the VR system's perceived usability respectively. Yet, performance in social scenarios was the best predictor of usability, acceptability, and functionality level in ASD. Planning ability substantially predicted performance in social scenarios, postulating an implication in social skills. Immersive VR social skills training appears effective in individuals with ASD, yet an error-less approach, which is adaptive to the individual's needs, should be preferred.
翻訳日:2023-04-18 18:54:58 公開日:2023-04-15
# salientgrads: コミュニケーション効率とデータ認識型分散フェデレーショントレーニングのためのスパースモデル

SalientGrads: Sparse Models for Communication Efficient and Data Aware Distributed Federated Training ( http://arxiv.org/abs/2304.07488v1 )

ライセンス: Link先を確認
Riyasat Ohib, Bishal Thapaliya, Pratyush Gaggenapalli, Jingyu Liu, Vince Calhoun, Sergey Plis(参考訳) フェデレーション学習(fl)は、データを収集しないプライバシを維持しながら、クライアントサイトにおける分散データを活用するモデルのトレーニングを可能にする。 しかしながら、flの重要な課題の1つは、リソース制限されたエッジクライアントノードでの計算の制限と通信帯域の低さである。 これに対処するため、近年、スパースモデルの送信や動的マスクの反復学習など、いくつかのソリューションが提案されている。 しかしながら、これらの手法の多くは、アドホックまたはランダムプルーニング基準に基づいてトレーニングプロセス全体を通してモデルの重みを伝達することに依存している。 本研究では,salient gradsを提案する。salient gradsは,ローカルクライアントデータから算出したモデルパラメータのsaliencyスコアに基づいて,トレーニング前のデータ認識サブネットワークを選択することで,スパーストレーニングのプロセスを単純化する。 さらに、トレーニングプロセス中にサーバモデルとクライアントモデルの間で非常に疎い勾配だけが送信されます。 また,本手法の有効性を実世界連合学習アプリケーションで実証し,壁時計通信時間の改善を報告した。

Federated learning (FL) enables the training of a model leveraging decentralized data in client sites while preserving privacy by not collecting data. However, one of the significant challenges of FL is limited computation and low communication bandwidth in resource limited edge client nodes. To address this, several solutions have been proposed in recent times including transmitting sparse models and learning dynamic masks iteratively, among others. However, many of these methods rely on transmitting the model weights throughout the entire training process as they are based on ad-hoc or random pruning criteria. In this work, we propose Salient Grads, which simplifies the process of sparse training by choosing a data aware subnetwork before training, based on the model-parameter's saliency scores, which is calculated from the local client data. Moreover only highly sparse gradients are transmitted between the server and client models during the training process unlike most methods that rely on sharing the entire dense model in each round. We also demonstrate the efficacy of our method in a real world federated learning application and report improvement in wall-clock communication time.
翻訳日:2023-04-18 18:54:35 公開日:2023-04-15
# シーンセマンティックセグメンテーションのための地域機能学習

Region-Enhanced Feature Learning for Scene Semantic Segmentation ( http://arxiv.org/abs/2304.07486v1 )

ライセンス: Link先を確認
Xin Kang, Chaoqun Wang, Xuejin Chen(参考訳) 複雑なシーンにおける意味セグメンテーションは、局所的なオブジェクトの外観だけでなく、オブジェクトの位置や周囲の環境にも依存する。 しかし, 大規模点雲の計算コストが大きいため, 対角点相関の形式による長距離コンテキストのモデル化は困難であり, 本論文では, 微粒点やボクセルではなく, 点雲の中間表現として領域を用いて計算負担を削減することを提案する。 本稿では、領域相関を利用して曖昧な点の特徴を高める新しい領域拡張特徴学習ネットワーク(REFL-Net)を提案する。 本研究では,意味空間領域抽出 (SSRE) 段階と領域依存モデリング (RDM) 段階からなる領域ベース特徴拡張モジュール (RFE) を設計する。 SSREの段階では,入力点を意味空間と空間空間の両方の点距離に応じて一組の領域に分類し,RDMの部分では,領域特徴の自己注意ブロックと領域特徴の融合点特徴による領域的意味と空間的関係を探索し,より識別的な表現を得る。 提案するRFEモジュールは,一般的なセマンティックセグメンテーションバックボーンと統合可能なプラグイン・アンド・プレイモジュールである。 ScanNetv2とS3DISデータセットに関する広範な実験を行い、異なるセグメンテーションバックボーンでRFEモジュールを評価する。 我々のREFL-NetはScanNetv2の1.8% mIoUゲインとS3DISの1.0% mIoUゲインを、バックボーンネットワークと比較して無視できる計算コストで達成している。 定量的および定性的な結果から,refl-netの強力な長距離文脈モデリング能力と強汎化能力を示す。

Semantic segmentation in complex scenes not only relies on local object appearance but also on object locations and the surrounding environment. Nonetheless, it is difficult to model long-range context in the format of pairwise point correlations due to its huge computational cost for large-scale point clouds.In this paper, we propose to use regions as the intermediate representation of point clouds instead of fine-grained points or voxels to reduce the computational burden. We introduce a novel Region-Enhanced Feature Learning network (REFL-Net) that leverages region correlations to enhance the features of ambiguous points. We design a Region-based Feature Enhancement module (RFE) which consists of a Semantic-Spatial Region Extraction (SSRE) stage and a Region Dependency Modeling (RDM) stage. In the SSRE stage, we group the input points into a set of regions according to the point distances in both semantic and spatial space.In the RDM part, we explore region-wise semantic and spatial relationships via a self-attention block on region features and fuse point features with the region features to obtain more discriminative representations. Our proposed RFE module is a plug-and-play module that can be integrated with common semantic segmentation backbones. We conduct extensive experiments on ScanNetv2 and S3DIS datasets, and evaluate our RFE module with different segmentation backbones. Our REFL-Net achieves 1.8% mIoU gain on ScanNetv2 and 1.0% mIoU gain on S3DIS respectively with negligible computational cost compared to the backbone networks. Both quantitative and qualitative results show the powerful long-range context modeling ability and strong generalization ability of our REFL-Net.
翻訳日:2023-04-18 18:54:14 公開日:2023-04-15
# 未知力学系のロバスト進化演算子学習のための臨界サンプリング

Critical Sampling for Robust Evolution Operator Learning of Unknown Dynamical Systems ( http://arxiv.org/abs/2304.07485v1 )

ライセンス: Link先を確認
Ce Zhang, Kailiang Wu, Zhihai He(参考訳) 未知の力学系を考えると、その統治法則の効果的な学習と将来の進化の正確な予測に必要なサンプルの最小数と、これらの臨界試料をどうやって選択するか。 そこで本研究では,設計アプローチに基づくこの問題について検討する。 少数の初期サンプルから始めて、システム進化のより正確な学習を実現するために、臨界サンプルを適応的に発見する。 ここでの課題の1つは、地平系状態が未知であるため、ネットワークモデリングエラーを知らないことですが、これはクリティカルサンプリングに必要です。 この課題に対処するために,前向きと後向きの進化ネットワークをそれぞれ前向きと後向きの時間方向の時間的進化の挙動を学習する多段階の相互予測ネットワークを提案する。 非常に興味深いことに、所望のネットワークモデリング誤差は、現在のシステム状態から直接計算できる多段階相互予測誤差と高い相関関係にあることがわかった。 これにより、動的システムに対する高いネットワークモデリング誤差を持つ領域から臨界サンプルを動的に選択できる。 さらに、空間力学モデリングを時間的進化予測に組み込んだ共同時空間進化ネットワークを導入し、システム進化演算子を少数のサンプルで頑健に学習する。 提案手法は,未知力学系の効果的な学習に必要なサンプル数を劇的に削減し,未知力学系の進化挙動を正確に予測できることが実証された。

Given an unknown dynamical system, what is the minimum number of samples needed for effective learning of its governing laws and accurate prediction of its future evolution behavior, and how to select these critical samples? In this work, we propose to explore this problem based on a design approach. Starting from a small initial set of samples, we adaptively discover critical samples to achieve increasingly accurate learning of the system evolution. One central challenge here is that we do not know the network modeling error since the ground-truth system state is unknown, which is however needed for critical sampling. To address this challenge, we introduce a multi-step reciprocal prediction network where forward and backward evolution networks are designed to learn the temporal evolution behavior in the forward and backward time directions, respectively. Very interestingly, we find that the desired network modeling error is highly correlated with the multi-step reciprocal prediction error, which can be directly computed from the current system state. This allows us to perform a dynamic selection of critical samples from regions with high network modeling errors for dynamical systems. Additionally, a joint spatial-temporal evolution network is introduced which incorporates spatial dynamics modeling into the temporal evolution prediction for robust learning of the system evolution operator with few samples. Our extensive experimental results demonstrate that our proposed method is able to dramatically reduce the number of samples needed for effective learning and accurate prediction of evolution behaviors of unknown dynamical systems by up to hundreds of times.
翻訳日:2023-04-18 18:53:42 公開日:2023-04-15
# 一つのビデオクリップを超えたビデオ生成

Video Generation Beyond a Single Clip ( http://arxiv.org/abs/2304.07483v1 )

ライセンス: Link先を確認
Hsin-Ping Huang, Yu-Chuan Su, Ming-Hsuan Yang(参考訳) 我々は、ビデオ生成モデルの出力長を超えるビデオの生成という長大な問題に取り組む。 計算資源の制約により、ビデオ生成モデルは実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。 既存の作業では、リカレントイベントや同種コンテンツの生成に制限される長いビデオを推論時に生成するためのスライディングウィンドウアプローチを採用している。 多様なコンテンツやイベントをカバーする長編ビデオを生成するために,動画生成プロセスを制御するための追加ガイダンスを提案する。 さらに,この問題に対する2段階のアプローチを提案することで,既存の映像生成モデルを用いて,入力指導に基づいて映像をモデル化しながら,短時間で高品質な映像を生成できる。 提案手法は,固定時間内にリアルな映像を生成することに焦点を当てた映像生成への既存の取り組みを補完するものである。 実世界のビデオに挑戦する大規模な実験により、提案手法の利点が検証され、客観的な指標の最大9.5%の改善が達成され、80%以上のユーザが好んでいる。

We tackle the long video generation problem, i.e.~generating videos beyond the output length of video generation models. Due to the computation resource constraints, video generation models can only generate video clips that are relatively short compared with the length of real videos. Existing works apply a sliding window approach to generate long videos at inference time, which is often limited to generating recurrent events or homogeneous content. To generate long videos covering diverse content and multiple events, we propose to use additional guidance to control the video generation process. We further present a two-stage approach to the problem, which allows us to utilize existing video generation models to generate high-quality videos within a small time window while modeling the video holistically based on the input guidance. The proposed approach is complementary to existing efforts on video generation, which focus on generating realistic video within a fixed time window. Extensive experiments on challenging real-world videos validate the benefit of the proposed method, which improves over state-of-the-art by up to 9.5% in objective metrics and is preferred by users more than 80% of time.
翻訳日:2023-04-18 18:53:21 公開日:2023-04-15
# pt対称フィードバック誘起線幅狭化

PT-symmetric feedback induced linewidth narrowing ( http://arxiv.org/abs/2304.07475v1 )

ライセンス: Link先を確認
Yuanjiang Tang, Chao Liang, Xin Wen, Weipeng Li, An-Ning Xu and Yong-Chun Liu(参考訳) 細線幅は精度測定とセンシングにおいて長い目標である。 共振系の直線幅を狭めるために,パリティ時間(PT)対称フィードバック法を提案する。 1次測定フィードバックループを用いることで、散逸共振系をPT対称系に変換する。 通常2つ以上のモードを必要とする従来のPT対称システムとは異なり、PT対称フィードバックシステムは単一の共振モードのみを含み、アプリケーションの範囲を大きく広げる。 この方法は、目覚ましい線幅狭化と測定感度の向上を可能にする。 この概念を原子の熱アンサンブルで説明し、48倍の磁気共鳴線幅の狭さを実現する。 本手法を磁気計測に適用することにより,22倍の感度向上を実現した。 この研究は、フィードバックを持つ共鳴系における非エルミート物理学と高精度測定の道を開く。

Narrow linewidth is a long-pursuing goal in precision measurement and sensing. We propose a parity-time (PT )-symmetric feedback method to narrow the linewidths of resonance systems. By using a quadrature measurement-feedback loop, we transform a dissipative resonance system into a PT-symmetric system. Different from the conventional PT-symmetric systems which typically require two or more modes, here the PT-symmetric feedback system contains only a single resonance mode, which greatly extends the scope of applications. The method enables remarkable linewidth narrowing and enhancement of measurement sensitivity. We illustrate the concept in a thermal ensemble of atoms, achieving a 48-fold narrowing of the magnetic resonance linewidth. By applying the method in magnetometry, we realize 22-times improvement of the measurement sensitivity. This work opens the avenue for studying non-Hermitian physics and high-precision measurements in resonance systems with feedback.
翻訳日:2023-04-18 18:53:03 公開日:2023-04-15
# ビデオ圧縮センシングのための階層型インタラクティブリコンストラクションネットワーク

Hierarchical Interactive Reconstruction Network For Video Compressive Sensing ( http://arxiv.org/abs/2304.07473v1 )

ライセンス: Link先を確認
Tong Zhang, Wenxue Cui, Chen Hui, Feng Jiang(参考訳) 近年,深層ネットワークベースの画像・映像圧縮センシング(cs)が注目されている。 しかし、既存の深層ネットワークベースのcs法では、単純な重ね合わせ畳み込みネットワークが採用されており、リッチな事前知識の知覚を弱めるだけでなく、時間軸映像フレーム間の相関関係の探索を制限している。 本稿では,空間領域と時間領域の両方の深部前処理を協調して活用し,再構成品質を向上させる階層型インタラクティブビデオcs再構成ネットワーク(hit-vcsnet)を提案する。 特に空間領域では、キーフレームや非キーフレームから深い特徴を階層的に抽出できる新しい階層構造が設計されている。 時間領域では,多スケール空間における異なるフレーム間の相関を協調的に学習できる新しい階層的相互作用機構が提案されている。 HIT-VCSNetは、既存の最先端ビデオや画像CSの手法よりも大きなマージンで優れていることを示す。

Deep network-based image and video Compressive Sensing(CS) has attracted increasing attentions in recent years. However, in the existing deep network-based CS methods, a simple stacked convolutional network is usually adopted, which not only weakens the perception of rich contextual prior knowledge, but also limits the exploration of the correlations between temporal video frames. In this paper, we propose a novel Hierarchical InTeractive Video CS Reconstruction Network(HIT-VCSNet), which can cooperatively exploit the deep priors in both spatial and temporal domains to improve the reconstruction quality. Specifically, in the spatial domain, a novel hierarchical structure is designed, which can hierarchically extract deep features from keyframes and non-keyframes. In the temporal domain, a novel hierarchical interaction mechanism is proposed, which can cooperatively learn the correlations among different frames in the multiscale space. Extensive experiments manifest that the proposed HIT-VCSNet outperforms the existing state-of-the-art video and image CS methods in a large margin.
翻訳日:2023-04-18 18:52:51 公開日:2023-04-15
# ユニバーサルカーネル学習のための効率的な凸アルゴリズム

Efficient Convex Algorithms for Universal Kernel Learning ( http://arxiv.org/abs/2304.07472v1 )

ライセンス: Link先を確認
Aleksandr Talitckii and Brendon K. Colbert and Matthew M. Peet(参考訳) カーネル最適化に基づく機械学習アルゴリズムの精度と複雑さは、最適化が可能なカーネルの集合によって決定される。 カーネルの理想的な集合は、線形パラメータ化(トラクタビリティ)を認めること、全てのカーネルの集合において(堅牢性のために)密にすること、(正確性のために)普遍であることである。 近年,正行列を用いて正半分離核のクラスをパラメータ化するためのフレームワークが提案されている。 このクラスは3つの基準すべてを満たすことが示されるが、これらのカーネルを最適化するための以前のアルゴリズムは分類に限られており、さらに計算に複雑な半有限計画法(SDP)アルゴリズムに依存していた。 本稿では, 半分離カーネルの学習問題を最小最適化問題として取り上げ, 従来のSDP法と比較して計算複雑性を劇的に低減するSVD-QCQP法を提案する。 さらに、このアルゴリズムを分類と回帰の両方に効果的に実装し、100個の特徴と30,000個のダタムの問題を解くことができる実装を提供する。 最後に、ベンチマークデータに適用すると、このアルゴリズムは、ニューラルネットやランダムフォレストのような一般的な(しかし非凸)アプローチよりも、同様のあるいはより良い計算時間で精度が大幅に向上する可能性を示す。

The accuracy and complexity of machine learning algorithms based on kernel optimization are determined by the set of kernels over which they are able to optimize. An ideal set of kernels should: admit a linear parameterization (for tractability); be dense in the set of all kernels (for robustness); be universal (for accuracy). Recently, a framework was proposed for using positive matrices to parameterize a class of positive semi-separable kernels. Although this class can be shown to meet all three criteria, previous algorithms for optimization of such kernels were limited to classification and furthermore relied on computationally complex Semidefinite Programming (SDP) algorithms. In this paper, we pose the problem of learning semiseparable kernels as a minimax optimization problem and propose a SVD-QCQP primal-dual algorithm which dramatically reduces the computational complexity as compared with previous SDP-based approaches. Furthermore, we provide an efficient implementation of this algorithm for both classification and regression -- an implementation which enables us to solve problems with 100 features and up to 30,000 datums. Finally, when applied to benchmark data, the algorithm demonstrates the potential for significant improvement in accuracy over typical (but non-convex) approaches such as Neural Nets and Random Forest with similar or better computation time.
翻訳日:2023-04-18 18:52:33 公開日:2023-04-15
# 微弱監視型サイバーセキュリティ異常検出

Few-shot Weakly-supervised Cybersecurity Anomaly Detection ( http://arxiv.org/abs/2304.07470v1 )

ライセンス: Link先を確認
Rahul Kale, Vrizlynn L. L. Thing(参考訳) インターネットベースの技術への依存が高まり、ユーザーの機密データを侵害するサイバー攻撃が普及している。 これらの攻撃の規模と頻度は急速に拡大し、インターネットに接続されたシステムやデバイスに影響している。 従来の防御機構は、複雑で常に変化する新しい脅威を扱うのに十分な装備が備わっていないかもしれない。 ディープラーニングを含む機械学習手法の大きなブレークスルーは、既存の異常検出方法をさらに強化するために、サイバーセキュリティ研究コミュニティから関心を集めていた。 残念ながら、新しく進化し洗練された攻撃に対するラベル付き異常データの収集は現実的ではない。 ラベル付きデータサンプルのみを使用した異常検出のための機械学習モデルのトレーニングとチューニングは現実的なアプローチである。 したがって、弱い監視された異常検出が奨励的な研究方向である。 本稿では,既存の少数ショットの弱教師付き深層学習異常検出フレームワークの強化を提案する。 このフレームワークには、データ拡張、表現学習、順序回帰が組み込まれている。 次に、NSL-KDD、CIC-IDS2018、TON_IoTの3つのベンチマークデータセット上で、実装したフレームワークの性能を評価した。

With increased reliance on Internet based technologies, cyberattacks compromising users' sensitive data are becoming more prevalent. The scale and frequency of these attacks are escalating rapidly, affecting systems and devices connected to the Internet. The traditional defense mechanisms may not be sufficiently equipped to handle the complex and ever-changing new threats. The significant breakthroughs in the machine learning methods including deep learning, had attracted interests from the cybersecurity research community for further enhancements in the existing anomaly detection methods. Unfortunately, collecting labelled anomaly data for all new evolving and sophisticated attacks is not practical. Training and tuning the machine learning model for anomaly detection using only a handful of labelled data samples is a pragmatic approach. Therefore, few-shot weakly supervised anomaly detection is an encouraging research direction. In this paper, we propose an enhancement to an existing few-shot weakly-supervised deep learning anomaly detection framework. This framework incorporates data augmentation, representation learning and ordinal regression. We then evaluated and showed the performance of our implemented framework on three benchmark datasets: NSL-KDD, CIC-IDS2018, and TON_IoT.
翻訳日:2023-04-18 18:52:13 公開日:2023-04-15
# バンクーバー北岸沿いの海面上昇のインタラクティブなオンライン地図の作成--沿岸地域社会のジオビジュアライゼーションの実現のための方法と考察

Generating an interactive online map of future sea level rise along the North Shore of Vancouver: methods and insights on enabling geovisualisation for coastal communities ( http://arxiv.org/abs/2304.07469v1 )

ライセンス: Link先を確認
Forrest DiPaola, Anshuman Bhardwaj and Lydia Sam(参考訳) 現代の海面上昇(SLR)研究は、地域社会に効果的な地形化を可能にすることはめったにない。 この知識伝達の欠如は、気候変動とその影響に対する意識を高めている。 本研究の目的は、高解像度な地理空間データや技術と対話できるオンラインのSLRマップを世に公開することである。 研究地域はカナダのブリティッシュコロンビア州バンクーバーのノースショアであった。 従来より粗い解像度 (10m+/ピクセル) のデジタル標高モデルが用いられてきたが、高分解能と垂直精度を有し、他の衛星画像よりも高い精度でツリーカバーを貫通できるオープンアクセス空中1mのライダーを探索した。 様々なSLRシナリオの浸水ゾーンを記述するために、水文学的な接続を伴う浴槽法モデルを用いており、ArcGISやQGISのような標準ツールを複雑なモデル、特に高解像度データと同様の精度で使用することができる。 ディープラーニングと3dビジュアライゼーションは、過去、現在、そして将来の土地利用/土地被覆と3dフライオーバーをモデル化するために使用された。 1m, 2m, 3m, 4m slrの海岸線, 地形, 土地利用への影響について詳細に検討した。 生成されたインタラクティブなオンラインマップは、地域コミュニティが海岸線の将来を視覚化し理解するのに役立ちます。 我々は、詳細な方法論を提供し、その方法と結果が他の領域でも容易に再現できるようにした。 このようなイニシアチブは、SLRに対する認識を高めるために、コミュニティ中心のジオビジュアライゼーションを広めるのに役立つ。

Contemporary sea level rise (SLR) research seldom considers enabling effective geovisualisation for the communities. This lack of knowledge transfer impedes raising awareness on climate change and its impacts. The goal of this study is to produce an online SLR map accessible to the public that allows them to interact with evolving high-resolution geospatial data and techniques. The study area was the North Shore of Vancouver, British Columbia, Canada. While typically coarser resolution (10m+/pixel) Digital Elevation Models have been used by previous studies, we explored an open access airborne 1 metre LiDAR which has a higher resolution and vertical accuracy and can penetrate tree cover at a higher degree than most satellite imagery. A bathtub method model with hydrologic connectivity was used to delineate the inundation zones for various SLR scenarios which allows for a not overly complex model and process using standard tools such as ArcGIS and QGIS with similar levels of accuracy as more complex models, especially with the high-resolution data. Deep Learning and 3D visualizations were used to create past, present, and modelled future Land Use/Land Cover and 3D flyovers. Analysis of the possible impacts of 1m, 2m, 3m, and 4m SLR over the unique coastline, terrain and land use was detailed. The generated interactive online map helps local communities visualise and understand the future of their coastlines. We have provided a detailed methodology and the methods and results are easily reproducible for other regions. Such initiatives can help popularise community-focused geovisualisation to raise awareness about SLR.
翻訳日:2023-04-18 18:51:57 公開日:2023-04-15
# STAS:マルチエージェント強化学習のための時空間回帰分解

STAS: Spatial-Temporal Return Decomposition for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2304.07520v1 )

ライセンス: Link先を確認
Sirui Chen, Zhaowei Zhang, Yali Du, Yaodong Yang(参考訳) 分散実行による集中訓練(CTDE)は協調型マルチエージェント強化学習(MARL)において有効なパラダイムであることが証明されている。 主要な課題の1つは、クレジット・アサインであり、これは彼らの貢献によるクレジット・エージェントを目指している。 先行研究は、暗黙的に結合値関数を分解するか、すべてのエージェントのペイオフ分布を明示的に計算することに焦点を当てている。 しかし、エピソードの終わりにグローバルな報酬が露呈できるエピソード強化学習環境では、既存の方法が機能しないのが普通である。 時間次元における遅れたグローバル報酬の複雑な関係をモデル化する機能がなく、大きなばらつきと偏見に悩まされている。 本稿では,時空間次元と時空間次元の両方でクレジット代入を学習する,Spatial-Temporal Attention with Shapley (STAS) という手法を提案する。 最初はグローバルリターンを各タイムステップに分解し、次にShapley Valueを使用して、分解されたグローバルリターンから個々のペイオフを再分配する。 シェープリー値の計算複雑性を軽減するため,余剰寄与の近似を導入し,モンテカルロサンプリングを用いてシェープリー値の推定を行う。 従来のalice & bobの例とマルチエージェント粒子環境ベンチマークを用いて,様々なシナリオで評価を行い,有効な空間的・時空間的クレジット割当を達成し,最先端のベースラインを上回っていることを示す。

Centralized Training with Decentralized Execution (CTDE) has been proven to be an effective paradigm in cooperative multi-agent reinforcement learning (MARL). One of the major challenges is yet credit assignment, which aims to credit agents by their contributions. Prior studies focus on either implicitly decomposing the joint value function or explicitly computing the payoff distribution of all agents. However, in episodic reinforcement learning settings where global rewards can only be revealed at the end of the episode, existing methods usually fail to work. They lack the functionality of modeling complicated relations of the delayed global reward in the temporal dimension and suffer from large variance and bias. We propose a novel method named Spatial-Temporal Attention with Shapley (STAS) for return decomposition; STAS learns credit assignment in both the temporal and the spatial dimension. It first decomposes the global return back to each time step, then utilizes Shapley Value to redistribute the individual payoff from the decomposed global reward. To mitigate the computational complexity of Shapley Value, we introduce an approximation of marginal contribution and utilize Monte Carlo sampling to estimate Shapley Value. We evaluate our method on the classical Alice & Bob example and Multi-agent Particle Environments benchmarks across different scenarios, and we show our methods achieve an effective spatial-temporal credit assignment and outperform all state-of-art baselines.
翻訳日:2023-04-18 18:45:59 公開日:2023-04-15
# 勝利へのコンピテンス:医療画像分割のための擬似ラベルの強化

Compete to Win: Enhancing Pseudo Labels for Barely-supervised Medical Image Segmentation ( http://arxiv.org/abs/2304.07519v1 )

ライセンス: Link先を確認
Huimin Wu, Xiaomeng Li, Yiqun Lin, and Kwang-Ting Cheng(参考訳) 本研究では,ラベル付きデータ,すなわち1桁の症例の少ない医療画像の分割について検討した。 我々は,最先端の半教師あり解の相互監督の鍵となる限界は,前景クラスの不満足な精度であり,ほとんど教師なし学習下での劣化の結果につながることを観察する。 本稿では,擬似ラベル品質を向上させるためのCompete-to-Win法(ComWin)を提案する。 1つのモデルの予測を疑似ラベルとして直接使用するのとは対照的に、我々の重要なアイデアは、異なるネットワークが生成する複数の信頼度マップを比較して、最も信頼度の高いものを選択することによって高品質な擬似ラベルを生成するべきであるということです。 境界認識エンハンスモジュールの統合により、境界付近の擬似ラベルをさらに洗練するため、comwinの強化バージョン、すなわちcomwin+が提案されている。 実験により,心臓構造分画,膵分画,大腸腫瘍分画の3つの医用画像データセットにおいて,本手法が最善の性能を発揮できることが判明した。 ソースコードはhttps://github.com/huiimin5/comwinで入手できる。

This study investigates barely-supervised medical image segmentation where only few labeled data, i.e., single-digit cases are available. We observe the key limitation of the existing state-of-the-art semi-supervised solution cross pseudo supervision is the unsatisfactory precision of foreground classes, leading to a degenerated result under barely-supervised learning. In this paper, we propose a novel Compete-to-Win method (ComWin) to enhance the pseudo label quality. In contrast to directly using one model's predictions as pseudo labels, our key idea is that high-quality pseudo labels should be generated by comparing multiple confidence maps produced by different networks to select the most confident one (a compete-to-win strategy). To further refine pseudo labels at near-boundary areas, an enhanced version of ComWin, namely, ComWin+, is proposed by integrating a boundary-aware enhancement module. Experiments show that our method can achieve the best performance on three public medical image datasets for cardiac structure segmentation, pancreas segmentation and colon tumor segmentation, respectively. The source code is now available at https://github.com/Huiimin5/comwin.
翻訳日:2023-04-18 18:45:32 公開日:2023-04-15
# s3m: 教師なし対応によるスケーラブルな統計形状モデリング

S3M: Scalable Statistical Shape Modeling through Unsupervised Correspondences ( http://arxiv.org/abs/2304.07515v1 )

ライセンス: Link先を確認
Lennart Bastian, Alexander Bauman, Emily Hoppe, Vincent B\"urgin, Ha Young Kim, Mahdi Saleh, Benjamin Busam, Nassir Navab(参考訳) 統計的形状モデル (SSM) は、様々な臨床応用の集団の解剖学を幾何学的に表現するための確立された方法である。 しかし、通常はドメインの専門知識と労働集約的な手作業のセグメンテーションやランドマークアノテーションが必要です。 SSMの対応を推定する方法は、一般に監視信号のようなラベルで学習する。 深層幾何学的特徴と機能的対応を利用して複雑な解剖学をまたいだ局所的および大域的形状構造を同時に学習する非教師付き手法を提案することで,これらの欠点に対処する。 本パイプラインは,高度に不規則な表面トポロジにおいても,ベースライン法と比較してssmsの教師なし対応推定を大幅に改善する。 甲状腺とマルチチャンバー心臓の2つの解剖学的構造について検討した。 さらに,本手法はノイズの多いニューラルネットワーク予測から学べるほど堅牢であり,手動のアノテーションを使わずにSSMを大規模患者に拡張することができる。

Statistical shape models (SSMs) are an established way to geometrically represent the anatomy of a population with various clinically relevant applications. However, they typically require domain expertise and labor-intensive manual segmentations or landmark annotations to generate. Methods to estimate correspondences for SSMs typically learn with such labels as supervision signals. We address these shortcomings by proposing an unsupervised method that leverages deep geometric features and functional correspondences to learn local and global shape structures across complex anatomies simultaneously. Our pipeline significantly improves unsupervised correspondence estimation for SSMs compared to baseline methods, even on highly irregular surface topologies. We demonstrate this for two different anatomical structures: the thyroid and a multi-chamber heart dataset. Furthermore, our method is robust enough to learn from noisy neural network predictions, enabling scaling SSMs to larger patient populations without manual annotation.
翻訳日:2023-04-18 18:45:09 公開日:2023-04-15
# PI-FL:パーソナライズド・インセンティブド・フェデレーションラーニング

PI-FL: Personalized and Incentivized Federated Learning ( http://arxiv.org/abs/2304.07514v1 )

ライセンス: Link先を確認
Ahmad Faraz Khan, Xinran Wang, Qi Le, Azal Ahmad Khan, Haider Ali, Jie Ding, Ali Butt, Ali Anwar(参考訳) パーソナライズされたFLは、非IIDデータによる異種性の課題に対応するために広く用いられている。 主な障害は、クライアントの視点からパーソナライズプロセスを考慮し、自律性を維持することである。 クライアントがパーソナライズされたFL決定に参加することは、クライアントが高品質なパーソナライズされたモデルを作成するのに必要な個人情報を共有する自由がないというプライバシーとセキュリティ上の懸念から重要になる。 さらに、高品質のデータとリソースを持つクライアントは、合理的なインセンティブなしにflプロセスに参加することを嫌っている。 本稿では,個人化学習に報いるトークンベースのインセンティブメカニズムを補完するワンショットパーソナライズソリューションPI-FLを提案する。 PI-FLは他の最先端アプローチよりも優れており、クライアントのプライバシーを尊重しながら高品質なパーソナライズされたモデルを生成することができる。

Personalized FL has been widely used to cater to heterogeneity challenges with non-IID data. A primary obstacle is considering the personalization process from the client's perspective to preserve their autonomy. Allowing the clients to participate in personalized FL decisions becomes significant due to privacy and security concerns, where the clients may not be at liberty to share private information necessary for producing good quality personalized models. Moreover, clients with high-quality data and resources are reluctant to participate in the FL process without reasonable incentive. In this paper, we propose PI-FL, a one-shot personalization solution complemented by a token-based incentive mechanism that rewards personalized training. PI-FL outperforms other state-of-the-art approaches and can generate good-quality personalized models while respecting clients' privacy.
翻訳日:2023-04-18 18:44:53 公開日:2023-04-15
# ホモフィリーを越えた多視点グラフ表現学習

Multi-View Graph Representation Learning Beyond Homophily ( http://arxiv.org/abs/2304.07509v1 )

ライセンス: Link先を確認
Bei Lin, You Li, Ning Gui, Zhuopeng Xu, Zhiwu Yu(参考訳) unsupervised graph representation learning(grl)の目的は、ラベルの監督なしに、さまざまなグラフ情報をタスクに依存しない埋め込みに蒸留することである。 ラベルからの支持が欠如しているため,近年の表現学習法では自己指導型学習が一般的であり,手作り補助タスク(いわゆるプレテキストタスク)を解くことで埋め込みが学習される。 しかしながら、グラフ内の不規則な非ユークリッドデータによって部分的には、前文のタスクは一般にホモフィリー仮定の下で設計され、低周波信号で分断され、他の信号、特にヘテロフィリーグラフに広く分布する高周波信号が著しく失われる。 この制限により、グラフ内の様々な信号を埋め込みに捉えるために、多視点視点と多様なプリテキストタスクの使用を提案する。 MVGE(Multi-view Graph Encoder)と呼ばれる新しいフレームワークを提案し,鍵設計の集合を同定した。 より具体的には、新しいプリテキストタスクのセットは、異なる種類の信号をエンコードするように設計され、属性と構造レベルの両方において、コモディティとパーソナライズの両方を維持するための簡単な操作がプロジェクツされる。 合成および実世界のネットワークデータセットに対する大規模な実験により、MVGEで学習したノード表現は、3つの下流タスク、特にヘテロフィリーグラフにおいて顕著なパフォーマンス向上を達成できた。 ソースコードは \url{https://github.com/G-AILab/MVGE} で入手できる。

Unsupervised graph representation learning(GRL) aims to distill diverse graph information into task-agnostic embeddings without label supervision. Due to a lack of support from labels, recent representation learning methods usually adopt self-supervised learning, and embeddings are learned by solving a handcrafted auxiliary task(so-called pretext task). However, partially due to the irregular non-Euclidean data in graphs, the pretext tasks are generally designed under homophily assumptions and cornered in the low-frequency signals, which results in significant loss of other signals, especially high-frequency signals widespread in graphs with heterophily. Motivated by this limitation, we propose a multi-view perspective and the usage of diverse pretext tasks to capture different signals in graphs into embeddings. A novel framework, denoted as Multi-view Graph Encoder(MVGE), is proposed, and a set of key designs are identified. More specifically, a set of new pretext tasks are designed to encode different types of signals, and a straightforward operation is propxwosed to maintain both the commodity and personalization in both the attribute and the structural levels. Extensive experiments on synthetic and real-world network datasets show that the node representations learned with MVGE achieve significant performance improvements in three different downstream tasks, especially on graphs with heterophily. Source code is available at \url{https://github.com/G-AILab/MVGE}.
翻訳日:2023-04-18 18:44:39 公開日:2023-04-15
# 知識認識推薦のための階層的・対比的表現学習

Hierarchical and Contrastive Representation Learning for Knowledge-aware Recommendation ( http://arxiv.org/abs/2304.07506v1 )

ライセンス: Link先を確認
Bingchao Wu, Yangyuxuan Kang, Daoguang Zan, Bei Guan, Yongji Wang(参考訳) 知識グラフをレコメンデーションに組み込むことは、データの分散を軽減する効果的な方法である。 既存の知識認識手法の多くは、グラフ近傍を列挙することで再帰的埋め込み伝播を行う。 しかしながら、ホップ数の増加に伴ってノードの隣接数が指数関数的に増加するため、ノードは高次意味関係を蒸留するためにこの再帰的伝播の下で巨大な隣人を認識することを余儀なくされる。 これは有用な情報よりも有害なノイズをレコメンデーションに誘発する可能性があり、学習されたノード表現は互いに区別できない。 この問題を解消するために,HiCON という知識認識型レコメンデーションのための階層的かつコントラシブな表現学習フレームワークを提案する。 具体的には、近傍の指数関数的拡大を避けるために、低次近傍とメタパス制約された高次近傍を分離して相互作用する階層的メッセージ集約機構を提案する。 さらに,より識別的な表現を強制するために,クロス・オーダー・コントラスト学習も行う。 3つのデータセットに関する広範囲な実験は、最先端のアプローチにおけるハイコンの卓越性を示している。

Incorporating knowledge graph into recommendation is an effective way to alleviate data sparsity. Most existing knowledge-aware methods usually perform recursive embedding propagation by enumerating graph neighbors. However, the number of nodes' neighbors grows exponentially as the hop number increases, forcing the nodes to be aware of vast neighbors under this recursive propagation for distilling the high-order semantic relatedness. This may induce more harmful noise than useful information into recommendation, leading the learned node representations to be indistinguishable from each other, that is, the well-known over-smoothing issue. To relieve this issue, we propose a Hierarchical and CONtrastive representation learning framework for knowledge-aware recommendation named HiCON. Specifically, for avoiding the exponential expansion of neighbors, we propose a hierarchical message aggregation mechanism to interact separately with low-order neighbors and meta-path-constrained high-order neighbors. Moreover, we also perform cross-order contrastive learning to enforce the representations to be more discriminative. Extensive experiments on three datasets show the remarkable superiority of HiCON over state-of-the-art approaches.
翻訳日:2023-04-18 18:44:12 公開日:2023-04-15
# 平均二階類似性に基づく確率的分散最適化:アルゴリズムと解析

Stochastic Distributed Optimization under Average Second-order Similarity: Algorithms and Analysis ( http://arxiv.org/abs/2304.07504v1 )

ライセンス: Link先を確認
Dachao Lin, Yuze Han, Haishan Ye, Zhihua Zhang(参考訳) 我々は、一般的な$\delta$- similarity条件と$\mu$-strong convexity条件の下で、n$-clientsで有限サム分散最適化問題を研究する。 SVRSとAccSVRSの2つの新しいアルゴリズムを提案する。 非加速svrs法は、既存の非加速アルゴリズムと比較して優れた通信複雑性である$\tilde{\go}(n {+} \sqrt{n}\delta/\mu)$を達成する勾配スライディングと分散低減の技術を組み合わせたものである。 また、Katyusha X で提案されたフレームワークを応用し、完全滑らか性のない$\tilde{\gO}(n {+} n^{3/4}\sqrt{\delta/\mu})$通信複雑性を持つ AccSVRS という直接高速化された実用版を構築する。 さらに, AccSVRS法の厳密性を検証するために, ほぼ一致した下界を示す。

We study finite-sum distributed optimization problems with $n$-clients under popular $\delta$-similarity condition and $\mu$-strong convexity. We propose two new algorithms: SVRS and AccSVRS motivated by previous works. The non-accelerated SVRS method combines the techniques of gradient-sliding and variance reduction, which achieves superior communication complexity $\tilde{\gO}(n {+} \sqrt{n}\delta/\mu)$ compared to existing non-accelerated algorithms. Applying the framework proposed in Katyusha X, we also build a direct accelerated practical version named AccSVRS with totally smoothness-free $\tilde{\gO}(n {+} n^{3/4}\sqrt{\delta/\mu})$ communication complexity that improves upon existing algorithms on ill-conditioning cases. Furthermore, we show a nearly matched lower bound to verify the tightness of our AccSVRS method.
翻訳日:2023-04-18 18:43:53 公開日:2023-04-15
# 動的表現のための時間的集約と伝播グラフニューラルネットワーク

Temporal Aggregation and Propagation Graph Neural Networks for Dynamic Representation ( http://arxiv.org/abs/2304.07503v1 )

ライセンス: Link先を確認
Tongya Zheng, Xinchao Wang, Zunlei Feng, Jie Song, Yunzhi Hao, Mingli Song, Xingen Wang, Xinyu Wang, Chun Chen(参考訳) 時間グラフは連続時間を通してノード間の動的相互作用を示し、そのトポロジは時間経過とともに進化する。 ノードの時間的近傍は、ノードの様々な好みを示す。 しかし、従来の研究は通常、単純さのために限られた隣人による動的表現を生成しており、結果としてオンライン推論の性能は劣っている。 そこで本稿では,近傍全体の時間グラフ畳み込み手法であるtemporal aggregation and propagation graph neural networks (tap-gnn)を提案する。 具体的には,メッセージパッシングパラダイムで時間グラフを展開することにより,動的表現問題の計算複雑性をまず解析する。 コストのかかる複雑さは、apブロック(aggregation and propagation)を設計する動機付けとなります。 最終的なTAP-GNNは、グラフストリームシナリオにおけるオンライン推論をサポートし、時間的情報を時間的アクティベーション機能を備えたノード埋め込みと、いくつかのAPブロックの他にプロジェクション層に組み込む。 種々のリアルタイム時間ネットワークの実験結果から,提案したTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも高い性能を示した。 我々のコードは \url{https://github.com/doujiang-zheng/TAP-GNN} で入手できる。

Temporal graphs exhibit dynamic interactions between nodes over continuous time, whose topologies evolve with time elapsing. The whole temporal neighborhood of nodes reveals the varying preferences of nodes. However, previous works usually generate dynamic representation with limited neighbors for simplicity, which results in both inferior performance and high latency of online inference. Therefore, in this paper, we propose a novel method of temporal graph convolution with the whole neighborhood, namely Temporal Aggregation and Propagation Graph Neural Networks (TAP-GNN). Specifically, we firstly analyze the computational complexity of the dynamic representation problem by unfolding the temporal graph in a message-passing paradigm. The expensive complexity motivates us to design the AP (aggregation and propagation) block, which significantly reduces the repeated computation of historical neighbors. The final TAP-GNN supports online inference in the graph stream scenario, which incorporates the temporal information into node embeddings with a temporal activation function and a projection layer besides several AP blocks. Experimental results on various real-life temporal networks show that our proposed TAP-GNN outperforms existing temporal graph methods by a large margin in terms of both predictive performance and online inference latency. Our code is available at \url{https://github.com/doujiang-zheng/TAP-GNN}.
翻訳日:2023-04-18 18:43:34 公開日:2023-04-15
# 第7回AI都市チャレンジ

The 7th AI City Challenge ( http://arxiv.org/abs/2304.07500v1 )

ライセンス: Link先を確認
Milind Naphade, Shuo Wang, David C. Anastasiu, Zheng Tang, Ming-Ching Chang, Yue Yao, Liang Zheng, Mohammed Shaiqur Rahman, Meenakshi S. Arya, Anuj Sharma, Qi Feng, Vitaly Ablavsky, Stan Sclaroff, Pranamesh Chakraborty, Sanjita Prajapati, Alice Li, Shangru Li, Krishna Kunadharaju, Shenxin Jiang and Rama Chellappa(参考訳) AI City Challengeの第7版では、コンピュータビジョンと人工知能の交差点にある2つのドメイン(小売ビジネスとIntelligent Traffic Systems(ITS))を強調している。 2023年のチャレンジには5つのトラックがあり、46カ国508チームから記録的な数の参加要求が寄せられた。 Track 1は、Multi-target Multi-camera(MTMC)の人物追跡に焦点を当てた、まったく新しいトラックだ。 トラック2は自然言語に基づく車両のトラック検索を中心にしていた。 トラック3は、自然主義的な運転分析でドライバーアクションを分類するチームを必要とした。 トラック4は、単一ビューカメラを用いた小売店の自動チェックアウトシステムの開発を目的としている。 トラック5 新たな追加として、モーターサイクリストのヘルメットルール違反を検知するチームが加わった。 2つのリーダーボードが、異なる方法に基づいた提出のためにリリースされた: コンテストの公開リーダーボードは、外部のプライベートデータが許可されていない。 参加チームのトップパフォーマンスは強いベースラインを確立し、提案されたチャレンジトラックで最先端の成績を上げました。

The AI City Challenge's seventh edition emphasizes two domains at the intersection of computer vision and artificial intelligence - retail business and Intelligent Traffic Systems (ITS) - that have considerable untapped potential. The 2023 challenge had five tracks, which drew a record-breaking number of participation requests from 508 teams across 46 countries. Track 1 was a brand new track that focused on multi-target multi-camera (MTMC) people tracking, where teams trained and evaluated using both real and highly realistic synthetic data. Track 2 centered around natural-language-based vehicle track retrieval. Track 3 required teams to classify driver actions in naturalistic driving analysis. Track 4 aimed to develop an automated checkout system for retail stores using a single view camera. Track 5, another new addition, tasked teams with detecting violations of the helmet rule for motorcyclists. Two leader boards were released for submissions based on different methods: a public leader board for the contest where external private data wasn't allowed and a general leader board for all results submitted. The participating teams' top performances established strong baselines and even outperformed the state-of-the-art in the proposed challenge tracks.
翻訳日:2023-04-18 18:43:15 公開日:2023-04-15
# 低リソース・不均衡データセットを用いたロバスト教育対話法分類器

Robust Educational Dialogue Act Classifiers with Low-Resource and Imbalanced Datasets ( http://arxiv.org/abs/2304.07499v1 )

ライセンス: Link先を確認
Jionghao Lin, Wei Tan, Ngoc Dang Nguyen, David Lang, Lan Du, Wray Buntine, Richard Beare, Guanliang Chen, Dragan Gasevic(参考訳) 対話行為(英: Dialogue act, DA)は、家庭教師や学生の会話行動を表す。 対話の指導におけるdasの識別の自動化は,対話に基づく知的指導システムの設計において重要である。 多くの先行研究では、学習対話におけるDAの分類に機械学習モデルを採用し、限られた訓練データ(低リソースのデータシナリオ)を使用して分類精度を最適化するために多くの努力を払っている。 しかし,分類精度以外にも,分類器のロバスト性も重要であり,異なるクラス分布からパターンを学習する上での分類器の能力を反映している。 教育DAの分類に関する多くの先行研究は、不均衡なDA分布を持つ低リソースデータ上でDA分類器を最適化するためにクロスエントロピー(CE)損失を用いる。 これらの研究におけるDA分類器は、異なるDAクラスの不均衡比でデータに頑健でないマイノリティクラスを犠牲にして、多数派の精度を優先する傾向にある。 クラス分布の不均衡に対する分類器のロバスト性を最適化するために,roc曲線(auc)スコアの下の領域を最大化し,da分類器の性能を最適化する(すなわち,auc最大化)。 広範な実験を通じて 我々の研究は (i)訓練過程におけるAUCの最大化により、低リソースデータによるCEアプローチと比較して、DA分類器は大幅な性能向上を実現し、 (II)AUC最大化手法は,クラス不均衡比の異なるDA分類器のロバスト性を向上させることができる。

Dialogue acts (DAs) can represent conversational actions of tutors or students that take place during tutoring dialogues. Automating the identification of DAs in tutoring dialogues is significant to the design of dialogue-based intelligent tutoring systems. Many prior studies employ machine learning models to classify DAs in tutoring dialogues and invest much effort to optimize the classification accuracy by using limited amounts of training data (i.e., low-resource data scenario). However, beyond the classification accuracy, the robustness of the classifier is also important, which can reflect the capability of the classifier on learning the patterns from different class distributions. We note that many prior studies on classifying educational DAs employ cross entropy (CE) loss to optimize DA classifiers on low-resource data with imbalanced DA distribution. The DA classifiers in these studies tend to prioritize accuracy on the majority class at the expense of the minority class which might not be robust to the data with imbalanced ratios of different DA classes. To optimize the robustness of classifiers on imbalanced class distributions, we propose to optimize the performance of the DA classifier by maximizing the area under the ROC curve (AUC) score (i.e., AUC maximization). Through extensive experiments, our study provides evidence that (i) by maximizing AUC in the training process, the DA classifier achieves significant performance improvement compared to the CE approach under low-resource data, and (ii) AUC maximization approaches can improve the robustness of the DA classifier under different class imbalance ratios.
翻訳日:2023-04-18 18:42:59 公開日:2023-04-15
# TagCLIP:オープン語彙セマンティックセグメンテーションの識別能力の向上

TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation ( http://arxiv.org/abs/2304.07547v1 )

ライセンス: Link先を確認
Jingyao Li, Pengguang Chen, Shengju Qian, Jiaya Jia(参考訳) 最近のコントラスト型言語イメージプリトレーニング(clip)の成功は、ピクセルレベルのオープンボキャブラリー学習タスクにおいて大きな期待を示している。 一般的なパラダイムでは、CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する。 しかし、既存のモデルは、未知のクラスから入力ピクセルを誤識別しやすく、意味的に類似したクラスと混同する。 本研究では,不適切な最適化問題を2つの並列プロセスに分解する。一方は個別にセマンティックマッチングを行い,他方は識別能力の向上のために信頼性を判断する。 文レベルの埋め込みを表す言語モデリングにおける特別なトークンによって動機付けられ、既知および新奇なカテゴリー予測傾向を分離する信頼トークンを設計する。 オーバーヘッドがほとんどないため、既存のモデルのピクセルレベルの一般化能力を効果的にアップグレードする。 我々のTagCLIP (CLIP adapting with Trusty-guidance)は、PASCAL VOC 2012とCOCO-Stuff 164Kで、未確認クラスのIoUを7.4%と1.7%向上させる。

Recent success of Contrastive Language-Image Pre-training~(CLIP) has shown great promise in pixel-level open-vocabulary learning tasks. A general paradigm utilizes CLIP's text and patch embeddings to generate semantic masks. However, existing models easily misidentify input pixels from unseen classes, thus confusing novel classes with semantically-similar ones. In our work, we disentangle the ill-posed optimization problem into two parallel processes: one performs semantic matching individually, and the other judges reliability for improving discrimination ability. Motivated by special tokens in language modeling that represents sentence-level embeddings, we design a trusty token that decouples the known and novel category prediction tendency. With almost no extra overhead, we upgrade the pixel-level generalization capacity of existing models effectively. Our TagCLIP (CLIP adapting with Trusty-guidance) boosts the IoU of unseen classes by 7.4% and 1.7% on PASCAL VOC 2012 and COCO-Stuff 164K.
翻訳日:2023-04-18 18:35:20 公開日:2023-04-15
# カメラ内多層パーセプトロンDVSデノイング

Within-Camera Multilayer Perceptron DVS Denoising ( http://arxiv.org/abs/2304.07543v1 )

ライセンス: Link先を確認
A. Rios-Navarro, S. Guo, G Abarajithan, K. Vijayakumar, A. Linares-Barranco, T. Aarrestad, R. Kastner, T. Delbruck(参考訳) カメラ内イベントデノージングは、ソースのノイズをフィルタリングすることで、イベントカメラのデータレートを低減する。 軽量多層パーセプトロンデノナイジングフィルタ(MLPF)は、最先端の低コストデノナイジング精度を提供する。 それぞれの事象の周りのタイムスタンプ画像から小さなピクセルの近傍を処理し、信号やノイズイベントを識別する。 本稿では,MLPFデノイザの2つのディジタルロジック実装を提案し,その資源コスト,消費電力,レイテンシを定量化する。 ハードウェアMLPFは、重みと隠れた単位活性化を4ビットに量子化し、約1kの重みと約40%の間隔を持つ。 エリアアンダー・サーブ受信機の動作精度は浮動小数点ネットワークとほとんど区別がつかない。 FPGA MLPFは、各イベントを10クロックサイクルで処理する。 FPGAでは3.5kフリップフロップと11.5k LUTを使用する。 346x260ピクセルカメラの65nmデジタル技術におけるASIC実装は4.3mm^2の面積を占め、イベント毎の4nJを最大25MHzまで消費する。 MLPFはFPGAを用いて簡単にイベントカメラに統合でき、カメラチップまたは同じパッケージに直接ASICとして組み込むことができる。 これにより、通信とホストプロセッサが消費するエネルギーを劇的に削減し、常時オンのイベントカメラアプリケーションの新たな領域をスキャベンドとバッテリパワーの下で開くことができる。 コード:https://github.com/SensorsINI/dnd_hls

In-camera event denoising reduces the data rate of event cameras by filtering out noise at the source. A lightweight multilayer perceptron denoising filter (MLPF) provides state-of-the-art low-cost denoising accuracy. It processes a small neighborhood of pixels from the timestamp image around each event to discriminate signal and noise events. This paper proposes two digital logic implementations of the MLPF denoiser and quantifies their resource cost, power, and latency. The hardware MLPF quantizes the weights and hidden unit activations to 4 bits and has about 1k weights with about 40% sparsity. The Area-Under-Curve Receiver Operating Characteristic accuracy is nearly indistinguishable from that of the floating point network. The FPGA MLPF processes each event in 10 clock cycles. In FPGA, it uses 3.5k flip flops and 11.5k LUTs. Our ASIC implementation in 65nm digital technology for a 346x260 pixel camera occupies an area of 4.3mm^2 and consumes 4nJ of energy per event at event rates up to 25MHz. The MLPF can be easily integrated into an event camera using an FPGA or as an ASIC directly on the camera chip or in the same package. This denoising could dramatically reduce the energy consumed by the communication and host processor and open new areas of always-on event camera application under scavenged and battery power. Code: https://github.com/SensorsINI/dnd_hls
翻訳日:2023-04-18 18:35:01 公開日:2023-04-15
# アフリカにおける機械学習研究の動向: bibliometric analysis review による30年の振り返り

Machine Learning Research Trends in Africa: A 30 Years Overview with Bibliometric Analysis Review ( http://arxiv.org/abs/2304.07542v1 )

ライセンス: Link先を確認
Absalom E. Ezugwu, Olaide N. Oyelade, Abiodun M. Ikotun, Jeffery O. Agushaka, Yuh-Shan Ho(参考訳) 本稿では,アフリカを視点とした機械学習研究における最近の進展と関連する応用に関する広範な文献調査と合わせて,批判的文献計測分析研究を行った。 論文は2761件の機械学習関連文書からなり、そのうち98%は過去30年間に903の雑誌に少なくとも482件の引用を掲載した論文である。 さらに、1993年から2021年にかけて、54のアフリカ諸国の研究論文を含む科学引用指数から照合された文書が抽出された。 書誌学的研究は、アフリカ大陸に散在する異なる研究機関の著者間の将来の共同研究と知識交換を促進するために、機械学習研究の現在の景観と今後のトレンドの可視化と応用について示している。

In this paper, a critical bibliometric analysis study is conducted, coupled with an extensive literature survey on recent developments and associated applications in machine learning research with a perspective on Africa. The presented bibliometric analysis study consists of 2761 machine learning-related documents, of which 98% were articles with at least 482 citations published in 903 journals during the past 30 decades. Furthermore, the collated documents were retrieved from the Science Citation Index EXPANDED, comprising research publications from 54 African countries between 1993 and 2021. The bibliometric study shows the visualization of the current landscape and future trends in machine learning research and its application to facilitate future collaborative research and knowledge exchange among authors from different research institutions scattered across the African continent.
翻訳日:2023-04-18 18:34:37 公開日:2023-04-15
# 学習可能な学習率を持つ勾配レスフェデレーション勾配促進木

Gradient-less Federated Gradient Boosting Trees with Learnable Learning Rates ( http://arxiv.org/abs/2304.07537v1 )

ライセンス: Link先を確認
Chenyang Ma, Xinchi Qiu, Daniel J. Beutel, Nicholas D. Lane(参考訳) 分散データセットのプライバシーに敏感な性質と表データ上のeXtreme Gradient Boosting(XGBoost)の堅牢性は、連邦学習(FL)の文脈でXGBoostをトレーニングする必要性を高めます。 分散XGBoostの水平配置における既存の作業は、ノード単位の通信頻度と深刻なプライバシー懸念を引き起こす勾配の共有に依存している。 これらの問題を緩和するために, 勾配の共有に依存しず, 集合木アンサンブルの学習率を学習可能とし, プライバシーと通信効率を向上させる, 水平フェデレートxgboostの革新的な枠組みを開発した。 我々は,様々な分類と回帰データセットについて広範な評価を行い,最先端手法に匹敵する性能を達成し,通信ラウンドと通信オーバーヘッドを25倍から700倍まで低減することで,通信効率を効果的に向上することを示す。

The privacy-sensitive nature of decentralized datasets and the robustness of eXtreme Gradient Boosting (XGBoost) on tabular data raise the needs to train XGBoost in the context of federated learning (FL). Existing works on federated XGBoost in the horizontal setting rely on the sharing of gradients, which induce per-node level communication frequency and serious privacy concerns. To alleviate these problems, we develop an innovative framework for horizontal federated XGBoost which does not depend on the sharing of gradients and simultaneously boosts privacy and communication efficiency by making the learning rates of the aggregated tree ensembles learnable. We conduct extensive evaluations on various classification and regression datasets, showing our approach achieves performance comparable to the state-of-the-art method and effectively improves communication efficiency by lowering both communication rounds and communication overhead by factors ranging from 25x to 700x.
翻訳日:2023-04-18 18:34:23 公開日:2023-04-15
# オンライン行動から画像へ:ソーシャルボット検出への新しいアプローチ

From Online Behaviours to Images: A Novel Approach to Social Bot Detection ( http://arxiv.org/abs/2304.07535v1 )

ライセンス: Link先を確認
Edoardo Di Paolo, Marinella Petrocchi, Angelo Spognardi(参考訳) オンラインのソーシャルネットワークは、情報の消費と共有の方法に革命をもたらしたが、コンテンツが必ずしも信頼性と正確さを増すわけではない。 特定の種類のソーシャルアカウントは、説明不能なコンテンツ、超党派的情報、プロパガンダ的情報を促進することが知られている。 ボットと呼ばれる自動化されたアカウントである。 まず、アカウントが実行するアクションのシーケンスを画像に変換する新しいアルゴリズムを提案し、その後、畳み込みニューラルネットワークの強みを利用して画像分類を進める。 文献でよく知られた実アカウント/ボットアカウントデータセット上でのボット検出において、我々のパフォーマンスと最先端の結果を比較した。 その結果,検出能力は美術品の状態と同等であり,好ましくない場合も少なくないため,提案の有効性を確認した。

Online Social Networks have revolutionized how we consume and share information, but they have also led to a proliferation of content not always reliable and accurate. One particular type of social accounts is known to promote unreputable content, hyperpartisan, and propagandistic information. They are automated accounts, commonly called bots. Focusing on Twitter accounts, we propose a novel approach to bot detection: we first propose a new algorithm that transforms the sequence of actions that an account performs into an image; then, we leverage the strength of Convolutional Neural Networks to proceed with image classification. We compare our performances with state-of-the-art results for bot detection on genuine accounts / bot accounts datasets well known in the literature. The results confirm the effectiveness of the proposal, because the detection capability is on par with the state of the art, if not better in some cases.
翻訳日:2023-04-18 18:34:04 公開日:2023-04-15
# ALiSNet:ファッションEコマースのための正確で軽量なヒューマンセグメンテーションネットワーク

ALiSNet: Accurate and Lightweight Human Segmentation Network for Fashion E-Commerce ( http://arxiv.org/abs/2304.07533v1 )

ライセンス: Link先を確認
Amrollah Seifoddini, Koen Vernooij, Timon K\"unzle, Alessandro Canopoli, Malte Alf, Anna Volokitin, Reza Shirvany(参考訳) 写真から正確な人体形状を推定することで、大量カスタマイズからサイズや適合度、仮想トライオンまで、革新的な応用が可能になる。 ユーザ画像から算出したボディシルエットは、下流作業における身体形状の効果的な表現である。 スマートフォンは、ユーザーが体の画像を撮影するのに便利な方法を提供し、オンデバイス画像処理は、ユーザーのプライバシーを保護しながら、身体のセグメンテーションを予測することができる。 既存の人体セグメンテーションのオフ・ザ・シェルフ法はクローズド・ソースであり,身体形状および計測推定の応用には特化できない。 そこで我々は,既存の精度モデルであるPointRendでSemantic FPNを単純化することにより,新たなセグメンテーションモデルを作成する。 このモデルを、アプリケーションに関連するポーズの制限されたセットで、高品質な人間のデータセットに微調整します。 最終的なモデルであるalisnetは、4mbと97.6$\pm$1.0$$$$$miouで、データセット上で94.4$\pm$5.7$$$$$$miouのappleパーソンセグメンテーションと比較します。

Accurately estimating human body shape from photos can enable innovative applications in fashion, from mass customization, to size and fit recommendations and virtual try-on. Body silhouettes calculated from user pictures are effective representations of the body shape for downstream tasks. Smartphones provide a convenient way for users to capture images of their body, and on-device image processing allows predicting body segmentation while protecting users privacy. Existing off-the-shelf methods for human segmentation are closed source and cannot be specialized for our application of body shape and measurement estimation. Therefore, we create a new segmentation model by simplifying Semantic FPN with PointRend, an existing accurate model. We finetune this model on a high-quality dataset of humans in a restricted set of poses relevant for our application. We obtain our final model, ALiSNet, with a size of 4MB and 97.6$\pm$1.0$\%$ mIoU, compared to Apple Person Segmentation, which has an accuracy of 94.4$\pm$5.7$\%$ mIoU on our dataset.
翻訳日:2023-04-18 18:33:51 公開日:2023-04-15
# 単一光子光ビスタビリティ

Single photon optical bistability ( http://arxiv.org/abs/2304.07530v1 )

ライセンス: Link先を確認
Igor E. Protsenko, Alexander V. Uskov(参考訳) 本稿では,Fabry-Perot干渉計(FPI)の光波長サイズキャビティ,非線形Kerr媒体,および外部量子場に励起される光子数個について,その安定性について検討する。 定常平均光子数、不安定領域、フィールド及び光子数変動スペクトルの分析式を得る。 異なるスペクトルを持つFPIキャビティ場の複数の定常状態は、例えばフォトニック結晶キャビティと半導体ドープガラス非線形媒体を有するFPIにおいて現実的な条件で可能である。

We investigate the bistability in a small Fabry-Perot interferometer (FPI) with the optical wavelength size cavity, the nonlinear Kerr medium and only a few photons, on average, excited by the external quantum field. Analytical expressions for the stationary mean photon number, the bistability domain, the field and the photon number fluctuation spectra are obtained. Multiple stationary states of the FPI cavity field with different spectra are possible at realistic conditions, for example, in the FPI with the photonic crystal cavity and the semiconductor-doped glass nonlinear medium.
翻訳日:2023-04-18 18:33:28 公開日:2023-04-15
# Align-DETR:単純なIoU対応BCE損失によるDETRの改善

Align-DETR: Improving DETR with Simple IoU-aware BCE loss ( http://arxiv.org/abs/2304.07527v1 )

ライセンス: Link先を確認
Zhi Cai, Songtao Liu, Guodong Wang, Zheng Ge, Xiangyu Zhang and Di Huang(参考訳) DETRは、このタスクをセット予測問題として定式化し、有望なポテンシャルを示すことによって、オブジェクト検出のためのシンプルなエンドツーエンドパイプラインを構築した。 しかし,detr改善の著しい進展にもかかわらず,本論文では出力分布のミスアライメントの問題を明らかにし,最良サンプルの信頼度の高い割り当てを防止し,モデルの精度を損なう。 そこで本研究では, 誤り訂正問題を定量的に評価するために, 最良回帰サンプルのリコール尺度を提案する。 そこで本研究では,局所化精度を考慮した分類損失を最適化に組み込んだAlign-DETRを提案する。 提案した損失IA-BCEはDETRのトレーニングをガイドし、分類スコアと局所化精度の強い相関関係を構築する。 また,複合マッチング方式を採用し,エンドツーエンドのスキームを維持しつつ,より高速なトレーニング収束でdetrベースの検出を容易にする。 さらに,クエリの分散によって生じるサンプル品質の劇的な低下を克服するために,重要でないサンプルの干渉を抑制するための素試料重み付け機構を導入する。 激しい実験が行われ、非常に競争的な結果が報告された。 特に、DAB-DETRベースラインに46 (+3.8)%のAPをResNet-50バックボーンで供給し、強力なベースラインDINOを使用する場合、COCO検証セットの1x設定で50.2%の新たなSOTA性能に達する。 私たちのコードはhttps://github.com/FelixCaae/AlignDETR.comで利用可能です。

DETR has set up a simple end-to-end pipeline for object detection by formulating this task as a set prediction problem, showing promising potential. However, despite the significant progress in improving DETR, this paper identifies a problem of misalignment in the output distribution, which prevents the best-regressed samples from being assigned with high confidence, hindering the model's accuracy. We propose a metric, recall of best-regressed samples, to quantitively evaluate the misalignment problem. Observing its importance, we propose a novel Align-DETR that incorporates a localization precision-aware classification loss in optimization. The proposed loss, IA-BCE, guides the training of DETR to build a strong correlation between classification score and localization precision. We also adopt the mixed-matching strategy, to facilitate DETR-based detectors with faster training convergence while keeping an end-to-end scheme. Moreover, to overcome the dramatic decrease in sample quality induced by the sparsity of queries, we introduce a prime sample weighting mechanism to suppress the interference of unimportant samples. Extensive experiments are conducted with very competitive results reported. In particular, it delivers a 46 (+3.8)% AP on the DAB-DETR baseline with the ResNet-50 backbone and reaches a new SOTA performance of 50.2% AP in the 1x setting on the COCO validation set when employing the strong baseline DINO. Our code is available at https://github.com/FelixCaae/AlignDETR.
翻訳日:2023-04-18 18:33:17 公開日:2023-04-15
# 確率過程からの量子力学

Quantum Mechanics from Stochastic Processes ( http://arxiv.org/abs/2304.07524v1 )

ライセンス: Link先を確認
Folkert Kuipers(参考訳) 我々は、非相対論的確率過程とシュロディンガー方程式の解と、相対論的確率過程とクライン・ゴルドン方程式の解の間の一対一対応を構築する。 この同値性の存在は、ローレンツの経路積分がイオ積分として定義できることを示唆している。 さらに、結果は量子論の確率的解釈を意味する。

We construct an explicit one-to-one correspondence between non-relativistic stochastic processes and solutions of the Schrodinger equation and between relativistic stochastic processes and solutions of the Klein-Gordon equation. The existence of this equivalence suggests that the Lorentzian path integral can be defined as an Ito integral, similar to the definition of the Euclidean path integral in terms of the Wiener integral. Moreover, the result implies a stochastic interpretation of quantum theories.
翻訳日:2023-04-18 18:32:51 公開日:2023-04-15
# ID2image: 顔ディスクリプタへの非ID情報の漏洩とディスクリプタから画像への逆変換

ID2image: Leakage of non-ID information into face descriptors and inversion from descriptors to images ( http://arxiv.org/abs/2304.07522v1 )

ライセンス: Link先を確認
Mingrui Li, William A. P. Smith, Patrik Huber(参考訳) ディープcnnを用いたデリプタベクトルへの顔画像埋め込みは,顔認識において広く用いられている手法である。 いくつかのトレーニング戦略があるため、そのような埋め込みはアイデンティティ情報のみをキャプチャする。 顔の環境(背景や照明など)や変化可能な面(ポーズ、表情、眼鏡、帽子など)に関する情報は、認識に役立たないため廃棄されるべきである。 本稿では,これが事実ではないという驚くべき結果を示す。 現状の顔埋め込みネットワーク(VGGFace2およびArcFace)のID埋め込みから,非ID属性やランドマーク位置,画像ヒストグラムを復元できることを示す。 実際、これらの非ID属性は、元の画像からの予測と同じような精度でID埋め込みから予測することができる。 さらに、生成モデル(特に顔のスタイルGAN2)を用いて、ID埋め込みから画像を復元する最適化戦略を提案する。 我々は,IDをリアルに再構成しただけでなく,ポーズ,照明,背景/アパレルをある程度表現した,ID埋め込みから顔画像へのフォトリアリスティック・インバージョンを示す。

Embedding a face image to a descriptor vector using a deep CNN is a widely used technique in face recognition. Via several possible training strategies, such embeddings are supposed to capture only identity information. Information about the environment (such as background and lighting) or changeable aspects of the face (such as pose, expression, presence of glasses, hat etc.) should be discarded since they are not useful for recognition. In this paper, we present a surprising result that this is not the case. We show that non-ID attributes, as well as landmark positions and the image histogram can be recovered from the ID embedding of state-of-the-art face embedding networks (VGGFace2 and ArcFace). In fact, these non-ID attributes can be predicted from ID embeddings with similar accuracy to a prediction from the original image. Going further, we present an optimisation strategy that uses a generative model (specifically StyleGAN2 for faces) to recover images from an ID embedding. We show photorealistic inversion from ID embedding to face image in which not only is the ID realistically reconstructed but the pose, lighting and background/apparel to some extent as well.
翻訳日:2023-04-18 18:32:43 公開日:2023-04-15
# SAM Segment Polypsは可能か?

Can SAM Segment Polyps? ( http://arxiv.org/abs/2304.07583v1 )

ライセンス: Link先を確認
Tao Zhou, Yizhe Zhang, Yi Zhou, Ye Wu, Chen Gong(参考訳) 最近、Meta AI Researchは、いくつかのセグメンテーションタスクで有望なパフォーマンスを示すSAM(General Segment Anything Model)をリリースした。 私たちが知っているように、ポリープセグメンテーションは、大腸癌の診断と治療において重要な役割を果たす医療画像領域の基本的な課題である。 特に、polypセグメンテーションタスクにSAMを適用するのは興味深い。 本稿では,SAMのセグメンテーション・ポリープにおける性能について検討する。 このレポートは、このポリプセグメンテーション分野を前進させ、将来より興味深い研究を促進するための洞察を提供することを期待している。 このプロジェクトはhttps://github.com/taozh2017/SAMPolyp.comで公開されている。

Recently, Meta AI Research releases a general Segment Anything Model (SAM), which has demonstrated promising performance in several segmentation tasks. As we know, polyp segmentation is a fundamental task in the medical imaging field, which plays a critical role in the diagnosis and cure of colorectal cancer. In particular, applying SAM to the polyp segmentation task is interesting. In this report, we evaluate the performance of SAM in segmenting polyps, in which SAM is under unprompted settings. We hope this report will provide insights to advance this polyp segmentation field and promote more interesting works in the future. This project is publicly at https://github.com/taozh2017/SAMPolyp.
翻訳日:2023-04-18 18:26:55 公開日:2023-04-15
# 監視面提示攻撃検出チャレンジ

Surveillance Face Presentation Attack Detection Challenge ( http://arxiv.org/abs/2304.07580v1 )

ライセンス: Link先を確認
Hao Fang, Ajian Liu, Jun Wan, Sergio Escalera, Hugo Jair Escalante, Zhen Lei(参考訳) face anti-spoofing (fas) は様々な物理的攻撃から顔認識システムを保護するのに不可欠である。 しかし、ほとんどの研究は長距離シナリオを考慮しなかった。 特に、電話のアンロック、顔の支払い、セルフサービスセキュリティ検査といった従来の場面ではFASと比べれば、駅広場、公園、セルフサービススーパーなど長距離のFASも同様に重要であるが、まだ十分に検討されていない。 このギャップを埋めるために,我々はSuHiFiMask(Surveillance High-Fidelity Mask)を大規模に収集する。 SuHiFiMaskには、年齢層別101ドルのビデオが10,195ドル、メインストリームの監視カメラが7ドルだ。 このデータセットと、品質変更時のアルゴリズムのロバスト性を評価するプロトコル-$3$に基づいて、監視シナリオにおける顔提示攻撃検出チャレンジを組織した。 開発フェーズでは180チームが参加し、最終ラウンドには合計37チームが出場した。 組織チームは提出されたコードを再検証し、その結果を最終ランクとして使用した。 本稿では,使用するデータセットの紹介,プロトコルの定義,評価指標,コンペティション結果の発表など,課題の概要について述べる。 最後に,長距離監視シナリオにおける攻撃検出競争における上位アルゴリズムと研究思想について述べる。

Face Anti-spoofing (FAS) is essential to secure face recognition systems from various physical attacks. However, most of the studies lacked consideration of long-distance scenarios. Specifically, compared with FAS in traditional scenes such as phone unlocking, face payment, and self-service security inspection, FAS in long-distance such as station squares, parks, and self-service supermarkets are equally important, but it has not been sufficiently explored yet. In order to fill this gap in the FAS community, we collect a large-scale Surveillance High-Fidelity Mask (SuHiFiMask). SuHiFiMask contains $10,195$ videos from $101$ subjects of different age groups, which are collected by $7$ mainstream surveillance cameras. Based on this dataset and protocol-$3$ for evaluating the robustness of the algorithm under quality changes, we organized a face presentation attack detection challenge in surveillance scenarios. It attracted 180 teams for the development phase with a total of 37 teams qualifying for the final round. The organization team re-verified and re-ran the submitted code and used the results as the final ranking. In this paper, we present an overview of the challenge, including an introduction to the dataset used, the definition of the protocol, the evaluation metrics, and the announcement of the competition results. Finally, we present the top-ranked algorithms and the research ideas provided by the competition for attack detection in long-range surveillance scenarios.
翻訳日:2023-04-18 18:26:44 公開日:2023-04-15
# 画像生成における非互換な知識伝達の探索

Exploring Incompatible Knowledge Transfer in Few-shot Image Generation ( http://arxiv.org/abs/2304.07574v1 )

ライセンス: Link先を確認
Yunqing Zhao, Chao Du, Milad Abdollahzadeh, Tianyu Pang, Min Lin, Shuicheng Yan, Ngai-Man Cheung(参考訳) Few-shot Image Generation (FSIG)は、いくつかの参照サンプル(例:10)を使用して、ターゲットドメインから多彩で高忠実な画像を生成することを学習する。 既存のFSIGメソッドは、ソースジェネレータから事前の知識を選択し、保存し、転送し、ターゲットジェネレータを学習する。 本研究では, FSIGにおける非互換な知識伝達問題について検討し, 合成標本の現実性を著しく低下させる可能性について検討した。 実験的な観察により、問題はソースジェネレータからの最も重要なフィルタに由来することが示されている。 そこで我々は,知識保存を補完する操作であり,軽量プルーニング方式で実装されたFSIGにおいて,この問題を軽減するための知識トランケーションを提案する。 大規模な実験により、知識の切り離しはシンプルで効果的であり、常に最先端のパフォーマンスを達成することを示し、ソースとターゲットドメインがより遠くにある挑戦的なセットアップを含む。 プロジェクトページ: Yunqing-me.github.io/RICK

Few-shot image generation (FSIG) learns to generate diverse and high-fidelity images from a target domain using a few (e.g., 10) reference samples. Existing FSIG methods select, preserve and transfer prior knowledge from a source generator (pretrained on a related domain) to learn the target generator. In this work, we investigate an underexplored issue in FSIG, dubbed as incompatible knowledge transfer, which would significantly degrade the realisticness of synthetic samples. Empirical observations show that the issue stems from the least significant filters from the source generator. To this end, we propose knowledge truncation to mitigate this issue in FSIG, which is a complementary operation to knowledge preservation and is implemented by a lightweight pruning-based method. Extensive experiments show that knowledge truncation is simple and effective, consistently achieving state-of-the-art performance, including challenging setups where the source and target domains are more distant. Project Page: yunqing-me.github.io/RICK.
翻訳日:2023-04-18 18:26:24 公開日:2023-04-15
# 光誘起円錐交差による原子イオン電荷交換の量子制御

Quantum Control of Atom-Ion Charge Exchange via Light-induced Conical Intersections ( http://arxiv.org/abs/2304.07571v1 )

ライセンス: Link先を確認
Hui Li and Ming Li and Alexander Petrov and Eite Tiesinga and Svetlana Kotochigova(参考訳) 円錐交差は、衝突する原子と分子の多次元座標空間における2つ以上の断熱的電子ポテンシャルエネルギー表面の間の点または線である。 円錐交差とそれに対応する非断熱結合は分子動力学と化学的性質に大きな影響を与える。 本稿では,レーザー誘起円錐交叉(licIs)の存在下での超低温原子イオン電荷交換反応における有意あるいは測定可能な非断熱効果を予測した。 レーザー強度が比較的低い10^8$W/cm$^2$, 超低温では1mK以下であった。 レーザ周波数の関数としてKとCa$^+$の電荷交換率係数の不規則な干渉効果を予測する。 これらの異常は2つの液滴が存在するため,本システムで発生する。 反応力学におけるlicIの役割をさらに解明するために、これらの速度係数を、CIが「取り除かれた」システムで計算された値と比較する。 円錐状相互作用が存在するレーザー周波数窓において、レート係数の差は10−9}$cm$^3$/sとなる。

Conical intersections are crossing points or lines between two or more adiabatic electronic potential energy surfaces in the multi-dimensional coordinate space of colliding atoms and molecules. Conical intersections and corresponding non-adiabatic coupling can greatly affect molecular dynamics and chemical properties. In this paper, we predict significant or measurable non-adiabatic effects in an ultracold atom-ion charge-exchange reaction in the presence of laser-induced conical intersections (LICIs). We investigate the fundamental physics of these LICIs on molecular reactivity under unique conditions: those of relatively low laser intensity of $10^8$ W/cm$^2$ and ultracold temperatures below 1 mK. We predict irregular interference effects in the charge-exchange rate coefficients between K and Ca$^+$ as functions of laser frequency. These irregularities occur in our system due to the presence of two LICIs. To further elucidate the role of the LICIs on the reaction dynamics, we compare these rate coefficients with those computed for a system where the CIs have been ``removed''. In the laser frequency window, where conical interactions are present, the difference in rate coefficients can be as large as $10^{-9}$ cm$^3$/s.
翻訳日:2023-04-18 18:26:05 公開日:2023-04-15
# covlr:視覚言語検索のためのクロスモーダル一貫性とイントラモーダル構造のコーディネート

CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure for Vision-Language Retrieval ( http://arxiv.org/abs/2304.07567v1 )

ライセンス: Link先を確認
Yang Yang, Zhongtian Fu, Xiangyu Wu, Wenjie Li(参考訳) 現在の視覚言語検索は、一貫した視覚言語表現を学習する中心となる概念であるクロスモーダルなインスタンス探索を行うことを目的としている。 深いモデルの開発によってクロスモーダル検索の性能は大幅に向上したが、残念ながら従来のハード一貫性はシングルモーダルインスタンス間の元の関係を破壊し、シングルモーダル検索のパフォーマンス低下につながる可能性がある。 To address this challenge, in this paper, we experimentally observe that the vision-language divergence may cause the existence of strong and weak modalities, and the hard cross-modal consistency cannot guarantee that strong modal instances' relationships are not affected by weak modality, resulting in the strong modal instances' relationships perturbed despite learned consistent representations.To this end, we propose a novel and directly Coordinated VisionLanguage Retrieval method (dubbed CoVLR), which aims to study and alleviate the desynchrony problem between the cross-modal alignment and single-modal cluster-preserving tasks. CoVLRはこの課題に対処するため, クロスモーダル整合性目標とイントラモーダル関係保存目標をメタトレインおよびメタテストタスクとして動作させることにより, 両タスクを協調的に最適化する効果的なメタ最適化戦略を開発する。 その結果,クロスモーダル一貫性とイントラモーダル構造を同時に保証できる。 異なるデータセットの実験により、CoVLRはベースラインと比較してクロスモーダル検索能力を保ちながら、単一モーダル検索精度を向上させることができる。

Current vision-language retrieval aims to perform cross-modal instance search, in which the core idea is to learn the consistent visionlanguage representations. Although the performance of cross-modal retrieval has greatly improved with the development of deep models, we unfortunately find that traditional hard consistency may destroy the original relationships among single-modal instances, leading the performance degradation for single-modal retrieval. To address this challenge, in this paper, we experimentally observe that the vision-language divergence may cause the existence of strong and weak modalities, and the hard cross-modal consistency cannot guarantee that strong modal instances' relationships are not affected by weak modality, resulting in the strong modal instances' relationships perturbed despite learned consistent representations.To this end, we propose a novel and directly Coordinated VisionLanguage Retrieval method (dubbed CoVLR), which aims to study and alleviate the desynchrony problem between the cross-modal alignment and single-modal cluster-preserving tasks. CoVLR addresses this challenge by developing an effective meta-optimization based strategy, in which the cross-modal consistency objective and the intra-modal relation preserving objective are acted as the meta-train and meta-test tasks, thereby CoVLR encourages both tasks to be optimized in a coordinated way. Consequently, we can simultaneously insure cross-modal consistency and intra-modal structure. Experiments on different datasets validate CoVLR can improve single-modal retrieval accuracy whilst preserving crossmodal retrieval capacity compared with the baselines.
翻訳日:2023-04-18 18:25:49 公開日:2023-04-15
# $N$-Sum Box: 複数対1量子ネットワーク上の線形計算の抽象化

$N$-Sum Box: An Abstraction for Linear Computation over Many-to-one Quantum Networks ( http://arxiv.org/abs/2304.07561v1 )

ライセンス: Link先を確認
Matteo Allaix, Yuxiang Lu, Yuhang Yao, Tefjol Pllaha, Camilla Hollanti, Syed Jafar(参考訳) 量子多対一通信ネットワーク上の線形計算は、送信機間の量子絡み合いを利用した通信コスト改善の機会を提供し、干渉アライメントなどの古典的手法と組み合わせて、スーパーデンス符号化を達成する。 この問題は、古典的ブラックボックスモデルによって基礎となる量子機能に対して適切な抽象化が見つかると、より広くアクセスできるようになる。 この研究は、Song \emph{et al の 2-sum プロトコルのブラックボックス一般化である \qmarks{$N$-sum box} という形でそのような抽象化を形式化する。 最近のアプリケーションでは$N$-serversのプライベート情報検索が可能です。 n$-sum ボックスは、n$ qudits の通信コストと、n$ 送信機に分配される2n$ の古典入力に対して、(n$n \times 2n$ 転送行列を介して)直線的に依存する$n$-ary 桁のベクトルの古典出力を持つ。 我々は、送信機と受信機で局所可逆な古典演算を付加する可能性なしに、どの転送行列が我々の構成によって実現可能であるかを特徴付ける。

Linear computations over quantum many-to-one communication networks offer opportunities for communication cost improvements through schemes that exploit quantum entanglement among transmitters to achieve superdense coding gains, combined with classical techniques such as interference alignment. The problem becomes much more broadly accessible if suitable abstractions can be found for the underlying quantum functionality via classical black box models. This work formalizes such an abstraction in the form of an \qmarks{$N$-sum box}, a black box generalization of a two-sum protocol of Song \emph{et al.} with recent applications to $N$-servers private information retrieval. The $N$-sum box has communication cost of $N$ qudits and classical output of a vector of $N$ $q$-ary digits linearly dependent (via an $N \times 2N$ transfer matrix) on $2N$ classical inputs distributed among $N$ transmitters. We characterize which transfer matrices are feasible by our construction, both with and without the possibility of additional locally invertible classical operations at the transmitters and receivers.
翻訳日:2023-04-18 18:25:26 公開日:2023-04-15
# Pruning-aided Domain-specific Weight Modulationによる連続的ドメイン適応

Continual Domain Adaptation through Pruning-aided Domain-specific Weight Modulation ( http://arxiv.org/abs/2304.07560v1 )

ライセンス: Link先を確認
Prasanna B, Sunandini Sanyal, R. Venkatesh Babu(参考訳) 本稿では,非教師なし領域適応(unsupervised domain adaptation,uda)を実践的な連続学習(continual learning, cl)で扱う手法を提案する。 目標は、ドメイン固有の知識を保持しながら、ドメインを継続的に変更するモデルを更新して、過去のドメインの破滅的な忘れを防止することです。 この目的のために、我々はプルーニングによって固有のモデルキャパシティを利用するドメイン固有の機能を保存するためのフレームワークを構築します。 また,新しいバッチノルム基準を用いた効果的な推論を行い,最終モデルのパラメータを正確に予測する。 提案手法は,最先端の性能だけでなく,過去のドメインの破滅的な忘れ込みを著しく防止する。 私たちのコードは公開されています。

In this paper, we propose to develop a method to address unsupervised domain adaptation (UDA) in a practical setting of continual learning (CL). The goal is to update the model on continually changing domains while preserving domain-specific knowledge to prevent catastrophic forgetting of past-seen domains. To this end, we build a framework for preserving domain-specific features utilizing the inherent model capacity via pruning. We also perform effective inference using a novel batch-norm based metric to predict the final model parameters to be used accurately. Our approach achieves not only state-of-the-art performance but also prevents catastrophic forgetting of past domains significantly. Our code is made publicly available.
翻訳日:2023-04-18 18:25:00 公開日:2023-04-15
# Icospherical Chemical Objects (ICOs)は、化学データの増大と回転、翻訳、置換不変性の維持を可能にする

Icospherical Chemical Objects (ICOs) allow for chemical data augmentation and maintain rotational, translation and permutation invariance ( http://arxiv.org/abs/2304.07558v1 )

ライセンス: Link先を確認
Ella Gale(参考訳) データセット拡張は小さなデータセットを扱う一般的な方法であり、化学データセットはしばしば小さい。 SphNN(Spherical Convolutional Neural Network)とIcosahedral Neural Network(IcoNN)は、回転対称性を維持する幾何学的機械学習アルゴリズムの一種である。 分子構造は回転不変性を持ち、本質的に3次元であるため、分子構造を機械学習に入力するための3次元符号化法が必要である。 本稿では, 球面ニューラルネットワークやコサヘドラルニューラルネットワークを用いて3次元データを回転不変に符号化し, データセットの増大を可能にするICO(Icospherical Chemical Objects)を提案する。 一般分子特性の予測,分子のような薬物の溶解度の予測,タンパク質結合問題の予測,およびICOとSphNNが全ての問題に対して良好に機能することの確認を行う。

Dataset augmentation is a common way to deal with small datasets; Chemistry datasets are often small. Spherical convolutional neural networks (SphNNs) and Icosahedral neural networks (IcoNNs) are a type of geometric machine learning algorithm that maintains rotational symmetry. Molecular structure has rotational invariance and is inherently 3-D, and thus we need 3-D encoding methods to input molecular structure into machine learning. In this paper I present Icospherical Chemical Objects (ICOs) that enable the encoding of 3-D data in a rotationally invariant way which works with spherical or icosahedral neural networks and allows for dataset augmentation. I demonstrate the ICO featurisation method on the following tasks: predicting general molecular properties, predicting solubility of drug like molecules and the protein binding problem and find that ICO and SphNNs perform well on all problems.
翻訳日:2023-04-18 18:24:48 公開日:2023-04-15
# 形は(ほとんど)すべてです! 持続的ホモロジー特徴(PHF)は効率的な分子機械学習のための情報豊富な入力である

Shape is (almost) all!: Persistent homology features (PHFs) are an information rich input for efficient molecular machine learning ( http://arxiv.org/abs/2304.07554v1 )

ライセンス: Link先を確認
Ella Gale(参考訳) 3次元形状は化学にとって重要であるが、どの程度重要か? 機械学習は、入力が単純で問題によくマッチするときに最もうまく機能する。 化学データセットは、機械学習で一般的に使用されるデータセットに比べて非常に小さい傾向があるため、各データポイントから最大限を得る必要があります。 永続ホモロジーは点雲の位相的形状特性を異なるスケールで測定し、位相データ解析に使用される。 ここでは、分子構造について永続ホモロジーが何を捉え、原子ラベル、原子価、電荷、結合などの象徴的な詳細をなくしながら分子の形状を符号化する永続ホモロジー特徴(PHF)を作成する。 QM7, リポフィリティー, Delaney, Tox21といった一連の化学データセット上でのPHFの有用性を示す。 PHFは最高のベンチマークと同様に動作する。 PHFは情報密度が高く、他の符号化手法よりもはるかに小さいため、MLアルゴリズムの方がはるかにエネルギー効率が高い。 phfsの成功 化学の詳細な詳細が失われながらも、化学がどれだけトポロジカルな形に単純化できるかを強調する。

3-D shape is important to chemistry, but how important? Machine learning works best when the inputs are simple and match the problem well. Chemistry datasets tend to be very small compared to those generally used in machine learning so we need to get the most from each datapoint. Persistent homology measures the topological shape properties of point clouds at different scales and is used in topological data analysis. Here we investigate what persistent homology captures about molecular structure and create persistent homology features (PHFs) that encode a molecule's shape whilst losing most of the symbolic detail like atom labels, valence, charge, bonds etc. We demonstrate the usefulness of PHFs on a series of chemical datasets: QM7, lipophilicity, Delaney and Tox21. PHFs work as well as the best benchmarks. PHFs are very information dense and much smaller than other encoding methods yet found, meaning ML algorithms are much more energy efficient. PHFs success despite losing a large amount of chemical detail highlights how much of chemistry can be simplified to topological shape.
翻訳日:2023-04-18 18:24:32 公開日:2023-04-15
# ma-vit: 顔アンチスプーフィングのためのモダリティ非依存視覚トランスフォーマー

MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing ( http://arxiv.org/abs/2304.07549v1 )

ライセンス: Link先を確認
Ajian Liu and Yanyan Liang(参考訳) 既存のマルチモーダルフェイスアンチスプーフィング(FAS)フレームワークは、中間と後期の2つの戦略に基づいて設計されている。 しかしながら、前者はトレーニングインプットと整合したテストモダリティを必要とし、デプロイメントシナリオを著しく制限する。 そして後者は、異なるモダリティを独立して処理するために、複数のブランチ上に構築されている。 本研究では,マルチモーダルデータを用いた任意のモーダルアタックの性能向上を目的とした,単一ブランチベースのトランスフォーマフレームワークであるModality-Agnostic Vision Transformer(MA-ViT)を提案する。 具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。 さらに、mda(modal-disentangle attention)とcma(cross-modal attention)と呼ばれる2つの重ねられた注意からなるma-vitのmodality-agnostic transformer block(matb)を開発し、各モーダルシーケンスのmodality-related informationを排除し、他のモーダルシーケンスからmodality-agnostic liveness featureを補完する。 ma-vitに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークを大きなマージンで上回り、より小さなフロップとモデルパラメータで導入されたマルチモーダルフレームワークにアプローチできる。

The existing multi-modal face anti-spoofing (FAS) frameworks are designed based on two strategies: halfway and late fusion. However, the former requires test modalities consistent with the training input, which seriously limits its deployment scenarios. And the latter is built on multiple branches to process different modalities independently, which limits their use in applications with low memory or fast execution requirements. In this work, we present a single branch based Transformer framework, namely Modality-Agnostic Vision Transformer (MA-ViT), which aims to improve the performance of arbitrary modal attacks with the help of multi-modal data. Specifically, MA-ViT adopts the early fusion to aggregate all the available training modalities data and enables flexible testing of any given modal samples. Further, we develop the Modality-Agnostic Transformer Block (MATB) in MA-ViT, which consists of two stacked attentions named Modal-Disentangle Attention (MDA) and Cross-Modal Attention (CMA), to eliminate modality-related information for each modal sequences and supplement modality-agnostic liveness features from another modal sequences, respectively. Experiments demonstrate that the single model trained based on MA-ViT can not only flexibly evaluate different modal samples, but also outperforms existing single-modal frameworks by a large margin, and approaches the multi-modal frameworks introduced with smaller FLOPs and model parameters.
翻訳日:2023-04-18 18:24:13 公開日:2023-04-15
# STEN: PyTorchの生産性と効率性

STen: Productive and Efficient Sparsity in PyTorch ( http://arxiv.org/abs/2304.07613v1 )

ライセンス: Link先を確認
Andrei Ivanov, Nikoli Dryden, Tal Ben-Nun, Saleh Ashkboos, Torsten Hoefler(参考訳) ディープラーニングモデルが成長するにつれて、疎性はディープニューラルネットワークの重要なコンポーネントとなり、パフォーマンスの向上とストレージの削減を可能にしている。 しかし、既存のフレームワークはsparsityに対するサポートが不十分である。 特殊スパーシティエンジンはスパース推論に特化しているが、一般的なフレームワークは主に古典的なフォーマットにおけるスパーステンソルに重点を置いており、スパースモデルを使用するのに必要なより広いスパース化パイプラインを特にトレーニング中に無視している。 さらに、既存のフレームワークは拡張が容易ではない。新しいスパーステンソルフォーマットや演算子の追加は困難で時間がかかります。 そこで我々は,pytorchのスパルシティプログラミングモデルとインタフェースであるstenを提案する。スパルシティレイアウト,オペレータ,およびスパルシファイザを,事実上すべてのスパルシフィケーションメソッドをサポートする効率的でカスタマイズ可能な拡張可能なフレームワークに組み込む。 我々は,CPU推論のための高パフォーマンスなグループ化n:m間隔レイアウトを適度な間隔で開発することでこれを実証する。 STenは、MLコミュニティに高いパフォーマンスと使いやすさをもたらし、スパーシビリティを容易にアクセスできるようにする。

As deep learning models grow, sparsity is becoming an increasingly critical component of deep neural networks, enabling improved performance and reduced storage. However, existing frameworks offer poor support for sparsity. Specialized sparsity engines focus exclusively on sparse inference, while general frameworks primarily focus on sparse tensors in classical formats and neglect the broader sparsification pipeline necessary for using sparse models, especially during training. Further, existing frameworks are not easily extensible: adding a new sparse tensor format or operator is challenging and time-consuming. To address this, we propose STen, a sparsity programming model and interface for PyTorch, which incorporates sparsity layouts, operators, and sparsifiers, in an efficient, customizable, and extensible framework that supports virtually all sparsification methods. We demonstrate this by developing a high-performance grouped n:m sparsity layout for CPU inference at moderate sparsity. STen brings high performance and ease of use to the ML community, making sparsity easily accessible.
翻訳日:2023-04-18 18:17:08 公開日:2023-04-15
# エンド・ツー・エンド自動音声認識のためのctcアライメントに基づく非自己回帰トランス

A CTC Alignment-based Non-autoregressive Transformer for End-to-end Automatic Speech Recognition ( http://arxiv.org/abs/2304.07611v1 )

ライセンス: Link先を確認
Ruchao Fan, Wei Chu, Peng Chang, and Abeer Alwan(参考訳) 近年,自動音声認識(ASR)システムでエンド・ツー・エンドのモデルが広く用いられている。 最も代表的なアプローチは、コネクショニスト時間分類(CTC)とアテンションベースのエンコーダデコーダ(AED)モデルである。 AEDの変種である自己回帰変換器はトークン生成のための自己回帰機構を採用しており、推論中は比較的遅い。 本稿では,CTCアライメントに基づく一段非自己回帰変換器(CASS-NAT)のエンドツーエンドASRに対する総合的研究について述べる。 CASS-NATでは、CTCアライメントによって提供される音響境界情報とともにエンコーダ出力から抽出されるトークンレベル音響埋め込み(TAE)に、自己回帰変換器(AT)内の単語埋め込みを代用する。 TAEは並列に取得でき、出力トークンを並列に生成する。 トレーニング中は、TAE生成にビタビアライメントを使用し、ワードエラー率(WER)のパフォーマンスを改善するために、複数のトレーニング戦略をさらに検討する。 推論中, 誤差に基づくアライメントサンプリング手法を深く検討し, トレーニングおよび試験プロセスにおけるアライメントミスマッチを低減する。 実験の結果、CASS-NAT は様々な ASR タスクにおいて AT に近い WER を持ち、約24倍の推論速度を提供することが示された。 自己教師付き学習がなければ,複数のデータセット上で非自己回帰モデルに対して新たな最先端結果が得られる。 また,CASS-NATデコーダの動作を分析し,ATと同じような動作が可能である理由を説明する。 TAEには文法構造のための単語埋め込みに似た機能があり、言語モデルなしでTAEから意味情報を学習できる可能性を示している。

Recently, end-to-end models have been widely used in automatic speech recognition (ASR) systems. Two of the most representative approaches are connectionist temporal classification (CTC) and attention-based encoder-decoder (AED) models. Autoregressive transformers, variants of AED, adopt an autoregressive mechanism for token generation and thus are relatively slow during inference. In this paper, we present a comprehensive study of a CTC Alignment-based Single-Step Non-Autoregressive Transformer (CASS-NAT) for end-to-end ASR. In CASS-NAT, word embeddings in the autoregressive transformer (AT) are substituted with token-level acoustic embeddings (TAE) that are extracted from encoder outputs with the acoustical boundary information offered by the CTC alignment. TAE can be obtained in parallel, resulting in a parallel generation of output tokens. During training, Viterbi-alignment is used for TAE generation, and multiple training strategies are further explored to improve the word error rate (WER) performance. During inference, an error-based alignment sampling method is investigated in depth to reduce the alignment mismatch in the training and testing processes. Experimental results show that the CASS-NAT has a WER that is close to AT on various ASR tasks, while providing a ~24x inference speedup. With and without self-supervised learning, we achieve new state-of-the-art results for non-autoregressive models on several datasets. We also analyze the behavior of the CASS-NAT decoder to explain why it can perform similarly to AT. We find that TAEs have similar functionality to word embeddings for grammatical structures, which might indicate the possibility of learning some semantic information from TAEs without a language model.
翻訳日:2023-04-18 18:16:46 公開日:2023-04-15
# 逆問題に対するベイズ統計学的アプローチに関するチュートリアル

A tutorial on the Bayesian statistical approach to inverse problems ( http://arxiv.org/abs/2304.07610v1 )

ライセンス: Link先を確認
Faaiq G. Waqar, Swati Patel, Cory M. Simon(参考訳) 逆問題は科学や工学において普遍的である。 物理系に関する逆問題の2つのカテゴリは、(1)観測された入出力対からシステムのモデルのパラメータを推定し、(2)システムのモデルを与えて、観測された出力を引き起こす入力を再構築する。 応用逆問題とは 解決策が (i)存在しない。 (ii)独特でない、または (iii)データを汚染する測定ノイズに敏感である。 ベイズ統計インバージョン (BSI) は、悪条件や悪条件の逆問題に対処するための手法である。 利点として、BSIは「解決」を提供する。 i)未知パラメータ/入力の各可能な値に確率を割り当て、不確実性を定量化する。 (二)パラメータ/入力に関する事前情報及び信念を取り入れる。 本稿では, 環境空気からコールドライム果実への熱伝達を例に, 逆問題に対するBSIのチュートリアルを提供する。 まず, BSIを用いて, 時間経過に伴う石灰温度の測定から石灰温度の動的モデルにおけるパラメータを推定する。 第2に,BSIを用いて後段の温度測定から石灰の初期状態の再構築を行った。 本研究では,事前情報の導入を実証し,パラメータ/初期状態の後方分布を可視化し,モデルから石灰温度軌跡の後方サンプルを示す。 私たちのチュートリアルは、幅広い科学者とエンジニアにリーチすることを目的としています。

Inverse problems are ubiquitous in the sciences and engineering. Two categories of inverse problems concerning a physical system are (1) estimate parameters in a model of the system from observed input-output pairs and (2) given a model of the system, reconstruct the input to it that caused some observed output. Applied inverse problems are challenging because a solution may (i) not exist, (ii) not be unique, or (iii) be sensitive to measurement noise contaminating the data. Bayesian statistical inversion (BSI) is an approach to tackle ill-posed and/or ill-conditioned inverse problems. Advantageously, BSI provides a "solution" that (i) quantifies uncertainty by assigning a probability to each possible value of the unknown parameter/input and (ii) incorporates prior information and beliefs about the parameter/input. Herein, we provide a tutorial of BSI for inverse problems, by way of illustrative examples dealing with heat transfer from ambient air to a cold lime fruit. First, we use BSI to infer a parameter in a dynamic model of the lime temperature from measurements of the lime temperature over time. Second, we use BSI to reconstruct the initial condition of the lime from a measurement of its temperature later in time. We demonstrate the incorporation of prior information, visualize the posterior distributions of the parameter/initial condition, and show posterior samples of lime temperature trajectories from the model. Our tutorial aims to reach a wide range of scientists and engineers.
翻訳日:2023-04-18 18:16:17 公開日:2023-04-15
# ODSmoothGrad:オブジェクトディテクタの精度マップ生成

ODSmoothGrad: Generating Saliency Maps for Object Detectors ( http://arxiv.org/abs/2304.07609v1 )

ライセンス: Link先を確認
Chul Gwon and Steven C. Howell(参考訳) 深層学習モデルの説明可能性には, 画像分類作業に主に取り組みながら, サリエンシマップを生成する技術が引き続き用いられ続けている。 しかし、そのような手法は、分類スコアだけでなく、これらのパラメータに寄与するピクセルを識別できる回帰値である境界ボックスパラメータに対しても適用することができる。 本稿では,ODSmoothGradについて述べる。ODSmoothGradはオブジェクト検出器の分類とバウンディングボックスパラメータの有界マップを生成するツールである。 また,サリエンシーマップの不安定性を考慮すると,スムースグレードアルゴリズムを適用して興味のある画素を視覚的に拡張する。 これらの機能を1段階と2段階の物体検出器で実証し,分類器に基づく手法による比較を行った。

Techniques for generating saliency maps continue to be used for explainability of deep learning models, with efforts primarily applied to the image classification task. Such techniques, however, can also be applied to object detectors, not only with the classification scores, but also for the bounding box parameters, which are regressed values for which the relevant pixels contributing to these parameters can be identified. In this paper, we present ODSmoothGrad, a tool for generating saliency maps for the classification and the bounding box parameters in object detectors. Given the noisiness of saliency maps, we also apply the SmoothGrad algorithm to visually enhance the pixels of interest. We demonstrate these capabilities on one-stage and two-stage object detectors, with comparisons using classifier-based techniques.
翻訳日:2023-04-18 18:15:56 公開日:2023-04-15
# 多形電気光学回路とアーキテクチャを用いた高速・エネルギー効率非双対計算

High-Speed and Energy-Efficient Non-Binary Computing with Polymorphic Electro-Optic Circuits and Architectures ( http://arxiv.org/abs/2304.07608v1 )

ライセンス: Link先を確認
Ishan Thakkar, Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi(参考訳) 本稿では,マイクロリング共振器(MRR)をベースとした多形E-O回路とアーキテクチャについて述べる。 我々の多相E-O回路は、異なる時間で異なる論理と演算関数を実装するために動的にプログラムできる。 それらはコンパクトさと多型性を提供し、結果としてオペランドハンドリングを改善し、アイドル時間を減らし、領域と静的電力オーバーヘッドの償却を増やすことができる。 光パルスをその場で蓄積できるフレキシブルな光検出器と組み合わせることで、確率的・非定常的・高次元の貯水池形式のような非バイナリ形式のデータのエネルギー効率の良い処理を支援することができる。 さらに、我々の多形E-O回路は、二項化および整数量子化畳み込みニューラルネットワーク(CNN)を処理するための構成可能なE-O演算アクセラレータアーキテクチャを実現する。 設計した多形E-O回路とアーキテクチャを,領域,レイテンシ,エネルギー消費の面で先行研究のいくつかの回路とアーキテクチャと比較した。

In this paper, we present microring resonator (MRR) based polymorphic E-O circuits and architectures that can be employed for high-speed and energy-efficient non-binary reconfigurable computing. Our polymorphic E-O circuits can be dynamically programmed to implement different logic and arithmetic functions at different times. They can provide compactness and polymorphism to consequently improve operand handling, reduce idle time, and increase amortization of area and static power overheads. When combined with flexible photodetectors with the innate ability to accumulate a high number of optical pulses in situ, our circuits can support energy-efficient processing of data in non-binary formats such as stochastic/unary and high-dimensional reservoir formats. Furthermore, our polymorphic E-O circuits enable configurable E-O computing accelerator architectures for processing binarized and integer quantized convolutional neural networks (CNNs). We compare our designed polymorphic E-O circuits and architectures to several circuits and architectures from prior works in terms of area, latency, and energy consumption.
翻訳日:2023-04-18 18:15:42 公開日:2023-04-15
# 反強磁性体における温度異方性共役マグノンスクイーズ

Temperature-anisotropy conjugate magnon squeezing in antiferromagnets ( http://arxiv.org/abs/2304.07602v1 )

ライセンス: Link先を確認
Mahroo Shiranzaei, Jonas Fransson, Vahid Azimi-Mousolou(参考訳) 量子スクイージング(quantum squeezing)は、量子科学と技術の基本的な資源である。 本稿では,一軸反強磁性体中の2モードマグノン状態に伴う量子揺らぎの温度と異方性によるスクイーズについて検討する。 非線形性の結果、系の2モードエネルギー固有状態の温度と異方性によって導かれる共役マグノンスクイージング効果が発見された。 温度が振幅スクイーズを誘導する一方で、異方性はマグノン状態の位相スクイーズを引き起こす。 その結果, 異方性は温度よりも大きなスクイーズ係数をもたらすことがわかった。 しかし, 温度誘起のスクイージングは2モードマグノン状態の圧縮特性と自然に関係していると考えられる。 解析の結果,非等方性の有限値までの鋭いスクイーズ効果により,この値を超える異方性が増大しても,それ以上のスクイーズは生じないことがわかった。 しかし、温度の上昇は連続的に圧縮を引き起こす。 温度と異方性によるスクイージングの競合にもかかわらず、異方性の最適有限値は高温および低エネルギー安定化マグノンスクイージングを達成できることを示す。 我々は,量子マグノニクスにおけるスクイージング効果を実験的に検出するための,明確で新しい経路を提供すると信じている。

Quantum squeezing is a fundamental resource for quantum science and technology. Here we examine temperature and anisotropy -induced squeezing of quantum fluctuations associated with two-mode magnon states in uniaxial antiferromagnetic materials. As a result of nonlinearity we find a conjugate magnon squeezing effect led by temperature and anisotropy for all two-mode energy eigenbasis states of the system. While temperature induces amplitude squeezing, anisotropy causes phase squeezing in magnon states. We show that the anisotropy gives rise to the larger squeeze factor compared to temperature. However, it is seen that temperature-induced squeezing is naturally related to the squeezed property of the two-mode magnon states. The analysis shows that after a sharp squeezing effect up to a finite value of anisotropy, increasing anisotropy beyond this value does not cause significant further squeezing. Nevertheless, increasing the temperature continuously causes compression. Despite the competition between temperature and anisotropy -induced squeezings, we show that an optimal finite value of anisotropy allows achieving high temperature and low energy stabilized magnon squeezing. We believe our results provide a clear and novel pathway toward the experimental detection of squeezing effects in quantum magnonics.
翻訳日:2023-04-18 18:15:24 公開日:2023-04-15
# 潜時空間での学習はディープニューラル演算子の予測精度を改善する

Learning in latent spaces improves the predictive accuracy of deep neural operators ( http://arxiv.org/abs/2304.07599v1 )

ライセンス: Link先を確認
Katiana Kontolati, Somdatta Goswami, George Em Karniadakis, Michael D. Shields(参考訳) 演算子の回帰は、物理系を記述する部分微分方程式(PDE)のための離散化不変エミュレータを構築する強力な手段を提供する。 ニューラルネットワークは特に、無限次元バナッハ空間間の近似写像にディープニューラルネットワークを用いる。 データ駆動モデルとして、ニューラルネットワークはラベル付き観測を生成する必要があり、複雑な高忠実度モデルの場合、冗長でノイズの多い特徴を含む高次元データセットが発生し、勾配に基づく最適化を妨げる。 これらの高次元データセットを、突出した機能の低次元の潜在空間にマッピングすることで、データの処理や学習の促進が容易になる。 本研究では,高次元 pde 入力と出力関数の潜在表現を適切なオートエンコーダと同一視する標準 deeponet の拡張である latent deep operator network (l-deeponet) について検討する。 l-deeponetは, 脆性材料の破壊, 対流流体流, 大規模大気流動のモデル化など, 様々な時間依存型pdesにおいて, 精度と計算効率の両方において, 標準的アプローチを上回っている。

Operator regression provides a powerful means of constructing discretization-invariant emulators for partial-differential equations (PDEs) describing physical systems. Neural operators specifically employ deep neural networks to approximate mappings between infinite-dimensional Banach spaces. As data-driven models, neural operators require the generation of labeled observations, which in cases of complex high-fidelity models result in high-dimensional datasets containing redundant and noisy features, which can hinder gradient-based optimization. Mapping these high-dimensional datasets to a low-dimensional latent space of salient features can make it easier to work with the data and also enhance learning. In this work, we investigate the latent deep operator network (L-DeepONet), an extension of standard DeepONet, which leverages latent representations of high-dimensional PDE input and output functions identified with suitable autoencoders. We illustrate that L-DeepONet outperforms the standard approach in terms of both accuracy and computational efficiency across diverse time-dependent PDEs, e.g., modeling the growth of fracture in brittle materials, convective fluid flows, and large-scale atmospheric flows exhibiting multiscale dynamical features.
翻訳日:2023-04-18 18:15:07 公開日:2023-04-15
# 微細組織中の酵母細胞のインスタンスセグメンテーションデータセット

An Instance Segmentation Dataset of Yeast Cells in Microstructures ( http://arxiv.org/abs/2304.07597v1 )

ライセンス: Link先を確認
Christoph Reich, Tim Prangemeier, Andr\'e O. Fran\c{c}ani, Heinz Koeppl(参考訳) 顕微鏡データから単一セル情報を抽出するには、正確なインスタンスワイドセグメンテーションが必要である。 顕微鏡画像からのピクセル単位のセグメンテーションは、特に微構造環境の複雑さが増すと、依然として困難な課題である。 本稿では酵母細胞を微構造に分割する新しいデータセットを提案する。 ピクセル単位のインスタンスセグメンテーションラベルをセルとトラップマイクロ構造の両方に提供します。 総計493枚の密注釈顕微鏡画像を公開する。 本稿では,新しいセグメンテーションアルゴリズムの統一的な比較を容易にするために,データセットの標準化評価戦略を提案する。 データセットと評価戦略の目的は、新しい細胞分割アプローチの開発を促進することである。 データセットはhttps://christophreich 1996.github.io/yeast_in_microstructures_dataset/で公開されている。

Extracting single-cell information from microscopy data requires accurate instance-wise segmentations. Obtaining pixel-wise segmentations from microscopy imagery remains a challenging task, especially with the added complexity of microstructured environments. This paper presents a novel dataset for segmenting yeast cells in microstructures. We offer pixel-wise instance segmentation labels for both cells and trap microstructures. In total, we release 493 densely annotated microscopy images. To facilitate a unified comparison between novel segmentation algorithms, we propose a standardized evaluation strategy for our dataset. The aim of the dataset and evaluation strategy is to facilitate the development of new cell segmentation approaches. The dataset is publicly available at https://christophreich1996.github.io/yeast_in_microstructures_dataset/ .
翻訳日:2023-04-18 18:14:45 公開日:2023-04-15
# 教師ネットワーク校正によるクロスクオリティ知識蒸留の改善

Teacher Network Calibration Improves Cross-Quality Knowledge Distillation ( http://arxiv.org/abs/2304.07593v1 )

ライセンス: Link先を確認
Pia \v{C}uk, Robin Senge, Mikko Lauri, Simone Frintrop(参考訳) 本研究では,教師ネットワークからの知識を高解像度画像として入力する学生ネットワークに伝達する知識蒸留法であるクロス品質知識蒸留(CQKD)について検討する。 画像サイズがコンピュータビジョンアプリケーションの計算負荷の決定要因であるため、CQKDは推論時にのみ学生ネットワークを使用することで要求を著しく削減する。 実験の結果,CQKDは大規模画像分類問題において教師あり学習よりも優れていた。 また,教師の出力分布を高い温度で平滑化させることで,生徒分布がより高いエントロピーを示し,キャリブレーションエラーの低減とネットワーク精度の向上という,ニューラルネットワークの校正の重要性を強調する。

We investigate cross-quality knowledge distillation (CQKD), a knowledge distillation method where knowledge from a teacher network trained with full-resolution images is transferred to a student network that takes as input low-resolution images. As image size is a deciding factor for the computational load of computer vision applications, CQKD notably reduces the requirements by only using the student network at inference time. Our experimental results show that CQKD outperforms supervised learning in large-scale image classification problems. We also highlight the importance of calibrating neural networks: we show that with higher temperature smoothing of the teacher's output distribution, the student distribution exhibits a higher entropy, which leads to both, a lower calibration error and a higher network accuracy.
翻訳日:2023-04-18 18:14:34 公開日:2023-04-15
# FSDNet - YOLOv3とDenseNetに基づく複雑なシナリオのための効率的な火災検知ネットワーク

FSDNet-An efficient fire detection network for complex scenarios based on YOLOv3 and DenseNet ( http://arxiv.org/abs/2304.07584v1 )

ライセンス: Link先を確認
Li Zhu, Jiahui Xiong, Wenxian Wu, Hongyu Yu(参考訳) 火事は日常生活でよくある災害の1つだ。 本稿では,火災の迅速かつ正確な検出を実現するために,特徴抽出モジュール,火災分類モジュール,火災検出モジュールからなるfsdnet (fire smoke detection network) と呼ばれる検出ネットワークを提案する。 まず、基本特徴抽出モジュールに高密度接続構造を導入し、バックボーンネットワークの特徴抽出能力を高め、勾配消去問題を緩和する。 次に、火災検出モジュールに空間ピラミッドプーリング構造を導入し、訓練工程においてモザイクデータ拡張法とキュー損失関数を用いて、火炎特徴抽出能力を総合的に改善する。 最後に、公共の火災データセットの欠点から、11938年の火災画像を含むms-fs(multi-scene fire and smoke)と呼ばれる火災データセットがデータ収集、スクリーニング、オブジェクトアノテーションによって作成された。 提案手法の有効性を証明するため,2つのベンチマークファイアデータセットとMS-FSを用いて評価を行った。 実験の結果、2つのベンチマークデータセットにおけるFSDNetの精度は、それぞれ99.82%と91.15%であり、MS-FSの平均精度は86.80%であり、主流の火災検出方法よりも優れていることがわかった。

Fire is one of the common disasters in daily life. To achieve fast and accurate detection of fires, this paper proposes a detection network called FSDNet (Fire Smoke Detection Network), which consists of a feature extraction module, a fire classification module, and a fire detection module. Firstly, a dense connection structure is introduced in the basic feature extraction module to enhance the feature extraction ability of the backbone network and alleviate the gradient disappearance problem. Secondly, a spatial pyramid pooling structure is introduced in the fire detection module, and the Mosaic data augmentation method and CIoU loss function are used in the training process to comprehensively improve the flame feature extraction ability. Finally, in view of the shortcomings of public fire datasets, a fire dataset called MS-FS (Multi-scene Fire And Smoke) containing 11938 fire images was created through data collection, screening, and object annotation. To prove the effectiveness of the proposed method, the accuracy of the method was evaluated on two benchmark fire datasets and MS-FS. The experimental results show that the accuracy of FSDNet on the two benchmark datasets is 99.82% and 91.15%, respectively, and the average precision on MS-FS is 86.80%, which is better than the mainstream fire detection methods.
翻訳日:2023-04-18 18:14:20 公開日:2023-04-15
# ワーストケース保証を用いたストリーミング量子近似の学習補間

Learned Interpolation for Better Streaming Quantile Approximation with Worst-Case Guarantees ( http://arxiv.org/abs/2304.07652v1 )

ライセンス: Link先を確認
Nicholas Schiefer, Justin Y. Chen, Piotr Indyk, Shyam Narayanan, Sandeep Silwal, Tal Wagner(参考訳) a $\varepsilon$-approximate Quantile sketch over a stream of $n$ inputs is almost the rank of any query point $q$ - すなわち、$q$未満の入力点の個数は$\varepsilon n$の加算誤差までであり、一般には少なくとも1- 1/\mathrm{poly}(n)$の確率で$o(n)$ spaceを消費する。 カルニン、ラング、リバティの有名なkllのスケッチは、最悪の場合のストリーム上で証明可能な最適な分位近似アルゴリズムを実現するが、実際に達成した近似はしばしば最適とは程遠い。 実際、最も一般的に使われているテクニックはDunningのt-digestであり、実世界のデータではKLLよりもはるかに優れた近似を達成しているが、最悪の場合、任意に大きなエラーを犯すことが知られている。 ストリーミング量子化問題に対して補間手法を適用し,KLLよりも実世界のデータセットの近似性を向上し,最悪の場合でも同様の保証を維持する。

An $\varepsilon$-approximate quantile sketch over a stream of $n$ inputs approximates the rank of any query point $q$ - that is, the number of input points less than $q$ - up to an additive error of $\varepsilon n$, generally with some probability of at least $1 - 1/\mathrm{poly}(n)$, while consuming $o(n)$ space. While the celebrated KLL sketch of Karnin, Lang, and Liberty achieves a provably optimal quantile approximation algorithm over worst-case streams, the approximations it achieves in practice are often far from optimal. Indeed, the most commonly used technique in practice is Dunning's t-digest, which often achieves much better approximations than KLL on real-world data but is known to have arbitrarily large errors in the worst case. We apply interpolation techniques to the streaming quantiles problem to attempt to achieve better approximations on real-world data sets than KLL while maintaining similar guarantees in the worst case.
翻訳日:2023-04-18 18:08:40 公開日:2023-04-15
# LASER: セマンティックビデオ表現のニューロシンボリック学習

LASER: Neuro-Symbolic Learning of Semantic Video Representations ( http://arxiv.org/abs/2304.07647v1 )

ライセンス: Link先を確認
Jiani Huang, Ziyang Li, David Jacobs, Mayur Naik, Ser-Nam Lim(参考訳) ビデオテキストアライメント、ビデオ検索、ビデオキャプションなどのビデオを含む現代的なAIアプリケーションは、ビデオセマンティクスのきめ細かい理解の恩恵を受ける。 既存のビデオ理解のアプローチは、データハングリーで低レベルのアノテーションを必要とするか、あるいは解釈不能で重要な詳細を見逃しかねない一般的な埋め込みに基づいている。 本研究では,映像データにリッチな空間的および時間的特性をキャプチャできる論理仕様を活用し,意味的映像表現を学習するニューロシンボリックアプローチであるlaserを提案する。 特に、生のビデオと仕様の整合性の観点から問題を定式化する。 アライメントプロセスは、所望の高レベル仕様に準拠したきめ細かい映像表現を抽出するために、低レベルの知覚モデルを効率的に訓練する。 パイプラインはエンドツーエンドでトレーニングでき、仕様から派生したコントラストやセマンティックな損失関数を組み込むことができます。 空間的および時間的仕様に富む2つのデータセットについて,本手法を評価した。 本手法は,細粒度ビデオのセマンティクスを学習するだけでなく,ビデオ検索などの下流タスクにおける既存のベースラインよりも優れることを示す。

Modern AI applications involving video, such as video-text alignment, video search, and video captioning, benefit from a fine-grained understanding of video semantics. Existing approaches for video understanding are either data-hungry and need low-level annotation, or are based on general embeddings that are uninterpretable and can miss important details. We propose LASER, a neuro-symbolic approach that learns semantic video representations by leveraging logic specifications that can capture rich spatial and temporal properties in video data. In particular, we formulate the problem in terms of alignment between raw videos and specifications. The alignment process efficiently trains low-level perception models to extract a fine-grained video representation that conforms to the desired high-level specification. Our pipeline can be trained end-to-end and can incorporate contrastive and semantic loss functions derived from specifications. We evaluate our method on two datasets with rich spatial and temporal specifications: 20BN-Something-Something and MUGEN. We demonstrate that our method not only learns fine-grained video semantics but also outperforms existing baselines on downstream tasks such as video retrieval.
翻訳日:2023-04-18 18:08:17 公開日:2023-04-15
# Herder Ants: Aphidによるイベントトリガー動的最適化問題の離散化のためのAnt Colony Optimization

Herder Ants: Ant Colony Optimization with Aphids for Discrete Event-Triggered Dynamic Optimization Problems ( http://arxiv.org/abs/2304.07646v1 )

ライセンス: Link先を確認
Jonas Skackauskas, Tatiana Kalganova(参考訳) 現在利用可能なAnt Colony Optimization (ACO)アルゴリズムの動的最適化戦略は、各動的変化が発生した後、遅いアルゴリズム収束またはソリューション品質に対する重大なペナルティのトレードオフを提供する。 本稿では,アリとアフィドの共生関係をモデルとしたAphidsを用いたAnt Colony Optimization (ACO) という離散的動的最適化手法を提案する。 aphids strategyによるacoは、イベントトリガ付き離散ダイナミズムによる離散ドメイン動的最適化問題(dops)の解品質を改善するように設計されている。 提案手法は動的最適化全体の状態間収束率を改善することを目的としている。 これは、フィットネスペナルティを最小化し、ダイナミックな変化後に起こる収束速度を最大化する。 この戦略は、dmkp(dynamic multidimensional knapsack problem)ベンチマークを解いた同じacoコアアルゴリズムに実装されたフルリスタートおよびフェロモン共有戦略に対してテストされる。 ACO with Aphidsは、平均ギャップにおける全てのテストにおいてフェロモン共有戦略よりも優れた性能を示した。 また、AphidsによるACOは、大規模なデータセットグループに対するFull-Restart戦略よりも優れており、全体の平均ギャップは52.5%削減されている。

Currently available dynamic optimization strategies for Ant Colony Optimization (ACO) algorithm offer a trade-off of slower algorithm convergence or significant penalty to solution quality after each dynamic change occurs. This paper proposes a discrete dynamic optimization strategy called Ant Colony Optimization (ACO) with Aphids, modelled after a real-world symbiotic relationship between ants and aphids. ACO with Aphids strategy is designed to improve solution quality of discrete domain Dynamic Optimization Problems (DOPs) with event-triggered discrete dynamism. The proposed strategy aims to improve the inter-state convergence rate throughout the entire dynamic optimization. It does so by minimizing the fitness penalty and maximizing the convergence speed that occurs after the dynamic change. This strategy is tested against Full-Restart and Pheromone-Sharing strategies implemented on the same ACO core algorithm solving Dynamic Multidimensional Knapsack Problem (DMKP) benchmarks. ACO with Aphids has demonstrated superior performance over the Pheromone-Sharing strategy in every test on average gap reduced by 29.2%. Also, ACO with Aphids has outperformed the Full-Restart strategy for large datasets groups, and the overall average gap is reduced by 52.5%.
翻訳日:2023-04-18 18:07:46 公開日:2023-04-15
# 安定なハイパーネットワーク学習のための非プロポーザルパラメトリゼーション

Non-Proportional Parametrizations for Stable Hypernetwork Learning ( http://arxiv.org/abs/2304.07645v1 )

ライセンス: Link先を確認
Jose Javier Gonzalez Ortiz, John Guttag, Adrian Dalca(参考訳) Hypernetworksは、別のニューラルネットワークのパラメータを生成するニューラルネットワークである。 多くのシナリオでは、現在のハイパーネットワークトレーニング戦略は不安定であり、収束は非ハイパーネットワークモデルよりもはるかに遅い。 この問題は,ハイパーネットワークアーキテクチャと初期化の共通選択を用いて発生する問題と関連していることを示す。 解析的および実験的に、この数値問題がどのようにトレーニング中に不安定になり、収束を遅くし、時には防ぐことができるかを実証する。 また、一般的なディープラーニング正規化戦略がこれらの問題に対処できないことも示しています。 そこで本研究では,非比例加法パラメトリゼーションを用いた修正ハイパーネットワークの定式化に基づく問題に対する解法を提案する。 提案する再パラメータ化を複数のタスクでテストし,より安定したトレーニングを継続し,より高速な収束を実現することを実証した。

Hypernetworks are neural networks that generate the parameters of another neural network. In many scenarios, current hypernetwork training strategies are unstable, and convergence is often far slower than for non-hypernetwork models. We show that this problem is linked to an issue that arises when using common choices of hypernetwork architecture and initialization. We demonstrate analytically and experimentally how this numerical issue can lead to an instability during training that slows, and sometimes even prevents, convergence. We also demonstrate that popular deep learning normalization strategies fail to address these issues. We then propose a solution to the problem based on a revised hypernetwork formulation that uses non-proportional additive parametrizations. We test the proposed reparametrization on several tasks, and demonstrate that it consistently leads to more stable training, achieving faster convergence.
翻訳日:2023-04-18 18:07:11 公開日:2023-04-15
# 文字列図における因果モデル

Causal models in string diagrams ( http://arxiv.org/abs/2304.07638v1 )

ライセンス: Link先を確認
Robin Lorenz and Sean Tull(参考訳) 因果モデルの枠組みは因果推論の原理的なアプローチを提供し、今日多くの科学領域で適用されている。 ここでは、このフレームワークを、圏論を用いて正式に解釈した文字列図形の言語で提示する。 ネットワーク図と呼ばれる弦図のクラスは、有向非巡回グラフとの1対1対応である。 因果モデルはそのような図式によって与えられ、その成分は確率写像、関数、あるいは「コピー・ディスカード」構造(cd-カテゴリ)を持つ対称モノイダル圏の一般チャネルと解釈され、モデルを直感的かつ厳密に推論できる単一の数学的対象に変換する。 Fong, Jacobs, Kissinger, Zanasi, および Fritz と Klingler による先行研究に基づいて、それぞれcd-カテゴリにおける因果モデルと機能因果モデルの図式的定義を示し、それぞれ因果ベイズネットワークと構造因果モデルを一般化する。 我々は、do-interventionsを含むモデルに対する一般的な介入を形式化し、入力を伴うオープン因果モデルの自然な概念を提示する。 また、正規化ボックスに基づく条件付けにアプローチし、因果推論の計算を完全に図式化できるようにする。 我々は,この設定で反事実を定義し,因果効果と反事実の同一性の問題を完全に図式的に扱う。 このような因果モデルの提示の利点は、因果推論の基本的な問題と、その明確化の役割と教育的価値にある。 本研究は, 因果モデル実践者から応用圏理論の研究者まで, 様々なコミュニティが利用できることを目的としており, イラストレーションのための文献から多くの例を考察している。 全体として、因果モデルフレームワークに従って因果推論が最も自然かつ直感的に図式推論として行われることを議論し、実証する。

The framework of causal models provides a principled approach to causal reasoning, applied today across many scientific domains. Here we present this framework in the language of string diagrams, interpreted formally using category theory. A class of string diagrams, called network diagrams, are in 1-to-1 correspondence with directed acyclic graphs. A causal model is given by such a diagram with its components interpreted as stochastic maps, functions, or general channels in a symmetric monoidal category with a 'copy-discard' structure (cd-category), turning a model into a single mathematical object that can be reasoned with intuitively and yet rigorously. Building on prior works by Fong and Jacobs, Kissinger and Zanasi, as well as Fritz and Klingler, we present diagrammatic definitions of causal models and functional causal models in a cd-category, generalising causal Bayesian networks and structural causal models, respectively. We formalise general interventions on a model, including but beyond do-interventions, and present the natural notion of an open causal model with inputs. We also give an approach to conditioning based on a normalisation box, allowing for causal inference calculations to be done fully diagrammatically. We define counterfactuals in this setup, and treat the problems of the identifiability of causal effects and counterfactuals fully diagrammatically. The benefits of such a presentation of causal models lie in foundational questions in causal reasoning and in their clarificatory role and pedagogical value. This work aims to be accessible to different communities, from causal model practitioners to researchers in applied category theory, and discusses many examples from the literature for illustration. Overall, we argue and demonstrate that causal reasoning according to the causal model framework is most naturally and intuitively done as diagrammatic reasoning.
翻訳日:2023-04-18 18:06:54 公開日:2023-04-15
# TransDocs: 単語から単語への変換による文字認識

TransDocs: Optical Character Recognition with word to word translation ( http://arxiv.org/abs/2304.07637v1 )

ライセンス: Link先を確認
Abhishek Bamotra, Phani Krishna Uppala(参考訳) OCRは様々なアプリケーションで使われているが、その出力は必ずしも正確ではない。 本研究は,ML技術を用いた光学文字認識(OCR)の改良に焦点をあて,長期記憶(LSTM)ベースシーケンスとOCRを統合し,文書翻訳を行うためのシーケンス深層学習モデルを構築する。 この研究は、英語からスペイン語への翻訳のためのANKIデータセットに基づいている。 本研究では,LSTMをベースとしたseq2seqアーキテクチャを用いたディープラーニングモデルを用いて,事前学習したOCRの比較研究を行った。 モデルのエンドツーエンドパフォーマンスはbleu-4スコアで表現されている。 本研究は,OCRとその文書翻訳への応用に関心のある研究者や実践者を対象としている。

While OCR has been used in various applications, its output is not always accurate, leading to misfit words. This research work focuses on improving the optical character recognition (OCR) with ML techniques with integration of OCR with long short-term memory (LSTM) based sequence to sequence deep learning models to perform document translation. This work is based on ANKI dataset for English to Spanish translation. In this work, I have shown comparative study for pre-trained OCR while using deep learning model using LSTM-based seq2seq architecture with attention for machine translation. End-to-end performance of the model has been expressed in BLEU-4 score. This research paper is aimed at researchers and practitioners interested in OCR and its applications in document translation.
翻訳日:2023-04-18 18:06:21 公開日:2023-04-15
# 解釈型ニューラルシンボリックモデルによる文脈外マルチモーダル誤情報の検出

Detecting Out-of-Context Multimodal Misinformation with interpretable neural-symbolic model ( http://arxiv.org/abs/2304.07633v1 )

ライセンス: Link先を確認
Yizhou Zhang, Loc Trinh, Defu Cao, Zijun Cui, Yan Liu(参考訳) 近年、世論の操作を目的とした誤報の持続的な進化を目撃している。 従来の噂や偽ニュース編集者が画像やテキストやビデオの生成や偽造を主に頼りにしているのと異なり、現在の偽情報クリエイターは、パブリックニュースや偽ニュース検出システムを欺くために、文脈外のマルチメディアコンテンツ(例えば、ミスマッチ画像やキャプション)を使う傾向がある。 この新たなタイプの誤情報は、個々のモダリティが真の情報に十分近いため、検出だけでなく明確化も難しくなる。 この課題に対処するために,本論文では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。 提案モデルではまず,文のモダリティ情報をキャプションの抽象的意味表現に基づく一組のファクトクエリに象徴的に分解し,そのクエリと画像のペアを事前学習した大規模視覚言語モデルに転送し,誤情報を検出するのに役立つ「証拠」を選択する。 広範な実験により,提案手法は,本課題における最先端モデルと同じ精度を維持しつつ,より解釈可能な予測を可能にすることが示唆された。

Recent years have witnessed the sustained evolution of misinformation that aims at manipulating public opinions. Unlike traditional rumors or fake news editors who mainly rely on generated and/or counterfeited images, text and videos, current misinformation creators now more tend to use out-of-context multimedia contents (e.g. mismatched images and captions) to deceive the public and fake news detection systems. This new type of misinformation increases the difficulty of not only detection but also clarification, because every individual modality is close enough to true information. To address this challenge, in this paper we explore how to achieve interpretable cross-modal de-contextualization detection that simultaneously identifies the mismatched pairs and the cross-modal contradictions, which is helpful for fact-check websites to document clarifications. The proposed model first symbolically disassembles the text-modality information to a set of fact queries based on the Abstract Meaning Representation of the caption and then forwards the query-image pairs into a pre-trained large vision-language model select the ``evidences" that are helpful for us to detect misinformation. Extensive experiments indicate that the proposed methodology can provide us with much more interpretable predictions while maintaining the accuracy same as the state-of-the-art model on this task.
翻訳日:2023-04-18 18:06:10 公開日:2023-04-15
# エンティティ中心情報抽出へのニューラルアプローチ

Neural Approaches to Entity-Centric Information Extraction ( http://arxiv.org/abs/2304.07625v1 )

ライセンス: Link先を確認
Klim Zaporojets(参考訳) 人工知能(AI)は、音声アシスタント、顔認識、チャットボット、自動運転車など、私たちの日常生活に大きな影響を与えます。 自然言語処理(英: Natural Language Processing、NLP)は、AIと言語学のクロス分野であり、テキストの理解を研究することを目的としている。 これは言語の構造のない性質のため非常に困難な領域であり、多くの曖昧さとコーナーケースがある。 この論文では、テキストでエンティティ(人名、組織名、場所など)を理解することを含む、NLPの非常に特定の領域に対処する。 まず、テキストにおける情報の根本的に異なるエンティティ中心の視点を導入する。 個々の言及をテキストで意味を理解する代わりに、エンティティの概念の観点で機能するアプリケーションを構築するべきだ、と私たちは主張する。 次に、エンティティリンクタスクにエンティティ中心のアプローチをどのように使用できるか、より詳細なモデルを示す。 本研究では,個々の参照ではなく,コア参照クラスタレベルでエンティティリンクを行うことにより,このタスクを改善することができることを示す。 本研究では,知識ベースエンティティからの情報をテキストに組み込む方法についてさらに検討する。 最後に,進化する時間的視点から実体の進化を分析する。

Artificial Intelligence (AI) has huge impact on our daily lives with applications such as voice assistants, facial recognition, chatbots, autonomously driving cars, etc. Natural Language Processing (NLP) is a cross-discipline of AI and Linguistics, dedicated to study the understanding of the text. This is a very challenging area due to unstructured nature of the language, with many ambiguous and corner cases. In this thesis we address a very specific area of NLP that involves the understanding of entities (e.g., names of people, organizations, locations) in text. First, we introduce a radically different, entity-centric view of the information in text. We argue that instead of using individual mentions in text to understand their meaning, we should build applications that would work in terms of entity concepts. Next, we present a more detailed model on how the entity-centric approach can be used for the entity linking task. In our work, we show that this task can be improved by considering performing entity linking at the coreference cluster level rather than each of the mentions individually. In our next work, we further study how information from Knowledge Base entities can be integrated into text. Finally, we analyze the evolution of the entities from the evolving temporal perspective.
翻訳日:2023-04-18 18:05:44 公開日:2023-04-15
# ChatGPTは株価変動を予測できるのか? 戻り予測可能性と大規模言語モデル

Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models ( http://arxiv.org/abs/2304.07619v1 )

ライセンス: Link先を確認
Alejandro Lopez-Lira and Yuehua Tang(参考訳) ニュース見出しの感情分析を用いて株式市場のリターンを予測するため,ChatGPTや他の大規模言語モデルの可能性を検討する。 chatgptを使って、ある見出しが企業の株価に良い、悪い、あるいは関係のないニュースかどうかを示す。 そして、数値スコアを計算し、これらの‘chatgptスコア’とその後の毎日の株式市場リターンとの正の相関関係を文書化する。 さらに、ChatGPTは従来の感情分析方法よりも優れています。 GPT-1, GPT-2, BERTのようなより基本的なモデルではリターンを正確に予測できないことが分かり、リターン予測能力は複雑なモデルの出現能力を示す。 この結果から,先進言語モデルを投資決定プロセスに組み込むことで,より正確な予測が得られ,量的トレーディング戦略の性能が向上することが示唆された。

We examine the potential of ChatGPT, and other large language models, in predicting stock market returns using sentiment analysis of news headlines. We use ChatGPT to indicate whether a given headline is good, bad, or irrelevant news for firms' stock prices. We then compute a numerical score and document a positive correlation between these ``ChatGPT scores'' and subsequent daily stock market returns. Further, ChatGPT outperforms traditional sentiment analysis methods. We find that more basic models such as GPT-1, GPT-2, and BERT cannot accurately forecast returns, indicating return predictability is an emerging capacity of complex models. Our results suggest that incorporating advanced language models into the investment decision-making process can yield more accurate predictions and enhance the performance of quantitative trading strategies.
翻訳日:2023-04-18 18:05:25 公開日:2023-04-15
# 純度/純度N2による油回収過程における最小ミスシビリティ圧力(MMP)の推定:統計的および機械学習アルゴリズムの比較研究

Estimation of minimum miscibility pressure (MMP) in impure/pure N2 based enhanced oil recovery process: A comparative study of statistical and machine learning algorithms ( http://arxiv.org/abs/2304.07617v1 )

ライセンス: Link先を確認
Xiuli Zhu, Seshu Kumar Damarla, Biao Huang(参考訳) mmp(minimum miscibility pressure)予測は窒素ベースの石油回収プロセスの設計と運用において重要な役割を担っている。 本研究では,MMP推定に使用される統計的および機械学習手法の比較研究を行った。 本研究で開発された予測モデルのほとんどは,文献で報告された相関モデルや予測モデルよりも優れた性能を示した。

Minimum miscibility pressure (MMP) prediction plays an important role in design and operation of nitrogen based enhanced oil recovery processes. In this work, a comparative study of statistical and machine learning methods used for MMP estimation is carried out. Most of the predictive models developed in this study exhibited superior performance over correlation and predictive models reported in literature.
翻訳日:2023-04-18 18:05:11 公開日:2023-04-15
# 確率的推論としての次元減少

Dimensionality Reduction as Probabilistic Inference ( http://arxiv.org/abs/2304.07658v1 )

ライセンス: Link先を確認
Aditya Ravuri, Francisco Vargas, Vidhi Lalchand, Neil D. Lawrence(参考訳) 次元性低減(DR)アルゴリズムは、高次元データを低次元表現に圧縮し、データの重要な特徴を保存する。 DRは、データの可視化、ノイズ低減、効率的な下流処理を可能にするため、多くの分析パイプラインにおいて重要なステップである。 本稿では,このフレームワークの確率的推論アルゴリズムとして,幅広い古典的drアルゴリズムを解釈するprobdr変分フレームワークを提案する。 ProbDRはPCA、CMDS、LE、LE、MVU、拡散マップ、kPCA、Isomap、(t-)SNE、UMAPを含む。 このフレームワークでは,データの生成モデルの一部として使用できる共分散,精度,グラフラプラシアン行列を構成するために,低次元潜在変数が用いられる。 推論は証拠を下限に最適化することで行われる。 本稿では,DR に確率型プログラミング言語 (PPL) を適用可能であることを示すとともに,不明瞭なデータに対する推論を容易にするとともに,生成モデルが多様体上のガウス過程 (GP) に近似していることを示す。 DRの統一的なビューを提供することで、コミュニケーション、不確実性、モデル構成、拡張、特にドメイン知識が存在する場合の推論を容易にする。

Dimensionality reduction (DR) algorithms compress high-dimensional data into a lower dimensional representation while preserving important features of the data. DR is a critical step in many analysis pipelines as it enables visualisation, noise reduction and efficient downstream processing of the data. In this work, we introduce the ProbDR variational framework, which interprets a wide range of classical DR algorithms as probabilistic inference algorithms in this framework. ProbDR encompasses PCA, CMDS, LLE, LE, MVU, diffusion maps, kPCA, Isomap, (t-)SNE, and UMAP. In our framework, a low-dimensional latent variable is used to construct a covariance, precision, or a graph Laplacian matrix, which can be used as part of a generative model for the data. Inference is done by optimizing an evidence lower bound. We demonstrate the internal consistency of our framework and show that it enables the use of probabilistic programming languages (PPLs) for DR. Additionally, we illustrate that the framework facilitates reasoning about unseen data and argue that our generative models approximate Gaussian processes (GPs) on manifolds. By providing a unified view of DR, our framework facilitates communication, reasoning about uncertainties, model composition, and extensions, particularly when domain knowledge is present.
翻訳日:2023-04-18 17:55:39 公開日:2023-04-15
# EEGSN:グラフスパイクニューラルネットワークによる脳波の高効率低遅延デコーディングを目指して

EEGSN: Towards Efficient Low-latency Decoding of EEG with Graph Spiking Neural Networks ( http://arxiv.org/abs/2304.07655v1 )

ライセンス: Link先を確認
Xi Chen, Siwei Mai, Konstantinos Michmizos(参考訳) スパイクニューラルネットワーク(SNN)の大多数は、低レイテンシと電力効率を必要とするいくつかの重要なタスクに必ずしも適合しない誘導バイアスに基づいて訓練されている。 関連する脳電図(EEG)信号に基づく脳行動の推測は、時空間依存の学習によってネットワークのトレーニングと推論効率に大きな影響を与える一例である。 これまでSNNは、異なるデータストリーム間の動的関係をモデル化するために、一般的な帰納バイアスのみに依存していた。 本稿では,分散脳波センサに存在する動的関係情報を学習する多チャンネル脳波分類(eegsn)のためのグラフスパイキングニューラルネットワークアーキテクチャを提案する。 提案手法は,従来のSNNと比較して,推定計算の複雑さを20ドル削減し,モータ実行の分類作業において同等の精度を達成した。 本研究は,低レイテンシおよび低消費電力リアルタイムアプリケーションに適したグラフスパイクネットワークの解釈および効率的なトレーニングのためのフレームワークを提供する。

A vast majority of spiking neural networks (SNNs) are trained based on inductive biases that are not necessarily a good fit for several critical tasks that require low-latency and power efficiency. Inferring brain behavior based on the associated electroenchephalography (EEG) signals is an example of how networks training and inference efficiency can be heavily impacted by learning spatio-temporal dependencies. Up to now, SNNs rely solely on general inductive biases to model the dynamic relations between different data streams. Here, we propose a graph spiking neural network architecture for multi-channel EEG classification (EEGSN) that learns the dynamic relational information present in the distributed EEG sensors. Our method reduced the inference computational complexity by $\times 20$ compared to the state-of-the-art SNNs, while achieved comparable accuracy on motor execution classification tasks. Overall, our work provides a framework for interpretable and efficient training of graph spiking networks that are suitable for low-latency and low-power real-time applications.
翻訳日:2023-04-18 17:55:19 公開日:2023-04-15
# 映像行動認識のためのゲートシフトファウズ

Gate-Shift-Fuse for Video Action Recognition ( http://arxiv.org/abs/2203.08897v3 )

ライセンス: Link先を確認
Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz(参考訳) 畳み込みニューラルネットワークは、画像認識のためのデファクトモデルである。 しかし、ビデオ認識のための2D CNNのストレートな拡張である3D CNNは、標準アクション認識ベンチマークでは同様の成功を収めていない。 この3d cnnの性能低下の主な理由の1つは、大規模な注釈付きデータセットを大規模に訓練する必要のある計算量の増加である。 3dカーネル因子化アプローチは、3d cnnの複雑さを減らすために提案されている。 既存のカーネルファクタライゼーションアプローチは、ハンドデザインとハードワイヤ技術に従っている。 本稿では、時空間分解における相互作用を制御し、時間を通して特徴を適応的にルーティングし、データ依存的に組み合わせる新しい時空間特徴抽出モジュールであるGSFを提案する。 gsfは群空間ゲーティングを利用して入力テンソルとチャネル重み付けを分解し、分解テンソルを融合させる。 GSFは既存の2D CNNに挿入して、パラメータと計算オーバーヘッドを無視して、効率よく高性能な時空間特徴抽出器に変換することができる。 2d cnnファミリを用いてgsfを広範囲に解析し,5つの標準行動認識ベンチマークを用いて,最先端または競争性能を達成する。

Convolutional Neural Networks are the de facto models for image recognition. However 3D CNNs, the straight forward extension of 2D CNNs for video recognition, have not achieved the same success on standard action recognition benchmarks. One of the main reasons for this reduced performance of 3D CNNs is the increased computational complexity requiring large scale annotated datasets to train them in scale. 3D kernel factorization approaches have been proposed to reduce the complexity of 3D CNNs. Existing kernel factorization approaches follow hand-designed and hard-wired techniques. In this paper we propose Gate-Shift-Fuse (GSF), a novel spatio-temporal feature extraction module which controls interactions in spatio-temporal decomposition and learns to adaptively route features through time and combine them in a data dependent manner. GSF leverages grouped spatial gating to decompose input tensor and channel weighting to fuse the decomposed tensors. GSF can be inserted into existing 2D CNNs to convert them into an efficient and high performing spatio-temporal feature extractor, with negligible parameter and compute overhead. We perform an extensive analysis of GSF using two popular 2D CNN families and achieve state-of-the-art or competitive performance on five standard action recognition benchmarks.
翻訳日:2023-04-18 11:49:54 公開日:2023-04-15