このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220611となっている論文です。

PDF登録状況(公開日: 20220611)

TitleAuthorsAbstract論文公表日・翻訳日
# 言語間単語埋め込みマッピングの線形性理解

Understanding Linearity of Cross-Lingual Word Embedding Mappings ( http://arxiv.org/abs/2004.01079v3 )

ライセンス: Link先を確認
Xutan Peng, Mark Stevenson, Chenghua Lin, Chen Li(参考訳) 言語間言語埋め込み(CLWE)の技術は、低リソース言語に対する自然言語処理の課題に取り組む上で、基本的な役割を果たす。 その支配的なアプローチは、埋め込み間の関係を線形写像で表すことができると仮定したが、この仮定が持つ条件についての研究は行われていない。 このような研究のギャップが最近非常に重要になってきており、マッピングを非線形に緩和することは、場合によってはより良いパフォーマンスをもたらすことが証明されている。 本稿では, 単言語単語の埋め込みに符号化されたアナログの保存を, 線形となるような接地トラスCLWEマッピングの必要十分条件として, 初めて理論的解析を行った。 12の異なる言語に対する5つの代表的アナロジーカテゴリを網羅する新しい言語間類似データセットについて,我々の理論的主張に対する直接的な実証的支援を提供する実験を行った。 これらの結果は、他の研究者の観察に関するさらなる洞察を与え、より効果的な言語間表現学習戦略の開発にインスピレーションを与える。

The technique of Cross-Lingual Word Embedding (CLWE) plays a fundamental role in tackling Natural Language Processing challenges for low-resource languages. Its dominant approaches assumed that the relationship between embeddings could be represented by a linear mapping, but there has been no exploration of the conditions under which this assumption holds. Such a research gap becomes very critical recently, as it has been evidenced that relaxing mappings to be non-linear can lead to better performance in some cases. We, for the first time, present a theoretical analysis that identifies the preservation of analogies encoded in monolingual word embeddings as a necessary and sufficient condition for the ground-truth CLWE mapping between those embeddings to be linear. On a novel cross-lingual analogy dataset that covers five representative analogy categories for twelve distinct languages, we carry out experiments which provide direct empirical support for our theoretical claim. These results offer additional insight into the observations of other researchers and contribute inspiration for the development of more effective cross-lingual representation learning strategies.
翻訳日:2022-12-17 10:11:59 公開日:2022-06-11
# 優先順位付き体験リプレイの限界の理解と緩和

Understanding and Mitigating the Limitations of Prioritized Experience Replay ( http://arxiv.org/abs/2007.09569v3 )

ライセンス: Link先を確認
Yangchen Pan, Jincheng Mei, Amir-massoud Farahmand, Martha White, Hengshuai Yao, Mohsen Rohani, Jun Luo(参考訳) 優先順位付けされた経験リプレイ(ER)は、多くの領域でサンプル効率を向上させるために実証的に示されており、大きな注目を集めている。 この作業では、優先順位付けされたERを詳しく見ていきます。 教師付き学習環境では,平均二乗誤差に対する誤差ベース優先サンプリング法と立方体電力損失に対する一様サンプリング法の等価性を示す。 そして,初期学習における一様サンプリングによる収束率の向上を理論的に考察する。 この知見に基づき、優先順位付きerメソッドの2つの制限を更に指摘する。 1)時代遅れの優先事項 2) サンプル空間のカバレッジが不十分である。 そこで本研究では,本モデルに基づく確率勾配ランジュバンダイナミクスサンプリング法を提案する。 本手法は, ブラトフォース法により推定される理想的なサンプリング分布に近接して分布する状態を与えるが, この2つの制限に悩まされないことを示す。 本手法の有効性を示すために, 個別および連続的な制御問題について実験を行い, 自律運転アプリケーションにおける本手法の有効性について検討する。

Prioritized Experience Replay (ER) has been empirically shown to improve sample efficiency across many domains and attracted great attention; however, there is little theoretical understanding of why such prioritized sampling helps and its limitations. In this work, we take a deep look at the prioritized ER. In a supervised learning setting, we show the equivalence between the error-based prioritized sampling method for mean squared error and uniform sampling for cubic power loss. We then provide theoretical insight into why it improves convergence rate upon uniform sampling during early learning. Based on the insight, we further point out two limitations of the prioritized ER method: 1) outdated priorities and 2) insufficient coverage of the sample space. To mitigate the limitations, we propose our model-based stochastic gradient Langevin dynamics sampling method. We show that our method does provide states distributed close to an ideal prioritized sampling distribution estimated by the brute-force method, which does not suffer from the two limitations. We conduct experiments on both discrete and continuous control problems to show our approach's efficacy and examine the practical implication of our method in an autonomous driving application.
翻訳日:2022-11-08 23:47:59 公開日:2022-06-11
# 集団動物運動のためのベイズ逆強化学習

Bayesian Inverse Reinforcement Learning for Collective Animal Movement ( http://arxiv.org/abs/2009.04003v3 )

ライセンス: Link先を確認
Toryn L. J. Schafer, Christopher K. Wikle and Mevin B. Hooten(参考訳) エージェントベースのメソッドは、複雑なグループの振る舞いを生成する単純なルールを定義することができる。 このようなモデルの統治規則は、通常、優先順位を設定し、パラメータは観察された行動軌跡から調整される。 予測されるすべてのシナリオにまたがる仮定を単純化する代わりに、逆強化学習はマルコフ決定プロセスの特性を用いて長期的な行動ポリシーを管理する短期(局所)ルールを推論する。 我々は,計算効率のよい線形解法マルコフ決定プロセスを用いて,自己推進粒子(SPP)モデルと捕獲グッピー集団に対するデータ応用のシミュレーションにおいて,集団移動を規定する局所規則を学習する。 行動決定コストの推定は基底関数の平滑化を伴うベイズ的枠組みを用いて行われる。 我々は,SPPシミュレーションの真のコストを回収し,目標運動よりもグッピーが集団移動に価値を見出す。

Agent-based methods allow for defining simple rules that generate complex group behaviors. The governing rules of such models are typically set a priori and parameters are tuned from observed behavior trajectories. Instead of making simplifying assumptions across all anticipated scenarios, inverse reinforcement learning provides inference on the short-term (local) rules governing long term behavior policies by using properties of a Markov decision process. We use the computationally efficient linearly-solvable Markov decision process to learn the local rules governing collective movement for a simulation of the self propelled-particle (SPP) model and a data application for a captive guppy population. The estimation of the behavioral decision costs is done in a Bayesian framework with basis function smoothing. We recover the true costs in the SPP simulation and find the guppies value collective movement more than targeted movement toward shelter.
翻訳日:2022-10-20 20:55:59 公開日:2022-06-11
# テンソルクローネッカー製品のZ-固有ペアの分離と高次グラフマッチングへの応用

Dominant Z-Eigenpairs of Tensor Kronecker Products are Decoupled and Applications to Higher-Order Graph Matching ( http://arxiv.org/abs/2011.08837v2 )

ライセンス: Link先を確認
Charles Colley, Huda Nassar, David Gleich(参考訳) 行列 Kronecker の自然な一般化である Tensor Kronecker 製品は、複数の研究コミュニティで独立に出現している。 彼らの行列と同様、テンソル一般化は暗黙の乗法と分解定理の構造を与える。 我々は、行列論からテンソル固有ベクトルへの稀な一般化であるテンソルクロネッカー積の支配的固有ベクトルを分離する定理を示す。 この定理は、クロネッカー積上のテンソルパワーメソッドの反復に低階構造が存在することを暗示する。 本稿では,ネットワークアライメントアルゴリズムTAMEの低階構造について検討する。 低階構造を直接あるいは新しいヒューリスティックな埋め込み手法を用いて、精度を改善したり維持したりしながら高速な新しいアルゴリズムを作成し、既存の手法では現実的に扱えない問題にスケールする。

Tensor Kronecker products, the natural generalization of the matrix Kronecker product, are independently emerging in multiple research communities. Like their matrix counterpart, the tensor generalization gives structure for implicit multiplication and factorization theorems. We present a theorem that decouples the dominant eigenvectors of tensor Kronecker products, which is a rare generalization from matrix theory to tensor eigenvectors. This theorem implies low rank structure ought to be present in the iterates of tensor power methods on Kronecker products. We investigate low rank structure in the network alignment algorithm TAME, a power method heuristic. Using the low rank structure directly or via a new heuristic embedding approach, we produce new algorithms which are faster while improving or maintaining accuracy, and scale to problems that cannot be realistically handled with existing techniques.
翻訳日:2022-09-24 17:48:42 公開日:2022-06-11
# 負相関アンサンブルによる反対例の保存

Defending Adversarial Examples by Negative Correlation Ensemble ( http://arxiv.org/abs/2206.10334v1 )

ライセンス: Link先を確認
Wenjian Luo, Hongwei Zhang, Linghao Kong, Zhijian Chen, Ke Tang(参考訳) 敵の例のようなDNNのセキュリティ問題は、多くの注目を集めている。 逆の例は、慎重に設計された摂動を導入することによって、DNNが完全に予測を返すことができる例を指す。 明らかに、敵対的な例は、ディープラーニングの開発に大きなセキュリティリスクをもたらします。 近年,敵対的事例に対する防衛的アプローチが提案されているが,我々の意見では,これらの手法の性能は依然として限られている。 本稿では,Ngative correlation Ensemble (NCEn) という新たなアンサンブル防御手法を提案する。この手法は,アンサンブル内の各部材の勾配方向と勾配等級を負の相関で同時に導入することにより,敵例の転送可能性を低減することで,説得力のある結果が得られる。 広汎な実験が行われ、NCEnはアンサンブルの対向的堅牢性を効果的に向上できることを示した。

The security issues in DNNs, such as adversarial examples, have attracted much attention. Adversarial examples refer to the examples which are capable to induce the DNNs return completely predictions by introducing carefully designed perturbations. Obviously, adversarial examples bring great security risks to the development of deep learning. Recently, Some defense approaches against adversarial examples have been proposed, however, in our opinion, the performance of these approaches are still limited. In this paper, we propose a new ensemble defense approach named the Negative Correlation Ensemble (NCEn), which achieves compelling results by introducing gradient directions and gradient magnitudes of each member in the ensemble negatively correlated and at the same time, reducing the transferability of adversarial examples among them. Extensive experiments have been conducted, and the results demonstrate that NCEn can improve the adversarial robustness of ensembles effectively.
翻訳日:2022-06-26 12:16:48 公開日:2022-06-11
# (参考訳) 合成視覚推論のためのベンチマーク

A Benchmark for Compositional Visual Reasoning ( http://arxiv.org/abs/2206.05379v1 )

ライセンス: CC BY 4.0
Aimen Zerroug, Mohit Vaishnav, Julien Colin, Sebastian Musslick, Thomas Serre(参考訳) 人間の視覚の基本的な構成要素は、複雑な視覚シーンを解析し、構成対象間の関係を判断する能力です。 視覚的推論のためのAIベンチマークは、近年急速に進歩し、最先端のシステムがこれらのベンチマークで人間の精度に達した。 しかし、人間とAIシステムが新しい視覚的推論タスクを学習するサンプル効率の観点からは、大きなギャップが残っている。 人間の学習における顕著な効率性は、少なくとも部分的には、新しいタスクを学ぶ際に得られた知識を効果的に活用できるような、構成性を活用する能力に起因している。 本稿では、よりデータ効率のよい学習アルゴリズムの開発に向けた進展を促すために、新しいビジュアル推論ベンチマークであるコンポジションビジュアルリレーショナル(CVR)を導入する。 我々は,流体知能と非言語推論テストからインスピレーションを得て,抽象ルールと関連する画像データセットを大規模に作成するための新しい手法について述べる。 提案するベンチマークには, タスクルール間のサンプル効率, 一般化, 転送, および構成性を活用する能力が含まれている。 最新のニューラルアーキテクチャを体系的に評価し、驚くべきことに、畳み込みアーキテクチャが、ほとんどのデータレシエーションにおけるすべてのパフォーマンス指標にわたってトランスフォーマーベースのアーキテクチャを超越していることを発見した。 しかしながら、全ての計算モデルは、自己スーパービジョンを用いて情報的視覚表現を学習した後でも、人間に比べてはるかにデータ効率が低い。 全体としては、より効率的な学習にコンポジション性を活用するために学習できるニューラルアーキテクチャの開発に、私たちの課題が関心を喚起することを期待しています。

A fundamental component of human vision is our ability to parse complex visual scenes and judge the relations between their constituent objects. AI benchmarks for visual reasoning have driven rapid progress in recent years with state-of-the-art systems now reaching human accuracy on some of these benchmarks. Yet, a major gap remains in terms of the sample efficiency with which humans and AI systems learn new visual reasoning tasks. Humans' remarkable efficiency at learning has been at least partially attributed to their ability to harness compositionality -- such that they can efficiently take advantage of previously gained knowledge when learning new tasks. Here, we introduce a novel visual reasoning benchmark, Compositional Visual Relations (CVR), to drive progress towards the development of more data-efficient learning algorithms. We take inspiration from fluidic intelligence and non-verbal reasoning tests and describe a novel method for creating compositions of abstract rules and associated image datasets at scale. Our proposed benchmark includes measures of sample efficiency, generalization and transfer across task rules, as well as the ability to leverage compositionality. We systematically evaluate modern neural architectures and find that, surprisingly, convolutional architectures surpass transformer-based architectures across all performance measures in most data regimes. However, all computational models are a lot less data efficient compared to humans even after learning informative visual representations using self-supervision. Overall, we hope that our challenge will spur interest in the development of neural architectures that can learn to harness compositionality toward more efficient learning.
翻訳日:2022-06-19 13:31:10 公開日:2022-06-11
# (参考訳) 最大マージン損失を伴う不均衡データセットの学習

Learning Imbalanced Datasets with Maximum Margin Loss ( http://arxiv.org/abs/2206.05380v1 )

ライセンス: CC BY 4.0
Haeyong Kang, Thang Vu, and Chang D. Yoo(参考訳) 最大マージン(mm)と呼ばれる学習アルゴリズムは、クラス不均衡なデータ学習の問題を考えるために提案されている: 訓練されたモデルは、マイノリティよりもクラスの大部分を予測する傾向がある。 つまり、マイノリティクラスへの不適合は、一般化の課題の1つに思える。 マイノリティクラスを適切に一般化するために、シフトする決定境界を通して有界なマージン一般化を最小化して、新しい最大マージン損失関数(MM)を設計する。 理論的に予測されたラベル分散認識マージン(ldam)損失は、効果的なトレーニングスケジュールとともに再強調や再サンプリングといった以前の戦略でうまく適用された。 しかし, 最大マージン損失関数は検討されていない。 本研究では, LDAMのトレーニングスケジュールと, CIFAR-10/100の2種類のハードマージン決定境界シフトの性能について, 公正比較と有効性について検討した。

A learning algorithm referred to as Maximum Margin (MM) is proposed for considering the class-imbalance data learning issue: the trained model tends to predict the majority of classes rather than the minority ones. That is, underfitting for minority classes seems to be one of the challenges of generalization. For a good generalization of the minority classes, we design a new Maximum Margin (MM) loss function, motivated by minimizing a margin-based generalization bound through the shifting decision bound. The theoretically-principled label-distribution-aware margin (LDAM) loss was successfully applied with prior strategies such as re-weighting or re-sampling along with the effective training schedule. However, they did not investigate the maximum margin loss function yet. In this study, we investigate the performances of two types of hard maximum margin-based decision boundary shift with LDAM's training schedule on artificially imbalanced CIFAR-10/100 for fair comparisons and effectiveness.
翻訳日:2022-06-19 13:19:02 公開日:2022-06-11
# (参考訳) Prompt-Tuningを用いた対話システムの構築

Building a Personalized Dialogue System with Prompt-Tuning ( http://arxiv.org/abs/2206.05399v1 )

ライセンス: CC BY 4.0
Tomohito Kasahara, Daisuke Kawahara, Nguyen Tung, Shengzhe Li, Kenta Shinzato, Toshinori Sato(参考訳) 一貫した応答のない対話システムは魅力的ではない。 本研究では,与えられたキャラクタ設定(persona)に基づいて応答し,一貫性を実現する対話システムを構築する。 言語モデルが急速に普及する傾向を考慮し,学習コストの低いプロンプトチューニングを,事前学習した大規模言語モデルに導入する手法を提案する。 英語と日本語における自動的・手作業による評価の結果,微調整よりも少ない計算資源を用いて,より自然でパーソナライズされた対話システムを構築することが可能であった。

Dialogue systems without consistent responses are not fascinating. In this study, we build a dialogue system that can respond based on a given character setting (persona) to bring consistency. Considering the trend of the rapidly increasing scale of language models, we propose an approach that uses prompt-tuning, which has low learning costs, on pre-trained large-scale language models. The results of automatic and manual evaluations in English and Japanese show that it is possible to build a dialogue system with more natural and personalized responses using less computational resources than fine-tuning.
翻訳日:2022-06-19 13:07:46 公開日:2022-06-11
# (参考訳) HEVCイントラ符号化のための輝度誘導クロミナンス画像強調

Luminance-Guided Chrominance Image Enhancement for HEVC Intra Coding ( http://arxiv.org/abs/2206.05432v1 )

ライセンス: CC BY 4.0
Hewei Liu, Renwei Yang, Shuyuan Zhu, Xing Wen and Bing Zeng(参考訳) 本稿では,HEVCイントラ符号化のための輝度誘導クロミナンス画像強調畳み込みニューラルネットワークを提案する。 具体的には、まずゲート再帰的非対称畳み込みブロックを開発し、劣化した各色調画像を復元し、中間出力を生成する。 そして、輝度画像に導かれ、この中間出力の品質をさらに向上し、最終的に高品質のクロミナンス画像を生成する。 提案手法をHEVCイントラ符号化によるカラー画像の圧縮に適用すると,UとVのHEVCよりも28.96%,BDレートが16.74%向上し,その優位性を示した。

In this paper, we propose a luminance-guided chrominance image enhancement convolutional neural network for HEVC intra coding. Specifically, we firstly develop a gated recursive asymmetric-convolution block to restore each degraded chrominance image, which generates an intermediate output. Then, guided by the luminance image, the quality of this intermediate output is further improved, which finally produces the high-quality chrominance image. When our proposed method is adopted in the compression of color images with HEVC intra coding, it achieves 28.96% and 16.74% BD-rate gains over HEVC for the U and V images, respectively, which accordingly demonstrate its superiority.
翻訳日:2022-06-19 12:58:17 公開日:2022-06-11
# (参考訳) 機械学習最終結果の自動回答と生成のためのデータセットとベンチマーク

A Dataset and Benchmark for Automatically Answering and Generating Machine Learning Final Exams ( http://arxiv.org/abs/2206.05442v1 )

ライセンス: CC BY 4.0
Sarah Zhang, Reece Shuttleworth, Derek Austin, Yann Hicke, Leonard Tang, Sathwik Karnik, Darnell Granberry, Iddo Drori(参考訳) 機械は機械学習を学べるのか? 我々は、同様の質問に答えるために使用するのと同じ基準を用いて、この質問に答えることを提案している:人間は機械学習を学べるのか? 人間のレベルでの機械学習入門で、MITの最終試験に自動的に答えます。 このコースは、学期ごとに約500人の学生を抱える大きな学部生である。 近年,人間レベルでの数学やSTEMの授業において,プログラム合成と数ショット学習が大学レベルの課題を解決している。 本研究では,質問の長さが長く,複数の部分があり,より複雑で,幅広いトピックにまたがる,いくつかの方法で,問題セットとは異なる最終試験からの質問を解決する。 2017年秋から2022年春にかけて、MITが実施した8つの機械学習最終試験のデータセットとベンチマークを提供し、これらの質問に自動的に答え、新しい質問を生成するためのコードを提供します。 我々は,ゼロショット学習とマイナショット学習,チェイン・オブ・マインド・プロンプト,gpt-3をテキストで事前学習し,codexをさまざまな機械学習トピックで微調整したアブレーション研究を行い,マイナショット学習が最善であることを示す。 機械学習コミュニティのために、データとコードを公開しています。

Can a machine learn machine learning? We propose to answer this question using the same criteria we use to answer a similar question: can a human learn machine learning? We automatically answer MIT final exams in Introduction to Machine Learning at a human level. The course is a large undergraduate class with around five hundred students each semester. Recently, program synthesis and few-shot learning solved university-level problem set questions in mathematics and STEM courses at a human level. In this work, we solve questions from final exams that differ from problem sets in several ways: the questions are longer, have multiple parts, are more complicated, and span a broader set of topics. We provide a new dataset and benchmark of questions from eight MIT Introduction to Machine Learning final exams between Fall 2017 and Spring 2022 and provide code for automatically answering these questions and generating new questions. We perform ablation studies comparing zero-shot learning with few-shot learning, chain-of-thought prompting, GPT-3 pre-trained on text and Codex fine-tuned on code on a range of machine learning topics and find that few-shot learning methods perform best. We make our data and code publicly available for the machine learning community.
翻訳日:2022-06-19 12:26:30 公開日:2022-06-11
# (参考訳) ベイジアンアルゴリズムによるハイパーパラメータ最適化の説明可能性向上

Enhancing Explainability of Hyperparameter Optimization via Bayesian Algorithm Execution ( http://arxiv.org/abs/2206.05447v1 )

ライセンス: CC BY 4.0
Julia Moosbauer, Giuseppe Casalicchio, Marius Lindauer, Bernd Bischl(参考訳) HPO(Automatic Hyperparameter Optimization)の利点にもかかわらず、現代のHPOアルゴリズムのほとんどはブラックボックス自身である。 これにより、選択された構成につながる決定プロセスの理解が困難になり、HPOへの信頼が低下し、広く採用されなくなる。 本稿では,部分依存プロットなどの解釈可能な機械学習(IML)手法とHPOの組み合わせについて検討する。 しかし、そのような手法がhpoプロセスの実験データにポストホックな方法でネイティブに適用される場合、オプティマイザの基盤となるサンプリングバイアスは解釈を歪めることができる。 ベイジアン最適化とベイジアンアルゴリズムの実行を結合させることにより,グローバルな予測性能の最適化と,基礎となるブラックボックス関数のIML説明の信頼性評価を効率的に行うHPO法を提案する。 ニューラルネットワークの合成目的とHPOのベンチマークケースにおいて、最適化性能を損なうことなく、基礎となるブラックボックスについてより信頼性の高い説明を返すことを示す。

Despite all the benefits of automated hyperparameter optimization (HPO), most modern HPO algorithms are black-boxes themselves. This makes it difficult to understand the decision process which lead to the selected configuration, reduces trust in HPO, and thus hinders its broad adoption. Here, we study the combination of HPO with interpretable machine learning (IML) methods such as partial dependence plots. However, if such methods are naively applied to the experimental data of the HPO process in a post-hoc manner, the underlying sampling bias of the optimizer can distort interpretations. We propose a modified HPO method which efficiently balances the search for the global optimum w.r.t. predictive performance and the reliable estimation of IML explanations of an underlying black-box function by coupling Bayesian optimization and Bayesian Algorithm Execution. On benchmark cases of both synthetic objectives and HPO of a neural network, we demonstrate that our method returns more reliable explanations of the underlying black-box without a loss of optimization performance.
翻訳日:2022-06-19 12:08:54 公開日:2022-06-11
# (参考訳) メタラーニングのためのPAC-Bayes境界の一般的なフレームワーク

A General framework for PAC-Bayes Bounds for Meta-Learning ( http://arxiv.org/abs/2206.05454v1 )

ライセンス: CC0 1.0
Arezou Rezazadeh(参考訳) メタ学習は、有限個の関連するタスクからデータを観察し、ベースラーニングアルゴリズムのハイパーパラメータを含む帰納バイアスを自動的に推論する。 本稿では,メタ一般化ギャップにおけるPAC-Bayes境界について検討する。 メタ一般化ギャップは、環境レベルとタスクレベルのギャップの2つの一般化ギャップから成り、タスク当たりのタスク数の有限とデータサンプルの観測から生じる。 本稿では, 任意の凸関数を上界に配置し, 環境における期待と経験の損失と, タスクごとのレベルを結びつけることにより, 新たなPAC-Bayes境界を求める。 これらの境界を用いて,新しいPAC-Bayesメタ学習アルゴリズムを開発した。 数値例は、メタラーニングの以前のpac-bayes境界と比較して、提案する新しい境界とアルゴリズムの利点を示している。

Meta learning automatically infers an inductive bias, that includes the hyperparameter of the base-learning algorithm, by observing data from a finite number of related tasks. This paper studies PAC-Bayes bounds on meta generalization gap. The meta-generalization gap comprises two sources of generalization gaps: the environment-level and task-level gaps resulting from observation of a finite number of tasks and data samples per task, respectively. In this paper, by upper bounding arbitrary convex functions, which link the expected and empirical losses at the environment and also per-task levels, we obtain new PAC-Bayes bounds. Using these bounds, we develop new PAC-Bayes meta-learning algorithms. Numerical examples demonstrate the merits of the proposed novel bounds and algorithm in comparison to prior PAC-Bayes bounds for meta-learning.
翻訳日:2022-06-19 11:41:48 公開日:2022-06-11
# (参考訳) 2021年アコースティックスチャレンジを用いた第2回COVID-19診断システム

Svadhyaya system for the Second Diagnosing COVID-19 using Acoustics Challenge 2021 ( http://arxiv.org/abs/2206.05462v1 )

ライセンス: CC BY 4.0
Deepak Mittal, Amir H. Poorjam, Debottam Dutta, Debarpan Bhattacharya, Zemin Yu, Sriram Ganapathy, Maneesh Singh(参考訳) 本報告では,第2回DiCOVAチャレンジにおいて,音声,呼吸,うっ血の3つの音響特性を用いて,COVID-19陽性者を検出するシステムについて述べる。 提案システムは4つの異なるアプローチの組合せに基づいており、それぞれが問題の1つの側面に焦点を合わせ、各トラックの呼吸、きず、音声トラックにおいて86.41、77.60、84.55の盲検AUCと、これら3トラックの融合において85.37のAUCに到達している。

This report describes the system used for detecting COVID-19 positives using three different acoustic modalities, namely speech, breathing, and cough in the second DiCOVA challenge. The proposed system is based on the combination of 4 different approaches, each focusing more on one aspect of the problem, and reaches the blind test AUCs of 86.41, 77.60, and 84.55, in the breathing, cough, and speech tracks, respectively, and the AUC of 85.37 in the fusion of these three tracks.
翻訳日:2022-06-19 11:12:26 公開日:2022-06-11
# (参考訳) 比較スニペット生成

Comparative Snippet Generation ( http://arxiv.org/abs/2206.05473v1 )

ライセンス: CC BY 4.0
Saurabh Jain, Yisong Miao, Min-Yen Kan(参考訳) 製品レビューをモデル化し、製品に関する肯定的および否定的な経験からなる比較応答を生成する。 具体的には、与えられた肯定的意見と否定的意見から、単文的な比較応答を生成する。 本稿では,製品に関する意見の対比から比較スニペット生成というタスクの最初のデータセットと,事前学習したBERTモデルの性能解析を行い,そのスニペットを生成する。

We model product reviews to generate comparative responses consisting of positive and negative experiences regarding the product. Specifically, we generate a single-sentence, comparative response from a given positive and a negative opinion. We contribute the first dataset for this task of Comparative Snippet Generation from contrasting opinions regarding a product, and a performance analysis of a pre-trained BERT model to generate such snippets.
翻訳日:2022-06-19 11:04:31 公開日:2022-06-11
# (参考訳) 知識蒸留における容量ギャップの低減と集団カウントのメカニズム

Reducing Capacity Gap in Knowledge Distillation with Review Mechanism for Crowd Counting ( http://arxiv.org/abs/2206.05475v1 )

ライセンス: CC BY 4.0
Yunxin Liu, Qiaosi Yi, Jinshan Zeng(参考訳) 軽量群集数モデル、特に知識蒸留(KD)に基づくモデルは、計算効率とハードウェア要件に優れていることから近年注目を集めている。 しかし、既存のKDベースのモデルは、通常は容量ギャップの問題に悩まされ、結果として教師ネットワークによって生徒ネットワークの性能が制限される。 本稿では,kdモデルに追随した新たなレビュー機構を導入することで,この課題を解決した。 したがって、提案モデルはReviewKDと呼ばれる。 提案手法は,授業フェーズとレビューフェーズから構成される。そこでは,まず訓練された重教師ネットワークを利用して,その潜伏した特徴を教育フェーズにおいて軽量学生ネットワークに転送し,レビューフェーズでは,学習した特徴に基づく密度マップの精密な推定値をレビューメカニズムを介して生成する。 ReviewKDの有効性は、最先端のモデルと比較することで、6つのベンチマークデータセットに対する一連の実験によって実証される。 数値的な結果から,reviewkdは既存の軽量モデルよりも群衆数を上回っており,キャパシティギャップ問題を効果的に軽減でき,特に教師ネットワークを超える性能を有することがわかった。 軽量モデル以外にも,提案するレビュー機構をプラグアンドプレイモジュールとして使用することで,ニューラルネットワークアーキテクチャを変更したり,追加のモデルパラメータを導入することなく,ある種のヘビークラウドカウントモデルのパフォーマンスをさらに向上できることを示す。

The lightweight crowd counting models, in particular knowledge distillation (KD) based models, have attracted rising attention in recent years due to their superiority on computational efficiency and hardware requirement. However, existing KD based models usually suffer from the capacity gap issue, resulting in the performance of the student network being limited by the teacher network. In this paper, we address this issue by introducing a novel review mechanism following KD models, motivated by the review mechanism of human-beings during the study. Thus, the proposed model is dubbed ReviewKD. The proposed model consists of an instruction phase and a review phase, where we firstly exploit a well-trained heavy teacher network to transfer its latent feature to a lightweight student network in the instruction phase, then in the review phase yield a refined estimate of the density map based on the learned feature through a review mechanism. The effectiveness of ReviewKD is demonstrated by a set of experiments over six benchmark datasets via comparing to the state-of-the-art models. Numerical results show that ReviewKD outperforms existing lightweight models for crowd counting, and can effectively alleviate the capacity gap issue, and particularly has the performance beyond the teacher network. Besides the lightweight models, we also show that the suggested review mechanism can be used as a plug-and-play module to further boost the performance of a kind of heavy crowd counting models without modifying the neural network architecture and introducing any additional model parameter.
翻訳日:2022-06-19 10:54:22 公開日:2022-06-11
# (参考訳) 広汎アプリケーションにおけるQoSレベルのモニタリングとアクティブ管理

Monitoring and Proactive Management of QoS Levels in Pervasive Applications ( http://arxiv.org/abs/2206.05478v1 )

ライセンス: CC BY 4.0
Georgios Boulougaris, Kostas Kolomvatsos(参考訳) データソースに近い複数の計算と分析機能を提供する有望なパラダイムとしてのエッジコンピューティング(ec)の出現は、新しいアプリケーションのための新しい経路を開く。 それでも、ECノードの限られた計算能力とタスク実行中に高いレベルのQoSを保証するという期待は、革新的な管理アプローチの厳しい要件を課している。 ECノードの動作中に最小限のQoSを維持する必要があるため、タスクスケジューリングのための分散的かつインテリジェントな意思決定アプローチを詳しく検討する。 我々の目標は、高いQoSレベルを確保するためにECノードの動作を強化することです。 本稿では,ノードがqosレベルを継続的に監視し,ピアノードやクラウドにオフロードするタスクを積極的に決定するための違反確率を体系的に評価することを提案する。 提案手法を複数の実験シナリオを用いて記述し,評価し,ECのような非常にダイナミックな環境で処理要求を行う際に,その性能と監視機構の利点を明らかにする。

The advent of Edge Computing (EC) as a promising paradigm that provides multiple computation and analytics capabilities close to data sources opens new pathways for novel applications. Nonetheless, the limited computational capabilities of EC nodes and the expectation of ensuring high levels of QoS during tasks execution impose strict requirements for innovative management approaches. Motivated by the need of maintaining a minimum level of QoS during EC nodes functioning, we elaborate a distributed and intelligent decision-making approach for tasks scheduling. Our aim is to enhance the behavior of EC nodes making them capable of securing high QoS levels. We propose that nodes continuously monitor QoS levels and systematically evaluate the probability of violating them to proactively decide some tasks to be offloaded to peer nodes or Cloud. We present, describe and evaluate the proposed scheme through multiple experimental scenarios revealing its performance and the benefits of the envisioned monitoring mechanism when serving processing requests in very dynamic environments like the EC.
翻訳日:2022-06-19 10:31:16 公開日:2022-06-11
# (参考訳) 解釈可能な機械学習による科学的推論--実世界現象を学習するためのモデル分析

Scientific Inference With Interpretable Machine Learning: Analyzing Models to Learn About Real-World Phenomena ( http://arxiv.org/abs/2206.05487v1 )

ライセンス: CC BY 4.0
Timo Freiesleben, Gunnar K\"onig, Christoph Molnar and Alvaro Tejero-Cantero(参考訳) 解釈可能な機械学習(IML)は、機械学習モデルの振る舞いと特性に関するものである。 しかし、科学者はモデルがモデル化された現象を理解するための入り口としてのみ興味を持っている。 我々は、関連する現象特性を把握できるように、IML手法の開発方法を示す。 現在のiml研究は、モデル分析の2つの目標 - モデル監査と科学的推論 - をまとめている。 したがって、モデル解釈が対応する現象解釈を持つかどうかは不明である。 統計決定理論に基づき、mlモデル解析により、統合データ確率分布の関連する側面を記述できることを示す。 我々は,認識の不確かさを定量化するための自然な方法を含む,科学的問題に対処するのに役立つ iml 記述子を構築するための5段階のフレームワークを提供する。 我々の科学におけるIMLに対する現象中心のアプローチは、推論のためのIMLの機会と限界、その条件は限界サンプリングではなく、IMLメソッドを信頼できる条件である。

Interpretable machine learning (IML) is concerned with the behavior and the properties of machine learning models. Scientists, however, are only interested in the model as a gateway to understanding the modeled phenomenon. We show how to develop IML methods such that they allow insight into relevant phenomenon properties. We argue that current IML research conflates two goals of model-analysis -- model audit and scientific inference. Thereby, it remains unclear if model interpretations have corresponding phenomenon interpretation. Building on statistical decision theory, we show that ML model analysis allows to describe relevant aspects of the joint data probability distribution. We provide a five-step framework for constructing IML descriptors that can help in addressing scientific questions, including a natural way to quantify epistemic uncertainty. Our phenomenon-centric approach to IML in science clarifies: the opportunities and limitations of IML for inference; that conditional not marginal sampling is required; and, the conditions under which we can trust IML methods.
翻訳日:2022-06-19 10:12:56 公開日:2022-06-11
# (参考訳) 証拠が低いベイズネットワークにおける潜在共同設立者の発見と密度推定

Discovery and density estimation of latent confounders in Bayesian networks with evidence lower bound ( http://arxiv.org/abs/2206.05490v1 )

ライセンス: CC BY 4.0
Kiattikun Chobtham, Anthony C. Constantinou(参考訳) 潜在共同創設者の発見とパラメータ化は、因果構造学習と密度推定においてそれぞれ重要かつ困難な問題である。 本稿では,潜伏する共同創設者の分布の発見と学習に焦点をあてる。 このタスクには、統計や機械学習のさまざまな分野からのソリューションが必要です。 因果不備を前提として,変分ベイズ法,予想最大化,丘登り探索,構造学習の要素を組み合わせる。 本研究では,モデル選択精度を最大化する学習戦略と,少ない精度低下と引き換えに計算効率を向上させる学習戦略を提案する。 前者の戦略は小さなネットワークに、後者は適度なサイズのネットワークに向いている。 どちらの学習戦略も既存のソリューションとよく対応している。

Discovering and parameterising latent confounders represent important and challenging problems in causal structure learning and density estimation respectively. In this paper, we focus on both discovering and learning the distribution of latent confounders. This task requires solutions that come from different areas of statistics and machine learning. We combine elements of variational Bayesian methods, expectation-maximisation, hill-climbing search, and structure learning under the assumption of causal insufficiency. We propose two learning strategies; one that maximises model selection accuracy, and another that improves computational efficiency in exchange for minor reductions in accuracy. The former strategy is suitable for small networks and the latter for moderate size networks. Both learning strategies perform well relative to existing solutions.
翻訳日:2022-06-19 10:12:00 公開日:2022-06-11
# (参考訳) 自己中心型データを用いたOCRの評価

An Evaluation of OCR on Egocentric Data ( http://arxiv.org/abs/2206.05496v1 )

ライセンス: CC BY 4.0
Valentin Popescu, Dima Damen, Toby Perrett(参考訳) 本稿では,エゴセントリックデータに対する最先端OCR手法の評価を行う。 我々はEPIC-KITCHENS画像中のテキストに注釈を付け、既存のOCRメソッドがローテーションされたテキストと競合することを示す。 我々は、正規化編集距離誤差を半減する事前学習されたOCRモデルに適用可能な、シンプルな回転・合流手順を提案する。 これは、将来のOCRはモデル設計と訓練手順に回転を組み込むべきであることを示唆している。

In this paper, we evaluate state-of-the-art OCR methods on Egocentric data. We annotate text in EPIC-KITCHENS images, and demonstrate that existing OCR methods struggle with rotated text, which is frequently observed on objects being handled. We introduce a simple rotate-and-merge procedure which can be applied to pre-trained OCR models that halves the normalized edit distance error. This suggests that future OCR attempts should incorporate rotation into model design and training procedures.
翻訳日:2022-06-19 09:55:57 公開日:2022-06-11
# (参考訳) 進化の模倣によるレベル生成の学習

Learning to Generate Levels by Imitating Evolution ( http://arxiv.org/abs/2206.05497v1 )

ライセンス: CC BY 4.0
Ahmed Khalifa, Michael Cerny Green, Julian Togelius(参考訳) 検索ベースの手続き型コンテンツ生成(PCG)はゲームにおけるレベル生成によく用いられる手法である。 その主な利点は、汎用的で、機能的な制約を満たすことができることである。 しかし、これらのアルゴリズムをオンラインで実行するための計算コストが大きいため、検索ベースのPCGがリアルタイムに使用されることは滅多にない。 本稿では,機械学習を用いた新しいタイプの反復レベルジェネレータを提案する。 進化過程を模倣するためにモデルを訓練し、モデルを使ってレベルを生成します。 このトレーニングされたモデルは、推論中にフィットネス機能を必要とせずに、ノイズレベルを逐次修正してより良いレベルを作ることができる。 訓練したモデルを2次元迷路生成タスクで評価する。 進化の終わり(通常の進化)か100世代ごとにモデルを訓練し(進化の支援)、進化の間の突然変異関数としてモデルを使用する。 補助進化プロセスを使用して、最終的な訓練されたモデルは、成功率99%、高い多様性86%の迷路を生成することができる。 この研究は、進化過程によって導かれる新しい学習レベルジェネレータへの扉を開き、おそらくゲーム業界における検索ベースのPCGの採用を増やすだろう。

Search-based procedural content generation (PCG) is a well-known method used for level generation in games. Its key advantage is that it is generic and able to satisfy functional constraints. However, due to the heavy computational costs to run these algorithms online, search-based PCG is rarely utilized for real-time generation. In this paper, we introduce a new type of iterative level generator using machine learning. We train a model to imitate the evolutionary process and use the model to generate levels. This trained model is able to modify noisy levels sequentially to create better levels without the need for a fitness function during inference. We evaluate our trained models on a 2D maze generation task. We compare several different versions of the method: training the models either at the end of evolution (normal evolution) or every 100 generations (assisted evolution) and using the model as a mutation function during evolution. Using the assisted evolution process, the final trained models are able to generate mazes with a success rate of 99% and high diversity of 86%. This work opens the door to a new way of learning level generators guided by the evolutionary process and perhaps will increase the adoption of search-based PCG in the game industry.
翻訳日:2022-06-19 09:50:07 公開日:2022-06-11
# (参考訳) 医用画像解析における学習アルゴリズムの因果関係の検討

A Review of Causality for Learning Algorithms in Medical Image Analysis ( http://arxiv.org/abs/2206.05498v1 )

ライセンス: CC BY 4.0
Athanasios Vlontzos, Daniel Rueckert, Bernhard Kainz(参考訳) 医療画像解析は、医師や医療従事者に貴重な洞察を与え、疾患を正確に診断し監視する能力を提供する、活発な研究領域である。 機械学習は、この分野をさらに加速させる。 しかし、医療画像分析のための機械学習は、特にアルゴリズムのパフォーマンスと堅牢性に影響を与えるドメインシフトのような自然なバイアスに弱い。 本稿では,医療画像分析のための機械学習をTechnology Readiness Levelsの枠組み内で分析し,堅牢で適応可能な医療画像解析アルゴリズムを作成する際に,因果解析手法がギャップを埋める方法について検討する。 我々は,医療画像AI/MLにおける因果関係を利用した手法をレビューし,因果解析が臨床翻訳における重要な問題を緩和する可能性があることを確認する。

Medical image analysis is a vibrant research area that offers doctors and medical practitioners invaluable insight and the ability to accurately diagnose and monitor disease. Machine learning provides an additional boost for this area. However, machine learning for medical image analysis is particularly vulnerable to natural biases like domain shifts that affect algorithmic performance and robustness. In this paper we analyze machine learning for medical image analysis within the framework of Technology Readiness Levels and review how causal analysis methods can fill a gap when creating robust and adaptable medical image analysis algorithms. We review methods using causality in medical imaging AI/ML and find that causal analysis has the potential to mitigate critical problems for clinical translation but that uptake and clinical downstream research has been limited so far.
翻訳日:2022-06-19 09:37:37 公開日:2022-06-11
# (参考訳) 非極値塩・ペッパーノイズ除去のための2段階法

A Two-stage Method for Non-extreme Value Salt-and-Pepper Noise Removal ( http://arxiv.org/abs/2206.05520v1 )

ライセンス: CC BY 4.0
Renwei Yang, YiKe Liu(参考訳) ニューラルネットワークに基づく以前の手法では、塩分と唐辛子ノイズの除去に優れた性能を発揮できる。 しかし、これらの方法は塩とコショウのノイズの値はちょうど0と255であるという仮説に基づいている。 現実の世界ではそうではない。 これらのメソッドの結果は、値が0と255とは異なる場合、急激に変化する。 この弱点を克服するため,提案手法は畳み込みニューラルネットワークを設計し,より広い範囲のノイズ画素を検出し,フィルタを用いて画素値を0に変更し,さらなるフィルタリングに有用である。 さらに、別の畳み込みニューラルネットワークがノイズ除去と修復作業に使用される。

There are several previous methods based on neural network can have great performance in denoising salt and pepper noise. However, those methods are based on a hypothesis that the value of salt and pepper noise is exactly 0 and 255. It is not true in the real world. The result of those methods deviate sharply when the value is different from 0 and 255. To overcome this weakness, our method aims at designing a convolutional neural network to detect the noise pixels in a wider range of value and then a filter is used to modify pixel value to 0, which is beneficial for further filtering. Additionally, another convolutional neural network is used to conduct the denoising and restoration work.
翻訳日:2022-06-19 09:16:08 公開日:2022-06-11
# (参考訳) 非専門データを用いたモデルベースオフライン模倣学習

Model-based Offline Imitation Learning with Non-expert Data ( http://arxiv.org/abs/2206.05521v1 )

ライセンス: CC BY 4.0
Jeongwon Park, Lin Yang(参考訳) 理論上は行動クローニング(bc)は複合的なエラーに苦しむが、そのスケーラビリティと単純さは依然として魅力的な模倣学習アルゴリズムとなっている。 対照的に、逆行訓練による模倣アプローチは、通常同じ問題を共有せず、環境との相互作用を必要とする。 一方、ほとんどの模倣学習法は最適なデータセットのみを使用しており、これはサブオプティマイズよりもかなりコストがかかる可能性がある。 問題は、サブオプティカルデータセットを原則的に活用できるのか、それ以外はアイドルだったのか、ということだ。 本稿では,モデルに基づくオフライン模倣学習アルゴリズムフレームワークを提案する。このフレームワークは,最適条件と最適ポリシーの両方によって収集されたデータセットを活用する。 提案手法は, シミュレーションされた連続制御領域上での低データ構造において, BC よりも優れた性能を示すことを示す。

Although Behavioral Cloning (BC) in theory suffers compounding errors, its scalability and simplicity still makes it an attractive imitation learning algorithm. In contrast, imitation approaches with adversarial training typically does not share the same problem, but necessitates interactions with the environment. Meanwhile, most imitation learning methods only utilises optimal datasets, which could be significantly more expensive to obtain than its suboptimal counterpart. A question that arises is, can we utilise the suboptimal dataset in a principled manner, which otherwise would have been idle? We propose a scalable model-based offline imitation learning algorithmic framework that leverages datasets collected by both suboptimal and optimal policies, and show that its worst case suboptimality becomes linear in the time horizon with respect to the expert samples. We empirically validate our theoretical results and show that the proposed method \textit{always} outperforms BC in the low data regime on simulated continuous control domains
翻訳日:2022-06-19 09:10:15 公開日:2022-06-11
# (参考訳) 暗記-拡張:雑音下での神経崩壊のモデル化

Memorization-Dilation: Modeling Neural Collapse Under Noise ( http://arxiv.org/abs/2206.05530v1 )

ライセンス: CC BY 4.0
Duc Anh Nguyen, Ron Levie, Julian Lienen, Gitta Kutyniok, Eyke H\"ullermeier(参考訳) 神経崩壊の概念は、様々な正準分類問題で経験的に観察されたいくつかの創発現象を指す。 ディープニューラルネットワークをトレーニングする最終段階において、同じクラスのすべての例の特徴埋め込みは単一の表現に崩壊する傾向があり、異なるクラスの特徴は可能な限り分離する傾向にある。 神経崩壊は、モデルが「無限の表現性」を持つと仮定され、各データポイントを任意の表現にマッピングできる、unconstrained feature representationと呼ばれる単純化されたモデルを通してしばしば研究される。 本研究では,ネットワークの表現能力の制限を考慮した,制約のない特徴表現のより現実的な変形を提案する。 実験的な証拠は、ノイズのあるデータポイントの記憶が神経崩壊の低下(拡張)につながることを示唆している。 記憶-拡散(M-D)現象のモデルを用いて、ノイズデータ上でトレーニングされたネットワークの異なる性能に異なる損失をもたらすメカニズムを示す。 正規化効果を生み出すために経験的に観測されるクロスエントロピーの修正であるラベル平滑化が分類タスクの一般化に繋がる理由を明らかにする。

The notion of neural collapse refers to several emergent phenomena that have been empirically observed across various canonical classification problems. During the terminal phase of training a deep neural network, the feature embedding of all examples of the same class tend to collapse to a single representation, and the features of different classes tend to separate as much as possible. Neural collapse is often studied through a simplified model, called the unconstrained feature representation, in which the model is assumed to have "infinite expressivity" and can map each data point to any arbitrary representation. In this work, we propose a more realistic variant of the unconstrained feature representation that takes the limited expressivity of the network into account. Empirical evidence suggests that the memorization of noisy data points leads to a degradation (dilation) of the neural collapse. Using a model of the memorization-dilation (M-D) phenomenon, we show one mechanism by which different losses lead to different performances of the trained network on noisy data. Our proofs reveal why label smoothing, a modification of cross-entropy empirically observed to produce a regularization effect, leads to improved generalization in classification tasks.
翻訳日:2022-06-19 08:43:47 公開日:2022-06-11
# (参考訳) 学習型制御器における希少事象テストケース生成

Rare event failure test case generation in Learning-Enabled-Controllers ( http://arxiv.org/abs/2206.05533v1 )

ライセンス: CC BY 4.0
Harsh Vardhan, Janos Sztipanovits(参考訳) 機械学習モデルは現実世界の多くの問題に広く応用されており、これらの訓練されたモデルの振る舞いにおける正しさの重要性を高める。 これらのトレーニングされたシステムの潜在的な障害を明らかにする優れたテストケースを見つけることは、これらのモデルを再トレーニングして、正確性を高めるのに役立つ。 十分に訓練されたモデルでは、失敗の発生は稀である。 従って、入力された検索空間やランダムな検索で各サンプルを評価することで、これらのまれなシナリオを探索することは、大きな検索空間、限られた計算資源、利用可能な時間のためにコストがかかり、時には難しくなる。 本稿では,従来のランダム検索よりも高速にこれらの障害シナリオを見つけるという課題に対処する。 提案手法の中心となる考え方は,学習データ,実世界の統計から得られたデータ,ドメインの専門家からの知識に基づいて,高障害確率領域と低/最小障害確率領域の入力データ空間を分離することである。 これらの情報を用いて、潜在的な失敗を明らかにする可能性の高いシナリオを生成できる生成モデルを設計できる。 この手法を2つの異なる実験シナリオで評価し、従来のランダム化探索よりも1000倍高速に失敗の発見を高速化した。

Machine learning models have prevalent applications in many real-world problems, which increases the importance of correctness in the behaviour of these trained models. Finding a good test case that can reveal the potential failure in these trained systems can help to retrain these models to increase their correctness. For a well-trained model, the occurrence of a failure is rare. Consequently, searching these rare scenarios by evaluating each sample in input search space or randomized search would be costly and sometimes intractable due to large search space, limited computational resources, and available time. In this paper, we tried to address this challenge of finding these failure scenarios faster than traditional randomized search. The central idea of our approach is to separate the input data space in region of high failure probability and region of low/minimal failure probability based on the observation made by training data, data drawn from real-world statistics, and knowledge from a domain expert. Using these information, we can design a generative model from which we can generate scenarios that have a high likelihood to reveal the potential failure. We evaluated this approach on two different experimental scenarios and able to speed up the discovery of such failures a thousand-fold faster than the traditional randomized search.
翻訳日:2022-06-19 08:42:31 公開日:2022-06-11
# (参考訳) PhML-DyR:電力系統における動的再構成のための物理インフォーム型MLフレームワーク

PhML-DyR: A Physics-Informed ML framework for Dynamic Reconfiguration in Power Systems ( http://arxiv.org/abs/2206.06789v1 )

ライセンス: CC BY 4.0
Rabab Haider and Anuradha M. Annaswamy(参考訳) 米国の電力セクターの変革は、2035年までに100%炭素汚染のない電気を達成するための攻撃的な目標に向かっている。 安全で信頼性の高い電力グリッドを維持しつつこの目標を達成するには、動的で不確定な環境での計算速度と正確な意思決定の新たな運用パラダイムが必要である。 本稿では,電力系統における重要な課題である動的グリッド再構成(PhML-DyR)を決定するための物理インフォームド機械学習フレームワークを提案する。 動的再構成(DyR)は、スイッチ状態が動的に設定され、ライン損失を最小限に抑える最適グリッドトポロジーにつながるプロセスである。 決定変数の混合性に起因するNP硬さの計算複雑性に対処するために,演算制約と位相的制約と接続制約の両方をニューラルネットワークフレームワークに統合した物理インフォームドML(PhML)を提案する。 phmlアプローチは、負荷を満たすためにグリッドトポロジーとジェネレータディスパッチを同時に最適化し、効率を高め、安全な運用限界内に留まることを学びます。 正準格子上でのphml-dyrの有効性を実証し, 電力損失を23%削減し, 電圧プロファイルを改善した。 また,PhML-DyRを用いたトレーニング時間においても,拘束違反の程度を桁違いに減少させることを示した。

A transformation of the US electricity sector is underway with aggressive targets to achieve 100% carbon pollution-free electricity by 2035. To achieve this objective while maintaining a safe and reliable power grid, new operating paradigms are needed, of computationally fast and accurate decision making in a dynamic and uncertain environment. We propose a novel physics-informed machine learning framework for the decision of dynamic grid reconfiguration (PhML-DyR), a key task in power systems. Dynamic reconfiguration (DyR) is a process by which switch-states are dynamically set so as to lead to an optimal grid topology that minimizes line losses. To address the underlying computational complexities of NP-hardness due to the mixed nature of the decision variables, we propose the use of physics-informed ML (PhML) which integrates both operating constraints and topological and connectivity constraints into a neural network framework. Our PhML approach learns to simultaneously optimize grid topology and generator dispatch to meet loads, increase efficiency, and remain within safe operating limits. We demonstrate the effectiveness of PhML-DyR on a canonical grid, showing a reduction in electricity loss by 23%, and improved voltage profiles. We also show a reduction in constraint violations by an order of magnitude as well as in training time using PhML-DyR.
翻訳日:2022-06-19 08:30:54 公開日:2022-06-11
# (参考訳) 雑音ラベルを用いたコミュニケーション効率のよいロバストフェデレーション学習

Communication-Efficient Robust Federated Learning with Noisy Labels ( http://arxiv.org/abs/2206.05558v1 )

ライセンス: CC BY 4.0
Junyi Li, Jian Pei, Heng Huang(参考訳) フェデレーテッド・ラーニング(FL)は、分散した位置データの上で、将来性のあるプライバシ保護機械学習パラダイムである。 FLでは、データは各ユーザがローカルに保持する。 これはユーザーのプライバシーを保護するが、特にデータが正しくラベル付けされている場合、サーバはデータ品質の検証を難しくする。 劣化ラベルを用いたトレーニングは,連合学習タスクに有害であるが,ラベルノイズの場合,flにはほとんど注意が払われていない。 本稿では,この問題に焦点をあて,FLにおける雑音ラベルの効果を緩和する学習ベース再重み付け手法を提案する。 より正確には、学習したモデルが検証セットよりも最適な一般化性能を持つように、各トレーニングサンプルに重みをチューニングした。 より正式には、このプロセスはFederated Bilevel Optimization問題として定式化することができる。 双レベル最適化問題は、2段階の絡み合った問題を持つ最適化問題の一種である。 非分散二レベル問題は最近、新しい効率的なアルゴリズムで顕著に進歩している。 しかし、フェデレーテッド・ラーニング・セッティングの下での双レベル最適化問題の解決は未検討である。 我々は,高次評価における通信コストが大きなボトルネックであることを示す。 そこで本研究では,一般の2レベル最適化問題を解くために,<textit{comm-fedbio}>を提案する。 また,提案アルゴリズムの収束解析を行った。 最後に,提案アルゴリズムを雑音ラベル問題の解法に適用する。 提案手法は,複数の実世界のデータセットにおいて,各種ベースラインと比較して優れた性能を示した。

Federated learning (FL) is a promising privacy-preserving machine learning paradigm over distributed located data. In FL, the data is kept locally by each user. This protects the user privacy, but also makes the server difficult to verify data quality, especially if the data are correctly labeled. Training with corrupted labels is harmful to the federated learning task; however, little attention has been paid to FL in the case of label noise. In this paper, we focus on this problem and propose a learning-based reweighting approach to mitigate the effect of noisy labels in FL. More precisely, we tuned a weight for each training sample such that the learned model has optimal generalization performance over a validation set. More formally, the process can be formulated as a Federated Bilevel Optimization problem. Bilevel optimization problem is a type of optimization problem with two levels of entangled problems. The non-distributed bilevel problems have witnessed notable progress recently with new efficient algorithms. However, solving bilevel optimization problems under the Federated Learning setting is under-investigated. We identify that the high communication cost in hypergradient evaluation is the major bottleneck. So we propose \textit{Comm-FedBiO} to solve the general Federated Bilevel Optimization problems; more specifically, we propose two communication-efficient subroutines to estimate the hypergradient. Convergence analysis of the proposed algorithms is also provided. Finally, we apply the proposed algorithms to solve the noisy label problem. Our approach has shown superior performance on several real-world datasets compared to various baselines.
翻訳日:2022-06-19 08:09:33 公開日:2022-06-11
# (参考訳) パラメータ凸ニューラルネットワーク

Parameter Convex Neural Networks ( http://arxiv.org/abs/2206.05562v1 )

ライセンス: CC BY 4.0
Jingcheng Zhou, Wei Wei, Xing Li, Bowen Pang, Zhiming Zheng(参考訳) ディープニューラルネットワーク(dnn)を活用したディープラーニングは最近、コンピュータビジョン、自然言語処理、レコメンデーションシステムなど、多くの重要な領域で多くの成功を収めています。 DNNの凸性の欠如は、確率勾配降下のような多くの最適化手法の大きな欠点として見なされ、ニューラルネットワークアプリケーションの生成を著しく減らしている。 そこで本研究では,ニューラルネットワークにおいて凸性が意味を持つことを認識し,ある条件下ではニューラルネットワークのパラメータに対して凸となるパラメータ凸ニューラルネットワーク(pcnn)のクラスである指数的多層ニューラルネットワーク(emlp)を提案する。 さらに, 2層 egcn に対する凸計量を提案し, 凸計量が変化したときの精度をテストする。 後期実験では、同じアーキテクチャを用いて指数型グラフ畳み込みネットワーク(egcn)を構築し、モデルegcnがグラフ畳み込みネットワーク(gcn)とグラフアテンションネットワーク(gat)よりも優れた性能を示すグラフ分類データセットの実験を行う。

Deep learning utilizing deep neural networks (DNNs) has achieved a lot of success recently in many important areas such as computer vision, natural language processing, and recommendation systems. The lack of convexity for DNNs has been seen as a major disadvantage of many optimization methods, such as stochastic gradient descent, which greatly reduces the genelization of neural network applications. We realize that the convexity make sense in the neural network and propose the exponential multilayer neural network (EMLP), a class of parameter convex neural network (PCNN) which is convex with regard to the parameters of the neural network under some conditions that can be realized. Besides, we propose the convexity metric for the two-layer EGCN and test the accuracy when the convexity metric changes. For late experiments, we use the same architecture to make the exponential graph convolutional network (EGCN) and do the experiment on the graph classificaion dataset in which our model EGCN performs better than the graph convolutional network (GCN) and the graph attention network (GAT).
翻訳日:2022-06-19 07:47:41 公開日:2022-06-11
# (参考訳) フェデレーションオフライン強化学習

Federated Offline Reinforcement Learning ( http://arxiv.org/abs/2206.05581v1 )

ライセンス: CC BY 4.0
Doudou Zhou, Yufeng Zhang, Aaron Sonabend-W, Zhaoran Wang, Junwei Lu, Tianxi Cai(参考訳) Evidence-based or data-driven dynamic treatment systemsは、オフライン強化学習(RL)の恩恵を受け得るパーソナライズド医療に不可欠である。 医療データは医療機関で利用できるが、プライバシー上の制約により共有は禁止されている。 さらに、異質性は異なる場所に存在する。 その結果、フェデレーションされたオフラインrlアルゴリズムが必要となり、問題に対処することを約束する。 本稿では,サイト間の均質な効果と不均質な効果を両立できるマルチサイトマルコフ決定過程モデルを提案する。 提案モデルにより,サイトレベルの特徴の分析が可能となる。 我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。 提案アルゴリズムは通信効率とプライバシ保護であり,要約統計を交換することで,単一の通信インタラクションのみを必要とする。 十分な動作カバレッジを前提にせず,提案アルゴリズムに理論的保証を与える。学習したポリシの最適性は,データが分散していない場合と同程度である。 大規模なシミュレーションにより,提案アルゴリズムの有効性が示された。 この方法は、複数のサイトにあるsepsisデータセットに適用され、臨床環境での使用を説明する。

Evidence-based or data-driven dynamic treatment regimes are essential for personalized medicine, which can benefit from offline reinforcement learning (RL). Although massive healthcare data are available across medical institutions, they are prohibited from sharing due to privacy constraints. Besides, heterogeneity exists in different sites. As a result, federated offline RL algorithms are necessary and promising to deal with the problems. In this paper, we propose a multi-site Markov decision process model which allows both homogeneous and heterogeneous effects across sites. The proposed model makes the analysis of the site-level features possible. We design the first federated policy optimization algorithm for offline RL with sample complexity. The proposed algorithm is communication-efficient and privacy-preserving, which requires only a single round of communication interaction by exchanging summary statistics. We give a theoretical guarantee for the proposed algorithm without the assumption of sufficient action coverage, where the suboptimality for the learned policies is comparable to the rate as if data is not distributed. Extensive simulations demonstrate the effectiveness of the proposed algorithm. The method is applied to a sepsis data set in multiple sites to illustrate its use in clinical settings.
翻訳日:2022-06-19 07:37:39 公開日:2022-06-11
# (参考訳) RadNet:トラフィック予測を用いた時空間道路グラフネットワークにおけるインシデント予測

RadNet: Incident Prediction in Spatio-Temporal Road Graph Networks Using Traffic Forecasting ( http://arxiv.org/abs/2206.05602v1 )

ライセンス: CC BY 4.0
Shreshth Tuli and Matthew R. Wilkinson and Chris Kettell(参考訳) 時空間システムにおける効率的な正確なインシデント予測は、サービスのダウンタイムを最小化し、パフォーマンスを最適化するために重要である。 本研究は,時空間予測による事象の予測と診断に歴史的データを活用することを目的とする。 本稿では,事故や車両の故障などの異常な事象を発生させる道路交通システムの利用事例について考察する。 そこで我々はRadNetと呼ばれるニューラルモデルを開発し、将来のタイムステップにおける平均車両速度などのシステムパラメータを予測する。 このようなシステムは、主に毎日または毎週の周期性に従うので、RadNetの予測と過去の平均値を比較し、インシデントをラベル付けする。 以前の作業とは異なり、RadNetは両方の置換における空間的傾向と時間的傾向を推定し、最終的に予測の前に密度の高い表現を組み合わせる。 これにより、情報推論とより正確なインシデント検出が容易になる。 2つの公開可能な実験と新しい道路交通データセットにより、提案されたモデルが最先端の手法と比較して最大8%高い予測F1スコアを与えることを示した。

Efficient and accurate incident prediction in spatio-temporal systems is critical to minimize service downtime and optimize performance. This work aims to utilize historic data to predict and diagnose incidents using spatio-temporal forecasting. We consider the specific use case of road traffic systems where incidents take the form of anomalous events, such as accidents or broken-down vehicles. To tackle this, we develop a neural model, called RadNet, which forecasts system parameters such as average vehicle speeds for a future timestep. As such systems largely follow daily or weekly periodicity, we compare RadNet's predictions against historical averages to label incidents. Unlike prior work, RadNet infers spatial and temporal trends in both permutations, finally combining the dense representations before forecasting. This facilitates informed inference and more accurate incident detection. Experiments with two publicly available and a new road traffic dataset demonstrate that the proposed model gives up to 8% higher prediction F1 scores compared to the state-of-the-art methods.
翻訳日:2022-06-19 07:36:41 公開日:2022-06-11
# (参考訳) 衝突の言語はシュテマの言語に翻訳できるのか? 目撃者定位に機械翻訳を用いる

Can the Language of the Collation be Translated into the Language of the Stemma? Using Machine Translation for Witness Localization ( http://arxiv.org/abs/2206.05603v1 )

ライセンス: CC BY 4.0
Armin Hoenen(参考訳) ステムマトロジー(stemmatology)は文献学のサブ分野であり、テキストのテキスト変種(伝統のウィットネス)のコピーヒストリーを理解する一つのアプローチは進化木を生成することである。 計算方法は、系統学と幹細胞学の姉妹分野の間で部分的に共有されている。 2022年、nature communicationsの調査によると、多くの分野で大きな改善をもたらしたディープラーニング(krohn et al 2020)は、系統解析において小さな成果しか得られておらず、「近未来の生データから系統樹を直接推定するエンドツーエンドのdlモデルを考えることは困難である」(sapoval et al. 2022, p.8)。 幹細胞学では、現在までdlアプローチは知られていない。 本稿では,幹細胞に原稿を配置するための新しいDLアプローチを提案し,その可能性を示す。 これは系統学に拡張され、樹間距離を検索するために配列に基づくニューラルネットワークを用いる方法において、DNAの普遍的なコードの方がより良い前提条件となるかもしれない。

Stemmatology is a subfield of philology where one approach to understand the copy-history of textual variants of a text (witnesses of a tradition) is to generate an evolutionary tree. Computational methods are partly shared between the sister discipline of phylogenetics and stemmatology. In 2022, a surveypaper in nature communications found that Deep Learning (DL), which otherwise has brought about major improvements in many fields (Krohn et al 2020) has had only minor successes in phylogenetics and that "it is difficult to conceive of an end-to-end DL model to directly estimate phylogenetic trees from raw data in the near future"(Sapoval et al. 2022, p.8). In stemmatology, there is to date no known DL approach at all. In this paper, we present a new DL approach to placement of manuscripts on a stemma and demonstrate its potential. This could be extended to phylogenetics where the universal code of DNA might be an even better prerequisite for the method using sequence to sequence based neural networks in order to retrieve tree distances.
翻訳日:2022-06-19 07:21:18 公開日:2022-06-11
# (参考訳) 胸部X線画像からの新型コロナウイルス検出のための機械学習アプローチ:システムレビュー

Machine learning approaches for COVID-19 detection from chest X-ray imaging: A Systematic Review ( http://arxiv.org/abs/2206.05615v1 )

ライセンス: CC BY 4.0
Harold Brayan Arteaga-Arteaga (1), Melissa delaPava (1), Alejandro Mora-Rubio (1), Mario Alejandro Bravo-Ort\'iz (1), Jesus Alejandro Alzate-Grisales (1), Daniel Arias-Garz\'on (1), Luis Humberto L\'opez-Murillo (2), Felipe Buitrago-Carmona (3), Juan Pablo Villa-Pulgar\'in (1), Esteban Mercado-Ruiz (1), Simon Orozco-Arias (3 and 4), M. Hassaballah (5), Maria de la Iglesia-Vaya (6), Oscar Cardona-Morales (1), Reinel Tabares-Soto (1) ((1) Department of Electronics and Automation, Universidad Aut\'onoma de Manizales, Manizales, Colombia, (2) Department of Chemical Engineering, Universidad Nacional de Colombia, Manizales, Colombia, (3) Department of Computer Science, Universidad Aut\'onoma de Manizales, Manizales, Colombia, (4) Department of Systems and informatics, Universidad de Caldas, Manizales, Colombia, (5) Faculty of Computers and Information, South Valley University, Qena, Egypt, (6) Unidad Mixta de Imagen Biom\'edica FISABIO-CIPF, Fundaci\'on para el Fomento de la Investigaci\'on Sanitario y Biom\'edica de la Comunidad Valenciana, Valencia, Spain)(参考訳) 新型コロナウイルス(covid-19)の拡散を封じ込める、安価で信頼性の高い診断ツールを開発する必要がある。 機械学習(ML)アルゴリズムは、胸部X線画像を評価するための意思決定支援システムの設計のために提案されており、疾患の進行を検知し評価するのに有用であることが証明されている。 このテーマに関する多くの研究論文が出版されているため、将来の作業に最適なアプローチを特定するのが困難である。 本稿では,胸部x線画像を用いたcovid-19検出に適用されるmlの系統的レビューを行い,方法,アーキテクチャ,データベース,および現在の限界の観点から研究者にベースラインを提供することを目的としている。

There is a necessity to develop affordable, and reliable diagnostic tools, which allow containing the COVID-19 spreading. Machine Learning (ML) algorithms have been proposed to design support decision-making systems to assess chest X-ray images, which have proven to be useful to detect and evaluate disease progression. Many research articles are published around this subject, which makes it difficult to identify the best approaches for future work. This paper presents a systematic review of ML applied to COVID-19 detection using chest X-ray images, aiming to offer a baseline for researchers in terms of methods, architectures, databases, and current limitations.
翻訳日:2022-06-19 07:09:16 公開日:2022-06-11
# (参考訳) 表情からの犬感情状態の自動分類のためのディープラーニングモデル

Deep Learning Models for Automated Classification of Dog Emotional States from Facial Expressions ( http://arxiv.org/abs/2206.05619v1 )

ライセンス: CC BY 4.0
Tali Boneh-Shitrit and Shir Amir and Annika Bremhorst and Daniel S. Mills and Stefanie Riemer and Dror Fried and Anna Zamansky(参考訳) 人間と同様に、動物の表情は感情状態と密接に関連している。 しかし、人間ドメインとは対照的に、動物における表情からの感情状態の自動認識は、主に非言語ユーザの感情状態に関するデータ収集と基礎的真実の確立の難しさから、過小評価されている。 本研究では,最近の深層学習手法を用いて,犬実験で収集したデータセット上での予測(肯定的)とフラストレーション(否定的)を分類した。 この課題に対する異なる監督下で異なるバックボーン(例えばResNet, ViT)の適合性について検討し、自己監督型事前訓練型ViT(DINO-ViT)の特徴が他の選択肢よりも優れていることを確認する。 我々の知る限り、この研究は、制御実験で得られたデータに基づいて、犬の感情を自動分類するタスクに最初に取り組むものである。

Similarly to humans, facial expressions in animals are closely linked with emotional states. However, in contrast to the human domain, automated recognition of emotional states from facial expressions in animals is underexplored, mainly due to difficulties in data collection and establishment of ground truth concerning emotional states of non-verbal users. We apply recent deep learning techniques to classify (positive) anticipation and (negative) frustration of dogs on a dataset collected in a controlled experimental setting. We explore the suitability of different backbones (e.g. ResNet, ViT) under different supervisions to this task, and find that features of a self-supervised pretrained ViT (DINO-ViT) are superior to the other alternatives. To the best of our knowledge, this work is the first to address the task of automatic classification of canine emotions on data acquired in a controlled experiment.
翻訳日:2022-06-19 06:33:28 公開日:2022-06-11
# (参考訳) プラスチック人工ニューラルネットワークの展望 : ニューラルネットワークと連続学習の相互作用を探る

A Review on Plastic Artificial Neural Networks: Exploring the Intersection between Neural Architecture Search and Continual Learning ( http://arxiv.org/abs/2206.05625v1 )

ライセンス: CC BY 4.0
Mohamed Shahawy, Elhadj Benkhelifa, David White(参考訳) ANN(Artificial Neural Networks)で達成された大きな進歩にもかかわらず、その設計プロセスは、主に直感、経験、試行錯誤に依存することで悪名高い。 この人間依存のプロセスは、しばしば時間がかかり、エラーを起こしやすい。 さらに、モデルは通常、周囲の環境の変化を考慮せずに、トレーニングコンテキストに拘束される。 ニューラルネットワークの継続的な適応性と自動化は、デプロイ後のモデルアクセシビリティ(IoTデバイスや自動運転車など)が制限されるいくつかの領域において、最も重要である。 さらに、アクセス可能なモデルでさえ、概念/データのドリフトのような問題を克服するために、デプロイ後の頻繁なメンテナンスを必要とする。 にもかかわらず、AutoMLの形式であるNeural Architecture Search(NAS)とContinuous Learning(CL)は、Deep Learning研究分野において、より堅牢で適応的なANN開発フレームワークの提供を目的として、最近勢いを増している。 この研究はAutoMLとCLの交点に関する最初の広範なレビューであり、ANNにおける完全な自動化と生涯の可塑性を促進する様々な方法の研究の方向性を概説している。

Despite the significant advances achieved in Artificial Neural Networks (ANNs), their design process remains notoriously tedious, depending primarily on intuition, experience and trial-and-error. This human-dependent process is often time-consuming and prone to errors. Furthermore, the models are generally bound to their training contexts, with no considerations of changes to their surrounding environments. Continual adaptability and automation of neural networks is of paramount importance to several domains where model accessibility is limited after deployment (e.g IoT devices, self-driving vehicles, etc). Additionally, even accessible models require frequent maintenance post-deployment to overcome issues such as Concept/Data Drift, which can be cumbersome and restrictive. The current state of the art on adaptive ANNs is still a premature area of research; nevertheless, Neural Architecture Search (NAS), a form of AutoML, and Continual Learning (CL) have recently gained an increasing momentum in the Deep Learning research field, aiming to provide more robust and adaptive ANN development frameworks. This study is the first extensive review on the intersection between AutoML and CL, outlining research directions for the different methods that can facilitate full automation and lifelong plasticity in ANNs.
翻訳日:2022-06-16 12:37:53 公開日:2022-06-11
# PET/MRIのための物理駆動深層学習

Physics-driven Deep Learning for PET/MRI ( http://arxiv.org/abs/2206.06788v1 )

ライセンス: Link先を確認
Abhejit Rajagopal, Andrew P. Leynes, Nicholas Dwork, Jessica E. Scholey, Thomas A. Hope, and Peder E. Z. Larson(参考訳) 本稿では, 癌, 神経疾患, 心疾患の臨床的画像化に有効な同時ポジトロン断層撮影(PET)/磁気共鳴イメージング(MRI)システムの物理・データ駆動再建技術について概説する。 これらの再構成手法は、構造的または統計的に、PETシステム応答の物理に基づく記述とともに、事前を利用する。 しかし,前向き問題のネスト表現のため,PET/MRI直接再構成は非線形問題である。 我々は,3次元PET/MRIの再構成において,多面的アプローチがハイブリッドデータと物理駆動機械学習にどのように対応しているかを解明し,減衰補正,散乱,低光子数,データの一貫性に対処するために過去5年間に行われた重要なディープラーニング開発を要約する。 また, PET/MRIを超越して放射線治療計画の精度を向上させるための多モードアプローチの応用について述べる。 我々は,物理と深層学習に基づく計算画像と次世代検出器ハードウェアの最新動向に続き,現在の最先端技術を拡張する機会について論じる。

In this paper, we review physics- and data-driven reconstruction techniques for simultaneous positron emission tomography (PET) / magnetic resonance imaging (MRI) systems, which have significant advantages for clinical imaging of cancer, neurological disorders, and heart disease. These reconstruction approaches utilize priors, either structural or statistical, together with a physics-based description of the PET system response. However, due to the nested representation of the forward problem, direct PET/MRI reconstruction is a nonlinear problem. We elucidate how a multi-faceted approach accommodates hybrid data- and physics-driven machine learning for reconstruction of 3D PET/MRI, summarizing important deep learning developments made in the last 5 years to address attenuation correction, scattering, low photon counts, and data consistency. We also describe how applications of these multi-modality approaches extend beyond PET/MRI to improving accuracy in radiation therapy planning. We conclude by discussing opportunities for extending the current state-of-the-art following the latest trends in physics- and deep learning-based computational imaging and next-generation detector hardware.
翻訳日:2022-06-15 15:30:10 公開日:2022-06-11
# スペクトログラム拡散を用いたマルチインストゥルメント音楽合成

Multi-instrument Music Synthesis with Spectrogram Diffusion ( http://arxiv.org/abs/2206.05408v1 )

ライセンス: Link先を確認
Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Josh Gardner, Ethan Manilow, Jesse Engel(参考訳) 理想的な音楽シンセサイザーは対話的で表現力があり、楽器と音符の任意の組み合わせでリアルタイムに高忠実なオーディオを生成する。 最近のニューラルシンセサイザーは、特定の楽器のみを詳細に制御するドメイン固有モデルと、すべての音楽で訓練できるが最小限の制御と遅い生成が可能な生波形モデルとのトレードオフを示した。 本研究では,midiシーケンスから任意の楽器の組み合わせでリアルタイムに音声を生成できるニューラルシンセサイザーの中間領域に着目した。 これにより、1つのモデルで幅広い書き起こしデータセットのトレーニングが可能になり、幅広い楽器の合成とインスツルメンテーションをノートレベルで制御することができる。 MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。 自動回帰モデルとDDPM(Denoising Diffusion Probabilistic Model)としてデコーダのトレーニングを比較し,音像再構成とFr'echet距離測定により,DDPMのアプローチが質的にも優れていることを確認した。 このアプローチの相互作用性と一般性を考えると、楽器と音符の任意の組み合わせに対する対話的で表現力のあるニューラル合成への第一歩として期待できる。

An ideal music synthesizer should be both interactive and expressive, generating high-fidelity audio in realtime for arbitrary combinations of instruments and notes. Recent neural synthesizers have exhibited a tradeoff between domain-specific models that offer detailed control of only specific instruments, or raw waveform models that can train on all of music but with minimal control and slow generation. In this work, we focus on a middle ground of neural synthesizers that can generate audio from MIDI sequences with arbitrary combinations of instruments in realtime. This enables training on a wide range of transcription datasets with a single model, which in turn offers note-level control of composition and instrumentation across a wide range of instruments. We use a simple two-stage process: MIDI to spectrograms with an encoder-decoder Transformer, then spectrograms to audio with a generative adversarial network (GAN) spectrogram inverter. We compare training the decoder as an autoregressive model and as a Denoising Diffusion Probabilistic Model (DDPM) and find that the DDPM approach is superior both qualitatively and as measured by audio reconstruction and Fr\'echet distance metrics. Given the interactivity and generality of this approach, we find this to be a promising first step towards interactive and expressive neural synthesis for arbitrary combinations of instruments and notes.
翻訳日:2022-06-14 18:25:59 公開日:2022-06-11
# 関節ビームフォーミングとアンテナ選択の最適解:分岐と結合から機械学習へ

Optimal Solutions for Joint Beamforming and Antenna Selection: From Branch and Bound to Machine Learning ( http://arxiv.org/abs/2206.05576v1 )

ライセンス: Link先を確認
Sagar Shrestha, Xiao Fu, Mingyi Hong(参考訳) この研究は、継手ビームフォーミング(BF)とアンテナ選択(AS)の問題と、不完全なチャネル状態情報(CSI)の下でのロバストビームフォーミング(RBF)バージョンを再検討する。 このような問題は、無線周波数(RF)チェーンの数が送信機におけるアンテナ素子のそれよりも小さいケースで発生し、大規模アレイの時代において重要な考慮事項となっている。 結合 (R)BF\&AS 問題は整数と非線形の混合プログラムであり、したがって最適解を見つけることはしばしばコストがかかるが、完全に不可能ではない。 先行研究の大部分は、連続最適化に基づく近似を用いてこれらの問題に取り組んだが、これらの近似は解の最適性や実現可能性を保証するものではない。 この作品の主な貢献は3倍である。 まず、興味のある問題を解くための効果的な「itブランチ・アンド・バウンド」(b\&b)フレームワークを提案する。 既存のBF と RBF の解法を利用して,B&B フレームワークは検討された問題のグローバルな最適性を保証する。 第二に、潜在的にコストのかかるB\&Bアルゴリズムを高速化するために、B\&B検索ツリーの中間状態を省略する機械学習(ML)ベースのスキームを提案する。 学習モデルは、"it graph neural network}"(gnn)ベースの設計を特徴とし、無線通信における一般的な課題、すなわち、トレーニングとテスト段階における問題サイズ(例えば、ユーザ数)の変化に対して弾力性がある。 第3に、GNNに基づく手法は、合理的な条件下で、複雑性を確実に低減したB&Bのグローバルな最適性を保っていることを示す。 数値シミュレーションにより、MLベースの加速度はB\&Bと比較して高次速度アップを達成できることが示されている。

This work revisits the joint beamforming (BF) and antenna selection (AS) problem, as well as its robust beamforming (RBF) version under imperfect channel state information (CSI). Such problems arise in scenarios where the number of the radio frequency (RF) chains is smaller than that of the antenna elements at the transmitter, which has become a critical consideration in the era of large-scale arrays. The joint (R)BF\&AS problem is a mixed integer and nonlinear program, and thus finding {\it optimal solutions} is often costly, if not outright impossible. The vast majority of the prior works tackled these problems using continuous optimization-based approximations -- yet these approximations do not ensure optimality or even feasibility of the solutions. The main contribution of this work is threefold. First, an effective {\it branch and bound} (B\&B) framework for solving the problems of interest is proposed. Leveraging existing BF and RBF solvers, it is shown that the B\&B framework guarantees global optimality of the considered problems. Second, to expedite the potentially costly B\&B algorithm, a machine learning (ML)-based scheme is proposed to help skip intermediate states of the B\&B search tree. The learning model features a {\it graph neural network} (GNN)-based design that is resilient to a commonly encountered challenge in wireless communications, namely, the change of problem size (e.g., the number of users) across the training and test stages. Third, comprehensive performance characterizations are presented, showing that the GNN-based method retains the global optimality of B\&B with provably reduced complexity, under reasonable conditions. Numerical simulations also show that the ML-based acceleration can often achieve an order-of-magnitude speedup relative to B\&B.
翻訳日:2022-06-14 18:25:34 公開日:2022-06-11
# 未知情報源に対するベイズ統計の数学的理論

Mathematical Theory of Bayesian Statistics for Unknown Information Source ( http://arxiv.org/abs/2206.05630v1 )

ライセンス: Link先を確認
Sumio Watanabe(参考訳) 統計的推論では、不確実性は未知であり、全てのモデルは誤りである。 統計モデルと事前分布を作成する者は、虚構的かつ仮想的な候補であることを同時に認識する。 このようなケースを研究するために、クロスバリデーション、情報基準、限界的可能性などいくつかの統計測度が構築されているが、統計モデルが過度にパラメータ化されている場合、それらの数学的性質は完全には明らかになっていない。 本稿では,未知の不確実性に関するベイズ統計学の数学的理論の場所を紹介する。 導出理論は、統計的モレルによって未知の不確実性が実現できない場合や、後続分布が任意の正規分布によって近似できない場合においても成り立つので、特定のモデルや事前を信じない人には有用な立場を与える。 結果は以下の通り。 1) 一般化損失のより正確な統計学的尺度が存在し, それらの数学的性質に基づく相互検証や情報基準が設定されている。 2) 後続分布を正規分布で近似できない場合でも, 最小対数限界確率である自由エネルギーのより効率的な近似法が存在する。 (3) クロスバリデーションと広く適用可能な情報基準によって最適化された先行分布は互いに漸近的に等価であり, 限界確率によって異なる。

In statistical inference, uncertainty is unknown and all models are wrong. A person who makes a statistical model and a prior distribution is simultaneously aware that they are fictional and virtual candidates. In order to study such cases, several statistical measures have been constructed, such as cross validation, information criteria, and marginal likelihood, however, their mathematical properties have not yet been completely clarified when statistical models are under- and over- parametrized. In this paper, we introduce a place of mathematical theory of Bayesian statistics for unknown uncertainty, on which we show general properties of cross validation, information criteria, and marginal likelihood. The derived theory holds even if an unknown uncertainty is unrealizable by a statistical morel or even if the posterior distribution cannot be approximated by any normal distribution, hence it gives a helpful standpoint for a person who cannot believe in any specific model and prior. The results are followings. (1) There exists a more precise statistical measure of the generalization loss than leave-one-out cross validation and information criterion based on the mathematical properties of them. (2) There exists a more efficient approximation method of the free energy, which is the minus log marginal likelihood, even if the posterior distribution cannot be approximated by any normal distribution. (3) And the prior distributions optimized by the cross validation and the widely applicable information criterion are asymptotically equivalent to each other, which are different from that by the marginal likelihood.
翻訳日:2022-06-14 18:25:01 公開日:2022-06-11
# CodeS: ソースコード学習のための分散シフトベンチマークデータセット

CodeS: A Distribution Shift Benchmark Dataset for Source Code Learning ( http://arxiv.org/abs/2206.05480v1 )

ライセンス: Link先を確認
Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Lei Ma, Mike Papadakis, Yves Le Traon(参考訳) 過去数年間にわたり、ディープラーニング(dl)はそのアプリケーションを継続的に拡張し、ビッグデータ時代の大規模ソースコード解析の原動力となっている。 テストセットがトレーニングセットと異なる分布に従っている分散シフトは、予期せぬ精度劣化のため、DLモデルの信頼性の高いデプロイにおいて長年の課題であった。 分散シフトベンチマークの最近の進歩は、コンピュータビジョンや自然言語プロセスといった領域で行われている。 ソースコードタスクの分散シフト分析とベンチマークでは、その量とほぼすべての産業分野の基礎を支える重要な役割の両方から強い需要が寄せられている。 このギャップを埋めるため,本稿では,ソースコード学習のための分散シフトベンチマークデータセットであるcodesを提案する。 具体的には、CodeSは2つのプログラミング言語(JavaとPython)と5種類のコード分散シフト(タスク、プログラマ、タイムスタンプ、トークン、CST)をサポートしている。 私たちの知る限りでは、コード表現ベースの分散シフトを最初に定義しています。 実験では,まず,既存のアウト・オブ・ディストリビューション・ディテクタの有効性と分布シフト定義の因果性を評価し,次に,一般的なコード学習モデル(CodeBERTなど)のモデル一般化を分類タスク上で測定した。 その結果は 1) ソフトマックススコアを用いたOOD検出器のみがCodeSで良好に動作する。 2) 分布シフトはすべてのコード分類モデルにおいて精度の低下を引き起こす。 3)表現に基づく分布シフトは,モデルに他よりも大きな影響を与える。 4) 事前学習モデルの方が分布シフトに抵抗性が高い。 CodeSを公開し、コード学習モデルの品質評価に関するフォローアップ調査を可能にします。

Over the past few years, deep learning (DL) has been continuously expanding its applications and becoming a driving force for large-scale source code analysis in the big code era. Distribution shift, where the test set follows a different distribution from the training set, has been a longstanding challenge for the reliable deployment of DL models due to the unexpected accuracy degradation. Although recent progress on distribution shift benchmarking has been made in domains such as computer vision and natural language process. Limited progress has been made on distribution shift analysis and benchmarking for source code tasks, on which there comes a strong demand due to both its volume and its important role in supporting the foundations of almost all industrial sectors. To fill this gap, this paper initiates to propose CodeS, a distribution shift benchmark dataset, for source code learning. Specifically, CodeS supports 2 programming languages (i.e., Java and Python) and 5 types of code distribution shifts (i.e., task, programmer, time-stamp, token, and CST). To the best of our knowledge, we are the first to define the code representation-based distribution shifts. In the experiments, we first evaluate the effectiveness of existing out-of-distribution detectors and the reasonability of the distribution shift definitions and then measure the model generalization of popular code learning models (e.g., CodeBERT) on classification task. The results demonstrate that 1) only softmax score-based OOD detectors perform well on CodeS, 2) distribution shift causes the accuracy degradation in all code classification models, 3) representation-based distribution shifts have a higher impact on the model than others, and 4) pre-trained models are more resistant to distribution shifts. We make CodeS publicly available, enabling follow-up research on the quality assessment of code learning models.
翻訳日:2022-06-14 17:07:53 公開日:2022-06-11
# サブスペースクラスタリングのためのKサブスペース法の収束と回復保証

Convergence and Recovery Guarantees of the K-Subspaces Method for Subspace Clustering ( http://arxiv.org/abs/2206.05553v1 )

ライセンス: Link先を確認
Peng Wang, Huikang Liu, Anthony Man-Cho So, Laura Balzano(参考訳) k-部分空間法(k-subspaces method)は、k-means法による部分空間クラスタリングの一般化である。 本研究では,局所収束解析と KSS の回復保証について,部分空間の半ランダム結合によってデータが生成されると仮定し,$N$ポイントを$K \ge 2$オーバーラップ部分空間からランダムにサンプリングする。 KSS法の初期割り当てが真のクラスタリングの近傍にある場合、それは超線型速度で収束し、高い確率で$\Theta(\log\log N)$イテレーション内で正しいクラスタリングを見つける。 さらに,初期化のためのしきい値内積に基づくスペクトル法を提案し,この近傍で点を生成することを証明した。 また, 理論的な発展を支援するため, 実験手法の数値計算結果も提示する。

The K-subspaces (KSS) method is a generalization of the K-means method for subspace clustering. In this work, we present local convergence analysis and a recovery guarantee for KSS, assuming data are generated by the semi-random union of subspaces model, where $N$ points are randomly sampled from $K \ge 2$ overlapping subspaces. We show that if the initial assignment of the KSS method lies within a neighborhood of a true clustering, it converges at a superlinear rate and finds the correct clustering within $\Theta(\log\log N)$ iterations with high probability. Moreover, we propose a thresholding inner-product based spectral method for initialization and prove that it produces a point in this neighborhood. We also present numerical results of the studied method to support our theoretical developments.
翻訳日:2022-06-14 17:06:01 公開日:2022-06-11
# 自動運転のための高精細地図生成技術:レビュー

High-Definition Map Generation Technologies For Autonomous Driving: A Review ( http://arxiv.org/abs/2206.05400v1 )

ライセンス: Link先を確認
Zhibin Bao, Sabir Hossain, Haoxiang Lang, Xianke Lin(参考訳) 自動運転はここ数年でもっとも人気があり、挑戦的な話題となっている。 完全な自律性を達成するために、研究者はlidar、カメラ、慣性測定ユニット(imu)、gpsなどの様々なセンサーを利用し、物体検出、物体分割、障害物回避、経路計画などの自動運転アプリケーションのためのインテリジェントなアルゴリズムを開発した。 high-definition (hd) マップは近年多くの注目を集めている。 ローカライゼーションにおけるHDマップの精度と情報レベルの高さから、自動運転の重要な要素の一つとなっている。 Baidu Apollo、NVIDIA、TomTomといった大企業から個々の研究者まで、研究者はさまざまなシーンと自動運転のためのHDマップを作成している。 HDマップ生成における最先端手法の見直しが必要である。 本稿では,2次元と3次元の両方を利用したHDマップ生成技術についてレビューする。 本稿では,HDマップの概念とその自動運転における有用性を紹介し,HDマップ生成技術の概要を紹介する。 今後の研究の動機となるHDマップ生成技術の限界についても論じる。

Autonomous driving has been among the most popular and challenging topics in the past few years. On the road to achieving full autonomy, researchers have utilized various sensors, such as LiDAR, camera, Inertial Measurement Unit (IMU), and GPS, and developed intelligent algorithms for autonomous driving applications such as object detection, object segmentation, obstacle avoidance, and path planning. High-definition (HD) maps have drawn lots of attention in recent years. Because of the high precision and informative level of HD maps in localization, it has immediately become one of the critical components of autonomous driving. From big organizations like Baidu Apollo, NVIDIA, and TomTom to individual researchers, researchers have created HD maps for different scenes and purposes for autonomous driving. It is necessary to review the state-of-the-art methods for HD map generation. This paper reviews recent HD map generation technologies that leverage both 2D and 3D map generation. This review introduces the concept of HD maps and their usefulness in autonomous driving and gives a detailed overview of HD map generation techniques. We will also discuss the limitations of the current HD map generation technologies to motivate future research.
翻訳日:2022-06-14 17:03:06 公開日:2022-06-11
# 暗号化特徴マップを用いた意味セグメンテーションモデルのアクセス制御

Access Control of Semantic Segmentation Models Using Encrypted Feature Maps ( http://arxiv.org/abs/2206.05422v1 )

ライセンス: Link先を確認
Hiroki Ito, AprilPyone MaungMaung, Sayaka Shiota, Hitoshi Kiya(参考訳) 本稿では,秘密鍵のない無許可ユーザが訓練されたモデルの性能を享受できないよう,セマンティックセマンティクスモデルのための秘密鍵を用いたアクセス制御手法を提案する。 この方法では、認証されたユーザに高いセグメンテーション性能を提供するだけでなく、不正なユーザのパフォーマンスを低下させることができます。 まず,セマンティックセグメンテーションの適用において,分類タスクに暗号化画像を使用する従来のアクセス制御方式は,性能劣化により直接適用できないことを指摘した。 そこで本論文では,入力画像の代わりに,選択した特徴マップを秘密鍵で暗号化してモデルを訓練し,テストする。 実験では、保護されていないモデルとほぼ同等の性能を持つが、キーを使わずに不正アクセスに対して堅牢性がある。

In this paper, we propose an access control method with a secret key for semantic segmentation models for the first time so that unauthorized users without a secret key cannot benefit from the performance of trained models. The method enables us not only to provide a high segmentation performance to authorized users but to also degrade the performance for unauthorized users. We first point out that, for the application of semantic segmentation, conventional access control methods which use encrypted images for classification tasks are not directly applicable due to performance degradation. Accordingly, in this paper, selected feature maps are encrypted with a secret key for training and testing models, instead of input images. In an experiment, the protected models allowed authorized users to obtain almost the same performance as that of non-protected models but also with robustness against unauthorized access without a key.
翻訳日:2022-06-14 17:02:49 公開日:2022-06-11
# 光コヒーレンス・トモグラフィーBスキャンからの網膜層分割監督無しの可微分投影

Differentiable Projection from Optical Coherence Tomography B-Scan without Retinal Layer Segmentation Supervision ( http://arxiv.org/abs/2206.05472v1 )

ライセンス: Link先を確認
Dingyi Rong, Jiancheng Yang, Bingbing Ni, Bilian Ke(参考訳) 光コヒーレンストモグラフィー(OCT)Bスキャンからの投影マップ(PM)は、網膜層分画を必要とする網膜疾患を診断するための重要なツールである。 本研究では,BスキャンからPMを予測する新しいエンドツーエンドフレームワークを提案する。 網膜層を明示的にセグメント化するのではなく、予測座標として暗黙的に表現する。 網膜層間の一様にサンプリングされた座標に対する画素補間により, 対応するPMはプールにより容易に得ることができた。 特に、すべての作用素は微分可能であり、したがってこの微分可能射影モジュール(DPM)は網膜層セグメンテーションではなく、PMの基底真実によるエンドツーエンドのトレーニングを可能にする。 我々のフレームワークは、DPMのないバニラCNNや、深く先行しない最適化ベースのDPMなど、非常に優れたベースラインを生成する。 さらに,提案するdpmは,曲線/曲面間の領域/体積の新しいニューラル表現として,幾何学的深層学習に独立した関心を持つことができた。

Projection map (PM) from optical coherence tomography (OCT) B-scan is an important tool to diagnose retinal diseases, which typically requires retinal layer segmentation. In this study, we present a novel end-to-end framework to predict PMs from B-scans. Instead of segmenting retinal layers explicitly, we represent them implicitly as predicted coordinates. By pixel interpolation on uniformly sampled coordinates between retinal layers, the corresponding PMs could be easily obtained with pooling. Notably, all the operators are differentiable; therefore, this Differentiable Projection Module (DPM) enables end-to-end training with the ground truth of PMs rather than retinal layer segmentation. Our framework produces high-quality PMs, significantly outperforming baselines, including a vanilla CNN without DPM and an optimization-based DPM without a deep prior. Furthermore, the proposed DPM, as a novel neural representation of areas/volumes between curves/surfaces, could be of independent interest for geometric deep learning.
翻訳日:2022-06-14 17:01:09 公開日:2022-06-11
# 深層学習に基づくMR画像再パラメータ化

Deep Learning-Based MR Image Re-parameterization ( http://arxiv.org/abs/2206.05516v1 )

ライセンス: Link先を確認
Abhijeet Narang, Abhigyan Raj, Mihaela Pop, Mehran Ebrahimi(参考訳) 磁気共鳴(MR)画像再パラメータ化(MR)は、新しいMRIスキャンパラメータのセットでMR画像のシミュレーションを通して生成する過程を指す。 異なるパラメータ値は異なる組織間で異なるコントラストを生成し、病理組織を特定するのに役立つ。 通常、診断には複数のスキャンが必要であるが、反復スキャンの取得はコストがかかり、時間がかかり、患者にとって困難である。 したがって、MR画像の再パラメータ化を用いて、画像スキャンのコントラストを予測し、推定することは効果的な代替手段となる。 本研究では,MRI再パラメータ化のための新しいディープラーニング(DL)に基づく畳み込みモデルを提案する。 予備的な結果から,dlに基づく手法は,再パラメータ化を管理する非線形性を学ぶ可能性を秘めている。

Magnetic resonance (MR) image re-parameterization refers to the process of generating via simulations of an MR image with a new set of MRI scanning parameters. Different parameter values generate distinct contrast between different tissues, helping identify pathologic tissue. Typically, more than one scan is required for diagnosis; however, acquiring repeated scans can be costly, time-consuming, and difficult for patients. Thus, using MR image re-parameterization to predict and estimate the contrast in these imaging scans can be an effective alternative. In this work, we propose a novel deep learning (DL) based convolutional model for MRI re-parameterization. Based on our preliminary results, DL-based techniques hold the potential to learn the non-linearities that govern the re-parameterization.
翻訳日:2022-06-14 17:00:51 公開日:2022-06-11
# 3次元MRIのドメイン翻訳によるPET合成

Synthetic PET via Domain Translation of 3D MRI ( http://arxiv.org/abs/2206.05618v1 )

ライセンス: Link先を確認
Abhejit Rajagopal, Yutaka Natsuaki, Kristen Wangerin, Mahdjoub Hamdi, Hongyu An, John J. Sunderland, Richard Laforest, Paul E. Kinahan, Peder E.Z. Larson, Thomas A.Hope(参考訳) これまで,PET/MRIとPET/CTの様々な再構成アルゴリズムの開発と検証に患者データセットが用いられてきた。 このようなアルゴリズム開発を実現するために,何百もの患者試験を受けることなく,多量のmriから合成的かつ現実的な全身性ペットシンノグラムを生成するための深層学習手法を提案する。 具体的には、56$^{18}$F-FDG-PET/MRIのデータセットを用いて、3D残像UNetをトレーニングし、全身T1強調MRIによる生理的PET取り込みを予測する。 トレーニングでは,PET 取得を模倣したトモグラフィー線に沿って,広いダイナミックレンジと計算された損失を現実的に吸収する平衡損失関数を実装した。 予測されたPET画像は前方に投影され、CTAC(CT-based attenuation correction)やMRAC(MR-based attenuation correction)など、ベンダーが提供するPET再構成アルゴリズムで使用できる合成PET(ToF)シングラムを生成する。 結果として得られる合成データは、生理学的な$^{18}$F-FDGの取り込み、例えば、脳と膀胱に局在した高い取り込み、および肝臓、腎臓、心臓、筋肉の取り込みを再カプセル化する。 高い摂取量で異常をシミュレートするため, 合成病変を挿入する。 この合成PETデータは,CTとMRに基づく減衰補正法を比較したPET定量化タスクにおいて,実データと比較して平均SUVの誤差が$\leq 7.6\%であることを示す。 これらの結果から,提案した合成PETデータパイプラインは,PET/MRI再構成法の開発,評価,検証に適していることが示された。

Historically, patient datasets have been used to develop and validate various reconstruction algorithms for PET/MRI and PET/CT. To enable such algorithm development, without the need for acquiring hundreds of patient exams, in this paper we demonstrate a deep learning technique to generate synthetic but realistic whole-body PET sinograms from abundantly-available whole-body MRI. Specifically, we use a dataset of 56 $^{18}$F-FDG-PET/MRI exams to train a 3D residual UNet to predict physiologic PET uptake from whole-body T1-weighted MRI. In training we implemented a balanced loss function to generate realistic uptake across a large dynamic range and computed losses along tomographic lines of response to mimic the PET acquisition. The predicted PET images are forward projected to produce synthetic PET time-of-flight (ToF) sinograms that can be used with vendor-provided PET reconstruction algorithms, including using CT-based attenuation correction (CTAC) and MR-based attenuation correction (MRAC). The resulting synthetic data recapitulates physiologic $^{18}$F-FDG uptake, e.g. high uptake localized to the brain and bladder, as well as uptake in liver, kidneys, heart and muscle. To simulate abnormalities with high uptake, we also insert synthetic lesions. We demonstrate that this synthetic PET data can be used interchangeably with real PET data for the PET quantification task of comparing CT and MR-based attenuation correction methods, achieving $\leq 7.6\%$ error in mean-SUV compared to using real data. These results together show that the proposed synthetic PET data pipeline can be reasonably used for development, evaluation, and validation of PET/MRI reconstruction methods.
翻訳日:2022-06-14 17:00:39 公開日:2022-06-11
# 両側依存最適化:モデル反転攻撃に対する防御

Bilateral Dependency Optimization: Defending Against Model-inversion Attacks ( http://arxiv.org/abs/2206.05483v1 )

ライセンス: Link先を確認
Xiong Peng, Feng Liu, Jingfen Zhang, Long Lan, Junjie Ye, Tongliang Liu, Bo Han(参考訳) 十分に訓練された分類器のみを使用することで、モデル反転(MI)攻撃は分類器のトレーニングに使用されるデータを回復し、トレーニングデータのプライバシーが漏洩する。 MI攻撃に対抗するため、以前の作業では、一方的な依存最適化戦略(すなわち、入力(特徴)と出力(ラベル)の間の依存を最小限に抑える。 しかし、そのような最小化プロセスは、入力と出力間の依存性を最大化することを目的とした教師付き損失の最小化と矛盾し、MI攻撃に対するモデルロバスト性と分類タスクにおけるモデルユーティリティとの明確なトレードオフを引き起こす。 本稿では,潜在表現と入力の間の依存性を最小限に抑えつつ,潜在表現と出力の間の依存性を最大化することを目的とする。 特に、依存関係の制約を、ディープニューラルネットワーク(例えばクロスエントロピー)の一般的な損失に加えて、普遍的に適用可能な正規化子として使用し、異なるタスクに応じて適切な依存性基準でインスタンス化することができる。 提案手法の有効性を検証するために,制約付き共分散BiDO(BiDO-COCO)とヒルベルト・シュミット独立基準BiDO(BiDO-HSIC)の2つの異なる依存性尺度を用いたBiDOの実装を提案する。 実験により, 各種データセット, 分類器, MI攻撃に対する最先端の防御性能は, 防御能力のない訓練済み分類器に比べ, 微妙な分類精度低下に悩まされている。

Through using only a well-trained classifier, model-inversion (MI) attacks can recover the data used for training the classifier, leading to the privacy leakage of the training data. To defend against MI attacks, previous work utilizes a unilateral dependency optimization strategy, i.e., minimizing the dependency between inputs (i.e., features) and outputs (i.e., labels) during training the classifier. However, such a minimization process conflicts with minimizing the supervised loss that aims to maximize the dependency between inputs and outputs, causing an explicit trade-off between model robustness against MI attacks and model utility on classification tasks. In this paper, we aim to minimize the dependency between the latent representations and the inputs while maximizing the dependency between latent representations and the outputs, named a bilateral dependency optimization (BiDO) strategy. In particular, we use the dependency constraints as a universally applicable regularizer in addition to commonly used losses for deep neural networks (e.g., cross-entropy), which can be instantiated with appropriate dependency criteria according to different tasks. To verify the efficacy of our strategy, we propose two implementations of BiDO, by using two different dependency measures: BiDO with constrained covariance (BiDO-COCO) and BiDO with Hilbert-Schmidt Independence Criterion (BiDO-HSIC). Experiments show that BiDO achieves the state-of-the-art defense performance for a variety of datasets, classifiers, and MI attacks while suffering a minor classification-accuracy drop compared to the well-trained classifier with no defense, which lights up a novel road to defend against MI attacks.
翻訳日:2022-06-14 16:35:59 公開日:2022-06-11
# soft-mask: グラフニューラルネットワークのための適応的部分構造抽出

Soft-mask: Adaptive Substructure Extractions for Graph Neural Networks ( http://arxiv.org/abs/2206.05499v1 )

ライセンス: Link先を確認
Mingqi Yang, Yanming Shen, Heng Qi, Baocai Yin(参考訳) グラフ表現を学習するために、グラフ内の詳細構造が与えられたグラフタスクに関係しているわけではない。 タスク関連構造は$localized$または$sparse$であり、サブグラフにのみ関与するか、サブグラフ(階層的な視点)の相互作用によって特徴づけられる。 グラフニューラルネットワークは、タスク関連構造を効率的に抽出し、無関係な部分に対して不変であり、一般的なメッセージパッシングgnnでは困難である。 本稿では,元のグラフのサブグラフ列からグラフ表現を学習し,タスク関連部分構造や階層構造をよりよく捉え,$noisy$ の部分をスキップする手法を提案する。 この目的のために、マスク機構を通じて所望のサブグラフを抽出するソフトマスクGNN層を設計する。 ソフトマスクは連続空間で定義され、微分可能性を維持し、異なる部分の重みを特徴づける。 既存のサブグラフや階層表現学習方法やグラフプーリング操作と比較して、ソフトマスクgnn層は固定サンプルやドロップ比に制限されず、任意のサイズでサブグラフを抽出するのがより柔軟である。 公開グラフベンチマークに関する広範な実験は、ソフトマスク機構がパフォーマンス向上をもたらすことを示している。 また、各レイヤにおけるマスクの値の可視化によって、モデルによって学習された構造に関する洞察を得ることができる、解釈可能性も提供します。

For learning graph representations, not all detailed structures within a graph are relevant to the given graph tasks. Task-relevant structures can be $localized$ or $sparse$ which are only involved in subgraphs or characterized by the interactions of subgraphs (a hierarchical perspective). A graph neural network should be able to efficiently extract task-relevant structures and be invariant to irrelevant parts, which is challenging for general message passing GNNs. In this work, we propose to learn graph representations from a sequence of subgraphs of the original graph to better capture task-relevant substructures or hierarchical structures and skip $noisy$ parts. To this end, we design soft-mask GNN layer to extract desired subgraphs through the mask mechanism. The soft-mask is defined in a continuous space to maintain the differentiability and characterize the weights of different parts. Compared with existing subgraph or hierarchical representation learning methods and graph pooling operations, the soft-mask GNN layer is not limited by the fixed sample or drop ratio, and therefore is more flexible to extract subgraphs with arbitrary sizes. Extensive experiments on public graph benchmarks show that soft-mask mechanism brings performance improvements. And it also provides interpretability where visualizing the values of masks in each layer allows us to have an insight into the structures learned by the model.
翻訳日:2022-06-14 16:35:06 公開日:2022-06-11
# 非IIDクライアントのためのGANに基づくデータ合成によるフェデレーション学習

Federated Learning with GAN-based Data Synthesis for Non-IID Clients ( http://arxiv.org/abs/2206.05507v1 )

ライセンス: Link先を確認
Zijian Li, Jiawei Shao, Yuyi Mao, Jessie Hui Wang, Jun Zhang(参考訳) フェデレーション学習(federated learning, ffl)は,先日,プライバシ保護によるコラボレーション学習パラダイムとして注目されるようになった。 しかし、クライアント間の非独立かつ同一の分散(非iid)データに苦しむ。 本稿では,合成データを共有することで,この非iid課題を解決するために,合成データ支援連合学習(sda-fl)という新しい枠組みを提案する。 具体的には、各クライアントは、グローバル共有合成データセットを構築するためにパラメータサーバ(PS)にアップロードされる差分プライベートな合成データを生成するために、局所生成逆ネットワーク(GAN)を事前訓練する。 また,合成データセットに対して自信のある擬似ラベルを生成するために,psによる反復的な擬似ラベル機構を提案する。 ローカルプライベートデータセットと合成データセットと確実な擬似ラベルの組み合わせは、クライアント間でほぼ同一のデータ分散をもたらし、ローカルモデル間の一貫性を改善し、グローバルアグリゲーションの恩恵を受ける。 大規模な実験により、提案フレームワークは、教師付きおよび半教師付き両方の設定下で、いくつかのベンチマークデータセットにおいて、ベースライン手法よりも大きなマージンで性能が向上していることが示された。

Federated learning (FL) has recently emerged as a popular privacy-preserving collaborative learning paradigm. However, it suffers from the non-independent and identically distributed (non-IID) data among clients. In this paper, we propose a novel framework, named Synthetic Data Aided Federated Learning (SDA-FL), to resolve this non-IID challenge by sharing synthetic data. Specifically, each client pretrains a local generative adversarial network (GAN) to generate differentially private synthetic data, which are uploaded to the parameter server (PS) to construct a global shared synthetic dataset. To generate confident pseudo labels for the synthetic dataset, we also propose an iterative pseudo labeling mechanism performed by the PS. A combination of the local private dataset and synthetic dataset with confident pseudo labels leads to nearly identical data distributions among clients, which improves the consistency among local models and benefits the global aggregation. Extensive experiments evidence that the proposed framework outperforms the baseline methods by a large margin in several benchmark datasets under both the supervised and semi-supervised settings.
翻訳日:2022-06-14 16:34:43 公開日:2022-06-11
# gDDIM:一般化された拡散暗黙的モデル

gDDIM: Generalized denoising diffusion implicit models ( http://arxiv.org/abs/2206.05564v1 )

ライセンス: Link先を確認
Qinsheng Zhang and Molei Tao and Yongxin Chen(参考訳) 我々の目標は,拡散暗黙モデル (DDIM) を一般拡散モデル (DM) に拡張することである。 従来のDDIM論文のように非マルコフ生成過程を構築する代わりに,数値的な観点からDDIMのメカニズムを検討する。 我々は,対応する確率微分方程式を解く際に,スコアの特定の近似を用いてDDIMが得られることを発見した。 本稿では, DDIMの高速化効果を解釈し, 高速サンプリングのための確率的サンプリング方式に対する決定論的サンプリング方式の利点を説明する。 この知見に基づいて、DDIMを一般的なDMに拡張し、スコアネットワークのパラメータ化において小さなが微妙な修正を加える。 拡散過程を速度で強化して最近提案された新しい拡散モデルである臨界減衰ランジュバン拡散モデルに適用すると,cifar10上でのfidスコアは2.28であり,スコア関数評価は50点,fidスコアは2.87点,27nfesのみであった。 コードはhttps://github.com/qsh-zh/gDDIMで入手できる。

Our goal is to extend the denoising diffusion implicit model (DDIM) to general diffusion models~(DMs). Instead of constructing a non-Markov noising process as in the original DDIM paper, we examine the mechanism of DDIM from a numerical perspective. We discover that the DDIM can be obtained by using some specific approximations of the score when solving the corresponding stochastic differential equation. We present an interpretation of the accelerating effects of DDIM that also explains the advantages of a deterministic sampling scheme over the stochastic one for fast sampling. Building on this insight, we extend DDIM to general DMs with a small but delicate modification in parameterizing the score network. When applied to the critically-damped Langevin diffusion model, a new type of diffusion model proposed recently by augmenting the diffusion process with velocity, our algorithm achieves an FID score of 2.28, on CIFAR10, with only 50 number of score function evaluations~(NFEs) and an FID score of 2.87 with only 27 NFEs, better than all existing methods with the same NFEs. Code is available at https://github.com/qsh-zh/gDDIM
翻訳日:2022-06-14 16:34:24 公開日:2022-06-11
# 自動音声認識のための自己教師付き事前学習モデルのアンサンブル特性の検討

Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech Recognition ( http://arxiv.org/abs/2206.05518v1 )

ライセンス: Link先を確認
A Arunkumar, Vrunda N Sukhadia, S. Umesh(参考訳) 自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。 いくつかの最先端sslモデルが利用可能であり、これらのモデルはそれぞれ異なる損失を最適化し、機能補完の可能性をもたらす。 本稿では,様々な事前学習モデルから抽出された特徴の相補的性質を生かしたssl表現とモデルのアンサンブルについて述べる。 この結果がよりリッチな特徴表現となり、ASRダウンストリームタスクの結果を示すと仮定する。 この目的のために、我々は、HuBERT、Wav2vec2.0、WaveLMという、ASRタスクで優れた結果を示した3つのSSLモデルを使用します。 我々は、ASRタスク用に微調整されたモデルのアンサンブルと、下流ASRタスクのためにトレーニング済みモデルから得られた埋め込みを用いて特徴のアンサンブルを探索する。 ダウンストリームタスクにlibrispeech(100h)とwsjデータセットを使用して、個々のモデルや事前トレーニングされた機能よりもパフォーマンスが向上します。

Self-supervised learning (SSL) based models have been shown to generate powerful representations that can be used to improve the performance of downstream speech tasks. Several state-of-the-art SSL models are available, and each of these models optimizes a different loss which gives rise to the possibility of their features being complementary. This paper proposes using an ensemble of such SSL representations and models, which exploits the complementary nature of the features extracted by the various pretrained models. We hypothesize that this results in a richer feature representation and shows results for the ASR downstream task. To this end, we use three SSL models that have shown excellent results on ASR tasks, namely HuBERT, Wav2vec2.0, and WaveLM. We explore the ensemble of models fine-tuned for the ASR task and the ensemble of features using the embeddings obtained from the pre-trained models for a downstream ASR task. We get improved performance over individual models and pre-trained features using Librispeech(100h) and WSJ dataset for the downstream tasks.
翻訳日:2022-06-14 15:56:24 公開日:2022-06-11
# 情報ボトルネックによるnlpモデルの逆ロバスト性向上

Improving the Adversarial Robustness of NLP Models by Information Bottleneck ( http://arxiv.org/abs/2206.05511v1 )

ライセンス: Link先を確認
Cenyuan Zhang, Xiang Zhou, Yixin Wan, Xiaoqing Zheng, Kai-Wei Chang, Cho-Jui Hsieh(参考訳) 既存の研究では、敵の例は、高い予測力を持つ非破壊的特徴の存在に直接起因できるが、敵がNLPモデルを騙すために容易に操作できることが示されている。 本研究では,情報ボトルネック理論を用いて,タスク固有のロバストな特徴を捕捉し,非ロバストな特徴を除去する可能性を検討する。 本研究では,情報ボトルネックに基づく手法を用いてトレーニングしたモデルにおいて,SST-2, AGNEWS, IMDBデータセットの性能低下に悩まされることなく, 従来報告したすべての防衛手法の性能を上回り, 堅牢な精度を向上できることを示す。

Existing studies have demonstrated that adversarial examples can be directly attributed to the presence of non-robust features, which are highly predictive, but can be easily manipulated by adversaries to fool NLP models. In this study, we explore the feasibility of capturing task-specific robust features, while eliminating the non-robust ones by using the information bottleneck theory. Through extensive experiments, we show that the models trained with our information bottleneck-based method are able to achieve a significant improvement in robust accuracy, exceeding performances of all the previously reported defense methods while suffering almost no performance drop in clean accuracy on SST-2, AGNEWS and IMDB datasets.
翻訳日:2022-06-14 15:37:55 公開日:2022-06-11
# SAIBench: 科学のためのAIのベンチマーク

SAIBench: Benchmarking AI for Science ( http://arxiv.org/abs/2206.05418v1 )

ライセンス: Link先を確認
Yatao Li, Jianfeng Zhan(参考訳) 科学研究コミュニティは、抽出可能な科学的タスクをターゲットにし、研究ワークフローを改善するAIベースのソリューションを受け入れている。 しかし、そのようなソリューションの開発と評価は複数の分野に分散している。 我々は、科学的なAIベンチマークの問題を定式化し、新しい分野への取り組みを統一し、低フリクションを可能にすることを期待して、SAIBenchと呼ばれるシステムを提案する。 このシステムは、研究問題、AIモデル、ランキング基準、ソフトウェア/ハードウェア構成を再利用モジュールに分離するドメイン固有言語であるSAILを使って、この目標にアプローチする。 このアプローチは柔軟で,さまざまな視点で定義された問題やAIモデル,評価手法に適応可能であることを示す。 プロジェクトのホームページはhttps://www. computercouncil.org/SAIBench

Scientific research communities are embracing AI-based solutions to target tractable scientific tasks and improve research workflows. However, the development and evaluation of such solutions are scattered across multiple disciplines. We formalize the problem of scientific AI benchmarking, and propose a system called SAIBench in the hope of unifying the efforts and enabling low-friction on-boarding of new disciplines. The system approaches this goal with SAIL, a domain-specific language to decouple research problems, AI models, ranking criteria, and software/hardware configuration into reusable modules. We show that this approach is flexible and can adapt to problems, AI models, and evaluation methods defined in different perspectives. The project homepage is https://www.computercouncil.org/SAIBench
翻訳日:2022-06-14 15:34:53 公開日:2022-06-11
# スパシスト置換アルゴリズムのグリーディ緩和

Greedy Relaxations of the Sparsest Permutation Algorithm ( http://arxiv.org/abs/2206.05421v1 )

ライセンス: Link先を確認
Wai-Yin Lam, Bryan Andrews, Joseph Ramsey(参考訳) teyssier と kohler の "ordering search" や solus, wang, uhler の gsp などの有向非循環因果モデルの探索に置換推論を利用する手法への関心が高まっている。 後者の手法を置換ベースの演算であるtuckによって拡張し、忠実性よりも弱い仮定の下で効率的かつ点的に一貫性のあるアルゴリズムのクラス、すなわち把持を開発する。 最もリラックスした把握形式は、多くの最先端の因果探索アルゴリズムをシミュレーションで上回り、100以上の変数を持つ高密度グラフやグラフでも効率的かつ正確な探索を可能にする。

There has been an increasing interest in methods that exploit permutation reasoning to search for directed acyclic causal models, including the "Ordering Search" of Teyssier and Kohler and GSP of Solus, Wang and Uhler. We extend the methods of the latter by a permutation-based operation, tuck, and develop a class of algorithms, namely GRaSP, that are efficient and pointwise consistent under increasingly weaker assumptions than faithfulness. The most relaxed form of GRaSP outperforms many state-of-the-art causal search algorithms in simulation, allowing efficient and accurate search even for dense graphs and graphs with more than 100 variables.
翻訳日:2022-06-14 15:34:42 公開日:2022-06-11
# プロセス実行におけるコンテキスト認識偏差の検出

Detecting Context-Aware Deviations in Process Executions ( http://arxiv.org/abs/2206.05532v1 )

ライセンス: Link先を確認
Gyunam Park, Janik-Vasily Benzin, Wil M. P. van der Aalst(参考訳) 偏差検出は、医療プロセスの患者や製造プロセスの製品といった、逸脱するプロセスインスタンスを検出することを目的としている。 組織の事業プロセスは、例えば、病院におけるCOVID-19パンデミック、自動車会社における半導体チップ不足など、さまざまな状況で実行される。 したがって、関連する洞察を提供するには文脈認識偏差検出が不可欠である。 しかし、現存作品 1)様々な文脈を組み込む体系的な方法を提供していない。 2)既存の偏差検出技術の広範なプールを使わずに、特定のアプローチに合わせた調整を行い、 3) ずれを正当化する肯定的文脈と否定的文脈を区別しない。 この作業では、前述のギャップを埋めるためのフレームワークを提供します。 提案するフレームワークを,様々なコンテキストや偏差検出手法に拡張可能なWebサービスとして実装した。 255の異なるシナリオを用いて実験を行い,提案フレームワークの有効性を評価した。

A deviation detection aims to detect deviating process instances, e.g., patients in the healthcare process and products in the manufacturing process. A business process of an organization is executed in various contextual situations, e.g., a COVID-19 pandemic in the case of hospitals and a lack of semiconductor chip shortage in the case of automobile companies. Thus, context-aware deviation detection is essential to provide relevant insights. However, existing work 1) does not provide a systematic way of incorporating various contexts, 2) is tailored to a specific approach without using an extensive pool of existing deviation detection techniques, and 3) does not distinguish positive and negative contexts that justify and refute deviation, respectively. In this work, we provide a framework to bridge the aforementioned gaps. We have implemented the proposed framework as a web service that can be extended to various contexts and deviation detection methods. We have evaluated the effectiveness of the proposed framework by conducting experiments using 255 different contextual scenarios.
翻訳日:2022-06-14 15:34:28 公開日:2022-06-11
# 水中ビデオにおける変圧器型自己教師付き魚のセグメンテーション

Transformer-based Self-Supervised Fish Segmentation in Underwater Videos ( http://arxiv.org/abs/2206.05390v1 )

ライセンス: Link先を確認
Alzayat Saleh, Marcus Sheaves, Dean Jerry, and Mostafa Rahimi Azghadi(参考訳) 魚体測定を推定する水中魚のセグメンテーションは、複雑な水中環境のため、いまだに未解決である。 完全な教師付きセグメンテーションモデルに依存するためには、ピクセル単位のラベルを収集する必要がある。 自己教師あり学習法は、大規模な注釈付きトレーニングデータセットの必要性を避けるのに役立つが、現実世界のアプリケーションで役立つためには、優れたセグメンテーション品質を達成する必要がある。 本稿では,魚の高品質セグメンテーションにセルフスーパービジョンを用いた変圧器方式を提案する。 提案したモデルは、野生で撮影された水中ビデオで魚のセグメンテーションを行うために、アノテーションなしで動画で訓練されている。 1つのデータセットから水中ビデオのセットをトレーニングすると、提案モデルは従来のCNNベースおよびTransformerベースの自己監督手法を超え、新しい2つの水中ビデオデータセットの教師あり手法に比較的近い性能を実現する。 これは、我々のモデルの大きな一般化可能性と、事前訓練されたモデルを必要としないという事実を示しています。 さらに,表現学習の高度化により,モデルが計算効率が高いことを示す。 モデルの重要な能力を示す量的および質的な結果を提供する。

Underwater fish segmentation to estimate fish body measurements is still largely unsolved due to the complex underwater environment. Relying on fully-supervised segmentation models requires collecting per-pixel labels, which is time-consuming and prone to overfitting. Self-supervised learning methods can help avoid the requirement of large annotated training datasets, however, to be useful in real-world applications, they should achieve good segmentation quality. In this paper, we introduce a Transformer-based method that uses self-supervision for high-quality fish segmentation. Our proposed model is trained on videos -- without any annotations -- to perform fish segmentation in underwater videos taken in situ in the wild. We show that when trained on a set of underwater videos from one dataset, the proposed model surpasses previous CNN-based and Transformer-based self-supervised methods and achieves performance relatively close to supervised methods on two new unseen underwater video datasets. This demonstrates the great generalisability of our model and the fact that it does not need a pre-trained model. In addition, we show that, due to its dense representation learning, our model is compute-efficient. We provide quantitative and qualitative results that demonstrate our model's significant capabilities.
翻訳日:2022-06-14 15:33:02 公開日:2022-06-11
# 魚類の生息環境モニタリングにおける深層学習の応用 : チュートリアルと調査

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey ( http://arxiv.org/abs/2206.05394v1 )

ライセンス: Link先を確認
Alzayat Saleh, Marcus Sheaves, Dean Jerry, and Mostafa Rahimi Azghadi(参考訳) 海洋生態系とその魚類の生息地は、貴重な食料資源と保全結果の提供において重要な役割を担っているため、ますます重要になっている。 遠隔でアクセスが難しいため、海洋環境や魚類の生息地は水中カメラで監視されることが多い。 これらのカメラは大量のデジタルデータを生成し、人間の観察者を含む現在の手動処理方法では効率的に分析できない。 DLは最先端のAI技術であり、視覚データの解析において前例のないパフォーマンスを示している。 無数の領域に応用されているが、水中の魚類生息環境のモニタリングでの利用はまだ検討中である。 本稿では,dlの動作に関する高レベルな理解を読者が把握するための,dlの重要な概念をカバーするチュートリアルを提供する。 チュートリアルではまた、水中魚のモニタリングのような挑戦的な応用のために、DLアルゴリズムをどのように開発すべきかをステップバイステップで説明する。 さらに,魚の生息環境モニタリングにおける重要な深層学習手法について,分類,カウント,局所化,セグメンテーションを含む包括的調査を行った。 さらに,市販の水中魚データセットを調査し,水中魚モニタリング領域における各種dl技術の比較を行った。 また,魚の生息地処理における深層学習の課題と機会についても論じる。 本論文は,高レベルなDLの理解を深めたい海洋科学者のためのチュートリアルとして,ステップ・バイ・ステップのチュートリアルに従い,研究活動を促進するためにどのように進化しているかを考察する。 同時に、魚の生息環境モニタリングのための最先端のDLベースの方法論を調査したいコンピュータ科学者にも適している。

Marine ecosystems and their fish habitats are becoming increasingly important due to their integral role in providing a valuable food source and conservation outcomes. Due to their remote and difficult to access nature, marine environments and fish habitats are often monitored using underwater cameras. These cameras generate a massive volume of digital data, which cannot be efficiently analysed by current manual processing methods, which involve a human observer. DL is a cutting-edge AI technology that has demonstrated unprecedented performance in analysing visual data. Despite its application to a myriad of domains, its use in underwater fish habitat monitoring remains under explored. In this paper, we provide a tutorial that covers the key concepts of DL, which help the reader grasp a high-level understanding of how DL works. The tutorial also explains a step-by-step procedure on how DL algorithms should be developed for challenging applications such as underwater fish monitoring. In addition, we provide a comprehensive survey of key deep learning techniques for fish habitat monitoring including classification, counting, localization, and segmentation. Furthermore, we survey publicly available underwater fish datasets, and compare various DL techniques in the underwater fish monitoring domains. We also discuss some challenges and opportunities in the emerging field of deep learning for fish habitat processing. This paper is written to serve as a tutorial for marine scientists who would like to grasp a high-level understanding of DL, develop it for their applications by following our step-by-step tutorial, and see how it is evolving to facilitate their research efforts. At the same time, it is suitable for computer scientists who would like to survey state-of-the-art DL-based methodologies for fish habitat monitoring.
翻訳日:2022-06-14 15:32:12 公開日:2022-06-11
# VAC2:イベントシーケンスにおける複合因果関係の可視化解析

VAC2: Visual Analysis of Combined Causality in Event Sequences ( http://arxiv.org/abs/2206.05420v1 )

ライセンス: Link先を確認
Sujia Zhu, Yue Shen, Zihao Zhu, Wang Xia, Baofeng Chang, Ronghua Liang, Guodao Sun(参考訳) 複雑なシステムの背後にある因果関係の特定は、意思決定、ポリシーの実装、管理勧告など、さまざまな領域において重要な役割を果たす。 しかし、時間的事象系列データに関する既存の因果関係の研究は、主に個々の因果関係の発見に焦点を当てている。 時間的事象シーケンスデータに対する複合原因発見の欠如を補うため、原因組合せにおける有効性と制御性のバランスをとるために、抽出および採用原則が定義される。 また,反応点プロセスに基づくGranger因果性アルゴリズムを利用して,物体間の衝突や行動パターンの抑制を行う。 さらに, 因果関係の可視化が重複せず非交差であることを保証するために, 集合因果関係を符号化する「電気回路」の視覚メタファを設計する。 様々なソート戦略とアグリゲーションレイアウトを並列ベース、指向型、重み付きハイパーグラフに組み込んで、組み合わせた因果性を示す。 開発した複合因果性視覚分析システムは,個々の原因だけでなく,複合原因を効果的に探索するのに役立つ。 このインタラクティブシステムは、さまざまな順序付け戦略と焦点とコンテキスト技術を備えた多レベル因果関係探索をサポートし、ユーザが異なるレベルの情報抽象化を得るのを支援する。 本システムの有用性と有効性は,パイロットユーザ研究とイベントシーケンスデータに関する2つのケーススタディによってさらに評価される。

Identifying causality behind complex systems plays a significant role in different domains, such as decision making, policy implementations, and management recommendations. However, existing causality studies on temporal event sequences data mainly focus on individual causal discovery, which is incapable of exploiting combined causality. To fill the absence of combined causes discovery on temporal event sequence data,eliminating and recruiting principles are defined to balance the effectiveness and controllability on cause combinations. We also leverage the Granger causality algorithm based on the reactive point processes to describe impelling or inhibiting behavior patterns among entities. In addition, we design an informative and aesthetic visual metaphor of "electrocircuit" to encode aggregated causality for ensuring our causality visualization is non-overlapping and non-intersecting. Diverse sorting strategies and aggregation layout are also embedded into our parallel-based, directed and weighted hypergraph for illustrating combined causality. Our developed combined causality visual analysis system can help users effectively explore combined causes as well as an individual cause. This interactive system supports multi-level causality exploration with diverse ordering strategies and a focus and context technique to help users obtain different levels of information abstraction. The usefulness and effectiveness of the system are further evaluated by conducting a pilot user study and two case studies on event sequence data.
翻訳日:2022-06-14 15:31:50 公開日:2022-06-11
# エゴセントリックなアクションビデオデータセットの高精度アノテーション

Precise Affordance Annotation for Egocentric Action Video Datasets ( http://arxiv.org/abs/2206.05424v1 )

ライセンス: Link先を確認
Zecheng Yu, Yifei Huang, Ryosuke Furuta, Takuma Yagi, Yusuke Goutsu, Yoichi Sato(参考訳) 物価は人間と物体の相互作用において重要な概念であり、人間の運動能力と物体の物理的特性に基づく行動可能性の情報を提供し、行動予測やロボット模倣学習といったタスクに寄与する。 しかし、既存のデータセットはしばしば: 1) 対象の機能性に合致すること 2 目標関連行動と余暇を混同すること、及び 3)人間の運動能力は無視する。 本稿では,目標非関係運動動作と把持型をラベルとして組み合わせ,2つの物体間の動作可能性を表現するための機械的動作の概念を導入することで,これらの問題に対処するための効率的なアノテーションスキームを提案する。 我々はEPIC-KITCHENSデータセットにこのスキームを適用して新しいアノテーションを提供し、アベイランス認識などのタスクでアノテーションをテストする。 アノテーションでトレーニングされたモデルが、アフォーマンスと機械的動作を区別できることを定性的に検証します。

Object affordance is an important concept in human-object interaction, providing information on action possibilities based on human motor capacity and objects' physical property thus benefiting tasks such as action anticipation and robot imitation learning. However, existing datasets often: 1) mix up affordance with object functionality; 2) confuse affordance with goal-related action; and 3) ignore human motor capacity. This paper proposes an efficient annotation scheme to address these issues by combining goal-irrelevant motor actions and grasp types as affordance labels and introducing the concept of mechanical action to represent the action possibilities between two objects. We provide new annotations by applying this scheme to the EPIC-KITCHENS dataset and test our annotation with tasks such as affordance recognition. We qualitatively verify that models trained with our annotation can distinguish affordance and mechanical actions.
翻訳日:2022-06-14 15:31:25 公開日:2022-06-11
# 現実世界の単一画像デレーシングに向けて - 新しいベンチマークとそれ以降

Toward Real-world Single Image Deraining: A New Benchmark and Beyond ( http://arxiv.org/abs/2206.05514v1 )

ライセンス: Link先を確認
Wei Li, Qiming Zhang, Jing Zhang, Zhen Huang, Xinmei Tian, Dacheng Tao(参考訳) 現実シナリオにおけるSID(Single Image deraining)は近年注目されている。 実世界の雨/クリーン画像ペアを得るのが困難であるため、以前の実データセットは低解像度の画像、均質な雨のストリーク、背景の変化の制限、画像ペアのずれなどに悩まされ、sid法の理解不能な評価に繋がる。 これらの問題に対処するために,我々はrerealrain-1kという新しい高品質データセットを構築した。 realrain-1kの画像は多くの現実世界の雨のビデオクリップから、単純で効果的な雨密度制御可能なフィルタリングによって自動的に生成され、高分解能、背景多様性、雨のバラエティ、厳密な空間的アライメントなどの特性を有する。 RealRain-1kはまた、豊富な雨天層を副産物として提供し、豊富な自然画像上に雨天層を貼り付けることで、SynRain-13kという大規模な合成データセットを構築することができる。 これらと既存のデータセットに基づいて,(1)RealRain-1kの完全教師付き学習,(2)ドメインの実際のデータセットへの一般化,(3)Syn-to-real転送学習の3つのトラックで10以上のSID手法をベンチマークする。 実験の結果,(1)画像復元性能とモデルの複雑さにおける代表的手法の違い,(2)モデル一般化のための提案するデータセットの意義を検証すること,(3)多様な領域からの学習の優越性,そして実世界のsidに関する今後の研究に光を当てることに有用である。 データセットはhttps://github.com/hiker-lw/RealRain-1kでリリースされる。

Single image deraining (SID) in real scenarios attracts increasing attention in recent years. Due to the difficulty in obtaining real-world rainy/clean image pairs, previous real datasets suffer from low-resolution images, homogeneous rain streaks, limited background variation, and even misalignment of image pairs, resulting in incomprehensive evaluation of SID methods. To address these issues, we establish a new high-quality dataset named RealRain-1k, consisting of $1,120$ high-resolution paired clean and rainy images with low- and high-density rain streaks, respectively. Images in RealRain-1k are automatically generated from a large number of real-world rainy video clips through a simple yet effective rain density-controllable filtering method, and have good properties of high image resolution, background diversity, rain streaks variety, and strict spatial alignment. RealRain-1k also provides abundant rain streak layers as a byproduct, enabling us to build a large-scale synthetic dataset named SynRain-13k by pasting the rain streak layers on abundant natural images. Based on them and existing datasets, we benchmark more than 10 representative SID methods on three tracks: (1) fully supervised learning on RealRain-1k, (2) domain generalization to real datasets, and (3) syn-to-real transfer learning. The experimental results (1) show the difference of representative methods in image restoration performance and model complexity, (2) validate the significance of the proposed datasets for model generalization, and (3) provide useful insights on the superiority of learning from diverse domains and shed lights on the future research on real-world SID. The datasets will be released at https://github.com/hiker-lw/RealRain-1k
翻訳日:2022-06-14 15:31:07 公開日:2022-06-11
# サラウンドビューカメラを用いた自動運転のための総合視覚知覚

Surround-View Cameras based Holistic Visual Perception for Automated Driving ( http://arxiv.org/abs/2206.05542v1 )

ライセンス: Link先を確認
Varun Ravi Kumar(参考訳) 目の形成は進化の大きなバングにつながった。 ダイナミックスは、視覚センサーが求める食べ物を食べるために食べ物が接触するのを待っている原始生物から変化した。 人間の目は進化の最も洗練された発展の1つだが、まだ欠陥がある。 人間は、自動車を運転し、機械を操作し、航空機を操縦し、数百万年にわたって船を航行する生物学的認識アルゴリズムを進化させてきた。 これらの機能をコンピュータで自動化することは、自動運転車、拡張現実、建築調査など、さまざまなアプリケーションにとって非常に重要である。 自動運転車の文脈における近接場視覚知覚は、車両周辺の0-10$mと360{\deg}範囲の環境を知覚することができる。 より安全な自動運転の開発において重要な意思決定要素である。 コンピュータビジョンとディープラーニングの最近の進歩は、カメラやLiDARのような高品質なセンサーとともに、成熟した視覚知覚ソリューションに拍車をかけた。 これまでは、遠距離知覚が主眼だった。 もうひとつの重要な問題は、リアルタイムアプリケーションの開発に利用可能な処理能力の制限である。 このボトルネックのため、パフォーマンスと実行時の効率の間にはトレードオフがしばしば発生する。 私たちは、それらに対処するために、以下の問題に集中します。 1)畳み込みニューラルネットワークを用いた幾何学的・意味的タスクなどの視覚的タスクに対する,高性能・低計算量な近接場認識アルゴリズムの開発。 2)タスク間の初期畳み込みレイヤを共有し,タスクのバランスをとる最適化戦略を開発することで,マルチタスク学習を用いて計算ボトルネックを克服する。

The formation of eyes led to the big bang of evolution. The dynamics changed from a primitive organism waiting for the food to come into contact for eating food being sought after by visual sensors. The human eye is one of the most sophisticated developments of evolution, but it still has defects. Humans have evolved a biological perception algorithm capable of driving cars, operating machinery, piloting aircraft, and navigating ships over millions of years. Automating these capabilities for computers is critical for various applications, including self-driving cars, augmented reality, and architectural surveying. Near-field visual perception in the context of self-driving cars can perceive the environment in a range of $0-10$ meters and 360{\deg} coverage around the vehicle. It is a critical decision-making component in the development of safer automated driving. Recent advances in computer vision and deep learning, in conjunction with high-quality sensors such as cameras and LiDARs, have fueled mature visual perception solutions. Until now, far-field perception has been the primary focus. Another significant issue is the limited processing power available for developing real-time applications. Because of this bottleneck, there is frequently a trade-off between performance and run-time efficiency. We concentrate on the following issues in order to address them: 1) Developing near-field perception algorithms with high performance and low computational complexity for various visual perception tasks such as geometric and semantic tasks using convolutional neural networks. 2) Using Multi-Task Learning to overcome computational bottlenecks by sharing initial convolutional layers between tasks and developing optimization strategies that balance tasks.
翻訳日:2022-06-14 15:30:31 公開日:2022-06-11
# acmp:素粒子相転移を有するグラフニューラルネットワークのためのアレン-カーンメッセージパッシング

ACMP: Allen-Cahn Message Passing for Graph Neural Networks with Particle Phase Transition ( http://arxiv.org/abs/2206.05437v1 )

ライセンス: Link先を確認
Yuelin Wang, Kai Yi, Xinliang Liu, Yu Guang Wang, Shi Jin(参考訳) ニューラルメッセージパッシングは、グラフ構造データの基本的特徴抽出ユニットであり、ある層から次の層へのネットワーク伝搬における隣り合うノードの特徴の影響を考慮に入れている。 相転移のモデル化において生じるアレン・カーン力と引力を有する相互作用粒子系を用いて, この過程をモデル化する。 この系は反応拡散過程であり、粒子を異なるクラスターに分離することができる。 これにより、グラフニューラルネットワークに対するallen-cahnメッセージパッシング(acmp)が引き起こされ、そこでは解に対する数値的なイテレーションがメッセージパッシング伝播を構成する。 ACMPの背後にあるメカニズムは、複数クラスタの形成を可能にする粒子の相転移であり、ノード分類のためのGNN予測である。 ACMPはディリクレエネルギーの厳密に正の低い境界を持つ数百の層にネットワーク深さを伝播することができる。 これによりGNNの深いモデルが提供され、GNNのオーバースムーシングの問題を回避している。 様々な実ノード分類データセットに対する実験は、高いホモフィリーの難しさがあり、ACMPを持つGNNがディリクレエネルギーの減衰を伴わずに芸術性能の状態を達成できることを示している。

Neural message passing is a basic feature extraction unit for graph-structured data that takes account of the impact of neighboring node features in network propagation from one layer to the next. We model such process by an interacting particle system with attractive and repulsive forces and the Allen-Cahn force arising in the modeling of phase transition. The system is a reaction-diffusion process which can separate particles to different clusters. This induces an Allen-Cahn message passing (ACMP) for graph neural networks where the numerical iteration for the solution constitutes the message passing propagation. The mechanism behind ACMP is phase transition of particles which enables the formation of multi-clusters and thus GNNs prediction for node classification. ACMP can propel the network depth to hundreds of layers with theoretically proven strictly positive lower bound of the Dirichlet energy. It thus provides a deep model of GNNs which circumvents the common GNN problem of oversmoothing. Experiments for various real node classification datasets, with possible high homophily difficulty, show the GNNs with ACMP can achieve state of the art performance with no decay of Dirichlet energy.
翻訳日:2022-06-14 15:06:42 公開日:2022-06-11
# 音響異常検出に基づく階層型条件変動オートエンコーダ

Hierarchical Conditional Variational Autoencoder Based Acoustic Anomaly Detection ( http://arxiv.org/abs/2206.05460v1 )

ライセンス: Link先を確認
Harsh Purohit, Takashi Endo, Masaaki Yamamoto, Yohei Kawaguchi(参考訳) 本稿では,自動監視のための音響信号に基づく教師なし異常検出手法を提案する。 ディープオートエンコーダ(DAE)、変分オートエンコーダ(VAE)、条件変分オートエンコーダ(CVAE)などの既存のアプローチは、潜在空間における限られた表現能力を持ち、したがって異常検出性能が劣る。 異常検出タスクを正確に実行するには、異なる種類のマシンに対して異なるモデルをトレーニングする必要がある。 そこで本研究では,階層型条件変分オートエンコーダ(HCVAE)と呼ばれる新しい手法を提案する。 この方法は工業施設に関する利用可能な分類学的階層的知識を利用して潜在空間表現を洗練する。 この知識はモデルが異常検出性能を改善するのにも役立ちます。 適切な条件を用いて,異なる種類の機械に対する単一のhcvaeモデルの一般化能力を実証した。 さらに,提案手法の実用性を示す。 (i)異なる領域におけるHCVAEモデルの評価と評価を行った。 (ii)部分的階層的知識の効果を確認した。 以上の結果から, HCVAE法はこれらの点の双方を検証し, 異常検出タスクの基準系をAUCスコアで最大15%上回る性能を示した。

This paper aims to develop an acoustic signal-based unsupervised anomaly detection method for automatic machine monitoring. Existing approaches such as deep autoencoder (DAE), variational autoencoder (VAE), conditional variational autoencoder (CVAE) etc. have limited representation capabilities in the latent space and, hence, poor anomaly detection performance. Different models have to be trained for each different kind of machines to accurately perform the anomaly detection task. To solve this issue, we propose a new method named as hierarchical conditional variational autoencoder (HCVAE). This method utilizes available taxonomic hierarchical knowledge about industrial facility to refine the latent space representation. This knowledge helps model to improve the anomaly detection performance as well. We demonstrated the generalization capability of a single HCVAE model for different types of machines by using appropriate conditions. Additionally, to show the practicability of the proposed approach, (i) we evaluated HCVAE model on different domain and (ii) we checked the effect of partial hierarchical knowledge. Our results show that HCVAE method validates both of these points, and it outperforms the baseline system on anomaly detection task by utmost 15 % on the AUC score metric.
翻訳日:2022-06-14 15:06:22 公開日:2022-06-11
# ニューガード:軽度のニューロン誘導型防衛でメンバーシップ推論攻撃

NeuGuard: Lightweight Neuron-Guided Defense against Membership Inference Attacks ( http://arxiv.org/abs/2206.05565v1 )

ライセンス: Link先を確認
Nuo Xu, Binghui Wang, Ran Ran, Wujie Wen, Parv Venkitasubramaniam(参考訳) 機械学習モデルに対するメンバーシップ推論攻撃(mia)は、モデルトレーニングで使用されるトレーニングデータセットに対して深刻なプライバシーリスクを引き起こす可能性がある。 本稿では,ニューガード(NeuGuard)という新規で効果的な神経誘導防御手法を提案する。 2つのニューラルネットワークベースMIAに対して同時に防御できないMIAに対する既存の防御機構の重要な弱点を特定し、これらの2つの攻撃を個別に評価し、防御効果を保証すべきであることを示す。 訓練セットとテストセットのモデルの出力を誘導するために,ニューロンの出力と内部ニューロンの活性化をオブジェクトと共同で制御する新しい防御手法であるneuguardを提案する。 ニューガードは、最終的な出力ニューロンを制限することを目的としたクラスワイズ分散最小化と、各層の内部ニューロンを拘束することを目的としたレイヤーワイズバランスの出力制御からなる。 3つのベンチマークデータセットで新たに提案されたラベルのみのmiaを含む5つの強力なメトリックベースのmiasに対して、neuguardを評価し、最先端の防御と比較する。 結果として、NeuGuardは、ユーティリティとプライバシのトレードオフ、一般性、オーバーヘッドを大幅に改善することで、最先端の防御よりも優れています。

Membership inference attacks (MIAs) against machine learning models can lead to serious privacy risks for the training dataset used in the model training. In this paper, we propose a novel and effective Neuron-Guided Defense method named NeuGuard against membership inference attacks (MIAs). We identify a key weakness in existing defense mechanisms against MIAs wherein they cannot simultaneously defend against two commonly used neural network based MIAs, indicating that these two attacks should be separately evaluated to assure the defense effectiveness. We propose NeuGuard, a new defense approach that jointly controls the output and inner neurons' activation with the object to guide the model output of training set and testing set to have close distributions. NeuGuard consists of class-wise variance minimization targeting restricting the final output neurons and layer-wise balanced output control aiming to constrain the inner neurons in each layer. We evaluate NeuGuard and compare it with state-of-the-art defenses against two neural network based MIAs, five strongest metric based MIAs including the newly proposed label-only MIA on three benchmark datasets. Results show that NeuGuard outperforms the state-of-the-art defenses by offering much improved utility-privacy trade-off, generality, and overhead.
翻訳日:2022-06-14 15:06:02 公開日:2022-06-11
# e値を用いた特徴選択

Feature Selection using e-values ( http://arxiv.org/abs/2206.05391v1 )

ライセンス: Link先を確認
Subhabrata Majumdar, Snigdhansu Chatterjee(参考訳) 教師付きパラメトリックモデルの文脈では、e値の概念を導入する。 e値(e-value)は、全ての特徴(すなわち、全モデル)で訓練されたモデルのサブセットで訓練されたモデルにおけるパラメータ推定のサンプリング分布の近さを表すスカラー量である。 一般的な条件の下では、e値のランク順序付けは、すべての必須特徴を含むモデルとそうでないものを分離する。 e-値は幅広いパラメトリックモデルに適用できる。 e-valuesを用いた特徴選択手順の実装には,データ深さと高速再サンプリングに基づくアルゴリズムを用いる。 次元的特徴空間では、従来の2^p$モデルへの適合と評価の要件とは対照的に、この手順はフルモデルのみを適合させ、$p+1$モデルを評価する必要がある。 いくつかのモデル設定と合成および実データを用いた実験により,e-values法が既存のモデル固有の特徴選択法に代わる有望な代替手段であることを示す。

In the context of supervised parametric models, we introduce the concept of e-values. An e-value is a scalar quantity that represents the proximity of the sampling distribution of parameter estimates in a model trained on a subset of features to that of the model trained on all features (i.e. the full model). Under general conditions, a rank ordering of e-values separates models that contain all essential features from those that do not. The e-values are applicable to a wide range of parametric models. We use data depths and a fast resampling-based algorithm to implement a feature selection procedure using e-values, providing consistency results. For a $p$-dimensional feature space, this procedure requires fitting only the full model and evaluating $p+1$ models, as opposed to the traditional requirement of fitting and evaluating $2^p$ models. Through experiments across several model settings and synthetic and real datasets, we establish that the e-values method as a promising general alternative to existing model-specific methods of feature selection.
翻訳日:2022-06-14 15:02:33 公開日:2022-06-11
# スパース線形近似によるニューラルネットワーク圧縮の理論的理解

A Theoretical Understanding of Neural Network Compression from Sparse Linear Approximation ( http://arxiv.org/abs/2206.05604v1 )

ライセンス: Link先を確認
Wenjing Yang, Ganghua Wang, Enmao Diao, Vahid Tarokh, Jie Ding, Yuhong Yang(参考訳) モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことである。 その結果、リソース制限されたアプリケーションの計算とメモリコストは、冗長な重み、ニューロン、または層を落として大幅に削減される。 実験的な成功をもたらすモデル圧縮アルゴリズムが多数提案されている。 しかし、モデル圧縮に関する理論的理解はまだ限られている。 一つの問題は、ネットワークが同じ構造の他のネットワークよりも圧縮性が高いかどうかを理解することである。 もう1つの問題は、理論上、精度の低下を保証されたネットワークをどれだけ掘り起こせるかの定量化である。 本研究では,ネットワーク内の重みのソフトなスパース性と圧縮度との関係について,圧縮性特性を特徴付けるために,sparsityに敏感な$\ell_q$-norm (0<q<1$) を用いることを提案する。 また,ネットワーク内の各ニューロンをプルーニングする適応アルゴリズムも開発した。 数値実験により,提案手法の有望な性能を標準プルーニングアルゴリズムと比較した。

The goal of model compression is to reduce the size of a large neural network while retaining a comparable performance. As a result, computation and memory costs in resource-limited applications may be significantly reduced by dropping redundant weights, neurons, or layers. There have been many model compression algorithms proposed that provide impressive empirical success. However, a theoretical understanding of model compression is still limited. One problem is understanding if a network is more compressible than another of the same structure. Another problem is quantifying how much one can prune a network with theoretically guaranteed accuracy degradation. In this work, we propose to use the sparsity-sensitive $\ell_q$-norm ($0<q<1$) to characterize compressibility and provide a relationship between soft sparsity of the weights in the network and the degree of compression with a controlled accuracy degradation bound. We also develop adaptive algorithms for pruning each neuron in the network informed by our theory. Numerical studies demonstrate the promising performance of the proposed methods compared with standard pruning algorithms.
翻訳日:2022-06-14 15:02:16 公開日:2022-06-11
# マンモDL:フェデレートラーニングを用いたマンモグラフィー乳房密度推定

MammoDL: Mammographic Breast Density Estimation using Federated Learning ( http://arxiv.org/abs/2206.05575v1 )

ライセンス: Link先を確認
Keshava Katti, Ramya Muthukrishnan, Angelina Heyler, Sarthak Pati, Aprupa Alahari, Michael Sanborn, Emily F. Conant, Christopher Scott, Stacey Winham, Celine Vachon, Pratik Chaudhari, Despina Kontos, Spyridon Bakas(参考訳) 乳がんのリスクを画像から評価することは主観的なプロセスであり、放射線技師はコンピュータ支援検出(CAD)システムや質的な視覚的評価を用いて乳がん密度(PD)を推定する。 より高度な機械学習(ml)モデルは、早期、正確、公平な診断のための乳がんリスクを定量化する最も有望な方法となっているが、医療研究におけるそのようなモデルのトレーニングは、しばしば小さな単一施設のデータに制限されている。 患者の年齢層や画像特性は画像サイトによって大きく異なる可能性があるため、単一施設データで訓練されたモデルはあまり一般化しない傾向がある。 この問題に対してMammoDLは,UNetアーキテクチャを活用し,乳房のPDと複雑性をデジタルマンモグラフィー(DM)から正確に推定するオープンソースソフトウェアツールである。 Open Federated Learning (OpenFL)ライブラリを使用することで、複数の機関にわたるデータセットのセキュアなトレーニングが可能になる。 MammoDLは従来のモデルよりもよりリーンで柔軟なモデルであり、より大きな、より代表的なデータセットに対するフェデレーション対応トレーニングによる一般化の改善を誇っている。

Assessing breast cancer risk from imaging remains a subjective process, in which radiologists employ computer aided detection (CAD) systems or qualitative visual assessment to estimate breast percent density (PD). More advanced machine learning (ML) models have become the most promising way to quantify breast cancer risk for early, accurate, and equitable diagnoses, but training such models in medical research is often restricted to small, single-institution data. Since patient demographics and imaging characteristics may vary considerably across imaging sites, models trained on single-institution data tend not to generalize well. In response to this problem, MammoDL is proposed, an open-source software tool that leverages UNet architecture to accurately estimate breast PD and complexity from digital mammography (DM). With the Open Federated Learning (OpenFL) library, this solution enables secure training on datasets across multiple institutions. MammoDL is a leaner, more flexible model than its predecessors, boasting improved generalization due to federation-enabled training on larger, more representative datasets.
翻訳日:2022-06-14 14:59:25 公開日:2022-06-11
# 多施設mriによる各種病理組織学的前立腺癌検出のための研究プロトタイプを用いた連合学習

Federated Learning with Research Prototypes for Multi-Center MRI-based Detection of Prostate Cancer with Diverse Histopathology ( http://arxiv.org/abs/2206.05617v1 )

ライセンス: Link先を確認
Abhejit Rajagopal, Ekaterina Redekop, Anil Kemisetti, Rushi Kulkarni, Steven Raman, Kirti Magudia, Corey W. Arnold, Peder E. Z. Larson(参考訳) 早期前立腺がんの検出とmriからのステージングは、放射線科医とディープラーニングアルゴリズムの両方にとって極めて困難な作業だが、大規模で多様なデータセットから学ぶ可能性は、クリニック内外の一般化能力を高めるための有望な手段である。 本稿では,既存の研究の大半が残っているプロトタイプ段階のアルゴリズムに対して,クロスサイトトレーニング,検証,深層前立腺癌検出アルゴリズムの評価のためのフレキシブルなフェデレーション学習フレームワークを提案する。 提案手法では,NVFlareフェデレーション学習フレームワークを使用せずに,非ポリケートなプロトタイプ深層学習モデルをトレーニング可能なモデルアーキテクチャとデータの抽象化表現を利用する。 以上の結果から, 特殊なニューラルネットワークモデルと2つのカリフォルニア大学附属病院で収集した多種多様な前立腺生検データを用いて, 前立腺癌検出と分類精度が向上し, 異なるデータセットへの適応とmr-バイオマーカーの発見の改善が有効であることが示された。 医療画像のための他のディープラーニングプロジェクトに容易に適用可能な、fltoolsシステムをオープンソースとして公開しています。

Early prostate cancer detection and staging from MRI are extremely challenging tasks for both radiologists and deep learning algorithms, but the potential to learn from large and diverse datasets remains a promising avenue to increase their generalization capability both within- and across clinics. To enable this for prototype-stage algorithms, where the majority of existing research remains, in this paper we introduce a flexible federated learning framework for cross-site training, validation, and evaluation of deep prostate cancer detection algorithms. Our approach utilizes an abstracted representation of the model architecture and data, which allows unpolished prototype deep learning models to be trained without modification using the NVFlare federated learning framework. Our results show increases in prostate cancer detection and classification accuracy using a specialized neural network model and diverse prostate biopsy data collected at two University of California research hospitals, demonstrating the efficacy of our approach in adapting to different datasets and improving MR-biomarker discovery. We open-source our FLtools system, which can be easily adapted to other deep learning projects for medical imaging.
翻訳日:2022-06-14 14:59:05 公開日:2022-06-11
# ナラティブ分析におけるアノテーション間不一致評価のための分解に基づくアプローチ

A Decomposition-Based Approach for Evaluating Inter-Annotator Disagreement in Narrative Analysis ( http://arxiv.org/abs/2206.05446v1 )

ライセンス: Link先を確認
Effi Levi, Shaul R. Shenhav(参考訳) 本研究は,文章に物語のプロットが存在するかどうかという問題を踏まえ,物語分析における注釈間の不一致の源泉を探究する。 本研究の目的は,既存のアノテーションを概念的に分解する手法を,(1) 文章中に物語的プロットが存在するか否か,(2) テキスト内には物語的プロット要素が存在するか,という2つのレベルに分解する方法を提案することである。 本手法を既存の3つの物語的プロット要素に注釈付けされた文のデータセットに適用する: \textit{Complication}, \textit{Resolution}, \textit{Success}。 次に,アノテーション間不一致の程度を2つのレベルごとに定量化するために,統計的分析を行った。 さらに,各レベルの不一致事例の質的分析を行い,テキストのあいまいさ,スキーム定義,アノテータ間の個人差など,不一致の諸要因を観察する。 データセットに収集された洞察は、将来のアノテーションの取り組みにおけるアノテーション間の不一致を減らすのに役立つかもしれない。 結論として,アノテーション間不一致を他の場面で研究・評価する上でのアプローチの潜在的意義について,より広い議論を交わした。

In this work, we explore sources of inter-annotator disagreement in narrative analysis, in light of the question of whether or not a narrative plot exists in the text. For this purpose, we present a method for a conceptual decomposition of an existing annotation into two separate levels: (1) \textbf{whether} or not a narrative plot exists in the text, and (2) \textbf{which} plot elements exist in the text. We apply this method to an existing dataset of sentences annotated with three different narrative plot elements: \textit{Complication}, \textit{Resolution} and \textit{Success}. We then employ statistical analysis in order to quantify how much of the inter-annotator disagreement can be explained by each of the two levels. We further perform a qualitative analysis of disagreement cases in each level, observing several sources of disagreement, such as text ambiguity, scheme definition and personal differences between the annotators. The insights gathered on the dataset may serve to reduce inter-annotator disagreement in future annotation endeavors. We conclude with a broader discussion on the potential implications of our approach in studying and evaluating inter-annotator disagreement in other settings.
翻訳日:2022-06-14 14:54:05 公開日:2022-06-11
# 収束保証による学習的再構築

Learned reconstruction with convergence guarantees ( http://arxiv.org/abs/2206.05431v1 )

ライセンス: Link先を確認
Subhadip Mukherjee, Andreas Hauptmann, Ozan \"Oktem, Marcelo Pereyra, Carola-Bibiane Sch\"onlieb(参考訳) 近年,深層学習は画像再構成において顕著な成果を上げている。 これにより、医療画像などの重要なユースケースにおいて、データ駆動方式の正確性と信頼性の正確な評価が進行中の探求に触媒されている。 ディープ・ラーニング・ベースの手法の優れた性能と有効性にもかかわらず、その安定性、あるいはその欠如に対する懸念は深刻な実践的意味を持つ。 近年、データ駆動画像復元法の内部動作を解明するために重要な進歩がなされており、そのブラックボックスの性質に挑戦している。 本稿では、数学的に厳密な再構成保証を伴う学習手法の調査の基礎となる、データ駆動型画像再構成の収束に関する関連概念について述べる。 ICNNの役割は、ディープラーニングのパワーと古典的凸正規化理論を結合して、確実に収束する手法を考案する可能性を提供するものである。 本稿は,データ駆動型画像再構成手法の理解のフロンティアを前進させようとする方法論研究者と実践者の両方を対象として,コンバージェンス概念の容易に説明し,既存の経験的実践のいくつかを堅実な数学的基礎に置くことを目的としている。

In recent years, deep learning has achieved remarkable empirical success for image reconstruction. This has catalyzed an ongoing quest for precise characterization of correctness and reliability of data-driven methods in critical use-cases, for instance in medical imaging. Notwithstanding the excellent performance and efficacy of deep learning-based methods, concerns have been raised regarding their stability, or lack thereof, with serious practical implications. Significant advances have been made in recent years to unravel the inner workings of data-driven image recovery methods, challenging their widely perceived black-box nature. In this article, we will specify relevant notions of convergence for data-driven image reconstruction, which will form the basis of a survey of learned methods with mathematically rigorous reconstruction guarantees. An example that is highlighted is the role of ICNN, offering the possibility to combine the power of deep learning with classical convex regularization theory for devising methods that are provably convergent. This survey article is aimed at both methodological researchers seeking to advance the frontiers of our understanding of data-driven image reconstruction methods as well as practitioners, by providing an accessible description of convergence concepts and by placing some of the existing empirical practices on a solid mathematical foundation.
翻訳日:2022-06-14 14:25:15 公開日:2022-06-11
# 簡易教師なし学習による手書きハイパースペクトル文書画像におけるインクミスマッチ検出

A Simplified Un-Supervised Learning Based Approach for Ink Mismatch Detection in Handwritten Hyper-Spectral Document Images ( http://arxiv.org/abs/2206.05539v1 )

ライセンス: Link先を確認
Muhammad Farhan Humayun, Hassan Waseem Malik and Ahmed Ahsan Alvi(参考訳) ハイパースペクトルイメージングは、光学イメージングシステムにおける最新のトレンドとなっている。 様々な用途において、ハイパースペクトルイメージングは印刷文書や手書き文書の分析に広く使われている。 本稿では,ハイパースペクトル文書画像に存在する異なるが視覚的に類似するインクの数を効率的に推定する手法を提案する。 我々のアプローチは教師なし学習に基づいており、データセットの事前知識を必要としない。 このアルゴリズムはiVision HHIDデータセットでテストされ、文献に存在するアルゴリズムの状態と同等の結果を得た。 この研究は、ハイパースペクトル文書画像における偽造検出の初期段階において有効であることが証明できる。

Hyper-spectral imaging has become the latest trend in the field of optical imaging systems. Among various other applications, hyper-spectral imaging has been widely used for analysis of printed and handwritten documents. This paper proposes an efficient technique for estimating the number of different but visibly similar inks present in a Hyper spectral Document Image. Our approach is based on un-supervised learning and does not require any prior knowledge of the dataset. The algorithm was tested on the iVision HHID dataset and has achieved comparable results with the state of the algorithms present in the literature. This work can prove to be effective when employed during the early stages of forgery detection in Hyper-spectral Document Images.
翻訳日:2022-06-14 14:24:53 公開日:2022-06-11
# E$^2$PN: 効率的なSE(3)-等変点ネットワーク

E$^2$PN: Efficient SE(3)-Equivariant Point Network ( http://arxiv.org/abs/2206.05398v1 )

ライセンス: Link先を確認
Minghan Zhu, Maani Ghaffari, William A. Clark, Huei Peng(参考訳) 本稿では,SE(3)-等価な特徴を学習する新たなポイントクラウド畳み込み構造を提案する。 既存のSE(3)-同変ネットワークと比較して、私たちの設計は軽量でシンプルで柔軟性があり、一般的なポイントクラウド学習ネットワークに組み込まれる。 機能マップの非伝統的なドメインを選択することで、モデルの複雑さとキャパシティのバランスを取ります。 回転対称性を完全に活用するために$\mathbb{R}^3$を適切に離散化することにより、計算負荷をさらに削減する。 さらに,全se(3)群をその商空間から回収するために置換層を用いる。 実験の結果,本手法はメモリ消費をはるかに少なくし,既存の作業よりも高速に動作しながら,様々なタスクで同等あるいは優れた性能が得られることがわかった。 提案手法は, ポイント・クラウドに基づく様々な実践的アプリケーションにおける同変特徴学習の導入を促進し, 実世界のアプリケーションに対する同変特徴学習の今後の展開を促す。

This paper proposes a new point-cloud convolution structure that learns SE(3)-equivariant features. Compared with existing SE(3)-equivariant networks, our design is lightweight, simple, and flexible to be incorporated into general point-cloud learning networks. We strike a balance between the complexity and capacity of our model by selecting an unconventional domain for the feature maps. We further reduce the computational load by properly discretizing $\mathbb{R}^3$ to fully leverage the rotational symmetry. Moreover, we employ a permutation layer to recover the full SE(3) group from its quotient space. Experiments show that our method achieves comparable or superior performance in various tasks while consuming much less memory and running faster than existing work. The proposed method can foster the adoption of equivariant feature learning in various practical applications based on point clouds and inspire future developments of equivariant feature learning for real-world applications.
翻訳日:2022-06-14 14:21:43 公開日:2022-06-11
# モデル重量発展周波数からみたフリーライダー攻撃に対する防御の再考

Rethinking the Defense Against Free-rider Attack From the Perspective of Model Weight Evolving Frequency ( http://arxiv.org/abs/2206.05406v1 )

ライセンス: Link先を確認
Jinyin Chen, Mingjun Li, Tao Liu, Haibin Zheng, Yao Cheng and Changting Lin(参考訳) Federated Learning(FL)は、複数のクライアントがデータを交換せずに共同モデルをトレーニングする分散機械学習アプローチである。 FLはデータプライバシ保護において前例のない成功を収めたが、フリーライダー攻撃に対する脆弱性が注目されている。 既存の防御は、高いカモフラージュまたは高いフリーライダーに対して効果がない可能性がある。 これらの課題に対処するため,我々は,モデル重み発生頻度という新しい視点から防衛を再考する。例えば,flのトレーニング中,フリーライダーのモデル重み発生頻度と良性クライアントの頻度が著しく異なるという新たな知見が得られた。 そこで本研究では,WEF-Defenseと呼ばれる重み付き周波数モデルに基づく新しい防御手法を提案する。 各クライアントは、ローカルモデルのWEF-Matrixをサーバにアップロードし、各イテレーションのモデルの重み付けを行う。 サーバは、WEF-Matrixの違いに基づいて、フリーライダーと良性クライアントを分離する。 最後に、サーバはパーソナライズされたアプローチを使用して、対応するクライアントに対して異なるグローバルモデルを提供する。 5つのデータセットと5つのモデルで実施された総合的な実験は、WEF-Defenseが最先端のベースラインよりも優れた防御効果を達成することを示した。

Federated learning (FL) is a distributed machine learning approach where multiple clients collaboratively train a joint model without exchanging their data. Despite FL's unprecedented success in data privacy-preserving, its vulnerability to free-rider attacks has attracted increasing attention. Existing defenses may be ineffective against highly camouflaged or high percentages of free riders. To address these challenges, we reconsider the defense from a novel perspective, i.e., model weight evolving frequency.Empirically, we gain a novel insight that during the FL's training, the model weight evolving frequency of free-riders and that of benign clients are significantly different. Inspired by this insight, we propose a novel defense method based on the model Weight Evolving Frequency, referred to as WEF-Defense.Specifically, we first collect the weight evolving frequency (defined as WEF-Matrix) during local training. For each client, it uploads the local model's WEF-Matrix to the server together with its model weight for each iteration. The server then separates free-riders from benign clients based on the difference in the WEF-Matrix. Finally, the server uses a personalized approach to provide different global models for corresponding clients. Comprehensive experiments conducted on five datasets and five models demonstrate that WEF-Defense achieves better defense effectiveness than the state-of-the-art baselines.
翻訳日:2022-06-14 14:20:13 公開日:2022-06-11
# 半教師付き階層グラフ分類

Semi-Supervised Hierarchical Graph Classification ( http://arxiv.org/abs/2206.05416v1 )

ライセンス: Link先を確認
Jia Li, Yongfeng Huang, Heng Chang, Yu Rong(参考訳) ノード分類とグラフ分類は、それぞれノードのクラスラベルとグラフのクラスラベルを予測する2つのグラフ学習問題である。 グラフのノードは通常、現実世界のエンティティ、例えばソーシャルネットワークのユーザ、ドキュメントの引用ネットワークのドキュメントを表す。 本研究では,ノード自体がグラフインスタンスである,より困難だが実用的な設定について検討する。 これは、ソーシャルネットワーク、生物ネットワーク、文書収集など、多くのドメインで発生する階層グラフの観点につながる。 ノード」がグラフインスタンスである階層グラフにおけるノード分類問題について検討する。 ラベルは通常制限されているため、SEAL-CIと呼ばれる新しい半教師付きソリューションを設計する。 seal-ciは2つのモジュールを更新可能な反復フレームワークを採用しており、1つはグラフインスタンスレベルで動作し、もう1つは階層グラフレベルで動作している。 階層グラフ間の整合性を確保するため,階層グラフ相互情報(HGMI)を提案し,理論的保証でHGMIを計算する方法を提案する。 本稿では,この階層グラフモデリングとSEAL-CI法がテキストおよびソーシャルネットワークデータに与える影響を実証する。

Node classification and graph classification are two graph learning problems that predict the class label of a node and the class label of a graph respectively. A node of a graph usually represents a real-world entity, e.g., a user in a social network, or a document in a document citation network. In this work, we consider a more challenging but practically useful setting, in which a node itself is a graph instance. This leads to a hierarchical graph perspective which arises in many domains such as social network, biological network and document collection. We study the node classification problem in the hierarchical graph where a 'node' is a graph instance. As labels are usually limited, we design a novel semi-supervised solution named SEAL-CI. SEAL-CI adopts an iterative framework that takes turns to update two modules, one working at the graph instance level and the other at the hierarchical graph level. To enforce a consistency among different levels of hierarchical graph, we propose the Hierarchical Graph Mutual Information (HGMI) and further present a way to compute HGMI with theoretical guarantee. We demonstrate the effectiveness of this hierarchical graph modeling and the proposed SEAL-CI method on text and social network data.
翻訳日:2022-06-14 14:19:50 公開日:2022-06-11
# Squeeze All: 線形コンテキスト帯域に対する新しい推定器と自己正規化境界

Squeeze All: Novel Estimator and Self-Normalized Bound for Linear Contextual Bandits ( http://arxiv.org/abs/2206.05404v1 )

ライセンス: Link先を確認
Wonyoung Kim, Min-whan Oh, Myunghee Cho Paik(参考訳) o(\sqrt{dt \log t})$ regret bound, ここで、$d$ はコンテキストの次元であり、$t$ は時間軸である。 提案アルゴリズムは,探索を明示的ランダム化により埋め込んだ新しい推定器を備える。 ランダム化によっては、提案する推定者は、すべてのアームのコンテキストから、あるいは選択されたコンテキストからコントリビューションを受け取ります。 これは累積的後悔を乗法項ではなく加法的次元依存項に新しい分解を可能にするものである。 また、問題設定の下では$\Omega(\sqrt{dT})$という新しい下界も証明する。 したがって,提案アルゴリズムの後悔は対数因子に対する下限に一致する。 数値実験は理論的保証をサポートし,提案手法が既存の線形バンディットアルゴリズムより優れていることを示す。

We propose a novel algorithm for linear contextual bandits with $O(\sqrt{dT \log T})$ regret bound, where $d$ is the dimension of contexts and $T$ is the time horizon. Our proposed algorithm is equipped with a novel estimator in which exploration is embedded through explicit randomization. Depending on the randomization, our proposed estimator takes contribution either from contexts of all arms or from selected contexts. We establish a self-normalized bound for our estimator, which allows a novel decomposition of the cumulative regret into additive dimension-dependent terms instead of multiplicative terms. We also prove a novel lower bound of $\Omega(\sqrt{dT})$ under our problem setting. Hence, the regret of our proposed algorithm matches the lower bound up to logarithmic factors. The numerical experiments support the theoretical guarantees and show that our proposed method outperforms the existing linear bandit algorithms.
翻訳日:2022-06-14 13:53:18 公開日:2022-06-11
# グラディエントブースティングが低ランクガウスプロセス推論を達成

Gradient Boosting Performs Low-Rank Gaussian Process Inference ( http://arxiv.org/abs/2206.05608v1 )

ライセンス: Link先を確認
Aleksei Ustimenko, Artem Beliakov, Liudmila Prokhorenkova(参考訳) 本稿では,対称決定木に基づく勾配ブースティングを,ある核リッジレス回帰問題の解に収束する核法として等価に再構成できることを示す。 したがって、低ランクカーネルに対しては、ガウス過程の後方平均への収束が得られ、これにより、後方から試料層に上昇する勾配を変換し、後方分散のモンテカルロ推定によりより優れた知識不確実性推定を提供することができる。 提案手法は,ドメイン外検出の精度向上につながる知識不確実性の推定を可能にする。

This paper shows that gradient boosting based on symmetric decision trees can be equivalently reformulated as a kernel method that converges to the solution of a certain Kernel Ridgeless Regression problem. Thus, for low-rank kernels, we obtain the convergence to a Gaussian Process' posterior mean, which, in turn, allows us to easily transform gradient boosting into a sampler from the posterior to provide better knowledge uncertainty estimates through Monte-Carlo estimation of the posterior variance. We show that the proposed sampler allows for better knowledge uncertainty estimates leading to improved out-of-domain detection.
翻訳日:2022-06-14 13:53:03 公開日:2022-06-11
# なぜ制約付きニューラルネットワーク生成が特に難しいのか?

Why is constrained neural language generation particularly challenging? ( http://arxiv.org/abs/2206.05395v1 )

ライセンス: Link先を確認
Cristina Garbacea, Qiaozhu Mei(参考訳) 近年の深層ニューラルネットワークモデルの進歩と大規模データセットの能力が組み合わさって、さまざまなタスクやアプリケーションコンテキストにおいて(さまざまな成功のために)流れる、一貫性のあるテキストを生成する自然言語生成システムの開発が加速されている。 しかし、望ましいユーザとタスクのニーズのためにこれらのモデルの出力を制御することは、まだ未解決の課題である。 これは、生成された言語のコンテンツとスタイルをカスタマイズするだけでなく、現実世界の安全で信頼性の高いデプロイメントにも重要です。 本稿では,制約付きニューラルネットワーク生成の新たな話題について,条件と制約(後者は入力ではなく出力テキスト上でテスト可能な条件)を区別することで,自然言語生成の問題を正式に定義・分類し,制約付きテキスト生成タスクを提示し,制約付きテキスト生成のための既存の方法と評価指標をレビューする。 我々の目標は、この新興分野の最近の進歩とトレンドを強調し、最も有望な方向性と、制約のあるニューラルネットワーク生成研究の最先端への限界を知らせることである。

Recent advances in deep neural language models combined with the capacity of large scale datasets have accelerated the development of natural language generation systems that produce fluent and coherent texts (to various degrees of success) in a multitude of tasks and application contexts. However, controlling the output of these models for desired user and task needs is still an open challenge. This is crucial not only to customizing the content and style of the generated language, but also to their safe and reliable deployment in the real world. We present an extensive survey on the emerging topic of constrained neural language generation in which we formally define and categorize the problems of natural language generation by distinguishing between conditions and constraints (the latter being testable conditions on the output text instead of the input), present constrained text generation tasks, and review existing methods and evaluation metrics for constrained text generation. Our aim is to highlight recent progress and trends in this emerging field, informing on the most promising directions and limitations towards advancing the state-of-the-art of constrained neural language generation research.
翻訳日:2022-06-14 13:35:14 公開日:2022-06-11
# ベイズ可制御言語モデルの訓練と推論のギャップを埋める

Bridging the Gap Between Training and Inference of Bayesian Controllable Language Models ( http://arxiv.org/abs/2206.05519v1 )

ライセンス: Link先を確認
Han Liu, Bingning Wang, Ting Yao, Haijin Liang, Jianjin Xu and Xiaolin Hu(参考訳) 大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。 しかし,トピックや感情など,所望の属性を持つ文を生成するために,事前学習された言語モデルを制御することは困難である。 近年,bayesian controllable language model (bclms) は,制御可能な言語生成において効率的であることが示されている。 事前訓練された言語モデルのパラメータを微調整する代わりに、BCLMは外部識別器を使用して事前訓練された言語モデルの生成を誘導する。 しかし、BCLMのトレーニングと推論のミスマッチは、モデルの性能を制限している。 この問題に対処するため,本研究では,ミスマッチ問題を少ない計算コストで軽減する,制御可能な言語生成のための「gemini discriminator」を提案する。 本手法は感情制御と話題制御という2つの制御可能な言語生成タスクでテストした。 両課題において,本手法は自動評価と人的評価の両面で新しい最先端の成果を得た。

Large-scale pre-trained language models have achieved great success on natural language generation tasks. However, it is difficult to control the pre-trained language models to generate sentences with the desired attribute such as topic and sentiment, etc. Recently, Bayesian Controllable Language Models (BCLMs) have been shown to be efficient in controllable language generation. Rather than fine-tuning the parameters of pre-trained language models, BCLMs use external discriminators to guide the generation of pre-trained language models. However, the mismatch between training and inference of BCLMs limits the performance of the models. To address the problem, in this work we propose a "Gemini Discriminator" for controllable language generation which alleviates the mismatch problem with a small computational cost. We tested our method on two controllable language generation tasks: sentiment control and topic control. On both tasks, our method reached achieved new state-of-the-art results in automatic and human evaluations.
翻訳日:2022-06-14 13:34:55 公開日:2022-06-11
# マルチモーダル知識発見と事前学習のための統合学習フレームワーク

A Unified Continuous Learning Framework for Multi-modal Knowledge Discovery and Pre-training ( http://arxiv.org/abs/2206.05555v1 )

ライセンス: Link先を確認
Zhihao Fan, Zhongyu Wei, Jingjing Chen, Siyuan Wang, Zejun Li, Jiarong Xu, Xuanjing Huang(参考訳) マルチモーダル学習と知識発見は、マルチモーダル機械学習における2つの重要な研究トピックである。 それにもかかわらず、知識発見と知識誘導マルチモーダル事前学習を結びつける試みは、既存の作品にはない。 本稿では,相互改善のための継続的学習フレームワークとして統合することを提案する。 画像とテキストのオープンドメインユニモーダルデータセットを入力として、これらの2つのタスクをサポートする基盤として知識グラフを維持します。 知識の発見には、事前学習されたモデルを使用して、グラフ上のクロスモーダルリンクを識別する。 モデル事前トレーニングでは、モデル更新をガイドする外部知識として知識グラフが使用される。 この2つのステップは、継続的学習のフレームワークで反復的に行われます。 知識発見と事前学習モデルの両方に関するMS-COCOとFlickr30Kの実験結果から,本フレームワークの有効性が検証された。

Multi-modal pre-training and knowledge discovery are two important research topics in multi-modal machine learning. Nevertheless, none of existing works make attempts to link knowledge discovery with knowledge guided multi-modal pre-training. In this paper, we propose to unify them into a continuous learning framework for mutual improvement. Taking the open-domain uni-modal datasets of images and texts as input, we maintain a knowledge graph as the foundation to support these two tasks. For knowledge discovery, a pre-trained model is used to identify cross-modal links on the graph. For model pre-training, the knowledge graph is used as the external knowledge to guide the model updating. These two steps are iteratively performed in our framework for continuous learning. The experimental results on MS-COCO and Flickr30K with respect to both knowledge discovery and the pre-trained model validate the effectiveness of our framework.
翻訳日:2022-06-14 13:33:40 公開日:2022-06-11
# Kaggle Kinship Recognition Challenge: 従来の改良のための畳み込みフリーモデルの導入

Kaggle Kinship Recognition Challenge: Introduction of Convolution-Free Model to boost conventional ( http://arxiv.org/abs/2206.05488v1 )

ライセンス: Link先を確認
Mingchuan Tian, Guangway Teng, Yipeng Bao(参考訳) 本研究の目的は、従来のアンサンブル分類器のバリエーションを広げるために使用できる畳み込みフリーな基本分類器を探索することである。 具体的には,カグル・キンシップ認識における一意なアンサンブル解のために,cnnと組み合わせた基本分類器として視覚トランスフォーマーを提案する。 本稿では,既存のCNNモデル上でのビジョントランスフォーマーモデルの変種の実装と最適化により,提案したアイデアを検証する。 組み合わせモデルは、CNN変種のみに基づく従来のアンサンブル分類器よりも優れたスコアを得る。 そこで我々は,Kaggle discussion Boardで公開されている高度に最適化されたCNNアンサンブルが,相関の低いVision Transformerモデルの変種と簡単に組み合わさることで,ROCスコアの大幅な向上を達成できることを実証した。

This work aims to explore a convolution-free base classifier that can be used to widen the variations of the conventional ensemble classifier. Specifically, we propose Vision Transformers as base classifiers to combine with CNNs for a unique ensemble solution in Kaggle kinship recognition. In this paper, we verify our proposed idea by implementing and optimizing variants of the Vision Transformer model on top of the existing CNN models. The combined models achieve better scores than conventional ensemble classifiers based solely on CNN variants. We demonstrate that highly optimized CNN ensembles publicly available on the Kaggle Discussion board can easily achieve a significant boost in ROC score by simply ensemble with variants of the Vision Transformer model due to low correlation.
翻訳日:2022-06-14 13:33:26 公開日:2022-06-11
# DRAformer:時系列予測のための差分再構成アテンション変換器

DRAformer: Differentially Reconstructed Attention Transformer for Time-Series Forecasting ( http://arxiv.org/abs/2206.05495v1 )

ライセンス: Link先を確認
Benhan Li, Shengdong Du, Tianrui Li, Jie Hu, Zhen Jia(参考訳) 時系列予測は、機器ライフサイクル予測、天気予報、交通フロー予測など、多くの現実シナリオにおいて重要な役割を果たす。 最近の研究から、様々なトランスフォーマーモデルが時系列予測において顕著な結果を示したことが観察できる。 しかしながら、時系列予測タスクにおけるトランスフォーマーベースのモデルの能力を制限する問題はまだいくつかある。 i) 生データを直接学習することは,その複雑で不安定な特徴表現により,騒音の影響を受けやすい。 (ii)自己着脱機構は,特徴の変化や時間依存に十分注意を払わない。 これら2つの問題を解決するために, 変圧器を用いた微分再構成型注意モデルdraformerを提案する。 具体的には、DRAformerには次のようなイノベーションがあります。 一 配列の相違により明瞭で安定した配列の特徴を保ち、配列の変化する性質を強調する差分配列に対する学習 二) 再構成された注意:統合された距離注意は、学習可能なガウス核を通して逐次距離を示し、分散差分注意は、差分列を適応特徴空間にマッピングすることにより分布差を計算し、これらの組み合わせは、顕著な関連のある配列に効果的に集中する。 三 変化情報と時間相関を統合してシーケンス特徴を抽出する再構成デコーダ入力により、より包括的なシーケンス表現が得られる。 4つの大規模データセットに関する広範な実験は、draformerが最先端のベースラインよりも優れていることを示している。

Time-series forecasting plays an important role in many real-world scenarios, such as equipment life cycle forecasting, weather forecasting, and traffic flow forecasting. It can be observed from recent research that a variety of transformer-based models have shown remarkable results in time-series forecasting. However, there are still some issues that limit the ability of transformer-based models on time-series forecasting tasks: (i) learning directly on raw data is susceptible to noise due to its complex and unstable feature representation; (ii) the self-attention mechanisms pay insufficient attention to changing features and temporal dependencies. In order to solve these two problems, we propose a transformer-based differentially reconstructed attention model DRAformer. Specifically, DRAformer has the following innovations: (i) learning against differenced sequences, which preserves clear and stable sequence features by differencing and highlights the changing properties of sequences; (ii) the reconstructed attention: integrated distance attention exhibits sequential distance through a learnable Gaussian kernel, distributed difference attention calculates distribution difference by mapping the difference sequence to the adaptive feature space, and the combination of the two effectively focuses on the sequences with prominent associations; (iii) the reconstructed decoder input, which extracts sequence features by integrating variation information and temporal correlations, thereby obtaining a more comprehensive sequence representation. Extensive experiments on four large-scale datasets demonstrate that DRAformer outperforms state-of-the-art baselines.
翻訳日:2022-06-14 13:29:29 公開日:2022-06-11
# SsciBERT: 社会科学テキストのための事前学習型言語モデル

SsciBERT: A Pre-trained Language Model for Social Science Texts ( http://arxiv.org/abs/2206.04510v2 )

ライセンス: Link先を確認
Si Shen, Jiangfeng Liu, Litao Lin, Ying Huang, Lin Zhang, Chang Liu, Yutong Feng, Dongbo Wang(参考訳) 社会科学の学術文献は、人間の文明を記録、人間の社会問題を研究する文献である。 この文献が大規模に発展するにつれて、既存の研究を迅速に見つけ出す方法が研究者にとって緊急の要求となっている。 SciBERTのような以前の研究では、ドメイン固有のテキストを用いた事前学習が、これらの分野における自然言語処理タスクの性能を向上させることが示されている。 しかし、社会科学のための事前学習された言語モデルは存在しないため、ssci(social science citation index)ジャーナルに発表された多くの抽象概念の事前学習モデルを提案する。 これらのモデルはGithub(https://github.com/S-T-Full-Text-Knowledge-Mining/SSCI-BERT)で公開されている。

The academic literature of social sciences is the literature that records human civilization and studies human social problems. With the large-scale growth of this literature, ways to quickly find existing research on relevant issues have become an urgent demand for researchers. Previous studies, such as SciBERT, have shown that pre-training using domain-specific texts can improve the performance of natural language processing tasks in those fields. However, there is no pre-trained language model for social sciences, so this paper proposes a pre-trained model on many abstracts published in the Social Science Citation Index (SSCI) journals. The models, which are available on Github (https://github.com/S-T-Full-Text-Knowledge-Mining/SSCI-BERT), show excellent performance on discipline classification and abstract structure-function recognition tasks with the social sciences literature.
翻訳日:2022-06-14 11:19:31 公開日:2022-06-11