このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220708)

# 揚力モデリングのための特徴選択法と不均一処理効果

Feature Selection Methods for Uplift Modeling and Heterogeneous Treatment Effect ( http://arxiv.org/abs/2005.03447v2 )

ライセンス: Link先を確認
Zhenyu Zhao, Yumin Zhang, Totte Harinen, Mike Yung(参考訳) uplift modelingは,サブグループレベルの治療効果を推定する因果学習手法である。 広告をターゲティングするなど、業界などで広く使われている。 典型的な設定では、アップリフトモデルは何千もの特徴を入力として取り込むことができ、コストがかかり、過度な適合やモデルの解釈容易性の低下といった問題が発生する。 そのため、モデリングにおいて最も重要な機能のサブセットを選択する必要がある。 しかし、従来の機能選択手法は、アップリフトモデルと大きく異なるターゲットを持つ標準的な機械学習モデル向けに設計されているため、タスクに適合しない。 そこで,本稿では,統計学や情報理論からインスピレーションを得た,高揚度モデリングのための特徴選択手法を提案する。 提案手法を公開データセット上で実証評価し,従来の特徴選択と比較して,提案手法の利点を実証する。 提案手法をCausalMLオープンソースパッケージの一部として公開する。

Uplift modeling is a causal learning technique that estimates subgroup-level treatment effects. It is commonly used in industry and elsewhere for tasks such as targeting ads. In a typical setting, uplift models can take thousands of features as inputs, which is costly and results in problems such as overfitting and poor model interpretability. Consequently, there is a need to select a subset of the most important features for modeling. However, traditional methods for doing feature selection are not fit for the task because they are designed for standard machine learning models whose target is importantly different from uplift models. To address this, we introduce a set of feature selection methods explicitly designed for uplift modeling, drawing inspiration from statistics and information theory. We conduct empirical evaluations on the proposed methods on publicly available datasets, demonstrating the advantages of the proposed methods compared to traditional feature selection. We make the proposed methods publicly available as a part of the CausalML open-source package.
翻訳日:2022-12-06 13:50:04 公開日:2022-07-08
# 対称性から幾何学へ:トラクタブル非凸問題

From Symmetry to Geometry: Tractable Nonconvex Problems ( http://arxiv.org/abs/2007.06753v4 )

ライセンス: Link先を確認
Yuqian Zhang, Qing Qu, and John Wright(参考訳) 科学と工学がデータ駆動型になるにつれて、最適化の役割は、信号やデータ取得からモデリングや予測に至るまで、データ分析パイプラインのほぼすべてのステージに及んでいる。 実際に遭遇する最適化問題は、しばしば非凸である。 課題は問題によって異なるが、非凸性の共通の源はデータや測定モデルにおける非線形性である。 非線形モデルはしばしば対称性を示し、複数の等価解を持つ複雑で非凸な客観的な景観を創出する。 それでも、単純な方法(例えば勾配降下)は実際は驚くほどよく機能する。 本調査の目的は, 対称性のレンズを通して理解可能な, トラクタブルな非凸問題のクラスを明らかにすることである。 これらの問題は特徴的な幾何学的構造を示し、局所的最小化子は単一の「根拠真理」解の対称コピーであり、他の臨界点は基底真理の対称コピーの平衡重ね合わせで起こり、対称性を破る方向に負の曲率を示す。 この構造は、地球規模の最小値を得る効率的な方法を可能にする。 本稿では,画像処理,信号処理,データ解析における様々な問題から生じるこの現象の例について論じる。 対象景観形成における対称性の役割を強調し,回転対称性と離散対称性の異なる役割について論じる。 この領域は観測された現象とオープンな問題に富み、今後の研究の方向性を強調して閉鎖する。

As science and engineering have become increasingly data-driven, the role of optimization has expanded to touch almost every stage of the data analysis pipeline, from signal and data acquisition to modeling and prediction. The optimization problems encountered in practice are often nonconvex. While challenges vary from problem to problem, one common source of nonconvexity is nonlinearity in the data or measurement model. Nonlinear models often exhibit symmetries, creating complicated, nonconvex objective landscapes, with multiple equivalent solutions. Nevertheless, simple methods (e.g., gradient descent) often perform surprisingly well in practice. The goal of this survey is to highlight a class of tractable nonconvex problems, which can be understood through the lens of symmetries. These problems exhibit a characteristic geometric structure: local minimizers are symmetric copies of a single "ground truth" solution, while other critical points occur at balanced superpositions of symmetric copies of the ground truth, and exhibit negative curvature in directions that break the symmetry. This structure enables efficient methods to obtain global minimizers. We discuss examples of this phenomenon arising from a wide range of problems in imaging, signal processing, and data analysis. We highlight the key role of symmetry in shaping the objective landscape and discuss the different roles of rotational and discrete symmetries. This area is rich with observed phenomena and open problems; we close by highlighting directions for future research.
翻訳日:2022-11-10 13:30:45 公開日:2022-07-08
# 単調三角形輸送写像の表現と学習について

On the representation and learning of monotone triangular transport maps ( http://arxiv.org/abs/2009.10303v2 )

ライセンス: Link先を確認
Ricardo Baptista, Youssef Marzouk, Olivier Zahm(参考訳) 測度の移動は、密度推定、ベイズ推定、生成的モデリングなど、複雑な確率分布をモデル化するための汎用的なアプローチを提供する。 単調三角輸送写像$\unicode{x2014}$approximations of the knothe$\unicode{x2013}$rosenblatt (kr) rerangement$\unicode{x2014}$はこれらのタスクの標準選択である。 しかし、そのような写像の表現とパラメータ化は、その一般性と表現性、およびデータから地図を学習する際に生じる最適化問題の性質に大きな影響を与える(例えば、最大確率推定によって)。 滑らかな関数の可逆変換を通じて単調三角写像を表現するための一般的な枠組みを提案する。 我々は,付随する無限次元最小化問題は局所的極小(すなわちすべての局所的極小が大域的極小)を持たないような変換条件を定め,一意的な大域的最小化がkr写像に対応する特定のテール条件を満たす対象分布を示す。 対象からサンプルが与えられた場合、基礎となるKRマップのスパース半パラメトリック近似を推定する適応アルゴリズムを提案する。 我々は,このフレームワークを,様々なサンプルサイズで安定な一般化性能を持つ有向グラフモデルの接合・条件密度推定,確率自由推論,構造学習にどのように適用できるかを示す。

Transportation of measure provides a versatile approach for modeling complex probability distributions, with applications in density estimation, Bayesian inference, generative modeling, and beyond. Monotone triangular transport maps$\unicode{x2014}$approximations of the Knothe$\unicode{x2013}$Rosenblatt (KR) rearrangement$\unicode{x2014}$are a canonical choice for these tasks. Yet the representation and parameterization of such maps have a significant impact on their generality and expressiveness, and on properties of the optimization problem that arises in learning a map from data (e.g., via maximum likelihood estimation). We present a general framework for representing monotone triangular maps via invertible transformations of smooth functions. We establish conditions on the transformation such that the associated infinite-dimensional minimization problem has no spurious local minima, i.e., all local minima are global minima; and we show for target distributions satisfying certain tail conditions that the unique global minimizer corresponds to the KR map. Given a sample from the target, we then propose an adaptive algorithm that estimates a sparse semi-parametric approximation of the underlying KR map. We demonstrate how this framework can be applied to joint and conditional density estimation, likelihood-free inference, and structure learning of directed graphical models, with stable generalization performance across a range of sample sizes.
翻訳日:2022-10-15 22:16:02 公開日:2022-07-08
# 世界の記述のための言語

Language for Description of Worlds ( http://arxiv.org/abs/2010.16243v4 )

ライセンス: Link先を確認
Dimiter Dobrev(参考訳) 我々は、世界を説明するための適切な言語を見つけるタスクにAIを作成するタスクを還元する。 これは、プログラム言語が計算可能な関数のみを記述するのに対して、我々の言語はより広範な関数のクラスを記述するからである。 この言語のもうひとつの特異性は、記述が別々のモジュールで構成されることである。 これにより、モジュールの後にモジュールが見つかるように、世界の記述を自動的に見つけることができます。 この新しい言語を作るための我々のアプローチは、ある特定の世界から始めて、その特定の世界の記述を書くことです。 この特定の世界を記述できる言語は、あらゆる世界を記述するのに適切である。

We will reduce the task of creating AI to the task of finding an appropriate language for description of the world. This will not be a programing language because programing languages describe only computable functions, while our language will describe a somewhat broader class of functions. Another specificity of this language will be that the description will consist of separate modules. This will enable us look for the description of the world automatically such that we discover it module after module. Our approach to the creation of this new language will be to start with a particular world and write the description of that particular world. The point is that the language which can describe this particular world will be appropriate for describing any world.
翻訳日:2022-10-03 12:07:46 公開日:2022-07-08
# 分散サドルポイント問題:低境界, 準最適, ロバストアルゴリズム

Distributed Saddle-Point Problems: Lower Bounds, Near-Optimal and Robust Algorithms ( http://arxiv.org/abs/2010.13112v8 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Valentin Samokhin, Alexander Gasnikov(参考訳) 本稿では,確率的サドル点問題の分散最適化に着目する。 論文の第1部では, 円錐凸(強固)凹点問題を円滑に(強固に)解決するための, センラル化および分散分散手法の下位境界と, それらの境界が達成される準最適アルゴリズムに焦点をあてる。 次に,分散サドル点問題(Extra Step Local SGD)に対する新たなフェデレーションアルゴリズムを提案する。 強凸強凸および非凸非凸問題に対して, 新手法の理論的解析を行った。 本稿では,本手法の有効性について実験的に述べる。 特に、GANを分散的にトレーニングします。

This paper focuses on the distributed optimization of stochastic saddle point problems. The first part of the paper is devoted to lower bounds for the cenralized and decentralized distributed methods for smooth (strongly) convex-(strongly) concave saddle-point problems as well as the near-optimal algorithms by which these bounds are achieved. Next, we present a new federated algorithm for cenralized distributed saddle point problems - Extra Step Local SGD. Theoretical analysis of the new method is carried out for strongly convex-strongly concave and non-convex-non-concave problems. In the experimental part of the paper, we show the effectiveness of our method in practice. In particular, we train GANs in a distributed manner.
翻訳日:2022-10-03 05:15:07 公開日:2022-07-08
# 授業談話におけるファネリングと焦点の計算的同定

Computationally Identifying Funneling and Focusing Questions in Classroom Discourse ( http://arxiv.org/abs/2208.04715v1 )

ライセンス: Link先を確認
Sterling Alic, Dorottya Demszky, Zid Mancenido, Jing Liu, Heather Hill, Dan Jurafsky(参考訳) レスポンシブ・ティーチングは学生の学習を促進する非常に効果的な戦略である。 数学教室では、教師は生徒を規範的な答えや「焦点」に「混乱させ、自分の思考を反映させ、数学の概念の理解を深める。 教師が焦点を合わせると、学生の貢献を総合的なセンスメイキングの資源として扱い、生徒の達成と数学への自信を著しく向上させる。 本稿では,授業談話におけるファネリングと集中型質問を計算的に検出するタスクを提案する。 私たちは、質問のファンネリングとフォーカスのためにラベル付けされた2,348の教師発話の注釈付きデータセットを作成してリリースする。 これらの疑問を識別するために,教師付きおよび教師なしのアプローチを導入する。 我々の最良のモデルは、教師付きRoBERTaモデルであり、人間の専門家ラベルと.76の強い線形相関を持ち、数学の指導品質や学生の達成率など、肯定的な教育成果を持ち、自動化された教師フィードバックツールでモデルが使える可能性を示している。 我々の教師なしの尺度は、人間のラベルや結果と有意だが弱い相関を示し、ファンネリングや集中的質問の興味深い言語的パターンを強調する。 指導的尺度の高性能化は,教師の指導を支援することの約束を示している。

Responsive teaching is a highly effective strategy that promotes student learning. In math classrooms, teachers might "funnel" students towards a normative answer or "focus" students to reflect on their own thinking, deepening their understanding of math concepts. When teachers focus, they treat students' contributions as resources for collective sensemaking, and thereby significantly improve students' achievement and confidence in mathematics. We propose the task of computationally detecting funneling and focusing questions in classroom discourse. We do so by creating and releasing an annotated dataset of 2,348 teacher utterances labeled for funneling and focusing questions, or neither. We introduce supervised and unsupervised approaches to differentiating these questions. Our best model, a supervised RoBERTa model fine-tuned on our dataset, has a strong linear correlation of .76 with human expert labels and with positive educational outcomes, including math instruction quality and student achievement, showing the model's potential for use in automated teacher feedback tools. Our unsupervised measures show significant but weaker correlations with human labels and outcomes, and they highlight interesting linguistic patterns of funneling and focusing questions. The high performance of the supervised measure indicates its promise for supporting teachers in their instruction.
翻訳日:2022-08-14 18:23:15 公開日:2022-07-08
# ルーティングネットワークにおける遅延推定のためのオープンワールドラーニンググラフ畳み込み

Open World Learning Graph Convolution for Latency Estimation in Routing Networks ( http://arxiv.org/abs/2207.14643v1 )

ライセンス: Link先を確認
Yifei Jin, Marios Daoutis, Sarunas Girdzijauskas, Aristides Gionis(参考訳) 正確なルーティングネットワーク状態推定は、ソフトウェア定義ネットワークの重要なコンポーネントである。 しかし、ネットワークルーティングをモデル化する既存のディープラーニングベースの手法では、見えない特徴分布への外挿ができない。 オープンワールド入力を含むテストセットでは、スケールされたネットワーク属性やドリフトされたネットワーク属性も処理できない。 これらの課題に対処するために,グラフニューラルネットワークを用いたネットワークルーティングのモデリング手法を提案する。 提案手法は,ネットワーク遅延推定にも利用できる。 ドメイン知識支援グラフの定式化によってサポートされるこのモデルは、ルーティングネットワークの異なるネットワークサイズと構成にまたがる安定した性能を共有すると同時に、未認識のサイズ、構成、ユーザの振る舞いを推定することができる。 予測精度,計算資源,推論速度,およびオープンワールド入力への一般化能力の観点から,本モデルが従来のディープラーニングモデルよりも優れていることを示す。

Accurate routing network status estimation is a key component in Software Defined Networking. However, existing deep-learning-based methods for modeling network routing are not able to extrapolate towards unseen feature distributions. Nor are they able to handle scaled and drifted network attributes in test sets that include open-world inputs. To deal with these challenges, we propose a novel approach for modeling network routing, using Graph Neural Networks. Our method can also be used for network-latency estimation. Supported by a domain-knowledge-assisted graph formulation, our model shares a stable performance across different network sizes and configurations of routing networks, while at the same time being able to extrapolate towards unseen sizes, configurations, and user behavior. We show that our model outperforms most conventional deep-learning-based models, in terms of prediction accuracy, computational resources, inference speed, as well as ability to generalize towards open-world input.
翻訳日:2022-08-07 14:38:28 公開日:2022-07-08
# Twitmo: RのためのTwitterデータトピックモデリングと可視化パッケージ

Twitmo: A Twitter Data Topic Modeling and Visualization Package for R ( http://arxiv.org/abs/2207.11236v1 )

ライセンス: Link先を確認
Andreas Buchm\"uller, Gillian Kant, Christoph Weisser, Benjamin S\"afken, Krisztina Kis-Katos, Thomas Kneib(参考訳) 地理タグ付きtwitterデータの収集,事前処理,解析,可視化を行う,幅広い方法を提供するパッケージであるtwitmoを提案する。 TwitmoはTwitterからジオタグ付きつぶやきを収集し、Latent Dirichlet Allocations(LDA)、相関トピックモデル(CTM)、構造トピックモデル(STM)からトピック配信を生成する包括的でユーザフレンドリなツールボックスを提供する。 関数は、テキストの事前処理、モデルの構築、予測に含まれます。 さらに、このパッケージのイノベーションの1つは、ハッシュタグとコサインの類似性を使ってツイートを長い擬似文書に自動プールすることで、トピックコヒーレンスを改善することだ。 さらにこのパッケージには、収集したデータセットと適合したモデルを静的かつインタラクティブな方法で視覚化する機能と、LDAvis経由でモデル視覚化をビルトインでサポートする機能が含まれており、この分野の研究者にとって非常に便利だ。 Twitmoパッケージは革新的なツールボックスで、様々なトピック、政党、あるいは空間と時間に関心のある人々の公開談話を分析するのに使用できる。

We present Twitmo, a package that provides a broad range of methods to collect, pre-process, analyze and visualize geo-tagged Twitter data. Twitmo enables the user to collect geo-tagged Tweets from Twitter and and provides a comprehensive and user-friendly toolbox to generate topic distributions from Latent Dirichlet Allocations (LDA), correlated topic models (CTM) and structural topic models (STM). Functions are included for pre-processing of text, model building and prediction. In addition, one of the innovations of the package is the automatic pooling of Tweets into longer pseudo-documents using hashtags and cosine similarities for better topic coherence. The package additionally comes with functionality to visualize collected data sets and fitted models in static as well as interactive ways and offers built-in support for model visualizations via LDAvis providing great convenience for researchers in this area. The Twitmo package is an innovative toolbox that can be used to analyze public discourse of various topics, political parties or persons of interest in space and time.
翻訳日:2022-07-31 14:39:43 公開日:2022-07-08
# 近傍情報を用いた自己学習によるテスト時間適応

Test-Time Adaptation via Self-Training with Nearest Neighbor Information ( http://arxiv.org/abs/2207.10792v1 )

ライセンス: Link先を確認
Minguk Jang, Sae-Young Chung(参考訳) オンラインテストデータのみを使用してトレーニングされた分類器を適用することは、テスト期間中にトレーニングデータや将来のテストデータにアクセスすることが難しいため重要である。 テスト時間適応の一般的なアプローチの1つは自己学習であり、テストデータの分類器予測を擬似ラベルとして、訓練された分類器を微調整する。 しかし、テスト時間領域シフトでは、不正確な擬似ラベルを用いた学習が適応型分類器の性能を大幅に低下させるという制限がある。 そこで本研究では,最近傍情報(tast)を用いた自己学習によるテスト時間適応手法を提案する。 トレーニングされた分類器の埋め込み空間におけるテストデータとその近傍の隣人は、同じラベルを持つ可能性が高いという考え方に基づいて、トレーニングされた分類器を、(1)先行したテストデータからなる集合から、その隣人を用いてテストデータの擬似ラベルを生成し、(2)訓練された分類器を擬似ラベルで微調整する。 ドメイン一般化と画像汚濁ベンチマークの2つの標準ベンチマーク実験により、TASTが現在の最先端テスト時間適応法より優れていることが示された。

Adapting trained classifiers using only online test data is important since it is difficult to access training data or future test data during test time. One of the popular approaches for test-time adaptation is self-training, which fine-tunes the trained classifiers using the classifier predictions of the test data as pseudo labels. However, under the test-time domain shift, self-training methods have a limitation that learning with inaccurate pseudo labels greatly degrades the performance of the adapted classifiers. To overcome this limitation, we propose a novel test-time adaptation method Test-time Adaptation via Self-Training with nearest neighbor information (TAST). Based on the idea that a test data and its nearest neighbors in the embedding space of the trained classifier are more likely to have the same label, we adapt the trained classifier with the following two steps: (1) generate the pseudo label for the test data using its nearest neighbors from a set composed of previous test data, and (2) fine-tune the trained classifier with the pseudo label. Our experiments on two standard benchmarks, i.e., domain generalization and image corruption benchmarks, show that TAST outperforms the current state-of-the-art test-time adaptation methods.
翻訳日:2022-07-31 14:39:09 公開日:2022-07-08
# 遺伝的イメージングのためのニューラルネットワーク分類器を用いた神経画像特徴抽出

Neuroimaging Feature Extraction using a Neural Network Classifier for Imaging Genetics ( http://arxiv.org/abs/2207.10794v1 )

ライセンス: Link先を確認
C\'edric Beaulac, Sidi Wu, Erin Gibson, Michelle F. Miranda, Jiguo Cao, Leno Rocha, Mirza Faisal Beg, Farouk S. Nathoo(参考訳) 遺伝子とニューロイメージング表現型との関連における大きな問題は、遺伝データとニューロイメージングデータの双方の高次元である。 本稿では,疾患予測に関連するソリューションの開発に目を向けて,後者の問題に取り組む。 提案手法は,ニューラルネットワークの予測能力に関する膨大な文献に支持され,アルツハイマー病(ad)の予測に関連する神経画像データの特徴を抽出し,その後の遺伝学との関係を明らかにする。 我々の神経画像生成パイプラインは、画像処理、神経画像特徴抽出、遺伝的関連ステップから構成されている。 本稿では, 疾患に関連する神経画像の特徴を抽出するニューラルネットワーク分類器と, 多変量ベイズ群スパース回帰モデルを提案する。 我々は,これらの特徴の予測力と専門家が選択した特徴とを比較し,ニューロイメージングの特徴で同定されたSNPについてより詳しく検討する。

A major issue in the association of genes to neuroimaging phenotypes is the high dimension of both genetic data and neuroimaging data. In this article, we tackle the latter problem with an eye toward developing solutions that are relevant for disease prediction. Supported by a vast literature on the predictive power of neural networks, our proposed solution uses neural networks to extract from neuroimaging data features that are relevant for predicting Alzheimer's Disease (AD) for subsequent relation to genetics. Our neuroimaging-genetic pipeline is comprised of image processing, neuroimaging feature extraction and genetic association steps. We propose a neural network classifier for extracting neuroimaging features that are related with disease and a multivariate Bayesian group sparse regression model for genetic association. We compare the predictive power of these features to expert selected features and take a closer look at the SNPs identified with the new neuroimaging features.
翻訳日:2022-07-31 14:37:07 公開日:2022-07-08
# 社会的データの感情検出 : APIの比較研究

Emotion detection of social data: APIs comparative study ( http://arxiv.org/abs/2207.10654v1 )

ライセンス: Link先を確認
Bilal Abu-Salih, Mohammad Alhabashneh, Dengya Zhu, Albara Awajan, Yazan Alshamaileh, Bashar Al-Shboul, Mohammad Alshraideh(参考訳) 感情検出技術の発展は、この新しい分野のほとんど無限の用途、特に社会データの拡散の進展により、企業セクターにとって非常に価値の高い可能性として現れてきた。 近年、電子マーケットプレイスは、感情の検出と認識のための新しい商用およびオープンソースツールとapiの開発にほとんど焦点を絞った、多くのスタートアップビジネスの設立を目撃している。 しかし、これらのツールとAPIは継続的にレビューされ、評価されなければならない。 同じテキストデータセットを用いて各モデルから得られた結果から,現在の感情検出技術を実証的に比較する研究は乏しい。 また、ベンチマーク比較を社会データに適用する比較研究が不足している。 本研究は,IBM Watson NLU, ParallelDots, Symanto-Ekman, Crystalfeel, Text to Emotion, Senpy, Textprobe, NLP Cloudの8つの技術を比較した。 比較は2つの異なるデータセットを用いて行った。 選択したデータセットからの感情は、組み込みAPIを使用して導出される。 これらのAPIのパフォーマンスは、彼らが提供した集計スコアと、精度のマイクロ平均、分類誤差、精度、リコール、f1スコアなどの理論的に証明された評価指標を用いて評価された。 最後に,これらの評価手法を取り入れたAPIの評価について報告する。

The development of emotion detection technology has emerged as a highly valuable possibility in the corporate sector due to the nearly limitless uses of this new discipline, particularly with the unceasing propagation of social data. In recent years, the electronic marketplace has witnessed the establishment of a large number of start-up businesses with an almost sole focus on building new commercial and open-source tools and APIs for emotion detection and recognition. Yet, these tools and APIs must be continuously reviewed and evaluated, and their performances should be reported and discussed. There is a lack of research to empirically compare current emotion detection technologies in terms of the results obtained from each model using the same textual dataset. Also, there is a lack of comparative studies that apply benchmark comparison to social data. This study compares eight technologies; IBM Watson NLU, ParallelDots, Symanto-Ekman, Crystalfeel, Text to Emotion, Senpy, Textprobe, and NLP Cloud. The comparison was undertaken using two different datasets. The emotions from the chosen datasets were then derived using the incorporated APIs. The performance of these APIs was assessed using the aggregated scores that they delivered as well as the theoretically proven evaluation metrics such as the micro-average of accuracy, classification error, precision, recall, and f1-score. Lastly, the assessment of these APIs incorporating the evaluation measures is reported and discussed.
翻訳日:2022-07-24 11:45:20 公開日:2022-07-08
# リカレントモデルに対するオンライン回避攻撃:未来への幻覚の力

Online Evasion Attacks on Recurrent Models:The Power of Hallucinating the Future ( http://arxiv.org/abs/2207.09912v1 )

ライセンス: Link先を確認
Byunggill Joe, Insik Shin and Jihun Hamm(参考訳) リカレントモデルは、自律運転などのオンラインタスクで頻繁に使用され、その脆弱性に関する包括的な研究が求められている。 既存の研究は、アプリケーション固有の脆弱性に対処するか、将来の入力の知識のような意味のない仮定をするだけに限られている。 本稿では,オフラインタスクとは異なるオンライン設定のユニークな制約を組み込んだオンラインタスクの汎用攻撃フレームワークを提案する。 我々のフレームワークは、時間変化の相反する目標と様々な最適化制約をカバーし、堅牢性に関する包括的な研究を可能にする。 また,このフレームワークを用いて,未来を「幻覚」する予測攻撃という,新しいホワイトボックス攻撃を提示する。 この攻撃は、理想的だが実行不可能な透視的攻撃の98%を平均で達成する。 提案手法の有効性を検証するため,様々な実験を行った。

Recurrent models are frequently being used in online tasks such as autonomous driving, and a comprehensive study of their vulnerability is called for. Existing research is limited in generality only addressing application-specific vulnerability or making implausible assumptions such as the knowledge of future input. In this paper, we present a general attack framework for online tasks incorporating the unique constraints of the online setting different from offline tasks. Our framework is versatile in that it covers time-varying adversarial objectives and various optimization constraints, allowing for a comprehensive study of robustness. Using the framework, we also present a novel white-box attack called Predictive Attack that `hallucinates' the future. The attack achieves 98 percent of the performance of the ideal but infeasible clairvoyant attack on average. We validate the effectiveness of the proposed framework and attacks through various experiments.
翻訳日:2022-07-24 11:44:57 公開日:2022-07-08
# サイン付きネットワーク埋め込みとコミュニティと異常の同時検出への応用

Signed Network Embedding with Application to Simultaneous Detection of Communities and Anomalies ( http://arxiv.org/abs/2207.09324v1 )

ライセンス: Link先を確認
Haoran Zhang and Junhui Wang(参考訳) 署名されたネットワークは、各エッジに関連するサイン情報を追加して実生活でしばしば観測されるが、既存のネットワークモデルでは無視されている。 本稿では,コミュニティ検出,異常検出,ネットワーク推論など,下流分析の大幅な効率化を図るため,ネットワーク間のバランス構造と異常効果を両立させる統合型埋め込みモデルを提案する。 提案モデルでは, 正規化定式化により共同で推定される低ランク+スパース行列分解により, バランス構造と異常効果の両方を捕捉する。 その理論的保証は、ネットワーク埋め込み、コミュニティ検出、異常検出のための漸近一貫性と有限サンプル確率境界の観点から確立されている。 また, 組込みモデルの利点は, 合成ネットワークと国際関係ネットワークの両方に関する広範な数値実験によっても証明できる。

Signed networks are frequently observed in real life with additional sign information associated with each edge, yet such information has been largely ignored in existing network models. This paper develops a unified embedding model for signed networks to disentangle the intertwined balance structure and anomaly effect, which can greatly facilitate the downstream analysis, including community detection, anomaly detection, and network inference. The proposed model captures both balance structure and anomaly effect through a low rank plus sparse matrix decomposition, which are jointly estimated via a regularized formulation. Its theoretical guarantees are established in terms of asymptotic consistency and finite-sample probability bounds for network embedding, community detection and anomaly detection. The advantage of the proposed embedding model is also demonstrated through extensive numerical experiments on both synthetic networks and an international relation network.
翻訳日:2022-07-24 11:44:44 公開日:2022-07-08
# (参考訳) 光速支配遅延を用いた周波数符号化深層学習

Frequency-Encoded Deep Learning with Speed-of-Light Dominated Latency ( http://arxiv.org/abs/2207.06883v1 )

ライセンス: CC BY 4.0
Ronald Davis III, Zaijun Chen, Ryan Hamerly, and Dirk Englund(参考訳) ディープニューラルネットワークが手作業によるソリューションよりも複雑なタスクを正確に実行する能力は、大量のデータを処理するより複雑なモデルにかなりの需要をもたらしている。 しかし、従来のコンピューティングアーキテクチャは、メモリからコンピューティングへのデータ移動による処理性能のボトルネックに達している。 オプティカルニューラルネットワーク(ONN)を含む、カスタムハードウェアアクセラレーションに向けた重要な取り組みが実施された。 これらはエネルギー効率のよい線形演算に優れているが、拡張性と線形関数と非線形関数の統合に苦しむ。 本稿では、周波数領域内のデータを符号化し、単一光電乗法を用いて単一ショットで行列ベクトル生成物を計算し、単一電気光学変調器を用いて全ニューロンの非線形活性化を実装する乗法アナログ周波数変換光ニューラルネットワーク(maft-onn)を提案する。 商用コンポーネントを組み込んだ単純なハードウェア構成を用いて,アーキテクチャを用いた3層DNNを実験的に実証した。 さらに、これは音声や無線信号のような時間波形のアナログ推論に適した最初のDNNハードウェアアクセラレータであり、帯域幅制限スループットと光速制限レイテンシを実現している。 本結果は,時間波形の高速アナログ深層学習を実現することに加えて,現在の計算ボトルネックを克服するための直接的な経路を持つ,スケーラブルなONNを示す。

The ability of deep neural networks to perform complex tasks more accurately than manually-crafted solutions has created a substantial demand for more complex models processing larger amounts of data. However, the traditional computing architecture has reached a bottleneck in processing performance due to data movement from memory to computing. Considerable efforts have been made towards custom hardware acceleration, among which are optical neural networks (ONNs). These excel at energy efficient linear operations but struggle with scalability and the integration of linear and nonlinear functions. Here, we introduce our multiplicative analog frequency transform optical neural network (MAFT-ONN) that encodes the data in the frequency domain to compute matrix-vector products in a single-shot using a single photoelectric multiplication, and then implements the nonlinear activation for all neurons using a single electro-optic modulator. We experimentally demonstrate a 3-layer DNN with our architecture using a simple hardware setup assembled with commercial components. Additionally, this is the first DNN hardware accelerator suitable for analog inference of temporal waveforms like voice or radio signals, achieving bandwidth-limited throughput and speed-of-light limited latency. Our results demonstrate a highly scalable ONN with a straightforward path to surpassing the current computing bottleneck, in addition to enabling new possibilities for high-performance analog deep learning of temporal waveforms.
翻訳日:2022-07-17 17:01:24 公開日:2022-07-08
# (参考訳) 物理インフォームドニューラル演算子

Physics-Informed Neural Operators ( http://arxiv.org/abs/2207.05748v1 )

ライセンス: CC BY 4.0
Somdatta Goswami, Aniruddha Bora, Yue Yu, and George Em Karniadakis(参考訳) 標準ニューラルネットワークは一般的な非線形作用素を近似することができ、例えば、アドベクション・ディフフュージョン・リアクション偏微分方程式(advection-diffusion-reaction partial differential equation)や、単にブラックボックス、例えばシステム・オブ・システム(system-of-systems)として明示的に表現することができる。 最初の神経オペレータは、厳密な近似理論に基づいて2019年に提案されたDeepオペレータネットワーク(DeepONet)である。 それ以来、グラフニューラルネットワークやフーリエ変換に基づいて、いくつかのより一般的な演算子が公開された。 ブラックボックスシステムでは、ニューラル演算子のトレーニングはデータ駆動であるが、支配方程式が分かっていれば、物理インフォームド・ニューラル演算子のトレーニング中に損失関数に組み込むことができる。 ニューラル演算子は、設計問題、不確実性定量化、自律システム、およびほぼリアルタイム推論を必要とするアプリケーションにおいて、サロゲートとして使用できる。 さらに、独立に訓練されたDeepONetsは、比較的軽い訓練と組み合わせることで、複雑な多物理系の構成要素として使用できる。 本稿では,deeponet,フーリエニューラル演算子,グラフニューラル演算子のレビューと,機能拡張を用いた適切な拡張について述べるとともに,多孔質媒質,流体力学,固体力学など,計算力学におけるその有用性について述べる。

Standard neural networks can approximate general nonlinear operators, represented either explicitly by a combination of mathematical operators, e.g., in an advection-diffusion-reaction partial differential equation, or simply as a black box, e.g., a system-of-systems. The first neural operator was the Deep Operator Network (DeepONet), proposed in 2019 based on rigorous approximation theory. Since then, a few other less general operators have been published, e.g., based on graph neural networks or Fourier transforms. For black box systems, training of neural operators is data-driven only but if the governing equations are known they can be incorporated into the loss function during training to develop physics-informed neural operators. Neural operators can be used as surrogates in design problems, uncertainty quantification, autonomous systems, and almost in any application requiring real-time inference. Moreover, independently pre-trained DeepONets can be used as components of a complex multi-physics system by coupling them together with relatively light training. Here, we present a review of DeepONet, the Fourier neural operator, and the graph neural operator, as well as appropriate extensions with feature expansions, and highlight their usefulness in diverse applications in computational mechanics, including porous media, fluid mechanics, and solid mechanics.
翻訳日:2022-07-17 16:18:52 公開日:2022-07-08
# AIによるウィキペディアの検証性向上

Improving Wikipedia Verifiability with AI ( http://arxiv.org/abs/2207.06220v1 )

ライセンス: Link先を確認
Fabio Petroni, Samuel Broscheit, Aleksandra Piktus, Patrick Lewis, Gautier Izacard, Lucas Hosseini, Jane Dwivedi-Yu, Maria Lomeli, Timo Schick, Pierre-Emmanuel Mazar\'e, Armand Joulin, Edouard Grave, Sebastian Riedel(参考訳) 検証可能性(Verifiability)はWikipediaの中核的なコンテンツポリシーである。 オンラインには何百万もの記事があり、毎月何千もの新しい記事がリリースされている。 そのため、関連するソースを見つけることは難しい作業である。多くのクレームはそれらをサポートする参照を持っていない。 さらに、既存の引用でさえ、元のソースが更新されたり削除されたりすると、特定のクレームをサポートできなくなるかもしれない。 したがって、ウィキペディアの参照の質の維持と改善は重要な課題であり、この取り組みにおいて人間を支援するためのより良いツールが必要である。 ここでは、人工知能(AI)の助けを借りて、参照を改善するプロセスに取り組むことができることを示す。 私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別し、Webからより良い引用を推奨します。 私たちは、このモデルを既存のwikipediaリファレンスでトレーニングし、数千人のウィキペディア編集者の貢献と知識から学びます。 クラウドソーシング(crowd-sourcing, クラウドソーシング, クラウドソーシング)を用いて, 最上位10%の引用が我々のシステムによって検証できないとタグ付けされる場合, 人間は我々のシステムの提案する代替手段を好む。 システムの適用性を検証するために、我々は英語圏のウィキペディアコミュニティと関わり、Sideの最初の引用レコメンデーションが既存のウィキペディアの引用よりも60%以上の好ましくないクレームを収集するデモを構築した。 以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。 より一般的には、私たちの仕事が事実チェックの取り組みを支援し、オンラインでの情報の信頼性を高めるのに役立つことを願っています。

Verifiability is a core content policy of Wikipedia: claims that are likely to be challenged need to be backed by citations. There are millions of articles available online and thousands of new articles are released each month. For this reason, finding relevant sources is a difficult task: many claims do not have any references that support them. Furthermore, even existing citations might not support a given claim or become obsolete once the original source is updated or deleted. Hence, maintaining and improving the quality of Wikipedia references is an important challenge and there is a pressing need for better tools to assist humans in this effort. Here, we show that the process of improving references can be tackled with the help of artificial intelligence (AI). We develop a neural network based system, called Side, to identify Wikipedia citations that are unlikely to support their claims, and subsequently recommend better ones from the web. We train this model on existing Wikipedia references, therefore learning from the contributions and combined wisdom of thousands of Wikipedia editors. Using crowd-sourcing, we observe that for the top 10% most likely citations to be tagged as unverifiable by our system, humans prefer our system's suggested alternatives compared to the originally cited reference 70% of the time. To validate the applicability of our system, we built a demo to engage with the English-speaking Wikipedia community and find that Side's first citation recommendation collects over 60% more preferences than existing Wikipedia citations for the same top 10% most likely unverifiable claims according to Side. Our results indicate that an AI-based system could be used, in tandem with humans, to improve the verifiability of Wikipedia. More generally, we hope that our work can be used to assist fact checking efforts and increase the general trustworthiness of information online.
翻訳日:2022-07-17 16:03:12 公開日:2022-07-08
# (参考訳) 補強学習を用いた地下貯水池の確率的最適井戸制御

Stochastic optimal well control in subsurface reservoirs using reinforcement learning ( http://arxiv.org/abs/2207.03456v2 )

ライセンス: CC BY 4.0
Atish Dixit, Ahmed H. ElSheikh(参考訳) 本稿では,事前定義されたパラメータ不確実性分布と部分観測可能なシステムの確率的最適制御を解決するためのモデルフリー強化学習(rl)フレームワークのケーススタディについて述べる。 地下貯留層管理分野における集中的研究活動の課題であるロバスト最適ウェルコントロール問題に焦点を当てた。 この問題に対して、データは井戸でのみ利用可能なため、システムは部分的に観測される。 さらに、利用可能なフィールドデータのスパース性のため、モデルパラメータは非常に不確かである。 原則として、RLアルゴリズムは、状態から行動へのマップである最適なアクションポリシーを学習し、数値的な報酬信号を最大化することができる。 deep rlでは、状態から動作へのこのマッピングはディープニューラルネットワークを使用してパラメータ化される。 ロバスト最適井戸制御問題のrl定式化では、状態は飽和度と井戸内の圧力値で表され、作用は井戸を通る流れを制御するバルブ開口を表す。 数値的な報酬は全掃討効率を示し、不確定なモデルパラメータは地下透水性場である。 モデルパラメータの不確実性は、不確実性分布のクラスター分析を利用するドメインランダム化スキームを導入することで処理される。 透水性場の2つの異なる不確かさ分布を表す2つの地下流れ実験事例について,最先端rlアルゴリズムであるppo(proximal policy optimization)とa2c( advantage actor-critic)を用いて数値計算を行った。 その結果,微分進化アルゴリズムを用いて最適化結果と比較した。 さらに,学習中に使用しなかったパラメータの不確かさ分布から得られた未発見サンプルの学習制御ポリシーを評価することにより,提案手法の頑健性を示す。

We present a case study of model-free reinforcement learning (RL) framework to solve stochastic optimal control for a predefined parameter uncertainty distribution and partially observable system. We focus on robust optimal well control problem which is a subject of intensive research activities in the field of subsurface reservoir management. For this problem, the system is partially observed since the data is only available at well locations. Furthermore, the model parameters are highly uncertain due to sparsity of available field data. In principle, RL algorithms are capable of learning optimal action policies -- a map from states to actions -- to maximize a numerical reward signal. In deep RL, this mapping from state to action is parameterized using a deep neural network. In the RL formulation of the robust optimal well control problem, the states are represented by saturation and pressure values at well locations while the actions represent the valve openings controlling the flow through wells. The numerical reward refers to the total sweep efficiency and the uncertain model parameter is the subsurface permeability field. The model parameter uncertainties are handled by introducing a domain randomisation scheme that exploits cluster analysis on its uncertainty distribution. We present numerical results using two state-of-the-art RL algorithms, proximal policy optimization (PPO) and advantage actor-critic (A2C), on two subsurface flow test cases representing two distinct uncertainty distributions of permeability field. The results were benchmarked against optimisation results obtained using differential evolution algorithm. Furthermore, we demonstrate the robustness of the proposed use of RL by evaluating the learned control policy on unseen samples drawn from the parameter uncertainty distribution that were not used during the training process.
翻訳日:2022-07-16 10:19:37 公開日:2022-07-08
# (参考訳) Otsuアルゴリズムに基づく伐採木評価支援ベクトルモデル

A Support Vector Model of Pruning Trees Evaluation Based on OTSU Algorithm ( http://arxiv.org/abs/2207.03638v1 )

ライセンス: CC BY 4.0
Yuefei Chen, Xinli Zheng, Chunhua Ju and Fuguang Bao(参考訳) 樹木の伐採プロセスは,果実の光合成効率や枝内の栄養輸送に影響を及ぼすため,果実の成長促進と生産改善の鍵となる。 現在、刈り取りは人間の労働に大きく依存している。 作業者の経験は、木の刈り取りの性能のロバスト性に大きく影響します。 このように、労働者や農民が刈り上げ性能を評価することは困難である。 そこで本研究では,枝と葉の影に基づく刈り出し性能を評価するため,新しい刈り出し分類戦略モデル"Otsu-SVM"を提案する。 このモデルは、利用可能な樹木の照度領域だけでなく、樹木の照度領域の均一性も考慮している。 さらに,本研究グループでは,Otsuアルゴリズムをモデルに実装し,モデル評価の堅牢性を大幅に強化する。 また, 実験では, 広州, ユハン地区のナシの木からのデータも用いられる。 本実験では,オツ-svmの精度が80%,高い性能を示し,ナシの刈り取り性能の評価を行った。 果樹園に適用すれば、よりうまく刈り取ることができる。 プルーニングの成功は、個々の果実の照明領域を広げ、標的枝からの栄養輸送を増加させ、果実の重量と生産を劇的に高めることができる。

The tree pruning process is the key to promoting fruits' growth and improving their productions due to effects on the photosynthesis efficiency of fruits and nutrition transportation in branches. Currently, pruning is still highly dependent on human labor. The workers' experience will strongly affect the robustness of the performance of the tree pruning. Thus, it is a challenge for workers and farmers to evaluate the pruning performance. Intended for a better solution to the problem, this paper presents a novel pruning classification strategy model called "OTSU-SVM" to evaluate the pruning performance based on the shadows of branches and leaves. This model considers not only the available illuminated area of the tree but also the uniformity of the illuminated area of the tree. More importantly, our group implements OTSU algorithm into the model, which highly reinforces robustness of the evaluation of this model. In addition, the data from the pear trees in the Yuhang District, Hangzhou is also used in the experiment. In this experiment, we prove that the OTSU-SVM has good accuracy with 80% and high performance in the evaluation of the pruning for the pear trees. It can provide more successful pruning if applied into the orchard. A successful pruning can broaden the illuminated area of individual fruit, and increase nutrition transportation from the target branch, dramatically elevating the weights and production of the fruits.
翻訳日:2022-07-14 11:19:00 公開日:2022-07-08
# (参考訳) 早期排他ネットワークの運営

Pruning Early Exit Networks ( http://arxiv.org/abs/2207.03644v1 )

ライセンス: CC BY 4.0
Alperen G\"ormez, Erdem Koyuncu(参考訳) よく機能するディープラーニングモデルは、しばしば計算コストが高い。 本稿では,モデル性能を高く保ちながら計算コストを削減しようとする2つのアプローチを組み合わせる。 1) ネットワーク全体を一度にプルーニングすること,(2) ベースネットワークをプルーニングすること,および線形分類器を順序付きで追加すること,の2つのアプローチを評価する。 実験の結果、ネットワーク全体を一度に刈り取る方がより優れた戦略であることが判明した。 しかし、高い精度でこの2つのアプローチは類似の性能を有しており、プラニングと早期出口のプロセスは最適性を損なうことなく分離することができる。

Deep learning models that perform well often have high computational costs. In this paper, we combine two approaches that try to reduce the computational cost while keeping the model performance high: pruning and early exit networks. We evaluate two approaches of pruning early exit networks: (1) pruning the entire network at once, (2) pruning the base network and additional linear classifiers in an ordered fashion. Experimental results show that pruning the entire network at once is a better strategy in general. However, at high accuracy rates, the two approaches have a similar performance, which implies that the processes of pruning and early exit can be separated without loss of optimality.
翻訳日:2022-07-14 11:07:27 公開日:2022-07-08
# (参考訳) 2つの政党の私的独立試験

Private independence testing across two parties ( http://arxiv.org/abs/2207.03652v1 )

ライセンス: CC BY 4.0
Praneeth Vepakomma, Mohammad Mohammadi Amiri, Cl\'ement L. Canonne, Ramesh Raskar, Alex Pentland(参考訳) 我々は,複数のパーティに分散したデータ間の統計的独立性をテストするプライバシ保存アルゴリズムである$\pi$-testを導入する。 我々のアルゴリズムは、Sz\ekely et alで導入された独立性の定量的尺度であるデータセット間の距離相関をプライベートに推定することに依存している。 [2007]. 我々は,機密データを含む様々な分散仮説テスト環境で応用されるであろう,微分プライベートテストの有用性について,加法と乗法の両方の誤差境界を定めている。

We introduce $\pi$-test, a privacy-preserving algorithm for testing statistical independence between data distributed across multiple parties. Our algorithm relies on privately estimating the distance correlation between datasets, a quantitative measure of independence introduced in Sz\'ekely et al. [2007]. We establish both additive and multiplicative error bounds on the utility of our differentially private test, which we believe will find applications in a variety of distributed hypothesis testing settings involving sensitive data.
翻訳日:2022-07-14 11:03:17 公開日:2022-07-08
# (参考訳) 集約グラフニューラルネットワークの安定性

Stability of Aggregation Graph Neural Networks ( http://arxiv.org/abs/2207.03678v1 )

ライセンス: CC BY 4.0
Alejandro Parada-Mayorga, Zhiyang Wang, Fernando Gama, and Alejandro Ribeiro(参考訳) 本稿では,グラフの摂動を考慮したアグリゲーショングラフニューラルネットワーク(Agg-GNN)の安定性について検討する。 Agg-GNNは、グラフのノード上で情報が定義されるハイブリッドアーキテクチャであるが、グラフシフト演算子上で数回拡散した後、ノード上でユークリッドCNNによってブロックワイズに処理される。 我々は、一般的なAgg-GNNに付随する写像作用素の安定性境界を導出し、そのような作用素が変形に対して安定な条件を指定する。 我々は、各ノードに作用するcnnの第1層におけるフィルタの特性によって、安定性境界が定義されることを証明した。 さらに,アグリゲーション数,フィルタの選択率,安定性定数の大きさとの間には密接な関係があることを示した。 また、agg-gnnsでは、マッピング演算子の選択性は、cnnステージの第1層でのみフィルタの特性に結びついていると結論づける。 これは、すべての層におけるフィルタの選択性がその安定性によって制約される選択GNNの安定性特性に対して、かなりの差を示す。 本稿では,Agg-GNNの動作を,異なる大きさの摂動を考慮した実生活応用シナリオで検証する。

In this paper we study the stability properties of aggregation graph neural networks (Agg-GNNs) considering perturbations of the underlying graph. An Agg-GNN is a hybrid architecture where information is defined on the nodes of a graph, but it is processed block-wise by Euclidean CNNs on the nodes after several diffusions on the graph shift operator. We derive stability bounds for the mapping operator associated to a generic Agg-GNN, and we specify conditions under which such operators can be stable to deformations. We prove that the stability bounds are defined by the properties of the filters in the first layer of the CNN that acts on each node. Additionally, we show that there is a close relationship between the number of aggregations, the filter's selectivity, and the size of the stability constants. We also conclude that in Agg-GNNs the selectivity of the mapping operators is tied to the properties of the filters only in the first layer of the CNN stage. This shows a substantial difference with respect to the stability properties of selection GNNs, where the selectivity of the filters in all layers is constrained by their stability. We provide numerical evidence corroborating the results derived, testing the behavior of Agg-GNNs in real life application scenarios considering perturbations of different magnitude.
翻訳日:2022-07-14 10:42:38 公開日:2022-07-08
# (参考訳) BARTによる慣用列車の乗り心地:慣用表現の表現を学ぶ

Getting BART to Ride the Idiomatic Train: Learning to Represent Idiomatic Expressions ( http://arxiv.org/abs/2207.03679v1 )

ライセンス: CC BY 4.0
Ziheng Zeng and Suma Bhat(参考訳) 非合成性によって特徴づけられる慣用表現(IE)は、自然言語の重要な部分である。 それらは、今日の最先端を駆動する事前訓練された言語モデルを含む、NLPに対する古典的な挑戦である。 以前の研究は、基礎となる構成的表現パラダイムから生じる文脈化された表現の欠陥を特定してきた。 本研究では, 慣用文を訓練した軽量な非構成言語エキスパートとしてアダプタを用いて, BARTに慣用性を構築するための第一原理的アプローチを採る。 ベースラインよりも改善された能力(例えばBART)は、内在的および外在的手法によって見られ、イディオムの埋め込みはクラスタリングの均質性スコアにおいて0.19点高く、IE 感覚の曖昧さとスパン検出のイディオム処理タスクにおいて最大25%高いシーケンス精度を示す。

Idiomatic expressions (IEs), characterized by their non-compositionality, are an important part of natural language. They have been a classical challenge to NLP, including pre-trained language models that drive today's state-of-the-art. Prior work has identified deficiencies in their contextualized representation stemming from the underlying compositional paradigm of representation. In this work, we take a first-principles approach to build idiomaticity into BART using an adapter as a lightweight non-compositional language expert trained on idiomatic sentences. The improved capability over baselines (e.g., BART) is seen via intrinsic and extrinsic methods, where idiom embeddings score 0.19 points higher in homogeneity score for embedding clustering, and up to 25% higher sequence accuracy on the idiom processing tasks of IE sense disambiguation and span detection.
翻訳日:2022-07-14 09:50:43 公開日:2022-07-08
# (参考訳) モバイルネットワークにおけるフェデレーション学習の参加者選択に関する調査

A Survey on Participant Selection for Federated Learning in Mobile Networks ( http://arxiv.org/abs/2207.03681v1 )

ライセンス: CC BY 4.0
Behnaz Soltani, Venus Haghighi, Adnan Mahmood, Quan Z. Sheng, Lina Yao(参考訳) Federated Learning(FL)は、プライベートデータセットをプライバシ保護の方法で使用する、効率的な分散機械学習パラダイムである。 flの主な課題は、エンドデバイスは様々な計算能力と通信能力を持ち、トレーニングデータは独立ではなく、同じ分散(非iid)である。 通信帯域が限られており、モバイルネットワークにおけるそのようなデバイスの可用性が不安定であるため、ラウンド毎に少数のエンドデバイス(flプロセスでは参加者またはクライアントとも呼ばれる)しか選択できない。 したがって、最終モデル精度とトレーニング時間を含むFLの性能を最大化するために、効率的な受入選択方式を利用することが最重要となる。 本稿では,FLの参加者選択手法について概説する。 まず、FLを導入し、参加者選択時の主な課題を強調します。 次に,既存の研究を概観し,そのソリューションに基づいて分類する。 最後に,本稿のトピック領域における最先端の分析に基づいて,flの参加者選択に関する今後の方向性について述べる。

Federated Learning (FL) is an efficient distributed machine learning paradigm that employs private datasets in a privacy-preserving manner. The main challenges of FL is that end devices usually possess various computation and communication capabilities and their training data are not independent and identically distributed (non-IID). Due to limited communication bandwidth and unstable availability of such devices in a mobile network, only a fraction of end devices (also referred to as the participants or clients in a FL process) can be selected in each round. Hence, it is of paramount importance to utilize an efficient participant selection scheme to maximize the performance of FL including final model accuracy and training time. In this paper, we provide a review of participant selection techniques for FL. First, we introduce FL and highlight the main challenges during participant selection. Then, we review the existing studies and categorize them based on their solutions. Finally, we provide some future directions on participant selection for FL based on our analysis of the state-of-the-art in this topic area.
翻訳日:2022-07-14 09:23:00 公開日:2022-07-08
# (参考訳) カテゴリーレベルの正規化による教師なしドメイン適応基底画像分割

Unsupervised Domain Adaptive Fundus Image Segmentation with Category-level Regularization ( http://arxiv.org/abs/2207.03684v1 )

ライセンス: CC BY 4.0
Wei Feng, Lin Wang, Lie Ju, Xin Zhao, Xin Wang, Xiaoyu Shi, Zongyuan Ge(参考訳) 敵対的学習に基づく既存の教師なしドメイン適応手法は、いくつかの医療画像処理において良好な性能を達成している。 しかし,これらの手法は,グローバルな分布適応にのみ焦点をあて,カテゴリレベルでの分布制約を無視することで,準最適適応性能がもたらされる。 本稿では,3つの視点からカテゴリ分布を定式化するカテゴリレベル正規化に基づく教師なしドメイン適応フレームワークを提案する。 具体的には、ドメイン間のカテゴリ正規化のために、ソース領域とターゲット領域の同じカテゴリの特徴的プロトタイプをアライメントする適応型プロトタイプアライメントモジュールを提案する。 また,領域内カテゴリ正規化では,それぞれソース領域とターゲット領域の正規化手法を調整した。 ソースドメインでは、クラス内コンパクト性とクラス間分離性を強制することにより、より識別的な特徴表現を学習し、従来の教師付き損失を補完する。 対象領域では、拡張された整合性カテゴリの正規化損失が提案され、モデルが拡張/無表示のターゲット画像に対して一貫した予測を生成するよう強制され、意味的に類似した領域が同じラベルを与えるように促される。 2つの公開基礎データセットに関する広範な実験は、提案されたアプローチが他の最先端比較アルゴリズムを大きく上回っていることを示している。

Existing unsupervised domain adaptation methods based on adversarial learning have achieved good performance in several medical imaging tasks. However, these methods focus only on global distribution adaptation and ignore distribution constraints at the category level, which would lead to sub-optimal adaptation performance. This paper presents an unsupervised domain adaptation framework based on category-level regularization that regularizes the category distribution from three perspectives. Specifically, for inter-domain category regularization, an adaptive prototype alignment module is proposed to align feature prototypes of the same category in the source and target domains. In addition, for intra-domain category regularization, we tailored a regularization technique for the source and target domains, respectively. In the source domain, a prototype-guided discriminative loss is proposed to learn more discriminative feature representations by enforcing intra-class compactness and inter-class separability, and as a complement to traditional supervised loss. In the target domain, an augmented consistency category regularization loss is proposed to force the model to produce consistent predictions for augmented/unaugmented target images, which encourages semantically similar regions to be given the same label. Extensive experiments on two publicly fundus datasets show that the proposed approach significantly outperforms other state-of-the-art comparison algorithms.
翻訳日:2022-07-14 09:14:53 公開日:2022-07-08
# (参考訳) VIXによる定量的戦略のポストプロセッシング

A note on VIX for postprocessing quantitative strategies ( http://arxiv.org/abs/2207.04887v1 )

ライセンス: CC BY 4.0
Jun Lu, Minhui Wu(参考訳) 本稿では,ボラティリティ指数(VIX)を用いて定量的戦略を後処理し,シャープ比を高め,トレーディングリスクを低減する方法について紹介する。 この手続きからの信号は、日々の取引の指標であるか否かの指標である。 最後に、SH510300およびSH510050資産について、この手順を分析する。 これらの戦略は,シャープ比,最大ドローダウン,冷静化率の測定によって評価される。 しかし、取引には常に損失のリスクがある。 テストの結果は、メソッドの動作の例に過ぎず、実際のマーケットポジションの提案については主張されていない。

In this note, we introduce how to use Volatility Index (VIX) for postprocessing quantitative strategies so as to increase the Sharpe ratio and reduce trading risks. The signal from this procedure is an indicator of trading or not on a daily basis. Finally, we analyze this procedure on SH510300 and SH510050 assets. The strategies are evaluated by measurements of Sharpe ratio, max drawdown, and Calmar ratio. However, there is always a risk of loss in trading. The results from the tests are just examples of how the method works; no claim is made on the suggestion of real market positions.
翻訳日:2022-07-14 09:06:43 公開日:2022-07-08
# (参考訳) 畳み込みニューラルネットワークの逆入力に対する再訓練の誘導

Guiding the retraining of convolutional neural networks against adversarial inputs ( http://arxiv.org/abs/2207.03689v1 )

ライセンス: CC BY 4.0
Francisco Dur\'an L\'opez, Silverio Mart\'inez-Fern\'andez, Michael Felderer and Xavier Franch(参考訳) 背景: ディープラーニングモデルを使用する場合、多くの脆弱性があり、最も懸念されているのは、逆入力である。 したがって、これらの入力に対する脆弱性に対処するソフトウェアテストプロセスの一部として、これらのモデルを再訓練する必要がある。 さらに、エネルギー効率のよいテストと再トレーニングのために、データサイエンティストは最高のガイダンスメトリクスと最適なデータセット設定をサポートする必要がある。 Aims: 畳み込みニューラルネットワークのトレーニングのための4つのガイダンス指標と3つのトレーニング構成を検討した。 本研究の目的は,画像分類の文脈におけるデータサイエンティストの視点から,精度,資源利用,時間に関する敵対的入力に対するモデルを改善することである。 方法: 2つのデータセットを用いた画像分類実験を行った。 探索します (a)4つの異なる指導指標(ニューロンカバレッジ、確率ベースサプライズ適性、距離ベースサプライズ適性、ランダム)で設定された新しい訓練を発注することにより、畳み込みニューラルネットワークの再訓練の正確性、資源利用、時間 b)3つの異なる構成(スクラッチと拡張データセット、重みと拡張データセット、重みと逆入力のみ)による畳み込みニューラルネットワークのリトレーニングの正確性とリソース利用。 結果: 元の重みから逆入力で再トレーニングし, 予期せぬ精度の指標で順序付けすることで, 使用済みメトリクスで最高のモデルが得られることがわかった。 結論: より多くの研究が必要であるが、データサイエンティストは、多くの入力を使わずに、敵対的な入力に対するモデルを改善することができるため、深層学習モデルの敵対的な入力に対する脆弱性に対処するために、上記の構成とメトリクスを使用することを推奨する。

Background: When using deep learning models, there are many possible vulnerabilities and some of the most worrying are the adversarial inputs, which can cause wrong decisions with minor perturbations. Therefore, it becomes necessary to retrain these models against adversarial inputs, as part of the software testing process addressing the vulnerability to these inputs. Furthermore, for an energy efficient testing and retraining, data scientists need support on which are the best guidance metrics and optimal dataset configurations. Aims: We examined four guidance metrics for retraining convolutional neural networks and three retraining configurations. Our goal is to improve the models against adversarial inputs regarding accuracy, resource utilization and time from the point of view of a data scientist in the context of image classification. Method: We conducted an empirical study in two datasets for image classification. We explore: (a) the accuracy, resource utilization and time of retraining convolutional neural networks by ordering new training set by four different guidance metrics (neuron coverage, likelihood-based surprise adequacy, distance-based surprise adequacy and random), (b) the accuracy and resource utilization of retraining convolutional neural networks with three different configurations (from scratch and augmented dataset, using weights and augmented dataset, and using weights and only adversarial inputs). Results: We reveal that retraining with adversarial inputs from original weights and by ordering with surprise adequacy metrics gives the best model w.r.t. the used metrics. Conclusions: Although more studies are necessary, we recommend data scientists to use the above configuration and metrics to deal with the vulnerability to adversarial inputs of deep learning models, as they can improve their models against adversarial inputs without using many inputs.
翻訳日:2022-07-14 08:44:44 公開日:2022-07-08
# (参考訳) 双線型項上の上限を用いたプーリング問題の引き締め離散化に基づくミルプモデル

Tightening Discretization-based MILP Models for the Pooling Problem using Upper Bounds on Bilinear Terms ( http://arxiv.org/abs/2207.03699v1 )

ライセンス: CC BY 4.0
Yifu Chen, Christos T. Maravelias, Xiaomin Zhang(参考訳) 非凸最適化問題を双線型項で解くために離散化に基づく手法が提案されている。 これらの手法は、元の非凸最適化問題を混合整数線形プログラム(MILP)に変換する。 非凸最適化問題をMILPに変換する手法に関する幅広い研究と比較して、結果のMILPモデルの強化に関する研究は限られている。 本稿では,プール問題に対する離散化に基づくMILPモデルの厳密化制約について述べる。 具体的には, 双線形項上界から引き起こされる制約の厳密化と, 離散化による構造の利用について検討する。 この制約の有効性を実証し,(1)プーリング問題,(2)離散化型プーリングモデルについて異なる定式化から導出したmilpモデルの計算結果を示す。 計算結果から,本手法はcplex 12.10におけるミルプモデルの計算時間を短縮することを示した。 最後に,本手法はプール問題の文脈で提案されるが,双線型項上の上限を持つ他の非凸最適化問題に対処するために拡張可能であることに留意する。

Discretization-based methods have been proposed for solving nonconvex optimization problems with bilinear terms. These methods convert the original nonconvex optimization problems into mixed-integer linear programs (MILPs). Compared to a wide range of studies related to methods to convert nonconvex optimization problems into MILPs, research on tightening the resulting MILP models is limited. In this paper, we present tightening constraints for the discretization-based MILP models for the pooling problem. Specifically, we study tightening constraints derived from upper bounds on bilinear term and exploiting the structures resulting from the discretization. We demonstrate the effectiveness of our constraints, showing computational results for MILP models derived from different formulations for (1) the pooling problem and (2) discretization-based pooling models. Computational results show that our methods reduce the computational time for MILP models on CPLEX 12.10. Finally, we note that while our methods are presented in the context of the pooling problem, they can be extended to address other nonconvex optimization problems with upper bounds on bilinear terms.
翻訳日:2022-07-14 08:28:12 公開日:2022-07-08
# (参考訳) ブラインド映像品質評価における映像知覚表現の有効性の検討

Exploring the Effectiveness of Video Perceptual Representation in Blind Video Quality Assessment ( http://arxiv.org/abs/2207.03723v1 )

ライセンス: CC BY 4.0
Liang Liao, Kangmin Xu, Haoning Wu, Chaofeng Chen, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) 非専門家が撮影する動画の急速な増加に伴い、視覚的ビデオ品質評価(VQA)は困難で要求の多い問題となっている。 この問題を解決するために多くの努力がなされてきたが、人間の視覚システム(HVS)がビデオの時間的品質にどう関係しているかは不明だ。 一方、最近の研究では、自然映像のフレームがhvsの知覚領域に変換され、表現の直線軌道を形成する傾向があることが判明している。 映像品質の知覚を阻害し,知覚表現の曲がった軌跡を生じさせるような知見を得たので,表現の図形形態を記述して時間的歪みを測定する時間知覚品質指標(tpqi)を提案する。 具体的には、まず、HVSの外側原性核(LGN)と一次視覚領域(V1)から映像知覚表現を抽出し、その軌跡の直線性とコンパクト性を測定し、映像の自然性および内容連続性の劣化を定量化する。 実験により、hvsにおける知覚表現は主観的時間的品質を予測する効果的な方法であることが示され、tpqiは初めて空間的品質指標と同等の性能を達成でき、時間的変化が大きいビデオの評価にさらに効果的である。 さらに,空間品質の指標であるNIQEと組み合わせることで,TPQIは,人気ビデオデータセットよりも高い性能が得られることを示す。 さらに重要なことは、TPQIはビデオ以外の追加情報を必要としないため、パラメータチューニングなしで任意のデータセットに適用することができる。 ソースコードはhttps://github.com/UoLMM/TPQI-VQAで入手できる。

With the rapid growth of in-the-wild videos taken by non-specialists, blind video quality assessment (VQA) has become a challenging and demanding problem. Although lots of efforts have been made to solve this problem, it remains unclear how the human visual system (HVS) relates to the temporal quality of videos. Meanwhile, recent work has found that the frames of natural video transformed into the perceptual domain of the HVS tend to form a straight trajectory of the representations. With the obtained insight that distortion impairs the perceived video quality and results in a curved trajectory of the perceptual representation, we propose a temporal perceptual quality index (TPQI) to measure the temporal distortion by describing the graphic morphology of the representation. Specifically, we first extract the video perceptual representations from the lateral geniculate nucleus (LGN) and primary visual area (V1) of the HVS, and then measure the straightness and compactness of their trajectories to quantify the degradation in naturalness and content continuity of video. Experiments show that the perceptual representation in the HVS is an effective way of predicting subjective temporal quality, and thus TPQI can, for the first time, achieve comparable performance to the spatial quality metric and be even more effective in assessing videos with large temporal variations. We further demonstrate that by combining with NIQE, a spatial quality metric, TPQI can achieve top performance over popular in-the-wild video datasets. More importantly, TPQI does not require any additional information beyond the video being evaluated and thus can be applied to any datasets without parameter tuning. Source code is available at https://github.com/UoLMM/TPQI-VQA.
翻訳日:2022-07-14 08:13:25 公開日:2022-07-08
# (参考訳) 公平な機械学習のための因果関係の必要性と適用性について

On the Need and Applicability of Causality for Fair Machine Learning ( http://arxiv.org/abs/2207.04053v1 )

ライセンス: CC BY 4.0
R\=uta Binkyt\.e, Sami Zhioua(参考訳) 因果推論は、人間が世界を理解し、日々の生活の中で決定を下すのに不可欠である。 20世紀科学は因果関係の主張が強すぎることや達成できないことから遠ざかっていたが、21世紀は因果関係概念の数学化と因果関係の非決定論的概念の導入によって奨励された因果関係の復活が特徴である。 疫学、政治学、社会科学における一般的なユースケースに加えて、因果関係は法的な意味でも日常的にも自動決定の公平性を評価する上で重要であることが判明した。 因果関係が公平性評価に特に重要である理由の議論と例を提供する。 特に,非因果的予測の社会的影響と,因果的主張に依存する法的差別防止過程を指摘する。 結論として,実用シナリオと可能なソリューションにおける因果性適用の課題と限界について論じた。

Causal reasoning has an indispensable role in how humans make sense of the world and come to decisions in everyday life. While $20th$ century science was reserved from making causal claims as too strong and not achievable, the $21st$ century is marked by the return of causality encouraged by the mathematization of causal notions and the introduction of the non-deterministic concept of cause~\cite{illari2011look}. Besides its common use cases in epidemiology, political, and social sciences, causality turns out to be crucial in evaluating the fairness of automated decisions, both in a legal and everyday sense. We provide arguments and examples of why causality is particularly important for fairness evaluation. In particular, we point out the social impact of non-causal predictions and the legal anti-discrimination process that relies on causal claims. We conclude with a discussion about the challenges and limitations of applying causality in practical scenarios as well as possible solutions.
翻訳日:2022-07-14 07:37:44 公開日:2022-07-08
# (参考訳) 癌生存予測のためのスタック型オートエンコーダに基づくマルチオミクスデータ統合

Stacked Autoencoder Based Multi-Omics Data Integration for Cancer Survival Prediction ( http://arxiv.org/abs/2207.04878v1 )

ライセンス: CC BY 4.0
Xing Wu, Qiulian Fang(参考訳) 癌生存予測は、パーソナライズされた治療を開発し、疾患を引き起こすメカニズムを誘導するために重要である。 マルチオミクスデータ統合は、複数の遺伝子レベルでがんの進行を理解するための情報を提供するため、がん研究に広く関心を集めている。 しかし、多くの研究はマルチオミクスデータの高次元性と不均一性のために制限されている。 本稿では,スタックドオートエンコーダを用いた生存予測ニューラルネットワーク(SAEsurv-net)と呼ばれる,がん生存予測のためのマルチオミクスデータを統合する手法を提案する。 TCGA症例のがん生存予測では、SAEsurv-netは2段階の次元減少戦略で次元の呪いに対処し、積み重ねオートエンコーダモデルで多次元不均一性を扱う。 2段階の次元減少戦略は計算複雑性と情報活用のバランスを達成する。 重ねられたオートエンコーダモデルは、第1のオートエンコーダのグループにおけるデータの種類やサイズなどの多くの不均一性を排除し、第2のオートエンコーダに複数のオミクスデータを統合する。 実験の結果、SAEsurv-netは単一のタイプのデータと他の最先端の手法に基づくモデルよりも優れていた。

Cancer survival prediction is important for developing personalized treatments and inducing disease-causing mechanisms. Multi-omics data integration is attracting widespread interest in cancer research for providing information for understanding cancer progression at multiple genetic levels. Many works, however, are limited because of the high dimensionality and heterogeneity of multi-omics data. In this paper, we propose a novel method to integrate multi-omics data for cancer survival prediction, called Stacked AutoEncoder-based Survival Prediction Neural Network (SAEsurv-net). In the cancer survival prediction for TCGA cases, SAEsurv-net addresses the curse of dimensionality with a two-stage dimensionality reduction strategy and handles multi-omics heterogeneity with a stacked autoencoder model. The two-stage dimensionality reduction strategy achieves a balance between computation complexity and information exploiting. The stacked autoencoder model removes most heterogeneities such as data's type and size in the first group of autoencoders, and integrates multiple omics data in the second autoencoder. The experiments show that SAEsurv-net outperforms models based on a single type of data as well as other state-of-the-art methods.
翻訳日:2022-07-14 07:25:52 公開日:2022-07-08
# (参考訳) ライン外モデル:分布シフトのロバスト性に関するフーリエレンズ

Models Out of Line: A Fourier Lens on Distribution Shift Robustness ( http://arxiv.org/abs/2207.04075v1 )

ライセンス: CC BY 4.0
Sara Fridovich-Keil, Brian R. Bartoldson, James Diffenderfer, Bhavya Kailkhura, Peer-Timo Bremer(参考訳) オフ・オブ・ディストリビューション(OOD)データに対するディープニューラルネットワーク(DNN)の精度の向上は、現実世界のアプリケーションにおけるディープラーニング(DL)の受け入れに不可欠である。 分布内 (ID) と OOD データのアキュラシーは線形傾向に従っており、このベースラインを上回るモデルは非常に稀である(そして「効果的に堅牢」と呼ばれる)。 近年,oodのロバスト性向上のために,モデルプルーニング,データ拡張,大規模事前学習モデルに対するセンシングやゼロショット評価など,いくつかの有望なアプローチが開発されている。 しかし, 有効ロバスト性観測に必要なOODデータとモデル特性の条件について, まだ明確な理解が得られていない。 我々は,CIFAR-10 と ImageNet の自然および合成分布シフトに OOD のロバスト性に影響を与えることが知られている多様なアプローチの包括的実証研究により,この問題にアプローチする。 特に、フーリエレンズを通して「有効ロバスト性パズル」を考察し、モデルとOODデータのスペクトル特性が対応する有効ロバスト性に与える影響を問う。 このフーリエレンズは、特定のロバストモデル、特にCLIPファミリーがOODロバスト性を実現する理由に関する洞察を提供する。 しかし,本分析では,oodのロバスト性に関する最良の説明(あるいは強固な説明)は未知であることも明らかにしている。 そこで,oodパズルの今後の研究を支援するために,oodのロバストネットを用いた事前学習モデルを導入することで,有効なロバスト性を持つ公開モデルのギャップを解消する。

Improving the accuracy of deep neural networks (DNNs) on out-of-distribution (OOD) data is critical to an acceptance of deep learning (DL) in real world applications. It has been observed that accuracies on in-distribution (ID) versus OOD data follow a linear trend and models that outperform this baseline are exceptionally rare (and referred to as "effectively robust"). Recently, some promising approaches have been developed to improve OOD robustness: model pruning, data augmentation, and ensembling or zero-shot evaluating large pretrained models. However, there still is no clear understanding of the conditions on OOD data and model properties that are required to observe effective robustness. We approach this issue by conducting a comprehensive empirical study of diverse approaches that are known to impact OOD robustness on a broad range of natural and synthetic distribution shifts of CIFAR-10 and ImageNet. In particular, we view the "effective robustness puzzle" through a Fourier lens and ask how spectral properties of both models and OOD data influence the corresponding effective robustness. We find this Fourier lens offers some insight into why certain robust models, particularly those from the CLIP family, achieve OOD robustness. However, our analysis also makes clear that no known metric is consistently the best explanation (or even a strong explanation) of OOD robustness. Thus, to aid future research into the OOD puzzle, we address the gap in publicly-available models with effective robustness by introducing a set of pretrained models--RobustNets--with varying levels of OOD robustness.
翻訳日:2022-07-14 07:08:41 公開日:2022-07-08
# (参考訳) 合成画像を用いたシステムエラー検出手法の評価

Evaluating Systemic Error Detection Methods using Synthetic Images ( http://arxiv.org/abs/2207.04104v1 )

ライセンス: CC BY 4.0
Gregory Plumb, Nari Johnson, \'Angel Alexander Cabrera, Marco Tulio Ribeiro, Ameet Talwalkar(参考訳) SpotCheckは画像分類器の盲点(システムエラー)を検出する方法を評価するために使用される合成データセットを生成するフレームワークである。 我々はspotcheckを用いて,ブラインドスポット検出手法の性能に様々な要因が与える影響に関する制御研究を行った。 実験では,複数のブラインドスポットが設定されている場合の比較的低い性能やハイパーパラメータに対する感度など,既存の手法のいくつかの欠点を明らかにしている。 さらに,次元還元に基づく手法であるPlaneSpotは,対話型ツールの開発において有望な意味を持つ既存の手法と競合することがわかった。

We introduce SpotCheck, a framework for generating synthetic datasets to use for evaluating methods for discovering blindspots (i.e., systemic errors) in image classifiers. We use SpotCheck to run controlled studies of how various factors influence the performance of blindspot discovery methods. Our experiments reveal several shortcomings of existing methods, such as relatively poor performance in settings with multiple blindspots and sensitivity to hyperparameters. Further, we find that a method based on dimensionality reduction, PlaneSpot, is competitive with existing methods, which has promising implications for the development of interactive tools.
翻訳日:2022-07-14 06:49:58 公開日:2022-07-08
# (参考訳) ランタイム保証が強化学習エージェントの訓練と性能に与える影響に関するアブレーション研究

Ablation Study of How Run Time Assurance Impacts the Training and Performance of Reinforcement Learning Agents ( http://arxiv.org/abs/2207.04117v1 )

ライセンス: CC BY 4.0
Nathaniel Hamilton, Kyle Dunlap, Taylor T Johnson, Kerianne L Hobbs(参考訳) 強化学習(rl)は、機械学習アルゴリズムや手法の成功とともに、ますます重要な研究分野になりつつある。 訓練中にRLエージェントに与えられる自由に関する安全上の懸念に対処するため、安全強化学習(SRL)に関する作業が増加している。 しかし、これらの新しい安全で安全な手法は、安全でない方法よりもより精査されていない。 例えば、安全なメソッドの比較では、同じ初期条件境界とハイパーパラメータ設定に対して公正な評価を欠くことが多く、評価指標が貧弱で、チェリーピックは複数のランダムなシードを平均化するよりも、最高のトレーニング実行に適しています。 本研究では,評価ベストプラクティスを用いて,システム状態を監視し,安全性を確保するために介入する実行時保証(RTA)が効果的な学習に与える影響を調査する。 複数のRTA手法をオン・ポリティクスとオフ・ポリティクスのRLアルゴリズムの両方で研究することにより、RTA法がどの方法が最も効果的か、エージェントがRTAに依存するかどうか、RLエージェントトレーニングにおける報酬形成と安全な探索の重要性について理解することを模索する。 我々の結論は、SRLの最も有望な方向性に光を当て、我々の評価手法は将来のSRLにおけるより良い比較を作成するための基礎となる。

Reinforcement Learning (RL) has become an increasingly important research area as the success of machine learning algorithms and methods grows. To combat the safety concerns surrounding the freedom given to RL agents while training, there has been an increase in work concerning Safe Reinforcement Learning (SRL). However, these new and safe methods have been held to less scrutiny than their unsafe counterparts. For instance, comparisons among safe methods often lack fair evaluation across similar initial condition bounds and hyperparameter settings, use poor evaluation metrics, and cherry-pick the best training runs rather than averaging over multiple random seeds. In this work, we conduct an ablation study using evaluation best practices to investigate the impact of run time assurance (RTA), which monitors the system state and intervenes to assure safety, on effective learning. By studying multiple RTA approaches in both on-policy and off-policy RL algorithms, we seek to understand which RTA methods are most effective, whether the agents become dependent on the RTA, and the importance of reward shaping versus safe exploration in RL agent training. Our conclusions shed light on the most promising directions of SRL, and our evaluation methodology lays the groundwork for creating better comparisons in future SRL work.
翻訳日:2022-07-14 06:35:50 公開日:2022-07-08
# (参考訳) 言語条件付きオートテリックエージェントによるテキスト環境の自動探索

Automatic Exploration of Textual Environments with Language-Conditioned Autotelic Agents ( http://arxiv.org/abs/2207.04118v1 )

ライセンス: CC BY 4.0
Laetitia Teodorescu and Eric Yuan and Marc-Alexandre C\^ot\'e and Pierre-Yves Oudeyer(参考訳) この拡張要約では、本質的動機づけによる研究の機会と課題について論じる。 我々は、テキスト環境と自律エージェントの間に重要なシナジーが存在すると主張している。 我々は,テキストワールドの重要な特性である奥行き,幅,進行ニッチ,言語目標の使いやすさを,自己nmエージェントによる探索に適したものにすることを特定し,テキストワールドに実装可能なエージェントの探索の原動力を同定する。 本稿では,テキスト環境ベンチマークの進歩に自律エージェントを用いる機会について論じる。 最後に、この分野で克服すべき課題をいくつか挙げます。

In this extended abstract we discuss the opportunities and challenges of studying intrinsically-motivated agents for exploration in textual environments. We argue that there is important synergy between text environments and autonomous agents. We identify key properties of text worlds that make them suitable for exploration by autonmous agents, namely, depth, breadth, progress niches and the ease of use of language goals; we identify drivers of exploration for such agents that are implementable in text worlds. We discuss the opportunities of using autonomous agents to make progress on text environment benchmarks. Finally we list some specific challenges that need to be overcome in this area.
翻訳日:2022-07-14 06:34:43 公開日:2022-07-08
# (参考訳) ニューラルネットワークアンカーによる分布検出の欠如

Out of Distribution Detection via Neural Network Anchoring ( http://arxiv.org/abs/2207.04125v1 )

ライセンス: CC BY 4.0
Rushil Anirudh, Jayaraman J. Thiagarajan(参考訳) 本研究の目的は,分散分布(ood)検出のための校正戦略としてヘテロシデスティックな温度スケーリングを利用することである。 ここでのヘテロシデスティック性は、各サンプルの最適な温度パラメータが、分布全体に対して同じ値を使用する従来のアプローチとは対照的に異なるという事実を指す。 これを実現するために,サンプル毎に適切な温度値を推定し,複数のベンチマークで最先端のOOD検出性能を実現するアンカリングという新たなトレーニング手法を提案する。 ntk理論を用いて,この温度関数推定は,その挙動を説明する分類器の認識的不確かさと密接に関連していることを示す。 最善のood検出手法とは対照的に、この手法では、追加の外れ値データセット、カスタムキャリブレーション目的、モデルセンシングへの露出は不要である。 OOD 検出設定の異なる OOD 検出設定、OOD 近傍、意味的コヒーレント OOD の実証研究を通じて、我々は、高度に効果的な OOD 検出アプローチを確立する。 コードとモデルはここでアクセスできます -- https://github.com/rushilanirudh/AMP

Our goal in this paper is to exploit heteroscedastic temperature scaling as a calibration strategy for out of distribution (OOD) detection. Heteroscedasticity here refers to the fact that the optimal temperature parameter for each sample can be different, as opposed to conventional approaches that use the same value for the entire distribution. To enable this, we propose a new training strategy called anchoring that can estimate appropriate temperature values for each sample, leading to state-of-the-art OOD detection performance across several benchmarks. Using NTK theory, we show that this temperature function estimate is closely linked to the epistemic uncertainty of the classifier, which explains its behavior. In contrast to some of the best-performing OOD detection approaches, our method does not require exposure to additional outlier datasets, custom calibration objectives, or model ensembling. Through empirical studies with different OOD detection settings -- far OOD, near OOD, and semantically coherent OOD - we establish a highly effective OOD detection approach. Code and models can be accessed here -- https://github.com/rushilanirudh/AMP
翻訳日:2022-07-14 06:28:31 公開日:2022-07-08
# (参考訳) 出生予測における妊娠年齢の多視点注意

Multi-view Attention for gestational age at birth prediction ( http://arxiv.org/abs/2207.04130v1 )

ライセンス: CC BY 4.0
Mathieu Leclercq, Martin Styner, and Juan Carlos Prieto(参考訳) 本稿では,SLCN ( Surface Learning for Clinical Neuroimaging) の出生予測における妊娠年齢推定法を提案する。 本手法は,異なる視点から3次元オブジェクトの2次元レンダリングをキャプチャする多視点形状解析手法に基づく。 我々は脳の特徴を球面に描画し、2D画像は2次元CNNと回帰処理のための注意層を通して解析する。 回帰タスクは、ネイティブ空間で1.637 +1.3のMAE、テンプレート空間で1.38 +- 1.14のMAEを達成する。 このプロジェクトのソースコードは、githubリポジトリhttps://github.com/mathieuleclercq/slcn_challenge_uncで入手できます。

We present our method for gestational age at birth prediction for the SLCN (surface learning for clinical neuroimaging) challenge. Our method is based on a multi-view shape analysis technique that captures 2D renderings of a 3D object from different viewpoints. We render the brain features on the surface of the sphere and then the 2D images are analyzed via 2D CNNs and an attention layer for the regression task. The regression task achieves a MAE of 1.637 +- 1.3 on the Native space and MAE of 1.38 +- 1.14 on the template space. The source code for this project is available in our github repository https://github.com/MathieuLeclercq/SLCN_challenge_UNC
翻訳日:2022-07-14 06:07:59 公開日:2022-07-08
# (参考訳) l$_0$onie: l$_0$-constraintsでコインを圧縮する

L$_0$onie: Compressing COINs with L$_0$-constraints ( http://arxiv.org/abs/2207.04144v1 )

ライセンス: CC BY 4.0
Juan Ramirez and Jose Gallego-Posada(参考訳) Inlicit Neural Representations (INR)の進歩は、ドメインに依存しない圧縮技術の研究を動機付けている。 これらの方法は、ニューラルネットワークをトレーニングしてオブジェクトを近似し、トレーニングされたモデルの重みを格納する。 例えば、画像が与えられたら、ネットワークはピクセル位置からRGB値へのマッピングを学ぶように訓練される。 本論文では,COIN圧縮法の空間制約付き拡張であるL$_0$onieを提案する。 sparsityは、より小さなモデルの望ましい圧縮率を維持しながら、過パラメータネットワークの高速な学習を可能にする。 さらに,制約のある定式化により,最終モデルが事前決定された圧縮率を尊重することを保証する。

Advances in Implicit Neural Representations (INR) have motivated research on domain-agnostic compression techniques. These methods train a neural network to approximate an object, and then store the weights of the trained model. For example, given an image, a network is trained to learn the mapping from pixel locations to RGB values. In this paper, we propose L$_0$onie, a sparsity-constrained extension of the COIN compression method. Sparsity allows to leverage the faster learning of overparameterized networks, while retaining the desirable compression rate of smaller models. Moreover, our constrained formulation ensures that the final model respects a pre-determined compression rate, dispensing of the need for expensive architecture search.
翻訳日:2022-07-14 06:04:34 公開日:2022-07-08
# (参考訳) 探索型分類器は概念除去と検出には信頼性がない

Probing Classifiers are Unreliable for Concept Removal and Detection ( http://arxiv.org/abs/2207.04153v1 )

ライセンス: CC BY 4.0
Abhinav Kumar, Chenhao Tan, Amit Sharma(参考訳) テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的またはセンシティブな属性を符号化する。 このような属性の削除は、属性、テキスト入力、学習表現の間の複雑な関係のため、ささいなものではない。 近年の研究では、そのような不要な属性をモデル表現から除去するポストホックおよび逆法が提案されている。 理論的および経験的分析により,これらの手法は非生産的であり,属性を完全に取り除くことができず,最悪の場合,すべてのタスク関連特徴が破壊される可能性があることを示す。 その理由は、メソッドが属性のプロキシとしてプローブ分類子に依存するためである。 表現空間における属性の特徴が確率分類器の学習に100%の精度を提供できるような条件下であっても、ポストホック法や逆法が属性を正しく除去できないことが証明される。 これらの理論的意味は、合成、マルチnli、twitterデータセットでトレーニングされたモデルの実証実験によって確認される。 公平性などの属性除去の繊細な応用には、これらの手法の使用を推奨し、最終分類器の品質を測定するためのスプリアスネスメトリックを提案する。

Neural network models trained on text data have been found to encode undesired linguistic or sensitive attributes in their representation. Removing such attributes is non-trivial because of a complex relationship between the attribute, text input, and the learnt representation. Recent work has proposed post-hoc and adversarial methods to remove such unwanted attributes from a model's representation. Through an extensive theoretical and empirical analysis, we show that these methods can be counter-productive: they are unable to remove the attributes entirely, and in the worst case may end up destroying all task-relevant features. The reason is the methods' reliance on a probing classifier as a proxy for the attribute. Even under the most favorable conditions when an attribute's features in representation space can alone provide 100% accuracy for learning the probing classifier, we prove that post-hoc or adversarial methods will fail to remove the attribute correctly. These theoretical implications are confirmed by empirical experiments on models trained on synthetic, Multi-NLI, and Twitter datasets. For sensitive applications of attribute removal such as fairness, we recommend caution against using these methods and propose a spuriousness metric to gauge the quality of the final classifier.
翻訳日:2022-07-14 05:54:36 公開日:2022-07-08
# (参考訳) 自動音声キャプションと言語に基づく音声検索

Automated Audio Captioning and Language-Based Audio Retrieval ( http://arxiv.org/abs/2207.04156v1 )

ライセンス: CC0 1.0
Clive Gomes, Hyejin Park, Patrick Kollman, Yi Song(参考訳) 本プロジェクトは,(1)自動音声キャプションと(2)言語に基づく音声検索の2つのサブタスクを有するDCASE 2022コンペティション(タスク6)に参加した。 第1のサブタスクは音声サンプルのテキスト記述の生成であり、第2のタスクの目標は、与えられた記述にマッチする固定データセット内でオーディオサンプルを見つけることであった。 両方のサブタスクで、Clathoデータセットが使用された。 モデルは, BLEU1, BLEU2, BLEU3, ROUGEL, METEOR, CIDEr, SPICE, SPIDErの音声キャプション, R1, R5, R10, mARP10で評価した。 これらのタスクのベースラインモデルを変更するいくつかの実験を行った。 Automated Audio Captioningの最終的なアーキテクチャはベースラインのパフォーマンスに近いが、Language-based Audio Retrievalのモデルはそれを上回っている。

This project involved participation in the DCASE 2022 Competition (Task 6) which had two subtasks: (1) Automated Audio Captioning and (2) Language-Based Audio Retrieval. The first subtask involved the generation of a textual description for audio samples, while the goal of the second was to find audio samples within a fixed dataset that match a given description. For both subtasks, the Clotho dataset was used. The models were evaluated on BLEU1, BLEU2, BLEU3, ROUGEL, METEOR, CIDEr, SPICE, and SPIDEr scores for audio captioning and R1, R5, R10 and mARP10 scores for audio retrieval. We have conducted a handful of experiments that modify the baseline models for these tasks. Our final architecture for Automated Audio Captioning is close to the baseline performance, while our model for Language-Based Audio Retrieval has surpassed its counterpart.
翻訳日:2022-07-14 05:53:19 公開日:2022-07-08
# 接触を伴う微分物理学シミュレーション : 位置, 速度, 制御の正確な勾配を持つか?

Differentiable Physics Simulations with Contacts: Do They Have Correct Gradients w.r.t. Position, Velocity and Control? ( http://arxiv.org/abs/2207.05060v1 )

ライセンス: Link先を確認
Yaofeng Desmond Zhong, Jiequn Han, Georgia Olympia Brikis(参考訳) 近年では、微分可能な物理シミュレーションに注目が集まっており、Tiny Differentiable Simulator、Nimble Physics、diffTaichi、Brax、Warp、Dojo、DiffCoSimといったオープンソースプロジェクトが開発されている。 物理シミュレーションをエンドツーエンドで微分可能にすることで、勾配に基づく最適化と学習タスクを実行できる。 微分可能シミュレータの大多数は物体間の衝突や接触を考慮しているが、異なる接触モデルを用いて微分可能である。 本稿では, 線形相補性問題 (LCP) , 凸最適化モデル, 適合モデル, 位置ベース力学 (PBD) の4種類の微分可能な接触定式化について概説する。 これらのモデルによって計算された勾配を分析し比較し、勾配が常に正しいとは限らないことを示す。 また, 学習戦略と最適戦略を分析形式で比較することにより, 最適制御戦略を学習する能力を示す。 実験結果を再現するコードベースは、https://github.com/desmondzhong/diff_sim_gradsで入手できる。

In recent years, an increasing amount of work has focused on differentiable physics simulation and has produced a set of open source projects such as Tiny Differentiable Simulator, Nimble Physics, diffTaichi, Brax, Warp, Dojo and DiffCoSim. By making physics simulations end-to-end differentiable, we can perform gradient-based optimization and learning tasks. A majority of differentiable simulators consider collisions and contacts between objects, but they use different contact models for differentiability. In this paper, we overview four kinds of differentiable contact formulations - linear complementarity problems (LCP), convex optimization models, compliant models and position-based dynamics (PBD). We analyze and compare the gradients calculated by these models and show that the gradients are not always correct. We also demonstrate their ability to learn an optimal control strategy by comparing the learned strategies with the optimal strategy in an analytical form. The codebase to reproduce the experiment results is available at https://github.com/DesmondZhong/diff_sim_grads.
翻訳日:2022-07-13 14:01:31 公開日:2022-07-08
# グラフに基づく分子表現学習

Graph-based Molecular Representation Learning ( http://arxiv.org/abs/2207.04869v1 )

ライセンス: Link先を確認
Zhichun Guo, Bozhao Nan, Yijun Tian, Olaf Wiest, Chuxu Zhang, Nitesh V. Chawla(参考訳) 分子表現学習(mrl)は、機械学習と化学科学の間のつながりを構築するための重要なステップである。 特に、分子を分子構造と特徴を保存する数値ベクトルとして符号化し、その上で下流のタスク(例えば、特性予測)を実行することができる。 近年、MRLは特にディープ分子グラフ学習法において大きな進歩を遂げている。 本研究では,これらのグラフに基づく分子表現手法を体系的に検討する。 具体的には、2Dおよび3Dグラフ分子データセットのデータと特徴を紹介する。 次に、MRL用に特別に設計された手法を要約し、それらを4つの戦略に分類する。 さらに,MRLが支持する典型的な化学応用について述べる。 この高速開発領域の研究を容易にするために、ベンチマークや一般的なデータセットも論文にリストアップしています。 最後に,今後の研究方向性について考察する。

Molecular representation learning (MRL) is a key step to build the connection between machine learning and chemical science. In particular, it encodes molecules as numerical vectors preserving the molecular structures and features, on top of which the downstream tasks (e.g., property prediction) can be performed. Recently, MRL has achieved considerable progress, especially in deep molecular graph learning-based methods. In this survey, we systematically review these graph-based molecular representation techniques. Specifically, we first introduce the data and features of the 2D and 3D graph molecular datasets. Then we summarize the methods specially designed for MRL and categorize them into four strategies. Furthermore, we discuss some typical chemical applications supported by MRL. To facilitate studies in this fast-developing area, we also list the benchmarks and commonly used datasets in the paper. Finally, we share our thoughts on future research directions.
翻訳日:2022-07-12 16:29:28 公開日:2022-07-08
# 制約のある市場における最適割当のインタラクティブな推奨

Interactive Recommendations for Optimal Allocations in Markets with Constraints ( http://arxiv.org/abs/2207.04143v1 )

ライセンス: Link先を確認
Yigit Efe Erginbas, Soham Phade, Kannan Ramchandran(参考訳) 市場で働くときの推奨システムは、大きなプールから最も望ましいアイテムを選択するのを手助けし、最も望むユーザに対して限られた数のアイテムを割り当てるのを支援するという二重の役割を担っている。 多くの現実世界のレコメンデーション設定におけるアロケーションに対するキャパシティ制約の頻度にもかかわらず、これらのシステムの設計にそれらを組み込む原則的な方法が欠如している。 そこで本研究では,ユーザの報酬を最大化し,適切な価格設定機構を用いてキャパシティ制約を尊重するアロケーションを同時に探索することにより,システム提供者がユーザへのレコメンデーションの質を高めることのできる対話型フレームワークを提案する。 我々は,この問題を,腕に選択制約のある低ランクコンビネータ型多腕バンディット問題の例としてモデル化する。 我々は,協調フィルタリング,組合せバンディット,最適リソース割り当ての手法を用いた統合アプローチを採用し,従って$n$ユーザ問題に対して$\tilde{\mathcal{o}} ( \sqrt{n m (n+m) rt} )$ in $t$ rounds, $m$ item, rank $r$ mean reward matrix というサブ線形後悔を実現するアルゴリズムを提供する。 合成データと実世界のデータに関する実証研究も,このアプローチの有効性と性能を示している。

Recommendation systems when employed in markets play a dual role: they assist users in selecting their most desired items from a large pool and they help in allocating a limited number of items to the users who desire them the most. Despite the prevalence of capacity constraints on allocations in many real-world recommendation settings, a principled way of incorporating them in the design of these systems has been lacking. Motivated by this, we propose an interactive framework where the system provider can enhance the quality of recommendations to the users by opportunistically exploring allocations that maximize user rewards and respect the capacity constraints using appropriate pricing mechanisms. We model the problem as an instance of a low-rank combinatorial multi-armed bandit problem with selection constraints on the arms. We employ an integrated approach using techniques from collaborative filtering, combinatorial bandits, and optimal resource allocation to provide an algorithm that provably achieves sub-linear regret, namely $\tilde{\mathcal{O}} ( \sqrt{N M (N+M) RT} )$ in $T$ rounds for a problem with $N$ users, $M$ items and rank $R$ mean reward matrix. Empirical studies on synthetic and real-world data also demonstrate the effectiveness and performance of our approach.
翻訳日:2022-07-12 16:25:31 公開日:2022-07-08
# サプライチェーンゲームにおけるオンライン学習

Online Learning in Supply-Chain Games ( http://arxiv.org/abs/2207.04054v1 )

ライセンス: Link先を確認
Nicol\`o Cesa-Bianchi, Tommaso Cesari, Takayuki Osogami, Marco Scarsini, Segev Wasserkrug(参考訳) 問題パラメータを十分に知ることなく、各利益を最大化したい小売業者とサプライヤーの繰り返しゲームについて検討する。 ステージゲームにおけるスタッケルバーグ均衡の一意性を完全な情報で特徴付けることで,需要と生産コストの同時分配に関する部分的な知識を生かしても,サプライヤと小売業者の合同戦略プロファイルをステージゲームのスタッケルバーグ均衡に収束させることが自然学習ダイナミクスによって保証されることを示した。 また,サプライヤの後悔や漸近的な限界,小売業者の後悔にも有限時間境界があることも証明する。 特に、サプライヤーが戦略的でない場合(垂直統合)、コストと需要が逆らって発生し、需要が検閲された場合、小売店の後悔(または社会福祉)に最適な有限時間後悔の限界を証明します。

We study a repeated game between a supplier and a retailer who want to maximize their respective profits without full knowledge of the problem parameters. After characterizing the uniqueness of the Stackelberg equilibrium of the stage game with complete information, we show that even with partial knowledge of the joint distribution of demand and production costs, natural learning dynamics guarantee convergence of the joint strategy profile of supplier and retailer to the Stackelberg equilibrium of the stage game. We also prove finite-time bounds on the supplier's regret and asymptotic bounds on the retailer's regret, where the specific rates depend on the type of knowledge preliminarily available to the players. In the special case when the supplier is not strategic (vertical integration), we prove optimal finite-time regret bounds on the retailer's regret (or, equivalently, the social welfare) when costs and demand are adversarially generated and the demand is censored.
翻訳日:2022-07-12 15:38:00 公開日:2022-07-08
# 物理インフォームドニューラルネットワークの適応自己超越アルゴリズム

Adaptive Self-supervision Algorithms for Physics-informed Neural Networks ( http://arxiv.org/abs/2207.04084v1 )

ライセンス: Link先を確認
Shashank Subramanian, Robert M. Kirby, Michael W. Mahoney, Amir Gholami(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を組み込んでいるが、近年の研究により、最適化が困難になる可能性が示されている。 本稿では,これらのモデルのトレーニング性に及ぼす座標点の位置の影響について検討する。 トレーニングが進むにつれて,コロケーションポイントの位置を適応させることで,バニラPINNの性能を大幅に向上できることがわかった。 具体的には、モデルがより高いエラーを(ドメイン内の損失関数の勾配に基づいて)発生している領域に対して、より多くのコロケーションポイント(数を増やすことなく)を段階的に割り当てる適応的コロケーション方式を提案する。 これにより、任意の最適化ストール(ロスランドスケープを調整するためにコロケーションポイントを単純に再サンプリングすることで)でトレーニングを不公平に再開することで、予測エラーの見積もりが向上する。 本稿では,2次元ポアソンと異なる強制関数を持つ拡散対流系を含む,いくつかの問題に対する結果を示す。 これらの問題に対する訓練用バニラPINNは、特に低いコロケーション点の状況において、解において最大70%の予測誤差をもたらす可能性がある。 対照的に、我々の適応スキームは、ベースラインと同じ計算複雑性を持ち、最大で1桁の誤差を達成できる。 さらに, 適応手法は, 大規模なコロケーション点法においても, バニラPINN法よりも連続的に, あるいはわずかに優れていることがわかった。 すべての実験のコードはオープンソース化された。

Physics-informed neural networks (PINNs) incorporate physical knowledge from the problem domain as a soft constraint on the loss function, but recent work has shown that this can lead to optimization difficulties. Here, we study the impact of the location of the collocation points on the trainability of these models. We find that the vanilla PINN performance can be significantly boosted by adapting the location of the collocation points as training proceeds. Specifically, we propose a novel adaptive collocation scheme which progressively allocates more collocation points (without increasing their number) to areas where the model is making higher errors (based on the gradient of the loss function in the domain). This, coupled with a judicious restarting of the training during any optimization stalls (by simply resampling the collocation points in order to adjust the loss landscape) leads to better estimates for the prediction error. We present results for several problems, including a 2D Poisson and diffusion-advection system with different forcing functions. We find that training vanilla PINNs for these problems can result in up to 70% prediction error in the solution, especially in the regime of low collocation points. In contrast, our adaptive schemes can achieve up to an order of magnitude smaller error, with similar computational complexity as the baseline. Furthermore, we find that the adaptive methods consistently perform on-par or slightly better than vanilla PINN method, even for large collocation point regimes. The code for all the experiments has been open sourced.
翻訳日:2022-07-12 15:37:40 公開日:2022-07-08
# 機械学習を用いたワークロード依存下でのトランジスタ老化のモデル化と予測

Modeling and Predicting Transistor Aging under Workload Dependency using Machine Learning ( http://arxiv.org/abs/2207.04134v1 )

ライセンス: Link先を確認
Paul R. Genssler, Hamza E. Barkam, Karthik Pandaram, Mohsen Imani, Hussam Amrouch(参考訳) 信頼性の重要な問題は回路設計者にとって大きな関心事の一つである。 駆動力はトランジスタの老化であり、動作電圧と負荷に依存する。 設計時点では、生涯を通じて老化効果を維持する近距離ガードバンドを推定することは困難である。 これは、鋳造所が高機密技術と物質パラメータからなる校正された物理モデルを共有していないためである。 しかし、まだ監視されていない劣化の過大評価は性能低下につながり、それが防止される可能性がある。 さらに、これらの物理モデルは非常に複雑である。 数百万のトランジスタを設計時にモデル化するコストは明らかに外因性である。 本稿では、秘密パラメータが開示されないような物理モデルに再現するために訓練された機械学習モデルの革新的展望を提案する。 この効果的な回避策は設計最適化のために回路設計者に完全にアクセス可能である。 本研究では,ある回路からのデータをトレーニングし,ベンチマーク回路に適用することでモデルを一般化する能力を実証する。 平均相対誤差は1.7%まで低く、最高速度は最大20倍である。 回路設計者は、これまで初めて、効率的な設計のための最重要課題である高精度の老化モデルにアクセスしやすくする。 この作業は、ファウントリーと回路設計者の間の広い湾を埋める方向への有望なステップである。

The pivotal issue of reliability is one of colossal concern for circuit designers. The driving force is transistor aging, dependent on operating voltage and workload. At the design time, it is difficult to estimate close-to-the-edge guardbands that keep aging effects during the lifetime at bay. This is because the foundry does not share its calibrated physics-based models, comprised of highly confidential technology and material parameters. However, the unmonitored yet necessary overestimation of degradation amounts to a performance decline, which could be preventable. Furthermore, these physics-based models are exceptionally computationally complex. The costs of modeling millions of individual transistors at design time can be evidently exorbitant. We propose the revolutionizing prospect of a machine learning model trained to replicate the physics-based model, such that no confidential parameters are disclosed. This effectual workaround is fully accessible to circuit designers for the purposes of design optimization. We demonstrate the models' ability to generalize by training on data from one circuit and applying it successfully to a benchmark circuit. The mean relative error is as low as 1.7%, with a speedup of up to 20X. Circuit designers, for the first time ever, will have ease of access to a high-precision aging model, which is paramount for efficient designs. This work is a promising step in the direction of bridging the wide gulf between the foundry and circuit designers.
翻訳日:2022-07-12 15:23:21 公開日:2022-07-08
# 知識ベース上での推論による実体曖昧化の改善

Improving Entity Disambiguation by Reasoning over a Knowledge Base ( http://arxiv.org/abs/2207.04106v1 )

ライセンス: Link先を確認
Tom Ayoola, Joseph Fisher, Andrea Pierleoni(参考訳) エンティティ曖昧化(ED)における最近の研究は、構造化知識ベース(KB)の事実を無視し、代わりにエンティティ記述や型といったKB情報の限られたサブセットに依存している。 これにより、エンティティを曖昧にできるコンテキストの範囲が制限される。 そこで本研究では,すべてのKB事実や記述や型の使用を可能にするために,記号的知識ベースに対する推論によってエンティティをリンクするEDモデルを提案する。 我々のモデルは、6つの確立されたEDデータセットの最先端ベースラインを平均1.3F1で上回る。 すべてのkb情報へのアクセスを可能にすることで、私たちのモデルは人気に基づくエンティティ優先に依存しなくなり、挑戦的なshadowlinkデータセット(弱いエンティティとあいまいなエンティティを強調する)のパフォーマンスを12.7 f1改善します。

Recent work in entity disambiguation (ED) has typically neglected structured knowledge base (KB) facts, and instead relied on a limited subset of KB information, such as entity descriptions or types. This limits the range of contexts in which entities can be disambiguated. To allow the use of all KB facts, as well as descriptions and types, we introduce an ED model which links entities by reasoning over a symbolic knowledge base in a fully differentiable fashion. Our model surpasses state-of-the-art baselines on six well-established ED datasets by 1.3 F1 on average. By allowing access to all KB information, our model is less reliant on popularity-based entity priors, and improves performance on the challenging ShadowLink dataset (which emphasises infrequent and ambiguous entities) by 12.7 F1.
翻訳日:2022-07-12 14:33:58 公開日:2022-07-08
# ReFined: エンドツーエンドエンティティリンクに対する効率的なゼロショット対応アプローチ

ReFinED: An Efficient Zero-shot-capable Approach to End-to-End Entity Linking ( http://arxiv.org/abs/2207.04108v1 )

ライセンス: Link先を確認
Tom Ayoola, Shubhi Tyagi, Joseph Fisher, Christos Christodoulopoulos, Andrea Pierleoni(参考訳) ReFinEDは、細粒度エンティティタイプとエンティティ記述を使用してリンクを行う、効率的なエンドツーエンドエンティティリンクモデルである。 このモデルは、ドキュメント内のすべての参照を単一のフォワードパスで参照検出、きめ細かいエンティティタイピング、エンティティの曖昧さを実行し、競合する既存のアプローチの60倍以上の速度で処理します。 ReFinEDはまた、標準エンティティリンクデータセットの最先端のパフォーマンスを平均3.7 F1で上回る。 このモデルはWikidata(Wikipediaの15倍のエンティティを持つ)やゼロショットエンティティリンクのような大規模知識ベースに一般化することができる。 スピード、精度、スケールの組み合わせにより、ReFinEDはWebスケールデータセットからエンティティを抽出する効果的でコスト効率の良いシステムとなり、モデルがうまくデプロイされた。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/alexa/ReFinEDで利用可能です。

We introduce ReFinED, an efficient end-to-end entity linking model which uses fine-grained entity types and entity descriptions to perform linking. The model performs mention detection, fine-grained entity typing, and entity disambiguation for all mentions within a document in a single forward pass, making it more than 60 times faster than competitive existing approaches. ReFinED also surpasses state-of-the-art performance on standard entity linking datasets by an average of 3.7 F1. The model is capable of generalising to large-scale knowledge bases such as Wikidata (which has 15 times more entities than Wikipedia) and of zero-shot entity linking. The combination of speed, accuracy and scale makes ReFinED an effective and cost-efficient system for extracting entities from web-scale datasets, for which the model has been successfully deployed. Our code and pre-trained models are available at https://github.com/alexa/ReFinED
翻訳日:2022-07-12 14:33:44 公開日:2022-07-08
# SInGE: 神経細胞関連性の総合的勾配推定による空間性

SInGE: Sparsity via Integrated Gradients Estimation of Neuron Relevance ( http://arxiv.org/abs/2207.04089v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Matthieu Cord, Kevin Bailly(参考訳) 最先端のコンピュータビジョン手法のパフォーマンスの飛躍は、ディープニューラルネットワークの開発によるものである。 しかし、しばしば計算コストがかかるため、デプロイメントが妨げられる可能性がある。 この制限を緩和するため、構造化プルーニングはチャネル、ニューロン、フィルターを除去する技術としてよく知られており、よりコンパクトなモデルを作成するために一般的に用いられる。 ほとんどの場合、削除すべき計算は相対的重要度基準に基づいて選択される。 同時に、説明可能な予測モデルの必要性が著しく高まり、入力画像や特徴マップのピクセルの相対的重要性を強調するロバストな帰属法の開発が動機となっている。 本研究では,既存のプルーニングヒューリスティックの限界について論じる。 我々は,各ニューロンの関連性を,このニューロン除去に向けての経路の勾配変化の積分として定義する,新しい勾配決定基準を設計するための帰納的手法からインスピレーションを得た。 さらに,パラメータを除去しながらDNNの精度を向上するために,絡み合ったDNNプルーニングと微調整フローチャートを提案する。 提案手法はSInGEと呼ばれ、既存の最先端DNNプルーニング手法よりも優れていることを示す。

The leap in performance in state-of-the-art computer vision methods is attributed to the development of deep neural networks. However it often comes at a computational price which may hinder their deployment. To alleviate this limitation, structured pruning is a well known technique which consists in removing channels, neurons or filters, and is commonly applied in order to produce more compact models. In most cases, the computations to remove are selected based on a relative importance criterion. At the same time, the need for explainable predictive models has risen tremendously and motivated the development of robust attribution methods that highlight the relative importance of pixels of an input image or feature map. In this work, we discuss the limitations of existing pruning heuristics, among which magnitude and gradient-based methods. We draw inspiration from attribution methods to design a novel integrated gradient pruning criterion, in which the relevance of each neuron is defined as the integral of the gradient variation on a path towards this neuron removal. Furthermore, we propose an entwined DNN pruning and fine-tuning flowchart to better preserve DNN accuracy while removing parameters. We show through extensive validation on several datasets, architectures as well as pruning scenarios that the proposed method, dubbed SInGE, significantly outperforms existing state-of-the-art DNN pruning methods.
翻訳日:2022-07-12 14:30:19 公開日:2022-07-08
# 映像補間用クロスアテンショントランス

Cross-Attention Transformer for Video Interpolation ( http://arxiv.org/abs/2207.04132v1 )

ライセンス: Link先を確認
Hannah Halin Kim, Shuzhi Yu, Shuai Yuan, Carlo Tomasi(参考訳) 本研究では,映像補間のための残留ニューラルネットワークであるtain(transformers and attention for video interpolation)を提案する。 まず,予測補間フレームに類似した外観の入力画像特徴をグローバルに集約するために,CS (Cross-Similarity) と呼ばれる新しいビジュアルトランスフォーマーモジュールを提案する。 これらのCS機能は補間予測を洗練するために使用される。 CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。 さらに,occluderパッチでトレーニングデータセットを強化し,フレーム間を移動することで,ネットワークのオクルージョンや大きな動きに対するロバスト性を向上させる。 既存の手法では特にMB近傍でスムーズな予測を行うため,画像勾配に基づくトレーニング損失を付加し,よりシャープな予測を行う。 TAINは、フロー推定を必要としない既存の手法より優れており、Vimeo90k、UCF101、SNU-FILMベンチマークでの推論時間の観点から計算効率が良い。

We propose TAIN (Transformers and Attention for video INterpolation), a residual neural network for video interpolation, which aims to interpolate an intermediate frame given two consecutive image frames around it. We first present a novel visual transformer module, named Cross-Similarity (CS), to globally aggregate input image features with similar appearance as those of the predicted interpolated frame. These CS features are then used to refine the interpolated prediction. To account for occlusions in the CS features, we propose an Image Attention (IA) module to allow the network to focus on CS features from one frame over those of the other. Additionally, we augment our training dataset with an occluder patch that moves across frames to improve the network's robustness to occlusions and large motion. Because existing methods yield smooth predictions especially near MBs, we use an additional training loss based on image gradient to yield sharper predictions. TAIN outperforms existing methods that do not require flow estimation and performs comparably to flow-based methods while being computationally efficient in terms of inference time on Vimeo90k, UCF101, and SNU-FILM benchmarks.
翻訳日:2022-07-12 14:29:58 公開日:2022-07-08
# すべての防御が等しいわけではない:敵の正確さのデッドアングル

Not all broken defenses are equal: The dead angles of adversarial accuracy ( http://arxiv.org/abs/2207.04129v1 )

ライセンス: Link先を確認
Raphael Olivier, Bhiksha Raj(参考訳) 対向攻撃に対するロバスト性は、通常、対向精度で評価される。 しかし、この計量は、機械学習モデルの全ての堅牢性特性を適切に捉えるには大きすぎる。 強力な攻撃に対して評価される多くの防御は、敵の堅牢性に部分的に寄与しながらも、精度の向上を提供しない。 一般的な認証方法は、精度が低いため、同じ問題に悩まされる。 より微細な強靭性特性を捉えるために,L2 の強靭性,対角性,すなわち「入力の周囲に何個の対角性例が存在するか」という疑問に部分的に答える新しい尺度を提案する。 強防御と弱防御の両方を評価することにより,その有用性を示す。 いくつかの最先端の防御は、非常によく似た精度を提供しており、それらが堅牢でない入力に対して非常に異なる間隔を持つことを示します。 また, 弱い防御力によっては頑健性が低下するが, 精度では捕獲できないという尺度で強化するものもある。 これらの違いは、敵の訓練と組み合わせることで、そのような防御がいかに有用になるかを予測する。

Robustness to adversarial attack is typically evaluated with adversarial accuracy. This metric is however too coarse to properly capture all robustness properties of machine learning models. Many defenses, when evaluated against a strong attack, do not provide accuracy improvements while still contributing partially to adversarial robustness. Popular certification methods suffer from the same issue, as they provide a lower bound to accuracy. To capture finer robustness properties we propose a new metric for L2 robustness, adversarial angular sparsity, which partially answers the question "how many adversarial examples are there around an input". We demonstrate its usefulness by evaluating both "strong" and "weak" defenses. We show that some state-of-the-art defenses, delivering very similar accuracy, can have very different sparsity on the inputs that they are not robust on. We also show that some weak defenses actually decrease robustness, while others strengthen it in a measure that accuracy cannot capture. These differences are predictive of how useful such defenses can become when combined with adversarial training.
翻訳日:2022-07-12 13:57:58 公開日:2022-07-08
# グラフベース多視点融合と局所適応:話者識別のための住宅内難読化

Graph-based Multi-View Fusion and Local Adaptation: Mitigating Within-Household Confusability for Speaker Identification ( http://arxiv.org/abs/2207.04081v1 )

ライセンス: Link先を確認
Long Chen, Yixiong Meng, Venkatesh Ravichandran, Andreas Stolcke(参考訳) 家庭のシナリオ(例えばスマートスピーカー)における話者識別(SID)は、ラベル付き(登録)発話の限られた数、不適切な声、人口動態の不均衡のために重要だが難しい問題である。 従来の話者認識システムは、大きなランダムな話者サンプルから一般化し、特定のコホートや高い信頼感を示す家庭では認識が過小評価される。 本研究では,地域適応グラフ正規化と多視点グラフによる多信号融合による家庭レベルのsid精度とロバスト性を向上させるためのグラフベース半教師付き学習手法を提案する。 家庭内SID、公正性、信号融合に関する他の研究とは異なり、この研究は話者ラベル推論(スコーリング)に焦点を当て、埋め込みの調整や融合ネットワークの訓練をすることなく、家庭固有の適応と多信号融合を実現するための簡単なソリューションを提供する。 VoxCelebデータセットの実験により、当社のアプローチは、異なる顧客コホートとコンフューザビリティの程度を持つ家庭全体のパフォーマンスを一貫して改善することを示した。

Speaker identification (SID) in the household scenario (e.g., for smart speakers) is an important but challenging problem due to limited number of labeled (enrollment) utterances, confusable voices, and demographic imbalances. Conventional speaker recognition systems generalize from a large random sample of speakers, causing the recognition to underperform for households drawn from specific cohorts or otherwise exhibiting high confusability. In this work, we propose a graph-based semi-supervised learning approach to improve household-level SID accuracy and robustness with locally adapted graph normalization and multi-signal fusion with multi-view graphs. Unlike other work on household SID, fairness, and signal fusion, this work focuses on speaker label inference (scoring) and provides a simple solution to realize household-specific adaptation and multi-signal fusion without tuning the embeddings or training a fusion network. Experiments on the VoxCeleb dataset demonstrate that our approach consistently improves the performance across households with different customer cohorts and degrees of confusability.
翻訳日:2022-07-12 13:55:17 公開日:2022-07-08
# CompoSuite: 構成強化学習ベンチマーク

CompoSuite: A Compositional Reinforcement Learning Benchmark ( http://arxiv.org/abs/2207.04136v1 )

ライセンス: Link先を確認
Jorge A. Mendez, Marcel Hussing, Meghna Gummadi, Eric Eaton(参考訳) 我々は、コンポジションマルチタスク強化学習(RL)のためのオープンソースのシミュレーションロボット操作ベンチマークCompoSuiteを紹介する。 それぞれのCompoSuiteタスクは、障害物を避けながらタスク目標を達成するために、特定のロボットアームを操作する必要がある。 このタスクの構成的定義はCompoSuiteに2つの顕著な特性を与える。 まず、ロボット/オブジェクト/オブジェクト/オブジェクト/オブジェクトの要素を変えると、数百のRLタスクが発生します。 第二に、RLアプローチはタスクの構成構造を学習する能力に特化して評価することができる。 問題を機能的に分解するこの後者の能力により、知的エージェントは学習タスク間の共通性を識別し、活用し、多種多様な問題を扱うことができる。 我々は,既存のシングルタスク,マルチタスク,コンポジション学習アルゴリズムを,様々なトレーニング設定でベンチマークし,その構成的一般化能力を評価した。 本評価では,構成性に関する既存のRLアプローチの欠点を明らかにするとともに,新たな研究の道を開く。

We present CompoSuite, an open-source simulated robotic manipulation benchmark for compositional multi-task reinforcement learning (RL). Each CompoSuite task requires a particular robot arm to manipulate one individual object to achieve a task objective while avoiding an obstacle. This compositional definition of the tasks endows CompoSuite with two remarkable properties. First, varying the robot/object/objective/obstacle elements leads to hundreds of RL tasks, each of which requires a meaningfully different behavior. Second, RL approaches can be evaluated specifically for their ability to learn the compositional structure of the tasks. This latter capability to functionally decompose problems would enable intelligent agents to identify and exploit commonalities between learning tasks to handle large varieties of highly diverse problems. We benchmark existing single-task, multi-task, and compositional learning algorithms on various training settings, and assess their capability to compositionally generalize to unseen tasks. Our evaluation exposes the shortcomings of existing RL approaches with respect to compositionality and opens new avenues for investigation.
翻訳日:2022-07-12 13:39:17 公開日:2022-07-08
# StatMix:フェデレーション学習における画像統計を利用したデータ拡張手法

StatMix: Data augmentation method that relies on image statistics in federated learning ( http://arxiv.org/abs/2207.04103v1 )

ライセンス: Link先を確認
Dominik Lewy, Jacek Ma\'ndziuk, Maria Ganzha, Marcin Paprzycki(参考訳) 大量の注釈付きデータの可用性は、ディープラーニングの成功の柱のひとつだ。 多くの大きなデータセットが研究用に提供されているが、現実のアプリケーションではそうではないことが多い(例えば、企業はGDPRや知的財産権保護に関する懸念のためにデータを共有できない)。 フェデレートラーニング(FL)は、ローカルデータ自体を共有することなく、複数のノードにまたがるデータに対するグローバルモデルのトレーニングを可能にするため、この問題に対する潜在的な解決策である。 しかし、FLメソッドでさえ、適切に扱わなくても、データのプライバシに脅威をもたらす。 そこで本稿では,FLシナリオの結果を改善するために,画像統計を用いた拡張手法StatMixを提案する。 StatMixは2つのニューラルネットワークアーキテクチャを使用して、CIFAR-10とCIFAR-100で実験的にテストされている。 全てのFL実験において、StatMixの応用は(StatMixを使わない)ベースライントレーニングと比較して平均精度を向上させる。 FL以外の設定でもいくつかの改善が観察できる。

Availability of large amount of annotated data is one of the pillars of deep learning success. Although numerous big datasets have been made available for research, this is often not the case in real life applications (e.g. companies are not able to share data due to GDPR or concerns related to intellectual property rights protection). Federated learning (FL) is a potential solution to this problem, as it enables training a global model on data scattered across multiple nodes, without sharing local data itself. However, even FL methods pose a threat to data privacy, if not handled properly. Therefore, we propose StatMix, an augmentation approach that uses image statistics, to improve results of FL scenario(s). StatMix is empirically tested on CIFAR-10 and CIFAR-100, using two neural network architectures. In all FL experiments, application of StatMix improves the average accuracy, compared to the baseline training (with no use of StatMix). Some improvement can also be observed in non-FL setups.
翻訳日:2022-07-12 13:31:44 公開日:2022-07-08
# FAIVConf: ビットレートの低いAIベースのビデオ会議のための顔強化

FAIVConf: Face enhancement for AI-based Video Conference with Low Bit-rate ( http://arxiv.org/abs/2207.04090v1 )

ライセンス: Link先を確認
Zhengang Li, Sheng Lin, Shan Liu, Songnan Li, Xue Lin, Wei Wang and Wei Jiang(参考訳) 近年,伝送ビットの少ない高品質なビデオ会議が注目され,課題となっている。 本稿では,効果的なニューラルヒューマンフェイス生成技術に基づくビデオ会議のための特別に設計されたビデオ圧縮フレームワークであるfaivconfを提案する。 FAIVConfは、バックグラウンドアニメーションのアーティファクトを避けるためのフェイススワッピング、送信ビットレートを減らし、抽出された顔のランドマークの品質を維持するための顔のぼかし、広範囲の頭部ポーズに対応するための顔ビュー補間のための動的ソース更新など、実際のビデオ会議シナリオにおけるシステムの堅牢性を改善するための設計をまとめている。 提案手法は,h.264 や h.265 の符号化方式に比べて,ビデオ会議のビットレートを大幅に低減し,同じビットレートで視覚的品質が向上する。

Recently, high-quality video conferencing with fewer transmission bits has become a very hot and challenging problem. We propose FAIVConf, a specially designed video compression framework for video conferencing, based on the effective neural human face generation techniques. FAIVConf brings together several designs to improve the system robustness in real video conference scenarios: face-swapping to avoid artifacts in background animation; facial blurring to decrease transmission bit-rate and maintain the quality of extracted facial landmarks; and dynamic source update for face view interpolation to accommodate a large range of head poses. Our method achieves a significant bit-rate reduction in the video conference and gives much better visual quality under the same bit-rate compared with H.264 and H.265 coding schemes.
翻訳日:2022-07-12 13:29:08 公開日:2022-07-08
# braidベースのアーキテクチャ検索

Braid-based architecture search ( http://arxiv.org/abs/2207.04121v1 )

ライセンス: Link先を確認
Olga Lukyanova and Oleg Nikitin and Alex Kunin(参考訳) 本稿では,ブレイド理論に基づくニューラルネットワークの構造最適化手法を提案する。 本稿では,ニューラルネットワークのグラフ構造の記述法としてブレイド理論の基本について述べる。 ニューラルネットワーク層間のブレイド構造を用いて、様々なトポロジのネットワークを構築する方法を示す。 ブレイド理論に基づくニューラルネットワークの動作は、均質なディープニューラルネットワークと、ブレイドの順序に対応しない層間のランダムな交差を持つネットワークと比較される。 その結果、分類問題において、同等のアーキテクチャよりもブレイドネットワークの利点が示された。

In this article, we propose the approach to structural optimization of neural networks, based on the braid theory. The paper describes the basics of braid theory as applied to the description of graph structures of neural networks. It is shown how networks of various topologies can be built using braid structures between layers of neural networks. The operation of a neural network based on the braid theory is compared with a homogeneous deep neural network and a network with random intersections between layers that do not correspond to the ordering of the braids. Results are obtained showing the advantage of braid-based networks over comparable architectures in classification problems.
翻訳日:2022-07-12 13:09:05 公開日:2022-07-08
# TalkToModel: オープンエンドダイアログによる機械学習モデル理解

TalkToModel: Understanding Machine Learning Models With Open Ended Dialogues ( http://arxiv.org/abs/2207.04154v1 )

ライセンス: Link先を確認
Dylan Slack and Satyapriya Krishna and Himabindu Lakkaraju and Sameer Singh(参考訳) 機械学習(ML)モデルは、現実世界のアプリケーションにおいて重要な決定を下すためにますます使われていますが、さらに複雑になり、理解が難しくなっています。 この目的のために,モデル予測を説明するいくつかの手法が提案されている。 しかし、実践者は、どちらを使うべきか、結果をどう解釈するかを知らないことが多く、説明を得るためにデータサイエンスの経験が不足しているため、説明を活用するのに苦労する。 さらに、現在のほとんどの作業はワンショットの説明の生成に重点を置いており、ユーザがフォローアップしたり、説明に関するきめ細かい質問をしたりすることができない。 本研究では,機械学習モデルを理解するための対話システムであるTalkToModelを導入することで,これらの課題に対処する。 具体的には、talktomodelには3つの重要なコンポーネントがある。 1)対話に携わる自然言語インタフェースにより,MLモデルの理解を高度に活用する。 2)任意の表型モデルとデータセットに適応し,自然言語を解釈し,適切な操作(特徴重要説明,反事実説明,モデルエラー表示など)にマップし,テキスト応答を生成する対話エンジン 3) 操作を実行し、説明が正確であることを保証する実行コンポーネント。 我々はtalktomodelの定量的・人的評価を行った。 そこで本システムでは,新しいデータセットやモデルに対するユーザの質問を高精度に理解し,新たな状況への一般化能力を示す。 人間の評価では、医療従事者の73%(医師や看護師など)がベースラインのポイント・アンド・クリックシステム上でTalkToModelを使用することに同意し、84.6%の大学院生がTalkToModelの使用に同意した。

Machine Learning (ML) models are increasingly used to make critical decisions in real-world applications, yet they have also become more complex, making them harder to understand. To this end, several techniques to explain model predictions have been proposed. However, practitioners struggle to leverage explanations because they often do not know which to use, how to interpret the results, and may have insufficient data science experience to obtain explanations. In addition, most current works focus on generating one-shot explanations and do not allow users to follow up and ask fine-grained questions about the explanations, which can be frustrating. In this work, we address these challenges by introducing TalkToModel: an open-ended dialogue system for understanding machine learning models. Specifically, TalkToModel comprises three key components: 1) a natural language interface for engaging in dialogues, making understanding ML models highly accessible, 2) a dialogue engine that adapts to any tabular model and dataset, interprets natural language, maps it to appropriate operations (e.g., feature importance explanations, counterfactual explanations, showing model errors), and generates text responses, and 3) an execution component that run the operations and ensures explanations are accurate. We carried out quantitative and human subject evaluations of TalkToModel. We found the system understands user questions on novel datasets and models with high accuracy, demonstrating the system's capacity to generalize to new situations. In human evaluations, 73% of healthcare workers (e.g., doctors and nurses) agreed they would use TalkToModel over baseline point-and-click systems, and 84.6% of ML graduate students agreed TalkToModel was easier to use.
翻訳日:2022-07-12 13:07:43 公開日:2022-07-08
# コントラスト学習によるサンプルクラスタリング

Few-Example Clustering via Contrastive Learning ( http://arxiv.org/abs/2207.04050v1 )

ライセンス: Link先を確認
Minguk Jang, Sae-Young Chung(参考訳) 本研究では,いくつかの例に対比学習を行う新しいアルゴリズムであるfecを提案する。 提案手法は,(1)クラスタ割り当て候補の生成,(2)クラスタ割り当て毎のコントラスト学習,(3)ベスト候補の選択という3つのステップから構成される。 本研究は,第3段階における学習の早い段階での学習損失が最も少ない候補を選択することにより,第3段階の学習者と第3段階のクラスタ割り当ての対比学習者が他の者よりも高速に学習できるという仮説に基づくものである。 textit{mini}-ImageNetとCUB-200-2011データセットの大規模な実験により、FECは他のベースラインを平均3.2%上回る結果となった。 FECはまた、クラスタリングのパフォーマンスが徐々に増加し、徐々に低下する興味深い学習曲線を示している。

We propose Few-Example Clustering (FEC), a novel algorithm that performs contrastive learning to cluster few examples. Our method is composed of the following three steps: (1) generation of candidate cluster assignments, (2) contrastive learning for each cluster assignment, and (3) selection of the best candidate. Based on the hypothesis that the contrastive learner with the ground-truth cluster assignment is trained faster than the others, we choose the candidate with the smallest training loss in the early stage of learning in step (3). Extensive experiments on the \textit{mini}-ImageNet and CUB-200-2011 datasets show that FEC outperforms other baselines by about 3.2% on average under various scenarios. FEC also exhibits an interesting learning curve where clustering performance gradually increases and then sharply drops.
翻訳日:2022-07-12 12:58:09 公開日:2022-07-08
# ノックオフ干渉によるモデル不変性を用いた因果発見

Causal Discovery using Model Invariance through Knockoff Interventions ( http://arxiv.org/abs/2207.04055v1 )

ライセンス: Link先を確認
Wasim Ahmad, Maha Shadaydeh, Joachim Denzler(参考訳) 原因分析はシステムの根本的なメカニズムを理解するのに不可欠である。 本稿では,時系列の非線形多変量系における因果関係を推定するために,予測器の介入によるモデル不変性の利用を提案する。 我々は、DeepARを用いて時系列の非線形相互作用をモデル化し、Knockoffsベースの介入を用いてモデル不変性をテストする。 ノックオフサンプルは、応答を知らずに、ペアで交換可能、分配可能、統計的にヌル変数を生成する。 我々は,非因果予測器の介入によって応答残差の分布が著しく変化しないことを示すモデル不変性をテストする。 本手法を実時間および合成時間時系列上で評価する。 全体としては,var granger 因果法,varlingam 法,pcmci+ 法など他の広く用いられている因果法よりも優れた手法である。

Cause-effect analysis is crucial to understand the underlying mechanism of a system. We propose to exploit model invariance through interventions on the predictors to infer causality in nonlinear multivariate systems of time series. We model nonlinear interactions in time series using DeepAR and then expose the model to different environments using Knockoffs-based interventions to test model invariance. Knockoff samples are pairwise exchangeable, in-distribution and statistically null variables generated without knowing the response. We test model invariance where we show that the distribution of the response residual does not change significantly upon interventions on non-causal predictors. We evaluate our method on real and synthetically generated time series. Overall our method outperforms other widely used causality methods, i.e, VAR Granger causality, VARLiNGAM and PCMCI+.
翻訳日:2022-07-12 12:57:55 公開日:2022-07-08
# 畳み込みフーリエニューラルオペレータとリソ誘導自己訓練による大規模マスク最適化

Large Scale Mask Optimization Via Convolutional Fourier Neural Operator and Litho-Guided Self Training ( http://arxiv.org/abs/2207.04056v1 )

ライセンス: Link先を確認
Haoyu Yang, Zongyi Li, Kumara Sastry, Saumyadip Mukhopadhyay, Anima Anandkumar, Brucek Khailany, Vivek Singh, Haoxing Ren(参考訳) マスク印刷性の向上,ターンアラウンド時間短縮,マスク製造性の向上など,マスク最適化問題に対して機械学習技術が広く研究されている。 しかしながら、これらの研究の多くは、小さな設計領域の初期ソリューション生成に焦点を当てている。 マスク最適化タスクにおける機械学習技術の可能性をさらに高めるために,レイアウトタイルの依存関係を効率的に学習し,従来のツールの介入が限定されたスタイピングレス大規模マスク最適化を約束する畳み込み型フーリエニューラルネットワーク(cfno)を提案する。 本研究では,非凸最適化問題を解く際に訓練された機械学習モデルを通して,リソ誘導自己学習(lgst)の可能性を見いだし,反復モデルとデータセットの更新を可能にし,モデル性能の向上をもたらす。 実験結果から、機械学習に基づくフレームワークは、最先端の学術的数値マスクオプティマイザを桁違いのスピードアップで上回る結果となった。

Machine learning techniques have been extensively studied for mask optimization problems, aiming at better mask printability, shorter turnaround time, better mask manufacturability, and so on. However, most of these researches are focusing on the initial solution generation of small design regions. To further realize the potential of machine learning techniques on mask optimization tasks, we present a Convolutional Fourier Neural Operator (CFNO) that can efficiently learn layout tile dependencies and hence promise stitch-less large-scale mask optimization with the limited intervention of legacy tools. We discover the possibility of litho-guided self-training (LGST) through a trained machine learning model when solving non-convex optimization problems, which allows iterative model and dataset update and brings significant model performance improvement. Experimental results show that, for the first time, our machine learning-based framework outperforms state-of-the-art academic numerical mask optimizers with an order of magnitude speedup.
翻訳日:2022-07-12 12:57:43 公開日:2022-07-08
# 予測のための季節エンコーダデコーダアーキテクチャ

Seasonal Encoder-Decoder Architecture for Forecasting ( http://arxiv.org/abs/2207.04113v1 )

ライセンス: Link先を確認
Avinash Achar, Soumen Pachal(参考訳) 一般的にはディープラーニング(DL)、特にリカレントニューラルネットワーク(RNN)はシーケンスベースのアプリケーションで高い成功率を示している。 本稿では時系列モデリングと予測のためのRNNについて述べる。 高精度なマルチステップ予測が可能でありながら、季節相関をインテリジェントに捉える新しいRNNアーキテクチャを提案する。 それはよく知られたエンコーダ・デコーダ(ED)アーキテクチャと乗法的季節自動回帰モデルから動機付けられている。 外部入力の存在(または不在)においても、マルチステップ(マルチターゲット)学習を取り入れている。 単一のシーケンスデータや複数のシーケンスデータで使用できる。 また,複数シーケンスの場合に対して,シーケンス毎のデータ量が少ない場合の予測モデルを構築するための新しい欲望再帰的手法を提案する。 提案するアーキテクチャの実用性は,大規模な実験を通じて,単一シーケンスと複数シーケンスのシナリオで実証する。

Deep learning (DL) in general and Recurrent neural networks (RNNs) in particular have seen high success levels in sequence based applications. This paper pertains to RNNs for time series modelling and forecasting. We propose a novel RNN architecture capturing (stochastic) seasonal correlations intelligently while capable of accurate multi-step forecasting. It is motivated from the well-known encoder-decoder (ED) architecture and multiplicative seasonal auto-regressive model. It incorporates multi-step (multi-target) learning even in the presence (or absence) of exogenous inputs. It can be employed on single or multiple sequence data. For the multiple sequence case, we also propose a novel greedy recursive procedure to build (one or more) predictive models across sequences when per-sequence data is less. We demonstrate via extensive experiments the utility of our proposed architecture both in single sequence and multiple sequence scenarios.
翻訳日:2022-07-12 12:57:26 公開日:2022-07-08
# (参考訳) 医療知識グラフの構築 : 最先端でオープンな課題と機会

Healthcare Knowledge Graph Construction: State-of-the-art, open issues, and opportunities ( http://arxiv.org/abs/2207.03771v1 )

ライセンス: CC BY 4.0
Bilal Abu-Salih, Muhammad AL-Qurishi, Mohammed Alweshah, Mohammad AL-Smadi, Reem Alfayez, Heba Saadeh(参考訳) 医療業界におけるデータ分析の導入は、効率的で効果的なビッグデータ分析ソリューションの需要によって大きく進展した。 知識グラフ(KG)はこの領域で有用であることが証明されており、より良いデータ表現と知識推論を提供するために多くの医療アプリケーションに根ざしている。 しかし、代表的なkg構成分類の欠如とともに、この指定領域におけるいくつかの既存のアプローチは不十分で劣っている。 本論文は, 包括的分類法と, 鳥眼による医療用kg構成図を初めて提供した。 また、様々な医療状況に関連する学術研究から得られた最新の技術について、徹底的に検討する。 これらの手法は,知識抽出法,知識ベースと情報源の種類,組み込まれた評価プロトコルの観点から批判的に評価される。 最後に, この活気ある地域での今後の研究に向けて, いくつかの研究成果と既存の課題を報告し, 議論する。

The incorporation of data analytics in the healthcare industry has made significant progress, driven by the demand for efficient and effective big data analytics solutions. Knowledge graphs (KGs) have proven utility in this arena and are rooted in a number of healthcare applications to furnish better data representation and knowledge inference. However, in conjunction with a lack of a representative KG construction taxonomy, several existing approaches in this designated domain are inadequate and inferior. This paper is the first to provide a comprehensive taxonomy and a bird's eye view of healthcare KG construction. Additionally, a thorough examination of the current state-of-the-art techniques drawn from academic works relevant to various healthcare contexts is carried out. These techniques are critically evaluated in terms of methods used for knowledge extraction, types of the knowledge base and sources, and the incorporated evaluation protocols. Finally, several research findings and existing issues in the literature are reported and discussed, opening horizons for future research in this vibrant area.
翻訳日:2022-07-12 12:55:32 公開日:2022-07-08
# (参考訳) 隠れスキーマネットワーク

Hidden Schema Networks ( http://arxiv.org/abs/2207.03777v1 )

ライセンス: CC BY 4.0
Rams\'es J. S\'anchez, Lukas Conrads, Pascal Welke, Kostadin Cvejoski and C\'esar Ojeda(参考訳) ほとんどの現代言語モデルは、構成性も意味的解釈性も欠如しているような表現を推論している。 意味コンテンツの多さは必然的に関係しているという仮定から始め、テキストデータセットから記号のネットワーク(スキーマ)を発見するニューラルネットワークモデルを導入する。 変動型オートエンコーダ(VAE)フレームワークを用いて,大域的潜在グラフ上のランダムウォーカーが訪れたノードに対応する記号列(複合表現)に文を符号化する。 文は後に生成され、選択されたシンボルシーケンスに条件付けされる。 まず,このモデルを用いて,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを実証した。 次に、事前訓練されたBERTとGPT-2言語モデルをエンコーダとデコーダとして利用し、言語モデリングタスクでモデルをトレーニングする。 定性的には、このモデルが自然言語の異なる側面を符号化するスキーマネットワークを推論できることを示す。 定量的に、このモデルはVAE言語モデリングベンチマークの最先端スコアを達成する。 実験を再現するソースコードはhttps://github.com/ramsesjsf/HiddenSchemaNetworksで公開されている。

Most modern language models infer representations that, albeit powerful, lack both compositionality and semantic interpretability. Starting from the assumption that a large proportion of semantic content is necessarily relational, we introduce a neural language model that discovers networks of symbols (schemata) from text datasets. Using a variational autoencoder (VAE) framework, our model encodes sentences into sequences of symbols (composed representation), which correspond to the nodes visited by biased random walkers on a global latent graph. Sentences are then generated back, conditioned on the selected symbol sequences. We first demonstrate that the model is able to uncover ground-truth graphs from artificially generated datasets of random token sequences. Next we leverage pretrained BERT and GPT-2 language models as encoder and decoder, respectively, to train our model on language modelling tasks. Qualitatively, our results show that the model is able to infer schema networks encoding different aspects of natural language. Quantitatively, the model achieves state-of-the-art scores on VAE language modeling benchmarks. Source code to reproduce our experiments is available at https://github.com/ramsesjsf/HiddenSchemaNetworks
翻訳日:2022-07-12 12:13:15 公開日:2022-07-08
# (参考訳) VidConv: 効率的なビデオ認識のための2D ConvNetの近代化

VidConv: A modernized 2D ConvNet for Efficient Video Recognition ( http://arxiv.org/abs/2207.03782v1 )

ライセンス: CC BY 4.0
Chuong H. Nguyen, Su Huynh, Vinh Nguyen, Ngoc Nguyen(参考訳) 2020年に導入されて以来、ViT(Vision Transformers)は多くのビジョンタスクの記録を徐々に破り続けており、ConvNetを置き換えるために 'all-you-need' と表現されることが多い。 しかし、ViTは一般的に計算量、メモリ消費量、組込みデバイスには不向きである。 さらに、最近の研究では、設計や訓練が適切に行われた場合の標準のConvNetは、精度とスケーラビリティの点で、ViTと良好に競合できることを示している。 本稿では,行動認識のための新しいバックボーンを設計するために,convnetの近代化構造を採用する。 特に私たちの主な目標は、標準操作のみをサポートするfpgaボードなど、産業製品展開のためのサービスを提供することです。 したがって,ネットワークは3Dコンボリューション,長距離アテンションプラグイン,トランスフォーマーブロックを使わずに2Dコンボリューションで構成されている。 非常に少ないエポック(5x-10x)でトレーニングされている間、バックボーンは (2+1)D と 3D の畳み込みを使ってメソッドを上回り、2つのベンチマークデータセットで ViT と同等の結果を得る。

Since being introduced in 2020, Vision Transformers (ViT) has been steadily breaking the record for many vision tasks and are often described as ``all-you-need" to replace ConvNet. Despite that, ViTs are generally computational, memory-consuming, and unfriendly for embedded devices. In addition, recent research shows that standard ConvNet if redesigned and trained appropriately can compete favorably with ViT in terms of accuracy and scalability. In this paper, we adopt the modernized structure of ConvNet to design a new backbone for action recognition. Particularly, our main target is to serve for industrial product deployment, such as FPGA boards in which only standard operations are supported. Therefore, our network simply consists of 2D convolutions, without using any 3D convolution, long-range attention plugin, or Transformer blocks. While being trained with much fewer epochs (5x-10x), our backbone surpasses the methods using (2+1)D and 3D convolution, and achieve comparable results with ViT on two benchmark datasets.
翻訳日:2022-07-12 11:45:54 公開日:2022-07-08
# (参考訳) プロキシに基づくDeep Metric Learningにおける非等方的確率的考察

A Non-isotropic Probabilistic Take on Proxy-based Deep Metric Learning ( http://arxiv.org/abs/2207.03784v1 )

ライセンス: CC BY 4.0
Michael Kirchhof, Karsten Roth, Zeynep Akata, Enkelejda Kasneci(参考訳) プロキシベースのDeep Metric Learning (DML)は、クラス代表者(プロキシ)に画像を埋め込むことで、その間の角度に関して、ディープ表現を学習する。 しかし、これは埋め込みノルムを無視し、クラスやイメージイントリックの不確実性のような追加の有益なコンテキストをもたらすことができる。 さらに、プロキシベースのDMLは、クラス内部構造を学ぶのに苦労している。 両問題を同時に解決するために,非等方的確率的プロキシベースDMLを導入する。 画像内不確かさを反映できる超球面上の方向のvon Mises-Fisher(vMF)分布をモデル化する。 さらに、クラスプロキシに対する非等方的フォン・ミゼス・フィッシャー(nivMF)分布を導出し、より複雑なクラス固有の分散を表現する。 これらのモデル間のプロキシ-イメージ間距離を測定するために,複数の分散-ポイント間および分散間メトリクスを開発し,検討する。 各フレームワークの選択は一連のアブレーション研究によって動機付けられ、これは、不確実性認識、トレーニング中のより良いグラデーション、全体的な一般化性能の改善など、プロキシベースのDMLに対する確率論的アプローチの有益な特性を示す。 後者は、標準的なDMLベンチマークの競合性能に特に反映されており、我々のアプローチは好意的に比較され、既存のプロキシベースのDMLはより確率的な処理の恩恵を受けることが示唆されている。 コードはgithub.com/ExplainableML/Probabilistic_Deep_Metric_Learningで入手できる。

Proxy-based Deep Metric Learning (DML) learns deep representations by embedding images close to their class representatives (proxies), commonly with respect to the angle between them. However, this disregards the embedding norm, which can carry additional beneficial context such as class- or image-intrinsic uncertainty. In addition, proxy-based DML struggles to learn class-internal structures. To address both issues at once, we introduce non-isotropic probabilistic proxy-based DML. We model images as directional von Mises-Fisher (vMF) distributions on the hypersphere that can reflect image-intrinsic uncertainties. Further, we derive non-isotropic von Mises-Fisher (nivMF) distributions for class proxies to better represent complex class-specific variances. To measure the proxy-to-image distance between these models, we develop and investigate multiple distribution-to-point and distribution-to-distribution metrics. Each framework choice is motivated by a set of ablational studies, which showcase beneficial properties of our probabilistic approach to proxy-based DML, such as uncertainty-awareness, better-behaved gradients during training, and overall improved generalization performance. The latter is especially reflected in the competitive performance on the standard DML benchmarks, where our approach compares favorably, suggesting that existing proxy-based DML can significantly benefit from a more probabilistic treatment. Code is available at github.com/ExplainableML/Probabilistic_Deep_Metric_Learning.
翻訳日:2022-07-12 11:02:42 公開日:2022-07-08
# (参考訳) 静的な視点からのマルチセンサシステムの連続的目標フリー外部キャリブレーション

Continuous Target-free Extrinsic Calibration of a Multi-Sensor System from a Sequence of Static Viewpoints ( http://arxiv.org/abs/2207.03785v1 )

ライセンス: CC BY 4.0
Philipp Glira, Christoph Weidinger, Johann Weichselbaum(参考訳) モバイルロボットアプリケーションは、プラットフォーム上の個々のセンサーの幾何学的位置に関する正確な情報を必要とする。 この情報は、センサの回転や変換を固定された基準座標系に対して定義した外部キャリブレーションパラメータによって与えられる。 誤ったキャリブレーションパラメータは、例えばslamのような典型的なロボット推定タスクに悪影響を及ぼす。 本研究では,ロボットの動作中にキャリブレーションパラメータを連続的に推定する手法を提案する。 パラメータ推定は、複数の静的な視点からセンサによって取得される点雲のマッチングに基づいている。 したがって,本手法は特別な校正対象を必要とせず,測定値が点雲に変換できるセンサに適用可能である。 本研究では,2つのlidarセンサ,3台のカメラ,および撮像レーダセンサからなるマルチセンサシステムのキャリブレーションにより,提案手法の適合性を示す。

Mobile robotic applications need precise information about the geometric position of the individual sensors on the platform. This information is given by the extrinsic calibration parameters which define how the sensor is rotated and translated with respect to a fixed reference coordinate system. Erroneous calibration parameters have a negative impact on typical robotic estimation tasks, e.g. SLAM. In this work we propose a new method for a continuous estimation of the calibration parameters during operation of the robot. The parameter estimation is based on the matching of point clouds which are acquired by the sensors from multiple static viewpoints. Consequently, our method does not need any special calibration targets and is applicable to any sensor whose measurements can be converted to point clouds. We demonstrate the suitability of our method by calibrating a multi-sensor system composed by 2 lidar sensors, 3 cameras, and an imaging radar sensor.
翻訳日:2022-07-12 10:35:30 公開日:2022-07-08
# (参考訳) 光流予測のための深部ネットワークによる輝度の補間

Complementing Brightness Constancy with Deep Networks for Optical Flow Prediction ( http://arxiv.org/abs/2207.03790v1 )

ライセンス: CC BY 4.0
Vincent Le Guen, Cl\'ement Rambour, Nicolas Thome(参考訳) 光フロー推定の最先端手法は、実世界のデータで最適な性能に達するために複雑な逐次トレーニングスキームを必要とするディープラーニングに依存している。 本稿では,従来の手法で使用される輝度定数モデル(bc)を明示的に活用した,コンボ深層ネットワークを提案する。 BCはいくつかの状況において近似物理モデルに反するので,データ駆動型ネットワークを補完する物理的制約付きネットワークを訓練することを提案する。 我々は,BCモデルの不確実な定量化を含む,物理前駆体とデータ駆動補体の間に一意かつ有意義な流れ分解を導入する。 最適協調を保証する分解の異なる構成要素を学習するための共同学習手法を教師ありながら半教師あり文脈でも導出する。 実験の結果、COMBOは最先端の監視ネットワーク(RAFTなど)の性能を改善し、いくつかのベンチマークで最先端の結果を得ることができた。 COMBOがBCモデルをどのように活用し、その制限に適応できるかを強調します。 最後に,本手法は訓練手順を大幅に単純化できることを示す。

State-of-the-art methods for optical flow estimation rely on deep learning, which require complex sequential training schemes to reach optimal performances on real-world data. In this work, we introduce the COMBO deep network that explicitly exploits the brightness constancy (BC) model used in traditional methods. Since BC is an approximate physical model violated in several situations, we propose to train a physically-constrained network complemented with a data-driven network. We introduce a unique and meaningful flow decomposition between the physical prior and the data-driven complement, including an uncertainty quantification of the BC model. We derive a joint training scheme for learning the different components of the decomposition ensuring an optimal cooperation, in a supervised but also in a semi-supervised context. Experiments show that COMBO can improve performances over state-of-the-art supervised networks, e.g. RAFT, reaching state-of-the-art results on several benchmarks. We highlight how COMBO can leverage the BC model and adapt to its limitations. Finally, we show that our semi-supervised method can significantly simplify the training procedure.
翻訳日:2022-07-12 10:26:55 公開日:2022-07-08
# (参考訳) プロダクトセグメンテーションのニューズベンダー問題:ロバストな学習アプローチ

Product Segmentation Newsvendor Problems: A Robust Learning Approach ( http://arxiv.org/abs/2207.03801v1 )

ライセンス: CC BY 4.0
Xiaoli Yan, Hui Yu, Jiawen Li, Frank Youhua Chen(参考訳) 本研究では,商品セグメンテーション・ニューズベンドル問題を提案し分析し,商品のセグメンテーション販売の現象を一般化する。 商品セグメンテーションのニューズベンドル問題はニューズベンドル問題の新しい変種であり、販売者はサブアイテムに対する不確定な需要の文脈で商品全体の在庫を決定することで利益を最大化することを反映している。 確率的需要の手段と共分散行列が利用可能であるが分布ではないことを仮定して、閉形式のロバスト順序決定を導出する。 しかし、最悪の場合の需要シナリオで常にトレードオフされる堅牢なアプローチは、ソリューション保守主義の懸念に直面している。 本稿では,ロバストおよび深層強化学習(drl)手法を統合し,ロバスト学習と呼ばれる新しいパラダイムを提案し,ロバストポリシの魅力を高める。 特に,人間ドメイン知識としてのロバストな決定を,教示経験,規範的決定,正規化回帰のフルプロセスなヒューマンマシン協調機構を設計し,drlのトレーニングプロセスに実装する。 シミュレーションの結果,本手法はロバストな性能を効果的に改善し,ロバストだが保守的でない様々な問題に一般化できることが確認された。 同時に、トレーニングエピソードが減り、トレーニングの安定性が向上し、行動の解釈可能性も向上し、DRLアルゴリズムの運用実践を促進できる可能性がある。 さらに、1000次元の需要シナリオを解こうとするrldqnの成功は、このアルゴリズムが人間と機械の協調によって複雑な操作問題を解決する経路を提供し、他の複雑な操作管理問題を解決する上で潜在的に有益であることを示している。

We propose and analyze a product segmentation newsvendor problem, which generalizes the phenomenon of segmentation sales of a class of perishable items. The product segmentation newsvendor problem is a new variant of the newsvendor problem, reflecting that sellers maximize profits by determining the inventory of the whole item in the context of uncertain demand for sub-items. We derive the closed-form robust ordering decision by assuming that the means and covariance matrix of stochastic demand are available but not the distributions. However, robust approaches that always trade-off in the worst-case demand scenario face a concern in solution conservatism; thus, the traditional robust schemes offer unsatisfactory. In this paper, we integrate robust and deep reinforcement learning (DRL) techniques and propose a new paradigm termed robust learning to increase the attractiveness of robust policies. Notably, we take the robust decision as human domain knowledge and implement it into the training process of DRL by designing a full-process human-machine collaborative mechanism of teaching experience, normative decision, and regularization return. Simulation results confirm that our approach effectively improves robust performance and can generalize to various problems that require robust but less conservative solutions. Simultaneously, fewer training episodes, increased training stability, and interpretability of behavior may have the opportunity to facilitate the deployment of DRL algorithms in operational practice. Furthermore, the successful attempt of RLDQN to solve the 1000-dimensional demand scenarios reveals that the algorithm provides a path to solve complex operational problems through human-machine collaboration and may have potential significance for solving other complex operational management problems.
翻訳日:2022-07-12 10:05:59 公開日:2022-07-08
# (参考訳) storehouse: 倉庫管理を最適化するための強化学習環境

Storehouse: a Reinforcement Learning Environment for Optimizing Warehouse Management ( http://arxiv.org/abs/2207.03851v1 )

ライセンス: CC BY 4.0
Julen Cestero, Marco Quartulli, Alberto Maria Metelli, Marcello Restelli(参考訳) Warehouse Management Systemsは、新しいデータインテリジェンス技術のおかげで、進化と改善を続けている。 しかし、現在の多くの最適化は特定のケースに適用されたり、手動の相互作用を非常に必要としている。 強化学習技術が活躍し、現在の最適化ポリシーに自動化と適応性を提供します。 本稿では,強化学習のための倉庫シミュレーションの定義を一般化する,カスタマイズ可能な環境であるStorehouseを提案する。 また、この環境を最先端強化学習アルゴリズムに対して検証し、その結果を人間とランダムのポリシーと比較する。

Warehouse Management Systems have been evolving and improving thanks to new Data Intelligence techniques. However, many current optimizations have been applied to specific cases or are in great need of manual interaction. Here is where Reinforcement Learning techniques come into play, providing automatization and adaptability to current optimization policies. In this paper, we present Storehouse, a customizable environment that generalizes the definition of warehouse simulations for Reinforcement Learning. We also validate this environment against state-of-the-art reinforcement learning algorithms and compare these results to human and random policies.
翻訳日:2022-07-12 10:04:38 公開日:2022-07-08
# (参考訳) 過パラメータベイズ型ニューラルネットワークの変分推論:理論的および経験的研究

Variational Inference of overparameterized Bayesian Neural Networks: a theoretical and empirical study ( http://arxiv.org/abs/2207.03859v1 )

ライセンス: CC BY 4.0
Tom Huix, Szymon Majewski, Alain Durmus, Eric Moulines, Anna Korba(参考訳) 本稿では,ベイズニューラルネットワーク(BNN)を過度にパラメータ化した状態,すなわちニューロン数が無限大になる傾向にある場合のトレーニングに使用する変分推論(VI)について検討する。 より具体的には、過パラメータ2層bnnを検討し、平均場viトレーニングにおいて重大な問題を指摘する。 この問題は、エビデンス(ELBO)上の下界を、モデルの可能性関数に対応するものと、KL(Kulback-Leibler)の事前分布と変分後部との偏差の2つの項に分解することによって生じる。 特に,理論上,実験上,klが観測数とニューロン数との比で適切に再スケールされる場合にのみ,過剰パラメータ化状態においてこれらの2つの用語の間にトレードオフが存在することを示す。 また、この比の臨界選択を強調する数値実験による理論的結果についても述べる。

This paper studies the Variational Inference (VI) used for training Bayesian Neural Networks (BNN) in the overparameterized regime, i.e., when the number of neurons tends to infinity. More specifically, we consider overparameterized two-layer BNN and point out a critical issue in the mean-field VI training. This problem arises from the decomposition of the lower bound on the evidence (ELBO) into two terms: one corresponding to the likelihood function of the model and the second to the Kullback-Leibler (KL) divergence between the prior distribution and the variational posterior. In particular, we show both theoretically and empirically that there is a trade-off between these two terms in the overparameterized regime only when the KL is appropriately re-scaled with respect to the ratio between the the number of observations and neurons. We also illustrate our theoretical results with numerical experiments that highlight the critical choice of this ratio.
翻訳日:2022-07-12 09:50:33 公開日:2022-07-08
# (参考訳) BlindSpotNet: 見ることができない場所を見る

BlindSpotNet: Seeing Where We Cannot See ( http://arxiv.org/abs/2207.03870v1 )

ライセンス: CC BY 4.0
Taichi Fukuda, Kotaro Hasegawa, Shinya Ishizaki, Shohei Nobuhara, and Ko Nishino(参考訳) 道路シーン理解のための重要な視覚的タスクとして,2次元盲点推定を導入する。 車両のバンテージポイントから隠された道路領域を自動的に検出することにより、手動運転者や自動運転システムが事故の潜在的な原因について積極的に警告することができる(例えば、子供が飛び出す可能性のある道路領域に注意を向ける)。 完全3Dで盲点を検出するのは困難で、LiDARが装備されていれば3Dの推論は違法に高価でエラーを起こしやすい。 その代わりに、単眼カメラだけで2Dの盲点を推定する方法を提案する。 これを2つのステップで達成します。 まず,単眼深度推定,セマンティクスセグメンテーション,slamを活用し,任意の運転映像に対して'接地-真実''ブラインドスポットトレーニングデータを生成する自動手法を提案する。 重要なアイデアは、3D画像ではなく2D画像から、現在見えないが近い将来見えてくる道路領域として盲点を定義することだ。 我々は、この自動オフライン盲点推定による大規模データセットを構築し、Road Blind Spot (RBS) データセットと呼ぶ。 次にBlindSpotNet(BSN)を導入し、このデータセットをフル活用して任意の運転ビデオのフレーム単位の盲点確率マップの完全自動推定を行う。 RBSデータセットの有効性とBSNの有効性を実験的に検証した。

We introduce 2D blind spot estimation as a critical visual task for road scene understanding. By automatically detecting road regions that are occluded from the vehicle's vantage point, we can proactively alert a manual driver or a self-driving system to potential causes of accidents (e.g., draw attention to a road region from which a child may spring out). Detecting blind spots in full 3D would be challenging, as 3D reasoning on the fly even if the car is equipped with LiDAR would be prohibitively expensive and error prone. We instead propose to learn to estimate blind spots in 2D, just from a monocular camera. We achieve this in two steps. We first introduce an automatic method for generating ``ground-truth'' blind spot training data for arbitrary driving videos by leveraging monocular depth estimation, semantic segmentation, and SLAM. The key idea is to reason in 3D but from 2D images by defining blind spots as those road regions that are currently invisible but become visible in the near future. We construct a large-scale dataset with this automatic offline blind spot estimation, which we refer to as Road Blind Spot (RBS) dataset. Next, we introduce BlindSpotNet (BSN), a simple network that fully leverages this dataset for fully automatic estimation of frame-wise blind spot probability maps for arbitrary driving videos. Extensive experimental results demonstrate the validity of our RBS Dataset and the effectiveness of our BSN.
翻訳日:2022-07-12 07:55:59 公開日:2022-07-08
# (参考訳) NExG: 感度近似を用いたニューラルネットワーク制御系の確率的かつガイド付き状態空間探索

NExG: Provable and Guided State Space Exploration of Neural Network Control Systems using Sensitivity Approximation ( http://arxiv.org/abs/2207.03884v1 )

ライセンス: CC BY 4.0
Manish Goyal and Miheer Dewaskar and Parasara Sridhar Duggirala(参考訳) 本稿では,ニューラルネットワークフィードバックコントローラを用いた閉ループ制御系の状態空間探索を行う新しい手法を提案する。 この手法は閉ループダイナミクスの軌道の感度を近似するものである。 このような近似器とシステムシミュレータを用いて、特定の時刻に目標状態の近傍を訪問する軌跡を生成できる誘導状態空間探索法を提案する。 本稿では,提案手法が対象状態の適切な近傍に到達する一連の軌跡を生成するという理論的枠組みを提案する。 我々は,様々な構成のニューラルネットワークフィードバックコントローラを用いて,様々なシステムに対するアプローチを徹底的に評価する。 我々は、以前の状態空間探索技術より優れており、品質(説明可能性)と性能(収束率)の両方において大幅に改善されている。 最後に、時間論理仕様のクラスを改ざんするためにアルゴリズムを適用し、最先端の改ざんツールに対する性能を評価し、既存の改ざんアルゴリズムを補完する可能性を示す。

We propose a new technique for performing state space exploration of closed loop control systems with neural network feedback controllers. Our approach involves approximating the sensitivity of the trajectories of the closed loop dynamics. Using such an approximator and the system simulator, we present a guided state space exploration method that can generate trajectories visiting the neighborhood of a target state at a specified time. We present a theoretical framework which establishes that our method will produce a sequence of trajectories that will reach a suitable neighborhood of the target state. We provide thorough evaluation of our approach on various systems with neural network feedback controllers of different configurations. We outperform earlier state space exploration techniques and achieve significant improvement in both the quality (explainability) and performance (convergence rate). Finally, we adopt our algorithm for the falsification of a class of temporal logic specification, assess its performance against a state-of-the-art falsification tool, and show its potential in supplementing existing falsification algorithms.
翻訳日:2022-07-11 18:11:55 公開日:2022-07-08
# (参考訳) ドイツ臨床テキスト処理のための医療情報抽出ワークベンチ

A Medical Information Extraction Workbench to Process German Clinical Text ( http://arxiv.org/abs/2207.03885v1 )

ライセンス: CC BY 4.0
Roland Roller, Laura Seiffe, Ammer Ayach, Sebastian M\"oller, Oliver Marten, Michael Mikhailov, Christoph Alt, Danilo Schmidt, Fabian Halleck, Marcel Naik, Wiebke Duettmann and Klemens Budde(参考訳) 背景:情報抽出と自然言語処理の領域では、アクセス可能なデータセットは結果の再生と比較に不可欠である。 公開されている実装とツールはベンチマークとして機能し、より複雑なアプリケーションの開発を促進することができる。 しかし、臨床テキスト処理の文脈では、アクセス可能なデータセットの数は少なく、既存のツールの数もそうである。 主な理由の1つは、データの感度である。 この問題は英語以外の言語でさらに明らかである。 アプローチ: この状況に対処するために、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介します。 モデルはドイツの腎臓学レポートの非同定コーパスで訓練されている。 結果: 提示されたモデルはドメイン内のデータに対して有望な結果を提供する。 さらに,本モデルはドイツ語の他の生体医学的テキストにも適用可能であることを示す。 私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。

Background: In the information extraction and natural language processing domain, accessible datasets are crucial to reproduce and compare results. Publicly available implementations and tools can serve as benchmark and facilitate the development of more complex applications. However, in the context of clinical text processing the number of accessible datasets is scarce -- and so is the number of existing tools. One of the main reasons is the sensitivity of the data. This problem is even more evident for non-English languages. Approach: In order to address this situation, we introduce a workbench: a collection of German clinical text processing models. The models are trained on a de-identified corpus of German nephrology reports. Result: The presented models provide promising results on in-domain data. Moreover, we show that our models can be also successfully applied to other biomedical text in German. Our workbench is made publicly available so it can be used out of the box, as a benchmark or transferred to related problems.
翻訳日:2022-07-11 17:41:40 公開日:2022-07-08
# (参考訳) 状態機械学習のためのネットフローの符号化

Encoding NetFlows for State-Machine Learning ( http://arxiv.org/abs/2207.03890v1 )

ライセンス: CC BY 4.0
Clinton Cao, Annibale Panichella, Sicco Verwer, Agathe Blaise, Filippo Rebecchi(参考訳) NetFlow Dataは、多くのネットワークアナリストや研究者が使用しているよく知られたネットワークログフォーマットである。 pcapに比べてこのフォーマットを使用する利点は、データが少ないこと、プライバシー侵害が少ないこと、収集や処理が容易であることである。 しかし、データが少ないことは、すべての情報が統計に要約されるため、このフォーマットが重要なネットワークの振る舞いをキャプチャできないことを意味する。 多くの研究は、例えばネットワーク内の攻撃を検出する機械学習を使うことで、この欠点を克服することを目指している。 機械学習アルゴリズムのトレーニングに使用される前に、netflowデータの事前処理に多くのアプローチが利用できる。 しかし、これらのアプローチの多くは、ネットワークデータの特性を考慮せず、既存の手法をデータに適用する。 我々は,netflow や software log のようなソフトウェアシステムに由来するデータに対して,特徴値の頻度や文脈の類似性は,値自体の類似性よりも重要であると主張する。 そこで本研究では,データ処理時の特徴値の周波数とコンテキストを直接考慮した符号化アルゴリズムを提案する。 このエンコーディングを使って異なるタイプのネットワーク動作をクラスタ化することができ、ネットワーク内の異常を検出するプロセスを支援する。 クリーンシステムの監視から得られたこれらのクラスタのウィンドウから、異常検出のための状態マシンの動作モデルを学ぶ。 これらのモデルは、NetFlowデータに存在する循環パターンと反復パターンをモデル化するのに非常に適しています。 kubernetesクラスタとよく知られた2つのパブリックなnetflowデータセットで問題を検出するために作成した新しいデータセットのエンコーディングを評価します。 得られた状態マシンモデルの性能結果は、多くの機能を使用し、トレーニング入力としてクリーンデータと感染データの両方を必要とする既存の作業に匹敵する。

NetFlow data is a well-known network log format used by many network analysts and researchers. The advantages of using this format compared to pcap are that it contains fewer data, is less privacy intrusive, and is easier to collect and process. However, having less data does mean that this format might not be able to capture important network behaviour as all information is summarised into statistics. Much research aims to overcome this disadvantage through the use of machine learning, for instance, to detect attacks within a network. Many approaches can be used to pre-process the NetFlow data before it is used to train the machine learning algorithms. However, many of these approaches simply apply existing methods to the data, not considering the specific properties of network data. We argue that for data originating from software systems, such as NetFlow or software logs, similarities in frequency and contexts of feature values are more important than similarities in the value itself. In this work, we, therefore, propose an encoding algorithm that directly takes the frequency and the context of the feature values into account when the data is being processed. Different types of network behaviours can be clustered using this encoding, thus aiding the process of detecting anomalies within the network. From windows of these clusters obtained from monitoring a clean system, we learn state machine behavioural models for anomaly detection. These models are very well-suited to modelling the cyclic and repetitive patterns present in NetFlow data. We evaluate our encoding on a new dataset that we created for detecting problems in Kubernetes clusters and on two well-known public NetFlow datasets. The obtained performance results of the state machine models are comparable to existing works that use many more features and require both clean and infected data as training input.
翻訳日:2022-07-11 17:22:16 公開日:2022-07-08
# (参考訳) マルチターゲットトロイの木馬攻撃に対する防御

Defense Against Multi-target Trojan Attacks ( http://arxiv.org/abs/2207.03895v1 )

ライセンス: CC0 1.0
Haripriya Harikumar, Santu Rana, Kien Do, Sunil Gupta, Wei Zong, Willy Susilo, Svetha Venkastesh(参考訳) ディープラーニングベースのモデルに対する敵対的攻撃は、現在のAIインフラストラクチャに重大な脅威をもたらす。 その中でもトロイの木馬の攻撃は最も防ぐのが難しい。 本稿ではまず,複数のターゲットクラスにTrojanのバックドアを導入し,画像のどこにでもトリガーを配置できるようにする,Badnetタイプの攻撃のバリエーションを紹介する。 前者はより強力になり、後者は物理的空間における攻撃を極めて容易に行うことができる。 最先端のトロイの木馬検出法はこの脅威モデルで失敗する。 この攻撃から防御するため,我々はまず,複数の画像を用いて様々な潜在的なトリガを回収するトリガーリバースエンジニアリング機構を導入する。 次に, 回収トリガーの移動性を測定することにより, 検出機構を提案する。 トロイの木馬トリガーは非常に高い転送性を持ち、他の画像も同じクラスに移動する。 本手法の実用的利点を数多く検討し,様々な画像データセットを用いて検出性能を示す。 実験の結果,本手法は最先端技術よりも優れた検出性能を示した。

Adversarial attacks on deep learning-based models pose a significant threat to the current AI infrastructure. Among them, Trojan attacks are the hardest to defend against. In this paper, we first introduce a variation of the Badnet kind of attacks that introduces Trojan backdoors to multiple target classes and allows triggers to be placed anywhere in the image. The former makes it more potent and the latter makes it extremely easy to carry out the attack in the physical space. The state-of-the-art Trojan detection methods fail with this threat model. To defend against this attack, we first introduce a trigger reverse-engineering mechanism that uses multiple images to recover a variety of potential triggers. We then propose a detection mechanism by measuring the transferability of such recovered triggers. A Trojan trigger will have very high transferability i.e. they make other images also go to the same class. We study many practical advantages of our attack method and then demonstrate the detection performance using a variety of image datasets. The experimental results show the superior detection performance of our method over the state-of-the-arts.
翻訳日:2022-07-11 17:09:07 公開日:2022-07-08
# (参考訳) SAR船体セグメンテーションのためのマスク注意相互作用とスケール拡張ネットワーク

A Mask Attention Interaction and Scale Enhancement Network for SAR Ship Instance Segmentation ( http://arxiv.org/abs/2207.03912v1 )

ライセンス: CC BY 4.0
Tianwen Zhang, and Xiaoling Zhang(参考訳) 既存の合成開口レーダ (sar) の船内セグメンテーションモデルのほとんどはマスクの相互接続を達成せず、限定的な相互作用性能を提供する。 さらに、特に小型船では、マルチスケールのインスタンスセグメンテーション性能が適度である。 これらの問題を解決するために,SAR船のインスタンスセグメンテーションのためのマスクアテンションインタラクションとスケールエンハンスメントネットワーク(MAI-SE-Net)を提案する。 MAIは、アトラス空間ピラミドプーリング(ASPP)を用いてマルチレゾリューション機能を再応答し、非局所ブロック(NLB)で長距離空間依存性をモデル化し、結合シャッフルアテンションブロック(CSAB)で相互作用の利点を向上させる。 seでは、機能ブロック(carafeb)のコンテントアウェア再組み立てを使用して、小さな船のパフォーマンスを高めるためにピラミッドのボトムレベル、スケール機能記述を改善する機能バランス操作(fbo)、機能を洗練するためのグローバルコンテキストブロック(gcb)を生成する。 MAI-SE-Netは、SSDD上の4.7%のdetec-tion APと3.4%のセグメンテーションAPと、HRSID上の3.0%の検出APと2.4%のセグメンテーションAPで、他の9つの競争モデルよりも優れていた。

Most of existing synthetic aperture radar (SAR) ship in-stance segmentation models do not achieve mask interac-tion or offer limited interaction performance. Besides, their multi-scale ship instance segmentation performance is moderate especially for small ships. To solve these problems, we propose a mask attention interaction and scale enhancement network (MAI-SE-Net) for SAR ship instance segmentation. MAI uses an atrous spatial pyra-mid pooling (ASPP) to gain multi-resolution feature re-sponses, a non-local block (NLB) to model long-range spa-tial dependencies, and a concatenation shuffle attention block (CSAB) to improve interaction benefits. SE uses a content-aware reassembly of features block (CARAFEB) to generate an extra pyramid bottom-level to boost small ship performance, a feature balance operation (FBO) to improve scale feature description, and a global context block (GCB) to refine features. Experimental results on two public SSDD and HRSID datasets reveal that MAI-SE-Net outperforms the other nine competitive models, better than the suboptimal model by 4.7% detec-tion AP and 3.4% segmentation AP on SSDD and by 3.0% detection AP and 2.4% segmentation AP on HRSID.
翻訳日:2022-07-11 16:56:24 公開日:2022-07-08
# (参考訳) BAST:バイノーラル音像定位のためのバイノーラル音声スペクトル変換器

BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization ( http://arxiv.org/abs/2207.03927v1 )

ライセンス: CC BY-SA 4.0
Sheng Kuang, Kiki van der Heijden, Siamak Mehrkanoon(参考訳) 残響環境における正確な音像定位は人間の聴覚知覚に不可欠である。 近年,畳み込みニューラルネットワーク(CNN)を用いてバイノーラルヒト聴覚経路をモデル化している。 しかし、CNNは地球規模の音響特性を捉える際の障壁を示す。 そこで本研究では,アネコ音と残響音の両環境における音響方位を予測するために,バイノーラル・オーディオ・スペクトログラム・トランスフォーマ(BAST)モデルを提案する。 共有パラメータと非共有パラメータを持つBASTモデルに対応するBAST-SPとBAST-NSPの2つの実装モードについて検討した。 減算補間積分とハイブリッド損失を伴うモデルでは,全方位で角距離1.29度,平均2乗誤差1e-3となり,cnnモデルを大きく上回った。 左半球および無響および残響環境におけるBASTの性能の探索的分析は、その一般化能力と音像定位におけるバイノーラルトランスフォーマーの実現可能性を示している。 さらに,自然残響環境における局所化過程の解釈に関するさらなる知見を与えるため,注意マップの解析を行った。

Accurate sound localization in a reverberation environment is essential for human auditory perception. Recently, Convolutional Neural Networks (CNNs) have been utilized to model the binaural human auditory pathway. However, CNN shows barriers in capturing the global acoustic features. To address this issue, we propose a novel end-to-end Binaural Audio Spectrogram Transformer (BAST) model to predict the sound azimuth in both anechoic and reverberation environments. Two modes of implementation, i.e. BAST-SP and BAST-NSP corresponding to BAST model with shared and non-shared parameters respectively, are explored. Our model with subtraction interaural integration and hybrid loss achieves an angular distance of 1.29 degrees and a Mean Square Error of 1e-3 at all azimuths, significantly surpassing CNN based model. The exploratory analysis of the BAST's performance on the left-right hemifields and anechoic and reverberation environments shows its generalization ability as well as the feasibility of binaural Transformers in sound localization. Furthermore, the analysis of the attention maps is provided to give additional insights on the interpretation of the localization process in a natural reverberant environment.
翻訳日:2022-07-11 16:43:39 公開日:2022-07-08
# (参考訳) メモリフリーオンライン変更点検出:新しいニューラルネットワークアプローチ

Memory-free Online Change-point Detection: A Novel Neural Network Approach ( http://arxiv.org/abs/2207.03932v1 )

ライセンス: CC BY 4.0
Zahra Atashgahi, Decebal Constantin Mocanu, Raymond Veldhuis, Mykola Pechenizkiy(参考訳) データ分布の急激な変化を検出する変化点検出(CPD)は、時系列解析において最も重要なタスクの1つとして認識される。 オフラインPDに関する広範な文献にもかかわらず、教師なしオンラインPDは、スケーラビリティ、ハイパーパラメータチューニング、学習制約など、大きな課題に悩まされている。 本稿では,これらの課題を緩和するために,適応型LSTM-Autoencoder Change-Point Detection (ALACPD) と呼ばれる多次元時系列からの教師なしオンラインCDDのための新しいディープラーニング手法を提案する。 ALACPDはLSTMオートエンコーダベースのニューラルネットワークを利用して、教師なしオンラインCDDを実行する。 事前に受信した入力を保持することなく、入ってくるサンプルに継続的に適応するので、メモリフリーである。 我々は,実世界の時系列CPDベンチマークを広範囲に評価する。 ALACPDは,平均して,時系列セグメンテーションの品質の観点からは最先端のCPDアルゴリズムの中で第1位であり,推定した変化点の精度において,最高のパフォーマーと同等であることを示す。 ALACPDの実装はGithub\footnote{\url{https://github.com/zahraatashgahi/ALACPD}}でオンラインで公開されている。

Change-point detection (CPD), which detects abrupt changes in the data distribution, is recognized as one of the most significant tasks in time series analysis. Despite the extensive literature on offline CPD, unsupervised online CPD still suffers from major challenges, including scalability, hyperparameter tuning, and learning constraints. To mitigate some of these challenges, in this paper, we propose a novel deep learning approach for unsupervised online CPD from multi-dimensional time series, named Adaptive LSTM-Autoencoder Change-Point Detection (ALACPD). ALACPD exploits an LSTM-autoencoder-based neural network to perform unsupervised online CPD. It continuously adapts to the incoming samples without keeping the previously received input, thus being memory-free. We perform an extensive evaluation on several real-world time series CPD benchmarks. We show that ALACPD, on average, ranks first among state-of-the-art CPD algorithms in terms of quality of the time series segmentation, and it is on par with the best performer in terms of the accuracy of the estimated change-points. The implementation of ALACPD is available online on Github\footnote{\url{https://github.com/zahraatashgahi/ALACPD}}.
翻訳日:2022-07-11 16:31:05 公開日:2022-07-08
# (参考訳) ニュース記事の公平性確保へのアプローチ

An Approach to Ensure Fairness in News Articles ( http://arxiv.org/abs/2207.03938v1 )

ライセンス: CC BY 4.0
Shaina Raza, Deepak John Reji, Dora D. Liu, Syed Raza Bashir, Usman Naseem(参考訳) レコメンダシステム、情報検索、その他の情報アクセスシステムは、非構造化テキストにおける公平性とバイアス緩和の概念を検証および適用するためのユニークな課題を示している。 本稿では,ニュース記事の公平性を保証するPythonパッケージであるDbiasを紹介する。 Dbiasは、トレーニングされた機械学習(ML)パイプラインで、テキスト(例えば、段落やニュースストーリー)を取り込み、テキストがバイアスを受けているかどうかを検出する。 そして、テキスト中のバイアスされた単語を検出し、それらをマスクし、バイアスのない、あるいは少なくともバイアスの少ない新しい単語のセットを推奨する。 データサイエンスのベストプラクティスの要素を取り入れて、このパイプラインが再現可能で使用可能なことを保証する。 実験では、このパイプラインがバイアスを軽減し、共通のニューラルネットワークアーキテクチャを上回り、ニュース記事の公平性の確保に有効であることを示す。

Recommender systems, information retrieval, and other information access systems present unique challenges for examining and applying concepts of fairness and bias mitigation in unstructured text. This paper introduces Dbias, which is a Python package to ensure fairness in news articles. Dbias is a trained Machine Learning (ML) pipeline that can take a text (e.g., a paragraph or news story) and detects if the text is biased or not. Then, it detects the biased words in the text, masks them, and recommends a set of sentences with new words that are bias-free or at least less biased. We incorporate the elements of data science best practices to ensure that this pipeline is reproducible and usable. We show in experiments that this pipeline can be effective for mitigating biases and outperforms the common neural network architectures in ensuring fairness in the news articles.
翻訳日:2022-07-11 16:07:35 公開日:2022-07-08
# (参考訳) 筋肉を用いた学習 : 人為的タスクにおけるデータ効率とロバスト性

Learning with Muscles: Benefits for Data-Efficiency and Robustness in Anthropomorphic Tasks ( http://arxiv.org/abs/2207.03952v1 )

ライセンス: CC BY 4.0
Isabell Wochner, Pierre Schumacher, Georg Martius, Dieter B\"uchler, Syn Schmitt, Daniel F.B. Haeufle(参考訳) 人間は、さまざまな動作において、堅牢性、汎用性、新しいタスクの学習という点でロボットより優れています。 高い非線形筋力は、学習に有利な固有の安定性を提供する上で大きな役割を果たすと仮定する。 近年, シミュレーション, ロボット工学の両分野において, 近代的な学習技術の適用が進んでいるが, 筋の利点を示すための詳細な分析は行われていない。 本研究は,コアロボットの課題を調査し,データ効率,ハイパーパラメータ感度,ロバスト性の観点から異なるアクチュエータ形状の性能を比較することで,このギャップを解消する。

Humans are able to outperform robots in terms of robustness, versatility, and learning of new tasks in a wide variety of movements. We hypothesize that highly nonlinear muscle dynamics play a large role in providing inherent stability, which is favorable to learning. While recent advances have been made in applying modern learning techniques to muscle-actuated systems both in simulation as well as in robotics, so far, no detailed analysis has been performed to show the benefits of muscles in this setting. Our study closes this gap by investigating core robotics challenges and comparing the performance of different actuator morphologies in terms of data-efficiency, hyperparameter sensitivity, and robustness.
翻訳日:2022-07-11 15:59:47 公開日:2022-07-08
# (参考訳) inexact proxを用いた高速化原始双対アルゴリズムによる局所勾配法の通信高速化

Communication Acceleration of Local Gradient Methods via an Accelerated Primal-Dual Algorithm with Inexact Prox ( http://arxiv.org/abs/2207.03957v1 )

ライセンス: CC BY 4.0
Abdurakhmon Sadiev and Dmitry Kovalev and Peter Richt\'arik(参考訳) Mishchenko et al (2022) の最近のブレークスルーに触発されて、局所的な勾配ステップが証明可能な通信加速をもたらすことを初めて示し、その手法と同じ通信加速度を得る代替アルゴリズム(ProxSkip)を提案する。 しかし、我々のアプローチは、非常に異なる:それは、いくつかの非自明な修正を含む、有名なchambolle and pock (2011)の方法に基づいている。 一 適度な勾配法(例えば、GD、Fast GD、FSFOM)により、ある滑らかな凸関数のprox演算子の不正確な計算を可能にする。 二) 線形収束を維持するために、二重更新ステップを注意深く修正する。 両関数の滑らかさの欠如を特徴とする双線型カップリングを伴う強凸凹サドル点問題に対して,本研究の一般的な結果が得られた。 フェデレートラーニングに適用すると、理論上より優れたProxSkipの代替手段が得られる:我々の手法は、より少ない局所ステップ(O(\kappa^{1/3})$または$O(\kappa^{1/4})$)を必要とし、代わりに$O(\kappa^{1/2})$のProxSkipに対して決定論的数を実行する。 ProxSkipと同様に、この手法はネットワーク上での最適化にも適用でき、理論的改善も得られる。

Inspired by a recent breakthrough of Mishchenko et al (2022), who for the first time showed that local gradient steps can lead to provable communication acceleration, we propose an alternative algorithm which obtains the same communication acceleration as their method (ProxSkip). Our approach is very different, however: it is based on the celebrated method of Chambolle and Pock (2011), with several nontrivial modifications: i) we allow for an inexact computation of the prox operator of a certain smooth strongly convex function via a suitable gradient-based method (e.g., GD, Fast GD or FSFOM), ii) we perform a careful modification of the dual update step in order to retain linear convergence. Our general results offer the new state-of-the-art rates for the class of strongly convex-concave saddle-point problems with bilinear coupling characterized by the absence of smoothness in the dual function. When applied to federated learning, we obtain a theoretically better alternative to ProxSkip: our method requires fewer local steps ($O(\kappa^{1/3})$ or $O(\kappa^{1/4})$, compared to $O(\kappa^{1/2})$ of ProxSkip), and performs a deterministic number of local steps instead. Like ProxSkip, our method can be applied to optimization over a connected network, and we obtain theoretical improvements here as well.
翻訳日:2022-07-11 15:30:26 公開日:2022-07-08
# (参考訳) Dreamento:睡眠ウェアラブルを活用したオープンソースのドリームエンジニアリングツールボックス

Dreamento: An open-source dream engineering toolbox utilizing sleep wearable ( http://arxiv.org/abs/2207.03977v1 )

ライセンス: CC BY 4.0
Mahdad Jafarzadeh Esfahani, Amir Hossein Daraie, Frederik D. Weber, Martin Dresler(参考訳) 我々は,ZMax(Hypnodyne Corp., Sofia, Bulgaria)ヘッドバンド睡眠ウェアラブルを活用した,ドリームエンジニアリングのためのオープンソースのPythonパッケージであるDream Engineering Toolboxを紹介する。 dreamentoの主な機能は、1)グラフィカルユーザインタフェース(gui)におけるリアルタイム記録、監視、分析、および刺激、および得られたデータのオフライン後処理である。 リアルタイムには、(1)データの記録、(2)パワースペクトル分析・ナビゲーションを含む可視化データ、(3)自動睡眠検査、(4)感覚刺激(視覚、聴覚、触覚)、(5)テキスト音声通信の確立、(6)自動および手動イベントのアノテーションの管理が可能である。 オフライン機能は、取得したデータを後処理し、ウェアラブルデータを再フォーマットし、エレクトロミオグラフィーのような非着用可能な記録モダリティと統合する機能を持つ。 dreamentoの主な応用は(lucid)ドリーム研究のために開発されたが、他の目的や測定方法にも適用可能である。

We introduce Dreamento (Dream engineering toolbox), an open-source Python package for dream engineering utilizing the ZMax (Hypnodyne Corp., Sofia, Bulgaria) headband sleep wearable. Dreamento main functions are (1) real-time recording, monitoring, analysis, and stimulation in a graphical user interface (GUI) (2) and offline post-processing of the resulting data. In real-time, Dreamento is capable of (1) recording data, (2) visualizing data, including power-spectrum analysis and navigation, (3) automatic sleep-scoring, (4) sensory stimulation (visual, auditory, tactile), (5) establishing text-to-speech communication, and (6) managing the annotations of automatic and manual events. The offline functionality aids in post-processing the acquired data with features to reformat the wearable data and integrate it with non-wearable recorded modalities such as electromyography. While the primary application of Dreamento was developed for (lucid) dreaming studies, it is open to being adapted for other purposes and measurement modalities.
翻訳日:2022-07-11 15:29:10 公開日:2022-07-08
# (参考訳) コントラスト最大化フレームワークにおけるイベント崩壊

Event Collapse in Contrast Maximization Frameworks ( http://arxiv.org/abs/2207.04007v1 )

ライセンス: CC BY 4.0
Shintaro Shiba, Yoshimitsu Aoki, Guillermo Gallego(参考訳) コンテキスト最大化(cmax)は、エゴモーションやオプティカルフロー推定など、いくつかのイベントベースのコンピュータビジョンタスクに最先端の結果を提供するフレームワークである。 しかし、イベント崩壊(event collapse)と呼ばれる問題に苦しむ可能性がある。 先行研究は問題や回避策をほとんど無視しているため、この現象を詳細に分析することが不可欠である。 本研究は,その最も単純な形態で事象の崩壊を実証し,微分幾何学と物理に基づく時空変形の第一原理を用いて崩壊計量を提案する。 提案するメトリクスが事象の崩壊を緩和し,適切に設定されたワープを損なわないことを,公開データセットに実験的に示す。 我々の知る限りでは、提案した指標に基づく正則化器は、他の手法と比較して検討された実験環境における事象崩壊に対する唯一の効果的な解決策である。 この研究が、より複雑なワープモデルに取り組むためのさらなる研究を促すことを期待しています。

Context maximization (CMax) is a framework that provides state-of-the-art results on several event-based computer vision tasks, such as ego-motion or optical flow estimation. However, it may suffer from a problem called event collapse, which is an undesired solution where events are warped into too few pixels. As prior works have largely ignored the issue or proposed workarounds, it is imperative to analyze this phenomenon in detail. Our work demonstrates event collapse in its simplest form and proposes collapse metrics by using first principles of space-time deformation based on differential geometry and physics. We experimentally show on publicly available datasets that the proposed metrics mitigate event collapse and do not harm well-posed warps. To the best of our knowledge, regularizers based on the proposed metrics are the only effective solution against event collapse in the experimental settings considered, compared with other methods. We hope that this work inspires further research to tackle more complex warp models.
翻訳日:2022-07-11 15:18:40 公開日:2022-07-08
# データの不均一性に取り組む:サンプル誘起トポロジーを用いた分散sgdのための新しい統一フレームワーク

Tackling Data Heterogeneity: A New Unified Framework for Decentralized SGD with Sample-induced Topology ( http://arxiv.org/abs/2207.03730v1 )

ライセンス: Link先を確認
Yan Huang, Ying Sun, Zehan Zhu, Changzhi Yan, Jinming Xu(参考訳) 我々は,集中型および分散型のシナリオにおける経験的リスク最小化問題に対して,いくつかの勾配に基づく確率的最適化手法を統合する汎用フレームワークを開発した。 このフレームワークは、サンプルをモデル化したノードとデバイス間通信とデバイス内確率勾配計算の両方をモデル化したエッジからなる拡張グラフの導入に基づいている。 拡張グラフのトポロジを適切に設計することにより、有名なローカルSGDおよびDSGDアルゴリズムの特殊なケースとして回復し、SAGA、ローカルSVRG、GT-SAGAといった分散還元(VR)および勾配追跡(GT)手法の統一的な視点を提供する。 また,適切な構造を持つリアプノフ関数に依存する滑らかで(強く)凸対象に対する統一収束解析も提供し,得られた速度は既存のアルゴリズムにおいて最もよく知られた結果を復元することができる。 さらに,vr法とgt法が,デバイス内およびデバイス間におけるデータの不均一性を効果的に除去し,最適な解へのアルゴリズムの正確な収束を可能にすることを明らかにした。 数値実験により,本研究の成果が確認された。

We develop a general framework unifying several gradient-based stochastic optimization methods for empirical risk minimization problems both in centralized and distributed scenarios. The framework hinges on the introduction of an augmented graph consisting of nodes modeling the samples and edges modeling both the inter-device communication and intra-device stochastic gradient computation. By designing properly the topology of the augmented graph, we are able to recover as special cases the renowned Local-SGD and DSGD algorithms, and provide a unified perspective for variance-reduction (VR) and gradient-tracking (GT) methods such as SAGA, Local-SVRG and GT-SAGA. We also provide a unified convergence analysis for smooth and (strongly) convex objectives relying on a proper structured Lyapunov function, and the obtained rate can recover the best known results for many existing algorithms. The rate results further reveal that VR and GT methods can effectively eliminate data heterogeneity within and across devices, respectively, enabling the exact convergence of the algorithm to the optimal solution. Numerical experiments confirm the findings in this paper.
翻訳日:2022-07-11 14:53:52 公開日:2022-07-08
# スケーラブルなマルチエージェント強化学習のための高性能シミュレーション

High Performance Simulation for Scalable Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2207.03945v1 )

ライセンス: Link先を確認
Jordan Langham-Lopez, Sebastian M. Schmon, Patrick Cannon(参考訳) マルチエージェント強化学習実験とオープンソースのトレーニング環境は通常、スケールで制限され、数十、時には数百の対話エージェントをサポートする。 本稿では,高性能エージェントベースモデル(ABM)フレームワークであるVogueの使用例を示す。 Vogueはマルチエージェントのトレーニング環境として機能し、数千から数万の対話エージェントをサポートしながら、GPU上で環境と強化学習エージェントの両方を実行することで、高いトレーニングスループットを維持する。 この規模の高性能マルチエージェント環境は、ABMや複雑なシステムのシミュレーションで使用する堅牢で柔軟なポリシーの学習を可能にする可能性がある。 新たに開発した2つの大規模マルチエージェントトレーニング環境を用いて,トレーニング性能を示す。 さらに、これらの環境は、時間帯の時間帯で共有RLポリシーを訓練できることを示す。

Multi-agent reinforcement learning experiments and open-source training environments are typically limited in scale, supporting tens or sometimes up to hundreds of interacting agents. In this paper we demonstrate the use of Vogue, a high performance agent based model (ABM) framework. Vogue serves as a multi-agent training environment, supporting thousands to tens of thousands of interacting agents while maintaining high training throughput by running both the environment and reinforcement learning (RL) agents on the GPU. High performance multi-agent environments at this scale have the potential to enable the learning of robust and flexible policies for use in ABMs and simulations of complex systems. We demonstrate training performance with two newly developed, large scale multi-agent training environments. Moreover, we show that these environments can train shared RL policies on time-scales of minutes and hours.
翻訳日:2022-07-11 14:53:30 公開日:2022-07-08
# 生成逆ネットワークを用いた重力波検出におけるグリッチ分類の性能向上について

On Improving the Performance of Glitch Classification for Gravitational Wave Detection by using Generative Adversarial Networks ( http://arxiv.org/abs/2207.04001v1 )

ライセンス: Link先を確認
Jianqi Yan (1 and 2), Alex P. Leung (3) and David C. Y. Hui (2) ((1) Macau University of Science and Technology (2) Chungnam National University (3) The University of Hong Kong)(参考訳) スペクトル分類は重力波データの解析において重要な役割を果たす。 本稿では,GAN(Generative Adversarial Networks)を用いた分類性能向上のためのフレームワークを提案する。 スペクトログラムに注釈をつけるにはかなりの労力と専門知識が必要であるため、トレーニング例の数は極めて限られている。 しかし、トレーニングセットのサンプルサイズが十分に大きい場合にのみ、ディープネットワークが良好に動作できることはよく知られている。 さらに、異なるクラスにおける不均衡なサンプルサイズもパフォーマンスを阻害する可能性がある。 このような問題に対処するために,GANベースのデータ拡張フレームワークを提案する。 従来の画像の標準データ拡張法はスペクトログラムには適用できないが,GANの変種であるProGANは,高解像度のオリジナル画像の品質に整合した高解像度のスペクトログラムを生成でき,良好な多様性を提供できることがわかった。 我々は、GAN生成したトレーニング用スペクトログラムを用いて、Stit Gravity Spy}データセットのグリッチを分類することで、我々のフレームワークを検証する。 提案手法は,深層ネットワークを用いたスペクトログラム分類のためのトランスファー学習の代替手段,すなわち高分解能ganを用いてデータ拡張を行うことができることを示す。 さらに, トレーニングおよび評価のためのサンプルサイズが小さい分類性能の変動を大幅に低減することができる。 我々のフレームワークでトレーニングされたネットワークを用いて、"itgravity spy} のラベル異常を伴う分光図についても検討した。

Spectrogram classification plays an important role in analyzing gravitational wave data. In this paper, we propose a framework to improve the classification performance by using Generative Adversarial Networks (GANs). As substantial efforts and expertise are required to annotate spectrograms, the number of training examples is very limited. However, it is well known that deep networks can perform well only when the sample size of the training set is sufficiently large. Furthermore, the imbalanced sample sizes in different classes can also hamper the performance. In order to tackle these problems, we propose a GAN-based data augmentation framework. While standard data augmentation methods for conventional images cannot be applied on spectrograms, we found that a variant of GANs, ProGAN, is capable of generating high-resolution spectrograms which are consistent with the quality of the high-resolution original images and provide a desirable diversity. We have validated our framework by classifying glitches in the {\it Gravity Spy} dataset with the GAN-generated spectrograms for training. We show that the proposed method can provide an alternative to transfer learning for the classification of spectrograms using deep networks, i.e. using a high-resolution GAN for data augmentation instead. Furthermore, fluctuations in classification performance with small sample sizes for training and evaluation can be greatly reduced. Using the trained network in our framework, we have also examined the spectrograms with label anomalies in {\it Gravity Spy}.
翻訳日:2022-07-11 14:53:17 公開日:2022-07-08
# (参考訳) 情報抽出における深層学習からの教訓:何が機能するか,何ができないのか,そして今後の方向性

Lessons from Deep Learning applied to Scholarly Information Extraction: What Works, What Doesn't, and Future Directions ( http://arxiv.org/abs/2207.04029v1 )

ライセンス: CC BY 4.0
Raquib Bin Yousuf, Subhodip Biswas, Kulendra Kumar Kaushal, James Dunham, Rebecca Gelles, Sathappan Muthiah, Nathan Self, Patrick Butler, Naren Ramakrishnan(参考訳) 学術論文から重要な洞察を理解することは、興味深い傾向を判断し、研究と開発についての洞察を与え、知識グラフを構築するために不可欠である。 しかし、興味深い重要な洞察のいくつかは、フルテキストを考える場合にのみ利用できる。 研究者は短い文書から情報抽出を著しく進歩させてきたが、フルテキストの学術文献から科学的実体を抽出することは難しい問題である。 本研究はEneRexと呼ばれるエンドツーエンドのエンティティエクストラクタを自動で作成し,データセットの使用状況,目的タスク,手法などの技術的側面をフルテキストの学術論文から抽出する。 さらに,ソースコードへのリンク,計算リソース,プログラム言語/ライブラリの3つの新しいファセットを全文記事から抽出した。 計算機科学分野における大規模データセットから,EneRexが重要な洞察と傾向を抽出する方法を実証する。 さらに、複数のデータセットでパイプラインをテストした結果、enerexがアートモデルの状態を改善できることが分かりました。 既存のデータセットがキャパシティに制限されていることや、enerexが既存のナレッジグラフにどのように適合するかを強調する。 また,今後の研究に向けて,ポインタに関する詳細な議論を行う。 私たちのコードとデータはhttps://github.com/DiscoveryAnalyticsCenter/EneRexで公開されています。

Understanding key insights from full-text scholarly articles is essential as it enables us to determine interesting trends, give insight into the research and development, and build knowledge graphs. However, some of the interesting key insights are only available when considering full-text. Although researchers have made significant progress in information extraction from short documents, extraction of scientific entities from full-text scholarly literature remains a challenging problem. This work presents an automated End-to-end Research Entity Extractor called EneRex to extract technical facets such as dataset usage, objective task, method from full-text scholarly research articles. Additionally, we extracted three novel facets, e.g., links to source code, computing resources, programming language/libraries from full-text articles. We demonstrate how EneRex is able to extract key insights and trends from a large-scale dataset in the domain of computer science. We further test our pipeline on multiple datasets and found that the EneRex improves upon a state of the art model. We highlight how the existing datasets are limited in their capacity and how EneRex may fit into an existing knowledge graph. We also present a detailed discussion with pointers for future research. Our code and data are publicly available at https://github.com/DiscoveryAnalyticsCenter/EneRex.
翻訳日:2022-07-11 14:50:48 公開日:2022-07-08
# UDRN:特徴選択と特徴投影のための統一次元還元ニューラルネットワーク

UDRN: Unified Dimensional Reduction Neural Network for Feature Selection and Feature Projection ( http://arxiv.org/abs/2207.03809v1 )

ライセンス: Link先を確認
Zelin Zang and Yongjie Xu and Yulan Geng and Siyuan Li and Stan Z. Li(参考訳) 次元縮小~(DR)は、高次元データを最小定義された最適化目標を持つ低次元潜在空間にマッピングする。 DR法は通常、特徴選択〜(FS)と特徴投影〜(FP)に該当する。 FSは次元の重要なサブセットの選択に重点を置いているが、データ分散(構造)を破壊するリスクがある。 一方、fpは全ての入力機能を低次元空間に結合し、データ構造の維持を目指しているが、解釈可能性やスパーシティに欠ける。 FS と FP は伝統的に非互換なカテゴリである。 本稿では,FS と FP の両手法が統合されたエンドツーエンドの多様体学習フレームワークに組み合わさって,潜在空間におけるデータサンプル間の本質的な関係を維持しつつ,基本的特徴発見を同時に行うことを提案する。 本研究では,fs と fp を互換性のあるエンドツーエンドの方法で統合した統一的なフレームワーク,unified dimensional reduction neural-network~(udrn)を開発した。 2つのスタックされたサブネットワークを用いてFSタスクとFPタスクを別々に実装することで、ニューラルネットワーク構造を改善する。 さらに、DRプロセスのデータ拡張を設計し、広範な特徴データセットを扱う際のメソッドの一般化能力を向上し、データ拡張に協力可能な損失関数を設計した。 超高次元データを含む4つの画像と4つの生物学的データセットに関する大規模な実験結果は、特に分類や可視化といった下流タスクにおいて、既存の手法(FS、FP、FS\&FPパイプライン)よりもDRNの利点を示す。

Dimensional reduction~(DR) maps high-dimensional data into a lower dimensions latent space with minimized defined optimization objectives. The DR method usually falls into feature selection~(FS) and feature projection~(FP). FS focuses on selecting a critical subset of dimensions but risks destroying the data distribution (structure). On the other hand, FP combines all the input features into lower dimensions space, aiming to maintain the data structure; but lacks interpretability and sparsity. FS and FP are traditionally incompatible categories; thus, they have not been unified into an amicable framework. We propose that the ideal DR approach combines both FS and FP into a unified end-to-end manifold learning framework, simultaneously performing fundamental feature discovery while maintaining the intrinsic relationships between data samples in the latent space. In this work, we develop a unified framework, Unified Dimensional Reduction Neural-network~(UDRN), that integrates FS and FP in a compatible, end-to-end way. We improve the neural network structure by implementing FS and FP tasks separately using two stacked sub-networks. In addition, we designed data augmentation of the DR process to improve the generalization ability of the method when dealing with extensive feature datasets and designed loss functions that can cooperate with the data augmentation. Extensive experimental results on four image and four biological datasets, including very high-dimensional data, demonstrate the advantages of DRN over existing methods~(FS, FP, and FS\&FP pipeline), especially in downstream tasks such as classification and visualization.
翻訳日:2022-07-11 14:34:53 公開日:2022-07-08
# ログデータにおける異常検出のためのディープラーニング:調査

Deep Learning for Anomaly Detection in Log Data: A Survey ( http://arxiv.org/abs/2207.03820v1 )

ライセンス: Link先を確認
Max Landauer, Sebastian Onder, Florian Skopik, Markus Wurzenberger(参考訳) 自動ログファイル解析は、システム障害などの関連するインシデントを早期に検出する。 特に、自己学習異常検出技術は、ログデータのパターンをキャプチャし、事前に異常シナリオを提示または手動でモデル化することなく、予期しないログイベントの発生をシステムオペレータに報告する。 近年,この目的のためにディープラーニングニューラルネットワークを活用するアプローチが増えている。 これらのアプローチは、従来の機械学習技術と比較して優れた検出性能を示し、不安定なデータフォーマットで同時に問題を解決する。 しかし、ディープラーニングにはさまざまなアーキテクチャがあり、生および非構造化ログデータをエンコードしてニューラルネットワークで解析するのは自明ではない。 そこで我々は,デプロイモデルの概要,データ前処理機構,異常検出手法,評価を提供する体系的文献レビューを行う。 この調査は既存のアプローチを定量的に比較するものではなく、異なるモデルアーキテクチャの関連する側面を読者が理解できるようにすることを目的としている。

Automatic log file analysis enables early detection of relevant incidents such as system failures. In particular, self-learning anomaly detection techniques capture patterns in log data and subsequently report unexpected log event occurrences to system operators without the need to provide or manually model anomalous scenarios in advance. Recently, an increasing number of approaches leveraging deep learning neural networks for this purpose have been presented. These approaches have demonstrated superior detection performance in comparison to conventional machine learning techniques and simultaneously resolve issues with unstable data formats. However, there exist many different architectures for deep learning and it is non-trivial to encode raw and unstructured log data to be analyzed by neural networks. We therefore carry out a systematic literature review that provides an overview of deployed models, data pre-processing mechanisms, anomaly detection techniques, and evaluations. The survey does not quantitatively compare existing approaches but instead aims to help readers understand relevant aspects of different model architectures and emphasizes open issues for future work.
翻訳日:2022-07-11 14:34:24 公開日:2022-07-08
# アンサンブルランダムフォレストフィルタ:逆モデリングのためのアンサンブルカルマンフィルタの代替

Ensemble random forest filter: An alternative to the ensemble Kalman filter for inverse modeling ( http://arxiv.org/abs/2207.03909v1 )

ライセンス: Link先を確認
Vanessa A. Godoy, Gian F. Napa-Garc\'ia, J. Jaime G\'omez-Hern\'andez(参考訳) アンサンブルランダムフォレストフィルタ(ERFF)は,逆モデリングを目的としたアンサンブルカルマンフィルタ(EnKF)の代替として提示される。 enkfはデータ同化アプローチであり、観測が収集されるにつれてパラメータ推定を順次予測し更新する。 更新ステップは、実現の集合から計算された実験的共分散に基づいており、その更新は、観測と予測されたシステム状態値の差の線形結合として与えられる。 ERFFは、更新ステップにおける線形結合を、ランダムなフォレストで表される非線形関数に置き換える。 このようにして、更新すべきパラメータと観測値の間の非線形関係をキャプチャし、より良い更新を生成することができる。 ERFFは、様々な不均一度(1から6.25 (ln m/d)2)、アンサンブル(50または100)における実現数、および圧計測ヘッド観測数(18または36)の様々なシナリオにおいて、圧計測ヘッド観測から対数導電率を同定する目的で実証される。 すべてのシナリオにおいて、ERFFはうまく機能し、観測されたピエゾメータヘッドを選択制御点でマッチングしながら対数伝導性空間の不均一性を再構築することができる。 ベンチマークのために、ERFFは再起動のEnKFと比較され、ERFFは使用するアンサンブル実現の回数(典型的には小さい)に対してEnKFよりも優れている。 実現の数が500に増加するとのみ、再起動するEnKFは計算コストを3倍にすることなく、ERFFの性能に匹敵する。

The ensemble random forest filter (ERFF) is presented as an alternative to the ensemble Kalman filter (EnKF) for the purpose of inverse modeling. The EnKF is a data assimilation approach that forecasts and updates parameter estimates sequentially in time as observations are being collected. The updating step is based on the experimental covariances computed from an ensemble of realizations and the updates are given as linear combinations of the differences between observations and forecasted system state values. The ERFF replaces the linear combination in the update step with a non-linear function represented by a random forest. In this way, the non-linear relationships between the parameters to be updated and the observations can be captured and a better update produced. The ERFF is demonstrated for the purpose of log-conductivity identification from piezometric head observations in a number of scenarios with varying degrees of heterogeneity (log-conductivity variances going from 1 up to 6.25 (ln m/d)2), number of realizations in the ensemble (50 or 100), and number of piezometric head observations (18 or 36). In all scenarios, the ERFF works well, being able to reconstruct the log-conductivity spatial heterogeneity while matching the observed piezometric heads at selected control points. For benchmarking purposes the ERFF is compared to the restart EnKF to find that the ERFF is superior to the EnKF for the number of ensemble realizations used (small in typical EnKF applications). Only when the number of realizations grows to 500, the restart EnKF is able to match the performance of the ERFF, albeit at triple the computational cost.
翻訳日:2022-07-11 14:34:07 公開日:2022-07-08
# 確率シミュレータのベイズ的多目的最適化:Pareto Active Learning法の拡張

Bayesian multi-objective optimization for stochastic simulators: an extension of the Pareto Active Learning method ( http://arxiv.org/abs/2207.03842v1 )

ライセンス: Link先を確認
Bruno Barracosa (L2S, GdR MASCOT-NUM), Julien Bect (L2S, GdR MASCOT-NUM), H\'elo\"ise Dutrieux Baraffe, Juliette Morin, Josselin Fournel, Emmanuel Vazquez (L2S, GdR MASCOT-NUM)(参考訳) 本稿では,入力空間が有限であり,目的関数の評価に費用がかかる確率的シミュレータの多目的最適化に焦点をあてる。 確率モデルを用いて最適化すべき関数の予測を行うベイズ最適化アルゴリズムに依存している。 提案手法は,pareto active learning (pal)アルゴリズムを拡張し,確率的設定に適したpareto-optimal solutionの推定を行う。 確率シミュレータのためのPareto Active Learning (PALS) と名付けた。 PALSの性能は, 二次元的, 二重物体的テスト問題に対する数値実験によって評価される。 PALSは、他のスカラー化に基づくランダム検索手法と比較して優れた性能を示す。

This article focuses on the multi-objective optimization of stochastic simulators with high output variance, where the input space is finite and the objective functions are expensive to evaluate. We rely on Bayesian optimization algorithms, which use probabilistic models to make predictions about the functions to be optimized. The proposed approach is an extension of the Pareto Active Learning (PAL) algorithm for the estimation of Pareto-optimal solutions that makes it suitable for the stochastic setting. We named it Pareto Active Learning for Stochastic Simulators (PALS). The performance of PALS is assessed through numerical experiments over a set of bi-dimensional, bi-objective test problems. PALS exhibits superior performance when compared to other scalarization-based and random-search approaches.
翻訳日:2022-07-11 14:33:35 公開日:2022-07-08
# 混合整数最適化問題に対するデータ駆動確率制約学習について

On data-driven chance constraint learning for mixed-integer optimization problems ( http://arxiv.org/abs/2207.03844v1 )

ライセンス: Link先を確認
Antonio Alc\'antara and Carlos Ruiz(参考訳) 実世界の最適化問題を扱うとき、意思決定者は、通常、部分的情報、未知のパラメータ、あるいはこれらの問題決定変数間の複雑な関係に関連する高いレベルの不確実性に直面します。 本研究では,確率制約と制約学習文献を融合した混合整数線形最適化問題に着目し,新しい確率制約学習法(ccl)を開発した。 確率制約は、単一の制約または一連の制約を満たす確率的信頼レベルを設定し、制約学習方法論は、予測モデルを通じて問題変数間の機能的関係をモデル化することを目的としている。 学習された制約を確立する際の主要な問題の1つは、応答変数のさらなる境界を設定する必要があるときに生じる。 この意味で、CCLは線形化可能な機械学習モデルを使用して学習変数の条件量子化を推定し、確率制約に対するデータ駆動ソリューションを提供する。 実践者が使用するオープンアクセスソフトウェアが開発されている。 さらに、CCLの利点は2つの実世界のケーススタディでテストされ、学習制約に対する確率的境界が設定されたとき、最適解に頑健さが付加されることが証明された。

When dealing with real-world optimization problems, decision-makers usually face high levels of uncertainty associated with partial information, unknown parameters, or complex relationships between these and the problem decision variables. In this work, we develop a novel Chance Constraint Learning (CCL) methodology with a focus on mixed-integer linear optimization problems which combines ideas from the chance constraint and constraint learning literature. Chance constraints set a probabilistic confidence level for a single or a set of constraints to be fulfilled, whereas the constraint learning methodology aims to model the functional relationship between the problem variables through predictive models. One of the main issues when establishing a learned constraint arises when we need to set further bounds for its response variable: the fulfillment of these is directly related to the accuracy of the predictive model and its probabilistic behaviour. In this sense, CCL makes use of linearizable machine learning models to estimate conditional quantiles of the learned variables, providing a data-driven solution for chance constraints. An open-access software has been developed to be used by practitioners. Furthermore, benefits from CCL have been tested in two real-world case studies, proving how robustness is added to optimal solutions when probabilistic bounds are set for learned constraints.
翻訳日:2022-07-11 14:33:25 公開日:2022-07-08
# キーポーズ制約を考慮した音楽駆動ダンス再生

Music-driven Dance Regeneration with Controllable Key Pose Constraints ( http://arxiv.org/abs/2207.03682v1 )

ライセンス: Link先を確認
Junfu Pu, Ying Shan(参考訳) 本稿では,鍵ポーズ制約を制御可能な音楽駆動ダンスモーション合成のための新しい枠組みを提案する。 他の制御可能な条件を伴わない音楽のみに基づくダンス動作シーケンスを生成する手法とは対照的に、この作業は、音楽によって駆動される高品質なダンス動作の合成と、ユーザが行うカスタマイズされたポーズを目標としている。 本モデルでは,音楽と動作表現のための2つのシングルモーダルトランスコーダと,ダンス動作生成のためのクロスモーダルトランスコーダを含む。 クロスモーダルトランスデコーダは、隣接する位置埋め込みを導入して、対応する位置におけるキーポーズとの整合性を維持するスムーズなダンスモーションシーケンスを合成する機能を実現する。 このような機構により、デコーダはキーポーズと対応する位置に対してより敏感になる。 ダンス合成モデルでは, 定量的評価と定性評価の両面において良好な性能を示し, 提案手法の有効性を実証する。

In this paper, we propose a novel framework for music-driven dance motion synthesis with controllable key pose constraint. In contrast to methods that generate dance motion sequences only based on music without any other controllable conditions, this work targets on synthesizing high-quality dance motion driven by music as well as customized poses performed by users. Our model involves two single-modal transformer encoders for music and motion representations and a cross-modal transformer decoder for dance motions generation. The cross-modal transformer decoder achieves the capability of synthesizing smooth dance motion sequences, which keeps a consistency with key poses at corresponding positions, by introducing the local neighbor position embedding. Such mechanism makes the decoder more sensitive to key poses and the corresponding positions. Our dance synthesis model achieves satisfactory performance both on quantitative and qualitative evaluations with extensive experiments, which demonstrates the effectiveness of our proposed method.
翻訳日:2022-07-11 14:30:41 公開日:2022-07-08
# SST-Calib:LIDARとカメラの同時時空間パラメータ校正

SST-Calib: Simultaneous Spatial-Temporal Parameter Calibration between LIDAR and Camera ( http://arxiv.org/abs/2207.03704v1 )

ライセンス: Link先を確認
Akio Kodaira, Yiyang Zhou, Pengwei Zang, Wei Zhan, Masayoshi Tomizuka(参考訳) 複数の入力モダリティからの情報によって、センサー融合ベースのアルゴリズムは、通常、ロボット工学において単独のモダリティよりも優れている。 カメラとLIDARは相補的な意味情報と深度情報を持ち、複雑な運転環境における検出タスクの典型的な選択である。 しかし、ほとんどのカメラとLIDARの融合アルゴリズムでは、センサースイートの校正が性能に大きな影響を与える。 より具体的には、検出アルゴリズムは通常、入力として複数のセンサ間の正確な幾何学的関係を必要とする。 このようなセンサースイートの準備には、慎重に設計された校正リグと正確な同期機構が含まれ、通常、準備プロセスはオフラインで行われる。 本研究では,カメラLIDARスイートのキャリブレーションにおける幾何学的パラメータと時間的パラメータを共同で推定するセグメンテーションに基づくフレームワークを提案する。 まず、セマンティクスセグメンテーションマスクをセンサのモダリティの両方に適用し、キャリブレーションパラメータを画素方向の双方向損失により最適化する。 我々は,光流からの速度情報を時間パラメータに組み込んだ。 監視はセグメンテーションレベルでのみ行われるため、フレームワーク内ではキャリブレーションラベルは必要ない。 提案アルゴリズムは,KITTIデータセット上でテストし,幾何学的パラメータと時間的パラメータの正確なリアルタイムキャリブレーションを示す。

With information from multiple input modalities, sensor fusion-based algorithms usually out-perform their single-modality counterparts in robotics. Camera and LIDAR, with complementary semantic and depth information, are the typical choices for detection tasks in complicated driving environments. For most camera-LIDAR fusion algorithms, however, the calibration of the sensor suite will greatly impact the performance. More specifically, the detection algorithm usually requires an accurate geometric relationship among multiple sensors as the input, and it is often assumed that the contents from these sensors are captured at the same time. Preparing such sensor suites involves carefully designed calibration rigs and accurate synchronization mechanisms, and the preparation process is usually done offline. In this work, a segmentation-based framework is proposed to jointly estimate the geometrical and temporal parameters in the calibration of a camera-LIDAR suite. A semantic segmentation mask is first applied to both sensor modalities, and the calibration parameters are optimized through pixel-wise bidirectional loss. We specifically incorporated the velocity information from optical flow for temporal parameters. Since supervision is only performed at the segmentation level, no calibration label is needed within the framework. The proposed algorithm is tested on the KITTI dataset, and the result shows an accurate real-time calibration of both geometric and temporal parameters.
翻訳日:2022-07-11 14:30:25 公開日:2022-07-08
# TGRMPT:ツアーガイドロボット用ヘッドショルダー支援マルチパーソントラッカーと大規模データセット

TGRMPT: A Head-Shoulder Aided Multi-Person Tracker and a New Large-Scale Dataset for Tour-Guide Robot ( http://arxiv.org/abs/2207.03726v1 )

ライセンス: Link先を確認
Wen Wang, Shunda Hu, Shiqiang Zhu, Wei Song, Zheyuan Lin, Tianlei Jin, Zonghao Mu, Yuanhai Zhou(参考訳) 安全かつ丁寧に機能するサービスロボットは、特にTour-Guide Robot(TGR)のために、周囲の人々をしっかりと追跡する必要がある。 しかし、既存のマルチオブジェクトトラッキング(MOT)やマルチパーソントラッキング(MPT)メソッドは、以下の理由でTGRには適用できない。 1. 関連する大規模データセットの欠如 2.トラッカーを評価するための適切な指標の欠如。 本研究では,約5.6時間の注釈付きビデオと450以上の長期トラジェクトリを含む,TGRの視覚的知覚タスクを対象とし,TGRDBデータセットを提示する。 さらに,データセットを用いてトラッカを評価するための,より適切な指標を提案する。 本研究の一環として,頭部と全身の情報を組み込んだMPTシステムTGRMPTについて述べる。 我々は、コードとデータセットをhttps://github.com/wenwenzju/tgrmptでリリースした。

A service robot serving safely and politely needs to track the surrounding people robustly, especially for Tour-Guide Robot (TGR). However, existing multi-object tracking (MOT) or multi-person tracking (MPT) methods are not applicable to TGR for the following reasons: 1. lacking relevant large-scale datasets; 2. lacking applicable metrics to evaluate trackers. In this work, we target the visual perceptual tasks for TGR and present the TGRDB dataset, a novel large-scale multi-person tracking dataset containing roughly 5.6 hours of annotated videos and over 450 long-term trajectories. Besides, we propose a more applicable metric to evaluate trackers using our dataset. As part of our work, we present TGRMPT, a novel MPT system that incorporates information from head shoulder and whole body, and achieves state-of-the-art performance. We have released our codes and dataset in https://github.com/wenwenzju/TGRMPT.
翻訳日:2022-07-11 14:30:04 公開日:2022-07-08
# ドローン支援検査のループにおける人間維持のための話者キーワード分類のマルチタスクモデル

A Multi-tasking Model of Speaker-Keyword Classification for Keeping Human in the Loop of Drone-assisted Inspection ( http://arxiv.org/abs/2207.04027v1 )

ライセンス: Link先を確認
Yu Li, Anisha Parsan, Bill Wang, Penghao Dong, Shanshan Yao, Ruwen Qin(参考訳) 音声コマンドは、半自律的なドローンによって実施される民間インフラ検査のループに検査官を留めておくのに好ましい通信媒体である。 不均一および動的インスペクタのグループからジョブ固有のコマンドを理解するためには、グループに対して費用対効果の高いモデルを開発し、グループ変更時に容易に適応する必要がある。 本稿では,共有分散コラボレートアーキテクチャを持つマルチタスクディープラーニングモデルの構築を動機とする。 このアーキテクチャにより、2つの分類タスクが特徴抽出器を共有し、それから特徴投影と協調訓練を通じて抽出された特徴に介在する主観的特徴とキーワード固有の特徴を分割することができる。 本研究で収集した検査キーワードデータセットを用いて,5つの認定対象のベースモデルを訓練し,検証した。 このモデルは、認可された検査官のキーワードの分類において95.3%以上の精度を達成した。 話者分類における平均精度は99.2%である。 モデルがプールされたトレーニングデータから学習するよりリッチなキーワード表現のため、新しいインスペクタにベースモデルを適用するには、キーワード毎に5発話など、インスペクタからの小さなトレーニングデータのみが必要になる。 この話者分類スコアを検査官検証に用いると、認定検査官の検証で少なくとも93.9%、不正検査検出で76.1\%の成功率が得られる。 さらに,提案モデルが公開データセット上の大規模グループに適用可能であることを示す。 本稿では、労働者の不均質性、労働者のダイナミクス、ジョブの不均質性など、ai支援のロボットインタラクションに直面する課題に対処するソリューションを提供する。

Audio commands are a preferred communication medium to keep inspectors in the loop of civil infrastructure inspection performed by a semi-autonomous drone. To understand job-specific commands from a group of heterogeneous and dynamic inspectors, a model needs to be developed cost-effectively for the group and easily adapted when the group changes. This paper is motivated to build a multi-tasking deep learning model that possesses a Share-Split-Collaborate architecture. This architecture allows the two classification tasks to share the feature extractor and then split subject-specific and keyword-specific features intertwined in the extracted features through feature projection and collaborative training. A base model for a group of five authorized subjects is trained and tested on the inspection keyword dataset collected by this study. The model achieved a 95.3% or higher mean accuracy in classifying the keywords of any authorized inspectors. Its mean accuracy in speaker classification is 99.2%. Due to the richer keyword representations that the model learns from the pooled training data, adapting the base model to a new inspector requires only a little training data from that inspector, like five utterances per keyword. Using the speaker classification scores for inspector verification can achieve a success rate of at least 93.9% in verifying authorized inspectors and 76.1\% in detecting unauthorized ones. Further, the paper demonstrates the applicability of the proposed model to larger-size groups on a public dataset. This paper provides a solution to addressing challenges facing AI-assisted human-robot interaction, including worker heterogeneity, worker dynamics, and job heterogeneity.
翻訳日:2022-07-11 14:29:03 公開日:2022-07-08
# LSTM RNNによるリチウムイオン電池サイクル寿命予測

Predicting Li-ion Battery Cycle Life with LSTM RNN ( http://arxiv.org/abs/2207.03687v1 )

ライセンス: Link先を確認
Pengcheng Xu, Yunfeng Lu(参考訳) リチウムイオン電池の信頼性と安全な使用には,有効で正確な寿命予測が重要である。 この研究は、長期の短期記憶リカレントニューラルネットワークモデルを訓練し、様々なサイクルと電圧における放電容量の逐次データから学習し、異なる条件下での電池セルのサイクル寿命予測器として機能させる。 最初の60~80サイクルの実験データを用いて,約80個のサンプルを用いて予測精度を予測した。

Efficient and accurate remaining useful life prediction is a key factor for reliable and safe usage of lithium-ion batteries. This work trains a long short-term memory recurrent neural network model to learn from sequential data of discharge capacities at various cycles and voltages and to work as a cycle life predictor for battery cells cycled under different conditions. Using experimental data of first 60 - 80 cycles, our model achieves promising prediction accuracy on test sets of around 80 samples.
翻訳日:2022-07-11 14:27:36 公開日:2022-07-08
# 偏光モデルにおけるグラディエント蛍光のインシシシトバイアス:ミラー蛍光と等価性について

Implicit Bias of Gradient Descent on Reparametrized Models: On Equivalence to Mirror Descent ( http://arxiv.org/abs/2207.04036v1 )

ライセンス: Link先を確認
Zhiyuan Li, Tianhao Wang, JasonD. Lee, Sanjeev Arora(参考訳) 過パラメータモデルにおける勾配降下の暗黙のバイアスを理解する取り組みの一環として、いくつかの結果は、過パラメータモデルのトレーニング軌道が異なる目的のミラー降下として理解されることを示す。 ここでの主な結果は、この設定における以前のすべての結果を含む可換パラメトリゼーション(commuting parametrization)と呼ばれる概念の下でこの現象を特徴づけることである。 通勤パラメトリゼーションを伴う勾配流は、関連するルジャンドル関数を持つ連続ミラー降下と等価であることを示す。 逆に、ルジャンドル関数を持つ連続ミラー降下は、関連する通勤パラメトリゼーションを伴う勾配流と見なすことができる。 後者の結果はナッシュの埋め込み定理に依存する。

As part of the effort to understand implicit bias of gradient descent in overparametrized models, several results have shown how the training trajectory on the overparametrized model can be understood as mirror descent on a different objective. The main result here is a characterization of this phenomenon under a notion termed commuting parametrization, which encompasses all the previous results in this setting. It is shown that gradient flow with any commuting parametrization is equivalent to continuous mirror descent with a related Legendre function. Conversely, continuous mirror descent with any Legendre function can be viewed as gradient flow with a related commuting parametrization. The latter result relies upon Nash's embedding theorem.
翻訳日:2022-07-11 14:27:27 公開日:2022-07-08
# 神経磁場による感覚誘発幻覚の再生

Reproducing sensory induced hallucinations via neural fields ( http://arxiv.org/abs/2207.03901v1 )

ライセンス: Link先を確認
Cyprien Tamekue, Dario Prandi, Yacine Chitour(参考訳) 一次視覚野v1における感覚誘発性皮質パターンの理解は、生理的動機づけと人間の知覚と視覚組織の理解を改善するためにも重要な課題である。 本研究では,脳皮質活動が幾何学的幻覚様刺激によって駆動される場合の視覚野のパターン形成に焦点をあてる。 特に,mackay効果(nature, 1957)やbillock and tsou experience(pnas,2007)などの新しい心理物理学的結果の再現を可能にする感覚誘発幻覚の理論的枠組みを提案する。

Understanding sensory-induced cortical patterns in the primary visual cortex V1 is an important challenge both for physiological motivations and for improving our understanding of human perception and visual organisation. In this work, we focus on pattern formation in the visual cortex when the cortical activity is driven by a geometric visual hallucination-like stimulus. In particular, we present a theoretical framework for sensory-induced hallucinations which allows one to reproduce novel psychophysical results such as the MacKay effect (Nature, 1957) and the Billock and Tsou experiences (PNAS, 2007).
翻訳日:2022-07-11 14:27:13 公開日:2022-07-08
# (参考訳) 敵対的リスク、補間、およびラベルノイズの法則

A law of adversarial risk, interpolation, and label noise ( http://arxiv.org/abs/2207.03933v1 )

ライセンス: CC BY 4.0
Daniel Paleka, Amartya Sanyal(参考訳) 教師あり学習において,データ中のラベルノイズは,様々な状況下でテスト精度のペナルティを伴わずに補間可能であることが示されている。 ラベルノイズを補間することで、逆の脆弱性が引き起こされ、データ分布の観点からラベルノイズと逆のリスクの依存性を示す最初の定理が証明される。 我々の結果は学習アルゴリズムの帰納的バイアスを考慮せずにほぼ鋭い。 また, インダクティブバイアスはラベルノイズの効果をより強くすることを示す。

In supervised learning, it has been shown that label noise in the data can be interpolated without penalties on test accuracy under many circumstances. We show that interpolating label noise induces adversarial vulnerability, and prove the first theorem showing the dependence of label noise and adversarial risk in terms of the data distribution. Our results are almost sharp without accounting for the inductive bias of the learning algorithm. We also show that inductive bias makes the effect of label noise much stronger.
翻訳日:2022-07-11 14:26:33 公開日:2022-07-08
# 粗いフレームによるビデオベーススモーキー車両検出

Video-based Smoky Vehicle Detection with A Coarse-to-Fine Framework ( http://arxiv.org/abs/2207.03708v1 )

ライセンス: Link先を確認
Xiaojiang Peng, Xiaomao Fan, Qingyang Wu, Jieyan Zhao, Pan Gao(参考訳) ビデオにおける自動スモーキー車両検出は、従来の高価なリモートセンシングシステムよりも優れたソリューションであり、環境保護機関の紫外線照明装置を備えている。 しかし、後輪道路やごちゃごちゃした道路から来る影や濡れた地域から車両煙を区別することは困難であり、注釈データの制限により悪化する可能性がある。 本稿では,まず,75,000個のアノテートされたスモーキー車両画像を用いた実世界の大規模スモーキー車両データセットについて紹介する。 公平なアルゴリズム比較を可能にするため、セグメントレベルのアノテーションを備えた163の長いビデオを含むスモーキーな車両ビデオデータセットを構築した。 さらに,より効率的なスモーキー車両検出のためのCoDeS(Coarse-to-fine Deep Smoky Vehicle Detection)フレームワークを提案する。 CoDeSはまず、軽量のYOLO検出器を高速な煙探知に利用し、次に煙と車両のマッチング戦略を適用して非車両の煙を除去し、最終的に精巧に設計された3Dモデルを用いて空間時間空間における結果をさらに改善する。 4つの指標の大規模な実験により、我々のフレームワークは手作りの特徴に基づく手法や最近の高度な手法よりもはるかに優れていることが示された。 コードとデータセットはhttps://github.com/pengxj/smokyvehicleでリリースされる。

Automatic smoky vehicle detection in videos is a superior solution to the traditional expensive remote sensing one with ultraviolet-infrared light devices for environmental protection agencies. However, it is challenging to distinguish vehicle smoke from shadow and wet regions coming from rear vehicle or clutter roads, and could be worse due to limited annotated data. In this paper, we first introduce a real-world large-scale smoky vehicle dataset with 75,000 annotated smoky vehicle images, facilitating the effective training of advanced deep learning models. To enable fair algorithm comparison, we also build a smoky vehicle video dataset including 163 long videos with segment-level annotations. Moreover, we present a new Coarse-to-fine Deep Smoky vehicle detection (CoDeS) framework for efficient smoky vehicle detection. The CoDeS first leverages a light-weight YOLO detector for fast smoke detection with high recall rate, and then applies a smoke-vehicle matching strategy to eliminate non-vehicle smoke, and finally uses a elaborately-designed 3D model to further refine the results in spatial temporal space. Extensive experiments in four metrics demonstrate that our framework is significantly superior to those hand-crafted feature based methods and recent advanced methods. The code and dataset will be released at https://github.com/pengxj/smokyvehicle.
翻訳日:2022-07-11 14:10:24 公開日:2022-07-08
# 手話ビデオ生成における先行構造と時間的整合性の共同調和

Jointly Harnessing Prior Structures and Temporal Consistency for Sign Language Video Generation ( http://arxiv.org/abs/2207.03714v1 )

ライセンス: Link先を確認
Yucheng Suo, Zhedong Zheng, Xiaohan Wang, Bang Zhang and Yi Yang(参考訳) 手話(英: sign language)とは、感情や感情を表現するための窓である。 しかし、人々が短期間で手話を学ぶことは依然として困難である。 この実世界の課題に対処するために,本研究では,特定の単語の手話映像にユーザ写真を転送できるモーショントランスファーシステムについて検討する。 特に、所定のチュートリアル映像から映像の動作を抽出しながら、出力映像の出現内容が提供されたユーザ画像から出力される。 本研究では,手話生成に最先端のモーショントランスファー手法を採用する際の2つの主要な限界を観察する:(1)既存のモーショントランスファー作業は,人体の以前の幾何学的知識を無視する。 2)従来の画像アニメーション手法では,訓練段階では画像ペアのみを入力とし,映像内の時間情報を十分に活用できなかった。 上記の制約に対処するために,手話ビデオ生成のための時間的整合性を持つ人間の事前構造を協調的に最適化する構造対応時整合ネットワーク(STCNet)を提案する。 この論文には2つの主な貢献がある。 1) ボディキーポイントの事前知識を提供するために, 微細なスケルトン検出器を利用する。 このようにして、有効な範囲におけるキーポイントの動きを確実にし、モデルをより説明しやすく、堅牢にする。 2) 生成したビデオの連続性を保証するために, 短期的サイクル損失と長期的サイクル損失という2つのサイクル整合性損失を導入する。 2つの損失とキーポイント検出ネットワークをエンドツーエンドに最適化する。

Sign language is the window for people differently-abled to express their feelings as well as emotions. However, it remains challenging for people to learn sign language in a short time. To address this real-world challenge, in this work, we study the motion transfer system, which can transfer the user photo to the sign language video of specific words. In particular, the appearance content of the output video comes from the provided user image, while the motion of the video is extracted from the specified tutorial video. We observe two primary limitations in adopting the state-of-the-art motion transfer methods to sign language generation:(1) Existing motion transfer works ignore the prior geometrical knowledge of the human body. (2) The previous image animation methods only take image pairs as input in the training stage, which could not fully exploit the temporal information within videos. In an attempt to address the above-mentioned limitations, we propose Structure-aware Temporal Consistency Network (STCNet) to jointly optimize the prior structure of human with the temporal consistency for sign language video generation. There are two main contributions in this paper. (1) We harness a fine-grained skeleton detector to provide prior knowledge of the body keypoints. In this way, we ensure the keypoint movement in a valid range and make the model become more explainable and robust. (2) We introduce two cycle-consistency losses, i.e., short-term cycle loss and long-term cycle loss, which are conducted to assure the continuity of the generated video. We optimize the two losses and keypoint detector network in an end-to-end manner.
翻訳日:2022-07-11 14:10:00 公開日:2022-07-08
# バウンディングボックスの不一致:完全な自由度を持つ物体検出のための3dメトリクス

Bounding Box Disparity: 3D Metrics for Object Detection With Full Degree of Freedom ( http://arxiv.org/abs/2207.03720v1 )

ライセンス: Link先を確認
Michael G. Adam, Martin Piccolrovazzi, Sebastian Eger, Eckehard Steinbach(参考訳) 2次元画像における物体検出のための最も一般的な評価基準は、Intersection over Union (IoU)である。 3Dオブジェクト検出のための既存のIoUメトリックの実装は通常、1つ以上の自由度を無視している。 本稿では,まず3次元有界箱の解析解を導出する。 第2の貢献として、体積対体積距離の閉形式解を導出する。 最後に、バウンディングボックスの不一致を結合正の連続計量として提案する。 スタンドアロンのpython関数として,Open3Dライブラリの拡張やROSノードとして,これら3つのメトリクスのオープンソース実装を提供しています。

The most popular evaluation metric for object detection in 2D images is Intersection over Union (IoU). Existing implementations of the IoU metric for 3D object detection usually neglect one or more degrees of freedom. In this paper, we first derive the analytic solution for three dimensional bounding boxes. As a second contribution, a closed-form solution of the volume-to-volume distance is derived. Finally, the Bounding Box Disparity is proposed as a combined positive continuous metric. We provide open source implementations of the three metrics as standalone python functions, as well as extensions to the Open3D library and as ROS nodes.
翻訳日:2022-07-11 14:09:27 公開日:2022-07-08
# GEMS:グラフの生成モデルを用いたシーン拡張

GEMS: Scene Expansion using Generative Models of Graphs ( http://arxiv.org/abs/2207.03729v1 )

ライセンス: Link先を確認
Rishi Agarwal, Tirupati Saketh Chandra, Vaidehi Patil, Aniruddha Mahapatra, Kuldeep Kulkarni, Vishwa Vinay(参考訳) 画像検索に基づくアプリケーションは、RGB画像やセマンティックラベルマップのような密度の高いピクセルレベルの表現ではなく、オブジェクトやそれらの関係のような高レベルな概念を表す中間空間の編集と連想を必要とする。 我々は,このような表現であるシーングラフに注目し,新たなノード(オブジェクト)と対応する関係を追加することにより,入力シードグラフを充実させる新たなシーン展開タスクを提案する。 そこで我々は,まず新しいノードを予測し,新たに予測されたノードとグラフ内の前のノードとの関係を予測するための複数のステップを含む逐次予測タスクとしてシーングラフの拡張を定式化する。 本稿では,ノード間のクラスタリングパターンを保持する観察グラフのシーケンシング戦略を提案する。 さらに、外部知識を活用してグラフ生成モデルをトレーニングし、ノード予測をより一般化します。 ノード間の予測関係(オブジェクト)の評価におけるグラフ生成問題に対する既存の最大平均差分法(MMD)に基づくメトリクスの不効率のため、予測関係の異なる側面を包括的に評価する新しいメトリクスを設計する。 視覚ゲノムとvrdデータセットに関する広範な実験を行い、標準mmdベースのメトリクスと提案するメトリクスを用いて拡張されたシーングラフを評価した。 提案手法であるGEMSにより生成されたグラフは,GraphRNNのようなベースライン法よりもシーングラフの実際の分布をよりよく表現する。

Applications based on image retrieval require editing and associating in intermediate spaces that are representative of the high-level concepts like objects and their relationships rather than dense, pixel-level representations like RGB images or semantic-label maps. We focus on one such representation, scene graphs, and propose a novel scene expansion task where we enrich an input seed graph by adding new nodes (objects) and the corresponding relationships. To this end, we formulate scene graph expansion as a sequential prediction task involving multiple steps of first predicting a new node and then predicting the set of relationships between the newly predicted node and previous nodes in the graph. We propose a sequencing strategy for observed graphs that retains the clustering patterns amongst nodes. In addition, we leverage external knowledge to train our graph generation model, enabling greater generalization of node predictions. Due to the inefficiency of existing maximum mean discrepancy (MMD) based metrics for graph generation problems in evaluating predicted relationships between nodes (objects), we design novel metrics that comprehensively evaluate different aspects of predicted relations. We conduct extensive experiments on Visual Genome and VRD datasets to evaluate the expanded scene graphs using the standard MMD-based metrics and our proposed metrics. We observe that the graphs generated by our method, GEMS, better represent the real distribution of the scene graphs than the baseline methods like GraphRNN.
翻訳日:2022-07-11 14:09:19 公開日:2022-07-08
# 完全畳み込みネットワークによる橋梁加速度測定解析に基づく仮想軸検出器

Virtual Axle Detector based on Analysis of Bridge Acceleration Measurements by Fully Convolutional Network ( http://arxiv.org/abs/2207.03758v1 )

ライセンス: Link先を確認
Steven Robert Lorenzen, Henrik Riedel, Maximilian Michael Rupp, Leon Schmeiser, Hagen Berthold, Andrei Firus, Jens Schneider(参考訳) BWIM (Bridge Weigh-In-Motion) 法の実用化においては、車両通過時の車輪や軸の位置が前提条件であることが多い。 従来の軸検出器や橋梁タイプ特定手法の使用を避けるため,橋のどの地点でも加速度計を配置して軸検出を行う新しい手法を提案する。 極端に単純で理解しやすいモデルを開発するために、アクセル検出タスクは回帰問題ではなく二項分類問題として実装される。 このモデルは、連続ウェーブレット変換の形で信号を処理するための完全畳み込みネットワークとして実装されている。 これにより、任意の長さの通路を最大効率で単一のステップで処理でき、単一の評価で複数のスケールを利用することができる。 これにより,橋梁の特定の構造タイプに制限されることなく,仮想軸検出器 (vad) として機能する橋梁構造物のどの位置でも加速度信号を利用することができる。 提案手法を検証するため,長距離鉄道路線の鋼製トラフ橋に記録された3787本の列車通路を解析した。 測定結果から,本モデルでは軸の95%が検出され,従来未確認であった134,800個の軸のうち128,599個の軸が正しく検出された。 合計すると、軸の90%は最大空間誤差20cmで検出でき、最大速度は$v_{\mathrm{max}}=56,3~\mathrm{m/s}$である。 本研究では,実動作条件下でも加速度計をVADとして使用できることを示す。

In the practical application of the Bridge Weigh-In-Motion (BWIM) methods, the position of the wheels or axles during the passage of a vehicle is in most cases a prerequisite. To avoid the use of conventional axle detectors and bridge type specific methods, we propose a novel method for axle detection through the placement of accelerometers at any point of a bridge. In order to develop a model that is as simple and comprehensible as possible, the axle detection task is implemented as a binary classification problem instead of a regression problem. The model is implemented as a Fully Convolutional Network to process signals in the form of Continuous Wavelet Transforms. This allows passages of any length to be processed in a single step with maximum efficiency while utilising multiple scales in a single evaluation. This enables our method to use acceleration signals at any location of the bridge structure serving as Virtual Axle Detectors (VADs) without being limited to specific structural types of bridges. To test the proposed method, we analysed 3787 train passages recorded on a steel trough railway bridge of a long-distance traffic line. Our results on the measurement data show that our model detects 95% of the axes, thus, 128,599 of 134,800 previously unseen axles were correctly detected. In total, 90% of the axles can be detected with a maximum spatial error of 20cm, with a maximum velocity of $v_{\mathrm{max}}=56,3~\mathrm{m/s}$. The analysis shows that our developed model can use accelerometers as VADs even under real operating conditions.
翻訳日:2022-07-11 14:08:54 公開日:2022-07-08
# 対向学習を用いた顔偽造検出のための固有の共通識別特徴学習に向けて

Towards Intrinsic Common Discriminative Features Learning for Face Forgery Detection using Adversarial Learning ( http://arxiv.org/abs/2207.03776v1 )

ライセンス: Link先を確認
Wanyi Zhuang, Qi Chu, Haojie Yuan, Changtao Miao, Bin Liu, Nenghai Yu(参考訳) 既存の顔偽造検出法は通常、顔偽造検出を二項分類問題として扱い、深層畳み込みニューラルネットワークを用いて識別的特徴を学習する。 理想的な識別機能は、顔画像のリアル/フェイクラベルにのみ関連付けるべきである。 しかし,バニラ分類ネットワークによって得られた特徴は,偽造法や顔識別法などの不要な特性と相関している。 このような現象は、特に一般化能力において偽造検出性能を制限する。 そこで本研究では, 対人学習を利用して, 顔の偽造法や顔の同一性に対する否定的な効果を排除し, 顔の偽造検出に内在する識別的特徴を学習する手法を提案する。 顔認識モデルから得られた類似性情報に基づいて、顔の身元を識別する特殊な識別器を設計する。 敵対的学習の助けを借りて, 顔偽造検出モデルは, 偽造方法と顔識別の効果を排除し, 一般的な識別特徴を抽出することを学ぶ。 広範な実験により,提案手法の有効性が,データセット内評価とデータセット間評価の両方において実証された。

Existing face forgery detection methods usually treat face forgery detection as a binary classification problem and adopt deep convolution neural networks to learn discriminative features. The ideal discriminative features should be only related to the real/fake labels of facial images. However, we observe that the features learned by vanilla classification networks are correlated to unnecessary properties, such as forgery methods and facial identities. Such phenomenon would limit forgery detection performance especially for the generalization ability. Motivated by this, we propose a novel method which utilizes adversarial learning to eliminate the negative effect of different forgery methods and facial identities, which helps classification network to learn intrinsic common discriminative features for face forgery detection. To leverage data lacking ground truth label of facial identities, we design a special identity discriminator based on similarity information derived from off-the-shelf face recognition model. With the help of adversarial learning, our face forgery detection model learns to extract common discriminative features through eliminating the effect of forgery methods and facial identities. Extensive experiments demonstrate the effectiveness of the proposed method under both intra-dataset and cross-dataset evaluation settings.
翻訳日:2022-07-11 14:08:28 公開日:2022-07-08
# Beyond Transfer Learning: アクションローカライゼーションのための共同ファインタニング

Beyond Transfer Learning: Co-finetuning for Action Localisation ( http://arxiv.org/abs/2207.03807v1 )

ライセンス: Link先を確認
Anurag Arnab, Xuehan Xiong, Alexey Gritsenko, Rob Romijnders, Josip Djolonga, Mostafa Dehghani, Chen Sun, Mario Lu\v{c}i\'c, Cordelia Schmid(参考訳) 転送学習は、小さなターゲットデータセットでディープネットワークをトレーニングするための主要なパラダイムである。 モデルは通常、分類のための大きな ``upstream'' データセットで事前トレーニングされ、そのようなラベルは収集が容易であり、アクションローカライズのような ``downstream'' タスクで微調整される。 本稿では,このアプローチに疑問を呈し,複数の ``upstream'' タスクと ``downstream'' タスクで単一モデルを同時にトレーニングする共精細化を提案する。 同じ総量のデータを使用する場合、コフィニットチューニングは従来の転送学習よりも優れており、また、我々のアプローチを複数の ``upstream'' データセットに拡張し、パフォーマンスをさらに向上させる方法も示しています。 特に、協調調整は、レギュライゼーション効果があるため、ダウンストリームタスクにおけるレアクラスのパフォーマンスを大幅に向上させ、異なるデータセット間で転送される特徴表現をネットワークが学べるようにします。 最後に、パブリックなビデオ分類データセットと組み合わせることで、挑戦的なAVAおよびAVA-Kineticsデータセット上での時空間的行動ローカライゼーションの最先端結果が達成され、複雑なモデルを開発する最近の研究よりも優れています。

Transfer learning is the predominant paradigm for training deep networks on small target datasets. Models are typically pretrained on large ``upstream'' datasets for classification, as such labels are easy to collect, and then finetuned on ``downstream'' tasks such as action localisation, which are smaller due to their finer-grained annotations. In this paper, we question this approach, and propose co-finetuning -- simultaneously training a single model on multiple ``upstream'' and ``downstream'' tasks. We demonstrate that co-finetuning outperforms traditional transfer learning when using the same total amount of data, and also show how we can easily extend our approach to multiple ``upstream'' datasets to further improve performance. In particular, co-finetuning significantly improves the performance on rare classes in our downstream task, as it has a regularising effect, and enables the network to learn feature representations that transfer between different datasets. Finally, we observe how co-finetuning with public, video classification datasets, we are able to achieve state-of-the-art results for spatio-temporal action localisation on the challenging AVA and AVA-Kinetics datasets, outperforming recent works which develop intricate models.
翻訳日:2022-07-11 14:08:06 公開日:2022-07-08
# 属性表現のコントラスト最適化によるゼロショット学習の促進

Boosting Zero-shot Learning via Contrastive Optimization of Attribute Representations ( http://arxiv.org/abs/2207.03824v1 )

ライセンス: Link先を確認
Yu Du, Miaojing Shi, Fangyun Wei, Guoqi Li(参考訳) Zero-shot Learning (ZSL) は、トレーニングセットにサンプルを持たないクラスを認識することを目的としている。 代表的なソリューションの1つは、視覚特徴と対応するクラスセマンティクスを関連付けて、新しいクラスを認識する埋め込み関数を直接学習することである。 このソリューションには多くの方法が拡張されており、最近のものは特に属性機能のような画像からリッチな特徴を抽出することに熱心である。 これらの属性特徴は通常、個々の画像内で抽出されるが、同じ属性に属する画像にまたがる特徴の共通特性は強調されない。 本稿では,画像以外の属性のプロトタイプを明示的に学習し,画像内の属性レベルの特徴を対照的に最適化することにより,ZSLを向上する新たなフレームワークを提案する。 新しいプロトタイプ生成モジュールは属性セマンティクスから属性プロトタイプを生成するように設計され、ハードな例ベースのコントラスト最適化スキームは、埋め込み空間における属性レベル機能を強化するために導入された。 フレームワークの構築と,CUB,SUN,AwA2という3つの標準ベンチマークの実験を行うために,CNNベースとTransformerベースの2つのバックボーンについて検討する。 これらのベンチマークの結果から,本手法は芸術の状態をかなり改善することが示された。 私たちのコードはhttps://github.com/dyabel/CoAR-ZSL.gitで公開されます。

Zero-shot learning (ZSL) aims to recognize classes that do not have samples in the training set. One representative solution is to directly learn an embedding function associating visual features with corresponding class semantics for recognizing new classes. Many methods extend upon this solution, and recent ones are especially keen on extracting rich features from images, e.g. attribute features. These attribute features are normally extracted within each individual image; however, the common traits for features across images yet belonging to the same attribute are not emphasized. In this paper, we propose a new framework to boost ZSL by explicitly learning attribute prototypes beyond images and contrastively optimizing them with attribute-level features within images. Besides the novel architecture, two elements are highlighted for attribute representations: a new prototype generation module is designed to generate attribute prototypes from attribute semantics; a hard example-based contrastive optimization scheme is introduced to reinforce attribute-level features in the embedding space. We explore two alternative backbones, CNN-based and transformer-based, to build our framework and conduct experiments on three standard benchmarks, CUB, SUN, AwA2. Results on these benchmarks demonstrate that our method improves the state of the art by a considerable margin. Our codes will be available at https://github.com/dyabel/CoAR-ZSL.git
翻訳日:2022-07-11 14:07:41 公開日:2022-07-08
# 連続法 : ハミルトニアン領域翻訳

Continuous Methods : Hamiltonian Domain Translation ( http://arxiv.org/abs/2207.03843v1 )

ライセンス: Link先を確認
Emmanuel Menier (LISN, Inria, IRT SystemX), Michele Alessandro Bucci (Inria), Mouadh Yagoubi (IRT SystemX), Lionel Mathelin (LISN), Marc Schoenauer (Inria, LISN)(参考訳) 本稿ではドメイン翻訳の新しいアプローチを提案する。 生成モデルと動的システムの間に確立された並列性を活用することにより,Cycle-GANアーキテクチャの再構成を提案する。 モデルをハミルトニアン構造に埋め込むことで、ドメイン翻訳のための連続的で表現的かつ最も重要な可逆生成モデルが得られる。

This paper proposes a novel approach to domain translation. Leveraging established parallels between generative models and dynamical systems, we propose a reformulation of the Cycle-GAN architecture. By embedding our model with a Hamiltonian structure, we obtain a continuous, expressive and most importantly invertible generative model for domain translation.
翻訳日:2022-07-11 14:07:18 公開日:2022-07-08
# 逐次事前学習:リモートセンシング領域のための無ラベルデータを用いた知識伝達学習戦略

Consecutive Pretraining: A Knowledge Transfer Learning Strategy with Relevant Unlabeled Data for Remote Sensing Domain ( http://arxiv.org/abs/2207.03860v1 )

ライセンス: Link先を確認
Tong Zhang, Peng Gao, Hao Dong, Yin Zhuang, Guanqun Wang, Wei Zhang, He Chen(参考訳) 現在、教師付き学習の下では、大規模自然シーンデータセットによって事前学習され、いくつかの特定のタスクラベリングデータに微調整されたモデルは、知識伝達学習を支配したパラダイムである。 リモートセンシング領域(RSD)におけるタスク認識モデルトレーニングにおけるコンセンサスソリューションの状況に到達した。 残念ながら、画像データのさまざまなカテゴリとデータアノテーションの厳しい課題のため、RSDの大規模事前トレーニングをサポートするのに十分な、かつ均一なリモートセンシングデータセットは存在しない。 さらに、教師付き学習による大規模自然景観データセットの事前学習モデルや、様々な下流タスクを直接微調整することは、避けられないラベリングノイズ、厳しいドメインギャップ、タスク認識の不一致の影響を受けやすい粗末な手法であると考えられる。 そこで本稿では,自然言語処理(nlp)における自己教師付き事前学習と強力な視覚トランスフォーマー(vit)アーキテクチャを考えると,自然言語処理(nature scene domain)のドメイン間ギャップを徐々に橋渡しし,知識をrsdに転送できる,逐次事前学習(sequal pretraining,cspt)と呼ばれる簡潔で効果的な知識伝達学習戦略を提案する。 提案するcsptは、タスク認識モデルトレーニングのためのラベルなしデータの巨大な可能性もリリースできる。 最後に、rsd内の12のデータセットに対して、3種類の下流タスク(シーン分類、オブジェクト検出、土地被覆分類など)と2種類のイメージングデータ(光とsarなど)を含む広範な実験を行った。 その結果,提案するcsptをタスク認識モデルトレーニングに利用することにより,rsdのダウンストリームタスクのほとんどが,前回の教師付き事前学習-then-fine-tuning法を上回ることができ,しかも高価なラベリング消費や注意深いモデル設計を伴わずに最先端(sota)性能を上回ることさえ可能となった。

Currently, under supervised learning, a model pretrained by a large-scale nature scene dataset and then fine-tuned on a few specific task labeling data is the paradigm that has dominated the knowledge transfer learning. It has reached the status of consensus solution for task-aware model training in remote sensing domain (RSD). Unfortunately, due to different categories of imaging data and stiff challenges of data annotation, there is not a large enough and uniform remote sensing dataset to support large-scale pretraining in RSD. Moreover, pretraining models on large-scale nature scene datasets by supervised learning and then directly fine-tuning on diverse downstream tasks seems to be a crude method, which is easily affected by inevitable labeling noise, severe domain gaps and task-aware discrepancies. Thus, in this paper, considering the self-supervised pretraining and powerful vision transformer (ViT) architecture, a concise and effective knowledge transfer learning strategy called ConSecutive PreTraining (CSPT) is proposed based on the idea of not stopping pretraining in natural language processing (NLP), which can gradually bridge the domain gap and transfer knowledge from the nature scene domain to the RSD. The proposed CSPT also can release the huge potential of unlabeled data for task-aware model training. Finally, extensive experiments are carried out on twelve datasets in RSD involving three types of downstream tasks (e.g., scene classification, object detection and land cover classification) and two types of imaging data (e.g., optical and SAR). The results show that by utilizing the proposed CSPT for task-aware model training, almost all downstream tasks in RSD can outperform the previous method of supervised pretraining-then-fine-tuning and even surpass the state-of-the-art (SOTA) performance without any expensive labeling consumption and careful model design.
翻訳日:2022-07-11 14:06:51 公開日:2022-07-08
# ビデオからの自己監督学習のための画素レベルの対応

Pixel-level Correspondence for Self-Supervised Learning from Video ( http://arxiv.org/abs/2207.03866v1 )

ライセンス: Link先を確認
Yash Sharma, Yi Zhu, Chris Russell, Thomas Brox(参考訳) 自己教師付き学習はラベル無しで効果的な表現学習を可能にするが、視覚ではビデオは依然として比較的未解決の監督源である。 これを解決するために,ビデオからの高密度コントラスト学習手法であるPixelレベル対応(PiCo)を提案する。 光流による点の追跡により,各点の局所的特徴を一致させることができる対応写像を得る。 我々は、画像分類の性能を損なうことなく、複数の高密度予測タスクにおける自己教師付きベースラインよりも優れた、標準ベンチマーク上のPiCoを検証する。

While self-supervised learning has enabled effective representation learning in the absence of labels, for vision, video remains a relatively untapped source of supervision. To address this, we propose Pixel-level Correspondence (PiCo), a method for dense contrastive learning from video. By tracking points with optical flow, we obtain a correspondence map which can be used to match local features at different points in time. We validate PiCo on standard benchmarks, outperforming self-supervised baselines on multiple dense prediction tasks, without compromising performance on image classification.
翻訳日:2022-07-11 14:06:12 公開日:2022-07-08
# シーケンスベース視覚位置認識のための逐次ディスクリプタの学習

Learning Sequential Descriptors for Sequence-based Visual Place Recognition ( http://arxiv.org/abs/2207.03868v1 )

ライセンス: Link先を確認
Riccardo Mereu, Gabriele Trivigno, Gabriele Berton, Carlo Masone, Barbara Caputo(参考訳) ロボット工学において、視覚的位置認識(Visual Place Recognition)は、ビデオストリームを入力として受け取り、既知の場所の地図内のロボットの現在位置の仮説を生成する連続的なプロセスである。 このタスクには、実アプリケーションに堅牢でスケーラブルで効率的なテクニックが必要です。 本研究は、逐次記述子を用いた技法の詳細な分類法を提案し、個々の画像から情報を融合するための異なるメカニズムを強調した。 この分類は、これらの異なるアーキテクチャ選択の長所と短所を示す実験結果の完全なベンチマークによって支持されている。 既存のシーケンシャルディスクリプタ法と比較して,CNNのバックボーンの代わりにトランスフォーマーの生存可能性をさらに検討し,異なるデータセット上での先行状態を向上するSeqVLADという,アドホックなシーケンスレベルのアグリゲータを提案する。 コードはhttps://github.com/vandal-vpr/vg-transformersで入手できる。

In robotics, Visual Place Recognition is a continuous process that receives as input a video stream to produce a hypothesis of the robot's current position within a map of known places. This task requires robust, scalable, and efficient techniques for real applications. This work proposes a detailed taxonomy of techniques using sequential descriptors, highlighting different mechanism to fuse the information from the individual images. This categorization is supported by a complete benchmark of experimental results that provides evidence on the strengths and weaknesses of these different architectural choices. In comparison to existing sequential descriptors methods, we further investigate the viability of Transformers instead of CNN backbones, and we propose a new ad-hoc sequence-level aggregator called SeqVLAD, which outperforms prior state of the art on different datasets. The code is available at https://github.com/vandal-vpr/vg-transformers.
翻訳日:2022-07-11 14:06:00 公開日:2022-07-08
# RePFormer:ロバストな顔ランドマーク検出のためのリファインメントピラミッド変換器

RePFormer: Refinement Pyramid Transformer for Robust Facial Landmark Detection ( http://arxiv.org/abs/2207.03917v1 )

ライセンス: Link先を確認
Jinpeng Li, Haibo Jin, Shengcai Liao, Ling Shao, Pheng-Ann Heng(参考訳) 本稿では,顔のランドマーク検出のためのRefinement Pyramid Transformer (RePFormer)を提案する。 ほとんどの顔のランドマーク検出器は、代表的画像特徴の学習に焦点を当てている。 しかし、これらのCNNベースの特徴表現はランドマークの内部構造を無視し、ランドマークとコンテキストの関係を無視するため、複雑な現実世界のシナリオを扱うには不十分である。 本研究では,顔のランドマーク検出タスクを,ピラミッド記憶に沿ったランドマーククエリの精製として定式化する。 具体的には、ピラミッドトランスフォーマーヘッド(PTH)を導入し、ランドマーク間のホモロジー関係とランドマークとクロススケールコンテキストの間の異種関係の両方を構築する。 さらに、動的ランドマークリファインメント(dlr)モジュールは、ランドマークレグレッションをエンドツーエンドリファインメント手順に分解するように設計されており、動的に集約されたクエリが残留座標予測に変換される。 4つの顔のランドマーク検出ベンチマークとそれらの様々なサブセットによる大規模な実験結果から、我々のフレームワークの優れた性能と高い堅牢性を示す。

This paper presents a Refinement Pyramid Transformer (RePFormer) for robust facial landmark detection. Most facial landmark detectors focus on learning representative image features. However, these CNN-based feature representations are not robust enough to handle complex real-world scenarios due to ignoring the internal structure of landmarks, as well as the relations between landmarks and context. In this work, we formulate the facial landmark detection task as refining landmark queries along pyramid memories. Specifically, a pyramid transformer head (PTH) is introduced to build both homologous relations among landmarks and heterologous relations between landmarks and cross-scale contexts. Besides, a dynamic landmark refinement (DLR) module is designed to decompose the landmark regression into an end-to-end refinement procedure, where the dynamically aggregated queries are transformed to residual coordinates predictions. Extensive experimental results on four facial landmark detection benchmarks and their various subsets demonstrate the superior performance and high robustness of our framework.
翻訳日:2022-07-11 14:05:44 公開日:2022-07-08
# 画像中のフリガナテキストの検出

Detection of Furigana Text in Images ( http://arxiv.org/abs/2207.03960v1 )

ライセンス: Link先を確認
Nikolaj Kj{\o}ller Bjerregaard, Veronika Cheplygina, Stefan Heinrich(参考訳) 振仮名(ふりがな)は、日本語の音符。 これらを検出することで、光学式文字認識(ocr)の性能向上や、フルリガナを正しく表示することで、より正確な日本語メディアのデジタルコピーを作成することができる。 本プロジェクトは、日本の書物や漫画における振替の検出に焦点を当てている。 一般に日本語テキストの検出は研究されているが、現在では振仮名の検出方法が提案されていない。 日本語のメディアと古仮名の注釈を含む新しいデータセットを構築した。 本稿では,オブジェクト検出に使用される評価プロトコルに類似したデータに対する評価基準を提案する。 本稿では, 数学的形態学および連結成分分析に基づくフラガナの検出手法を提案する。 データセットの検出を評価し,テキスト抽出のための異なる手法を比較した。 また、書籍や漫画などの異なる種類の画像についても個別に評価し、各タイプの画像の課題について議論する。 提案手法はデータセット上でF1スコアの76\%に達する。 この方法は通常の本ではうまく機能するが、漫画や不規則な形式の本ではうまく機能しない。 最後に,提案手法により,manga109データセット上でocrの性能を5\%向上できることを示す。 ソースコードは \texttt{\url{https://github.com/nikolajkb/FuriganaDetection}} から入手できる。

Furigana are pronunciation notes used in Japanese writing. Being able to detect these can help improve optical character recognition (OCR) performance or make more accurate digital copies of Japanese written media by correctly displaying furigana. This project focuses on detecting furigana in Japanese books and comics. While there has been research into the detection of Japanese text in general, there are currently no proposed methods for detecting furigana. We construct a new dataset containing Japanese written media and annotations of furigana. We propose an evaluation metric for such data which is similar to the evaluation protocols used in object detection except that it allows groups of objects to be labeled by one annotation. We propose a method for detection of furigana that is based on mathematical morphology and connected component analysis. We evaluate the detections of the dataset and compare different methods for text extraction. We also evaluate different types of images such as books and comics individually and discuss the challenges of each type of image. The proposed method reaches an F1-score of 76\% on the dataset. The method performs well on regular books, but less so on comics, and books of irregular format. Finally, we show that the proposed method can improve the performance of OCR by 5\% on the manga109 dataset. Source code is available via \texttt{\url{https://github.com/nikolajkb/FuriganaDetection}}
翻訳日:2022-07-11 14:05:26 公開日:2022-07-08
# k-meansマスク変圧器

k-means Mask Transformer ( http://arxiv.org/abs/2207.04044v1 )

ライセンス: Link先を確認
Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hatwig Adam, Alan Yuille, Liang-Chieh Chen(参考訳) ビジョンタスクにおけるトランスフォーマーの台頭は、ネットワークバックボーンの設計を進歩させるだけでなく、エンドツーエンドの画像認識(オブジェクト検出やパノプティックセグメンテーションなど)を実現するための新しいページも開始する。 自然言語処理(NLP)から派生したトランスフォーマーアーキテクチャは、配列内の要素間の長距離相互作用を効果的に学習する。 しかし、既存のトランスフォーマーベースの視覚モデルは、言語と画像、特に空間的に平坦なピクセル特徴の非常に大きなシーケンス長の違いを無視して、単にnlpからアイデアを借用しているだけである。 これはその後、ピクセル機能とオブジェクトクエリの相互接続における学習を妨げる。 本稿では,画素とオブジェクトクエリの関係を再考し,クラスタリングプロセスとしてのクロスアテンション学習の再構築を提案する。 従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformer(kMaX-DeepLab)を開発した。 その結果、当社のkmax-deeplabは、58.0%pqのcoco valセットと68.4%pq、44.0%ap、83.5%miouのcityscapes valセットの新たな最先端性能を実現しました。 私たちは、視覚タスクに適したトランスフォーマーの設計に光を当てられることを願っています。 コードとモデルはhttps://github.com/google-research/deeplab2で利用可能

The rise of transformers in vision tasks not only advances network backbone designs, but also starts a brand-new page to achieve end-to-end image recognition (e.g., object detection and panoptic segmentation). Originated from Natural Language Processing (NLP), transformer architectures, consisting of self-attention and cross-attention, effectively learn long-range interactions between elements in a sequence. However, we observe that most existing transformer-based vision models simply borrow the idea from NLP, neglecting the crucial difference between languages and images, particularly the extremely large sequence length of spatially flattened pixel features. This subsequently impedes the learning in cross-attention between pixel features and object queries. In this paper, we rethink the relationship between pixels and object queries and propose to reformulate the cross-attention learning as a clustering process. Inspired by the traditional k-means clustering algorithm, we develop a k-means Mask Xformer (kMaX-DeepLab) for segmentation tasks, which not only improves the state-of-the-art, but also enjoys a simple and elegant design. As a result, our kMaX-DeepLab achieves a new state-of-the-art performance on COCO val set with 58.0% PQ, and Cityscapes val set with 68.4% PQ, 44.0% AP, and 83.5% mIoU without test-time augmentation or external dataset. We hope our work can shed some light on designing transformers tailored for vision tasks. Code and models are available at https://github.com/google-research/deeplab2
翻訳日:2022-07-11 14:05:06 公開日:2022-07-08
# SPLADEモデルの効率化に関する研究

An Efficiency Study for SPLADE Models ( http://arxiv.org/abs/2207.03834v1 )

ライセンス: Link先を確認
Carlos Lassance and St\'ephane Clinchant(参考訳) 遅延と効率の問題は、複数のハードウェアおよびソフトウェアテストシナリオのために、プレトレーニング言語モデル(PLM)に基づいたIRモデルを評価する際にしばしば見過ごされる。 それでも、効率性はそのようなシステムの重要な部分であり、見落としてはいけない。 本稿では,最先端のゼロショット性能を実現したSPLADEモデルの効率向上と,TRECコレクションの競争結果に焦点をあてる。 スプレイド効率は正則化係数によって制御できるが、この正則化を制御するだけでは十分ではないことが示されている。 SPLADEと従来の検索システム間の遅延ギャップを低減するため,クエリのL1正規化,ドキュメント/クエリエンコーダの分離,FLOPS正規化中間学習,高速クエリエンコーダの使用など,いくつかの手法を提案する。 我々のベンチマークでは、ドメイン内のデータの性能指標を増やしながら、これらのモデルの効率を大幅に改善できることが示されています。 計算の制約の下では、従来のbm25と同等のレイテンシ(4ms差以下)を持ちながら、ドメイン内のデータに対する最先端のシングルステージニューラルネットワークランカとして、 \textit{ similar performance(10\% mrr@10 reduction未満)を持つ最初のニューラルモデルを提案する。

Latency and efficiency issues are often overlooked when evaluating IR models based on Pretrained Language Models (PLMs) in reason of multiple hardware and software testing scenarios. Nevertheless, efficiency is an important part of such systems and should not be overlooked. In this paper, we focus on improving the efficiency of the SPLADE model since it has achieved state-of-the-art zero-shot performance and competitive results on TREC collections. SPLADE efficiency can be controlled via a regularization factor, but solely controlling this regularization has been shown to not be efficient enough. In order to reduce the latency gap between SPLADE and traditional retrieval systems, we propose several techniques including L1 regularization for queries, a separation of document/query encoders, a FLOPS-regularized middle-training, and the use of faster query encoders. Our benchmark demonstrates that we can drastically improve the efficiency of these models while increasing the performance metrics on in-domain data. To our knowledge, {we propose the first neural models that, under the same computing constraints, \textit{achieve similar latency (less than 4ms difference) as traditional BM25}, while having \textit{similar performance (less than 10\% MRR@10 reduction)} as the state-of-the-art single-stage neural rankers on in-domain data}.
翻訳日:2022-07-11 14:04:34 公開日:2022-07-08
# 潜在バンディットにおける情報収集

Information-Gathering in Latent Bandits ( http://arxiv.org/abs/2207.03635v1 )

ライセンス: Link先を確認
Alexander Galozy, Slawomir Nowaczyk(参考訳) 潜在的なバンディット問題では、学習者は報酬分布にアクセスでき、非定常変種の場合、環境の遷移モデルを利用できる。 報酬分布は腕と未知の潜伏状態に条件付けられている。 目標は、報酬履歴を使って潜伏状態を特定することで、将来最適な武器選択を可能にすることである。 遅延バンディット設定は、リコメンデータや意思決定支援システムなど多くの実践的応用に役立ち、リッチデータによってオンライン学習を伴う環境モデルのオフライン推定が重要なコンポーネントとして残されている。 この設定の以前の解決策は、情報収集武器の価値を明示的に考慮せず、エージェントの国家に対する信念に従って、常に最高の報酬アームを選択する。 このような情報収集アームは、必ずしも最高の報酬を提供するものではないため、常に最高の報酬アームを選択するエージェントによって選択されることはない。 本稿では,潜伏バンディットにおける情報収集手法を提案する。 特定の報酬構造と遷移行列が与えられた場合、状態に対するエージェントの信念が与えられたベストアームの選択は、より高い後悔を引き起こすことを示す。 さらに, 腕を慎重に選択することで, 状態分布の推定精度が向上し, 将来的な腕選択により累積的後悔度が低下することを示す。 提案手法は, 合成と実世界の両方のデータセットで評価され, 最先端の手法に対する後悔の度合いが著しく向上した。

In the latent bandit problem, the learner has access to reward distributions and -- for the non-stationary variant -- transition models of the environment. The reward distributions are conditioned on the arm and unknown latent states. The goal is to use the reward history to identify the latent state, allowing for the optimal choice of arms in the future. The latent bandit setting lends itself to many practical applications, such as recommender and decision support systems, where rich data allows the offline estimation of environment models with online learning remaining a critical component. Previous solutions in this setting always choose the highest reward arm according to the agent's beliefs about the state, not explicitly considering the value of information-gathering arms. Such information-gathering arms do not necessarily provide the highest reward, thus may never be chosen by an agent that chooses the highest reward arms at all times. In this paper, we present a method for information-gathering in latent bandits. Given particular reward structures and transition matrices, we show that choosing the best arm given the agent's beliefs about the states incurs higher regret. Furthermore, we show that by choosing arms carefully, we obtain an improved estimation of the state distribution, and thus lower the cumulative regret through better arm choices in the future. We evaluate our method on both synthetic and real-world data sets, showing significant improvement in regret over state-of-the-art methods.
翻訳日:2022-07-11 14:01:56 公開日:2022-07-08
# 可変長時系列の時間依存分類のための畳み込みニューラルネットワーク

Convolutional Neural Networks for Time-dependent Classification of Variable-length Time Series ( http://arxiv.org/abs/2207.03718v1 )

ライセンス: Link先を確認
Azusa Sawada, Taiki Miyagawa, Akinori Ebihara, Shoji Yachida and Toshinori Hosoi(参考訳) 時系列データは観測過程の中断により、限られた時間範囲内でのみ取得されることが多い。 そのような部分的時系列を分類するには、考慮する必要がある 1) 可変長データ 2) 異なるタイムスタンプ。 最初の問題に対処するために、既存の畳み込みニューラルネットワークは畳み込み層の後にグローバルプールを使用して長さ差をキャンセルする。 このアーキテクチャは、時間的相関関係全体を長いデータに組み込むことと、短いデータの特徴的崩壊を避けることのトレードオフに悩まされる。 このトレードオフを解決するために,適応層数から特徴を集約する適応型マルチスケールプーリングを提案する。 さらに,第2の問題を解決するために,中間的特徴に観測タイムスタンプを組み込んだ時間符号化を提案する。 プライベートデータセットとUCR/UEA時系列アーカイブの実験により、モジュールは特に部分時系列として得られた短いデータに基づいて分類精度を向上させることが示された。

Time series data are often obtained only within a limited time range due to interruptions during observation process. To classify such partial time series, we need to account for 1) the variable-length data drawn from 2) different timestamps. To address the first problem, existing convolutional neural networks use global pooling after convolutional layers to cancel the length differences. This architecture suffers from the trade-off between incorporating entire temporal correlations in long data and avoiding feature collapse for short data. To resolve this tradeoff, we propose Adaptive Multi-scale Pooling, which aggregates features from an adaptive number of layers, i.e., only the first few layers for short data and more layers for long data. Furthermore, to address the second problem, we introduce Temporal Encoding, which embeds the observation timestamps into the intermediate features. Experiments on our private dataset and the UCR/UEA time series archive show that our modules improve classification accuracy especially on short data obtained as partial time series.
翻訳日:2022-07-11 14:01:32 公開日:2022-07-08
# 勾配に基づくメタラーニングのサブスペース構造について

On the Subspace Structure of Gradient-Based Meta-Learning ( http://arxiv.org/abs/2207.03804v1 )

ライセンス: Link先を確認
Gustaf Tegn\'er, Alfredo Reichlin, Hang Yin, M{\aa}rten Bj\"orkman, Danica Kragic(参考訳) 本稿では,GBML(Gradient-Based Meta-Learning)手法の適応後パラメータの分布分析を行う。 これまでの研究では、画像分類の場合、この適応がネットワークの最後の層でのみ行われることに気付きました。 タスク空間と同じ次元の低次元の \emph{subspace} 上でパラメータが更新されるというより一般的な概念を提案し、回帰についてもこれが成り立つことを示す。 さらに、誘導部分空間構造は、一般的な少数ショット学習データセットのタスク空間の固有次元を推定する方法を提供する。

In this work we provide an analysis of the distribution of the post-adaptation parameters of Gradient-Based Meta-Learning (GBML) methods. Previous work has noticed how, for the case of image-classification, this adaption only takes place on the last layers of the network. We propose the more general notion that parameters are updated over a low-dimensional \emph{subspace} of the same dimensionality as the task-space and show that this holds for regression as well. Furthermore, the induced subspace structure provides a method to estimate the intrinsic dimension of the space of tasks of common few-shot learning datasets.
翻訳日:2022-07-11 14:01:15 公開日:2022-07-08
# (参考訳) 現在のような時間がない: 自動コメントモデレーションにおける言語変化の影響

No Time Like the Present: Effects of Language Change on Automated Comment Moderation ( http://arxiv.org/abs/2207.04003v1 )

ライセンス: CC BY 4.0
Lennart Justen, Kilian M\"uller, Marco Niemann, J\"org Becker(参考訳) オンライン嫌悪の拡散は、コメントセクションをホストする新聞にとって重大な問題となっている。 その結果、手動によるコメントモデレーションコストを回避するため、あるいはコメントセクションを完全に閉鎖するために、(半)自動虐待言語検出に機械学習と自然言語処理を使用することへの関心が高まっている。 しかし、過去の乱用言語検出の研究の多くは、言語やニュースが一定の流動状態にあるにもかかわらず、分類器が静的言語環境で動作していると仮定している。 本稿では、ランダムテストトレインスプリットのようなナイーブml技術で訓練された分類器が将来のデータに過小評価され、時間階層化評価スプリットがより適切であることを示す。 また,学習データと異なる期間のデータから評価すると,分類器の性能が急速に低下することを示す。 本研究は, 乱用言語検出システムを開発する場合や, 急速に消滅するモデル展開のリスクについて, 言語の時間的ダイナミクスを検討する必要があることを示唆する。

The spread of online hate has become a significant problem for newspapers that host comment sections. As a result, there is growing interest in using machine learning and natural language processing for (semi-) automated abusive language detection to avoid manual comment moderation costs or having to shut down comment sections altogether. However, much of the past work on abusive language detection assumes that classifiers operate in a static language environment, despite language and news being in a state of constant flux. In this paper, we show using a new German newspaper comments dataset that the classifiers trained with naive ML techniques like a random-test train split will underperform on future data, and that a time stratified evaluation split is more appropriate. We also show that classifier performance rapidly degrades when evaluated on data from a different period than the training data. Our findings suggest that it is necessary to consider the temporal dynamics of language when developing an abusive language detection system or risk deploying a model that will quickly become defunct.
翻訳日:2022-07-11 14:00:36 公開日:2022-07-08
# OmniTab:Few-shot Tableベースの質問応答のための自然および合成データによる事前学習

OmniTab: Pretraining with Natural and Synthetic Data for Few-shot Table-based Question Answering ( http://arxiv.org/abs/2207.03637v1 )

ライセンス: Link先を確認
Zhengbao Jiang, Yi Mao, Pengcheng He, Graham Neubig, Weizhu Chen(参考訳) テーブル内の情報はテキストの重要な補完となり、テーブルベースの質問応答(QA)システムは大きな価値を持つ。 テーブルを扱う本質的な複雑さは、しばしばモデル設計とデータアノテーションの両方に余計な負担をもたらす。 本稿では,最小限のアノテーションで表型QAモデルを構築することを目的とする。 テーブルベースのQAは、質問とテーブル間の整合性と、複数のテーブル要素に対する複雑な推論を行う能力の両方を必要とすることから、自然データと合成データの両方を消費し、これらの能力を持つモデルを構築するという、雑多な事前学習手法を提案する。 具体的には、自由なテーブルが与えられた場合、検索を利用して関連する自然文と組み合わせてマスクベースの事前学習を行い、QA損失を伴う事前学習のためにテーブルからサンプリングしたSQLを変換してNL質問を合成する。 最善のマルチタスキングアプローチは、それぞれ128ショットとフルセッティングで16.2%と2.7%という絶対的なゲインを達成し、ウィキテーブルクエストに関する新たな最先端技術を確立しました。 詳細なアブレーションと分析により、自然および合成データの異なる特性が明らかとなり、雑食前訓練における将来の方向への光が遮蔽される。 コード、事前トレーニングデータ、事前トレーニングされたモデルはhttps://github.com/jzbjyb/OmniTab.comで入手できる。

The information in tables can be an important complement to text, making table-based question answering (QA) systems of great value. The intrinsic complexity of handling tables often adds an extra burden to both model design and data annotation. In this paper, we aim to develop a simple table-based QA model with minimal annotation effort. Motivated by the fact that table-based QA requires both alignment between questions and tables and the ability to perform complicated reasoning over multiple table elements, we propose an omnivorous pretraining approach that consumes both natural and synthetic data to endow models with these respective abilities. Specifically, given freely available tables, we leverage retrieval to pair them with relevant natural sentences for mask-based pretraining, and synthesize NL questions by converting SQL sampled from tables for pretraining with a QA loss. We perform extensive experiments in both few-shot and full settings, and the results clearly demonstrate the superiority of our model OmniTab, with the best multitasking approach achieving an absolute gain of 16.2% and 2.7% in 128-shot and full settings respectively, also establishing a new state-of-the-art on WikiTableQuestions. Detailed ablations and analyses reveal different characteristics of natural and synthetic data, shedding light on future directions in omnivorous pretraining. Code, pretraining data, and pretrained models are available at https://github.com/jzbjyb/OmniTab.
翻訳日:2022-07-11 13:43:30 公開日:2022-07-08
# クレーク:大規模知識ベースに対する質問応答のためのカソーサル強化テーブルファイラ

Crake: Causal-Enhanced Table-Filler for Question Answering over Large Scale Knowledge Base ( http://arxiv.org/abs/2207.03680v1 )

ライセンス: Link先を確認
Minhao Zhang, Ruoyu Zhang, Yanzeng Li, Lei Zou(参考訳) セマンティクス解析は、一般的にノード抽出(ne)とグラフ合成(gc)を含み、クエリ内の関連ノードを検出して接続するkbクエリを構成することで、知識ベース(kb)質問応答(kbqa)を解決する。 NEとGCの間に強い因果効果があるにもかかわらず、以前の研究はパイプライン内のそのような因果関係を直接モデル化することができず、サブタスク相関の学習を妨げる。 また、以前の研究におけるGCのシーケンス生成プロセスは曖昧さと露出バイアスを誘導し、精度をさらに損なう。 本研究では,意味解析を2段階に分類する。 第1段階(グラフ構造生成)では、シークエンスモデリングの問題を克服し、内部因果関係を学習するための因果拡張テーブルフィラーを提案する。 第2段階(リレーション抽出)では、大規模KB上で複雑なクエリをスケールする効率的なビーム探索アルゴリズムが提示される。 LC-QuAD 1.0における実験により, 従来の最先端技術よりも長い時間と空間効率を保ちながら, 大きなマージン(17%)を達成できた。 コードとモデルはhttps://github.com/aozmh/crakeで入手できる。

Semantic parsing solves knowledge base (KB) question answering (KBQA) by composing a KB query, which generally involves node extraction (NE) and graph composition (GC) to detect and connect related nodes in a query. Despite the strong causal effects between NE and GC, previous works fail to directly model such causalities in their pipeline, hindering the learning of subtask correlations. Also, the sequence-generation process for GC in previous works induces ambiguity and exposure bias, which further harms accuracy. In this work, we formalize semantic parsing into two stages. In the first stage (graph structure generation), we propose a causal-enhanced table-filler to overcome the issues in sequence-modelling and to learn the internal causalities. In the second stage (relation extraction), an efficient beam-search algorithm is presented to scale complex queries on large-scale KBs. Experiments on LC-QuAD 1.0 indicate that our method surpasses previous state-of-the-arts by a large margin (17%) while remaining time and space efficiency. The code and models are available at https://github.com/AOZMH/Crake.
翻訳日:2022-07-11 13:43:04 公開日:2022-07-08
# DSTEA: エンティティ適応型事前トレーニングによる対話状態追跡

DSTEA: Dialogue State Tracking with Entity Adaptive Pre-training ( http://arxiv.org/abs/2207.03858v1 )

ライセンス: Link先を確認
Yukyung Lee, Takyoung Kim, Hoonsang Yoon, Pilsung Kang, Junseong Bang, Misuk Kim(参考訳) 対話状態追跡(DST)は、システムとユーザ発話から適切な信念状態(ドメインスロット値)を抽出することを目的とした対話システムのコアサブモジュールである。 これまでのほとんどの研究では、事前訓練されたモデルのサイズを拡大したり、グラフ関係などの追加機能を用いて、性能改善を試みた。 本研究では,dstモデルのエンコーダによって,文中の重要なエンティティをより集中的に訓練するシステムである,エンティティ適応事前学習(dstea)を用いた対話状態追跡を提案する。 DSTEAは入力対話から重要なエンティティを4つの方法で抽出し、選択的な知識マスキングを適用してモデルを効果的に訓練する。 DSTEAはDSTモデルに直接知識を注入することなく事前訓練のみを行うが、MultiWOZ 2.0、2.1、および2.2のベンチマークモデルよりも優れた性能を達成した。 DSTEAの有効性は、エンティティタイプと異なる適応設定に関する様々な比較実験を通じて検証された。

Dialogue state tracking (DST) is a core sub-module of a dialogue system, which aims to extract the appropriate belief state (domain-slot-value) from a system and user utterances. Most previous studies have attempted to improve performance by increasing the size of the pre-trained model or using additional features such as graph relations. In this study, we propose dialogue state tracking with entity adaptive pre-training (DSTEA), a system in which key entities in a sentence are more intensively trained by the encoder of the DST model. DSTEA extracts important entities from input dialogues in four ways, and then applies selective knowledge masking to train the model effectively. Although DSTEA conducts only pre-training without directly infusing additional knowledge to the DST model, it achieved better performance than the best-known benchmark models on MultiWOZ 2.0, 2.1, and 2.2. The effectiveness of DSTEA was verified through various comparative experiments with regard to the entity type and different adaptive settings.
翻訳日:2022-07-11 13:42:45 公開日:2022-07-08
# ABB-BERT: 短縮と縮小の曖昧化のためのBERTモデル

ABB-BERT: A BERT model for disambiguating abbreviations and contractions ( http://arxiv.org/abs/2207.04008v1 )

ライセンス: Link先を確認
Prateek Kacker, Andi Cupallari, Aswin Gridhar Subramanian and Nimit Jain(参考訳) 略語と縮約語は、異なる領域にまたがるテキストによく見られる。 例えば、医師のノートには、選択に基づいてパーソナライズできる多くの収縮が含まれている。 既存の綴り補正モデルは、単語の文字数を減らすために拡張を扱うのに適していない。 本研究では,省略や縮約を含むあいまいな言語を扱うBERTモデルであるABB-BERTを提案する。 ABB-BERTは何千ものオプションからランク付けでき、スケールするために設計されている。 wikipediaのテキストでトレーニングされ、アルゴリズムはドメインや人のパフォーマンスを改善するために、わずかな計算で微調整することができる。 ウィキペディアから派生した略語と縮語のためのトレーニングデータセットを公開しています。

Abbreviations and contractions are commonly found in text across different domains. For example, doctors' notes contain many contractions that can be personalized based on their choices. Existing spelling correction models are not suitable to handle expansions because of many reductions of characters in words. In this work, we propose ABB-BERT, a BERT-based model, which deals with an ambiguous language containing abbreviations and contractions. ABB-BERT can rank them from thousands of options and is designed for scale. It is trained on Wikipedia text, and the algorithm allows it to be fine-tuned with little compute to get better performance for a domain or person. We are publicly releasing the training dataset for abbreviations and contractions derived from Wikipedia.
翻訳日:2022-07-11 13:42:28 公開日:2022-07-08
# ASL-Homework-RGBD Dataset: ASL-Homework-RGBD: Anotated dataset of 45 fluent and non-fluent signer performing American Sign Language homeworks

ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and non-fluent signers performing American Sign Language homeworks ( http://arxiv.org/abs/2207.04021v1 )

ライセンス: Link先を確認
Saad Hassan, Matthew Seita, Larwan Berke, Yingli Tian, Elaine Gale, Sooyeon Lee, Matt Huenerfauth(参考訳) kinect v2センサーで収集したamerican sign language(asl)を使って,fluentと非fluentの両方のシグナーのビデオを含むデータセットをリリースする。 このデータセットはコンピュータビジョンアルゴリズムを開発し評価するプロジェクトの一部として収集され、ASL流速属性の自動検出のための新しい技術をサポートする。 初等・中等レベルのaslコースで使われる課題に類似した課題を署名するよう45名に依頼した。 データは、文法的特徴や非マニュアルマーカーを含む署名のいくつかの側面を特定するために注釈付けされている。 現在、手話認識は非常にデータ駆動であり、このデータセットは認識技術、特にASL学習者に利益をもたらす技術の設計をサポートすることができる。 このデータセットは、流動的で非流動的な署名と対比したいASL教育研究者にとっても興味深い。

We are releasing a dataset containing videos of both fluent and non-fluent signers using American Sign Language (ASL), which were collected using a Kinect v2 sensor. This dataset was collected as a part of a project to develop and evaluate computer vision algorithms to support new technologies for automatic detection of ASL fluency attributes. A total of 45 fluent and non-fluent participants were asked to perform signing homework assignments that are similar to the assignments used in introductory or intermediate level ASL courses. The data is annotated to identify several aspects of signing including grammatical features and non-manual markers. Sign language recognition is currently very data-driven and this dataset can support the design of recognition technologies, especially technologies that can benefit ASL learners. This dataset might also be interesting to ASL education researchers who want to contrast fluent and non-fluent signing.
翻訳日:2022-07-11 13:42:18 公開日:2022-07-08
# エミュレーションのためのパーティショニングリファインメント

Partition refinement for emulation ( http://arxiv.org/abs/2207.03669v1 )

ライセンス: Link先を確認
Jingwei Li(参考訳) クリプケモデルは静的な知識や信念を表現するのに有用である。 一方、アクションモデルは情報の流れや動的な知識や信念を記述する。 細分化の技法は、二乗法の下で最小のクリプケモデルを見つけるのに使われており、クリプケモデルの意味同値性には十分で必要である。 本稿では,アクションモデルに対する細分化分割を一般化し,提案的アクションエミュレーションの下で最小のアクションモデルを見つけ出す。

Kripke models are useful to express static knowledge or belief. On the other hand, action models describe information flow and dynamic knowledge or belief. The technique of refinement partition has been used to find the smallest Kripke model under bisimulation, which is sufficient and necessary for the semantic equivalence of Kripke models. In this paper, we generalize refinement partition to action models to find the smallest action model under propositional action emulation, which is sufficient for the semantic equivalence of action models, and sufficient and necessary if the action models are required to be propositional.
翻訳日:2022-07-11 13:41:55 公開日:2022-07-08
# (参考訳) ハーバードUSPTO特許データセット:大規模で、構造化され、多目的の特許出願コーパス

The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications ( http://arxiv.org/abs/2207.04043v1 )

ライセンス: CC BY-SA 4.0
Mirac Suzgun, Luke Melas-Kyriazi, Suproteem K. Sarkar, Scott Duke Kominers, Stuart M. Shieber(参考訳) イノベーションは経済と社会開発の主要な原動力であり、多くの種類のイノベーションに関する情報は、特許や特許出願の半構造化データに埋め込まれている。 特許データで表現されるイノベーションの影響と新規性は、従来の方法で測定することは難しいが、MLは、新規性を評価し、貢献を要約し、セマンティクスを埋め込むための有望なテクニックセットを提供する。 本稿では,2004年から2018年にかけて米国特許商標庁(USPTO)に提出された,大規模で構造化された多目的英語特許出願コーパスであるHUPD(Harvard USPTO Patent Dataset)を紹介する。 450万以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。 これまで提案されていたnlpの特許データセットとは異なり、hupdは特許出願の発明者によるバージョンを含んでおり、認可された特許の最終バージョンではない。 それぞれのアプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは、構造化された共変量の変化を利用する新たなNLPタスクセットの実行を可能にします。 HUPDがもたらす研究のタイプに関するケーススタディとして,特許決定のバイナリ分類という新たな課題をNLPコミュニティに導入する。 さらに、データセットに提供される構造化メタデータにより、このタスクの概念シフトを明示的に研究できることを示す。 最後に,HUPDが特許対象領域のマルチクラス分類,言語モデリング,要約の3つのタスクにどのように使用できるかを示す。

Innovation is a major driver of economic and social development, and information about many kinds of innovation is embedded in semi-structured data from patents and patent applications. Although the impact and novelty of innovations expressed in patent data are difficult to measure through traditional means, ML offers a promising set of techniques for evaluating novelty, summarizing contributions, and embedding semantics. In this paper, we introduce the Harvard USPTO Patent Dataset (HUPD), a large-scale, well-structured, and multi-purpose corpus of English-language patent applications filed to the United States Patent and Trademark Office (USPTO) between 2004 and 2018. With more than 4.5 million patent documents, HUPD is two to three times larger than comparable corpora. Unlike previously proposed patent datasets in NLP, HUPD contains the inventor-submitted versions of patent applications--not the final versions of granted patents--thereby allowing us to study patentability at the time of filing using NLP methods for the first time. It is also novel in its inclusion of rich structured metadata alongside the text of patent filings: By providing each application's metadata along with all of its text fields, the dataset enables researchers to perform new sets of NLP tasks that leverage variation in structured covariates. As a case study on the types of research HUPD makes possible, we introduce a new task to the NLP community--namely, binary classification of patent decisions. We additionally show the structured metadata provided in the dataset enables us to conduct explicit studies of concept shifts for this task. Finally, we demonstrate how HUPD can be used for three additional tasks: multi-class classification of patent subject areas, language modeling, and summarization.
翻訳日:2022-07-11 13:40:53 公開日:2022-07-08
# disentangling reversing networkを用いたdeepfake顔トレーサビリティ

Deepfake Face Traceability with Disentangling Reversing Network ( http://arxiv.org/abs/2207.03666v1 )

ライセンス: Link先を確認
Jiaxin Ai, Zhongyuan Wang, Baojin Huang and Zhen Han(参考訳) deepfake faceは、個人認証のプライバシーを侵害するだけでなく、国民を混乱させ、大きな社会的被害を引き起こす。 現在のディープフェイク検出は、真偽を識別するレベルに留まり、偽の顔に対応する元の本物の顔、すなわち証拠の出所を追跡する能力を持たない。 司法法医学におけるディープフェイク対策技術は、ディープフェイクトレーサビリティを緊急に要求する。 この論文は、フェイス・ディープフェイク(face deepfake)に関する興味深い質問の先駆者となる。 ディープフェイクの顔は、オリジナルの顔、特に表情やポーズの特徴を完全に捨てるものではないので、オリジナルの顔は、ディープフェイク顔とほぼ推測できると主張している。 それに対応して、偽の顔対サンプルの監督の下で、ディープフェイク顔の潜伏空間特徴を分離し、元の顔の逆推定を行う、遠方逆転ネットワークを設計する。

Deepfake face not only violates the privacy of personal identity, but also confuses the public and causes huge social harm. The current deepfake detection only stays at the level of distinguishing true and false, and cannot trace the original genuine face corresponding to the fake face, that is, it does not have the ability to trace the source of evidence. The deepfake countermeasure technology for judicial forensics urgently calls for deepfake traceability. This paper pioneers an interesting question about face deepfake, active forensics that "know it and how it happened". Given that deepfake faces do not completely discard the features of original faces, especially facial expressions and poses, we argue that original faces can be approximately speculated from their deepfake counterparts. Correspondingly, we design a disentangling reversing network that decouples latent space features of deepfake faces under the supervision of fake-original face pair samples to infer original faces in reverse.
翻訳日:2022-07-11 13:38:42 公開日:2022-07-08
# acne検出のための高品質提案の学習

Learning High-quality Proposals for Acne Detection ( http://arxiv.org/abs/2207.03674v1 )

ライセンス: Link先を確認
Jianwei Zhang, Lei Zhang, Junyou Wang, Xin Wei, Jiaqi Li, Xian Jiang, Dan Du(参考訳) acne検出は皮膚疾患の診断と正確な治療に不可欠である。 acne病変の任意の境界と小ささは、2段階検出において相当数の低品質の提案をもたらす。 本稿では,地域提案ネットワークのための新しいヘッダ構造を提案し,提案手法の品質を2つの方法で改善する。 まず,空間認識ダブルヘッド(SADH)構造を用いて,2つの異なる空間的視点から分類と局所化のための表現学習を行う。 提案したSADHは、より急激な分類信頼度を保証し、一致した基底真理との交叉点(IoU)の低い提案を抑える。 そこで,提案する分類スコアとiousとの相関性を改善するため,正規化wasserstein距離予測ブランチを提案する。 さらに,クレーン検出のさらなる研究を促進するために,高解像度画像,正確なアノテーション,微細な病変分類を含むAcneSCUという新しいデータセットを構築した。 AcneSCUとパブリックデータセットACNE04の両方で大規模な実験を行い、提案手法が提案手法の質を向上し、一貫して最先端のアプローチに勝ることを示した。 コードと収集されたデータセットはhttps://github.com/pingguokiller/acnedetectionで入手できる。

Acne detection is crucial for interpretative diagnosis and precise treatment of skin disease. The arbitrary boundary and small size of acne lesions lead to a significant number of poor-quality proposals in two-stage detection. In this paper, we propose a novel head structure for Region Proposal Network to improve the proposals' quality in two ways. At first, a Spatial Aware Double Head(SADH) structure is proposed to disentangle the representation learning for classification and localization from two different spatial perspectives. The proposed SADH ensures a steeper classification confidence gradient and suppresses the proposals having low intersection-over-union(IoU) with the matched ground truth. Then, we propose a Normalized Wasserstein Distance prediction branch to improve the correlation between the proposals' classification scores and IoUs. In addition, to facilitate further research on acne detection, we construct a new dataset named AcneSCU, with high-resolution imageries, precise annotations, and fine-grained lesion categories. Extensive experiments are conducted on both AcneSCU and the public dataset ACNE04, and the results demonstrate the proposed method could improve the proposals' quality, consistently outperforming state-of-the-art approaches. Code and the collected dataset are available in https://github.com/pingguokiller/acnedetection.
翻訳日:2022-07-11 13:38:24 公開日:2022-07-08
# Mixture-of-Expert Training によるニューラルインプシシット辞書

Neural Implicit Dictionary via Mixture-of-Expert Training ( http://arxiv.org/abs/2207.03691v1 )

ライセンス: Link先を確認
Peihao Wang, Zhiwen Fan, Tianlong Chen, Zhangyang Wang(参考訳) 座標ベースのディープ完全接続ネットワークによる視覚信号の表現は、離散グリッドベースの表現よりも複雑な詳細に適合し、逆問題の解決に有利であることが示されている。 しかし、そのような連続的な暗黙的神経表現(inr)を得るには、その実用性を制限した大量の信号測定の退屈な訓練が必要である。 本稿では、データ収集からニューラルネットワーク辞書(NID)を学習し、INRを辞書からサンプリングした基底の関数的組み合わせとして表現することにより、データとトレーニング効率の両方を達成する汎用INRフレームワークを提案する。 我々のNIDは、所望の関数空間にまたがるように調整された座標ベースのサブネットワークのグループを組み立てる。 訓練後、符号化係数を解いて、瞬時かつロバストなシーン表現を得ることができる。 大規模なネットワークを並列に最適化するために、我々はMixture-of-Expert(MoE)のアイデアを借りて、スパースゲーティング機構でネットワークを設計、訓練する。 実験の結果,NIDは最大98%の入力データで2次元画像や3次元シーンの再現を2桁高速化できることがわかった。 さらに,バニラINRに難渋していると考えられる画像塗布および閉塞除去におけるNIDの様々な応用を実証した。 私たちのコードはhttps://github.com/VITA-Group/Neural-Implicit-Dict.orgで公開されています。

Representing visual signals by coordinate-based deep fully-connected networks has been shown advantageous in fitting complex details and solving inverse problems than discrete grid-based representation. However, acquiring such a continuous Implicit Neural Representation (INR) requires tedious per-scene training on tons of signal measurements, which limits its practicality. In this paper, we present a generic INR framework that achieves both data and training efficiency by learning a Neural Implicit Dictionary (NID) from a data collection and representing INR as a functional combination of basis sampled from the dictionary. Our NID assembles a group of coordinate-based subnetworks which are tuned to span the desired function space. After training, one can instantly and robustly acquire an unseen scene representation by solving the coding coefficients. To parallelly optimize a large group of networks, we borrow the idea from Mixture-of-Expert (MoE) to design and train our network with a sparse gating mechanism. Our experiments show that, NID can improve reconstruction of 2D images or 3D scenes by 2 orders of magnitude faster with up to 98% less input data. We further demonstrate various applications of NID in image inpainting and occlusion removal, which are considered to be challenging with vanilla INR. Our codes are available in https://github.com/VITA-Group/Neural-Implicit-Dict.
翻訳日:2022-07-11 13:38:05 公開日:2022-07-08
# 正確な食品認識のためのマイニング判別食品領域

Mining Discriminative Food Regions for Accurate Food Recognition ( http://arxiv.org/abs/2207.03692v1 )

ライセンス: Link先を確認
Jianing Qiu, Frank P.-W. Lo, Yingnan Sun, Siyao Wang, Benny Lo(参考訳) 自動食品認識は受動的食事監視への第一歩である。 本稿では,判別的食品産地のマイニングによる食品認識の問題に対処する。 弱教師付きセマンティックセグメンテーションのための識別対象領域を段階的に発見する戦略であるAdversarial Erasing からインスピレーションを得て,プライマリネットワークが入力画像の分類精度を維持し,補助ネットワークが識別対象食品領域を敵対的にマイニングし,リージョンネットワークが結果のマイニング領域を分類する,新たなネットワークアーキテクチャを提案する。 グローバル(元の入力画像)とローカル(採掘された領域)の表現は最終予測のために統合される。 提案アーキテクチャは、PAR-Netと表現され、エンドツーエンドのトレーニングが可能であり、オンライン方式で識別領域を強調する。 また,50種類の寿司カテゴリからなる,sushi-50と呼ばれる新しい細粒食品データセットも紹介する。 提案手法を評価するための広範な実験が行われている。 選択した3つの食品データセット(food-101, vireo-172, sushi-50)では,既存のアプローチと比較して,最先端の成果(トップ1テスト精度90.4\%$,90.2\%$,92.0\%$,92.0\%$)を達成している。 データセットとコードはhttps://github.com/Jianing-Qiu/PARNetで入手できる。

Automatic food recognition is the very first step towards passive dietary monitoring. In this paper, we address the problem of food recognition by mining discriminative food regions. Taking inspiration from Adversarial Erasing, a strategy that progressively discovers discriminative object regions for weakly supervised semantic segmentation, we propose a novel network architecture in which a primary network maintains the base accuracy of classifying an input image, an auxiliary network adversarially mines discriminative food regions, and a region network classifies the resulting mined regions. The global (the original input image) and the local (the mined regions) representations are then integrated for the final prediction. The proposed architecture denoted as PAR-Net is end-to-end trainable, and highlights discriminative regions in an online fashion. In addition, we introduce a new fine-grained food dataset named as Sushi-50, which consists of 50 different sushi categories. Extensive experiments have been conducted to evaluate the proposed approach. On three food datasets chosen (Food-101, Vireo-172, and Sushi-50), our approach performs consistently and achieves state-of-the-art results (top-1 testing accuracy of $90.4\%$, $90.2\%$, $92.0\%$, respectively) compared with other existing approaches. Dataset and code are available at https://github.com/Jianing-Qiu/PARNet
翻訳日:2022-07-11 13:37:41 公開日:2022-07-08
# supertickets: アーキテクチャ検索とパラメータプルーニングによるスーパーネットからのタスクに依存しない抽選チケットの描画

SuperTickets: Drawing Task-Agnostic Lottery Tickets from Supernets via Jointly Architecture Searching and Parameter Pruning ( http://arxiv.org/abs/2207.03677v1 )

ライセンス: Link先を確認
Haoran You, Baopu Li, Zhanyi Sun, Xu Ouyang, Yingyan Lin(参考訳) neural architecture search (nas)は、与えられたスーパーネットから効率的なディープニューラルネットワーク(dnn)を探索することに成功した。 並行して、宝くじの仮説は、DNNには、オリジナルのDNNと同等または高い精度を達成するために、スクラッチからトレーニングできる小さなサブネットが含まれていることを示した。 そのため、第1探索とpruneのパイプラインを通じて効率的なdnnを開発するのが一般的である。 それにもかかわらず、しばしば探索-訓練-訓練-訓練プロセスが必要であり、そのため計算コストは禁じられる。 本稿では,効率的なdnnと宝くじのサブネットワーク(すなわち宝くじ券)をスーパーネットから直接識別できることを,アーキテクチャ探索とパラメータプルーニングを併用した2対1のトレーニングスキームを用いて初めて発見する。 さらに,スーパーネットトレーニング中にサブネットワークの接続性が変化し,従来のスパーストレーニングよりも精度と効率性が向上する,進歩的で統一的なスーパーネット識別戦略を開発した。 最後に,複数のタスクを同時に処理する可能性を検証するために,あるタスクから引き出された識別されたスーパーチップが他のタスクにうまく転送できるかどうかを評価する。 3つのタスクと4つのベンチマークデータセットに関する大規模な実験とアブレーション研究により、提案したSuperTicketsは、再トレーニングの有無にかかわらず、典型的なNASとプルーニングパイプラインの両方よりも精度と効率のトレードオフを向上できることが検証された。 コードと事前訓練されたモデルはhttps://github.com/RICE-EIC/SuperTickets.comで入手できる。

Neural architecture search (NAS) has demonstrated amazing success in searching for efficient deep neural networks (DNNs) from a given supernet. In parallel, the lottery ticket hypothesis has shown that DNNs contain small subnetworks that can be trained from scratch to achieve a comparable or higher accuracy than original DNNs. As such, it is currently a common practice to develop efficient DNNs via a pipeline of first search and then prune. Nevertheless, doing so often requires a search-train-prune-retrain process and thus prohibitive computational cost. In this paper, we discover for the first time that both efficient DNNs and their lottery subnetworks (i.e., lottery tickets) can be directly identified from a supernet, which we term as SuperTickets, via a two-in-one training scheme with jointly architecture searching and parameter pruning. Moreover, we develop a progressive and unified SuperTickets identification strategy that allows the connectivity of subnetworks to change during supernet training, achieving better accuracy and efficiency trade-offs than conventional sparse training. Finally, we evaluate whether such identified SuperTickets drawn from one task can transfer well to other tasks, validating their potential of handling multiple tasks simultaneously. Extensive experiments and ablation studies on three tasks and four benchmark datasets validate that our proposed SuperTickets achieve boosted accuracy and efficiency trade-offs than both typical NAS and pruning pipelines, regardless of having retraining or not. Codes and pretrained models are available at https://github.com/RICE-EIC/SuperTickets.
翻訳日:2022-07-11 13:35:24 公開日:2022-07-08
# ディープラーニングと古き良き機械学習を組み合わせる

Combining Deep Learning with Good Old-Fashioned Machine Learning ( http://arxiv.org/abs/2207.03757v1 )

ライセンス: Link先を確認
Moshe Sipper(参考訳) 我々は、Deep GOldと呼ばれる、ディープラーニングと昔ながらの機械学習を組み合わせた包括的なスタックベースのフレームワークを提案する。 第1レベルのモデルとして51の訓練済み深層ネットワークから選択し,第2レベルのモデルとして10の機械学習アルゴリズムを用いた。 今日の最先端のソフトウェアツールとハードウェアプラットフォームによって実現されているDeep GOldは、4つのイメージ分類データセット(Fashion MNIST、CIFAR10、CIFAR100、Tiny ImageNet)でテストした場合、一貫した改善を提供する。 120の実験のうち、Deep GOldは10つを除いて、元のネットワークの性能を改善した。

We present a comprehensive, stacking-based framework for combining deep learning with good old-fashioned machine learning, called Deep GOld. Our framework involves ensemble selection from 51 retrained pretrained deep networks as first-level models, and 10 machine-learning algorithms as second-level models. Enabled by today's state-of-the-art software tools and hardware platforms, Deep GOld delivers consistent improvement when tested on four image-classification datasets: Fashion MNIST, CIFAR10, CIFAR100, and Tiny ImageNet. Of 120 experiments, in all but 10 Deep GOld improved the original networks' performance.
翻訳日:2022-07-11 13:34:55 公開日:2022-07-08
# 農業分野におけるトランスファー学習の力:AgriNet

The Power of Transfer Learning in Agricultural Applications: AgriNet ( http://arxiv.org/abs/2207.03881v1 )

ライセンス: Link先を確認
Zahraa Al Sahili and Mariette Awad(参考訳) 深層学習と移動学習の進歩は、植物病、害虫、雑草、植物種検出など、農業における様々な自動化分類タスクの道を開いた。 しかし、農業の自動化は、データセットのサイズの制限や、植物ドメイン固有の事前訓練モデルがないなど、さまざまな課題に直面している。 ドメイン固有の事前訓練されたモデルは、顔認識や医用画像診断を含む様々なコンピュータビジョンタスクで芸術的パフォーマンスを示す。 本稿では,19以上の地理的な場所,いくつかの画像キャプション装置,および423以上の植物種と病気のクラスから160万件の農業画像を集めたAgriNetデータセットを提案する。 また、VGG16、VGG19、Inception-v3、InceptionResNet-v2、Xceptionという5つのImageNetアーキテクチャ上で事前訓練されたモデルのセットであるAgriNetモデルを紹介します。 AgriNet-VGG19の分類精度は94 %、F1スコアは92%であった。 さらに, 植物種, 病気, 害虫, 雑草の423種を, インセプションv3モデルで87%の精度で正確に分類し, 画像ネットモデルと比較してAgriNetモデルの優越性を評価する実験を, バングラデシュの害虫と植物病のデータセットとカシミールの植物病のデータセットの2つの外部データセットで行った。

Advances in deep learning and transfer learning have paved the way for various automation classification tasks in agriculture, including plant diseases, pests, weeds, and plant species detection. However, agriculture automation still faces various challenges, such as the limited size of datasets and the absence of plant-domain-specific pretrained models. Domain specific pretrained models have shown state of art performance in various computer vision tasks including face recognition and medical imaging diagnosis. In this paper, we propose AgriNet dataset, a collection of 160k agricultural images from more than 19 geographical locations, several images captioning devices, and more than 423 classes of plant species and diseases. We also introduce AgriNet models, a set of pretrained models on five ImageNet architectures: VGG16, VGG19, Inception-v3, InceptionResNet-v2, and Xception. AgriNet-VGG19 achieved the highest classification accuracy of 94 % and the highest F1-score of 92%. Additionally, all proposed models were found to accurately classify the 423 classes of plant species, diseases, pests, and weeds with a minimum accuracy of 87% for the Inception-v3 model.Finally, experiments to evaluate of superiority of AgriNet models compared to ImageNet models were conducted on two external datasets: pest and plant diseases dataset from Bangladesh and a plant diseases dataset from Kashmir.
翻訳日:2022-07-11 13:34:42 公開日:2022-07-08
# ビッグデータ: 普遍的な機械学習パラダイム?

Big Learning: A Universal Machine Learning Paradigm? ( http://arxiv.org/abs/2207.03899v1 )

ライセンス: Link先を確認
Yulai Cong, Miaoyun Zhao(参考訳) 最近のビッグデータ/境界モデルに基づくブレークスルーは、人工知能、すなわち入札データ、ビッグデータモデル、ビッグデータ、そして$\cdots$に対する曖昧な道のりを明らかにしている。 その道をたどって、ここで新しく導入されたbig learningについて詳しく説明する。 具体的には,大規模完全/不完全データに固有の情報を総合的に活用し,複数対一のジョイント/コンディショナル/マージナルデータ分散(いわゆるビッグデータ)を1つの普遍的基盤モデルでモデル化する。 私たちのビッグデータは、フレキシブルな設計と基礎モデルの改善のための高レベルのガイダンスを提供し、インターネット上の真の自己学習を加速します。 Besides, big learning ($i$) is equipped with marvelous flexibility for both training data and training-task customization; ($ii$) potentially delivers all joint/conditional/marginal data capabilities after training; ($iii$) significantly reduces the training-test gap with improved model generalization; and ($iv$) unifies conventional machine learning paradigms e.g. supervised learning, unsupervised learning, generative learning, etc. and enables their flexible cooperation, manifesting a universal learning paradigm.

Recent breakthroughs based on big/foundation models reveal a vague avenue for artificial intelligence, that is, bid data, big/foundation models, big learning, $\cdots$. Following that avenue, here we elaborate on the newly introduced big learning. Specifically, big learning comprehensively exploits the available information inherent in large-scale complete/incomplete data, by simultaneously learning to model many-to-all joint/conditional/marginal data distributions (thus named big learning) with one universal foundation model. We reveal that big learning is what existing foundation models are implicitly doing; accordingly, our big learning provides high-level guidance for flexible design and improvements of foundation models, accelerating the true self-learning on the Internet. Besides, big learning ($i$) is equipped with marvelous flexibility for both training data and training-task customization; ($ii$) potentially delivers all joint/conditional/marginal data capabilities after training; ($iii$) significantly reduces the training-test gap with improved model generalization; and ($iv$) unifies conventional machine learning paradigms e.g. supervised learning, unsupervised learning, generative learning, etc. and enables their flexible cooperation, manifesting a universal learning paradigm.
翻訳日:2022-07-11 13:34:11 公開日:2022-07-08
# FastLTS:非自己回帰的終端制約なしリップ・トゥ・音声合成

FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis ( http://arxiv.org/abs/2207.03800v1 )

ライセンス: Link先を確認
Yongqi Wang and Zhou Zhao(参考訳) unconstrained lip-to-speech synthesisは、頭部のポーズや語彙に制限のない、話し手のサイレントビデオから対応する音声を生成することを目的としている。 現在の作業では、主にシーケンス・ツー・シーケンスのモデルを使用して、自動回帰アーキテクチャやフローベースの非自己回帰アーキテクチャでこの問題を解決する。 しかし、これらのモデルにはいくつかの欠点がある。 1)直接音声を生成する代わりに、2段階のパイプラインを使用してメルスペクトログラムを生成し、その後スペクトログラムからオーディオを再構築する。 これは、誤り伝播による音声品質の不安定な展開と劣化を引き起こす。 2) これらのモデルが用いた音声再構成アルゴリズムは推論速度と音質を制限しているが,出力スペクトルが十分でないため,ニューラルボコーダはこれらのモデルでは利用できない。 3) 自己回帰モデルは高い推論遅延に悩まされる一方,フローベースモデルは高いメモリ占有率を持つ。 これらの問題に対処するために、FastLTSを提案する。これは、低レイテンシで制約なしの音声ビデオから直接高品質な音声音声を合成でき、比較的小さなモデルサイズである。 また,口唇運動符号化に広く使われている3d-cnn視覚フロントエンドと異なり,本課題に対して初めてトランスフォーマーベースの視覚フロントエンドを提案する。 実験の結果,本モデルでは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声波形生成の速度アップが19.76ドルに達し,優れた音質が得られることがわかった。

Unconstrained lip-to-speech synthesis aims to generate corresponding speeches from silent videos of talking faces with no restriction on head poses or vocabulary. Current works mainly use sequence-to-sequence models to solve this problem, either in an autoregressive architecture or a flow-based non-autoregressive architecture. However, these models suffer from several drawbacks: 1) Instead of directly generating audios, they use a two-stage pipeline that first generates mel-spectrograms and then reconstructs audios from the spectrograms. This causes cumbersome deployment and degradation of speech quality due to error propagation; 2) The audio reconstruction algorithm used by these models limits the inference speed and audio quality, while neural vocoders are not available for these models since their output spectrograms are not accurate enough; 3) The autoregressive model suffers from high inference latency, while the flow-based model has high memory occupancy: neither of them is efficient enough in both time and memory usage. To tackle these problems, we propose FastLTS, a non-autoregressive end-to-end model which can directly synthesize high-quality speech audios from unconstrained talking videos with low latency, and has a relatively small model size. Besides, different from the widely used 3D-CNN visual frontend for lip movement encoding, we for the first time propose a transformer-based visual frontend for this task. Experiments show that our model achieves $19.76\times$ speedup for audio waveform generation compared with the current autoregressive model on input sequences of 3 seconds, and obtains superior audio quality.
翻訳日:2022-07-11 13:33:47 公開日:2022-07-08
# エンドツーエンドバイノーラル音声合成

End-to-End Binaural Speech Synthesis ( http://arxiv.org/abs/2207.03697v1 )

ライセンス: Link先を確認
Wen Chin Huang, Dejan Markovic, Alexander Richard, Israel Dejene Gebru and Anjali Menon(参考訳) 本研究では、低ビットレートオーディオコーデックと、環境騒音や残響などの環境要因を忠実に再構築しながら、正確なバイノーラル化が可能な強力なバイノーラルデコーダを組み合わせたエンドツーエンドのバイノーラル音声合成システムを提案する。 ネットワークは改良されたベクトル量子化変分オートエンコーダであり、敵の損失を含むいくつかの注意深く設計された目標で訓練されている。 提案手法を,客観的な計測値と知覚的研究値を用いて内部バイノーラルデータセット上で評価した。 その結果,提案手法は従来の手法よりも真理データに近いことがわかった。 特に,実際の聴覚シーンを作るのに必要な環境効果を捉える際に,敵の損失の可能性を実証する。

In this work, we present an end-to-end binaural speech synthesis system that combines a low-bitrate audio codec with a powerful binaural decoder that is capable of accurate speech binauralization while faithfully reconstructing environmental factors like ambient noise or reverb. The network is a modified vector-quantized variational autoencoder, trained with several carefully designed objectives, including an adversarial loss. We evaluate the proposed system on an internal binaural dataset with objective metrics and a perceptual study. Results show that the proposed approach matches the ground truth data more closely than previous methods. In particular, we demonstrate the capability of the adversarial loss in capturing environment effects needed to create an authentic auditory scene.
翻訳日:2022-07-11 13:32:52 公開日:2022-07-08
# 定理証明によるニューラルネットワークの制約付きトレーニング

Constrained Training of Neural Networks via Theorem Proving ( http://arxiv.org/abs/2207.03880v1 )

ライセンス: Link先を確認
Mark Chevallier, Matthew Whyte and Jacques D. Fleuriot(参考訳) ニューラルネットワークのトレーニングのための時間的論理的制約の仕様と生成に対する定理証明アプローチを導入する。 有限トレース(LTL$_f$)上の線形時間論理の深い埋め込みと、その意味をイザベル定理証明器の高階論理内で特徴づける関連する評価関数を定式化する。 次に、損失関数 $\mathcal{L}$ を形式化し、その関数 $d\mathcal{L}$ に微分可能であることを正式に証明する。 その後、イザベルの自動コード生成メカニズムを使ってltl$_f$、$\mathcal{l}$、$d\mathcal{l}$のocamlバージョンを作成し、pythonのocamlバインディングを介してpytorchと統合しました。 本研究では,動的運動のための既存のディープラーニングフレームワークのトレーニングに使用すると,障害物回避やパトロールといった共通の運動仕様パターンに対する予測結果が得られることを示す。 このアプローチの独特な利点は、Pythonのような"安全でない"プログラミング言語で論理的側面のアドホックな実装に固有の多くのリスクを排除し、制約付きトレーニングの厳密な方法である。

We introduce a theorem proving approach to the specification and generation of temporal logical constraints for training neural networks. We formalise a deep embedding of linear temporal logic over finite traces (LTL$_f$) and an associated evaluation function characterising its semantics within the higher-order logic of the Isabelle theorem prover. We then proceed to formalise a loss function $\mathcal{L}$ that we formally prove to be sound, and differentiable to a function $d\mathcal{L}$. We subsequently use Isabelle's automatic code generation mechanism to produce OCaml versions of LTL$_f$, $\mathcal{L}$ and $d\mathcal{L}$ that we integrate with PyTorch via OCaml bindings for Python. We show that, when used for training in an existing deep learning framework for dynamic movement, our approach produces expected results for common movement specification patterns such as obstacle avoidance and patrolling. The distinctive benefit of our approach is the fully rigorous method for constrained training, eliminating many of the risks inherent to ad-hoc implementations of logical aspects directly in an "unsafe" programming language such as Python.
翻訳日:2022-07-11 13:32:41 公開日:2022-07-08
# マルチエージェント強化学習のためのインタラクションパターン分割

Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2207.03902v1 )

ライセンス: Link先を確認
Shunyu Liu, Jie Song, Yihe Zhou, Na Yu, Kaixuan Chen, Zunlei Feng, Mingli Song(参考訳) ディープ・コラボレーティブなマルチエージェント強化学習は、様々な複雑な制御タスクにおいて顕著な成功を収めた。 しかし、近年のマルチエージェント学習の進歩は、主に価値の分解に焦点を合わせ、エンティティ間の相互作用はいまだに絡み合っている。 本稿では,分散実行のためのエージェント・ワイズ・バリュー・関数に結合値関数だけでなく,エンティティのサブグループ内の基礎となるインタラクションパターンを表す相互作用プロトタイプへのエンティティインタラクションを分離する,新しいインタラクション・パターン・ディスタングリング(opt)手法を提案する。 OPTは無関係な実体間のノイズ相互作用のフィルタリングを容易にし、一般化可能性と解釈可能性を大幅に改善する。 具体的には、OPTは、発見された相互作用プロトタイプ間のスパースと多様性を促進するためのスパース不一致機構を導入する。 そして、モデルはこれらのプロトタイプを学習可能な重み付き集約器によってコンパクトな相互作用パターンに選択的に再構成する。 部分観測可能性によるトレーニング不安定性の問題を軽減するため,各エージェントの集約重みと履歴行動の相互情報の最大化を提案する。 単一タスクとマルチタスクのベンチマーク実験により,提案手法は最先端のベンチマークよりも優れた結果が得られることを示した。 私たちのコードは公開されます。

Deep cooperative multi-agent reinforcement learning has demonstrated its remarkable success over a wide spectrum of complex control tasks. However, recent advances in multi-agent learning mainly focus on value decomposition while leaving entity interactions still intertwined, which easily leads to over-fitting on noisy interactions between entities. In this work, we introduce a novel interactiOn Pattern disenTangling (OPT) method, to disentangle not only the joint value function into agent-wise value functions for decentralized execution, but also the entity interactions into interaction prototypes, each of which represents an underlying interaction pattern within a sub-group of the entities. OPT facilitates filtering the noisy interactions between irrelevant entities and thus significantly improves generalizability as well as interpretability. Specifically, OPT introduces a sparse disagreement mechanism to encourage sparsity and diversity among discovered interaction prototypes. Then the model selectively restructures these prototypes into a compact interaction pattern by an aggregator with learnable weights. To alleviate the training instability issue caused by partial observability, we propose to maximize the mutual information between the aggregation weights and the history behaviors of each agent. Experiments on both single-task and multi-task benchmarks demonstrate that the proposed method yields results superior to the state-of-the-art counterparts. Our code will be made publicly available.
翻訳日:2022-07-11 13:31:22 公開日:2022-07-08
# GT4SD:科学発見のためのジェネレーティブツールキット

GT4SD: Generative Toolkit for Scientific Discovery ( http://arxiv.org/abs/2207.03928v1 )

ライセンス: Link先を確認
Matteo Manica, Joris Cadow, Dimitrios Christofidellis, Ashish Dave, Jannis Born, Dean Clarke, Yves Gaetan Nana Teukam, Samuel C. Hoffman, Matthew Buchan, Vijil Chenthamarakshan, Timothy Donovan, Hsiang Han Hsu, Federico Zipoli, Oliver Schilter, Giorgio Giannone, Akihiro Kishimoto, Lisa Hamada, Inkit Padhi, Karl Wehden, Lauren McHugh, Alexy Khrabrov, Payel Das, Seiji Takeda, and John R. Smith(参考訳) 様々な科学的領域でデータが利用可能になるにつれて、生成モデルは科学的手法のあらゆる段階において科学的発見を加速する大きな可能性を秘めている。 おそらく、彼らの最も価値のある応用は、伝統的に最も遅く、最も難しい仮説のステップだったものをスピードアップすることだ。 強力な表現は現在、大量のデータから学び、新しい仮説を生み出しており、物質設計から薬物発見まで、科学的な発見アプリケーションに大きな影響を与えている。 GT4SD(https://github.com/GT4SD/gt4sd-core)は、科学者、開発者、研究者が科学的発見における仮説生成のための最先端の生成モデルを訓練および使用できるようにする拡張可能なオープンソースライブラリである。 GT4SDは、ターゲットタンパク質、オーミックプロファイル、足場距離、結合エネルギーなどの特性に基づいた分子発見と設計を含む、物質科学および薬物発見における生成モデルの利用をサポートしている。

With the growing availability of data within various scientific domains, generative models hold enormous potential to accelerate scientific discovery at every step of the scientific method. Perhaps their most valuable application lies in the speeding up of what has traditionally been the slowest and most challenging step of coming up with a hypothesis. Powerful representations are now being learned from large volumes of data to generate novel hypotheses, which is making a big impact on scientific discovery applications ranging from material design to drug discovery. The GT4SD (https://github.com/GT4SD/gt4sd-core) is an extensible open-source library that enables scientists, developers and researchers to train and use state-of-the-art generative models for hypothesis generation in scientific discovery. GT4SD supports a variety of uses of generative models across material science and drug discovery, including molecule discovery and design based on properties related to target proteins, omic profiles, scaffold distances, binding energies and more.
翻訳日:2022-07-11 13:30:46 公開日:2022-07-08
# 畳み込みニューラルネットワークによる偏光子からの複数画像によるデジェネレーションモードの分解

Convolution Neural Network based Mode Decomposition for Degenerated Modes via Multiple Images from Polarizers ( http://arxiv.org/abs/2207.03489v1 )

ライセンス: Link先を確認
Hyuntai Kim(参考訳) 本稿では,デジェネレーションモードのモード分解(MD)法について検討した。 畳み込みニューラルネットワーク(CNN)は画像訓練やモード係数の予測に応用されている。 4倍の縮退した$lp_{11}$シリーズが、分解対象となっている。 複数の画像は退化モードを分解する入力と見なされる。 フルオリジナル近接場画像を含む7つの画像と、4方向の直線偏光子(0$^\circ$, 45$^\circ$, 90$^\circ$, 135$^\circ$)の後の画像と、2つの円偏光子(右利きと左利き)の後の画像が訓練、検証、テストのために検討されている。 モデルの出力ラベルはモード係数の実数および虚数成分として選ばれ、損失関数はラベルのルート平均2乗(rms)として選択されている。 cnnモデルを評価する指標として,実値と予測値のラベル,強度,位相,フィールド相関のrmsと平均絶対誤差(mae)を選定した。 CNNモデルは、深さ3、4、7の10万の3次元画像で訓練されている。 実験モデルの性能は, 3つの線形偏光子 (0$^\circ$, 45$^\circ$, 90$^\circ$) と右利き円偏光子 (0.0634, 強度RMS0.0292, 位相MAE0.1867, 平均場相関0.9978 の4つの画像からなる1万検体を用いて評価した。 4つの画像集合のパフォーマンスは、線形偏光子後の画像のみを考慮したモデルと比較して少なくとも50.68倍の性能向上を示した。

In this paper, a mode decomposition (MD) method for degenerated modes has been studied. Convolution neural network (CNN) has been applied for image training and predicting the mode coefficients. Four-fold degenerated $LP_{11}$ series has been the target to be decomposed. Multiple images are regarded as an input to decompose the degenerate modes. Total of seven different images, including the full original near-field image, and images after linear polarizers of four directions (0$^\circ$, 45$^\circ$, 90$^\circ$, and 135$^\circ$), and images after two circular polarizers (right-handed and left-handed) has been considered for training, validation, and test. The output label of the model has been chosen as the real and imaginary components of the mode coefficient, and the loss function has been selected to be the root-mean-square (RMS) of the labels. The RMS and mean-absolute-error (MAE) of the label, intensity, phase, and field correlation between the actual and predicted values have been selected to be the metrics to evaluate the CNN model. The CNN model has been trained with 100,000 three-dimensional images with depths of three, four, and seven. The performance of the trained model was evaluated via 10,000 test samples with four sets of images - images after three linear polarizers (0$^\circ$, 45$^\circ$, 90$^\circ$) and image after right-handed circular polarizer - showed 0.0634 of label RMS, 0.0292 of intensity RMS, 0.1867 rad of phase MAE, and 0.9978 of average field correlation. The performance of 4 image sets showed at least 50.68\% of performance enhancement compared to models considering only images after linear polarizers.
翻訳日:2022-07-11 13:29:58 公開日:2022-07-08
# 生成型adversarial networkと他の生成モデル

Generative Adversarial Networks and Other Generative Models ( http://arxiv.org/abs/2207.03887v1 )

ライセンス: Link先を確認
Markus Wenzel(参考訳) 生成ネットワークは、分類、セグメンテーション、オブジェクト検出のCNNと比べて、目的や方法が根本的に異なる。 当初は画像解析ツールではなく、自然に見える画像を作り出すことを意図していた。 敵対的訓練パラダイムは生成方法の安定化のために提案されており、非常に成功したことが証明されている。 本章では,gans(generative adversarial network)のモチベーションを基礎的に紹介するとともに,基本課題と作業機構を抽象化し,初期の実践的アプローチの難しさを導出することにより,その成功の道筋をたどる。 より安定したトレーニングのための方法が示され、また、収束不良とその理由の典型的な兆候も示される。 本章は画像生成と画像解析を目的としたGANに焦点を当てるが、逆行訓練パラダイム自体は画像に特化せず、画像解析のタスクに一般化する。 画像セマンティックセグメンテーションと異常検出のアーキテクチャの例は、GANと、最近出現しているさらなる生成的モデリングアプローチとを対比する前に評価される。 これにより、限界だけでなく、GANのメリットもコンテキスト的に見ることができます。

Generative networks are fundamentally different in their aim and methods compared to CNNs for classification, segmentation, or object detection. They have initially not been meant to be an image analysis tool, but to produce naturally looking images. The adversarial training paradigm has been proposed to stabilize generative methods, and has proven to be highly successful -- though by no means from the first attempt. This chapter gives a basic introduction into the motivation for Generative Adversarial Networks (GANs) and traces the path of their success by abstracting the basic task and working mechanism, and deriving the difficulty of early practical approaches. Methods for a more stable training will be shown, and also typical signs for poor convergence and their reasons. Though this chapter focuses on GANs that are meant for image generation and image analysis, the adversarial training paradigm itself is not specific to images, and also generalizes to tasks in image analysis. Examples of architectures for image semantic segmentation and abnormality detection will be acclaimed, before contrasting GANs with further generative modeling approaches lately entering the scene. This will allow a contextualized view on the limits but also benefits of GANs.
翻訳日:2022-07-11 13:28:49 公開日:2022-07-08
# 既知の制約機能を有するマルチエネルギー管理システムのための安全強化学習

Safe reinforcement learning for multi-energy management systems with known constraint functions ( http://arxiv.org/abs/2207.03830v1 )

ライセンス: Link先を確認
Glenn Ceusters, Luis Ramirez Camargo, R\"udiger Franke, Ann Now\'e, Maarten Messagie(参考訳) 強化学習(Reinforcement Learning, RL)は, 多エネルギー管理システムにおける最適制御手法である。 事前および進行中のプロジェクト固有のエンジニアリング作業を優先するモデルを必要としないため、基盤となるシステムダイナミクスの表現をより良く学習することができる。 しかし、バニラrlはその安全-クリティカルな環境での様々な安全でない相互作用における制約満足度保証を提供していない。 本稿では、安全制約の定式化をRL定式化から切り離し、トレーニング(探索)と(近接)最適ポリシーの活用の両面でハードコントラスト満足度を保証する2つの新しい安全RL手法、SafeFallbackとGiveSafeを提案する。 シミュレーションによるマルチエネルギシステムのケーススタディでは,両手法がバニラrlベンチマーク(94,6%,82,8%,35,5%)と比較して極めて高い実用性(すなわち有用なポリシ)から始まり,提案手法がバニラrlベンチマーク(102,9%から100%)を上回ることさえ示されている。 いずれの手法もRLを超越した安全制約処理技術であり, 厳密な保証を提供しながら, ランダムエージェントを用いて実証した。 最後に、より多くのデータが利用可能になるにつれて制約関数自体を改善するための基本的な将来の作業を提案する。

Reinforcement learning (RL) is a promising optimal control technique for multi-energy management systems. It does not require a model a priori - reducing the upfront and ongoing project-specific engineering effort and is capable of learning better representations of the underlying system dynamics. However, vanilla RL does not provide constraint satisfaction guarantees - resulting in various unsafe interactions within its safety-critical environment. In this paper, we present two novel safe RL methods, namely SafeFallback and GiveSafe, where the safety constraint formulation is decoupled from the RL formulation and which provides hard-constraint satisfaction guarantees both during training (exploration) and exploitation of the (close-to) optimal policy. In a simulated multi-energy systems case study we have shown that both methods start with a significantly higher utility (i.e. useful policy) compared to a vanilla RL benchmark (94,6% and 82,8% compared to 35,5%) and that the proposed SafeFallback method even can outperform the vanilla RL benchmark (102,9% to 100%). We conclude that both methods are viably safety constraint handling techniques capable beyond RL, as demonstrated with random agents while still providing hard-constraint guarantees. Finally, we propose fundamental future work to i.a. improve the constraint functions itself as more data becomes available.
翻訳日:2022-07-11 13:28:28 公開日:2022-07-08
# セマンティック通信プロトコルに向けて:確率論的論理的視点

Towards Semantic Communication Protocols: A Probabilistic Logic Perspective ( http://arxiv.org/abs/2207.03920v1 )

ライセンス: Link先を確認
Sejin Seo, Jihong Park, Seung-Woo Ko, Jinho Choi, Mehdi Bennis, and Seong-Lyun Kim(参考訳) 古典的なメディアアクセス制御(MAC)プロトコルは解釈可能であるが、そのタスクに依存しない制御シグナリングメッセージ(CM)は、新しいミッションクリティカルなアプリケーションには不適である。 対照的に、ニューラルネットワーク(NN)ベースのプロトコルモデル(NPM)は、タスク固有のCMを生成することを学習するが、その根拠と影響には解釈可能性がない。 この空白を埋めるために,本稿では,NPMを確率論理型言語ProbLogで記述された解釈可能なシンボルグラフに変換することによって構築されたセマンティックプロトコルモデル(SPM)を提案する。 この変換は、共通のcmsとその接続を抽出・統合し、npmをcmジェネレータとして扱うことで実現可能である。 広範なシミュレーションにより、SPMは0.02%のメモリを占有しながら元のNPMを厳密に近似する。 その解釈性とメモリ効率を利用して、衝突回避のためのSPM再構成や、セマンティックエントロピー計算による異なるSPMの比較や、非定常環境に対処するための複数のSPMの保存など、複数のSPM対応アプリケーションを実演する。

Classical medium access control (MAC) protocols are interpretable, yet their task-agnostic control signaling messages (CMs) are ill-suited for emerging mission-critical applications. By contrast, neural network (NN) based protocol models (NPMs) learn to generate task-specific CMs, but their rationale and impact lack interpretability. To fill this void, in this article we propose, for the first time, a semantic protocol model (SPM) constructed by transforming an NPM into an interpretable symbolic graph written in the probabilistic logic programming language (ProbLog). This transformation is viable by extracting and merging common CMs and their connections while treating the NPM as a CM generator. By extensive simulations, we corroborate that the SPM tightly approximates its original NPM while occupying only 0.02% memory. By leveraging its interpretability and memory-efficiency, we demonstrate several SPM-enabled applications such as SPM reconfiguration for collision-avoidance, as well as comparing different SPMs via semantic entropy calculation and storing multiple SPMs to cope with non-stationary environments.
翻訳日:2022-07-11 13:28:01 公開日:2022-07-08
# 振幅方程式の黒と灰色のボックス学習:位相場システムへの応用

Black and Gray Box Learning of Amplitude Equations: Application to Phase Field Systems ( http://arxiv.org/abs/2207.03954v1 )

ライセンス: Link先を確認
Felix P. Kemeth, Sergio Alonso, Blas Echebarria, Ted Moldenhawer, Carsten Beta, and Ioannis G. Kevrekidis(参考訳) 本稿では,振幅方程式のサロゲートモデルを学ぶためのデータ駆動アプローチを提案し,その位相系の界面ダイナミクスへの応用について述べる。 特に、全位相場データから位相場インターフェイスの進化を記述する効果的な偏微分方程式の学習を実証する。 これをモデル相場系で説明し、位相場界面(高次エイコナル方程式とその近似であるカルダル・パリ・張(KPZ)方程式)の解析的近似方程式が知られている。 本稿では,フロントインタフェースのダイナミクスを正確に記述した方程式の同定のためのデータ駆動アプローチについて述べる。 上記の解析近似モデルが不正確になるとき、基礎となる仮定の妥当性の領域を超えて、データ駆動方程式はそれらを上回る。 これらのレジームでは、ブラックボックス識別を超えて、分析的近似モデルに対するデータ駆動補正を学ぶための様々なアプローチを探索し、効果的な灰色のボックス偏微分方程式をもたらす。

We present a data-driven approach to learning surrogate models for amplitude equations, and illustrate its application to interfacial dynamics of phase field systems. In particular, we demonstrate learning effective partial differential equations describing the evolution of phase field interfaces from full phase field data. We illustrate this on a model phase field system, where analytical approximate equations for the dynamics of the phase field interface (a higher order eikonal equation and its approximation, the Kardar-Parisi-Zhang (KPZ) equation) are known. For this system, we discuss data-driven approaches for the identification of equations that accurately describe the front interface dynamics. When the analytical approximate models mentioned above become inaccurate, as we move beyond the region of validity of the underlying assumptions, the data-driven equations outperform them. In these regimes, going beyond black-box identification, we explore different approaches to learn data-driven corrections to the analytically approximate models, leading to effective gray box partial differential equations.
翻訳日:2022-07-11 13:27:37 公開日:2022-07-08
# (参考訳) MACFE: メタラーニングと因果性に基づく機能エンジニアリングフレームワーク

MACFE: A Meta-learning and Causality Based Feature Engineering Framework ( http://arxiv.org/abs/2207.04010v1 )

ライセンス: CC BY 4.0
Ivan Reyes-Amezcua and Daniel Flores-Araiza and Gilberto Ochoa-Ruiz and Andres Mendez-Vazquez and Eduardo Rodriguez-Tello(参考訳) 機能エンジニアリングは、モデル予測のパフォーマンスを改善し、品質データセットを作成するための最も重要なステップの1つになっています。 しかし、このプロセスには時間を要する非自明なドメイン知識が必要です。 これにより、そのようなプロセスの自動化は研究の活発な領域となり、産業応用への関心が高まっている。 本稿ではメタラーニングと因果性に基づく特徴工学(MACFE)と呼ばれる新しい手法を提案し,メタラーニング,特徴分布符号化,因果性特徴選択を応用した手法を提案する。 MACFEでは、メタラーニングは最良の変換を見つけるために使用され、その因果関係から「オリジナル」特徴を事前に選択することで探索が加速される。 一般的な分類データセットの実験的評価によると、MACFEは8つの分類器で予測性能を向上し、現在の最先端の手法を平均6.54%上回っており、過去の最高の研究よりも2.71%向上している。

Feature engineering has become one of the most important steps to improve model prediction performance, and to produce quality datasets. However, this process requires non-trivial domain-knowledge which involves a time-consuming process. Thereby, automating such process has become an active area of research and of interest in industrial applications. In this paper, a novel method, called Meta-learning and Causality Based Feature Engineering (MACFE), is proposed; our method is based on the use of meta-learning, feature distribution encoding, and causality feature selection. In MACFE, meta-learning is used to find the best transformations, then the search is accelerated by pre-selecting "original" features given their causal relevance. Experimental evaluations on popular classification datasets show that MACFE can improve the prediction performance across eight classifiers, outperforms the current state-of-the-art methods in average by at least 6.54%, and obtains an improvement of 2.71% over the best previous works.
翻訳日:2022-07-11 13:26:42 公開日:2022-07-08
# スパース高次相互作用事象の非パラメトリック埋め込み

Nonparametric Embeddings of Sparse High-Order Interaction Events ( http://arxiv.org/abs/2207.03639v1 )

ライセンス: Link先を確認
Zheng Wang, Yiming Xu, Conor Tillinghast, Shibo Li, Akil Narayan, Shandian Zhe(参考訳) 高次相互作用イベントは現実世界のアプリケーションでは一般的である。 これらのイベントから参加者の複雑な関係をエンコードする学習埋め込みは、知識マイニングや予測タスクにおいて非常に重要である。 ポアソンテンソル因子化のような既存のアプローチの成功にもかかわらず、彼らはデータの基礎となるスパース構造を無視している。 本稿では,スパース高次相互作用イベント(NESH)の非パラメトリック埋め込みを提案する。 我々はスパースハイパーグラフ(テンソル)過程と行列ガウス過程をハイブリダイズし、相互作用中の漸近的構造空間と参加者間の非線形時間的関係の両方を捉える。 我々は, サンプル構造の漸近特性を明らかにするため, 疎度比の強い漸近境界(下界と上界の両方を含む)を証明した。 我々は,効率的なスケーラブルなモデル推論アルゴリズムを開発するために,バッチ正規化,スティックブレーク構成,スパース変分gp近似を用いる。 いくつかの実世界のアプリケーションで、我々のアプローチの利点を実証する。

High-order interaction events are common in real-world applications. Learning embeddings that encode the complex relationships of the participants from these events is of great importance in knowledge mining and predictive tasks. Despite the success of existing approaches, e.g. Poisson tensor factorization, they ignore the sparse structure underlying the data, namely the occurred interactions are far less than the possible interactions among all the participants. In this paper, we propose Nonparametric Embeddings of Sparse High-order interaction events (NESH). We hybridize a sparse hypergraph (tensor) process and a matrix Gaussian process to capture both the asymptotic structural sparsity within the interactions and nonlinear temporal relationships between the participants. We prove strong asymptotic bounds (including both a lower and an upper bound) of the sparsity ratio, which reveals the asymptotic properties of the sampled structure. We use batch-normalization, stick-breaking construction, and sparse variational GP approximations to develop an efficient, scalable model inference algorithm. We demonstrate the advantage of our approach in several real-world applications.
翻訳日:2022-07-11 13:12:30 公開日:2022-07-08
# ControlBurn: スパースツリーアンサンブルによる非線形特徴選択

ControlBurn: Nonlinear Feature Selection with Sparse Tree Ensembles ( http://arxiv.org/abs/2207.03935v1 )

ライセンス: Link先を確認
Brian Liu, Miaolan Xie, Haoyue Yang, Madeleine Udell(参考訳) ControlBurnは、非線型機能選択と解釈可能な機械学習をサポートする機能スパースツリーアンサンブルを構築するPythonパッケージである。 このパッケージのアルゴリズムはまず、少数の機能を持つ基底関数を優先する大きなツリーアンサンブルを構築し、その後、重み付けされたラッソ最適化基準を用いて、これらの基底関数の機能スパースサブセットを選択する。 パッケージには、アンサンブルによって選択された機能とその予測への影響を分析する視覚化が含まれている。 したがって、ControlBurnはツリーアンサンブルモデルの精度と柔軟性とスパース一般化加法モデルの解釈可能性を提供する。 ControlBurnはスケーラブルで柔軟性があり、例えば、数千のサンプルと数百の機能を数秒で持つデータセットの正規化パス(選択した機能の予測エラー)を計算するためにウォームスタート継続を使用することができる。 より大きなデータセットの場合、ランタイムはサンプルの数と機能(ログファクタまで)を線形にスケールし、スケッチによるパッケージサポートアクセラレーションをサポートする。 さらに、ControlBurnフレームワークは、機能コスト、機能グループ化、および$\ell_0$ベースのレギュレータに対応している。 ドキュメントとソースコードはhttps://pypi.org/project/ControlBurn/とhttps://github.com/udellgroup/controlburn/に表示される。

ControlBurn is a Python package to construct feature-sparse tree ensembles that support nonlinear feature selection and interpretable machine learning. The algorithms in this package first build large tree ensembles that prioritize basis functions with few features and then select a feature-sparse subset of these basis functions using a weighted lasso optimization criterion. The package includes visualizations to analyze the features selected by the ensemble and their impact on predictions. Hence ControlBurn offers the accuracy and flexibility of tree-ensemble models and the interpretability of sparse generalized additive models. ControlBurn is scalable and flexible: for example, it can use warm-start continuation to compute the regularization path (prediction error for any number of selected features) for a dataset with tens of thousands of samples and hundreds of features in seconds. For larger datasets, the runtime scales linearly in the number of samples and features (up to a log factor), and the package support acceleration using sketching. Moreover, the ControlBurn framework accommodates feature costs, feature groupings, and $\ell_0$-based regularizers. The package is user-friendly and open-source: its documentation and source code appear on https://pypi.org/project/ControlBurn/ and https://github.com/udellgroup/controlburn/.
翻訳日:2022-07-11 13:12:07 公開日:2022-07-08
# 時空に生きる物体の会話としてのビデオダイアログ

Video Dialog as Conversation about Objects Living in Space-Time ( http://arxiv.org/abs/2207.03656v1 )

ライセンス: Link先を確認
Hoang-Anh Pham, Thao Minh Le, Vuong Le, Tu Minh Phuong, Truyen Tran(参考訳) 彼らが見ているものについて人間と有意義な会話ができるシステムを作ることは、技術的な偉業だ。 その目標に向けてのセットアップはビデオダイアログタスクとして提示され、システムは進行中のダイアログに応答して自然な発話を生成するように要求される。 このタスクは、高レベルの推論をサポートするビデオやダイアログ上の適切な表現スキームなしでは簡単に克服できない、視覚的、言語的、推論上の大きな課題をもたらす。 これらの課題に取り組むために、私たちは、COSTと呼ばれるニューラル推論をサポートするビデオダイアログのための新しいオブジェクト指向フレームワークを紹介します。 ここで、ビデオ内の動的時空ビジュアルコンテンツは、まずオブジェクトの軌跡にパースされる。 このビデオ抽象化を前提として、COSTはオブジェクト関連ダイアログの状態を管理し、追跡する。 オブジェクトの相互作用は各質問に対して動的かつ条件付きで推論され、それらの間の関係推論の基礎となる。 COSTは過去の回答の履歴も保持しており、関連するオブジェクト中心の情報を取得して回答形成プロセスを強化することができる。 言語生産はステップワイズに進み、現在の発話、既存のダイアログ、現在の質問のコンテキストを取り入れます。 我々はdstc7およびdstc8ベンチマークのコストを評価し,最新技術との競争力を示す。

It would be a technological feat to be able to create a system that can hold a meaningful conversation with humans about what they watch. A setup toward that goal is presented as a video dialog task, where the system is asked to generate natural utterances in response to a question in an ongoing dialog. The task poses great visual, linguistic, and reasoning challenges that cannot be easily overcome without an appropriate representation scheme over video and dialog that supports high-level reasoning. To tackle these challenges we present a new object-centric framework for video dialog that supports neural reasoning dubbed COST - which stands for Conversation about Objects in Space-Time. Here dynamic space-time visual content in videos is first parsed into object trajectories. Given this video abstraction, COST maintains and tracks object-associated dialog states, which are updated upon receiving new questions. Object interactions are dynamically and conditionally inferred for each question, and these serve as the basis for relational reasoning among them. COST also maintains a history of previous answers, and this allows retrieval of relevant object-centric information to enrich the answer forming process. Language production then proceeds in a step-wise manner, taking into the context of the current utterance, the existing dialog, the current question. We evaluate COST on the DSTC7 and DSTC8 benchmarks, demonstrating its competitiveness against state-of-the-arts.
翻訳日:2022-07-11 13:11:04 公開日:2022-07-08
# (参考訳) CoCAtt:認知型運転注意データセット(補助材料)

CoCAtt: A Cognitive-Conditioned Driver Attention Dataset (Supplementary Material) ( http://arxiv.org/abs/2207.04028v1 )

ライセンス: CC BY 4.0
Yuan Shen, Niviru Wijayaratne, Pranav Sriram, Aamir Hasan, Peter Du, and Katherine Driggs-Campbell(参考訳) ドライバー注意予測のタスクは、ロボット工学と自動運転車産業の研究者の間で大きな関心を集めている。 運転注意予測は、衝突や死傷などのリスクの高い出来事を緩和し防止する上で、重要な役割を果たす。 しかし、既存の運転注意予測モデルは、運転者の気晴らし状態や意図を無視し、周囲の観察方法に大きな影響を与える可能性がある。 これらの問題に対処するために、新しいドライバー注意データセットCoCAt(Cognitive-Conditioned Attention)を提案する。 以前のドライバ注意データセットとは異なり、CoCAttには、ドライバの混乱状態と意図を記述するフレーム単位のアノテーションが含まれている。 さらに、我々のデータセットの注意データは、異なる解像度のアイトラッキングデバイスを使用して、手動モードと自動操縦モードの両方でキャプチャされる。 以上の2つの運転状態を注意モデルに組み込むことにより、運転者注意予測の性能が向上することを示す。 私たちの知る限りでは、この研究が初めてオートパイロットの注意データを提供した。 さらに、CoCAttは現在、自律レベル、アイトラッカーの解像度、運転シナリオの観点から、最大かつ最も多様なドライバー注意データセットである。 CoCAttはhttps://cocatt-dataset.github.ioでダウンロードできる。

The task of driver attention prediction has drawn considerable interest among researchers in robotics and the autonomous vehicle industry. Driver attention prediction can play an instrumental role in mitigating and preventing high-risk events, like collisions and casualties. However, existing driver attention prediction models neglect the distraction state and intention of the driver, which can significantly influence how they observe their surroundings. To address these issues, we present a new driver attention dataset, CoCAtt (Cognitive-Conditioned Attention). Unlike previous driver attention datasets, CoCAtt includes per-frame annotations that describe the distraction state and intention of the driver. In addition, the attention data in our dataset is captured in both manual and autopilot modes using eye-tracking devices of different resolutions. Our results demonstrate that incorporating the above two driver states into attention modeling can improve the performance of driver attention prediction. To the best of our knowledge, this work is the first to provide autopilot attention data. Furthermore, CoCAtt is currently the largest and the most diverse driver attention dataset in terms of autonomy levels, eye tracker resolutions, and driving scenarios. CoCAtt is available for download at https://cocatt-dataset.github.io.
翻訳日:2022-07-11 13:08:56 公開日:2022-07-08
# AUC最大化のためのバランス付き自己更新学習

Balanced Self-Paced Learning for AUC Maximization ( http://arxiv.org/abs/2207.03650v1 )

ライセンス: Link先を確認
Bin Gu, Chenkang Zhang, Huan Xiong, Heng Huang(参考訳) AUCのパフォーマンスを改善するための学習は、機械学習において重要なトピックである。 しかし, auc最大化アルゴリズムはノイズデータにより一般化性能を低下させる可能性がある。 セルフペースト学習はノイズの多いデータを扱う効果的な方法である。 しかし,既存の自己評価学習手法はポイントワイズ学習に限られており,AUCの最大化はペアワイズ学習の問題である。 この課題を解決するために,我々は,バランスの取れたAUC最大化アルゴリズム(BSPAUC)を革新的に提案する。 具体的には,まず,自己修復型AUCの統計的目的について述べる。 そこで,本論文では,選択した正と負のサンプルが適正な比率であることを保証するために,バランスの取れた自己ペースの正規化項を組み込んだ自己ペースの最大化定式化を提案する。 特に、すべての重み変数に関するサブプロブレムは、我々の定式化では非凸であり、一方は、通常、既存の自己周期問題において凸である。 そこで本研究では,二重巡回ブロック座標降下法を提案する。 より重要なことは、すべての重み変数に関するサブプロブレムが閉形式解に基づいて定常点に収束し、我々のbspaucは穏やかな仮定の下で固定最適化目標の定常点に収束することを証明することである。 ディープラーニングとカーネルベースの実装の両方を考慮すると、BSPAUCは既存の最先端AUCの最大化手法よりも優れた一般化性能を有することを示す。

Learning to improve AUC performance is an important topic in machine learning. However, AUC maximization algorithms may decrease generalization performance due to the noisy data. Self-paced learning is an effective method for handling noisy data. However, existing self-paced learning methods are limited to pointwise learning, while AUC maximization is a pairwise learning problem. To solve this challenging problem, we innovatively propose a balanced self-paced AUC maximization algorithm (BSPAUC). Specifically, we first provide a statistical objective for self-paced AUC. Based on this, we propose our self-paced AUC maximization formulation, where a novel balanced self-paced regularization term is embedded to ensure that the selected positive and negative samples have proper proportions. Specially, the sub-problem with respect to all weight variables may be non-convex in our formulation, while the one is normally convex in existing self-paced problems. To address this, we propose a doubly cyclic block coordinate descent method. More importantly, we prove that the sub-problem with respect to all weight variables converges to a stationary point on the basis of closed-form solutions, and our BSPAUC converges to a stationary point of our fixed optimization objective under a mild assumption. Considering both the deep learning and kernel-based implementations, experimental results on several large-scale datasets demonstrate that our BSPAUC has a better generalization performance than existing state-of-the-art AUC maximization methods.
翻訳日:2022-07-11 13:01:09 公開日:2022-07-08
# アクティブ学習型孤立林(ALIF):意思決定支援システムにおける異常検出の強化

Active Learning-based Isolation Forest (ALIF): Enhancing Anomaly Detection in Decision Support Systems ( http://arxiv.org/abs/2207.03934v1 )

ライセンス: Link先を確認
Elisa Marcelli, Tommaso Barbariol, Gian Antonio Susto(参考訳) 異常な振る舞いの検出は、多くのアプリケーション、特にセキュリティと信頼性が重要な側面である状況において、ますます必要とされる。 異常の定義はドメイン・フレームワークに厳密に依存するが、完全にラベル付けされたデータセットを得るには実用的でないか時間がかかりすぎることが多い。 ラベルの欠如を克服するための教師なしモデルの使用は、通常、アウトリーチの一般的な定義に依存するため、ドメイン固有の異常をキャッチできないことが多い。 本稿では,要求ラベル数を減らし,ユーザが提供する異常定義に向けて検出器をチューニングすることで,この問題を解決するための新たなアクティブラーニングベースアプローチであるALIFを提案する。 提案手法は,現実のシナリオでますます普及しているDSS(Decision Support System)の存在に特に注目されている。 異常検出機能に埋め込まれたDSSは、教師なしモデルに依存しているのが一般的ですが、パフォーマンスを改善する方法はありません。 ALIFは一般的な孤立林の軽量な修正であり、多数の実際の異常検出データセットにおいて、他の最先端アルゴリズムよりも優れた性能を示した。

The detection of anomalous behaviours is an emerging need in many applications, particularly in contexts where security and reliability are critical aspects. While the definition of anomaly strictly depends on the domain framework, it is often impractical or too time consuming to obtain a fully labelled dataset. The use of unsupervised models to overcome the lack of labels often fails to catch domain specific anomalies as they rely on general definitions of outlier. This paper suggests a new active learning based approach, ALIF, to solve this problem by reducing the number of required labels and tuning the detector towards the definition of anomaly provided by the user. The proposed approach is particularly appealing in the presence of a Decision Support System (DSS), a case that is increasingly popular in real-world scenarios. While it is common that DSS embedded with anomaly detection capabilities rely on unsupervised models, they don't have a way to improve their performance: ALIF is able to enhance the capabilities of DSS by exploiting the user feedback during common operations. ALIF is a lightweight modification of the popular Isolation Forest that proved superior performances with respect to other state-of-art algorithms in a multitude of real anomaly detection datasets.
翻訳日:2022-07-11 13:00:47 公開日:2022-07-08
# (参考訳) 帰属ネットワークにおける異常検出のためのgcnに基づくマルチタスク表現学習

GCN-based Multi-task Representation Learning for Anomaly Detection in Attributed Networks ( http://arxiv.org/abs/2207.03688v1 )

ライセンス: CC BY 4.0
Venus Haghighi, Behnaz Soltani, Adnan Mahmood, Quan Z. Sheng, Jian Yang(参考訳) 近年では、金融、ネットワークセキュリティ、医療など、幅広い分野に応用されているため、属性付きネットワークにおける異常検出が注目されている。 従来のアプローチは、異常検出の問題を解決するために、属性付きネットワークの設定には適用できない。 このようなアプローチの主な制限は、データ特徴間の関係情報を本質的に無視することです。 ディープラーニングとグラフニューラルネットに基づく技術が急速に爆発する中、複雑な関係を抽出するための深い技術の可能性から、帰属するネットワーク上でレアオブジェクトを見つけることが大幅に進んでいる。 本稿では,異常検出のための新しいアーキテクチャを提案する。 このようなアーキテクチャを設計する主な目的は、検出性能を高めるマルチタスク学習を利用することである。 マルチタスク学習に基づく異常検出はまだ初期段階にあり、既存の文献における研究はごくわずかである。 コミュニティ検出とマルチビュー表現学習を併用して,属性付きネットワークから個別かつ補完的な情報を抽出し,得られた情報を融合してより優れた検出結果を得る。 このアーキテクチャで使用される2つの主要コンポーネント、すなわちコミュニティ固有の学習と多視点表現学習の相互協力は、より効果的な結果を得るための有望な解決策を示す。

Anomaly detection in attributed networks has received a considerable attention in recent years due to its applications in a wide range of domains such as finance, network security, and medicine. Traditional approaches cannot be adopted on attributed networks' settings to solve the problem of anomaly detection. The main limitation of such approaches is that they inherently ignore the relational information between data features. With a rapid explosion in deep learning- and graph neural networks-based techniques, spotting rare objects on attributed networks has significantly stepped forward owing to the potentials of deep techniques in extracting complex relationships. In this paper, we propose a new architecture on anomaly detection. The main goal of designing such an architecture is to utilize multi-task learning which would enhance the detection performance. Multi-task learning-based anomaly detection is still in its infancy and only a few studies in the existing literature have catered to the same. We incorporate both community detection and multi-view representation learning techniques for extracting distinct and complementary information from attributed networks and subsequently fuse the captured information for achieving a better detection result. The mutual collaboration between two main components employed in this architecture, i.e., community-specific learning and multi-view representation learning, exhibits a promising solution to reach more effective results.
翻訳日:2022-07-11 12:58:27 公開日:2022-07-08
# CoSIm: 反現実的シーンイマジネーションのためのコモンセンス推論

CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination ( http://arxiv.org/abs/2207.03961v1 )

ライセンス: Link先を確認
Hyounghun Kim, Abhay Zala, Mohit Bansal(参考訳) 人間として、私たちの心の中の代替物や概念を想像することで、シーンに関する仮定を修正できます。 例えば、雨雲(例えば、通りは濡れる)によって太陽が曇りすぎているという影響を予測でき、それに備えることができる。 本稿では,シーン変化の想像力を推論するAIシステムの能力を評価するために,CoSIm(Commonsense Reasoning for Counterfactual Scene Imagination)というタスク/データセットを提案する。 このタスク/データセットでは、モデルに画像と初期質問応答ペアが与えられる。 次に、(テキスト形式で)反事実的なシーン変化を適用し、このシーン変化に基づいて、最初の質問に対する新しい応答を予測しなければならない。 私たちは3.5kの高品質で挑戦的なデータインスタンスを収集し、各インスタンスは画像、応答を伴う常識的な質問、反事実的な変更の説明、質問に対する新しい応答、そして3つの邪魔者応答からなる。 私たちのデータセットには、さまざまな複雑なシーン変更タイプ(オブジェクトの追加/削除/状態の変更、イベント記述、環境変更など)が含まれています。 本稿では,視覚言語トランスフォーマー(lxmert)に基づくベースラインモデルとアブレーション研究について述べる。 人的評価を通じて、人間モデルの性能格差を大きく示し、この挑戦的な対実的、シーンの想像力的なタスクに将来を期待できる余地を示唆する。 私たちのコードとデータセットは、https://github.com/hyounghk/CoSImで公開されています。

As humans, we can modify our assumptions about a scene by imagining alternative objects or concepts in our minds. For example, we can easily anticipate the implications of the sun being overcast by rain clouds (e.g., the street will get wet) and accordingly prepare for that. In this paper, we introduce a new task/dataset called Commonsense Reasoning for Counterfactual Scene Imagination (CoSIm) which is designed to evaluate the ability of AI systems to reason about scene change imagination. In this task/dataset, models are given an image and an initial question-response pair about the image. Next, a counterfactual imagined scene change (in textual form) is applied, and the model has to predict the new response to the initial question based on this scene change. We collect 3.5K high-quality and challenging data instances, with each instance consisting of an image, a commonsense question with a response, a description of a counterfactual change, a new response to the question, and three distractor responses. Our dataset contains various complex scene change types (such as object addition/removal/state change, event description, environment change, etc.) that require models to imagine many different scenarios and reason about the changed scenes. We present a baseline model based on a vision-language Transformer (i.e., LXMERT) and ablation studies. Through human evaluation, we demonstrate a large human-model performance gap, suggesting room for promising future work on this challenging counterfactual, scene imagination task. Our code and dataset are publicly available at: https://github.com/hyounghk/CoSIm
翻訳日:2022-07-11 12:47:14 公開日:2022-07-08
# Abs-CAM:畳み込みニューラルネットワークの解説のための勾配最適化解釈可能なアプローチ

Abs-CAM: A Gradient Optimization Interpretable Approach for Explanation of Convolutional Neural Networks ( http://arxiv.org/abs/2207.03648v1 )

ライセンス: Link先を確認
Chunyan Zeng, Kang Yan, Zhifeng Wang, Yan Yu, Shiyan Xia, Nan Zhao(参考訳) Deep Neural Networks(DNN)のブラックボックスの性質は、パフォーマンス改善と特定の場面での応用を著しく妨げている。 近年,コンピュータビジョンタスクにおけるモデルの内部決定を解釈するために,クラスアクティベーションマッピングに基づく手法が広く用いられている。 しかし、この手法が勾配を得るためにバックプロパゲーションを使用する場合、サリエンシーマップのノイズを引き起こし、決定に無関係な特徴を見つけることさえある。 本稿では,バックプロパゲーションから得られる勾配を最適化し,これらすべてを正の勾配に変換して,出力ニューロンの活性化の視覚的特徴を高め,サリエンシマップの局所化能力を向上させる絶対値クラス活性化マッピング(Abs-CAM)法を提案する。 abs-camの枠組みは、初期給与マップの生成と最終給与マップの生成の2つのフェーズに分けられる。 第1のフェーズは勾配を最適化することで塩分マップの局所化能力を向上し、第2のフェーズは初期塩分マップと原画像を線形に組み合わせて塩分マップの意味情報を強化する。 本稿では,削除,挿入,ポインティングゲームなど,提案手法の質的,定量的評価を行う。 実験の結果,abs-camはサリエンシーマップのノイズを明らかに排除でき,意思決定に関連する特徴をよりよく特定でき,従来の認識・局所化の手法よりも優れていることがわかった。

The black-box nature of Deep Neural Networks (DNNs) severely hinders its performance improvement and application in specific scenes. In recent years, class activation mapping-based method has been widely used to interpret the internal decisions of models in computer vision tasks. However, when this method uses backpropagation to obtain gradients, it will cause noise in the saliency map, and even locate features that are irrelevant to decisions. In this paper, we propose an Absolute value Class Activation Mapping-based (Abs-CAM) method, which optimizes the gradients derived from the backpropagation and turns all of them into positive gradients to enhance the visual features of output neurons' activation, and improve the localization ability of the saliency map. The framework of Abs-CAM is divided into two phases: generating initial saliency map and generating final saliency map. The first phase improves the localization ability of the saliency map by optimizing the gradient, and the second phase linearly combines the initial saliency map with the original image to enhance the semantic information of the saliency map. We conduct qualitative and quantitative evaluation of the proposed method, including Deletion, Insertion, and Pointing Game. The experimental results show that the Abs-CAM can obviously eliminate the noise in the saliency map, and can better locate the features related to decisions, and is superior to the previous methods in recognition and localization tasks.
翻訳日:2022-07-11 12:46:21 公開日:2022-07-08
# 一般化記憶装置

Generalization-Memorization Machines ( http://arxiv.org/abs/2207.03976v1 )

ライセンス: Link先を確認
Zhen Wang, Yuan-Hai Shao(参考訳) オーバーフィッティングなしでトレーニングデータを正しく分類することは、マシンラーニングの目標のひとつだ。 本稿では,一般化記憶決定とメモリモデリングの原理を含む一般化記憶機構を提案する。 このメカニズムの下で、エラーベースの学習機械は過度に適合することなく、トレーニングデータの記憶能力を向上させる。 具体的には、この機構を適用して一般化記憶装置(GMM)を提案する。 GMMの最適化問題は二次プログラミングの問題であり、効率的に解ける。 注意すべきは、最近提案された一般化記憶カーネルと対応するサポートベクトルマシンが、GMMの特別な場合であることである。 実験結果から,提案したGMMが記憶および一般化に与える影響が示された。

Classifying the training data correctly without over-fitting is one of the goals in machine learning. In this paper, we propose a generalization-memorization mechanism, including a generalization-memorization decision and a memory modeling principle. Under this mechanism, error-based learning machines improve their memorization abilities of training data without over-fitting. Specifically, the generalization-memorization machines (GMM) are proposed by applying this mechanism. The optimization problems in GMM are quadratic programming problems and could be solved efficiently. It should be noted that the recently proposed generalization-memorization kernel and the corresponding support vector machines are the special cases of our GMM. Experimental results show the effectiveness of the proposed GMM both on memorization and generalization.
翻訳日:2022-07-11 12:45:55 公開日:2022-07-08
# SETSum: 学生による授業評価の要約と可視化

SETSum: Summarization and Visualization of Student Evaluations of Teaching ( http://arxiv.org/abs/2207.03640v1 )

ライセンス: Link先を確認
Yinuo Hu, Shiyue Zhang, Viji Sathy, A. T. Panter, Mohit Bansal(参考訳) 学生の教育評価(SET)は大学や大学で広く使われている。 通常、SETの結果は静的PDFレポートのインストラクターに要約される。 このレポートには、定量的評価に関する要約統計と、未定の学生コメントのリストが含まれている。 組織的なコメントの欠如と生のコメントの要約は、報告を十分に活用し、正確な推測を行い、適切な指導的改善を設計することを妨げる。 本研究では, 感情分析, アスペクト抽出, 要約, 可視化技術を活用したSETSumという新しいシステムを導入し, インストラクターや他のレビュアーにSET結果の組織化された図形を提供する。 さまざまな部署の10人の大学教授が、setsumがセットの結果をより効率的に解釈するのに役立ち、インストラクター10人中6人は標準の静的pdfレポートよりも私たちのシステムを好んでいる(残りの4人は両方を持ちたいと考えている)。 このことは、我々の研究が将来SET報告規約を改革する可能性を秘めていることを示している。 私たちのコードはhttps://github.com/evahuyn/SETSumで利用可能です。

Student Evaluations of Teaching (SETs) are widely used in colleges and universities. Typically SET results are summarized for instructors in a static PDF report. The report often includes summary statistics for quantitative ratings and an unsorted list of open-ended student comments. The lack of organization and summarization of the raw comments hinders those interpreting the reports from fully utilizing informative feedback, making accurate inferences, and designing appropriate instructional improvements. In this work, we introduce a novel system, SETSum, that leverages sentiment analysis, aspect extraction, summarization, and visualization techniques to provide organized illustrations of SET findings to instructors and other reviewers. Ten university professors from diverse departments serve as evaluators of the system and all agree that SETSum helps them interpret SET results more efficiently; and 6 out of 10 instructors prefer our system over the standard static PDF report (while the remaining 4 would like to have both). This demonstrates that our work holds the potential to reform the SET reporting conventions in the future. Our code is available at https://github.com/evahuyn/SETSum
翻訳日:2022-07-11 12:45:46 公開日:2022-07-08
# 時系列分類のための半教師なし学習

Semi-unsupervised Learning for Time Series Classification ( http://arxiv.org/abs/2207.03119v2 )

ライセンス: Link先を確認
Padraig Davidson and Michael Steininger and Andr\'e Huhn and Anna Krause and Andreas Hotho(参考訳) 時系列はユビキタスであり、本質的に分析が困難であり、ラベルやクラスタに結びつく。 IoT(Internet of Things, モノのインターネット)とそのスマートデバイスが台頭するにつれ、データは1秒ごとに大量に収集される。 収集されたデータは、リアルタイムで事故(車など)を検知したり、所定の期間(健康装置など)にわたって怪我やシックを評価できるため、情報に富んでいる。 カオス的な性質と膨大なデータポイントのため、タイムシリーズは手動でラベルを付けるのが難しい。 さらに、データ内の新しいクラス(手書きの桁など)が時間とともに出現し、データのリラベル化が必要になる。 本稿では,半教師なし学習のためのガウス混合モデルSuSL4TSについて,時系列データの分類を行う。 sparsely labeled class (semi-supervised) を検出でき、データに隠されている新興クラス(教師なし)を識別できるため、手作業によるラベリングステップを緩和できます。 提案手法の有効性を,異なる領域の時系列分類データセットを用いて実証する。

Time series are ubiquitous and therefore inherently hard to analyze and ultimately to label or cluster. With the rise of the Internet of Things (IoT) and its smart devices, data is collected in large amounts any given second. The collected data is rich in information, as one can detect accidents (e.g. cars) in real time, or assess injury/sickness over a given time span (e.g. health devices). Due to its chaotic nature and massive amounts of datapoints, timeseries are hard to label manually. Furthermore new classes within the data could emerge over time (contrary to e.g. handwritten digits), which would require relabeling the data. In this paper we present SuSL4TS, a deep generative Gaussian mixture model for semi-unsupervised learning, to classify time series data. With our approach we can alleviate manual labeling steps, since we can detect sparsely labeled classes (semi-supervised) and identify emerging classes hidden in the data (unsupervised). We demonstrate the efficacy of our approach with established time series classification datasets from different domains.
翻訳日:2022-07-11 11:09:11 公開日:2022-07-08
# 多目的最適化によるランキングのマルチラベル学習

Multi-Label Learning to Rank through Multi-Objective Optimization ( http://arxiv.org/abs/2207.03060v2 )

ライセンス: Link先を確認
Debabrata Mahapatra, Chaosheng Dong, Yetian Chen, Deqiang Meng, Michinari Momma(参考訳) 近年,Learning to Rank(LTR)技術は情報検索システム,特に検索ランキングアプリケーションにおいて普及している。 ランキングモデルのトレーニングに一般的に使用されるクエリ項目関連ラベルは、製品検索の製品評価など、人の行動の騒々しい測定値であることが多い。 粗い測定は、単一の関連性基準に関して、基礎的な真理を不均一にランク付けする。 あいまいさを解決するためには、多くの関連基準を用いてモデルを訓練することが望ましいため、MLLTR(Multi-Label LTR)が生まれる。 さらに、製品検索において、製品の品質と購入可能性に基づいてランキングモデルを訓練し、収益を増加させるなど、同時に最適化する上で、相反するが重要な複数の目標を定式化する。 本研究では,MLLTR問題における多目的最適化(MOO)の側面を活用し,最近開発されたMOOアルゴリズムを用いて解く。 具体的には,ラベルからの情報を様々な方法で組み合わせて,目標間のトレードオフを有意義に特徴付ける,汎用的な枠組みを提案する。 我々のフレームワークは、任意の勾配に基づくMOOアルゴリズムを、MLLTR問題を解決するために使用できる。 提案フレームワークを2つのltrデータセットと1つのeコマースデータセット上でテストし,有効性を示す。

Learning to Rank (LTR) technique is ubiquitous in the Information Retrieval system nowadays, especially in the Search Ranking application. The query-item relevance labels typically used to train the ranking model are often noisy measurements of human behavior, e.g., product rating for product search. The coarse measurements make the ground truth ranking non-unique with respect to a single relevance criterion. To resolve ambiguity, it is desirable to train a model using many relevance criteria, giving rise to Multi-Label LTR (MLLTR). Moreover, it formulates multiple goals that may be conflicting yet important to optimize for simultaneously, e.g., in product search, a ranking model can be trained based on product quality and purchase likelihood to increase revenue. In this research, we leverage the Multi-Objective Optimization (MOO) aspect of the MLLTR problem and employ recently developed MOO algorithms to solve it. Specifically, we propose a general framework where the information from labels can be combined in a variety of ways to meaningfully characterize the trade-off among the goals. Our framework allows for any gradient based MOO algorithm to be used for solving the MLLTR problem. We test the proposed framework on two publicly available LTR datasets and one e-commerce dataset to show its efficacy.
翻訳日:2022-07-11 11:08:52 公開日:2022-07-08
# 背後分布のサンプリングによる大気運動ベクトルの不確かさ

Uncertainty of Atmospheric Motion Vectors by Sampling Tempered Posterior Distributions ( http://arxiv.org/abs/2207.03182v2 )

ライセンス: Link先を確認
Patrick H\'eas and Fr\'ed\'eric C\'erou and Mathias Rousset(参考訳) 衛星画像から抽出した大気移動ベクトル(AMV)は、地球規模の良好な風観測である。 これらは数値気象予報(NWP)モデルに影響を及ぼす重要な特徴である。 AMVを推定するためにいくつかのベイズモデルが提案されている。 NWPモデルへの正しい同化には重要であるが、推定誤差を徹底的に評価する手法はほとんどない。 誤差を推定することの難しさは、非常に高次元かつ特異な可能性のために高度に条件づけられた後部分布の特異性に起因する。 本研究では、勾配に基づくマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを用いて、AMVの予測誤差の評価を行う。 本研究の主な貢献は,AMVの局所的後方分布と画像変数の局所的近似を点推定の近傍でサンプリングするテンパリング戦略を提案することである。 さらに, 先行する族自体(フラクショナル・ブラウン運動)に関連する共分散に対して, 多分異なるハイパーパラメータを持つ効率的なプリコンディショニングを提供する。 理論的な観点から、正則性仮定の下では、温度が減少するにつれて温められた後続分布の族は分布に収束し、最大Aポストエリオリ(MAP)対数密度(英語版)によって与えられる点推定における最適ガウス近似に収束することを示す。 実証的な観点から,いくつかの定量的ベイズ評価基準に基づいて提案手法を評価する。 合成および実気象データを用いて行った数値シミュレーションにより,AMV点推定精度とそれに伴う予測誤差推定量の有意な向上が得られたが,MCMCアルゴリズムの収束速度も著しく向上した。

Atmospheric motion vectors (AMVs) extracted from satellite imagery are the only wind observations with good global coverage. They are important features for feeding numerical weather prediction (NWP) models. Several Bayesian models have been proposed to estimate AMVs. Although critical for correct assimilation into NWP models, very few methods provide a thorough characterization of the estimation errors. The difficulty of estimating errors stems from the specificity of the posterior distribution, which is both very high dimensional, and highly ill-conditioned due to a singular likelihood, which becomes critical in particular in the case of missing data (unobserved pixels). This work studies the evaluation of the expected error of AMVs using gradient-based Markov Chain Monte Carlo (MCMC) algorithms. Our main contribution is to propose a tempering strategy, which amounts to sampling a local approximation of the joint posterior distribution of AMVs and image variables in the neighborhood of a point estimate. In addition, we provide efficient preconditioning with the covariance related to the prior family itself (fractional Brownian motion), with possibly different hyper-parameters. From a theoretical point of view, we show that under regularity assumptions, the family of tempered posterior distributions converges in distribution as temperature decreases to an {optimal} Gaussian approximation at a point estimate given by the Maximum A Posteriori (MAP) log-density. From an empirical perspective, we evaluate the proposed approach based on some quantitative Bayesian evaluation criteria. Our numerical simulations performed on synthetic and real meteorological data reveal a significant gain in terms of accuracy of the AMV point estimates and of their associated expected error estimates, but also a substantial acceleration in the convergence speed of the MCMC algorithms.
翻訳日:2022-07-11 11:08:29 公開日:2022-07-08