このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220630となっている論文です。

PDF登録状況(公開日: 20220630)

TitleAuthorsAbstract論文公表日・翻訳日
# 私のニューラルネットワークはどの最小値に収束するのか?

Which Minimizer Does My Neural Network Converge To? ( http://arxiv.org/abs/2011.02408v2 )

ライセンス: Link先を確認
Manuel Nonnenmacher, David Reeb, Ingo Steinwart(参考訳) 過パラメータニューラルネットワーク(NN)の損失面は、トレーニングエラーゼロの多くの大域的ミニマを持つ。 標準NNトレーニング手順の一般的な変種が、得られた最小値を変化させる方法について説明する。 まず、強過パラメータ化nnの初期化のサイズが最小化にどのように影響するかを明確にし、最終的なテスト性能を低下させる。 我々はこの効果を制限する戦略を提案する。 次に,アダグラードなどの適応最適化では,得られた最小値が勾配降下(gd)最小値と一般的に異なることを示す。 この適応最小化器は、非適応ケースではGDと確率GDが本質的に同じ最小化器となるにもかかわらず、確率最小化訓練によりさらに変更される。 最後に、これらの効果は、過度にパラメータ化されたNNに関係していると説明する。 過パラメータ化にはメリットがあるが、我々の研究は、過パラメータ化モデルからエラーの原因が欠如していることを強調している。

The loss surface of an overparameterized neural network (NN) possesses many global minima of zero training error. We explain how common variants of the standard NN training procedure change the minimizer obtained. First, we make explicit how the size of the initialization of a strongly overparameterized NN affects the minimizer and can deteriorate its final test performance. We propose a strategy to limit this effect. Then, we demonstrate that for adaptive optimization such as AdaGrad, the obtained minimizer generally differs from the gradient descent (GD) minimizer. This adaptive minimizer is changed further by stochastic mini-batch training, even though in the non-adaptive case, GD and stochastic GD result in essentially the same minimizer. Lastly, we explain that these effects remain relevant for less overparameterized NNs. While overparameterization has its benefits, our work highlights that it induces sources of error absent from underparameterized models.
翻訳日:2022-09-29 21:40:02 公開日:2022-06-30
# 決定木に対する確率的説明の計算について

On Computing Probabilistic Explanations for Decision Trees ( http://arxiv.org/abs/2207.12213v1 )

ライセンス: Link先を確認
Marcelo Arenas, Pablo Barcel\'o, Miguel Romero, Bernardo Subercaseaux(参考訳) フォーマルXAI(説明可能なAI)は、MLモデルによる決定に対する数学的保証を備えたコンピューティングの説明に焦点を当てる成長分野である。 形式xaiの内部において、最も研究されている事例の1つは、伝統的にモデルの最も解釈可能なクラスの一つと見なされる決定木によって取られる選択を説明することである。 最近の研究は「十分な理由」の計算の研究に重点を置いており、決定木$T$とインスタンス$x$が与えられた場合、決定木$T(x)$が$x$の機能のサブセットである$y$を提供することで、$y$と互換性のある他のインスタンス$z$が$y$と互換性がある場合、$T(z) = T(x)$は直感的には、$y$の機能は$x$の分類を完全に正当化するのに十分であることを意味する。 しかし、十分な理由が説明の制限的な概念であり、したがってコミュニティはそれらの確率的対応について研究を始めており、そこでは$t(z) = t(x)$の確率は少なくとも$\delta \in (0, 1]$の値でなければならない。 本稿では,決定木に対する$\delta$-sufficient-reasonsの計算複雑性を考察し,(1)最小サイズの$\delta$-sufficient-reasonsを見つけること,(2)最小の包摂性を持つ$\delta$-sufficient-reasonsは多項式時間アルゴリズム(P=NPを除く)を許容しないことを示す。 これは、包含的に最小限の十分推論が容易に計算できる決定論的ケース(\delta = 1$)とは対照的である。 これにより、元々Izzaらによって提起された2つのオープンな問題に答える。 肯定的な面では、問題を抽出可能な決定木の構造的制約を特定し、SATソルバがこれらの問題に実際にどのように対処できるかを示す。

Formal XAI (explainable AI) is a growing area that focuses on computing explanations with mathematical guarantees for the decisions made by ML models. Inside formal XAI, one of the most studied cases is that of explaining the choices taken by decision trees, as they are traditionally deemed as one of the most interpretable classes of models. Recent work has focused on studying the computation of "sufficient reasons", a kind of explanation in which given a decision tree $T$ and an instance $x$, one explains the decision $T(x)$ by providing a subset $y$ of the features of $x$ such that for any other instance $z$ compatible with $y$, it holds that $T(z) = T(x)$, intuitively meaning that the features in $y$ are already enough to fully justify the classification of $x$ by $T$. It has been argued, however, that sufficient reasons constitute a restrictive notion of explanation, and thus the community has started to study their probabilistic counterpart, in which one requires that the probability of $T(z) = T(x)$ must be at least some value $\delta \in (0, 1]$, where $z$ is a random instance that is compatible with $y$. Our paper settles the computational complexity of $\delta$-sufficient-reasons over decision trees, showing that both (1) finding $\delta$-sufficient-reasons that are minimal in size, and (2) finding $\delta$-sufficient-reasons that are minimal inclusion-wise, do not admit polynomial-time algorithms (unless P=NP). This is in stark contrast with the deterministic case ($\delta = 1$) where inclusion-wise minimal sufficient-reasons are easy to compute. By doing this, we answer two open problems originally raised by Izza et al. On the positive side, we identify structural restrictions of decision trees that make the problem tractable, and show how SAT solvers might be able to tackle these problems in practical settings.
翻訳日:2022-07-31 14:48:08 公開日:2022-06-30
# ラグランジアン密度空間時間ニューラルネットトポロジー

Lagrangian Density Space-Time Deep Neural Network Topology ( http://arxiv.org/abs/2207.12209v1 )

ライセンス: Link先を確認
Bhupesh Bishnoi(参考訳) ネットワークベースの関数近似器として,lagrangian density space-time deep neural networks (lddnn)トポロジを提案する。 基礎となる物理科学が支配する現象の力学を予測するための教師なしの訓練と学習の資格がある。 原型的ネットワークは、一般化された非線形偏微分方程式の与えられたデータセットにより、システムのラグランジアンおよびハミルトン密度を簡潔に記述することで自然の基本的な保存則を尊重する。 目的は、ニューラルネットワーク上でラグランジアン密度をパラメータ化し、物理的システムに対して正確な時間依存のラグランジアン密度の「アクションソリューション」を手作りする代わりに、データを通じて直接学習することである。 この手法により、物理微分演算子に基づくネットワーク相互接続トポロジ、アクティベーション、損失/コスト関数を構築することにより、自然の物理力学に対する「ブラックボックス深層機械学習表現」の情報推論の側面を理解し、開放することができる。 本稿では,ラグランジアン領域とハミルトン領域におけるニューラルネットワークの統計物理学的解釈について論じる。

As a network-based functional approximator, we have proposed a "Lagrangian Density Space-Time Deep Neural Networks" (LDDNN) topology. It is qualified for unsupervised training and learning to predict the dynamics of underlying physical science governed phenomena. The prototypical network respects the fundamental conservation laws of nature through the succinctly described Lagrangian and Hamiltonian density of the system by a given data-set of generalized nonlinear partial differential equations. The objective is to parameterize the Lagrangian density over a neural network and directly learn from it through data instead of hand-crafting an exact time-dependent "Action solution" of Lagrangian density for the physical system. With this novel approach, can understand and open up the information inference aspect of the "Black-box deep machine learning representation" for the physical dynamics of nature by constructing custom-tailored network interconnect topologies, activation, and loss/cost functions based on the underlying physical differential operators. This article will discuss statistical physics interpretation of neural networks in the Lagrangian and Hamiltonian domains.
翻訳日:2022-07-31 14:47:22 公開日:2022-06-30
# 自然言語生成モデルの民主化倫理評価

Democratizing Ethical Assessment of Natural Language Generation Models ( http://arxiv.org/abs/2207.10576v1 )

ライセンス: Link先を確認
Amin Rasekh, Ian Eisenberg(参考訳) 自然言語生成モデル(英: natural language generation model)は、単語列を文脈として促すとコヒーレント言語を生成するコンピュータシステムである。 そのユビキティと多くの有益な応用にもかかわらず、言語生成モデルは差別的言語、憎悪的なスピーチ、挑発的内容、その他の有害物質を生成することによって社会的な害をもたらす可能性がある。 したがって、これらのモデルの倫理的評価は重要である。 しかしそれはまた、計算言語学や社会正義など、いくつかの専門分野の専門知識を必要とする困難なタスクでもある。 この分野の研究コミュニティは大きな進歩を遂げているが、こうした倫理的評価の市民へのアクセシビリティは、高い参入障壁のために制限されている。 本稿では、オープンソースアセスメントフレームワークであるCredo AI LensのコンポーネントであるTEAL(Ethical Assessment of Language Generation Model)について、自然言語生成モデルの倫理的アセスメントを民主化し標準化するための新しいツールを紹介します。

Natural language generation models are computer systems that generate coherent language when prompted with a sequence of words as context. Despite their ubiquity and many beneficial applications, language generation models also have the potential to inflict social harms by generating discriminatory language, hateful speech, profane content, and other harmful material. Ethical assessment of these models is therefore critical. But it is also a challenging task, requiring an expertise in several specialized domains, such as computational linguistics and social justice. While significant strides have been made by the research community in this domain, accessibility of such ethical assessments to the wider population is limited due to the high entry barriers. This article introduces a new tool to democratize and standardize ethical assessment of natural language generation models: Tool for Ethical Assessment of Language generation models (TEAL), a component of Credo AI Lens, an open-source assessment framework.
翻訳日:2022-07-24 11:49:40 公開日:2022-06-30
# (参考訳) 数百万の多チャンネル脳波信号による小児睡眠検査

Pediatric Sleep Scoring In-the-wild from Millions of Multi-channel EEG Signals ( http://arxiv.org/abs/2207.06921v1 )

ライセンス: CC BY 4.0
Harlin Lee, Aaqib Saeed(参考訳) 睡眠は、幼児、子供、青年の健康と発達に不可欠であるが、小児睡眠は、健康と幸福のための機械学習の文脈において、成人睡眠と比較して極めて研究不足である。 そこで本研究では,標準治療中に収集した大規模睡眠研究データセットを用いて,小児の睡眠自動スコアリング結果について紹介する。 本研究では,多チャンネル脳波(EEG)信号から5つの睡眠段階を78%の精度で分類するトランスフォーマーに基づくディープニューラルネットワークモデルを開発した。 さらに、患者人口統計と脳波チャネルに基づいて、モデルパフォーマンスの詳細な分析を行う。

Sleep is critical to the health and development of infants, children, and adolescents, but pediatric sleep is severely under-researched compared to adult sleep in the context of machine learning for health and well-being. Here, we present the first automated pediatric sleep scoring results on a recent large-scale sleep study dataset that was collected during standard clinical care. We develop a transformer-based deep neural network model that learns to classify five sleep stages from millions of multi-channel electroencephalogram (EEG) signals with 78% overall accuracy. Further, we conduct an in-depth analysis of the model performance based on patient demographics and EEG channels.
翻訳日:2022-07-17 18:58:32 公開日:2022-06-30
# リアルタイムスペクトル共有レーダの切替点検出

Changepoint Detection for Real-Time Spectrum Sharing Radar ( http://arxiv.org/abs/2207.06409v1 )

ライセンス: Link先を確認
Samuel Haug, Austin Egbert, Robert J. Marks II, Charles Baylis, Anthony Martone(参考訳) レーダーは環境の変化に適応しなくてはならない。 電波の混雑が高まる世界では、レーダーは干渉を避けるために適応しなければならない。 多くのレーダーシステムは、スペクトル共有中に送信モードを積極的に決定するために予測動作サイクルを使用している。 本手法は、未使用周波数を予測するための環境モデルを構築し、実装し、この予測可用性で送信する。 これらの選択戦略では、パフォーマンスは基盤となる環境モデルの品質に直接依存する。 変化する環境に追随するために、これらのモデルは変更点検出を採用できる。 変化点検出(changepoint detection)は、データが引き出される分布における突然の変化や変化点の識別である。 この情報により、モデルは環境の現在の状態とは無関係な以前の分布から"ガーベッジ"データを破棄することができる。 本研究では,感覚と予測アルゴリズムにベイズ的オンライン変化点検出(BOCD)を適用し,モデルの精度を高め,性能を向上させる。 スペクトル共有の文脈では、これらの変化点はスペクトル環境を行き来する干渉者を表す。 変更点検出の追加により、干渉パターンが劇的に変化しても、動的かつロバストなスペクトル共有が可能になる。 BOCDは、オンラインの変更点検出を可能にし、データが収集されるとモデルを継続的に更新できるため、特に有利である。 この戦略は、変化する環境でモデルを生成する他の多くの予測アルゴリズムにも適用できる。

Radar must adapt to changing environments, and we propose changepoint detection as a method to do so. In the world of increasingly congested radio frequencies, radars must adapt to avoid interference. Many radar systems employ the prediction action cycle to proactively determine transmission mode while spectrum sharing. This method constructs and implements a model of the environment to predict unused frequencies, and then transmits in this predicted availability. For these selection strategies, performance is directly reliant on the quality of the underlying environmental models. In order to keep up with a changing environment, these models can employ changepoint detection. Changepoint detection is the identification of sudden changes, or changepoints, in the distribution from which data is drawn. This information allows the models to discard "garbage" data from a previous distribution, which has no relation to the current state of the environment. In this work, bayesian online changepoint detection (BOCD) is applied to the sense and predict algorithm to increase the accuracy of its models and improve its performance. In the context of spectrum sharing, these changepoints represent interferers leaving and entering the spectral environment. The addition of changepoint detection allows for dynamic and robust spectrum sharing even as interference patterns change dramatically. BOCD is especially advantageous because it enables online changepoint detection, allowing models to be updated continuously as data are collected. This strategy can also be applied to many other predictive algorithms that create models in a changing environment.
翻訳日:2022-07-17 17:11:13 公開日:2022-06-30
# バイオインスパイアされた機械学習: プログラムによる死と複製

Bio-inspired Machine Learning: programmed death and replication ( http://arxiv.org/abs/2207.04886v1 )

ライセンス: Link先を確認
Andrey Grabovsky and Vitaly Vanchurin(参考訳) 複製やプログラム死といった生物学的現象のアルゴリズム的・計算的側面を機械学習の文脈で解析する。 我々は、ニューロンをシステムに追加するための機械学習アルゴリズムを開発するために、ニューロン効率の2つの異なる尺度(複製アルゴリズム)を使用し、システムからニューロンを除去する(プログラム死アルゴリズム)。 プログラムされた死アルゴリズムはニューラルネットワークの圧縮に利用でき、複製アルゴリズムは、既に訓練済みのニューラルネットワークの性能向上に利用することができると論じる。 また,プログラム化された死と複製を組み合わせたアルゴリズムにより,任意の機械学習システムの学習効率が向上することを示す。 バイオインスパイアされたアルゴリズムの計算上の利点は、手書き画像のMNISTデータセット上でフィードフォワードニューラルネットワークをトレーニングすることによって示される。

We analyze algorithmic and computational aspects of biological phenomena, such as replication and programmed death, in the context of machine learning. We use two different measures of neuron efficiency to develop machine learning algorithms for adding neurons to the system (i.e. replication algorithm) and removing neurons from the system (i.e. programmed death algorithm). We argue that the programmed death algorithm can be used for compression of neural networks and the replication algorithm can be used for improving performance of the already trained neural networks. We also show that a combined algorithm of programmed death and replication can improve the learning efficiency of arbitrary machine learning systems. The computational advantages of the bio-inspired algorithms are demonstrated by training feedforward neural networks on the MNIST dataset of handwritten images.
翻訳日:2022-07-17 16:16:50 公開日:2022-06-30
# (参考訳) CoVaxNet: 新型コロナウイルスワクチン治療研究のためのオンライン・オフラインデータリポジトリ

CoVaxNet: An Online-Offline Data Repository for COVID-19 Vaccine Hesitancy Research ( http://arxiv.org/abs/2207.01505v1 )

ライセンス: CC BY 4.0
Bohan Jiang, Paras Sheth, Baoxin Li, Huan Liu(参考訳) 新型コロナウイルス(covid-19)ワクチンの成功は驚くべきことだが、人口のかなりの部分は依然としてワクチンを接種することをためらっている。 この問題に対処するためには、ソーシャルメディアの談話、ニュースメディアのプロパガンダ、政府の対応、人口統計・社会経済状態、COVID-19統計など、このような行動を引き起こすさまざまな要因を理解する必要がある。 しかし、既存のデータセットはこれらの側面をすべてカバーできていないため、ワクチンの難易度の問題を参照して全体像を形成することは困難である。 本稿では,マルチソース,マルチモーダル,マルチ機能のオンラインオフラインデータリポジトリであるcovaxnetを構築する。 CoVaxNetにおける重要なパターンを説明するための記述的分析と洞察を提供する。 さらに,補完的情報源を利用する推論タスクを容易にするために,オンラインデータとオフラインデータを接続する新しい手法を提案する。

Despite the astonishing success of COVID-19 vaccines against the virus, a substantial proportion of the population is still hesitant to be vaccinated, undermining governmental efforts to control the virus. To address this problem, we need to understand the different factors giving rise to such a behavior, including social media discourses, news media propaganda, government responses, demographic and socioeconomic statuses, and COVID-19 statistics, etc. However, existing datasets fail to cover all these aspects, making it difficult to form a complete picture in inferencing about the problem of vaccine hesitancy. In this paper, we construct a multi-source, multi-modal, and multi-feature online-offline data repository CoVaxNet. We provide descriptive analyses and insights to illustrate critical patterns in CoVaxNet. Moreover, we propose a novel approach for connecting online and offline data so as to facilitate the inference tasks that exploit complementary information sources.
翻訳日:2022-07-09 16:23:42 公開日:2022-06-30
# (参考訳) カスタマイズされた会話レコメンダシステム

Customized Conversational Recommender Systems ( http://arxiv.org/abs/2207.00814v1 )

ライセンス: CC BY-SA 4.0
Shuokai Li, Yongchun Zhu, Ruobing Xie, Zhenwei Tang, Zhao Zhang, Fuzhen Zhuang, Qing He, and Hui Xiong(参考訳) 会話レコメンデータシステム(CRS)は、ユーザの現在の意図を捉え、リアルタイムなマルチターン対話によるレコメンデーションを提供することを目的としている。 人間と機械の対話システムとして、CRSはユーザエクスペリエンスを向上させることが不可欠である。 しかし、ほとんどのCRSメソッドはユーザーエクスペリエンスの重要性を無視している。 本稿では,crsにおけるユーザエクスペリエンス向上のための2つのキーポイントを提案する。(1)人間と同じように,人間は現在の対話コンテキストに応じて異なるスタイルで話すことができる。 2)細粒度意図の特定は,同一発話であっても,ユーザの嗜好に関連づけられた異なる細粒度意図を持つ。 そこで我々は,3つの視点からCRSモデルをカスタマイズした新しいCRSモデルであるCustomized Conversational Recommender System (CCRS)を提案する。 音声生成のための文脈認識型発話スタイルを選択する多言語対話応答生成器を提案する。 パーソナライズドレコメンデーションを提供するために,ユーザ固有の好みのガイダンスを用いて,対話コンテキストからユーザの現在の細かな意図を抽出する。 最後に、各ユーザのモデルパラメータをカスタマイズするために、メタ学習の観点からモデルをトレーニングする。 広範な実験と一連の分析により,ccrの推薦サービスと対話サービスにおける優位性が示された。

Conversational recommender systems (CRS) aim to capture user's current intentions and provide recommendations through real-time multi-turn conversational interactions. As a human-machine interactive system, it is essential for CRS to improve the user experience. However, most CRS methods neglect the importance of user experience. In this paper, we propose two key points for CRS to improve the user experience: (1) Speaking like a human, human can speak with different styles according to the current dialogue context. (2) Identifying fine-grained intentions, even for the same utterance, different users have diverse finegrained intentions, which are related to users' inherent preference. Based on the observations, we propose a novel CRS model, coined Customized Conversational Recommender System (CCRS), which customizes CRS model for users from three perspectives. For human-like dialogue services, we propose multi-style dialogue response generator which selects context-aware speaking style for utterance generation. To provide personalized recommendations, we extract user's current fine-grained intentions from dialogue context with the guidance of user's inherent preferences. Finally, to customize the model parameters for each user, we train the model from the meta-learning perspective. Extensive experiments and a series of analyses have shown the superiority of our CCRS on both the recommendation and dialogue services.
翻訳日:2022-07-09 16:15:39 公開日:2022-06-30
# (参考訳) 単一セルサンプルの分布に基づくスケッチ

Distribution-based Sketching of Single-Cell Samples ( http://arxiv.org/abs/2207.00584v1 )

ライセンス: CC0 1.0
Vishal Athreya Baskaran, Jolene Ranek, Siyuan Shan, Natalie Stanley, Junier B. Oliva(参考訳) フローやマスサイトメトリー、シングルセルRNAシークエンシングといった現代の高スループット単一細胞免疫プロファイリング技術は、多患者コホートにおいて数百万の細胞にまたがる多数のタンパク質や遺伝子の発現を容易に測定することができる。 バイオインフォマティクスのアプローチは、免疫細胞の不均一性を臨床結果や実験的なラベルなど、興味のある外部変数に結びつけることができるが、そのような多数のプロファイル細胞に対応するのに苦労することが多い。 この計算の負担を軽減するために、限られた数の細胞は通常、各患者から \emph{sketched} またはサブサンプリングされる。 しかし、既存のスケッチ法では、稀な細胞集団から稀な細胞を適切に分離したり、特定の免疫細胞型の真の頻度を維持できない。 本稿では, 免疫細胞型を基本周波数に保ちながら, 全細胞のサブサンプルを限定的に選択する, Kernel Herding に基づく新しいスケッチ手法を提案する。 3つのフローおよびマスサイトメトリーデータセットと1つの単細胞RNAシークエンシングデータセットを用いてアプローチを検証し、スケッチ細胞(1)が細胞全体の景観をより正確に表現し、(2)患者を臨床結果に応じて分類するなどの下流分析タスクにおけるパフォーマンスの向上を促進することを示した。 Kernel Herdingによるスケッチの実装は、 \url{https://github.com/vishalathreya/Set-Summarization}で公開されている。

Modern high-throughput single-cell immune profiling technologies, such as flow and mass cytometry and single-cell RNA sequencing can readily measure the expression of a large number of protein or gene features across the millions of cells in a multi-patient cohort. While bioinformatics approaches can be used to link immune cell heterogeneity to external variables of interest, such as, clinical outcome or experimental label, they often struggle to accommodate such a large number of profiled cells. To ease this computational burden, a limited number of cells are typically \emph{sketched} or subsampled from each patient. However, existing sketching approaches fail to adequately subsample rare cells from rare cell-populations, or fail to preserve the true frequencies of particular immune cell-types. Here, we propose a novel sketching approach based on Kernel Herding that selects a limited subsample of all cells while preserving the underlying frequencies of immune cell-types. We tested our approach on three flow and mass cytometry datasets and on one single-cell RNA sequencing dataset and demonstrate that the sketched cells (1) more accurately represent the overall cellular landscape and (2) facilitate increased performance in downstream analysis tasks, such as classifying patients according to their clinical outcome. An implementation of sketching with Kernel Herding is publicly available at \url{https://github.com/vishalathreya/Set-Summarization}.
翻訳日:2022-07-09 16:00:41 公開日:2022-06-30
# (参考訳) 新人メジャーリーグ投手における尺骨側副靭帯損傷の予測

Predicting Ulnar Collateral Ligament Injury in Rookie Major League Baseball Pitchers ( http://arxiv.org/abs/2207.00585v1 )

ライセンス: CC BY 4.0
Sean A. Rendar and Fenglong Ma(参考訳) 機械学習とデータ分析の世界で、研究者たちは現実世界の問題を解決する新しい革新的な方法を見つけつつある。 1つの解決策は、医療、スポーツ統計、データサイエンスの交差によって生まれる。 メジャーリーグベースボール(MLB)の領域内では、投手が最も重要なロースターポジションと見なされている。 彼らはしばしば最も報酬の高い選手であり、フランチャイズの成功に不可欠であるが、シーズンを終える前に怪我を負うリスクが高い。 尺側副靭帯(英語:ulnar collateral ligament、UCL)は、ピッチャーの投球腕の強度と安定性を制御する肘の小さな靭帯である。 繰り返しのストレッチのため、投手がキャリア中に部分的にあるいは完全に引き裂くことは珍しくない。 この怪我を修復するには、非公式にトミー・ジョン手術として知られるUCL再建手術が必要となる。 本稿では,オンラインピッチャーデータを解析することにより,UCL損傷の予測に機械学習技術を用いることができるかどうかを考察する。

In the growing world of machine learning and data analytics, scholars are finding new and innovative ways to solve real-world problems. One solution comes by way of an intersection between healthcare, sports statistics, and data sciences. Within the realm of Major League Baseball (MLB), pitchers are regarded as the most important roster position. They often are among the highest paid players and are crucial to a franchise's success, but they are more at risk to suffer an injury that sidelines them for over a complete season. The ulnar collateral ligament (UCL) is a small ligament in the elbow that controls the strength and stability of a pitcher's throwing arm. Due to repetitive strain, it is not uncommon for pitchers to tear it partially or completely during their careers. Repairing this injury requires UCL reconstruction surgery, as known informally as Tommy John surgery. In this podium abstract, we want to investigate whether we can use machine learning techniques to predict UCL injury by analyzing online pitcher data.
翻訳日:2022-07-09 15:39:04 公開日:2022-06-30
# (参考訳) proteus: 自己設計のレンジフィルタ

Proteus: A Self-Designing Range Filter ( http://arxiv.org/abs/2207.01503v1 )

ライセンス: CC BY 4.0
Eric R. Knorr, Baptiste Lemaire, Andrew Lim, Siqiang Luo, Huanchen Zhang, Stratos Idreos, Michael Mitzenmacher(参考訳) 我々は,与えられた空間要件に対して偽陽性率(fpr)を最適化するために,サンプルデータに基づいて自己設定を行う新しい自己設計近似レンジフィルタであるproteusを提案する。 proteusは最先端レンジフィルタの確率的かつ決定論的設計空間を統一し、幅広いユースケースで堅牢な性能を実現する。 proteusの中核は、プレフィックスベースのフィルタを設計空間にまたがるfprの形式的フレームワークである、プレフィックスプレフィックスfpr(cpfpr)モデルです。 合成ワークロードと実世界のデータセットの両方で最適化できるモデルとProteusの能力を実証的に実証しています。 さらに、RocksDBのProteusを評価し、SuRFやRosettaのようなより脆い最先端の手法よりも、最大5.3倍のエンドツーエンド性能を向上できることを示す。 我々の実験は、モデリングのコストがエンドツーエンドのパフォーマンス向上と比べて重要でないこと、Proteusがワークロードシフトに対して堅牢であることを示唆している。

We introduce Proteus, a novel self-designing approximate range filter, which configures itself based on sampled data in order to optimize its false positive rate (FPR) for a given space requirement. Proteus unifies the probabilistic and deterministic design spaces of state-of-the-art range filters to achieve robust performance across a larger variety of use cases. At the core of Proteus lies our Contextual Prefix FPR (CPFPR) model - a formal framework for the FPR of prefix-based filters across their design spaces. We empirically demonstrate the accuracy of our model and Proteus' ability to optimize over both synthetic workloads and real-world datasets. We further evaluate Proteus in RocksDB and show that it is able to improve end-to-end performance by as much as 5.3x over more brittle state-of-the-art methods such as SuRF and Rosetta. Our experiments also indicate that the cost of modeling is not significant compared to the end-to-end performance gains and that Proteus is robust to workload shifts.
翻訳日:2022-07-09 15:35:12 公開日:2022-06-30
# j-Wave: オープンソースの微分可能波シミュレータ

j-Wave: An open-source differentiable wave simulator ( http://arxiv.org/abs/2207.01499v1 )

ライセンス: Link先を確認
Antonio Stanziola, Simon R. Arridge, Ben T. Cox, Bradley E. Treeby(参考訳) 本稿では,時間変動と時間-ハーモニックな音響問題を解決できる,オープンソースの微分可能音響シミュレータj-waveを提案する。 これは自動微分をサポートし、特に機械学習や科学計算において多くの応用があるプログラム変換技術である。 j-Waveはモジュール化されたコンポーネントで構成されており、カスタマイズや再利用が容易である。 同時に、JAXやTensorFlowといった、最も人気のある機械学習ライブラリとも互換性がある。 広く用いられているk波ツールボックスと音響シミュレーションソフトウェアのコホートに対して, 既知の構成のシミュレーション結果の精度を評価する。 j-Waveはhttps://github.com/ucl-bug/jwaveから入手できる。

We present an open-source differentiable acoustic simulator, j-Wave, which can solve time-varying and time-harmonic acoustic problems. It supports automatic differentiation, which is a program transformation technique that has many applications, especially in machine learning and scientific computing. j-Wave is composed of modular components that can be easily customized and reused. At the same time, it is compatible with some of the most popular machine learning libraries, such as JAX and TensorFlow. The accuracy of the simulation results for known configurations is evaluated against the widely used k-Wave toolbox and a cohort of acoustic simulation software. j-Wave is available from https://github.com/ucl-bug/jwave.
翻訳日:2022-07-05 17:03:20 公開日:2022-06-30
# コネクトームに基づく脳障害解析のための解釈可能なグラフニューラルネットワーク

Interpretable Graph Neural Networks for Connectome-Based Brain Disorder Analysis ( http://arxiv.org/abs/2207.00813v1 )

ライセンス: Link先を確認
Hejie Cui, Wei Dai, Yanqiao Zhu, Xiaoxiao Li, Lifang He, Carl Yang(参考訳) ヒトの脳は複雑な神経生物学システムの中核にあり、ニューロン、回路、サブシステムが謎めいた方法で相互作用する。 脳の構造的および機能的メカニズムを理解することは、長い間、神経科学研究と臨床障害治療の興味をそそる試みであった。 人間の脳の接続をネットワークとしてマッピングすることは神経科学において最も普及しているパラダイムの1つである。 グラフニューラルネットワーク(gnns)は、複雑なネットワークデータをモデル化する潜在的な方法として最近登場した。 一方、深層モデルは解釈可能性が低いため、医療のような決定クリティカルな文脈での使用が妨げられている。 このギャップを埋めるために、障害特異的な関心領域(ROI)と顕著なつながりを分析するための解釈可能なフレームワークを提案する。 提案フレームワークは2つのモジュールから構成される:脳ネットワーク指向の疾患予測のためのバックボーンモデルと、有意なROIや重要な接続を含む障害特異的なバイオマーカーを強調するグローバルな説明ジェネレータである。 脳障害の実際のデータセットを3つ実験する。 その結果,本フレームワークは優れた性能を示し,有意義なバイオマーカーを同定できることを確認した。 この作業のすべてのコードはhttps://github.com/hennyjie/ibgnn.gitで入手できる。

Human brains lie at the core of complex neurobiological systems, where the neurons, circuits, and subsystems interact in enigmatic ways. Understanding the structural and functional mechanisms of the brain has long been an intriguing pursuit for neuroscience research and clinical disorder therapy. Mapping the connections of the human brain as a network is one of the most pervasive paradigms in neuroscience. Graph Neural Networks (GNNs) have recently emerged as a potential method for modeling complex network data. Deep models, on the other hand, have low interpretability, which prevents their usage in decision-critical contexts like healthcare. To bridge this gap, we propose an interpretable framework to analyze disorder-specific Regions of Interest (ROIs) and prominent connections. The proposed framework consists of two modules: a brain-network-oriented backbone model for disease prediction and a globally shared explanation generator that highlights disorder-specific biomarkers including salient ROIs and important connections. We conduct experiments on three real-world datasets of brain disorders. The results verify that our framework can obtain outstanding performance and also identify meaningful biomarkers. All code for this work is available at https://github.com/HennyJie/IBGNN.git.
翻訳日:2022-07-05 14:04:42 公開日:2022-06-30
# ニューラルネットワークを用いた視覚物体認識におけるeureka効果の反応時間シミュレーション

Simulating reaction time for Eureka effect in visual object recognition using artificial neural network ( http://arxiv.org/abs/2207.00815v1 )

ライセンス: Link先を確認
Kazufumi Hosoda, Shigeto Seno, Tsutomu Murata(参考訳) 人間の脳は、しばらく観察した後、さらにひどく劣化した画像に隠された物体を認識することができる。 以前の心理学的な研究は、この「ユーレカ認識」の基礎は、複数の確率的活動の偶然の神経過程であることを示している。 そこで我々は,人間のeureka認識の特徴をシミュレーションした人工神経ネットワークモデルを構築した。

The human brain can recognize objects hidden in even severely degraded images after observing them for a while, which is known as a type of Eureka effect, possibly associated with human creativity. A previous psychological study suggests that the basis of this "Eureka recognition" is neural processes of coincidence of multiple stochastic activities. Here we constructed an artificial-neural-network-based model that simulated the characteristics of the human Eureka recognition.
翻訳日:2022-07-05 12:39:35 公開日:2022-06-30
# (参考訳) 適応的強化学習

Performative Reinforcement Learning ( http://arxiv.org/abs/2207.00046v1 )

ライセンス: CC BY 4.0
Debmalya Mandal, Stelios Triantafyllou, and Goran Radanovic(参考訳) 本稿では,学習者が選択した政策が環境の報酬や遷移ダイナミクスに影響を及ぼす実演強化学習の枠組みを紹介する。 performative prediction -\cite{perdomo et. の最近の文献に従う。 al., 2020} では, 性能安定政策の概念を導入する。 次に、強化学習問題の正規化バージョンを検討し、この目標を反復的に最適化することで、遷移ダイナミクスの合理的な仮定の下で、実行的に安定なポリシーに収束することを示す。 この証明は強化学習問題の双対的視点を利用しており、他のアルゴリズムと決定依存環境の収束を分析することに独立した関心を持つかもしれない。 次に、学習者が目的を完全に最適化する代わりに勾配上昇ステップのみを実行する設定と、学習者が変化した環境から有限個の軌跡にアクセスできる設定について、結果を拡張する。 両設定において、実演強化学習の二重定式化を活用し、安定解への収束を確立する。 最後に、グリッドワールド環境に関する広範な実験を通じて、正規化、滑らか化、サンプル数など、様々なパラメータへの収束の依存性を示す。

We introduce the framework of performative reinforcement learning where the policy chosen by the learner affects the underlying reward and transition dynamics of the environment. Following the recent literature on performative prediction~\cite{Perdomo et. al., 2020}, we introduce the concept of performatively stable policy. We then consider a regularized version of the reinforcement learning problem and show that repeatedly optimizing this objective converges to a performatively stable policy under reasonable assumptions on the transition dynamics. Our proof utilizes the dual perspective of the reinforcement learning problem and may be of independent interest in analyzing the convergence of other algorithms with decision-dependent environments. We then extend our results for the setting where the learner just performs gradient ascent steps instead of fully optimizing the objective, and for the setting where the learner has access to a finite number of trajectories from the changed environment. For both the settings, we leverage the dual formulation of performative reinforcement learning and establish convergence to a stable solution. Finally, through extensive experiments on a grid-world environment, we demonstrate the dependence of convergence on various parameters e.g. regularization, smoothness, and the number of samples.
翻訳日:2022-07-05 05:18:58 公開日:2022-06-30
# (参考訳) 長期短期記憶ネットワークを用いた医療保険データによる再送率予測の進歩

Advances in Prediction of Readmission Rates Using Long Term Short Term Memory Networks on Healthcare Insurance Data ( http://arxiv.org/abs/2207.00066v1 )

ライセンス: CC BY 4.0
Shuja Khalid, Francisco Matos, Ayman Abunimer, Joel Bartlett, Richard Duszak, Michal Horny, Judy Gichoya, Imon Banerjee, Hari Trivedi(参考訳) 30日間の入院は長期にわたる医療問題であり、患者の死亡率や死亡率に影響を与え、年間数十億ドルの費用がかかる。 近年、特定の疾患を持つ患者に対して入院のリスクを予測するために機械学習モデルが作成されているが、このリスクを予測するモデルが全患者に存在しない。 本研究は,医療データ(院内訪問,外来訪問,薬物処方薬)を利用でき,理由に関わらず,入院患者の30日間の再入院を予測できる双方向Long Term Memory(LSTM)ネットワークを開発した。 最高性能モデルでは, 歴史的, 入院, 退院後のデータを用いて, ROC AUC 0.763 (0.011) を達成した。 LSTMモデルはベースラインのランダムな森林分類器を著しく上回り、事象の順序を理解することがモデル予測に重要であることを示す。 30日間の履歴データを組み込むことで、入院患者データ単独と比較して、モデル性能が著しく向上し、入院前の臨床歴(外来訪問や薬局データなど)が整復に寄与していることが示唆された。 以上の結果から, 構造化保険請求データを用いて, 患者全員に適切な精度で入院リスクを予測できることが示唆された。 請求データや同等のサロゲートをサイトから抽出できるため、そのようなモデルは退院前に再入院するリスクのある患者を識別したり、退院後のリスクのある患者により堅牢なフォローアップ(フォローアップ、在宅医療、郵送薬)を割り当てたりすることができる。

30-day hospital readmission is a long standing medical problem that affects patients' morbidity and mortality and costs billions of dollars annually. Recently, machine learning models have been created to predict risk of inpatient readmission for patients with specific diseases, however no model exists to predict this risk across all patients. We developed a bi-directional Long Short Term Memory (LSTM) Network that is able to use readily available insurance data (inpatient visits, outpatient visits, and drug prescriptions) to predict 30 day re-admission for any admitted patient, regardless of reason. The top-performing model achieved an ROC AUC of 0.763 (0.011) when using historical, inpatient, and post-discharge data. The LSTM model significantly outperformed a baseline random forest classifier, indicating that understanding the sequence of events is important for model prediction. Incorporation of 30-days of historical data also significantly improved model performance compared to inpatient data alone, indicating that a patients clinical history prior to admission, including outpatient visits and pharmacy data is a strong contributor to readmission. Our results demonstrate that a machine learning model is able to predict risk of inpatient readmission with reasonable accuracy for all patients using structured insurance billing data. Because billing data or equivalent surrogates can be extracted from sites, such a model could be deployed to identify patients at risk for readmission before they are discharged, or to assign more robust follow up (closer follow up, home health, mailed medications) to at-risk patients after discharge.
翻訳日:2022-07-05 05:17:46 公開日:2022-06-30
# (参考訳) セマンティックセグメンテーションのための教師なしドメイン適応の再考

Rethinking Unsupervised Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2207.00067v1 )

ライセンス: CC BY 4.0
Zhijie Wang, Masanori Suganuma, Takayuki Okatani(参考訳) unsupervised domain adaptation(uda)は、ラベルなしのデータのみを使用して、あるドメインでトレーニングされたモデルを新しいドメインに適応させる。 特にアノテーションコストが高いため、セマンティクスセグメンテーションについて多くの研究がなされている。 既存の研究は、新しいドメインでラベル付きサンプルが利用できないという基本的な前提に固執している。 しかし、この仮定にはいくつかの問題がある。 まず、MLがモデルのパフォーマンスをデプロイ前に確認する標準的なプラクティスを考えると、かなり非現実的です。 第二に、任意のUDAメソッドはいくつかのハイパーパラメータを持ち、一定の量のラベル付きデータを必要とする。 現実とのミスアライメントを是正するために、データ中心の観点からUDAを再考する。 具体的には、ラベル付きデータの最小レベルにアクセス可能であるという仮定から始めます。 次に,既存のUDA法で満足なハイパーパラメータを見つけるために,ラベル付きサンプルがいくつ必要か尋ねる。 同じデータを使ってモデルをトレーニングした場合、例えば微調整など、どの程度うまく機能するか? これらの質問に答える実験を一般的なシナリオ、{gta5, synthia}$\rightarrow$cityscapesで行います。 私たちの発見は以下の通りである。 i) いくつかのUDA法では、いくつかのラベル付きサンプル(例:画像)で良いハイパーパラメータを見つけることができ(例:5)、これは他の人には当てはまらない。 ii) ラベル付き画像が10枚しかない既存のudaメソッドよりも微調整が優れていること。

Unsupervised domain adaptation (UDA) adapts a model trained on one domain to a novel domain using only unlabeled data. So many studies have been conducted, especially for semantic segmentation due to its high annotation cost. The existing studies stick to the basic assumption that no labeled sample is available for the new domain. However, this assumption has several issues. First, it is pretty unrealistic, considering the standard practice of ML to confirm the model's performance before its deployment; the confirmation needs labeled data. Second, any UDA method will have a few hyper-parameters, needing a certain amount of labeled data. To rectify this misalignment with reality, we rethink UDA from a data-centric point of view. Specifically, we start with the assumption that we do have access to a minimum level of labeled data. Then, we ask how many labeled samples are necessary for finding satisfactory hyper-parameters of existing UDA methods. How well does it work if we use the same data to train the model, e.g., finetuning? We conduct experiments to answer these questions with popular scenarios, {GTA5, SYNTHIA}$\rightarrow$Cityscapes. Our findings are as follows: i) for some UDA methods, good hyper-parameters can be found with only a few labeled samples (i.e., images), e.g., five, but this does not apply to others, and ii) finetuning outperforms most existing UDA methods with only ten labeled images.
翻訳日:2022-07-05 05:04:59 公開日:2022-06-30
# (参考訳) 畳み込みニューラルネットワーク加速器の低レイテンシ化と電力散逸のためのスパース周期シストリックデータフロー

Sparse Periodic Systolic Dataflow for Lowering Latency and Power Dissipation of Convolutional Neural Network Accelerators ( http://arxiv.org/abs/2207.00068v1 )

ライセンス: CC BY 4.0
Jung Hwan Heo, Arash Fayyazi, Amirhossein Esmaili, Massoud Pedram(参考訳) 本稿では,SPS(Sparse periodic systolic)データフローについて紹介する。 具体的には、SPSデータフローは、創発的なプルーニングスキーム、周期的パターンベースのスポーシティ(PPS)によって解放される新しいハードウェア設計アプローチを可能にする。 PPSの規則性を活用することで、スパシティ対応コンパイラは重みを最適に並べ替え、ハードウェアの単純なインデックス化ユニットを使用して重みとアクティベーションの一致を生成する。 コンパイラ・ハードウエアのコードサインを通じて、SPSデータフローは高いインデックス化オーバーヘッドとモデル精度の損失を伴わずに高い並列性を享受する。 vggやresnetのような一般的なベンチマークで評価されたspsデータフローとそれに伴うニューラルネットワークコンパイラは、fpgaデバイスをターゲットにした畳み込みニューラルネットワーク(cnn)アクセラレータ設計の以前の作業よりも優れている。 他の空間的に支持される重量記憶形式に対して、SPSは4.49倍のエネルギー効率向上を達成し、総重量記憶の3.67倍、インデックス化メモリの22,044倍に低下させる。

This paper introduces the sparse periodic systolic (SPS) dataflow, which advances the state-of-the-art hardware accelerator for supporting lightweight neural networks. Specifically, the SPS dataflow enables a novel hardware design approach unlocked by an emergent pruning scheme, periodic pattern-based sparsity (PPS). By exploiting the regularity of PPS, our sparsity-aware compiler optimally reorders the weights and uses a simple indexing unit in hardware to create matches between the weights and activations. Through the compiler-hardware codesign, SPS dataflow enjoys higher degrees of parallelism while being free of the high indexing overhead and without model accuracy loss. Evaluated on popular benchmarks such as VGG and ResNet, the SPS dataflow and accompanying neural network compiler outperform prior work in convolutional neural network (CNN) accelerator designs targeting FPGA devices. Against other sparsity-supporting weight storage formats, SPS results in 4.49x energy efficiency gain while lowering storage requirements by 3.67x for total weight storage (non-pruned weights plus indexing) and 22,044x for indexing memory.
翻訳日:2022-07-05 04:52:27 公開日:2022-06-30
# (参考訳) 情報ボトルネック原理によるヒューマンエージェントコミュニケーションに向けて

Towards Human-Agent Communication via the Information Bottleneck Principle ( http://arxiv.org/abs/2207.00088v1 )

ライセンス: CC BY 4.0
Mycal Tucker, Julie Shah, Roger Levy, and Noga Zaslavsky(参考訳) 創発的コミュニケーション研究は、しばしばコミュニケーションのドライバとしてタスク固有のユーティリティを最適化することに焦点を当てる。 しかし、人間の言語は情報ボトルネックのトレードオフを最適化し、意味をコミュニケーション信号に効率的に圧縮する圧力下で進化しているように見える。 本研究では,これらの3つの要因 – 実用性,情報性,複雑性 – のトレードオフが,人間のコミュニケーションと比較して,創発的なコミュニケーションを形作るかを検討する。 この目的のために、連続空間に埋め込まれた離散信号に入力を圧縮するニューラルネットワークを訓練するVector-Quantized Variational Information Bottleneck (VQ-VIB)を提案する。 VQ-VIBを介してエージェントを訓練し、その性能を、地上環境やルイス参照ゲームで提案されたニューラルネットワークアーキテクチャと比較する。 すべてのニューラルアーキテクチャと設定を網羅し、コミュニケーション的情報性がコミュニケーション収束率を考慮に入れ、コミュニケーション的複雑性を罰することは、高いユーティリティを維持しながら人間のようなレキシコンサイズにつながる。 さらに、VQ-VIBは、他の離散的な通信方法よりも優れています。 この研究は、人間の言語の進化を特徴付けるとされる基本的な原則が、人工エージェントの創発的コミュニケーションにどのように影響を与えるかを示している。

Emergent communication research often focuses on optimizing task-specific utility as a driver for communication. However, human languages appear to evolve under pressure to efficiently compress meanings into communication signals by optimizing the Information Bottleneck tradeoff between informativeness and complexity. In this work, we study how trading off these three factors -- utility, informativeness, and complexity -- shapes emergent communication, including compared to human communication. To this end, we propose Vector-Quantized Variational Information Bottleneck (VQ-VIB), a method for training neural agents to compress inputs into discrete signals embedded in a continuous space. We train agents via VQ-VIB and compare their performance to previously proposed neural architectures in grounded environments and in a Lewis reference game. Across all neural architectures and settings, taking into account communicative informativeness benefits communication convergence rates, and penalizing communicative complexity leads to human-like lexicon sizes while maintaining high utility. Additionally, we find that VQ-VIB outperforms other discrete communication methods. This work demonstrates how fundamental principles that are believed to characterize human language evolution may inform emergent communication in artificial agents.
翻訳日:2022-07-05 04:41:36 公開日:2022-06-30
# (参考訳) GaitForeMer:Few-Shot歩行障害度推定のための人動予測によるトランスフォーマーの自己監督事前訓練

GaitForeMer: Self-Supervised Pre-Training of Transformers via Human Motion Forecasting for Few-Shot Gait Impairment Severity Estimation ( http://arxiv.org/abs/2207.00106v1 )

ライセンス: CC BY 4.0
Mark Endo, Kathleen L. Poston, Edith V. Sullivan, Li Fei-Fei, Kilian M. Pohl, Ehsan Adeli(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、運動の遅さ、震え、筋肉の硬さ、姿勢障害など、様々な運動関連症状を持つ神経疾患である。 PDは通常、運動障害学会統一パーキンソン病評価尺度(MDS-UPDRS)などのスコアシステムに基づいて運動障害の重症度を評価することで診断される。 個人のビデオ記録を用いた重症度自動予測は、非侵入的運動障害モニタリングに有望な経路を提供する。 しかし、PD歩行データの限られたサイズは、モデル能力と臨床可能性を妨げる。 この臨床データ不足と、GPT-3のような大規模言語モデルにおける近年の進歩に触発されて、運動障害の重症度を推定するための効果的な自己教師付き事前トレーニングタスクとして、人間の動き予測を用いた。 GaitForeMer, Gait Forecasting, and impairment Estimation TransforMerを導入し, 歩行運動を予測するためにまず公開データセット上で事前訓練を行い, 臨床データに適用し, MDS-UPDRS歩行障害の重症度を予測する。 本手法は, 臨床データのみに依存する従来のアプローチよりも大きなマージンで, f1スコア0.76, 精度0.79, リコール0.75よりも優れている。 そこで,gaitforemerを用いて,公共のヒューマンムーブメントデータリポジトリが,普遍的な運動表現の学習を通じて臨床応用事例をどのように支援できるかを示す。 コードはhttps://github.com/markendo/GaitForeMerで入手できる。

Parkinson's disease (PD) is a neurological disorder that has a variety of observable motor-related symptoms such as slow movement, tremor, muscular rigidity, and impaired posture. PD is typically diagnosed by evaluating the severity of motor impairments according to scoring systems such as the Movement Disorder Society Unified Parkinson's Disease Rating Scale (MDS-UPDRS). Automated severity prediction using video recordings of individuals provides a promising route for non-intrusive monitoring of motor impairments. However, the limited size of PD gait data hinders model ability and clinical potential. Because of this clinical data scarcity and inspired by the recent advances in self-supervised large-scale language models like GPT-3, we use human motion forecasting as an effective self-supervised pre-training task for the estimation of motor impairment severity. We introduce GaitForeMer, Gait Forecasting and impairment estimation transforMer, which is first pre-trained on public datasets to forecast gait movements and then applied to clinical data to predict MDS-UPDRS gait impairment severity. Our method outperforms previous approaches that rely solely on clinical data by a large margin, achieving an F1 score of 0.76, precision of 0.79, and recall of 0.75. Using GaitForeMer, we show how public human movement data repositories can assist clinical use cases through learning universal motion representations. The code is available at https://github.com/markendo/GaitForeMer .
翻訳日:2022-07-05 04:40:02 公開日:2022-06-30
# (参考訳) 機械学習アルゴリズムにおける識別

Discrimination in machine learning algorithms ( http://arxiv.org/abs/2207.00108v1 )

ライセンス: CC BY-SA 4.0
Roberta Pappad\`a and Francesco Pauli(参考訳) 機械学習アルゴリズムは、例えばクレジットスコアリングアルゴリズムがローンを拒否するなど、個人に直接影響を及ぼす可能性のあるビジネス判断に日常的に使用される。 そして、倫理的(かつ法的)の観点から、これらのアルゴリズムが(性や人種のような)センシティブな属性に基づいて識別しないことを保証する。 統計的ツールと方法は、そのような潜在的なバイアスを検出し、排除するために必要となる。

Machine learning algorithms are routinely used for business decisions that may directly affect individuals, for example, because a credit scoring algorithm refuses them a loan. It is then relevant from an ethical (and legal) point of view to ensure that these algorithms do not discriminate based on sensitive attributes (like sex or race), which may occur unwittingly and unknowingly by the operator and the management. Statistical tools and methods are then required to detect and eliminate such potential biases.
翻訳日:2022-07-05 04:29:16 公開日:2022-06-30
# (参考訳) 文脈的マルチアーマッドバンドにおけるランク付け

Ranking in Contextual Multi-Armed Bandits ( http://arxiv.org/abs/2207.00109v1 )

ライセンス: CC BY 4.0
Amitis Shidani, George Deligiannidis, Arnaud Doucet(参考訳) 文脈的マルチアームバンディット設定におけるランキング問題について検討する。 学習エージェントは、各タイミングでアイテムの順序付きリストを選択し、各位置の確率的な結果を観察する。 オンラインレコメンデーションシステムでは、ポジションとアイテム依存の両方が複雑な報酬関数をもたらすため、最も魅力的なアイテムの順序リストを表示するのが最善の選択ではない。 非常に単純な例は、最も魅力的なアイテムがすべて同じカテゴリからのものである場合の多様性の欠如である。 順序付きリストにおける位置と項目の依存関係をモデル化し、この問題に対して UCB と Thompson Sampling 型アルゴリズムを設計する。 我々は、$T$ のラウンドと$L$ の位置に対する後悔が $\Tilde{O}(L\sqrt{d T})$ であることを証明する。 本研究は,位置ディスカウントが特定の場合の位置依存性を含む,既存の研究をいくつかの方向に一般化し,より一般的な文脈的バンディットモデルを提案する。

We study a ranking problem in the contextual multi-armed bandit setting. A learning agent selects an ordered list of items at each time step and observes stochastic outcomes for each position. In online recommendation systems, showing an ordered list of the most attractive items would not be the best choice since both position and item dependencies result in a complicated reward function. A very naive example is the lack of diversity when all the most attractive items are from the same category. We model position and item dependencies in the ordered list and design UCB and Thompson Sampling type algorithms for this problem. We prove that the regret bound over $T$ rounds and $L$ positions is $\Tilde{O}(L\sqrt{d T})$, which has the same order as the previous works with respect to $T$ and only increases linearly with $L$. Our work generalizes existing studies in several directions, including position dependencies where position discount is a particular case, and proposes a more general contextual bandit model.
翻訳日:2022-07-05 04:11:48 公開日:2022-06-30
# (参考訳) 重み付き低ランク分解による言語モデル圧縮

Language model compression with weighted low-rank factorization ( http://arxiv.org/abs/2207.00112v1 )

ライセンス: CC BY 4.0
Yen-Chang Hsu, Ting Hua, Sungen Chang, Qian Lou, Yilin Shen, Hongxia Jin(参考訳) 大きな行列を小さな行列に分解することは、モデル圧縮の一般的な戦略である。 特異値分解(SVD)はこの圧縮戦略において重要な役割を担い、少ないパラメータで学習行列を近似する。 しかし、SVDはパラメータの重要性を測ることなく元の行列を再構築する2乗誤差を最小化し、タスク精度に影響を与える人に対してより大きな再構成誤差を与える可能性がある。 言い換えれば、SVDの最適化目標は、訓練されたモデルのタスク精度と一致しない。 これまでの未検証問題を分析し,観察を行い,モデル予測に影響を及ぼすパラメータの重要性を判断するためにフィッシャー情報を導入することで対処する。 このアイデアは、Fisher-Weighted SVD (FWSVD) という手法に導かれる。 提案手法の分解行列は再構成誤差が小さくないが,結果の精度は元のモデルの性能にかなり近いことがわかった。 我々はトランスフォーマーに基づく言語モデルを用いて解析を行い、重み付けされたSVDが最適化目標のミスマッチを軽減し、より高い圧縮率でモデル性能を維持できることを示す。 本手法は,高価な事前学習を必要とする他のコンパクトモデル戦略よりも優れた性能を実現しつつ,タスク固有モデルを直接圧縮することができる。 さらに,すでにコンパクトなモデルを圧縮することで,タスク精度に重要な影響を与えることなく,9%から30%のパラメータを削減できることを示す。

Factorizing a large matrix into small matrices is a popular strategy for model compression. Singular value decomposition (SVD) plays a vital role in this compression strategy, approximating a learned matrix with fewer parameters. However, SVD minimizes the squared error toward reconstructing the original matrix without gauging the importance of the parameters, potentially giving a larger reconstruction error for those who affect the task accuracy more. In other words, the optimization objective of SVD is not aligned with the trained model's task accuracy. We analyze this previously unexplored problem, make observations, and address it by introducing Fisher information to weigh the importance of parameters affecting the model prediction. This idea leads to our method: Fisher-Weighted SVD (FWSVD). Although the factorized matrices from our approach do not result in smaller reconstruction errors, we find that our resulting task accuracy is much closer to the original model's performance. We perform analysis with the transformer-based language models, showing our weighted SVD largely alleviates the mismatched optimization objectives and can maintain model performance with a higher compression rate. Our method can directly compress a task-specific model while achieving better performance than other compact model strategies requiring expensive model pre-training. Moreover, the evaluation of compressing an already compact model shows our method can further reduce 9% to 30% parameters with an insignificant impact on task accuracy.
翻訳日:2022-07-05 03:43:16 公開日:2022-06-30
# (参考訳) ProSelfLC:低温エントロピー状態に向けた進行性自己ラベル補正

ProSelfLC: Progressive Self Label Correction Towards A Low-Temperature Entropy State ( http://arxiv.org/abs/2207.00118v1 )

ライセンス: CC BY-SA 4.0
Xinshao Wang, Yang Hua, Elyor Kodirov, Sankha Subhra Mukherjee, David A. Clifton, Neil M. Robertson(参考訳) 頑健なディープニューラルネットワーク(DNN)を訓練するために,出力正則化,自己および非自己ラベル補正(LC)を含む,いくつかの目標修正アプローチを体系的に検討した。 1) 自己LCは、自身の知識を活用して、余分なモデルを必要としないため、最も魅力的である。 しかし,学習者の信頼度を自動的に判断する方法は,文献上では不十分である。 2)低エントロピー予測に報いる方法もあれば,どちらがよいかを尋ねる方法もある。 3) 標準のトレーニング設定を用いると, 訓練されたネットワークは, 重騒音発生時の信頼性が低く, 高エントロピーな自己知識の活用が困難となる。 この課題を解決するために,(1)学習時間とエントロピーに応じて設計したproselflcという新しいエンド・ツー・エンド方式を提案する。 具体的には、モデルが十分な時間トレーニングを受けており、その予測が低エントロピー(高い信頼度)である場合、予測されたラベル分布に対する信頼度を徐々に増加させます。 その結果,ProSelfLCでは,有意義な低エントロピー状態を再定義し,学習者に対して最適化した方がよいことを実証的に証明した。 これはエントロピーの最小化の防御となる。 課題 (3) に対処するために, ラベルの修正に利用する前に低温を用いて自己知識のエントロピーを低減し, 低エントロピー目標状態を再定義する。 クリーンかつノイズの多い環境と,画像とタンパク質のデータセットにおいて,ProSelfLCの有効性を示す。 さらに、ソースコードはhttps://github.com/XinshaoAmosWang/ProSelfLC-ATで公開されています。

To train robust deep neural networks (DNNs), we systematically study several target modification approaches, which include output regularisation, self and non-self label correction (LC). Three key issues are discovered: (1) Self LC is the most appealing as it exploits its own knowledge and requires no extra models. However, how to automatically decide the trust degree of a learner as training goes is not well answered in the literature. (2) Some methods penalise while the others reward low-entropy predictions, prompting us to ask which one is better. (3) Using the standard training setting, a trained network is of low confidence when severe noise exists, making it hard to leverage its high-entropy self knowledge. To resolve the issue (1), taking two well-accepted propositions--deep neural networks learn meaningful patterns before fitting noise and minimum entropy regularisation principle--we propose a novel end-to-end method named ProSelfLC, which is designed according to learning time and entropy. Specifically, given a data point, we progressively increase trust in its predicted label distribution versus its annotated one if a model has been trained for enough time and the prediction is of low entropy (high confidence). For the issue (2), according to ProSelfLC, we empirically prove that it is better to redefine a meaningful low-entropy status and optimise the learner toward it. This serves as a defence of entropy minimisation. To address the issue (3), we decrease the entropy of self knowledge using a low temperature before exploiting it to correct labels, so that the revised labels redefine a low-entropy target state. We demonstrate the effectiveness of ProSelfLC through extensive experiments in both clean and noisy settings, and on both image and protein datasets. Furthermore, our source code is available at https://github.com/XinshaoAmosWang/ProSelfLC-AT.
翻訳日:2022-07-05 03:27:50 公開日:2022-06-30
# (参考訳) ラテントベイズ最適化による変分オートエンコーダの学習軌道の最適化

Optimizing Training Trajectories in Variational Autoencoders via Latent Bayesian Optimization Approach ( http://arxiv.org/abs/2207.00128v1 )

ライセンス: CC BY 4.0
Arpan Biswas, Rama Vasudevan, Maxim Ziatdinov, Sergei V. Kalinin(参考訳) 変分オートエンコーダ(VAE)のような教師なしおよび半教師なしのML手法は、複雑な実験データの分類と回帰のための潜在多様体を見つける能力によって、物理学、化学、材料科学の様々な分野に広く採用されている。 他のML問題と同様に、VAEは超パラメータチューニング、例えばKL(Kulback Leibler)と再構成項のバランスを必要とする。 しかし、トレーニング過程と結果の多様体位相と接続性は、ハイパーパラメータだけでなく、トレーニング中の進化にも依存する。 本稿では,高次元ハイパーパラメータ空間における非効率性から,非教師付き半教師付きMLに対する超パラメータ軌道最適化のための潜時ベイズ最適化(zBO)手法を探索し,回転不変性のあるジョイントVAEの実証を行った。 本手法の適用により,MNISTの離散的および連続的回転不変表現とプラズモンナノ粒子材料システムの実験データを求めることができる。 提案手法の性能は広く議論されており、他のMLモデルの高次元ハイパーパラメータチューニングや軌道最適化が可能である。

Unsupervised and semi-supervised ML methods such as variational autoencoders (VAE) have become widely adopted across multiple areas of physics, chemistry, and materials sciences due to their capability in disentangling representations and ability to find latent manifolds for classification and regression of complex experimental data. Like other ML problems, VAEs require hyperparameter tuning, e.g., balancing the Kullback Leibler (KL) and reconstruction terms. However, the training process and resulting manifold topology and connectivity depend not only on hyperparameters, but also their evolution during training. Because of the inefficiency of exhaustive search in a high-dimensional hyperparameter space for the expensive to train models, here we explored a latent Bayesian optimization (zBO) approach for the hyperparameter trajectory optimization for the unsupervised and semi-supervised ML and demonstrate for joint-VAE with rotational invariances. We demonstrate an application of this method for finding joint discrete and continuous rotationally invariant representations for MNIST and experimental data of a plasmonic nanoparticles material system. The performance of the proposed approach has been discussed extensively, where it allows for any high dimensional hyperparameter tuning or trajectory optimization of other ML models.
翻訳日:2022-07-05 03:00:31 公開日:2022-06-30
# プライバシー保護グラフ分析:セキュアな生成と連合学習

Privacy-preserving Graph Analytics: Secure Generation and Federated Learning ( http://arxiv.org/abs/2207.00048v1 )

ライセンス: Link先を確認
Dongqi Fu, Jingrui He, Hanghang Tong, Ross Maciejewski(参考訳) 国土安全保障エンタープライズのセキュリティ関連のアプリケーションを直接動機付け、我々は、リッチな属性と関係を表現する重要な能力を提供するグラフデータのプライバシー保護分析に焦点を当てます。 特に,プライバシ保護グラフ生成とフェデレーショングラフ学習という2つの方向性について論じる。 各方向について、我々は"quick wins"と"hard problems"の両方を識別する。 最後に,モデルの説明,解釈,可視化を容易にするユーザインタフェースを実証する。 これらの方法で開発された技術は、様々なセキュリティリスクに対処し緩和する国土安全保障エンタープライズの能力を著しく向上させるだろうと考えています。

Directly motivated by security-related applications from the Homeland Security Enterprise, we focus on the privacy-preserving analysis of graph data, which provides the crucial capacity to represent rich attributes and relationships. In particular, we discuss two directions, namely privacy-preserving graph generation and federated graph learning, which can jointly enable the collaboration among multiple parties each possessing private graph data. For each direction, we identify both "quick wins" and "hard problems". Towards the end, we demonstrate a user interface that can facilitate model explanation, interpretation, and visualization. We believe that the techniques developed in these directions will significantly enhance the capabilities of the Homeland Security Enterprise to tackle and mitigate the various security risks.
翻訳日:2022-07-04 14:57:46 公開日:2022-06-30
# グラフニューラルネットワークのトレーニング基準としてのモジュラリティ最適化

Modularity Optimization as a Training Criterion for Graph Neural Networks ( http://arxiv.org/abs/2207.00107v1 )

ライセンス: Link先を確認
Tsuyoshi Murata and Naveed Afzal(参考訳) グラフ畳み込み(Graph convolution)は、複数のレイヤにまたがるローカルノード情報を集約することで、属性付きグラフで深い特徴学習を行う、最近のスケーラブルな方法である。 このようなレイヤはフォワードモデルにおけるノードの隣人の属性情報のみを考慮し、学習タスクにグローバルネットワーク構造に関する知識を取り入れない。 特にモジュラリティ機能は、ネットワークのコミュニティ構造に関する情報の便利な情報源を提供する。 本研究では,グラフ畳み込みモデルにおけるネットワークのコミュニティ構造保存目標の組み入れによる学習表現の質への影響について検討する。 この目的を、出力層のコスト関数における明示的な正規化項と、補助層を介して計算される追加の損失項の2つの方法で取り入れる。 グラフ畳み込みアーキテクチャにおけるコミュニティ構造保存用語の効果について報告する。 推定された2つのバイビログラフネットワークの実験的評価により,コミュニティ保存目標の定式化により,半教師ありノード分類精度が向上した。

Graph convolution is a recent scalable method for performing deep feature learning on attributed graphs by aggregating local node information over multiple layers. Such layers only consider attribute information of node neighbors in the forward model and do not incorporate knowledge of global network structure in the learning task. In particular, the modularity function provides a convenient source of information about the community structure of networks. In this work we investigate the effect on the quality of learned representations by the incorporation of community structure preservation objectives of networks in the graph convolutional model. We incorporate the objectives in two ways, through an explicit regularization term in the cost function in the output layer and as an additional loss term computed via an auxiliary layer. We report the effect of community structure preserving terms in the graph convolutional architectures. Experimental evaluation on two attributed bibilographic networks showed that the incorporation of the community-preserving objective improves semi-supervised node classification accuracy in the sparse label regime.
翻訳日:2022-07-04 14:57:34 公開日:2022-06-30
# 共起語ネットワークに基づく短いテキストに対するまれなトピック発見モデル

A Rare Topic Discovery Model for Short Texts Based on Co-occurrence word Network ( http://arxiv.org/abs/2207.00432v1 )

ライセンス: Link先を確認
Chengjie Ma, Junping Du, Yingxia Shao, Ang Li, Zeli Guan(参考訳) 単語共起型ネットワークベースモデルcwibtdにおいて,単語のスパース性とアンバランスを同時に解決し,単語のペアワイズ発生の影響を弱め,希少な話題の発見に重きを置くことが可能な,不均衡な短文データセットにおける不足トピックの発見のための簡易かつ汎用的なソリューションを提供する。 以前のアプローチとは異なり、cwibtdは共起語ネットワークを使用して各単語の話題分布をモデル化し、データ空間の意味密度を高め、ノードのアクティビティの計算方法を改善し、希少なトピックや大きなトピックをある程度正規化することで、希少なトピックを識別する感度を確保する。 加えて、LDAと同じGibbsサンプリングを使用することで、CWIBTDを多種多様なアプリケーションシナリオに容易に拡張できる。 不均質な短文データセットにおける大規模な実験的検証は、稀なトピックを発見するためのベースラインアプローチよりもCWIBTDの方が優れていることを確認する。 当社のモデルは,新興トピックの早期かつ正確な発見や,ソーシャルプラットフォーム上の予期せぬイベントに利用することが可能です。

We provide a simple and general solution for the discovery of scarce topics in unbalanced short-text datasets, namely, a word co-occurrence network-based model CWIBTD, which can simultaneously address the sparsity and unbalance of short-text topics and attenuate the effect of occasional pairwise occurrences of words, allowing the model to focus more on the discovery of scarce topics. Unlike previous approaches, CWIBTD uses co-occurrence word networks to model the topic distribution of each word, which improves the semantic density of the data space and ensures its sensitivity in identify-ing rare topics by improving the way node activity is calculated and normal-izing scarce topics and large topics to some extent. In addition, using the same Gibbs sampling as LDA makes CWIBTD easy to be extended to vari-ous application scenarios. Extensive experimental validation in the unbal-anced short text dataset confirms the superiority of CWIBTD over the base-line approach in discovering rare topics. Our model can be used for early and accurate discovery of emerging topics or unexpected events on social platforms.
翻訳日:2022-07-04 14:56:57 公開日:2022-06-30
# 深層学習とホログラフィを用いた無染色・迅速・定量的ウイルスプラークアッセイ

Stain-free, rapid, and quantitative viral plaque assay using deep learning and holography ( http://arxiv.org/abs/2207.00089v1 )

ライセンス: Link先を確認
Tairan Liu, Yuzhu Li, Hatice Ceylan Koydemir, Yijie Zhang, Ethan Yang, Hongda Wang, Jingxi Li, Bijie Bai, Aydogan Ozcan(参考訳) プラークアッセイ(Plaque assay)は、複製競合性溶質ビリオンの濃度を定量化するための金標準法である。 ウイルスプラークアッセイの迅速かつ自動化は、臨床診断、ワクチン開発、組換えタンパク質または抗ウイルス剤の製造に有益である。 本稿では,レンズレスホログラフィと深層学習を用いた迅速かつ無染色な定量ウイルスプラーク測定法を提案する。 このコスト効率が高くコンパクトで自動化された装置は、従来のプラークアッセイに必要なインキュベーション時間を著しく短縮し、他のウイルス定量法よりもその利点を保っている。 この装置は、テストあたりのオブジェクトの0.32ギガピクセル/時間位相情報を取り込み、ラベル無しで30x30mm^2の範囲をカバーし、完全に染色を除去する。 我々は,Vero E6細胞とvesicular stomatitis virusを用いたこの計算法の有効性を実証した。 ニューラルネットワークを用いて、インキュベーション後5時間以内に、ウイルス複製による第1細胞ライシングイベントを自動的に検出し、20時間以上で100%特異なプラーク形成単位(pfus)に対して90%以上の検出率を達成し、48時間以上を要する従来のプラークアッセイと比べて大きな時間を節約する。 データ駆動型プラークアッセイは、細胞単分子膜の感染領域を定量化し、標準のウイルスプラークアッセイよりも10倍のダイナミックレンジのウイルス濃度でPFUおよびウイルス感染領域の自動カウントおよび定量を行う能力も提供する。 このコンパクトで低コストで自動化されたpfu定量装置は、ウイルス学研究、ワクチン開発、臨床応用に広く使用できる

Plaque assay is the gold standard method for quantifying the concentration of replication-competent lytic virions. Expediting and automating viral plaque assays will significantly benefit clinical diagnosis, vaccine development, and the production of recombinant proteins or antiviral agents. Here, we present a rapid and stain-free quantitative viral plaque assay using lensfree holographic imaging and deep learning. This cost-effective, compact, and automated device significantly reduces the incubation time needed for traditional plaque assays while preserving their advantages over other virus quantification methods. This device captures ~0.32 Giga-pixel/hour phase information of the objects per test well, covering an area of ~30x30 mm^2, in a label-free manner, eliminating staining entirely. We demonstrated the success of this computational method using Vero E6 cells and vesicular stomatitis virus. Using a neural network, this stain-free device automatically detected the first cell lysing events due to the viral replication as early as 5 hours after the incubation, and achieved >90% detection rate for the plaque-forming units (PFUs) with 100% specificity in <20 hours, providing major time savings compared to the traditional plaque assays that take ~48 hours or more. This data-driven plaque assay also offers the capability of quantifying the infected area of the cell monolayer, performing automated counting and quantification of PFUs and virus-infected areas over a 10-fold larger dynamic range of virus concentration than standard viral plaque assays. This compact, low-cost, automated PFU quantification device can be broadly used in virology research, vaccine development, and clinical applications
翻訳日:2022-07-04 14:53:49 公開日:2022-06-30
# デジタル病理における画像に基づく分子変化検出のためのエンドツーエンド学習

End-to-end Learning for Image-based Detection of Molecular Alterations in Digital Pathology ( http://arxiv.org/abs/2207.00095v1 )

ライセンス: Link先を確認
Marvin Teichmann, Andre Aichert, Hanibal Bohnenberger, Philipp Str\"obel, Tobias Heimann(参考訳) デジタル病理学における全スライド画像(wsi)の分類手法は, 主に2段階学習パイプラインを用いている。 第1段階は興味のある領域(例えば腫瘍組織)を特定し、第2段階はこれらの領域から採取したタイルを監督的に処理する。 推測中、多数のタイルが結合され、スライド全体の統一的な予測が行われる。 このようなアプローチの大きな欠点は、臨床ルーチンで取得されないタスク固有の補助ラベルの必要性である。 本稿では,wsi分類のための新しい学習パイプラインを提案する。 大腸腫瘍におけるマイクロサテライト不安定性の検出や,The Cancer Genome Atlasによる大腸癌,肺がん,乳癌の遺伝子変異の予測など,さまざまなユースケースにおける分子変異の予測に本手法を適用した。 その結果、AUCのスコアは最大94%に達し、最先端の2段階パイプラインと競合することが示されている。 われわれのアプローチは,今後のデジタル病理研究の促進に寄与し,がんの表現型予測に関する幅広い課題を解決し,今後より多くの患者にパーソナライズされた治療を可能にすることが期待できる。

Current approaches for classification of whole slide images (WSI) in digital pathology predominantly utilize a two-stage learning pipeline. The first stage identifies areas of interest (e.g. tumor tissue), while the second stage processes cropped tiles from these areas in a supervised fashion. During inference, a large number of tiles are combined into a unified prediction for the entire slide. A major drawback of such approaches is the requirement for task-specific auxiliary labels which are not acquired in clinical routine. We propose a novel learning pipeline for WSI classification that is trainable end-to-end and does not require any auxiliary annotations. We apply our approach to predict molecular alterations for a number of different use-cases, including detection of microsatellite instability in colorectal tumors and prediction of specific mutations for colon, lung, and breast cancer cases from The Cancer Genome Atlas. Results reach AUC scores of up to 94% and are shown to be competitive with state of the art two-stage pipelines. We believe our approach can facilitate future research in digital pathology and contribute to solve a large range of problems around the prediction of cancer phenotypes, hopefully enabling personalized therapies for more patients in future.
翻訳日:2022-07-04 14:53:20 公開日:2022-06-30
# ディープスピード推論:非先行スケールでのトランスフォーマーモデルの効率的な推論を実現する

DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale ( http://arxiv.org/abs/2207.00032v1 )

ライセンス: Link先を確認
Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He(参考訳) 過去数年間、トランスフォーマーベースのモデルの成功を目撃し、その規模とアプリケーションシナリオは積極的に成長を続けている。 現在のトランスフォーマーモデルの状況は様々で、モデルのサイズは100億のパラメータで大きく異なり、モデルの特徴はMixture-of-Expertsによって導入されたスパーシ性によって異なり、ターゲットのアプリケーションシナリオはレイテンシクリティカルまたはスループット指向になり、デプロイメントハードウェアは、メモリとストレージの異なるシングルまたはマルチGPUシステムである可能性がある。 このような多様性の増大とトランスモデルの急速な進化により、高性能で効率的な推論システムを設計することは極めて困難である。 本稿では,上述の課題に対処するため,トランスフォーマーモデル推論のための包括的システムソリューションであるDeepSpeed Inferenceを提案する。 DeepSpeed Inferenceは、(1)GPUメモリに収まるときの高密度およびスパーストランスフォーマーモデルのスループットを最大化しつつ、レイテンシを最小限に抑えるマルチGPU推論ソリューションと、(2)GPUメモリに加えてCPUとNVMeメモリを活用する異種推論ソリューションとからなり、GPUメモリに収まらない大規模なモデルで高い推論スループットを実現する。 DeepSpeed Inferenceは、レイテンシ指向シナリオの最先端よりもレイテンシを最大7.3倍削減し、スループット指向シナリオのスループットを1.5倍向上する。 さらに、数百のGPUを活用することで、リアルタイムレイテンシ制約下でのパラメータスケールの推測を可能にする。 GPUのみのソリューションよりも25倍大きなモデルを推論でき、高いスループットは84 TFLOPS(A6000ピークの50\%以上)を提供する。

The past several years have witnessed the success of transformer-based models, and their scale and application scenarios continue to grow aggressively. The current landscape of transformer models is increasingly diverse: the model size varies drastically with the largest being of hundred-billion parameters; the model characteristics differ due to the sparsity introduced by the Mixture-of-Experts; the target application scenarios can be latency-critical or throughput-oriented; the deployment hardware could be single- or multi-GPU systems with different types of memory and storage, etc. With such increasing diversity and the fast-evolving pace of transformer models, designing a highly performant and efficient inference system is extremely challenging. In this paper, we present DeepSpeed Inference, a comprehensive system solution for transformer model inference to address the above-mentioned challenges. DeepSpeed Inference consists of (1) a multi-GPU inference solution to minimize latency while maximizing the throughput of both dense and sparse transformer models when they fit in aggregate GPU memory, and (2) a heterogeneous inference solution that leverages CPU and NVMe memory in addition to the GPU memory and compute to enable high inference throughput with large models which do not fit in aggregate GPU memory. DeepSpeed Inference reduces latency by up to 7.3X over the state-of-the-art for latency-oriented scenarios and increases throughput by over 1.5x for throughput-oriented scenarios. Moreover, it enables trillion parameter scale inference under real-time latency constraints by leveraging hundreds of GPUs, an unprecedented scale for inference. It can inference 25x larger models than with GPU-only solutions, while delivering a high throughput of 84 TFLOPS (over $50\%$ of A6000 peak).
翻訳日:2022-07-04 14:51:37 公開日:2022-06-30
# 持続可能なコンピューティング -- 熱い空気なしで

Sustainable Computing -- Without the Hot Air ( http://arxiv.org/abs/2207.00081v1 )

ライセンス: Link先を確認
Noman Bashir, David Irwin, Prashant Shenoy, Abel Souza(参考訳) コンピューティングの需要は指数関数的に増え続けている。 この成長は、エネルギー効率の改善が需要の増加を上回りない限り、コンピュータのエネルギー消費の指数的な増加に繋がる。 しかし、何十年にもわたっての研究の末、エネルギー効率の向上はますます困難になりつつある。 結果として、ある時点でコンピューティング需要の増加は、エネルギー効率の向上を上回り、大きな利益をもたらす可能性がある。 このような指数関数的な成長は、もし未確認であれば、コンピューティングが世界の二酸化炭素排出量に相当の貢献をすると見なされる。 著名テクノロジー企業はこの問題を認識し、二酸化炭素排出量を削減しようとしたが、その成功に確実に焦点を合わせており、これが現在、あるいは間もなく解決されるという誤った印象を誤って伝える可能性がある。 このような誤った印象は、私たちが議論しているように、コンピューティングを排除し、より一般的には社会の二酸化炭素排出量は解決された問題とは程遠いので、この分野のさらなる研究を阻止するのに役立ちます。 問題の範囲をより深く理解するために, 計算の炭素フットプリントを決定する基本的傾向と, 持続可能な計算を実現するための意義を考察する。

The demand for computing is continuing to grow exponentially. This growth will translate to exponential growth in computing's energy consumption unless improvements in its energy-efficiency can outpace increases in its demand. Yet, after decades of research, further improving energy-efficiency is becoming increasingly challenging, as it is already highly optimized. As a result, at some point, increases in computing demand are likely to outpace increases in its energy-efficiency, potentially by a wide margin. Such exponential growth, if left unchecked, will position computing as a substantial contributor to global carbon emissions. While prominent technology companies have recognized the problem and sought to reduce their carbon emissions, they understandably focus on their successes, which has the potential to inadvertently convey the false impression that this is now, or will soon be, a solved problem. Such false impressions can be counterproductive if they serve to discourage further research in this area, since, as we discuss, eliminating computing's, and more generally society's, carbon emissions is far from a solved problem. To better understand the problem's scope, this paper distills the fundamental trends that determine computing's carbon footprint and their implications for achieving sustainable computing.
翻訳日:2022-07-04 14:51:02 公開日:2022-06-30
# DarKnight: 信頼されたハードウェアを使用したディープラーニングを保存するプライバシーと統合のための加速フレームワーク

DarKnight: An Accelerated Framework for Privacy and Integrity Preserving Deep Learning Using Trusted Hardware ( http://arxiv.org/abs/2207.00083v1 )

ライセンス: Link先を確認
Hanieh Hashemi and Yongqin Wang and Murali Annavaram(参考訳) 機械学習が多様なアプリケーションドメインに到達するにつれ、プライバシとセキュリティ関連の懸念が高まりつつある。 データ保持者は、クラウドにホストされているGPUなどのアクセラレータを活用しながら、プライベートデータでトレーニングや推論をしたいと考えています。 クラウドシステムは、データのプライバシーと計算の完全性を侵害する攻撃者に対して脆弱である。 このような課題に対処するには、理論的プライバシアルゴリズムとハードウェアセキュリティ機能を統合する必要がある。 本稿では,入力プライバシと計算整合性を保護しつつ,大規模dnnトレーニングのためのフレームワークであるdarknightを提案する。 DarKnightは信頼できる実行環境(TEE)とアクセラレータ間の協調実行に依存しており、TEEはプライバシと整合性検証を提供し、アクセラレータは線形代数計算の大部分を実行して性能を最適化する。 特にDarKnightは、マトリックスマスキングに基づくカスタマイズされたデータエンコーディング戦略を使用して、TEE内で入力難読化を生成する。 難読データをGPUにオフロードして高速線形代数計算を行う。 darknightのデータ難読化戦略は、クラウドサーバにおけるデータのプライバシと計算の完全性を保証する。 先行研究は推論プライバシに取り組み、トレーニングに利用できないが、darknightのエンコーディングスキームはトレーニングと推論の両方をサポートするように設計されている。

Privacy and security-related concerns are growing as machine learning reaches diverse application domains. The data holders want to train or infer with private data while exploiting accelerators, such as GPUs, that are hosted in the cloud. Cloud systems are vulnerable to attackers that compromise the privacy of data and integrity of computations. Tackling such a challenge requires unifying theoretical privacy algorithms with hardware security capabilities. This paper presents DarKnight, a framework for large DNN training while protecting input privacy and computation integrity. DarKnight relies on cooperative execution between trusted execution environments (TEE) and accelerators, where the TEE provides privacy and integrity verification, while accelerators perform the bulk of the linear algebraic computation to optimize the performance. In particular, DarKnight uses a customized data encoding strategy based on matrix masking to create input obfuscation within a TEE. The obfuscated data is then offloaded to GPUs for fast linear algebraic computation. DarKnight's data obfuscation strategy provides provable data privacy and computation integrity in the cloud servers. While prior works tackle inference privacy and cannot be utilized for training, DarKnight's encoding scheme is designed to support both training and inference.
翻訳日:2022-07-04 14:50:41 公開日:2022-06-30
# 時系列データのクラスタリングのためのK-ARMAモデル

K-ARMA Models for Clustering Time Series Data ( http://arxiv.org/abs/2207.00039v1 )

ライセンス: Link先を確認
Derek O. Hoare, David S. Matteson, and Martin T. Wells(参考訳) K-Meansアルゴリズムのモデルベース一般化を用いた時系列データのクラスタリング手法を提案する。 この一般アルゴリズムの収束性を証明し、混合モデリングのためのハードEMアルゴリズムに関連付ける。 次に,本手法をar($p$)クラスタリングの例に適用し,最小絶対偏差基準を用いて解法にロバストなクラスタリングアルゴリズムを適用できることを示す。 次に、ARMA($p,q$)モデルのためにクラスタリングアルゴリズムを構築し、これをARIMA($p,d,q$)モデルに拡張します。 我々はLjung-Box統計に基づくクラスタに適合するモデルに適合する確率の良さを開発する。 シミュレーションデータを用いて,そのアルゴリズムが異常検出や分布ドリフトの検出にどのように使われるのかを実験し,空クラスタにおける初期化手法の影響について考察した。 また,本手法が他の既存手法と競合していることを示す実データ実験を行い,類似した時系列クラスタリングタスクを行った。

We present an approach to clustering time series data using a model-based generalization of the K-Means algorithm which we call K-Models. We prove the convergence of this general algorithm and relate it to the hard-EM algorithm for mixture modeling. We then apply our method first with an AR($p$) clustering example and show how the clustering algorithm can be made robust to outliers using a least-absolute deviations criteria. We then build our clustering algorithm up for ARMA($p,q$) models and extend this to ARIMA($p,d,q$) models. We develop a goodness of fit statistic for the models fitted to clusters based on the Ljung-Box statistic. We perform experiments with simulated data to show how the algorithm can be used for outlier detection, detecting distributional drift, and discuss the impact of initialization method on empty clusters. We also perform experiments on real data which show that our method is competitive with other existing methods for similar time series clustering tasks.
翻訳日:2022-07-04 14:09:50 公開日:2022-06-30
# 信頼性のある表現は強力な防御力をもたらす:ロバストgnnのための教師なし構造の改良

Reliable Representations Make A Stronger Defender: Unsupervised Structure Refinement for Robust GNN ( http://arxiv.org/abs/2207.00012v1 )

ライセンス: Link先を確認
Kuan Li, Yang Liu, Xiang Ao, Jianfeng Chi, Jinghua Feng, Hao Yang, Qing He(参考訳) メッセージパッシング機構の恩恵を受けたグラフニューラルネットワーク(gnn)は、グラフデータよりも隆盛したタスクで成功している。 しかし最近の研究では、攻撃者はグラフ構造を悪質に修正することで、GNNの性能を壊滅的に低下させることができることが示されている。 この問題を解決するための簡単な解決策は、2つの端ノードのペアワイズ表現の間の計量関数を学習することでエッジウェイトをモデル化することである。 既存の手法では、エッジウェイトをモデル化するために、教師付きGNNによって学習された生の特徴または表現を使用する。 生の特徴はノードの様々な特性(例えば構造情報)を表現できないし、教師付きgnnによって学習された表現は、有毒グラフ上の分類器の性能の低下に苦しむ可能性がある。 特徴情報と、できるだけ正確な構造情報の両方を持ち、構造摂動に敏感な表現が必要である。 この目的のために、グラフ構造を最適化するための教師なしパイプラインSTABLEを提案する。 最後に、精細なグラフを下流の分類器に入力する。 そこで我々は,バニラGCNの堅牢性を大幅に向上する高度なGCNを設計する。 4つの実世界のグラフベンチマークの大規模な実験により、STABLEは最先端の手法より優れ、様々な攻撃に対してうまく防御できることを示した。

Benefiting from the message passing mechanism, Graph Neural Networks (GNNs) have been successful on flourish tasks over graph data. However, recent studies have shown that attackers can catastrophically degrade the performance of GNNs by maliciously modifying the graph structure. A straightforward solution to remedy this issue is to model the edge weights by learning a metric function between pairwise representations of two end nodes, which attempts to assign low weights to adversarial edges. The existing methods use either raw features or representations learned by supervised GNNs to model the edge weights. However, both strategies are faced with some immediate problems: raw features cannot represent various properties of nodes (e.g., structure information), and representations learned by supervised GNN may suffer from the poor performance of the classifier on the poisoned graph. We need representations that carry both feature information and as mush correct structure information as possible and are insensitive to structural perturbations. To this end, we propose an unsupervised pipeline, named STABLE, to optimize the graph structure. Finally, we input the well-refined graph into a downstream classifier. For this part, we design an advanced GCN that significantly enhances the robustness of vanilla GCN without increasing the time complexity. Extensive experiments on four real-world graph benchmarks demonstrate that STABLE outperforms the state-of-the-art methods and successfully defends against various attacks.
翻訳日:2022-07-04 14:09:34 公開日:2022-06-30
# 記憶した訓練事例の収集計測

Measuring Forgetting of Memorized Training Examples ( http://arxiv.org/abs/2207.00099v1 )

ライセンス: Link先を確認
Matthew Jagielski, Om Thakkar, Florian Tram\`er, Daphne Ippolito, Katherine Lee, Nicholas Carlini, Eric Wallace, Shuang Song, Abhradeep Thakurta, Nicolas Papernot, Chiyuan Zhang(参考訳) 機械学習モデルは、トレーニングデータの記憶と、様々な形の忘れの2つの一見矛盾する現象を示す。 記憶では、モデルは特定のトレーニング例に過度に適合し、プライバシ攻撃の影響を受けやすい。 忘れでは、トレーニングの初期に現れた例が最後に忘れ去られる。 この研究では、これらの現象をつなげます。 トレーニング例の具体例である ‘forget’ の程度を測る手法を提案し,最近は見ていない例に対するプライバシ攻撃の影響を小さくする。 非凸性は最悪の場合に忘れられることを防げるが、標準画像と音声モデルは時間とともに例を経験的に忘れてしまう。 非決定論を潜在的な説明として認識し、決定論的に訓練されたモデルは忘れないことを示す。 私たちの結果は、非常に大きなデータセット(例えば、モデルの事前トレーニングに使用される例)でトレーニングした初期の例が、後に見られる例を犠牲にして、プライバシのメリットを享受できることを示唆している。

Machine learning models exhibit two seemingly contradictory phenomena: training data memorization and various forms of forgetting. In memorization, models overfit specific training examples and become susceptible to privacy attacks. In forgetting, examples which appeared early in training are forgotten by the end. In this work, we connect these phenomena. We propose a technique to measure to what extent models ``forget'' the specifics of training examples, becoming less susceptible to privacy attacks on examples they have not seen recently. We show that, while non-convexity can prevent forgetting from happening in the worst-case, standard image and speech models empirically do forget examples over time. We identify nondeterminism as a potential explanation, showing that deterministically trained models do not forget. Our results suggest that examples seen early when training with extremely large datasets -- for instance those examples used to pre-train a model -- may observe privacy benefits at the expense of examples seen later.
翻訳日:2022-07-04 13:46:37 公開日:2022-06-30
# 拡散モデルによる意味画像合成

Semantic Image Synthesis via Diffusion Models ( http://arxiv.org/abs/2207.00050v1 )

ライセンス: Link先を確認
Weilun Wang, Jianmin Bao, Wengang Zhou, Dongdong Chen, Dong Chen, Lu Yuan and Houqiang Li(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、GAN(Generative Adversarial Nets)と比較して、様々な画像生成タスクにおいて顕著な成功を収めている。 セマンティック画像合成に関する最近の研究は、主にGANベースのアプローチに従っており、それによって生成した画像の品質や多様性が損なわれる可能性がある。 本稿では,セマンティック画像合成のためのDDPMに基づく新しいフレームワークを提案する。 従来の条件拡散モデルとは異なり、u-net構造に入力されたセマンティックレイアウトとノイズ画像を直接送り込むが、入力されたセマンティクスマスクの情報を十分に活用できない場合があり、フレームワークはセマンティクスレイアウトとノイズ画像とを異なる方法で処理する。 多層空間適応正規化演算子により,U-Net構造のエンコーダに雑音像を供給し,デコーダに意味的レイアウトを付与する。 セマンティック画像合成における生成品質と意味論的解釈性をさらに向上するため,非条件モデルによるサンプリングプロセスのスコアを認識できる分類器なしガイダンスサンプリング戦略を導入する。 3つのベンチマークデータセットに関する広範囲な実験により,提案手法の有効性が実証され,忠実度~(fid)と多様性~(lpips)の観点から最先端の性能が得られた。

Denoising Diffusion Probabilistic Models (DDPMs) have achieved remarkable success in various image generation tasks compared with Generative Adversarial Nets (GANs). Recent work on semantic image synthesis mainly follows the \emph{de facto} GAN-based approaches, which may lead to unsatisfactory quality or diversity of generated images. In this paper, we propose a novel framework based on DDPM for semantic image synthesis. Unlike previous conditional diffusion model directly feeds the semantic layout and noisy image as input to a U-Net structure, which may not fully leverage the information in the input semantic mask, our framework processes semantic layout and noisy image differently. It feeds noisy image to the encoder of the U-Net structure while the semantic layout to the decoder by multi-layer spatially-adaptive normalization operators. To further improve the generation quality and semantic interpretability in semantic image synthesis, we introduce the classifier-free guidance sampling strategy, which acknowledge the scores of an unconditional model for sampling process. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our proposed method, achieving state-of-the-art performance in terms of fidelity~(FID) and diversity~(LPIPS).
翻訳日:2022-07-04 13:29:15 公開日:2022-06-30
# 手術用キャプション再考:パッチを用いた終端ウィンドウベースMLPトランス

Rethinking Surgical Captioning: End-to-End Window-Based MLP Transformer Using Patches ( http://arxiv.org/abs/2207.00113v1 )

ライセンス: Link先を確認
Mengya Xu and Mobarakol Islam and Hongliang Ren(参考訳) 外科的キャプションは外科的指導予測と報告生成に重要な役割を果たしている。 しかし、キャプションモデルの大多数は、地域的特徴を抽出するために重い計算対象検出器や特徴抽出器に依存している。 さらに、検出モデルは、コストがかかり、熟練したアノテーションを必要とする追加のバウンディングボックスアノテーションを必要とする。 これにより推論が遅れ、リアルタイムでロボット手術を行うためのキャプションモデルが制限される。 そこで本研究では,パッチベースのシフトウインドウ手法を用いて,エンドツーエンド検出と特徴抽出自由キャプションモデルの設計を行う。 高速な推論速度と少ない計算量を有するシフトウィンドウベースマルチ層パーセプトロントランスフォーマーキャプタキャプタモデル(SwinMLP-TranCAP)を提案する。 SwinMLP-TranCAPはマルチヘッドアテンションモジュールをウィンドウベースのマルチヘッドMLPに置き換える。 このような展開は主に画像理解タスクに焦点を当てているが、キャプション生成タスクを調査する作業はほとんどない。 SwinMLP-TranCAPは3Dパッチとウィンドウを使ったビデオキャプションタスクにも拡張されている。 従来の検出器ベースモデルや特徴抽出モデルと比較して,2つの手術データセットの性能を維持しつつ,アーキテクチャ設計を大幅に単純化した。 コードはhttps://github.com/XuMengyaAmy/SwinMLP_TranCAPで公開されている。

Surgical captioning plays an important role in surgical instruction prediction and report generation. However, the majority of captioning models still rely on the heavy computational object detector or feature extractor to extract regional features. In addition, the detection model requires additional bounding box annotation which is costly and needs skilled annotators. These lead to inference delay and limit the captioning model to deploy in real-time robotic surgery. For this purpose, we design an end-to-end detector and feature extractor-free captioning model by utilizing the patch-based shifted window technique. We propose Shifted Window-Based Multi-Layer Perceptrons Transformer Captioning model (SwinMLP-TranCAP) with faster inference speed and less computation. SwinMLP-TranCAP replaces the multi-head attention module with window-based multi-head MLP. Such deployments primarily focus on image understanding tasks, but very few works investigate the caption generation task. SwinMLP-TranCAP is also extended into a video version for video captioning tasks using 3D patches and windows. Compared with previous detector-based or feature extractor-based models, our models greatly simplify the architecture design while maintaining performance on two surgical datasets. The code is publicly available at https://github.com/XuMengyaAmy/SwinMLP_TranCAP.
翻訳日:2022-07-04 13:28:54 公開日:2022-06-30
# 半教師付きlidarセマンティクスセグメンテーションのためのlasermix

LaserMix for Semi-Supervised LiDAR Semantic Segmentation ( http://arxiv.org/abs/2207.00026v1 )

ライセンス: Link先を確認
Lingdong Kong and Jiawei Ren and Liang Pan and Ziwei Liu(参考訳) 厳密な注釈付きLiDARポイントクラウドはコストがかかり、完全に教師付き学習手法のスケーラビリティを抑える。 本研究では,LiDARセグメンテーションにおける未探索半教師付き学習(SSL)について検討する。 当社の中核となる考え方は、LiDAR点雲の強い空間的手がかりを活用して、ラベルのないデータをうまく活用することだ。 我々は、異なるLiDARスキャンからレーザービームを混合し、混合前後に一貫した確実な予測を行うことを推奨するLaserMixを提案する。 私たちのフレームワークには3つの魅力があります。 1)ジェネリック: LaserMixはLiDAR表現(例えば、レンジビューとボクセル)に依存しないので、SSLフレームワークを普遍的に適用できます。 2) 統計的根拠: 提案手法の適用性を理論的に説明するための詳細な分析を行う。 3) 有効性: 一般的なLiDARセグメンテーションデータセット(nuScenes, SemanticKITTI, ScribbleKITTI)の総合的な実験分析により, 有効性と優位性を示す。 特に、2倍から5倍のラベルを持つ完全教師付きラベルよりも競争力があり、教師のみのベースラインを平均で10.8%向上させる。 この簡潔かつ高性能なフレームワークが,半教師付きLiDARセグメンテーションの今後の研究を促進することを願っている。 コードは公開されます。

Densely annotating LiDAR point clouds is costly, which restrains the scalability of fully-supervised learning methods. In this work, we study the underexplored semi-supervised learning (SSL) in LiDAR segmentation. Our core idea is to leverage the strong spatial cues of LiDAR point clouds to better exploit unlabeled data. We propose LaserMix to mix laser beams from different LiDAR scans, and then encourage the model to make consistent and confident predictions before and after mixing. Our framework has three appealing properties: 1) Generic: LaserMix is agnostic to LiDAR representations (e.g., range view and voxel), and hence our SSL framework can be universally applied. 2) Statistically grounded: We provide a detailed analysis to theoretically explain the applicability of the proposed framework. 3) Effective: Comprehensive experimental analysis on popular LiDAR segmentation datasets (nuScenes, SemanticKITTI, and ScribbleKITTI) demonstrates our effectiveness and superiority. Notably, we achieve competitive results over fully-supervised counterparts with 2x to 5x fewer labels and improve the supervised-only baseline significantly by 10.8% on average. We hope this concise yet high-performing framework could facilitate future research in semi-supervised LiDAR segmentation. Code will be publicly available.
翻訳日:2022-07-04 13:14:56 公開日:2022-06-30
# パーソナライズされたショーケース:レコメンデーションのためのマルチモーダル説明の生成

Personalized Showcases: Generating Multi-Modal Explanations for Recommendations ( http://arxiv.org/abs/2207.00422v1 )

ライセンス: Link先を確認
An Yan, Zhankui He, Jiacheng Li, Tianyang Zhang, Julian McAuley(参考訳) 既存の説明モデルは、レコメンデーションのためのテキストのみを生成するが、多様なコンテンツを生成するのに苦労している。 本稿では、さらに説明を深めるために、パーソナライズされたショーケースという新しいタスクを提案し、提案するレコメンデーションを説明するために、テキスト情報と視覚情報の両方を提供する。 具体的には、まず、推奨項目に対するユーザの関心に最も関連するパーソナライズされたイメージセットを選択する。 そして、選択した画像から自然言語の説明を生成する。 この新しいタスクでは、Google Localから大規模なデータセット(例えば—maps)を収集し、マルチモーダルな説明を生成するための高品質なサブセットを構築する。 コントラスト学習によって多様で視覚的に整合した説明を生成できるパーソナライズされたマルチモーダルフレームワークを提案する。 実験により、我々のフレームワークは入力として異なるモダリティから恩恵を受け、様々な評価指標で以前の方法と比較してより多様で表現力のある説明ができることを示した。

Existing explanation models generate only text for recommendations but still struggle to produce diverse contents. In this paper, to further enrich explanations, we propose a new task named personalized showcases, in which we provide both textual and visual information to explain our recommendations. Specifically, we first select a personalized image set that is the most relevant to a user's interest toward a recommended item. Then, natural language explanations are generated accordingly given our selected images. For this new task, we collect a large-scale dataset from Google Local (i.e.,~maps) and construct a high-quality subset for generating multi-modal explanations. We propose a personalized multi-modal framework which can generate diverse and visually-aligned explanations via contrastive learning. Experiments show that our framework benefits from different modalities as inputs, and is able to produce more diverse and expressive explanations compared to previous methods on a variety of evaluation metrics.
翻訳日:2022-07-04 13:04:47 公開日:2022-06-30
# 機械学習システムにおける脅威評価

Threat Assessment in Machine Learning based Systems ( http://arxiv.org/abs/2207.00091v1 )

ライセンス: Link先を確認
Lionel Nganyewou Tidjon and Foutse Khomh(参考訳) 機械学習は人工知能(AI)の分野であり、いくつかの重要なシステムにとって欠かせない存在になりつつある。 脅威アクターは、機械学習(ML)システムの機密性、完全性、可用性に対して、さまざまな戦術、テクニック、手続き(TTP)を利用する。 MLサイクルの間、彼らは敵のTPを利用してデータに毒を盛り、MLベースのシステムを騙す。 近年、従来のシステムには複数のセキュリティプラクティスが提案されているが、MLベースのシステムの性質に対処するには不十分である。 本稿では,MLの脅威の性質を理解し,特徴付けることを目的として,MLベースのシステムに対して報告された脅威に関する実証的研究を行い,共通緩和戦略を同定する。 この研究は、MITREのATLASデータベース、AIインシデントデータベース、文学からの89の実際のML攻撃シナリオ、GitHub検索からの854のMLリポジトリと、その評判に基づいて選択されたPython Packaging Advisoryデータベースに基づいている。 AIインシデントデータベースと文献からの攻撃は、ATLASに記録されていない脆弱性と新しいタイプの脅威を特定するために使用される。 その結果,畳み込みニューラルネットワークは攻撃シナリオの中でも最も標的となるモデルの一つであることがわかった。 最大の脆弱性を持つMLリポジトリには、TensorFlow、OpenCV、Notebookがある。 本稿では,研究対象のMLフェーズやモデル,MLフェーズやアタックシナリオにおいて最も使用されるTPなど,研究対象のMLリポジトリの最も頻繁な脆弱性についても報告する。 この情報は、赤/青のチームが攻撃/防御をより良く行い、実践者がml開発中に脅威を防ぎ、研究者が効率的な防御メカニズムを開発するために特に重要である。

Machine learning is a field of artificial intelligence (AI) that is becoming essential for several critical systems, making it a good target for threat actors. Threat actors exploit different Tactics, Techniques, and Procedures (TTPs) against the confidentiality, integrity, and availability of Machine Learning (ML) systems. During the ML cycle, they exploit adversarial TTPs to poison data and fool ML-based systems. In recent years, multiple security practices have been proposed for traditional systems but they are not enough to cope with the nature of ML-based systems. In this paper, we conduct an empirical study of threats reported against ML-based systems with the aim to understand and characterize the nature of ML threats and identify common mitigation strategies. The study is based on 89 real-world ML attack scenarios from the MITRE's ATLAS database, the AI Incident Database, and the literature; 854 ML repositories from the GitHub search and the Python Packaging Advisory database, selected based on their reputation. Attacks from the AI Incident Database and the literature are used to identify vulnerabilities and new types of threats that were not documented in ATLAS. Results show that convolutional neural networks were one of the most targeted models among the attack scenarios. ML repositories with the largest vulnerability prominence include TensorFlow, OpenCV, and Notebook. In this paper, we also report the most frequent vulnerabilities in the studied ML repositories, the most targeted ML phases and models, the most used TTPs in ML phases and attack scenarios. This information is particularly important for red/blue teams to better conduct attacks/defenses, for practitioners to prevent threats during ML development, and for researchers to develop efficient defense mechanisms.
翻訳日:2022-07-04 13:02:56 公開日:2022-06-30
# TENET: 動き予測に有効な時間流れのためのトランスフォーマー符号化ネットワーク

TENET: Transformer Encoding Network for Effective Temporal Flow on Motion Prediction ( http://arxiv.org/abs/2207.00170v1 )

ライセンス: Link先を確認
Yuting Wang, Hangning Zhou, Zhigang Zhang, Chen Feng, Huadong Lin, Chaofei Gao, Yizhi Tang, Zhenting Zhao, Shiyu Zhang, Jie Guo, Xuefeng Wang, Ziyao Xu, Chi Zhang(参考訳) 本技術報告は自律運転における動作予測に有効な方法である。 入力符号化と軌道予測のためのトランスベース手法を開発した。 さらに,時間的フローヘッダーを提案し,軌道符号化を強化する。 最後に、効率的なk-meansアンサンブル法を用いる。 トランスフォーマーネットワークとアンサンブル方式を用いて,最先端のBRER-minFDEスコア1.90でArgoverse 2 Motion Forecasting Challengeの1位を獲得した。

This technical report presents an effective method for motion prediction in autonomous driving. We develop a Transformer-based method for input encoding and trajectory prediction. Besides, we propose the Temporal Flow Header to enhance the trajectory encoding. In the end, an efficient K-means ensemble method is used. Using our Transformer network and ensemble method, we win the first place of Argoverse 2 Motion Forecasting Challenge with the state-of-the-art brier-minFDE score of 1.90.
翻訳日:2022-07-04 12:48:12 公開日:2022-06-30
# DP$^2$-NILM:非侵入的負荷モニタリングのための分散およびプライバシ保護フレームワーク

DP$^2$-NILM: A Distributed and Privacy-preserving Framework for Non-intrusive Load Monitoring ( http://arxiv.org/abs/2207.00041v1 )

ライセンス: Link先を確認
Shuang Dai and Fanlin Meng and Qian Wang and Xizhong Chen(参考訳) 非侵入負荷監視(NILM)は、通常機械学習手法を用いており、家庭レベルでのスマートメーターの読み出しを家電レベルでの消費に分散させるのに有効であり、ユーザの電力消費の挙動を分析し、実用的なスマートエネルギーとスマートグリッドアプリケーションを実現するのに役立つ。 近年,federated deep learning (fl)に基づくnilmフレームワークが多数提案されている。 しかし、様々なFLベースのNILMアプリケーションシナリオにおけるユーティリティ最適化スキームとプライバシ保護スキームの総合的な研究は欠如している。 本稿では,分散・プライバシ保護型 NILM (DP2-NILM) フレームワークを開発し,実世界のスマートメーターデータセットに基づく現実的な NILM シナリオの比較実験を行うことにより,実用性とプライバシ保護の両方に焦点をあてて FL ベースの NILM を実行するための最初の試みを行う。 具体的には、ユーティリティ最適化スキーム、すなわちFedAvgとFedProxの2つの代替フェデレート学習戦略について検討する。 さらに、DP2-NILMには、ローカルな差分プライバシーフェデレーション学習とグローバルな差分プライバシーフェデレーション学習という異なるレベルのプライバシー保証が設けられている。 提案フレームワークを評価するために,実世界の3つのデータセットについて広範な比較実験を行った。

Non-intrusive load monitoring (NILM), which usually utilizes machine learning methods and is effective in disaggregating smart meter readings from the household-level into appliance-level consumption, can help analyze electricity consumption behaviours of users and enable practical smart energy and smart grid applications. Recent studies have proposed many novel NILM frameworks based on federated deep learning (FL). However, there lacks comprehensive research exploring the utility optimization schemes and the privacy-preserving schemes in different FL-based NILM application scenarios. In this paper, we make the first attempt to conduct FL-based NILM focusing on both the utility optimization and the privacy-preserving by developing a distributed and privacy-preserving NILM (DP2-NILM) framework and carrying out comparative experiments on practical NILM scenarios based on real-world smart meter datasets. Specifically, two alternative federated learning strategies are examined in the utility optimization schemes, i.e., the FedAvg and the FedProx. Moreover, different levels of privacy guarantees, i.e., the local differential privacy federated learning and the global differential privacy federated learning are provided in the DP2-NILM. Extensive comparison experiments are conducted on three real-world datasets to evaluate the proposed framework.
翻訳日:2022-07-04 12:45:54 公開日:2022-06-30
# ペア比較によるランキングの高速計算

Fast computation of rankings from pairwise comparisons ( http://arxiv.org/abs/2207.00076v1 )

ライセンス: Link先を確認
M. E. J. Newman(参考訳) Bradley-Terryモデルを用いて,個人,チーム,オブジェクトのランク付けをペア比較に基づいて検討する。 このモデルにおけるランキングの最大類似度の推定は、およそ1世紀前にzermeloが最初に導入した単純な反復アルゴリズムを用いて行われる。 ここでは、同じ問題をはるかに高速に解決する、別の、同様に単純なイテレーションについて説明する。 本稿では,このアルゴリズムをサンプルデータセットに適用し,その収束に関するいくつかの結果を導出する。

We study the ranking of individuals, teams, or objects on the basis of pairwise comparisons using the Bradley-Terry model. Maximum-likelihood estimates of rankings within this model are commonly made using a simple iterative algorithm first introduced by Zermelo almost a century ago. Here we describe an alternative and similarly simple iteration that solves the same problem much faster -- over a hundred times faster in some cases. We demonstrate this algorithm with applications to a range of example data sets and derive some results regarding its convergence.
翻訳日:2022-07-04 12:44:14 公開日:2022-06-30
# MultiViz:マルチモーダルモデルの可視化と理解のための分析ベンチマーク

MultiViz: An Analysis Benchmark for Visualizing and Understanding Multimodal Models ( http://arxiv.org/abs/2207.00056v1 )

ライセンス: Link先を確認
Paul Pu Liang, Yiwei Lyu, Gunjan Chhablani, Nihal Jain, Zihao Deng, Xingbo Wang, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) 現実世界のアプリケーションに対するマルチモーダルモデルの約束は、モデルビヘイビアの可視化、モデルデバッギングの実行、マシンラーニングモデルへの信頼の促進という最終目標によって、内部メカニズムの可視化と理解の研究にインスピレーションを与えている。 しかし、現代のマルチモーダルモデルは通常ブラックボックスニューラルネットワークであり、内部力学を理解するのが困難である。 これらのモデルにおけるマルチモーダル相互作用の内部モデリングをどのように可視化するか? Our paper aims to fill this gap by proposing MultiViz, a method for analyzing the behavior of multimodal models by scaffolding the problem of interpretability into 4 stages: (1) unimodal importance: how each modality contributes towards downstream modeling and prediction, (2) cross-modal interactions: how different modalities relate with each other, (3) multimodal representations: how unimodal and cross-modal interactions are represented in decision-level features, and (4) multimodal prediction: how decision-level features are composed to make a prediction. MultiVizは、様々なモダリティ、モデル、タスク、研究領域で動作するように設計されている。 実世界の6つのタスクにわたる8つのトレーニングモデルの実験を通して、MultiVizの相補的な段階は、(1)モデル予測をシミュレートし、(2)機能に解釈可能な概念を割り当て、(3)モデル誤分類のエラー解析を行い、(4)エラー解析からの洞察を用いてモデルをデバッグすることを可能にした。 MultiVizは公開されており、新しい解釈ツールとメトリクスを定期的に更新し、コミュニティからのインプットを歓迎する。

The promise of multimodal models for real-world applications has inspired research in visualizing and understanding their internal mechanics with the end goal of empowering stakeholders to visualize model behavior, perform model debugging, and promote trust in machine learning models. However, modern multimodal models are typically black-box neural networks, which makes it challenging to understand their internal mechanics. How can we visualize the internal modeling of multimodal interactions in these models? Our paper aims to fill this gap by proposing MultiViz, a method for analyzing the behavior of multimodal models by scaffolding the problem of interpretability into 4 stages: (1) unimodal importance: how each modality contributes towards downstream modeling and prediction, (2) cross-modal interactions: how different modalities relate with each other, (3) multimodal representations: how unimodal and cross-modal interactions are represented in decision-level features, and (4) multimodal prediction: how decision-level features are composed to make a prediction. MultiViz is designed to operate on diverse modalities, models, tasks, and research areas. Through experiments on 8 trained models across 6 real-world tasks, we show that the complementary stages in MultiViz together enable users to (1) simulate model predictions, (2) assign interpretable concepts to features, (3) perform error analysis on model misclassifications, and (4) use insights from error analysis to debug models. MultiViz is publicly available, will be regularly updated with new interpretation tools and metrics, and welcomes inputs from the community.
翻訳日:2022-07-04 12:23:00 公開日:2022-06-30
# 関係依存の非パラメトリック推論

Non-Parametric Inference of Relational Dependence ( http://arxiv.org/abs/2207.00163v1 )

ライセンス: Link先を確認
Ragib Ahsan, Zahra Fatemi, David Arbour, Elena Zheleva(参考訳) 独立テストは、観測データからの統計的および因果推論において中心的な役割を果たす。 標準独立試験では、データサンプルは独立しており、同一に分散していると仮定するが、その仮定は多くの実世界のデータセットやリレーショナルシステムを中心としたアプリケーションに違反している。 本研究では、個々のインスタンスに影響を与える観測の集合に対する十分な表現を定義することにより、関係システムから引き出されたデータの独立性を推定する問題を考察する。 具体的には、カーネル平均埋め込みを関係変数のフレキシブルアグリゲーション関数として考慮し、関係データの限界独立性と条件独立性テストを定義する。 構造的前提の下での観測データに対する関係独立性テストを実行するために,一貫した,非パラメトリックでスケーラブルなカーネルテストを提案する。 提案手法を多種多様な合成ネットワークおよび半合成ネットワーク上で実験的に評価し,その効果をカーネルベースの独立性テストと比較した。

Independence testing plays a central role in statistical and causal inference from observational data. Standard independence tests assume that the data samples are independent and identically distributed (i.i.d.) but that assumption is violated in many real-world datasets and applications centered on relational systems. This work examines the problem of estimating independence in data drawn from relational systems by defining sufficient representations for the sets of observations influencing individual instances. Specifically, we define marginal and conditional independence tests for relational data by considering the kernel mean embedding as a flexible aggregation function for relational variables. We propose a consistent, non-parametric, scalable kernel test to operationalize the relational independence test for non-i.i.d. observational data under a set of structural assumptions. We empirically evaluate our proposed method on a variety of synthetic and semi-synthetic networks and demonstrate its effectiveness compared to state-of-the-art kernel-based independence tests.
翻訳日:2022-07-04 12:22:32 公開日:2022-06-30
# ナビゲーションのためのビジュアル事前学習:ノイズから何が学べる?

Visual Pre-training for Navigation: What Can We Learn from Noise? ( http://arxiv.org/abs/2207.00052v1 )

ライセンス: Link先を確認
Yanwei Wang, Ching-Yun Ko(参考訳) sensorimotorコントロールの強力なパラダイムは、観察から直接行動を予測することである。 このようなエンドツーエンドシステムのトレーニングにより、下流タスクが自動的に現れるのに役立つ表現が可能になる。 ビジュアルナビゲーションでは、エージェントは、ビューがどう変化するかとアクションを関連付けることで、手動設計なしでナビゲートを学ぶことができる。 しかし、インダクティブバイアスの欠如により、このシステムは、検索や救難のようなシナリオでは、データ非効率で非現実的になり、データ収集のための環境との相互作用はコストがかかる。 我々は現在の視点の十分な表現とナビゲーションポリシーの目標ビューを、目標に対応する現在の視点の作物の位置と大きさを予測することによって学習できると仮定する。 さらに, 自然の家庭画像に対して, ランダムなノイズ画像の移動に基づいて, 自己教師方式でランダムな作物予測を訓練することを示す。 そして、学習した表現をブートストラップして、対話データが少なく、効率的にナビゲーションポリシーを学ぶことができる。 コードはhttps://github.com/yanweiw/noise2ptzで入手できる。

A powerful paradigm for sensorimotor control is to predict actions from observations directly. Training such an end-to-end system allows representations that are useful for the downstream tasks to emerge automatically. In visual navigation, an agent can learn to navigate without any manual designs by correlating how its views change with the actions being taken. However, the lack of inductive bias makes this system data-inefficient and impractical in scenarios like search and rescue, where interacting with the environment to collect data is costly. We hypothesize a sufficient representation of the current view and the goal view for a navigation policy can be learned by predicting the location and size of a crop of the current view that corresponds to the goal. We further show that training such random crop prediction in a self-supervised fashion purely on random noise images transfers well to natural home images. The learned representation can then be bootstrapped to learn a navigation policy efficiently with little interaction data. Code is available at https://github.com/yanweiw/noise2ptz.
翻訳日:2022-07-04 12:22:14 公開日:2022-06-30
# AIoTのための効率的な産業連携学習フレームワーク:顔認識アプリケーション

An Efficient Industrial Federated Learning Framework for AIoT: A Face Recognition Application ( http://arxiv.org/abs/2206.13398v2 )

ライセンス: Link先を確認
Youlong Ding, Xueyang Wu, Zhitao Li, Zeheng Wu, Shengqi Tan, Qian Xu, Weike Pan and Qiang Yang(参考訳) 最近、物の人工知能(AIoT)が注目され、物のネットワーク接続を通じて高度にインテリジェントなサービスを提供するという興味深いビジョンが生まれ、AI駆動の生態学が進んだ。 しかし、データプライバシに関する最近の規制により、機密性の高いローカルデータをデータセンタにアップロードし、中央集権的なアプローチで利用できなくなる。 このシナリオで連合学習アルゴリズムを直接適用することは、効率と正確性の両方の産業要件を満たせなかった。 そこで本稿では,顔認識アプリケーションの観点から,AIoTのための効率的な産業連携学習フレームワークを提案する。 具体的には、転送学習の概念を利用してデバイス上でのフェデレーショントレーニングを高速化し、さらにメモリ消費や計算コストを増大させることなく共有勾配を保護するプライベートプロジェクタの設計を提案する。 アジアのプライベートな顔データセットに関する実証研究により,20回の通信ラウンドで高い認識精度を達成でき,予測の有効性と訓練効率が実証された。

Recently, the artificial intelligence of things (AIoT) has been gaining increasing attention, with an intriguing vision of providing highly intelligent services through the network connection of things, leading to an advanced AI-driven ecology. However, recent regulatory restrictions on data privacy preclude uploading sensitive local data to data centers and utilizing them in a centralized approach. Directly applying federated learning algorithms in this scenario could hardly meet the industrial requirements of both efficiency and accuracy. Therefore, we propose an efficient industrial federated learning framework for AIoT in terms of a face recognition application. Specifically, we propose to utilize the concept of transfer learning to speed up federated training on devices and further present a novel design of a private projector that helps protect shared gradients without incurring additional memory consumption or computational cost. Empirical studies on a private Asian face dataset show that our approach can achieve high recognition accuracy in only 20 communication rounds, demonstrating its effectiveness in prediction and its efficiency in training.
翻訳日:2022-07-04 01:23:10 公開日:2022-06-30
# (参考訳) ロバストなpde発見のためのノイズアウェア物理インフォームド機械学習

Noise-aware Physics-informed Machine Learning for Robust PDE Discovery ( http://arxiv.org/abs/2206.12901v2 )

ライセンス: CC BY 4.0
Pongpisit Thanasutives, Takeshi Morita, Masayuki Numao, Ken-ichi Fukui(参考訳) この研究は、物理系の制御偏微分方程式(PDE)の発見に関係している。 既存の手法では、有限観測値からPDEの同定を実証しているが、一部は最適下推定導関数とPDE係数によりノイズデータに対する満足度を維持できなかった。 我々は、任意の分布に続くデータからPDEの制御を検出するために、ノイズ対応物理情報処理機械学習(nPIML)フレームワークを導入することで、この問題に対処する。 私たちの提案は2つある。 まず,2つのニューラルネットワーク,すなわちソルバとプレセレクタを提案し,隠れた物理的制約の解釈可能なニューラル表現を生成する。 それらが共同で訓練された後、解法ネットワークは潜在的な候補、例えば部分微分を近似し、情報基準に従って決定された最も擬似的なPDEを最初に発表するスパース回帰アルゴリズムに供給する。 第2に,離散フーリエ変換(dft)に基づいて,ノイズ低減変数に関する最適微調整pde係数のセットを提供する。 PINNの構造を前部プロジェクションネットワークとPINNに分割し、前者で学習した解法を初期化する。 5つの標準pdeに関する広範な実験により,提案手法は,多種多様なシステムに適用可能な,強固で解釈可能なpde発見手法であることを確認した。

This work is concerned with discovering the governing partial differential equation (PDE) of a physical system. Existing methods have demonstrated the PDE identification from finite observations but failed to maintain satisfying performance against noisy data, partly owing to suboptimal estimated derivatives and found PDE coefficients. We address the issues by introducing a noise-aware physics-informed machine learning (nPIML) framework to discover the governing PDE from data following arbitrary distributions. Our proposals are twofold. First, we propose a couple of neural networks, namely solver and preselector, which yield an interpretable neural representation of the hidden physical constraint. After they are jointly trained, the solver network approximates potential candidates, e.g., partial derivatives, which are then fed to the sparse regression algorithm that initially unveils the most likely parsimonious PDE, decided according to the information criterion. Second, we propose the denoising physics-informed neural networks (dPINNs), based on Discrete Fourier Transform (DFT), to deliver a set of the optimal finetuned PDE coefficients respecting the noise-reduced variables. The denoising PINNs' structures are compartmentalized into forefront projection networks and a PINN, by which the formerly learned solver initializes. Our extensive experiments on five canonical PDEs affirm that the proposed framework presents a robust and interpretable approach for PDE discovery, applicable to a wide range of systems, possibly complicated by noise.
翻訳日:2022-07-03 01:28:04 公開日:2022-06-30
# (参考訳) 部分ラベル付生理データを用いたストレス検出のための半教師付き生成逆数ネットワーク

Semi-Supervised Generative Adversarial Network for Stress Detection Using Partially Labeled Physiological Data ( http://arxiv.org/abs/2206.14976v1 )

ライセンス: CC BY 4.0
Nibraas Khan(参考訳) 生理学的測定は、ヒトのシステムとサブシステムの通常の機能に属する変数を直接的または間接的に観察する。 この測定は、人間とコンピュータの相互作用を改善することを目的とした人の感情状態を検出するために使用することができる。 生理的データを集める方法はいくつかあるが、ウェアラブルセンサーは正確な読み取りのための一般的な非侵襲的ツールである。 しかし、生の生理データ、特に情緒的状態検出から貴重な情報を抽出することは困難である。 機械学習技術は、ラベル付き生理データを通じて人の感情状態を検出するために使用される。 ラベル付きデータを使用する際の明らかな問題は、正確なラベルの作成である。 専門家は、参加者の記録形式を分析し、ストレスや落ち着きなどの異なる状態のセクションをマークする必要がある。 費用はかかるが、この手法は教師付きアルゴリズムで使用できるラベル付きデータを含む完全なデータセットを提供する。 高価なラベル付けから、興味深い疑問が生まれている。 正確性を維持しながら、どのようにコストを削減できるのか? Semi-Supervised Learning (SSL)は、この問題に対する潜在的な解決策である。 これらのアルゴリズムは、ラベル付きデータの小さなサブセットでのみ機械学習モデルをトレーニングすることができる(ラベルを使用しない教師なしの非教師)。 これらは高価なラベリングを避ける方法を提供する。 本稿では, ストレス検出のための WESAD (Wearable Stress and Affect Detection) データセット上で, 完全教師付きアルゴリズムとSSLを比較した。 本報告では, 半教師付きアルゴリズムが, 精度の高い安価な感情状態検出システムに有効な方法であることを示す。

Physiological measurements involves observing variables that attribute to the normative functioning of human systems and subsystems directly or indirectly. The measurements can be used to detect affective states of a person with aims such as improving human-computer interactions. There are several methods of collecting physiological data, but wearable sensors are a common, non-invasive tool for accurate readings. However, valuable information is hard to extract from the raw physiological data, especially for affective state detection. Machine Learning techniques are used to detect the affective state of a person through labeled physiological data. A clear problem with using labeled data is creating accurate labels. An expert is needed to analyze a form of recording of participants and mark sections with different states such as stress and calm. While expensive, this method delivers a complete dataset with labeled data that can be used in any number of supervised algorithms. An interesting question arises from the expensive labeling: how can we reduce the cost while maintaining high accuracy? Semi-Supervised learning (SSL) is a potential solution to this problem. These algorithms allow for machine learning models to be trained with only a small subset of labeled data (unlike unsupervised which use no labels). They provide a way of avoiding expensive labeling. This paper compares a fully supervised algorithm to a SSL on the public WESAD (Wearable Stress and Affect Detection) Dataset for stress detection. This paper shows that Semi-Supervised algorithms are a viable method for inexpensive affective state detection systems with accurate results.
翻訳日:2022-07-02 05:15:17 公開日:2022-06-30
# (参考訳) 長期学習をめざして

Towards Federated Long-Tailed Learning ( http://arxiv.org/abs/2206.14988v1 )

ライセンス: CC BY 4.0
Zihan Chen, Songshang Liu, Hualiang Wang, Howard H. Yang, Tony Q.S. Quek and Zuozhu Liu(参考訳) データプライバシとクラス不均衡は、多くの機械学習タスクの例外ではなく、規範である。 最近の試みでは、広範にわたるプライベートデータから学習する問題に対処する一方で、長い尾を持つデータから学ぶことが試みられている。 しかし、両方の仮定は実用的に適用できる可能性があり、同時に両方の問題を緩和する効果的な方法はまだ開発中である。 本稿では,プライバシ保護型フェデレート学習(fl)フレームワークのコンテキストにおいて,ロングテール(lt)データ分布を用いた学習に焦点をあてる。 FLフレームワークでは,ローカルあるいはグローバルな長期データ分布の異なる3つのシナリオを特徴付け,対応する課題を強調した。 異なるシナリオの下での予備的な結果は、特徴ある連合型ロングテール学習タスクをよりよく解決するために、実質的な将来の作業が必要であることを示している。

Data privacy and class imbalance are the norm rather than the exception in many machine learning tasks. Recent attempts have been launched to, on one side, address the problem of learning from pervasive private data, and on the other side, learn from long-tailed data. However, both assumptions might hold in practical applications, while an effective method to simultaneously alleviate both issues is yet under development. In this paper, we focus on learning with long-tailed (LT) data distributions under the context of the popular privacy-preserved federated learning (FL) framework. We characterize three scenarios with different local or global long-tailed data distributions in the FL framework, and highlight the corresponding challenges. The preliminary results under different scenarios reveal that substantial future work are of high necessity to better resolve the characterized federated long-tailed learning tasks.
翻訳日:2022-07-02 05:03:06 公開日:2022-06-30
# (参考訳) 自然言語理解のための低ビットnxmスパルシティによるプリトレーニングトランスの圧縮

Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for Natural Language Understanding ( http://arxiv.org/abs/2206.15014v1 )

ライセンス: CC BY 4.0
Connor Holmes, Minjia Zhang, Yuxiong He, Bo Wu(参考訳) 近年、多くの自然言語理解タスクにおいて、大規模な事前学習型トランスフォーマーネットワークが劇的に改善されている。 しかし、これらのモデルの巨大なサイズは、レイテンシとコストの制約により、微調整とオンラインデプロイメントに大きな課題をもたらします。 N:M半構造化空間と低精度整数計算の両方をサポートする新しいハードウェアは、DNNモデルの効率向上に有望なソリューションである。 しかしながら、これらの技術の組み合わせによって、事前訓練されたトランスフォーマーネットワークがどの程度の恩恵を受けるか、またトランスフォーマーの各コンポーネントをいかにベストに圧縮するかを体系的に研究する研究はほとんどない。 本稿では,ADMMとSTEベースのQATを用いて同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。 さらに,圧縮比制約を満たす不均質な圧縮構成を識別する,安価でヒューリスティックな検索アルゴリズムを提案する。 NLUベンチマークのGLUEスイートで評価すると、BERTモデルのエンコーダを最大93%圧縮でき、元のモデルの精度の98.2%を維持し、ハードウェアの機能を完全に活用できる。 探索ヒューリスティックによる不均一な構成では、ベースライン精度の99.5%を維持しながら、モデルを87.5%圧縮している。

In recent years, large pre-trained Transformer networks have demonstrated dramatic improvements in many natural language understanding tasks. However, the huge size of these models brings significant challenges to their fine-tuning and online deployment due to latency and cost constraints. New hardware supporting both N:M semi-structured sparsity and low-precision integer computation is a promising solution to boost DNN model serving efficiency. However, there have been very few studies that systematically investigate to what extent pre-trained Transformer networks benefit from the combination of these techniques, as well as how to best compress each component of the Transformer. We propose a flexible compression framework NxMiFormer that performs simultaneous sparsification and quantization using ADMM and STE-based QAT. Furthermore, we present and inexpensive, heuristic-driven search algorithm that identifies promising heterogeneous compression configurations that meet a compression ratio constraint. When evaluated across the GLUE suite of NLU benchmarks, our approach can achieve up to 93% compression of the encoders of a BERT model while retaining 98.2% of the original model accuracy and taking full advantage of the hardware's capabilities. Heterogeneous configurations found the by the search heuristic maintain 99.5% of the baseline accuracy while still compressing the model by 87.5%.
翻訳日:2022-07-02 04:50:48 公開日:2022-06-30
# (参考訳) 映像認識のための時間動的データ拡張の探索

Exploring Temporally Dynamic Data Augmentation for Video Recognition ( http://arxiv.org/abs/2206.15015v1 )

ライセンス: CC BY 4.0
Taeoh Kim, Jinhyung Kim, Minho Shim, Sangdoo Yun, Myunggu Kang, Dongyoon Wee, Sangyoun Lee(参考訳) データ拡張は、視覚認識タスクのためのモダンなトレーニングレシピの重要なコンポーネントとして最近登場した。 しかし、映像認識のためのデータ拡張は、その効果にもかかわらず、ほとんど研究されていない。 ビデオフレーム全体に同じ操作を適用することで、画像拡張方法を鼻で拡張する既存のビデオ認識用拡張レシピはほとんどない。 我々の考えでは、実世界のビデオの時間変動を捉えるために、各フレームの増大操作の大きさを時間とともに変更する必要がある。 これらのバリエーションは、トレーニング中に追加のハイパーパラメータを減らして、可能な限り多様なものを生成する必要がある。 この動機により,簡易かつ効果的な映像データ拡張フレームワークdynaaugmentを提案する。 各フレームの加算操作の大きさは、多様で滑らかで現実的な時間変化をパラメータ化するフーリエサンプリングという効果的なメカニズムによって変化する。 DynaAugmentには、自動データ拡張のためのビデオに適した拡張検索スペースも含まれている。 DynaAugmentは、様々なビデオモデルの静的拡張から改善すべきパフォーマンスルームを実験的に示す。 具体的には、大規模なビデオ認識(Kinetics-400とSomething-v2)、小規模なビデオ認識(UCF-101とHMDB-51)、きめ細かいビデオ認識(Diving-48とFinGym)、Breakfast上のビデオアクションセグメンテーション、THUMOS'14におけるビデオアクションローカライゼーション、MOT17Detにおけるビデオオブジェクト検出など、DynaAugmentの有効性を示す。 DynaAugmentはまた、ビデオモデルがより一般化された表現を学習し、腐敗したビデオにおけるモデルの堅牢性を改善することを可能にする。

Data augmentation has recently emerged as an essential component of modern training recipes for visual recognition tasks. However, data augmentation for video recognition has been rarely explored despite its effectiveness. Few existing augmentation recipes for video recognition naively extend the image augmentation methods by applying the same operations to the whole video frames. Our main idea is that the magnitude of augmentation operations for each frame needs to be changed over time to capture the real-world video's temporal variations. These variations should be generated as diverse as possible using fewer additional hyper-parameters during training. Through this motivation, we propose a simple yet effective video data augmentation framework, DynaAugment. The magnitude of augmentation operations on each frame is changed by an effective mechanism, Fourier Sampling that parameterizes diverse, smooth, and realistic temporal variations. DynaAugment also includes an extended search space suitable for video for automatic data augmentation methods. DynaAugment experimentally demonstrates that there are additional performance rooms to be improved from static augmentations on diverse video models. Specifically, we show the effectiveness of DynaAugment on various video datasets and tasks: large-scale video recognition (Kinetics-400 and Something-Something-v2), small-scale video recognition (UCF- 101 and HMDB-51), fine-grained video recognition (Diving-48 and FineGym), video action segmentation on Breakfast, video action localization on THUMOS'14, and video object detection on MOT17Det. DynaAugment also enables video models to learn more generalized representation to improve the model robustness on the corrupted videos.
翻訳日:2022-07-02 04:28:39 公開日:2022-06-30
# (参考訳) フィードフォワードとリカレントネットワークコンポーネントの脳内結合によるプロトタイプ抽出とロバストパターン認識の実現

Brain-like combination of feedforward and recurrent network components achieves prototype extraction and robust pattern recognition ( http://arxiv.org/abs/2206.15036v1 )

ライセンス: CC BY-SA 4.0
Naresh Balaji Ravichandran, Anders Lansner, Pawel Herman(参考訳) 連想記憶は、大規模に反復する新皮質ネットワークによって実行される計算の顕著な候補である。 連想記憶を実装するトラクターネットワークは、多くの認知現象の機械的説明を提供してきた。 しかし、アトラクタメモリモデルは、通常、メモリ間の干渉を避けるために直交パターンやランダムパターンを用いて訓練されるため、画像のような自然に発生する複雑な刺激に対して不可能である。 我々は,非教師付きヘビアン・ベイズ学習規則を用いて分散表現を学習するフィードフォワードネットワークと繰り返しアトラクタネットワークを組み合わせることで,この問題に対処する。 ネットワークモデルは、教師なし学習、ヘビアン可塑性、スパース分散活性化、スパース接続、柱状および層状皮質構造など、多くの既知の生物学的特性を組み込んでいる。 MNIST手書き桁データセットにおける複雑なパターン認識タスクにおけるフィードフォワードとリカレントネットワークコンポーネントの相乗効果を評価する。 我々は、recurrent attractorコンポーネントがfeedforward-driven internal (hidden)表現でトレーニングされたときに連想記憶を実装することを実証する。 また、連想メモリは、トレーニングデータからプロトタイプ抽出を行い、表現を強固に歪められた入力にすることができる。 提案するフィードフォワード計算と再帰計算の統合のいくつかの側面は、機械学習の観点から特に魅力的である。

Associative memory has been a prominent candidate for the computation performed by the massively recurrent neocortical networks. Attractor networks implementing associative memory have offered mechanistic explanation for many cognitive phenomena. However, attractor memory models are typically trained using orthogonal or random patterns to avoid interference between memories, which makes them unfeasible for naturally occurring complex correlated stimuli like images. We approach this problem by combining a recurrent attractor network with a feedforward network that learns distributed representations using an unsupervised Hebbian-Bayesian learning rule. The resulting network model incorporates many known biological properties: unsupervised learning, Hebbian plasticity, sparse distributed activations, sparse connectivity, columnar and laminar cortical architecture, etc. We evaluate the synergistic effects of the feedforward and recurrent network components in complex pattern recognition tasks on the MNIST handwritten digits dataset. We demonstrate that the recurrent attractor component implements associative memory when trained on the feedforward-driven internal (hidden) representations. The associative memory is also shown to perform prototype extraction from the training data and make the representations robust to severely distorted input. We argue that several aspects of the proposed integration of feedforward and recurrent computations are particularly attractive from a machine learning perspective.
翻訳日:2022-07-02 04:04:14 公開日:2022-06-30
# (参考訳) ROSを用いた自動誘導UAVによる小麦病自動検出

Automated Wheat Disease Detection using a ROS-based Autonomous Guided UAV ( http://arxiv.org/abs/2206.15042v1 )

ライセンス: CC BY 4.0
Behzad Safarijalal, Yousef Alborzi, Esmaeil Najafi(参考訳) 世界の人口の増加に伴い、食料資源はより生産的で抵抗的で信頼性の高いものに修正されなければならない。 小麦は、主に小麦ベースの様々な製品のために、世界で最も重要な食品資源の1つである。 小麦の作物は3つの主要な病気によって脅かされ、毎年の収穫量に大きな被害をもたらす。 これらの疾患は、適切なタイミングで殺虫剤を使用することで取り除くことができる。 手動で殺虫剤を散布する作業は重く費用がかかるが、農業用ロボットは農夫のスピードを増し、化学物質の量を減らして助けることができる。 本研究では,小麦畑のモニタリング作業を自動化するために,無人航空機にスマート自律システムが実装されている。 まず、イメージベースのディープラーニングアプローチは、病気に感染した小麦植物の検出と分類に使用される。 最も最適な方法を見つけるために、様々なアプローチが研究されている。 パブリックな小麦生産データセットがないため、カスタムデータセットが作成およびラベル付けされている。 第2に,ロボットオペレーティングシステムとガゼボ環境のシミュレーションを用いて,効率的なマッピングとナビゲーションシステムを提案する。 2次元同時ローカライズおよびマッピングアルゴリズムは、フロンティアベースの探索手法の助けを借りて、ワークスペースを自律的にマッピングするために用いられる。

With the increase in world population, food resources have to be modified to be more productive, resistive, and reliable. Wheat is one of the most important food resources in the world, mainly because of the variety of wheat-based products. Wheat crops are threatened by three main types of diseases which cause large amounts of annual damage in crop yield. These diseases can be eliminated by using pesticides at the right time. While the task of manually spraying pesticides is burdensome and expensive, agricultural robotics can aid farmers by increasing the speed and decreasing the amount of chemicals. In this work, a smart autonomous system has been implemented on an unmanned aerial vehicle to automate the task of monitoring wheat fields. First, an image-based deep learning approach is used to detect and classify disease-infected wheat plants. To find the most optimal method, different approaches have been studied. Because of the lack of a public wheat-disease dataset, a custom dataset has been created and labeled. Second, an efficient mapping and navigation system is presented using a simulation in the robot operating system and Gazebo environments. A 2D simultaneous localization and mapping algorithm is used for mapping the workspace autonomously with the help of a frontier-based exploration method.
翻訳日:2022-07-02 03:51:18 公開日:2022-06-30
# (参考訳) ZeroC: ゼロショット概念認識と推論時の獲得のためのニューロシンボリックモデル

ZeroC: A Neuro-Symbolic Model for Zero-shot Concept Recognition and Acquisition at Inference Time ( http://arxiv.org/abs/2206.15049v1 )

ライセンス: CC BY 4.0
Tailin Wu, Megan Tjandrasuwita, Zhengxuan Wu, Xuelin Yang, Kevin Liu, Rok Sosi\v{c}, Jure Leskovec(参考訳) 人間はゼロショットで新しい視覚概念を認識し、獲得する能力を持っている。 以前に学習した視覚概念とその関係の観点から、新しい概念の高水準で象徴的な記述を考えると、人間は例を見ずに、新しい概念を認識できる。 さらに、学習した視覚概念と関係を用いてシンボリック構造を解析し、通信することで、新しい概念を得ることができる。 これらの機能をマシンに組み込むことは、推論時に一般化能力を改善する上で重要である。 本研究では,ゼロショット概念認識と獲得(ZeroC)を導入し,ゼロショット方式で新しい概念を認識・取得できるニューロシンボリックアーキテクチャを提案する。 ZeroCは概念を構成概念モデル(ノード)とその関係(エッジ)のグラフとして表現する。 推論時間の構成を可能にするため、エネルギーベースモデル(EBM)を用いて概念と関係をモデル化する。 我々は、ZeroCアーキテクチャを設計し、概念のシンボルグラフ構造とその対応するEMMを1対1でマッピングできるようにし、新しい概念を初めて獲得し、そのグラフ構造を通信し、推論時に分類および検出タスク(ドメイン間でさえ)に適用することを可能にする。 我々はZeroCで学習と推論を行うアルゴリズムを導入する。 我々はゼロショットの概念認識と取得を探索するために設計されたグリッドワールドデータセット上でZeroCを評価し、その能力を実証する。

Humans have the remarkable ability to recognize and acquire novel visual concepts in a zero-shot manner. Given a high-level, symbolic description of a novel concept in terms of previously learned visual concepts and their relations, humans can recognize novel concepts without seeing any examples. Moreover, they can acquire new concepts by parsing and communicating symbolic structures using learned visual concepts and relations. Endowing these capabilities in machines is pivotal in improving their generalization capability at inference time. In this work, we introduce Zero-shot Concept Recognition and Acquisition (ZeroC), a neuro-symbolic architecture that can recognize and acquire novel concepts in a zero-shot way. ZeroC represents concepts as graphs of constituent concept models (as nodes) and their relations (as edges). To allow inference time composition, we employ energy-based models (EBMs) to model concepts and relations. We design ZeroC architecture so that it allows a one-to-one mapping between a symbolic graph structure of a concept and its corresponding EBM, which for the first time, allows acquiring new concepts, communicating its graph structure, and applying it to classification and detection tasks (even across domains) at inference time. We introduce algorithms for learning and inference with ZeroC. We evaluate ZeroC on a challenging grid-world dataset which is designed to probe zero-shot concept recognition and acquisition, and demonstrate its capability.
翻訳日:2022-07-02 03:41:58 公開日:2022-06-30
# (参考訳) 教師付き学習のためのグループ不変テンソルトレインネットワーク

Group-invariant tensor train networks for supervised learning ( http://arxiv.org/abs/2206.15051v1 )

ライセンス: CC BY 4.0
Brent Sprangers and Nick Vannieuwenhoven(参考訳) 不変性は最近、機械学習モデルにおいて強力な帰納バイアスであることが証明されている。 そのような予測モデルや生成モデルはテンソルネットワークである。 任意の離散群の正規行列表現の作用の下で不変となるテンソルの基底を構成するための新しい数値アルゴリズムを導入する。 この方法は、以前の手法よりも数桁高速である。 その後、グループ不変テンソルをグループ不変テンソルトレインネットワークに結合し、教師付き機械学習モデルとして使用することができる。 このモデルをタンパク質結合分類問題に適用し,問題固有の不変性を考慮し,最先端のディープラーニング手法による予測精度を得た。

Invariance has recently proven to be a powerful inductive bias in machine learning models. One such class of predictive or generative models are tensor networks. We introduce a new numerical algorithm to construct a basis of tensors that are invariant under the action of normal matrix representations of an arbitrary discrete group. This method can be up to several orders of magnitude faster than previous approaches. The group-invariant tensors are then combined into a group-invariant tensor train network, which can be used as a supervised machine learning model. We applied this model to a protein binding classification problem, taking into account problem-specific invariances, and obtained prediction accuracy in line with state-of-the-art deep learning approaches.
翻訳日:2022-07-02 03:09:51 公開日:2022-06-30
# (参考訳) ストーリー思考、計算思考、プログラミング、ソフトウェア工学

Story-thinking, computational-thinking, programming and software engineering ( http://arxiv.org/abs/2206.15066v1 )

ライセンス: CC BY 4.0
Austen Rainer and Catherine Menon(参考訳) ストーリーで作業し、計算を扱うには、まったく異なる考え方が必要です。 第1モードを「ストーリー思考」,第2モードを「計算思考」と呼ぶ。 キュリオシティ駆動のこの論文の目的は、これら2つの考え方の性質を探求し、ソフトウェア工学を大規模プログラミングとして含むプログラミングに関連して行うことである。 我々は、ストーリー思考と計算思考は2つの世界への参加方法として理解され、それぞれが異なる方法で異なる目的のために世界に貢献し、無視することを示唆する。 我々は2つの基本的な問題、すなわち「無視表現」の問題と反対の考え方の問題を定式化する。 我々は、これらの問題に取り組むための2つの方法を簡潔に提案し、世界の現状に関する候補仮説、将来の可能性についての主張、そして将来の研究に対するいくつかの研究課題について述べる。

Working with stories and working with computations require very different modes of thought. We call the first mode "story-thinking" and the second "computational-thinking". The aim of this curiosity-driven paper is to explore the nature of these two modes of thinking, and to do so in relation to programming, including software engineering as programming-in-the-large. We suggest that story-thinking and computational-thinking may be understood as two ways of attending to the world, and that each both contributes and neglects the world, though in different ways and for different ends. We formulate two fundamental problems, i.e., the problem of "neglectful representations" and the problem of oppositional ways of thinking. We briefly suggest two ways in which these problems might be tackled and identify candidate hypotheses about the current state of the world, one assertion about a possible future state, and several research questions for future research.
翻訳日:2022-07-02 02:41:09 公開日:2022-06-30
# (参考訳) BigBIO: データ中心のバイオメディカル自然言語処理フレームワーク

BigBIO: A Framework for Data-Centric Biomedical Natural Language Processing ( http://arxiv.org/abs/2206.15076v1 )

ライセンス: CC BY-SA 4.0
Jason Alan Fries, Leon Weber, Natasha Seelam, Gabriel Altay, Debajyoti Datta, Samuele Garda, Myungsun Kang, Ruisi Su, Wojciech Kusa, Samuel Cahyawijaya, Fabio Barth, Simon Ott, Matthias Samwald, Stephen Bach, Stella Biderman, Mario S\"anger, Bo Wang, Alison Callahan, Daniel Le\'on Peri\~n\'an, Th\'eo Gigant, Patrick Haller, Jenny Chim, Jose David Posada, John Michael Giorgi, Karthik Rangasai Sivaraman, Marc P\`amies, Marianna Nezhurina, Robert Martin, Michael Cullan, Moritz Freidank, Nathan Dahlberg, Shubhanshu Mishra, Shamik Bose, Nicholas Michio Broad, Yanis Labrak, Shlok S Deshmukh, Sid Kiblawi, Ayush Singh, Minh Chien Vu, Trishala Neeraj, Jonas Golde, Albert Villanova del Moral, Benjamin Beilharz(参考訳) 言語モデルのトレーニングと評価には、明確に証明されたデータの逆コレクションであるメタデータセットの構築がますます必要となる。 自然言語プロンプトは、既存の教師付きデータセットを新しい事前トレーニングタスクに変換し、メタデータセットキュレーションの利点を強調することで、ゼロショットの一般化の改善につながっている。 一般的なドメインテキストでは成功したが、ラベル付きバイオメディカルデータセットが一般的なデータハブでは著しく不足しているため、これらのデータ中心のアプローチをバイオメディカル言語モデリングに翻訳することは依然として困難である。 この課題に対処するために、BigBIOは126以上のバイオメディカルNLPデータセットからなるコミュニティライブラリを導入し、現在12のタスクカテゴリと10以上の言語をカバーしています。 bigbioは、データセットとそのメタデータへのプログラムによるアクセスを通じて、再現可能なメタデータセットのキュレーションを促進し、プロンプトエンジニアリングとエンド・ツー・エンドのショット言語モデルの評価のための現在のプラットフォームと互換性がある。 本稿では,タスクスキーマの調和,データ監査,コントリビューションガイドライン,バイオメディカルプロンプトのゼロショット評価,大規模マルチタスク学習の2つのユースケースの概要について論じる。 bigbioはコミュニティの継続的な取り組みであり、https://github.com/bigscience-workshop/biomedicalで入手できる。

Training and evaluating language models increasingly requires the construction of meta-datasets --diverse collections of curated data with clear provenance. Natural language prompting has recently lead to improved zero-shot generalization by transforming existing, supervised datasets into a diversity of novel pretraining tasks, highlighting the benefits of meta-dataset curation. While successful in general-domain text, translating these data-centric approaches to biomedical language modeling remains challenging, as labeled biomedical datasets are significantly underrepresented in popular data hubs. To address this challenge, we introduce BigBIO a community library of 126+ biomedical NLP datasets, currently covering 12 task categories and 10+ languages. BigBIO facilitates reproducible meta-dataset curation via programmatic access to datasets and their metadata, and is compatible with current platforms for prompt engineering and end-to-end few/zero shot language model evaluation. We discuss our process for task schema harmonization, data auditing, contribution guidelines, and outline two illustrative use cases: zero-shot evaluation of biomedical prompts and large-scale, multi-task learning. BigBIO is an ongoing community effort and is available at https://github.com/bigscience-workshop/biomedical
翻訳日:2022-07-02 02:29:18 公開日:2022-06-30
# (参考訳) 確率表現学習のためのラプラシアンオートエンコーダ

Laplacian Autoencoders for Learning Stochastic Representations ( http://arxiv.org/abs/2206.15078v1 )

ライセンス: CC BY 4.0
Marco Miani and Frederik Warburg and Pablo Moreno-Mu\~noz and Nicke Skafte Detlefsen and S{\o}ren Hauberg(参考訳) 表現学習は, 大規模高次元データの豊富なパラメトリック・コーデフィケーションを構築するための実践的な手法の1つである。 テストトレイン分布シフトを伴う教師なしタスクを考えるとき、確率論的視点は、過剰な自信と予測のキャリブレーションに対処するのに役立つ。 しかし、ニューラルネットワークの重みの上にベイズ推論を直接導入することは、様々な理由、すなわち次元の呪いや難易度の問題のために、いまだに深刻な問題である。 ラプラス近似 (Laplace approximation, LA) は、パラメータ空間の特定の位置における2階テイラー展開(英語版)を通してウェイトの後続密度のガウス近似を構築することができる。 本研究では,LAにインスパイアされた教師なし表現学習のためのベイズオートエンコーダを提案する。 本手法は, 反復ラプラス更新を実装し, 自動エンコーダの新たな変分低バウンダリを得る。 2階部分微分の膨大な計算負荷はヘッセン行列の近似によって回避される。 実験では,分散検出のための不確実性,微分幾何学のための測地線,データインプテーションの欠如を十分に説明して,ラプラシアンオートエンコーダのスケーラビリティと性能を実証する。

Representation learning has become a practical family of methods for building rich parametric codifications of massive high-dimensional data while succeeding in the reconstruction side. When considering unsupervised tasks with test-train distribution shifts, the probabilistic viewpoint helps for addressing overconfidence and poor calibration of predictions. However, the direct introduction of Bayesian inference on top of neural networks weights is still an ardous problem for multiple reasons, i.e. the curse of dimensionality or intractability issues. The Laplace approximation (LA) offers a solution here, as one may build Gaussian approximations of the posterior density of weights via second-order Taylor expansions in certain locations of the parameter space. In this work, we present a Bayesian autoencoder for unsupervised representation learning inspired in LA. Our method implements iterative Laplace updates to obtain a novel variational lower-bound of the autoencoder evidence. The vast computational burden of the second-order partial derivatives is skipped via approximations of the Hessian matrix. Empirically, we demonstrate the scalability and performance of the Laplacian autoencoder by providing well-calibrated uncertainties for out-of-distribution detection, geodesics for differential geometry and missing data imputations.
翻訳日:2022-07-02 02:27:16 公開日:2022-06-30
# (参考訳) 統一ドメイン適応パンオプティカルセグメンテーションのための階層型マスクキャリブレーション

Hierarchical Mask Calibration for Unified Domain Adaptive Panoptic Segmentation ( http://arxiv.org/abs/2206.15083v1 )

ライセンス: CC BY-SA 4.0
Jingyi Zhang, Jiaxing Huang, Shijian Lu(参考訳) ドメイン適応型panopticセグメンテーションは、1つまたは複数の関連するソースドメインで既定の注釈付きデータを活用することで、データアノテーションの課題を軽減することを目的としている。 しかし、既存の研究ではセグメンテーションとセマンティクスセグメンテーションの2つのネットワークが別々に使われており、複雑な計算集約的なトレーニングと推論プロセスを伴う大量のネットワークパラメータに繋がる。 単一ネットワーク内で同時にドメイン適応インスタンスセグメンテーションとセマンティクスセグメンテーションを実現することができる、シンプルな統一ドメイン適応パンオプティカルセグメンテーションネットワークであるunidapsを設計した。 UniDAPSは階層マスク校正(Hierarchical Mask Calibration, HMC)を導入し、予測された擬似マスク、擬似スーパーピクセル、擬似ピクセルを修正し、オンザフライでオンラインの自己学習プロセスを通じてネットワーク再訓練を行う。 3つの特徴があります 1) 統一ドメイン適応パンオプティカル適応を可能にする。 2)誤った予測を緩和し,ドメイン適応パンオプティカルセグメンテーションを効果的に改善する。 3) より少ないパラメータとよりシンプルなトレーニングと推論パイプラインを備えたエンドツーエンドのトレーニングが可能。 複数の公開ベンチマークに対する大規模な実験により、UniDAPSは最先端技術と比較して優れたドメイン適応型パノプティックセグメンテーションを実現することが示された。

Domain adaptive panoptic segmentation aims to mitigate data annotation challenge by leveraging off-the-shelf annotated data in one or multiple related source domains. However, existing studies employ two networks for instance segmentation and semantic segmentation separately which lead to a large amount of network parameters with complicated and computationally intensive training and inference processes. We design UniDAPS, a Unified Domain Adaptive Panoptic Segmentation network that is simple but capable of achieving domain adaptive instance segmentation and semantic segmentation simultaneously within a single network. UniDAPS introduces Hierarchical Mask Calibration (HMC) that rectifies the predicted pseudo masks, pseudo superpixels and pseudo pixels and performs network re-training via an online self-training process on the fly. It has three unique features: 1) it enables unified domain adaptive panoptic adaptation; 2) it mitigates false predictions and improves domain adaptive panoptic segmentation effectively; 3) it is end-to-end trainable with much less parameters and simpler training and inference pipeline. Extensive experiments over multiple public benchmarks show that UniDAPS achieves superior domain adaptive panoptic segmentation as compared with the state-of-the-art.
翻訳日:2022-07-02 01:49:15 公開日:2022-06-30
# (参考訳) end-to-end deep visuomotor control を用いた大腸内視鏡ナビゲーション

Colonoscopy Navigation using End-to-End Deep Visuomotor Control: A User Study ( http://arxiv.org/abs/2206.15086v1 )

ライセンス: CC BY 4.0
Ameya Pore, Martina Finocchiaro, Diego Dall'Alba, Albert Hernansanz, Gastone Ciuti, Alberto Arezzo, Arianna Menciassi, Alicia Casals, Paolo Fiorini(参考訳) 内視鏡検査の柔軟性は, その複雑さが原因で, 患者の不快感や直感が欠如している。 自律制御を備えたロボットデバイスは、全体的な手順結果を改善しながら、内科医の作業負荷とトレーニング時間を削減するための有効なソリューションである。 従来の自律内視鏡コントロールの研究は、その一般化を非構造的で高度に変形可能な大腸環境に制限し、頻繁に人間の介入を必要とするヒューリスティックなポリシーを用いていた。 本研究は,Deep Visuomotor Control (DVC) と呼ばれる深達度学習を用いた内視鏡のイメージベース制御を提案し,大腸の複雑な部分において適応的な動作を示す。 DVCは内視鏡画像と内視鏡の制御信号とのマッピングを学習する。 20名の専門消化器内科医を対象に,現実的な仮想シミュレータを用いてナビゲーション性能とDVCポリシーを比較した。 その結果、DVCは複数の評価パラメータに対して同等の性能を示し、より安全であることが示唆された。 さらに,20名の初級参加者による第2のユーザスタディを行い,最先端のヒューリスティックコントロールポリシと比較して,人間の監督が容易であることを実証した。 内視鏡手術のシームレスな監督は、内視鏡の制御の問題よりも、介入者が医療上の決定に集中できるようにする。

Flexible endoscopes for colonoscopy present several limitations due to their inherent complexity, resulting in patient discomfort and lack of intuitiveness for clinicians. Robotic devices together with autonomous control represent a viable solution to reduce the workload of endoscopists and the training time while improving the overall procedure outcome. Prior works on autonomous endoscope control use heuristic policies that limit their generalisation to the unstructured and highly deformable colon environment and require frequent human intervention. This work proposes an image-based control of the endoscope using Deep Reinforcement Learning, called Deep Visuomotor Control (DVC), to exhibit adaptive behaviour in convoluted sections of the colon tract. DVC learns a mapping between the endoscopic images and the control signal of the endoscope. A first user study of 20 expert gastrointestinal endoscopists was carried out to compare their navigation performance with DVC policies using a realistic virtual simulator. The results indicate that DVC shows equivalent performance on several assessment parameters, being more safer. Moreover, a second user study with 20 novice participants was performed to demonstrate easier human supervision compared to a state-of-the-art heuristic control policy. Seamless supervision of colonoscopy procedures would enable interventionists to focus on the medical decision rather than on the control problem of the endoscope.
翻訳日:2022-07-02 01:31:55 公開日:2022-06-30
# (参考訳) InsMix: Nucleiインスタンスセグメンテーションのための現実的な生成データ拡張を目指して

InsMix: Towards Realistic Generative Data Augmentation for Nuclei Instance Segmentation ( http://arxiv.org/abs/2206.15134v1 )

ライセンス: CC BY 4.0
Yi Lin, Zeyu Wang, Kwang-Ting Cheng, Hao Chen(参考訳) 組織像からの核分離は、デジタル病理解析の基本的な課題である。 しかし、ディープラーニングベースの核セグメンテーションメソッドは、しばしば制限されたアノテーションに苦しむ。 本稿では,Copy-Paste-Smoothの原理に従い,形態制約付き生成インスタンス拡張を行う,InsMixという核分割のための現実的なデータ拡張手法を提案する。 具体的には,その形態特性(幾何学的特徴や位置など)を維持しつつ,原子核に関するラグジュラント情報を取得することができる形態制約を提案する。 さらに,背景の画素冗長性を十分に活用し,モデルの堅牢性を向上させるために,元の核分布を乱すことなく背景パッチをランダムにシャッフルする背景摂動法を提案する。 オリジナルインスタンスとテンプレートインスタンス間のコンテキスト整合性を達成するため、スムーズGANは前景類似性エンコーダ(FSE)とトリプルトロスで設計されている。 提案手法を2つのデータセット,すなわち Kumar と CPS のデータセット上で検証した。 実験により,各コンポーネントの有効性と,本手法の最先端手法に対する優れた性能が示された。

Nuclei Segmentation from histology images is a fundamental task in digital pathology analysis. However, deep-learning-based nuclei segmentation methods often suffer from limited annotations. This paper proposes a realistic data augmentation method for nuclei segmentation, named InsMix, that follows a Copy-Paste-Smooth principle and performs morphology-constrained generative instance augmentation. Specifically, we propose morphology constraints that enable the augmented images to acquire luxuriant information about nuclei while maintaining their morphology characteristics (e.g., geometry and location). To fully exploit the pixel redundancy of the background and improve the model's robustness, we further propose a background perturbation method, which randomly shuffles the background patches without disordering the original nuclei distribution. To achieve contextual consistency between original and template instances, a smooth-GAN is designed with a foreground similarity encoder (FSE) and a triplet loss. We validated the proposed method on two datasets, i.e., Kumar and CPS datasets. Experimental results demonstrate the effectiveness of each component and the superior performance achieved by our method to the state-of-the-art methods.
翻訳日:2022-07-02 01:15:36 公開日:2022-06-30
# (参考訳) エスコルピウス:スペインの巨大クローリングコーパス

esCorpius: A Massive Spanish Crawling Corpus ( http://arxiv.org/abs/2206.15147v1 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, David P\'erez-Fern\'andez, Jordi Armengol-Estap\'e, David Griol, Zoraida Callejas(参考訳) 近年、トランスフォーマーベースのモデルは自然言語処理のための言語モデリングの大幅な進歩をもたらしている。 しかし、それらは(事前)訓練される大量のデータを必要としており、英語以外の言語にはコーパスがない。 近年,自動webクローリングから得られる多言語データセットが提案されている。 しかし、スペイン語の結果は、他の言語と比較して小さすぎるか、あるいは準最適クリーニングと重複による低い品質を示すため、重要な欠点を呈している。 本稿では,コモンクローリングデータの約1Pbから得られたスペインのクローリングコーパスである \textsc{esCorpius} を紹介する。 スペイン語で最も広範なコーパスであり、webテキストコンテンツの抽出、精製、複製においてこのレベルの品質を有する。 私たちのデータキュレーションプロセスは、新しい高度並列なクリーニングパイプラインを含み、ドキュメントと段落の境界の整合性を保証する一連の重複機構を包含しています。 さらに、euの規制に不満を抱くために、source web page url と warc shard origin url の両方を維持している。 \textsc{esCorpius} は CC BY-NC-ND 4.0 ライセンスでリリースされ、HuggingFace で利用可能である。

In the recent years, transformer-based models have lead to significant advances in language modelling for natural language processing. However, they require a vast amount of data to be (pre-)trained and there is a lack of corpora in languages other than English. Recently, several initiatives have presented multilingual datasets obtained from automatic web crawling. However, the results in Spanish present important shortcomings, as they are either too small in comparison with other languages, or present a low quality derived from sub-optimal cleaning and deduplication. In this paper, we introduce \textsc{esCorpius}, a Spanish crawling corpus obtained from near 1 Pb of Common Crawl data. It is the most extensive corpus in Spanish with this level of quality in the extraction, purification and deduplication of web textual content. Our data curation process involves a novel highly parallel cleaning pipeline and encompasses a series of deduplication mechanisms that together ensure the integrity of both document and paragraph boundaries. Additionally, we maintain both the source web page URL and the WARC shard origin URL in order to complain with EU regulations. \textsc{esCorpius} has been released under CC BY-NC-ND 4.0 license and is available on HuggingFace.
翻訳日:2022-07-02 01:08:09 公開日:2022-06-30
# (参考訳) hrfuser: 2次元物体検出のためのマルチレゾリューションセンサ融合アーキテクチャ

HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection ( http://arxiv.org/abs/2206.15157v1 )

ライセンス: CC BY 4.0
Tim Broedermann (1), Christos Sakaridis (1), Dengxin Dai (2) and Luc Van Gool (1 and 3) ((1) ETH Zurich, (2) MPI for Informatics, (3) KU Leuven)(参考訳) 通常のカメラに加えて、自動運転車にはライダーやレーダーなどの複数のセンサーが含まれており、運転シーンの内容を認識するためによりリッチな情報を取得するのに役立つ。 最近のいくつかの研究は、カメラ、ライダー、カメラ、レーダーなどの特定のセンサーのペアを、検査された設定に特有のアーキテクチャコンポーネントを使用することに焦点を当てているが、汎用的でモジュラーなセンサー融合アーキテクチャは文献から欠落している。 本研究では,2d画像領域で定義された基本高レベルタスクである2dオブジェクト検出に着目し,任意の数の入力モダリティに対して直接スケールするマルチレゾリューションセンサ融合アーキテクチャであるhrfuserを提案する。 hrfuserの設計は、画像のみの高密度予測のための最先端の高解像度ネットワークに基づいており、複数の解像度で複数のモードの融合を行う手段として、新しいマルチウィンドウクロスアテンションブロックが組み込まれている。 カメラだけでは2D検出に非常に有意義な機能を提供しているが、nuScenes と Seeing Through Fog データセットの広範な実験を通じて、我々のモデルは、追加のモダリティから補完的な特徴を効果的に活用し、カメラのみの性能を大幅に改善し、正常および悪条件の両方において2D検出のための最先端の融合法を一貫して上回ることを示した。 ソースコードは一般公開される予定だ。

Besides standard cameras, autonomous vehicles typically include multiple additional sensors, such as lidars and radars, which help acquire richer information for perceiving the content of the driving scene. While several recent works focus on fusing certain pairs of sensors - such as camera and lidar or camera and radar - by using architectural components specific to the examined setting, a generic and modular sensor fusion architecture is missing from the literature. In this work, we focus on 2D object detection, a fundamental high-level task which is defined on the 2D image domain, and propose HRFuser, a multi-resolution sensor fusion architecture that scales straightforwardly to an arbitrary number of input modalities. The design of HRFuser is based on state-of-the-art high-resolution networks for image-only dense prediction and incorporates a novel multi-window cross-attention block as the means to perform fusion of multiple modalities at multiple resolutions. Even though cameras alone provide very informative features for 2D detection, we demonstrate via extensive experiments on the nuScenes and Seeing Through Fog datasets that our model effectively leverages complementary features from additional modalities, substantially improving upon camera-only performance and consistently outperforming state-of-the-art fusion methods for 2D detection both in normal and adverse conditions. The source code will be made publicly available.
翻訳日:2022-07-02 00:56:21 公開日:2022-06-30
# (参考訳) エンド・ツー・エンド駆動用LiDAR-as-Camera

LiDAR-as-Camera for End-to-End Driving ( http://arxiv.org/abs/2206.15170v1 )

ライセンス: CC BY 4.0
Ardi Tampuu, Romet Aidla, Jan Are van Gent, Tambet Matiisen(参考訳) あらゆる自律運転システムのコアタスクは、感覚入力を駆動コマンドに変換することである。 エンドツーエンドの駆動では、これはニューラルネットワークを介して達成され、1つまたは複数のカメラを最も一般的に使用される入力および低レベルの駆動コマンド、例えばステアリング角を出力として使用する。 しかし、エンド・ツー・エンドの運転作業を容易にするために、深度センシングがシミュレーションで示されている。 実車では,センサの空間的・時間的アライメントが困難であるため,奥行きと視覚情報を組み合わせることは困難である。 アライメント問題を軽減するために、ouster lidarは深度、強度、環境放射線チャンネルでサラウンドビューlidar画像を出力することができる。 これらの測定は、同じセンサーから始まり、時間と空間に完全に整列する。 このようなLiDAR画像は実車載の道路追従作業に十分であることを示すとともに、テスト条件下では少なくともカメラベースモデルに対して等しく動作し、新しい気象条件に一般化する必要がある場合には差が大きくなる。 第2の方向において,オフポリシー予測シーケンスの時間的平滑性は,一般的な平均絶対誤差である実際のオンポリシー駆動能力と等しく相関することが明らかとなった。

The core task of any autonomous driving system is to transform sensory inputs into driving commands. In end-to-end driving, this is achieved via a neural network, with one or multiple cameras as the most commonly used input and low-level driving command, e.g. steering angle, as output. However, depth-sensing has been shown in simulation to make the end-to-end driving task easier. On a real car, combining depth and visual information can be challenging, due to the difficulty of obtaining good spatial and temporal alignment of the sensors. To alleviate alignment problems, Ouster LiDARs can output surround-view LiDAR-images with depth, intensity, and ambient radiation channels. These measurements originate from the same sensor, rendering them perfectly aligned in time and space. We demonstrate that such LiDAR-images are sufficient for the real-car road-following task and perform at least equally to camera-based models in the tested conditions, with the difference increasing when needing to generalize to new weather conditions. In the second direction of study, we reveal that the temporal smoothness of off-policy prediction sequences correlates equally well with actual on-policy driving ability as the commonly used mean absolute error.
翻訳日:2022-07-02 00:35:33 公開日:2022-06-30
# (参考訳) gan系増強法の皮膚病変画像に対する(de)バイアス効果

The (de)biasing effect of GAN-based augmentation methods on skin lesion images ( http://arxiv.org/abs/2206.15182v1 )

ライセンス: CC BY 4.0
Agnieszka Miko{\l}ajczyk, Sylwia Majchrowska, Sandra Carrasco Limeros(参考訳) 新しい医療データセットが一般公開され、より優れた、より広範な研究が可能になる。 最善の注意を払って準備されているが、新しいデータセットは、学習プロセスに影響を与える散発的な相関の源である可能性がある。 さらに、データ収集は通常十分に大きくなく、しばしばバランスが取れない。 データ不均衡を軽減する1つのアプローチは、高品質の画像でデータセットを拡張するためにgan(generative adversarial networks)によるデータ拡張を使用することである。 ganは通常、ターゲットデータと同じバイアス付きデータセットでトレーニングされ、その結果、よりバイアス付きインスタンスが生成される。 この研究は、それらのバイアス継承と合成データがモデルに与える影響を比較するために、無条件および条件付きGANを探索した。 皮膚病変のあるisicデータセットに偏りのあるアーチファクトの広範な手作業によるデータアノテーションを提供した。 さらに,実データと合成データの両方で訓練された分類モデルについて,反事実バイアスの説明を用いて検討した。 我々の実験は、GANがバイアスを継承し、時にはそれらを増幅することを示し、さらに強い刺激的な相関を生み出した。 手動データアノテーションと合成画像は再現可能な科学的研究のために公開されている。

New medical datasets are now more open to the public, allowing for better and more extensive research. Although prepared with the utmost care, new datasets might still be a source of spurious correlations that affect the learning process. Moreover, data collections are usually not large enough and are often unbalanced. One approach to alleviate the data imbalance is using data augmentation with Generative Adversarial Networks (GANs) to extend the dataset with high-quality images. GANs are usually trained on the same biased datasets as the target data, resulting in more biased instances. This work explored unconditional and conditional GANs to compare their bias inheritance and how the synthetic data influenced the models. We provided extensive manual data annotation of possibly biasing artifacts on the well-known ISIC dataset with skin lesions. In addition, we examined classification models trained on both real and synthetic data with counterfactual bias explanations. Our experiments showed that GANs inherited biases and sometimes even amplified them, leading to even stronger spurious correlations. Manual data annotation and synthetic images are publicly available for reproducible scientific research.
翻訳日:2022-07-02 00:13:07 公開日:2022-06-30
# (参考訳) トポロジカルbert: 自然言語処理のためのトポロジーへの注意の転換

The Topological BERT: Transforming Attention into Topology for Natural Language Processing ( http://arxiv.org/abs/2206.15195v1 )

ライセンス: CC0 1.0
Ilan Perez, Raphael Reinauer(参考訳) 近年、トランスフォーマーモデルの導入は自然言語処理(NLP)に革命をもたらした。 BERTは、多くのNLPタスクで最先端の結果を達成するために、再帰的な部分を持たないアテンション機構のみを使用した最初のテキストエンコーダの1つである。 本稿では,トポロジカルデータ解析を用いたテキスト分類器を提案する。 我々は、その分類器への唯一の入力として、BERTのアテンションマップをアテンショングラフに変換する。 このモデルは、スパムとハムメッセージの区別、文が文法的に正しいかどうかの認識、映画レビューを否定的または肯定的評価といったタスクを解決できる。 BERTベースラインと互換性を持って動作し、いくつかのタスクでパフォーマンスを向上する。 さらに,このトポロジカル分類器により考慮されたBERTのアテンションヘッド数を144から10に減らす方法を提案する。 また,このトポロジカルモデルでは,刈り込み過程において維持される元のBERTモデルよりも,敵攻撃に対する堅牢性が高いことを示した。 我々の知る限りでは、この研究はnlpの文脈で敵対的な攻撃を伴うトポロジカルベースのモデルに初めて挑戦するものである。

In recent years, the introduction of the Transformer models sparked a revolution in natural language processing (NLP). BERT was one of the first text encoders using only the attention mechanism without any recurrent parts to achieve state-of-the-art results on many NLP tasks. This paper introduces a text classifier using topological data analysis. We use BERT's attention maps transformed into attention graphs as the only input to that classifier. The model can solve tasks such as distinguishing spam from ham messages, recognizing whether a sentence is grammatically correct, or evaluating a movie review as negative or positive. It performs comparably to the BERT baseline and outperforms it on some tasks. Additionally, we propose a new method to reduce the number of BERT's attention heads considered by the topological classifier, which allows us to prune the number of heads from 144 down to as few as ten with no reduction in performance. Our work also shows that the topological model displays higher robustness against adversarial attacks than the original BERT model, which is maintained during the pruning process. To the best of our knowledge, this work is the first to confront topological-based models with adversarial attacks in the context of NLP.
翻訳日:2022-07-02 00:02:33 公開日:2022-06-30
# (参考訳) Depth-CUPRL:無人航空機のマップレスナビゲーションのための強化学習における深部画像の非教師なし優先表現

Depth-CUPRL: Depth-Imaged Contrastive Unsupervised Prioritized Representations in Reinforcement Learning for Mapless Navigation of Unmanned Aerial Vehicles ( http://arxiv.org/abs/2206.15211v1 )

ライセンス: CC BY 4.0
Junior Costa de Jesus, Victor Augusto Kich, Alisson Henrique Kolling, Ricardo Bedin Grando, Rodrigo da Silva Guerra, Paulo Lilles Jorge Drews Jr(参考訳) 強化学習(rl)は生のピクセルイメージングと連続制御タスクを通じてビデオゲームで印象的なパフォーマンスを示している。 しかし、RLは生のピクセル画像のような高次元の観測では不十分である。 レーザーセンサ測定などの物理状態に基づくRLポリシは、ピクセルによる学習よりもサンプリング効率が高いことが一般に受け入れられている。 本研究では,無人航空機(UAV)の無人航法を行うために,深度マップ推定から情報を抽出してRLエージェントに教える手法を提案する。 本稿では,画像の深度を優先したリプレイメモリを用いて推定する強化学習(Depth-CUPRL)におけるDepth-Imaged Unsupervised Prioritized Representationsを提案する。 我々はRLとContrastive Learningを組み合わせて画像に基づくRLの問題に対処した。 無人航空機 (UAVs) による解析から, 我々の深度CUPRLアプローチは, 地図レスナビゲーション能力において, 最先端の画素ベースのアプローチよりも優れていると結論付けることができる。

Reinforcement Learning (RL) has presented an impressive performance in video games through raw pixel imaging and continuous control tasks. However, RL performs poorly with high-dimensional observations such as raw pixel images. It is generally accepted that physical state-based RL policies such as laser sensor measurements give a more sample-efficient result than learning by pixels. This work presents a new approach that extracts information from a depth map estimation to teach an RL agent to perform the mapless navigation of Unmanned Aerial Vehicle (UAV). We propose the Depth-Imaged Contrastive Unsupervised Prioritized Representations in Reinforcement Learning(Depth-CUPRL) that estimates the depth of images with a prioritized replay memory. We used a combination of RL and Contrastive Learning to lead with the problem of RL based on images. From the analysis of the results with Unmanned Aerial Vehicles (UAVs), it is possible to conclude that our Depth-CUPRL approach is effective for the decision-making and outperforms state-of-the-art pixel-based approaches in the mapless navigation capability.
翻訳日:2022-07-01 23:58:23 公開日:2022-06-30
# (参考訳) ボリューム画像分割のための暗黙のu-net

Implicit U-Net for volumetric medical image segmentation ( http://arxiv.org/abs/2206.15217v1 )

ライセンス: CC BY 4.0
Sergio Naval Marimont and Giacomo Tarroni(参考訳) U-Netは医用画像分割タスクのゴーツーアーキテクチャであるが、U-Netアーキテクチャを3D画像に拡張する際には計算上の問題が発生する。 教師付き画像セグメント化タスクに効率的なインプリシット表現パラダイムを適用したインプリシットU-Netアーキテクチャを提案する。 畳み込み特徴抽出器と暗黙の局所化ネットワークを組み合わせることで、我々の暗黙のU-Netは等価なU-Netよりも40%少ないパラメータを持つ。 さらに,スパース予測を活かすためのトレーニングと推論手順を提案する。 等価な完全畳み込み型U-Netと比較すると,Implicit U-Netは約30%の推論時間とトレーニング時間とメモリフットプリントのトレーニング時間を短縮すると同時に,2つの異なる腹部CTスキャンデータセットを用いた実験で同等の結果を得た。

U-Net has been the go-to architecture for medical image segmentation tasks, however computational challenges arise when extending the U-Net architecture to 3D images. We propose the Implicit U-Net architecture that adapts the efficient Implicit Representation paradigm to supervised image segmentation tasks. By combining a convolutional feature extractor with an implicit localization network, our implicit U-Net has 40% less parameters than the equivalent U-Net. Moreover, we propose training and inference procedures to capitalize sparse predictions. When comparing to an equivalent fully convolutional U-Net, Implicit U-Net reduces by approximately 30% inference and training time as well as training memory footprint while achieving comparable results in our experiments with two different abdominal CT scan datasets.
翻訳日:2022-07-01 23:43:06 公開日:2022-06-30
# (参考訳) 多言語頭字語抽出のためのドメイン適応事前学習

Domain Adaptive Pretraining for Multilingual Acronym Extraction ( http://arxiv.org/abs/2206.15221v1 )

ライセンス: CC BY 4.0
Usama Yaseen and Stefan Langer(参考訳) 本稿では,複数言語の頭字語抽出作業SDU@AAAI-22に参加することで得られた知見について述べる。 このタスクは、科学的および法的領域内の6つの言語の文書から頭字語を抽出する。 マルチリンガルXLM-RoBERTa埋め込みを用いたBiLSTM-CRFを用いた。 我々は、XLM-RoBERTa埋め込みを共有タスクドメインに適応させるために、共有タスクコーパス上でXLM-RoBERTaモデルを事前訓練した。 我々のシステム(チーム: SMR-NLP)は、すべての言語で頭字語抽出の競争性能を達成した。

This paper presents our findings from participating in the multilingual acronym extraction shared task SDU@AAAI-22. The task consists of acronym extraction from documents in 6 languages within scientific and legal domains. To address multilingual acronym extraction we employed BiLSTM-CRF with multilingual XLM-RoBERTa embeddings. We pretrained the XLM-RoBERTa model on the shared task corpus to further adapt XLM-RoBERTa embeddings to the shared task domain(s). Our system (team: SMR-NLP) achieved competitive performance for acronym extraction across all the languages.
翻訳日:2022-07-01 23:33:05 公開日:2022-06-30
# (参考訳) 双線形関数の最大最適化のための競合共進化アルゴリズムの実行時解析

Runtime Analysis of Competitive co-Evolutionary Algorithms for Maximin Optimisation of a Bilinear Function ( http://arxiv.org/abs/2206.15238v1 )

ライセンス: CC BY 4.0
Per Kristian Lehre(参考訳) 共同進化アルゴリズムは、ハードウェア設計、ボードゲーム戦略の進化、ソフトウェアバグのパッチングなど、幅広いアプリケーションを持っている。 しかし、これらのアルゴリズムはよく理解されておらず、勾配の喪失、相対的な一般化、中途半端な客観的スタシスといった病的行動によって応用が制限されることが多い。 共進化アルゴリズムが効率的かつ信頼性の高い解を見つけるときに予測できる理論を開発することは、オープンな課題である。 本稿では,集団型競争共進化アルゴリズムのランタイム解析を開発するための第一歩を提案する。 共進化過程の性能を記述・推論するための数学的枠組みを提案する。 このフレームワークの例では、単純な共進化アルゴリズムが多項式の期待時間に解を得るシナリオを示す。 最後に,共進化アルゴリズムが解を得るのに圧倒的に高い確率で指数時間を必要とする場合について述べる。

Co-evolutionary algorithms have a wide range of applications, such as in hardware design, evolution of strategies for board games, and patching software bugs. However, these algorithms are poorly understood and applications are often limited by pathological behaviour, such as loss of gradient, relative over-generalisation, and mediocre objective stasis. It is an open challenge to develop a theory that can predict when co-evolutionary algorithms find solutions efficiently and reliable. This paper provides a first step in developing runtime analysis for population-based competitive co-evolutionary algorithms. We provide a mathematical framework for describing and reasoning about the performance of co-evolutionary processes. An example application of the framework shows a scenario where a simple co-evolutionary algorithm obtains a solution in polynomial expected time. Finally, we describe settings where the co-evolutionary algorithm needs exponential time with overwhelmingly high probability to obtain a solution.
翻訳日:2022-07-01 23:28:06 公開日:2022-06-30
# (参考訳) 数値気象予測後の降水予測のためのベンチマークデータセット

Benchmark Dataset for Precipitation Forecasting by Post-Processing the Numerical Weather Prediction ( http://arxiv.org/abs/2206.15241v1 )

ライセンス: CC0 1.0
Taehyeon Kim, Namgyu Ho, Donggyu Kim, Se-Young Yun(参考訳) 降水予測は社会に大きな影響を与える重要な科学的課題である。 歴史的に、この課題は物理学に基づくシミュレーションに基づいて数値気象予測(NWP)モデルを用いて解決されてきた。 近年、多くの研究が物理ベースのnwpを置き換えるためにエンド・ツー・エンドのディープラーニング(dl)モデルを用いた別のアプローチを提案している。 これらのDL手法は性能と計算効率の向上を示すが、長期予測には限界があり、NWPモデルの説明可能性に欠ける。 本研究では,スタンドアロンNWPとDLのギャップを埋めるためのハイブリッドNWP-DLワークフローを提案する。 このワークフローでは、NWP出力を深いモデルに入力し、データを後処理して洗練された降水予測を生成する。 深層モデルは、自動気象観測所(aws)の観測を地上ラベルとして、監視の下で訓練される。 これは両方の世界のベストを達成でき、将来のNWP技術の改善の恩恵を受けることができる。 この方向での研究を容易にするために,NWP予測とAWS観測からなるKoMet(Korea Meteorological Dataset)と呼ばれる朝鮮半島に焦点を当てた新しいデータセットを提案する。 NWPではGDAPS-KIM(Global Data Assimilation and Prediction Systems-Korea Integrated Model)を用いる。

Precipitation forecasting is an important scientific challenge that has wide-reaching impacts on society. Historically, this challenge has been tackled using numerical weather prediction (NWP) models, grounded on physics-based simulations. Recently, many works have proposed an alternative approach, using end-to-end deep learning (DL) models to replace physics-based NWP. While these DL methods show improved performance and computational efficiency, they exhibit limitations in long-term forecasting and lack the explainability of NWP models. In this work, we present a hybrid NWP-DL workflow to fill the gap between standalone NWP and DL approaches. Under this workflow, the NWP output is fed into a deep model, which post-processes the data to yield a refined precipitation forecast. The deep model is trained with supervision, using Automatic Weather Station (AWS) observations as ground-truth labels. This can achieve the best of both worlds, and can even benefit from future improvements in NWP technology. To facilitate study in this direction, we present a novel dataset focused on the Korean Peninsula, termed KoMet (Korea Meteorological Dataset), comprised of NWP predictions and AWS observations. For NWP, we use the Global Data Assimilation and Prediction Systems-Korea Integrated Model (GDAPS-KIM).
翻訳日:2022-07-01 23:27:06 公開日:2022-06-30
# (参考訳) CTrGAN: 歩行転送のためのサイクルトランスフォーマーGAN

CTrGAN: Cycle Transformers GAN for Gait Transfer ( http://arxiv.org/abs/2206.15248v1 )

ライセンス: CC BY 4.0
Shahar Mahpod, Noam Gaash, G. Ben-Artzi(参考訳) 我々は初めて歩行伝達の問題に対処しようと試みる。 運動伝達とは対照的に、ここでの目的はソースの通常の動きを模倣するのではなく、ソースの動きをターゲットの典型的な歩行パターンに変換することである。 歩行認識モデルを用いて,既存の手法が容易に検出できる不一致を生じさせることを示す。 本稿では,目標の自然歩行をうまく生成できる新しいモデルであるCycle Transformers GAN(CTrGAN)を紹介する。 CTrGANのジェネレータはデコーダとエンコーダで構成されており、両トランスフォーマーはパッチ間の空間領域ではなく、完全な画像間の時間領域に注意を向けている。 近年のコンピュータビジョンにおけるトランスフォーマーの研究は、主に識別タスクに焦点を当てているが、我々は合成タスクに適用可能なアーキテクチャを導入する。 広く使用されている歩容認識データセットを用いて,トレーニング中に使用できなかったソースでも,既存の手法よりも1桁以上のリアルなパーソナライズされた歩容を生成できることを実証した。

We attempt for the first time to address the problem of gait transfer. In contrast to motion transfer, the objective here is not to imitate the source's normal motions, but rather to transform the source's motion into a typical gait pattern for the target. Using gait recognition models, we demonstrate that existing techniques yield a discrepancy that can be easily detected. We introduce a novel model, Cycle Transformers GAN (CTrGAN), that can successfully generate the target's natural gait. CTrGAN's generators consist of a decoder and encoder, both Transformers, where the attention is on the temporal domain between complete images rather than the spatial domain between patches. While recent Transformer studies in computer vision mainly focused on discriminative tasks, we introduce an architecture that can be applied to synthesis tasks. Using a widely-used gait recognition dataset, we demonstrate that our approach is capable of producing over an order of magnitude more realistic personalized gaits than existing methods, even when used with sources that were not available during training.
翻訳日:2022-07-01 23:03:03 公開日:2022-06-30
# (参考訳) ベイズ形状の枠組みを用いた超音波による再発喉頭神経の局在化

Localizing the Recurrent Laryngeal Nerve via Ultrasound with a Bayesian Shape Framework ( http://arxiv.org/abs/2206.15254v1 )

ライセンス: CC BY 4.0
Haoran Dou, Luyi Han, Yushuang He, Jun Xu, Nishant Ravikumar, Ritse Mann, Alejandro F. Frangi, Pew-Thian Yap, Yunzhi Huang(参考訳) RLN(recurrent laryngeal nerve)の腫瘍浸潤は, 甲状腺摘出術の抗腫瘍剤であり, 標準喉頭鏡による検出が困難である。 超音波(US)は、その安全性とリアルタイムフィードバックを提供する能力のために、RLN検出の有効な代替手段である。 しかしながら、直径が3mm未満のrlnの微妙さは、rlnの正確な局在に重大な課題をもたらす。 本研究では, 外科医が周辺臓器に応じてrlnを同定するための標準的なアプローチを模倣し, rln局在化のための知識駆動フレームワークを提案する。 臓器間の内在的相対的空間的関係に基づく先行解剖学的モデルを構築した。 ベイズ形状アライメント(BSA)を通して、RLNを囲む関心領域(ROI)の中心の候補座標を求める。 ROIは、マルチスケールのセマンティック情報に基づいて、デュアルパス識別ネットワークを用いてRLNの洗練されたセントロイドを決定するための視野の縮小を可能にする。 実験の結果,提案手法は最先端手法に比べ,ヒット率と距離誤差が有意に小さいことがわかった。

Tumor infiltration of the recurrent laryngeal nerve (RLN) is a contraindication for robotic thyroidectomy and can be difficult to detect via standard laryngoscopy. Ultrasound (US) is a viable alternative for RLN detection due to its safety and ability to provide real-time feedback. However, the tininess of the RLN, with a diameter typically less than 3mm, poses significant challenges to the accurate localization of the RLN. In this work, we propose a knowledge-driven framework for RLN localization, mimicking the standard approach surgeons take to identify the RLN according to its surrounding organs. We construct a prior anatomical model based on the inherent relative spatial relationships between organs. Through Bayesian shape alignment (BSA), we obtain the candidate coordinates of the center of a region of interest (ROI) that encloses the RLN. The ROI allows a decreased field of view for determining the refined centroid of the RLN using a dual-path identification network, based on multi-scale semantic information. Experimental results indicate that the proposed method achieves superior hit rates and substantially smaller distance errors compared with state-of-the-art methods.
翻訳日:2022-07-01 22:42:49 公開日:2022-06-30
# (参考訳) 過パラメータ系における自然勾配の不変性特性

Invariance Properties of the Natural Gradient in Overparametrised Systems ( http://arxiv.org/abs/2206.15273v1 )

ライセンス: CC BY 4.0
Jesse van Oostrum, Johannes M\"uller, Nihat Ay(参考訳) 自然勾配場(英: natural gradient field)は、有名なリーマン計量(例えばフィッシャー・ラオ計量)を備えたモデル上に存在するベクトル場であり、この計量に関するモデル上の対象関数の最も急な上昇の方向を表す。 実際には、計量に付随するグラム行列の逆によって通常の勾配を乗じることで、パラメータ空間上の対応する方向を求める。 パラメータ空間上のこのベクトルを自然パラメータ勾配と呼ぶ。 本稿では,自然パラメータ勾配のプッシュフォワードが自然勾配と等しくなる場合について検討する。 さらに,自然パラメータ勾配の不変性について検討する。 どちらの質問も過度にパラメータ化された設定で解決される。

The natural gradient field is a vector field that lives on a model equipped with a distinguished Riemannian metric, e.g. the Fisher-Rao metric, and represents the direction of steepest ascent of an objective function on the model with respect to this metric. In practice, one tries to obtain the corresponding direction on the parameter space by multiplying the ordinary gradient by the inverse of the Gram matrix associated with the metric. We refer to this vector on the parameter space as the natural parameter gradient. In this paper we study when the pushforward of the natural parameter gradient is equal to the natural gradient. Furthermore we investigate the invariance properties of the natural parameter gradient. Both questions are addressed in an overparametrised setting.
翻訳日:2022-07-01 22:34:10 公開日:2022-06-30
# (参考訳) デジタル病理におけるニューラルネットワークの脆弱性の解明と対処

Exposing and addressing the fragility of neural networks in digital pathology ( http://arxiv.org/abs/2206.15274v1 )

ライセンス: CC BY 4.0
Joona Pohjonen, Carolin St\"urenberg, Atte F\"ohr, Esa Pitk\"anen, Antti Rannikko, Tuomas Mirtti(参考訳) ニューラルネットワークは多くの医療画像のタスクで顕著な成果を上げてきたが、しばしば異なる医療センターや患者コホートから派生した分布外のデータセットで著しく悪化する。 基礎となる問題を一般化し対処する能力の欠如は、臨床実践を目的としたニューラルネットワークを開発する上での2つの大きな課題である。 本研究では,分散シフトデータセットを多数生成することにより,ニューラルネットワークモデルの一般化能力を評価する新しい手法を開発した。 外部の検証と比較すると、 \textit{shifted evaluation} は与えられたデータセットでニューラルネットワークが失敗する理由の説明を提供し、モデルロバスト性を改善するためのガイダンスを提供する。 シフト評価により,最先端手法で学習したニューラルネットワークは,訓練データからの分布シフトが小さい場合においても非常に脆弱であり,識別能力が失われる場合もある。 この脆弱性に対処するために、ニューラルネットワークの分散シフトに対する堅牢性を高めるために明示的に設計された拡張戦略を開発します。 \texttt{StrongAugment}は、2つの組織タイプから5つのトレーニングデータセット、274の分布シフトデータセット、4つの国から20の外部データセットを含む、大規模で異種な病理組織データを用いて評価される。 \texttt{strongaugment}でトレーニングされたニューラルネットワークは、現在の最先端の方法でトレーニングされたネットワークがすべての識別能力を失う分散シフトにおいても、すべてのデータセットで同様のパフォーマンスを維持する。 臨床実践を意図したすべてのニューラルネットワークをトレーニングし、評価するために、強化と評価のシフトを推奨する。

Neural networks have achieved impressive results in many medical imaging tasks but often perform substantially worse on out-of-distribution datasets originating from different medical centres or patient cohorts. Evaluating this lack of ability to generalise and address the underlying problem are the two main challenges in developing neural networks intended for clinical practice. In this study, we develop a new method for evaluating neural network models' ability to generalise by generating a large number of distribution-shifted datasets, which can be used to thoroughly investigate their robustness to variability encountered in clinical practice. Compared to external validation, \textit{shifted evaluation} can provide explanations for why neural networks fail on a given dataset, thus offering guidance on how to improve model robustness. With shifted evaluation, we demonstrate that neural networks, trained with state-of-the-art methods, are highly fragile to even small distribution shifts from training data, and in some cases lose all discrimination ability. To address this fragility, we develop an augmentation strategy, explicitly designed to increase neural networks' robustness to distribution shifts. \texttt{StrongAugment} is evaluated with large-scale, heterogeneous histopathology data including five training datasets from two tissue types, 274 distribution-shifted datasets and 20 external datasets from four countries. Neural networks trained with \texttt{StrongAugment} retain similar performance on all datasets, even with distribution shifts where networks trained with current state-of-the-art methods lose all discrimination ability. We recommend using strong augmentation and shifted evaluation to train and evaluate all neural networks intended for clinical practice.
翻訳日:2022-07-01 22:19:19 公開日:2022-06-30
# (参考訳) R-MelNet: ニューラルTSのためのメルスペクトルモデリング

R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS ( http://arxiv.org/abs/2206.15276v1 )

ライセンス: CC BY-SA 4.0
Kyle Kastner, Aaron Courville(参考訳) 本稿では,MelNetの第一層に基づくフロントエンドと,ニューラルテキスト音声合成のためのバックエンドのWaveRNNスタイルのオーディオデコーダを備えた2部自動回帰アーキテクチャであるR-MelNetを紹介する。 文字と音素の混合配列を入力として、オプションのオーディオプライミングシーケンスを用いて、WaveRNNデコーダによって補間され、使用される低分解能メルスペクトル特性を生成し、オーディオ波形を生成する。 半精度トレーニングと組み合わせて、R-MelNetは単一のコモディティGPU(NVIDIA 2080Ti)上で11ギガバイト以下のGPUメモリを使用する。 我々は,ロジスティクス注意の近似的,数値的に安定な混合を含む,安定な半精度トレーニングのための重要な実装の詳細を詳述する。 ステップ推定方式の確率的マルチサンプルを用いて、結果のモデルは非常に多様な音声を生成し、テキストと音声による制御により出力波形を修正できる。 単一話者ttsデータセット上で訓練されたr-melnetシステムの質的・定量的評価は,本手法の有効性を示す。

This paper introduces R-MelNet, a two-part autoregressive architecture with a frontend based on the first tier of MelNet and a backend WaveRNN-style audio decoder for neural text-to-speech synthesis. Taking as input a mixed sequence of characters and phonemes, with an optional audio priming sequence, this model produces low-resolution mel-spectral features which are interpolated and used by a WaveRNN decoder to produce an audio waveform. Coupled with half precision training, R-MelNet uses under 11 gigabytes of GPU memory on a single commodity GPU (NVIDIA 2080Ti). We detail a number of critical implementation details for stable half precision training, including an approximate, numerically stable mixture of logistics attention. Using a stochastic, multi-sample per step inference scheme, the resulting model generates highly varied audio, while enabling text and audio based controls to modify output waveforms. Qualitative and quantitative evaluations of an R-MelNet system trained on a single speaker TTS dataset demonstrate the effectiveness of our approach.
翻訳日:2022-07-01 21:55:21 公開日:2022-06-30
# (参考訳) TINC : 網膜CTボリュームにおける疾患進行モデリングのための時間的インフォームド非コントラスト学習

TINC: Temporally Informed Non-Contrastive Learning for Disease Progression Modeling in Retinal OCT Volumes ( http://arxiv.org/abs/2206.15282v1 )

ライセンス: CC0 1.0
Taha Emre, Arunava Chakravarty, Antoine Rivail, Sophie Riedl, Ursula Schmidt-Erfurth, and Hrvoje Bogunovi\'c(参考訳) 最近のコントラスト学習手法は、低ラベル体制において最先端の学習を実現した。 しかし、トレーニングには、画像の複数のビューを作成するために、大きなバッチサイズと重い拡張が必要である。 非矛盾的手法では、負は損失に暗黙的に組み込まれ、異なる画像とモダリティを対として許容する。 医用画像におけるメタ情報(年齢、性別など)は豊富であるが、アノテーションはノイズが多く、クラス不均衡の傾向にある。 本研究は,時間的情報による非コントラスト的損失(TINC)を用いて,時間的光コヒーレンス・トモグラフィー(OCT)データセットにおける既存の時間的情報(患者からの異なる訪問)を利用した。 さらに, 新たなペア形成方式では, 重付加を回避し, 暗黙的にペアの時間情報を取り込むことができる。 最後に、事前訓練から得られたこれらの表現は、下流タスクにおいて時間的情報が重要な疾患進行を予測するのにより成功している。 より具体的には、中間年齢関連黄斑変性(AMD)から後期湿式AMDステージへの変換のリスクを予測するために、既存のモデルよりも優れている。

Recent contrastive learning methods achieved state-of-the-art in low label regimes. However, the training requires large batch sizes and heavy augmentations to create multiple views of an image. With non-contrastive methods, the negatives are implicitly incorporated in the loss, allowing different images and modalities as pairs. Although the meta-information (i.e., age, sex) in medical imaging is abundant, the annotations are noisy and prone to class imbalance. In this work, we exploited already existing temporal information (different visits from a patient) in a longitudinal optical coherence tomography (OCT) dataset using temporally informed non-contrastive loss (TINC) without increasing complexity and need for negative pairs. Moreover, our novel pair-forming scheme can avoid heavy augmentations and implicitly incorporates the temporal information in the pairs. Finally, these representations learned from the pretraining are more successful in predicting disease progression where the temporal information is crucial for the downstream task. More specifically, our model outperforms existing models in predicting the risk of conversion within a time frame from intermediate age-related macular degeneration (AMD) to the late wet-AMD stage.
翻訳日:2022-07-01 21:42:41 公開日:2022-06-30
# (参考訳) QuASK -- カーネルによる量子アドバンテージシーカー

QuASK -- Quantum Advantage Seeker with Kernels ( http://arxiv.org/abs/2206.15284v1 )

ライセンス: CC BY 4.0
Francesco Di Marcantonio, Massimiliano Incudini, Davide Tezza and Michele Grossi(参考訳) QuASKはPythonで書かれた量子機械学習ソフトウェアで、異なる量子カーネルと古典カーネルのパフォーマンスを設計、実験、評価する研究者を支援する。 このソフトウェアはパッケージ非依存であり、主要な量子ソフトウェアパッケージ(IBM Qiskit、XanaduのPennylane、Amazon Braketなど)と統合することができる。 QuASKは、入力データの単純な前処理、量子カーネルと古典カーネルの定義と計算を通じてユーザーを誘導する。 この評価から、パッケージは一般化誤差に基づく潜在的な量子優位性と予測境界に関する評価を提供する。 さらに、勾配に基づく最適化、グリッド探索、遺伝的アルゴリズムを使ってトレーニングできるパラメトリック量子カーネルを生成することもできる。 大規模ヒルベルト空間の指数的スケーリング次元によって引き起こされる次元の呪いを緩和する効果的な解である射影量子核も計算される。 QuASKは量子モデルの観測可能な値をさらに生成し、量子および古典的なカーネルの予測能力の研究に使用することができる。

QuASK is a quantum machine learning software written in Python that supports researchers in designing, experimenting, and assessing different quantum and classical kernels performance. This software is package agnostic and can be integrated with all major quantum software packages (e.g. IBM Qiskit, Xanadu's Pennylane, Amazon Braket). QuASK guides the user through a simple preprocessing of input data, definition and calculation of quantum and classical kernels, either custom or pre-defined ones. From this evaluation the package provides an assessment about potential quantum advantage and prediction bounds on generalization error. Moreover, it allows for the generation of parametric quantum kernels that can be trained using gradient-descent-based optimization, grid search, or genetic algorithms. Projected quantum kernels, an effective solution to mitigate the curse of dimensionality induced by the exponential scaling dimension of large Hilbert spaces, are also calculated. QuASK can furthermore generate the observable values of a quantum model and use them to study the prediction capabilities of the quantum and classical kernels.
翻訳日:2022-07-01 21:32:09 公開日:2022-06-30
# (参考訳) バイオニック・ロボット・フィッシュの設計, 運動機構, 運動コーディネーション, およびコミュニケーションに関する研究

Designs, Motion Mechanism, Motion Coordination, and Communication of Bionic Robot Fishes: A Survey ( http://arxiv.org/abs/2206.15304v1 )

ライセンス: CC BY 4.0
Zhiwei Yu, Kai Li, Yu Ji, Simon X. Yang(参考訳) ここ数年、バイオニック・ロボット・フィッシュの研究において、多くの新しい発展と重要な成果があった。 しかし、水泳性能の面では、既存のバイオニック・ロボットフィッシュは魚よりもはるかに遅れており、研究者は様々なバイオニック・ロボットフィッシュの革新的なデザインを常に開発している。 本稿では, ロボット魚の最新の設計について, 推進モードと区別して, 詳細に述べる。 新しいロボット魚は主に柔らかいロボット魚と堅固で柔らかい結合されたロボット魚である。 本研究の最近の進歩は,魚の主な水泳理論の要約に基づいて分析されている。 複数のロボット魚の運動調整とコミュニケーションの新たな分野における最先端の研究を要約する。 ロボット魚の一般的な研究動向は、より効率的でロバストな方法で本物の魚を最もよく模倣し、優れた水泳性能を発揮することである。 現在の課題と今後の研究方向性について論じる。 魚と魚の水泳性能の差を狭めるには様々な方法が必要となる。 この論文は、ロボット工学者や海洋生物学者がバイオニック・ロボット・フィッシュの最先端の研究を学ぶための第一歩である。

In the last few years, there have been many new developments and significant accomplishments in the research of bionic robot fishes. However, in terms of swimming performance, existing bionic robot fishes lag far behind fish, prompting researchers to constantly develop innovative designs of various bionic robot fishes. In this paper, the latest designs of robot fishes are presented in detail, distinguished by the propulsion mode. New robot fishes mainly include soft robot fishes and rigid-soft coupled robot fishes. The latest progress in the study of the swimming mechanism is analyzed on the basis of summarizing the main swimming theories of fish. The current state-of-the-art research in the new field of motion coordination and communication of multiple robot fishes is summarized. The general research trend in robot fishes is to utilize more efficient and robust methods to best mimic real fish while exhibiting superior swimming performance. The current challenges and potential future research directions are discussed. Various methods are needed to narrow the gap in swimming performance between robot fishes and fish. This paper is a first step to bring together roboticists and marine biologists interested in learning state-of-the-art research on bionic robot fishes.
翻訳日:2022-07-01 21:25:10 公開日:2022-06-30
# (参考訳) 深層表モデルを用いたトランスファー学習

Transfer Learning with Deep Tabular Models ( http://arxiv.org/abs/2206.15306v1 )

ライセンス: CC BY 4.0
Roman Levin, Valeriia Cherepanova, Avi Schwarzschild, Arpit Bansal, C. Bayan Bruss, Tom Goldstein, Andrew Gordon Wilson, Micah Goldblum(参考訳) 表型データに対するディープラーニングに関する最近の研究は、深い表型モデルの強力な性能を示し、しばしば勾配を増した決定木とニューラルネットワークの間のギャップを埋めている。 正確性はさておき、ニューラルモデルの大きな利点は、再利用可能な機能を学び、新しいドメインで簡単に微調整できることだ。 この性質はコンピュータビジョンや自然言語アプリケーションでしばしば利用され、タスク固有のトレーニングデータが不足している場合、転送学習は不可欠である。 本研究では,上流データにより,広く使用されているGBDTモデルに対して,表層ニューラルネットワークが決定的な優位性を示す。 本稿では,表層トランスファー学習のための現実的な医療診断ベンチマークを提案し,様々な表層ニューラルネットワークアーキテクチャを用いて,上流データを用いたパフォーマンス向上のためのハウツーガイドを提案する。 最後に,上流と下流の機能集合が異なる場合の擬似特徴量法を提案する。 私たちのコードはhttps://github.com/LevinRoman/tabular-transfer-learning で利用可能です。

Recent work on deep learning for tabular data demonstrates the strong performance of deep tabular models, often bridging the gap between gradient boosted decision trees and neural networks. Accuracy aside, a major advantage of neural models is that they learn reusable features and are easily fine-tuned in new domains. This property is often exploited in computer vision and natural language applications, where transfer learning is indispensable when task-specific training data is scarce. In this work, we demonstrate that upstream data gives tabular neural networks a decisive advantage over widely used GBDT models. We propose a realistic medical diagnosis benchmark for tabular transfer learning, and we present a how-to guide for using upstream data to boost performance with a variety of tabular neural network architectures. Finally, we propose a pseudo-feature method for cases where the upstream and downstream feature sets differ, a tabular-specific problem widespread in real-world applications. Our code is available at https://github.com/LevinRoman/tabular-transfer-learning .
翻訳日:2022-07-01 21:11:00 公開日:2022-06-30
# (参考訳) 動的変動軌跡モデルを用いた心エコー図の解釈異常検出

Interpretable Anomaly Detection in Echocardiograms with Dynamic Variational Trajectory Models ( http://arxiv.org/abs/2206.15316v1 )

ライセンス: CC BY 4.0
Alain Ryser, Laura Manduchi, Fabian Laumer, Holger Michel, Sven Wellmann, Julia E. Vogt(参考訳) 心エコービデオの新しい異常検出法を提案する。 導入された方法は、心周期の周期的性質を利用して、変分潜在軌道モデル(vbe)の異なる変種を学習する。 モデルは、健康な人口の規範を学ぶために、複数のチャンバービューからなる幼児心エコービデオの社内データセットの健全なサンプルに基づいて訓練される。 推定の際には,データセット内の分布外サンプルを検出するために,MAPに基づく最大異常検出を行う。 提案手法は、Ebstein's Anomaly やShonecomplex などの重症先天性心疾患を確実に同定する。 さらに,肺高血圧症や右室拡張症を検出する作業において,標準変分オートエンコーダを用いたMAPベースの異常検出よりも優れた性能を発揮する。 最後に,本手法は異常心構造に対応する領域を強調するヒートマップを用いて,その出力の解釈可能な説明を提供することを示す。

We propose a novel anomaly detection method for echocardiogram videos. The introduced method takes advantage of the periodic nature of the heart cycle to learn different variants of a variational latent trajectory model (TVAE). The models are trained on the healthy samples of an in-house dataset of infant echocardiogram videos consisting of multiple chamber views to learn a normative prior of the healthy population. During inference, maximum a posteriori (MAP) based anomaly detection is performed to detect out-of-distribution samples in our dataset. The proposed method reliably identifies severe congenital heart defects, such as Ebstein's Anomaly or Shonecomplex. Moreover, it achieves superior performance over MAP-based anomaly detection with standard variational autoencoders on the task of detecting pulmonary hypertension and right ventricular dilation. Finally, we demonstrate that the proposed method provides interpretable explanations of its output through heatmaps which highlight the regions corresponding to anomalous heart structures.
翻訳日:2022-07-01 20:27:06 公開日:2022-06-30
# (参考訳) ニューラルアノテーションの改良:副腎分析のための新しい3dデータセットの開発

Neural Annotation Refinement: Development of a New 3D Dataset for Adrenal Gland Analysis ( http://arxiv.org/abs/2206.15328v1 )

ライセンス: CC BY 4.0
Jiancheng Yang, Rui Shi, Udaranga Wickramasinghe, Qikui Zhu, Bingbing Ni, and Pascal Fua(参考訳) 人間の注釈は不完全であり、特に若い実践者が作る場合は不完全である。 マルチエキスパートコンセンサスは通常ゴールデンスタンダードと見なされるが、このアノテーションプロトコルは多くの現実世界のプロジェクトで実装するには高すぎる。 本研究では,Near(Neural Annotation Refinement)という,人間のアノテーションを洗練させる手法を提案する。 これは学習可能な暗黙関数に基づいており、潜在ベクトルを表現された形に復号する。 暗黙の関数の入力として外観を統合することで、NeARはアノテーションのアーチファクトを修正する。 本手法は副腎分析を応用したものである。 まず,公的な副腎セグメンテーションデータセット上での変形したゴールデンスタンダードの修復が可能であることを示す。 また,提案手法を用いて,副腎の3次元形状とその診断ラベル(正常と異常)を専門家が割り当てた新しい副腎分析(alan)データセットを開発した。 我々は,NeARで修復した形状をトレーニングしたモデルにより,副腎の診断が元のモデルより優れていることを示した。 ALANデータセットはオープンソースで、副腎の診断のための1,594の形状を持つ。 コードとデータセットはhttps://github.com/m3dv/nearで入手できる。

The human annotations are imperfect, especially when produced by junior practitioners. Multi-expert consensus is usually regarded as golden standard, while this annotation protocol is too expensive to implement in many real-world projects. In this study, we propose a method to refine human annotation, named Neural Annotation Refinement (NeAR). It is based on a learnable implicit function, which decodes a latent vector into represented shape. By integrating the appearance as an input of implicit functions, the appearance-aware NeAR fixes the annotation artefacts. Our method is demonstrated on the application of adrenal gland analysis. We first show that the NeAR can repair distorted golden standards on a public adrenal gland segmentation dataset. Besides, we develop a new Adrenal gLand ANalysis (ALAN) dataset with the proposed NeAR, where each case consists of a 3D shape of adrenal gland and its diagnosis label (normal vs. abnormal) assigned by experts. We show that models trained on the shapes repaired by the NeAR can diagnose adrenal glands better than the original ones. The ALAN dataset will be open-source, with 1,594 shapes for adrenal gland diagnosis, which serves as a new benchmark for medical shape analysis. Code and dataset are available at https://github.com/M3DV/NeAR.
翻訳日:2022-07-01 20:04:12 公開日:2022-06-30
# (参考訳) パルププリント認識のための競合符号化手法の再検討:線形識別分析の観点から

Revisiting Competitive Coding Approach for Palmprint Recognition: A Linear Discriminant Analysis Perspective ( http://arxiv.org/abs/2206.15349v1 )

ライセンス: CC BY 4.0
Lingfei Song, Hua Huang(参考訳) 競合するコーディングアプローチ(compcode)は、palmprint認識において最も有望な方法の1つである。 高い性能と単純な定式化のため、長年にわたって研究されてきた。 しかし、CompCodeの様々なバリエーションが提案されているが、詳細な分析はいまだに行われていない。 本稿では,線形判別分析(lda)の観点から初めて,コンプコードの詳細な解析を行う。 フィッシャーの基準という意味でコンコードが最適であるような非自明な十分条件が提示される。 そこで本研究では,palmprintsの統計を解析し,compcodeが最適条件から逸脱していると結論づけた。 そこで本研究では,非パームライン領域のマッチングを排除し,CompCodeを改良したClass-Specific CompCodeを提案する。 この方法では、競合コードの非線形マッピングも適用され、精度がさらに向上する。 2つの公開データベース上で実験を行い,提案手法の有効性を示した。

The competitive Coding approach (CompCode) is one of the most promising methods for palmprint recognition. Due to its high performance and simple formulation, it has been continuously studied for many years. However, although numerous variations of CompCode have been proposed, a detailed analysis of the method is still absent. In this paper, we provide a detailed analysis of CompCode from the perspective of linear discriminant analysis (LDA) for the first time. A non-trivial sufficient condition under which the CompCode is optimal in the sense of Fisher's criterion is presented. Based on our analysis, we examined the statistics of palmprints and concluded that CompCode deviates from the optimal condition. To mitigate the deviation, we propose a new method called Class-Specific CompCode that improves CompCode by excluding non-palm-line areas from matching. A nonlinear mapping of the competitive code is also applied in this method to further enhance accuracy. Experiments on two public databases demonstrate the effectiveness of the proposed method.
翻訳日:2022-07-01 19:52:41 公開日:2022-06-30
# (参考訳) 部分的ラベル付き医学画像を用いた授業の学習

Learning Underrepresented Classes from Decentralized Partially Labeled Medical Images ( http://arxiv.org/abs/2206.15353v1 )

ライセンス: CC BY 4.0
Nanqing Dong, Michael Kampffmeyer, Irina Voiculescu(参考訳) 連合トレーニングに分散データを使用することは、医療領域のデータ不足を軽減するための新たな研究の方向性の1つだ。 しかし、一般的なオブジェクト認識タスクで一般的に見られる大規模な完全ラベル付きデータとは対照的に、局所的な医療データセットは、高いアノテーションコストのため、関心のサブセットにのみ注釈を付ける傾向にある。 本稿では,非表現クラスが利用可能なラベル付きインスタンスは少なく,フェデレーションシステムの少数のクライアントのみに存在するという,実用的で未解決な問題を考える。 標準フェデレーション学習手法では,過度なクラス不均衡を持つ堅牢なマルチラベル分類器の学習に失敗し,新しいフェデレーション学習フレームワークであるfeedfewを提案する。 FedFewは3つの段階から構成されており、第1段階は、フェデレーションされた自己教師付き学習を利用して、クラスに依存しない表現を学ぶ。 第2段階では、分散化された部分ラベル付きデータを利用して、共通クラスに対するエネルギーベースのマルチラベル分類器を学習する。 最後に, 最小表現クラスをエネルギーに基づいて検出し, 数ショットマッチングのためのプロトタイプベース近傍モデルを提案する。 我々は,多ラベル胸部疾患分類タスクにおけるFedFewの評価を行い,フェデレーションベースラインを大きなマージンで上回ることを示す。

Using decentralized data for federated training is one promising emerging research direction for alleviating data scarcity in the medical domain. However, in contrast to large-scale fully labeled data commonly seen in general object recognition tasks, the local medical datasets are more likely to only have images annotated for a subset of classes of interest due to high annotation costs. In this paper, we consider a practical yet under-explored problem, where underrepresented classes only have few labeled instances available and only exist in a few clients of the federated system. We show that standard federated learning approaches fail to learn robust multi-label classifiers with extreme class imbalance and address it by proposing a novel federated learning framework, FedFew. FedFew consists of three stages, where the first stage leverages federated self-supervised learning to learn class-agnostic representations. In the second stage, the decentralized partially labeled data are exploited to learn an energy-based multi-label classifier for the common classes. Finally, the underrepresented classes are detected based on the energy and a prototype-based nearest-neighbor model is proposed for few-shot matching. We evaluate FedFew on multi-label thoracic disease classification tasks and demonstrate that it outperforms the federated baselines by a large margin.
翻訳日:2022-07-01 19:34:47 公開日:2022-06-30
# (参考訳) BERTを用いたCOVID-19誤情報検出のための2段階分類器 : インドネシアのつぶやきについて

Two-Stage Classifier for COVID-19 Misinformation Detection Using BERT: a Study on Indonesian Tweets ( http://arxiv.org/abs/2206.15359v1 )

ライセンス: CC BY 4.0
Douglas Raevan Faisal and Rahmad Mahendra(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、2020年初めから世界的な大きな影響をもたらした。 このことは社会に多くの混乱をもたらし、特にソーシャルメディアを通じて誤報が広まったためである。 ソーシャルメディアデータにおける誤情報検出に関する研究はすでにいくつかあったが、ほとんどの研究は英語データセットに焦点を当てている。 インドネシアでの新型コロナウイルスの誤情報検出に関する研究はいまだに少ない。 そこで本研究では,インドネシアのデータセットを収集・注釈し,ツイートの関連性を考慮し,新型コロナウイルスの誤報を検出するための予測モデルを構築した。 データセットの構築は、ツイートデータの関連性と誤報をラベル付けしたアノテータのチームによって行われる。 本研究では,ツイート誤報検出タスクに対して,IndoBERT事前学習言語モデルを用いた2段階分類モデルを提案する。 また,テキスト分類のベースラインモデルについても実験を行った。 実験の結果、関連予測のためのBERTシーケンス分類器と誤情報検出のためのBi-LSTMの組み合わせは、87.02%の精度で他の機械学習モデルよりも優れていた。 BERTの利用は、ほとんどの予測モデルの性能向上に寄与する。 インドネシア語で高品質な COVID-19 誤報ツイートコーパスを公開します。

The COVID-19 pandemic has caused globally significant impacts since the beginning of 2020. This brought a lot of confusion to society, especially due to the spread of misinformation through social media. Although there were already several studies related to the detection of misinformation in social media data, most studies focused on the English dataset. Research on COVID-19 misinformation detection in Indonesia is still scarce. Therefore, through this research, we collect and annotate datasets for Indonesian and build prediction models for detecting COVID-19 misinformation by considering the tweet's relevance. The dataset construction is carried out by a team of annotators who labeled the relevance and misinformation of the tweet data. In this study, we propose the two-stage classifier model using IndoBERT pre-trained language model for the Tweet misinformation detection task. We also experiment with several other baseline models for text classification. The experimental results show that the combination of the BERT sequence classifier for relevance prediction and Bi-LSTM for misinformation detection outperformed other machine learning models with an accuracy of 87.02%. Overall, the BERT utilization contributes to the higher performance of most prediction models. We release a high-quality COVID-19 misinformation Tweet corpus in the Indonesian language, indicated by the high inter-annotator agreement.
翻訳日:2022-07-01 19:21:58 公開日:2022-06-30
# (参考訳) 医療に説明可能なAIが必要な理由

Why we do need Explainable AI for Healthcare ( http://arxiv.org/abs/2206.15363v1 )

ライセンス: CC BY 4.0
Giovanni Cin\`a, Tabea R\"ober, Rob Goedhart and Ilker Birbil(参考訳) 最近、医療用の認証人工知能(AI)ツールが急増し、この技術の採用に関する議論が再燃している。 このような議論の1つのスレッドは、説明可能なAIと、AIデバイスをより透明で信頼性の高いものにすることの約束に関するものだ。 医療AI分野で活動している一部の声は、説明可能なAI技術の信頼性に懸念を表明し、その使用とガイドラインや標準への含意を疑問視している。 このような批判を再考し、この記事では、説明可能なAIの実用性に関するバランスよく包括的な視点を提供し、AIの臨床応用の特異性に注目し、それらを医療介入の文脈に配置する。 その欠点や妥当な懸念にもかかわらず、説明可能なai研究プログラムは依然として人間と機械の相互作用の中心であり、究極的には制御の喪失に対する我々の主要なツールであり、厳格な臨床検証だけでは防げない。

The recent spike in certified Artificial Intelligence (AI) tools for healthcare has renewed the debate around adoption of this technology. One thread of such debate concerns Explainable AI and its promise to render AI devices more transparent and trustworthy. A few voices active in the medical AI space have expressed concerns on the reliability of Explainable AI techniques, questioning their use and inclusion in guidelines and standards. Revisiting such criticisms, this article offers a balanced and comprehensive perspective on the utility of Explainable AI, focusing on the specificity of clinical applications of AI and placing them in the context of healthcare interventions. Against its detractors and despite valid concerns, we argue that the Explainable AI research program is still central to human-machine interaction and ultimately our main tool against loss of control, a danger that cannot be prevented by rigorous clinical validation alone.
翻訳日:2022-07-01 19:03:22 公開日:2022-06-30
# (参考訳) モデルフリーマルチエージェント強化学習によるストラテゴゲームのマスタリング

Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning ( http://arxiv.org/abs/2206.15378v1 )

ライセンス: CC BY 4.0
Julien Perolat, Bart de Vylder, Daniel Hennes, Eugene Tarassov, Florian Strub, Vincent de Boer, Paul Muller, Jerome T. Connor, Neil Burch, Thomas Anthony, Stephen McAleer, Romuald Elie, Sarah H. Cen, Zhe Wang, Audrunas Gruslys, Aleksandra Malysheva, Mina Khan, Sherjil Ozair, Finbarr Timbers, Toby Pohlen, Tom Eccles, Mark Rowland, Marc Lanctot, Jean-Baptiste Lespiau, Bilal Piot, Shayegan Omidshafiei, Edward Lockhart, Laurent Sifre, Nathalie Beauguerlange, Remi Munos, David Silver, Satinder Singh, Demis Hassabis, Karl Tuyls(参考訳) 我々は,不完全な情報ゲームであるstrategoをスクラッチから人間のエキスパートレベルまでプレイできる自律エージェントdeepnashを紹介する。 Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。 この人気ゲームは、ノード数10^{535}$、すなわちgoの10^{175}$の順に巨大なゲームツリーを持っている。 テキサス・ホールデム・ポーカーのように、不完全な情報の下で意思決定を必要とする複雑さが増し、ゲームツリーが大幅に小さくなった(ノード数は10^{164}$ノード)。 strategoの意思決定は、アクションと結果の明確な関連のない、多数の個別のアクションで行われます。 エピソードは長く、プレイヤーが勝つ前に何百もの動きがあり、スタテゴの状況はポーカーのように扱いやすいサイズのサブプロブレムに容易に分解できない。 これらの理由から、StrategoはAI分野において何十年にもわたって大きな課題であり、既存のAI手法はアマチュアレベルにはほとんど達していない。 DeepNashは、ゲーム理論でモデルなしの深層強化学習手法で、検索なしで、セルフプレイでStrategoを習得する。 DeepNashのキーコンポーネントであるRegularized Nash Dynamics (R-NaD)アルゴリズムは、基礎となるマルチエージェント学習ダイナミクスを直接修正することで、その周りの"サイクリング"ではなく、近似的なNash平衡に収束する。 DeepNashは、Strategoの既存の最先端AIメソッドを破り、Gravonのゲームプラットフォームで年間(2022年)と最高3位を達成した。

We introduce DeepNash, an autonomous agent capable of learning to play the imperfect information game Stratego from scratch, up to a human expert level. Stratego is one of the few iconic board games that Artificial Intelligence (AI) has not yet mastered. This popular game has an enormous game tree on the order of $10^{535}$ nodes, i.e., $10^{175}$ times larger than that of Go. It has the additional complexity of requiring decision-making under imperfect information, similar to Texas hold'em poker, which has a significantly smaller game tree (on the order of $10^{164}$ nodes). Decisions in Stratego are made over a large number of discrete actions with no obvious link between action and outcome. Episodes are long, with often hundreds of moves before a player wins, and situations in Stratego can not easily be broken down into manageably-sized sub-problems as in poker. For these reasons, Stratego has been a grand challenge for the field of AI for decades, and existing AI methods barely reach an amateur level of play. DeepNash uses a game-theoretic, model-free deep reinforcement learning method, without search, that learns to master Stratego via self-play. The Regularised Nash Dynamics (R-NaD) algorithm, a key component of DeepNash, converges to an approximate Nash equilibrium, instead of 'cycling' around it, by directly modifying the underlying multi-agent learning dynamics. DeepNash beats existing state-of-the-art AI methods in Stratego and achieved a yearly (2022) and all-time top-3 rank on the Gravon games platform, competing with human expert players.
翻訳日:2022-07-01 18:53:15 公開日:2022-06-30
# (参考訳) どこから始める? フェデレート学習における事前学習と初期化の影響を探る

Where to Begin? Exploring the Impact of Pre-Training and Initialization in Federated Learning ( http://arxiv.org/abs/2206.15387v1 )

ライセンス: CC BY 4.0
John Nguyen, Kshitiz Malik, Maziar Sanjabi and Michael Rabbat(参考訳) フェデレーション学習の最も大きな課題は、データの不均一性の存在である -- 異なるクライアントのデータは、非常に異なる分布に従う可能性がある。 これらの課題に対処するために、いくつかのフェデレーション最適化手法が提案されている。 文献では、経験的評価は通常ランダム初期化から連合トレーニングを開始する。 しかし,フェデレート学習の実践的な応用では,フェデレーション学習を始める前にモデルの事前トレーニングに使用できる訓練タスクのプロキシデータにアクセスすることができる。 4つの共通フェデレーション学習ベンチマークデータセットを用いて,事前学習モデルからの開始がフェデレーション学習に与える影響を実証的に検討した。 当然ながら、事前訓練されたモデルから始めると、ターゲットエラー率に達するのに必要なトレーニング時間を短縮し、ランダム初期化から始める場合よりも、より正確なモデル(最大40 %)をトレーニングできる。 驚くべきことに、事前訓練した初期化からフェデレートトレーニングを開始する場合、データの不均一性の影響ははるかに小さいことが判明した。 むしろ、事前訓練されたモデルから始めるとき、サーバで適応オプティマイザ(例えば、textsc{FedAdam})を使用すると、常に最高の精度が得られます。 我々は、ランダムな初期化と事前学習の両方を開始する際に、フェデレーション最適化手法の提案と評価を行うことを推奨する。 この研究は、フェデレート最適化における不均一性の役割を理解するために、いくつかの疑問を提起する。

An oft-cited challenge of federated learning is the presence of data heterogeneity -- the data at different clients may follow very different distributions. Several federated optimization methods have been proposed to address these challenges. In the literature, empirical evaluations usually start federated training from a random initialization. However, in many practical applications of federated learning, the server has access to proxy data for the training task which can be used to pre-train a model before starting federated training. We empirically study the impact of starting from a pre-trained model in federated learning using four common federated learning benchmark datasets. Unsurprisingly, starting from a pre-trained model reduces the training time required to reach a target error rate and enables training more accurate models (by up to 40\%) than is possible than when starting from a random initialization. Surprisingly, we also find that the effect of data heterogeneity is much less significant when starting federated training from a pre-trained initialization. Rather, when starting from a pre-trained model, using an adaptive optimizer at the server, such as \textsc{FedAdam}, consistently leads to the best accuracy. We recommend that future work proposing and evaluating federated optimization methods consider the performance when starting both random and pre-trained initializations. We also believe this study raises several questions for further work on understanding the role of heterogeneity in federated optimization.
翻訳日:2022-07-01 18:51:51 公開日:2022-06-30
# (参考訳) ランダム化K-FAC:ランダム化数値線形代数によるK-FACの高速化

Randomized K-FACs: Speeding up K-FAC with Randomized Numerical Linear Algebra ( http://arxiv.org/abs/2206.15397v1 )

ライセンス: CC BY 4.0
Constantin Octavian Puiu(参考訳) K-FACはDeep LearningのためのNatural Gradientの実装として成功しており、Kronecker因子の逆を(固有分解を通じて)計算する必要性に悩まされている。 これらの要因が大きい場合、これは非常に時間がかかる(あるいは禁止される)。 本稿では,一般に用いられるクロネッカー因子の指数平均構成パラダイムにより,固有スペクトルが崩壊しなければならないことを理論的に示す。 実際、この崩壊は非常に高速であり、クロネッカー因子を反転させる際に、最初の数個の固有モードのみに焦点を合わせることでかなりの計算量を節約できるという考えを示す。 ランダム化された数値線形代数は、それに必要なツールを提供します。 数値計算の結果, 時間あたりの時間短縮に$\approx2.5\times$と, 精度を目標とする時間短縮に$\approx3.3\times$が得られることがわかった。 提案したK-FACの高速化版と,より計算効率のよいNG実装であるSENGを比較し,それと同等に動作することを観察する。

K-FAC is a successful tractable implementation of Natural Gradient for Deep Learning, which nevertheless suffers from the requirement to compute the inverse of the Kronecker factors (through an eigen-decomposition). This can be very time-consuming (or even prohibitive) when these factors are large. In this paper, we theoretically show that, owing to the exponential-average construction paradigm of the Kronecker factors that is typically used, their eigen-spectrum must decay. We show numerically that in practice this decay is very rapid, leading to the idea that we could save substantial computation by only focusing on the first few eigen-modes when inverting the Kronecker-factors. Randomized Numerical Linear Algebra provides us with the necessary tools to do so. Numerical results show we obtain $\approx2.5\times$ reduction in per-epoch time and $\approx3.3\times$ reduction in time to target accuracy. We compare our proposed K-FAC sped-up versions with a more computationally efficient NG implementation, SENG, and observe we perform on par with it.
翻訳日:2022-07-01 18:32:41 公開日:2022-06-30
# (参考訳) PolarFormer:Polar Transformerを用いたマルチカメラ3Dオブジェクト検出

PolarFormer: Multi-camera 3D Object Detection with Polar Transformer ( http://arxiv.org/abs/2206.15398v1 )

ライセンス: CC BY 4.0
Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang(参考訳) 自律運転における3d物体検出は、3dの世界に存在する興味のある物体を「何」と「どこで」判断することを目的としている。 従来の2次元物体検出の知恵に従い、既存の方法はしばしば垂直軸を持つ正準直交座標系を採用する。 しかし、車載カメラは、急進的な(垂直でない)軸を持つ画像幾何学に内在するくさび形の世界を知覚するので、これはエゴカーの視点の性質に合わないと我々は主張する。 そこで本論文では,極座標系の利用を提唱し,複数カメラ2D画像のみを入力とする鳥眼ビュー(BEV)において,より正確な3次元物体検出のための新しい極変換器(PolarFormer)を提案する。 具体的には,不規則な極性格子を扱う入力構造の形状に制約なく,クロスアテンションに基づく極性検出ヘッドを設計する。 極距離次元に沿った無拘束物体スケールの変動に対処するために、さらに多次元表現学習戦略を導入する。 その結果,本モデルは,幾何学的制約を受けるシーケンス・ツー・シーケンス方式で対応する画像観察に臨むことにより,ラスタライズされた極性表現を最大限に活用することができる。 nuScenesデータセットに関する詳細な実験によると、PolarFormerは最先端の3Dオブジェクト検出方法よりも優れており、BEVセマンティックセマンティックセグメンテーションタスクでは競争力がある。

3D object detection in autonomous driving aims to reason "what" and "where" the objects of interest present in a 3D world. Following the conventional wisdom of previous 2D object detection, existing methods often adopt the canonical Cartesian coordinate system with perpendicular axis. However, we conjugate that this does not fit the nature of the ego car's perspective, as each onboard camera perceives the world in shape of wedge intrinsic to the imaging geometry with radical (non-perpendicular) axis. Hence, in this paper we advocate the exploitation of the Polar coordinate system and propose a new Polar Transformer (PolarFormer) for more accurate 3D object detection in the bird's-eye-view (BEV) taking as input only multi-camera 2D images. Specifically, we design a cross attention based Polar detection head without restriction to the shape of input structure to deal with irregular Polar grids. For tackling the unconstrained object scale variations along Polar's distance dimension, we further introduce a multi-scalePolar representation learning strategy. As a result, our model can make best use of the Polar representation rasterized via attending to the corresponding image observation in a sequence-to-sequence fashion subject to the geometric constraints. Thorough experiments on the nuScenes dataset demonstrate that our PolarFormer outperforms significantly state-of-the-art 3D object detection alternatives, as well as yielding competitive performance on BEV semantic segmentation task.
翻訳日:2022-07-01 18:16:27 公開日:2022-06-30
# (参考訳) オンデバイス音声認識を用いた8ビットニューラルネットワークアクセラレータのサブ8ビット量子化学習

Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network Accelerator with On-Device Speech Recognition ( http://arxiv.org/abs/2206.15408v1 )

ライセンス: CC BY 4.0
Kai Zhen, Hieu Duy Nguyen, Raviteja Chinta, Nathan Susanj, Athanasios Mouchtaris, Tariq Afzal, Ariya Rastrow(参考訳) 本稿では,8ビットニューラルネットワークアクセラレータのための新しい8ビット量子化学習手法を提案する。 本手法はロイズマックス圧縮理論にインスパイアされ, 訓練中の計算オーバーヘッドの低減を図る。 32ビットのベースラインから導出される量子化セントロイドを用いて、重みを最寄りのセントロイドに集約し、事実上擬似圧縮機として機能するMRACos(Multi-Regional Absolute Cosine)正則化器によるトレーニング損失を増大させる。 さらに、周期的に呼び出されるハードコンプレッサを導入し、実行時モデル重み量子化をエミュレートすることで収束率を向上させる。 recurrent neural networktransducer (rnn-t) アーキテクチャを用いた音声認識タスクにs8bqatを適用する。 s8bqatでは,モデルのパラメータサイズを増加させ,単語誤り率を4~16%削減すると同時に,レイテンシを5%向上させることができた。

We present a novel sub-8-bit quantization-aware training (S8BQAT) scheme for 8-bit neural network accelerators. Our method is inspired from Lloyd-Max compression theory with practical adaptations for a feasible computational overhead during training. With the quantization centroids derived from a 32-bit baseline, we augment training loss with a Multi-Regional Absolute Cosine (MRACos) regularizer that aggregates weights towards their nearest centroid, effectively acting as a pseudo compressor. Additionally, a periodically invoked hard compressor is introduced to improve the convergence rate by emulating runtime model weight quantization. We apply S8BQAT on speech recognition tasks using Recurrent Neural NetworkTransducer (RNN-T) architecture. With S8BQAT, we are able to increase the model parameter size to reduce the word error rate by 4-16% relatively, while still improving latency by 5%.
翻訳日:2022-07-01 17:59:06 公開日:2022-06-30
# (参考訳) フェアネス制約のインスタンスレベル影響の理解

Understanding Instance-Level Impact of Fairness Constraints ( http://arxiv.org/abs/2206.15437v1 )

ライセンス: CC BY 4.0
Jialu Wang and Xin Eric Wang and Yang Liu(参考訳) グループレベルの統計バイアスを軽減するために、文献で様々な公正性の制約が提案されている。 それらの影響は、人種や性別などのセンシティブな属性のセットに対応する異なる集団のグループに対して大きく評価されている。 それにもかかわらず、コミュニティはインスタンスレベルで公正な制約を課すための十分な調査を観察していない。 対象モデルに対するトレーニング例の影響とその予測性能を特徴付ける指標である影響関数の概念に基づいて,公平性制約が課される場合のトレーニング例の影響を考察する。 ある仮定の下では、公平性制約に対する影響関数は、訓練例のカーネル化された組み合わせに分解できることがわかった。 提案した公正影響関数の有望な応用の一つは、その影響スコアをランク付けすることでモデル判別を引き起こす疑わしい訓練例を特定することである。 重みのあるデータ例のサブセットでのトレーニングが、正確性のトレードオフを伴う公平性違反の低減につながることを示す。

A variety of fairness constraints have been proposed in the literature to mitigate group-level statistical bias. Their impacts have been largely evaluated for different groups of populations corresponding to a set of sensitive attributes, such as race or gender. Nonetheless, the community has not observed sufficient explorations for how imposing fairness constraints fare at an instance level. Building on the concept of influence function, a measure that characterizes the impact of a training example on the target model and its predictive performance, this work studies the influence of training examples when fairness constraints are imposed. We find out that under certain assumptions, the influence function with respect to fairness constraints can be decomposed into a kernelized combination of training examples. One promising application of the proposed fairness influence function is to identify suspicious training examples that may cause model discrimination by ranking their influence scores. We demonstrate with extensive experiments that training on a subset of weighty data examples leads to lower fairness violations with a trade-off of accuracy.
翻訳日:2022-07-01 17:46:06 公開日:2022-06-30
# (参考訳) マルチセット変圧器を用いた複数集合の学習関数

Learning Functions on Multiple Sets using Multi-Set Transformers ( http://arxiv.org/abs/2206.15444v1 )

ライセンス: CC BY 4.0
Kira Selby, Ahmad Rashid, Ivan Kobyzev, Mehdi Rezagholizadeh and Pascal Poupart(参考訳) 複数の置換不変集合上の関数を学習するための一般的な深層アーキテクチャを提案する。 また、このアーキテクチャを任意の次元の要素の集合に次元同値で一般化する方法を示す。 提案手法は,これらの関数の普遍的近似であり,計数タスク,アライメントタスク,識別タスク,統計距離測定など,様々なタスクにおいて既存の手法よりも優れた結果を示す。 この最後のタスクは機械学習において非常に重要です。 提案手法は非常に一般的なものであるが,統計的距離を近似するように特別に設計された従来の手法よりも精度の高いkl発散と相互情報の近似推定を生成できることを実証する。

We propose a general deep architecture for learning functions on multiple permutation-invariant sets. We also show how to generalize this architecture to sets of elements of any dimension by dimension equivariance. We demonstrate that our architecture is a universal approximator of these functions, and show superior results to existing methods on a variety of tasks including counting tasks, alignment tasks, distinguishability tasks and statistical distance measurements. This last task is quite important in Machine Learning. Although our approach is quite general, we demonstrate that it can generate approximate estimates of KL divergence and mutual information that are more accurate than previous techniques that are specifically designed to approximate those statistical distances.
翻訳日:2022-07-01 17:17:51 公開日:2022-06-30
# (参考訳) エネルギー最小化による反復推論の学習

Learning Iterative Reasoning through Energy Minimization ( http://arxiv.org/abs/2206.15448v1 )

ライセンス: CC BY 4.0
Yilun Du, Shuang Li, Joshua B. Tenenbaum, Igor Mordatch(参考訳) ディープラーニングは、画像分類やオブジェクト認識といった複雑なパターン認識タスクに優れています。 しかし、アルゴリズム計算のような非自明な推論を必要とするタスクに苦しむ。 人間は反復的な推論によってこのようなタスクを解決できます。 しかし、既存のほとんどのニューラルネットワークは、ニューラルネットワークアーキテクチャによって制御される固定された計算予算を示しており、難しいタスクに対するさらなる計算処理を妨げている。 本稿では,ニューラルネットワークを用いた反復推論のための新しいフレームワークを提案する。 すべての出力に対してエネルギー景観をパラメータ化するためにニューラルネットワークをトレーニングし、エネルギー最小化ステップとして反復推論の各ステップを実装し、最小限のエネルギー解を求める。 推論をエネルギー最小化問題として定式化することで、より複雑なエネルギーランドスケープにつながる難しい問題に対して、より複雑な最適化手順を実行することによって基礎となる計算予算を調整することができる。 我々の反復推論アプローチは、グラフと連続ドメインの両方においてより正確で一般化可能なアルゴリズム推論タスクを解くことができることを実証的に説明します。 最後に,本手法がネスト推論を必要とするアルゴリズム問題を再帰的に解くことができることを示す。

Deep learning has excelled on complex pattern recognition tasks such as image classification and object recognition. However, it struggles with tasks requiring nontrivial reasoning, such as algorithmic computation. Humans are able to solve such tasks through iterative reasoning -- spending more time thinking about harder tasks. Most existing neural networks, however, exhibit a fixed computational budget controlled by the neural network architecture, preventing additional computational processing on harder tasks. In this work, we present a new framework for iterative reasoning with neural networks. We train a neural network to parameterize an energy landscape over all outputs, and implement each step of the iterative reasoning as an energy minimization step to find a minimal energy solution. By formulating reasoning as an energy minimization problem, for harder problems that lead to more complex energy landscapes, we may then adjust our underlying computational budget by running a more complex optimization procedure. We empirically illustrate that our iterative reasoning approach can solve more accurate and generalizable algorithmic reasoning tasks in both graph and continuous domains. Finally, we illustrate that our approach can recursively solve algorithmic problems requiring nested reasoning
翻訳日:2022-07-01 16:46:51 公開日:2022-06-30
# (参考訳) PhySRNet:計算固体力学への応用のための物理情報超解像ネットワーク

PhySRNet: Physics informed super-resolution network for application in computational solid mechanics ( http://arxiv.org/abs/2206.15457v1 )

ライセンス: CC BY 4.0
Rajat Arora(参考訳) 有限要素解析に基づく従来のアプローチは、工業用途に広く用いられている異種材料(複合材料、多成分合金、多結晶)のマクロな挙動を予測するのに成功している。 しかし, メッシュのサイズは材料中の構造的不均一性の特性長スケールよりも小さく, 計算コストが高く, 時間を要する計算に繋がる。 ディープラーニングに基づく画像超解法(SR)アルゴリズムの最近の進歩は、研究者が粗いメッシュシミュレーションから得られたデータの時空間分解能を高めることによって、この計算課題に取り組むための有望な道を開く。 しかし、特に大きな変形を受ける材料に対して計算固体力学に応用するための高忠実度srモデルの開発には技術的な課題が残っている。 本研究の目的は、高分解能ラベル付きデータを必要としない高分解能変形場(変位と応力)を低分解能から再構成できる物理インフォームド深層学習に基づく超解像フレームワーク(PhySRNet)の開発である。 提案手法の有効性を明らかにするために,提案手法を設計し,超解場が,(高非線形な)規制則を同時に満たしつつ,400倍の粗いメッシュ解像度で動作する高度な数値解法の精度と一致することを示す。 このアプローチは、計算複雑性を減らすために機械学習と従来の数値的アプローチを適用し、科学的発見とエンジニアリング設計を加速するドアを開く。

Traditional approaches based on finite element analyses have been successfully used to predict the macro-scale behavior of heterogeneous materials (composites, multicomponent alloys, and polycrystals) widely used in industrial applications. However, this necessitates the mesh size to be smaller than the characteristic length scale of the microstructural heterogeneities in the material leading to computationally expensive and time-consuming calculations. The recent advances in deep learning based image super-resolution (SR) algorithms open up a promising avenue to tackle this computational challenge by enabling researchers to enhance the spatio-temporal resolution of data obtained from coarse mesh simulations. However, technical challenges still remain in developing a high-fidelity SR model for application to computational solid mechanics, especially for materials undergoing large deformation. This work aims at developing a physics-informed deep learning based super-resolution framework (PhySRNet) which enables reconstruction of high-resolution deformation fields (displacement and stress) from their low-resolution counterparts without requiring high-resolution labeled data. We design a synthetic case study to illustrate the effectiveness of the proposed framework and demonstrate that the super-resolved fields match the accuracy of an advanced numerical solver running at 400 times the coarse mesh resolution while simultaneously satisfying the (highly nonlinear) governing laws. The approach opens the door to applying machine learning and traditional numerical approaches in tandem to reduce computational complexity accelerate scientific discovery and engineering design.
翻訳日:2022-07-01 16:27:03 公開日:2022-06-30
# (参考訳) 実践的ブラックボックスハミルトン学習

Practical Black Box Hamiltonian Learning ( http://arxiv.org/abs/2206.15464v1 )

ライセンス: CC BY 4.0
Andi Gu, Lukasz Cincio, Patrick J. Coles(参考訳) 本研究では,量子多体系のハミルトニアンのパラメータを学習する問題について,システムへの限定的なアクセスを前提として検討する。 本研究では、微分推定によるハミルトン学習への最近のアプローチを構築する。 特にハミルトニアンの構造に関するパラメータ(例えば、その局所性$k$)に関して、事前の作業のスケーリング依存性を改善するプロトコルを提案する。 さらに,本プロトコルの性能の正確な限界を導出することにより,最大進化時間(ユニタリダイナミクスによる学習)や最小温度(ギブズ状態による学習)など,理論上最適なハイパーパラメータ設定の正確な数値処方を学習プロトコルに提供することができる。 これらの改良により,80量子ビットシステム上でのプロトコルの数値シミュレーションにより,本プロトコルは大きな問題に対して実用的である。

We study the problem of learning the parameters for the Hamiltonian of a quantum many-body system, given limited access to the system. In this work, we build upon recent approaches to Hamiltonian learning via derivative estimation. We propose a protocol that improves the scaling dependence of prior works, particularly with respect to parameters relating to the structure of the Hamiltonian (e.g., its locality $k$). Furthermore, by deriving exact bounds on the performance of our protocol, we are able to provide a precise numerical prescription for theoretically optimal settings of hyperparameters in our learning protocol, such as the maximum evolution time (when learning with unitary dynamics) or minimum temperature (when learning with Gibbs states). Thanks to these improvements, our protocol is practical for large problems: we demonstrate this with a numerical simulation of our protocol on an 80-qubit system.
翻訳日:2022-07-01 16:01:40 公開日:2022-06-30
# (参考訳) Causal Machine Learning: 調査とオープンな問題

Causal Machine Learning: A Survey and Open Problems ( http://arxiv.org/abs/2206.15475v1 )

ライセンス: CC BY 4.0
Jean Kaddour, Aengus Lynch, Qi Liu, Matt J. Kusner, Ricardo Silva(参考訳) Causal Machine Learning (CausalML) は、データ生成プロセスを構造因果モデル(SCM)として形式化する機械学習手法の略称である。 これにより、このプロセス(例えば、介入)の変更の影響と、後見(すなわち、偽物)で何が起こったのかを判断することができる。 研究は,(1)因果関係学習,(2)因果関係生成モデリング,(3)因果関係説明,(4)因果関係の公平性,(5)因果関係の強化学習の5つのグループに分類した。 各カテゴリについて、その手法を体系的に比較し、オープン問題を指摘する。 さらに,コンピュータビジョン,自然言語処理,グラフ表現学習におけるモダリティ特有の応用について検討する。 最後に、因果ベンチマークの概要と、今後の作業の推奨を含む、この新興分野の現状に関する批判的な議論について述べる。

Causal Machine Learning (CausalML) is an umbrella term for machine learning methods that formalize the data-generation process as a structural causal model (SCM). This allows one to reason about the effects of changes to this process (i.e., interventions) and what would have happened in hindsight (i.e., counterfactuals). We categorize work in \causalml into five groups according to the problems they tackle: (1) causal supervised learning, (2) causal generative modeling, (3) causal explanations, (4) causal fairness, (5) causal reinforcement learning. For each category, we systematically compare its methods and point out open problems. Further, we review modality-specific applications in computer vision, natural language processing, and graph representation learning. Finally, we provide an overview of causal benchmarks and a critical discussion of the state of this nascent field, including recommendations for future work.
翻訳日:2022-07-01 16:00:43 公開日:2022-06-30
# シーケンスキャラクタリゼーションによるネットワークトポロジとダイナミクスの分類

Classification of network topology and dynamics via sequence characterization ( http://arxiv.org/abs/2206.15190v1 )

ライセンス: Link先を確認
Lucas Guerreiro, Filipi N. Silva and Diego R. Amancio(参考訳) したがって、シンボル生成のメカニズムを特定することは、多くの複雑なシステムを理解する上で不可欠である。 本稿では,ネットワークトポロジ上を歩くエージェントが生成する配列を解析する。 多くの実シナリオにおいて、シーケンス生成の基盤となるプロセスが隠れていることを考慮し、共起法によるネットワーク再構成がネットワークトポロジーとエージェントダイナミクス生成シーケンスの両方を復元するのに有用かどうかを調べる。 再構成されたネットワークの特性は,シーケンス作成に使用されるプロセスやトポロジに関する貴重な情報を提供することがわかった。 ネットワークトポロジーとエージェントダイナミクスの16の組合せをクラスとして考慮した機械学習アプローチでは、訪問ノードの40%未満で生成されたシーケンスで87%の精度を得た。 より大きなシーケンスは、改善された機械学習モデルを生成することが判明した。 その結果,提案手法はシーケンスの分類やシーケンス生成のメカニズムを理解するために拡張できる可能性が示唆された。

Sequences arise in many real-world scenarios; thus, identifying the mechanisms behind symbol generation is essential to understanding many complex systems. This paper analyzes sequences generated by agents walking on a networked topology. Given that in many real scenarios, the underlying processes generating the sequence is hidden, we investigate whether the reconstruction of the network via the co-occurrence method is useful to recover both the network topology and agent dynamics generating sequences. We found that the characterization of reconstructed networks provides valuable information regarding the process and topology used to create the sequences. In a machine learning approach considering 16 combinations of network topology and agent dynamics as classes, we obtained an accuracy of 87% with sequences generated with less than 40% of nodes visited. Larger sequences turned out to generate improved machine learning models. Our findings suggest that the proposed methodology could be extended to classify sequences and understand the mechanisms behind sequence generation.
翻訳日:2022-07-01 15:58:38 公開日:2022-06-30
# GitHub Copilot AIペアプログラマ:アセットか、責任か?

GitHub Copilot AI pair programmer: Asset or Liability? ( http://arxiv.org/abs/2206.15331v1 )

ライセンス: Link先を確認
Arghavan Moradi Dakhel, Vahid Majdinasab, Amin Nikanjam, Foutse Khomh, Michel C. Desmarais, Zhen Ming (Jack) Jiang(参考訳) 自動プログラム合成は、ソフトウェア工学における長年の夢である。 最近、有望なディープラーニング(DL)ベースのソリューションであるCopilotが、産業製品としてOpen AIとMicrosoftによって提案されている。 Copilotソリューションの正しさを評価し,その問題を報告する研究もあるが,開発者のメリットを効果的に理解するには,より経験的な評価が必要である。 本稿では,Copilotのプログラミングタスクにおける能力について検討する。(1)アルゴリズムの基本問題に対する正解と効率解の生成と再現,(2)Cpilotの提案した解と,一連のプログラミングタスクにおける人間のプログラマの解との比較である。 前者に対しては,基本データ構造のソートや実装など,コンピュータ科学における選択された基本問題の解決におけるCopilotの性能と機能を評価する。 後者では、人間によるソリューションによるプログラミング問題のデータセットが使用される。 その結果、Copilotは、ほとんどすべての基本的なアルゴリズム問題に対するソリューションを提供することができるが、いくつかのソリューションはバグが多く再現できない。 さらに、Copilotはソリューションを生成するために複数のメソッドを組み合わせるのにいくつかの困難がある。 Copilotを人間と比較すると、人間の解の正解率はCopilotの正解比よりも大きいが、Copilotが生成したバギー解は修復に要する労力が少なくなる。 Copilotは、特に先進的なプログラミングタスクにおける開発者のアシスタントとして、特にこの研究で強調されたように、制限を示す一方で、基本的なプログラミングタスクの予備的なソリューションを生成することができる。

Automatic program synthesis is a long-lasting dream in software engineering. Recently, a promising Deep Learning (DL) based solution, called Copilot, has been proposed by Open AI and Microsoft as an industrial product. Although some studies evaluate the correctness of Copilot solutions and report its issues, more empirical evaluations are necessary to understand how developers can benefit from it effectively. In this paper, we study the capabilities of Copilot in two different programming tasks: (1) generating (and reproducing) correct and efficient solutions for fundamental algorithmic problems, and (2) comparing Copilot's proposed solutions with those of human programmers on a set of programming tasks. For the former, we assess the performance and functionality of Copilot in solving selected fundamental problems in computer science, like sorting and implementing basic data structures. In the latter, a dataset of programming problems with human-provided solutions is used. The results show that Copilot is capable of providing solutions for almost all fundamental algorithmic problems, however, some solutions are buggy and non-reproducible. Moreover, Copilot has some difficulties in combining multiple methods to generate a solution. Comparing Copilot to humans, our results show that the correct ratio of human solutions is greater than Copilot's correct ratio, while the buggy solutions generated by Copilot require less effort to be repaired. While Copilot shows limitations as an assistant for developers especially in advanced programming tasks, as highlighted in this study and previous ones, it can generate preliminary solutions for basic programming tasks.
翻訳日:2022-07-01 15:58:21 公開日:2022-06-30
# オンラインTSPと予測

Online TSP with Predictions ( http://arxiv.org/abs/2206.15364v1 )

ライセンス: Link先を確認
Hsiao-Yu Hu, Hao-Ting Wei, Meng-Hsi Li, Kai-Min Chung and Chung-Shou Liao(参考訳) 我々は,近年の学習支援アルゴリズムの領域におけるエキサイティングな結果に触発されて,予測を用いたオンラインルーティング問題の研究を開始する。 ブラックボックス方式で予測を組み込んだオンラインアルゴリズムは、予測が正確でありながら理論的な保証を保ちながら既存のアルゴリズムよりも優れており、悲観的な最悪ケースの競合分析を克服するための一般的なフレームワークである。 本研究では,特に従来のオンライン旅行セールスマン問題 (OLTSP) について検討し,今後の要求を予測によって拡張する。 他の研究の予測モデルとは異なり、OLTSPの実際の要求は到着時刻と位置と関連付けられており、予測された要求と一致しないかもしれない。 我々の主な成果は、様々な予測モデルと設計アルゴリズムを研究し、異なる設定で最もよく知られた結果を改善することである。 さらに,提案した結果をオンラインダイヤル・ア・ライド問題に一般化する。

We initiate the study of online routing problems with predictions, inspired by recent exciting results in the area of learning-augmented algorithms. A learning-augmented online algorithm which incorporates predictions in a black-box manner to outperform existing algorithms if the predictions are accurate while otherwise maintaining theoretical guarantees even when the predictions are extremely erroneous is a popular framework for overcoming pessimistic worst-case competitive analysis. In this study, we particularly begin investigating the classical online traveling salesman problem (OLTSP), where future requests are augmented with predictions. Unlike the prediction models in other previous studies, each actual request in the OLTSP, associated with its arrival time and position, may not coincide with the predicted ones, which, as imagined, leads to a troublesome situation. Our main result is to study different prediction models and design algorithms to improve the best-known results in the different settings. Moreover, we generalize the proposed results to the online dial-a-ride problem.
翻訳日:2022-07-01 15:57:54 公開日:2022-06-30
# 経頭蓋超音波シミュレーションにおける古典的MRIと擬似CTマッピング

Classical and learned MR to pseudo-CT mappings for accurate transcranial ultrasound simulation ( http://arxiv.org/abs/2206.15441v1 )

ライセンス: Link先を確認
Maria Miscouridou, Jos\'e A. Pineda-Pardo, Charlotte J. Stagg, Bradley E. Treeby, Antonio Stanziola(参考訳) 経頭蓋超音波治療のためのモデルに基づく治療計画では、頭蓋骨の音響特性を頭部のx線ct画像からマッピングすることが一般的である。 磁気共鳴(MR)画像から擬似CT画像を生成する3つの手法をCTの代替として比較した。 畳み込みニューラルネットワーク(U-Net)は、T1強調時間またはゼロエチョ時間(ZTE)MR画像(それぞれtCTとzCT)から擬似CT画像を生成するために、ペア化されたMR-CT画像に基づいて訓練された。 ZTEから擬似CTへの直接マッピングも実装された(cCT)。 テストセットの擬似CT画像と接地真理CT画像を比較すると、平均絶対誤差は頭部全体で133,83,145個のハウンズフィールド単位(HU)であり、tCT,zCT,cCT画像の頭蓋内398,222,336個のHUであった。 また, 擬似CT画像を用いて超音波シミュレーションを行い, CTによるシミュレーションと比較した。 視覚野や運動野を標的とした環状アレイトランスデューサが用いられた。 模擬焦点圧力,焦点位置,焦点体積の平均差は, tCT画像に基づくシミュレーションでは9.9%, 1.5mm, 15.1%, zCTでは5.7%, 0.6mm, 5.7%, cCTでは6.7%, 0.9mm, 12.1%であった。 ZTEからマッピングした画像の改善結果は、頭蓋骨のコントラストを改善する画像シーケンスを使用することの利点を強調している。 以上の結果から,MR画像に基づく音響シミュレーションはCTと同等の精度が得られることが示された。

Model-based treatment planning for transcranial ultrasound therapy typically involves mapping the acoustic properties of the skull from an x-ray computed tomography (CT) image of the head. Here, three methods for generating pseudo-CT images from magnetic resonance (MR) images were compared as an alternative to CT. A convolutional neural network (U-Net) was trained on paired MR-CT images to generate pseudo-CT images from either T1-weighted or zero-echo time (ZTE) MR images (denoted tCT and zCT, respectively). A direct mapping from ZTE to pseudo-CT was also implemented (denoted cCT). When comparing the pseudo-CT and ground truth CT images for the test set, the mean absolute error was 133, 83, and 145 Hounsfield units (HU) across the whole head, and 398, 222, and 336 HU within the skull for the tCT, zCT, and cCT images, respectively. Ultrasound simulations were also performed using the generated pseudo-CT images and compared to simulations based on CT. An annular array transducer was used targeting the visual or motor cortex. The mean differences in the simulated focal pressure, focal position, and focal volume were 9.9%, 1.5 mm, and 15.1% for simulations based on the tCT images, 5.7%, 0.6 mm, and 5.7% for the zCT, and 6.7%, 0.9 mm, and 12.1% for the cCT. The improved results for images mapped from ZTE highlight the advantage of using imaging sequences which improve contrast of the skull bone. Overall, these results demonstrate that acoustic simulations based on MR images can give comparable accuracy to those based on CT.
翻訳日:2022-07-01 15:57:37 公開日:2022-06-30
# QUIDAM:量子化対応DNN加速器とモデル共探索のためのフレームワーク

QUIDAM: A Framework for Quantization-Aware DNN Accelerator and Model Co-Exploration ( http://arxiv.org/abs/2206.15463v1 )

ライセンス: Link先を確認
Ahmet Inci and Siri Garudanagiri Virupaksha and Aman Jain and Ting-Wu Chin and Venkata Vivek Thallam and Ruizhou Ding and Diana Marculescu(参考訳) 機械学習とシステムコミュニティは、カスタムディープニューラルネットワーク(DNN)アクセラレータ、さまざまな精度や量子化レベル、モデル圧縮技術を通じて、より高いエネルギー効率を達成するために努力しているため、正確で高速なパワー、パフォーマンス、領域モデルを持ちながら、量子化対応の処理要素をアクセラレーション空間に組み込むデザインスペース探索フレームワークが必要である。 本稿では,高パラメータ化量子化対応DNNアクセラレータであるQUIDAMとモデル共探索フレームワークを提案する。 我々のフレームワークは、ビット精度、処理要素タイプ、処理要素のスクラッチパッドサイズ、グローバルバッファサイズ、総処理要素数、DNN構成など、様々な設計選択のためのDNNアクセラレータの設計空間探索を容易にする。 その結果,異なるビット精度と処理要素のタイプは,面積とエネルギーあたりの性能に大きな違いをもたらすことがわかった。 具体的には,領域ごとのパフォーマンスとエネルギーがそれぞれ5倍と35倍に変化する,幅広い設計ポイントを特定する。 提案するフレームワークでは,軽量な処理要素が精度よく達成され,領域ごとの性能が最大5.7倍向上し,優れたINT16ベースの実装と比較してエネルギー効率が向上することを示す。 最後に, キャラクタライズドパワー, 性能, 面積モデルの効率性から, QUIDAMは, 高価な合成・キャラクタリゼーションの必要性を排除し, 設計探索プロセスを3~4桁高速化することができる。

As the machine learning and systems communities strive to achieve higher energy-efficiency through custom deep neural network (DNN) accelerators, varied precision or quantization levels, and model compression techniques, there is a need for design space exploration frameworks that incorporate quantization-aware processing elements into the accelerator design space while having accurate and fast power, performance, and area models. In this work, we present QUIDAM, a highly parameterized quantization-aware DNN accelerator and model co-exploration framework. Our framework can facilitate future research on design space exploration of DNN accelerators for various design choices such as bit precision, processing element type, scratchpad sizes of processing elements, global buffer size, number of total processing elements, and DNN configurations. Our results show that different bit precisions and processing element types lead to significant differences in terms of performance per area and energy. Specifically, our framework identifies a wide range of design points where performance per area and energy varies more than 5x and 35x, respectively. With the proposed framework, we show that lightweight processing elements achieve on par accuracy results and up to 5.7x more performance per area and energy improvement when compared to the best INT16 based implementation. Finally, due to the efficiency of the pre-characterized power, performance, and area models, QUIDAM can speed up the design exploration process by 3-4 orders of magnitude as it removes the need for expensive synthesis and characterization of each design.
翻訳日:2022-07-01 15:57:00 公開日:2022-06-30
# データ駆動決定アルゴリズムの正当性評価のための妥当性の検討

A Validity Perspective on Evaluating the Justified Use of Data-driven Decision-making Algorithms ( http://arxiv.org/abs/2206.14983v1 )

ライセンス: Link先を確認
Amanda Coston, Anna Kawakami, Haiyi Zhu, Ken Holstein, and Hoda Heidari(参考訳) この研究は、ハイテイクなドメインでデータ駆動アルゴリズムを構築する方法に関する議論において、妥当性を検討することを目的としている。 この目的に向けて,有効性理論から予測アルゴリズムへ重要な概念を翻訳する。 本稿では,予測アルゴリズムの妥当性を損なう問題定式化とデータ問題における共通課題について述べる。 これらの問題を、予測タスクの正当性とデータの適合性に関するリフレクションの促進と文書化を目的とした、一連のハイレベルな質問にまとめる。 この貢献は、特定の設計とデータ駆動アルゴリズムシステムの使用の正当性を評価するために、意思決定者、モデラー、潜在的影響のあるコミュニティのメンバーを含む現実世界の利害関係者と協力して、妥当性プロトコルを共同設計する基盤となる。

This work seeks to center validity considerations in deliberations around whether and how to build data-driven algorithms in high-stakes domains. Toward this end, we translate key concepts from validity theory to predictive algorithms. We describe common challenges in problem formulation and data issues that jeopardize the validity of predictive algorithms. We distill these issues into a series of high-level questions intended to promote and document reflections on the legitimacy of the predictive task and the suitability of the data. This contribution lays the foundation for co-designing a validity protocol, in collaboration with real-world stakeholders, including decision-makers, modelers, and members of potentially impacted communities, to critically evaluate the justifiability of specific designs and uses of data-driven algorithmic systems.
翻訳日:2022-07-01 15:55:03 公開日:2022-06-30
# 軌道規則化を伴うブリッジング平均場ゲームと正規化フロー

Bridging Mean-Field Games and Normalizing Flows with Trajectory Regularization ( http://arxiv.org/abs/2206.14990v1 )

ライセンス: Link先を確認
Han Huang and Jiajia Yu and Jie Chen and Rongjie Lai(参考訳) 平均場ゲーム(MFG)は、多数の相互作用エージェントを持つシステムのモデリングフレームワークである。 経済学、金融学、ゲーム理論に応用されている。 正規化フロー(NFs)は、ニューラルネットワークを用いてパラメータ化される可逆写像を用いてデータ可能性を計算する、深層生成モデルのファミリーである。 これらは密度モデリングとデータ生成に有用である。 両方のモデルで活発な研究が行われてきたが、両者の関係に言及する者は少なかった。 本研究では,NF の学習を MFG の解法としてコンテキスト化することにより,MFG と NF の関係を明らかにする。 これはMFG問題をエージェントトラジェクトリで再構成し、フローアーキテクチャによるMFGの離散化をパラメータ化することで達成される。 この接続により、我々は2つの研究方向を探索する。 まず,表現的NFアーキテクチャを用いて高次元のMFGを正確に解き,従来の数値法における次元性の呪いを脇取りする。 他の深層学習法と比較して、軌道に基づく定式化はニューラルネットワークの連続性方程式を符号化し、人口動態をより良く近似する。 第2に,NFのトレーニングを輸送コストで規則化し,モデルのリプシッツ境界の制御の有効性を示し,その結果,一般化性能が向上した。 様々な合成および実生活データセットに関する包括的実験を通して数値的な結果を示す。

Mean-field games (MFGs) are a modeling framework for systems with a large number of interacting agents. They have applications in economics, finance, and game theory. Normalizing flows (NFs) are a family of deep generative models that compute data likelihoods by using an invertible mapping, which is typically parameterized by using neural networks. They are useful for density modeling and data generation. While active research has been conducted on both models, few noted the relationship between the two. In this work, we unravel the connections between MFGs and NFs by contextualizing the training of an NF as solving the MFG. This is achieved by reformulating the MFG problem in terms of agent trajectories and parameterizing a discretization of the resulting MFG with flow architectures. With this connection, we explore two research directions. First, we employ expressive NF architectures to accurately solve high-dimensional MFGs, sidestepping the curse of dimensionality in traditional numerical methods. Compared with other deep learning approaches, our trajectory-based formulation encodes the continuity equation in the neural network, resulting in a better approximation of the population dynamics. Second, we regularize the training of NFs with transport costs and show the effectiveness on controlling the model's Lipschitz bound, resulting in better generalization performance. We demonstrate numerical results through comprehensive experiments on a variety of synthetic and real-life datasets.
翻訳日:2022-07-01 15:54:48 公開日:2022-06-30
# FeaRESS:ロバストエンドツーエンド音声認識における自己教師付き学習特徴を組み込むための特徴補充損失

FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised Learning Features in Robust End-to-end Speech Recognition ( http://arxiv.org/abs/2206.15056v1 )

ライセンス: Link先を確認
Szu-Jui Chen, Jiamin Xie, John H.L. Hansen(参考訳) 自己教師付き学習表現(sslr)は多くの分野で下流タスクに堅牢な機能をもたらした。 近年,いくつかのSSLRが自動音声認識(ASR)ベンチマークコーパスで有望な結果を示している。 しかし、以前の研究では、ASRモデルの入力機能として、単独のSSLRの性能しか示さなかった。 本研究では,エンド・ツー・エンド(E2E)ASRモデルにおける様々な融合手法を用いて,多様なSSLR組み合わせの有効性を検討する。 さらに,これらの抽出したSSLR間に相関関係を示す。 そこで我々は,デコリレーションのための特徴改善損失を提案し,入力特徴の集合を効率的に組み合わせる。 評価のために,提案した「FeaRLESS学習機能」は,WSJとFearless Steps Challenge(FSC)のコーパスにおいて,機能改善の損失のないシステムよりも優れていることを示す。

Self-supervised learning representations (SSLR) have resulted in robust features for downstream tasks in many fields. Recently, several SSLRs have shown promising results on automatic speech recognition (ASR) benchmark corpora. However, previous studies have only shown performance for solitary SSLRs as an input feature for ASR models. In this study, we propose to investigate the effectiveness of diverse SSLR combinations using various fusion methods within end-to-end (E2E) ASR models. In addition, we will show there are correlations between these extracted SSLRs. As such, we further propose a feature refinement loss for decorrelation to efficiently combine the set of input features. For evaluation, we show that the proposed 'FeaRLESS learning features' perform better than systems without the proposed feature refinement loss for both the WSJ and Fearless Steps Challenge (FSC) corpora.
翻訳日:2022-07-01 15:54:26 公開日:2022-06-30
# リンク予測におけるトポロジ的特徴の最大化

The maximum capability of a topological feature in link prediction ( http://arxiv.org/abs/2206.15101v1 )

ライセンス: Link先を確認
Ran Yijun, Xu Xiao-Ke, Jia Tao(参考訳) リンク予測は、直接見えないネットワークのリンクを予測し、生物学的および社会システムに深く応用することを目的としている。 このタスクにおけるトポロジ的特徴の集中的利用にもかかわらず、特定の特徴がどのようにして欠落したリンクを推測できるかは明らかでない。 ここでは、トポロジカルな特徴の最大能力は、指標が特徴を測る方法とは独立に、単純な数学的表現に従うことを示す。 したがって、あるトポロジ的特徴に関連するインデックスの族は同じ性能限界を共有する。 教師なし予測(supervised prediction)は、教師なし予測(unsupervised prediction)よりも優れた結果をもたらす。 パターンの普遍性は550個の構造的多様性を持つネットワークによって実証的に検証され、リンク予測におけるトポロジ的特徴に関連するネットワーク特性の分析や特徴選択に適用できる。

Link prediction aims to predict links of a network that are not directly visible, with profound applications in biological and social systems. Despite intensive utilization of the topological feature in this task, it is unclear to what extent a particular feature can be leveraged to infer missing links. Here, we show that the maximum capability of a topological feature follows a simple mathematical expression, which is independent of how an index gauges the feature. Hence, a family of indexes associated with one topological feature shares the same performance limit. A feature's capability is lifted in the supervised prediction, which in general gives rise to better results compared with unsupervised prediction. The universality of the pattern uncovered is empirically verified by 550 structurally diverse networks, which can be applied to feature selection and the analysis of network characteristics associated with a topological feature in link prediction.
翻訳日:2022-07-01 15:54:11 公開日:2022-06-30
# 標準ハードウェアビデオコーデックを用いた圧縮のためのニューラルネットワーク支援深度マップパッキング

Neural Network Assisted Depth Map Packing for Compression Using Standard Hardware Video Codecs ( http://arxiv.org/abs/2206.15183v1 )

ライセンス: Link先を確認
Matti Siekkinen and Teemu K\"am\"ar\"ainen(参考訳) 深度マップは様々なグラフィックスレンダリングと処理操作で必要とされる。 深度マップのストリーミングは、そのような操作を分散システムで実行する場合に必要であり、多くの場合、高速な圧縮を必要とする。 標準的なビデオコーデックのハードウェア実装はリソース制約のあるデバイスでも比較的高解像度とフレームレートの組み合わせを可能にするが、残念ながらこれらの実装はRGB+depth拡張をサポートしていない。 しかし、深度マップをRGBまたはYUVフレームにパックすることで、深度圧縮に使用できる。 深度マップパッキングと標準ビデオコーデックの符号化を組み合わせた深度マップ圧縮について検討した。 本研究では, 深度マップが充填された精度が, ビットレート制約時のパッキングスキームと損失圧縮の組み合わせによる誤差に大きく, 非自明な影響を与えることを示す。 そこで我々は,ビットレート制約が与えられた深度マップの最適精度を予測するニューラルネットワークモデルを用いて,可変精度パッキング手法を提案する。 このモデルは最適予測に近い結果をもたらし、現代的なハードウェアを用いて非常に低いオーバーヘッドでゲームエンジンに統合できることを実証する。

Depth maps are needed by various graphics rendering and processing operations. Depth map streaming is often necessary when such operations are performed in a distributed system and it requires in most cases fast performing compression, which is why video codecs are often used. Hardware implementations of standard video codecs enable relatively high resolution and framerate combinations, even on resource constrained devices, but unfortunately those implementations do not currently support RGB+depth extensions. However, they can be used for depth compression by first packing the depth maps into RGB or YUV frames. We investigate depth map compression using a combination of depth map packing followed by encoding with a standard video codec. We show that the precision at which depth maps are packed has a large and nontrivial impact on the resulting error caused by the combination of the packing scheme and lossy compression when bitrate is constrained. Consequently, we propose a variable precision packing scheme assisted by a neural network model that predicts the optimal precision for each depth map given a bitrate constraint. We demonstrate that the model yields near optimal predictions and that it can be integrated into a game engine with very low overhead using modern hardware.
翻訳日:2022-07-01 15:53:54 公開日:2022-06-30
# 非侵入的負荷モニタリングに基づくプライバシー保全型家計負荷予測--連合型ディープラーニングアプローチ

Privacy-preserving household load forecasting based on non-intrusive load monitoring: A federated deep learning approach ( http://arxiv.org/abs/2206.15192v1 )

ライセンス: Link先を確認
Xinxin Zhou, Jingru Feng, Jian Wang, Jianhong Pan(参考訳) 電力系統の分析とグリッド計画には負荷予測が不可欠である。 そこで我々はまず,フェデレートされたディープラーニングと非侵入的負荷監視(NILM)に基づく家庭用負荷予測手法を提案する。 私たちが知る限り、NILMに基づく家庭負荷予測における連邦学習(FL)に関する最初の研究である。 この方法では、非侵入負荷監視により統合電力を個々のデバイスパワーに分解し、連合ディープラーニングモデルを用いて個々の家電のパワーを別々に予測する。 最後に、個々の家電の予測電力値を集約して総電力予測を形成する。 具体的には、電気機器を別々に予測して予測電力を得ることにより、単一の装置の電力信号に強い時間依存に起因する誤差を回避する。 また, 集中型ディープラーニング予測モデルでは, 電力データを持つ世帯所有者は, 地域電力データではなく, 地域モデルのパラメータを共有し, 家庭ユーザデータのプライバシを保証している。 その結果,提案手法は,集約信号全体を直接予測する従来の手法よりも優れた予測効果が得られた。 さらに, この手法の有効性を検証するために, 各種フェデレーション学習環境における実験を設計, 実施した。

Load forecasting is very essential in the analysis and grid planning of power systems. For this reason, we first propose a household load forecasting method based on federated deep learning and non-intrusive load monitoring (NILM). For all we know, this is the first research on federated learning (FL) in household load forecasting based on NILM. In this method, the integrated power is decomposed into individual device power by non-intrusive load monitoring, and the power of individual appliances is predicted separately using a federated deep learning model. Finally, the predicted power values of individual appliances are aggregated to form the total power prediction. Specifically, by separately predicting the electrical equipment to obtain the predicted power, it avoids the error caused by the strong time dependence in the power signal of a single device. And in the federated deep learning prediction model, the household owners with the power data share the parameters of the local model instead of the local power data, guaranteeing the privacy of the household user data. The case results demonstrate that the proposed approach provides a better prediction effect than the traditional methodology that directly predicts the aggregated signal as a whole. In addition, experiments in various federated learning environments are designed and implemented to validate the validity of this methodology.
翻訳日:2022-07-01 15:53:34 公開日:2022-06-30
# 波形領域における多チャンネル音源分離のための入射型空間フィルタ

Implicit Neural Spatial Filtering for Multichannel Source Separation in the Waveform Domain ( http://arxiv.org/abs/2206.15423v1 )

ライセンス: Link先を確認
Dejan Markovic, Alexandre Defossez, Alexander Richard(参考訳) 本稿では,動的音響シーンにおける広い空間的位置から移動音源を分離できる単一ステージカジュアル波形から波形へのマルチチャネルモデルを提案する。 対象音と干渉音を含む2つの空間領域にシーンを分割する。 モデルはエンドツーエンドで訓練され、従来の処理や手作りの空間的特徴の使用に基づくコンポーネントなしで暗黙的に空間的処理を行う。 提案モデルは,実世界のデータセット上で評価し,oracle beamformerの性能と一致し,最先端のシングルチャネル拡張ネットワークであることを示す。

We present a single-stage casual waveform-to-waveform multichannel model that can separate moving sound sources based on their broad spatial locations in a dynamic acoustic scene. We divide the scene into two spatial regions containing, respectively, the target and the interfering sound sources. The model is trained end-to-end and performs spatial processing implicitly, without any components based on traditional processing or use of hand-crafted spatial features. We evaluate the proposed model on a real-world dataset and show that the model matches the performance of an oracle beamformer followed by a state-of-the-art single-channel enhancement network.
翻訳日:2022-07-01 15:52:18 公開日:2022-06-30
# (参考訳) Dressing Avatars: 物理的にシミュレートされた衣服のための深部フォトリアリスティックな外観

Dressing Avatars: Deep Photorealistic Appearance for Physically Simulated Clothing ( http://arxiv.org/abs/2206.15470v1 )

ライセンス: CC BY 4.0
Donglai Xiang, Timur Bagautdinov, Tuur Stuyck, Fabian Prada, Javier Romero, Weipeng Xu, Shunsuke Saito, Jingfan Guo, Breannan Smith, Takaaki Shiratori, Yaser Sheikh, Jessica Hodgins, Chenglei Wu(参考訳) アニマタブルフルボディアバターの開発における最近の進歩にもかかわらず、衣服の現実的なモデリング - 人間の自己表現の中核的な側面の1つは、オープンな課題である。 最先端の物理シミュレーション手法は、インタラクティブな速度でリアルに動作可能な衣服形状を生成することができる。 しかし、フォトリアリスティックな外観のモデリングは通常、インタラクティブなアプリケーションには高価すぎる物理ベースのレンダリングを必要とする。 一方、データ駆動の深層外見モデルは、現実的な外観を効率よく生成することができるが、高度にダイナミックな衣服の幾何学を合成し、挑戦的な体装構成を扱うのに苦労している。 そこで本研究では,現実的な衣服の動態と実世界のデータから学習したフォトリアリスティックな外観の両方を示す衣服の明示的なモデリングによるポーズ駆動アバターを提案する。 重要なアイデアは、明示的な幾何学の上に機能するニューラルネットワークの外観モデルを導入することだ。列車では高忠実度追跡を使用し、アニメーション時には物理シミュレーションされた幾何学に依存している。 我々の重要な貢献は物理的にインスパイアされた外観ネットワークであり、視界依存的かつダイナミックな影効果を持つ光リアルな外観を生成できる。 本モデルについて徹底的な評価を行い,様々な種類の衣服について多様なアニメーション結果を示す。 これまでのフォトリアリスティックフルボディアバターの研究とは異なり、我々のアプローチはよりリッチなダイナミックスとよりリアルな変形を生み出すことができる。 また,本定式化により,様々な人物のアバターによる衣服の使用が自然に可能となり,かつ完全にアニメーション化され,初めて,新しい衣服を用いたフォトリアリスティックなアバターが実現できることを実証した。

Despite recent progress in developing animatable full-body avatars, realistic modeling of clothing - one of the core aspects of human self-expression - remains an open challenge. State-of-the-art physical simulation methods can generate realistically behaving clothing geometry at interactive rate. Modeling photorealistic appearance, however, usually requires physically-based rendering which is too expensive for interactive applications. On the other hand, data-driven deep appearance models are capable of efficiently producing realistic appearance, but struggle at synthesizing geometry of highly dynamic clothing and handling challenging body-clothing configurations. To this end, we introduce pose-driven avatars with explicit modeling of clothing that exhibit both realistic clothing dynamics and photorealistic appearance learned from real-world data. The key idea is to introduce a neural clothing appearance model that operates on top of explicit geometry: at train time we use high-fidelity tracking, whereas at animation time we rely on physically simulated geometry. Our key contribution is a physically-inspired appearance network, capable of generating photorealistic appearance with view-dependent and dynamic shadowing effects even for unseen body-clothing configurations. We conduct a thorough evaluation of our model and demonstrate diverse animation results on several subjects and different types of clothing. Unlike previous work on photorealistic full-body avatars, our approach can produce much richer dynamics and more realistic deformations even for loose clothing. We also demonstrate that our formulation naturally allows clothing to be used with avatars of different people while staying fully animatable, thus enabling, for the first time, photorealistic avatars with novel clothing.
翻訳日:2022-07-01 15:51:19 公開日:2022-06-30
# 準メトリックの学習と学習について

On the Learning and Learnablity of Quasimetrics ( http://arxiv.org/abs/2206.15478v1 )

ライセンス: Link先を確認
Tongzhou Wang, Phillip Isola(参考訳) 私たちの世界は非対称性でいっぱいです。 重力と風は、戻ってくるよりも簡単に着くことができる。 系図や引用グラフなどのソーシャルアーティファクトは本質的に指向されている。 強化学習と制御では、最適目標獲得戦略はめったに逆転しない(対称)。 これらの非対称構造に支持される距離関数は準計量と呼ばれる。 それらの共通した外観にもかかわらず、準メトリックの学習に関する研究はほとんど行われていない。 理論解析により,非拘束多層パーセプトロン(mlps)を含む一般的な学習アルゴリズムでは,訓練データと整合した準メトリックを学習できないことが明らかとなった。 対照的に,提案したPoisson Quasimetric Embedding (PQE) は,勾配に基づく最適化で学習可能であり,高い性能保証を享受できる最初の準メトリック学習式である。 ランダムグラフ、ソーシャルグラフ、オフラインQ-ラーニングの実験は、多くの共通ベースラインに対する効果を示す。

Our world is full of asymmetries. Gravity and wind can make reaching a place easier than coming back. Social artifacts such as genealogy charts and citation graphs are inherently directed. In reinforcement learning and control, optimal goal-reaching strategies are rarely reversible (symmetrical). Distance functions supported on these asymmetrical structures are called quasimetrics. Despite their common appearance, little research has been done on the learning of quasimetrics. Our theoretical analysis reveals that a common class of learning algorithms, including unconstrained multilayer perceptrons (MLPs), provably fails to learn a quasimetric consistent with training data. In contrast, our proposed Poisson Quasimetric Embedding (PQE) is the first quasimetric learning formulation that both is learnable with gradient-based optimization and enjoys strong performance guarantees. Experiments on random graphs, social graphs, and offline Q-learning demonstrate its effectiveness over many common baselines.
翻訳日:2022-07-01 15:25:27 公開日:2022-06-30
# 効果的なツール利用のための物理効果の理解

Understanding Physical Effects for Effective Tool-use ( http://arxiv.org/abs/2206.14998v1 )

ライセンス: Link先を確認
Zeyu Zhang, Ziyuan Jiao, Weiqi Wang, Yixin Zhu, Song-Chun Zhu, Hangxin Liu(参考訳) 本稿では,最小限の協力力で効果的なツール・ユース・ストラテジーを創出し,トレーニングとは異なる対象を扱えるロボット学習計画フレームワークを提案する。 有限要素法(fem)ベースのシミュレータを用いて、観測されたツール使用イベントに対して、細粒度で連続的な視覚および物理的効果を再現し、その効果に寄与する重要な物理特性を反復的深化記号回帰(idsr)アルゴリズムにより同定する。 さらに,ロボットとツール固有の運動学とダイナミクスを統合し,学習特性を具現化する効果的な軌道を生成するための最適制御に基づく運動計画手法を考案する。 シミュレーションにより,提案手法は2つの例題タスクで観察された手法と大きく異なる,より効果的なツール利用戦略を生成できることを実証する。

We present a robot learning and planning framework that produces an effective tool-use strategy with the least joint efforts, capable of handling objects different from training. Leveraging a Finite Element Method (FEM)-based simulator that reproduces fine-grained, continuous visual and physical effects given observed tool-use events, the essential physical properties contributing to the effects are identified through the proposed Iterative Deepening Symbolic Regression (IDSR) algorithm. We further devise an optimal control-based motion planning scheme to integrate robot- and tool-specific kinematics and dynamics to produce an effective trajectory that enacts the learned properties. In simulation, we demonstrate that the proposed framework can produce more effective tool-use strategies, drastically different from the observed ones in two exemplar tasks.
翻訳日:2022-07-01 15:25:14 公開日:2022-06-30
# 離散価値学習による歌詞からの解釈可能なメロディ生成

Interpretable Melody Generation from Lyrics with Discrete-Valued Adversarial Training ( http://arxiv.org/abs/2206.15027v1 )

ライセンス: Link先を確認
Wei Duan, Zhe Zhang, Yi Yu, Keizo Oyama(参考訳) 歌詞からメロディを生成することは、人工知能と音楽の分野で興味深いが難しい課題である。 しかし、入力歌詞と生成したメロディの一貫性を維持することが難しいため、前作の質が低下する。 本稿では,ユーザと対話して生成プロセスを理解し,所望の曲を再現する,解釈可能な歌詞・メロディ生成システムを提案する。 歌詞にマッチするメロディ生成の信頼性を向上させるため、相互情報を利用して歌詞と生成されたメロディの一貫性を強化する。 Gumbel-Softmaxは、GAN(Generative Adversarial Networks)によって離散的な音楽属性を生成する非微分可能性問題を解決するために利用される。 さらに、生成器が出力する予測確率を利用して音楽属性を推薦する。 歌詞からメロディ生成システムと連動して、ユーザーは生成されたAI曲を聴くだけでなく、推奨音楽属性から選択して新しい曲を再生することができる。

Generating melody from lyrics is an interesting yet challenging task in the area of artificial intelligence and music. However, the difficulty of keeping the consistency between input lyrics and generated melody limits the generation quality of previous works. In our proposal, we demonstrate our proposed interpretable lyrics-to-melody generation system which can interact with users to understand the generation process and recreate the desired songs. To improve the reliability of melody generation that matches lyrics, mutual information is exploited to strengthen the consistency between lyrics and generated melodies. Gumbel-Softmax is exploited to solve the non-differentiability problem of generating discrete music attributes by Generative Adversarial Networks (GANs). Moreover, the predicted probabilities output by the generator is utilized to recommend music attributes. Interacting with our lyrics-to-melody generation system, users can listen to the generated AI song as well as recreate a new song by selecting from recommended music attributes.
翻訳日:2022-07-01 15:24:57 公開日:2022-06-30
# 3次元環境におけるモラルトラスト吸気性能の評価

Evaluation of Performance-Trust vs Moral-Trust Violation in 3D Environment ( http://arxiv.org/abs/2206.15430v1 )

ライセンス: Link先を確認
Maitry Ronakbhai Trivedi, Zahra Rezaei Khavas, Paul Robinette(参考訳) ある程度の自律性を持ったロボットが、特定の目標を達成するために人間と対話する人間-ロボットインタラクションは、近年進歩している。 自律型ロボットの導入と近い将来のロボットの普及の可能性により、人間がロボットと対話しながらロボットの意図を理解することが人間ロボット信頼の発展を促進することが重要である。 近年研究者によって導入された信頼の新たな概念化は、人間とロボットのインタラクションに対する信頼を多次元的な性質と考えている。 信頼に起因する2つの主な側面は、パフォーマンス信頼とモラル信頼である。 本研究の目的は,探索救助シナリオにおけるパフォーマンストラスト違反とモラルトラスト違反の結果を調べる実験を設計することである。 我々は、パフォーマンス・トラスト違反とモラル・トラスト違反による2つの類似したロボットの失敗が、人間の信頼に異なる影響を与えているかどうかを確認したい。 これに加えて、グリッドワールドシナリオ(2D環境)から現実的なシミュレーション(3D環境)へのインタフェースのモダリティ変更が、タスクの人間の知覚とロボットの失敗が人間の信頼に与える影響を調査できるインターフェースを開発することを計画している。

Human-Robot Interaction, in which a robot with some level of autonomy interacts with a human to achieve a specific goal has seen much recent progress. With the introduction of autonomous robots and the possibility of widespread use of those in near future, it is critical that humans understand the robot's intention while interacting with them as this will foster the development of human-robot trust. The new conceptualization of trust which had been introduced by researchers in recent years considers trust in Human-Robot Interaction to be a multidimensional nature. Two main aspects which are attributed to trust are performance trust and moral trust. We aim to design an experiment to investigate the consequences of performance-trust violation and moral-trust violation in a search and rescue scenario. We want to see if two similar robot failures, one caused by a performance-trust violation and the other by a moral-trust violation have distinct effects on human trust. In addition to this, we plan to develop an interface that allows us to investigate whether altering the interface's modality from grid-world scenario (2D environment) to realistic simulation (3D environment) affects human perception of the task and the effects of the robot's failure on human trust.
翻訳日:2022-07-01 15:24:24 公開日:2022-06-30
# PVT-COV19D 新型コロナウイルス診断用ピラミッド型ヴィジュアルトランス

PVT-COV19D: Pyramid Vision Transformer for COVID-19 Diagnosis ( http://arxiv.org/abs/2206.15069v1 )

ライセンス: Link先を確認
Lilang Zheng, Jiaxuan Fang, Xiaorun Tang, Hanzhang Li, Jiaxin Fan, Tianyi Wang, Rui Zhou, Zhaoyan Yan(参考訳) 新型コロナウイルス(covid-19)の流行に伴い、近年、多くの関連する研究がなされている。 肺CT画像に基づく自動診断フレームワークPVT-COV19Dを提案する。 画像入力の異なる寸法に対応するため、まずTransformerモデルを用いて画像を分類し、次に正規分布に従ってデータセット内の画像をサンプリングし、その結果を修正PVTv2モデルに入力してトレーニングを行った。 cov19-ct-dbデータセットにおける多数の実験が提案手法の有効性を示している。

With the outbreak of COVID-19, a large number of relevant studies have emerged in recent years. We propose an automatic COVID-19 diagnosis framework based on lung CT scan images, the PVT-COV19D. In order to accommodate the different dimensions of the image input, we first classified the images using Transformer models, then sampled the images in the dataset according to normal distribution, and fed the sampling results into the modified PVTv2 model for training. A large number of experiments on the COV19-CT-DB dataset demonstrate the effectiveness of the proposed method.
翻訳日:2022-07-01 15:21:12 公開日:2022-06-30
# 新型コロナウイルス検出と重症度予測のためのカスタムプリトレーニングと3d-convnextアーキテクチャ

Custom Pretrainings and Adapted 3D-ConvNeXt Architecture for COVID Detection and Severity Prediction ( http://arxiv.org/abs/2206.15073v1 )

ライセンス: Link先を確認
Daniel Kienzle, Julian Lorenz, Robin Sch\"on, Katja Ludwig, Rainer Lienhart(参考訳) COVIDは呼吸器系に強い影響を与えるため、肺CTは患者の健康状態の分析に使用できる。 本稿では,3次元ctスキャンを用いた肺障害の重症度予測と感染検出のためのニューラルネットワークを提案する。 そこで,最近のConvNeXtモデルを用いて3次元データ処理を行う。 さらに,3次元CTデータの処理能力を向上させるために,様々な事前学習手法を導入する。 モデルの性能をテストするため,第2回cov19dコンペティションに参加し,重症度予測と感染検出を行った。

Since COVID strongly affects the respiratory system, lung CT scans can be used for the analysis of a patients health. We introduce an neural network for the prediction of the severity of lung damage and the detection of infection using three-dimensional CT-scans. Therefore, we adapt the recent ConvNeXt model to process three-dimensional data. Furthermore, we introduce different pretraining methods specifically adjusted to improve the models ability to handle three-dimensional CT-data. In order to test the performance of our model, we participate in the 2nd COV19D Competition for severity prediction and infection detection.
翻訳日:2022-07-01 15:21:03 公開日:2022-06-30
# 適応型クロスフォーム学習によるスケルトンベース行動認識

Skeleton-based Action Recognition via Adaptive Cross-Form Learning ( http://arxiv.org/abs/2206.15085v1 )

ライセンス: Link先を確認
Xuanhan Wang, Yan Dai, Lianli Gao, Jingkuan Song(参考訳) スケルトンをベースとした行動認識は、骨格の配列をアクションカテゴリに投影することを目的としており、骨格の配列は事前に検出された複数の点から導かれる。 グラフ畳み込みネットワーク(GCN)によるシングルフォームスケルトン探索に重点を置いていた従来の手法と比較すると、既存の手法は相補的なキューによるマルチフォームスケルトンを活用することでGCNを改善する傾向にある。 しかし、これらの手法(GCNの適応構造やモデルアンサンブル)は、トレーニングと推論の段階で全ての形態の骨格を共存させる必要があり、実際の生活における典型的な状況は推論のための部分的な形態の存在である。 この問題に対処するため, モデル容量を変化させることなく, シングルフォームスケルトンから補完表現を生成するためのGCNを適切に設計した適応型クロスフォーム学習(ACFL)を提案する。 具体的には、ACFLの各GCNモデルは、単一の形態の骨格から行動表現を学ぶだけでなく、他の形態の骨格から派生した有用な表現を適応的に模倣する。 このようにして、各GCNは、学んだことの強化方法を学び、モデルポテンシャルを利用してアクション認識を促進することができる。 NTU-RGB+D 120, NTU-RGB+D 60, UAV-Human の3つの試行的な実験により,提案手法の有効性と一般化性を実証した。 具体的には、ACFLは様々なGCNモデル(CTR-GCN、MS-G3D、Shift-GCN)を著しく改善し、骨格に基づく行動認識のための新しい記録を達成している。

Skeleton-based action recognition aims to project skeleton sequences to action categories, where skeleton sequences are derived from multiple forms of pre-detected points. Compared with earlier methods that focus on exploring single-form skeletons via Graph Convolutional Networks (GCNs), existing methods tend to improve GCNs by leveraging multi-form skeletons due to their complementary cues. However, these methods (either adapting structure of GCNs or model ensemble) require the co-existence of all forms of skeletons during both training and inference stages, while a typical situation in real life is the existence of only partial forms for inference. To tackle this issue, we present Adaptive Cross-Form Learning (ACFL), which empowers well-designed GCNs to generate complementary representation from single-form skeletons without changing model capacity. Specifically, each GCN model in ACFL not only learns action representation from the single-form skeletons, but also adaptively mimics useful representations derived from other forms of skeletons. In this way, each GCN can learn how to strengthen what has been learned, thus exploiting model potential and facilitating action recognition as well. Extensive experiments conducted on three challenging benchmarks, i.e., NTU-RGB+D 120, NTU-RGB+D 60 and UAV-Human, demonstrate the effectiveness and generalizability of the proposed method. Specifically, the ACFL significantly improves various GCN models (i.e., CTR-GCN, MS-G3D, and Shift-GCN), achieving a new record for skeleton-based action recognition.
翻訳日:2022-07-01 15:20:55 公開日:2022-06-30
# BoxGraph: 3D LiDARによる意味的位置認識と詩推定

BoxGraph: Semantic Place Recognition and Pose Estimation from 3D LiDAR ( http://arxiv.org/abs/2206.15154v1 )

ライセンス: Link先を確認
Georgi Pramatarov, Daniele De Martini, Matthew Gadd, Paul Newman(参考訳) 本稿では,インスタンス分割とグラフマッチングに基づくLiDAR点雲を用いた極めて堅牢で軽量なローカライゼーションについて述べる。 我々は、各頂点がオブジェクトインスタンスに対応し、その形状を符号化する意味的に特定されたコンポーネントの完全連結グラフとして3Dポイントクラウドをモデル化する。 グラフ間の最適な頂点アソシエーションは、6自由度(DoF)の完全なポーズ推定と類似度の測定による位置認識を可能にする。 この表現は非常に簡潔で、最先端技術に対して25倍の大きさの地図を凝縮し、3kBで1.4MBのレーザースキャンを表現できる。 我々は,semantickittiデータセットにおけるシステムの有効性を検証する。そこでは,平均88.4%のリコールを,次に最も近い競合相手が64.9%の精度で100%精度で達成する。 また、10cm/0.33degの中央値誤差で6dofのポーズを推定する正確なメトリックポーズ推定性能を示す。

This paper is about extremely robust and lightweight localisation using LiDAR point clouds based on instance segmentation and graph matching. We model 3D point clouds as fully-connected graphs of semantically identified components where each vertex corresponds to an object instance and encodes its shape. Optimal vertex association across graphs allows for full 6-Degree-of-Freedom (DoF) pose estimation and place recognition by measuring similarity. This representation is very concise, condensing the size of maps by a factor of 25 against the state-of-the-art, requiring only 3kB to represent a 1.4MB laser scan. We verify the efficacy of our system on the SemanticKITTI dataset, where we achieve a new state-of-the-art in place recognition, with an average of 88.4% recall at 100% precision where the next closest competitor follows with 64.9%. We also show accurate metric pose estimation performance - estimating 6-DoF pose with median errors of 10 cm and 0.33 deg.
翻訳日:2022-07-01 15:20:25 公開日:2022-06-30
# 単眼RGB-Dカメラによる動的シーンのニューラル表面再構成

Neural Surface Reconstruction of Dynamic Scenes with Monocular RGB-D Camera ( http://arxiv.org/abs/2206.15258v1 )

ライセンス: Link先を確認
Hongrui Cai, Wanquan Feng, Xuetao Feng, Yan Wang, Juyong Zhang(参考訳) モノクラーRGB-Dカメラから動的シーンの高忠実度形状と動きを復元するテンプレートレス手法であるNeural-DynamicReconstruction (NDR)を提案する。 NDRでは, 表面の表現とレンダリングにニューラル暗黙関数を導入し, 捕捉した色と深さをフル活用して, 表面と変形を協調的に最適化する。 非剛性変形を表現・制約するために,任意の2フレーム間のサイクル整合性を自動的に満たすニューラル非可逆変形ネットワークを提案する。 動的シーンの表面トポロジーが時間とともに変化する可能性があることを考慮し、融合フレームのトポロジー不変対応を構築するためにトポロジー認識戦略を用いる。 ndrはまた、カメラのポーズをグローバルに最適化する。 公開データセットと収集データセットの実験により、NDRは既存の単分子動的再構成法より優れていることが示された。

We propose Neural-DynamicReconstruction (NDR), a template-free method to recover high-fidelity geometry and motions of a dynamic scene from a monocular RGB-D camera. In NDR, we adopt the neural implicit function for surface representation and rendering such that the captured color and depth can be fully utilized to jointly optimize the surface and deformations. To represent and constrain the non-rigid deformations, we propose a novel neural invertible deforming network such that the cycle consistency between arbitrary two frames is automatically satisfied. Considering that the surface topology of dynamic scene might change over time, we employ a topology-aware strategy to construct the topology-variant correspondence for the fused frames. NDR also further refines the camera poses in a global optimization manner. Experiments on public datasets and our collected dataset demonstrate that NDR outperforms existing monocular dynamic reconstruction methods.
翻訳日:2022-07-01 15:18:54 公開日:2022-06-30
# 野生におけるカテゴリーレベル6dオブジェクトポーズ推定--半教師付き学習アプローチと新しいデータセット

Category-Level 6D Object Pose Estimation in the Wild: A Semi-Supervised Learning Approach and A New Dataset ( http://arxiv.org/abs/2206.15436v1 )

ライセンス: Link先を確認
Yang Fu and Xiaolong Wang(参考訳) 6dオブジェクトポーズ推定は、コンピュータビジョンとロボティクス研究における根本的な問題の1つである。 同じカテゴリ内の新しいオブジェクトインスタンス,すなわちカテゴリレベル6Dのポーズ推定に対するポーズ推定の一般化に向けた最近の取り組みが数多く行われているが,アノテートされたデータ数が限られているため,制約のある環境では制限されている。 本稿では,多種多様なインスタンスとバックグラウンドを持つ新しいラベルなしrgbdオブジェクトビデオデータセットであるwild6dを収集する。 本研究では,このデータを用いて,半教師付き学習によるカテゴリーレベルの6次元物体ポーズ推定を一般化する。 本研究では,合成データと自由接地グラフを用いて,ポーズ推定ネットワークの再現のためのレンダリングと呼ばれる新しいモデルを提案し,実世界データに対するシルエットマッチング目的関数を提案する。 実際のデータに3Dアノテーションを使わずに、我々のメソッドは、以前のデータセットとWild6Dテストセット(評価のための手動アノテーションを含む)の最先端メソッドよりも大きなマージンでパフォーマンスします。 Wild6Dデータを使ったプロジェクトページ: https://oasisyang.github.io/semi-pose

6D object pose estimation is one of the fundamental problems in computer vision and robotics research. While a lot of recent efforts have been made on generalizing pose estimation to novel object instances within the same category, namely category-level 6D pose estimation, it is still restricted in constrained environments given the limited number of annotated data. In this paper, we collect Wild6D, a new unlabeled RGBD object video dataset with diverse instances and backgrounds. We utilize this data to generalize category-level 6D object pose estimation in the wild with semi-supervised learning. We propose a new model, called Rendering for Pose estimation network RePoNet, that is jointly trained using the free ground-truths with the synthetic data, and a silhouette matching objective function on the real-world data. Without using any 3D annotations on real data, our method outperforms state-of-the-art methods on the previous dataset and our Wild6D test set (with manual annotations for evaluation) by a large margin. Project page with Wild6D data: https://oasisyang.github.io/semi-pose .
翻訳日:2022-07-01 15:18:38 公開日:2022-06-30
# 非コントラストctスキャンにおける急性期脳卒中梗塞分節の非対称性ジエンタングルメントネットワーク

Asymmetry Disentanglement Network for Interpretable Acute Ischemic Stroke Infarct Segmentation in Non-Contrast CT Scans ( http://arxiv.org/abs/2206.15445v1 )

ライセンス: Link先を確認
Haomiao Ni, Yuan Xue, Kelvin Wong, John Volpi, Stephen T.C. Wong, James Z. Wang, Xiaolei Huang(参考訳) 非造影CT(NCCT)画像における正確な梗塞分割は、コンピュータ支援急性期脳梗塞(AIS)評価への重要なステップである。 臨床において、両側対称な脳半球の比較は通常、病的異常の特定に使用される。 最近の研究はAISセグメンテーションを支援するための非対称性を探求している。 しかし、以前の対称性に基づくほとんどの研究は、AISへの貢献を評価する際に異なる種類の対称性を混合した。 本稿では,より効果的かつ解釈可能なAISセグメンテーションのために,NCCTにおける病理症状と内因性解剖症状を自動的に分離する新しい非対称性ディスタングルネットワーク(ADN)を提案する。 ADNは入力NCCTに基づいてまず、異なるタイプの3次元非対称性写像を生成する非対称性非絡み合わせを行う。 次に、合成、内在的非対称性補償及び病理的非対称性関連NCCTボリュームを生成し、後にセグメンテーションネットワークへの入力として使用する。 ADNのトレーニングは、ドメイン知識を取り入れ、臨床的に有意な病態非対称性抽出を促進するために、組織型意識正規化損失関数を採用する。 教師なしの3D変換ネットワークと組み合わせて、ADNはパブリックNCCTデータセット上で最先端のAISセグメンテーション性能を達成する。 優れた性能に加えて,臨床に解釈可能な非対称性マップもAIS評価の理解を深めるための洞察を与えることができると考えている。 私たちのコードはhttps://github.com/nihaomiao/miccai22_adnで利用可能です。

Accurate infarct segmentation in non-contrast CT (NCCT) images is a crucial step toward computer-aided acute ischemic stroke (AIS) assessment. In clinical practice, bilateral symmetric comparison of brain hemispheres is usually used to locate pathological abnormalities. Recent research has explored asymmetries to assist with AIS segmentation. However, most previous symmetry-based work mixed different types of asymmetries when evaluating their contribution to AIS. In this paper, we propose a novel Asymmetry Disentanglement Network (ADN) to automatically separate pathological asymmetries and intrinsic anatomical asymmetries in NCCTs for more effective and interpretable AIS segmentation. ADN first performs asymmetry disentanglement based on input NCCTs, which produces different types of 3D asymmetry maps. Then a synthetic, intrinsic-asymmetry-compensated and pathology-asymmetry-salient NCCT volume is generated and later used as input to a segmentation network. The training of ADN incorporates domain knowledge and adopts a tissue-type aware regularization loss function to encourage clinically-meaningful pathological asymmetry extraction. Coupled with an unsupervised 3D transformation network, ADN achieves state-of-the-art AIS segmentation performance on a public NCCT dataset. In addition to the superior performance, we believe the learned clinically-interpretable asymmetry maps can also provide insights towards a better understanding of AIS assessment. Our code is available at https://github.com/nihaomiao/MICCAI22_ADN.
翻訳日:2022-07-01 15:18:14 公開日:2022-06-30
# フォーミュラの雇用は解決が難しいか?

Are Hitting Formulas Hard for Resolution? ( http://arxiv.org/abs/2206.15225v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Peitl and Stefan Szeider(参考訳) 岩間によって導入されたハッティング公式は、命題CNF公式の珍しいクラスである。 多項式時間で満足度が決定可能であるだけでなく、それらのモデルでさえ閉形式で数えられる。 これは、バックトラックと解像度に基づくアルゴリズムを持ち、2-SAT や Horn-SAT のようなモデルカウントが難しい他の多項式時間決定可能なクラスとは対照的である。 しかし、これらの解法に基づくアルゴリズムは、通常、解法を打つために欠落している解法複雑性の上限を示唆する。 フィギュアリングは難しいのか? 本稿では,この質問に答える第一歩を踏み出す。 打球公式の解複雑性は、Kulmann と Zhao が最初に研究したいわゆる既約打球公式に支配されるが、これはより小さな打球公式では成り立たない。 しかし、定義上、大きな既約な打撃公式は構成が困難であり、無限に多数存在するかどうかは分かっていない。 理論的な結果に基づいて,nautyソフトウェアパッケージ上に効率的なアルゴリズムを実装し,最大14節の既約ヒット数を列挙する。 また、既知のSATエンコーディングを我々の目的のために拡張することにより、最大13節のヒット公式の正確な解複雑性も決定する。 実験結果から,打抜き式は解決が難しいことが示唆された。

Hitting formulas, introduced by Iwama, are an unusual class of propositional CNF formulas. Not only is their satisfiability decidable in polynomial time, but even their models can be counted in closed form. This stands in stark contrast with other polynomial-time decidable classes, which usually have algorithms based on backtracking and resolution and for which model counting remains hard, like 2-SAT and Horn-SAT. However, those resolution-based algorithms usually easily imply an upper bound on resolution complexity, which is missing for hitting formulas. Are hitting formulas hard for resolution? In this paper we take the first steps towards answering this question. We show that the resolution complexity of hitting formulas is dominated by so-called irreducible hitting formulas, first studied by Kullmann and Zhao, that cannot be composed of smaller hitting formulas. However, by definition, large irreducible unsatisfiable hitting formulas are difficult to construct; it is not even known whether infinitely many exist. Building upon our theoretical results, we implement an efficient algorithm on top of the Nauty software package to enumerate all irreducible unsatisfiable hitting formulas with up to 14 clauses. We also determine the exact resolution complexity of the generated hitting formulas with up to 13 clauses by extending a known SAT encoding for our purposes. Our experimental results suggest that hitting formulas are indeed hard for resolution.
翻訳日:2022-07-01 15:17:27 公開日:2022-06-30
# 5Gアドバンストと6GにおけるCSIフィードバック向上のためのAI

AI for CSI Feedback Enhancement in 5G-Advanced and 6G ( http://arxiv.org/abs/2206.15132v1 )

ライセンス: Link先を確認
Jiajia Guo, Chao-Kai Wen, Shi Jin, Xiao Li(参考訳) 第3世代パートナーシッププロジェクトは2021年にリリース18の研究を開始した。 人工知能(AI)ネイティブエアインターフェースは、チャネル状態情報(CSI)フィードバック強化のためのAIが代表的なユースケースとして選択されるリリース18の重要な特徴の1つである。 本稿では,5G-Advancedおよび6GにおけるCSIフィードバック向上のためのAIの概要を紹介する。 5g-advancedにおけるcsiフィードバック強化のためのaiのスコープについて,まず,オーバーヘッド削減,精度向上,チャネル予測などについて述べる。 次に、一方の暗黙のフィードバック、両側の自己エンコーダに基づく暗黙のフィードバック、両側の明示的なフィードバックを含む、AI対応のCSIフィードバックの代表的な3つのフレームワークを紹介し比較する。 最後に,評価,複雑性,コラボレーション,一般化,情報共有,チャネル予測と協調設計,相互性に着目し,csiフィードバック強化のためのaiの標準化に関する考察と考察を行った。 本稿では、AIに基づくCSIフィードバック強化の標準化研究のガイドラインを提供する。

The 3rd Generation Partnership Project has started the study of Release 18 in 2021. Artificial intelligence (AI)-native air interface is one of the key features of Release 18, where AI for channel state information (CSI) feedback enhancement is selected as the representative use case. This article provides a comprehensive overview of AI for CSI feedback enhancement in 5G-Advanced and 6G. The scope of the AI for CSI feedback enhancement in 5G-Advanced, including overhead reduction, accuracy improvement, and channel prediction, is first presented and discussed. Then, three representative frameworks of AI-enabled CSI feedback, including one-sided implicit feedback, two-sided autoencoder-based implicit feedback, and two-sided explicit feedback, are introduced and compared. Finally, the considerations in the standardization of AI for CSI feedback enhancement, especially focusing on evaluation, complexity, collaboration, generalization, information sharing, joint design with channel prediction, and reciprocity, have been identified and discussed. This article provides a guideline for the standardization study of the AI-based CSI feedback enhancement.
翻訳日:2022-07-01 15:14:34 公開日:2022-06-30
# 非平滑最適化のためのランダム化座標次法

Randomized Coordinate Subgradient Method for Nonsmooth Optimization ( http://arxiv.org/abs/2206.14981v1 )

ライセンス: Link先を確認
Lei Zhao and Ding Chen and Daoli Zhu and Xiao Li(参考訳) 非滑らかな最適化は多くの工学分野において幅広い応用を見出す。 本研究では,非平滑凸および非平滑凸(非平滑凸)最適化問題の解法として {Randomized Coordinate Subgradient Method} (RCS) を提案する。 各イテレーションでrcsは更新するすべての座標ではなく、1つのブロック座標をランダムに選択する。 実用的応用によって動機づけられた目的函数に対する {linearly bounded subgradients assumption} を考えるが、これはリプシッツ連続性仮定よりもはるかに一般である。 このような一般的な仮定の下で, 凸および非凸のいずれにおいてもrcsの徹底的な収束解析を行い, 期待収束率と漸近収束結果の両立を図る。 これらの収束結果を導出するために、収束補題を確立し、弱凸函数の大域的計量部分正則性とモローエンベロープの関係を、基本的かつ独立的関心事である。 最後に, 下位勾配法におけるrcsの優位性を示す実験を複数実施した。

Nonsmooth optimization finds wide applications in many engineering fields. In this work, we propose to utilize the {Randomized Coordinate Subgradient Method} (RCS) for solving both nonsmooth convex and nonsmooth nonconvex (nonsmooth weakly convex) optimization problems. At each iteration, RCS randomly selects one block coordinate rather than all the coordinates to update. Motivated by practical applications, we consider the {linearly bounded subgradients assumption} for the objective function, which is much more general than the Lipschitz continuity assumption. Under such a general assumption, we conduct thorough convergence analysis for RCS in both convex and nonconvex cases and establish both expected convergence rate and almost sure asymptotic convergence results. In order to derive these convergence results, we establish a convergence lemma and the relationship between the global metric subregularity properties of a weakly convex function and its Moreau envelope, which are fundamental and of independent interests. Finally, we conduct several experiments to show the possible superiority of RCS over the subgradient method.
翻訳日:2022-07-01 15:14:16 公開日:2022-06-30
# 分散事前条件付きディープニューラルネットワークのためのスケーラブルK-FACトレーニング

Scalable K-FAC Training for Deep Neural Networks with Distributed Preconditioning ( http://arxiv.org/abs/2206.15143v1 )

ライセンス: Link先を確認
Lin Zhang, Shaohuai Shi, Wei Wang, Bo Li(参考訳) d-kfac (distributed kronecker factored approximation curvature) アルゴリズムを含む2次最適化手法は、gpuクラスタでのdnn(accelerated deep neural network)トレーニングで注目を集めている。 しかし、既存のD-KFACアルゴリズムは、クロンネッカー因子(KF)と呼ばれる大量の二次情報を事前条件で計算し、通信する必要があるため、計算や通信のオーバーヘッドが大きくなり、メモリフットプリントも大きくなる。 本稿では,異なるdnn層にkf構成タスクを分散する分散プリコンディショニング方式dp-kfacを提案する。 DP-KFACは、既存のD-KFACアルゴリズムの収束性を保持するだけでなく、KFの構築における計算オーバーヘッドの削減、KFの通信の不要、メモリフットプリントの削減という3つの利点も実現している。 64-GPUクラスタでの大規模な実験により、DP-KFACは計算オーバーヘッドを1.55x-1.65x、通信コストを2.79x-3.15x、メモリフットプリントを1.14x-1.47x削減した。

The second-order optimization methods, notably the D-KFAC (Distributed Kronecker Factored Approximate Curvature) algorithms, have gained traction on accelerating deep neural network (DNN) training on GPU clusters. However, existing D-KFAC algorithms require to compute and communicate a large volume of second-order information, i.e., Kronecker factors (KFs), before preconditioning gradients, resulting in large computation and communication overheads as well as a high memory footprint. In this paper, we propose DP-KFAC, a novel distributed preconditioning scheme that distributes the KF constructing tasks at different DNN layers to different workers. DP-KFAC not only retains the convergence property of the existing D-KFAC algorithms but also enables three benefits: reduced computation overhead in constructing KFs, no communication of KFs, and low memory footprint. Extensive experiments on a 64-GPU cluster show that DP-KFAC reduces the computation overhead by 1.55x-1.65x, the communication cost by 2.79x-3.15x, and the memory footprint by 1.14x-1.47x in each second-order update compared to the state-of-the-art D-KFAC methods.
翻訳日:2022-07-01 15:13:55 公開日:2022-06-30
# 機械学習技術を用いたパルス形状シミュレーションと識別

Pulse Shape Simulation and Discrimination using Machine-Learning Techniques ( http://arxiv.org/abs/2206.15156v1 )

ライセンス: Link先を確認
Shubham Dutta, Sayan Ghosh, Satyaki Bhattacharya and Satyajit Saha(参考訳) 粒子識別実験の品質にとって重要な指標は、信号と背景を識別する統計力である。 パルス形状判別(PSD)は、シンチレータ検出器を用いる多くの核、高エネルギー、希少な探索実験において、この目的のための基本的な方法である。 従来の手法では、パルスの減衰時間と信号と背景事象、あるいは異なる種類の放射量によって引き起こされるパルス信号との差を利用して、良好な識別を行う。 しかし、そのような技術は、適切なパルスプロファイルを得るのに全光放出が十分である場合にのみ効率的である。 これは検出器内の入射粒子によるかなりの反動エネルギーがある場合にのみ可能である。 しかし、ニュートリノやダークマター直接探索実験のような希少な探索実験は、必ずしもこれらの条件を満たすとは限らない。 したがって、これらのシナリオにおいて非常に効率的な差別を実現する方法を持つことが必須となる。 ニューラルネットワークに基づく機械学習アルゴリズムは、物理学の多くの分野、特に高エネルギー実験において分類問題に使われ、従来の手法よりも優れた結果を得た。 本稿では,2つのネットワークベースの手法vizに関する調査結果を紹介する。 パルス形状判別のためのDense Neural NetworkとRecurrent Neural Networkは、従来の手法と比較する。

An essential metric for the quality of a particle-identification experiment is its statistical power to discriminate between signal and background. Pulse shape discrimination (PSD) is a basic method for this purpose in many nuclear, high-energy, and rare-event search experiments where scintillator detectors are used. Conventional techniques exploit the difference between decay-times of the pulse from signal and background events or pulse signals caused by different types of radiation quanta to achieve good discrimination. However, such techniques are efficient only when the total light-emission is sufficient to get a proper pulse profile. This is only possible when there is significant recoil energy due to the incident particle in the detector. But, rare-event search experiments like neutrino or dark-matter direct search experiments don't always satisfy these conditions. Hence, it becomes imperative to have a method that can deliver very efficient discrimination in these scenarios. Neural network-based machine-learning algorithms have been used for classification problems in many areas of physics, especially in high-energy experiments, and have given better results compared to conventional techniques. We present the results of our investigations of two network-based methods viz. Dense Neural Network and Recurrent Neural Network, for pulse shape discrimination and compare the same with conventional methods.
翻訳日:2022-07-01 15:13:29 公開日:2022-06-30
# 人物埋め込みによる特徴の充実とデータ拡張による分類

Using Person Embedding to Enrich Features and Data Augmentation for Classification ( http://arxiv.org/abs/2206.15162v1 )

ライセンス: Link先を確認
Ahmet Tu\u{g}rul Bayrak(参考訳) 今日、機械学習はほとんどあらゆる分野に適用されている。 多数の方法がある機械学習では、分類は最も基本的かつ重要なものの一つである。 様々な問題は分類によって解決できる。 モデル設定のための機能選択は極めて重要であり、機能エンジニアリングによる新機能の生成も、モデルの成功に不可欠である。 本研究では,ケーススタディとしてラベル付きおよび不均衡データセット上に不正検出分類モデルを構築した。 自然言語処理手法であるが,特にレコメンデーションシステムにおいて,様々な領域で使用されている単語埋め込みによって,顧客空間が作成されている。 生成した空間の顧客ベクトルは、特徴として分類モデルに供給されます。 さらに、正のラベル数を増やすために、埋め込みによって決定される顧客類似性を用いて、類似した特徴を持つ行を正のラベルとして再ラベルする。 顧客のより良い表現を提供する分類に埋め込み手法が組み込まれているモデルは、他のモデルと比較されている。 その結果,顧客埋め込み手法は,分類モデルの成功に肯定的な影響を及ぼすことがわかった。

Today, machine learning is applied in almost any field. In machine learning, where there are numerous methods, classification is one of the most basic and crucial ones. Various problems can be solved by classification. The feature selection for model setup is extremely important, and producing new features via feature engineering also has a vital place in the success of the model. In our study, fraud detection classification models are built on a labeled and imbalanced dataset as a case-study. Although it is a natural language processing method, a customer space has been created with word embedding, which has been used in different areas, especially for recommender systems. The customer vectors in the created space are fed to the classification model as a feature. Moreover, to increase the number of positive labels, rows with similar characteristics are re-labeled as positive by using customer similarity determined by embedding. The model in which embedding methods are included in the classification, which provides a better representation of customers, has been compared with other models. Considering the results, it is observed that the customer embedding method had a positive effect on the success of the classification models.
翻訳日:2022-07-01 15:13:10 公開日:2022-06-30
# (参考訳) ヘイトスピーチ基準:タスク特化ヘイトスピーチ定義へのモジュール的アプローチ

Hate Speech Criteria: A Modular Approach to Task-Specific Hate Speech Definitions ( http://arxiv.org/abs/2206.15455v1 )

ライセンス: CC BY 4.0
Urja Khurana, Ivar Vermeulen, Eric Nalisnick, Marloes van Noorloos and Antske Fokkens(参考訳) textbf{Offensive Content Warning}: この論文は、この研究を明確にし、著者の意見を反映しない事例を提供するためにのみ、攻撃的な言語を含む。 これらの例が攻撃的であり、あなたを苦しめる可能性があることに注意してください。 textit{hate speech} を認識する主観性は、複雑なタスクとなる。 これは nlp の異なる定義や不完全な定義にも反映される。 本研究では,(1)対象グループ,(2)支配性,(3)加害者特性,(4)否定的グループ参照,(5)潜在的な結果・効果の5つの側面について,より正確な定義と注釈ガイドラインを作成することを目的として,法と社会科学の視点から開発された \textit{hate speech} 基準を提案する。 定義はより広いあるいはより狭い現象をカバーするように構成することができる。 したがって、意識的な選択は、基準を指定したり、オープンにしたままにすることができる。 我々は、開発者が念頭に置いているゴールと正確なタスクは、どうやって \textit{hate speech} のスコープが定義されるかを決定するべきであると論じる。 我々は、特定のシナリオに最も適したデータセットを選択するのに役立つ、 \url{hatespeechdata.com} からの英語データセットの性質の概要を提供する。

\textbf{Offensive Content Warning}: This paper contains offensive language only for providing examples that clarify this research and do not reflect the authors' opinions. Please be aware that these examples are offensive and may cause you distress. The subjectivity of recognizing \textit{hate speech} makes it a complex task. This is also reflected by different and incomplete definitions in NLP. We present \textit{hate speech} criteria, developed with perspectives from law and social science, with the aim of helping researchers create more precise definitions and annotation guidelines on five aspects: (1) target groups, (2) dominance, (3) perpetrator characteristics, (4) type of negative group reference, and the (5) type of potential consequences/effects. Definitions can be structured so that they cover a more broad or more narrow phenomenon. As such, conscious choices can be made on specifying criteria or leaving them open. We argue that the goal and exact task developers have in mind should determine how the scope of \textit{hate speech} is defined. We provide an overview of the properties of English datasets from \url{hatespeechdata.com} that may help select the most suitable dataset for a specific scenario.
翻訳日:2022-07-01 15:10:38 公開日:2022-06-30
# 点雲上のマルチモーダリティシミュレーションによる3次元物体検出の高速化

Boosting 3D Object Detection by Simulating Multimodality on Point Clouds ( http://arxiv.org/abs/2206.14971v1 )

ライセンス: Link先を確認
Wu Zheng, Mingxuan Hong, Li Jiang, Chi-Wing Fu(参考訳) 本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。 このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータが必要です。 重要な応答サンプルに注目して背景サンプルを避けるための応答蒸留法,推定された重要なボクセルからボクセルの意味と関係を学ぶスパース・ボクセル蒸留法,細粒度ボクセル・ツー・ポイント蒸留法により小型・遠方の物体の特徴によく対応し,さらに機能的一貫性を高めるためのインスタンス蒸留法である。 nuScenesデータセットによる実験結果から,本手法はSOTA LiDARのみの3次元検出器よりも優れており,キーNDS測定値のベースラインLiDARイメージ検出器を上回り,単モード検出器と多モード検出器間の72%のmAPギャップを埋めることがわかった。

This paper presents a new approach to boost a single-modality (LiDAR) 3D object detector by teaching it to simulate features and responses that follow a multi-modality (LiDAR-image) detector. The approach needs LiDAR-image data only when training the single-modality detector, and once well-trained, it only needs LiDAR data at inference. We design a novel framework to realize the approach: response distillation to focus on the crucial response samples and avoid the background samples; sparse-voxel distillation to learn voxel semantics and relations from the estimated crucial voxels; a fine-grained voxel-to-point distillation to better attend to features of small and distant objects; and instance distillation to further enhance the deep-feature consistency. Experimental results on the nuScenes dataset show that our approach outperforms all SOTA LiDAR-only 3D detectors and even surpasses the baseline LiDAR-image detector on the key NDS metric, filling 72% mAP gap between the single- and multi-modality detectors.
翻訳日:2022-07-01 14:49:25 公開日:2022-06-30
# 知識に基づくVQAのための一貫したエンドツーエンド検索フレームワーク

A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA ( http://arxiv.org/abs/2206.14989v1 )

ライセンス: Link先を確認
Yangyang Guo, Liqiang Nie, Yongkang Wong, Yibing Liu, Zhiyong Cheng and Mohan Kankanhalli(参考訳) 知識に基づくビジュアル質問回答(VQA)は、モデルが堅牢な回答予測のために外部知識に依存することを期待している。 重要なことではあるが,本論文は最先端の手法の進歩を阻害する要因をいくつか発見する。 一方、明示的な知識を利用する手法は、粗い訓練を受けたVQAモデルの補完として知識を取り入れている。 その効果にもかかわらず、これらのアプローチはしばしばノイズの取り込みと誤りの伝播に悩まされる。 一方、暗黙の知識に関して、知識に基づくVQAに対する多モードの暗黙の知識は、いまだほとんど未解明のままである。 本研究は,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。 特に,視覚言語事前学習モデルからのマルチモーダル暗黙的知識に着目し,その知識推論の可能性について考察した。 明示的知識の検索操作によって生じる雑音問題については,効果的な知識監督のための擬似ラベルを作成するための新しいスキームを設計する。 このスキームは、知識検索のガイダンスを提供するだけでなく、これらのインスタンスをエラーを起こしやすいものにすることができる。 提案手法の有効性を検証するため,ベンチマークデータセット上で広範囲な実験を行った。 実験の結果,提案手法は既存のベースラインよりも顕著なマージンで優れていることがわかった。 報告されている数字以外にも,今後の研究における知識利用に関する知見がいくつか提示され,いくつかの実証的な知見が得られた。

Knowledge-based Visual Question Answering (VQA) expects models to rely on external knowledge for robust answer prediction. Though significant it is, this paper discovers several leading factors impeding the advancement of current state-of-the-art methods. On the one hand, methods which exploit the explicit knowledge take the knowledge as a complement for the coarsely trained VQA model. Despite their effectiveness, these approaches often suffer from noise incorporation and error propagation. On the other hand, pertaining to the implicit knowledge, the multi-modal implicit knowledge for knowledge-based VQA still remains largely unexplored. This work presents a unified end-to-end retriever-reader framework towards knowledge-based VQA. In particular, we shed light on the multi-modal implicit knowledge from vision-language pre-training models to mine its potential in knowledge reasoning. As for the noise problem encountered by the retrieval operation on explicit knowledge, we design a novel scheme to create pseudo labels for effective knowledge supervision. This scheme is able to not only provide guidance for knowledge retrieval, but also drop these instances potentially error-prone towards question answering. To validate the effectiveness of the proposed method, we conduct extensive experiments on the benchmark dataset. The experimental results reveal that our method outperforms existing baselines by a noticeable margin. Beyond the reported numbers, this paper further spawns several insights on knowledge utilization for future research with some empirical findings.
翻訳日:2022-07-01 14:48:55 公開日:2022-06-30
# クロスドメインフェデレーションオブジェクト検出

Cross-domain Federated Object Detection ( http://arxiv.org/abs/2206.14996v1 )

ライセンス: Link先を確認
Shangchao Su, Bin Li, Chengzhi Zhang, Mingzhao Yang, Xiangyang Xue(参考訳) あるパーティ(サーバ)がトレーニングした検出モデルは、他のユーザ(クライアント)に分散した場合、パフォーマンスが著しく低下する可能性がある。 例えば、自動運転のシナリオでは、異なる運転環境が明らかなドメインシフトをもたらし、モデル予測のバイアスにつながる可能性がある。 近年出現した連合学習は、クライアントデータを漏らすことなく、多人数共同トレーニングを可能にする。 本稿では、サーバが大規模データを含み、複数のクライアントが少量のデータしか保持しない特別なクロスドメインシナリオに注目し、一方、クライアント間でのデータ分散に違いがあることを示す。 この場合、従来の連合学習技術は、すべての参加者のグローバル知識と特定のクライアントのパーソナライズされた知識の両方の学習を考慮に入れられない。 この制限を補うために、FedODというドメイン間フェデレーションオブジェクト検出フレームワークを提案する。 提案フレームワークは,各ドメインにおけるグローバル知識とパーソナライズド知識の両方を学習するために,まず,マルチティーチングラー蒸留を通じて,パブリックグローバル集約モデルを得るためのフェデレーショントレーニングを実施し,各クライアントに集約モデルを送り,パーソナライズドローカルモデルを微調整する。 ごくわずかなコミュニケーションの後に、各クライアントは公開グローバルモデルとパーソナライズされたローカルモデルで重みづけられたアンサンブル推論を実行できます。 このアンサンブルにより、クライアントサイドモデルの一般化性能は、同じパラメータスケールで単一のモデルを上回ることができる。 本研究では,複数の公用自動運転データセットに基づいて,背景とインスタンスの差異を有意に有するフェデレーションオブジェクト検出データセットを構築し,そのデータセットを広範囲に実験する。 実験の結果,提案手法の有効性が検証された。

Detection models trained by one party (server) may face severe performance degradation when distributed to other users (clients). For example, in autonomous driving scenarios, different driving environments may bring obvious domain shifts, which lead to biases in model predictions. Federated learning that has emerged in recent years can enable multi-party collaborative training without leaking client data. In this paper, we focus on a special cross-domain scenario where the server contains large-scale data and multiple clients only contain a small amount of data; meanwhile, there exist differences in data distributions among the clients. In this case, traditional federated learning techniques cannot take into account the learning of both the global knowledge of all participants and the personalized knowledge of a specific client. To make up for this limitation, we propose a cross-domain federated object detection framework, named FedOD. In order to learn both the global knowledge and the personalized knowledge in different domains, the proposed framework first performs the federated training to obtain a public global aggregated model through multi-teacher distillation, and sends the aggregated model back to each client for finetuning its personalized local model. After very few rounds of communication, on each client we can perform weighted ensemble inference on the public global model and the personalized local model. With the ensemble, the generalization performance of the client-side model can outperform a single model with the same parameter scale. We establish a federated object detection dataset which has significant background differences and instance differences based on multiple public autonomous driving datasets, and then conduct extensive experiments on the dataset. The experimental results validate the effectiveness of the proposed method.
翻訳日:2022-07-01 14:48:34 公開日:2022-06-30
# 微粒スケルトンを用いたタイチ行動認識のための伝達学習を用いた空間変換器ネットワーク

Spatial Transformer Network with Transfer Learning for Small-scale Fine-grained Skeleton-based Tai Chi Action Recognition ( http://arxiv.org/abs/2206.15002v1 )

ライセンス: Link先を確認
Lin Yuan, Zhen He, Qiang Wang, Leiyang Xu, Xiang Ma(参考訳) 人間の行動認識は、最も顕著な行動認識ネットワークが、通常、日々の行動の大規模な粗い行動データセットを、ネットワークの優越性を記述する入力として利用する、非常に大きな研究領域である。 我々は,ニューラルネットワークを用いて小型のタイチアクションデータセットを認識し,ntu rgb+dデータセットを用いたトランスファーラーニング手法を提案する。 より具体的には、提案手法はまず大規模なNTU RGB+Dデータセットを用いて、行動認識のためのTransformerベースのネットワークを事前訓練し、人間の動きの共通特徴を抽出する。 次に、完全連結(FC)層を除いてネットワークウェイトを凍結し、タイチ動作を入力として、初期化されたFCウェイトをトレーニングする。 実験結果から,我々の汎用モデルパイプラインは,たとえ入力が少なくても,小型のタイチ動作認識を高精度に達成できることを示すとともに,従来のタイチ動作認識法と比較して,最先端の性能を達成できることを示す。

Human action recognition is a quite hugely investigated area where most remarkable action recognition networks usually use large-scale coarse-grained action datasets of daily human actions as inputs to state the superiority of their networks. We intend to recognize our small-scale fine-grained Tai Chi action dataset using neural networks and propose a transfer-learning method using NTU RGB+D dataset to pre-train our network. More specifically, the proposed method first uses a large-scale NTU RGB+D dataset to pre-train the Transformer-based network for action recognition to extract common features among human motion. Then we freeze the network weights except for the fully connected (FC) layer and take our Tai Chi actions as inputs only to train the initialized FC weights. Experimental results show that our general model pipeline can reach a high accuracy of small-scale fine-grained Tai Chi action recognition with even few inputs and demonstrate that our method achieves the state-of-the-art performance compared with previous Tai Chi action recognition methods.
翻訳日:2022-07-01 14:48:06 公開日:2022-06-30
# グラフ畳み込みネットワークを用いたタイムスタンプ改善アクションセグメンテーション

Timestamp-Supervised Action Segmentation with Graph Convolutional Networks ( http://arxiv.org/abs/2206.15031v1 )

ライセンス: Link先を確認
Hamza Khan, Sanjay Haresh, Awais Ahmed, Shakeeb Siddiqui, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) タイムスタンプによる時間的活動セグメンテーションのための新しいアプローチを提案する。 我々の貢献はグラフ畳み込みネットワークであり、フレームの特徴と隣り合うフレーム間の接続を利用して、わずかなタイムスタンプラベルから濃密なフレームワイズラベルを生成するためにエンドツーエンドで学習します。 生成された濃密なフレームワイズラベルは、セグメンテーションモデルのトレーニングに使用できる。 さらに,セグメンテーションモデルとグラフ畳み込みモデルの両方を交互に学習するためのフレームワークを提案する。 50のサラダ、GTEA、Breakfast、Desktop Assemblyを含む4つの公開データセットに関する詳細な実験は、我々の手法がマルチ層パーセプトロンベースラインよりも優れている一方で、タイムスタンプの監督による時間的活動セグメンテーションにおいて、技術の状態と同等以上のパフォーマンスを示した。

We introduce a novel approach for temporal activity segmentation with timestamp supervision. Our main contribution is a graph convolutional network, which is learned in an end-to-end manner to exploit both frame features and connections between neighboring frames to generate dense framewise labels from sparse timestamp labels. The generated dense framewise labels can then be used to train the segmentation model. In addition, we propose a framework for alternating learning of both the segmentation model and the graph convolutional model, which first initializes and then iteratively refines the learned models. Detailed experiments on four public datasets, including 50 Salads, GTEA, Breakfast, and Desktop Assembly, show that our method is superior to the multi-layer perceptron baseline, while performing on par with or better than the state of the art in temporal activity segmentation with timestamp supervision.
翻訳日:2022-07-01 14:47:46 公開日:2022-06-30
# MKIOU損失:航空画像における正確なオブジェクト指向物体検出を目指して

MKIoU Loss: Towards Accurate Oriented Object Detection in Aerial Images ( http://arxiv.org/abs/2206.15109v1 )

ライセンス: Link先を確認
Xinyi Yu, Jiangping Lu, Xinyi Yu, Mi Lin, Linlin Ou(参考訳) 指向境界ボックス回帰は、指向オブジェクト検出に不可欠である。 しかし、回帰に基づく手法はしばしば境界問題や損失と評価指標の矛盾に悩まされる。 本稿では,Kalman IoUによるSkewIoU近似の損失を変調したMkioUを提案する。 境界問題を避けるために、向き付けられた境界ボックスをガウス分布に変換し、カルマンフィルタを用いて交叉面積を近似する。 しかし、計算された交叉面積と実際の交叉面積には有意差がある。 そこで本研究では,損失変動に対する角度偏差の感度と幅オフセットの感度を調節する変調係数を提案し,損失を評価基準に合致させる。 さらに、ガウスモデリング法は境界問題を回避するが、同時に正方形物体の角度の混乱を引き起こす。 したがって、ガウスアン角損失(GA損失)は、正方形の目標に対して補正された損失を加えることでこの問題を解決する。 提案するga損失は、他のガウス法にも容易に拡張できる。 公開されている3つの航空画像データセット、DOTA、UCAS-AOD、HRSC2016の実験は、提案手法の有効性を示している。

Oriented bounding box regression is crucial for oriented object detection. However, regression-based methods often suffer from boundary problems and the inconsistency between loss and evaluation metrics. In this paper, a modulated Kalman IoU loss of approximate SkewIoU is proposed, named MKIoU. To avoid boundary problems, we convert the oriented bounding box to Gaussian distribution, then use the Kalman filter to approximate the intersection area. However, there exists significant difference between the calculated and actual intersection areas. Thus, we propose a modulation factor to adjust the sensitivity of angle deviation and width-height offset to loss variation, making the loss more consistent with the evaluation metric. Furthermore, the Gaussian modeling method avoids the boundary problem but causes the angle confusion of square objects simultaneously. Thus, the Gaussian Angle Loss (GA Loss) is presented to solve this problem by adding a corrected loss for square targets. The proposed GA Loss can be easily extended to other Gaussian-based methods. Experiments on three publicly available aerial image datasets, DOTA, UCAS-AOD, and HRSC2016, show the effectiveness of the proposed method.
翻訳日:2022-07-01 14:45:47 公開日:2022-06-30
# 非破壊・高予測摂動からの逆解析例の検出と復元

Detecting and Recovering Adversarial Examples from Extracting Non-robust and Highly Predictive Adversarial Perturbations ( http://arxiv.org/abs/2206.15128v1 )

ライセンス: Link先を確認
Mingyu Dong and Jiahao Chen and Diqun Yan and Jingxing Gao and Li Dong and Rangding Wang(参考訳) ディープニューラルネットワーク(DNN)は、ターゲットモデルを騙すために悪質に設計された敵の例(AE)に対して脆弱であることが示されている。 通常の例(NE)は、知覚不能な逆境の摂動で追加され、DNNに対するセキュリティ上の脅威となる。 既存のaes検出手法は高い精度を達成したが、検出されたaesの情報を活用できなかった。 そこで本研究では,高次元摂動抽出に基づくモデルフリーなAE検出手法を提案する。 研究によると、DNNは高次元の特徴に敏感である。 対向的な例に隠れている対向的摂動は、高い予測的かつ非破壊的な高次元の特徴に属する。 DNNは、他のものよりも高次元データから詳細を学ぶ。 この方法では, 摂動抽出器は, AEsから高次元の特徴として逆方向の摂動を抽出し, トレーニングされたAEs判別器が入力がAEであるか否かを判定する。 実験の結果,提案手法は高い精度で敵のサンプルを検出できるだけでなく,AEsの特定のカテゴリも検出できることがわかった。 一方、抽出された摂動は、AEsをNEに回収するために使用できる。

Deep neural networks (DNNs) have been shown to be vulnerable against adversarial examples (AEs) which are maliciously designed to fool target models. The normal examples (NEs) added with imperceptible adversarial perturbation, can be a security threat to DNNs. Although the existing AEs detection methods have achieved a high accuracy, they failed to exploit the information of the AEs detected. Thus, based on high-dimension perturbation extraction, we propose a model-free AEs detection method, the whole process of which is free from querying the victim model. Research shows that DNNs are sensitive to the high-dimension features. The adversarial perturbation hiding in the adversarial example belongs to the high-dimension feature which is highly predictive and non-robust. DNNs learn more details from high-dimension data than others. In our method, the perturbation extractor can extract the adversarial perturbation from AEs as high-dimension feature, then the trained AEs discriminator determines whether the input is an AE. Experimental results show that the proposed method can not only detect the adversarial examples with high accuracy, but also detect the specific category of the AEs. Meanwhile, the extracted perturbation can be used to recover the AEs to NEs.
翻訳日:2022-07-01 14:45:30 公開日:2022-06-30
# DFGC 2022: 第2回DeepFakeゲームコンペティション

DFGC 2022: The Second DeepFake Game Competition ( http://arxiv.org/abs/2206.15138v1 )

ライセンス: Link先を確認
Bo Peng, Wei Xiang, Yue Jiang, Wei Wang, Jing Dong, Zhenan Sun, Zhen Lei, Siwei Lyu(参考訳) 本稿では,dfgc 2022コンペティションの概要報告を行う。 DeepFakeは急速に進化しており、現実的なフェイススワップはより認識しにくくなっている。 逆に、DeepFakeの検出方法も改善されている。 DeepFakeのクリエーターとディフェンダーの2人組のゲームがある。 このコンペティションは、DeepFakeの生成と検出方法における現在の最先端のゲームをベンチマークするための共通のプラットフォームを提供する。 この競争で答えられる主な研究課題は、互いに競合する2つの敵の現況である。 これは、昨年のDFGC 2021に続く第2版で、より多様なビデオデータセット、よりリアルなゲーム設定、より合理的な評価指標を備える。 この競争は、DeepFakeの脅威に対するより良い防御を構築するための研究アイデアを刺激することを目的としています。 また、研究コミュニティ向けのDeepFakeデータリソースを充実させるために、参加者と自分たちがコントリビュートしたDFGC 2022データセットもリリースしています(https://github.com/NiCE-X/DFGC-2022)。

This paper presents the summary report on our DFGC 2022 competition. The DeepFake is rapidly evolving, and realistic face-swaps are becoming more deceptive and difficult to detect. On the contrary, methods for detecting DeepFakes are also improving. There is a two-party game between DeepFake creators and defenders. This competition provides a common platform for benchmarking the game between the current state-of-the-arts in DeepFake creation and detection methods. The main research question to be answered by this competition is the current state of the two adversaries when competed with each other. This is the second edition after the last year's DFGC 2021, with a new, more diverse video dataset, a more realistic game setting, and more reasonable evaluation metrics. With this competition, we aim to stimulate research ideas for building better defenses against the DeepFake threats. We also release our DFGC 2022 dataset contributed by both our participants and ourselves to enrich the DeepFake data resources for the research community (https://github.com/NiCE-X/DFGC-2022).
翻訳日:2022-07-01 14:45:08 公開日:2022-06-30
# クラスインクリメンタル学習のための多粒度正規化再バランシング

Multi-Granularity Regularized Re-Balancing for Class Incremental Learning ( http://arxiv.org/abs/2206.15189v1 )

ライセンス: Link先を確認
Huitong Chen, Yu Wang, and Qinghua Hu(参考訳) ディープラーニングモデルは、新しいタスクをインクリメンタルに学習するときに壊滅的な忘れに苦しむ。 新しいクラスを学習しながら、古いクラスの知識を維持するために増分学習が提案されている。 典型的なアプローチは、古い知識を忘れないようにいくつかの例を使います。 このようなシナリオでは、古いクラスと新しいクラス間のデータの不均衡が、モデルのパフォーマンス低下につながる重要な問題である。 データ不均衡のため、新しいクラスに対するバイアスを修正するために、いくつかの戦略が設計されている。 しかし、それらは古いクラスと新しいクラスのバイアス関係の仮定に大きく依存している。 したがって、複雑な実世界のアプリケーションには適していない。 本研究では,この問題に対処するために,仮定に依存しないマルチグラニュラリティ正規化再バランシング(MGRB)を提案する。 再バランス手法はデータ不均衡の影響を軽減するために用いられるが、経験的に新しいクラスに不適合であることに気づく。 この目的のために,データの再バランスに加えて,モデルがクラス間の相関を考慮できるような,新たなマルチグラニュラ性正規化項も設計する。 クラス階層は、まずセマンティックまたは視覚的に類似したクラスをグループ化することによって構築される。 多粒度正規化は、構築されたクラス階層に基づいて、対象クラスと他のクラスとの関係を反映した1ホットラベルベクトルを連続ラベル分布に変換する。 したがって、モデルはクラス間の関係情報を学ぶことができ、古いクラスと新しいクラスの両方の学習を促進するのに役立つ。 公開データセットと実世界の故障診断データセットの両方における実験結果は,提案手法の有効性を検証する。

Deep learning models suffer from catastrophic forgetting when learning new tasks incrementally. Incremental learning has been proposed to retain the knowledge of old classes while learning to identify new classes. A typical approach is to use a few exemplars to avoid forgetting old knowledge. In such a scenario, data imbalance between old and new classes is a key issue that leads to performance degradation of the model. Several strategies have been designed to rectify the bias towards the new classes due to data imbalance. However, they heavily rely on the assumptions of the bias relation between old and new classes. Therefore, they are not suitable for complex real-world applications. In this study, we propose an assumption-agnostic method, Multi-Granularity Regularized re-Balancing (MGRB), to address this problem. Re-balancing methods are used to alleviate the influence of data imbalance; however, we empirically discover that they would under-fit new classes. To this end, we further design a novel multi-granularity regularization term that enables the model to consider the correlations of classes in addition to re-balancing the data. A class hierarchy is first constructed by grouping the semantically or visually similar classes. The multi-granularity regularization then transforms the one-hot label vector into a continuous label distribution, which reflects the relations between the target class and other classes based on the constructed class hierarchy. Thus, the model can learn the inter-class relational information, which helps enhance the learning of both old and new classes. Experimental results on both public datasets and a real-world fault diagnosis dataset verify the effectiveness of the proposed method.
翻訳日:2022-07-01 14:44:49 公開日:2022-06-30
# 変形性組織の立体3次元再構成のための神経レンダリング

Neural Rendering for Stereo 3D Reconstruction of Deformable Tissues in Robotic Surgery ( http://arxiv.org/abs/2206.15255v1 )

ライセンス: Link先を確認
Yuehao Wang, Yonghao Long, Siu Hin Fan, Qi Dou(参考訳) 内視鏡的ステレオ映像からのロボット手術における軟部組織の再構築は,術中ナビゲーションや画像誘導型ロボット手術自動化など,多くの応用において重要である。 これまでの作業は主に、複雑な手術シーンを扱うのに苦労するslamベースのアプローチに依存している。 近年のニューラルレンダリングの進歩に触発されて,ロボット手術における双眼鏡による変形性組織再構成のための新しい枠組みを提案する。 本フレームワークでは,MLPにおける変形可能な手術シーンを動的に表現し,形状や変形を学習ベースで最適化する。 非剛性変形に加え、ツール・オクルージョンと単一視点からの3D手がかりは軟部組織再構築における特別な課題である。 これらの課題を克服するため,ツールマスク誘導型レイキャスティング,ステレオ深度誘導型レイマーチ,ステレオ深度監視型最適化の一連の戦略を提示する。 davinciロボット手術ビデオを用いた実験では, 複雑な非剛性変形を扱うため, 現状の再構築法を有意に上回っている。 手術シーンの3D再構成にニューラルレンダリングを応用した初めての作品であり,その可能性も顕著である。 コードは、https://github.com/med-air/EndoNeRF.comで入手できる。

Reconstruction of the soft tissues in robotic surgery from endoscopic stereo videos is important for many applications such as intra-operative navigation and image-guided robotic surgery automation. Previous works on this task mainly rely on SLAM-based approaches, which struggle to handle complex surgical scenes. Inspired by recent progress in neural rendering, we present a novel framework for deformable tissue reconstruction from binocular captures in robotic surgery under the single-viewpoint setting. Our framework adopts dynamic neural radiance fields to represent deformable surgical scenes in MLPs and optimize shapes and deformations in a learning-based manner. In addition to non-rigid deformations, tool occlusion and poor 3D clues from a single viewpoint are also particular challenges in soft tissue reconstruction. To overcome these difficulties, we present a series of strategies of tool mask-guided ray casting, stereo depth-cueing ray marching and stereo depth-supervised optimization. With experiments on DaVinci robotic surgery videos, our method significantly outperforms the current state-of-the-art reconstruction method for handling various complex non-rigid deformations. To our best knowledge, this is the first work leveraging neural rendering for surgical scene 3D reconstruction with remarkable potential demonstrated. Code is available at: https://github.com/med-air/EndoNeRF.
翻訳日:2022-07-01 14:44:26 公開日:2022-06-30
# ジェネリックイベント境界検出チャレンジ@CVPR 2022:ローカルコンテキストモデリングとグローバル境界デコードアプローチ

Submission to Generic Event Boundary Detection Challenge@CVPR 2022: Local Context Modeling and Global Boundary Decoding Approach ( http://arxiv.org/abs/2206.15268v1 )

ライセンス: Link先を確認
Jiaqi Tang, Zhaoyang Liu, Jing Tan, Chen Qian, Wayne Wu, Limin Wang(参考訳) ジェネリックイベント境界検出(GEBD)は、人間が自然にイベント境界を知覚する瞬間を検出することを目的として、ビデオ理解において重要な課題である。 本稿では,GEBDタスクに対する局所コンテキストモデリングとグローバル境界復号化手法を提案する。 局所的コンテキストモデリングサブネットワークは、汎用イベント境界の多様なパターンを知覚し、強力なビデオ表現と信頼性のある境界信頼を生成する。 これらに基づいて、グローバル境界デコードサブネットワークを利用して、グローバルビューからイベント境界をデコードする。 提案手法は,Kinetics-GEBDテストセット上で85.13%のF1スコアを達成し,ベースライン法と比較して22%以上のF1スコアアップを達成する。 コードはhttps://github.com/JackyTown/GEBD_Challenge_CVPR2022で公開されている。

Generic event boundary detection (GEBD) is an important yet challenging task in video understanding, which aims at detecting the moments where humans naturally perceive event boundaries. In this paper, we present a local context modeling and global boundary decoding approach for GEBD task. Local context modeling sub-network is proposed to perceive diverse patterns of generic event boundaries, and it generates powerful video representations and reliable boundary confidence. Based on them, global boundary decoding sub-network is exploited to decode event boundaries from a global view. Our proposed method achieves 85.13% F1-score on Kinetics-GEBD testing set, which achieves a more than 22% F1-score boost compared to the baseline method. The code is available at https://github.com/JackyTown/GEBD_Challenge_CVPR2022.
翻訳日:2022-07-01 14:44:09 公開日:2022-06-30
# multiclass-sgcn:エージェントクラス埋め込みによるスパースグラフに基づく軌道予測

Multiclass-SGCN: Sparse Graph-based Trajectory Prediction with Agent Class Embedding ( http://arxiv.org/abs/2206.15275v1 )

ライセンス: Link先を確認
Ruochen Li, Stamos Katsigiannis, Hubert P. H. Shum(参考訳) 現実シナリオにおける道路利用者の軌道予測は,移動パターンが確率的かつ複雑であるため困難である。 歩行者の複雑な相互作用をモデル化する以前の歩行者指向の作業は成功しているが、他の種類の道路利用者(車、サイクリストなど)が関与している場合の軌道予測には失敗している。 最近のいくつかの作品は、ユーザーラベル情報を持つ密結合グラフを構築しているが、それらは余分な空間的相互作用と時間的依存関係に苦しむ。 そこで本研究では,速度とエージェントラベル情報を考慮したマルチクラス軌道予測のための疎グラフ畳み込みネットワークであるmulticlass-sgcnを提案し,そのインタラクションスコアに基づいてエージェントの空間的・時間的接続を適応的に決定する新しいインタラクションマスクを提案する。 提案手法はスタンフォード・ドローン・データセットにおける最先端のアプローチを著しく上回り、より現実的で妥当な軌道予測を提供する。

Trajectory prediction of road users in real-world scenarios is challenging because their movement patterns are stochastic and complex. Previous pedestrian-oriented works have been successful in modelling the complex interactions among pedestrians, but fail in predicting trajectories when other types of road users are involved (e.g., cars, cyclists, etc.), because they ignore user types. Although a few recent works construct densely connected graphs with user label information, they suffer from superfluous spatial interactions and temporal dependencies. To address these issues, we propose Multiclass-SGCN, a sparse graph convolution network based approach for multi-class trajectory prediction that takes into consideration velocity and agent label information and uses a novel interaction mask to adaptively decide the spatial and temporal connections of agents based on their interaction scores. The proposed approach significantly outperformed state-of-the-art approaches on the Stanford Drone Dataset, providing more realistic and plausible trajectory predictions.
翻訳日:2022-07-01 14:43:52 公開日:2022-06-30
# セルフスーパーフロー:ステレオシーケンスにおける自己教師付きシーンフロー予測

Self-SuperFlow: Self-supervised Scene Flow Prediction in Stereo Sequences ( http://arxiv.org/abs/2206.15296v1 )

ライセンス: Link先を確認
Katharina Bendig, Ren\'e Schuster, Didier Stricker(参考訳) 近年、深層ニューラルネットワークは、シーンフロー予測を含む多くのコンピュータビジョンタスクに対処する能力を示した。 しかし、ほとんどの進歩は、実際のシナリオでは得るのが非常に難しいピクセル毎の真理アノテーションの膨大な密度の利用可能性に依存している。 したがって、合成データは、しばしば監督のために頼りになるため、トレーニングデータとテストデータの間の表現ギャップが生じる。 大量のラベルのない実世界のデータが利用可能であるにもかかわらず、シーンフロー予測のための自己管理手法が欠如している。 そこで我々は,シーンフロー予測問題に対するセンサス変換とオクルージョン対応の双方向変位に基づく自己監督的損失の拡張について検討する。 KITTIのシーンフローベンチマークでは,提案手法は同一ネットワークの教師付き事前学習よりも優れており,より高速な収束を実現するとともに,一般化能力の向上が図られている。

In recent years, deep neural networks showed their exceeding capabilities in addressing many computer vision tasks including scene flow prediction. However, most of the advances are dependent on the availability of a vast amount of dense per pixel ground truth annotations, which are very difficult to obtain for real life scenarios. Therefore, synthetic data is often relied upon for supervision, resulting in a representation gap between the training and test data. Even though a great quantity of unlabeled real world data is available, there is a huge lack in self-supervised methods for scene flow prediction. Hence, we explore the extension of a self-supervised loss based on the Census transform and occlusion-aware bidirectional displacements for the problem of scene flow prediction. Regarding the KITTI scene flow benchmark, our method outperforms the corresponding supervised pre-training of the same network and shows improved generalization capabilities while achieving much faster convergence.
翻訳日:2022-07-01 14:43:32 公開日:2022-06-30
# Deep Learning to See: コンピュータビジョンの新たな基盤を目指して

Deep Learning to See: Towards New Foundations of Computer Vision ( http://arxiv.org/abs/2206.15351v1 )

ライセンス: Link先を確認
Alessandro Betti, Marco Gori, Stefano Melacci(参考訳) ここ数年のコンピュータビジョンの目覚ましい進歩は、ディープラーニングによるもので、ラベル付きデータの巨大なセットが利用可能であることと、GPUパラダイムの爆発的な成長との組み合わせによるものだ。 この見解に賛同しながら、本書はこの分野の科学的進歩を批判し、情報に基づく自然法則の枠組みにおけるビジョンの調査を提案する。 具体的には、本研究は、まだ理解されていないビジョンに関する根本的な疑問を提起し、読者は機械学習の基礎と調和する新しい課題に満ちた旅にたどり着く。 中心となるテーマは、視覚計算プロセスのより深い理解のためには、汎用機械学習アルゴリズムの応用を超えて、視覚信号の時空間的性質を考慮した適切な学習理論に焦点をあてる必要があるということである。

The remarkable progress in computer vision over the last few years is, by and large, attributed to deep learning, fueled by the availability of huge sets of labeled data, and paired with the explosive growth of the GPU paradigm. While subscribing to this view, this book criticizes the supposed scientific progress in the field and proposes the investigation of vision within the framework of information-based laws of nature. Specifically, the present work poses fundamental questions about vision that remain far from understood, leading the reader on a journey populated by novel challenges resonating with the foundations of machine learning. The central thesis is that for a deeper understanding of visual computational processes, it is necessary to look beyond the applications of general purpose machine learning algorithms and focus instead on appropriate learning theories that take into account the spatiotemporal nature of the visual signal.
翻訳日:2022-07-01 14:43:15 公開日:2022-06-30
# mead: 逆例検出器の評価のためのマルチアームアプローチ

MEAD: A Multi-Armed Approach for Evaluation of Adversarial Examples Detectors ( http://arxiv.org/abs/2206.15415v1 )

ライセンス: Link先を確認
Federica Granese, Marine Picot, Marco Romanelli, Francisco Messina, Pablo Piantanida(参考訳) 機械学習アルゴリズムを重要なアプリケーションに安全にデプロイすることの重要性から、ここ数年、敵の例の検出がホットな話題となっている。 しかし、検出方法は一般的に、暗黙的に知られている単一の攻撃戦略を仮定することで検証される。 実際、これは検出器の性能を過最適に評価し、競合する検出方式の比較においてバイアスを生じさせる可能性がある。 本稿では,この制限を克服するためのいくつかの攻撃戦略に基づいて検知器の評価を行う,MEADと呼ばれる新しいマルチアームフレームワークを提案する。 それらのうち、我々は3つの新しい目標を利用して攻撃を発生させる。 提案したパフォーマンス指標は最悪のシナリオに基づいており、すべての異なる攻撃が正しく認識された場合にのみ検出が成功する。 経験的に、我々のアプローチの有効性を示す。 さらに、最先端の検出器の性能の低下は、新たなエキサイティングな研究ラインを開く。

Detection of adversarial examples has been a hot topic in the last years due to its importance for safely deploying machine learning algorithms in critical applications. However, the detection methods are generally validated by assuming a single implicitly known attack strategy, which does not necessarily account for real-life threats. Indeed, this can lead to an overoptimistic assessment of the detectors' performance and may induce some bias in the comparison between competing detection schemes. We propose a novel multi-armed framework, called MEAD, for evaluating detectors based on several attack strategies to overcome this limitation. Among them, we make use of three new objectives to generate attacks. The proposed performance metric is based on the worst-case scenario: detection is successful if and only if all different attacks are correctly recognized. Empirically, we show the effectiveness of our approach. Moreover, the poor performance obtained for state-of-the-art detectors opens a new exciting line of research.
翻訳日:2022-07-01 14:42:40 公開日:2022-06-30
# 256KBメモリによるオンデバイストレーニング

On-Device Training Under 256KB Memory ( http://arxiv.org/abs/2206.15472v1 )

ライセンス: Link先を確認
Ji Lin, Ligeng Zhu, Wei-Ming Chen, Wei-Chen Wang, Chuang Gan, Song Han(参考訳) オンデバイストレーニングでは、事前トレーニングされたモデルを微調整することで、センサーから収集した新しいデータに適応することができる。 しかし、トレーニングメモリ消費は、小さなメモリリソースを持つIoTデバイスでは禁じられている。 256kbのメモリしか持たないデバイス上でのトレーニングを可能にするアルゴリズムシステム設計フレームワークを提案する。 オンデバイストレーニングには2つの課題がある: 1) ニューラルネットワークの量子化グラフは、混合ビット精度と正規化の欠如により最適化が難しい; (2) 限られたハードウェアリソース(メモリと計算)は完全な後方計算を許さない。 最適化の難しさに対処するため,グラデーションスケールを校正し,量子化トレーニングを安定化する量子化対応スケーリングを提案する。 メモリフットプリントを削減するために,重要でないレイヤやサブテンソルの勾配計算を省略するスパース更新を提案する。 アルゴリズムの革新は、軽量なトレーニングシステムであるtiny training engineによって実装され、後方の計算グラフをいじって、スパースな更新をサポートし、ランタイムの自動微分をコンパイル時にオフロードする。 私たちのフレームワークは、小さなIoTデバイス(例えば256KB SRAMしか持たないマイクロコントローラ)上での視覚的認識のオンデバイス移行学習のための最初の実用的なソリューションであり、既存のフレームワークのメモリの1/100未満を使用し、小さなMLアプリケーションであるVWWのクラウドトレーニングとエッジデプロイメントの正確さに適合しています。 我々の研究は、IoTデバイスが推論だけでなく、デバイス上での生涯学習のための新しいデータにも継続的に適応できるようにする。

On-device training enables the model to adapt to new data collected from the sensors by fine-tuning a pre-trained model. However, the training memory consumption is prohibitive for IoT devices that have tiny memory resources. We propose an algorithm-system co-design framework to make on-device training possible with only 256KB of memory. On-device training faces two unique challenges: (1) the quantized graphs of neural networks are hard to optimize due to mixed bit-precision and the lack of normalization; (2) the limited hardware resource (memory and computation) does not allow full backward computation. To cope with the optimization difficulty, we propose Quantization-Aware Scaling to calibrate the gradient scales and stabilize quantized training. To reduce the memory footprint, we propose Sparse Update to skip the gradient computation of less important layers and sub-tensors. The algorithm innovation is implemented by a lightweight training system, Tiny Training Engine, which prunes the backward computation graph to support sparse updates and offloads the runtime auto-differentiation to compile time. Our framework is the first practical solution for on-device transfer learning of visual recognition on tiny IoT devices (e.g., a microcontroller with only 256KB SRAM), using less than 1/100 of the memory of existing frameworks while matching the accuracy of cloud training+edge deployment for the tinyML application VWW. Our study enables IoT devices to not only perform inference but also continuously adapt to new data for on-device lifelong learning.
翻訳日:2022-07-01 14:42:26 公開日:2022-06-30
# がん予測のための機械学習アプローチ:バングラデシュの展望

Machine Learning Approaches to Predict Breast Cancer: Bangladesh Perspective ( http://arxiv.org/abs/2206.14972v1 )

ライセンス: Link先を確認
Taminul Islam, Arindom Kundu, Nazmul Islam Khan, Choyon Chandra Bonik, Flora Akter, and Md Jihadul Islam(参考訳) 近年、乳癌は近年最も顕著な死因の1つとなっている。 悪性腫瘍の中でも、これは女性にとって最も頻繁かつ主要な死因である。 この病気を手動で診断するには十分な時間と専門知識が必要である。 乳癌の検出には時間がかかり、マシンベースの乳がん予測を開発することにより、疾患の拡散を低減することができる。 機械学習では、システムは、様々な統計学的、確率的、最適化のアプローチを用いて、事前のインスタンスから学習し、ノイズや複雑なデータセットから検出しにくいパターンを見つけることができる。 本研究では,新たに収集したデータセットにおける機械学習アルゴリズムの分類精度,精度,感度,特異性を比較した。 この作業では、Decision Tree、Random Forest、Logistic Regression、Naive Bayes、XGBoostの5つの機械学習アプローチが実装され、データセット上で最高のパフォーマンスを実現しています。 本研究は,乳がんをクラスで最大精度で予測できる最良のアルゴリズムを見つけることに焦点を当てる。 本研究は,各アルゴリズムのデータ分類の効率と有効性について評価した。 また、このドメインに関する他の出版物と比較する。 このモデルの実装後、この研究はRandom ForestとXGBoostで94%のモデル精度を達成した。

Nowadays, Breast cancer has risen to become one of the most prominent causes of death in recent years. Among all malignancies, this is the most frequent and the major cause of death for women globally. Manually diagnosing this disease requires a good amount of time and expertise. Breast cancer detection is time-consuming, and the spread of the disease can be reduced by developing machine-based breast cancer predictions. In Machine learning, the system can learn from prior instances and find hard-to-detect patterns from noisy or complicated data sets using various statistical, probabilistic, and optimization approaches. This work compares several machine learning algorithm's classification accuracy, precision, sensitivity, and specificity on a newly collected dataset. In this work Decision tree, Random Forest, Logistic Regression, Naive Bayes, and XGBoost, these five machine learning approaches have been implemented to get the best performance on our dataset. This study focuses on finding the best algorithm that can forecast breast cancer with maximum accuracy in terms of its classes. This work evaluated the quality of each algorithm's data classification in terms of efficiency and effectiveness. And also compared with other published work on this domain. After implementing the model, this study achieved the best model accuracy, 94% on Random Forest and XGBoost.
翻訳日:2022-07-01 14:41:18 公開日:2022-06-30
# 先行き需要予測のための連続時間および多レベルグラフ表現学習

Continuous-Time and Multi-Level Graph Representation Learning for Origin-Destination Demand Prediction ( http://arxiv.org/abs/2206.15005v1 )

ライセンス: Link先を確認
Liangzhe Han, Xiaojian Ma, Leilei Sun, Bowen Du, Yanjie Fu, Weifeng Lv, Hui Xiong(参考訳) ディープニューラルネットワークによる交通需要予測は、アカデミックと産業社会の両方で広く関心を集めている。 その中でも, ペアワイズ・オリジン・デスティネーション(od)需要予測は, 様々な要因から, 価値あるが困難な問題である。 (i)可能なod対の数が多いこと。 (二)空間依存の暗黙性、及び (iii)交通状態の複雑さ。 上記の問題に対処するため,本論文では,原点運命需要予測(cmod)のための連続時間および多レベル動的グラフ表現学習手法を提案する。 まず、連続時間動的グラフ表現学習フレームワークを構築し、各トラフィックノード(メトロステーションまたはタクシーゾーン)に対して動的状態ベクトルを保持する。 状態ベクトルは履歴トランザクション情報を保持し、直近のトランザクションに従って継続的に更新される。 次に,ステーションレベルのノードの空間依存性をモデル化するためのマルチレベル構造学習モジュールを提案する。 データからノード間の関係を適応的に利用するだけでなく、クラスタレベルとエリアレベルの仮想ノードを介してメッセージと表現を共有することもできる。 最後に、クロスレベル融合モジュールは、マルチレベルメモリを統合し、最終的な予測のための包括的なノード表現を生成するように設計されている。 北京地下鉄とニューヨークタクシーの2つの実世界のデータセットについて広範な実験を行い,最先端のアプローチに対して,我々のモデルが優れていることを示した。

Traffic demand forecasting by deep neural networks has attracted widespread interest in both academia and industry society. Among them, the pairwise Origin-Destination (OD) demand prediction is a valuable but challenging problem due to several factors: (i) the large number of possible OD pairs, (ii) implicitness of spatial dependence, and (iii) complexity of traffic states. To address the above issues, this paper proposes a Continuous-time and Multi-level dynamic graph representation learning method for Origin-Destination demand prediction (CMOD). Firstly, a continuous-time dynamic graph representation learning framework is constructed, which maintains a dynamic state vector for each traffic node (metro stations or taxi zones). The state vectors keep historical transaction information and are continuously updated according to the most recently happened transactions. Secondly, a multi-level structure learning module is proposed to model the spatial dependency of station-level nodes. It can not only exploit relations between nodes adaptively from data, but also share messages and representations via cluster-level and area-level virtual nodes. Lastly, a cross-level fusion module is designed to integrate multi-level memories and generate comprehensive node representations for the final prediction. Extensive experiments are conducted on two real-world datasets from Beijing Subway and New York Taxi, and the results demonstrate the superiority of our model against the state-of-the-art approaches.
翻訳日:2022-07-01 14:40:56 公開日:2022-06-30
# ネットワーク上の確率的二値分散最適化

Stochastic Bilevel Distributed Optimization over a Network ( http://arxiv.org/abs/2206.15025v1 )

ライセンス: Link先を確認
Hongchang Gao, Bin Gu, My T. Thai(参考訳) バイレベル最適化は、幅広い機械学習モデルに適用されている。 近年,確率的二段階最適化アルゴリズムが開発されている。 しかし、そのほとんどは、分散データを扱うことができないように、シングルマシン設定に焦点を絞っている。 この問題に対処するために,ネットワークを構成するすべての参加者がネットワーク内でピアツーピア通信を行うように設定し,勾配追従通信機構と2つの異なる勾配推定器に基づく2つの分散確率二レベル最適化アルゴリズムを開発した。 さらに、それぞれ$o(\frac{1}{\epsilon^{2}(1-\lambda)^2})$と$o(\frac{1}{\epsilon^{3/2}(1-\lambda)^2})$の収束率を達成し、$\epsilon$-accuracyの解を得る。 私たちの知る限り、これはこれらの理論的結果を達成する最初の作品です。 最後に,本アルゴリズムを実用的な機械学習モデルに適用し,実験結果から本アルゴリズムの有効性を確認した。

Bilevel optimization has been applied to a wide variety of machine learning models. Numerous stochastic bilevel optimization algorithms have been developed in recent years. However, most of them restrict their focus on the single-machine setting so that they are incapable of handling the distributed data. To address this issue, under the setting where all participants compose a network and perform the peer-to-peer communication in this network, we developed two novel distributed stochastic bilevel optimization algorithms based on the gradient tracking communication mechanism and two different gradient estimators. Additionally, we show that they can achieve $O(\frac{1}{\epsilon^{2}(1-\lambda)^2})$ and $O(\frac{1}{\epsilon^{3/2}(1-\lambda)^2})$ convergence rate respectively to obtain the $\epsilon$-accuracy solution, where $1-\lambda$ denotes the spectral gap of the communication network. To our knowledge, this is the first work achieving these theoretical results. Finally, we applied our algorithms to practical machine learning models, and the experimental results confirmed the efficacy of our algorithms.
翻訳日:2022-07-01 14:40:34 公開日:2022-06-30
# 重量平均化と多彩化によるアンサンブル蒸留の改善

Improving Ensemble Distillation With Weight Averaging and Diversifying Perturbation ( http://arxiv.org/abs/2206.15047v1 )

ライセンス: Link先を確認
Giung Nam, Hyungi Lee, Byeongho Heo, Juho Lee(参考訳) ディープニューラルネットワークのアンサンブルは優れた性能を示しているが、その計算コストはリソース制限環境に適用するのを妨げる。 アンサンブル教師からより小さな学生ネットワークへの蒸留知識を動機付けており、このアンサンブル蒸留には2つの重要な設計選択がある。 1)学生ネットワークの構築方法、及び 2)トレーニング中に表示すべきデータ。 本稿では,複数のサブネットワークを持つ学生に対して,教師の機能的多様性を吸収するように訓練する重み平均化手法を提案する。 また,教師の多様性をより良く学生に伝達できるインプットを求める摂動戦略を提案する。 この2つの手法を組み合わせることで,従来の画像分類法を大幅に改善した。

Ensembles of deep neural networks have demonstrated superior performance, but their heavy computational cost hinders applying them for resource-limited environments. It motivates distilling knowledge from the ensemble teacher into a smaller student network, and there are two important design choices for this ensemble distillation: 1) how to construct the student network, and 2) what data should be shown during training. In this paper, we propose a weight averaging technique where a student with multiple subnetworks is trained to absorb the functional diversity of ensemble teachers, but then those subnetworks are properly averaged for inference, giving a single student network with no additional inference cost. We also propose a perturbation strategy that seeks inputs from which the diversities of teachers can be better transferred to the student. Combining these two, our method significantly improves upon previous methods on various image classification tasks.
翻訳日:2022-07-01 14:40:13 公開日:2022-06-30
# グラフ時間畳み込みニューラルネットワーク:アーキテクチャと理論的解析

Graph-Time Convolutional Neural Networks: Architecture and Theoretical Analysis ( http://arxiv.org/abs/2206.15174v1 )

ライセンス: Link先を確認
Mohammad Sabbaqi and Elvin Isufi(参考訳) 時空間ネットワークデータの学習モデルの作成と解析は,予測,異常検出,マルチエージェント調整などのタスクにおいて重要である。 グラフ畳み込みニューラルネットワーク(gcnn)は、時間不変ネットワークデータから学ぶための確立されたアプローチである。 グラフ畳み込み演算は、多解像度情報を集約する原理的なアプローチを提供する。 しかしながら、畳み込み原則学習と各分析を時空間領域に拡張することは、時空間データがより固有の依存関係を持つため、困難である。 したがって、空間的および時間的依存関係を共に捉える柔軟性は、意味のある高次表現を学習するために必要となる。 ここでは,製品グラフを用いてデータの時空間依存を表現するとともに,学習を支援する基本アーキテクチャとしてgtcnn(graph-time convolutional neural network)を導入する。 提案手法は任意の種類の製品グラフに対応でき,また,時空間結合を学習するためのパラメトリック製品グラフも導入する。 畳み込み原理により、GCNNと同様の数学的トラクタビリティがもたらされる。 特に、安定性の結果は、GTCNNは空間摂動に対して安定であるが、差別性と堅牢性の間には暗黙のトレードオフがあることを示している。 ベンチマークデータセットの大規模な数値結果から,GTCNNが最先端のソリューションと良好に比較できることを示す。 我々は、GCCNNが、優れた性能を達成するが、根底にも根ざした、より洗練されたモデルの出発点になることを期待している。

Devising and analyzing learning models for spatiotemporal network data is of importance for tasks including forecasting, anomaly detection, and multi-agent coordination, among others. Graph Convolutional Neural Networks (GCNNs) are an established approach to learn from time-invariant network data. The graph convolution operation offers a principled approach to aggregate multiresolution information. However, extending the convolution principled learning and respective analysis to the spatiotemporal domain is challenging because spatiotemporal data have more intrinsic dependencies. Hence, a higher flexibility to capture jointly the spatial and the temporal dependencies is required to learn meaningful higher-order representations. Here, we leverage product graphs to represent the spatiotemporal dependencies in the data and introduce Graph-Time Convolutional Neural Networks (GTCNNs) as a principled architecture to aid learning. The proposed approach can work with any type of product graph and we also introduce a parametric product graph to learn also the spatiotemporal coupling. The convolution principle further allows a similar mathematical tractability as for GCNNs. In particular, the stability result shows GTCNNs are stable to spatial perturbations but there is an implicit trade-off between discriminability and robustness; i.e., the more complex the model, the less stable. Extensive numerical results on benchmark datasets corroborate our findings and show the GTCNN compares favorably with state-of-the-art solutions. We anticipate the GTCNN to be a starting point for more sophisticated models that achieve good performance but are also fundamentally grounded.
翻訳日:2022-07-01 14:39:08 公開日:2022-06-30
# 超球面エネルギー最小化によるデータ効率学習

Data-Efficient Learning via Minimizing Hyperspherical Energy ( http://arxiv.org/abs/2206.15204v1 )

ライセンス: Link先を確認
Xiaofeng Cao, Weiyang Liu, Ivor W. Tsang(参考訳) 近年,大規模データの深層学習が主流となっている。 前例のないデータの規模は、ディープラーニングを成功させる上で、おそらく最も重要な推進力の1つです。 しかし、医療画像やロボティクスなど、データやラベルの収集が非常に費用がかかるシナリオは依然として存在する。 このギャップを埋めるため,本論文では,少数の代表データを用いて,スクラッチからデータ効率のよい学習の問題を考察する。 まず、球面多様体の同型管の能動的学習によりこの問題を特徴づける。 これは自然に可能な仮説クラスを生成する。 ホモロジー的位相特性により、重要な接続を同定し、チューブ多様体を見つけることは、物理幾何学における超球面エネルギー(MHE)を最小化することと同値である。 この接続に着想を得て,MHEに基づく能動学習(MHEAL)アルゴリズムを提案し,収束と一般化解析を網羅した理論的保証を提供する。 最後に,深層クラスタリング,分散マッチング,バージョンスペースサンプリング,深層アクティブ学習など,データ効率のよい学習に関する幅広いアプリケーションにおいて,mhealの実証的性能を示す。

Deep learning on large-scale data is dominant nowadays. The unprecedented scale of data has been arguably one of the most important driving forces for the success of deep learning. However, there still exist scenarios where collecting data or labels could be extremely expensive, e.g., medical imaging and robotics. To fill up this gap, this paper considers the problem of data-efficient learning from scratch using a small amount of representative data. First, we characterize this problem by active learning on homeomorphic tubes of spherical manifolds. This naturally generates feasible hypothesis class. With homologous topological properties, we identify an important connection -- finding tube manifolds is equivalent to minimizing hyperspherical energy (MHE) in physical geometry. Inspired by this connection, we propose a MHE-based active learning (MHEAL) algorithm, and provide comprehensive theoretical guarantees for MHEAL, covering convergence and generalization analysis. Finally, we demonstrate the empirical performance of MHEAL in a wide range of applications on data-efficient learning, including deep clustering, distribution matching, version space sampling and deep active learning.
翻訳日:2022-07-01 14:38:44 公開日:2022-06-30
# アクティブな学習者がブラックボックスの教師に会う

When an Active Learner Meets a Black-box Teacher ( http://arxiv.org/abs/2206.15205v1 )

ライセンス: Link先を確認
Xiaofeng Cao, Yaming Guo, Tieru Wu, Ivor W. Tsang(参考訳) アクティブラーニングは仮説更新を最大化し、望ましいラベルのないデータを見つける。 この学習方法が最適仮説への更新を導出できるという前提がある。 しかし、これらのインクリメンタルアップデートがネガティブで混乱している場合には、その収束は保証されない。 本稿では,能動的学習者に対してブラックボックス学習仮説を提供する機械教師を紹介する。 理論的には、この教示仮説の指導のもと、学習者は教師から指導を受けていない非教育的な学習者よりも、より厳密な一般化誤差とラベルの複雑さに収束できる。 ホワイトボックス学習者とブラックボックス学習者の2つの指導シナリオについて検討し,学習者の自己改善を第一に提案する。 実験は、このアイデアを検証し、iwalやiwal-dといった基本的なアクティブラーニング戦略よりも優れたパフォーマンスを示す。

Active learning maximizes the hypothesis updates to find those desired unlabeled data. An inherent assumption is that this learning manner can derive those updates into the optimal hypothesis. However, its convergence may not be guaranteed well if those incremental updates are negative and disordered. In this paper, we introduce a machine teacher who provides a black-box teaching hypothesis for an active learner, where the teaching hypothesis is an effective approximation for the optimal hypothesis. Theoretically, we prove that, under the guidance of this teaching hypothesis, the learner can converge into a tighter generalization error and label complexity bound than those non-educated learners who do not receive any guidance from a teacher. We further consider two teaching scenarios: teaching a white-box and black-box learner, where self-improvement of teaching is firstly proposed to improve the teaching performance. Experiments verify this idea and show better performance than the fundamental active learning strategies, such as IWAL, IWAL-D, etc.
翻訳日:2022-07-01 14:38:24 公開日:2022-06-30
# Swin Transformer を用いた深層強化学習

Deep Reinforcement Learning with Swin Transformer ( http://arxiv.org/abs/2206.15269v1 )

ライセンス: Link先を確認
Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad(参考訳) トランスフォーマー(transformers)は、複数のセルフアテンションヘッドを使用するニューラルネットワークモデルである。 注意は変換器で'key' と 'query' のコンテキスト埋め込みとして実装される。 トランスフォーマーは、異なるレイヤからの注意情報の再結合と、一度にすべての入力の処理を可能にし、大量のデータを扱う場合のリカレントニューラルネットワークよりも便利である。 近年、トランスフォーマーは自然言語処理タスクに優れたパフォーマンスを発揮している。 一方、swin transformerや decision transformerといった機械学習の他の分野にも、トランスフォーマーを適用するという大きな努力があった。 Swin Transformerは、画像ピクセルを小さなパッチに分割し、固定サイズの(シフトした)ウィンドウ内でローカルな自己注意操作を適用する、有望なニューラルネットワークアーキテクチャである。 決定変換器は、オフライン強化学習にトランスフォーマーをうまく応用し、エージェントが最適化された動作を学習するのにアタリゲームからのランダムウォークサンプルが十分であることを示した。 しかし、オンライン強化学習とトランスフォーマーを組み合わせることは、かなり難しい。 本稿では、強化学習ポリシーを変更するのではなく、畳み込みニューラルネットワークアーキテクチャをSwin Transformerの自己注意アーキテクチャに置き換える可能性をさらに検討する。 つまり、エージェントが世界をどう見ているかを変えることを目標としていますが、エージェントが世界をどう考えているかではありません。 アーケード学習環境における49試合の実験を行った。 その結果, 強化学習におけるSwin Transformerの使用は, アーケード学習環境におけるゲームの大部分において, 評価スコアが有意に向上することがわかった。 そこで,オンライン強化学習は,空間トークン埋め込みによる自己意識の活用の恩恵を受けることができると結論付けた。

Transformers are neural network models that utilize multiple layers of self-attention heads. Attention is implemented in transformers as the contextual embeddings of the 'key' and 'query'. Transformers allow the re-combination of attention information from different layers and the processing of all inputs at once, which are more convenient than recurrent neural networks when dealt with a large number of data. Transformers have exhibited great performances on natural language processing tasks in recent years. Meanwhile, there have been tremendous efforts to adapt transformers into other fields of machine learning, such as Swin Transformer and Decision Transformer. Swin Transformer is a promising neural network architecture that splits image pixels into small patches and applies local self-attention operations inside the (shifted) windows of fixed sizes. Decision Transformer has successfully applied transformers to off-line reinforcement learning and showed that random-walk samples from Atari games are sufficient to let an agent learn optimized behaviors. However, it is considerably more challenging to combine online reinforcement learning with transformers. In this article, we further explore the possibility of not modifying the reinforcement learning policy, but only replacing the convolutional neural network architecture with the self-attention architecture from Swin Transformer. Namely, we target at changing how an agent views the world, but not how an agent plans about the world. We conduct our experiment on 49 games in Arcade Learning Environment. The results show that using Swin Transformer in reinforcement learning achieves significantly higher evaluation scores across the majority of games in Arcade Learning Environment. Thus, we conclude that online reinforcement learning can benefit from exploiting self-attentions with spatial token embeddings.
翻訳日:2022-07-01 14:38:07 公開日:2022-06-30
# 射出成形における自動品質制御のための機械学習

Machine learning for automated quality control in injection moulding manufacturing ( http://arxiv.org/abs/2206.15285v1 )

ライセンス: Link先を確認
Steven Michiels, C\'edric De Schryver, Lynn Houthuys, Frederik Vogeler, Frederik Desplentere(参考訳) 機械学習(ML)は射出成形における品質制御(QC)を改善し、自動化することができる。 しかし、広範で現実世界のプロセスデータのラベル付けはコストがかかるため、シミュレートされたプロセスデータの使用は、成功への第一歩となるかもしれない。 本研究では, 模擬データを用いて, 射出成形容器の製品品質予測モデルを構築した。 テストセットの精度、特異性、感度はそれぞれ99.4\%$、99.7\%$、94.7\%$であった。 そこで本研究では,射出成形における自動QCに対するMLの可能性を示し,実世界のデータに基づいて訓練されたMLモデルの拡張を促す。

Machine learning (ML) may improve and automate quality control (QC) in injection moulding manufacturing. As the labelling of extensive, real-world process data is costly, however, the use of simulated process data may offer a first step towards a successful implementation. In this study, simulated data was used to develop a predictive model for the product quality of an injection moulded sorting container. The achieved accuracy, specificity and sensitivity on the test set was $99.4\%$, $99.7\%$ and $94.7\%$, respectively. This study thus shows the potential of ML towards automated QC in injection moulding and encourages the extension to ML models trained on real-world data.
翻訳日:2022-07-01 14:37:37 公開日:2022-06-30
# 物理インフォームド機械学習による構造健康モニタリング

Physics-informed machine learning for Structural Health Monitoring ( http://arxiv.org/abs/2206.15303v1 )

ライセンス: Link先を確認
Elizabeth J Cross, Samuel J Gibson, Matthew R Jones, Daniel J Pitchforth, Sikai Zhang and Timothy J Rogers(参考訳) 構造的健康モニタリングにおける機械学習の利用は、発達する条件に基づく評価において固有のタスク(回帰や分類など)の多くが自然にその限界に該当するため、より一般的なものになりつつある。 この章では、機械学習の概念を紹介し、エンジニアがモデル化または評価しようとしている構造をしばしば持っている物理的洞察を考慮し、mlアルゴリズムを適用する。 この章では、単純な物理モデルとデータ駆動モデルを組み合わせたグレーボックスモデルによって、SHM設定における予測能力が向上することを示す。 ここで示されるアプローチの特に強みは、モデルが一般化する能力であり、異なる状態における予測能力の強化である。 これは、ライフタイムアセスメントが要件である場合や、データ監視が運用条件にまたがらない場合は、構造が実行されます。 この章は、物理学インフォームドMLの概要を提供し、ベイズ的な設定でグレイボックスモデリングのための新しいアプローチをいくつか紹介する。 議論されている主なMLツールはガウスのプロセス回帰であり、物理的な仮定/モデルが制約、平均関数とカーネル設計、そして最後に状態空間設定を通じてどのように組み込まれるかを示す。 SHMアプリケーションは、オフショアや航空宇宙構造物の負荷監視タスクから、ロングスパンブリッジのパフォーマンス監視まで、幅広いアプリケーションがデモされる。

The use of machine learning in Structural Health Monitoring is becoming more common, as many of the inherent tasks (such as regression and classification) in developing condition-based assessment fall naturally into its remit. This chapter introduces the concept of physics-informed machine learning, where one adapts ML algorithms to account for the physical insight an engineer will often have of the structure they are attempting to model or assess. The chapter will demonstrate how grey-box models, that combine simple physics-based models with data-driven ones, can improve predictive capability in an SHM setting. A particular strength of the approach demonstrated here is the capacity of the models to generalise, with enhanced predictive capability in different regimes. This is a key issue when life-time assessment is a requirement, or when monitoring data do not span the operational conditions a structure will undergo. The chapter will provide an overview of physics-informed ML, introducing a number of new approaches for grey-box modelling in a Bayesian setting. The main ML tool discussed will be Gaussian process regression, we will demonstrate how physical assumptions/models can be incorporated through constraints, through the mean function and kernel design, and finally in a state-space setting. A range of SHM applications will be demonstrated, from loads monitoring tasks for off-shore and aerospace structures, through to performance monitoring for long-span bridges.
翻訳日:2022-07-01 14:37:24 公開日:2022-06-30
# AnoShift: 教師なし異常検出のための分散シフトベンチマーク

AnoShift: A Distribution Shift Benchmark for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2206.15476v1 )

ライセンス: Link先を確認
Marius Dr\u{a}goi, Elena Burceanu, Emanuela Haller, Andrei Manolache and Florin Brad(参考訳) データの分散シフトを分析することは、機械学習における研究の方向性の高まりであり、MLモデルの一般化特性を研究するための適切なシナリオを提供することに焦点を当てた、新たなベンチマークへとつながる。 既存のベンチマークは教師なし学習にフォーカスしており、最善の知識は教師なし学習には何もありません。 そこで本稿では,ネットワーク侵入検知のためのトラフィックデータセットである Kyoto-2006+ 上に構築されたデータを用いた教師なし異常検出ベンチマークを導入する。 この種のデータは、入力の配布をシフトする前提に合致する: 大量の時間(10ドル)をカバーし、時間とともに自然に変化する変化(ユーザが行動パターンを変更したり、ソフトウェアのアップデートを行う)。 まず、基本機能毎の分析、t-sne、および年数間の分布距離を測定するための最適な輸送手法を用いて、データの非定常的性質を強調する。 次に、IID、NEAR、FARテスト分割でデータを分割するプロトコルであるAnoShiftを提案する。 様々なモデル(MLMから古典的孤立林まで)で時間とともに性能劣化を検証する。 最後に,分散シフト問題を認識し,適切な対応を行うことで,従来の iid トレーニングと比較して(平均で 3,$$$ まで)性能が向上することを示す。 データセットとコードはhttps://github.com/bit-ml/anoshift/で入手できる。

Analyzing the distribution shift of data is a growing research direction in nowadays Machine Learning, leading to emerging new benchmarks that focus on providing a suitable scenario for studying the generalization properties of ML models. The existing benchmarks are focused on supervised learning, and to the best of our knowledge, there is none for unsupervised learning. Therefore, we introduce an unsupervised anomaly detection benchmark with data that shifts over time, built over Kyoto-2006+, a traffic dataset for network intrusion detection. This kind of data meets the premise of shifting the input distribution: it covers a large time span ($10$ years), with naturally occurring changes over time (\eg users modifying their behavior patterns, and software updates). We first highlight the non-stationary nature of the data, using a basic per-feature analysis, t-SNE, and an Optimal Transport approach for measuring the overall distribution distances between years. Next, we propose AnoShift, a protocol splitting the data in IID, NEAR, and FAR testing splits. We validate the performance degradation over time with diverse models (MLM to classical Isolation Forest). Finally, we show that by acknowledging the distribution shift problem and properly addressing it, the performance can be improved compared to the classical IID training (by up to $3\%$, on average). Dataset and code are available at https://github.com/bit-ml/AnoShift/.
翻訳日:2022-07-01 14:36:59 公開日:2022-06-30
# dnoized mdps: 世界そのものよりも優れた世界モデルを学ぶ

Denoised MDPs: Learning World Models Better Than the World Itself ( http://arxiv.org/abs/2206.15477v1 )

ライセンス: Link先を確認
Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy Zhang, Yuandong Tian(参考訳) 信号とノイズを分離し、クリーンな抽象化で推論する能力は、知性にとって不可欠である。 この能力により、人間はあらゆるニュアンス要因を考慮せずに、現実世界のタスクを効率的に実行できる。 エージェントはどんな情報を安全にノイズとして捨てられるのか? 本研究は,自然界の情報を,制御可能性と報酬との関係に基づいて4種類に分類し,制御可能かつ報酬関連のある情報として有用な情報を定式化する。 この枠組みは、強化学習(RL)における表現学習における様々な先行研究によって取り除かれた種類情報を明確化し、特定のノイズ障害を明示的に判断する認知型MDPを学習する手法を提案する。 DeepMind Control Suite と RoboDesk の変種に関する大規模な実験は、政策最適化制御タスクだけでなく、関節位置回帰の非制御タスクにおいても、生の観測だけでなく、以前の作業よりも優れた性能を示す。

The ability to separate signal from noise, and reason with clean abstractions, is critical to intelligence. With this ability, humans can efficiently perform real world tasks without considering all possible nuisance factors.How can artificial agents do the same? What kind of information can agents safely discard as noises? In this work, we categorize information out in the wild into four types based on controllability and relation with reward, and formulate useful information as that which is both controllable and reward-relevant. This framework clarifies the kinds information removed by various prior work on representation learning in reinforcement learning (RL), and leads to our proposed approach of learning a Denoised MDP that explicitly factors out certain noise distractors. Extensive experiments on variants of DeepMind Control Suite and RoboDesk demonstrate superior performance of our denoised world model over using raw observations alone, and over prior works, across policy optimization control tasks as well as the non-control task of joint position regression.
翻訳日:2022-07-01 14:36:22 公開日:2022-06-30
# (参考訳) 解釈可能性、ならば何? 人間の知識と価値を反映する機械学習モデルの編集

Interpretability, Then What? Editing Machine Learning Models to Reflect Human Knowledge and Values ( http://arxiv.org/abs/2206.15465v1 )

ライセンス: CC BY 4.0
Zijie J. Wang, Alex Kale, Harsha Nori, Peter Stella, Mark E. Nunnally, Duen Horng Chau, Mihaela Vorvoreanu, Jennifer Wortman Vaughan, Rich Caruana(参考訳) 機械学習(ml)の解釈技術は、モデルが予測に利用するデータ内の望ましくないパターンを明らかにすることができる。 しかし、これらのパターンにどう対処するかは必ずしも明確ではない。 mlと人間とコンピュータの相互作用の研究者、医師、データサイエンティストのコラボレーションで、ドメインの専門家やデータサイエンティストが汎用加法モデル(gams)を簡単に編集し、問題のあるパターンを修正するのに役立つ最初のインタラクティブシステムgam changerを開発した。 新たなインタラクション技術により,我々のツールは,ユーザに対して,モデル行動と知識と価値を分析,検証,整合させる行動に解釈可能性を持たせる。 さまざまな領域で働く7人のデータサイエンティストによる評価では、このツールは使いやすく、モデル編集のニーズに合致し、現在のワークフローに適合していることが示されています。 最新のWebテクノロジで構築された当社のツールは,ユーザのWebブラウザや計算ノートブックでローカルに動作します。 GAM Changerは以下の公開デモリンクで利用可能である。

Machine learning (ML) interpretability techniques can reveal undesirable patterns in data that models exploit to make predictions--potentially causing harms once deployed. However, how to take action to address these patterns is not always clear. In a collaboration between ML and human-computer interaction researchers, physicians, and data scientists, we develop GAM Changer, the first interactive system to help domain experts and data scientists easily and responsibly edit Generalized Additive Models (GAMs) and fix problematic patterns. With novel interaction techniques, our tool puts interpretability into action--empowering users to analyze, validate, and align model behaviors with their knowledge and values. Physicians have started to use our tool to investigate and fix pneumonia and sepsis risk prediction models, and an evaluation with 7 data scientists working in diverse domains highlights that our tool is easy to use, meets their model editing needs, and fits into their current workflows. Built with modern web technologies, our tool runs locally in users' web browsers or computational notebooks, lowering the barrier to use. GAM Changer is available at the following public demo link: https://interpret.ml/gam-changer.
翻訳日:2022-07-01 14:34:56 公開日:2022-06-30
# ニューラルネットワークの適応活性化関数としての$L_p^q-$norm正規化項からの合意関数

Consensus Function from an $L_p^q-$norm Regularization Term for its Use as Adaptive Activation Functions in Neural Networks ( http://arxiv.org/abs/2206.15017v1 )

ライセンス: Link先を確認
Juan Heredia-Juesas and Jos\'e \'A. Mart\'inez-Lorenzo(参考訳) ニューラルネットワークの設計は通常、レイヤーの数、レイヤごとのニューロンの数、それらの接続やシナプス、そしてそれらが実行するアクティベーション関数を定義することによって行われる。 トレーニングプロセスは、これらの接続に割り当てられた重みを、ニューロンのバイアスとともに最適化し、トレーニングデータに適合させようとする。 しかしながら、アクティベーション関数の定義は一般に、設計プロセスにおいて決定され、トレーニング中に変更されない。 本稿では,学習過程においてその形状に適応する暗黙的,パラメトリックな非線形活性化関数の定義と利用を提案する。 この事実は、ネットワーク内で最適化するパラメータの空間を増加させるが、柔軟性を高め、ニューラルネットワークの概念を一般化する。 さらに、各ニューロンで同じ活性化関数定義を使用できるため、トレーニングプロセスがパラメータを最適化し、従ってその振る舞いを最適化できるため、アーキテクチャ設計を単純化する。 提案するアクティベーション関数は,乗算器の交互方向法(ADMM)を介して,$L_p^q$正規化項による線形不定値問題の最適化から,コンセンサス変数の定義から得られる。 このタイプの活性化関数を用いてニューラルネットワークを$pq-$networksと定義する。 予備的な結果は、この種の適応的活性化関数を用いたニューラルネットワークの使用が回帰や分類例の誤差を低減し、固定された活性化関数を持つ等価な正規フィードフォワードニューラルネットワークと比較することを示している。

The design of a neural network is usually carried out by defining the number of layers, the number of neurons per layer, their connections or synapses, and the activation function that they will execute. The training process tries to optimize the weights assigned to those connections, together with the biases of the neurons, to better fit the training data. However, the definition of the activation functions is, in general, determined in the design process and not modified during the training, meaning that their behavior is unrelated to the training data set. In this paper we propose the definition and utilization of an implicit, parametric, non-linear activation function that adapts its shape during the training process. This fact increases the space of parameters to optimize within the network, but it allows a greater flexibility and generalizes the concept of neural networks. Furthermore, it simplifies the architectural design since the same activation function definition can be employed in each neuron, letting the training process to optimize their parameters and, thus, their behavior. Our proposed activation function comes from the definition of the consensus variable from the optimization of a linear underdetermined problem with an $L_p^q$ regularization term, via the Alternating Direction Method of Multipliers (ADMM). We define the neural networks using this type of activation functions as $pq-$networks. Preliminary results show that the use of these neural networks with this type of adaptive activation functions reduces the error in regression and classification examples, compared to equivalent regular feedforward neural networks with fixed activation functions.
翻訳日:2022-07-01 14:11:29 公開日:2022-06-30
# ソリューションとフィットネスの進化(safe)によるモデル精度と複雑性の自動バランス

Automatically Balancing Model Accuracy and Complexity using Solution and Fitness Evolution (SAFE) ( http://arxiv.org/abs/2206.15409v1 )

ライセンス: Link先を確認
Moshe Sipper, Jason H. Moore, Ryan J. Urbanowicz(参考訳) バイオメディカルデータにおいて予測モデルを求めるとき、例えば高い精度と低い複雑さ(解釈可能性を促進するために)の両立を念頭に置いていることが多い。 本稿では、最近提案した共進化アルゴリズムSAFE(Solution And Fitness Evolution)を用いて、複数の目的を動的に調整できるかどうかを検討する。 通常の進化アルゴリズムと比較して,gametesツールが生成する複雑なシミュレート遺伝的データセットよりも,safeはパフォーマンス損失を伴わずに,精度と複雑性を自動的にチューニングできることが分かっています。

When seeking a predictive model in biomedical data, one often has more than a single objective in mind, e.g., attaining both high accuracy and low complexity (to promote interpretability). We investigate herein whether multiple objectives can be dynamically tuned by our recently proposed coevolutionary algorithm, SAFE (Solution And Fitness Evolution). We find that SAFE is able to automatically tune accuracy and complexity with no performance loss, as compared with a standard evolutionary algorithm, over complex simulated genetics datasets produced by the GAMETES tool.
翻訳日:2022-07-01 14:11:00 公開日:2022-06-30
# ログからのユーザの行動における認知バイアスの個人化検出:アンコリングと頻度バイアス

Personalized Detection of Cognitive Biases in Actions of Users from Their Logs: Anchoring and Recency Biases ( http://arxiv.org/abs/2206.15129v1 )

ライセンス: Link先を確認
Atanu R Sinha, Navita Goyal, Sunny Dhamnani, Tanay Asija, Raja K Dubey, M V Kaarthik Raja, Georgios Theocharous(参考訳) 認知的バイアス(Cognitive bias)とは、人間が情報や環境を扱う際に使用する精神的なショートカットであり、結果として偏見のある行動や行動(または行動)が自己に知られない。 バイアスは、公平さ、説明責任、透明性、倫理、法律、医学、差別に影響を及ぼす中心的な役割を占める認知バイアスによって多くの形態を取る。 バイアスの検出は、その緩和に向けて必要なステップであると考えられている。 ここでは,アンカーとレジェンシーという2つの認知バイアスに注目した。 コンピュータサイエンスにおける認知バイアスの認識は主に情報検索の領域にあり、バイアスは注釈付きデータの助けを借りて集約レベルで識別される。 バイアス検出のための異なる方向を提案するため、機械学習とともに、これらの2つの認知バイアスをユーザの行動のwebログから検出する原則付きアプローチを提案する。 個々のユーザレベルを検出することで、真にパーソナライズされ、注釈付きデータに依存しません。 代わりに、認知心理学で確立された2つの基本原則から始め、注意ネットワークの修正されたトレーニングを使用し、これらの原則に従って新しい方法で注意重みを解釈し、これらの2つのバイアスを推論し区別する。 パーソナライズされたアプローチでは、タスクの実行時にこれらのバイアスに影響を受けやすい特定のユーザの検出が可能になる。

Cognitive biases are mental shortcuts humans use in dealing with information and the environment, and which result in biased actions and behaviors (or, actions), unbeknownst to themselves. Biases take many forms, with cognitive biases occupying a central role that inflicts fairness, accountability, transparency, ethics, law, medicine, and discrimination. Detection of biases is considered a necessary step toward their mitigation. Herein, we focus on two cognitive biases - anchoring and recency. The recognition of cognitive bias in computer science is largely in the domain of information retrieval, and bias is identified at an aggregate level with the help of annotated data. Proposing a different direction for bias detection, we offer a principled approach along with Machine Learning to detect these two cognitive biases from Web logs of users' actions. Our individual user level detection makes it truly personalized, and does not rely on annotated data. Instead, we start with two basic principles established in cognitive psychology, use modified training of an attention network, and interpret attention weights in a novel way according to those principles, to infer and distinguish between these two biases. The personalized approach allows detection for specific users who are susceptible to these biases when performing their tasks, and can help build awareness among them so as to undertake bias mitigation.
翻訳日:2022-07-01 14:10:49 公開日:2022-06-30
# オープンボキャブラリーキーワードスポッティングのための音声テキスト合意の学習

Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting ( http://arxiv.org/abs/2206.15400v1 )

ライセンス: Link先を確認
Hyeon-Kyeong Shin, Hyewon Han, Doyeon Kim, Soo-Whan Chung and Hong-Goo Kang(参考訳) 本稿では,音声とテキストシーケンス間の言語対応パターンを利用した,エンド・ツー・エンドのキーワードスポッティング手法を提案する。 従来の音声キーワード入力手法とは異なり,提案手法では入力クエリとテキストキーワードシーケンスを比較した。 音声とテキストの表現を共通の潜在空間に配置するために,単調なマッチング損失とキーワード分類損失を伴い,エンドツーエンドで訓練された注目型クロスモーダルマッチングアプローチを採用する。 また,雑音環境におけるロバスト性を改善するために,音響埋め込みネットワークにおけるノイズ除去損失を利用する。 さらに,キーワードスポッティングモデルを効率的に学習するためのlibriphraseデータセットであるlibriphraseデータセットを提案する。 提案手法は他のシングルモーダルベースラインおよびクロスモーダルベースラインと比較して様々な評価セットで競合結果を得る。

In this paper, we propose a novel end-to-end user-defined keyword spotting method that utilizes linguistically corresponding patterns between speech and text sequences. Unlike previous approaches requiring speech keyword enrollment, our method compares input queries with an enrolled text keyword sequence. To place the audio and text representations within a common latent space, we adopt an attention-based cross-modal matching approach that is trained in an end-to-end manner with monotonic matching loss and keyword classification loss. We also utilize a de-noising loss for the acoustic embedding network to improve robustness in noisy environments. Additionally, we introduce the LibriPhrase dataset, a new short-phrase dataset based on LibriSpeech for efficiently training keyword spotting models. Our proposed method achieves competitive results on various evaluation sets compared to other single-modal and cross-modal baselines.
翻訳日:2022-07-01 14:10:26 公開日:2022-06-30
# 分岐への学習のためのルックバック

Lookback for Learning to Branch ( http://arxiv.org/abs/2206.14987v1 )

ライセンス: Link先を確認
Prateek Gupta, Elias B. Khalil, Didier Chet\'elat, Maxime Gasse, Yoshua Bengio, Andrea Lodi, M. Pawan Kumar(参考訳) 表現的かつ計算的に安価な二部グラフニューラルネットワーク(GNN)は、深層学習に基づくMILP(Mixed-Integer Linear Program)の重要コンポーネントであることが示されている。 近年の研究では、分岐とバウンド(B&B)の解法における分岐(可変選択)ヒューリスティックを代替するGNNの有効性が示されている。 これらのGNNは訓練され、オフラインで、MILPのコレクション上で、非常に良いが計算に高価な分岐ヒューリスティックな強い分岐を模倣する。 B&BがサブMILPのツリーをもたらすことを考えれば、私たちは尋ねる。 (a)b&b木の隣接ノード間に目標ヒューリスティックによって示される強い依存関係があるか否か、及び (b)そうであれば、訓練手順に組み込むことができるかどうか。 特に、強い分岐ヒューリスティックでは、子ノードの最良の選択はしばしば親の2番目の選択であることが分かりました。 これを「見返り」現象と呼ぶ。 驚いたことに、Gasse et al. (2019) の典型的な分岐 GNN はこの単純な「答え」を見逃すことが多い。 GNNに見返り現象を組み込むことにより、目標行動をより密接に模倣する2つの方法を提案する。 (a)標準クロスエントロピー損失関数の目標平滑化及び b) Parent-as-Target (PAT) Lookback regularizer 項を追加する。 最後に,最終モデルにおける時間解決などの難解な目標を取り入れたモデル選択フレームワークを提案する。 標準ベンチマークのインスタンスを広範囲に実験した結果,提案手法ではb&bツリーのサイズが最大22%減少し,解決時間も最大15%向上した。

The expressive and computationally inexpensive bipartite Graph Neural Networks (GNN) have been shown to be an important component of deep learning based Mixed-Integer Linear Program (MILP) solvers. Recent works have demonstrated the effectiveness of such GNNs in replacing the branching (variable selection) heuristic in branch-and-bound (B&B) solvers. These GNNs are trained, offline and on a collection of MILPs, to imitate a very good but computationally expensive branching heuristic, strong branching. Given that B&B results in a tree of sub-MILPs, we ask (a) whether there are strong dependencies exhibited by the target heuristic among the neighboring nodes of the B&B tree, and (b) if so, whether we can incorporate them in our training procedure. Specifically, we find that with the strong branching heuristic, a child node's best choice was often the parent's second-best choice. We call this the "lookback" phenomenon. Surprisingly, the typical branching GNN of Gasse et al. (2019) often misses this simple "answer". To imitate the target behavior more closely by incorporating the lookback phenomenon in GNNs, we propose two methods: (a) target smoothing for the standard cross-entropy loss function, and (b) adding a Parent-as-Target (PAT) Lookback regularizer term. Finally, we propose a model selection framework to incorporate harder-to-formulate objectives such as solving time in the final models. Through extensive experimentation on standard benchmark instances, we show that our proposal results in up to 22% decrease in the size of the B&B tree and up to 15% improvement in the solving times.
翻訳日:2022-07-01 14:08:00 公開日:2022-06-30
# eラーニングにおけるディラトリー行動の予測:複数の機械学習モデルの比較

Prediction of Dilatory Behavior in eLearning: A Comparison of Multiple Machine Learning Models ( http://arxiv.org/abs/2206.15079v1 )

ライセンス: Link先を確認
Christof Imhof, Ioan-Sorin Comsa, Martin Hlosta, Behnam Parsaeifard, Ivan Moser, and Per Bergamin(参考訳) タスクの不合理な遅延である Procrastination は、オンライン学習においてよくある出来事である。 潜在的なネガティブな結果には、脱落リスクの高まり、ストレスの増加、気分の低下が含まれる。 学習管理システムの台頭と学習分析により、このような行動の指標が検出され、将来の失明やその他の拡張行動の予測が可能になる。 しかし、このような予測に焦点を当てた研究は少ない。 さらに、様々な種類の予測器と様々な手法の予測性能の比較を含む研究はほとんど存在しない。 本研究では,学習管理システムから抽出した主観的,アンケートに基づく変数と客観的,ログデータに基づく指標の2つのカテゴリを用いて,高等教育環境におけるオンライン課題の遅延やタイムリーな提出を予測する際に,複数の機械学習アルゴリズムの性能を分析し,これらの研究ギャップを埋めることを目的とする。 その結果、客観予測器を用いたモデルは主観予測器を用いたモデルより一貫して優れており、両変数の組合せの方が若干優れていた。 これら3つの選択肢はそれぞれ異なるアプローチ(主観的対象のグラディエント・ブースティング・マシンズ、目的のベイズ的マルチレベルモデル、複合予測器のランダムフォレスト)が導入された。 学習管理システムでこのようなモデルを実装する前に、予測者やアルゴリズムの選択に注意を払うべきであると結論づけた。

Procrastination, the irrational delay of tasks, is a common occurrence in online learning. Potential negative consequences include higher risk of drop-outs, increased stress, and reduced mood. Due to the rise of learning management systems and learning analytics, indicators of such behavior can be detected, enabling predictions of future procrastination and other dilatory behavior. However, research focusing on such predictions is scarce. Moreover, studies involving different types of predictors and comparisons between the predictive performance of various methods are virtually non-existent. In this study, we aim to fill these research gaps by analyzing the performance of multiple machine learning algorithms when predicting the delayed or timely submission of online assignments in a higher education setting with two categories of predictors: subjective, questionnaire-based variables and objective, log-data based indicators extracted from a learning management system. The results show that models with objective predictors consistently outperform models with subjective predictors, and a combination of both variable types perform slightly better. For each of these three options, a different approach prevailed (Gradient Boosting Machines for the subjective, Bayesian multilevel models for the objective, and Random Forest for the combined predictors). We conclude that careful attention should be paid to the selection of predictors and algorithms before implementing such models in learning management systems.
翻訳日:2022-07-01 14:07:34 公開日:2022-06-30
# ニューラルネットワークはグラディエントDescentで表現を学習できる

Neural Networks can Learn Representations with Gradient Descent ( http://arxiv.org/abs/2206.15144v1 )

ライセンス: Link先を確認
Alex Damian, Jason D. Lee, Mahdi Soltanolkotabi(参考訳) 重要な理論的研究により、特定の状況下では、勾配降下によって訓練されたニューラルネットワークがカーネルメソッドのように振る舞うことが判明した。 しかし、実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。 本稿では,カーネルメソッドでは効率的に学習できないが,対象タスクに関連する表現を学習することにより,カーネルレジーム外の2層ニューラルネットワーク上で勾配降下することで容易に学習できる関数群が多数存在することを示すことにより,このギャップを説明する。 また,これらの表現は,カーネルシステムでは不可能である効率的な転送学習を可能にすることを実証する。 具体的には、数個の関係する方向のみに依存する多項式、すなわち$f^\star(x) = g(Ux)$, $U: \R^d \to \R^r$ with $d \gg r$の学習問題を考察する。 f^\star$ の次数が $p$ である場合、カーネルレジームで $f^\star$ を学ぶには $n \asymp d^p$ のサンプルが必要であることが知られている。 我々の主な結果は、勾配降下が$f^\star$に関連する方向のみに依存するデータの表現を学ぶことである。 これにより、サンプルの複雑さは$n\asymp d^2 r + dr^p$ に改善される。 さらに、ソースおよびターゲットドメイン内のデータ分布が同じ表現u$を持つが、異なる多項式ヘッドを持つ転送学習セットアップでは、一般的な転送学習のヒューリスティックが、$d$とは無関係にターゲットサンプル複雑性を持つことを示す。

Significant theoretical work has established that in specific regimes, neural networks trained by gradient descent behave like kernel methods. However, in practice, it is known that neural networks strongly outperform their associated kernels. In this work, we explain this gap by demonstrating that there is a large class of functions which cannot be efficiently learned by kernel methods but can be easily learned with gradient descent on a two layer neural network outside the kernel regime by learning representations that are relevant to the target task. We also demonstrate that these representations allow for efficient transfer learning, which is impossible in the kernel regime. Specifically, we consider the problem of learning polynomials which depend on only a few relevant directions, i.e. of the form $f^\star(x) = g(Ux)$ where $U: \R^d \to \R^r$ with $d \gg r$. When the degree of $f^\star$ is $p$, it is known that $n \asymp d^p$ samples are necessary to learn $f^\star$ in the kernel regime. Our primary result is that gradient descent learns a representation of the data which depends only on the directions relevant to $f^\star$. This results in an improved sample complexity of $n\asymp d^2 r + dr^p$. Furthermore, in a transfer learning setup where the data distributions in the source and target domain share the same representation $U$ but have different polynomial heads we show that a popular heuristic for transfer learning has a target sample complexity independent of $d$.
翻訳日:2022-07-01 14:07:10 公開日:2022-06-30
# ゼロサムゲームにおける混合平衡探索のための相互作用粒子動力学の大偏差について

A note on large deviations for interacting particle dynamics for finding mixed equilibria in zero-sum games ( http://arxiv.org/abs/2206.15177v1 )

ライセンス: Link先を確認
Viktor Nilsson, Pierre Nyquist(参考訳) 連続的ミニマックスゲームにおける平衡点の発見は、生成的敵ネットワークのトレーニングに関連しているため、機械学習において重要な問題となっている。 存在と頑健性の問題から、最近の開発は純粋な平衡点から混合平衡点へと移りつつある。 本稿では,ドミンゴ・エンリッヒらによって提案された2層ゼロサムゲームにおける混合平衡を求める手法について考察する。 この方法はエントロピー正則化に基づいており、2つの競合する戦略は相互作用する粒子の2つの集合で表される。 粒子系の経験的測度の列は粒子数が無限に成長するにつれて大きな偏差原理を満たし、これは経験的測度と関連するニカイド・^o-イソダ誤差の収束を如何に含み、大数結果の既定法則を補完するかを示す。

Finding equilibria points in continuous minimax games has become a key problem within machine learning, in part due to its connection to the training of generative adversarial networks. Because of existence and robustness issues, recent developments have shifted from pure equilibria to focusing on mixed equilibria points. In this note we consider a method proposed by Domingo-Enrich et al. for finding mixed equilibria in two-layer zero-sum games. The method is based on entropic regularisation and the two competing strategies are represented by two sets of interacting particles. We show that the sequence of empirical measures of the particle system satisfies a large deviation principle as the number of particles grows to infinity, and how this implies convergence of the empirical measure and the associated Nikaid\^o-Isoda error, complementing existing law of large numbers results.
翻訳日:2022-07-01 14:06:40 公開日:2022-06-30
# 因果DAGの検証と探索アルゴリズム

Verification and search algorithms for causal DAGs ( http://arxiv.org/abs/2206.15374v1 )

ライセンス: Link先を確認
Davin Choo, Kirankumar Shiragur, Arnab Bhattacharyya(参考訳) 介入データから因果グラフの復元に関する2つの問題点について検討した。 (i) $\textit{verification}$ ここでは、指定された因果グラフが正しいかどうかをタスクがチェックし、 (ii)$\textit{search}$, ここで、タスクは正しい因果グラフを復元することである。 どちらも、実施される介入の数を最小化したいと考えています。 第1の問題は、主張された因果グラフの正確性をチェックするのに必要かつ十分である、原子サイズの介入の最小セットを特徴付けることである。 我々の特徴付けは $\textit{covered edges}$ という概念を使い、簡単な証明を得ることができ、初期の結果を簡単に推論できる。 また,評価結果を,ノード依存の介入コストと境界サイズ介入の設定に一般化する。 上記のすべての設定に対して、一般グラフ上の(ほぼ)最適検証セットを効率的に計算するための、最初の証明可能なアルゴリズムを提供する。 2つ目の問題に対して、我々は、$\mathcal{O}(\log n)$ を$\textit{verify}$ (verify size) に必要となる介入の最適回数を$n$ vertices の基盤となる DAG の2倍の精度で使用しながら、すべての重要なグラフを向き付ける原子介入セットを生成するグラフ分離器に基づく単純な適応アルゴリズムを与える。 この近似は、本質的な線グラフ上の$\textit{any}$検索アルゴリズムが検証サイズに関して$\Omega(\log n)$の最悪のケース近似比を持つため、厳密である。 境界サイズの介入により、サイズ$\leq k$のそれぞれで、我々のアルゴリズムは$\mathcal{O}(\log n \cdot \log \log k)$ factor approximationを与える。 我々のアルゴリズムは、一般の未重み付きグラフと有界サイズの介入による検証サイズに対する非自明な近似を保証する最初のアルゴリズムである。

We study two problems related to recovering causal graphs from interventional data: (i) $\textit{verification}$, where the task is to check if a purported causal graph is correct, and (ii) $\textit{search}$, where the task is to recover the correct causal graph. For both, we wish to minimize the number of interventions performed. For the first problem, we give a characterization of a minimal sized set of atomic interventions that is necessary and sufficient to check the correctness of a claimed causal graph. Our characterization uses the notion of $\textit{covered edges}$, which enables us to obtain simple proofs and also easily reason about earlier results. We also generalize our results to the settings of bounded size interventions and node-dependent interventional costs. For all the above settings, we provide the first known provable algorithms for efficiently computing (near)-optimal verifying sets on general graphs. For the second problem, we give a simple adaptive algorithm based on graph separators that produces an atomic intervention set which fully orients any essential graph while using $\mathcal{O}(\log n)$ times the optimal number of interventions needed to $\textit{verify}$ (verifying size) the underlying DAG on $n$ vertices. This approximation is tight as $\textit{any}$ search algorithm on an essential line graph has worst case approximation ratio of $\Omega(\log n)$ with respect to the verifying size. With bounded size interventions, each of size $\leq k$, our algorithm gives an $\mathcal{O}(\log n \cdot \log \log k)$ factor approximation. Our result is the first known algorithm that gives a non-trivial approximation guarantee to the verifying size on general unweighted graphs and with bounded size interventions.
翻訳日:2022-07-01 14:06:23 公開日:2022-06-30
# MDLatLRRv2に基づく医用画像融合法

A Medical Image Fusion Method based on MDLatLRRv2 ( http://arxiv.org/abs/2206.15179v1 )

ライセンス: Link先を確認
Xu Song and Xiao-Jun Wu and Hui Li(参考訳) MDLatLRRは遅延低ランク表現(LatLRR)によって抽出された入力画像の詳細な部分(局所的な特徴)のみを考慮するため、LatLRRによって抽出された基本部分(主特徴)を効果的に使用しない。 そこで我々は,latlrrで得られた全画像の特徴を効果的に解析し活用する,mdlatlrrv2と呼ばれる改良マルチレベル分解法を提案する。 次に,MDLatLRRv2を医用画像融合に適用する。 基本部は平均的な戦略で融合し、詳細部は核・ノーム操作で融合する。 既存の手法との比較により,本手法は客観的および主観的評価において最先端の融合性能を達成できることが示されている。

Since MDLatLRR only considers detailed parts (salient features) of input images extracted by latent low-rank representation (LatLRR), it doesn't use base parts (principal features) extracted by LatLRR effectively. Therefore, we proposed an improved multi-level decomposition method called MDLatLRRv2 which effectively analyzes and utilizes all the image features obtained by LatLRR. Then we apply MDLatLRRv2 to medical image fusion. The base parts are fused by average strategy and the detail parts are fused by nuclear-norm operation. The comparison with the existing methods demonstrates that the proposed method can achieve state-of-the-art fusion performance in objective and subjective assessment.
翻訳日:2022-07-01 14:04:04 公開日:2022-06-30
# 多言語ファウショット転送におけるデータ選択の鍵となる「モデレーションにおける多様性と不確かさ」

"Diversity and Uncertainty in Moderation" are the Key to Data Selection for Multilingual Few-shot Transfer ( http://arxiv.org/abs/2206.15010v1 )

ライセンス: Link先を確認
Shanu Kumar, Sandipan Dandapat, Monojit Choudhury(参考訳) これは、多言語事前訓練モデルベースシステムに対する完全に教師付き学習アプローチと教師なし学習アプローチのトレードオフとして実用的に有用なものである。 本稿では,アノテーションのためのデータ選択のための様々な戦略について検討する。 提案手法は,$n$-gram言語モデルを用いたデータエントロピー,予測エントロピー,勾配埋め込みといった複数の尺度に依存する。 本稿では,勾配埋め込みと同様の多様性と不確実性サンプリングを誘導するシーケンスラベリングタスクの損失埋め込み法を提案する。 提案したデータ選択戦略は、最大20言語でのPOSタグ、NER、NLIタスクに対して評価・比較される。 実験の結果, グラデーションと損失埋め込みに基づく戦略は, ゼロショット転送の初期性能に違いがあり, ランダムデータ選択ベースラインより一貫して優れていることがわかった。 さらに,提案手法は,ゼロショット転送のための本来のタスク固有ラベル付きトレーニングデータの低い割合を用いて,モデルが微調整された場合でも,同様の改善傾向を示す。

Few-shot transfer often shows substantial gain over zero-shot transfer~\cite{lauscher2020zero}, which is a practically useful trade-off between fully supervised and unsupervised learning approaches for multilingual pretrained model-based systems. This paper explores various strategies for selecting data for annotation that can result in a better few-shot transfer. The proposed approaches rely on multiple measures such as data entropy using $n$-gram language model, predictive entropy, and gradient embedding. We propose a loss embedding method for sequence labeling tasks, which induces diversity and uncertainty sampling similar to gradient embedding. The proposed data selection strategies are evaluated and compared for POS tagging, NER, and NLI tasks for up to 20 languages. Our experiments show that the gradient and loss embedding-based strategies consistently outperform random data selection baselines, with gains varying with the initial performance of the zero-shot transfer. Furthermore, the proposed method shows similar trends in improvement even when the model is fine-tuned using a lower proportion of the original task-specific labeled training data for zero-shot transfer.
翻訳日:2022-07-01 14:03:27 公開日:2022-06-30
# データセットとベンチマークに関する最新の質問:調査

Modern Question Answering Datasets and Benchmarks: A Survey ( http://arxiv.org/abs/2206.15030v1 )

ライセンス: Link先を確認
Zhen Wang(参考訳) 質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。 NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成する。 ディープラーニングの開発に伴い、より困難なQAデータセットが提案され、それを解決する新しい方法が数多く登場しています。 本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。 具体的には、テキスト質問応答と視覚質問応答という2つの最も一般的なQAタスクを別々に導入し、最も代表的なデータセットをカバーし、そして、現在のQA研究の課題を提示します。

Question Answering (QA) is one of the most important natural language processing (NLP) tasks. It aims using NLP technologies to generate a corresponding answer to a given question based on the massive unstructured corpus. With the development of deep learning, more and more challenging QA datasets are being proposed, and lots of new methods for solving them are also emerging. In this paper, we investigate influential QA datasets that have been released in the era of deep learning. Specifically, we begin with introducing two of the most common QA tasks - textual question answer and visual question answering - separately, covering the most representative datasets, and then give some current challenges of QA research.
翻訳日:2022-07-01 14:03:06 公開日:2022-06-30
# 抽象的・具体的単語の視覚的基盤化:G\"Unther et al. (2020)

Visual grounding of abstract and concrete words: A response to G\"unther et al. (2020) ( http://arxiv.org/abs/2206.15381v1 )

ライセンス: Link先を確認
Hassan Shahmohammadi, Maria Heitmeier, Elnaz Shafaei-Bajestan, Hendrik P. A. Lensch, Harald Baayen(参考訳) 単語の意味を捉える現在の計算モデルは、主にテキストコーパスに依存している。 これらのアプローチは過去数十年にわたって成功してきたが、現実世界での基盤の欠如は現在も進行中の問題である。 本稿では,単語埋め込みの視覚的基盤化に着目し,二つの重要な質問を対象とする。 まず、視覚的接地過程における視覚から、言語はどのような恩恵を受けるのか? 第二に、視覚的な接地と抽象的な概念の間には関連性がありますか? 本稿では,具体的および抽象的な単語のモデリングに関して,言語が視覚から恩恵を受けるという,単純かつ効果的なアプローチを提案する。 本モデルでは,テキスト分布情報によって得られる知識を損なうことなく,単語埋め込みを対応する視覚表現と整合させる。 我々は,G\"Unther et al. (2020) によって報告された行動実験に本モデルを適用し,抽象語に対する視覚的心的表現の妥当性について考察した。 評価の結果,(1)純粋にテキスト埋め込みを用いて,人間の行動を予測することが可能であった。 2) 基礎組込みは, テキストの組込みよりも人間の行動のモデル化が優れている。 (3)抽象概念は、視覚的表現が対応することよりも、具体的概念との結びつきを通して暗黙的に視覚的接地から恩恵を受ける。

Current computational models capturing words' meaning mostly rely on textual corpora. While these approaches have been successful over the last decades, their lack of grounding in the real world is still an ongoing problem. In this paper, we focus on visual grounding of word embeddings and target two important questions. First, how can language benefit from vision in the process of visual grounding? And second, is there a link between visual grounding and abstract concepts? We investigate these questions by proposing a simple yet effective approach where language benefits from vision specifically with respect to the modeling of both concrete and abstract words. Our model aligns word embeddings with their corresponding visual representation without deteriorating the knowledge captured by textual distributional information. We apply our model to a behavioral experiment reported by G\"unther et al. (2020), which addresses the plausibility of having visual mental representations for abstract words. Our evaluation results show that: (1) It is possible to predict human behaviour to a large degree using purely textual embeddings. (2) Our grounded embeddings model human behavior better compared to their textual counterparts. (3) Abstract concepts benefit from visual grounding implicitly through their connections to concrete concepts, rather than from having corresponding visual representations.
翻訳日:2022-07-01 14:02:55 公開日:2022-06-30
# (参考訳) watch and match: 正規化最適輸送によるスーパーチャージ模倣

Watch and Match: Supercharging Imitation with Regularized Optimal Transport ( http://arxiv.org/abs/2206.15469v1 )

ライセンス: CC0 1.0
Siddhant Haldar and Vaibhav Mathur and Denis Yarats and Lerrel Pinto(参考訳) 模倣学習は、複雑な意思決定問題に対して効率的に学習ポリシーを学習する上で非常に有望である。 現在の最先端のアルゴリズムは、しばしば逆強化学習(IRL)を使用し、専門家による一連のデモンストレーションが与えられた場合、エージェントは報酬関数と関連する最適ポリシーを推論する。 しかし、そのようなirlアプローチは、複雑な制御問題に対してかなりのオンラインインタラクションを必要とすることが多い。 本研究では, 最適輸送に基づく軌道整合の最近の進歩を基盤とした新しい模倣学習アルゴリズムであるRegularized Optimal Transport (ROT)を提案する。 我々の重要な技術的洞察は、軌道整合報酬と行動クローニングを適応的に組み合わせることで、ほんの数回のデモンストレーションでも模倣を著しく加速できるということです。 DeepMind Control Suite、OpenAI Robotics Suite、Meta-World Benchmarkにまたがる20の視覚的制御タスクの実験では、従来の最先端の手法と比較して平均7.8倍高速な模倣が専門家のパフォーマンスの90%に達することを示した。 実世界のロボット操作では、1回のデモと1時間のオンライントレーニングで14タスクで平均90.1%の成功率を達成した。

Imitation learning holds tremendous promise in learning policies efficiently for complex decision making problems. Current state-of-the-art algorithms often use inverse reinforcement learning (IRL), where given a set of expert demonstrations, an agent alternatively infers a reward function and the associated optimal policy. However, such IRL approaches often require substantial online interactions for complex control problems. In this work, we present Regularized Optimal Transport (ROT), a new imitation learning algorithm that builds on recent advances in optimal transport based trajectory-matching. Our key technical insight is that adaptively combining trajectory-matching rewards with behavior cloning can significantly accelerate imitation even with only a few demonstrations. Our experiments on 20 visual control tasks across the DeepMind Control Suite, the OpenAI Robotics Suite, and the Meta-World Benchmark demonstrate an average of 7.8X faster imitation to reach 90% of expert performance compared to prior state-of-the-art methods. On real-world robotic manipulation, with just one demonstration and an hour of online training, ROT achieves an average success rate of 90.1% across 14 tasks.
翻訳日:2022-07-01 14:01:42 公開日:2022-06-30
# 軌道モニタリングによる都市全体の生活パターンの学習

Learning Citywide Patterns of Life from Trajectory Monitoring ( http://arxiv.org/abs/2206.15352v1 )

ライセンス: Link先を確認
Mark Tenzer, Zeeshan Rasheed, Khurram Shafique(参考訳) 近年の人間の移動性データセットの普及は、軌跡予測、需要予測、旅行時間推定、異常検出における地理空間および交通研究の触媒となった。 しかし、これらのデータセットはより広範に、人間の移動性の複雑なシステムの記述的分析を可能にする。 生活分析のパターンを、オンラインの教師なし異常検出の自然な説明可能な拡張として定義し、異常データストリームを監視するだけでなく、時間とともに正常なパターンを明示的に抽出する。 生命のパターンを学習するために、計算生物学と神経ロボティクスの研究からGrow When Required(GWR)エピソード記憶を地理空間解析の新しい領域に適用する。 この生物学的にインスパイアされたニューラルネットワークは、自己組織化マップ(SOM)に関連するもので、GPSストリームを繰り返すにつれて一連の「記憶」またはプロトタイプのトラフィックパターンを段階的に構築する。 そして、新しい観測結果を以前の経験と比較し、オンラインで教師なしのクラスタリングとデータの異常検出を誘導する。 我々は,ポルト・タクシー・データセットから,お祭りやコンサートなど,主要な公休日と新たに発見された交通異常の両方を含む関心のパターンを抽出した。 スマートシティや自動運転車,都市計画・管理など,多くの分野において,正常・異常な道路交通行動の段階的な学習能力が期待できる。

The recent proliferation of real-world human mobility datasets has catalyzed geospatial and transportation research in trajectory prediction, demand forecasting, travel time estimation, and anomaly detection. However, these datasets also enable, more broadly, a descriptive analysis of intricate systems of human mobility. We formally define patterns of life analysis as a natural, explainable extension of online unsupervised anomaly detection, where we not only monitor a data stream for anomalies but also explicitly extract normal patterns over time. To learn patterns of life, we adapt Grow When Required (GWR) episodic memory from research in computational biology and neurorobotics to a new domain of geospatial analysis. This biologically-inspired neural network, related to self-organizing maps (SOM), constructs a set of "memories" or prototype traffic patterns incrementally as it iterates over the GPS stream. It then compares each new observation to its prior experiences, inducing an online, unsupervised clustering and anomaly detection on the data. We mine patterns-of-interest from the Porto taxi dataset, including both major public holidays and newly-discovered transportation anomalies, such as festivals and concerts which, to our knowledge, have not been previously acknowledged or reported in prior work. We anticipate that the capability to incrementally learn normal and abnormal road transportation behavior will be useful in many domains, including smart cities, autonomous vehicles, and urban planning and management.
翻訳日:2022-07-01 13:38:39 公開日:2022-06-30
# 任意X-Y翻訳を実現する多言語機械翻訳システムの構築

Building Multilingual Machine Translation Systems That Serve Arbitrary X-Y Translations ( http://arxiv.org/abs/2206.14982v1 )

ライセンス: Link先を確認
Akiko Eriguchi, Shufang Xie, Tao Qin, Hany Hassan Awadalla(参考訳) 多言語ニューラルマシン翻訳(mnmt)は、1つのシステムが複数のソース言語から複数のターゲット言語への文の翻訳を可能にし、従来のバイリンガルシステムに比べてデプロイコストを大幅に削減する。 しかし、mnmt訓練の利点は多対一の方向に限られることが多い。 このモデルは、一対多で多対多でゼロショットのセットアップでパフォーマンスが悪い。 本稿では,事前学習と微調整の2段階の学習戦略を多言語化しつつ,任意のx-y変換方向に対応するmnmtシステムを実際に構築する方法について述べる。 WMT'21多言語翻訳タスクを用いて、我々のシステムは、アーキテクチャの変更や余分なデータ収集を必要とせずに、平均で+6.0および+4.1BLEUを与える、直接バイリンガルモデルとピボット翻訳モデルの従来のベースラインよりも優れていることを示した。 さらに,本提案手法は,実用的な展開シナリオに対応するために,非常に大規模なデータセットで検討する。

Multilingual Neural Machine Translation (MNMT) enables one system to translate sentences from multiple source languages to multiple target languages, greatly reducing deployment costs compared with conventional bilingual systems. The MNMT training benefit, however, is often limited to many-to-one directions. The model suffers from poor performance in one-to-many and many-to-many with zero-shot setup. To address this issue, this paper discusses how to practically build MNMT systems that serve arbitrary X-Y translation directions while leveraging multilinguality with a two-stage training strategy of pretraining and finetuning. Experimenting with the WMT'21 multilingual translation task, we demonstrate that our systems outperform the conventional baselines of direct bilingual models and pivot translation models for most directions, averagely giving +6.0 and +4.1 BLEU, without the need for architecture change or extra data collection. Moreover, we also examine our proposed approach in an extremely large-scale data setting to accommodate practical deployment scenarios.
翻訳日:2022-07-01 13:38:00 公開日:2022-06-30
# 低リソース言語のための効率的なエンティティ候補生成

Efficient Entity Candidate Generation for Low-Resource Languages ( http://arxiv.org/abs/2206.15163v1 )

ライセンス: Link先を確認
Alberto Garc\'ia-Dur\'an, Akhil Arora, Robert West(参考訳) 候補生成はエンティティリンクの重要なモジュールである。 また、知識ベースを有効活用することが証明された複数のnlpタスクにおいて重要な役割を果たす。 それにもかかわらず、ナイーブなアプローチが非常に良いパフォーマンスを得るため、文学をつなぐ単言語英語の実体では見過ごされがちである。 残念ながら、既存の英語のアプローチは、リソース不足の言語にうまく移行できない。 本稿では,低リソース言語に焦点をあてたクロスリンガルエンティティの文脈における候補生成問題の詳細な分析を行う。 その他の貢献として,先行研究における評価の限界を指摘した。 本稿では,その難易度に基づいてクエリを型にキャラクタリゼーションすることにより,異なるメソッドのパフォーマンスの解釈性を向上させる。 また,より複雑な伝達学習に基づくニューラルアプローチによる設計を動機とする指標の構成に基づく,軽量でシンプルな解を提案する。 2つの評価条件の下で9つの実世界のデータセットを徹底的に分析した結果、私たちのシンプルなソリューションは、ほぼすべてのデータセットとクエリタイプの品質と効率の両面で最先端のアプローチよりも優れています。

Candidate generation is a crucial module in entity linking. It also plays a key role in multiple NLP tasks that have been proven to beneficially leverage knowledge bases. Nevertheless, it has often been overlooked in the monolingual English entity linking literature, as naive approaches obtain very good performance. Unfortunately, the existing approaches for English cannot be successfully transferred to poorly resourced languages. This paper constitutes an in-depth analysis of the candidate generation problem in the context of cross-lingual entity linking with a focus on low-resource languages. Among other contributions, we point out limitations in the evaluation conducted in previous works. We introduce a characterization of queries into types based on their difficulty, which improves the interpretability of the performance of different methods. We also propose a light-weight and simple solution based on the construction of indexes whose design is motivated by more complex transfer learning based neural approaches. A thorough empirical analysis on 9 real-world datasets under 2 evaluation settings shows that our simple solution outperforms the state-of-the-art approach in terms of both quality and efficiency for almost all datasets and query types.
翻訳日:2022-07-01 13:37:40 公開日:2022-06-30
# ディープニューラルネットワークのロバスト性とデジタル病理の共通破壊のベンチマーク

Benchmarking the Robustness of Deep Neural Networks to Common Corruptions in Digital Pathology ( http://arxiv.org/abs/2206.14973v1 )

ライセンス: Link先を確認
Yunlong Zhang and Yuxuan Sun and Honglin Li and Sunyi Zheng and Chenglu Zhu and Lin Yang(参考訳) 臨床応用のための診断モデルを設計する際には、幅広い画像の破損に関してモデルの堅牢性を保証することが不可欠である。 そこで, 難治な病理画像に対してディープニューラルネットワークがどのように機能するかを評価するために, 使いやすいベンチマークが確立された。 具体的には、検証画像に9種類の共通の腐敗を注入して破損画像を生成する。 また,2つの分類と1つのランキング指標は,腐敗下の予測と信頼度を評価するために設計されている。 その結果得られた2つのベンチマークデータセットで評価した結果,(1)様々な深層ニューラルネットワークモデルでは,高い精度低下(クリーンイメージの2倍の誤差)と劣化画像の信頼性の低下,(2)検証セットをベンチマークに置き換えた際の検証誤差とテストエラーとの相関の低さが相関性の向上に寄与することがわかった。 私たちのコードはhttps://github.com/superjamessyx/robustness_benchmarkで利用可能です。

When designing a diagnostic model for a clinical application, it is crucial to guarantee the robustness of the model with respect to a wide range of image corruptions. Herein, an easy-to-use benchmark is established to evaluate how deep neural networks perform on corrupted pathology images. Specifically, corrupted images are generated by injecting nine types of common corruptions into validation images. Besides, two classification and one ranking metrics are designed to evaluate the prediction and confidence performance under corruption. Evaluated on two resulting benchmark datasets, we find that (1) a variety of deep neural network models suffer from a significant accuracy decrease (double the error on clean images) and the unreliable confidence estimation on corrupted images; (2) A low correlation between the validation and test errors while replacing the validation set with our benchmark can increase the correlation. Our codes are available on https://github.com/superjamessyx/robustness_benchmark.
翻訳日:2022-07-01 13:37:25 公開日:2022-06-30
# FL-Tuning:トランスにおけるフィードフォワードネットワークのためのレイヤチューニング

FL-Tuning: Layer Tuning for Feed-Forward Network in Transformer ( http://arxiv.org/abs/2206.15312v1 )

ライセンス: Link先を確認
Jingping Liu, Yuqiu Song, Kui Xue, Hongli Sun, Chao Wang, Lihan Chen, Haiyun Jiang, Jiaqing Liang, Tong Ruan(参考訳) プロンプトチューニングは、トレーニング済みの言語モデルを下流タスクに適応させる新しい方法である。 しかし、既存の研究は主に入力シーケンスにプロンプトを追加することである。 この方法は、中間のマルチヘッド・セルフアテンションとフィードフォワード・ネットワーク計算のために期待通りには動作せず、モデル最適化をあまりスムーズにしない。 そこで我々は,Transformer層に学習可能なパラメータを追加することを目的とした,レイヤチューニングと呼ばれる新しいチューニング手法を提案する。 具体的には,Transformerのフィードフォワードネットワーク,すなわちFLチューニングのレイヤチューニングに着目する。 各フィードフォワードネットワークの隠された層に追加のユニットを導入する。 我々は、パブリックCLUEベンチマークで広範な実験を行う。 結果はこう示しています 1) FLチューニングは,ほぼすべてのケースにおいて,フルデータおよび少数ショット設定の両方で即時チューニング手法の性能が向上する。 特に、WSC 1.0とF1では17.93%、P-tuning v2ではCLUENERでは16.142%の精度向上を実現している。 2) FLチューニングはより安定であり, Pチューニングv2の約1.17倍の速度で収束する。 3) Transformer のパラメータの 3% しかトレーニングされないため、FL-tuning は、ほとんどのデータセットの微調整と同等であり、微調整(例えば、WSC 1.1 では 12.9% の精度向上)では、いくつかのデータセットで大幅に上回っている。 ソースコードはhttps://github.com/genggui001/fl-tuningで入手できる。

Prompt tuning is an emerging way of adapting pre-trained language models to downstream tasks. However, the existing studies are mainly to add prompts to the input sequence. This way would not work as expected due to the intermediate multi-head self-attention and feed-forward network computation, making model optimization not very smooth. Hence, we propose a novel tuning way called layer tuning, aiming to add learnable parameters in Transformer layers. Specifically, we focus on layer tuning for feed-forward network in the Transformer, namely FL-tuning. It introduces additional units into the hidden layer of each feed-forward network. We conduct extensive experiments on the public CLUE benchmark. The results show that: 1) Our FL-tuning outperforms prompt tuning methods under both full-data and few-shot settings in almost all cases. In particular, it improves accuracy by 17.93% (full-data setting) on WSC 1.0 and F1 by 16.142% (few-shot setting) on CLUENER over P-tuning v2. 2) Our FL-tuning is more stable and converges about 1.17 times faster than P-tuning v2. 3) With only about 3% of Transformer's parameters to be trained, FL-tuning is comparable with fine-tuning on most datasets, and significantly outperforms fine-tuning (e.g., accuracy improved by 12.9% on WSC 1.1) on several datasets. The source codes are available at https://github.com/genggui001/FL-Tuning.
翻訳日:2022-07-01 13:37:05 公開日:2022-06-30
# ニューラルネットワークによる未来の世界イベントの予測

Forecasting Future World Events with Neural Networks ( http://arxiv.org/abs/2206.15474v1 )

ライセンス: Link先を確認
Andy Zou, Tristan Xiao, Ryan Jia, Joe Kwon, Mantas Mazeika, Richard Li, Dawn Song, Jacob Steinhardt, Owain Evans, Dan Hendrycks(参考訳) 将来の世界イベントの予測は、難しいが価値のあるタスクである。 気候、地政学的紛争、パンデミック、経済指標の予測は、政策や意思決定を形作るのに役立つ。 これらの領域では、専門家の判断が最高の予測に寄与する。 言語モデリングの進歩を考えると、これらの予測は自動化できるだろうか? この目的のために,数千の予測質問と付随するニュースコーパスを含むデータセットであるAutocastを紹介する。 質問は、トーナメントの予測、高品質、現実世界の重要性、多様性の確保から受けられる。 ニュースコーパスは日付によって整理され、人間が過去の予測(未来からの漏洩を避ける)を正確にシミュレートすることができる。 桁違いの数値予測の難しさ(例:2022年のCOVID-19のグローバルなケース)により、数値的な質問やキャリブレーションのメトリクスのデータセットであるIntervalQAをキュレートする。 予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。 しかし、モデルサイズの増加とニュースコーパスからの関連情報の取り込みにより性能が向上する。 まとめると、autocastは大きな言語モデルにとって新しい挑戦であり、パフォーマンスの向上は大きな実用的利益をもたらす可能性がある。

Forecasting future world events is a challenging but valuable task. Forecasts of climate, geopolitical conflict, pandemics and economic indicators help shape policy and decision making. In these domains, the judgment of expert humans contributes to the best forecasts. Given advances in language modeling, can these forecasts be automated? To this end, we introduce Autocast, a dataset containing thousands of forecasting questions and an accompanying news corpus. Questions are taken from forecasting tournaments, ensuring high quality, real-world importance, and diversity. The news corpus is organized by date, allowing us to precisely simulate the conditions under which humans made past forecasts (avoiding leakage from the future). Motivated by the difficulty of forecasting numbers across orders of magnitude (e.g. global cases of COVID-19 in 2022), we also curate IntervalQA, a dataset of numerical questions and metrics for calibration. We test language models on our forecasting task and find that performance is far below a human expert baseline. However, performance improves with increased model size and incorporation of relevant information from the news corpus. In sum, Autocast poses a novel challenge for large language models and improved performance could bring large practical benefits.
翻訳日:2022-07-01 13:35:11 公開日:2022-06-30
# 因果関係に基づく多変量時系列異常検出

Causality-Based Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2206.15033v1 )

ライセンス: Link先を確認
Wenzhuo Yang and Kun Zhang and Steven C.H. Hoi(参考訳) 多変量時系列における異常検出は、itシステム運用や製造産業など、様々な実世界のシステムの振る舞いを監視する上で重要な役割を果たす。 前回のアプローチでは、多変量時系列の基本的なメカニズムを考慮せずにジョイント分布をモデル化し、複雑で計算量的に空腹になる。 本稿では,因果の観点から異常検出問題を定式化し,異常を正規因果機構に従わないインスタンスとして多変量データを生成する。 そこで本研究では,まずデータから因果構造を学習し,そのインスタンスが局所因果機構に対して異常であるか否かを推定し,データから直接条件分布を推定できる直接原因から各変数を生成する因果性に基づく異常検出手法を提案する。 因果システムのモジュラリティ特性に照らして、元の問題は一連の分離された低次元異常検出問題に分割され、異常が発生した場合に直接識別される。 実世界のAIOpsアプリケーションに関するケーススタディとして、シミュレーションと公開両方のデータセットによるアプローチを評価し、その有効性、堅牢性、実用性を示します。

Anomaly detection in multivariate time series plays an important role in monitoring the behaviors of various real-world systems, e.g., IT system operations or manufacturing industry. Previous approaches model the joint distribution without considering the underlying mechanism of multivariate time series, making them complicated and computationally hungry. In this paper, we formulate the anomaly detection problem from a causal perspective and view anomalies as instances that do not follow the regular causal mechanism to generate the multivariate data. We then propose a causality-based anomaly detection approach, which first learns the causal structure from data and then infers whether an instance is an anomaly relative to the local causal mechanism to generate each variable from its direct causes, whose conditional distribution can be directly estimated from data. In light of the modularity property of causal systems, the original problem is divided into a series of separate low-dimensional anomaly detection problems so that where an anomaly happens can be directly identified. We evaluate our approach with both simulated and public datasets as well as a case study on real-world AIOps applications, showing its efficacy, robustness, and practical feasibility.
翻訳日:2022-07-01 13:34:54 公開日:2022-06-30
# 線形ブートネックネットワークとその多線形性への遷移について

A note on Linear Bottleneck networks and their Transition to Multilinearity ( http://arxiv.org/abs/2206.15058v1 )

ライセンス: Link先を確認
Libin Zhu, Parthe Pandit, Mikhail Belkin(参考訳) ランダムに初期化されたワイドニューラルネットワークは、初期化の周囲の半径$O(1)$の球において、幅が大きくなるにつれて重みの線形関数に遷移する。 この結果に必要な条件は、ネットワークのすべての層が十分に広く、すなわちすべての幅が無限大となることである。 しかし、この無限幅の仮定が破られると線形性への遷移は崩壊する。 本研究では,ボトルネック層を持つ線形ネットワークが,初期化前後の半径$o(1)$の球において重みの双線型関数を学習することを示す。 一般に、B-1$のボトルネック層の場合、ネットワークは重みの多線形関数の次数$B$である。 重要なことに、学位はボトルネックの数にのみ依存し、ネットワーク全体の深さには依存しない。

Randomly initialized wide neural networks transition to linear functions of weights as the width grows, in a ball of radius $O(1)$ around initialization. A necessary condition for this result is that all layers of the network are wide enough, i.e., all widths tend to infinity. However, the transition to linearity breaks down when this infinite width assumption is violated. In this work we show that linear networks with a bottleneck layer learn bilinear functions of the weights, in a ball of radius $O(1)$ around initialization. In general, for $B-1$ bottleneck layers, the network is a degree $B$ multilinear function of weights. Importantly, the degree only depends on the number of bottlenecks and not the total depth of the network.
翻訳日:2022-07-01 13:33:47 公開日:2022-06-30
# 非パラメトリック常微分方程式の学習:スパースおよびノイズデータへの応用

Learning Nonparametric Ordinary differential Equations: Application to Sparse and Noisy Data ( http://arxiv.org/abs/2206.15215v1 )

ライセンス: Link先を確認
Kamel Lahouel, Michael Wells, David Lovitz, Victor Rielly, Ethan Lew, and Bruno Jedynak(参考訳) 正規微分方程式(ODE)の非パラメトリックシステムを学ぶ $\dot x = f(t,x)$ from noisy and sparse data is a emerging machine learning topic。 我々は、コーネルヒルベルト空間(RKHS)の再現理論を用いて、ODEの解が存在し一意である$f$の候補を定義する。 f$の学習は、制約付き最適化問題をRKHSで解くことである。 本稿では,Representer定理とオイラー近似を反復的に用いて数値解を与えるペナルティ法を提案する。 我々は、$x$と推定器の間の$L^2$距離の一般化を証明した。 高齢者の脳皮質におけるフィッツヒューナグモ振動子とアミロイドレベルの予測について実験を行った。 どちらの場合も、芸術の状況と比較すると、競争力のある結果が得られます。

Learning nonparametric systems of Ordinary Differential Equations (ODEs) $\dot x = f(t,x)$ from noisy and sparse data is an emerging machine learning topic. We use the well-developed theory of Reproducing Kernel Hilbert Spaces (RKHS) to define candidates for $f$ for which the solution of the ODE exists and is unique. Learning $f$ consists of solving a constrained optimization problem in an RKHS. We propose a penalty method that iteratively uses the Representer theorem and Euler approximations to provide a numerical solution. We prove a generalization bound for the $L^2$ distance between $x$ and its estimator. Experiments are provided for the FitzHugh Nagumo oscillator and for the prediction of the Amyloid level in the cortex of aging subjects. In both cases, we show competitive results when compared with the state of the art.
翻訳日:2022-07-01 13:33:33 公開日:2022-06-30
# 教師付きモデルの一般化の改善

Improving the Generalization of Supervised Models ( http://arxiv.org/abs/2206.15369v1 )

ライセンス: Link先を確認
Mert Bulent Sariyildiz, Yannis Kalantidis, Karteek Alahari, Diane Larlus(参考訳) 我々は、与えられた分類タスク(例えば、ImageNet-1K (IN1K))でディープニューラルネットワークをトレーニングする問題を考える。 これら2つの相反する性質は、元のタスクのパフォーマンスを維持しながらモデルの一般化を改善するためのトレードオフを課す。 自己教師付き学習(SSL)で訓練されたモデルは、転送学習において教師付き学習よりも一般化する傾向にある。 本稿では,両世界の最善を活かした教師付き学習環境を提案する。 最近のSSLモデルの2つの重要なコンポーネントであるデータ拡張のためのマルチスケール作物と、拡張可能なプロジェクタヘッドの使用という、一般的な教師付きトレーニングフレームワークを充実させています。 クラス重みの最後の層を,メモリバンクを用いてオンザフライで計算したクラスプロトタイプに置き換える。 これら3つの改善により、in1kトレーニングタスクと13の転送タスクのトレードオフがより良好になることを示す。 In1KでDINOやPAWSといったトップメソッドを上回り、トランスファータスクで優れたパフォーマンスを発揮するt-ReXと、IN1Kで高度に最適化されたRSB-A1モデルにマッチするt-ReX*だ。 プロジェクトページと事前学習モデル: https://europe.naverlabs.com/t-rex

We consider the problem of training a deep neural network on a given classification task, e.g., ImageNet-1K (IN1K), so that it excels at that task as well as at other (future) transfer tasks. These two seemingly contradictory properties impose a trade-off between improving the model's generalization while maintaining its performance on the original task. Models trained with self-supervised learning (SSL) tend to generalize better than their supervised counterparts for transfer learning; yet, they still lag behind supervised models on IN1K. In this paper, we propose a supervised learning setup that leverages the best of both worlds. We enrich the common supervised training framework using two key components of recent SSL models: multi-scale crops for data augmentation and the use of an expendable projector head. We replace the last layer of class weights with class prototypes computed on the fly using a memory bank. We show that these three improvements lead to a more favorable trade-off between the IN1K training task and 13 transfer tasks. Over all the explored configurations, we single out two models: t-ReX that achieves a new state of the art for transfer learning and outperforms top methods such as DINO and PAWS on IN1K, and t-ReX* that matches the highly optimized RSB-A1 model on IN1K while performing better on transfer tasks. Project page and pretrained models: https://europe.naverlabs.com/t-rex
翻訳日:2022-07-01 13:31:03 公開日:2022-06-30
# (参考訳) 一貫性のグラディエントに基づく説明の強化による視覚的接地の改善

Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations ( http://arxiv.org/abs/2206.15462v1 )

ライセンス: CC BY 4.0
Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ord\'o\~nez Rom\'an(参考訳) 地域レベルのアノテーションと整合した勾配に基づく説明を促す視覚言語モデルの事前学習のためのマージンベース損失を提案する。 我々は、この目的を注意マスク一貫性(AMC)と呼び、より高速なR-CNNのようなオブジェクト検出器を明示的に訓練する領域レベルのアノテーションに依存するモデルと比較して、優れた視覚的グラウンドディング性能が得られることを示した。 AMCは、注意点を注視する勾配に基づく説明マスクを奨励し、主にアノテーションを含む画像の注釈付き領域内で機能する。 特に、標準視覚言語モデリングの目的の上にamcで訓練されたモデルは、flickr30kの視覚接地ベンチマークにおいて、最先端の精度が86.59%、最高の先行モデルと比較して絶対的な改善が5.48%である。 提案手法は表現理解のための確立されたベンチマークでも非常によく評価され、人間のアノテーションに合致するグラデーションに基づく説明の設計により、さらなる利点が得られている。

We propose a margin-based loss for vision-language model pretraining that encourages gradient-based explanations that are consistent with region-level annotations. We refer to this objective as Attention Mask Consistency (AMC) and demonstrate that it produces superior visual grounding performance compared to models that rely instead on region-level annotations for explicitly training an object detector such as Faster R-CNN. AMC works by encouraging gradient-based explanation masks that focus their attention scores mostly within annotated regions of interest for images that contain such annotations. Particularly, a model trained with AMC on top of standard vision-language modeling objectives obtains a state-of-the-art accuracy of 86.59% in the Flickr30k visual grounding benchmark, an absolute improvement of 5.48% when compared to the best previous model. Our approach also performs exceedingly well on established benchmarks for referring expression comprehension and offers the added benefit by design of gradient-based explanations that better align with human annotations.
翻訳日:2022-07-01 13:30:11 公開日:2022-06-30
# Masked Part-Of-Speech Model: 長期コンテキストモデリングは教師なしPOSタグ作成に役立つか?

Masked Part-Of-Speech Model: Does Modeling Long Context Help Unsupervised POS-tagging? ( http://arxiv.org/abs/2206.14969v1 )

ライセンス: Link先を確認
Xiang Zhou, Shiyue Zhang, Mohit Bansal(参考訳) 以前のPart-Of-Speech(POS)帰納モデルは通常、実際の言語では成り立たないある種の独立性の仮定(マルコフ、一方向、局所的な依存など)を仮定する。 例えば、主語と動詞の合意は、長期的かつ双方向的である。 本稿では,MLM(Masked Language Models)の成功に触発されたMasked Part-of-Speech Model(MPoSM)を提案する。 MPoSMは任意のタグ依存をモデル化し、マスクされたPOS再構成の目的を通じてPOS誘導を行う。 英語のPenn WSJデータセットと10の多様な言語を含むユニバーサルツリーバンクの競合的な結果を得た。 長期依存のモデリングは理想的にはこの課題に役立つだろうが、我々のアブレーション研究は異なる言語で混在する傾向を示している。 この現象をよりよく理解するために、タグアグリーメントを学習するモデルの能力を具体的に診断できる新しい合成実験を設計する。 驚くべきことに、たとえ強いベースラインであっても、隣接する単語間の合意という非常に単純な設定で、この問題を一貫して解決することができない。 それでもMPoSMは全体的なパフォーマンス向上を実現している。 最後に,他の課題に照らして,詳細なエラー解析を行う。 私たちのコードはhttps://github.com/owenzx/MPoSMで利用可能です。

Previous Part-Of-Speech (POS) induction models usually assume certain independence assumptions (e.g., Markov, unidirectional, local dependency) that do not hold in real languages. For example, the subject-verb agreement can be both long-term and bidirectional. To facilitate flexible dependency modeling, we propose a Masked Part-of-Speech Model (MPoSM), inspired by the recent success of Masked Language Models (MLM). MPoSM can model arbitrary tag dependency and perform POS induction through the objective of masked POS reconstruction. We achieve competitive results on both the English Penn WSJ dataset as well as the universal treebank containing 10 diverse languages. Though modeling the long-term dependency should ideally help this task, our ablation study shows mixed trends in different languages. To better understand this phenomenon, we design a novel synthetic experiment that can specifically diagnose the model's ability to learn tag agreement. Surprisingly, we find that even strong baselines fail to solve this problem consistently in a very simplified setting: the agreement between adjacent words. Nonetheless, MPoSM achieves overall better performance. Lastly, we conduct a detailed error analysis to shed light on other remaining challenges. Our code is available at https://github.com/owenzx/MPoSM
翻訳日:2022-07-01 13:11:33 公開日:2022-06-30
# shifts 2.0: 実分布シフトのデータセットを拡張する

Shifts 2.0: Extending The Dataset of Real Distributional Shifts ( http://arxiv.org/abs/2206.15407v1 )

ライセンス: Link先を確認
Andrey Malinin, Andreas Athanasopoulos, Muhamed Barakovic, Meritxell Bach Cuadra, Mark J. F. Gales, Cristina Granziera, Mara Graziani, Nikolay Kartashev, Konstantinos Kyriakopoulos, Po-Jui Lu, Nataliia Molchanova, Antonis Nikitakis, Vatsal Raina, Francesco La Rosa, Eli Sivena, Vasileios Tsarsitalidis, Efi Tsompopoulou, Elena Volf(参考訳) 分散シフト(あるいはトレーニングとデプロイメントデータのミスマッチ)は、自動運転や医療といった高度な産業応用において、マシンラーニングを使用する上での大きな障害である。 これにより、MLモデルがいかに堅牢に一般化するか、そして不確実性の推定値の品質を評価することができる必要がある。 標準のMLベースラインデータセットは、トレーニング、検証、テストデータがしばしば同一に分散されているため、これらのプロパティを評価できない。 近年,分散マッチングデータとシフトデータの両方を特徴とする専用ベンチマークが登場している。 これらのベンチマークの中で、shiftsデータセットは、タスクの多様性と、その特徴とするデータモダリティという点で際立っている。 ベンチマークのほとんどは2d画像分類タスクで占められているが、シフトには表型気象予報、機械翻訳、車両の動き予測タスクが含まれている。 これにより、さまざまな産業規模のタスクでモデルのロバスト性を評価することができ、普遍的あるいは直接的に適用可能なタスク固有の結論に達することができる。 本稿では,社会的重要性の高い産業・リスクの高い2つのデータセットを用いてShifts Datasetを拡張した。 具体的には,3次元磁気共鳴脳画像における白質多発性硬化症病変のセグメンテーションの課題と,船舶の電力消費の推定について検討する。 どちらのタスクも、ユビキタスな分散シフトと、高いエラーコストによる厳格な安全性要件を特徴とする。 これらの新しいデータセットは、研究者が新しい状況でロバストな一般化と不確実性推定をさらに探求できる。 本稿では,各タスクのデータセットとベースライン結果について述べる。

Distributional shift, or the mismatch between training and deployment data, is a significant obstacle to the usage of machine learning in high-stakes industrial applications, such as autonomous driving and medicine. This creates a need to be able to assess how robustly ML models generalize as well as the quality of their uncertainty estimates. Standard ML baseline datasets do not allow these properties to be assessed, as the training, validation and test data are often identically distributed. Recently, a range of dedicated benchmarks have appeared, featuring both distributionally matched and shifted data. Among these benchmarks, the Shifts dataset stands out in terms of the diversity of tasks as well as the data modalities it features. While most of the benchmarks are heavily dominated by 2D image classification tasks, Shifts contains tabular weather forecasting, machine translation, and vehicle motion prediction tasks. This enables the robustness properties of models to be assessed on a diverse set of industrial-scale tasks and either universal or directly applicable task-specific conclusions to be reached. In this paper, we extend the Shifts Dataset with two datasets sourced from industrial, high-risk applications of high societal importance. Specifically, we consider the tasks of segmentation of white matter Multiple Sclerosis lesions in 3D magnetic resonance brain images and the estimation of power consumption in marine cargo vessels. Both tasks feature ubiquitous distributional shifts and a strict safety requirement due to the high cost of errors. These new datasets will allow researchers to further explore robust generalization and uncertainty estimation in new situations. In this work, we provide a description of the dataset and baseline results for both tasks.
翻訳日:2022-07-01 13:10:51 公開日:2022-06-30
# gsclip : 自然言語における分布変化を説明する枠組み

GSCLIP : A Framework for Explaining Distribution Shifts in Natural Language ( http://arxiv.org/abs/2206.15007v1 )

ライセンス: Link先を確認
Zhiying Zhu, Weixin Liang, James Zou(参考訳) 抽象的な分散シフトを理解するエンドユーザを支援することで、AIデプロイメントが大幅に簡単になる。 そこで本研究では,新しい課題であるデータセット説明を提案する。 2つの画像データセットが与えられたデータセット説明は、データセットレベルの分散シフトを自然言語で自動的に指摘することを目的としている。 分散シフトを監視する現在の技術は、データ品質を改善するためにデータセットを理解するのに不十分な情報を提供する。 そこで本研究では,データセット説明課題を解決するためのトレーニングフリーフレームワークであるGSCLIPを紹介する。 GSCLIPでは,データセットのシフトを要約するのに適した説明を識別する最初の定量的評価手法としてセレクタを提案する。 さらに,このセレクタを活用して,言語モデル生成に基づくジェネレータの優位性を示す。 自然データシフトの体系的評価は,ハイブリッドジェネレータ群と効率的なセレクタを組み合わせたGSCLIPが,使いやすいだけでなく,大規模なデータセット説明にも有効であることを示す。

Helping end users comprehend the abstract distribution shifts can greatly facilitate AI deployment. Motivated by this, we propose a novel task, dataset explanation. Given two image data sets, dataset explanation aims to automatically point out their dataset-level distribution shifts with natural language. Current techniques for monitoring distribution shifts provide inadequate information to understand datasets with the goal of improving data quality. Therefore, we introduce GSCLIP, a training-free framework to solve the dataset explanation task. In GSCLIP, we propose the selector as the first quantitative evaluation method to identify explanations that are proper to summarize dataset shifts. Furthermore, we leverage this selector to demonstrate the superiority of a generator based on language model generation. Systematic evaluation on natural data shift verifies that GSCLIP, a combined system of a hybrid generator group and an efficient selector is not only easy-to-use but also powerful for dataset explanation at scale.
翻訳日:2022-07-01 13:10:25 公開日:2022-06-30
# 細粒度・細粒度皮膚病変画像における分布異常の検出

Out-of-Distribution Detection for Long-tailed and Fine-grained Skin Lesion Images ( http://arxiv.org/abs/2206.15186v1 )

ライセンス: Link先を確認
Deval Mehta, Yaniv Gal, Adrian Bowling, Paul Bonnington, Zongyuan Ge(参考訳) 近年,皮膚病変の診断と分類の自動化が急速に進展している。 診療所におけるこのようなシステムの展開が進んでいるため、様々なアウト・オブ・ディストリビューション(OOD)サンプル(未知の皮膚病変や病態)に対してより堅牢なシステムを開発することが重要になっている。 しかし、現在の深層学習モデルでは、これらのoodサンプルを誤って、学習した皮膚病変のカテゴリの1つに分類する傾向がある。 そこで本研究では, 皮膚病変の分類精度を維持しつつ, OOD検出性能を向上させるための, シンプルながら戦略的アプローチを提案する。 本手法は, 皮膚病変の画像に対して, 長い尾と細かなOOD検出タスクの現実的なシナリオに基づいて構築される。 このアプローチを通じて。 1) まず,ロングテール問題に対処するために,中間クラスとテールクラス間のミックスアップを目標とした。 2)その後,上記の混合戦略とプロトタイプ学習を組み合わせることで,データセットのきめ細かい性質に対処する。 この論文の独特な貢献は2倍であり、広範な実験によって正当化されている。 まず,皮膚病変に対するOODタスクの現実的な問題点について述べる。 第2に,問題設定の長期的かつ細かな側面を同時にターゲットとし,ood性能を向上させる手法を提案する。

Recent years have witnessed a rapid development of automated methods for skin lesion diagnosis and classification. Due to an increasing deployment of such systems in clinics, it has become important to develop a more robust system towards various Out-of-Distribution(OOD) samples (unknown skin lesions and conditions). However, the current deep learning models trained for skin lesion classification tend to classify these OOD samples incorrectly into one of their learned skin lesion categories. To address this issue, we propose a simple yet strategic approach that improves the OOD detection performance while maintaining the multi-class classification accuracy for the known categories of skin lesion. To specify, this approach is built upon a realistic scenario of a long-tailed and fine-grained OOD detection task for skin lesion images. Through this approach, 1) First, we target the mixup amongst middle and tail classes to address the long-tail problem. 2) Later, we combine the above mixup strategy with prototype learning to address the fine-grained nature of the dataset. The unique contribution of this paper is two-fold, justified by extensive experiments. First, we present a realistic problem setting of OOD task for skin lesion. Second, we propose an approach to target the long-tailed and fine-grained aspects of the problem setting simultaneously to increase the OOD performance.
翻訳日:2022-07-01 13:10:09 公開日:2022-06-30
# (参考訳) tpu-knn: ピークフロップ/sでk最寄りの近傍探索

TPU-KNN: K Nearest Neighbor Search at Peak FLOP/s ( http://arxiv.org/abs/2206.14286v2 )

ライセンス: CC BY 4.0
Felix Chern, Blake Hechtman, Andy Davis, Ruiqi Guo, David Majnemer, Sanjiv Kumar(参考訳) 本稿では、TPU(Google Tensor Processing Unit)のピーク性能を達成し、類似のリコールレベルを持つ最先端のGPUアルゴリズムより優れている新しい近接探索アルゴリズムを提案する。 提案アルゴリズムの設計は,メモリと命令のボトルネックを考慮した精度の高いアクセラレーション性能モデルによって動機付けられている。 提案アルゴリズムは,予測時のリコールを解析的に保証し,高精度なインデックスデータ構造やチューニングを必要とせず,頻繁な更新を伴うアプリケーションに適している。 私たちの仕事は、TPU上のJoxとTensorflowのオープンソースパッケージで利用可能です。

This paper presents a novel nearest neighbor search algorithm achieving TPU (Google Tensor Processing Unit) peak performance, outperforming state-of-the-art GPU algorithms with similar level of recall. The design of the proposed algorithm is motivated by an accurate accelerator performance model that takes into account both the memory and instruction bottlenecks. Our algorithm comes with an analytical guarantee of recall in expectation and does not require maintaining sophisticated index data structure or tuning, making it suitable for applications with frequent updates. Our work is available in the open-source package of Jax and Tensorflow on TPU.
翻訳日:2022-07-01 12:33:39 公開日:2022-06-30
# (参考訳) R'{e}nyiクロスエントロピーについて

On the R\'{e}nyi Cross-Entropy ( http://arxiv.org/abs/2206.14329v2 )

ライセンス: CC BY 4.0
Ferenc Cole Thierrin, Fady Alajaji, Tam\'as Linder(参考訳) 2つの分布間のr\'{e}nyiクロスエントロピー測度(シャノンクロスエントロピーの一般化)は、ディープラーニング生成逆ネットワークの設計を改善するための損失関数として最近用いられた。 本研究では,この測度の性質を考察し,分布の1つが固定され,両分布が指数関数族に属する場合の閉形式表現を導出する。 また、定常ガウス過程および有限アルファベットマルコフ源に対するクロスエントロピー率の式を解析的に決定する。

The R\'{e}nyi cross-entropy measure between two distributions, a generalization of the Shannon cross-entropy, was recently used as a loss function for the improved design of deep learning generative adversarial networks. In this work, we examine the properties of this measure and derive closed-form expressions for it when one of the distributions is fixed and when both distributions belong to the exponential family. We also analytically determine a formula for the cross-entropy rate for stationary Gaussian processes and for finite-alphabet Markov sources.
翻訳日:2022-07-01 12:05:01 公開日:2022-06-30
# (参考訳) 周期的カーネル適応型メトロポリス

Cyclical Kernel Adaptive Metropolis ( http://arxiv.org/abs/2206.14421v2 )

ライセンス: CC BY 4.0
Jianan Canal Li, Yimeng Zeng, Wentao Guo(参考訳) 本稿では,cKAM,cKAM,Cernel Adaptive Metropolisを提案する。 人工双モード分布では,既存の適応型メトロポリス型アルゴリズムは真の後方分布に収束しないことを示す。 これはアダプティブ・サンプラーがチェーンの過去の履歴を用いて局所的/グローバル的共分散構造を推定し、適応的アルゴリズムが局所的モードに捕捉されるためである。 我々は,cKAMが後部分布の探索を奨励し,サンプルが適応手法の高性能を維持しつつ,局所モードから脱出できることを実証した。

We propose cKAM, cyclical Kernel Adaptive Metropolis, which incorporates a cyclical stepsize scheme to allow control for exploration and sampling. We show that on a crafted bimodal distribution, existing Adaptive Metropolis type algorithms would fail to converge to the true posterior distribution. We point out that this is because adaptive samplers estimates the local/global covariance structure using past history of the chain, which will lead to adaptive algorithms be trapped in a local mode. We demonstrate that cKAM encourages exploration of the posterior distribution and allows the sampler to escape from a local mode, while maintaining the high performance of adaptive methods.
翻訳日:2022-07-01 11:52:02 公開日:2022-06-30
# 変圧器型言語モデルの再検討

Knowledge Distillation of Transformer-based Language Models Revisited ( http://arxiv.org/abs/2206.14366v2 )

ライセンス: Link先を確認
Chengqiang Lu, Jianwei Zhang, Yunfei Chu, Zhengyu Chen, Jingren Zhou, Fei Wu, Haiqing Chen, Hongxia Yang(参考訳) ここ数年、トランスフォーマーベースの事前学習言語モデルは、産業とアカデミックの両方で驚くべき成功を収めてきた。 しかし、大規模なモデルサイズと高ランタイムレイテンシは、特に携帯電話やIoT(Internet of Things)デバイスにおいて、実際にそれを適用する上で深刻な障害となる。 このモデルを圧縮するために、知識蒸留(KD)のテーマを中心に、近年かなりの文献が成長している。 しかしながら、KDがトランスフォーマーベースのモデルでどのように機能するかはまだ不明である。 我々はKDのコンポーネントを分解し、統一KDフレームワークを提案する。 このフレームワークを通じて、23,000GPU時間を超える体系的かつ広範な実験は、知識タイプ、マッチング戦略、幅と深さのトレードオフ、初期化、モデルサイズなどの観点から包括的な分析をレンダリングする。 実験結果から,プレトレイン言語モデルの蒸留に光を当て,従来のSOTA(State-of-the-arts)と比較して相対的に改善した。 最後に、変換器モデルにおけるKDのベストプラクティスガイドラインを提供する。

In the past few years, transformer-based pre-trained language models have achieved astounding success in both industry and academia. However, the large model size and high run-time latency are serious impediments to applying them in practice, especially on mobile phones and Internet of Things (IoT) devices. To compress the model, considerable literature has grown up around the theme of knowledge distillation (KD) recently. Nevertheless, how KD works in transformer-based models is still unclear. We tease apart the components of KD and propose a unified KD framework. Through the framework, systematic and extensive experiments that spent over 23,000 GPU hours render a comprehensive analysis from the perspectives of knowledge types, matching strategies, width-depth trade-off, initialization, model size, etc. Our empirical results shed light on the distillation in the pre-train language model and with relative significant improvement over previous state-of-the-arts(SOTA). Finally, we provide a best-practice guideline for the KD in transformer-based models.
翻訳日:2022-07-01 11:37:24 公開日:2022-06-30
# TE2Rules: ツリーアンサンブルからルールリストを抽出する

TE2Rules: Extracting Rule Lists from Tree Ensembles ( http://arxiv.org/abs/2206.14359v2 )

ライセンス: Link先を確認
G Roshan Lal and Xiaotong Chen and Varun Mithal(参考訳) トリーアンサンブル(te)モデル(例えば勾配強化木やランダム森林)は、単一の決定木よりも高い予測性能を提供することが多い。 しかしながら、TEモデルは一般に透明性と解釈可能性に欠けており、人間は意思決定ロジックを理解するのが困難である。 本稿では、二項分類タスクのために訓練されたTEを、TEとグローバルに等価で人間にとって理解しやすいルールリスト(RL)に変換するための新しいアプローチを提案する。 このRLはTEによる意思決定に必要な全ての条件を捕捉する。 ベンチマークデータセットの実験では、最先端の手法と比較された。 i) TE2Rulesが生成したRLからの予測は、元のTEに対して高い忠実度を有する。 (II)TE2RulesのRLは、決定規則の数と長さによって測定される高い解釈性を有する。 (iii)te2rulesアルゴリズムの実行時間は、少し低い忠実度で大幅に削減することができ、 (iv)rlは、最先端のルールベースのインスタンスレベルの結果説明手法の高速代替品である。

Tree Ensemble (TE) models (e.g. Gradient Boosted Trees and Random Forests) often provide higher prediction performance compared to single decision trees. However, TE models generally lack transparency and interpretability, as humans have difficulty understanding their decision logic. This paper presents a novel approach to convert a TE trained for a binary classification task, to a rule list (RL) that is a global equivalent to the TE and is comprehensible for a human. This RL captures all necessary and sufficient conditions for decision making by the TE. Experiments on benchmark datasets demonstrate that, compared to state-of-the-art methods, (i) predictions from the RL generated by TE2Rules have high fidelity with respect to the original TE, (ii) the RL from TE2Rules has high interpretability measured by the number and the length of the decision rules, (iii) the run-time of TE2Rules algorithm can be reduced significantly at the cost of a slightly lower fidelity, and (iv) the RL is a fast alternative to the state-of-the-art rule-based instance-level outcome explanation techniques.
翻訳日:2022-07-01 11:36:48 公開日:2022-06-30
# 学習管理システムのためのチャットボットソリューションの実装

Implementing a Chatbot Solution for Learning Management System ( http://arxiv.org/abs/2206.13187v2 )

ライセンス: Link先を確認
Dimitrios Chaskopoulos, Jonas Eilertsen H{\ae}gdahl, Petter Sagvold, Claire Trinquet, Maryam Edalati(参考訳) イノベーションは、生徒が効率的に学習するための新しいソリューションを試す上で重要な要素であり、チャットボットがこれらの新しいソリューションの1つである自身の経験に対応する方法である。 今日チャットボットが直面する主な問題の1つは、人間の言語を模倣することであり、入力に対する最良の答えを見つけようとする。 エクストリームプログラミング手法は、ChatterBot、Pyside2、Webスクレイピング、TampermonkeyをテストケースとしてBlackboardに統合するために選択された。 ボットで問題が発生し、ボットが完璧に動作するためにはより多くのトレーニングが必要でしたが、統合とWebスクレイピングがうまくいきました。 我々は、AIボットを教育環境に統合する可能性を示した。

Innovation is a key component in trying new solutions for the students to learn efficiently and in ways that correspond to their own experience, where chatbots are one of these new solutions. One of the main problem that chatbots face today is to mimic human language, where they try to find the best answer to an input, which is not how a human conversation usually works, rather taking into account the previous messages and building onto them. Extreme programming methodology was chosen to use integrate ChatterBot, Pyside2, web scraping and Tampermonkey into Blackboard as a test case. Problems occurred with the bot and more training was needed for the bot to work perfectly, but the integration and web scraping worked, giving us a chatbot that was able to talk with. We showed the plausibility of integrating an AI bot in an educational setting.
翻訳日:2022-07-01 11:36:33 公開日:2022-06-30
# 超音波映像を用いた甲状腺結節認識のためのキーフレーム誘導ネットワーク

Key-frame Guided Network for Thyroid Nodule Recognition using Ultrasound Videos ( http://arxiv.org/abs/2206.13318v3 )

ライセンス: Link先を確認
Yuchen Wang, Zhongyu Li, Xiangxiang Cui, Liangliang Zhang, Xiang Luo, Meng Yang, and Shi Chang(参考訳) 超音波検査は甲状腺結節(良性/悪性)の臨床診断に広く用いられている。 しかし、精度は放射線技師の経験に大きく依存している。 甲状腺結節認識のための深層学習技術が研究されている。 現在の解決策は主に静的超音波画像に基づいており、時間的情報が限られており、臨床診断と矛盾している。 本稿では,超音波ビデオとキーフレームの徹底的な探索による甲状腺結節の自動認識手法を提案する。 まず,超音波映像中の典型的結節と臨床キーフレームを自動的に識別する検出局所化フレームワークを提案する。 局所化キーフレームに基づき,甲状腺結節認識のためのキーフレーム誘導ビデオ分類モデルを開発した。 さらに,臨床診断と整合した超音波映像において,ネットワークが重要なフレームに焦点を合わせるのを支援する動き注意モジュールを導入する。 本発明の甲状腺結節認識フレームワークは, 臨床検査による超音波検査において, 他の最先端法と比較して優れた性能を示した。

Ultrasound examination is widely used in the clinical diagnosis of thyroid nodules (benign/malignant). However, the accuracy relies heavily on radiologist experience. Although deep learning techniques have been investigated for thyroid nodules recognition. Current solutions are mainly based on static ultrasound images, with limited temporal information used and inconsistent with clinical diagnosis. This paper proposes a novel method for the automated recognition of thyroid nodules through an exhaustive exploration of ultrasound videos and key-frames. We first propose a detection-localization framework to automatically identify the clinical key-frame with a typical nodule in each ultrasound video. Based on the localized key-frame, we develop a key-frame guided video classification model for thyroid nodule recognition. Besides, we introduce a motion attention module to help the network focus on significant frames in an ultrasound video, which is consistent with clinical diagnosis. The proposed thyroid nodule recognition framework is validated on clinically collected ultrasound videos, demonstrating superior performance compared with other state-of-the-art methods.
翻訳日:2022-07-01 11:36:18 公開日:2022-06-30