このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220701となっている論文です。

PDF登録状況(公開日: 20220701)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューラル埋め込み選択モデル:フレキシビリティと解釈性を備えた味の不均一性モデリング

A Neural-embedded Choice Model: TasteNet-MNL Modeling Taste Heterogeneity with Flexibility and Interpretability ( http://arxiv.org/abs/2002.00922v2 )

ライセンス: Link先を確認
Yafei Han, Francisco Camara Pereira, Moshe Ben-Akiva, Christopher Zegras(参考訳) 離散選択モデル(dcms)は、効用関数、特に個人の味がどう変化するかの事前知識を必要とする。 ユーティリティの誤特定は、バイアス付き見積もり、不正確な解釈、予測可能性の制限につながる可能性がある。 本稿では,ニューラルネットワークを用いて味覚表現の学習を行う。 我々の定式化は2つのモジュールから構成される: 味パラメータ(例えば時間係数)を個々の特性の柔軟な関数として学習するニューラルネットワーク(TasteNet)と、専門知識で定義された実用機能を持つ多項ロジット(MNL)モデルである。 ニューラルネットワークが学習した味覚パラメータを選択モデルに入力し、2つのモジュールをリンクする。 我々のアプローチは、ニューラルネットワークが個々の特性と代替属性の間の相互作用を学習できるようにすることでL-MNLモデル(Sifringer et al., 2020)を拡張する。 さらに, モデルがシナリオ分析や政策決定に適合するためには, 行動指標(例えば, 時間的価値, 弾力性)の現実的な推定が不可欠である, 解釈可能性条件を定式化し, 強化する。 独自のネットワークアーキテクチャとパラメータ変換を通じて、事前知識を取り入れ、ニューラルネットワークを誘導し、非集約レベルで現実的な行動指標を出力する。 tastenet-mnl は基底モデルの予測可能性に達し, 合成データ上での非線形味覚関数を回復する。 その推定時間の値と個々のレベルの選択の弾力性は、基礎的な真実に近い。 公開されているSwissmetroデータセットでは、TasteNet-MNLがベンチマークMNLとMixed Logitモデルの予測可能性を上回っている。 集団内で幅広い味のバリエーションを学習し、より高い平均的な時間価値を示唆する。

Discrete choice models (DCMs) require a priori knowledge of the utility functions, especially how tastes vary across individuals. Utility misspecification may lead to biased estimates, inaccurate interpretations and limited predictability. In this paper, we utilize a neural network to learn taste representation. Our formulation consists of two modules: a neural network (TasteNet) that learns taste parameters (e.g., time coefficient) as flexible functions of individual characteristics; and a multinomial logit (MNL) model with utility functions defined with expert knowledge. Taste parameters learned by the neural network are fed into the choice model and link the two modules. Our approach extends the L-MNL model (Sifringer et al., 2020) by allowing the neural network to learn the interactions between individual characteristics and alternative attributes. Moreover, we formalize and strengthen the interpretability condition - requiring realistic estimates of behavior indicators (e.g., value-of-time, elasticity) at the disaggregated level, which is crucial for a model to be suitable for scenario analysis and policy decisions. Through a unique network architecture and parameter transformation, we incorporate prior knowledge and guide the neural network to output realistic behavior indicators at the disaggregated level. We show that TasteNet-MNL reaches the ground-truth model's predictability and recovers the nonlinear taste functions on synthetic data. Its estimated value-of-time and choice elasticities at the individual level are close to the ground truth. On a publicly available Swissmetro dataset, TasteNet-MNL outperforms benchmarking MNLs and Mixed Logit model's predictability. It learns a broader spectrum of taste variations within the population and suggests a higher average value-of-time.
翻訳日:2023-01-04 09:32:26 公開日:2022-07-01
# 幾何学的環境における情報のコミュニティ検出とパーコレーション

Community detection and percolation of information in a geometric setting ( http://arxiv.org/abs/2006.15574v2 )

ライセンス: Link先を確認
Ronen Eldan, Dan Mikulincer and Hester Pieters(参考訳) 確率的ブロックモデル(sparse regime)の理論を一般化するための最初のステップとして,離散的コミュニティ構造を基礎となる幾何学に置き換えるモデルを提案する。 我々は、2つの頂点が連結される確率が距離の任意の関数である等質距離空間上の幾何学的ランダムグラフを考える。 我々は、スパースレジームにおいて位置が(空間の同型まで)回復できる十分な条件を与える。 さらに,球面上の枝分かれしたランダムウォークを考慮し,葉の位置に基づいて根の位置を回復することを目的として,モッセルとペレスによる木に関する情報の流れモデルと幾何対応を定義する。 このモデルでは、パーコレーションや情報の非パーコレーションに十分な条件を提示する。

We make the first steps towards generalizing the theory of stochastic block models, in the sparse regime, towards a model where the discrete community structure is replaced by an underlying geometry. We consider a geometric random graph over a homogeneous metric space where the probability of two vertices to be connected is an arbitrary function of the distance. We give sufficient conditions under which the locations can be recovered (up to an isomorphism of the space) in the sparse regime. Moreover, we define a geometric counterpart of the model of flow of information on trees, due to Mossel and Peres, in which one considers a branching random walk on a sphere and the goal is to recover the location of the root based on the locations of leaves. We give some sufficient conditions for percolation and for non-percolation of information in this model.
翻訳日:2022-11-16 02:25:32 公開日:2022-07-01
# DeepOPF:交流最適潮流問題に対する実現可能性最適化ディープニューラルネットワークアプローチ

DeepOPF: A Feasibility-Optimized Deep Neural Network Approach for AC Optimal Power Flow Problems ( http://arxiv.org/abs/2007.01002v6 )

ライセンス: Link先を確認
Xiang Pan, Minghua Chen, Tianyu Zhao, and Steven H. Low(参考訳) 再生可能エネルギー世代の割合の高い普及は、電力システムに重大な不確実性をもたらす。 送電網と配電網の両方で経済的かつ信頼性の高い運用を行うためには、グリッドオペレーターが代替の最適電力流(AC-OPF)問題をより頻繁に解く必要がある。 本稿では,従来の解法におけるAC-OPF問題の解法として,ディープ・ニューラル・ニューラルネットワーク(Deep Neural Network, DNN)アプローチ(DeepOPF)を開発した。 AC-OPF問題を解決するための機械学習技術を適用する上で重要な困難は、得られた解が物理的および操作上の制約の等式と不等式を尊重することを保証することである。 [1],[2]の2段階の手順を一般化し、DeepOPFはまずDNNモデルを訓練し、独立な操作変数の集合を予測し、その後、電力フロー方程式を解くことによって、残りの信頼できる変数を直接計算する。 このようなアプローチは、パワーフロー均衡の制約を保存するだけでなく、DNNによって予測される変数の数を減らし、ニューロンの数を削減し、必要なデータをトレーニングする。 DeepOPFは、残りの不等式制約を保存するために、トレーニングプロセスにゼロ階勾配推定手法を用いたペナルティアプローチを採用する。 別の貢献として、DNNの一般化能力を測定する所望の近似精度に応じて、DNNのサイズを調整する条件を駆動する。 これは、AC-OPF問題を解決するためにDNNを使用する理論的正当性を提供する。 IEEE 30/118/300-bus と合成 2000-bus テストケースのシミュレーション結果から,DeepOPF の計算時間は,最先端の解法に比べて最大2桁高速化され,コスト差は$<0.1%であった。

High percentage penetrations of renewable energy generations introduce significant uncertainty into power systems. It requires grid operators to solve alternative current optimal power flow (AC-OPF) problems more frequently for economical and reliable operation in both transmission and distribution grids. In this paper, we develop a Deep Neural Network (DNN) approach, called DeepOPF, for solving AC-OPF problems in a fraction of the time used by conventional solvers. A key difficulty for applying machine learning techniques for solving AC-OPF problems lies in ensuring that the obtained solutions respect the equality and inequality physical and operational constraints. Generalized the 2-stage procedure in [1], [2], DeepOPF first trains a DNN model to predict a set of independent operating variables and then directly compute the remaining dependable ones by solving power flow equations. Such an approach not only preserves the power-flow balance equality constraints but also reduces the number of variables to predict by the DNN, cutting down the number of neurons and training data needed. DeepOPF then employs a penalty approach with a zero-order gradient estimation technique in the training process to preserve the remaining inequality constraints. As another contribution, we drive a condition for tuning the size of the DNN according to the desired approximation accuracy, which measures the DNN generalization capability. It provides theoretical justification for using DNN to solve the AC-OPF problem. Simulation results of IEEE 30/118/300-bus and a synthetic 2000-bus test cases show that DeepOPF speeds up the computing time by up to two orders of magnitude as compared to a state-of-the-art solver, at the expense of $<$0.1% cost difference.
翻訳日:2022-11-14 15:03:15 公開日:2022-07-01
# 説明可能な経験的リスク最小化

Explainable Empirical Risk Minimization ( http://arxiv.org/abs/2009.01492v3 )

ライセンス: Link先を確認
L. Zhang, G. Karakasidis, A. Odnoblyudova, L. Dogruel, A. Jung(参考訳) 機械学習(ML)手法が成功すると、解釈可能性や説明可能性にますます依存するようになる。 説明可能なMLシステムの設計は、人間をターゲットにした自動意思決定の透明性を確保するのに役立つ。 ML手法の説明可能性もまた、信頼できる人工知能にとって重要な要素である。 説明可能性を確保する上で重要な課題は、特定のユーザーに依存することである("explainee")。 機械学習のやり方のユーザは、機械学習の原則に関する背景知識がかなり違うかもしれない。 あるユーザーは機械学習や関連分野の学位を取得し、別のユーザーは高校数学の正式な訓練を受けなかったかもしれない。 本稿では、情報理論の概念を適用し、ML法による予測の主観的説明可能性を示す新しい尺度を開発する。 ユーザからのフィードバックに応じて,予測の条件付きエントロピーを用いてこの尺度を構築する。 ユーザからのフィードバックは、ユーザ調査やバイオ物理測定から得ることができる。 我々の主な貢献は、主観的説明可能性とリスクを最適にバランスする仮説を学ぶための説明可能な経験的リスク最小化(EERM)原理である。 EERMの原則は柔軟性があり、任意の機械学習モデルと組み合わせることができる。 本稿では,線形モデルと決定木に対するEERMの実践的実装について述べる。 数値実験により,ソーシャルメディアにおける不適切な言語検出へのeermの適用が実証された。

The successful application of machine learning (ML) methods becomes increasingly dependent on their interpretability or explainability. Designing explainable ML systems is instrumental to ensuring transparency of automated decision-making that targets humans. The explainability of ML methods is also an essential ingredient for trustworthy artificial intelligence. A key challenge in ensuring explainability is its dependence on the specific human user ("explainee"). The users of machine learning methods might have vastly different background knowledge about machine learning principles. One user might have a university degree in machine learning or related fields, while another user might have never received formal training in high-school mathematics. This paper applies information-theoretic concepts to develop a novel measure for the subjective explainability of the predictions delivered by a ML method. We construct this measure via the conditional entropy of predictions, given a user feedback. The user feedback might be obtained from user surveys or biophysical measurements. Our main contribution is the explainable empirical risk minimization (EERM) principle of learning a hypothesis that optimally balances between the subjective explainability and risk. The EERM principle is flexible and can be combined with arbitrary machine learning models. We present several practical implementations of EERM for linear models and decision trees. Numerical experiments demonstrate the application of EERM to detecting the use of inappropriate language on social media.
翻訳日:2022-10-22 06:57:47 公開日:2022-07-01
# 医療データベースにおけるリスクベース治療効果の不均一性評価のための標準化枠組み

A standardized framework for risk-based assessment of treatment effect heterogeneity in observational healthcare databases ( http://arxiv.org/abs/2010.06430v2 )

ライセンス: Link先を確認
Alexandros Rekkas, David van Klaveren, Patrick B. Ryan, Ewout W. Steyerberg, David M. Kent, Peter R. Rijnbeek(参考訳) 治療効果のロバストな予測因子としてのベースラインリスクに着目した治療効果不均質性の予測手法とrct設定における治療効果不均質性のリスクに基づく評価指針を提供した。 本研究の目的は,このアプローチを標準化されたスケーラブルなフレームワークを用いて観測環境に拡張することであった。 提案するフレームワークは5つのステップから構成される。 1) 研究の目的,すなわち,人口,治療,比較者及び成果の定義 2 関連データベースの識別 3 利害関係の結果を予測するための予測モデルの開発 4) 予測リスクの層内における相対的及び絶対的治療効果の予測 5)結果の提示。 アンジオテンシン変換酵素(ACE)阻害剤とβ阻害薬の3つの効果と3つの観測データベースに対する安全性効果の均一性を評価することにより,我々の枠組みを実証する。 提案フレームワークは, 比較有効性研究を補完することができる。 我々は、このフレームワークを観測医療成果パートナーシップ共通データモデルにマッピングされたデータベースに適用するための公開Rソフトウェアパッケージを提供する。 本例では, 急性心筋梗塞のリスクが低い患者は, 3つの効果のすべてに対して絶対的利益が認められなかったが, 特に心不全の入院では, 高いリスククォーターで顕著であった。 しかし, 診断に失敗すると, 観察所見の調整後の残差がみられた。 本枠組みは, リスク層間における異なる治療効果の評価を可能にし, 代替治療法間の利益ハームトレードオフを検討する機会を提供する。

The Predictive Approaches to Treatment Effect Heterogeneity statement focused on baseline risk as a robust predictor of treatment effect and provided guidance on risk-based assessment of treatment effect heterogeneity in the RCT setting. The aim of this study was to extend this approach to the observational setting using a standardized scalable framework. The proposed framework consists of five steps: 1) definition of the research aim, i.e., the population, the treatment, the comparator and the outcome(s) of interest; 2) identification of relevant databases; 3) development of a prediction model for the outcome(s) of interest; 4) estimation of relative and absolute treatment effect within strata of predicted risk, after adjusting for observed confounding; 5) presentation of the results. We demonstrate our framework by evaluating heterogeneity of the effect of angiotensin-converting enzyme (ACE) inhibitors versus beta blockers on three efficacy and six safety outcomes across three observational databases. The proposed framework can supplement any comparative effectiveness study. We provide a publicly available R software package for applying this framework to any database mapped to the Observational Medical Outcomes Partnership Common Data Model. In our demonstration, patients at low risk of acute myocardial infarction received negligible absolute benefits for all three efficacy outcomes, though they were more pronounced in the highest risk quarter, especially for hospitalization with heart failure. However, failing diagnostics showed evidence of residual imbalances even after adjustment for observed confounding. Our framework allows for the evaluation of differential treatment effects across risk strata, which offers the opportunity to consider the benefit-harm trade-off between alternative treatments.
翻訳日:2022-10-08 00:22:02 公開日:2022-07-01
# 方向性制約最適化による破滅的予測の克服

Overcoming Catastrophic Forgetting via Direction-Constrained Optimization ( http://arxiv.org/abs/2011.12581v3 )

ライセンス: Link先を確認
Yunfei Teng, Anna Choromanska, Murray Campbell, Songtao Lu, Parikshit Ram, Lior Horesh(参考訳) 本稿では,連続学習フレームワークにおける分類ネットワークの固定アーキテクチャを用いたディープラーニングモデルの学習のための最適化アルゴリズムの新しい設計法について述べる。 訓練データは非定常であり、非定常は異なるタスクのシーケンスによって課される。 まず,1つの学習課題のみを個別に訓練した深層モデルを解析し,モデル性能が回復した最適値に近いネットワークパラメータ空間内の領域を同定する。 この領域が収束方向に沿って広がる円錐に似ているという実証的な証拠を提供する。 収束後のオプティマイザの軌道の主方向について検討し,いくつかの主方向を走行することで,円錐の外にパラメータを素早く持ち込むことができることを示すが,残りの方向はそうではない。 連続的な学習環境における破滅的な忘れは、トレーニング中にこれまで遭遇した個々のタスクのもっともらしい円錐の交差点にパラメータが留まることが制約されている場合に軽減できると論じる。 そこで,本研究では,各タスクに対して,対応する最上向きの主方向を近似する線形オートエンコーダを導入する方向制約最適化手法を提案する。 その後、それらは、忘れずに次のタスクを学習するために、正規化用語の形で損失関数に組み込まれる。 さらに,タスク数が増加するにつれてメモリ増加を制御するために,全オートエンコーダを格納するためのメモリサイズの固定メモリを割り当てる圧縮DCO(DCO-COMP)と呼ばれるアルゴリズムを提案する。 我々は,本アルゴリズムが他の最先端の正規化に基づく連続学習手法と比較して好適に動作することを示す。

This paper studies a new design of the optimization algorithm for training deep learning models with a fixed architecture of the classification network in a continual learning framework. The training data is non-stationary and the non-stationarity is imposed by a sequence of distinct tasks. We first analyze a deep model trained on only one learning task in isolation and identify a region in network parameter space, where the model performance is close to the recovered optimum. We provide empirical evidence that this region resembles a cone that expands along the convergence direction. We study the principal directions of the trajectory of the optimizer after convergence and show that traveling along a few top principal directions can quickly bring the parameters outside the cone but this is not the case for the remaining directions. We argue that catastrophic forgetting in a continual learning setting can be alleviated when the parameters are constrained to stay within the intersection of the plausible cones of individual tasks that were so far encountered during training. Based on this observation we present our direction-constrained optimization (DCO) method, where for each task we introduce a linear autoencoder to approximate its corresponding top forbidden principal directions. They are then incorporated into the loss function in the form of a regularization term for the purpose of learning the coming tasks without forgetting. Furthermore, in order to control the memory growth as the number of tasks increases, we propose a memory-efficient version of our algorithm called compressed DCO (DCO-COMP) that allocates a memory of fixed size for storing all autoencoders. We empirically demonstrate that our algorithm performs favorably compared to other state-of-art regularization-based continual learning methods.
翻訳日:2022-09-21 02:02:12 公開日:2022-07-01
# 胸部X線画像からの新型コロナウイルス感染症検出のための最先端ディープラーニングモデルの比較解析

Comparative Analysis of State-of-the-Art Deep Learning Models for Detecting COVID-19 Lung Infection from Chest X-Ray Images ( http://arxiv.org/abs/2208.01637v1 )

ライセンス: Link先を確認
Zeba Ghaffar, Pir Masoom Shah, Hikmat Khan, Syed Farhan Alam Zaidi, Abdullah Gani, Izaz Ahmad Khan, Munam Ali Shah, Saif ul Islam(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、すでに世界中の何百万人もの命と経済に打撃を与えている。 新型コロナウイルスの死者の大半と経済的な損失は密集した都市から報告されている。 伝染病/パンデミック感染症の効果的なコントロールと予防が重要であることは理解できます。 WHOによると、検査と診断はパンデミックを制御する最良の戦略だ。 世界中の科学者は、テストプロセスのスピードアップのために、革新的でコスト効率のよい方法を開発しようとしている。 本稿では,最近の最先端深層畳み込みニューラルネットワーク(cnns)の胸部x線画像を用いた新型コロナウイルス感染症自動検出への適用性を総合的に評価した。 さらに、精度の観点からこれらのモデルの比較分析を提供する。 本研究は感染性呼吸器疾患の予防・予防に有効な方法である。 訓練されたモデルは、新型コロナウイルス感染した胸部x線を分類する優れた結果を示している。 特に、トレーニングされたモデルMobileNet、EfficentNet、InceptionV3は、それぞれ95\%、95\%、94\%のテストセットの分類平均精度を達成しました。 したがって、臨床医や放射線科医にとって、covid-19患者の検査、検出、フォローアップを早めることは有益である。

The ongoing COVID-19 pandemic has already taken millions of lives and damaged economies across the globe. Most COVID-19 deaths and economic losses are reported from densely crowded cities. It is comprehensible that the effective control and prevention of epidemic/pandemic infectious diseases is vital. According to WHO, testing and diagnosis is the best strategy to control pandemics. Scientists worldwide are attempting to develop various innovative and cost-efficient methods to speed up the testing process. This paper comprehensively evaluates the applicability of the recent top ten state-of-the-art Deep Convolutional Neural Networks (CNNs) for automatically detecting COVID-19 infection using chest X-ray images. Moreover, it provides a comparative analysis of these models in terms of accuracy. This study identifies the effective methodologies to control and prevent infectious respiratory diseases. Our trained models have demonstrated outstanding results in classifying the COVID-19 infected chest x-rays. In particular, our trained models MobileNet, EfficentNet, and InceptionV3 achieved a classification average accuracy of 95\%, 95\%, and 94\% test set for COVID-19 class classification, respectively. Thus, it can be beneficial for clinical practitioners and radiologists to speed up the testing, detection, and follow-up of COVID-19 cases.
翻訳日:2022-08-07 14:38:13 公開日:2022-07-01
# 中国語における多音不明瞭化のためのポリフォンBERT

A Polyphone BERT for Polyphone Disambiguation in Mandarin Chinese ( http://arxiv.org/abs/2207.12089v1 )

ライセンス: Link先を確認
Song Zhang, Ken Zheng, Xiaoxu Zhu, Baoxiang Li(参考訳) Grapheme-to-phoneme (G2P) 変換は中国語の Mandarin text-to-speech (TTS) システムの必須部分であり、G2P 変換の中核は多音不明瞭化の問題を解決することであり、これは中国語の多音文字候補の正しい発音を拾うことである。 本稿では、中国語のポリフォニー文字の発音を予測するための中国語ポリフォニーbertモデルを提案する。 まず,約354種類の中国語多音語から,741個の中国語単音素文字を発音して作成する。 そして、事前訓練された中国語のBERTを741の中国語の単音文字で拡張し、対応する新しいトークンの埋め込み層を追加することにより、中国語のポリフォンBERTを得る。 このようにして、ポリホン曖昧化タスクを中国のポリフォンBERTの事前訓練タスクに変換することができる。 実験の結果, 提案モデルの有効性が示され, ポリホンbertモデルは, 従来のポリホン不曖昧化状態であるbertベースの分類器モデルと比較して, 平均精度が 2% (92.1% から 94.1% に向上した。

Grapheme-to-phoneme (G2P) conversion is an indispensable part of the Chinese Mandarin text-to-speech (TTS) system, and the core of G2P conversion is to solve the problem of polyphone disambiguation, which is to pick up the correct pronunciation for several candidates for a Chinese polyphonic character. In this paper, we propose a Chinese polyphone BERT model to predict the pronunciations of Chinese polyphonic characters. Firstly, we create 741 new Chinese monophonic characters from 354 source Chinese polyphonic characters by pronunciation. Then we get a Chinese polyphone BERT by extending a pre-trained Chinese BERT with 741 new Chinese monophonic characters and adding a corresponding embedding layer for new tokens, which is initialized by the embeddings of source Chinese polyphonic characters. In this way, we can turn the polyphone disambiguation task into a pre-training task of the Chinese polyphone BERT. Experimental results demonstrate the effectiveness of the proposed model, and the polyphone BERT model obtain 2% (from 92.1% to 94.1%) improvement of average accuracy compared with the BERT-based classifier model, which is the prior state-of-the-art in polyphone disambiguation.
翻訳日:2022-07-31 14:48:49 公開日:2022-07-01
# coor-plt:深層強化学習に基づく無信号交差点における自律走行車両の適応的プラトン調整のための階層的制御モデル

COOR-PLT: A hierarchical control model for coordinating adaptive platoons of connected and autonomous vehicles at signal-free intersections based on deep reinforcement learning ( http://arxiv.org/abs/2207.07195v1 )

ライセンス: Link先を確認
Duowei Li (1 and 2), Jianping Wu (1), Feng Zhu (2), Tianyi Chen (2), Yiik Diew Wong (2) ((1) Department of Civil Engineering, Tsinghua University, China, (2) School of Civil and Environmental Engineering, Nanyang Technological University, Singapore)(参考訳) プラトゥーイングとコーディネーションは、従来の交通信号の代わりに信号のない交差点において、コネクテッド・自動運転車(CAV)の交通制御のために頻繁に提案される2つの実装戦略である。 しかし、信号のない交差点でのCAV制御をより促進するために両方の戦略を統合する試みは少ない。 そこで本研究では,深層強化学習(drl)に基づく無信号交差点における適応型キャビタプラトンを協調する階層制御モデルcoor-pltを提案する。 COOR-PLTには2層フレームワークがある。 第1層は集中制御戦略を用いて適応プラトンを形成する。 各小隊の最適サイズは、複数の目的(効率性、公平性、省エネルギー)を考慮して決定される。 第2層は、複数のプラトンが交差する方向を調整するために分散制御戦略を用いる。 各小隊は、協調状態または独立状態とラベル付けされ、その優先権が決定される。 効率的なDRLアルゴリズムとして、DQN (Deep Q-network) が採用され、2つの層でそれぞれ小隊の大きさと通過優先度を決定する。 都市移動シミュレーション (SUMO) において, モデルの有効性を確認し, 検討した。 シミュレーションの結果,(1)コンバージェンス性能が良好であること,(2)交通条件の変化に応じて小隊のサイズを適応的に決定できること,(3)交差点でのデッドロックを完全に回避できることが判明した。 他の制御手法と比較して、このモデルは適応型小隊とDRLに基づく調整戦略を採用することの優位性を示す。 また, 異なる交通条件下での走行時間と燃料消費を削減し, 最先端の手法よりも優れていた。

Platooning and coordination are two implementation strategies that are frequently proposed for traffic control of connected and autonomous vehicles (CAVs) at signal-free intersections instead of using conventional traffic signals. However, few studies have attempted to integrate both strategies to better facilitate the CAV control at signal-free intersections. To this end, this study proposes a hierarchical control model, named COOR-PLT, to coordinate adaptive CAV platoons at a signal-free intersection based on deep reinforcement learning (DRL). COOR-PLT has a two-layer framework. The first layer uses a centralized control strategy to form adaptive platoons. The optimal size of each platoon is determined by considering multiple objectives (i.e., efficiency, fairness and energy saving). The second layer employs a decentralized control strategy to coordinate multiple platoons passing through the intersection. Each platoon is labeled with coordinated status or independent status, upon which its passing priority is determined. As an efficient DRL algorithm, Deep Q-network (DQN) is adopted to determine platoon sizes and passing priorities respectively in the two layers. The model is validated and examined on the simulator Simulation of Urban Mobility (SUMO). The simulation results demonstrate that the model is able to: (1) achieve satisfactory convergence performances; (2) adaptively determine platoon size in response to varying traffic conditions; and (3) completely avoid deadlocks at the intersection. By comparison with other control methods, the model manifests its superiority of adopting adaptive platooning and DRL-based coordination strategies. Also, the model outperforms several state-of-the-art methods on reducing travel time and fuel consumption in different traffic conditions.
翻訳日:2022-07-24 11:50:38 公開日:2022-07-01
# バイパラメトリックMRIにおけるスクリブルからのアグレッシブネスによる前立腺癌セグメントの学習

Learning to segment prostate cancer by aggressiveness from scribbles in bi-parametric MRI ( http://arxiv.org/abs/2207.05056v1 )

ライセンス: Link先を確認
Audrey Duran (MYRIAD), Gaspard Dussert (MYRIAD), Carole Lartizien (MYRIAD)(参考訳) 本研究では,弱いスクリブルアノテーションに基づくMRIにおけるアグレッシブネスによる前立腺癌セグメンテーションの課題に取り組むための,深いU-Netモデルを提案する。 このモデルはマルチクラス検出とセグメンテーションタスクの文脈でkervadecらによって提案されたサイズ制約損失を拡張する。 このモデルは前立腺生検サンプルのトレーニングが可能であり、時間のかかる完全なアノテーションプロセスを避けるため、臨床上の関心が高い。 パフォーマンスは、完全な根拠の真理が利用可能なプライベートデータセット(219の患者)と、異なる局所化で生検結果のみが参照となるprostatex-2 challengeデータベースで評価される。 また,voxelsの6.35%をトレーニングに使用することにより,診断基準値に近づくことができた。 弱モデルではコーエンのカッパスコアが 0.29 $\pm$ 0.07 であり,ベースラインでは 0.32 $\pm$ 0.05 である。 また、prostatex-2 チャレンジデータセット上で kappa スコア (0.276$\pm$ 0.037) を報告し、prostatex-2 とデータセットの組み合わせでトレーニングした弱 u-net は、セグメンテーションタスクのためのこのチャレンジデータセットで最も高い値である。

In this work, we propose a deep U-Net based model to tackle the challenging task of prostate cancer segmentation by aggressiveness in MRI based on weak scribble annotations. This model extends the size constraint loss proposed by Kervadec et al. 1 in the context of multiclass detection and segmentation task. This model is of high clinical interest as it allows training on prostate biopsy samples and avoids time-consuming full annotation process. Performance is assessed on a private dataset (219 patients) where the full ground truth is available as well as on the ProstateX-2 challenge database, where only biopsy results at different localisations serve as reference. We show that we can approach the fully-supervised baseline in grading the lesions by using only 6.35% of voxels for training. We report a lesion-wise Cohen's kappa score of 0.29 $\pm$ 0.07 for the weak model versus 0.32 $\pm$ 0.05 for the baseline. We also report a kappa score (0.276 $\pm$ 0.037) on the ProstateX-2 challenge dataset with our weak U-Net trained on a combination of ProstateX-2 and our dataset, which is the highest reported value on this challenge dataset for a segmentation task to our knowledge.
翻訳日:2022-07-17 17:12:26 公開日:2022-07-01
# (参考訳) 自己説明型社会工学システムのための学習分類システム

Learning Classifier Systems for Self-Explaining Socio-Technical-Systems ( http://arxiv.org/abs/2207.02300v1 )

ライセンス: CC BY 4.0
Michael Heider, Helena Stegherr, Richard Nordsieck, J\"org H\"ahner(参考訳) 社会技術的設定では、オペレータは意思決定支援システムによってますます助けられている。 これらを用いることで、自己適応や自己最適化といった社会技術システムの重要な特性がさらに向上することが期待される。 オペレーターに受け入れられ、効率的に関与するためには、意思決定支援システムは、特定の決定の背後にある理由の説明を提供する必要がある。 本稿では,ルールベースの機械学習手法のファミリである学習分類器システムを用いて,透過的な意思決定を容易にし,その改善手法を強調する。 次に,7つの質問のテンプレートを提示して,アプリケーション固有の説明可能性のニーズを評価し,その使用例をインタビュアーベースの生産シナリオのケーススタディで示す。 得られた回答は、よく設計されたLCSモデルに有用な洞察を与え、利害関係者が知的エージェントに積極的に関与するように要求する。

In socio-technical settings, operators are increasingly assisted by decision support systems. By employing these, important properties of socio-technical systems such as self-adaptation and self-optimization are expected to improve further. To be accepted by and engage efficiently with operators, decision support systems need to be able to provide explanations regarding the reasoning behind specific decisions. In this paper, we propose the usage of Learning Classifier Systems, a family of rule-based machine learning methods, to facilitate transparent decision making and highlight some techniques to improve that. We then present a template of seven questions to assess application-specific explainability needs and demonstrate their usage in an interview-based case study for a manufacturing scenario. We find that the answers received did yield useful insights for a well-designed LCS model and requirements to have stakeholders actively engage with an intelligent agent.
翻訳日:2022-07-10 12:18:19 公開日:2022-07-01
# (参考訳) 救急部門過密の長期予測のための時間型核融合変圧器

A Temporal Fusion Transformer for Long-term Explainable Prediction of Emergency Department Overcrowding ( http://arxiv.org/abs/2207.00610v1 )

ライセンス: CC BY 4.0
Francisco M. Caldas and Cl\'audia Soares(参考訳) 救急省(ED)はポルトガル国民健康サービスの基本的要素であり、多様で非常に深刻な医療問題を抱える利用者のエントリポイントとして機能している。 EDの本質的な特徴から,サービスを利用する患者数を予測することは特に困難である。 また、多給者と医療従事者数のミスマッチは、提供されたサービスの質を低下させ、他の部署の医療従事者の徴発や手術の延期など、病院全体の損害を被る問題を引き起こす可能性がある。 edオーバークローディング(ed overcrowding)は、医療上の緊急事態を伴わず、毎日の患者数のほぼ半分を占める救急サービスを利用する非患者によって部分的に駆動される。 本稿では,カレンダーと時系列共変量を用いて4週間の予測間隔とポイント予測を行う,新しいディープラーニングアーキテクチャであるtemporal fusion transformerについて述べる。 我々は,ポルトガルの保健地域(HRA)では平均絶対過誤(MAPE)が5.90%,Root Mean Squared Error(RMSE)が84.4102人/日で予測可能であると結論づけた。 この論文は、静的および時系列共変量を用いた多変量アプローチの使用を支持する実証的証拠を示し、文献で一般的に見られる他のモデルを超えている。

Emergency Departments (EDs) are a fundamental element of the Portuguese National Health Service, serving as an entry point for users with diverse and very serious medical problems. Due to the inherent characteristics of the ED; forecasting the number of patients using the services is particularly challenging. And a mismatch between the affluence and the number of medical professionals can lead to a decrease in the quality of the services provided and create problems that have repercussions for the entire hospital, with the requisition of health care workers from other departments and the postponement of surgeries. ED overcrowding is driven, in part, by non-urgent patients, that resort to emergency services despite not having a medical emergency and which represent almost half of the total number of daily patients. This paper describes a novel deep learning architecture, the Temporal Fusion Transformer, that uses calendar and time-series covariates to forecast prediction intervals and point predictions for a 4 week period. We have concluded that patient volume can be forecasted with a Mean Absolute Percentage Error (MAPE) of 5.90% for Portugal's Health Regional Areas (HRA) and a Root Mean Squared Error (RMSE) of 84.4102 people/day. The paper shows empirical evidence supporting the use of a multivariate approach with static and time-series covariates while surpassing other models commonly found in the literature.
翻訳日:2022-07-09 14:55:27 公開日:2022-07-01
# (参考訳) 投影性の再考

Projectivity revisited ( http://arxiv.org/abs/2207.00625v1 )

ライセンス: CC BY 4.0
Felix Weitk\"amper(参考訳) 異なる大きさの領域にわたる統計的関係表現の振る舞いは、モデリングと複雑性の観点から研究の焦点となっている。 2018年、イェーガーとシュルトは分布の族を重要な性質として射影性を提案し、限界推論が領域のサイズに依存しないことを保証した。 しかし、イェーガーとシュルトは、領域はその大きさによってのみ特徴づけられると仮定する。 この貢献は、射影性の概念を、ドメインサイズでインデックスされた分布の族から、データベースから拡張データを取る関手へと拡張する。 これにより、プロジェクティビティは構造化された入力を受ける広範囲のアプリケーションで利用できる。 分布の射影族の既知の魅力的な性質を新しい設定に転送する。 さらに、可算無限領域上の射影性と分布の対応を証明し、それを用いて無限領域における統計的関係表現に関する初期の研究を統一し一般化する。 最後に、拡張された射影の概念を用いてさらなる強化を定義する。これは$\sigma$- Projectivityと呼ばれ、射影性を維持しながら異なるモードで同じ表現を使うことができる。

The behaviour of statistical relational representations across differently sized domains has become a focal area of research from both a modelling and a complexity viewpoint. In 2018, Jaeger and Schulte suggested projectivity of a family of distributions as a key property, ensuring that marginal inference is independent of the domain size. However, Jaeger and Schulte assume that the domain is characterised only by its size. This contribution extends the notion of projectivity from families of distributions indexed by domain size to functors taking extensional data from a database. This makes projectivity available for the large range of applications taking structured input. We transfer the known attractive properties of projective families of distributions to the new setting. Furthermore, we prove a correspondence between projectivity and distributions on countably infinite domains, which we use to unify and generalise earlier work on statistical relational representations in infinite domains. Finally, we use the extended notion of projectivity to define a further strengthening, which we call $\sigma$-projectivity, and which allows the use of the same representation in different modes while retaining projectivity.
翻訳日:2022-07-09 14:39:52 公開日:2022-07-01
# (参考訳) 信号時間論理を用いた自然言語からの対話学習と実証

Interactive Learning from Natural Language and Demonstrations using Signal Temporal Logic ( http://arxiv.org/abs/2207.00627v1 )

ライセンス: CC BY 4.0
Sara Mohammadinejad, Jesse Thomason, Jyotirmoy V. Deshmukh(参考訳) 自然言語は、人間がロボットにタスクを伝えるための直感的な方法です。 自然言語(NL)は曖昧であるが、現実のタスクとその安全性要件はあいまいにコミュニケーションする必要がある。 Signal Temporal Logic (STL) は、ロボットタスクを記述するための汎用的で表現力があり曖昧な形式言語として機能する形式論理である。 一方、ロボット分野においてSTLを使用する既存の作業は、通常、エンドユーザがSTLでタスク仕様を表現する必要がある。 一方、NLからSTL仕様への変換は現在、特定のフラグメントに限定されている。 本稿では,(しばしば)曖昧なnl記述からstl公式を正しく簡潔に学習するための対話的アプローチであるinterlogstlを提案する。 我々は,意味解析,事前学習されたトランスフォーマーベース言語モデル,および少数のユーザによるループの明確化の組み合わせを用いて,NLタスク記述を符号化するための最高のSTL式を予測する。 nlをstlにマッピングする利点は、ロボットの制御ポリシーを特定するために強化学習(rl)を使用するという最近の研究がかなり行われていることである。 学習したstl仕様から最適な方針を学習するために,深いq学習技術が利用できることを示す。 我々は,DIALOGUESTLが効率的でスケーラブルで堅牢であり,数回のデモンストレーションと数回のオラクルユーザとの対話で正しいSTL式を予測する精度が高いことを実証した。

Natural language is an intuitive way for humans to communicate tasks to a robot. While natural language (NL) is ambiguous, real world tasks and their safety requirements need to be communicated unambiguously. Signal Temporal Logic (STL) is a formal logic that can serve as a versatile, expressive, and unambiguous formal language to describe robotic tasks. On one hand, existing work in using STL for the robotics domain typically requires end-users to express task specifications in STL, a challenge for non-expert users. On the other, translating from NL to STL specifications is currently restricted to specific fragments. In this work, we propose DIALOGUESTL, an interactive approach for learning correct and concise STL formulas from (often) ambiguous NL descriptions. We use a combination of semantic parsing, pre-trained transformer-based language models, and user-in-the-loop clarifications aided by a small number of user demonstrations to predict the best STL formula to encode NL task descriptions. An advantage of mapping NL to STL is that there has been considerable recent work on the use of reinforcement learning (RL) to identify control policies for robots. We show we can use Deep Q-Learning techniques to learn optimal policies from the learned STL specifications. We demonstrate that DIALOGUESTL is efficient, scalable, and robust, and has high accuracy in predicting the correct STL formula with a few number of demonstrations and a few interactions with an oracle user.
翻訳日:2022-07-09 14:09:47 公開日:2022-07-01
# (参考訳) 新たなKR:知識基盤としての質問応答ペア

QA Is the New KR: Question-Answer Pairs as Knowledge Bases ( http://arxiv.org/abs/2207.00630v1 )

ライセンス: CC BY 4.0
Wenhu Chen, William W. Cohen, Michiel De Jong, Nitish Gupta, Alessandro Presta, Pat Verga, John Wieting(参考訳) 本稿では,質問生成とエンティティリンクに基づいて,テキストから知識ベース(kb)を生成する新しい手法を提案する。 提案するKBには,従来のシンボルKBの重要な利点が多数ある,と我々は主張する。特に,複数のホップ推論を含む関係クエリやクエリなど,複雑なクエリに合成的に対応可能な,小さなモジュールコンポーネントで構成されている。 しかし、従来のkbとは異なり、この情報ストアは共通のユーザ情報のニーズに合致している。

In this position paper, we propose a new approach to generating a type of knowledge base (KB) from text, based on question generation and entity linking. We argue that the proposed type of KB has many of the key advantages of a traditional symbolic KB: in particular, it consists of small modular components, which can be combined compositionally to answer complex queries, including relational queries and queries involving "multi-hop" inferences. However, unlike a traditional KB, this information store is well-aligned with common user information needs.
翻訳日:2022-07-09 13:56:41 公開日:2022-07-01
# (参考訳) AIシステムの設計・開発における認知アーキテクチャによるアンチブラックネスの検討

Using a Cognitive Architecture to consider antiblackness in design and development of AI systems ( http://arxiv.org/abs/2207.00644v1 )

ライセンス: CC BY-SA 4.0
Christopher L. Dancy(参考訳) 認知モデリングを使って、アンチブラックネスや人種差別がaiシステムの設計と開発にどのように影響するかを考えることができるだろうか? 私たちはこの質問に対する回答に向けた議論と例を提示します。 ACT-R/{\Phi}認知アーキテクチャと既存の知識グラフシステムであるConceptNetを用いて、認知的・社会文化的観点からだけでなく、生理学的観点からもこの問題を考察する。 認知モデリングをaiシステム(特にソフトウェア工学の観点から)の設計と開発においてアンチブラックネスがどのように現れるかを調べる手段として用いることに加えて、アンチブラックネス、人間、計算認知モデリングの関連も導入する。 認知アーキテクチャや認知モデリングにおける社会文化的プロセスや知識構造の典型的な展開は、認知モデリングに対するカラーブレンドアプローチを暗黙的に促進し、人間の行動に常に存在し認知プロセスに影響を与える社会文化的コンテキストを隠蔽する。

How might we use cognitive modeling to consider the ways in which antiblackness, and racism more broadly, impact the design and development of AI systems? We provide a discussion and an example towards an answer to this question. We use the ACT-R/{\Phi} cognitive architecture and an existing knowledge graph system, ConceptNet, to consider this question not only from a cognitive and sociocultural perspective, but also from a physiological perspective. In addition to using a cognitive modeling as a means to explore how antiblackness may manifest in the design and development of AI systems (particularly from a software engineering perspective), we also introduce connections between antiblackness, the Human, and computational cognitive modeling. We argue that the typical eschewing of sociocultural processes and knowledge structures in cognitive architectures and cognitive modeling implicitly furthers a colorblind approach to cognitive modeling and hides sociocultural context that is always present in human behavior and affects cognitive processes.
翻訳日:2022-07-09 13:35:30 公開日:2022-07-01
# (参考訳) 適応レジスト最小化の効率化

Efficient Adaptive Regret Minimization ( http://arxiv.org/abs/2207.00646v1 )

ライセンス: CC BY 4.0
Zhou Lu, Elad Hazan(参考訳) オンライン凸最適化では、プレイヤーは繰り返しゲーム全体の固定コンパレータに対する後悔を最小限に抑える。 標準的な後悔を最小限に抑えるアルゴリズムは、変化や動的環境では望ましくない固定された決定に収束する。 これにより、適応的後悔のより強い指標や、時間内の任意の連続的なサブインターバルに対する最大後悔が動機づけられる。 既存の適応的後悔アルゴリズムは、ゲーム繰り返し数で対数的に増加する乗法係数の順序によって、計算ペナルティに苦しむ。 本稿では,この計算ペナルティをゲーム反復回数の2倍対数に削減し,最適到達可能な適応的後悔限度まで最小分解する方法について述べる。

In online convex optimization the player aims to minimize her regret against a fixed comparator over the entire repeated game. Algorithms that minimize standard regret may converge to a fixed decision, which is undesireable in changing or dynamic environments. This motivates the stronger metric of adaptive regret, or the maximum regret over any continuous sub-interval in time. Existing adaptive regret algorithms suffer from a computational penalty - typically on the order of a multiplicative factor that grows logarithmically in the number of game iterations. In this paper we show how to reduce this computational penalty to be doubly logarithmic in the number of game iterations, and with minimal degradation to the optimal attainable adaptive regret bounds.
翻訳日:2022-07-09 13:22:52 公開日:2022-07-01
# (参考訳) 事前学習による低リソース音声認識の改善--半教師付き学習との比較-

Improving Low-Resource Speech Recognition with Pretrained Speech Models: Continued Pretraining vs. Semi-Supervised Training ( http://arxiv.org/abs/2207.00659v1 )

ライセンス: CC BY 4.0
Mitchell DeHaven, Jayadev Billa(参考訳) wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースのモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。 これはwav2vec 2.0ベースの事前訓練されたXLSR-53モデルの性能において、ラベル付きデータを微調整する場合に明らかである。 しかし、これらのモデルの微調整によるパフォーマンスは、事前トレーニングデータセットに含まれる言語内または類似言語データ量に依存する可能性がある。 本稿では,複数の低リソース言語におけるXLSR-53事前学習モデルにおいて,ラベルなしの音声データを用いた継続事前学習(CoPT)について検討する。 CoPTは半教師付きトレーニング(SST)よりも計算効率がよいが、これはASRでラベルなしデータを利用する標準的なアプローチであり、ラベルなしデータの擬似ラベル付けは不要である。 単語誤り率 (WERs) は, 単語誤り率 (WERs) で表され, SST よりも若干高い値を示した。 さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善が得られた。

Self-supervised Transformer based models, such as wav2vec 2.0 and HuBERT, have produced significant improvements over existing approaches to automatic speech recognition (ASR). This is evident in the performance of the wav2vec 2.0 based pretrained XLSR-53 model across many languages when fine-tuned with available labeled data. However, the performance from finetuning these models can be dependent on the amount of in-language or similar-to-in-language data included in the pretraining dataset. In this paper we investigate continued pretraining (CoPT) with unlabeled in-language audio data on the XLSR-53 pretrained model in several low-resource languages. CoPT is more computationally efficient than semi-supervised training (SST), the standard approach of utilizing unlabeled data in ASR, since it omits the need for pseudo-labeling of the unlabeled data. We show CoPT results in word error rates (WERs), equal to or slightly better than using SST. In addition, we show that using the CoPT model for pseudo-labeling, and using these labels in SST, results in further improvements in WER.
翻訳日:2022-07-09 13:12:17 公開日:2022-07-01
# (参考訳) 物理シミュレーションのための無限忠実コリージョン化

Infinite-Fidelity Coregionalization for Physical Simulation ( http://arxiv.org/abs/2207.00678v1 )

ライセンス: CC BY 4.0
Shibo Li, Zheng Wang, Robert M. Kirby, Shandian Zhe(参考訳) 多元的モデリングと学習は、物理シミュレーション関連のアプリケーションにおいて重要である。 トレーニングの低忠実度と高忠実度の両方の例を活用して、優れたパフォーマンスを保ちながら、データ生成のコストを削減することができる。 既存のアプローチは有限の離散忠実度しかモデル化しないが、実際には、忠実度の選択は連続で無限であり、連続メッシュ間隔や有限要素長に対応できる。 本稿では,無限忠実コリージョン化(IFC)を提案する。 このデータから,連続的な無限の忠実度内でリッチな情報を抽出・活用し,予測精度を高める。 私たちのモデルは、トレーニングデータのフィデリティよりも高い可能性のある、新しいフィデリティへの予測を補間および/または外挿することができる。 具体的には,忠実度と入力の連続関数として低次元潜在出力を導入し,それを基底行列で重ね合わせて高次元解出力を予測する。 我々は、潜時出力をニューラル正規微分方程式(ODE)としてモデル化し、連続した忠実度を通して複雑な関係を捉え、情報を統合する。 次にガウス過程または他のodeを用いて忠実度変動基底を推定する。 効率的な推論のために、基底をテンソルとして再編成し、テンソル-ガウス変分後部を用いて大規模出力に対するスケーラブルな推論アルゴリズムを開発する。 計算物理学におけるいくつかのベンチマークタスクにおいて,本手法の利点を示す。

Multi-fidelity modeling and learning are important in physical simulation-related applications. It can leverage both low-fidelity and high-fidelity examples for training so as to reduce the cost of data generation while still achieving good performance. While existing approaches only model finite, discrete fidelities, in practice, the fidelity choice is often continuous and infinite, which can correspond to a continuous mesh spacing or finite element length. In this paper, we propose Infinite Fidelity Coregionalization (IFC). Given the data, our method can extract and exploit rich information within continuous, infinite fidelities to bolster the prediction accuracy. Our model can interpolate and/or extrapolate the predictions to novel fidelities, which can be even higher than the fidelities of training data. Specifically, we introduce a low-dimensional latent output as a continuous function of the fidelity and input, and multiple it with a basis matrix to predict high-dimensional solution outputs. We model the latent output as a neural Ordinary Differential Equation (ODE) to capture the complex relationships within and integrate information throughout the continuous fidelities. We then use Gaussian processes or another ODE to estimate the fidelity-varying bases. For efficient inference, we reorganize the bases as a tensor, and use a tensor-Gaussian variational posterior to develop a scalable inference algorithm for massive outputs. We show the advantage of our method in several benchmark tasks in computational physics.
翻訳日:2022-07-09 13:00:52 公開日:2022-07-01
# (参考訳) NPC AI of \textit{The Last of Us} を事例として

The NPC AI of \textit{The Last of Us}: A case study ( http://arxiv.org/abs/2207.00682v1 )

ライセンス: CC BY 4.0
Harsh Panwar(参考訳) The Last of Us』はステルス、コンパニオン、戦略に焦点を当てたゲームである。 このゲームはパンデミック後の孤独な世界に基盤を置いており、プレイヤーの興味を引くためにAIコンパニオンを必要としている。 ゲームには、感染した、人間の敵、バディAIの3つの主要なNPCがある。 このケーススタディでは、これらのNPCのためのAIを作成するための開発者の前にある課題と、それらを解決するために使用したAI技術について話します。 また、チャレンジとアプローチを、同様の業界主導のゲームと比較する。

The Last of Us is a game focused on stealth, companionship and strategy. The game is based in a lonely world after the pandemic and thus it needs AI companions to gain the interest of players. There are three main NPCs the game has - Infected, Human enemy and Buddy AIs. This case study talks about the challenges in front of the developers to create AI for these NPCs and the AI techniques they used to solve them. It also compares the challenges and approach with similar industry-leading games.
翻訳日:2022-07-09 12:42:24 公開日:2022-07-01
# (参考訳) アフリカの声を作る

Building African Voices ( http://arxiv.org/abs/2207.00688v1 )

ライセンス: CC BY 4.0
Perez Ogayo, Graham Neubig, Alan W Black(参考訳) 現代の音声合成技術は、十分な品質のデータと計算資源を与えられた自然音声を生成することができる。 しかし、そのようなデータは多くの言語で簡単には利用できない。 本稿では,コーパス作成からtext-to-speech (tts) システムへの展開まで,低資源アフリカ言語のための音声合成について述べる。 まず,最少技術資源と被写体専門知識を備えた音声合成システム構築のための汎用命令セットを作成する。 次に、アクセシビリティ、品質、幅を考慮して、参加型アプローチを通じて、新たなデータセットを作成し、(既存の)データからデータセットをキュレートする。 本稿では,25分間の音声生成が可能な音声合成装置を開発した。 最後に、研究者や開発者をサポートするために12のアフリカの言語のための音声データ、コード、訓練された音声をリリースします。

Modern speech synthesis techniques can produce natural-sounding speech given sufficient high-quality data and compute resources. However, such data is not readily available for many languages. This paper focuses on speech synthesis for low-resourced African languages, from corpus creation to sharing and deploying the Text-to-Speech (TTS) systems. We first create a set of general-purpose instructions on building speech synthesis systems with minimum technological resources and subject-matter expertise. Next, we create new datasets and curate datasets from "found" data (existing recordings) through a participatory approach while considering accessibility, quality, and breadth. We demonstrate that we can develop synthesizers that generate intelligible speech with 25 minutes of created speech, even when recorded in suboptimal environments. Finally, we release the speech data, code, and trained voices for 12 African languages to support researchers and developers.
翻訳日:2022-07-09 12:35:29 公開日:2022-07-01
# (参考訳) データプルーニングによる効果的な対人訓練

Efficient Adversarial Training With Data Pruning ( http://arxiv.org/abs/2207.00694v1 )

ライセンス: CC0 1.0
Maximilian Kaufmann, Yiren Zhao, Ilia Shumailov, Robert Mullins and Nicolas Papernot(参考訳) ニューラルネットワークは、モデルが失敗する小さな入力摂動の逆例に影響を受けやすい。 モデルはトレーニング中に攻撃にさらされ、それらに対して回復力を持つことを学ぶ。 しかし、このような手順は現在高価で、敵のサンプルでモデルを生産し、訓練するのに長い時間がかかる。 本稿では,データサブサンプリングによる対向訓練効率の向上手法であるdata pruningを実証する。データpruningは,ユーティリティ劣化のレベルが異なるものの,対向訓練の収束性と信頼性の向上につながることを示す。 例えば、CIFAR10のランダムなサブサンプリングによって40%のデータを減少させ、8%の攻撃者に対して8%の攻撃精度を失う一方で、20%のデータしか使用せず、14%の敵精度を失い、ランタイムを3.5%削減する。 興味深いことに、いくつかの設定において、データプルーニングは両方の世界から利益をもたらす。

Neural networks are susceptible to adversarial examples-small input perturbations that cause models to fail. Adversarial training is one of the solutions that stops adversarial examples; models are exposed to attacks during training and learn to be resilient to them. Yet, such a procedure is currently expensive-it takes a long time to produce and train models with adversarial samples, and, what is worse, it occasionally fails. In this paper we demonstrate data pruning-a method for increasing adversarial training efficiency through data sub-sampling.We empirically show that data pruning leads to improvements in convergence and reliability of adversarial training, albeit with different levels of utility degradation. For example, we observe that using random sub-sampling of CIFAR10 to drop 40% of data, we lose 8% adversarial accuracy against the strongest attackers, while by using only 20% of data we lose 14% adversarial accuracy and reduce runtime by a factor of 3. Interestingly, we discover that in some settings data pruning brings benefits from both worlds-it both improves adversarial accuracy and training time.
翻訳日:2022-07-09 12:24:22 公開日:2022-07-01
# 信頼行動を用いたオフライン政策最適化

Offline Policy Optimization with Eligible Actions ( http://arxiv.org/abs/2207.00632v1 )

ライセンス: Link先を確認
Yao Liu, Yannis Flet-Berliac, Emma Brunskill(参考訳) オフラインポリシー最適化は、オンライン学習が多くのアプリケーションで実現できないため、現実世界の意思決定問題に大きな影響を与える可能性がある。 重要度サンプリングとその変種は、オフラインポリシー評価において一般的に用いられるタイプの推定器であり、そのような推定器は通常、値関数や決定プロセスモデル関数のクラスの性質や表現能力に関する仮定を必要としない。 本稿では,重要度重み付けされたリターンを最適化する上で重要な過度なオーバーフィッティング現象を特定する。 そこで本稿では, 州ごとの正規化制約により, この過適合を回避するアルゴリズムを提案し, 提案アルゴリズムを理論的に正当化する。 このアプローチに対する以前の試みの制限も示します。 当社のアルゴリズムは、医療にインスパイアされたシミュレーター、実際の病院から収集したログデータセット、継続的な制御タスクでテストします。 提案手法は,最先端のバッチ強化学習アルゴリズムと比較して,オーバーフィッティングやテスト性能の向上が期待できる。

Offline policy optimization could have a large impact on many real-world decision-making problems, as online learning may be infeasible in many applications. Importance sampling and its variants are a commonly used type of estimator in offline policy evaluation, and such estimators typically do not require assumptions on the properties and representational capabilities of value function or decision process model function classes. In this paper, we identify an important overfitting phenomenon in optimizing the importance weighted return, in which it may be possible for the learned policy to essentially avoid making aligned decisions for part of the initial state space. We propose an algorithm to avoid this overfitting through a new per-state-neighborhood normalization constraint, and provide a theoretical justification of the proposed algorithm. We also show the limitations of previous attempts to this approach. We test our algorithm in a healthcare-inspired simulator, a logged dataset collected from real hospitals and continuous control tasks. These experiments show the proposed method yields less overfitting and better test performance compared to state-of-the-art batch reinforcement learning algorithms.
翻訳日:2022-07-05 15:45:55 公開日:2022-07-01
# PageRankを無限深度グラフニューラルネットワークに変換する

Transforming PageRank into an Infinite-Depth Graph Neural Network ( http://arxiv.org/abs/2207.00684v1 )

ライセンス: Link先を確認
Andreas Roth, Thomas Liebig(参考訳) 人気のあるグラフニューラルネットワークは、ディープラーニングの他のアプリケーション領域における非常に深いアーキテクチャの成功にもかかわらず、浅いモデルである。 これによりモデリング能力が低下し、モデルが長距離関係を捉えることができない。 浅い設計の主な理由は過剰な平滑化であり、ノード状態はより深い深さで類似するようになる。 パーソナライズされたPageRankがパーソナライズベクトルを考慮に入れたGNNとPageRankの密接な接続を構築した。 この考え方を取り入れたPPRGNN(Personalized PageRank Graph Neural Network)を提案する。これはグラフ畳み込みネットワークを無限深度モデルに拡張し,各イテレーションで隣接するアグリゲーションを初期状態にリセットする。 我々は,無限に多数のアグリゲーションを取り入れても,制約を課すことなく,一意なソリューションへのアプローチの収束を,再設定する可能性に対して,うまく解釈可能な微調整を導入する。 パーソナライズされたPageRankのように、私たちの結果は過剰なスムーシングに苦しめられません。 その間、時間複雑性は線形のままであり、メモリの複雑さはネットワークの深さによらず一定であり、大きなグラフにうまくスケールする。 様々なノードやグラフ分類タスクに対するアプローチの有効性を実証的に示す。 PPRGNNは、ほぼ全てのケースで同等の手法より優れている。

Popular graph neural networks are shallow models, despite the success of very deep architectures in other application domains of deep learning. This reduces the modeling capacity and leaves models unable to capture long-range relationships. The primary reason for the shallow design results from over-smoothing, which leads node states to become more similar with increased depth. We build on the close connection between GNNs and PageRank, for which personalized PageRank introduces the consideration of a personalization vector. Adopting this idea, we propose the Personalized PageRank Graph Neural Network (PPRGNN), which extends the graph convolutional network to an infinite-depth model that has a chance to reset the neighbor aggregation back to the initial state in each iteration. We introduce a nicely interpretable tweak to the chance of resetting and prove the convergence of our approach to a unique solution without placing any constraints, even when taking infinitely many neighbor aggregations. As in personalized PageRank, our result does not suffer from over-smoothing. While doing so, time complexity remains linear while we keep memory complexity constant, independently of the depth of the network, making it scale well to large graphs. We empirically show the effectiveness of our approach for various node and graph classification tasks. PPRGNN outperforms comparable methods in almost all cases.
翻訳日:2022-07-05 15:45:37 公開日:2022-07-01
# 薬物マッチングと異常承認数補正の統合システム

An Integrated System of Drug Matching and Abnormal Approval Number Correction ( http://arxiv.org/abs/2207.01543v1 )

ライセンス: Link先を確認
Dong Chenxi, QP Zhang, B Hu, JC Zhang, Dl Lin(参考訳) このエッセイは111,incとの共同プロジェクトに基づいている。 薬局のeコマース事業は近年急速に成長し、パンデミックによる医療需要の増大が続いている。 オンライン製薬プラットフォームの大きな課題は、ドラッグ製品のマッチングだ。 eコマースプラットフォームは通常、倉庫や小売業者などの複数のデータソースから薬品情報を収集する。 したがって、データフォーマットは一貫性がなく、同じ薬物製品を特定するのが困難である。 本稿では、2つのデータソースから薬品をマッチングする統合システムを作成する。 さらに、このシステムは、ナイブベイズ薬型(中国薬または非中国薬)分類器に基づいて、矛盾する薬物承認番号を補正する。 我々の統合システムは99.2%の精度と97.5%のリコールで98.3%の薬剤適合精度を達成している

This essay is based on the joint project with 111, Inc. The pharmacy e-Commerce business grows rapidly in recent years with the ever-increasing medical demand during the pandemic. A big challenge for online pharmacy platforms is drug product matching. The e-Commerce platform usually collects drug product information from multiple data sources such as the warehouse or retailers. Therefore, the data format is inconsistent, making it hard to identify and match the same drug product. This paper creates an integrated system for matching drug products from two data sources. Besides, the system would correct some inconsistent drug approval numbers based on a Naive-Bayes drug type (Chinese or Non-Chinese Drug) classifier. Our integrated system achieves 98.3% drug matching accuracy, with 99.2% precision and 97.5% recall
翻訳日:2022-07-05 14:40:12 公開日:2022-07-01
# ヨーロ・ワンショット物体検出による重力波データ中の2元中性子星融合の同定

Identification of Binary Neutron Star Mergers in Gravitational-Wave Data Using YOLO One-Shot Object Detection ( http://arxiv.org/abs/2207.00591v1 )

ライセンス: Link先を確認
Jo\~ao Aveiro, Felipe F. Freitas, M\'arcio Ferreira, Antonio Onofre, Constan\c{c}a Provid\^encia, Gon\c{c}alo Gon\c{c}alves, and Jos\'e A. Font(参考訳) 本稿では, 汎用の畳み込み型単発物体検出モデルであるYOLOv5モデルを, 電流発生干渉計検出器の重力波データから二元中性子星(BNS)の合体現象を検出するタスクに適用した。 また,モデルトレーニング,検証,テストステップに使用される近似波形モデルに基づく合成データ生成と準備タスクの詳細な説明を行う。 このアプローチを用いることで、単一のクラス検証データセットで0.945、テストデータセットで0.978という平均精度(\text{map}_{[0.50]}$)の値を達成する。 さらに、LIGO H1検出器データにおけるGW170817イベントの同定にも成功している。 この事象の特定は、LIGO L1検出器データに対して、吸気の最終段階で大きな不具合を取り除くことなく、追加の事前処理ステップで可能である。 gw190425の検出は成功せず、信号対雑音比による性能低下が証明される。 本研究は, YOLOv5モデルが第1段階検出アラームパイプラインの興味深いアプローチであり, より複雑なパイプラインに統合された場合, 物理音源パラメータのリアルタイム推定に有効であることを示す。

We demonstrate the application of the YOLOv5 model, a general purpose convolution-based single-shot object detection model, in the task of detecting binary neutron star (BNS) coalescence events from gravitational-wave data of current generation interferometer detectors. We also present a thorough explanation of the synthetic data generation and preparation tasks based on approximant waveform models used for the model training, validation and testing steps. Using this approach, we achieve mean average precision ($\text{mAP}_{[0.50]}$) values of 0.945 for a single class validation dataset and as high as 0.978 for test datasets. Moreover, the trained model is successful in identifying the GW170817 event in the LIGO H1 detector data. The identification of this event is also possible for the LIGO L1 detector data with an additional pre-processing step, without the need of removing the large glitch in the final stages of the inspiral. The detection of the GW190425 event is less successful, which attests to performance degradation with the signal-to-noise ratio. Our study indicates that the YOLOv5 model is an interesting approach for first-stage detection alarm pipelines and, when integrated in more complex pipelines, for real-time inference of physical source parameters.
翻訳日:2022-07-05 13:55:05 公開日:2022-07-01
# DRESS:動的リアルタイムスパースサブネット

DRESS: Dynamic REal-time Sparse Subnets ( http://arxiv.org/abs/2207.00670v1 )

ライセンス: Link先を確認
Zhongnan Qu, Syed Shakib Sarwar, Xin Dong, Yuecheng Li, Ekin Sumbul, Barbara De Salvo(参考訳) エッジデバイス上の限られた動的に変化するリソースは、異なるリソース制約に適合するようにサブネットワークに適応できる最適化されたディープニューラルネットワークをデプロイする動機付けとなります。 しかし、既存の作品では、手作りのサンプリング空間で異なるネットワークアーキテクチャを探索することでサブネットワークを構築することが多い。 本稿では,新しいトレーニングアルゴリズムであるDynamic Real-time Sparse Subnets (DRESS)を提案する。 DRESSは、同じバックボーンネットワークから行ベースの非構造空間を通して複数のサブネットワークをサンプリングし、重み付けされた損失と並行してこれらのサブネットワークを共同で訓練する。 dressはまた、効率的なストレージ消費と効率的なオンデバイス適応のためにパラメータの再利用や行ベースの細粒度サンプリングといった戦略も活用している。 公開ビジョンデータセットの大規模な実験により、DRESSは最先端のサブネットワークよりもはるかに精度が高いことが示されている。

The limited and dynamically varied resources on edge devices motivate us to deploy an optimized deep neural network that can adapt its sub-networks to fit in different resource constraints. However, existing works often build sub-networks through searching different network architectures in a hand-crafted sampling space, which not only can result in a subpar performance but also may cause on-device re-configuration overhead. In this paper, we propose a novel training algorithm, Dynamic REal-time Sparse Subnets (DRESS). DRESS samples multiple sub-networks from the same backbone network through row-based unstructured sparsity, and jointly trains these sub-networks in parallel with weighted loss. DRESS also exploits strategies including parameter reusing and row-based fine-grained sampling for efficient storage consumption and efficient on-device adaptation. Extensive experiments on public vision datasets show that DRESS yields significantly higher accuracy than state-of-the-art sub-networks.
翻訳日:2022-07-05 13:32:58 公開日:2022-07-01
# 太陽電池品質検査におけるマイナショットインクリメンタル学習

Few-shot incremental learning in the context of solar cell quality inspection ( http://arxiv.org/abs/2207.00693v1 )

ライセンス: Link先を確認
Julen Balzategui, Luka Eciolaza(参考訳) 業界では、Deep Neural Networksは、従来の手動機能エンジニアリングに基づく提案よりも高い欠陥検出率を示している。 これは主に、優れた分類モデルを学ぶために大量のデータを必要とする教師付きトレーニングによって達成されている。 しかし、この量のデータは、通常生産される不良品が少ないため、工業的なシナリオでは取得が難しい場合もある。 さらに、ある種の欠陥は非常に稀で、通常は時々現れるだけなので、分類モデルをトレーニングするための適切なデータセットの生成はさらに難しくなります。 さらに、利用可能なデータがないため、検出を組み込んで検出するためにモデルの再トレーニングを必要とする可能性があるため、本番環境に現れる新たな欠陥タイプへのインスペクションモデルの適応が制限される。 本研究では,3つの基本欠陥クラスでネットワークをトレーニングした太陽電池の品質検査の文脈において,重みインプリントの手法を探求し,少数のサンプルを用いて新たな欠陥クラスを組み込んだ。 その結果、この手法により、少数のサンプルによる欠陥クラスに関して、ネットワークが知識を拡張できることが示され、これは工業的実践者にとって興味深いことである。

In industry, Deep Neural Networks have shown high defect detection rates surpassing other more traditional manual feature engineering based proposals. This has been achieved mainly through supervised training where a great amount of data is required in order to learn good classification models. However, such amount of data is sometimes hard to obtain in industrial scenarios, as few defective pieces are produced normally. In addition, certain kinds of defects are very rare and usually just appear from time to time, which makes the generation of a proper dataset for training a classification model even harder. Moreover, the lack of available data limits the adaptation of inspection models to new defect types that appear in production as it might require a model retraining in order to incorporate the detects and detect them. In this work, we have explored the technique of weight imprinting in the context of solar cell quality inspection where we have trained a network on three base defect classes, and then we have incorporated new defect classes using few samples. The results have shown that this technique allows the network to extend its knowledge with regard to defect classes with few samples, which can be interesting for industrial practitioners.
翻訳日:2022-07-05 13:32:41 公開日:2022-07-01
# 非同期構造進化のための時間対応動的グラフ埋め込み

Time-aware Dynamic Graph Embedding for Asynchronous Structural Evolution ( http://arxiv.org/abs/2207.00594v1 )

ライセンス: Link先を確認
Yu Yang, Hongzhi Yin, Jiannong Cao, Tong Chen, Quoc Viet Hung Nguyen, Xiaofang Zhou and Lei Chen(参考訳) 動的グラフは、構造が時間とともに動的に変化するグラフを指す。 動的グラフに対する頂点表現(つまり埋め込み)の学習の利点にもかかわらず、既存の作品は単に動的グラフを頂点接続内の変化の列と見なすだけで、各局所構造の進化が異なる時間に始まり、様々な期間続くような、そのようなダイナミクスの重要な非同期性を無視している。 グラフ内の非同期構造進化を維持するために、頂点の接合時間(tov)と辺の時間(toe)に関連する時間的エッジシーケンスとして動的グラフを革新的に定式化する。 次に、頂点の動的接続とつま先を学習頂点表現に組み込むための時間認識変換器を提案する。 一方,各エッジシーケンスを全体として扱い,そのtovを第1頂点に埋め込み,さらに時間に敏感な情報をエンコードする。 いくつかのデータセットに対する広範な評価は、我々のアプローチが幅広いグラフマイニングタスクにおいて最先端技術よりも優れていることを示している。 同時に、大規模な動的グラフを埋め込むのは非常に効率的でスケーラブルです。

Dynamic graphs refer to graphs whose structure dynamically changes over time. Despite the benefits of learning vertex representations (i.e., embeddings) for dynamic graphs, existing works merely view a dynamic graph as a sequence of changes within the vertex connections, neglecting the crucial asynchronous nature of such dynamics where the evolution of each local structure starts at different times and lasts for various durations. To maintain asynchronous structural evolutions within the graph, we innovatively formulate dynamic graphs as temporal edge sequences associated with joining time of vertices (ToV) and timespan of edges (ToE). Then, a time-aware Transformer is proposed to embed vertices' dynamic connections and ToEs into the learned vertex representations. Meanwhile, we treat each edge sequence as a whole and embed its ToV of the first vertex to further encode the time-sensitive information. Extensive evaluations on several datasets show that our approach outperforms the state-of-the-art in a wide range of graph mining tasks. At the same time, it is very efficient and scalable for embedding large-scale dynamic graphs.
翻訳日:2022-07-05 13:25:07 公開日:2022-07-01
# AIモデルのFAIR原理と加速高エネルギー回折顕微鏡への応用

FAIR principles for AI models, with a practical application for accelerated high energy diffraction microscopy ( http://arxiv.org/abs/2207.00611v1 )

ライセンス: Link先を確認
Nikil Ravi, Pranshu Chaturvedi, E. A. Huerta, Zhengchun Liu, Ryan Chard, Aristana Scourtas, K.J. Schmidt, Kyle Chard, Ben Blaiszik and Ian Foster(参考訳) 科学データに対する簡潔で測定可能なFAIR(Findable, Accessible, Interoperable and Reusable)の原則は、データ管理とスチュワードシップの状況を変え、発見とイノベーションを支援し、実現している。 このイニシアチブから学び、科学と工学の実践における人工知能(AI)の影響を認識し、我々はAIモデルに対する実践的で簡潔で測定可能なFAIR原則のセットを紹介します。 本稿では、Argonne National LaboratoryのAdvanced Photon Source、Material Data Facility、Data and Learning Hub for Science、fucX、Argonne Leadership Computing Facility(ALCF)、特にThetaGPUスーパーコンピュータとSambaNova DataScale System(ALCF AI-Testbed)の3つの要素を組み合わせた統合計算フレームワーク内で、FAIRデータとAIモデルを作成、共有する方法を紹介する。 ドメインに依存しないこの計算フレームワークが、自律的なAI駆動の発見を可能にする方法について説明する。

A concise and measurable set of FAIR (Findable, Accessible, Interoperable and Reusable) principles for scientific data are transforming the state-of-practice for data management and stewardship, supporting and enabling discovery and innovation. Learning from this initiative, and acknowledging the impact of artificial intelligence (AI) in the practice of science and engineering, we introduce a set of practical, concise and measurable FAIR principles for AI models. We showcase how to create and share FAIR data and AI models within a unified computational framework combining the following elements: the Advanced Photon Source at Argonne National Laboratory, the Materials Data Facility, the Data and Learning Hub for Science, funcX, and the Argonne Leadership Computing Facility (ALCF), in particular the ThetaGPU supercomputer and the SambaNova DataScale system at the ALCF AI-Testbed. We describe how this domain-agnostic computational framework may be harnessed to enable autonomous AI-driven discovery.
翻訳日:2022-07-05 13:24:48 公開日:2022-07-01
# 積分確率計量PAC-Bayes境界

Integral Probability Metrics PAC-Bayes Bounds ( http://arxiv.org/abs/2207.00614v1 )

ライセンス: Link先を確認
Ron Amit, Baruch Epstein, Shay Moran, Ron Meir(参考訳) 本稿では,KL分割を多種多様な積分確率メトリック(IPM)に置き換えることのできるPAC-Bayes型一般化境界を提案する。 IPM が総変動距離であり、ワッサーシュタイン距離であるような場合の例を提供する。 得られた境界の特筆すべき特徴は、最悪の場合において古典的一様収束境界(前方と後方が互いに遠く離れている場合)とより良い場合(後方と後方が近接している場合)において好ましい境界の間を自然に補間することである。 これは、古典的な一般化境界をアルゴリズムとデータ依存コンポーネントで強化する可能性を示しており、大きな仮説空間を使用するアルゴリズム分析により適している。

We present a PAC-Bayes-style generalization bound which enables the replacement of the KL-divergence with a variety of Integral Probability Metrics (IPM). We provide instances of this bound with the IPM being the total variation metric and the Wasserstein distance. A notable feature of the obtained bounds is that they naturally interpolate between classical uniform convergence bounds in the worst case (when the prior and posterior are far away from each other), and preferable bounds in better cases (when the posterior and prior are close). This illustrates the possibility of reinforcing classical generalization bounds with algorithm- and data-dependent components, thus making them more suitable to analyze algorithms that use a large hypothesis space.
翻訳日:2022-07-05 13:00:51 公開日:2022-07-01
# 行動調節中脳ドーパミン活性は分散制御政策から生じる

Action-modulated midbrain dopamine activity arises from distributed control policies ( http://arxiv.org/abs/2207.00636v1 )

ライセンス: Link先を確認
Jack Lindsey, Ashok Litwin-Kumar(参考訳) 動物行動は、異なる制御ポリシーと並行して働く複数の脳領域によって駆動される。 そこで本研究では,基礎神経節におけるオフポリシー強化学習の生物学的に妥当なモデルを提案する。 このモデルは、オンポリシーアルゴリズムを実装した以前のモデルでは捉えられていないドーパミン活性の作用に関連した変調を特徴としている。 特に、このモデルはドーパミン活性が報酬予測誤差(古典的なモデルのように)と「アクション・サプライズ」(アクション・サプライズ)を組み合わせることを予測している。 アクションサプライズ項の存在下では、モデルはQ-ラーニングの近似形式を実装している。 ベンチマークナビゲーションと到達タスクにおいて、このモデルは、他のポリシー(例えば、他の脳領域から)によって完全にまたは部分的に駆動されたデータから学習できることを実証的に示す。 対照的に、アクションサプライズ用語のないモデルは、追加のポリシーの存在下で苦しめられ、外部から完全に駆動される行動から全く学習できない。 このモデルは、基底神経節の強化学習の古典的なモデルでは説明できないドーパミン活性に関する多くの実験結果の計算的説明を提供する。 これには、背側線条体および腹側線条体における行動サプライズ信号の異なるレベル、練習中の運動調節ドーパミンの量の減少、ドーパミン活性における行動開始および運動の表現が含まれる。 また、線条体ドーパミン活性の記録でテストできるさらなる予測も提供する。

Animal behavior is driven by multiple brain regions working in parallel with distinct control policies. We present a biologically plausible model of off-policy reinforcement learning in the basal ganglia, which enables learning in such an architecture. The model accounts for action-related modulation of dopamine activity that is not captured by previous models that implement on-policy algorithms. In particular, the model predicts that dopamine activity signals a combination of reward prediction error (as in classic models) and "action surprise," a measure of how unexpected an action is relative to the basal ganglia's current policy. In the presence of the action surprise term, the model implements an approximate form of Q-learning. On benchmark navigation and reaching tasks, we show empirically that this model is capable of learning from data driven completely or in part by other policies (e.g. from other brain regions). By contrast, models without the action surprise term suffer in the presence of additional policies, and are incapable of learning at all from behavior that is completely externally driven. The model provides a computational account for numerous experimental findings about dopamine activity that cannot be explained by classic models of reinforcement learning in the basal ganglia. These include differing levels of action surprise signals in dorsal and ventral striatum, decreasing amounts movement-modulated dopamine activity with practice, and representations of action initiation and kinematics in dopamine activity. It also provides further predictions that can be tested with recordings of striatal dopamine activity.
翻訳日:2022-07-05 12:36:06 公開日:2022-07-01
# マルチモーダル言語と画像AIにおける American == White

American == White in Multimodal Language-and-Image AI ( http://arxiv.org/abs/2207.00691v1 )

ライセンス: Link先を確認
Robert Wolfe and Aylin Caliskan(参考訳) CLIP、SLIP、BLIPという最先端の3つのAIモデルが、社会心理学や実験心理学でこれまで観察された偏見の証拠として評価されている。 シカゴ・フェイス・データベース (cfd) の自己同定されたアジア人、黒人、ラテン系、白人のイメージを用いた埋め込み関連テスト (eats) により、白人はアジア系、黒人、ラテン系、またはラテン系よりも集団内の言葉とより関連があることが明らかとなった。 社会心理学者によって報告されたアメリカのアイデンティティの3つの中核的な側面の評価において、単一カテゴリーの食事は、白人のイメージが愛国心やアメリカ生まれとより関連していることを明らかにするが、心理学の以前の発見と一致して、白人の個人は全ての人種や背景の人々を平等に扱う可能性が低いことと関連している。 3つの下流機械学習タスクは、アメリカ人と白人を関連付けるバイアスを示す。 blipを用いた視覚的質問応答タスクでは、白人の97%がアメリカ人であることが判明した。 個人がどの州に住んでいるかを問うと、モデルはアジアの人の53%の時間に中国に反応するが、常に白人の州に反応する。 BLIPは画像キャプションタスクにおいて、アジア人の人種について最大36%の時間で言及するが、白人の人種について言及することはない。 最後に、CFDと合成画像生成装置(VQGAN)からの初期化画像が提供され、CLIPのテキストベースのガイダンスが全人種の皮膚のトーンを明るくする(黒人の35%はピクセルの明るさに基づいている)。 結果は、アメリカのアイデンティティとホワイトを同一視するバイアスは、言語と画像のAIによって学習され、そのようなモデルの下流の応用に伝播していることを示している。

Three state-of-the-art language-and-image AI models, CLIP, SLIP, and BLIP, are evaluated for evidence of a bias previously observed in social and experimental psychology: equating American identity with being White. Embedding association tests (EATs) using standardized images of self-identified Asian, Black, Latina/o, and White individuals from the Chicago Face Database (CFD) reveal that White individuals are more associated with collective in-group words than are Asian, Black, or Latina/o individuals. In assessments of three core aspects of American identity reported by social psychologists, single-category EATs reveal that images of White individuals are more associated with patriotism and with being born in America, but that, consistent with prior findings in psychology, White individuals are associated with being less likely to treat people of all races and backgrounds equally. Three downstream machine learning tasks demonstrate biases associating American with White. In a visual question answering task using BLIP, 97% of White individuals are identified as American, compared to only 3% of Asian individuals. When asked in what state the individual depicted lives in, the model responds China 53% of the time for Asian individuals, but always with an American state for White individuals. In an image captioning task, BLIP remarks upon the race of Asian individuals as much as 36% of the time, but never remarks upon race for White individuals. Finally, provided with an initialization image from the CFD and the text "an American person," a synthetic image generator (VQGAN) using the text-based guidance of CLIP lightens the skin tone of individuals of all races (by 35% for Black individuals, based on pixel brightness). The results indicate that biases equating American identity with being White are learned by language-and-image AI, and propagate to downstream applications of such models.
翻訳日:2022-07-05 12:05:54 公開日:2022-07-01
# dnoized mdps: 世界そのものよりも優れた世界モデルを学ぶ

Denoised MDPs: Learning World Models Better Than the World Itself ( http://arxiv.org/abs/2206.15477v2 )

ライセンス: Link先を確認
Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy Zhang, Yuandong Tian(参考訳) 信号とノイズを分離し、クリーンな抽象化で推論する能力は、知性にとって不可欠である。 この能力により、人間はあらゆるニュアンス要因を考慮せずに、現実世界のタスクを効率的に実行できる。 エージェントはどんな情報を安全にノイズとして捨てられるのか? 本研究は,自然界の情報を,制御可能性と報酬との関係に基づいて4種類に分類し,制御可能かつ報酬関連のある情報として有用な情報を定式化する。 この枠組みは、強化学習(RL)における表現学習における様々な先行研究によって取り除かれた種類情報を明確化し、特定のノイズ障害を明示的に判断する認知型MDPを学習する手法を提案する。 DeepMind Control Suite と RoboDesk の変種に関する大規模な実験は、政策最適化制御タスクだけでなく、関節位置回帰の非制御タスクにおいても、生の観測だけでなく、以前の作業よりも優れた性能を示す。

The ability to separate signal from noise, and reason with clean abstractions, is critical to intelligence. With this ability, humans can efficiently perform real world tasks without considering all possible nuisance factors.How can artificial agents do the same? What kind of information can agents safely discard as noises? In this work, we categorize information out in the wild into four types based on controllability and relation with reward, and formulate useful information as that which is both controllable and reward-relevant. This framework clarifies the kinds information removed by various prior work on representation learning in reinforcement learning (RL), and leads to our proposed approach of learning a Denoised MDP that explicitly factors out certain noise distractors. Extensive experiments on variants of DeepMind Control Suite and RoboDesk demonstrate superior performance of our denoised world model over using raw observations alone, and over prior works, across policy optimization control tasks as well as the non-control task of joint position regression.
翻訳日:2022-07-05 10:22:20 公開日:2022-07-01
# (参考訳) ネストモンテカルロ木探索による量子回路の自動設計

Automated Quantum Circuit Design with Nested Monte Carlo Tree Search ( http://arxiv.org/abs/2207.00132v1 )

ライセンス: CC BY 4.0
Pei-Yong Wang, Muhammad Usman, Udaya Parampalli, Lloyd C. L. Hollenberg and Casey R. Myers(参考訳) 変分法に基づく量子アルゴリズムは、量子解を構成する最も有望な方法の1つであり、ここ数年で無数の応用が発見されている。 適応性と単純さにもかかわらず、スケーラビリティと適切な ans\"atzs の選択は依然として重要な課題である。 本研究では,ネストしたモンテカルロ木探索 (MCTS) に基づくアルゴリズムフレームワークと,量子回路の自動設計のための組合せ型マルチアームバンド (CMAB) モデルについて報告する。 数値実験により, 量子化学における基底エネルギー問題, グラフ上の量子最適化, 線形方程式系の解法, 量子誤り検出符号の符号化回路の発見など, 様々な問題に適用したアルゴリズムを実証した。 既存の手法と比較すると,回路設計アルゴリズムはより大きな探索空間を探索し,より大きなシステムに対して量子回路を最適化し,汎用性と拡張性を示した。

Quantum algorithms based on variational approaches are one of the most promising methods to construct quantum solutions and have found a myriad of applications in the last few years. Despite the adaptability and simplicity, their scalability and the selection of suitable ans\"atzs remain key challenges. In this work, we report an algorithmic framework based on nested Monte-Carlo Tree Search (MCTS) coupled with the combinatorial multi-armed bandit (CMAB) model for the automated design of quantum circuits. Through numerical experiments, we demonstrated our algorithm applied to various kinds of problems, including the ground energy problem in quantum chemistry, quantum optimisation on a graph, solving systems of linear equations, and finding encoding circuit for quantum error detection codes. Compared to the existing approaches, the results indicate that our circuit design algorithm can explore larger search spaces and optimise quantum circuits for larger systems, showing both versatility and scalability.
翻訳日:2022-07-05 02:59:31 公開日:2022-07-01
# (参考訳) 医用画像分割モデルの実用性評価のための利用領域推定

Usable Region Estimate for Assessing Practical Usability of Medical Image Segmentation Models ( http://arxiv.org/abs/2207.00156v1 )

ライセンス: CC BY 4.0
Yizhe Zhang, Suraj Mishra, Peixian Liang, Hao Zheng and Danny Z. Chen(参考訳) 本研究では,医療画像セグメンテーションモデルの実用的ユーザビリティを定量的に測定することを目的としている。 まず、予測者の信頼度がランクの正確度スコアとどのように相関しているかを推定する尺度であるCCRC(Correctness-Confidence Rank correlation)を提案する。 CCRCの値が高いモデルは、その予測信頼度がどのサンプルの予測が正しいかを確実に示唆することを意味する。 CCRCは実際の予測精度を捉えていないため、予測モデルが正確かつ実際に使用可能な信頼性を持つかどうかを示すには不十分である。 そこで本研究では,予測の正確性と信頼度評価の信頼性を同時に定量化する手法として,ユビキタス領域推定(ure)を提案する。 ureはモデルの予測がどの程度使えるかという具体的な情報を提供する。 さらに、使用可能な領域(UR)のサイズをモデルの比較に利用することができる: 大きなURを持つモデルはより使いやすく、より良いモデルとみなすことができる。 6つのデータセットの実験により,提案手法の有効性が検証され,医用画像セグメンテーションモデルの実用性を示す具体的かつ簡潔な尺度が得られた。 コードはhttps://github.com/yizhezhang2000/ureで入手できる。

We aim to quantitatively measure the practical usability of medical image segmentation models: to what extent, how often, and on which samples a model's predictions can be used/trusted. We first propose a measure, Correctness-Confidence Rank Correlation (CCRC), to capture how predictions' confidence estimates correlate with their correctness scores in rank. A model with a high value of CCRC means its prediction confidences reliably suggest which samples' predictions are more likely to be correct. Since CCRC does not capture the actual prediction correctness, it alone is insufficient to indicate whether a prediction model is both accurate and reliable to use in practice. Therefore, we further propose another method, Usable Region Estimate (URE), which simultaneously quantifies predictions' correctness and reliability of confidence assessments in one estimate. URE provides concrete information on to what extent a model's predictions are usable. In addition, the sizes of usable regions (UR) can be utilized to compare models: A model with a larger UR can be taken as a more usable and hence better model. Experiments on six datasets validate that the proposed evaluation methods perform well, providing a concrete and concise measure for the practical usability of medical image segmentation models. Code is made available at https://github.com/yizhezhang2000/ure.
翻訳日:2022-07-05 02:58:32 公開日:2022-07-01
# (参考訳) 微分プライベート学習はいつ高次元に支障をきたさないのか?

When Does Differentially Private Learning Not Suffer in High Dimensions? ( http://arxiv.org/abs/2207.00160v1 )

ライセンス: CC BY 4.0
Xuechen Li, Daogao Liu, Tatsunori Hashimoto, Huseyin A. Inan, Janardhan Kulkarni, Yin Tat Lee, Abhradeep Guha Thakurta(参考訳) 大きな事前訓練されたモデルは、プライベートでないモデルに近づくパフォーマンスを達成するために、プライベートに微調整することができる。 これらの結果に共通するテーマは、高次元モデルが良好なプライバシーとユーティリティのトレードオフを達成できるという驚くべき観察である。 これは、微分プライベートな凸学習のモデルサイズ依存性に関する既知の結果と矛盾しているように見え、以下の研究疑問を提起する。 部分空間に投影される勾配の大きさは、性能を決定する重要な要因である。 プライベート凸学習においてこれを正確に特徴付けるために,リプシッツ連続性を制限した条件を導入し,追加条件下で次元に依存しない過剰な経験的・集団的リスクに対する改善された境界を導出する。 実験により,大規模言語モデルのプライベート微調整において,局所的最適付近で評価された勾配は,主にいくつかの主成分によって制御されることを示した。 この挙動は凸設定で次元独立な境界を得る条件と似ている。 我々の理論的および実証的な結果は、大規模私的微調整における最近の成功の可能性を説明できる。

Large pretrained models can be privately fine-tuned to achieve performance approaching that of non-private models. A common theme in these results is the surprising observation that high-dimensional models can achieve favorable privacy-utility trade-offs. This seemingly contradicts known results on the model-size dependence of differentially private convex learning and raises the following research question: When does the performance of differentially private learning not degrade with increasing model size? We identify that the magnitudes of gradients projected onto subspaces is a key factor that determines performance. To precisely characterize this for private convex learning, we introduce a condition on the objective that we term restricted Lipschitz continuity and derive improved bounds for the excess empirical and population risks that are dimension-independent under additional conditions. We empirically show that in private fine-tuning of large language models, gradients evaluated near a local optimum are mostly controlled by a few principal components. This behavior is similar to conditions under which we obtain dimension-independent bounds in convex settings. Our theoretical and empirical results together provide a possible explanation for recent successes in large-scale private fine-tuning.
翻訳日:2022-07-05 02:46:55 公開日:2022-07-01
# (参考訳) フリーハンド3次元超音波再構成のためのディープモーションネットワーク

Deep Motion Network for Freehand 3D Ultrasound Reconstruction ( http://arxiv.org/abs/2207.00177v1 )

ライセンス: CC BY 4.0
Mingyuan Luo, Xin Yang, Hongzhang Wang, Liwei Du, Dong Ni(参考訳) フリーハンド3D超音波(US)は,低コストで視野が制限されないため,重要な臨床的価値を有する。 近年、ディープラーニングアルゴリズムは、大きくて高価な外部位置決め装置への依存を取り除いている。 しかし,高次変位推定の難易度と大きな累積ドリフトにより,復元精度の向上はいまだに阻害されている。 本研究では,画像と慣性計測ユニット(IMU)と呼ばれる軽量センサを統合した新しいディープモーションネットワーク(MoNet)を提案する。 私たちの貢献は2倍です。 まず, imu加速度を初めて導入し, 面外における標高変位を推定する。 本稿では,低信号-雑音比(SNR)加速度の貴重な情報をマイニングするための時間的・多分岐構造を提案する。 第2に, imu情報を弱いラベルとして活用し, ドリフト誤差を低減し, 加速度騒音の影響をさらに改善するマルチモーダルオンライン自己監視戦略を提案する。 実験の結果, 提案手法は, 最新の手法を上回って, 優れた復元性能を達成できることが判明した。

Freehand 3D ultrasound (US) has important clinical value due to its low cost and unrestricted field of view. Recently deep learning algorithms have removed its dependence on bulky and expensive external positioning devices. However, improving reconstruction accuracy is still hampered by difficult elevational displacement estimation and large cumulative drift. In this context, we propose a novel deep motion network (MoNet) that integrates images and a lightweight sensor known as the inertial measurement unit (IMU) from a velocity perspective to alleviate the obstacles mentioned above. Our contribution is two-fold. First, we introduce IMU acceleration for the first time to estimate elevational displacements outside the plane. We propose a temporal and multi-branch structure to mine the valuable information of low signal-to-noise ratio (SNR) acceleration. Second, we propose a multi-modal online self-supervised strategy that leverages IMU information as weak labels for adaptive optimization to reduce drift errors and further ameliorate the impacts of acceleration noise. Experiments show that our proposed method achieves the superior reconstruction performance, exceeding state-of-the-art methods across the board.
翻訳日:2022-07-05 02:16:35 公開日:2022-07-01
# (参考訳) MMFN:エンドツーエンド運転のためのマルチモーダルフュージョンネット

MMFN: Multi-Modal-Fusion-Net for End-to-End Driving ( http://arxiv.org/abs/2207.00186v1 )

ライセンス: CC BY 4.0
Qingwen Zhang, Mingkai Tang, Ruoyu Geng, Feiyi Chen, Ren Xin, Lujia Wang(参考訳) 人間は様々な感覚器官を使って世界を知覚しているという事実に触発され、さまざまなモダリティを持つセンサーがエンドツーエンドの運転に展開され、3Dシーンのグローバルなコンテキストが得られます。 以前の研究では、カメラとLiDARの入力はトランスフォーマーを通して融合され、運転性能が向上した。 これらの入力は通常、ナビゲーションタスクを補助する高レベルマップ情報として解釈される。 しかし、複雑な地図入力から有用な情報を抽出することは困難であり、冗長な情報はエージェントを誤解させ、運転性能に悪影響を及ぼす可能性がある。 本稿では,ベクトル化ハイディフィニション(HD)マップから特徴を効率的に抽出し,エンドツーエンドの運転タスクで活用する手法を提案する。 さらに,マルチロードルールを考慮し,モデル性能をさらに向上する新たな専門家を設計する。 実験の結果,提案手法の両改良により,他の手法と比較して優れた性能が得られた。

Inspired by the fact that humans use diverse sensory organs to perceive the world, sensors with different modalities are deployed in end-to-end driving to obtain the global context of the 3D scene. In previous works, camera and LiDAR inputs are fused through transformers for better driving performance. These inputs are normally further interpreted as high-level map information to assist navigation tasks. Nevertheless, extracting useful information from the complex map input is challenging, for redundant information may mislead the agent and negatively affect driving performance. We propose a novel approach to efficiently extract features from vectorized High-Definition (HD) maps and utilize them in the end-to-end driving tasks. In addition, we design a new expert to further enhance the model performance by considering multi-road rules. Experimental results prove that both of the proposed improvements enable our agent to achieve superior performance compared with other methods.
翻訳日:2022-07-05 02:09:14 公開日:2022-07-01
# (参考訳) 自動運転車の知覚メカニズム改善のためのシミュレーション技術を用いたデータ生成

Data generation using simulation technology to improve perception mechanism of autonomous vehicles ( http://arxiv.org/abs/2207.00191v1 )

ライセンス: CC BY 4.0
Minh Cao, Ramin Ramezani(参考訳) コンピュータグラフィックス技術の進歩により、自動車運転環境のより現実的なレンダリングが可能になる。 彼らは、DeepGTA-VやCARLA(Car Learning to Act)といった自動運転車シミュレーターを利用して、既存の現実世界のデータセットを補完する大量の合成データを生成する。 さらに、自動運転車シミュレーターは環境を完全に制御できるため、悪天候や事故シナリオのような現実のデータセットに欠けている危険な運転シナリオを生成することができる。 本稿では,実世界から収集したデータと模擬世界から生成したデータを組み合わせることで,物体検出および局所化タスクにおける認識システムを訓練する効果を実証する。 また,単純なタスクからより難しいタスクまで,特定の領域で一連のタスクを学習する人間学習体験をエミュレートすることを目的とした,多レベルディープラーニング知覚フレームワークを提案する。 自動運転車のパーセプトロンは、簡単に運転できるシナリオから、シミュレーションソフトウェアでカスタマイズされたより難しいシナリオまで、学習することができる。

Recent advancements in computer graphics technology allow more realistic ren-dering of car driving environments. They have enabled self-driving car simulators such as DeepGTA-V and CARLA (Car Learning to Act) to generate large amounts of synthetic data that can complement the existing real-world dataset in training autonomous car perception. Furthermore, since self-driving car simulators allow full control of the environment, they can generate dangerous driving scenarios that the real-world dataset lacks such as bad weather and accident scenarios. In this paper, we will demonstrate the effectiveness of combining data gathered from the real world with data generated in the simulated world to train perception systems on object detection and localization task. We will also propose a multi-level deep learning perception framework that aims to emulate a human learning experience in which a series of tasks from the simple to more difficult ones are learned in a certain domain. The autonomous car perceptron can learn from easy-to-drive scenarios to more challenging ones customized by simulation software.
翻訳日:2022-07-05 01:53:23 公開日:2022-07-01
# (参考訳) VL-CheckList: 対象,属性,関係を考慮した事前学習型視覚言語モデルの評価

VL-CheckList: Evaluating Pre-trained Vision-Language Models with Objects, Attributes and Relations ( http://arxiv.org/abs/2207.00221v1 )

ライセンス: CC BY 4.0
Tiancheng Zhao, Tianqi Zhang, Mingwei Zhu, Haozhan Shen, Kyusong Lee, Xiaopeng Lu, Jianwei Yin(参考訳) vision-language pretraining(vlp)モデルは、最近多くのクロスモーダルダウンストリームタスクをうまく促進しました。 既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。 しかしながら、平均ダウンストリームタスク精度だけが、それぞれのVLPメソッドの長所と短所についてはほとんど情報を提供していない。 自然言語処理をテストするためのCheckListにヒントを得て,VLPモデルの能力を理解する新しいフレームワークであるVL-CheckListを紹介した。 提案手法は,VLPモデルの画像テキスト化能力をオブジェクト,属性,関係の3つのカテゴリに分割し,これら3つの側面をさらに分解するために新しい分類法を用いる。 提案手法を用いて,最近普及している7つのVLPモデルの解析を行う。 提案手法の有効性は,下流のタスクのみの評価では見えなかった比較モデル間でのきめ細かい相違を明らかにすることで検証した。 さらなる結果は、より良いVLPモデルを構築するための有望な研究方向を示す。 データとコード:https://github.com/om-ai-lab/VL-CheckList

Vision-Language Pretraining (VLP) models have recently successfully facilitated many cross-modal downstream tasks. Most existing works evaluated their systems by comparing the fine-tuned downstream task performance. However, only average downstream task accuracy provides little information about the pros and cons of each VLP method, let alone provides insights on how the community can improve the systems in the future. Inspired by the CheckList for testing natural language processing, we introduce VL-CheckList, a novel framework to understand the capabilities of VLP models. The proposed method divides the image-texting ability of a VLP model into three categories: objects, attributes, and relations, and uses a novel taxonomy to further break down these three aspects. We conduct comprehensive studies to analyze seven recently popular VLP models via the proposed framework. Results confirm the effectiveness of the proposed method by revealing fine-grained differences among the compared models that were not visible from downstream task-only evaluation. Further results show promising research direction in building better VLP models. Data and Code: https://github.com/om-ai-lab/VL-CheckList
翻訳日:2022-07-05 01:43:56 公開日:2022-07-01
# (参考訳) 分割学習における精度,通信効率,データのプライバシ向上を実現するVisual Transformer

Visual Transformer Meets CutMix for Improved Accuracy, Communication Efficiency, and Data Privacy in Split Learning ( http://arxiv.org/abs/2207.00234v1 )

ライセンス: CC BY 4.0
Sihun Baek, Jihong Park, Praneeth Vepakomma, Ramesh Raskar, Mehdi Bennis, Seong-Lyun Kim(参考訳) この記事では、visual transformer (vit)アーキテクチャのための分散学習ソリューションを求めます。 畳み込みニューラルネットワーク(CNN)アーキテクチャと比較すると、ViTはモデルサイズが大きく、計算コストが高く、フェデレーション学習(FL)が不適当であることが多い。 スプリットラーニング(SL)は、モデルを分割し、スマッシュデータとしても知られる分割層で隠された表現を伝達することで、この問題を回避できる。 それでも、ViTのスマッシュデータは入力データと同等の大きさであり、データのプライバシーを侵害しながらSLの通信効率を低下させる。 これらの問題を解決するために,従来のスマッシュデータをランダムに打ち込んで圧縮することで,CutSmashedデータの新しい形式を提案する。 そこで我々は,CutSmashed データを通信する新しい ViT SL フレームワークである CutMixSL を開発した。 CutMixSLは通信コストとプライバシの漏洩を減らすだけでなく、本質的にはCutMixのデータ拡張、精度の向上とスケーラビリティも伴っている。 CutMixSL は SL と SL を統合した並列化 SL や SplitFed などのベースラインよりも優れていた。

This article seeks for a distributed learning solution for the visual transformer (ViT) architectures. Compared to convolutional neural network (CNN) architectures, ViTs often have larger model sizes, and are computationally expensive, making federated learning (FL) ill-suited. Split learning (SL) can detour this problem by splitting a model and communicating the hidden representations at the split-layer, also known as smashed data. Notwithstanding, the smashed data of ViT are as large as and as similar as the input data, negating the communication efficiency of SL while violating data privacy. To resolve these issues, we propose a new form of CutSmashed data by randomly punching and compressing the original smashed data. Leveraging this, we develop a novel SL framework for ViT, coined CutMixSL, communicating CutSmashed data. CutMixSL not only reduces communication costs and privacy leakage, but also inherently involves the CutMix data augmentation, improving accuracy and scalability. Simulations corroborate that CutMixSL outperforms baselines such as parallelized SL and SplitFed that integrates FL with SL.
翻訳日:2022-07-05 01:28:55 公開日:2022-07-01
# (参考訳) 属性推論支援による結核診断支援

Computer-aided Tuberculosis Diagnosis with Attribute Reasoning Assistance ( http://arxiv.org/abs/2207.00251v1 )

ライセンス: CC BY 4.0
Chengwei Pan, Gangming Zhao, Junjie Fang, Baolian Qi, Jiaheng Liu, Chaowei Fang, Dingwen Zhang, Jinpeng Li, and Yizhou Yu(参考訳) 深層学習アルゴリズムはコンピュータ支援結核診断(CTD)のために開発されているが、主に注意深い注釈付きデータセットに依存しており、多くの時間とリソース消費をもたらす。 粗粒度ラベルを利用してきめ細かなタスクを達成するweakly supervised learning (wsl)は、この問題を解決できる可能性がある。 本稿では,まず,結核胸部X線属性データセット(TBX-Att)の大規模胸部X線データセットを提案するとともに,属性情報を利用して属性情報の分類とローカライズを行うための属性支援弱監視フレームワークを構築し,WSLシナリオにおける監視の欠如を克服する。 具体的には、tbx-attデータセットには2000のx線画像が含まれており、tb関係推論には7種類の属性がある。 また、TBX11Kデータセットと11200のX線画像が含まれており、弱い教師付き検出を容易にする。 第2に,属性関係推論を用いたtb領域の分類と検出にマルチスケール特徴間相互作用モデルを利用する。 提案モデルはTBX-Attデータセットで評価され,今後の研究の基盤となる。 コードとデータはhttps://github.com/gangmingzhao/tb-attribute-weak-localizationで入手できる。

Although deep learning algorithms have been intensively developed for computer-aided tuberculosis diagnosis (CTD), they mainly depend on carefully annotated datasets, leading to much time and resource consumption. Weakly supervised learning (WSL), which leverages coarse-grained labels to accomplish fine-grained tasks, has the potential to solve this problem. In this paper, we first propose a new large-scale tuberculosis (TB) chest X-ray dataset, namely the tuberculosis chest X-ray attribute dataset (TBX-Att), and then establish an attribute-assisted weakly-supervised framework to classify and localize TB by leveraging the attribute information to overcome the insufficiency of supervision in WSL scenarios. Specifically, first, the TBX-Att dataset contains 2000 X-ray images with seven kinds of attributes for TB relational reasoning, which are annotated by experienced radiologists. It also includes the public TBX11K dataset with 11200 X-ray images to facilitate weakly supervised detection. Second, we exploit a multi-scale feature interaction model for TB area classification and detection with attribute relational reasoning. The proposed model is evaluated on the TBX-Att dataset and will serve as a solid baseline for future research. The code and data will be available at https://github.com/GangmingZhao/tb-attribute-weak-localization.
翻訳日:2022-07-05 01:10:06 公開日:2022-07-01
# (参考訳) D'WAVE量子アニールの挙動解析 : 微調整パラメータ化と制限的ハミルトン式による試験

Analyzing the behaviour of D'WAVE quantum annealer: fine-tuning parameterization and tests with restrictive Hamiltonian formulations ( http://arxiv.org/abs/2207.00253v1 )

ライセンス: CC BY 4.0
Esther Villar-Rodriguez, Eneko Osaba and Izaskun Oregi(参考訳) 計算の次のフロンティアと見なされているにもかかわらず、量子コンピューティングはまだ開発の初期段階にある。 実際、現在の商用量子コンピュータは、ノイズプロセスや限られた量の量子ビットなど、量子アルゴリズムの性能に影響を与えるいくつかの重要な制約に苦しんでいる。 これらの制限にもかかわらず、研究者はこれらのノイズのある中間量子(NISQ)デバイスを効率的に使用するための様々なフレームワークの提案に多くの努力を払ってきた。 これらの手順の1つは、D'WAVE Systemsの量子アニールであり、エネルギー最小化問題に変換することで最適化問題を解くのに使用できる。 この文脈では、実世界の組合せ最適化問題に対処する際の量子アニールの挙動に関する有用な洞察と情報を提供することに焦点を当てている。 この研究の主な動機は、専門家でないステークホルダーに量子コンピューティングのフロンティアを開くことです。 この目的のために,パラメータに敏感な解析という形で,広範な実験を行う。 この実験は、トラベルセールスマン問題をベンチマーク問題として使用し、最先端とヒューリスティック生成の2つのquboを採用した。 我々の分析は1つの7ノードインスタンスで行われており、200以上のパラメータ構成に基づいており、3700以上のユニタリランと700万の量子読み取りで構成されている。 この研究により、エネルギー分布と最も適切なパラメータ設定に関する知見が得られた。 最後に、さらなるTSPインスタンスにおいて、ヒューリスティックに構築されたQUBOの効率性を決定するために、さらなる研究が行われた。

Despite being considered as the next frontier in computation, Quantum Computing is still in an early stage of development. Indeed, current commercial quantum computers suffer from some critical restraints, such as noisy processes and a limited amount of qubits, among others, that affect the performance of quantum algorithms. Despite these limitations, researchers have devoted much effort to propose different frameworks for efficiently using these Noisy Intermediate-Scale Quantum (NISQ) devices. One of these procedures is D'WAVE Systems' quantum-annealer, which can be use to solve optimization problems by translating them into an energy minimization problem. In this context, this work is focused on providing useful insights and information into the behaviour of the quantum-annealer when addressing real-world combinatorial optimization problems. Our main motivation with this study is to open some quantum computing frontiers to non-expert stakeholders. To this end, we perform an extensive experimentation, in the form of a parameter sensitive analysis. This experimentation has been conducted using the Traveling Salesman Problem as benchmarking problem, and adopting two QUBOs: state-of-the-art and a heuristically generated. Our analysis has been performed on a single 7-noded instance, and it is based on more than 200 different parameter configurations, comprising more than 3700 unitary runs and 7 million of quantum reads. Thanks to this study, findings related to the energy distribution and most appropriate parameter settings have been obtained. Finally, an additional study has been performed, aiming to determine the efficiency of the heuristically built QUBO in further TSP instances.
翻訳日:2022-07-05 01:00:00 公開日:2022-07-01
# (参考訳) 時間グラフ上の軌道予測

Trajectory Forecasting on Temporal Graphs ( http://arxiv.org/abs/2207.00255v1 )

ライセンス: CC BY 4.0
G\"orkay Aydemir, Adil Kaan Akan, Fatma G\"uney(参考訳) 現場におけるエージェントの将来の位置を予測することは、自動運転において重要な問題である。 近年では、シーンとその中のエージェントの表現が著しく進歩している。 エージェントとシーンの相互作用は、通常、グラフニューラルネットワークでモデル化される。 しかし、グラフ構造はほとんど静的であり、非常にダイナミックなシーンにおける時間的変化を表現できない。 本研究では,トラヒックシーンのダイナミクスをよりよく捉えるための時間グラフ表現を提案する。 我々は2種類のメモリモジュールで表現を補完する。1つは関心のエージェントに焦点を当て、もう1つはシーン全体に焦点を当てる。 これにより、複数の未来を単純に回帰しても良い結果が得られる時間認識表現を学習できます。 目標条件付き予測と組み合わせると、Argoverseベンチマークの最先端性能に到達できるより良い結果を示す。

Predicting future locations of agents in the scene is an important problem in self-driving. In recent years, there has been a significant progress in representing the scene and the agents in it. The interactions of agents with the scene and with each other are typically modeled with a Graph Neural Network. However, the graph structure is mostly static and fails to represent the temporal changes in highly dynamic scenes. In this work, we propose a temporal graph representation to better capture the dynamics in traffic scenes. We complement our representation with two types of memory modules; one focusing on the agent of interest and the other on the entire scene. This allows us to learn temporally-aware representations that can achieve good results even with simple regression of multiple futures. When combined with goal-conditioned prediction, we show better results that can reach the state-of-the-art performance on the Argoverse benchmark.
翻訳日:2022-07-05 00:45:28 公開日:2022-07-01
# (参考訳) 教師なし高分解能画像画像補正とアニメーション

Unsupervised High-Resolution Portrait Gaze Correction and Animation ( http://arxiv.org/abs/2207.00256v1 )

ライセンス: CC BY 4.0
Jichao Zhang, Jingjing Chen, Hao Tang, Enver Sangineto, Peng Wu, Yan Yan, Nicu Sebe, Wei Wang(参考訳) 本稿では,視線角や頭部ポーズのアノテーションを伴わない高分解能無拘束ポートレート画像の視線補正とアニメーション手法を提案する。 一般的な視線補正法は、通常、正確な視線でアノテートトレーニングデータとヘッドポーズ情報を必要とする。 教師なしの方法でこの問題を解決することは、特に野生の高解像度の顔画像では未解決の問題であり、視線や頭ポーズラベルで注釈を付けるのは容易ではない。 この問題を解決するために、まずCelebGazeと高解像度CelebHQGazeという2つの新しいポートレートデータセットを作成します。 次に、注視補正タスクを、注視補正モジュール(gcm)と注視アニメーションモジュール(gam)を用いて対応づけた画像塗装問題として定式化する。 さらに,眼球領域の特徴と視線角度の相関を学習するために,教師なしのトレーニング戦略,すなわち合成・アズ・トレーニングを提案する。 その結果、この空間における意味的補間を伴う視線アニメーションに学習された潜在空間を用いることができる。 さらに、トレーニングと推論段階におけるメモリと計算コストの両面を緩和するために、GCMとGAMを統合したCFM(Coarse-to-Fine Module)を提案する。 広汎な実験により、野生の低解像度・高解像度の顔データセットにおける視線補正と視線アニメーションの両タスクの有効性を検証し、その方法の芸術的状況に対する優位性を実証した。 コードはhttps://github.com/zhangqianhui/gazeanimationv2で入手できる。

This paper proposes a gaze correction and animation method for high-resolution, unconstrained portrait images, which can be trained without the gaze angle and the head pose annotations. Common gaze-correction methods usually require annotating training data with precise gaze, and head pose information. Solving this problem using an unsupervised method remains an open problem, especially for high-resolution face images in the wild, which are not easy to annotate with gaze and head pose labels. To address this issue, we first create two new portrait datasets: CelebGaze and high-resolution CelebHQGaze. Second, we formulate the gaze correction task as an image inpainting problem, addressed using a Gaze Correction Module (GCM) and a Gaze Animation Module (GAM). Moreover, we propose an unsupervised training strategy, i.e., Synthesis-As-Training, to learn the correlation between the eye region features and the gaze angle. As a result, we can use the learned latent space for gaze animation with semantic interpolation in this space. Moreover, to alleviate both the memory and the computational costs in the training and the inference stage, we propose a Coarse-to-Fine Module (CFM) integrated with GCM and GAM. Extensive experiments validate the effectiveness of our method for both the gaze correction and the gaze animation tasks in both low and high-resolution face datasets in the wild and demonstrate the superiority of our method with respect to the state of the arts. Code is available at https://github.com/zhangqianhui/GazeAnimationV2
翻訳日:2022-07-05 00:29:59 公開日:2022-07-01
# (参考訳) CT画像からの転写学習アプローチを用いたCovid-19の検出

Covid-19 detection using transfer learning approach from computed temography images ( http://arxiv.org/abs/2207.00259v1 )

ライセンス: CC BY 4.0
Kenan Mornai, Muhammet Fatih Balikci, Tayfun Yigit Altuntas, Devrim Unay(参考訳) 本研究の主な目的は,CT画像からのCOVID-19検出のためのトランスファー学習手法を提案することである。 タスクに使用するトランスファー学習モデルは、事前学習されたxceptionモデルである。 モデルアーキテクチャとImageNetのトレーニング済み重量の両方が使用された。 その結果得られた修正モデルは、128バッチサイズと224x224, 3チャネル入力イメージでトレーニングされ、元の512x512のグレースケールイメージから変換された。 使用されるデータセットはCOV19-CT-DBである。 データセットのラベルには、covid-19のケースと、covid-19検出のための非covid-19ケースが含まれている。 まず,提案手法の性能評価のために,データセットの検証分割における精度と損失,および精度のリコールとマクロF1スコアを用いた。 検証セットのマクロF1スコアはベースラインモデルを上回った。

Our main goal in this study is to propose a transfer learning based method for COVID-19 detection from Computed Tomography (CT) images. The transfer learning model used for the task is a pretrained Xception model. Both model architecture and pre-trained weights on ImageNet were used. The resulting modified model was trained with 128 batch size and 224x224, 3 channeled input images, converted from original 512x512, grayscale images. The dataset used is a the COV19-CT-DB. Labels in the dataset include COVID-19 cases and Non-COVID-19 cases for COVID-1919 detection. Firstly, a accuracy and loss on the validation partition of the dataset as well as precision recall and macro F1 score were used to measure the performance of the proposed method. The resulting Macro F1 score on the validation set exceeded the baseline model.
翻訳日:2022-07-05 00:05:58 公開日:2022-07-01
# (参考訳) 2ビュー6次元オブジェクトポス推定に向けて:核融合戦略の比較研究

Towards Two-view 6D Object Pose Estimation: A Comparative Study on Fusion Strategy ( http://arxiv.org/abs/2207.00260v1 )

ライセンス: CC BY 4.0
Jun Wu, Lilu Liu, Yue Wang, Rong Xiong(参考訳) 現在のRGBベースの6Dオブジェクトポーズ推定手法は、データセットや実世界のアプリケーションで顕著なパフォーマンスを達成した。 しかし、単一の2次元画像特徴からの6次元ポーズの予測は、環境やテクスチャや類似した物体表面の変化による乱れの影響を受けやすい。 したがって、RGBベースの手法は、画像特徴と3D構造特徴の両方をデプロイするRGBDベースの手法よりも、競争力の低い結果が得られる。 本稿では,2枚のRGB画像から暗黙的な3D情報を学習する6次元オブジェクトポーズ推定フレームワークを提案する。 学習した3次元情報と2次元画像の特徴を組み合わせることで、シーンとオブジェクトモデルとのより安定した対応を確立する。 RGB入力から3D情報を最適に活用する手法を探るため,早期融合,中期融合,後期融合の3つのアプローチについて検討する。 オブジェクトのポーズ推定に有用な最も正確な3Dキーポイントを復元するには,中核融合のアプローチが最適であることを確認した。 実験の結果,本手法は最先端のRGB法よりも優れており,RGBD法と同等の結果が得られることがわかった。

Current RGB-based 6D object pose estimation methods have achieved noticeable performance on datasets and real world applications. However, predicting 6D pose from single 2D image features is susceptible to disturbance from changing of environment and textureless or resemblant object surfaces. Hence, RGB-based methods generally achieve less competitive results than RGBD-based methods, which deploy both image features and 3D structure features. To narrow down this performance gap, this paper proposes a framework for 6D object pose estimation that learns implicit 3D information from 2 RGB images. Combining the learned 3D information and 2D image features, we establish more stable correspondence between the scene and the object models. To seek for the methods best utilizing 3D information from RGB inputs, we conduct an investigation on three different approaches, including Early- Fusion, Mid-Fusion, and Late-Fusion. We ascertain the Mid- Fusion approach is the best approach to restore the most precise 3D keypoints useful for object pose estimation. The experiments show that our method outperforms state-of-the-art RGB-based methods, and achieves comparable results with RGBD-based methods.
翻訳日:2022-07-05 00:01:10 公開日:2022-07-01
# (参考訳) フェデレーション・ジェネレーション・ジェネラル・ネットワークの学習性能に及ぼす同型暗号化の影響

Effect of Homomorphic Encryption on the Performance of Training Federated Learning Generative Adversarial Networks ( http://arxiv.org/abs/2207.00263v1 )

ライセンス: CC BY 4.0
Ignjat Pejic, Rui Wang, and Kaitai Liang(参考訳) generative adversarial network(gan)は、機械学習(ml)分野のディープラーニング生成モデルであり、大きなデータセットを使用して2つのニューラルネットワーク(nn)をトレーニングする。 医学などの特定の分野では、トレーニングデータは病院の患者の記録であり、異なる病院にまたがって保存される。 古典的な集中型アプローチでは、モデルをトレーニングする集中型サーバにデータを送信する必要がある。 しかし、それは患者とそのデータのプライバシーと機密性を侵害することであり、それは容認できない。 したがって、データがホストデバイスを離れることなく分散環境でmlモデルをトレーニングするmlテクニックであるfederated learning(fl)は、集中型オプションよりも優れた選択肢となるでしょう。 このML手法では、パラメータと特定のメタデータだけが通信される。 それにもかかわらず、パラメータとメタデータを使用してユーザデータを推測できるアタックが存在する。 完全なプライバシ保護ソリューションは、通信されたデータの同型暗号化(HE)を含む。 本稿では,PHE (Partial Homomorphic Encryption) ,Somewhat Homomorphic Encryption (SHE) ,FHE (Fully Homomorphic Encryption) の3つの異なるタイプのFL-GANのトレーニング性能損失に着目した。 また,準同型性を持つマルチパーティ計算(mpc)の性能損失についても検証する。 パフォーマンスは、FL-GANを暗号化なしでトレーニングするパフォーマンスと比較される。 私たちの実験では、暗号化方法が複雑であればあるほど、時間がかかるほど、flのベースケースと比較して、彼にとってかなりの時間を要することが示されています。

A Generative Adversarial Network (GAN) is a deep-learning generative model in the field of Machine Learning (ML) that involves training two Neural Networks (NN) using a sizable data set. In certain fields, such as medicine, the training data may be hospital patient records that are stored across different hospitals. The classic centralized approach would involve sending the data to a centralized server where the model would be trained. However, that would involve breaching the privacy and confidentiality of the patients and their data, which would be unacceptable. Therefore, Federated Learning (FL), an ML technique that trains ML models in a distributed setting without data ever leaving the host device, would be a better alternative to the centralized option. In this ML technique, only parameters and certain metadata would be communicated. In spite of that, there still exist attacks that can infer user data using the parameters and metadata. A fully privacy-preserving solution involves homomorphically encrypting (HE) the data communicated. This paper will focus on the performance loss of training an FL-GAN with three different types of Homomorphic Encryption: Partial Homomorphic Encryption (PHE), Somewhat Homomorphic Encryption (SHE), and Fully Homomorphic Encryption (FHE). We will also test the performance loss of Multi-Party Computations (MPC), as it has homomorphic properties. The performances will be compared to the performance of training an FL-GAN without encryption as well. Our experiments show that the more complex the encryption method is, the longer it takes, with the extra time taken for HE is quite significant in comparison to the base case of FL.
翻訳日:2022-07-04 23:41:06 公開日:2022-07-01
# (参考訳) テキストベースシミュレーション環境のための外部知識データベースによる余裕抽出

Affordance Extraction with an External Knowledge Database for Text-Based Simulated Environments ( http://arxiv.org/abs/2207.00265v1 )

ライセンス: CC BY 4.0
P. Gelhausen, M. Fischer, G. Peters(参考訳) テキストベースのシミュレーション環境は、機械学習アプローチの有効なテストベッドであることが証明されている。 このような環境内で相互作用するための可能なアクションを生成するために、アフォーアンス抽出のプロセスが使用できる。 本稿では,外的知識データベース(特にconceptnet)を用いたアフォーマンス抽出における能力と課題について検討する。 インタラクティブフィクション (if) プラットフォームであるtextworld と jericho 上で,自動アプライアンス抽出アルゴリズムを導入し,評価した。 このため、収集した金額はIFエージェントのテキストコマンドに変換される。 自動評価プロセスの品質を調査するために、追加のヒトベースライン研究を行う。 論文は、いくつかの課題にもかかわらず、外部データベースは原則としてアフォーマンス抽出に使用できることを説明している。 論文はプロセスをさらに修正し改善するための推奨事項で締めくくっている。

Text-based simulated environments have proven to be a valid testbed for machine learning approaches. The process of affordance extraction can be used to generate possible actions for interaction within such an environment. In this paper the capabilities and challenges for utilizing external knowledge databases (in particular ConceptNet) in the process of affordance extraction are studied. An algorithm for automated affordance extraction is introduced and evaluated on the Interactive Fiction (IF) platforms TextWorld and Jericho. For this purpose, the collected affordances are translated into text commands for IF agents. To probe the quality of the automated evaluation process, an additional human baseline study is conducted. The paper illustrates that, despite some challenges, external databases can in principle be used for affordance extraction. The paper concludes with recommendations for further modification and improvement of the process.
翻訳日:2022-07-04 23:27:10 公開日:2022-07-01
# (参考訳) 局所多様体学習とそのドメインベース物理知識への応用

Local manifold learning and its link to domain-based physics knowledge ( http://arxiv.org/abs/2207.00275v1 )

ライセンス: CC BY 4.0
Kamila Zdyba{\l}, Giuseppe D'Alessio, Antonio Attili, Axel Coussement, James C. Sutherland, Alessandro Parente(参考訳) 多くの反応系では、熱化学状態空間は低次元多様体(LDM)に近く進化すると考えられている。 これらの多様体を得るための様々なアプローチがあり、その後パラメータ化変数の少ない元の高次元空間を表現できる。 主成分分析(PCA)は、LCMを得るのに使用できる次元削減手法の1つである。 pcaはパラメータ化変数について事前の仮定をせず、トレーニングデータから経験的に取得する。 本稿では,局所的データクラスタ(ローカルPCA)に適用されたPCAが,熱化学状態空間の固有パラメータ化を検出することができることを示す。 まず, バーク・シューマンモデル, 化学平衡モデル, 均質反応器の3つの共通燃焼モデルを用いることを実証した。 これらのモデルのパラメータ化は、ローカルPCAアプローチによるベンチマークを可能にするプリオリとして知られている。 さらに, パラメータ化がもはや明らかでない乱流非混合n$-heptane/air jet flameのより困難な場合に, 局所pcaの適用をさらに拡張する。 その結果,より複雑なデータセットにおいても有意義なパラメータ化が得られることが示唆された。 局所PCAは, 局所化学量, 反応進行, すす生成過程に関連付けられる変数を同定する。

In many reacting flow systems, the thermo-chemical state-space is known or assumed to evolve close to a low-dimensional manifold (LDM). Various approaches are available to obtain those manifolds and subsequently express the original high-dimensional space with fewer parameterizing variables. Principal component analysis (PCA) is one of the dimensionality reduction methods that can be used to obtain LDMs. PCA does not make prior assumptions about the parameterizing variables and retrieves them empirically from the training data. In this paper, we show that PCA applied in local clusters of data (local PCA) is capable of detecting the intrinsic parameterization of the thermo-chemical state-space. We first demonstrate that utilizing three common combustion models of varying complexity: the Burke-Schumann model, the chemical equilibrium model and the homogeneous reactor. Parameterization of these models is known a priori which allows for benchmarking with the local PCA approach. We further extend the application of local PCA to a more challenging case of a turbulent non-premixed $n$-heptane/air jet flame for which the parameterization is no longer obvious. Our results suggest that meaningful parameterization can be obtained also for more complex datasets. We show that local PCA finds variables that can be linked to local stoichiometry, reaction progress and soot formation processes.
翻訳日:2022-07-04 23:08:53 公開日:2022-07-01
# (参考訳) badhash:クリーンラベルによるディープハッシュに対する見えないバックドア攻撃

BadHash: Invisible Backdoor Attacks against Deep Hashing with Clean Label ( http://arxiv.org/abs/2207.00278v1 )

ライセンス: CC BY 4.0
Shengshan Hu, Ziqi Zhou, Yechao Zhang, Leo Yu Zhang, Yifeng Zheng, Yuanyuan HE, Hai Jin(参考訳) 強力な特徴学習能力と高効率のため、ディープハッシュは大規模な画像検索において大きな成功を収めた。 一方で、ディープニューラルネットワーク(dnn)は敵の例に影響を受けやすく、ディープハッシュに対する敵意攻撃を探求する多くの研究成果が寄せられている。 それでも、DNNに対するもう一つの有名な脅威であるバックドア攻撃はまだ研究されていない。 画像分類の分野では様々なバックドア攻撃が提案されているが、既存のアプローチでは、目に見えないトリガーとクリーンなラベル設定を同時に享受する真に無意味なバックドア攻撃を実現することができず、画像検索バックドアの本質的な要求を満たすことができない。 本稿では,BadHashを提案する。このBadHashは,隠れハッシュに対する最初の生成不能なバックドア攻撃であり,クリーンなラベルで,目に見えない,入力特有の有毒なイメージを効果的に生成することができる。 具体的には, 有毒試料を効果的に生成する新しい条件付き生成逆ネットワーク(cgan)パイプラインを提案する。 どんな良質な画像でも、ユニークな目に見えないトリガーで自然に毒を盛った画像を生成する。 攻撃効果を向上させるために,ラベルベースのコントラスト学習ネットワークlabclnを導入して,異なるラベルの意味的特徴を活用し,ターゲットモデルを混乱させ誤解させ,組込みトリガーを学習させる。 最終的に、ハッシュ空間における画像検索に対するバックドア攻撃のメカニズムを探求する。 複数のベンチマークデータセットでの広範な実験により、badhashが最先端のディープハッシュスキームよりも強力な攻撃能力と転送性を持つ、不可避な有毒なサンプルを生成できることが確認された。 第一主題領域:[参加]マルチメディア検索と推薦

Due to its powerful feature learning capability and high efficiency, deep hashing has achieved great success in large-scale image retrieval. Meanwhile, extensive works have demonstrated that deep neural networks (DNNs) are susceptible to adversarial examples, and exploring adversarial attack against deep hashing has attracted many research efforts. Nevertheless, backdoor attack, another famous threat to DNNs, has not been studied for deep hashing yet. Although various backdoor attacks have been proposed in the field of image classification, existing approaches failed to realize a truly imperceptive backdoor attack that enjoys invisible triggers and clean label setting simultaneously, and they also cannot meet the intrinsic demand of image retrieval backdoor. In this paper, we propose BadHash, the first generative-based imperceptible backdoor attack against deep hashing, which can effectively generate invisible and input-specific poisoned images with clean label. Specifically, we first propose a new conditional generative adversarial network (cGAN) pipeline to effectively generate poisoned samples. For any given benign image, it seeks to generate a natural-looking poisoned counterpart with a unique invisible trigger. In order to improve the attack effectiveness, we introduce a label-based contrastive learning network LabCLN to exploit the semantic characteristics of different labels, which are subsequently used for confusing and misleading the target model to learn the embedded trigger. We finally explore the mechanism of backdoor attacks on image retrieval in the hash space. Extensive experiments on multiple benchmark datasets verify that BadHash can generate imperceptible poisoned samples with strong attack ability and transferability over state-of-the-art deep hashing schemes. Primary Subject Area: [Engagement] Multimedia Search and Recommendation
翻訳日:2022-07-04 22:26:29 公開日:2022-07-01
# (参考訳) 等価連続流をもつ格子量子場理論の学習

Learning Lattice Quantum Field Theories with Equivariant Continuous Flows ( http://arxiv.org/abs/2207.00283v1 )

ライセンス: CC BY 4.0
Mathis Gerdes, Pim de Haan, Corrado Rainone, Roberto Bondesan, Miranda C. N. Cheng(参考訳) 格子量子場理論の高次元確率分布からサンプリングする新しい機械学習手法を提案する。 このタスクにこれまで用いられてきた深いアーキテクチャの代わりに、提案は単一のニューラルネットワークode層に基づいており、問題の完全な対称性を組み込んでいる。 提案したフローベース手法をサンプリング効率で体系的に上回っており,特に大きな格子に対して改善が顕著であることを示す。 従来のベースラインモデルと比較して、有効なサンプルサイズである重要なメトリクスを332\times 32$の格子で1%から91%に改善しました。 また,我々のモデルが連続的な理論群を一度に学習できること,学習の結果をより大きな格子に移すことを実証した。 このような一般化能力は、従来のmcmcベースの方法に比べて機械学習の潜在的な利点をさらに強調する。

We propose a novel machine learning method for sampling from the high-dimensional probability distributions of Lattice Quantum Field Theories. Instead of the deep architectures used so far for this task, our proposal is based on a single neural ODE layer and incorporates the full symmetries of the problem. We test our model on the $\phi^4$ theory, showing that it systematically outperforms previously proposed flow-based methods in sampling efficiency, and the improvement is especially pronounced for larger lattices. Compared to the previous baseline model, we improve a key metric, the effective sample size, from 1% to 91% on a lattice of size $32\times 32$. We also demonstrate that our model can successfully learn a continuous family of theories at once, and the results of learning can be transferred to larger lattices. Such generalization capacities further accentuate the potential advantages of machine learning methods compared to traditional MCMC-based methods.
翻訳日:2022-07-04 22:10:30 公開日:2022-07-01
# (参考訳) 大規模ネットワークシステムにおける並列MARLの分散影響強化ローカルシミュレータ

Distributed Influence-Augmented Local Simulators for Parallel MARL in Large Networked Systems ( http://arxiv.org/abs/2207.00288v1 )

ライセンス: CC BY 4.0
Miguel Suau, Jinke He, Mustafa Mert \c{C}elikok, Matthijs T. J. Spaan, Frans A. Oliehoek(参考訳) サンプルの複雑さが高いため、今日では強化学習を成功させるにはシミュレーションが不可欠である。 しかし、現実世界の多くの問題は非常に複雑なダイナミクスを示し、フルスケールのシミュレーションを計算的に遅くする。 本稿では,多数のエージェントからなる大規模ネットワークシステムを複数のローカルコンポーネントに分解し,独立に並列に動作するシミュレータを別々に構築する方法を示す。 異なるローカルコンポーネントが互いに与える影響を監視するため、各シミュレータは実軌道上で定期的に訓練される学習モデルを備えている。 実験の結果,シミュレーションを異なるプロセスに分散させることで,大規模なマルチエージェントシステムをわずか数時間で学習できるだけでなく,同時学習の悪影響を軽減できることがわかった。

Due to its high sample complexity, simulation is, as of today, critical for the successful application of reinforcement learning. Many real-world problems, however, exhibit overly complex dynamics, which makes their full-scale simulation computationally slow. In this paper, we show how to decompose large networked systems of many agents into multiple local components such that we can build separate simulators that run independently and in parallel. To monitor the influence that the different local components exert on one another, each of these simulators is equipped with a learned model that is periodically trained on real trajectories. Our empirical results reveal that distributing the simulation among different processes not only makes it possible to train large multi-agent systems in just a few hours but also helps mitigate the negative effects of simultaneous learning.
翻訳日:2022-07-04 21:56:57 公開日:2022-07-01
# (参考訳) オブジェクトサイズからセグメントを学習する

Learning to segment from object sizes ( http://arxiv.org/abs/2207.00289v1 )

ライセンス: CC BY 4.0
Denis Baru\v{c}i\'c (1), Jan Kybic (1) ((1) Czech Technical University in Prague, Czech Republic)(参考訳) ディープラーニングは、画像解析の基本的なタスクであるセマンティックセグメンテーションに特に有用であることが証明されている。 しかし、標準的なディープラーニング手法は、通常取得に苦労し、場合によっては(医学的画像など)ドメインの専門知識を必要とする、基礎となるピクセル単位のアノテーションを持つ多くのトレーニング画像を必要とする。 したがって、ピクセル単位でのアノテーションではなく、画像のアノテーションに焦点をあてます。 我々は、オブジェクトサイズを、前景画素と背景の間の最大距離として定義する。 本稿では,数画素の注釈付き画像と既知のオブジェクトサイズを持つ多数の画像のデータセットから,ディープセグメンテーションネットワークをトレーニングするアルゴリズムを提案する。 このアルゴリズムは、勾配をサンプリングし、標準のバックプロパゲーションアルゴリズムを使用して、オブジェクトサイズ上で定義される離散的(非微分可能)損失関数を最小化する。 トレーニング時間と一般化誤差の観点から,本手法の性能について検討する。

Deep learning has proved particularly useful for semantic segmentation, a fundamental image analysis task. However, the standard deep learning methods need many training images with ground-truth pixel-wise annotations, which are usually laborious to obtain and, in some cases (e.g., medical images), require domain expertise. Therefore, instead of pixel-wise annotations, we focus on image annotations that are significantly easier to acquire but still informative, namely the size of foreground objects. We define the object size as the maximum distance between a foreground pixel and the background. We propose an algorithm for training a deep segmentation network from a dataset of a few pixel-wise annotated images and many images with known object sizes. The algorithm minimizes a discrete (non-differentiable) loss function defined over the object sizes by sampling the gradient and then using the standard back-propagation algorithm. We study the performance of our approach in terms of training time and generalization error.
翻訳日:2022-07-04 21:23:30 公開日:2022-07-01
# (参考訳) オフセット同変ネットワークとその応用

Offset equivariant networks and their applications ( http://arxiv.org/abs/2207.00292v1 )

ライセンス: CC BY-SA 4.0
Marco Cotogni, Claudio Cusano(参考訳) 本稿では、オフセット同変ネットワークの設計と実装のための枠組み、すなわち、入力における出力の均一なインクリメントを保存するニューラルネットワークについて述べる。 適切な色空間において、この種のネットワークは、照明条件の変化を特徴づける測光変換に対して等価である。 本手法は,画像認識,照度推定,画像インパインティングという3つの問題に対して検証を行った。 実験の結果,オフセット同変ネットワークの性能は,正規データにおける最先端のネットワークと同等であることが判明した。 しかし、従来のネットワークとは異なり、同変ネットワークは光度の色が変化すると一貫して振る舞う。

In this paper we present a framework for the design and implementation of offset equivariant networks, that is, neural networks that preserve in their output uniform increments in the input. In a suitable color space this kind of networks achieves equivariance with respect to the photometric transformations that characterize changes in the lighting conditions. We verified the framework on three different problems: image recognition, illuminant estimation, and image inpainting. Our experiments show that the performance of offset equivariant networks are comparable to those in the state of the art on regular data. Differently from conventional networks, however, equivariant networks do behave consistently well when the color of the illuminant changes.
翻訳日:2022-07-04 21:16:29 公開日:2022-07-01
# (参考訳) 開発者のミスから学ぶことはできますか? 本当のバグフィックスから本当のバグのローカライズと修復を学ぶ

Can we learn from developer mistakes? Learning to localize and repair real bugs from real bug fixes ( http://arxiv.org/abs/2207.00301v1 )

ライセンス: CC BY-SA 4.0
Cedric Richter and Heike Wehrheim(参考訳) オープンソースのリポジトリにある本当のバグフィックスは、本当のバグをローカライズして修復する学習のための完璧なソースのようだ。 しかし、大規模なバグ修正コレクションがないため、大規模なニューラルネットワークモデルのトレーニングにおいて、実際のバグ修正を効果的に活用することは困難になっている。 対照的に、既存のソースコードを変更によって生成される人工的なバグは、十分な規模で簡単に得ることができ、そのため既存のアプローチのトレーニングでしばしば好まれる。 それでも、人工的なバグに基づいてトレーニングされたローカライゼーションと修復モデルは、実際のバグに直面した場合、通常はパフォーマンスが低下する。 これは、実際のバグ修正で訓練されたバグローカライゼーションと修復モデルが実際のバグのローカライズと修復に効果的かどうかという疑問を提起する。 realitは、実際のバグフィックスから実際のバグをローカライズし、修復する方法を効果的に学習するための、事前トレーニングと微調整のアプローチです。 realitはまず、従来のミュータントオペレータが生成する多数の人工バグを事前にトレーニングし、その後、より小さなバグフィックスセットで微調整する。 微調整は学習アルゴリズムの変更を必要としないため、バグのローカライゼーションや修復(実際のトレーニングデータが不足している場合でも)のためのさまざまなトレーニングシナリオに容易に適用することができる。 さらに、RealiTによる実際のバグ修正のトレーニングは、実際のバグに対する既存のモデルのローカライズ性能をほぼ2倍にし、修復性能の維持や改善を行ないます。

Real bug fixes found in open source repositories seem to be the perfect source for learning to localize and repair real bugs. However, the absence of large scale bug fix collections has made it difficult to effectively exploit real bug fixes in the training of larger neural models in the past. In contrast, artificial bugs -- produced by mutating existing source code -- can be easily obtained at a sufficient scale and are therefore often preferred in the training of existing approaches. Still, localization and repair models that are trained on artificial bugs usually underperform when faced with real bugs. This raises the question whether bug localization and repair models trained on real bug fixes are more effective in localizing and repairing real bugs. We address this question by introducing RealiT, a pre-train-and-fine-tune approach for effectively learning to localize and repair real bugs from real bug fixes. RealiT is first pre-trained on a large number of artificial bugs produced by traditional mutation operators and then fine-tuned on a smaller set of real bug fixes. Fine-tuning does not require any modifications of the learning algorithm and hence can be easily adopted in various training scenarios for bug localization or repair (even when real training data is scarce). In addition, we found that training on real bug fixes with RealiT is empirically powerful by nearly doubling the localization performance of an existing model on real bugs while maintaining or even improving the repair performance.
翻訳日:2022-07-04 20:57:33 公開日:2022-07-01
# (参考訳) TopicFM:topic-assistedとマッチするロバストで解釈可能な機能

TopicFM: Robust and Interpretable Feature Matching with Topic-assisted ( http://arxiv.org/abs/2207.00328v1 )

ライセンス: CC BY 4.0
Khang Truong Giang, Soohwan Song, Sungho Jo(参考訳) 画像間の対応を見つけることは、多くの視覚的応用において重要な課題である。 最近の最先端の手法は、粗い方法で設計されたエンドツーエンドの学習ベースアーキテクチャに焦点を当てている。 彼らは非常に深いCNNまたはマルチブロックトランスフォーマーを使用して、高い計算能力を必要とする堅牢な表現を学習する。 さらに,これらの手法は物体や画像の形状を考慮せずに特徴を学習し,解釈性に欠ける。 本稿では,効率的な,堅牢で,解釈可能な画像マッチングアーキテクチャを提案する。 具体的には、TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間の空間構造を大まかに整理し、各トピック内の機能を拡張して正確なマッチングを行う。 トピックを推論するために、まずトピックのグローバルな埋め込みを学び、次に潜在変数モデルを用いて画像構造をトピックに割り当てる。 本手法は, 計算量を減らすために, 同時視領域でのみマッチングを行うことができる。 屋外および屋内のデータセットにおける広範囲な実験により,本手法が近年の手法よりも性能と計算効率のマッチングにおいて優れていることが示された。 コードはhttps://github.com/TruongKhang/TopicFMで公開されている。

Finding correspondences across images is an important task in many visual applications. Recent state-of-the-art methods focus on end-to-end learning-based architectures designed in a coarse-to-fine manner. They use a very deep CNN or multi-block Transformer to learn robust representation, which requires high computation power. Moreover, these methods learn features without reasoning about objects, shapes inside images, thus lacks of interpretability. In this paper, we propose an architecture for image matching which is efficient, robust, and interpretable. More specifically, we introduce a novel feature matching module called TopicFM which can roughly organize same spatial structure across images into a topic and then augment the features inside each topic for accurate matching. To infer topics, we first learn global embedding of topics and then use a latent-variable model to detect-then-assign the image structures into topics. Our method can only perform matching in co-visibility regions to reduce computations. Extensive experiments in both outdoor and indoor datasets show that our method outperforms the recent methods in terms of matching performance and computational efficiency. The code is available at https://github.com/TruongKhang/TopicFM.
翻訳日:2022-07-04 20:36:02 公開日:2022-07-01
# (参考訳) グラフを用いた手のジェスチャー認識に関する文献研究

Literature on Hand GESTURE Recognition using Graph based methods ( http://arxiv.org/abs/2207.00329v1 )

ライセンス: CC0 1.0
Neha Baranwal and Varun Sharma(参考訳) 骨格の点や関節に焦点を当てた機械学習モデルは、ロボティクスなどの多くの分野において、計算的に効果的であることが証明されている。 必要な情報を抽象化する上で重要な役割を果たす空間的・時間的情報の保存は,ポイントの追跡が容易であり,分類も容易である。 本稿では,クラウドをポイントの集合として定義するクラウド機構を用いて,これらのポイントを研究することを目的とする。 しかし、時間的情報を加えると、各フレーム内の点の座標を検索することはできず、したがって単一の点に注目するのではなく、k-neighborsを用いて議論中の点の状態を取得することができる。 重みの共有による情報収集に重点を置いていますが,隣人からの情報を検索しようとすると,ノイズを伴わないようにしています。 LSTMは長期モデリング能力を持ち、時間情報と空間情報の両方を運ぶことができる。 本稿では,グラフに基づくジェスチャー認識手法の要約を試みた。

Skeleton based recognition systems are gaining popularity and machine learning models focusing on points or joints in a skeleton have proved to be computationally effective and application in many areas like Robotics. It is easy to track points and thereby preserving spatial and temporal information, which plays an important role in abstracting the required information, classification becomes an easy task. In this paper, we aim to study these points but using a cloud mechanism, where we define a cloud as collection of points. However, when we add temporal information, it may not be possible to retrieve the coordinates of a point in each frame and hence instead of focusing on a single point, we can use k-neighbors to retrieve the state of the point under discussion. Our focus is to gather such information using weight sharing but making sure that when we try to retrieve the information from neighbors, we do not carry noise with it. LSTM which has capability of long-term modelling and can carry both temporal and spatial information. In this article we tried to summarise graph based gesture recognition method.
翻訳日:2022-07-04 20:19:23 公開日:2022-07-01
# (参考訳) 回帰のための微粒化相関損失

Fine-grained Correlation Loss for Regression ( http://arxiv.org/abs/2207.00347v1 )

ライセンス: CC BY 4.0
Chaoyu Chen, Xin Yang, Ruobing Huang, Xindi Hu, Yankai Huang, Xiduo Lu, Xinrui Zhou, Mingyuan Luo, Yinyu Ye, Xue Shuang, Juzheng Miao, Yi Xiong, Dong Ni(参考訳) 回帰学習は医学画像解析の古典的な基礎である。 属性推定、オブジェクト検出、セグメンテーション、非リギッド登録など、多くの重要なアプリケーションに対する継続的なマッピングを提供する。 しかし、従来の研究では、平均二乗誤差のようなケースワイド基準を最適化の目的としていた。 彼らは、多くのタスクにおいて、まさに最終評価基準である、非常に重要な人口相関基準を無視した。 本研究では,細粒度相関損失を直接最適化する新しい手法を用いて,従来の回帰課題を再検討する。 Pearson linear correlation (PLC) とSpearman rank correlation (SRC) の2つの相補的相関指標について検討した。 この論文の貢献は2つある。 まず、グローバルレベルでのplcに対して、外れ値に対して堅牢にし、鍵となる分配要因を定式化する戦略を提案する。 これらの取り組みは学習を著しく安定化させ,PLCの有効性を増大させる。 第2に,局所レベルでのSRCについて,サンプル間の正確なランク付け順序の学習を容易にするため,粗粒化方式を提案する。 具体的には,サンプルランキングの学習を,サンプル間の類似性関係の学習に変換する。 本手法は,画像品質評価とバイオメトリック計測を含む2つの典型的な超音波画像回帰タスクに対して広範囲に検証する。 相関を直接最適化する詳細なガイダンスにより、回帰性能が大幅に向上することが実験により証明された。 提案する相関損失は一般に,より重要な応用に拡張できる。

Regression learning is classic and fundamental for medical image analysis. It provides the continuous mapping for many critical applications, like the attribute estimation, object detection, segmentation and non-rigid registration. However, previous studies mainly took the case-wise criteria, like the mean square errors, as the optimization objectives. They ignored the very important population-wise correlation criterion, which is exactly the final evaluation metric in many tasks. In this work, we propose to revisit the classic regression tasks with novel investigations on directly optimizing the fine-grained correlation losses. We mainly explore two complementary correlation indexes as learnable losses: Pearson linear correlation (PLC) and Spearman rank correlation (SRC). The contributions of this paper are two folds. First, for the PLC on global level, we propose a strategy to make it robust against the outliers and regularize the key distribution factors. These efforts significantly stabilize the learning and magnify the efficacy of PLC. Second, for the SRC on local level, we propose a coarse-to-fine scheme to ease the learning of the exact ranking order among samples. Specifically, we convert the learning for the ranking of samples into the learning of similarity relationships among samples. We extensively validate our method on two typical ultrasound image regression tasks, including the image quality assessment and bio-metric measurement. Experiments prove that, with the fine-grained guidance in directly optimizing the correlation, the regression performances are significantly improved. Our proposed correlation losses are general and can be extended to more important applications.
翻訳日:2022-07-04 19:57:57 公開日:2022-07-01
# (参考訳) モイドレ努力におけるパリ・パリ・ブット・エン・ブウト(parole bout-en-bout)の言語的自動生成法

Vers la compr\'ehension automatique de la parole bout-en-bout \`a moindre effort ( http://arxiv.org/abs/2207.00349v1 )

ライセンス: CC BY-SA 4.0
Marco Naguib and Fran\c{c}ois Portet and Marco Dinarelli(参考訳) 最近の音声言語理解の進歩は、大きな音声コーパスで訓練された自己教師付きモデルから恩恵を受けた。 フランス語では、lebenchmarkプロジェクトはそのようなモデルを利用可能にし、音声言語理解を含むいくつかのタスクで印象的な進歩をもたらした。 これらの進歩は計算時間とエネルギー消費の点で無視できないコストを持つ。 本稿では,競争性能を維持しつつコスト削減を目的とした学習戦略をいくつか比較する。 実験はMEDIAコーパス上で行われ、最先端の性能を維持しながら学習コストを削減可能であることを示す。

Recent advances in spoken language understanding benefited from Self-Supervised models trained on large speech corpora. For French, the LeBenchmark project has made such models available and has led to impressive progress on several tasks including spoken language understanding. These advances have a non-negligible cost in terms of computation time and energy consumption. In this paper, we compare several learning strategies aiming at reducing such cost while keeping competitive performances. The experiments are performed on the MEDIA corpus, and show that it is possible to reduce the learning cost while maintaining state-of-the-art performances.
翻訳日:2022-07-04 19:49:29 公開日:2022-07-01
# (参考訳) 低コストエンドツーエンド言語理解に向けて

Toward Low-Cost End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2207.00352v1 )

ライセンス: CC BY-SA 4.0
Marco Dinarelli and Marco Naguib and Fran\c{c}ois Portet(参考訳) 最近の音声言語理解の進歩は、大きな音声コーパスで訓練された自己教師付きモデルから恩恵を受けた。 フランス語では、lebenchmarkプロジェクトはそのようなモデルを利用可能にし、音声言語理解を含むいくつかのタスクで印象的な進歩をもたらした。 これらの進歩は計算時間とエネルギー消費の点で無視できないコストを持つ。 本稿では,競争性能を維持しつつ,このようなコスト削減を図る学習戦略について比較する。 同時に、トレーニング時間と電力消費の観点からモデルのコストを計測し、総合的な評価手順を推進できる広範囲な分析手法を提案する。 実験はFSCとMEDIAコーパスで行われ、最先端性能を維持しながらSSLモデルを用いて学習コストを削減可能であることを示す。

Recent advances in spoken language understanding benefited from Self-Supervised models trained on large speech corpora. For French, the LeBenchmark project has made such models available and has led to impressive progress on several tasks including spoken language understanding. These advances have a non-negligible cost in terms of computation time and energy consumption. In this paper, we compare several learning strategies trying to reduce such cost while keeping competitive performance. At the same time we propose an extensive analysis where we measure the cost of our models in terms of training time and electric energy consumption, hopefully promoting a comprehensive evaluation procedure. The experiments are performed on the FSC and MEDIA corpora, and show that it is possible to reduce the learning cost while maintaining state-of-the-art performance and using SSL models.
翻訳日:2022-07-04 19:05:16 公開日:2022-07-01
# (参考訳) 高次元データにおける異常検出のための幾何学的枠組み

A geometric framework for outlier detection in high-dimensional data ( http://arxiv.org/abs/2207.00367v1 )

ライセンス: CC BY 4.0
Moritz Herrmann, Florian Pfisterer, Fabian Scheipl(参考訳) 異常検出はデータ分析において重要な課題である。 幾何学的観点から問題を議論し、データセットのメートル法構造を利用するフレームワークを提供する。 我々のアプローチは、観測された高次元データは、非常に低い次元の多様体の上にあり、本質的な構造は多様体学習法で推測できるという多様体の仮定に基づいている。 この構造の活用は,高次元データにおける外部観測の検出を著しく改善することを示す。 また,データ多様体の幾何学的およびトポロジーに基づく分布的および構造的外れ値の,新しい,数学的に正確かつ広く適用可能な区別法を提案する。 実験では,構造化高次元データの一クラスとして機能的データに焦点を当てるが,提案するフレームワークは完全に汎用的であり,画像およびグラフデータアプリケーションも含む。 この結果から,高次元および非タブラルデータの外層構造を多様体学習法を用いて検出・可視化し,標準外層評価法を用いて定量化できることが示唆された。

Outlier or anomaly detection is an important task in data analysis. We discuss the problem from a geometrical perspective and provide a framework that exploits the metric structure of a data set. Our approach rests on the manifold assumption, i.e., that the observed, nominally high-dimensional data lie on a much lower dimensional manifold and that this intrinsic structure can be inferred with manifold learning methods. We show that exploiting this structure significantly improves the detection of outlying observations in high-dimensional data. We also suggest a novel, mathematically precise, and widely applicable distinction between distributional and structural outliers based on the geometry and topology of the data manifold that clarifies conceptual ambiguities prevalent throughout the literature. Our experiments focus on functional data as one class of structured high-dimensional data, but the framework we propose is completely general and we include image and graph data applications. Our results show that the outlier structure of high-dimensional and non-tabular data can be detected and visualized using manifold learning methods and quantified using standard outlier scoring methods applied to the manifold embedding vectors.
翻訳日:2022-07-04 18:52:23 公開日:2022-07-01
# (参考訳) 生成フローモデルを用いた予測スカラーリターンの多目的コーディネーショングラフ

Multi-Objective Coordination Graphs for the Expected Scalarised Returns with Generative Flow Models ( http://arxiv.org/abs/2207.00368v1 )

ライセンス: CC BY 4.0
Conor F. Hayes and Timothy Verstraeten and Diederik M. Roijers and Enda Howley and Patrick Mannion(参考訳) 多くの現実世界の問題には複数の目的とエージェントが含まれており、目的の間にトレードオフが存在する。 このような問題を解決する鍵は、エージェント間に存在する疎結合構造を利用することである。 例えば、風力発電の制御では、電力の最大化とシステムコンポーネントのストレスの最小化の間にトレードオフが存在する。 タービン間の依存性はウェイク効果によって生じる。 エージェント間の疎結合を多目的協調グラフ(MO-CoG)としてモデル化する。 多目的強化学習において、実用関数は、通常、ユーザーが目的よりも好みをモデル化するために使用される。 このような設定では、最適なポリシーのセットを計算しなければならない。 どのポリシーが最適かは、どの最適性基準が適用されるかによって決まる。 ユーザのユーティリティ関数がポリシーの複数の実行から導出される場合、スカラー化された期待リターン(SER)を最適化する必要がある。 ユーザのユーティリティがポリシーの単一の実行から派生している場合は、期待されるsscalarised return (esr) の基準を最適化する必要がある。 例えば、風力発電所は、常に遵守しなければならない制約や規制を受けており、ESR基準は最適化されなければならない。 MO-CoGでは、最先端のアルゴリズムはSER基準に対する最適なポリシーのセットしか計算できず、ESR基準は検討されていない。 ESR基準(ESR集合)の下で最適な警察の集合を計算するには、リターンの分布を維持する必要がある。 そこで本研究では,MO-CoGのESR基準の下で最適ポリシーの集合を計算するために,分散多目的変数除去(DMOVE)アルゴリズムを提案する。 風力発電シミュレーションにおけるDMOVEの評価を行った。 実世界の風力発電環境におけるリターンが連続的であることを考慮し、実NVPとして知られるモデルを用いて、ESR集合を計算する。

Many real-world problems contain multiple objectives and agents, where a trade-off exists between objectives. Key to solving such problems is to exploit sparse dependency structures that exist between agents. For example, in wind farm control a trade-off exists between maximising power and minimising stress on the systems components. Dependencies between turbines arise due to the wake effect. We model such sparse dependencies between agents as a multi-objective coordination graph (MO-CoG). In multi-objective reinforcement learning a utility function is typically used to model a users preferences over objectives, which may be unknown a priori. In such settings a set of optimal policies must be computed. Which policies are optimal depends on which optimality criterion applies. If the utility function of a user is derived from multiple executions of a policy, the scalarised expected returns (SER) must be optimised. If the utility of a user is derived from a single execution of a policy, the expected scalarised returns (ESR) criterion must be optimised. For example, wind farms are subjected to constraints and regulations that must be adhered to at all times, therefore the ESR criterion must be optimised. For MO-CoGs, the state-of-the-art algorithms can only compute a set of optimal policies for the SER criterion, leaving the ESR criterion understudied. To compute a set of optimal polices under the ESR criterion, also known as the ESR set, distributions over the returns must be maintained. Therefore, to compute a set of optimal policies under the ESR criterion for MO-CoGs, we present a novel distributional multi-objective variable elimination (DMOVE) algorithm. We evaluate DMOVE in realistic wind farm simulations. Given the returns in real-world wind farm settings are continuous, we utilise a model known as real-NVP to learn the continuous return distributions to calculate the ESR set.
翻訳日:2022-07-04 18:25:52 公開日:2022-07-01
# (参考訳) 幾何学的領域シフト下におけるキーポイント型肺登録のための平均教師の適応

Adapting the Mean Teacher for keypoint-based lung registration under geometric domain shifts ( http://arxiv.org/abs/2207.00371v1 )

ライセンス: CC BY 4.0
Alexander Bigalke, Lasse Hansen, Mattias P. Heinrich(参考訳) 近年の深層学習に基づく医用画像登録法は, 従来の最適化アルゴリズムと競合する結果が得られる。 しかし、ディープニューラルネットワークは通常、多くのラベル付きトレーニングデータを必要とし、トレーニングとテストデータの間のドメインシフトに弱い。 典型的な強度シフトはキーポイントベースの登録によって緩和できるが、これらの手法は、例えば異なる視野で幾何学的な領域シフトに悩まされている。 本研究では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応に対する新しいアプローチを提案する。 幾何学的特徴学習のためのグラフ畳み込みとループ的信念最適化を組み合わせたキーポイントに基づく登録モデルを構築し,自己センシングによるドメインシフトの低減を提案する。 この目的のために、私たちはこのモデルを平均的な教師パラダイムに組み込む。 我々は平均教師をこの文脈に拡張する 1)確率的増補計画の適応、及び 2)学習した特徴抽出と微分可能な最適化を組み合わせる。 これにより、学習者の一貫した予測と時間平均教師モデルにより、ラベルのない対象領域での学習プロセスを導くことができる。 DIR-Lab 4D CT から COPD , COPD から Learn2Reg への2つの適応シナリオを用いて,吸入吸入肺CT 登録法の評価を行った。 本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。 ソースコードはhttps://github.com/multimodallearning/registration-da-mean-teacherで入手できる。

Recent deep learning-based methods for medical image registration achieve results that are competitive with conventional optimization algorithms at reduced run times. However, deep neural networks generally require plenty of labeled training data and are vulnerable to domain shifts between training and test data. While typical intensity shifts can be mitigated by keypoint-based registration, these methods still suffer from geometric domain shifts, for instance, due to different fields of view. As a remedy, in this work, we present a novel approach to geometric domain adaptation for image registration, adapting a model from a labeled source to an unlabeled target domain. We build on a keypoint-based registration model, combining graph convolutions for geometric feature learning with loopy belief optimization, and propose to reduce the domain shift through self-ensembling. To this end, we embed the model into the Mean Teacher paradigm. We extend the Mean Teacher to this context by 1) adapting the stochastic augmentation scheme and 2) combining learned feature extraction with differentiable optimization. This enables us to guide the learning process in the unlabeled target domain by enforcing consistent predictions of the learning student and the temporally averaged teacher model. We evaluate the method for exhale-to-inhale lung CT registration under two challenging adaptation scenarios (DIR-Lab 4D CT to COPD, COPD to Learn2Reg). Our method consistently improves on the baseline model by 50%/47% while even matching the accuracy of models trained on target data. Source code is available at https://github.com/multimodallearning/registration-da-mean-teacher.
翻訳日:2022-07-04 18:06:16 公開日:2022-07-01
# (参考訳) 質問応答ブループリントによる条件生成

Conditional Generation with a Question-Answering Blueprint ( http://arxiv.org/abs/2207.00397v1 )

ライセンス: CC BY 4.0
Shashi Narayan, Joshua Maynez, Reinald Kim Amplayo, Kuzman Ganchev, Annie Louis, Fantine Huot, Dipanjan Das, Mirella Lapata(参考訳) 条件付き生成における多くのタスクにおいて、適切で忠実な情報を伝達する能力は重要であるが、ニューラルネットワークのseq-to-seqモデルでは、その出力はしばしば幻覚を示し、重要な詳細を正しくカバーできない。 本研究では,条件生成を不透明かつ根拠的に表現するための有用な中間表現としてプランニングを提唱する。 本研究は,質問応答(QA)ペアのシーケンスとして,テキストプランの新たな概念化を提案する。 既存のデータセット(例えば要約)を強化し、QAブループリントをコンテンツ選択(すなわち、何を言うべきか)と計画(すなわち、何の順序で)のプロキシとして運用します。 我々は、最先端の質問生成技術を活用し、入出力ペアを入出力タプルに変換することで、自動的に青写真を得る。 我々はTransformerベースのモデルを開発し、それぞれが生成した出力(例えば、グローバルプランとして、あるいは反復的に)にブループリントを組み込む方法を変える。 メトリクスとデータセットによる評価は、ブループリントモデルが計画に頼らず、生成出力のより厳密な制御を可能にする代替モデルよりも現実的であることを示している。

The ability to convey relevant and faithful information is critical for many tasks in conditional generation and yet remains elusive for neural seq-to-seq models whose outputs often reveal hallucinations and fail to correctly cover important details. In this work, we advocate planning as a useful intermediate representation for rendering conditional generation less opaque and more grounded. Our work proposes a new conceptualization of text plans as a sequence of question-answer (QA) pairs. We enhance existing datasets (e.g., for summarization) with a QA blueprint operating as a proxy for both content selection (i.e.,~what to say) and planning (i.e.,~in what order). We obtain blueprints automatically by exploiting state-of-the-art question generation technology and convert input-output pairs into input-blueprint-output tuples. We develop Transformer-based models, each varying in how they incorporate the blueprint in the generated output (e.g., as a global plan or iteratively). Evaluation across metrics and datasets demonstrates that blueprint models are more factual than alternatives which do not resort to planning and allow tighter control of the generation output.
翻訳日:2022-07-04 17:57:10 公開日:2022-07-01
# (参考訳) スイスドイツ語音声テキストシステムの評価

Swiss German Speech to Text system evaluation ( http://arxiv.org/abs/2207.00412v1 )

ライセンス: CC BY-SA 4.0
Yanick Schraner, Christian Scheller, Michel Pl\"uss, Manfred Vogel(参考訳) スイスドイツ語の4種類の音声テキストシステム(STT)について詳細な評価を行った。 システムは匿名化され、このレポートではsystem a-d と呼ばれる。 この4つのシステムを、今後FHNWと呼ばれるSTTモデルと比較し、モデルがどのようにトレーニングされたかの詳細を述べる。 モデルを評価するために、異なるドメインから2つのSTTデータセットを使用する。 スイス議会法人(SPC)のテストセットと、ニュースドメイン内のプライベートデータセットは、7つの方言領域に均等に分布している。 3つのシステムの強みと弱みを検出するための詳細なエラー解析を提供する。 この分析は2つのテストセットの特性によって制限される。 両モデルにおいて,両データセットで最高のバイリンガル評価アンダースタディ(BLEU)を得た。 SPC テストセットでは BLEU スコアが 0.607 であるのに対して、最高の商用システムは BLEU スコアが 0.509 である。 個人的なテストセットでは、bleuスコアが0.0722であり、最も優れた商用システムであるbleuスコアが0.568である。

We present an in-depth evaluation of four commercially available Speech-to-Text (STT) systems for Swiss German. The systems are anonymized and referred to as system a-d in this report. We compare the four systems to our STT model, referred to as FHNW from hereon after, and provide details on how we trained our model. To evaluate the models, we use two STT datasets from different domains. The Swiss Parliament Corpus (SPC) test set and a private dataset in the news domain with an even distribution across seven dialect regions. We provide a detailed error analysis to detect the three systems' strengths and weaknesses. This analysis is limited by the characteristics of the two test sets. Our model scored the highest bilingual evaluation understudy (BLEU) on both datasets. On the SPC test set, we obtain a BLEU score of 0.607, whereas the best commercial system reaches a BLEU score of 0.509. On our private test set, we obtain a BLEU score of 0.722 and the best commercial system a BLEU score of 0.568.
翻訳日:2022-07-04 17:28:47 公開日:2022-07-01
# (参考訳) 心的辞書における試行錯誤学習の地図化 : 線形弁別学習を用いた語彙決定のモデル化

How trial-to-trial learning shapes mappings in the mental lexicon: Modelling Lexical Decision with Linear Discriminative Learning ( http://arxiv.org/abs/2207.00430v1 )

ライセンス: CC BY 4.0
Maria Heitmeier, Yu-Ying Chuang and R. Harald Baayen(参考訳) プライミングとアンチプライミングは、主学習が目標刺激の処理に影響を及ぼすと仮定して、エラー駆動学習(Marsolek, 2008)でモデル化することができる。 これは、参加者がプライミング研究で継続的に学び、他の精神言語学的実験の試行ごとにも学習していると予測していることを意味する。 本研究は,治験から治験への学習が語彙決定実験で検出できるかどうかを検討する。 分布セマンティクスからの意味表現を持つメンタルレキシコンのモデルである判別レキシコンモデル(dlm, baayen et al., 2019)を用いて,widrow-hoffルールを用いたインクリメンタル学習をモデル化した。 我々は,British Lexicon Project (BLP; Keuleers et al., 2012) のデータを用いて,DLMによる語彙決定実験を,各被験者に対して個別に試行的にシミュレーションした。 そして,DLMシミュレーションから導出した指標を予測子として,単語と非単語の反応時間を一般化付加モデルを用いて予測した。 モデルは2つの被験者のデータを用いて開発され、他のすべての被験者でテストされた。 被験者毎に2つのシミュレーション(1つは試行錯誤を学習し,もう1つは無試行間更新)を抽出し,2つのGAMの入力として使用した。 学習ベースモデルは、ほとんどの被験者にとって非学習モデルよりも適している。 また,語彙処理の知見を提供し,線形混合モデルを用いた個人差の探索を可能にした。 これは、行動データをモデル化するDLMの可能性を示し、心言語実験で試行錯誤学習が実際に検出できるという結論に至る。

Priming and antipriming can be modelled with error-driven learning (Marsolek, 2008), by assuming that the learning of the prime influences processing of the target stimulus. This implies that participants are continuously learning in priming studies, and predicts that they are also learning in each trial of other psycholinguistic experiments. This study investigates whether trial-to-trial learning can be detected in lexical decision experiments. We used the Discriminative Lexicon Model (DLM; Baayen et al., 2019), a model of the mental lexicon with meaning representations from distributional semantics, which models incremental learning with the Widrow-Hoff rule. We used data from the British Lexicon Project (BLP; Keuleers et al., 2012) and simulated the lexical decision experiment with the DLM on a trial-by-trial basis for each subject individually. Then, reaction times for words and nonwords were predicted with Generalised Additive Models, using measures derived from the DLM simulations as predictors. Models were developed with the data of two subjects and tested on all other subjects. We extracted measures from two simulations for each subject (one with learning updates between trials and one without), and used them as input to two GAMs. Learning-based models showed better model fit than the non-learning ones for the majority of subjects. Our measures also provided insights into lexical processing and enabled us to explore individual differences with Linear Mixed Models. This demonstrates the potential of the DLM to model behavioural data and leads to the conclusion that trial-to-trial learning can indeed be detected in psycholinguistic experiments.
翻訳日:2022-07-04 17:19:38 公開日:2022-07-01
# (参考訳) 手術用コンピュータビジョンのための自己監督型学習方法の分別

Dissecting Self-Supervised Learning Methods for Surgical Computer Vision ( http://arxiv.org/abs/2207.00449v1 )

ライセンス: CC BY-SA 4.0
Sanat Ramesh, Vinkle Srivastav, Deepak Alapatt, Tong Yu, Aditya Murali, Luca Sestini, Chinedu Innocent Nwoye, Idris Hamoud, Antoine Fleurentin, Georgios Exarchakis, Alexandros Karargyris, Nicolas Padoy(参考訳) 手術用コンピュータビジョンの分野は近年、ディープニューラルネットワークベースの手法が普及し、かなりのブレークスルーを迎えている。 しかし、そのようなモデルを訓練するための標準的な完全教師付きアプローチは、膨大な量の注釈付きデータを必要とし、特に臨床領域において非常に高いコストを課す。 一般のコンピュータビジョンコミュニティで注目を集め始めている自己監視学習(SSL)メソッドは、これらのアノテーションコストに対する潜在的な解決策であり、ラベルのないデータのみから有用な表現を学習することができる。 それでも、医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は限定的かつ未調査のままである。 本研究は,4つの最先端SSL手法 (MoCo v2, SimCLR, DINO, SwAV) を外科的コンピュータビジョンの文脈で検討することによって,この問題に対処する。 本稿では, 外科的文脈理解, 位相認識, ツールの存在検出におけるcholec80データセットにおけるこれらの手法の性能を広範囲に分析する。 半教師付き環境でのデータ量に関するパラメータ化を行い,その振る舞いについて検討する。 この研究で述べられたように、これらの方法の手術への正しい転送は、SSLの一般的な使用よりも、最大7%の位相認識と20%のツール存在検出、そして最先端の半教師付き位相認識アプローチを最大14%向上させる。 コードはhttps://github.com/CAMMA-public/SelfSupSurgで公開される。

The field of surgical computer vision has undergone considerable breakthroughs in recent years with the rising popularity of deep neural network-based methods. However, standard fully-supervised approaches for training such models require vast amounts of annotated data, imposing a prohibitively high cost; especially in the clinical domain. Self-Supervised Learning (SSL) methods, which have begun to gain traction in the general computer vision community, represent a potential solution to these annotation costs, allowing to learn useful representations from only unlabeled data. Still, the effectiveness of SSL methods in more complex and impactful domains, such as medicine and surgery, remains limited and unexplored. In this work, we address this critical need by investigating four state-of-the-art SSL methods (MoCo v2, SimCLR, DINO, SwAV) in the context of surgical computer vision. We present an extensive analysis of the performance of these methods on the Cholec80 dataset for two fundamental and popular tasks in surgical context understanding, phase recognition and tool presence detection. We examine their parameterization, then their behavior with respect to training data quantities in semi-supervised settings. Correct transfer of these methods to surgery, as described and conducted in this work, leads to substantial performance gains over generic uses of SSL - up to 7% on phase recognition and 20% on tool presence detection - as well as state-of-the-art semi-supervised phase recognition approaches by up to 14%. The code will be made available at https://github.com/CAMMA-public/SelfSupSurg.
翻訳日:2022-07-04 17:18:19 公開日:2022-07-01
# (参考訳) SD-LayerNet:解剖学的先行表現を用いたOCTにおける半監督網膜層セグメンテーション

SD-LayerNet: Semi-supervised retinal layer segmentation in OCT using disentangled representation with anatomical priors ( http://arxiv.org/abs/2207.00458v1 )

ライセンス: CC BY 4.0
Botond Fazekas, Guilherme Aresta, Dmitrii Lachinov, Sophie Riedl, Julia Mai, Ursula Schmidt-Erfurth, Hrvoje Bogunovic(参考訳) 光コヒーレンス断層撮影(OCT)は、眼科領域で広く用いられている非侵襲的な3Dモダリティである。 老化関連黄斑病 (AMD) や糖尿病網膜症などの網膜疾患の検出とモニタリングには, OCT上の自動的, 解剖学的にコヒーレントな網膜層セグメンテーションが重要である。 しかし、最先端層分割法の大部分は純粋に教師付き深層学習に基づいており、高価で入手が難しい大量のピクセルレベルの注釈付きデータを必要とする。 このことを念頭に置いて、大規模未ラベルデータセットや解剖学的先行データに現れる情報を活用する網膜層セグメンテーションタスクに半教師付きパラダイムを導入する。 特に、表面位置の回帰をピクセル単位で構造化されたセグメンテーションに変換するために、新しい完全微分可能なアプローチを用いて、1次元曲面と2次元層表現を結合的に使用してモデルを訓練することができる。 特に、これらの2次元セグメンテーションは、学習されたスタイル因子とともに、入力画像の再構成に使用される異角形表現を構成する解剖学的要因として用いられる。 並行して,ラベル付きデータの限られた量が利用できる場合に,ネットワークトレーニングを改善するための解剖学的事前セットを提案する。 我々は,本手法が完全なトレーニングセットを使用する場合,最先端よりも優れており,さらに,ラベル付きデータのごく一部でトレーニングされた場合,最先端のデータをはるかに上回る,中間的かつ湿潤なスキャンによる実世界のデータセットを実証する。

Optical coherence tomography (OCT) is a non-invasive 3D modality widely used in ophthalmology for imaging the retina. Achieving automated, anatomically coherent retinal layer segmentation on OCT is important for the detection and monitoring of different retinal diseases, like Age-related Macular Disease (AMD) or Diabetic Retinopathy. However, the majority of state-of-the-art layer segmentation methods are based on purely supervised deep-learning, requiring a large amount of pixel-level annotated data that is expensive and hard to obtain. With this in mind, we introduce a semi-supervised paradigm into the retinal layer segmentation task that makes use of the information present in large-scale unlabeled datasets as well as anatomical priors. In particular, a novel fully differentiable approach is used for converting surface position regression into a pixel-wise structured segmentation, allowing to use both 1D surface and 2D layer representations in a coupled fashion to train the model. In particular, these 2D segmentations are used as anatomical factors that, together with learned style factors, compose disentangled representations used for reconstructing the input image. In parallel, we propose a set of anatomical priors to improve network training when a limited amount of labeled data is available. We demonstrate on the real-world dataset of scans with intermediate and wet-AMD that our method outperforms state-of-the-art when using our full training set, but more importantly largely exceeds state-of-the-art when it is trained with a fraction of the labeled data.
翻訳日:2022-07-04 16:29:44 公開日:2022-07-01
# (参考訳) GAN潜在幾何学を用いた線形逆問題の解空間の探索

Exploring the solution space of linear inverse problems with GAN latent geometry ( http://arxiv.org/abs/2207.00460v1 )

ライセンス: CC BY 4.0
Antonio Montanaro, Diego Valsesia, Enrico Magli(参考訳) 逆問題とは、不完全な測定セットからの信号の再構成であり、その性能は正規化によって符号化された事前知識の品質に大きく依存する。 従来のアプローチではユニークなソリューションの獲得に重点を置いているが、新たなトレンドでは、複数の実現可能なソリューションの探求が検討されている。 本稿では,生成型逆ネットワークによって学習される計測値とデータ駆動前処理値の両方に適合する複数の再構成を生成する手法を提案する。 特に、初期解から、前方演算子にヌルな生成モデルの潜在空間における方向を見つけることができ、その結果、重要な知覚的変化を誘発しながら測定値との整合性を維持することができることを示す。 我々の探索手法は、既存の手法よりも桁違いに高速な逆問題に対する複数の解を生成することができる。

Inverse problems consist in reconstructing signals from incomplete sets of measurements and their performance is highly dependent on the quality of the prior knowledge encoded via regularization. While traditional approaches focus on obtaining a unique solution, an emerging trend considers exploring multiple feasibile solutions. In this paper, we propose a method to generate multiple reconstructions that fit both the measurements and a data-driven prior learned by a generative adversarial network. In particular, we show that, starting from an initial solution, it is possible to find directions in the latent space of the generative model that are null to the forward operator, and thus keep consistency with the measurements, while inducing significant perceptual change. Our exploration approach allows to generate multiple solutions to the inverse problem an order of magnitude faster than existing approaches; we show results on image super-resolution and inpainting problems.
翻訳日:2022-07-04 16:19:33 公開日:2022-07-01
# (参考訳) panning for gold: プラットフォームに依存しないテキストデータによる政治的コンテンツの自動検出から学んだ教訓

Panning for gold: Lessons learned from the platform-agnostic automated detection of political content in textual data ( http://arxiv.org/abs/2207.00489v1 )

ライセンス: CC BY 4.0
Mykola Makhortykh, Ernesto de Le\'on, Aleksandra Urman, Clara Christner, Maryna Sydorova, Silke Adam, Michaela Maier, and Teresa Gil-Lopez(参考訳) オンライン情報行動に関するデータの普及は、政治コミュニケーション研究に新たな可能性をもたらす。 しかし、これらのデータの量と多様性によって分析が難しくなり、さまざまな自然言語処理技術(機械学習やニューラルネットワークベースのものなど)に依存する自動コンテンツアプローチの開発が必要になる。 本稿では、これらの手法を用いて、異なるプラットフォーム間の政治コンテンツを検出する方法について論じる。 オンラインプラットフォームからの様々な政治的および非政治的テキスト文書を含む3つの検証データセットを用いて,辞書や教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを体系的に比較した。 また,大集合 (n = 66) の検出モデルを用いて,これらの手法の低コスト実装に対するデータ前処理(例えば,ステッピングやストップワード除去)の異なるモードの影響について検討した。 その結果,ニューラルネットモデルと機械学習モデルによって得られるノイズの少ないデータに対して,先行処理がモデル性能に与える影響は限定的であることが判明した。

The growing availability of data about online information behaviour enables new possibilities for political communication research. However, the volume and variety of these data makes them difficult to analyse and prompts the need for developing automated content approaches relying on a broad range of natural language processing techniques (e.g. machine learning- or neural network-based ones). In this paper, we discuss how these techniques can be used to detect political content across different platforms. Using three validation datasets, which include a variety of political and non-political textual documents from online platforms, we systematically compare the performance of three groups of detection techniques relying on dictionaries, supervised machine learning, or neural networks. We also examine the impact of different modes of data preprocessing (e.g. stemming and stopword removal) on the low-cost implementations of these techniques using a large set (n = 66) of detection models. Our results show the limited impact of preprocessing on model performance, with the best results for less noisy data being achieved by neural network- and machine-learning-based models, in contrast to the more robust performance of dictionary-based models on noisy data.
翻訳日:2022-07-04 16:09:58 公開日:2022-07-01
# (参考訳) 位相多様体学習によるクラスター解析の強化

Enhancing cluster analysis via topological manifold learning ( http://arxiv.org/abs/2207.00510v1 )

ライセンス: CC BY 4.0
Moritz Herrmann, Daniyal Kazempour, Fabian Scheipl, Peer Kr\"oger(参考訳) クラスタ分析のトポロジ的側面を議論し、クラスタ化前にデータセットのトポロジ的構造を推定することでクラスタ検出を大幅に向上させることができることを示す。 本研究では, 位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。 合成データと実データの結果から, 異なる密度のクラスタや, あるいは絡み合った形状のクラスタを含む, 多様な低次元および高次元問題のクラスタリングを単純化し, 改善することが示された。 トポロジカル前処理はDBSCANのパラメータ感度を一貫して低下させるので,クラスタリングを単純化する。 結果の埋め込みを DBSCAN でクラスタ化することで、SPECTACL や ClusterGAN といった複雑なメソッドよりも優れています。 最後に, クラスタリングにおける重要な問題は, データの固有次元やそれに含まれる無関係な特徴の数ではなく, クラスタが組み込まれている環境観測空間にどのように存在するか, むしろデータの特徴によって定義される(高次元)ユークリッド空間であることが示唆された。 我々のアプローチは、ある意味分離性に最適化されたより適切な空間にデータを投影した後、クラスタ分析を行うので成功しています。

We discuss topological aspects of cluster analysis and show that inferring the topological structure of a dataset before clustering it can considerably enhance cluster detection: theoretical arguments and empirical evidence show that clustering embedding vectors, representing the structure of a data manifold instead of the observed feature vectors themselves, is highly beneficial. To demonstrate, we combine manifold learning method UMAP for inferring the topological structure with density-based clustering method DBSCAN. Synthetic and real data results show that this both simplifies and improves clustering in a diverse set of low- and high-dimensional problems including clusters of varying density and/or entangled shapes. Our approach simplifies clustering because topological pre-processing consistently reduces parameter sensitivity of DBSCAN. Clustering the resulting embeddings with DBSCAN can then even outperform complex methods such as SPECTACL and ClusterGAN. Finally, our investigation suggests that the crucial issue in clustering does not appear to be the nominal dimension of the data or how many irrelevant features it contains, but rather how \textit{separable} the clusters are in the ambient observation space they are embedded in, which is usually the (high-dimensional) Euclidean space defined by the features of the data. Our approach is successful because we perform the cluster analysis after projecting the data into a more suitable space that is optimized for separability, in some sense.
翻訳日:2022-07-04 16:08:15 公開日:2022-07-01
# (参考訳) 機械学習を用いた非定常力学系のタイピング点予測とポストタイピングダイナミクスへの外挿

Using Machine Learning to Anticipate Tipping Points and Extrapolate to Post-Tipping Dynamics of Non-Stationary Dynamical Systems ( http://arxiv.org/abs/2207.00521v1 )

ライセンス: CC BY 4.0
Dhruvit Patel and Edward Ott(参考訳) 本稿では,未知の(あるいは部分的に未知の)非定常的,うるさい,カオス的,ダイナミックなシステムの時間的進化にともなう,チップ点遷移の予測と長期的ポストティッピング・ポイントの挙動について考察する。 MLトレーニングで利用可能な過去の動的状態時系列が、主に状態空間の制限された領域に置かれているのに対して、予測される振る舞いは、トレーニング中にMLモデルによって完全に観察されていないより大きな状態空間で進化する。 この状況では、ML予測システムは、トレーニング中に観察された過去の異なるダイナミクスに外挿する能力を持つ必要がある。 本稿では,この課題に対して,ML手法が有効な結果が得られる範囲と,それらが失敗する条件について検討する。 一般的に、ML手法は極めて困難な状況でも驚くほど効果的であることがわかったが、"あまりにも"外挿が必要になったときに(予想通り)失敗する。 後者の場合,MLアプローチと科学的知識に基づく従来のモデリングを組み合わせることで,MLベースのコンポーネントと知識ベースのコンポーネントが単独で動作しない場合でも,有用な予測が可能なハイブリッド予測システムを構築する。 また,非常に慎重に選択されたMLハイパーパラメータを用いて有用な結果を得るためには,この問題に対処するためのハイパーパラメータ最適化戦略を提案する。 本研究の主な結論は、将来の進化(転倒点の交差によるものと思われる)がトレーニングデータによって探索された集合外におけるダイナミクスを含む場合であっても、MLベースのアプローチは非定常力学系の挙動を予測するための有望なツールであるということである。

In this paper we consider the machine learning (ML) task of predicting tipping point transitions and long-term post-tipping-point behavior associated with the time evolution of an unknown (or partially unknown), non-stationary, potentially noisy and chaotic, dynamical system. We focus on the particularly challenging situation where the past dynamical state time series that is available for ML training predominantly lies in a restricted region of the state space, while the behavior to be predicted evolves on a larger state space set not fully observed by the ML model during training. In this situation, it is required that the ML prediction system have the ability to extrapolate to different dynamics past that which is observed during training. We investigate the extent to which ML methods are capable of accomplishing useful results for this task, as well as conditions under which they fail. In general, we found that the ML methods were surprisingly effective even in situations that were extremely challenging, but do (as one would expect) fail when ``too much" extrapolation is required. For the latter case, we investigate the effectiveness of combining the ML approach with conventional modeling based on scientific knowledge, thus forming a hybrid prediction system which we find can enable useful prediction even when its ML-based and knowledge-based components fail when acting alone. We also found that achieving useful results may require using very carefully selected ML hyperparameters and we propose a hyperparameter optimization strategy to address this problem. The main conclusion of this paper is that ML-based approaches are promising tools for predicting the behavior of non-stationary dynamical systems even in the case where the future evolution (perhaps due to the crossing of a tipping point) includes dynamics on a set outside of that explored by the training data.
翻訳日:2022-07-04 16:07:13 公開日:2022-07-01
# (参考訳) パラメトリック方程式発見のための深層学習と記号回帰

Deep Learning and Symbolic Regression for Discovering Parametric Equations ( http://arxiv.org/abs/2207.00529v1 )

ライセンス: CC BY 4.0
Michael Zhang, Samuel Kim, Peter Y. Lu, Marin Solja\v{c}i\'c(参考訳) シンボリック回帰(symbolive regression)は、データの制御公式を学習し、科学的発見を変革する可能性を持つ機械学習技術である。 しかし、シンボリック回帰は、解析できるシステムの複雑さと次元性にはまだ制限がある。 一方、ディープラーニングは、非常に複雑で高次元のデータセットを解析する能力に機械学習を変革した。 本稿では,ある係数が変化するが基礎となる支配方程式の構造が一定であるパラメトリックシステムにシンボリック回帰を拡張するニューラルネットワークアーキテクチャを提案する。 本稿では,様々な解析式,ODE,PDEを様々な係数で表し,トレーニング領域の外によく外挿されていることを示す。 ニューラルネットワークベースのアーキテクチャは、他のディープラーニングアーキテクチャとも統合でき、エンドツーエンドのトレーニングを受けたまま、高次元データを分析できる。 この目的のために、アーキテクチャを畳み込みニューラルネットワークと統合し、様々なスプリングシステムの1次元画像を分析する。

Symbolic regression is a machine learning technique that can learn the governing formulas of data and thus has the potential to transform scientific discovery. However, symbolic regression is still limited in the complexity and dimensionality of the systems that it can analyze. Deep learning on the other hand has transformed machine learning in its ability to analyze extremely complex and high-dimensional datasets. We propose a neural network architecture to extend symbolic regression to parametric systems where some coefficient may vary but the structure of the underlying governing equation remains constant. We demonstrate our method on various analytic expressions, ODEs, and PDEs with varying coefficients and show that it extrapolates well outside of the training domain. The neural network-based architecture can also integrate with other deep learning architectures so that it can analyze high-dimensional data while being trained end-to-end. To this end we integrate our architecture with convolutional neural networks to analyze 1D images of varying spring systems.
翻訳日:2022-07-04 16:05:51 公開日:2022-07-01
# (参考訳) 自動車点群における自己教師付き学習のためのマスクオートエンコーダ

Masked Autoencoders for Self-Supervised Learning on Automotive Point Clouds ( http://arxiv.org/abs/2207.00531v1 )

ライセンス: CC BY 4.0
Georg Hess, Johan Jaxing, Elias Svensson, David Hagerman, Christoffer Petersson, Lennart Svensson(参考訳) Maskedオートエンコーディングは、テキスト、画像、最近ではポイントクラウドのためのTransformerモデルの事前トレーニングパラダイムとして成功している。 生の自動車データセットは、一般的に3dオブジェクト検出(od)のようなタスクのアノテーションに比べて収集が安価であるため、自己教師あり事前トレーニングに適した候補である。 しかし、点雲のためのマスク付きオートエンコーダの開発は、合成データと室内データのみに焦点を当てている。 その結果、既存の手法は、小さく、密度が高く、均一な点密度を持つ点雲への表現とモデルを調整した。 本研究では,自動車環境における点雲のマスク付きオートエンコーディングについて検討した。 この目的のために,voxel表現用に設計された簡単なマスク付き自動エンコーディングプリトレーニングスキームvoxel-maeを提案する。 トランスフォーマーを用いた3Dオブジェクト検出器のバックボーンを事前訓練し、マスク付きボクセルを再構築し、空のボクセルと空のボクセルを区別する。 提案手法は,難解なnuScenesデータセット上で1.75mAPポイントと1.05NDSで3D OD性能を向上する。 Voxel-MAEは、既存の自動車データに対する自己管理手法と比較して、最大2ドル以上のパフォーマンス向上を示す。 さらに,voxel-mae を事前学習することにより,無作為初期化等価値を上回るアノテートデータの 40% しか必要としないことを示す。 コードはリリースされる。

Masked autoencoding has become a successful pre-training paradigm for Transformer models for text, images, and recently, point clouds. Raw automotive datasets are a suitable candidate for self-supervised pre-training as they generally are cheap to collect compared to annotations for tasks like 3D object detection (OD). However, development of masked autoencoders for point clouds has focused solely on synthetic and indoor data. Consequently, existing methods have tailored their representations and models toward point clouds which are small, dense and have homogeneous point density. In this work, we study masked autoencoding for point clouds in an automotive setting, which are sparse and for which the point density can vary drastically among objects in the same scene. To this end, we propose Voxel-MAE, a simple masked autoencoding pre-training scheme designed for voxel representations. We pre-train the backbone of a Transformer-based 3D object detector to reconstruct masked voxels and to distinguish between empty and non-empty voxels. Our method improves the 3D OD performance by 1.75 mAP points and 1.05 NDS on the challenging nuScenes dataset. Compared to existing self-supervised methods for automotive data, Voxel-MAE displays up to $2\times$ performance increase. Further, we show that by pre-training with Voxel-MAE, we require only 40% of the annotated data to outperform a randomly initialized equivalent. Code will be released.
翻訳日:2022-07-04 15:45:23 公開日:2022-07-01
# (参考訳) シーングラフからの変換画像生成

Transforming Image Generation from Scene Graphs ( http://arxiv.org/abs/2207.00545v1 )

ライセンス: CC BY 4.0
Renato Sortino, Simone Palazzo, Concetto Spampinato(参考訳) 意味的な視覚的知識から画像を生成することは難しい作業であり、クラスラベルやテキスト記述のような代替品と比較して、合成プロセスを複雑で微妙で曖昧な方法で条件付けるのに役立ちます。 意味表現によって条件付けられた生成メソッドは存在するが、オブジェクト間の制約の仕様以外に生成プロセスを制御する手段を提供していない。 例として、手動で特定の項目を追加して画像を反復的に生成または修正する可能性は、我々の知る限り、文献において十分に研究されていない所望の特性である。 本研究は,シーングラフによって条件付けられたトランスフォーマーベースのアプローチを提案する。この手法は,最近のトランスフォーマーベースの手法と逆に,デコーダを用いて自動回帰合成を行う。 提案されたアーキテクチャは3つのモジュールで構成されている。 1) 入力グラフの関係を符号化するグラフ畳み込みネットワーク 2) 出力画像を自己回帰的に構成するエンコーダ−デコーダ変換器 3) トランスによって各生成ステップの入出力として使用される表現を生成するために使用される自動エンコーダ。 CIFAR10およびMNIST画像から得られた結果から,本モデルはシーングラフで定義されたセマンティック制約を満たすことができ,ユーザが希望するターゲットの部分的レンダリングを考慮に入れ,シーン内の視覚オブジェクト間の関係をモデル化することができる。

Generating images from semantic visual knowledge is a challenging task, that can be useful to condition the synthesis process in complex, subtle, and unambiguous ways, compared to alternatives such as class labels or text descriptions. Although generative methods conditioned by semantic representations exist, they do not provide a way to control the generation process aside from the specification of constraints between objects. As an example, the possibility to iteratively generate or modify images by manually adding specific items is a desired property that, to our knowledge, has not been fully investigated in the literature. In this work we propose a transformer-based approach conditioned by scene graphs that, conversely to recent transformer-based methods, also employs a decoder to autoregressively compose images, making the synthesis process more effective and controllable. The proposed architecture is composed by three modules: 1) a graph convolutional network, to encode the relationships of the input graph; 2) an encoder-decoder transformer, which autoregressively composes the output image; 3) an auto-encoder, employed to generate representations used as input/output of each generation step by the transformer. Results obtained on CIFAR10 and MNIST images show that our model is able to satisfy semantic constraints defined by a scene graph and to model relations between visual objects in the scene by taking into account a user-provided partial rendering of the desired target.
翻訳日:2022-07-04 15:12:17 公開日:2022-07-01
# 変分オートエンコーダを用いた音声誘発脳波からの主題不変表現の学習

Learning Subject-Invariant Representations from Speech-Evoked EEG Using Variational Autoencoders ( http://arxiv.org/abs/2207.00323v1 )

ライセンス: Link先を確認
Lies Bollens, Tom Francart, Hugo Van hamme(参考訳) 脳波(EEG)は、脳が音声をどのように処理するかを理解する強力な方法である。 線形モデルは、この目的のためにディープニューラルネットワークに置き換えられ、有望な結果をもたらす。 関連する脳波分類の分野では、主観不変特徴を明示的にモデル化することで、対象をまたがるモデルの一般化が改善され、分類精度が向上することが示されている。 本研究では,同一刺激の並列脳波記録を活用すべく,階層的変動自動エンコーダを適用した。 脳波を2つの非絡み合った潜在空間にモデル化する。 被験者の精度はそれぞれ98.96%、コンテンツの潜在空間では1.60%、バイナリコンテンツの分類実験では51.51%、コンテンツの潜在空間では62.91%である。

The electroencephalogram (EEG) is a powerful method to understand how the brain processes speech. Linear models have recently been replaced for this purpose with deep neural networks and yield promising results. In related EEG classification fields, it is shown that explicitly modeling subject-invariant features improves generalization of models across subjects and benefits classification accuracy. In this work, we adapt factorized hierarchical variational autoencoders to exploit parallel EEG recordings of the same stimuli. We model EEG into two disentangled latent spaces. Subject accuracy reaches 98.96% and 1.60% on respectively the subject and content latent space, whereas binary content classification experiments reach an accuracy of 51.51% and 62.91% on respectively the subject and content latent space.
翻訳日:2022-07-04 14:57:20 公開日:2022-07-01
# 量子リカレントニューラルネットワークの高速トレーニング

Rapid training of quantum recurrent neural network ( http://arxiv.org/abs/2207.00378v1 )

ライセンス: Link先を確認
Micha{\l} Siemaszko, Thomas McDermott, Adam Buraczewski, Bertrand Le Saux, Magdalena Stobi\'nska(参考訳) 時系列予測は、天気予報や株価予報など、多くの人間の活動にとって重要なタスクである。 この問題の解決策のひとつは、リカレントニューラルネットワーク(RNN)を使用することだ。 正確な予測は可能だが、学習プロセスは遅く複雑である。 本稿では,これらの障害に対処する量子リカレントニューラルネットワーク(QRNN)を提案する。 ネットワークの設計は連続可変量子コンピューティングパラダイムに基づいている。 ネットワークは,いくつかの時間的データの時間依存性を学習できることを実証する。 数値シミュレーションにより,qrnnは古典的ネットワークよりも少ないエポックで最適重みに収束することが示された。 さらに、少数のトレーニング可能なパラメータでは、後者よりも低い損失を達成できる。

Time series prediction is the crucial task for many human activities e.g. weather forecasts or predicting stock prices. One solution to this problem is to use Recurrent Neural Networks (RNNs). Although they can yield accurate predictions, their learning process is slow and complex. Here we propose a Quantum Recurrent Neural Network (QRNN) to address these obstacles. The design of the network is based on the continuous-variable quantum computing paradigm. We demonstrate that the network is capable of learning time dependence of a few types of temporal data. Our numerical simulations show that the QRNN converges to optimal weights in fewer epochs than the classical network. Furthermore, for a small number of trainable parameters it can achieve lower loss than the latter.
翻訳日:2022-07-04 14:57:05 公開日:2022-07-01
# ニューラルネットワークを用いた新規テストセレクタ

A Neural Network Based Novel Test Selector ( http://arxiv.org/abs/2207.00445v1 )

ライセンス: Link先を確認
Xuan Zheng, Kerstin Eder and Tim Blackmore(参考訳) 機械学習(ML)は、シミュレーションベースの検証における機能カバレッジの進行を加速するために使われてきた。 教師付きMLアルゴリズムは、前回の作業で一般的なオプションとして、テスト生成のバイアスや生成されたテストのフィルタリングに使用される。 しかしながら、カバレッジイベントの欠如に対して、これらのアルゴリズムはトレーニングフェーズで学ぶべきポジティブな例を欠いている。 したがって、アルゴリズムが生成またはフィルタリングしたテストは、カバレッジホールを効果的に満たすことができない。 カバースペースが大きく、機能が複雑であるため、大規模な設計を検証する場合、これはより厳しい。 本稿では,ニューラルネットワーク(nn)に基づくテスト選択フレームワークについて述べる。このフレームワークは,3つの構成の下でのシミュレーション労力をはるかに少なくして,ランダムシミュレーションとして同様のカバレッジを実現することができる。 さらに、フレームワークのパフォーマンスは、ヒットするカバレッジイベントの数によって制限されない。 実験では、商用信号処理ユニットを使用して、フレームワークの有効性を実証する。 ランダムシミュレーションと比較して、nnbntは最大53.74%のシミュレーション時間を削減でき、99%のカバレッジレベルに達する。

Machine learning (ML) has been used to accelerate the progress of functional coverage in simulation-based verification. A supervised ML algorithm, as a prevalent option in the previous work, is used to bias the test generation or filter the generated tests. However, for missing coverage events, these algorithms lack the positive examples to learn from in the training phase. Therefore, the tests generated or filtered by the algorithms cannot effectively fill the coverage holes. This is more severe when verifying large-scale design because the coverage space is larger and the functionalities are more complex. This paper presents a configurable framework of test selection based on neural networks (NN), which can achieve a similar coverage gain as random simulation with far less simulation effort under three configurations of the framework. Moreover, the performance of the framework is not limited by the number of coverage events being hit. A commercial signal processing unit is used in the experiment to demonstrate the effectiveness of the framework. Compared to the random simulation, NNBNTS can reduce up to 53.74% of simulation time to reach 99% coverage level.
翻訳日:2022-07-04 14:56:37 公開日:2022-07-01
# AI+R-tree:インスタンス最適化R-tree

The "AI+R"-tree: An Instance-optimized R-tree ( http://arxiv.org/abs/2207.00550v1 )

ライセンス: Link先を確認
Abdullah-Al-Mamun, Ch. Md. Rakin Haider, Jianguo Wang, Walid G. Aref(参考訳) インスタンス最適化システムの新たなクラスは、特定のデータやクエリワークロードに特化することで、ハイパフォーマンスを実現する可能性を示している。 特に機械学習(ML)技術は、様々なインスタンス最適化コンポーネント(学習インデックスなど)の構築に成功している。 本稿では,与えられたデータおよびクエリ処理に対する空間インデックス,特にR木の性能向上にML手法を活用することを検討する。 r-木インデックスノードがカバーする領域は空間で重なり合うため、空間内の特定の点を探索すると、ルートからリーフまでの複数の経路が探索される可能性がある。 最悪の場合、Rツリー全体を検索することができる。 本稿では,範囲問合せで要求される外部リーフノードアクセスの程度を定量化するために,重なり比を定義し,使用する。 目標は、長い実行時間を消費する傾向があるため、高オーバーラップ範囲のクエリに対して、従来のRツリーのクエリパフォーマンスを向上させることである。 本稿では,r-treeの探索操作をマルチラベル分類タスクに変換し,外部リーフノードのアクセスを除外する新しいai-treeを提案する。 そして、従来のRツリーをAIツリーに拡張し、AI+Rツリーをハイブリッド化する。 AI+R"ツリーは学習モデルを用いて,ハイオーバーラップクエリとローオーバーラップクエリを自動的に区別することができる。 したがって、AI+R-treeはAI-treeを用いたハイオーバーラップクエリとR-treeを用いた低オーバーラップクエリを処理する。 実際のデータセットの実験では、"AI+R"ツリーが従来のRツリーのクエリ性能を最大500%向上できることが示されている。

The emerging class of instance-optimized systems has shown potential to achieve high performance by specializing to a specific data and query workloads. Particularly, Machine Learning (ML) techniques have been applied successfully to build various instance-optimized components (e.g., learned indexes). This paper investigates to leverage ML techniques to enhance the performance of spatial indexes, particularly the R-tree, for a given data and query workloads. As the areas covered by the R-tree index nodes overlap in space, upon searching for a specific point in space, multiple paths from root to leaf may potentially be explored. In the worst case, the entire R-tree could be searched. In this paper, we define and use the overlap ratio to quantify the degree of extraneous leaf node accesses required by a range query. The goal is to enhance the query performance of a traditional R-tree for high-overlap range queries as they tend to incur long running-times. We introduce a new AI-tree that transforms the search operation of an R-tree into a multi-label classification task to exclude the extraneous leaf node accesses. Then, we augment a traditional R-tree to the AI-tree to form a hybrid "AI+R"-tree. The "AI+R"-tree can automatically differentiate between the high- and low-overlap queries using a learned model. Thus, the "AI+R"-tree processes high-overlap queries using the AI-tree, and the low-overlap queries using the R-tree. Experiments on real datasets demonstrate that the "AI+R"-tree can enhance the query performance over a traditional R-tree by up to 500%.
翻訳日:2022-07-04 14:54:52 公開日:2022-07-01
# 説明者の評価:MOOCにおける学生成功予測のためのブラックボックス記述型機械学習

Evaluating the Explainers: Black-Box Explainable Machine Learning for Student Success Prediction in MOOCs ( http://arxiv.org/abs/2207.00551v1 )

ライセンス: Link先を確認
Vinitra Swamy, Bahar Radmehr, Natasa Krco, Mirko Marras, Tanja K\"aser(参考訳) ニューラルネットワークは、教育のための応用機械学習においてユビキタスである。 予測性能の広範にわたる成功は、重大な弱点、決定の説明可能性の欠如、特に人間中心の分野に関係している。 我々は、ブラックボックス機械学習モデル(LIME, PermutationSHAP, KernelSHAP, DiCE, CEM)を説明するための5つの最先端手法を実装し、5つの大規模オープンオンラインコースにおける学生パフォーマンス予測の下流課題に対する各アプローチの強みについて検討する。 本実験は,同じ学生群を対象とする双方向LSTMモデルの特徴的重要性について,説明者の家族間では一致しないことを示した。 主成分分析, ジェンセン・シャノン距離, スピアマンの階階数相関を用いて, 方法やコースの相互比較を定量的に行う。 さらに,カリキュラムに基づく前提条件関係における説明器の性能を検証する。 この結果から,説明者の選択は重要な決定であり,モデルが学習する過程よりもむしろ予測結果の解釈に最も重要であるという結論が得られた。 ソースコードとモデルはhttp://github.com/epfl-ml4ed/evaluating-explainersでリリースされている。

Neural networks are ubiquitous in applied machine learning for education. Their pervasive success in predictive performance comes alongside a severe weakness, the lack of explainability of their decisions, especially relevant in human-centric fields. We implement five state-of-the-art methodologies for explaining black-box machine learning models (LIME, PermutationSHAP, KernelSHAP, DiCE, CEM) and examine the strengths of each approach on the downstream task of student performance prediction for five massive open online courses. Our experiments demonstrate that the families of explainers do not agree with each other on feature importance for the same Bidirectional LSTM models with the same representative set of students. We use Principal Component Analysis, Jensen-Shannon distance, and Spearman's rank-order correlation to quantitatively cross-examine explanations across methods and courses. Furthermore, we validate explainer performance across curriculum-based prerequisite relationships. Our results come to the concerning conclusion that the choice of explainer is an important decision and is in fact paramount to the interpretation of the predictive results, even more so than the course the model is trained on. Source code and models are released at http://github.com/epfl-ml4ed/evaluating-explainers.
翻訳日:2022-07-04 14:54:28 公開日:2022-07-01
# 乱流をシミュレートするスペクトル法を正すための学習

Learning to correct spectral methods for simulating turbulent flows ( http://arxiv.org/abs/2207.00556v1 )

ライセンス: Link先を確認
Gideon Dresdner, Dmitrii Kochkov, Peter Norgaard, Leonardo Zepeda-N\'u\~nez, Jamie A. Smith, Michael P. Brenner, Stephan Hoyer(参考訳) 科学と工学の共通性にもかかわらず、一握りの偏微分方程式 (pdes) のみが解析的あるいは閉形式解を持つ。 これはPDEの数値シミュレーションに関する多くの古典的な研究を動機付けており、最近では機械学習(ML)を利用したデータ駆動技術の研究が盛んに行われている。 最近の研究は、古典的数値テクニックと機械学習のハイブリッドが、どちらのアプローチよりも大幅に改善できることを示している。 本研究は, 物理学に基づく事前計算を取り入れる際に, 数値スキームの選択が重要であることを示す。 フーリエ法に基づくスペクトル法は, PDEを円滑かつ周期的な解でシミュレーションする他の数値手法よりもはるかに効率的である。 具体的には,3種類の流体力学モデルPDEに対するML拡張スペクトル解法を開発し,同じ解法で標準スペクトル解法の精度を向上する。 また、機械学習と数値手法を組み合わせてPDEを解くための重要な設計原則をいくつか紹介する。

Despite their ubiquity throughout science and engineering, only a handful of partial differential equations (PDEs) have analytical, or closed-form solutions. This motivates a vast amount of classical work on numerical simulation of PDEs and more recently, a whirlwind of research into data-driven techniques leveraging machine learning (ML). A recent line of work indicates that a hybrid of classical numerical techniques with machine learning can offer significant improvements over either approach alone. In this work, we show that the choice of the numerical scheme is crucial when incorporating physics-based priors. We build upon Fourier-based spectral methods, which are considerably more efficient than other numerical schemes for simulating PDEs with smooth and periodic solutions. Specifically, we develop ML-augmented spectral solvers for three model PDEs of fluid dynamics, which improve upon the accuracy of standard spectral solvers at the same resolution. We also demonstrate a handful of key design principles for combining machine learning and numerical methods for solving PDEs.
翻訳日:2022-07-04 14:54:07 公開日:2022-07-01
# ウェーブレットリーダーを用いたX線画像における肺結節分類のためのマルチフラクタル特徴の計算

Wavelet leader based formalism to compute multifractal features for classifying lung nodules in X-ray images ( http://arxiv.org/abs/2207.00262v1 )

ライセンス: Link先を確認
Isabella Mar\'ia Sierra-Ponce, Angela Mireya Le\'on-Mec\'ias, Damian Vald\'es-Santiago(参考訳) 本稿では,X線画像におけるマルチフラクタル特徴を用いた新しい肺結節分類アルゴリズムを提案し,検証する。 提案手法は、ヒストグラム等化法とウェーブレット分解法と形態的操作法の組み合わせの2つの拡張技術を適用する前処理工程を含む。 新規性として、ウェーブレットのリーダベースの形式を用いたマルチフラクタル機能は、サポートベクタマシン分類器で使用されるが、他の古典的なテクスチャ機能も含まれている。 その結果, 古典的テクスチャ特徴と組み合わせたマルチフラクタル特徴を用いた場合, 最大roc aucは75\%であった。 その結果,データ拡張手法とパラメータ最適化により改善が見られた。 提案手法は, 計算コストと精度の両方において, 弾性極大ウェーブレット形式よりも効率的で精度が高いことが証明された。

This paper presents and validates a novel lung nodule classification algorithm that uses multifractal features found in X-ray images. The proposed method includes a pre-processing step where two enhancement techniques are applied: histogram equalization and a combination of wavelet decomposition and morphological operations. As a novelty, multifractal features using wavelet leader based formalism are used with Support Vector Machine classifier; other classical texture features were also included. Best results were obtained when using multifractal features in combination with classical texture features, with a maximum ROC AUC of 75\%. The results show improvements when using data augmentation technique, and parameter optimization. The proposed method proved to be more efficient and accurate than Modulus Maxima Wavelet Formalism in both computational cost and accuracy when compared in a similar experimental set up.
翻訳日:2022-07-04 14:52:33 公開日:2022-07-01
# 解釈可能な埋め込みのための(un)likelihood training

(Un)likelihood Training for Interpretable Embedding ( http://arxiv.org/abs/2207.00282v1 )

ライセンス: Link先を確認
Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan and Zhijian Hou(参考訳) クロスモーダル表現学習は,テキストと視覚データ間の意味的ギャップを埋めるための新しい標準となった。 しかしながら、連続的な潜在空間におけるモダリティ非依存表現の学習は、しばしばブラックボックスのデータ駆動トレーニングプロセスとして扱われる。 表現学習の有効性は,トレーニングデータの質や規模に大きく依存していることが知られている。 映像表現学習では,学習のための映像コンテンツの完全なスペクトルを注釈するラベルの完全なセットを持つことは,不可能ではないにせよ極めて困難である。 これらの問題、ブラックボックストレーニングとデータセットバイアスは、説明不能で予測不可能な結果のため、ビデオ理解のために表現学習を実際に展開することが困難である。 本稿では,ラベル空間の問題に対処しながら,埋め込みの背後にある意味を解き放つための2つの新しい訓練目標,可能性と相違点を提案する。 機会訓練は、ラベル以外の埋め込みの意味を解釈することを目的としており、違和感訓練は、正規化のための事前知識を活用して意味的に一貫性のある解釈を保証する。 双方のトレーニング目標により,解釈可能なクロスモーダル表現を学習する新しいエンコーダデコーダネットワークが提案されている。 TRECVidとMSR-VTTデータセットの大規模な実験により、提案されたネットワークは、統計的に有意な性能マージンを持つ最先端の検索モデルよりも優れていることが示された。

Cross-modal representation learning has become a new normal for bridging the semantic gap between text and visual data. Learning modality agnostic representations in a continuous latent space, however, is often treated as a black-box data-driven training process. It is well-known that the effectiveness of representation learning depends heavily on the quality and scale of training data. For video representation learning, having a complete set of labels that annotate the full spectrum of video content for training is highly difficult if not impossible. These issues, black-box training and dataset bias, make representation learning practically challenging to be deployed for video understanding due to unexplainable and unpredictable results. In this paper, we propose two novel training objectives, likelihood and unlikelihood functions, to unroll semantics behind embeddings while addressing the label sparsity problem in training. The likelihood training aims to interpret semantics of embeddings beyond training labels, while the unlikelihood training leverages prior knowledge for regularization to ensure semantically coherent interpretation. With both training objectives, a new encoder-decoder network, which learns interpretable cross-modal representation, is proposed for ad-hoc video search. Extensive experiments on TRECVid and MSR-VTT datasets show the proposed network outperforms several state-of-the-art retrieval models with a statistically significant performance margin.
翻訳日:2022-07-04 14:52:16 公開日:2022-07-01
# lenslet plenoptic ビデオ符号化における光空間運動補償

Ray-Space Motion Compensation for Lenslet Plenoptic Video Coding ( http://arxiv.org/abs/2207.00522v1 )

ライセンス: Link先を確認
Thuc Nguyen Huu, Vinh Van Duong, Jonghoon Yim, Byeungwoo Jeon(参考訳) 豊富な情報を持つ複眼画像やビデオは膨大な量のデータストレージと高い伝送コストを必要とする。 plenoptic画像符号化に関する多くの研究がなされているが、plenopticビデオ符号化に関する調査は非常に限られている。 本研究では,従来の画素領域ではなく,線空間領域の問題に着目し,plenopticビデオ符号化の動作補償を若干異なる視点から検討する。 そこで我々は,光線空間運動,すなわち整数線空間運動と分数線空間運動の2つのサブケースの下で,レンズレット映像の新たな動き補償手法を開発した。 提案する光場運動補正予測方式は,HEVCなどのよく知られたビデオ符号化技術に容易に組み込めるように設計されている。 既存の方法と比較した実験結果は、平均利得19.63%、ピーク利得29.1%という顕著な圧縮効率を示した。

Plenoptic images and videos bearing rich information demand a tremendous amount of data storage and high transmission cost. While there has been much study on plenoptic image coding, investigations into plenoptic video coding have been very limited. We investigate the motion compensation for plenoptic video coding from a slightly different perspective by looking at the problem in the ray-space domain instead of in the conventional pixel domain. Here, we develop a novel motion compensation scheme for lenslet video under two sub-cases of ray-space motion, that is, integer ray-space motion and fractional ray-space motion. The proposed new scheme of light field motion-compensated prediction is designed such that it can be easily integrated into well-known video coding techniques such as HEVC. Experimental results compared to relevant existing methods have shown remarkable compression efficiency with an average gain of 19.63% and a peak gain of 29.1%.
翻訳日:2022-07-04 14:51:53 公開日:2022-07-01
# きめ細かい音声特性による音声強調の改善

Improving Speech Enhancement through Fine-Grained Speech Characteristics ( http://arxiv.org/abs/2207.00237v1 )

ライセンス: Link先を確認
Muqiao Yang, Joseph Konan, David Bick, Anurag Kumar, Shinji Watanabe, Bhiksha Raj(参考訳) 深層学習に基づく音声強調システムは、音声信号の品質向上に急速に進歩してきたが、それでも人工物を含む出力を生成でき、不自然に聞こえる。 本稿では,音声の重要な特徴を最適化することにより,音質・自然性の向上を目的とした音声強調手法を提案する。 まず,音声品質(ジッタ,シマー,スペクトルフラックスなど)とよく相関している重要な音響パラメータを同定し,これらの特徴に対するクリーン音声と拡張音声の差を低減することを目的とした目的関数を提案する。 音響特徴の完全なセットは拡張ジュネーブ音響パラメータセット(egemaps)であり、音声の知覚に関連する25の異なる属性を含んでいる。 これらの特徴量計算の非微分性を考えると、まずeGeMAPSの微分可能推定器を構築し、既存の音声強調システムの微調整に使用する。 このアプローチは汎用的であり、既存のディープラーニングベースの拡張システムに適用でき、拡張された音声信号をさらに改善することができる。 深部ノイズ抑圧(dns)チャレンジデータセットを用いた実験の結果,本手法は最先端の深部学習に基づく強化システムを改善することができることがわかった。

While deep learning based speech enhancement systems have made rapid progress in improving the quality of speech signals, they can still produce outputs that contain artifacts and can sound unnatural. We propose a novel approach to speech enhancement aimed at improving perceptual quality and naturalness of enhanced signals by optimizing for key characteristics of speech. We first identify key acoustic parameters that have been found to correlate well with voice quality (e.g. jitter, shimmer, and spectral flux) and then propose objective functions which are aimed at reducing the difference between clean speech and enhanced speech with respect to these features. The full set of acoustic features is the extended Geneva Acoustic Parameter Set (eGeMAPS), which includes 25 different attributes associated with perception of speech. Given the non-differentiable nature of these feature computation, we first build differentiable estimators of the eGeMAPS and then use them to fine-tune existing speech enhancement systems. Our approach is generic and can be applied to any existing deep learning based enhancement systems to further improve the enhanced speech signals. Experimental results conducted on the Deep Noise Suppression (DNS) Challenge dataset shows that our approach can improve the state-of-the-art deep learning based enhancement systems.
翻訳日:2022-07-04 14:50:22 公開日:2022-07-01
# 話者類似度の自動評価

Automatic Evaluation of Speaker Similarity ( http://arxiv.org/abs/2207.00344v1 )

ライセンス: Link先を確認
Deja Kamil, Sanchez Ariadna, Roth Julian, Cotescu Marius(参考訳) 本稿では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。 現代のニューラルテキスト音声モデルは、大量のクリーンなトレーニングデータを必要とするため、多くのソリューションが単一話者モデルから多数の異なる話者の例に基づいてトレーニングされたソリューションに切り替える理由となっている。 マルチスピーカーモデルは、新しい音声を高速に生成するなど、新しい可能性をもたらすが、新しい問題である、話者リーク — 合成されたサンプルの話者アイデンティティがターゲット話者のそれと一致しない、という問題もある。 現在、この問題を発見する唯一の方法は、コストのかかる知覚的評価である。 本研究では,話者の類似度を評価する自動手法を提案する。 その目的のために,最近の話者照合システムの研究を拡張し,異なるメトリクスと話者埋め込みモデルがどのように複数の刺激を隠れた参照とアンカー(mushra)スコアで反映しているかを評価する。 実験により,発話レベルでは0.78パーソンスコアまでの有意な相関と精度で話者埋め込みによる話者類似度を予測するモデルを訓練できることを示した。

We introduce a new automatic evaluation method for speaker similarity assessment, that is consistent with human perceptual scores. Modern neural text-to-speech models require a vast amount of clean training data, which is why many solutions switch from single speaker models to solutions trained on examples from many different speakers. Multi-speaker models bring new possibilities, such as a faster creation of new voices, but also a new problem - speaker leakage, where the speaker identity of a synthesized example might not match those of the target speaker. Currently, the only way to discover this issue is through costly perceptual evaluations. In this work, we propose an automatic method for assessment of speaker similarity. For that purpose, we extend the recent work on speaker verification systems and evaluate how different metrics and speaker embeddings models reflect Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) scores. Our experiments show that we can train a model to predict speaker similarity MUSHRA scores from speaker embeddings with 0.96 accuracy and significant correlation up to 0.78 Pearson score at the utterance level.
翻訳日:2022-07-04 14:50:00 公開日:2022-07-01
# Shai-am:投資戦略のための機械学習プラットフォーム

Shai-am: A Machine Learning Platform for Investment Strategies ( http://arxiv.org/abs/2207.00436v1 )

ライセンス: Link先を確認
Jonghun Kwak, Jungyu Ahn, Jinho Lee, Sungwoo Park(参考訳) 金融業界は、より良い投資決定を支援するために定量的研究の手段として機械学習(ML)を採用してきたが、実際には見過ごされがちな課題がいくつかある。 1)MLコードは非構造的でアドホックで、他人との協力を妨げる傾向がある。 2) リソース要件と依存関係は,どのアルゴリズムが使用されるかによって異なり,フレキシブルでスケーラブルなシステムが必要である。 3) 従来の金融分野の専門家が,最近の技術の専門知識を得られない限り,mlベースの戦略に自らの経験と知識を適用することは困難である。 本稿では,我々のPythonフレームワークに統合されたMLプラットフォームであるShai-amについて述べる。 このプラットフォームは、既存の現代的なオープンソース技術を活用し、前述の問題を解決するための統一インターフェースを備えたMLベースの戦略のためのコンテナ化されたパイプラインを管理する。 各戦略はコアフレームワークで定義されたインターフェースを実装します。 このフレームワークは再利用性と可読性を高めるために設計されており、定量的研究における協調作業を促進する。 Shai-amは、金融市場のさまざまなタスクを解決するための、純粋なAIアセットマネージャを目指している。

The finance industry has adopted machine learning (ML) as a form of quantitative research to support better investment decisions, yet there are several challenges often overlooked in practice. (1) ML code tends to be unstructured and ad hoc, which hinders cooperation with others. (2) Resource requirements and dependencies vary depending on which algorithm is used, so a flexible and scalable system is needed. (3) It is difficult for domain experts in traditional finance to apply their experience and knowledge in ML-based strategies unless they acquire expertise in recent technologies. This paper presents Shai-am, an ML platform integrated with our own Python framework. The platform leverages existing modern open-source technologies, managing containerized pipelines for ML-based strategies with unified interfaces to solve the aforementioned issues. Each strategy implements the interface defined in the core framework. The framework is designed to enhance reusability and readability, facilitating collaborative work in quantitative research. Shai-am aims to be a pure AI asset manager for solving various tasks in financial markets.
翻訳日:2022-07-04 14:49:39 公開日:2022-07-01
# 過渡熱伝導問題のメッシュモデルの暗黙的適応

Implicit adaptation of mesh model of transient heat conduction problem ( http://arxiv.org/abs/2207.00444v1 )

ライセンス: Link先を確認
Zhukov Petr and Glushchenko Anton and Fomin Andrey(参考訳) 高温加熱を考えると、過渡熱伝導モデルの方程式は、モデルの熱物理パラメータの温度依存性を、加熱される各特定の物質について同定する必要がある。 この問題は最もよく、必要パラメータの測定に関する表データ近似によって解決されるが、これは回帰方程式を用いて文献に見ることができる。 しかし、例えば、鋼の加熱過程を考えると、合金鋼など多くの種類の鋼の板状離散測定が欠如しているため、この手法は実装が困難である。 本稿では,関連する変分問題の解法に基づく新しい手法を提案する。 その主な考え方は、古典的な意味での適応プロセス(すなわち温度に関する熱力学的パラメータの依存関係を見つけること)を、植物から受け取った技術データに基づいてメッシュモデルの「教師付き学習」に置き換えることである。 熱物性係数に関連する過渡熱伝導モデルのパラメータを調整する方程式が導出されている。 特定のグレードのグループの鋼に対して数値実験を行い、十分な技術と表データの両方が利用可能である。 その結果、加熱された物質の物理的および化学的特性に関する情報を明示的に受信していない「訓練された」メッシュモデルは、表データ(18.10c)に基づいて古典的に適応したモデルの平均誤差に非常に近い18.820cの平均誤差を示した。

Considering high-temperature heating, the equations of transient heat conduction model require an adaptation, i.e. the dependence of thermophysical parameters of the model on the temperature is to be identified for each specific material to be heated. This problem is most often solved by approximation of the tabular data on the measurements of the required parameters, which can be found in the literature, by means of regression equations. But, for example, considering the steel heating process, this approach is difficult to be implemented due to the lack of tabular discrete measurements for many grades of steel, such as alloyed ones. In this paper, the new approach is proposed, which is based on a solution of a related variational problem. Its main idea is to substitute the adaptation process in the classical sense (i.e., to find the dependencies of thermophysical parameters on temperature) with 'supervised learning' of a mesh model on the basis of the technological data received from the plant. The equations to adjust the parameters of the transient heat conduction model, which are related to the thermophysical coefficients, have been derived. A numerical experiment is conducted for steel of a particular group of grades, for which enough both technological as well as tabular data are available. As a result, the 'trained' mesh model, which has not received explicitly any information about the physical and chemical properties of the heated substance, demonstrated an average error of 18.820 C, which is quite close to the average error of the model adapted classically on the basis of the tabular data (18.10 C).
翻訳日:2022-07-04 14:49:22 公開日:2022-07-01
# 注意を用いた金融時系列のシミュレーション

Simulating financial time series using attention ( http://arxiv.org/abs/2207.00493v1 )

ライセンス: Link先を確認
Weilong Fu, Ali Hirsa, J\"org Osterrieder(参考訳) 金融時系列シミュレーションは、トレーディング戦略のトレーニングと評価のための限られた実データを拡張するため、中心的なトピックである。 また、実際の金融データの複雑な統計特性のためにも困難である。 金融時系列シミュレーションにおいて、注意を伴う畳み込みネットワークと変圧器を利用する2つの生成逆ネットワーク(GAN)を導入する。 GANはデータ駆動方式で統計特性を学習し、注意機構は長距離依存関係の複製に役立つ。 提案したGANは、S&P 500インデックスとオプションデータに基づいてテストされ、スタイリングされた事実に基づいてスコアによって検査され、純粋な畳み込みGAN、すなわちQuantGANと比較される。 注意に基づくGANは、スタイル化された事実を再現するだけでなく、リターンの自己相関を円滑にする。

Financial time series simulation is a central topic since it extends the limited real data for training and evaluation of trading strategies. It is also challenging because of the complex statistical properties of the real financial data. We introduce two generative adversarial networks (GANs), which utilize the convolutional networks with attention and the transformers, for financial time series simulation. The GANs learn the statistical properties in a data-driven manner and the attention mechanism helps to replicate the long-range dependencies. The proposed GANs are tested on the S&P 500 index and option data, examined by scores based on the stylized facts and are compared with the pure convolutional GAN, i.e. QuantGAN. The attention-based GANs not only reproduce the stylized facts, but also smooth the autocorrelation of returns.
翻訳日:2022-07-04 14:48:56 公開日:2022-07-01
# ラベルスイッチングと確率勾配の老化に対する速度論的モデルの解析

Analysis of Kinetic Models for Label Switching and Stochastic Gradient Descent ( http://arxiv.org/abs/2207.00389v1 )

ライセンス: Link先を確認
Martin Burger, Alex Rossi(参考訳) 本稿では,異なるエネルギー景観における勾配流をランダムに切り換えることができる粒子系において,ラベル切替の速度論的モデル解析のための新しいアプローチを提案する。 生物学や物理学の問題に加えて,機械学習における最も一般的な手法である確率勾配降下が,時間連続的な変分を考える際に,この設定で理解できることも示している。 我々の分析は、進化と定常問題に関する解析的および数値的な結果を提供する外部ポテンシャルの集合における進化の事例に焦点を当てている。

In this paper we provide a novel approach to the analysis of kinetic models for label switching, which are used for particle systems that can randomly switch between gradient flows in different energy landscapes. Besides problems in biology and physics, we also demonstrate that stochastic gradient descent, the most popular technique in machine learning, can be understood in this setting, when considering a time-continuous variant. Our analysis is focusing on the case of evolution in a collection of external potentials, for which we provide analytical and numerical results about the evolution as well as the stationary problem.
翻訳日:2022-07-04 14:47:59 公開日:2022-07-01
# (参考訳) 一般化のための残余条件付き相互情報について

On Leave-One-Out Conditional Mutual Information For Generalization ( http://arxiv.org/abs/2207.00581v1 )

ライセンス: CC BY 4.0
Mohamad Rida Rammal, Alessandro Achille, Aditya Golatkar, Suhas Diggavi, Stefano Soatto(参考訳) 教師付き学習アルゴリズムのための情報理論一般化境界を, 残一条件相互情報(loo-cmi)の新たな尺度に基づいて導出する。 問題の構造を利用していないブラックボックス境界である他のCMI境界とは対照的に、我々のloo-CMI境界は計算が容易であり、古典的な左行一行のクロスバリデーション、最適化アルゴリズムの安定性、損失ランドスケープの幾何といった他の概念と関連して解釈することができる。 トレーニングアルゴリズムの出力と予測の両方に適用される。 ディープラーニングのシナリオで予測される一般化ギャップを評価することにより,境界の品質を実証的に検証する。 特に、大規模な画像分類タスクでは、境界は空白です。

We derive information theoretic generalization bounds for supervised learning algorithms based on a new measure of leave-one-out conditional mutual information (loo-CMI). Contrary to other CMI bounds, which are black-box bounds that do not exploit the structure of the problem and may be hard to evaluate in practice, our loo-CMI bounds can be computed easily and can be interpreted in connection to other notions such as classical leave-one-out cross-validation, stability of the optimization algorithm, and the geometry of the loss-landscape. It applies both to the output of training algorithms as well as their predictions. We empirically validate the quality of the bound by evaluating its predicted generalization gap in scenarios for deep learning. In particular, our bounds are non-vacuous on large-scale image-classification tasks.
翻訳日:2022-07-04 14:47:21 公開日:2022-07-01
# 超音波映像における乳房病変検出のための新しいデータセットとベースラインモデル

A New Dataset and A Baseline Model for Breast Lesion Detection in Ultrasound Videos ( http://arxiv.org/abs/2207.00141v1 )

ライセンス: Link先を確認
Zhi Lin, Junhao Lin, Lei Zhu, Huazhu Fu, Jing Qin, Liansheng Wang(参考訳) 乳癌の診断には超音波による乳腺病変の検出が重要である。 既存の方法は、主に個々の2D超音波画像に依存するか、ラベル付きビデオとラベル付き2D画像を組み合わせて、乳房病変検出のモデルを訓練する。 本稿では,乳房病変検出のための超音波ビデオデータセット(188ビデオ)をまず収集し,注釈する。 さらに,ビデオレベルの病変分類機能とクリップレベルの時間的特徴を集約することにより,胸部病変検出に対処するクリップレベルの特徴集約ネットワーク(CVA-Net)を提案する。 クリップレベルの時間的特徴は、順序付けられたビデオフレームの局所時間情報とシャッフルされたビデオフレームのグローバル時間情報をエンコードする。 cva-netでは、オリジナルビデオフレームから局所的な特徴とシャッフルビデオフレームからグローバルな特徴を融合するビデオ間融合モジュールを考案し、隣接するビデオフレーム間の時間的情報を学習するためにビデオ内融合モジュールを考案する。 また,本映像の乳腺病変を良性または悪性病変と分類するビデオレベルの特徴を習得し,超音波映像における乳腺病変検出性能をさらに向上させる。 注釈付きデータセットの実験結果から、私たちのCVA-Netは最先端の手法よりも明らかに優れています。 対応するコードとデータセットは \url{https://github.com/jhl-det/cva-net} で公開されている。

Breast lesion detection in ultrasound is critical for breast cancer diagnosis. Existing methods mainly rely on individual 2D ultrasound images or combine unlabeled video and labeled 2D images to train models for breast lesion detection. In this paper, we first collect and annotate an ultrasound video dataset (188 videos) for breast lesion detection. Moreover, we propose a clip-level and video-level feature aggregated network (CVA-Net) for addressing breast lesion detection in ultrasound videos by aggregating video-level lesion classification features and clip-level temporal features. The clip-level temporal features encode local temporal information of ordered video frames and global temporal information of shuffled video frames. In our CVA-Net, an inter-video fusion module is devised to fuse local features from original video frames and global features from shuffled video frames, and an intra-video fusion module is devised to learn the temporal information among adjacent video frames. Moreover, we learn video-level features to classify the breast lesions of the original video as benign or malignant lesions to further enhance the final breast lesion detection performance in ultrasound videos. Experimental results on our annotated dataset demonstrate that our CVA-Net clearly outperforms state-of-the-art methods. The corresponding code and dataset are publicly available at \url{https://github.com/jhl-Det/CVA-Net}.
翻訳日:2022-07-04 14:14:17 公開日:2022-07-01
# 動的頭部編集のための神経パラメータ化

Neural Parameterization for Dynamic Human Head Editing ( http://arxiv.org/abs/2207.00210v1 )

ライセンス: Link先を確認
Li Ma, Xiaoyu Li, Jing Liao, Xuan Wang, Qi Zhang, Jue Wang, Pedro Sander(参考訳) 入射放射関数は、3Dシーンの写実視を再構成しレンダリングするための強力なシーン表現として現れた。 しかし、これらの表現は編集性が悪い。 一方、多角形メッシュのような明示的な表現は簡単に編集できるが、顔の細かい特徴、髪、歯、目といった人間の頭の正確な詳細を再構築するのには適していない。 本稿では,暗黙的手法と明示的手法の両方の利点を提供するハイブリッド表現であるneural parameterization (nep)を提案する。 NePは、シーンの幾何学と外観のきめ細かい編集を可能にしながら、写真リアリスティックなレンダリングを可能にする。 まず,3次元形状を2次元テクスチャ空間にパラメータ化することにより,形状と外観を分離する。 明示的な線形変形混合層を導入することで幾何学的編集性を実現する。 変形はスパースキーポイントの集合によって制御され、幾何を編集するために明示的に直感的に変位することができる。 外観に関して,時間依存残差と時間依存残差をモデル化し,時間依存残差をモデル化する明示的なテクスチャマップを用いたハイブリッドな2次元テクスチャを開発する。 本手法を複数のベースラインの再構成と編集と比較した。 その結果,NePは高い編集性を維持しつつ,ほぼ同じレベルのレンダリング精度を実現することがわかった。

Implicit radiance functions emerged as a powerful scene representation for reconstructing and rendering photo-realistic views of a 3D scene. These representations, however, suffer from poor editability. On the other hand, explicit representations such as polygonal meshes allow easy editing but are not as suitable for reconstructing accurate details in dynamic human heads, such as fine facial features, hair, teeth, and eyes. In this work, we present Neural Parameterization (NeP), a hybrid representation that provides the advantages of both implicit and explicit methods. NeP is capable of photo-realistic rendering while allowing fine-grained editing of the scene geometry and appearance. We first disentangle the geometry and appearance by parameterizing the 3D geometry into 2D texture space. We enable geometric editability by introducing an explicit linear deformation blending layer. The deformation is controlled by a set of sparse key points, which can be explicitly and intuitively displaced to edit the geometry. For appearance, we develop a hybrid 2D texture consisting of an explicit texture map for easy editing and implicit view and time-dependent residuals to model temporal and view variations. We compare our method to several reconstruction and editing baselines. The results show that the NeP achieves almost the same level of rendering accuracy while maintaining high editability.
翻訳日:2022-07-04 14:13:54 公開日:2022-07-01
# pocoformerを用いた偏光カラー画像デノイジング

Polarized Color Image Denoising using Pocoformer ( http://arxiv.org/abs/2207.00215v1 )

ライセンス: Link先を確認
Zhuoxiao Li, Haiyang Jiang, Yinqiang Zheng(参考訳) 偏光カラー写真は、視覚的なテクスチャと、単一のスナップショットで対象のサージカル情報の両方を提供する。 しかし、指向性偏光フィルタアレイを用いることで、従来のカラー画像に比べて光子数とSNRが極めて低い。 したがって、この機能は基本的に不快なノイズ画像をもたらし、偏光解析性能を破壊する。 チャネル内で暗黙的に実行される物理的制約が過度に複雑であるという事実から、従来の画像処理パイプラインにとっての課題である。 そこで本研究では,クリーンな信号と正確な分極情報を同時に復元する学習に基づく手法を提案する。 学習ベースパイプラインをサポートするために、ペア化された生短露光ノイズと長露光参照画像の実世界偏光カラー画像データセットをキャプチャする。 さらに,視覚トランスフォーマの開発を取り入れ,ポーコフォーマと呼ばれる偏光カラー画像の分極化のためのハイブリッドトランスフォーマモデルを提案する。 提案手法の有効性を実証し, 結果に影響を及ぼす要因について検討した。

Polarized color photography provides both visual textures and object surficial information in one single snapshot. However, the use of the directional polarizing filter array causes extremely lower photon count and SNR compared to conventional color imaging. Thus, the feature essentially leads to unpleasant noisy images and destroys polarization analysis performance. It is a challenge for traditional image processing pipelines owing to the fact that the physical constraints exerted implicitly in the channels are excessively complicated. To address this issue, we propose a learning-based approach to simultaneously restore clean signals and precise polarization information. A real-world polarized color image dataset of paired raw short-exposed noisy and long-exposed reference images are captured to support the learning-based pipeline. Moreover, we embrace the development of vision Transformer and propose a hybrid transformer model for the Polarized Color image denoising, namely PoCoformer, for a better restoration performance. Abundant experiments demonstrate the effectiveness of proposed method and key factors that affect results are analyzed.
翻訳日:2022-07-04 14:13:33 公開日:2022-07-01
# より少ないものを維持する: Visual SLAMのポイントスカラー化

Keeping Less is More: Point Sparsification for Visual SLAM ( http://arxiv.org/abs/2207.00225v1 )

ライセンス: Link先を確認
Yeonsoo Park and Soohyun Bae(参考訳) 自動運転車、ドローン、拡張現実デバイスといった現実世界のアプリケーションに同時マッピングとローカライゼーション(SLAM)を適用する場合、そのメモリフットプリントと計算コストは、パフォーマンスとアプリケーション範囲を制限する2つの主な要因である。 スパース特徴量に基づくSLAMアルゴリズムでは、局所的および大域的バンドル調整(BA)に有用な点を選択することにより、マップポイントのサイズを制限することができる。 本研究では,SLAMシステムにおける地図点の分散化のための効率的なグラフ最適化を提案する。 具体的には,最大ポーズ可視性と最大空間多様性問題を最小コストの最大フローグラフ最適化問題として定式化する。 提案手法は既存のSLAMシステムの追加ステップとして機能し,従来のSLAMシステムと学習ベースのSLAMシステムの両方で使用することができる。 実験により,提案手法により,約1/3の地図点と1/2の計算量で,より正確なカメラポーズが得られることを示した。

When adapting Simultaneous Mapping and Localization (SLAM) to real-world applications, such as autonomous vehicles, drones, and augmented reality devices, its memory footprint and computing cost are the two main factors limiting the performance and the range of applications. In sparse feature based SLAM algorithms, one efficient way for this problem is to limit the map point size by selecting the points potentially useful for local and global bundle adjustment (BA). This study proposes an efficient graph optimization for sparsifying map points in SLAM systems. Specifically, we formulate a maximum pose-visibility and maximum spatial diversity problem as a minimum-cost maximum-flow graph optimization problem. The proposed method works as an additional step in existing SLAM systems, so it can be used in both conventional or learning based SLAM systems. By extensive experimental evaluations we demonstrate the proposed method achieves even more accurate camera poses with approximately 1/3 of the map points and 1/2 of the computation.
翻訳日:2022-07-04 14:13:20 公開日:2022-07-01
# コンピュータビジョンにおけるグラフマッチングアルゴリズムの比較研究

A Comparative Study of Graph Matching Algorithms in Computer Vision ( http://arxiv.org/abs/2207.00291v1 )

ライセンス: Link先を確認
Stefan Haller, Lorenz Feineis, Lisa Hutschenreiter, Florian Bernard, Carsten Rother, Dagmar Kainm\"uller, Paul Swoboda, Bogdan Savchynskyy(参考訳) グラフマッチング最適化問題は、2つの変形可能なオブジェクトを対応づけるなど、コンピュータビジョンにおける多くのタスクにとって必須の要素である。 当然、この数十年間、幅広い適用可能なアルゴリズムが提案されてきた。 共通の標準ベンチマークが開発されていないため、異なる問題インスタンスや基準に対する評価が結果の互換性を損なうため、評価が難しい場合が多い。 これらの欠点に対処するために,グラフマッチングアルゴリズムの比較研究を行う。 私たちは、既存のコンピュータビジョングラフマッチング問題の大規模なセットを共通のフォーマットで収集し、分類する統一ベンチマークを作成します。 同時に、グラフマッチングアルゴリズムの最も人気のあるオープンソース実装を収集し、分類する。 それらの性能は最適化アルゴリズムを比較するためのベストプラクティスと一致して評価される。 この研究は再現可能で拡張可能で、将来貴重な資源として機能するように設計されている。 1) 一般的な問題インスタンスは、実質的に1秒未満で解決可能であり、したがって、将来の経験的評価には不十分である 2) もっとも人気のあるベースラインメソッドは、最良の方法よりも非常に劣っている 3) 問題のnpの難しさにもかかわらず、ビジョンアプリケーションからのインスタンスは、500以上の頂点を持つグラフであっても、数秒で解決可能であることが多い。

The graph matching optimization problem is an essential component for many tasks in computer vision, such as bringing two deformable objects in correspondence. Naturally, a wide range of applicable algorithms have been proposed in the last decades. Since a common standard benchmark has not been developed, their performance claims are often hard to verify as evaluation on differing problem instances and criteria make the results incomparable. To address these shortcomings, we present a comparative study of graph matching algorithms. We create a uniform benchmark where we collect and categorize a large set of existing and publicly available computer vision graph matching problems in a common format. At the same time we collect and categorize the most popular open-source implementations of graph matching algorithms. Their performance is evaluated in a way that is in line with the best practices for comparing optimization algorithms. The study is designed to be reproducible and extensible to serve as a valuable resource in the future. Our study provides three notable insights: 1.) popular problem instances are exactly solvable in substantially less than 1 second and, therefore, are insufficient for future empirical evaluations; 2.) the most popular baseline methods are highly inferior to the best available methods; 3.) despite the NP-hardness of the problem, instances coming from vision applications are often solvable in a few seconds even for graphs with more than 500 vertices.
翻訳日:2022-07-04 14:11:28 公開日:2022-07-01
# ReLER@ZJU-AlibabaがEgo4D自然言語クエリチャレンジ2022に参加

ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries Challenge 2022 ( http://arxiv.org/abs/2207.00383v1 )

ライセンス: Link先を確認
Naiyuan Liu, Xiaohan Wang, Xiaobo Li, Yi Yang, Yueting Zhuang(参考訳) 本稿では,CVPR 2022におけるEgo4D Natural Language Queries (NLQ) ChallengeへのReLER@ZJU-Alibabaの提出について述べる。 ビデオクリップとテキストクエリが与えられた場合、この課題の目的は、クエリに対する回答が得られるビデオクリップの一時的な瞬間を見つけることである。 この課題に対処するために,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。 さらに,トレーニングサンプルの多様性を高めるための2つのデータ拡張戦略を提案する。 実験の結果,本手法の有効性が示された。 最終候補はトップボードにランクインした。

In this report, we present the ReLER@ZJU-Alibaba submission to the Ego4D Natural Language Queries (NLQ) Challenge in CVPR 2022. Given a video clip and a text query, the goal of this challenge is to locate a temporal moment of the video clip where the answer to the query can be obtained. To tackle this task, we propose a multi-scale cross-modal transformer and a video frame-level contrastive loss to fully uncover the correlation between language queries and video clips. Besides, we propose two data augmentation strategies to increase the diversity of training samples. The experimental results demonstrate the effectiveness of our method. The final submission ranked first on the leaderboard.
翻訳日:2022-07-04 14:11:05 公開日:2022-07-01
# 単一血球画像分類のための教師なしクロスドメイン特徴抽出

Unsupervised Cross-Domain Feature Extraction for Single Blood Cell Image Classification ( http://arxiv.org/abs/2207.00501v1 )

ライセンス: Link先を確認
Raheleh Salehi, Ario Sadafi, Armin Gruber, Peter Lienemann, Nassir Navab, Shadi Albarqouni, Carsten Marr(参考訳) 血液悪性腫瘍の診断には末梢血腫の白血球の同定と分類が必要である。 異なる実験室の手順、染色、照明、顕微鏡設定によるドメインシフトは、最近開発された異なるサイトから収集されたデータに対する機械学習手法の再使用性を妨げている。 そこで本研究では,末梢血のスミアからスキャンした白血球の3つのデータセットに対して,教師なしで特徴を抽出するクロスドメイン適応オートエンコーダを提案する。 オートエンコーダはR-CNNアーキテクチャに基づいており、関連する白血球に集中し、画像のアーティファクトを除去することができる。 抽出した特徴の質を評価するために,単純なランダム森林を用いて単一細胞を分類する。 本研究では,データセットの1つのみで訓練されたオートエンコーダによって抽出されたリッチな特徴により,ランダムな森林分類器は未確認のデータセットに対して良好に動作し,クロスドメインタスクで公表されたオラクルネットワークよりも優れていることを示す。 以上の結果から,より複雑な診断・予後タスクにこの教師なしアプローチを適用すれば,高価な専門家ラベルを未確認データに加える必要がなくなる可能性が示唆された。

Diagnosing hematological malignancies requires identification and classification of white blood cells in peripheral blood smears. Domain shifts caused by different lab procedures, staining, illumination, and microscope settings hamper the re-usability of recently developed machine learning methods on data collected from different sites. Here, we propose a cross-domain adapted autoencoder to extract features in an unsupervised manner on three different datasets of single white blood cells scanned from peripheral blood smears. The autoencoder is based on an R-CNN architecture allowing it to focus on the relevant white blood cell and eliminate artifacts in the image. To evaluate the quality of the extracted features we use a simple random forest to classify single cells. We show that thanks to the rich features extracted by the autoencoder trained on only one of the datasets, the random forest classifier performs satisfactorily on the unseen datasets, and outperforms published oracle networks in the cross-domain task. Our results suggest the possibility of employing this unsupervised approach in more complicated diagnosis and prognosis tasks without the need to add expensive expert labels to unseen data.
翻訳日:2022-07-04 14:10:54 公開日:2022-07-01
# どこまで行ける? 決定論的ビデオ深度予測のための自己監督的アプローチ

How Far Can I Go ? : A Self-Supervised Approach for Deterministic Video Depth Forecasting ( http://arxiv.org/abs/2207.00506v1 )

ライセンス: Link先を確認
Suaradip Nag, Nisarg Shah, Anran Qi, Raghavendra Ramachandra(参考訳) 本稿では,将来の未観測都市景観の深さ推定を予測するための,新しい自己監督手法を提案する。 この研究は、将来の未観測フレームの単眼深度推定のための自己教師付き学習を初めて探求した。 既存の作品では、未発見のフレームの深さの確率的予測を生成するために、多数の注釈付きサンプルに依存している。 しかし、ビデオの大量の注釈付き深度サンプルを必要とするため、これは非現実的である。 さらに、ある過去が複数の将来の結果をもたらす場合の確率論的性質は、しばしば誤った深さの推定につながる。 従来の手法とは異なり,映像フレームの奥行き推定を視点合成問題としてモデル化し,映像フレームの奥行き推定を補助タスクとして扱うとともに,学習したポーズを用いてビューを合成する。 このアプローチは費用対効果があるだけでなく、トレーニングには根底にある真理の深さ(実践的)だけでなく、決定論的(過去のフレームのシーケンスがすぐに未来にマップされる)にも使用しています。 この課題に対処するため,我々はまず,潜在特徴の予測により観測されていない将来の深さを推定する新しい深さ予測ネットワークdefnetを開発した。 第2に、未観測フレームのポーズを推定するチャネルアテンションに基づくポーズ推定ネットワークを開発する。 この学習されたポーズを用いて、推定深度マップを画像領域に再構成し、自己教師付きソリューションを形成する。 提案手法は,KITTIとCityscapesでベンチマークした,短期・中期予測設定における最先端の代替手段と比較して,Abs Rel測定の大幅な改善を示す。 コードはhttps://github.com/sauradip/depthForecastingで入手できる。

In this paper we present a novel self-supervised method to anticipate the depth estimate for a future, unobserved real-world urban scene. This work is the first to explore self-supervised learning for estimation of monocular depth of future unobserved frames of a video. Existing works rely on a large number of annotated samples to generate the probabilistic prediction of depth for unseen frames. However, this makes it unrealistic due to its requirement for large amount of annotated depth samples of video. In addition, the probabilistic nature of the case, where one past can have multiple future outcomes often leads to incorrect depth estimates. Unlike previous methods, we model the depth estimation of the unobserved frame as a view-synthesis problem, which treats the depth estimate of the unseen video frame as an auxiliary task while synthesizing back the views using learned pose. This approach is not only cost effective - we do not use any ground truth depth for training (hence practical) but also deterministic (a sequence of past frames map to an immediate future). To address this task we first develop a novel depth forecasting network DeFNet which estimates depth of unobserved future by forecasting latent features. Second, we develop a channel-attention based pose estimation network that estimates the pose of the unobserved frame. Using this learned pose, estimated depth map is reconstructed back into the image domain, thus forming a self-supervised solution. Our proposed approach shows significant improvements in Abs Rel metric compared to state-of-the-art alternatives on both short and mid-term forecasting setting, benchmarked on KITTI and Cityscapes. Code is available at https://github.com/sauradip/depthForecasting
翻訳日:2022-07-04 14:10:32 公開日:2022-07-01
# HyperTensioNと全階前方分解最適化

HyperTensioN and Total-order Forward Decomposition optimizations ( http://arxiv.org/abs/2207.00345v1 )

ライセンス: Link先を確認
Maur\'icio Cec\'ilio Magnaguagno and Felipe Meneguzzi and Lavindra de Silva(参考訳) 階層型タスクネットワーク(htn)プランナーは、追加のドメイン知識を持つ分解プロセスを使用して計画作成し、探索を計画タスクに導く。 ドメインの専門家がHTN記述を開発する一方で、同じ前提条件や、ほとんど使われない、分解可能なメソッドを繰り返し記述することもある。 3段階のコンパイラ設計を活用することで、より多くの言語記述や前処理の最適化を容易にサポートできます。 本稿では,HTN IPC 2020で使用されるHyperTensioN HTNプランナを用いて,そのような最適化を評価する。

Hierarchical Task Networks (HTN) planners generate plans using a decomposition process with extra domain knowledge to guide search towards a planning task. While domain experts develop HTN descriptions, they may repeatedly describe the same preconditions, or methods that are rarely used or possible to be decomposed. By leveraging a three-stage compiler design we can easily support more language descriptions and preprocessing optimizations that when chained can greatly improve runtime efficiency in such domains. In this paper we evaluate such optimizations with the HyperTensioN HTN planner, used in the HTN IPC 2020.
翻訳日:2022-07-04 14:10:01 公開日:2022-07-01
# (参考訳) hls4ml物理応用のためのFPGA上の超低レイテンシリカレントニューラルネットワーク推論

Ultra-low latency recurrent neural network inference on FPGAs for physics applications with hls4ml ( http://arxiv.org/abs/2207.00559v1 )

ライセンス: CC BY 4.0
Elham E Khoda, Dylan Rankin, Rafael Teixeira de Lima, Philip Harris, Scott Hauck, Shih-Chieh Hsu, Michael Kagan, Vladimir Loncar, Chaitanya Paikara, Richa Rao, Sioni Summers, Caterina Vernieri, Aaron Wang(参考訳) リカレントニューラルネットワークは高エネルギー物理学における多くのタスクに有効なアーキテクチャであることが示されており、広く採用されている。 しかし、低レイテンシ環境での使用は、フィールドプログラマブルゲートアレイ(FPGA)上で繰り返しアーキテクチャを実装することの難しさから制限されている。 本稿では,hls4mlフレームワーク内での2種類のリカレントニューラルネットワーク層 – 長期記憶とゲート再カレントユニット – の実装について述べる。 本実装では,小型モデルと大規模モデルの両方で効率的な設計が可能であることを実証し,推論待ち時間やFPGAリソースの特定の設計要件を満たすようにカスタマイズ可能であることを示す。 CERN大型ハドロン衝突型加速器におけるジェット識別タスクに特化して訓練された複数のニューラルネットワークの性能と合成設計について述べる。

Recurrent neural networks have been shown to be effective architectures for many tasks in high energy physics, and thus have been widely adopted. Their use in low-latency environments has, however, been limited as a result of the difficulties of implementing recurrent architectures on field-programmable gate arrays (FPGAs). In this paper we present an implementation of two types of recurrent neural network layers -- long short-term memory and gated recurrent unit -- within the hls4ml framework. We demonstrate that our implementation is capable of producing effective designs for both small and large models, and can be customized to meet specific design requirements for inference latencies and FPGA resources. We show the performance and synthesized designs for multiple neural networks, many of which are trained specifically for jet identification tasks at the CERN Large Hadron Collider.
翻訳日:2022-07-04 14:07:33 公開日:2022-07-01
# スマート・セーフ空港における高分解能ヒューマンポース推定に基づく群衆内衝突検出

Vision-based Conflict Detection within Crowds based on High-Resolution Human Pose Estimation for Smart and Safe Airport ( http://arxiv.org/abs/2207.00477v1 )

ライセンス: Link先を確認
Karan Kheta, Claire Delgove, Ruolin Liu, Adeola Aderogba, Marc-Olivier Pokam, Muhammed Mehmet Unal, Yang Xing, Weisi Guo(参考訳) 将来の空港はより複雑になり、旅行者の増加で混雑している。 空港は、衝突が起こる可能性のあるホットスポットになりがちだが、フライトの遅延やいくつかの安全上の問題を引き起こす可能性がある。 紛争検出にセキュリティ監視をより効果的にするインテリジェントなアルゴリズムは、乗客の安全、財政、旅行効率の面で多くの利益をもたらすだろう。 本稿では,集団内の対立行動分類のための機械学習モデルの開発について述べる。 HRNetは画像のセグメンテーションに使われ、次に複数の分類器を介してフレーム内の人々のポーズを分類するために2つのアプローチがとられる。 その中でもサポートベクターマシン(svm)が最も高性能で94.37%の精度を達成した。 モデルが不足している場合は、フレーム内の被写体のハグや損失トラックのような曖昧な振る舞いに対処する。 結果として得られたモデルが空港内に配備される可能性があり、空港設定で発生するさらなるあいまいな行動に対する訓練だけでなく、多くの潜在的な乗客に対処するための改善がなされる。 これにより、セキュリティ監視を強化し、空港の安全性を向上させることができる。

Future airports are becoming more complex and congested with the increasing number of travellers. While the airports are more likely to become hotspots for potential conflicts to break out which can cause serious delays to flights and several safety issues. An intelligent algorithm which renders security surveillance more effective in detecting conflicts would bring many benefits to the passengers in terms of their safety, finance, and travelling efficiency. This paper details the development of a machine learning model to classify conflicting behaviour in a crowd. HRNet is used to segment the images and then two approaches are taken to classify the poses of people in the frame via multiple classifiers. Among them, it was found that the support vector machine (SVM) achieved the most performant achieving precision of 94.37%. Where the model falls short is against ambiguous behaviour such as a hug or losing track of a subject in the frame. The resulting model has potential for deployment within an airport if improvements are made to cope with the vast number of potential passengers in view as well as training against further ambiguous behaviours which will arise in an airport setting. In turn, will provide the capability to enhance security surveillance and improve airport safety.
翻訳日:2022-07-04 13:47:17 公開日:2022-07-01
# Pile of Law: 256GBのオープンソース法定データセットと法から責任のあるデータフィルタリングを学ぶ

Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset ( http://arxiv.org/abs/2207.00220v1 )

ライセンス: Link先を確認
Peter Henderson, Mark S. Krass, Lucia Zheng, Neel Guha, Christopher D. Manning, Dan Jurafsky, Daniel E. Ho(参考訳) 大規模言語モデルの台頭に対する懸念の1つは、特に偏見のある、わいせつな、著作権のある、プライベートな情報の事前学習から、大きな損害をもたらす可能性があることである。 新たな倫理的アプローチは事前学習材料をフィルタリングしようと試みているが、そのようなアプローチはアドホックであり、文脈を考慮に入れなかった。 我々は, フィルター材料におけるトレードオフに直接対処する法則に基づくフィルタリングへのアプローチを提案する。 まず、裁判所の意見、契約、行政規則、および立法記録を網羅した256GBのオープンソースな法的および行政データのデータセットであるPile of Lawを収集、利用可能にします。 法律の山への事前訓練は、司法へのアクセスを改善すると約束する法的タスクに役立つ可能性がある。 第二に、政府が有毒なコンテンツや私的コンテンツを含めることを規制するために開発した法規範を、研究者のための実用的なレッスンに精査し、我々のデータセットがこれらの規範をどう反映しているかについて議論する。 第三に、Pile of Lawは研究者たちに、データから直接フィルタリングルールを学習する機会を与え、モデルベースの処理におけるエキサイティングな新しい研究方向を提供する。

One concern with the rise of large language models lies with their potential for significant harm, particularly from pretraining on biased, obscene, copyrighted, and private information. Emerging ethical approaches have attempted to filter pretraining material, but such approaches have been ad hoc and failed to take into account context. We offer an approach to filtering grounded in law, which has directly addressed the tradeoffs in filtering material. First, we gather and make available the Pile of Law, a 256GB (and growing) dataset of open-source English-language legal and administrative data, covering court opinions, contracts, administrative rules, and legislative records. Pretraining on the Pile of Law may potentially help with legal tasks that have the promise to improve access to justice. Second, we distill the legal norms that governments have developed to constrain the inclusion of toxic or private content into actionable lessons for researchers and discuss how our dataset reflects these norms. Third, we show how the Pile of Law offers researchers the opportunity to learn such filtering rules directly from the data, providing an exciting new research direction in model-based processing.
翻訳日:2022-07-04 13:47:00 公開日:2022-07-01
# 分布シフトに対するエピネットのロバスト性

Robustness of Epinets against Distributional Shifts ( http://arxiv.org/abs/2207.00137v1 )

ライセンス: Link先を確認
Xiuyuan Lu, Ian Osband, Seyed Mohammad Asghari, Sven Gowal, Vikranth Dwaracherla, Zheng Wen, Benjamin Van Roy(参考訳) 最近の研究は、ディープラーニングにおける不確実性モデリングに対する新しいアプローチとしてエピネットを導入した。 epinetは、従来のニューラルネットワークに加えられた小さなニューラルネットワークであり、一緒に予測分布を生成することができる。 特に、エピネットを使用することで、複数の入力間での関節予測の品質を大幅に向上させることができる。 本稿では,分布シフトの下で,エピネットが同様の利点を提供できるかどうかを検討する。 ImageNet-A/O/C全体で、エピネットは一般的にロバストネスの指標を改善する。 さらに、これらの改善は、非常に大きなアンサンブルでも計算コストが桁違いに低いものよりも重要である。 しかし,分布的ロバスト深層学習の問題点に比べれば,これらの改善は少ない。 Epinetsはツールボックスで便利なツールかもしれませんが、完全なソリューションには程遠いものです。

Recent work introduced the epinet as a new approach to uncertainty modeling in deep learning. An epinet is a small neural network added to traditional neural networks, which, together, can produce predictive distributions. In particular, using an epinet can greatly improve the quality of joint predictions across multiple inputs, a measure of how well a neural network knows what it does not know. In this paper, we examine whether epinets can offer similar advantages under distributional shifts. We find that, across ImageNet-A/O/C, epinets generally improve robustness metrics. Moreover, these improvements are more significant than those afforded by even very large ensembles at orders of magnitude lower computational costs. However, these improvements are relatively small compared to the outstanding issues in distributionally-robust deep learning. Epinets may be a useful tool in the toolbox, but they are far from the complete solution.
翻訳日:2022-07-04 13:46:21 公開日:2022-07-01
# 知的テストのための条件変数選択

Conditional Variable Selection for Intelligent Test ( http://arxiv.org/abs/2207.00335v1 )

ライセンス: Link先を確認
Yiwen Liao, Tianjie Ge, Rapha\"el Latty, Bin Yang(参考訳) インテリジェントテストは大規模に高次元データの効率的かつ効果的な分析を必要とする。 伝統的に、この分析は人間の専門家によって行われることが多いが、ビッグデータの時代にはスケーラブルではない。 この課題に対処するため、知的テストに変数選択が導入されている。 しかし、実際には、特定の変数(例えば、テスト中のデバイスの特定の処理条件)を変数選択後に維持しなければならないシナリオに遭遇する。 この条件変数選択は,組込みあるいは深層学習に基づく変数選択法では十分に研究されていない。 本稿では,事前選択された変数の集合から最も重要な候補変数を選択できる条件付き変数選択フレームワークについて述べる。

Intelligent test requires efficient and effective analysis of high-dimensional data in a large scale. Traditionally, the analysis is often conducted by human experts, but it is not scalable in the era of big data. To tackle this challenge, variable selection has been recently introduced to intelligent test. However, in practice, we encounter scenarios where certain variables (e.g. some specific processing conditions for a device under test) must be maintained after variable selection. We call this conditional variable selection, which has not been well investigated for embedded or deep-learning-based variable selection methods. In this paper, we discuss a novel conditional variable selection framework that can select the most important candidate variables given a set of preselected variables.
翻訳日:2022-07-04 13:46:10 公開日:2022-07-01
# 効果的な後シリコンチューニングのための深層学習支援パイプライン

A Deep-Learning-Aided Pipeline for Efficient Post-Silicon Tuning ( http://arxiv.org/abs/2207.00336v1 )

ライセンス: Link先を確認
Yiwen Liao, Bin Yang, Rapha\"el Latty, Jochen Rivoir(参考訳) シリコン後の検証では、チューニングノブの値をプロセスパラメータや既知の動作条件の関数として見つける。 この意味では、より効率的なチューニングには、テスト対象のデバイス(dut)に対して与えられたメリートの観点で、最も重要なチューニングノブとプロセスパラメータを特定する必要がある。 これは経験豊富な専門家が手作業で行うことが多い。 しかし、チップが複雑化するにつれて、大量の生変数の手動検査が難しくなっている。 本研究では,ニューラルネットワークを用いて最も関連する変数を効率的に選択し,効率的なチューニングのためのディープラーニング支援パイプラインを提案する。

In post-silicon validation, tuning is to find the values for the tuning knobs, potentially as a function of process parameters and/or known operating conditions. In this sense, an more efficient tuning requires identifying the most critical tuning knobs and process parameters in terms of a given figure-of-merit for a Device Under Test (DUT). This is often manually conducted by experienced experts. However, with increasingly complex chips, manual inspection on a large amount of raw variables has become more challenging. In this work, we leverage neural networks to efficiently select the most relevant variables and present a corresponding deep-learning-aided pipeline for efficient tuning.
翻訳日:2022-07-04 13:46:01 公開日:2022-07-01
# PDEのための異方性・スパース・解釈可能な物理インフォームニューラルネットワーク

Anisotropic, Sparse and Interpretable Physics-Informed Neural Networks for PDEs ( http://arxiv.org/abs/2207.00377v1 )

ライセンス: Link先を確認
Amuthan A. Ramabathiran and Prabhu Ramachandran(参考訳) 部分微分方程式(PDE)を解決するためにディープニューラルネットワーク(DNN)を使うことへの関心が高まっている。 このようなアプローチが約束されているにもかかわらず、改善できる側面は様々である。 2つの欠点は (i)古典的数値手法に対する計算効率の非効率,及び (II)訓練済みDNNモデルの非解釈可能性。 本稿では,SPINN(Sparse, Physics-informed, Interpretable Neural Networks)と呼ばれる従来の研究の異方性拡張であるASPINNを紹介する。 ASPINNはラジアル基底関数ネットワークを一般化する。 楕円型および双曲型PDEを含む様々な例を用いて、我々が提案する特別なアーキテクチャは、直接解釈可能であると同時に、一般的なDNNよりも効率的であることを示す。 さらに、各ノードの影響の局所的ゾーンの異方性により、SPINNを使用する場合よりも、ASPINNを用いてソリューションをキャプチャするノードが少なくなるという、先に提案したSPINNモデルを改善する。 ASPINNの解釈性は、その重みとバイアスの可視性に変換され、それによってトレーニングされたモデルの性質に関するより深い洞察が得られる。 これにより、計算されたソリューションの品質に基づいてアーキテクチャを改善するための体系的な手順が提供される。 したがって、ASPINNは古典的な数値アルゴリズムとPDEを解くための現代のDNNベースの手法の効果的なブリッジとして機能する。 その過程では、ASPINNのトレーニングを教師付き学習アルゴリズムに近い形式に合理化します。

There has been a growing interest in the use of Deep Neural Networks (DNNs) to solve Partial Differential Equations (PDEs). Despite the promise that such approaches hold, there are various aspects where they could be improved. Two such shortcomings are (i) their computational inefficiency relative to classical numerical methods, and (ii) the non-interpretability of a trained DNN model. In this work we present ASPINN, an anisotropic extension of our earlier work called SPINN--Sparse, Physics-informed, and Interpretable Neural Networks--to solve PDEs that addresses both these issues. ASPINNs generalize radial basis function networks. We demonstrate using a variety of examples involving elliptic and hyperbolic PDEs that the special architecture we propose is more efficient than generic DNNs, while at the same time being directly interpretable. Further, they improve upon the SPINN models we proposed earlier in that fewer nodes are require to capture the solution using ASPINN than using SPINN, thanks to the anisotropy of the local zones of influence of each node. The interpretability of ASPINN translates to a ready visualization of their weights and biases, thereby yielding more insight into the nature of the trained model. This in turn provides a systematic procedure to improve the architecture based on the quality of the computed solution. ASPINNs thus serve as an effective bridge between classical numerical algorithms and modern DNN based methods to solve PDEs. In the process, we also streamline the training of ASPINNs into a form that is closer to that of supervised learning algorithms.
翻訳日:2022-07-04 13:45:51 公開日:2022-07-01
# 生涯の逆強化学習

Lifelong Inverse Reinforcement Learning ( http://arxiv.org/abs/2207.00461v1 )

ライセンス: Link先を確認
Jorge A. Mendez and Shashank Shivkumar and Eric Eaton(参考訳) 実演から学ぶ方法(LfD)は,ユーザの模倣による行動方針の獲得に成功している。 しかし、1つのタスクであっても、LfDは多くのデモを必要とする。 デモを通じて多くのタスクを学習しなければならない汎用エージェントの場合、各タスクが独立して学習されると、このプロセスはユーザを著しく負担する。 この課題に対処するために,エージェントが従来実証されていたタスクから学んだ知識を継続的に構築し,新たなタスクの学習を加速し,必要なデモンストレーションの量を削減できる,デモからの生涯学習という新たな問題を紹介する。 この問題に対する1つの解決策として,実演を通じて連続タスクを学習し,タスク間の知識を継続的に伝達し,パフォーマンスを向上させる逆強化学習に対する,最初の生涯学習手法を提案する。

Methods for learning from demonstration (LfD) have shown success in acquiring behavior policies by imitating a user. However, even for a single task, LfD may require numerous demonstrations. For versatile agents that must learn many tasks via demonstration, this process would substantially burden the user if each task were learned in isolation. To address this challenge, we introduce the novel problem of lifelong learning from demonstration, which allows the agent to continually build upon knowledge learned from previously demonstrated tasks to accelerate the learning of new tasks, reducing the amount of demonstrations required. As one solution to this problem, we propose the first lifelong learning approach to inverse reinforcement learning, which learns consecutive tasks via demonstration, continually transferring knowledge between tasks to improve performance.
翻訳日:2022-07-04 13:44:08 公開日:2022-07-01
# HPCスケールでの非同期分散ベイズ最適化

Asynchronous Distributed Bayesian Optimization at HPC Scale ( http://arxiv.org/abs/2207.00479v1 )

ライセンス: Link先を確認
Romain Egele, Joceran Gouneau, Venkatram Vishwanath, Isabelle Guyon, Prasanna Balaprakash(参考訳) ベイズ最適化 (bayesian optimization, bo) は、シミュレーション校正やディープラーニング法のハイパーパラメータ最適化といった計算コストの高いブラックボックス最適化に広く用いられている手法である。 BOでは,ブラックボックス関数の入力出力関係の学習に動的に更新された安価なサロゲートモデルを用いており,このサロゲートモデルを用いて入力空間の有望領域を探索し,活用する。 マルチポイントBO法は、単一マネージャ/複数ワーカー戦略を採用し、短時間で高品質なソリューションを実現する。 しかし、マルチポイント生成スキームの計算オーバーヘッドは、数千人のワーカーにスケール可能なboメソッドを設計する上で大きなボトルネックである。 本稿では,各作業者が検索を実行し,他の作業者からのブラックボックス評価の入力出力値を非同期に伝達する,非同期分散BO(ADBO)手法を提案する。 提案手法は,最大4,096人までスケールし,ソリューションの品質向上とより高速なコンバージェンスを示す。 我々は,exascale computing project candle benchmarksを用いて,ニューラルネットワークのハイパーパラメータをチューニングする手法の有効性を示す。

Bayesian optimization (BO) is a widely used approach for computationally expensive black-box optimization such as simulator calibration and hyperparameter optimization of deep learning methods. In BO, a dynamically updated computationally cheap surrogate model is employed to learn the input-output relationship of the black-box function; this surrogate model is used to explore and exploit the promising regions of the input space. Multipoint BO methods adopt a single manager/multiple workers strategy to achieve high-quality solutions in shorter time. However, the computational overhead in multipoint generation schemes is a major bottleneck in designing BO methods that can scale to thousands of workers. We present an asynchronous-distributed BO (ADBO) method wherein each worker runs a search and asynchronously communicates the input-output values of black-box evaluations from all other workers without the manager. We scale our method up to 4,096 workers and demonstrate improvement in the quality of the solution and faster convergence. We demonstrate the effectiveness of our approach for tuning the hyperparameters of neural networks from the Exascale computing project CANDLE benchmarks.
翻訳日:2022-07-04 13:43:55 公開日:2022-07-01
# 実証支援強化学習による車線変更のための安全意思決定

Safe Decision-making for Lane-change of Autonomous Vehicles via Human Demonstration-aided Reinforcement Learning ( http://arxiv.org/abs/2207.00448v1 )

ライセンス: Link先を確認
Jingda Wu, Wenhui Huang, Niels de Boer, Yanghui Mo, Xiangkun He, Chen Lv(参考訳) 自動運転車の車線変更には意思決定が不可欠である。 強化学習(Reinforcement Learning, RL)アルゴリズムは, 様々な状況における行動の価値を識別することを目的としたアルゴリズムである。 しかし、実行時の安全性の悪さは、実際に複雑な運転タスクからRLベースの意思決定戦略を妨げる。 この問題に対処するため,本論文では,人間による実演をRLに基づく意思決定戦略に組み込んだ。 運転シミュレータにおける被験者による決定は、安全なデモンストレーションとして扱われ、リプレイバッファに格納され、RLのトレーニングプロセスを強化するために使用される。 開発戦略の性能を調べるために,オフランプシナリオにおける複雑なレーン変更タスクが確立される。 シミュレーションの結果,RLの安全性が向上することが示唆された。 また,提案手法は,複数の運転性能に関して,既存の学習に基づく意思決定戦略を上回っている。

Decision-making is critical for lane change in autonomous driving. Reinforcement learning (RL) algorithms aim to identify the values of behaviors in various situations and thus they become a promising pathway to address the decision-making problem. However, poor runtime safety hinders RL-based decision-making strategies from complex driving tasks in practice. To address this problem, human demonstrations are incorporated into the RL-based decision-making strategy in this paper. Decisions made by human subjects in a driving simulator are treated as safe demonstrations, which are stored into the replay buffer and then utilized to enhance the training process of RL. A complex lane change task in an off-ramp scenario is established to examine the performance of the developed strategy. Simulation results suggest that human demonstrations can effectively improve the safety of decisions of RL. And the proposed strategy surpasses other existing learning-based decision-making strategies with respect to multiple driving performances.
翻訳日:2022-07-04 13:43:37 公開日:2022-07-01
# ノイズのあるスキルラベルから職種を学習する

Learning Job Titles Similarity from Noisy Skill Labels ( http://arxiv.org/abs/2207.00494v1 )

ライセンス: Link先を確認
Rabih Zbib, Lucas Lacasa Alvarez, Federico Retyk, Rus Poves, Juan Aizpuru, Hermenegildo Fabregat, Vaidotas Simkus, and Emilia Garc\'ia-Casademont(参考訳) 職名間のセマンティックな類似度を測定することは、仕事の自動推薦に不可欠な機能である。 このタスクは通常、同等の肩書きペアの形式でトレーニングデータを必要とする教師付き学習技術を使ってアプローチされる。 そこで本稿では,ノイズのあるスキルラベルを用いた職名類似性モデルの学習のための教師なし表現学習手法を提案する。 テキストのランク付けや仕事の正規化といったタスクに非常に効果的であることを示す。

Measuring semantic similarity between job titles is an essential functionality for automatic job recommendations. This task is usually approached using supervised learning techniques, which requires training data in the form of equivalent job title pairs. In this paper, we instead propose an unsupervised representation learning method for training a job title similarity model using noisy skill labels. We show that it is highly effective for tasks such as text ranking and job normalization.
翻訳日:2022-07-04 13:43:21 公開日:2022-07-01
# CEDAR: 回帰のためのコミュニケーション効率の良い分散分析

CEDAR: Communication Efficient Distributed Analysis for Regressions ( http://arxiv.org/abs/2207.00306v1 )

ライセンス: Link先を確認
Changgee Chang, Zhiqi Bu, Qi Long(参考訳) 電子健康記録(EHR)は、精密医療の進歩とそれと同時に、重要な分析上の課題を提示する大きな約束を提供する。 特に、EHRの患者レベルのデータは、政府の規制や制度政策により、機関(データソース)間で共有できないことが多い。 その結果,患者レベルのデータを共有することなく,複数のEHRデータベース上での分散学習への関心が高まっている。 そこで本研究では,この問題を未解決データ問題にすることで,局所的最適推定を集約する新しい通信効率のよい手法を提案する。 また,情報漏洩のリスクを低減し,情報漏洩のリスクを低減し,情報不足量の部分的な情報提供とパラメータ推定の効率向上を両立できる遠隔地後部サンプルの導入を提案する。 提案手法は, 患者レベルのデータを共有することなく, 適切な統計的推測が可能であり, スパース回帰を許容できる。 本稿では,統計的推測法と差分プライバシー法の漸近特性に関する理論的検討を行い,最近開発されたいくつかの手法と比較してシミュレーションおよび実データ解析の性能を評価する。

Electronic health records (EHRs) offer great promises for advancing precision medicine and, at the same time, present significant analytical challenges. Particularly, it is often the case that patient-level data in EHRs cannot be shared across institutions (data sources) due to government regulations and/or institutional policies. As a result, there are growing interests about distributed learning over multiple EHRs databases without sharing patient-level data. To tackle such challenges, we propose a novel communication efficient method that aggregates the local optimal estimates, by turning the problem into a missing data problem. In addition, we propose incorporating posterior samples of remote sites, which can provide partial information on the missing quantities and improve efficiency of parameter estimates while having the differential privacy property and thus reducing the risk of information leaking. The proposed approach, without sharing the raw patient level data, allows for proper statistical inference and can accommodate sparse regressions. We provide theoretical investigation for the asymptotic properties of the proposed method for statistical inference as well as differential privacy, and evaluate its performance in simulations and real data analyses in comparison with several recently developed methods.
翻訳日:2022-07-04 13:43:15 公開日:2022-07-01
# 脅威知能における名前付きエンティティ認識のための多機能セマンティック拡張ネットワーク

Multi-features based Semantic Augmentation Networks for Named Entity Recognition in Threat Intelligence ( http://arxiv.org/abs/2207.00232v1 )

ライセンス: Link先を確認
Peipei Liu, Hong Li, Zuoguang Wang, Jie Liu, Yimo Ren, Hongsong Zhu(参考訳) 非構造化ネットワークテキストから攻撃者や脆弱性などのサイバーセキュリティエンティティを抽出することは、セキュリティ分析の重要な部分である。 しかし、高い頻度の変動とサイバーセキュリティエンティティ名のランダム性に起因するインテリジェンスデータのスパーシティは、セキュリティ関連の概念やエンティティの抽出において、現在の方法がうまく機能することを困難にしている。 そこで本研究では,異なる言語的特徴を取り入れ,入力トークンの表現を充実させ,非構造化テキスト上でサイバーセキュリティ名の検出と分類を行う意味的拡張手法を提案する。 特に,各入力トークンの構成特徴,形態的特徴,音声特徴の一部を符号化して集約し,その堅牢性を向上させる。 さらに、トークンはサイバーセキュリティドメインのコーパスにおいて最もよく似たKワードから付加的なセマンティック情報を取得し、そこでは注意モジュールを使用して単語の違いを計測し、大規模な汎用フィールドコーパスに基づくコンテキスト的手がかりから取得する。 サイバーセキュリティデータセットDNRTIとMalwareTextDBについて実験を行い,提案手法の有効性を実証した。

Extracting cybersecurity entities such as attackers and vulnerabilities from unstructured network texts is an important part of security analysis. However, the sparsity of intelligence data resulted from the higher frequency variations and the randomness of cybersecurity entity names makes it difficult for current methods to perform well in extracting security-related concepts and entities. To this end, we propose a semantic augmentation method which incorporates different linguistic features to enrich the representation of input tokens to detect and classify the cybersecurity names over unstructured text. In particular, we encode and aggregate the constituent feature, morphological feature and part of speech feature for each input token to improve the robustness of the method. More than that, a token gets augmented semantic information from its most similar K words in cybersecurity domain corpus where an attentive module is leveraged to weigh differences of the words, and from contextual clues based on a large-scale general field corpus. We have conducted experiments on the cybersecurity datasets DNRTI and MalwareTextDB, and the results demonstrate the effectiveness of the proposed method.
翻訳日:2022-07-04 13:42:58 公開日:2022-07-01
# (参考訳) ニューラルネットワークの獲得は自然と似ているか? 時系列調査

Is neural language acquisition similar to natural? A chronological probing study ( http://arxiv.org/abs/2207.00560v1 )

ライセンス: CC BY 4.0
Ekaterina Voloshina, Oleg Serikov, Tatiana Shavrina(参考訳) 探索手法により、外部分類器と統計解析を用いて、ニューラルネットワークの内層に記憶されている言語現象の部分表現を得ることができる。 事前学習されたトランスフォーマーベースの言語モデルは、自然言語理解(NLU)と自然言語生成(NLG)の両方に広く使われており、下流アプリケーションでよく使われている。 しかし、モデルが十分に事前訓練されているか、言語理論と相関する知識を含んでいるか、分析はほとんど行われなかった。 我々は、MultiBERTやT5といったトランスフォーマー英語モデルの時系列調査を行っている。 コーパスの学習過程において,モデルが学習した言語に関する情報を逐次比較する。 その結果は 1)訓練の初期段階で言語情報が取得される 2)両方の言語モデルは、形態素、構文、さらには談話など、さまざまなレベルの言語から様々な機能をキャプチャする能力を示しています。 また,他のトランスフォーマーモデルと互換性のある時系列調査のためのオープンソースフレームワークについても紹介する。 https://github.com/EkaterinaVoloshina/chronological_probing

The probing methodology allows one to obtain a partial representation of linguistic phenomena stored in the inner layers of the neural network, using external classifiers and statistical analysis. Pre-trained transformer-based language models are widely used both for natural language understanding (NLU) and natural language generation (NLG) tasks making them most commonly used for downstream applications. However, little analysis was carried out, whether the models were pre-trained enough or contained knowledge correlated with linguistic theory. We are presenting the chronological probing study of transformer English models such as MultiBERT and T5. We sequentially compare the information about the language learned by the models in the process of training on corpora. The results show that 1) linguistic information is acquired in the early stages of training 2) both language models demonstrate capabilities to capture various features from various levels of language, including morphology, syntax, and even discourse, while they also can inconsistently fail on tasks that are perceived as easy. We also introduce the open-source framework for chronological probing research, compatible with other transformer-based models. https://github.com/EkaterinaVoloshina/chronological_probing
翻訳日:2022-07-04 13:42:10 公開日:2022-07-01
# Linked Open DataによるWikidataの強化

Enriching Wikidata with Linked Open Data ( http://arxiv.org/abs/2207.00143v1 )

ライセンス: Link先を確認
Bohui Zhang, Filip Ilievski, Pedro Szekely(参考訳) Wikidataのような大規模な公開知識グラフには、数千万のエンティティに関する数十億のステートメントが含まれており、このような知識グラフを利用するさまざまなユースケースを刺激している。 しかし,現在のオープンデータ(LOD)ツールは,Wikidataのような大規模グラフの充実に適していないのに対して,ユーザのニーズに適合する関連情報の多くはいまだに不足している。 本稿では,LODクラウドからの構造化データソースによるWikidataの強化の可能性を検討する。 本稿では,ギャップ検出,ソース選択,スキーマアライメント,意味的検証を含む新たなワークフローを提案する。 我々は,広範にカバー可能なノイズソース,dbpedia,アートドメインであるgettyに焦点を絞った手動キュレーションソースの2つの補完的lodソースを用いてエンリッチメント手法を評価した。 実験の結果,我々のワークフローは,高品質な外部LODソースから数百万の新しいステートメントでWikidataを充実させることができることがわかった。 プロパティアライメントとデータ品質は重要な課題であるが、エンティティアライメントとソースセレクションは既存のWikidataメカニズムによって十分にサポートされている。 将来の作業をサポートするために、コードとデータを利用可能にします。

Large public knowledge graphs, like Wikidata, contain billions of statements about tens of millions of entities, thus inspiring various use cases to exploit such knowledge graphs. However, practice shows that much of the relevant information that fits users' needs is still missing in Wikidata, while current linked open data (LOD) tools are not suitable to enrich large graphs like Wikidata. In this paper, we investigate the potential of enriching Wikidata with structured data sources from the LOD cloud. We present a novel workflow that includes gap detection, source selection, schema alignment, and semantic validation. We evaluate our enrichment method with two complementary LOD sources: a noisy source with broad coverage, DBpedia, and a manually curated source with narrow focus on the art domain, Getty. Our experiments show that our workflow can enrich Wikidata with millions of novel statements from external LOD sources with a high quality. Property alignment and data quality are key challenges, whereas entity alignment and source selection are well-supported by existing Wikidata mechanisms. We make our code and data available to support future work.
翻訳日:2022-07-04 13:29:36 公開日:2022-07-01
# ChrSNet:自己注意誘導ネットワークを用いた染色体ストレート化

ChrSNet: Chromosome Straightening using Self-attention Guided Networks ( http://arxiv.org/abs/2207.00147v1 )

ライセンス: Link先を確認
Sunyi Zheng, Jingxiong Li, Zhongyi Shui, Chenglu Zhu, Yunlong Zhang, Pingyi Chen, Lin Yang(参考訳) カリオタイピングは染色体異常の可能性を評価するための重要な手順である。 しかし、非厳密な性質のため、染色体は通常顕微鏡画像で大きく湾曲しており、このような変形した形状は細胞遺伝学者の染色体解析を妨げる。 本稿では,染色体の曲がりくねりを消すための自己着脱誘導フレームワークを提案する。 提案手法は,空間情報と局所テクスチャを抽出し,回帰モジュールにバンドリングパターンを保存する。 曲がった染色体からの相補的な情報により、精細化モジュールは詳細をさらに改善するように設計されている。 さらに,染色体長の維持と歪みの回復のために,2つの幾何学的制約を提案する。 フレームワークをトレーニングするために、格子変形により実世界のストレート染色体から湾曲した染色体を生成する合成データセットを作成する。 合成データと実世界データを用いて定量的・定性的な実験を行う。 実験の結果,提案手法は包帯の細部と長さを保ちつつ,曲がった染色体を効果的に直線化できることがわかった。

Karyotyping is an important procedure to assess the possible existence of chromosomal abnormalities. However, because of the non-rigid nature, chromosomes are usually heavily curved in microscopic images and such deformed shapes hinder the chromosome analysis for cytogeneticists. In this paper, we present a self-attention guided framework to erase the curvature of chromosomes. The proposed framework extracts spatial information and local textures to preserve banding patterns in a regression module. With complementary information from the bent chromosome, a refinement module is designed to further improve fine details. In addition, we propose two dedicated geometric constraints to maintain the length and restore the distortion of chromosomes. To train our framework, we create a synthetic dataset where curved chromosomes are generated from the real-world straight chromosomes by grid-deformation. Quantitative and qualitative experiments are conducted on synthetic and real-world data. Experimental results show that our proposed method can effectively straighten bent chromosomes while keeping banding details and length.
翻訳日:2022-07-04 13:28:34 公開日:2022-07-01
# 単視点再構成における単眼差推定の活用

Leveraging Monocular Disparity Estimation for Single-View Reconstruction ( http://arxiv.org/abs/2207.00182v1 )

ライセンス: Link先を確認
Marissa Ramirez de Chanlatte, Matheus Gadelha, Thibault Groueix, Radomir Mech(参考訳) 単一画像から再構成した3次元ジオメトリーの外観を改善するための微調整法を提案する。 単眼深度推定の進歩を活用して不均質マップを得るとともに、関連するカメラパラメータの最適化によって2次元正規化不均質マップを3Dポイントクラウドに変換する新しい手法を提案する。 合成画像と実画像の両方で複数の実験を行い,本手法の有効性を実証した。

We present a fine-tuning method to improve the appearance of 3D geometries reconstructed from single images. We leverage advances in monocular depth estimation to obtain disparity maps and present a novel approach to transforming 2D normalized disparity maps into 3D point clouds by solving an optimization on the relevant camera parameters, After creating a 3D point cloud from disparity, we introduce a method to combine the new point cloud with existing information to form a more faithful and detailed final geometry. We demonstrate the efficacy of our approach with multiple experiments on both synthetic and real images.
翻訳日:2022-07-04 13:28:18 公開日:2022-07-01
# 視覚変換器におけるクエリキーペアワイズインタラクションの再考

Rethinking Query-Key Pairwise Interactions in Vision Transformers ( http://arxiv.org/abs/2207.00188v1 )

ライセンス: Link先を確認
Cheng Li, Yangxin Liu(参考訳) 視覚トランスフォーマーは多くの視覚タスクで最先端のパフォーマンスを達成しています。 セルフアテンションの二次計算とメモリの複雑さのために、最近の研究は低解像度入力にのみ注意を向けるか、受容場を小さな局所領域に制限するかのどちらかである。 これらの制約を克服するため,我々は,問合せキー対の相互作用を除外し,計算効率の高いサリエンシーゲートを用いて注意重み付けを行い,すべての段階における局所的グローバルインタラクションをモデル化するキーのみの注意手法を提案する。 キーのみの注意は線形計算とメモリの複雑度 w.r.t 入力サイズを持つ。 コンボリューションとアテンション層をハイブリッド化するために, 従来の研究で示唆されていたグラフトではなく, コンボリューションとアテンション層を交互に配置する。 我々はこれらの改良を活用して、新しい自己注意モデルファミリーLinGlosを開発し、ImageNet分類ベンチマークのパラメータ制限設定で最先端の精度に達し、例えばCOCOオブジェクト検出やADE20Kセマンティックセグメンテーションといった下流タスクにおいて、ベースラインを大幅に上回っている。

Vision Transformers have achieved state-of-the-art performance in many visual tasks. Due to the quadratic computational and memory complexities of self-attention, recent works either apply attention only to low-resolution inputs or restrict the receptive field to a small local region. To overcome these limitations, we propose key-only attention, which excludes query-key pairwise interactions and uses a compute-efficient saliency-gate to obtain attention weights, modeling local-global interactions in all stages. Key-only attention has linear computational and memory complexities w.r.t input size. We use alternate layout to hybridize convolution and attention layers instead of grafting which is suggested by previous works, so that all stages can benefit from both spatial attentions and convolutions. We leverage these improvements to develop a new self-attention model family, LinGlos, which reach state-of-the-art accuracies on the parameter-limited setting of ImageNet classification benchmark, and outperform baselines significantly in downstream tasks, e.g., COCO object detection and ADE20K semantic segmentation.
翻訳日:2022-07-04 13:28:08 公開日:2022-07-01
# 読み書き : 自己教師付きテキスト認識のための識別・生成モデル

Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition ( http://arxiv.org/abs/2207.00193v1 )

ライセンス: Link先を確認
Mingkun Yang, Minghui Liao, Pu Lu, Jing Wang, Shenggao Zhu, Hualin Luo, Qi Tian, Xiang Bai(参考訳) 既存のテキスト認識法は通常、大規模なトレーニングデータを必要とする。 その多くは、注釈付き実画像がないため、合成トレーニングデータに依存している。 しかし、合成データと実データの間にはドメインギャップがあり、テキスト認識モデルの性能が制限される。 最近の自己教師付きテキスト認識手法では,テキスト画像の識別を主に学習するコントラスト学習の導入により,ラベルなしの実画像の利用を試みた。 人間が読み書きの両方を通じてテキストを認識することを学ぶという観察に触発されて,コントラスト学習とマスキング画像モデリングを統合し,識別と生成を学ぶことを提案する。 コントラスト学習部は、人間の読書行動を模倣するテキスト画像の識別を学ぶために採用されている。 一方,テキスト認識にはまずマスク付き画像モデリングを導入し,テキスト画像のコンテキスト生成を学習する。 実験の結果,不規則なテキスト認識データセットにおいて,従来の自己教師ありテキスト認識法を10.2%-20.2%上回ることがわかった。 さらに,提案したテキスト認識器は,11ベンチマークで平均5.3%,類似のモデルサイズで,従来の最先端のテキスト認識手法を上回った。 また,事前学習したモデルが他のテキスト関連タスクにも容易に適用できることを示す。

Existing text recognition methods usually need large-scale training data. Most of them rely on synthetic training data due to the lack of annotated real images. However, there is a domain gap between the synthetic data and real data, which limits the performance of the text recognition models. Recent self-supervised text recognition methods attempted to utilize unlabeled real images by introducing contrastive learning, which mainly learns the discrimination of the text images. Inspired by the observation that humans learn to recognize the texts through both reading and writing, we propose to learn discrimination and generation by integrating contrastive learning and masked image modeling in our self-supervised method. The contrastive learning branch is adopted to learn the discrimination of text images, which imitates the reading behavior of humans. Meanwhile, masked image modeling is firstly introduced for text recognition to learn the context generation of the text images, which is similar to the writing behavior. The experimental results show that our method outperforms previous self-supervised text recognition methods by 10.2%-20.2% on irregular scene text recognition datasets. Moreover, our proposed text recognizer exceeds previous state-of-the-art text recognition methods by averagely 5.3% on 11 benchmarks, with similar model size. We also demonstrate that our pre-trained model can be easily applied to other text-related tasks with obvious performance gain.
翻訳日:2022-07-04 13:27:45 公開日:2022-07-01
# DALG:画像検索のための深部注視ローカルおよびグローバルモデリング

DALG: Deep Attentive Local and Global Modeling for Image Retrieval ( http://arxiv.org/abs/2207.00287v1 )

ライセンス: Link先を確認
Yuxin Song, Ruolin Zhu, Min Yang and Dongliang He(参考訳) 深層学習された表現は、検索・削除方式で優れた画像検索性能を達成している。 局所的・グローバル的特徴をヒューリスティックに融合した最近の最先端の単一ステージモデルでは,効率性と有効性の間に有望なトレードオフが達成されている。 しかし,マルチスケール推論パラダイムのため,既存のソリューションの効率は依然として制限されている。 本稿では,マルチスケールテストの除去に成功して,単一ステージ技術に従い,さらなる複雑性と効率のバランスを得る。 この目的を達成するために,多種多様な視覚パターンの探索に制限を与える広範に利用されている畳み込みネットワークを放棄し,Transformerの成功に動機づけられた頑健な表現学習のためのフレームワークを十分に注目する。 グローバル特徴抽出にトランスフォーマーを適用するだけでなく、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案し、ローカルイメージパターンを完全に活用する。 さらに,従来の技術のようにヒューリスティックな融合を使わずに,階層的な局所的特徴とグローバルな特徴をクロスアテンションモジュールで組み合わせることを提案する。 DALG(Deep Attentive Local and Global Modeling framework)では,最先端技術との競争性を保ちながら,効率を大幅に改善できることを示す。

Deeply learned representations have achieved superior image retrieval performance in a retrieve-then-rerank manner. Recent state-of-the-art single stage model, which heuristically fuses local and global features, achieves promising trade-off between efficiency and effectiveness. However, we notice that efficiency of existing solutions is still restricted because of their multi-scale inference paradigm. In this paper, we follow the single stage art and obtain further complexity-effectiveness balance by successfully getting rid of multi-scale testing. To achieve this goal, we abandon the widely-used convolution network giving its limitation in exploring diverse visual patterns, and resort to fully attention based framework for robust representation learning motivated by the success of Transformer. Besides applying Transformer for global feature extraction, we devise a local branch composed of window-based multi-head attention and spatial attention to fully exploit local image patterns. Furthermore, we propose to combine the hierarchical local and global features via a cross-attention module, instead of using heuristically fusion as previous art does. With our Deep Attentive Local and Global modeling framework (DALG), extensive experimental results show that efficiency can be significantly improved while maintaining competitive results with the state of the arts.
翻訳日:2022-07-04 13:26:20 公開日:2022-07-01
# (参考訳) MLに基づく拡散MRIパラメータ推定における球面CNNの有用性

How can spherical CNNs benefit ML-based diffusion MRI parameter estimation? ( http://arxiv.org/abs/2207.00572v1 )

ライセンス: CC BY 4.0
Tobias Goodwin-Allcock, Jason McEwen, Robert Gray, Parashkev Nachev and Hui Zhang(参考訳) 本稿では,拡散MRI(dMRI)から組織微細構造のスカラーパラメータを推定する上で,球状畳み込みニューラルネットワーク(S-CNN)が従来の完全連結ネットワーク(FCN)に対して明確な優位性を示すことを示す。 このような微細構造パラメータは病理の同定とその範囲の定量化に有用である。 しかし,現在の臨床は,拡散強調画像 (dwis) のみからなるdmriデータを取得し,推定した組織指標の精度と精度を制限している。 この課題に対処するために機械学習(ML)が提案されている。 しかし、既存のMLベースの手法は、dMRI勾配サンプリング方式の違いに頑健ではないし、回転同変でもない。 サンプリングスキームに対する堅牢性の欠如は、複数のソースからのデータ分析を複雑にするため、各スキームに対して新しいネットワークをトレーニングする必要がある。 回転均等性の欠如による可能性のある結果は、トレーニングデータセットが様々なマイクロストラクチャ配向を含む必要があることである。 ここで、球面cnnは新たなサンプリングスキームに頑健な代替手段であり、回転同値性を提供する。 後者を活用すれば、必要なトレーニングデータポイント数を削減できることを示す。

This paper demonstrates spherical convolutional neural networks (S-CNN) offer distinct advantages over conventional fully-connected networks (FCN) at estimating scalar parameters of tissue microstructure from diffusion MRI (dMRI). Such microstructure parameters are valuable for identifying pathology and quantifying its extent. However, current clinical practice commonly acquires dMRI data consisting of only 6 diffusion weighted images (DWIs), limiting the accuracy and precision of estimated microstructure indices. Machine learning (ML) has been proposed to address this challenge. However, existing ML-based methods are not robust to differing dMRI gradient sampling schemes, nor are they rotation equivariant. Lack of robustness to sampling schemes requires a new network to be trained for each scheme, complicating the analysis of data from multiple sources. A possible consequence of the lack of rotational equivariance is that the training dataset must contain a diverse range of microstucture orientations. Here, we show spherical CNNs represent a compelling alternative that is robust to new sampling schemes as well as offering rotational equivariance. We show the latter can be leveraged to decrease the number of training datapoints required.
翻訳日:2022-07-04 13:24:17 公開日:2022-07-01
# wnet: 訓練可能な再構成層を有するスパースビューctのためのデータ駆動型デュアルドメインデノイジングモデル

WNet: A data-driven dual-domain denoising model for sparse-view computed tomography with a trainable reconstruction layer ( http://arxiv.org/abs/2207.00400v1 )

ライセンス: Link先を確認
Theodor Cheslerean-Boghiu, Felix C. Hofmann, Manuel Schulthei{\ss}, Franz Pfeiffer, Daniela Pfeiffer, Tobias Lasser(参考訳) ディープラーニングベースのソリューションは、さまざまなアプリケーションでうまく実装されています。 中でも注目すべきは、臨床ユースケースの関心が高まり、過去数年間に提案された最先端のデータ駆動アルゴリズムの主要な推進役となったことだ。 sparse-view tomographic reconstructionsのようなアプリケーションでは、取得時間を短く、放射線線量が少なくするために測定データの量が小さい場合、ストレッチアーティファクトの削減は、フルスキャンデータのサブセットのみを使用して診断可能な画像を取得することを主な目標として、データ駆動デノイジングアルゴリズムの開発を促している。 本稿では,sparse-viewアーティファクトをデノージングするためのトレーニング可能な再構築層を含むデータ駆動型デュアルドメインデノージングモデルであるwnetを提案する。 2つのエンコーダデコーダネットワークは、シングラムと再構成ドメインを同時にデノナイズする一方、フィルタバックプロジェクションアルゴリズムを実装する第3の層は、第1の2つの間に挟み込み、再構成操作を行う。 胸部CTスキャンにおけるネットワークの性能について検討し,従来の固定層よりもトレーニング可能な再構成層を持つことのメリットを強調した。 我々は2つの臨床的に関連のあるデータセットを用いてネットワークをトレーニングし、その結果を3種類のスパースビューCTと再構成アルゴリズムと比較した。

Deep learning based solutions are being succesfully implemented for a wide variety of applications. Most notably, clinical use-cases have gained an increased interest and have been the main driver behind some of the cutting-edge data-driven algorithms proposed in the last years. For applications like sparse-view tomographic reconstructions, where the amount of measurement data is small in order to keep acquisition times short and radiation dose low, reduction of the streaking artifacts has prompted the development of data-driven denoising algorithms with the main goal of obtaining diagnostically viable images with only a subset of a full-scan data. We propose WNet, a data-driven dual-domain denoising model which contains a trainable reconstruction layer for sparse-view artifact denoising. Two encoder-decoder networks perform denoising in both sinogram- and reconstruction-domain simultaneously, while a third layer implementing the Filtered Backprojection algorithm is sandwiched between the first two and takes care of the reconstruction operation. We investigate the performance of the network on sparse-view chest CT scans, and we highlight the added benefit of having a trainable reconstruction layer over the more conventional fixed ones. We train and test our network on two clinically relevant datasets and we compare the obtained results with three different types of sparse-view CT denoising and reconstruction algorithms.
翻訳日:2022-07-04 13:14:32 公開日:2022-07-01
# インドネシア語サブワードセパレータによるインドネシア語語彙の削減

Reduce Indonesian Vocabularies with an Indonesian Sub-word Separator ( http://arxiv.org/abs/2207.00552v1 )

ライセンス: Link先を確認
Mukhlis Amien, Feng Chong, Huang Heyan(参考訳) インドネシア語は単語形成の複合過程を持つため、凝集言語である。 したがって、この言語の翻訳モデルは、サブワードレベルと呼ばれる単語レベルよりもさらに低いメカニズムを必要とする。 この混合過程は語彙の数が爆発するため、稀な単語問題を引き起こす。 本稿では,インドネシア語を対言語として使用するニューラルマシン翻訳(nmt)システムの一意な単語問題に対処する戦略を提案する。 提案手法では,単語を語根に変換し,接尾辞を伴って意味や文脈を保持するために規則に基づく手法を用いる。 コーパスデータを必要としないが、標準的なインドネシアのルールのみを適用する。 我々の実験は、この方法が実用的であることを確認した。 語彙の数は57 %まで大幅に減少し、英語からインドネシア語への翻訳では、この手法を使用しない同様のNMTシステムよりも最大5 BLEUポイントの改善が提供される。

Indonesian is an agglutinative language since it has a compounding process of word-formation. Therefore, the translation model of this language requires a mechanism that is even lower than the word level, referred to as the sub-word level. This compounding process leads to a rare word problem since the number of vocabulary explodes. We propose a strategy to address the unique word problem of the neural machine translation (NMT) system, which uses Indonesian as a pair language. Our approach uses a rule-based method to transform a word into its roots and accompanied affixes to retain its meaning and context. Using a rule-based algorithm has more advantages: it does not require corpus data but only applies the standard Indonesian rules. Our experiments confirm that this method is practical. It reduces the number of vocabulary significantly up to 57\%, and on the English to Indonesian translation, this strategy provides an improvement of up to 5 BLEU points over a similar NMT system that does not use this technique.
翻訳日:2022-07-04 13:13:43 公開日:2022-07-01
# (参考訳) Ego4D長期活動予測のためのビデオ+CLIPベースライン

Video + CLIP Baseline for Ego4D Long-term Action Anticipation ( http://arxiv.org/abs/2207.00579v1 )

ライセンス: CC0 1.0
Srijan Das and Michael S. Ryoo(参考訳) 本稿では,長期的行動予測のための画像テキストモデルの適応について紹介する。 私たちのVideo + CLIPフレームワークは、CLIPとビデオエンコーダSlowfastネットワークという、大規模にトレーニング済みのペアイメージテキストモデルを使用しています。 CLIP埋め込みはアクションに関連するオブジェクトのきめ細かい理解を提供するが、低速ネットワークは、数フレームのビデオクリップ内の時間情報をモデル化する責任がある。 両エンコーダから得られる特徴は相補的であり,長期動作予測のタスクにおいて,Ego4Dのベースラインよりも優れていることを示す。 私たちのコードはgithub.com/srijandas07/clip_baseline_LTA_Ego4dで利用可能です。

In this report, we introduce our adaptation of image-text models for long-term action anticipation. Our Video + CLIP framework makes use of a large-scale pre-trained paired image-text model: CLIP and a video encoder Slowfast network. The CLIP embedding provides fine-grained understanding of objects relevant for an action whereas the slowfast network is responsible for modeling temporal information within a video clip of few frames. We show that the features obtained from both encoders are complementary to each other, thus outperforming the baseline on Ego4D for the task of long-term action anticipation. Our code is available at github.com/srijandas07/clip_baseline_LTA_Ego4d.
翻訳日:2022-07-04 13:10:54 公開日:2022-07-01
# 非対称決定点過程に対するスケーラブルMCMCサンプリング

Scalable MCMC Sampling for Nonsymmetric Determinantal Point Processes ( http://arxiv.org/abs/2207.00486v1 )

ライセンス: Link先を確認
Insu Han, Mike Gartrell, Elvis Dohmatob, Amin Karbasi(参考訳) 決定点過程 (Determinantal point process, DPP) は、$n$アイテムの集合の全ての部分集合に確率を割り当てるエレガントなモデルである。 従来、dppは対称カーネル行列によってパラメータ化されるが、この対称性の制約を取り除いて非対称dpps(nonsymmetric dpps)となり、モデリング能力と予測性能が大幅に向上する。 最近の研究は、NDPPのサイズ-$k$サブセット($k$-NDPPs)に制限されたNDPPに対する近似マルコフ連鎖モンテカルロ(MCMC)サンプリングアルゴリズムを研究している。 しかし、このアプローチのランタイムは$n$で2倍になり、大規模な設定では実現不可能である。 本研究では,低ランクカーネルを持つ$k$-NDPPに対するスケーラブルなMCMCサンプリングアルゴリズムを開発し,$n$でサブリニアなランタイムを実現する。 提案手法は最先端ndppリジェクションサンプリングアルゴリズムに基づいており,提案手法を効率的に構築するための新しい手法により拡張する。 さらに,拡張可能な$k$-NDPPサンプリングアルゴリズムを,サイズ制約のないNDPPに拡張する。 得られたサンプリング手法はカーネルのランクにおいて多項式時間の複雑さを持ち,既存の手法では指数関数的な実行時間を持つ。 実世界のデータセットに関する理論的解析と実験により、我々のスケーラブルな近似サンプリングアルゴリズムは、$k$-NDPPsとNDPPsの既存のサンプリング手法よりも桁違いに高速であることを確認した。

A determinantal point process (DPP) is an elegant model that assigns a probability to every subset of a collection of $n$ items. While conventionally a DPP is parameterized by a symmetric kernel matrix, removing this symmetry constraint, resulting in nonsymmetric DPPs (NDPPs), leads to significant improvements in modeling power and predictive performance. Recent work has studied an approximate Markov chain Monte Carlo (MCMC) sampling algorithm for NDPPs restricted to size-$k$ subsets (called $k$-NDPPs). However, the runtime of this approach is quadratic in $n$, making it infeasible for large-scale settings. In this work, we develop a scalable MCMC sampling algorithm for $k$-NDPPs with low-rank kernels, thus enabling runtime that is sublinear in $n$. Our method is based on a state-of-the-art NDPP rejection sampling algorithm, which we enhance with a novel approach for efficiently constructing the proposal distribution. Furthermore, we extend our scalable $k$-NDPP sampling algorithm to NDPPs without size constraints. Our resulting sampling method has polynomial time complexity in the rank of the kernel, while the existing approach has runtime that is exponential in the rank. With both a theoretical analysis and experiments on real-world datasets, we verify that our scalable approximate sampling algorithms are orders of magnitude faster than existing sampling approaches for $k$-NDPPs and NDPPs.
翻訳日:2022-07-04 13:05:57 公開日:2022-07-01
# マグニチュードプルーニングがコントラスト学習法に及ぼす影響に関する研究

Studying the impact of magnitude pruning on contrastive learning methods ( http://arxiv.org/abs/2207.00200v1 )

ライセンス: Link先を確認
Francesco Corti, Rahim Entezari, Sara Hooker, Davide Bacciu, Olga Saukh(参考訳) 本研究では,異なるプルーニング手法が深層ニューラルネットワークで学習した表現に与える影響について検討した。 我々の研究は、高い疎度レベルでは、対照的な学習の結果、従来のクロスエントロピー損失で訓練されたモデルと比較して、より多くの誤分類例が生まれることを発見した。 この顕著な違いを理解するために、PIE(Hooker et al., 2019)、Q-Score(Kalibhat et al., 2022)、PD-Score(Baldock et al., 2021)などの指標を用いて、学習した表現品質に対するプルーニングの影響を測定する。 本分析では, プルーニング法の実施スケジュールが重要であることを示唆する。 学習した表現の質に対するスパシティの負の影響は,訓練段階の早い段階でプルーニングを導入する場合に最も高い値であることがわかった。

We study the impact of different pruning techniques on the representation learned by deep neural networks trained with contrastive loss functions. Our work finds that at high sparsity levels, contrastive learning results in a higher number of misclassified examples relative to models trained with traditional cross-entropy loss. To understand this pronounced difference, we use metrics such as the number of PIEs (Hooker et al., 2019), Q-Score (Kalibhat et al., 2022), and PD-Score (Baldock et al., 2021) to measure the impact of pruning on the learned representation quality. Our analysis suggests the schedule of the pruning method implementation matters. We find that the negative impact of sparsity on the quality of the learned representation is the highest when pruning is introduced early on in the training phase.
翻訳日:2022-07-04 13:05:31 公開日:2022-07-01
# e-CLIP:Eコマースにおける大規模ビジョンランゲージ表現学習

e-CLIP: Large-Scale Vision-Language Representation Learning in E-commerce ( http://arxiv.org/abs/2207.00208v1 )

ライセンス: Link先を確認
Wonyoung Shin, Jonghun Park, Taekang Woo, Yongwoo Cho, Kwangjin Oh, Hwanjun Song(参考訳) 製品コンテンツのビジョンと言語表現を理解することは、eコマースにおける検索およびレコメンデーションアプリケーションにとって不可欠である。 オンラインショッピングプラットフォームのバックボーンとして,近年の表現学習研究の成功に触発されて,ラベルなしの生製品テキストと画像を用いて言語と視覚モデルを整合させるコントラスト学習フレームワークを提案する。 我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提案する。 先行学習モデルを用いて,カテゴリ分類,属性抽出,製品マッチング,製品クラスタリング,アダルト製品認識など,さまざまな下流タスクのバックボーンとしてのパフォーマンスを調査した。 実験の結果,提案手法は単一モードと複数モードの双方に関して,各下流タスクのベースラインよりも優れていた。

Understanding vision and language representations of product content is vital for search and recommendation applications in e-commerce. As a backbone for online shopping platforms and inspired by the recent success in representation learning research, we propose a contrastive learning framework that aligns language and visual models using unlabeled raw product text and images. We present techniques we used to train large-scale representation learning models and share solutions that address domain-specific challenges. We study the performance using our pre-trained model as backbones for diverse downstream tasks, including category classification, attribute extraction, product matching, product clustering, and adult product recognition. Experimental results show that our proposed method outperforms the baseline in each downstream task regarding both single modality and multiple modalities.
翻訳日:2022-07-04 13:05:16 公開日:2022-07-01
# MotionMixer: MLPベースの3D人体ポスキャスティング

MotionMixer: MLP-based 3D Human Body Pose Forecasting ( http://arxiv.org/abs/2207.00499v1 )

ライセンス: Link先を確認
Arij Bouazizi and Adrian Holzbock and Ulrich Kressel and Klaus Dietmayer and Vasileios Belagiannis(参考訳) 本研究では,多層パーセプトロン(MLP)のみに基づく効率的な3次元人体ポーズ予測モデルであるMotionMixerを提案する。 MotionMixerは、両方のモダリティを逐次混合することで、時空間の3Dボディのポーズ依存性を学習する。 3Dボディポーズの積み重ね配列が与えられた場合、空間MLPは体の関節のきめ細かい空間依存性を抽出する。 身体関節の時間的相互作用は、時間的mlpによってモデル化される。 時空間混合特徴を最終的に集約してデコードし、将来の動きを得る。 ポーズシーケンスにおける各時間ステップの影響を校正するために,swish-and-excitation (se)ブロックを用いる。 我々は,標準評価プロトコルを用いて,Human3.6M,AMASS,3DPWデータセットに対するアプローチを評価する。 全ての評価において,パラメータの少ないモデルを持ちながら,最先端の性能を実証する。 私たちのコードは、https://github.com/MotionMLP/MotionMixerで利用可能です。

In this work, we present MotionMixer, an efficient 3D human body pose forecasting model based solely on multi-layer perceptrons (MLPs). MotionMixer learns the spatial-temporal 3D body pose dependencies by sequentially mixing both modalities. Given a stacked sequence of 3D body poses, a spatial-MLP extracts fine grained spatial dependencies of the body joints. The interaction of the body joints over time is then modelled by a temporal MLP. The spatial-temporal mixed features are finally aggregated and decoded to obtain the future motion. To calibrate the influence of each time step in the pose sequence, we make use of squeeze-and-excitation (SE) blocks. We evaluate our approach on Human3.6M, AMASS, and 3DPW datasets using the standard evaluation protocols. For all evaluations, we demonstrate state-of-the-art performance, while having a model with a smaller number of parameters. Our code is available at: https://github.com/MotionMLP/MotionMixer
翻訳日:2022-07-04 13:05:00 公開日:2022-07-01
# FitHuBERT: 自己指導型学習の知識蒸留のためのより薄くディープに

FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech Self-Supervised Learning ( http://arxiv.org/abs/2207.00555v1 )

ライセンス: Link先を確認
Yeonghyeon Lee, Kangwook Jang, Jahyun Goo, Youngmoon Jung, Hoirin Kim(参考訳) 大規模音声自己教師学習(SSL)が音声処理の主流となっているが,その大規模化に伴う計算コストの問題は,学術への参入障壁を高くしている。 さらに,既存の音声SSLモデルの蒸留技術では,層を減らしてモデルを圧縮し,音素認識(PR)などの言語パターン認識タスクの性能劣化を引き起こす。 本稿では,従来のSSL蒸留法と比較して,ほぼすべてのモデル成分の次元を薄くし,層厚を深くするFitHuBERTを提案する。 さらに, 時間還元層を用いて推算時間を高速化し, 性能劣化を低減できるヒントベースの蒸留法を提案する。 提案手法では,HuBERTと比較して23.8%,推定時間35.9%に縮小した。 また,従来よりも優れているSUPERBベンチマークにおいて,単語誤り率12.1%,音素誤り率13.3%を達成した。

Large-scale speech self-supervised learning (SSL) has emerged to the main field of speech processing, however, the problem of computational cost arising from its vast size makes a high entry barrier to academia. In addition, existing distillation techniques of speech SSL models compress the model by reducing layers, which induces performance degradation in linguistic pattern recognition tasks such as phoneme recognition (PR). In this paper, we propose FitHuBERT, which makes thinner in dimension throughout almost all model components and deeper in layer compared to prior speech SSL distillation works. Moreover, we employ a time-reduction layer to speed up inference time and propose a method of hint-based distillation for less performance degradation. Our method reduces the model to 23.8% in size and 35.9% in inference time compared to HuBERT. Also, we achieve 12.1% word error rate and 13.3% phoneme error rate on the SUPERB benchmark which is superior than prior work.
翻訳日:2022-07-04 13:04:28 公開日:2022-07-01
# 信頼できるワイヤレスaiのためのロバストベイズ学習:フレームワークと応用

Robust Bayesian Learning for Reliable Wireless AI: Framework and Applications ( http://arxiv.org/abs/2207.00300v1 )

ライセンス: Link先を確認
Matteo Zecchin, Sangwoo Park, Osvaldo Simeone, Marios Kountouris, David Gesbert(参考訳) 本研究は,信頼性と堅牢性のレンズによる無線通信問題に対する従来の機械学習手法の適用を批判的に考察する。 ディープラーニングのテクニックは、頻繁なフレームワークを採用しており、トレーニングデータのサイズ制限による真の不確実性を再現しない、不適切な判断を提供することが知られている。 ベイズ学習は、原則としてこの欠点に対処できるが、実際にはモデルの誤特定と外れ値の存在によって障害を受ける。 どちらの問題も、機械学習モデルの能力がリソース制約の対象となり、トレーニングデータがノイズや干渉に影響される、無線通信設定において広まっています。 この文脈では、頑健なベイズ学習の枠組みの適用について検討する。 頑健なベイズ学習のチュートリアル的導入の後, 精度, 校正, および不特定性に対する堅牢性の観点から, ベイズ学習がいくつかの重要な無線通信問題に対して有益であることを示す。

This work takes a critical look at the application of conventional machine learning methods to wireless communication problems through the lens of reliability and robustness. Deep learning techniques adopt a frequentist framework, and are known to provide poorly calibrated decisions that do not reproduce the true uncertainty caused by limitations in the size of the training data. Bayesian learning, while in principle capable of addressing this shortcoming, is in practice impaired by model misspecification and by the presence of outliers. Both problems are pervasive in wireless communication settings, in which the capacity of machine learning models is subject to resource constraints and training data is affected by noise and interference. In this context, we explore the application of the framework of robust Bayesian learning. After a tutorial-style introduction to robust Bayesian learning, we showcase the merits of robust Bayesian learning on several important wireless communication problems in terms of accuracy, calibration, and robustness to outliers and misspecification.
翻訳日:2022-07-04 13:02:29 公開日:2022-07-01
# 教育初心者:人間-AI連携と知識伝達の役割

Training Novices: The Role of Human-AI Collaboration and Knowledge Transfer ( http://arxiv.org/abs/2207.00497v1 )

ライセンス: Link先を確認
Philipp Spitzer, Niklas K\"uhl, Marc Goutier(参考訳) 多くの作業環境において、専門家の知識は、人間が高いパフォーマンスでタスクを遂行し、ビジネスの成功を確実にすることが不可欠である。 これらの人間はタスク固有の専門家知識(tsek)を持ち、それゆえ主題の専門家(sme)を表す。 しかし、人口統計の変化だけでなく、人員の縮小戦略も先導し、組織内の中小企業の離脱につながり続けており、その専門知識の維持と、その専門知識によって引き起こされる競争優位性を維持するための初心者の訓練の方法の課題となっている。 中小企業のトレーニング初心者は時間とコストがかかり、代替手段の必要性が高まる。 人間とAIのコラボレーション(HAIC)はこのジレンマから抜け出し、専門家の知識を保存し、前もって中小企業が行うタスクの初心者に教えるための代替手段を提供する。 本ワークショップでは,(1)特定のタスクにおける初心者の学習にHAICをどのように活用するか,(2)このトレーニングプロセスにおける明示的かつ暗黙的な知識の役割を,(3)事前のTSEKを持たない初心者にTSEKを転送する訓練者として,HAIC内のAIシステムの有効性を評価するための予備的な実験設計を概説する。

Across a multitude of work environments, expert knowledge is imperative for humans to conduct tasks with high performance and ensure business success. These humans possess task-specific expert knowledge (TSEK) and hence, represent subject matter experts (SMEs). However, not only demographic changes but also personnel downsizing strategies lead and will continue to lead to departures of SMEs within organizations, which constitutes the challenge of how to retain that expert knowledge and train novices to keep the competitive advantage elicited by that expert knowledge. SMEs training novices is time- and cost-intensive, which intensifies the need for alternatives. Human-AI collaboration (HAIC) poses a way out of this dilemma, facilitating alternatives to preserve expert knowledge and teach it to novices for tasks conducted by SMEs beforehand. In this workshop paper, we (1) propose a framework on how HAIC can be utilized to train novices on particular tasks, (2) illustrate the role of explicit and tacit knowledge in this training process via HAIC, and (3) outline a preliminary experiment design to assess the ability of AI systems in HAIC to act as a trainer to transfer TSEK to novices who do not possess prior TSEK.
翻訳日:2022-07-04 13:02:14 公開日:2022-07-01
# オンラインシューティングゲームにおける行動プレイヤーの評価

Behavioral Player Rating in Competitive Online Shooter Games ( http://arxiv.org/abs/2207.00528v1 )

ライセンス: Link先を確認
Arman Dehpanah, Muheeb Faizan Ghori, Jonathan Gemmell, Bamshad Mobasher(参考訳) 競争的なオンラインゲームは、マッチメイキングにレーティングシステムを使用し、ゲームの結果から解釈可能なレーティングを持つプレイヤーのスキルレベルを推定するプログレッションベースのアルゴリズムである。 しかし、プレイヤーの全体的な経験は、ゲームの唯一の結果以上の要因によって形成される。 本稿では,ゲーム内統計からモデルプレーヤまで,いくつかの機能を試作し,その動作と真のパフォーマンスレベルを正確に表現したレーティングを作成する。 次に,4つの人気ゲームモードにおけるプレイヤーのランクを,競争シューティングジャンルから予測することにより,3つのメインストリームレーティングシステムで作成した評価と,行動評価の推定能力を比較する。 その結果,生成した表現の解釈性を維持しつつ,より正確な性能推定を行うことができた。 プレイヤーのプレイ行動の異なる側面を考慮し、マッチメイキングに行動格付けを使うことは、プレイヤーのゴールや興味に合致したマッチアップにつながり、結果としてより楽しいゲーム体験をもたらす。

Competitive online games use rating systems for matchmaking; progression-based algorithms that estimate the skill level of players with interpretable ratings in terms of the outcome of the games they played. However, the overall experience of players is shaped by factors beyond the sole outcome of their games. In this paper, we engineer several features from in-game statistics to model players and create ratings that accurately represent their behavior and true performance level. We then compare the estimating power of our behavioral ratings against ratings created with three mainstream rating systems by predicting rank of players in four popular game modes from the competitive shooter genre. Our results show that the behavioral ratings present more accurate performance estimations while maintaining the interpretability of the created representations. Considering different aspects of the playing behavior of players and using behavioral ratings for matchmaking can lead to match-ups that are more aligned with players' goals and interests, consequently resulting in a more enjoyable gaming experience.
翻訳日:2022-07-04 13:01:50 公開日:2022-07-01
# (参考訳) ハイパーパラメータが知識グラフの埋め込み品質に及ぼす影響の評価

Assessing the Effects of Hyperparameters on Knowledge Graph Embedding Quality ( http://arxiv.org/abs/2207.00473v1 )

ライセンス: CC BY 4.0
Oliver Lloyd, Yi Liu, Tom Gaunt(参考訳) 知識グラフを低次元空間に埋め込むことは、これらのデータベースにリンク予測やノード分類のようなアプローチを適用する一般的な方法である。 この埋め込みプロセスは計算時間と空間の両方において非常にコストがかかる。 この理由の1つはハイパーパラメータの最適化であり、これは大きなハイパーパラメータ空間からランダム、ガイド、またはブルートフォースの選択を繰り返しサンプリングし、その結果の埋め込みを品質のためにテストするものである。 しかし、この探索空間のすべてのハイパーパラメータが等しく重要であるわけではない。 実際、ハイパーパラメータの相対的重要性に関する事前の知識により、出力された埋め込みの全体的な品質に大きな影響を与えることなく、探索から完全に排除することができる。 そこで我々は,様々なハイパーパラメータのチューニングが組込み品質のばらつきに及ぼす影響を評価するため,sobol感度解析を行った。 これは、異なるハイパーパラメータ構成によって生成された埋め込みの質を測定するために、数千の埋め込み試験を実行することで達成された。 このモデルを用いて,各ハイパーパラメータに対するソボ感度指標を生成することにより,これらのハイパーパラメータ構成への埋め込み品質を低下させた。 sobol指標間の相関性を評価することにより,これらの不一致の原因として,異なるデータセット特性を持つ知識グラフ間のハイパーパラメータ感性に有意な変動が認められた。 この研究のさらなる貢献として、逆関係によるデータ漏洩を引き起こす可能性のあるUMLS知識グラフ内のいくつかの関係を特定し、そのグラフの漏洩ロス不変量であるUMLS-43を導出した。

Embedding knowledge graphs into low-dimensional spaces is a popular method for applying approaches, such as link prediction or node classification, to these databases. This embedding process is very costly in terms of both computational time and space. Part of the reason for this is the optimisation of hyperparameters, which involves repeatedly sampling, by random, guided, or brute-force selection, from a large hyperparameter space and testing the resulting embeddings for their quality. However, not all hyperparameters in this search space will be equally important. In fact, with prior knowledge of the relative importance of the hyperparameters, some could be eliminated from the search altogether without significantly impacting the overall quality of the outputted embeddings. To this end, we ran a Sobol sensitivity analysis to evaluate the effects of tuning different hyperparameters on the variance of embedding quality. This was achieved by performing thousands of embedding trials, each time measuring the quality of embeddings produced by different hyperparameter configurations. We regressed the embedding quality on those hyperparameter configurations, using this model to generate Sobol sensitivity indices for each of the hyperparameters. By evaluating the correlation between Sobol indices, we find substantial variability in the hyperparameter sensitivities between knowledge graphs with differing dataset characteristics as the probable cause of these inconsistencies. As an additional contribution of this work we identify several relations in the UMLS knowledge graph that may cause data leakage via inverse relations, and derive and present UMLS-43, a leakage-robust variant of that graph.
翻訳日:2022-07-04 12:59:18 公開日:2022-07-01
# マルチビュー超音波を用いた甲状腺癌分類のためのパーソナライズド診断ツール

Personalized Diagnostic Tool for Thyroid Cancer Classification using Multi-view Ultrasound ( http://arxiv.org/abs/2207.00496v1 )

ライセンス: Link先を確認
Han Huang, Yijie Dong, Xiaohong Jia, Jianqiao Zhou, Dong Ni, Jun Cheng, Ruobing Huang(参考訳) 過去数十年間、甲状腺癌の発生率は世界中で増加している。 正確な早期診断は、タイムリーな治療を可能にし、過剰診断を避けるのに役立つ。 臨床的には,超音波検査で横方向と縦方向の両方から結節が評価される。 しかし、甲状腺や病変の出現は個人によって大きく異なる。 両方の視点から重要な診断情報を識別するには、専門的な専門知識が必要である。 さらに、マルチビュー情報を統合するための最適な方法を見つけるには、臨床医の経験も必要であり、正確な診断が難しくなる。 そこで本研究では,異なる患者に対する意思決定プロセスをカスタマイズできるパーソナライズされた診断ツールを提案する。 特徴抽出のための多視点分類モジュールと、異なるビューに対して最適な重み付けを生成するパーソナライズされた重み付け割り当てネットワークで構成される。 また、異なる患者グループに対するモデルロバスト性を改善するために、自己監督型ビューアウェアコントラスト損失も備えている。 実験の結果, 提案手法は, マルチビュー情報をより有効に活用し, 競合する手法を上回ることができることがわかった。

Over the past decades, the incidence of thyroid cancer has been increasing globally. Accurate and early diagnosis allows timely treatment and helps to avoid over-diagnosis. Clinically, a nodule is commonly evaluated from both transverse and longitudinal views using thyroid ultrasound. However, the appearance of the thyroid gland and lesions can vary dramatically across individuals. Identifying key diagnostic information from both views requires specialized expertise. Furthermore, finding an optimal way to integrate multi-view information also relies on the experience of clinicians and adds further difficulty to accurate diagnosis. To address these, we propose a personalized diagnostic tool that can customize its decision-making process for different patients. It consists of a multi-view classification module for feature extraction and a personalized weighting allocation network that generates optimal weighting for different views. It is also equipped with a self-supervised view-aware contrastive loss to further improve the model robustness towards different patient groups. Experimental results show that the proposed framework can better utilize multi-view information and outperform the competing methods.
翻訳日:2022-07-04 12:48:50 公開日:2022-07-01
# 理解指向ロバストマシンリーディング理解モデル

An Understanding-Oriented Robust Machine Reading Comprehension Model ( http://arxiv.org/abs/2207.00187v1 )

ライセンス: Link先を確認
Feiliang Ren, Yongkang Liu, Bochao Li, Shilei Liu, Bingchao Wang, Jiaqi Wang, Chunchao Liu, Qi Ma(参考訳) 既存のマシン読み取り理解モデルは、多くのデータセットで急速に進歩しているが、それらは堅牢とは程遠い。 本稿では,高感度,過安定,一般化という3種類の頑健性問題に対処するための理解指向機械読解モデルを提案する。 具体的には、まず自然言語推論モジュールを用いて、モデルが入力質問の正確な意味を理解できるようにし、過度な感度と過度な安定性の問題に対処する。 そして,機械読解モジュールにおいて,入力質問や文節の意味をよりよく理解するメモリ誘導型マルチヘッドアテンション手法を提案する。 第3に,一般化の問題に対処する多言語学習機構を提案する。 最後に、これらのモジュールはマルチタスク学習ベースのメソッドに統合される。 我々は,dureader (robust) と2つのスクワッド関連データセットを含む,モデルのロバスト性を測定するために設計された3つのベンチマークデータセットでモデルを評価する。 大規模な実験により、我々のモデルは前述の3種類の堅牢性問題に対処できることが示された。 そして、いくつかの極端な不公平な評価でも、これらすべてのデータセットで比較された最先端モデルよりも優れた結果を得ることができます。 私たちの仕事のソースコードは、https://github.com/neukg/robustmrc.com/で入手できる。

Although existing machine reading comprehension models are making rapid progress on many datasets, they are far from robust. In this paper, we propose an understanding-oriented machine reading comprehension model to address three kinds of robustness issues, which are over sensitivity, over stability and generalization. Specifically, we first use a natural language inference module to help the model understand the accurate semantic meanings of input questions so as to address the issues of over sensitivity and over stability. Then in the machine reading comprehension module, we propose a memory-guided multi-head attention method that can further well understand the semantic meanings of input questions and passages. Third, we propose a multilanguage learning mechanism to address the issue of generalization. Finally, these modules are integrated with a multi-task learning based method. We evaluate our model on three benchmark datasets that are designed to measure models robustness, including DuReader (robust) and two SQuAD-related datasets. Extensive experiments show that our model can well address the mentioned three kinds of robustness issues. And it achieves much better results than the compared state-of-the-art models on all these datasets under different evaluation metrics, even under some extreme and unfair evaluations. The source code of our work is available at: https://github.com/neukg/RobustMRC.
翻訳日:2022-07-04 12:48:33 公開日:2022-07-01
# ポイントアノテーションによるエンドツーエンドの細胞認識

End-to-end cell recognition by point annotation ( http://arxiv.org/abs/2207.00176v1 )

ライセンス: Link先を確認
Zhongyi Shui, Shichuan Zhang, Chenglu Zhu, Bingchuan Wang, Pingyi Chen, Sunyi Zheng, and Lin Yang(参考訳) 免疫組織化学的染色画像の信頼性のある定量的解析には、正確で堅牢な細胞検出と分類が必要である。 最近の弱教師付き手法は通常、細胞認識のための確率密度マップを推定する。 しかし、密集したセルシナリオでは、普遍的なパラメータ設定を見つけることができないため、前処理や後処理によって性能が制限される。 本稿では,事前設定されたアンカーポイントに対して直接回帰と分類を適用するエンドツーエンドフレームワークを提案する。 具体的には,低レベルの特徴と高レベルのセマンティクスを同時に組み合わせたピラミッド型特徴集合戦略を提案する。 さらに,基本事実と予測点とを一致させて,マルチタスク学習フレームワークを適応させる最適化コスト関数を設計した。 実験の結果,提案手法の精度と効率が向上し,病理学的な評価を支援する可能性が示唆された。

Reliable quantitative analysis of immunohistochemical staining images requires accurate and robust cell detection and classification. Recent weakly-supervised methods usually estimate probability density maps for cell recognition. However, in dense cell scenarios, their performance can be limited by pre- and post-processing as it is impossible to find a universal parameter setting. In this paper, we introduce an end-to-end framework that applies direct regression and classification for preset anchor points. Specifically, we propose a pyramidal feature aggregation strategy to combine low-level features and high-level semantics simultaneously, which provides accurate cell recognition for our purely point-based model. In addition, an optimized cost function is designed to adapt our multi-task learning framework by matching ground truth and predicted points. The experimental results demonstrate the superior accuracy and efficiency of the proposed method, which reveals the high potentiality in assisting pathologist assessments.
翻訳日:2022-07-04 12:48:03 公開日:2022-07-01
# アクション埋め込みによるマルチドメインダイアログの強化学習

Reinforcement Learning of Multi-Domain Dialog Policies Via Action Embeddings ( http://arxiv.org/abs/2207.00468v1 )

ライセンス: Link先を確認
Jorge A. Mendez and Alborz Geramifard and Mohammad Ghavamzadeh and Bing Liu(参考訳) 強化学習を通じてタスク指向のダイアログポリシーを学習するには、通常、ユーザとの大量のインタラクションが必要であり、現実のアプリケーションでは利用できないようなメソッドを実際にレンダリングする。 データ要求を減らすために、異なるダイアログドメインからのデータを活用することを提案し、それによって各ドメインから要求されるデータ量を削減する。 特に、ドメインに依存しないアクション埋め込みを学習し、現在の対話状況に応じてシステムに行動の仕方を伝える汎用構造を捉え、特定のドメインに特化することを提案する。 このアプローチがユーザとのインタラクションを著しく少なくし、学習に必要なダイアログ数の35%を削減し、シミュレートされたドメインの集合上で各ドメインに対して個別のポリシーをトレーニングするよりも高い習熟度で学習できることを示します。

Learning task-oriented dialog policies via reinforcement learning typically requires large amounts of interaction with users, which in practice renders such methods unusable for real-world applications. In order to reduce the data requirements, we propose to leverage data from across different dialog domains, thereby reducing the amount of data required from each given domain. In particular, we propose to learn domain-agnostic action embeddings, which capture general-purpose structure that informs the system how to act given the current dialog context, and are then specialized to a specific domain. We show how this approach is capable of learning with significantly less interaction with users, with a reduction of 35% in the number of dialogs required to learn, and to a higher level of proficiency than training separate policies for each domain on a set of simulated domains.
翻訳日:2022-07-04 12:47:49 公開日:2022-07-01
# グラフコントラスト学習のための対実的ハード負サンプルの生成

Generating Counterfactual Hard Negative Samples for Graph Contrastive Learning ( http://arxiv.org/abs/2207.00148v1 )

ライセンス: Link先を確認
Haoran Yang, Hongxu Chen, Sixiao Zhang, Xiangguo Sun, Qian Li, Guandong Xu(参考訳) グラフコントラスト学習は教師なしグラフ表現学習の強力なツールとして登場した。 グラフコントラスト学習の成功の鍵は、入力グラフの構造的意味論を学習するために、ペアを対比する高品質な正と負のサンプルを取得することである。 最近の研究は通常、同じトレーニングバッチから正のサンプルまたは外部の無関係グラフで負のサンプルをサンプリングする。 しかし、そのような戦略には重大な制限があり、これは偽陰性サンプルをサンプリングすることの避けられない問題である。 本稿では,これらのサンプリングベース戦略と異なる視点を持つ<textbf{c>ounterfactual mechanismを用いて,<textbf{g>raph \textbf{c}ontrastive learning,すなわち<textbf{cgc}</textbf{c>ontrastive learningの人工的ハード・ネガティブなサンプルを生成する新しい手法を提案する。 偽りのメカニズムを利用して, 硬い負のサンプルを生成し, 生成したサンプルが類似していることを保証するが, 正のサンプルとは異なるラベルを持つことを保証する。 提案手法は,従来の教師なしグラフ学習法とsomaグラフコントラスト学習法と比較して,複数のデータセットで結果を満たす。 また, 異なる硬い負の試料を用いたcgcの性能評価や, 異なる類似度測定による硬い負の試料の評価など, 提案手法の詳細な説明を行うため, 補足実験を行った。

Graph contrastive learning has emerged as a powerful tool for unsupervised graph representation learning. The key to the success of graph contrastive learning is to acquire high-quality positive and negative samples as contrasting pairs for the purpose of learning underlying structural semantics of the input graph. Recent works usually sample negative samples from the same training batch with the positive samples, or from an external irrelevant graph. However, a significant limitation lies in such strategies, which is the unavoidable problem of sampling false negative samples. In this paper, we propose a novel method to utilize \textbf{C}ounterfactual mechanism to generate artificial hard negative samples for \textbf{G}raph \textbf{C}ontrastive learning, namely \textbf{CGC}, which has a different perspective compared to those sampling-based strategies. We utilize counterfactual mechanism to produce hard negative samples, which ensures that the generated samples are similar to, but have labels that different from the positive sample. The proposed method achieves satisfying results on several datasets compared to some traditional unsupervised graph learning methods and some SOTA graph contrastive learning methods. We also conduct some supplementary experiments to give an extensive illustration of the proposed method, including the performances of CGC with different hard negative samples and evaluations for hard negative samples generated with different similarity measurements.
翻訳日:2022-07-04 12:45:30 公開日:2022-07-01
# 判別子誘導モデルに基づくオフライン模倣学習

Discriminator-Guided Model-Based Offline Imitation Learning ( http://arxiv.org/abs/2207.00244v1 )

ライセンス: Link先を確認
Wenjia Zhang, Haoran Xu, Haoyi Niu, Peng Cheng, Ming Li, Heming Zhang, Guyue Zhou, Xianyuan Zhan(参考訳) オフライン模倣学習(il)は、報酬ラベルなしで専門家のデモンストレーションから意思決定問題を解決する強力な方法である。 既存のオフラインILメソッドは、共変量シフトによる限られた専門家データの下での厳しい性能劣化に悩まされる。 学習されたダイナミックスモデルを含むと、専門家データの状態-作用空間カバレッジが向上する可能性があるが、モデル近似/一般化誤差やロールアウトデータの亜最適性といった問題にも直面する。 本稿では,モデルロールアウトデータのダイナミクスの正確性と下位最適化を同時に区別する判別器を導入する,モデルガイド型オフライン模倣学習(dmil)フレームワークを提案する。 DMILは,政策・力学モデルの学習過程を誘導・結合する識別器を用いて,モデル性能とロバスト性を向上させる新しい協調学習戦略を採用する。 我々のフレームワークは、デモに最適なデータが多く含まれている場合にも拡張できる。 実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。

Offline imitation learning (IL) is a powerful method to solve decision-making problems from expert demonstrations without reward labels. Existing offline IL methods suffer from severe performance degeneration under limited expert data due to covariate shift. Including a learned dynamics model can potentially improve the state-action space coverage of expert data, however, it also faces challenging issues like model approximation/generalization errors and suboptimality of rollout data. In this paper, we propose the Discriminator-guided Model-based offline Imitation Learning (DMIL) framework, which introduces a discriminator to simultaneously distinguish the dynamics correctness and suboptimality of model rollout data against real expert demonstrations. DMIL adopts a novel cooperative-yet-adversarial learning strategy, which uses the discriminator to guide and couple the learning process of the policy and dynamics model, resulting in improved model performance and robustness. Our framework can also be extended to the case when demonstrations contain a large proportion of suboptimal data. Experimental results show that DMIL and its extension achieve superior performance and robustness compared to state-of-the-art offline IL methods under small datasets.
翻訳日:2022-07-04 12:44:48 公開日:2022-07-01
# 神経構成によるモジュール型生涯強化学習

Modular Lifelong Reinforcement Learning via Neural Composition ( http://arxiv.org/abs/2207.00429v1 )

ライセンス: Link先を確認
Jorge A. Mendez and Harm van Seijen and Eric Eaton(参考訳) 人間は通常、より簡単なサブプロブレムに分解し、サブプロブレムの解を組み合わせることで複雑な問題を解決する。 このような構成推論は、基盤となる構成構造の一部を共有する将来のタスクに取り組む際に、サブプロブレムソリューションの再利用を可能にする。 連続的あるいは生涯にわたる強化学習(RL)において、この知識を再利用可能なコンポーネントに分解する能力により、エージェントは蓄積された構成構造を利用して新しいRLタスクを迅速に学習することができる。 我々は,神経モジュールに基づく特定の構成形態を探索し,合成解を直感的に認めるrl問題の組を提案する。 経験的に、神経構成がこの問題の根底構造を実際に捉えることを実証する。 さらに,蓄積したニューラル成分を生かした合成寿命RL法を提案し,再生体験よりもオフラインのRLを用いて,過去のタスクの性能を維持しつつ,将来のタスクの学習を加速する。

Humans commonly solve complex problems by decomposing them into easier subproblems and then combining the subproblem solutions. This type of compositional reasoning permits reuse of the subproblem solutions when tackling future tasks that share part of the underlying compositional structure. In a continual or lifelong reinforcement learning (RL) setting, this ability to decompose knowledge into reusable components would enable agents to quickly learn new RL tasks by leveraging accumulated compositional structures. We explore a particular form of composition based on neural modules and present a set of RL problems that intuitively admit compositional solutions. Empirically, we demonstrate that neural composition indeed captures the underlying structure of this space of problems. We further propose a compositional lifelong RL method that leverages accumulated neural components to accelerate the learning of future tasks while retaining performance on previous tasks via off-line RL over replayed experiences.
翻訳日:2022-07-04 12:44:30 公開日:2022-07-01
# 授業不均衡が学習ダイナミクスに及ぼす影響について

Characterizing the Effect of Class Imbalance on the Learning Dynamics ( http://arxiv.org/abs/2207.00391v1 )

ライセンス: Link先を確認
Emanuele Francazi, Marco Baity-Jesi, Aurelien Lucchi(参考訳) データの不均衡は機械学習の文献において一般的な問題であり、モデルの性能に重大な影響を及ぼす可能性がある。 再サンプリングやデータ生成など、さまざまなソリューションが存在するが、ディープラーニングで使用される勾配ベースのオプティマイザの収束への影響は理解されていない。 ここでは,データ不均衡が学習に与える影響を明らかにし,マイノリティクラスとマイノリティクラスの学習曲線が,勾配に基づくオプティマイザで学習する場合の最適軌道に従うことを示した。 理由は、勾配信号がマイノリティクラスを無視しているだけでなく、マイノリティクラスはより大きな指向性ノイズを受けており、不均衡比に関連する量で学習を遅らせているからである。 この問題に対処するため,我々は,その収束挙動を詳細に解析する新しいアルゴリズム解を提案する。 我々は,このアルゴリズムが各クラスに対してより安定した学習曲線を持つより優れた挙動を示し,より優れた一般化性能を示すことを理論的および実証的に示す。

Data imbalance is a common problem in the machine learning literature that can have a critical effect on the performance of a model. Various solutions exist - such as the ones that focus on resampling or data generation - but their impact on the convergence of gradient-based optimizers used in deep learning is not understood. We here elucidate the significant negative impact of data imbalance on learning, showing that the learning curves for minority and majority classes follow sub-optimal trajectories when training with a gradient-based optimizer. The reason is not only that the gradient signal neglects the minority classes, but also that the minority classes are subject to a larger directional noise, which slows their learning by an amount related to the imbalance ratio. To address this problem, we propose a new algorithmic solution, for which we provide a detailed analysis of its convergence behavior. We show both theoretically and empirically that this new algorithm exhibits a better behavior with more stable learning curves for each class, as well as a better generalization performance.
翻訳日:2022-07-04 12:44:06 公開日:2022-07-01
# フェデレーション学習のためのより良い方法と理論:圧縮,クライアント選択,不均一性

Better Methods and Theory for Federated Learning: Compression, Client Selection and Heterogeneity ( http://arxiv.org/abs/2207.00392v1 )

ライセンス: Link先を確認
Samuel Horv\'ath(参考訳) フェデレーション学習(federated learning、fl)は、中央サーバが協調する機械学習問題を解決するために協力するインセンティブを持つ、携帯電話などの複数のクライアントを含む、新興の機械学習パラダイムである。 FL は2016年に Kone\v{c}n\'{y} et al. と McMahan et al. によって、従来の中央集中型機械学習に代わる実用的なプライバシー保護として提案された。 したがって、FLは中央集権データ収集に関連するプライバシーリスクをある程度軽減する。 残念ながら、FLの最適化は、中央集権最適化が通常処理する必要のないいくつかの特定の問題に直面している。 本稿では,これらの課題のいくつかを特定し,数学的に厳密な保証によって支援された実用的FLソリューションの実現を究極の目標とする新しい手法とアルゴリズムを提案する。

Federated learning (FL) is an emerging machine learning paradigm involving multiple clients, e.g., mobile phone devices, with an incentive to collaborate in solving a machine learning problem coordinated by a central server. FL was proposed in 2016 by Kone\v{c}n\'{y} et al. and McMahan et al. as a viable privacy-preserving alternative to traditional centralized machine learning since, by construction, the training data points are decentralized and never transferred by the clients to a central server. Therefore, to a certain degree, FL mitigates the privacy risks associated with centralized data collection. Unfortunately, optimization for FL faces several specific issues that centralized optimization usually does not need to handle. In this thesis, we identify several of these challenges and propose new methods and algorithms to address them, with the ultimate goal of enabling practical FL solutions supported with mathematically rigorous guarantees.
翻訳日:2022-07-04 12:43:48 公開日:2022-07-01
# (参考訳) 深層学習に基づくビジュアルサーボによるソフトロボットの自律内航法

Autonomous Intraluminal Navigation of a Soft Robot using Deep-Learning-based Visual Servoing ( http://arxiv.org/abs/2207.00401v1 )

ライセンス: CC BY 4.0
Jorge F. Lazo and Chun-Feng Lai and Sara Moccia and Benoit Rosa and Michele Catellani and Michel de Mathelin and Giancarlo Ferrigno and Paul Breedveld and Jenny Dankelman and Elena De Momi(参考訳) 光器官内のナビゲーションは、操作者の手の動きと内視鏡映像から得られる情報との間の非直感的な調整を必要とする困難な作業である。 特定のタスクを自動化するツールの開発は、介入中の医師の身体的および精神的負荷を軽減し、診断と意思決定タスクに集中できるようにする。 本稿では,3Dプリント型内視鏡ソフトロボットを用いて,構造内を安全に移動可能な光内航法システムを提案する。 自律的なナビゲーションタスクを実現するために、畳み込みニューラルネットワーク(cnns)に基づく視覚サーボが使用される。 cnnはファントムとin-vivoデータを使ってルーメンを分割し、制約のある環境での動きを制御するためのモデルレスアプローチが提示される。 提案するロボットは、異なる経路構成の解剖学的ファントムで検証される。 タスク完了時間,滑らかさ,定常状態における誤差,平均と最大誤差など,さまざまな指標を用いてロボットの動きを分析する。 本手法は,ネットワークが当初トレーニングしたものとは異なる中空環境や条件下において安全にナビゲートするのに適していることを示す。

Navigation inside luminal organs is an arduous task that requires non-intuitive coordination between the movement of the operator's hand and the information obtained from the endoscopic video. The development of tools to automate certain tasks could alleviate the physical and mental load of doctors during interventions, allowing them to focus on diagnosis and decision-making tasks. In this paper, we present a synergic solution for intraluminal navigation consisting of a 3D printed endoscopic soft robot that can move safely inside luminal structures. Visual servoing, based on Convolutional Neural Networks (CNNs) is used to achieve the autonomous navigation task. The CNN is trained with phantoms and in-vivo data to segment the lumen, and a model-less approach is presented to control the movement in constrained environments. The proposed robot is validated in anatomical phantoms in different path configurations. We analyze the movement of the robot using different metrics such as task completion time, smoothness, error in the steady-state, and mean and maximum error. We show that our method is suitable to navigate safely in hollow environments and conditions which are different than the ones the network was originally trained on.
翻訳日:2022-07-04 12:41:53 公開日:2022-07-01
# 特徴デカップリングを用いた弱教師付き高忠実超音波ビデオ合成

Weakly-supervised High-fidelity Ultrasound Video Synthesis with Feature Decoupling ( http://arxiv.org/abs/2207.00474v1 )

ライセンス: Link先を確認
Jiamin Liang, Xin Yang, Yuhao Huang, Kai Liu, Xinrui Zhou, Xindi Hu, Zehui Lin, Huanjia Luo, Yuanji Zhang, Yi Xiong, Dong Ni(参考訳) 超音波(US)はリアルタイムイメージング、放射線フリー、ポータビリティの利点のために広く利用されている。 臨床実践において、分析と診断は、動的解剖情報を得るために単一の画像ではなくアメリカのシーケンスに依存することが多い。 これは初心者にとって、患者からの適切なビデオの練習は臨床的に実践的ではないため、学ぶことが難しい。 本稿では,アメリカの高忠実度映像を合成する新しい枠組みを提案する。 具体的には、所定の駆動ビデオの動きに基づいて、ソースコンテンツイメージをアニメーションすることで合成ビデオを生成する。 私たちのハイライトは3倍です。 まず,自己学習と完全教師付き学習の利点を活用し,キーポイント検出のための弱教師付き学習システムを提案する。 これらのキーポイントは、アメリカのビデオで複雑な高ダイナミックな動きを扱うための重要な情報を提供する。 次に,2つのデコーダを用いてコンテンツとテクスチャ学習を分離し,モデル学習の難しさを効果的に軽減する。 最後に,gan損失を伴う敵対的学習戦略を採用し,生成映像のシャープ性をさらに向上させ,実映像と合成映像のギャップを狭める。 本研究では,本手法を動的動作を伴う大規模骨盤内データセット上で検証する。 提案手法の有効性を総合評価指標とユーザスタディで検証した。

Ultrasound (US) is widely used for its advantages of real-time imaging, radiation-free and portability. In clinical practice, analysis and diagnosis often rely on US sequences rather than a single image to obtain dynamic anatomical information. This is challenging for novices to learn because practicing with adequate videos from patients is clinically unpractical. In this paper, we propose a novel framework to synthesize high-fidelity US videos. Specifically, the synthesis videos are generated by animating source content images based on the motion of given driving videos. Our highlights are three-fold. First, leveraging the advantages of self- and fully-supervised learning, our proposed system is trained in weakly-supervised manner for keypoint detection. These keypoints then provide vital information for handling complex high dynamic motions in US videos. Second, we decouple content and texture learning using the dual decoders to effectively reduce the model learning difficulty. Last, we adopt the adversarial training strategy with GAN losses for further improving the sharpness of the generated videos, narrowing the gap between real and synthesis videos. We validate our method on a large in-house pelvic dataset with high dynamic motion. Extensive evaluation metrics and user study prove the effectiveness of our proposed method.
翻訳日:2022-07-04 12:21:56 公開日:2022-07-01
# タンジェント型定式化エージェントと解剖学的知覚による3次元超音波の標準平面定位

Agent with Tangent-based Formulation and Anatomical Perception for Standard Plane Localization in 3D Ultrasound ( http://arxiv.org/abs/2207.00475v1 )

ライセンス: Link先を確認
Yuxin Zou, Haoran Dou, Yuhao Huang, Xin Yang, Jikuan Qian, Chaojiong Zhen, Xiaodan Ji, Nishant Ravikumar, Guoqiang Chen, Weijun Huang, Alejandro F. Frangi, Dong Ni(参考訳) 正常な臨床超音波診断には標準平面(SP)の局在が不可欠である。 2D USと比較して、3D USは1つのスキャンで複数のビュープレーンを取得でき、コロナ面を追加して完全な解剖学を提供する。 しかし、3D USで手動でSPをナビゲートすることは、方向のばらつきと巨大な検索空間のため、面倒で偏りがある。 本研究では,3D USにおけるSPの自動局在化のための新しい強化学習(RL)フレームワークを提案する。 私たちの貢献は3倍です。 まず、3D USにおけるSP局所化をRLにおける接点ベースの問題として定式化し、アクション空間を再構成し、探索空間を大幅に削減する。 第2に、平面探索における非SPとSPの交差する微妙な違いを認識するモデルの能力を高めるための補助的タスク学習戦略を設計する。 最後に,空間情報と解剖情報を同時に活用することにより,学習軌跡を効果的に導くための空間解剖報酬を提案する。 我々は,4つのSPを子宮と胎児の脳データセットに局在させるアプローチの有効性を検討した。 実験の結果,本手法はロバストな性能と高い位置推定精度を達成できることがわかった。

Standard plane (SP) localization is essential in routine clinical ultrasound (US) diagnosis. Compared to 2D US, 3D US can acquire multiple view planes in one scan and provide complete anatomy with the addition of coronal plane. However, manually navigating SPs in 3D US is laborious and biased due to the orientation variability and huge search space. In this study, we introduce a novel reinforcement learning (RL) framework for automatic SP localization in 3D US. Our contribution is three-fold. First, we formulate SP localization in 3D US as a tangent-point-based problem in RL to restructure the action space and significantly reduce the search space. Second, we design an auxiliary task learning strategy to enhance the model's ability to recognize subtle differences crossing Non-SPs and SPs in plane search. Finally, we propose a spatial-anatomical reward to effectively guide learning trajectories by exploiting spatial and anatomical information simultaneously. We explore the efficacy of our approach on localizing four SPs on uterus and fetal brain datasets. The experiments indicate that our approach achieves a high localization accuracy as well as robust performance.
翻訳日:2022-07-04 12:21:39 公開日:2022-07-01
# ロバストな医用画像セグメンテーションのためのオンライン反射学習

Online Reflective Learning for Robust Medical Image Segmentation ( http://arxiv.org/abs/2207.00476v1 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Xiaoqiong Huang, Jiamin Liang, Xinrui Zhou, Cheng Chen, Haoran Dou, Xindi Hu, Yan Cao, Dong Ni(参考訳) 深いセグメンテーションモデルは、テストイメージが目に見えない分布を示すと、しばしば障害リスクに直面する。 これらのリスクに対するモデル堅牢性の向上は、ディープモデルの大規模臨床応用に不可欠である。 本研究では,人間の学習サイクルにインスパイアされた新しいオンライン反射学習フレームワーク(RefSeg)を提案し,セグメンテーションの堅牢性を改善する。 リフレクション・オン・アクションの概念に基づいて、RefSegはまず深層モデルを駆動し、セマンティックセグメンテーションを得る。 そして、RefSegがモデルをリフレクションするためにトリガーする。 深層モデルにテスト中にセグメンテーションの失敗を認識させるのは難しいため、refsegはセマンティックマスクから現実的なプロキシイメージを合成することで、深層モデルが直感的で効果的なリフレクションを構築するのに役立つ。 このプロキシはセグメンテーションの欠陥を翻訳し強調する。 原入力とプロキシの構造的類似性を最大化することにより、反射対作用ループはセグメンテーションロバスト性を改善して閉じる。 RefSegはテストフェーズで動作し、セグメンテーションモデルで一般的なものだ。 公共の心臓mrデータセットと社内の2つの大きな超音波データセットを用いた3つの医療画像分割タスクの広範な検証は、我々のrefsegがモデルのロバスト性を大幅に改善し、強力な競合相手よりも最先端のパフォーマンスを報告していることを示している。

Deep segmentation models often face the failure risks when the testing image presents unseen distributions. Improving model robustness against these risks is crucial for the large-scale clinical application of deep models. In this study, inspired by human learning cycle, we propose a novel online reflective learning framework (RefSeg) to improve segmentation robustness. Based on the reflection-on-action conception, our RefSeg firstly drives the deep model to take action to obtain semantic segmentation. Then, RefSeg triggers the model to reflect itself. Because making deep models realize their segmentation failures during testing is challenging, RefSeg synthesizes a realistic proxy image from the semantic mask to help deep models build intuitive and effective reflections. This proxy translates and emphasizes the segmentation flaws. By maximizing the structural similarity between the raw input and the proxy, the reflection-on-action loop is closed with segmentation robustness improved. RefSeg runs in the testing phase and is general for segmentation models. Extensive validation on three medical image segmentation tasks with a public cardiac MR dataset and two in-house large ultrasound datasets show that our RefSeg remarkably improves model robustness and reports state-of-the-art performance over strong competitors.
翻訳日:2022-07-04 12:21:17 公開日:2022-07-01
# (参考訳) チューリングテストで不正は不可能か:コンピュータによる真の自然言語の「理解」の可能性と課題を探る

Is it possible not to cheat on the Turing Test: Exploring the potential and challenges for true natural language 'understanding' by computers ( http://arxiv.org/abs/2206.14672v2 )

ライセンス: CC BY 4.0
Lize Alberts(参考訳) 言語処理モデルの高度化に伴う近年の誇大広告は、自然言語の人間的なコマンドを達成する機械に対する楽観主義を再燃させた。 人工知能における自然言語理解の領域は、この分野において大きな進歩を遂げたと主張しているが、この分野での「理解」がどのように使われているかという概念的明確さの欠如は、我々が実際にどれほど近いかを理解するのを困難にしている。 現在のアプローチと残る課題に関する包括的で学際的な概要はまだ実行されていない。 言語知識以外にも、私たちの(十分に類似した)具体化され、位置付けられた経験を分類し、記憶し、ラベル付けし、伝達する種特有の能力を考える必要があります。 さらに、現実的な制約を解くには、現在のモデルの技術的能力と、理論的可能性と限界に関する深い哲学的考察を批判的に分析する必要がある。 本稿では,これらすべての視点 - 哲学的,認知言語主義的,技術的 - をまとめて,真の(人間に似た)言語理解を達成する上での課題を解き明かす。 現在のアプローチに固有の理論的な仮定を解き放つことで、この目標が本当に目標であるならば、実際にこの目標を達成するのがどれくらい遠いのかを説明したいと思っています。

Recent hype surrounding the increasing sophistication of language processing models has renewed optimism regarding machines achieving a human-like command of natural language. The area of natural language understanding in artificial intelligence claims to have been making great strides in this area, however, the lack of conceptual clarity in how 'understanding' is used in this and other disciplines have made it difficult to discern how close we actually are. A comprehensive, interdisciplinary overview of current approaches and remaining challenges is yet to be carried out. Beyond linguistic knowledge, this requires considering our species-specific capabilities to categorize, memorize, label and communicate our (sufficiently similar) embodied and situated experiences. Moreover, gauging the practical constraints requires critically analyzing the technical capabilities of current models, as well as deeper philosophical reflection on theoretical possibilities and limitations. In this paper, I unite all of these perspectives -- the philosophical, cognitive-linguistic, and technical -- to unpack the challenges involved in reaching true (human-like) language understanding. By unpacking the theoretical assumptions inherent in current approaches, I hope to illustrate how far we actually are from achieving this goal, if indeed it is the goal.
翻訳日:2022-07-04 11:48:06 公開日:2022-07-01
# (参考訳) Depth-CUPRL:無人航空機のマップレスナビゲーションのための強化学習における深部画像の非教師なし優先表現

Depth-CUPRL: Depth-Imaged Contrastive Unsupervised Prioritized Representations in Reinforcement Learning for Mapless Navigation of Unmanned Aerial Vehicles ( http://arxiv.org/abs/2206.15211v2 )

ライセンス: CC BY 4.0
Junior Costa de Jesus, Victor Augusto Kich, Alisson Henrique Kolling, Ricardo Bedin Grando, Rodrigo da Silva Guerra, Paulo Lilles Jorge Drews Jr(参考訳) 強化学習(rl)は生のピクセルイメージングと連続制御タスクを通じてビデオゲームで印象的なパフォーマンスを示している。 しかし、RLは生のピクセル画像のような高次元の観測では不十分である。 レーザーセンサ測定などの物理状態に基づくRLポリシは、ピクセルによる学習よりもサンプリング効率が高いことが一般に受け入れられている。 本研究では,無人航空機(UAV)の無人航法を行うために,深度マップ推定から情報を抽出してRLエージェントに教える手法を提案する。 本稿では,画像の深度を優先したリプレイメモリを用いて推定する強化学習(Depth-CUPRL)におけるDepth-Imaged Unsupervised Prioritized Representationsを提案する。 我々はRLとContrastive Learningを組み合わせて画像に基づくRLの問題に対処した。 無人航空機 (UAVs) による解析から, 我々の深度CUPRLアプローチは, 地図レスナビゲーション能力において, 最先端の画素ベースのアプローチよりも優れていると結論付けることができる。

Reinforcement Learning (RL) has presented an impressive performance in video games through raw pixel imaging and continuous control tasks. However, RL performs poorly with high-dimensional observations such as raw pixel images. It is generally accepted that physical state-based RL policies such as laser sensor measurements give a more sample-efficient result than learning by pixels. This work presents a new approach that extracts information from a depth map estimation to teach an RL agent to perform the mapless navigation of Unmanned Aerial Vehicle (UAV). We propose the Depth-Imaged Contrastive Unsupervised Prioritized Representations in Reinforcement Learning(Depth-CUPRL) that estimates the depth of images with a prioritized replay memory. We used a combination of RL and Contrastive Learning to lead with the problem of RL based on images. From the analysis of the results with Unmanned Aerial Vehicles (UAVs), it is possible to conclude that our Depth-CUPRL approach is effective for the decision-making and outperforms state-of-the-art pixel-based approaches in the mapless navigation capability.
翻訳日:2022-07-04 11:46:56 公開日:2022-07-01
# (参考訳) CTrGAN: 歩行転送のためのサイクルトランスフォーマーGAN

CTrGAN: Cycle Transformers GAN for Gait Transfer ( http://arxiv.org/abs/2206.15248v2 )

ライセンス: CC BY 4.0
Shahar Mahpod, Noam Gaash, G. Ben-Artzi(参考訳) 我々は初めて歩行伝達の問題に対処しようと試みる。 運動伝達とは対照的に、ここでの目的はソースの通常の動きを模倣するのではなく、ソースの動きをターゲットの典型的な歩行パターンに変換することである。 歩行認識モデルを用いて,既存の手法が容易に検出できる不一致を生じさせることを示す。 本稿では,目標の自然歩行をうまく生成できる新しいモデルであるCycle Transformers GAN(CTrGAN)を紹介する。 CTrGANのジェネレータはデコーダとエンコーダで構成されており、両トランスフォーマーはパッチ間の空間領域ではなく、完全な画像間の時間領域に注意を向けている。 近年のコンピュータビジョンにおけるトランスフォーマーの研究は、主に識別タスクに焦点を当てているが、我々は合成タスクに適用可能なアーキテクチャを導入する。 広く使用されている歩容認識データセットを用いて,トレーニング中に使用できなかったソースでも,既存の手法よりも1桁以上のリアルなパーソナライズされた歩容を生成できることを実証した。

We attempt for the first time to address the problem of gait transfer. In contrast to motion transfer, the objective here is not to imitate the source's normal motions, but rather to transform the source's motion into a typical gait pattern for the target. Using gait recognition models, we demonstrate that existing techniques yield a discrepancy that can be easily detected. We introduce a novel model, Cycle Transformers GAN (CTrGAN), that can successfully generate the target's natural gait. CTrGAN's generators consist of a decoder and encoder, both Transformers, where the attention is on the temporal domain between complete images rather than the spatial domain between patches. While recent Transformer studies in computer vision mainly focused on discriminative tasks, we introduce an architecture that can be applied to synthesis tasks. Using a widely-used gait recognition dataset, we demonstrate that our approach is capable of producing over an order of magnitude more realistic personalized gaits than existing methods, even when used with sources that were not available during training.
翻訳日:2022-07-04 11:31:38 公開日:2022-07-01
# (参考訳) polarformer:polar transformersによるマルチカメラ3dオブジェクト検出

PolarFormer: Multi-camera 3D Object Detection with Polar Transformers ( http://arxiv.org/abs/2206.15398v2 )

ライセンス: CC BY 4.0
Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang(参考訳) 自律運転における3d物体検出は、3dの世界に存在する興味のある物体を「何」と「どこで」判断することを目的としている。 従来の2次元物体検出の知恵に従い、既存の方法はしばしば垂直軸を持つ正準直交座標系を採用する。 しかし、車載カメラは、急進的な(垂直でない)軸を持つ画像幾何学に内在するくさび形の世界を知覚するので、これはエゴカーの視点の性質に合わないと我々は主張する。 そこで本論文では,極座標系の利用を提唱し,複数カメラ2D画像のみを入力とする鳥眼ビュー(BEV)において,より正確な3次元物体検出のための新しい極変換器(PolarFormer)を提案する。 具体的には,不規則な極性格子を扱う入力構造の形状に制約なく,クロスアテンションに基づく極性検出ヘッドを設計する。 極距離次元に沿った無拘束物体スケールの変動に対処するために、さらに多次元表現学習戦略を導入する。 その結果,本モデルは,幾何学的制約を受けるシーケンス・ツー・シーケンス方式で対応する画像観察に臨むことにより,ラスタライズされた極性表現を最大限に活用することができる。 nuScenesデータセットに関する詳細な実験によると、PolarFormerは最先端の3Dオブジェクト検出方法よりも優れており、BEVセマンティックセマンティックセグメンテーションタスクでは競争力がある。

3D object detection in autonomous driving aims to reason "what" and "where" the objects of interest present in a 3D world. Following the conventional wisdom of previous 2D object detection, existing methods often adopt the canonical Cartesian coordinate system with perpendicular axis. However, we conjugate that this does not fit the nature of the ego car's perspective, as each onboard camera perceives the world in shape of wedge intrinsic to the imaging geometry with radical (non-perpendicular) axis. Hence, in this paper we advocate the exploitation of the Polar coordinate system and propose a new Polar Transformer (PolarFormer) for more accurate 3D object detection in the bird's-eye-view (BEV) taking as input only multi-camera 2D images. Specifically, we design a cross attention based Polar detection head without restriction to the shape of input structure to deal with irregular Polar grids. For tackling the unconstrained object scale variations along Polar's distance dimension, we further introduce a multi-scalePolar representation learning strategy. As a result, our model can make best use of the Polar representation rasterized via attending to the corresponding image observation in a sequence-to-sequence fashion subject to the geometric constraints. Thorough experiments on the nuScenes dataset demonstrate that our PolarFormer outperforms significantly state-of-the-art 3D object detection alternatives, as well as yielding competitive performance on BEV semantic segmentation task.
翻訳日:2022-07-04 11:11:20 公開日:2022-07-01
# (参考訳) エスコルピウス:スペインの巨大クローリングコーパス

esCorpius: A Massive Spanish Crawling Corpus ( http://arxiv.org/abs/2206.15147v2 )

ライセンス: CC BY 4.0
Asier Guti\'errez-Fandi\~no, David P\'erez-Fern\'andez, Jordi Armengol-Estap\'e, David Griol, Zoraida Callejas(参考訳) 近年、トランスフォーマーベースのモデルは自然言語処理のための言語モデリングの大幅な進歩をもたらしている。 しかし、それらは(事前)訓練される大量のデータを必要としており、英語以外の言語にはコーパスがない。 近年,自動webクローリングから得られる多言語データセットが提案されている。 しかし、スペイン語の結果は、他の言語と比較して小さすぎるか、あるいは準最適クリーニングと重複による低い品質を示すため、重要な欠点を呈している。 本稿では,コモンクローリングデータの約1Pbから得られたスペインのクローリングコーパスであるesCorpiusを紹介する。 スペイン語で最も広範なコーパスであり、webテキストコンテンツの抽出、精製、複製においてこのレベルの品質を有する。 私たちのデータキュレーションプロセスは、新しい高度並列なクリーニングパイプラインを含み、ドキュメントと段落の境界の整合性を保証する一連の重複機構を包含しています。 さらに、euの規制に不満を抱くために、source web page url と warc shard origin url の両方を維持している。 esCorpiusはCC BY-NC-ND 4.0ライセンスでリリースされ、HuggingFaceで入手できる。

In the recent years, transformer-based models have lead to significant advances in language modelling for natural language processing. However, they require a vast amount of data to be (pre-)trained and there is a lack of corpora in languages other than English. Recently, several initiatives have presented multilingual datasets obtained from automatic web crawling. However, the results in Spanish present important shortcomings, as they are either too small in comparison with other languages, or present a low quality derived from sub-optimal cleaning and deduplication. In this paper, we introduce esCorpius, a Spanish crawling corpus obtained from near 1 Pb of Common Crawl data. It is the most extensive corpus in Spanish with this level of quality in the extraction, purification and deduplication of web textual content. Our data curation process involves a novel highly parallel cleaning pipeline and encompasses a series of deduplication mechanisms that together ensure the integrity of both document and paragraph boundaries. Additionally, we maintain both the source web page URL and the WARC shard origin URL in order to complain with EU regulations. esCorpius has been released under CC BY-NC-ND 4.0 license and is available on HuggingFace.
翻訳日:2022-07-04 10:51:22 公開日:2022-07-01
# (参考訳) 言語モデルによる量的推論問題の解法

Solving Quantitative Reasoning Problems with Language Models ( http://arxiv.org/abs/2206.14858v2 )

ライセンス: CC BY 4.0
Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, Vedant Misra(参考訳) 言語モデルは、自然言語理解を必要とする幅広いタスクで驚くべきパフォーマンスを達成しています。 それにもかかわらず、最先端のモデルは一般に、数学、科学、工学の問題を大学レベルで解くなど、定量的な推論を必要とするタスクに苦しめられている。 このギャップを埋めるために、我々は一般的な自然言語データに基づいて事前訓練された大規模言語モデルMinervaを紹介し、さらに技術的な内容について訓練する。 このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。 また, 物理学, 生物学, 化学, 経済学, その他の科学において, 定量的推論を必要とする200以上の大学レベルの問題に対して, モデルの評価を行い, その3分の1近くを正しく解くことができることを確認した。

Language models have achieved remarkable performance on a wide range of tasks that require natural language understanding. Nevertheless, state-of-the-art models have generally struggled with tasks that require quantitative reasoning, such as solving mathematics, science, and engineering problems at the college level. To help close this gap, we introduce Minerva, a large language model pretrained on general natural language data and further trained on technical content. The model achieves state-of-the-art performance on technical benchmarks without the use of external tools. We also evaluate our model on over two hundred undergraduate-level problems in physics, biology, chemistry, economics, and other sciences that require quantitative reasoning, and find that the model can correctly answer nearly a third of them.
翻訳日:2022-07-04 10:39:47 公開日:2022-07-01
# ログからのユーザの行動における認知バイアスの個人化検出:アンコリングと頻度バイアス

Personalized Detection of Cognitive Biases in Actions of Users from Their Logs: Anchoring and Recency Biases ( http://arxiv.org/abs/2206.15129v2 )

ライセンス: Link先を確認
Atanu R Sinha, Navita Goyal, Sunny Dhamnani, Tanay Asija, Raja K Dubey, M V Kaarthik Raja, Georgios Theocharous(参考訳) 認知的バイアス(Cognitive bias)とは、人間が情報や環境を扱う際に使用する精神的なショートカットであり、結果として偏見のある行動や行動(または行動)が自己に知られない。 バイアスは、公平さ、説明責任、透明性、倫理、法律、医学、差別に影響を及ぼす中心的な役割を占める認知バイアスによって多くの形態を取る。 バイアスの検出は、その緩和に向けて必要なステップであると考えられている。 ここでは,アンカーとレジェンシーという2つの認知バイアスに注目した。 コンピュータサイエンスにおける認知バイアスの認識は主に情報検索の領域にあり、バイアスは注釈付きデータの助けを借りて集約レベルで識別される。 バイアス検出のための異なる方向を提案するため、機械学習とともに、これらの2つの認知バイアスをユーザの行動のwebログから検出する原則付きアプローチを提案する。 個々のユーザレベルを検出することで、真にパーソナライズされ、注釈付きデータに依存しません。 代わりに、認知心理学で確立された2つの基本原則から始め、注意ネットワークの修正されたトレーニングを使用し、これらの原則に従って新しい方法で注意重みを解釈し、これらの2つのバイアスを推論し区別する。 パーソナライズされたアプローチでは、タスクの実行時にこれらのバイアスに影響を受けやすい特定のユーザの検出が可能になる。

Cognitive biases are mental shortcuts humans use in dealing with information and the environment, and which result in biased actions and behaviors (or, actions), unbeknownst to themselves. Biases take many forms, with cognitive biases occupying a central role that inflicts fairness, accountability, transparency, ethics, law, medicine, and discrimination. Detection of biases is considered a necessary step toward their mitigation. Herein, we focus on two cognitive biases - anchoring and recency. The recognition of cognitive bias in computer science is largely in the domain of information retrieval, and bias is identified at an aggregate level with the help of annotated data. Proposing a different direction for bias detection, we offer a principled approach along with Machine Learning to detect these two cognitive biases from Web logs of users' actions. Our individual user level detection makes it truly personalized, and does not rely on annotated data. Instead, we start with two basic principles established in cognitive psychology, use modified training of an attention network, and interpret attention weights in a novel way according to those principles, to infer and distinguish between these two biases. The personalized approach allows detection for specific users who are susceptible to these biases when performing their tasks, and can help build awareness among them so as to undertake bias mitigation.
翻訳日:2022-07-04 10:37:47 公開日:2022-07-01
# オープンボキャブラリーキーワードスポッティングのための音声テキスト合意の学習

Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting ( http://arxiv.org/abs/2206.15400v2 )

ライセンス: Link先を確認
Hyeon-Kyeong Shin, Hyewon Han, Doyeon Kim, Soo-Whan Chung and Hong-Goo Kang(参考訳) 本稿では,音声とテキストシーケンス間の言語対応パターンを利用した,エンド・ツー・エンドのキーワードスポッティング手法を提案する。 従来の音声キーワード入力手法とは異なり,提案手法では入力クエリとテキストキーワードシーケンスを比較した。 音声とテキストの表現を共通の潜在空間に配置するために,単調なマッチング損失とキーワード分類損失を伴い,エンドツーエンドで訓練された注目型クロスモーダルマッチングアプローチを採用する。 また,雑音環境におけるロバスト性を改善するために,音響埋め込みネットワークにおけるノイズ除去損失を利用する。 さらに,キーワードスポッティングモデルを効率的に学習するためのlibriphraseデータセットであるlibriphraseデータセットを提案する。 提案手法は他のシングルモーダルベースラインおよびクロスモーダルベースラインと比較して様々な評価セットで競合結果を得る。

In this paper, we propose a novel end-to-end user-defined keyword spotting method that utilizes linguistically corresponding patterns between speech and text sequences. Unlike previous approaches requiring speech keyword enrollment, our method compares input queries with an enrolled text keyword sequence. To place the audio and text representations within a common latent space, we adopt an attention-based cross-modal matching approach that is trained in an end-to-end manner with monotonic matching loss and keyword classification loss. We also utilize a de-noising loss for the acoustic embedding network to improve robustness in noisy environments. Additionally, we introduce the LibriPhrase dataset, a new short-phrase dataset based on LibriSpeech for efficiently training keyword spotting models. Our proposed method achieves competitive results on various evaluation sets compared to other single-modal and cross-modal baselines.
翻訳日:2022-07-04 10:37:23 公開日:2022-07-01
# リンク予測におけるトポロジ的特徴の最大化

The maximum capability of a topological feature in link prediction ( http://arxiv.org/abs/2206.15101v2 )

ライセンス: Link先を確認
Yijun Ran, Xiao-Ke Xu, Tao Jia(参考訳) リンク予測は、直接見えないネットワークのリンクを予測し、生物学的および社会システムに深く応用することを目的としている。 このタスクにおけるトポロジ的特徴の集中的利用にもかかわらず、特定の特徴がどのようにして欠落したリンクを推測できるかは明らかでない。 ここでは、トポロジカルな特徴の最大能力は、指標が特徴を測る方法とは独立に、単純な数学的表現に従うことを示す。 したがって、あるトポロジ的特徴に関連するインデックスの族は同じ性能限界を共有する。 教師なし予測(supervised prediction)は、教師なし予測(unsupervised prediction)よりも優れた結果をもたらす。 パターンの普遍性は550個の構造的多様性を持つネットワークによって実証的に検証され、リンク予測におけるトポロジ的特徴に関連するネットワーク特性の分析や特徴選択に適用できる。

Link prediction aims to predict links of a network that are not directly visible, with profound applications in biological and social systems. Despite intensive utilization of the topological feature in this task, it is unclear to what extent a particular feature can be leveraged to infer missing links. Here, we show that the maximum capability of a topological feature follows a simple mathematical expression, which is independent of how an index gauges the feature. Hence, a family of indexes associated with one topological feature shares the same performance limit. A feature's capability is lifted in the supervised prediction, which in general gives rise to better results compared with unsupervised prediction. The universality of the pattern uncovered is empirically verified by 550 structurally diverse networks, which can be applied to feature selection and the analysis of network characteristics associated with a topological feature in link prediction.
翻訳日:2022-07-04 10:37:10 公開日:2022-07-01