このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220920となっている論文です。

PDF登録状況(公開日: 20220920)

TitleAuthorsAbstract論文公表日・翻訳日
# 特徴選択のためのテントL'evy Flying Sparrow Searchアルゴリズム:COVID-19のケーススタディ

A Tent L\'evy Flying Sparrow Search Algorithm for Feature Selection: A COVID-19 Case Study ( http://arxiv.org/abs/2209.10542v1 )

ライセンス: Link先を確認
Qinwen Yang, Yuelin Gao, Yanjie Song(参考訳) 情報科学の急速な発展によって引き起こされる「次元のカルス」は、大きなデータセットを扱う際に負の影響をもたらす可能性がある。 本稿では,スナロー探索アルゴリズム (SSA) の変種である Tent L\'evy flying sparrow search algorithm (TFSSA) を提案する。 SSAは、最近提案されたアルゴリズムであり、特徴選択問題に体系的に適用されていない。 CEC2020ベンチマーク関数による検証の後、TFSSAは最適な特徴の組み合わせを選択し、分類精度を最大化し、選択した特徴の数を最小化する。 提案したTFSSAは文献の9つのアルゴリズムと比較される。 9つの評価指標を使用して、uciリポジトリの21のデータセットにおけるこれらのアルゴリズムのパフォーマンスを適切に評価し比較する。 さらに、このアプローチは、新型コロナウイルス(COVID-19)データセットに適用され、それぞれ93.47%と2.1の平均的な分類精度と特徴選択数が得られる。 実験により,提案アルゴリズムの利点は,他のラッパーベースアルゴリズムと比較して,分類精度の向上と特徴数削減にある。

The "Curse of Dimensionality" induced by the rapid development of information science, might have a negative impact when dealing with big datasets. In this paper, we propose a variant of the sparrow search algorithm (SSA), called Tent L\'evy flying sparrow search algorithm (TFSSA), and use it to select the best subset of features in the packing pattern for classification purposes. SSA is a recently proposed algorithm that has not been systematically applied to feature selection problems. After verification by the CEC2020 benchmark function, TFSSA is used to select the best feature combination to maximize classification accuracy and minimize the number of selected features. The proposed TFSSA is compared with nine algorithms in the literature. Nine evaluation metrics are used to properly evaluate and compare the performance of these algorithms on twenty-one datasets from the UCI repository. Furthermore, the approach is applied to the coronavirus disease (COVID-19) dataset, yielding the best average classification accuracy and the average number of feature selections, respectively, of 93.47% and 2.1. Experimental results confirm the advantages of the proposed algorithm in improving classification accuracy and reducing the number of selected features compared to other wrapper-based algorithms.
翻訳日:2022-09-23 13:42:28 公開日:2022-09-20
# 視覚変換器を用いた交通事故リスク予測

Traffic Accident Risk Forecasting using Contextual Vision Transformers ( http://arxiv.org/abs/2209.11180v1 )

ライセンス: Link先を確認
Khaled Saleh and Artur Grigorev and Adriana-Simona Mihaita(参考訳) 近年,交通事故リスク予測の課題は,交通クリアランスに大きな影響を及ぼすため,インテリジェント交通システムコミュニティの注目を集めている。 この問題は、交通事故リスク予測問題に不可欠であることが示されているため、時間的および空間的インシデントの影響をモデル化するデータ駆動アプローチを用いて文献に一般的に取り組まれている。 これを実現するために、ほとんどのアプローチは時空間相関機能をキャプチャするために異なるアーキテクチャを構築し、大規模な交通事故データセットでは非効率になる。 そこで本研究では,事故リスクの予測を精度良く行なえながら,この問題の空間的・時間的側面を効果的に推論可能な,エンドツーエンドで訓練可能な,新たな統一フレームワークであるコンテキストビジョントランスフォーマを提案する。 提案手法の性能を,2つの異なる地域から2つの大規模交通事故データセットにまたがる文献からのベースラインアプローチと比較した。 その結果,前回のsof-art works(sota)と比較してrmseスコアが約2\%向上した。 さらに,提案手法は2つのデータセットに対して,23倍の計算量しか必要とせず,SoTA技術よりも優れていた。

Recently, the problem of traffic accident risk forecasting has been getting the attention of the intelligent transportation systems community due to its significant impact on traffic clearance. This problem is commonly tackled in the literature by using data-driven approaches that model the spatial and temporal incident impact, since they were shown to be crucial for the traffic accident risk forecasting problem. To achieve this, most approaches build different architectures to capture the spatio-temporal correlations features, making them inefficient for large traffic accident datasets. Thus, in this work, we are proposing a novel unified framework, namely a contextual vision transformer, that can be trained in an end-to-end approach which can effectively reason about the spatial and temporal aspects of the problem while providing accurate traffic accident risk predictions. We evaluate and compare the performance of our proposed methodology against baseline approaches from the literature across two large-scale traffic accident datasets from two different geographical locations. The results have shown a significant improvement with roughly 2\% in RMSE score in comparison to previous state-of-art works (SoTA) in the literature. Moreover, our proposed approach has outperformed the SoTA technique over the two datasets while only requiring 23x fewer computational requirements.
翻訳日:2022-09-23 12:51:04 公開日:2022-09-20
# データの離散化のための最大関連分断基準とナイーブベイへの応用

A Max-relevance-min-divergence Criterion for Data Discretization with Applications on Naive Bayes ( http://arxiv.org/abs/2209.10095v1 )

ライセンス: Link先を確認
Shihe Wang, Jianfeng Ren, Ruibin Bai, Yuan Yao, Xudong Jiang(参考訳) 多くの分類モデルでは、データはより正確に分布を推定するために離散化される。 既存の離散化手法では、識別データの識別能力の最大化を目標とし、分類におけるデータ離散化の主目的が一般化性能の向上であるという事実を見越すことが多い。 その結果、識別されていないデータが最大判別情報を保持するため、データは多くの小さなビンにオーバースプライトされる傾向がある。 そこで本研究では,識別データの識別情報と一般化能力の両方を最大化する,MDmD(Max-Dependency-Min-Divergence)基準を提案する。 より具体的には、最大依存性基準は離散化データと分類変数との統計的依存性を最大化し、min-divergence基準はトレーニングデータと所定の離散化スキームの検証データとの間のjs-divergenceを明示的に最小化する。 提案するMDmD基準は技術的に魅力的であるが,属性と分類変数の高次結合分布を確実に推定することは困難である。 そこで我々は,離散化データの識別情報と一般化能力を同時に最大化することにより,各属性を離散化するより実用的な解であるmax-relevance-min-divergence(mrmd)離散化スキームを提案する。 提案したMRmDは,45の機械学習ベンチマークデータセット上のベイズ分類フレームワークに基づく最先端の離散化アルゴリズムと比較される。 ほとんどのデータセットで比較したメソッドよりも大幅に優れています。

In many classification models, data is discretized to better estimate its distribution. Existing discretization methods often target at maximizing the discriminant power of discretized data, while overlooking the fact that the primary target of data discretization in classification is to improve the generalization performance. As a result, the data tend to be over-split into many small bins since the data without discretization retain the maximal discriminant information. Thus, we propose a Max-Dependency-Min-Divergence (MDmD) criterion that maximizes both the discriminant information and generalization ability of the discretized data. More specifically, the Max-Dependency criterion maximizes the statistical dependency between the discretized data and the classification variable while the Min-Divergence criterion explicitly minimizes the JS-divergence between the training data and the validation data for a given discretization scheme. The proposed MDmD criterion is technically appealing, but it is difficult to reliably estimate the high-order joint distributions of attributes and the classification variable. We hence further propose a more practical solution, Max-Relevance-Min-Divergence (MRmD) discretization scheme, where each attribute is discretized separately, by simultaneously maximizing the discriminant information and the generalization ability of the discretized data. The proposed MRmD is compared with the state-of-the-art discretization algorithms under the naive Bayes classification framework on 45 machine-learning benchmark datasets. It significantly outperforms all the compared methods on most of the datasets.
翻訳日:2022-09-22 17:39:50 公開日:2022-09-20
# 物理インフォームドニューラルネットワーク(PINN)における故障モードの調査と緩和

Investigating and Mitigating Failure Modes in Physics-informed Neural Networks (PINNs) ( http://arxiv.org/abs/2209.09988v1 )

ライセンス: Link先を確認
Shamsulhaq Basir(参考訳) 本稿では,物理インフォームドニューラルネットワークを用いて,複雑な問題に対処する上での課題を実証し,検討する。 特に,訓練モデルの損失景観を可視化し,物理存在下での逆伝播勾配の感度解析を行う。 以上より,既存の手法はナビゲートが困難である非凸損失景観を生じさせることが示唆された。 さらに、高次PDEは、収束を妨げたり妨げたりするバックプロパゲート勾配を汚染する。 そこで我々は,高次PDE演算子の計算を回避し,バックプロパゲート勾配の汚染を軽減する新しい手法を提案する。 そこで我々は, 解の探索空間の次元を削減し, 非スムース解の学習を促進させる。 私たちの定式化は、モデルが学習が難しいドメインの複雑な領域に適応的に焦点を合わせるのに役立つフィードバックメカニズムも提供します。 次に、ラグランジュ乗算法を適用して、制約のない双対問題を定式化する。 本稿では,線形および非線形PDEが支配するいくつかのベンチマーク問題の解決に本手法を適用した。

In this paper, we demonstrate and investigate several challenges that stand in the way of tackling complex problems using physics-informed neural networks. In particular, we visualize the loss landscapes of trained models and perform sensitivity analysis of backpropagated gradients in the presence of physics. Our findings suggest that existing methods produce highly non-convex loss landscapes that are difficult to navigate. Furthermore, high-order PDEs contaminate the backpropagated gradients that may impede or prevent convergence. We then propose a novel method that bypasses the calculation of high-order PDE operators and mitigates the contamination of backpropagating gradients. In doing so, we reduce the dimension of the search space of our solution and facilitate learning problems with non-smooth solutions. Our formulation also provides a feedback mechanism that helps our model adaptively focus on complex regions of the domain that are difficult to learn. We then formulate an unconstrained dual problem by adapting the Lagrange multiplier method. We apply our method to solve several challenging benchmark problems governed by linear and non-linear PDEs.
翻訳日:2022-09-22 17:36:50 公開日:2022-09-20
# 部分観測軌道からの作動型クープマン発電機の非線形モデル学習

Learning Bilinear Models of Actuated Koopman Generators from Partially-Observed Trajectories ( http://arxiv.org/abs/2209.09977v1 )

ライセンス: Link先を確認
Samuel E. Otto, Sebastian Peitz, Clarence W. Rowley(参考訳) 基礎となるkoopman演算子やジェネレータの近似に基づく非線形力学系のデータ駆動モデルは、予測、特徴学習、状態推定、制御に成功している。 制御-アフィン系に対するクープマン生成器は入力に対するアフィン依存性も持つことがよく知られており、ダイナミクスの便利な有限次元双線型近似に繋がる。 しかし、動作を伴うシステムのクープマン発生器を近似するための現在のアプローチの範囲を制限する2つの主要な障害がある。 まず、既存の手法の性能は、クープマン生成器が近似される基底関数の選択に大きく依存する。 第二に、もし我々が完全な状態を観測しなければ、ダイナミクスを記述するのに十分豊富な関数の集合にアクセスできないかもしれない。 これは、時間遅延オブザーバブルを形成する一般的な方法がアクチュエーションがある場合に失敗するためである。 これらの問題を解決するため、koopman生成器が制御する可観測性のダイナミクスを双線型隠れマルコフモデルとして記述し、期待最大化(em)アルゴリズムを用いてモデルパラメータを決定する。 Eステップは標準のカルマンフィルタとスムーズで、Mステップはジェネレータの制御-アフィン動的モード分解に似ている。 本手法は,ゆるい多様体を持つ作動系に対する有限次元koopman-invariant部分空間の復元,非強制ダフィング方程式に対するkoopman固有関数の推定,揚力と抗力のノイズ観測のみに基づく流体ピンボール系のモデル予測制御といった3つの実例で性能を示す。

Data-driven models for nonlinear dynamical systems based on approximating the underlying Koopman operator or generator have proven to be successful tools for forecasting, feature learning, state estimation, and control. It has become well known that the Koopman generators for control-affine systems also have affine dependence on the input, leading to convenient finite-dimensional bilinear approximations of the dynamics. Yet there are still two main obstacles that limit the scope of current approaches for approximating the Koopman generators of systems with actuation. First, the performance of existing methods depends heavily on the choice of basis functions over which the Koopman generator is to be approximated; and there is currently no universal way to choose them for systems that are not measure preserving. Secondly, if we do not observe the full state, we may not gain access to a sufficiently rich collection of such functions to describe the dynamics. This is because the commonly used method of forming time-delayed observables fails when there is actuation. To remedy these issues, we write the dynamics of observables governed by the Koopman generator as a bilinear hidden Markov model, and determine the model parameters using the expectation-maximization (EM) algorithm. The E-step involves a standard Kalman filter and smoother, while the M-step resembles control-affine dynamic mode decomposition for the generator. We demonstrate the performance of this method on three examples, including recovery of a finite-dimensional Koopman-invariant subspace for an actuated system with a slow manifold; estimation of Koopman eigenfunctions for the unforced Duffing equation; and model-predictive control of a fluidic pinball system based only on noisy observations of lift and drag.
翻訳日:2022-09-22 17:36:33 公開日:2022-09-20
# 暗号化データに対するプライベートニューラルネットワークの監査とロバスト性向上

Audit and Improve Robustness of Private Neural Networks on Encrypted Data ( http://arxiv.org/abs/2209.09996v1 )

ライセンス: Link先を確認
Jiaqi Xue, Lei Xu, Lin Chen, Weidong Shi, Kaidi Xu, Qian Lou(参考訳) 暗号化データを復号化せずにニューラルネットワークを推論することは、プライバシ保存ニューラルネットワーク(pnet)をサービスとして有効化する一般的な方法である。 マシンラーニング・アズ・ア・サービス用にデプロイされる通常のニューラルネットワークと比較して、pnetには、量子化精度数や多項式活性化といった追加のエンコーディングが必要である。 暗号化入力はまた、敵対的ロバスト性やセキュリティといった新しい課題も導入している。 私たちの知識を最大限に活用するために、私たちは最初に質問などを研究する。 (i)PNetが通常のニューラルネットワークよりも敵入力に対して堅牢であるかどうか。 (ii)暗号化入力を復号化せずにロバストなpnetを設計する方法 我々はPNet-Attackを提案し、ターゲットとターゲットの両方でPNetを攻撃できるブラックボックスの敵例を生成する。 攻撃結果から,pnetの対向入力に対するロバスト性が向上することが示唆された。 PNetモデルオーナが入力値の平文にアクセスできないため、入力チューニングやモデル正規化、敵の訓練といった既存の検出および防御手法が適用されないため、これは簡単なタスクではない。 この課題に対処するために,ロバストニューラルネットワークとプライベートニューラルネットワークを設計するRPNetという,高速かつ高精度なノイズ挿入手法を提案する。 我々の総合的な実験によると、PNet-Attack は以前の作業よりも少なくとも$2.5\times$クエリを削減している。 理論的にRPNet法を解析し、RPNetが$\sim 91.88\%$攻撃成功率を下げることを示す。

Performing neural network inference on encrypted data without decryption is one popular method to enable privacy-preserving neural networks (PNet) as a service. Compared with regular neural networks deployed for machine-learning-as-a-service, PNet requires additional encoding, e.g., quantized-precision numbers, and polynomial activation. Encrypted input also introduces novel challenges such as adversarial robustness and security. To the best of our knowledge, we are the first to study questions including (i) Whether PNet is more robust against adversarial inputs than regular neural networks? (ii) How to design a robust PNet given the encrypted input without decryption? We propose PNet-Attack to generate black-box adversarial examples that can successfully attack PNet in both target and untarget manners. The attack results show that PNet robustness against adversarial inputs needs to be improved. This is not a trivial task because the PNet model owner does not have access to the plaintext of the input values, which prevents the application of existing detection and defense methods such as input tuning, model normalization, and adversarial training. To tackle this challenge, we propose a new fast and accurate noise insertion method, called RPNet, to design Robust and Private Neural Networks. Our comprehensive experiments show that PNet-Attack reduces at least $2.5\times$ queries than prior works. We theoretically analyze our RPNet methods and demonstrate that RPNet can decrease $\sim 91.88\%$ attack success rate.
翻訳日:2022-09-22 17:27:49 公開日:2022-09-20
# 制御バリア関数による可変安全制御器の設計

Differentiable Safe Controller Design through Control Barrier Functions ( http://arxiv.org/abs/2209.10034v1 )

ライセンス: Link先を確認
Shuo Yang, Shaoru Chen, Victor M. Preciado, Rahul Mangharam(参考訳) ニューラルネットワーク(NN)コントローラのような学習ベースのコントローラは、経験的なパフォーマンスを示すが、正式な安全保証がない。 この問題に対処するため、制御障壁関数(CBF)は、閉ループシステムの安全性を保証するために、学習ベースコントローラの出力を監視・修正するための安全フィルタとして適用されている。 しかし、このような修正は予測不能な長期的な影響を伴う近視的変化である。 そこで本研究では,cbfベースの安全層を用いた安全バイコンストラクションnnコントローラを提案し,学習ベース制御における安全バイコンストラクションnnコントローラの性能について検討する。 具体的には、二つの制御器の定式化を比較し、一方は射影ベースであり、もう一方は提案する集合論的パラメータ化に依存する。 いずれの手法も、数値実験においてCBFを別個の安全フィルタとして用いるよりもクローズドループ性能が向上したことを示す。

Learning-based controllers, such as neural network (NN) controllers, can show high empirical performance but lack formal safety guarantees. To address this issue, control barrier functions (CBFs) have been applied as a safety filter to monitor and modify the outputs of learning-based controllers in order to guarantee the safety of the closed-loop system. However, such modification can be myopic with unpredictable long-term effects. In this work, we propose a safe-by-construction NN controller which employs differentiable CBF-based safety layers, and investigate the performance of safe-by-construction NN controllers in learning-based control. Specifically, two formulations of controllers are compared: one is projection-based and the other relies on our proposed set-theoretic parameterization. Both methods demonstrate improved closed-loop performance over using CBF as a separate safety filter in numerical experiments.
翻訳日:2022-09-22 17:27:27 公開日:2022-09-20
# 協調異常検出

Collaborative Anomaly Detection ( http://arxiv.org/abs/2209.09923v1 )

ライセンス: Link先を確認
Ke Bai, Aonan Zhang, Zhizhong Li, Ricardo Heano, Chong Wang, Lawrence Carin(参考訳) レコメンデーションシステムでは、アイテムはさまざまなユーザに公開される可能性が高いので、既存のアイテムで新しいユーザの親密性について学びたいと思っています。 これは、"common users" (nominal) と "fresh users" (nomalous) を区別する異常検出(AD)問題として定式化することができる。 各項目に従来の単一タスク検出手法を独立に適用することは、アイテムの量とユーザイットのペアデータの空間性を考えると、アイテム間の相関を無視しながら、すぐに困難になる。 このマルチタスク異常検出問題に対処するために,タスク間の相関を埋め込むことで,全てのタスクを共同で学習するCADを提案する。 条件密度推定と条件確率比推定を用いてCADを探索する。 i$) 確率比の推定は、より効率的な学習を享受し、密度の推定よりも優れた結果を得る。 $ii$) タスクの埋め込みモデルを学ぶために予め少数のタスクを選択し、タスクの埋め込みをウォームスタートするためにそれを使うのは有益です。 その結果、これらの埋め込みはタスク間の相関を捉え、新しい相関タスクに一般化することができる。

In recommendation systems, items are likely to be exposed to various users and we would like to learn about the familiarity of a new user with an existing item. This can be formulated as an anomaly detection (AD) problem distinguishing between "common users" (nominal) and "fresh users" (anomalous). Considering the sheer volume of items and the sparsity of user-item paired data, independently applying conventional single-task detection methods on each item quickly becomes difficult, while correlations between items are ignored. To address this multi-task anomaly detection problem, we propose collaborative anomaly detection (CAD) to jointly learn all tasks with an embedding encoding correlations among tasks. We explore CAD with conditional density estimation and conditional likelihood ratio estimation. We found that: $i$) estimating a likelihood ratio enjoys more efficient learning and yields better results than density estimation. $ii$) It is beneficial to select a small number of tasks in advance to learn a task embedding model, and then use it to warm-start all task embeddings. Consequently, these embeddings can capture correlations between tasks and generalize to new correlated tasks.
翻訳日:2022-09-22 17:20:22 公開日:2022-09-20
# FoVolNet:Foveated Deep Neural Networksを用いた高速ボリュームレンダリング

FoVolNet: Fast Volume Rendering using Foveated Deep Neural Networks ( http://arxiv.org/abs/2209.09965v1 )

ライセンス: Link先を確認
David Bauer and Qi Wu and Kwan-Liu Ma(参考訳) ボリュームデータは、多くの重要な科学および工学の応用で見られる。 このデータを高品質でインタラクティブなレートで視覚化するバーチャルリアリティーのようなアプリケーションでは、プロフェッショナルグレードのハードウェアを使っても、容易には達成できない。 我々はfovolnet -- ボリュームデータの可視化性能を大幅に向上させる手法を紹介する。 本研究では,焦点付近のボリュームをばらばらにサンプリングし,ディープニューラルネットワークを用いて全フレームを再構築する,コスト効率のよいフォベテッドレンダリングパイプラインを開発した。 foveated renderingは、ユーザの焦点の周りにレンダリング計算を優先するテクニックである。 このアプローチは、人間の視覚システムの特性を利用して、ユーザーの視野の周囲にデータをレンダリングする際に計算資源を節約する。 我々の再構成ネットワークは、直接およびカーネル予測手法を組み合わせて、高速で安定かつ知覚的に説得力のある出力を生成する。 スリムな設計と量子化の利用により、本手法は、エンドツーエンドのフレーム時間と視覚的品質の両方において最先端のニューラル再構成技術より優れる。 我々は,システムのレンダリング性能,推論速度,知覚特性を広範囲に評価し,競合するニューラルイメージ再構成手法との比較を行った。 実験の結果,fovolnetは知覚的品質を維持しつつ,従来のレンダリングよりも大幅な時間を節約できることがわかった。

Volume data is found in many important scientific and engineering applications. Rendering this data for visualization at high quality and interactive rates for demanding applications such as virtual reality is still not easily achievable even using professional-grade hardware. We introduce FoVolNet -- a method to significantly increase the performance of volume data visualization. We develop a cost-effective foveated rendering pipeline that sparsely samples a volume around a focal point and reconstructs the full-frame using a deep neural network. Foveated rendering is a technique that prioritizes rendering computations around the user's focal point. This approach leverages properties of the human visual system, thereby saving computational resources when rendering data in the periphery of the user's field of vision. Our reconstruction network combines direct and kernel prediction methods to produce fast, stable, and perceptually convincing output. With a slim design and the use of quantization, our method outperforms state-of-the-art neural reconstruction techniques in both end-to-end frame times and visual quality. We conduct extensive evaluations of the system's rendering performance, inference speed, and perceptual properties, and we provide comparisons to competing neural image reconstruction techniques. Our test results show that FoVolNet consistently achieves significant time saving over conventional rendering while preserving perceptual quality.
翻訳日:2022-09-22 17:20:03 公開日:2022-09-20
# 無線センサネットワークにおけるワーム伝播の学習

Learning the Propagation of Worms in Wireless Sensor Networks ( http://arxiv.org/abs/2209.09984v1 )

ライセンス: Link先を確認
Yifan Wang, Siqi Wang, Guangmo Tong(参考訳) 無線センサネットワーク(wsns)は空間的に分布するセンサで構成されており、ワームとその変種による攻撃に対して脆弱であると考えられている。 ワーム伝播の異なる戦略のため、ダイナミックな挙動はセンサーの異なる特徴によって異なる。 ワームの拡散をモデル化することは、ワーム攻撃の挙動を理解し、伝播過程を分析するのに役立つ。 本稿では,様々な寄生虫のコミュニケーションモデルを設計する。 我々は,競争性のあるワーム伝播のダイナミクスを解析的に導出するために,提案モデルを学ぶことを目的とする。 複雑なニューラルネットワークモデルを組み合わせた新しい探索空間を開発した。 さらに,本実験の結果を検証し,提案した学習アルゴリズムの性能を実証した。

Wireless sensor networks (WSNs) are composed of spatially distributed sensors and are considered vulnerable to attacks by worms and their variants. Due to the distinct strategies of worms propagation, the dynamic behavior varies depending on the different features of the sensors. Modeling the spread of worms can help us understand the worm attack behaviors and analyze the propagation procedure. In this paper, we design a communication model under various worms. We aim to learn our proposed model to analytically derive the dynamics of competitive worms propagation. We develop a new searching space combined with complex neural network models. Furthermore, the experiment results verified our analysis and demonstrated the performance of our proposed learning algorithms.
翻訳日:2022-09-22 17:19:43 公開日:2022-09-20
# 深海管mpcを用いた昆虫小型軟動空中ロボットのロバスト・高速追跡

Robust, High-Rate Trajectory Tracking on Insect-Scale Soft-Actuated Aerial Robots with Deep-Learned Tube MPC ( http://arxiv.org/abs/2209.10007v1 )

ライセンス: Link先を確認
Andrea Tagliabue (1), Yi-Hsuan Hsiao (2), Urban Fasel (3), J. Nathan Kutz (4), Steven L. Brunton (5), YuFeng Chen (2) and Jonathan P. How (1) ((1) Department of Aeronautics and Astronautics, Massachusetts Institute of Technology, (2) Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, (3) Department of Aeronautics, Imperial College London, (4) Department of Applied Mathematics, University of Washington, (5) Department of Mechanical Engineering, University of Washington)(参考訳) マイクロ・エアリアル・ビークル(MAV)の高精度かつアジャイルな軌道追跡は、ロボットの小さなスケールが大きなモデルの不確実性を誘導し、堅牢なフィードバックコントローラを要求する一方で、高速なダイナミックスと計算の制約が計算コストのかかる戦略の展開を妨げているため、困難である。 本研究では,サブグラムMAV (0.7gs) であるMIT SoftFly 上で,アジャイルで効率的な軌道追跡手法を提案する。 提案手法では,適応姿勢制御器と,軌道追従型ロバスト管モデル予測制御器(rtmpc)を模倣するニューラルネットワークポリシを組み合わせたカスケード制御方式を採用している。 ニューラルネットワークポリシは,rtmpcのロバスト性を維持しつつ,その計算コストのごく一部で実現可能な,最近の研究で得られたものである。 我々は,我々のアプローチを実験的に評価し,より困難な操作においても,ルート平均角誤差を1.8cm以下にし,従来の作業に比べて最大位置誤差を60%低減し,大きな外乱に対する堅牢性を実証した。

Accurate and agile trajectory tracking in sub-gram Micro Aerial Vehicles (MAVs) is challenging, as the small scale of the robot induces large model uncertainties, demanding robust feedback controllers, while the fast dynamics and computational constraints prevent the deployment of computationally expensive strategies. In this work, we present an approach for agile and computationally efficient trajectory tracking on the MIT SoftFly, a sub-gram MAV (0.7 grams). Our strategy employs a cascaded control scheme, where an adaptive attitude controller is combined with a neural network policy trained to imitate a trajectory tracking robust tube model predictive controller (RTMPC). The neural network policy is obtained using our recent work, which enables the policy to preserve the robustness of RTMPC, but at a fraction of its computational cost. We experimentally evaluate our approach, achieving position Root Mean Square Errors lower than 1.8 cm even in the more challenging maneuvers, obtaining a 60% reduction in maximum position error compared to our previous work, and demonstrating robustness to large external disturbances
翻訳日:2022-09-22 17:19:34 公開日:2022-09-20
# フェデレーションエッジ学習におけるオーバーザ・エア計算の実証

A Demonstration of Over-the-Air Computation for Federated Edge Learning ( http://arxiv.org/abs/2209.09954v1 )

ライセンス: Link先を確認
Alphan Sahin(参考訳) 本研究では,ソフトウェア定義無線(SDR)の集合が,対応するコンピュータのベースバンド処理を維持しつつ,正確なタイミングで任意の位相/四分数データの送信や受信を可能にする汎用同期手法を提案する。 提案手法は、受信方向と送信方向の両方における同期波形の検出と、処理システムと協調して直接メモリアクセスブロックを制御する。 この同期手法を低コストのSDRに実装することにより、周波数シフトキー(FSK)ベースの多数決(MV)、すなわちフェデレーションエッジ学習のためのオーバー・ザ・エア計算方式の性能を実証し、対応する手順を紹介する。 実験では,エッジデバイスでチャネル状態情報を使わずに,均質かつ異質なデータ分布に対して95%以上の精度が得られることを示した。

In this study, we propose a general-purpose synchronization method that allows a set of software-defined radios (SDRs) to transmit or receive any in-phase/quadrature data with precise timings while maintaining the baseband processing in the corresponding companion computers. The proposed method relies on the detection of a synchronization waveform in both receive and transmit directions and controlling the direct memory access blocks jointly with the processing system. By implementing this synchronization method on a set of low-cost SDRs, we demonstrate the performance of frequency-shift keying (FSK)-based majority vote (MV), i.e., an over-the-air computation scheme for federated edge learning, and introduce the corresponding procedures. Our experiment shows that the test accuracy can reach more than 95% for homogeneous and heterogeneous data distributions without using channel state information at the edge devices.
翻訳日:2022-09-22 17:10:51 公開日:2022-09-20
# 部分可観測性下におけるマクロアクションベースマルチエージェント/ロボット深層強化学習

Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under Partial Observability ( http://arxiv.org/abs/2209.10003v1 )

ライセンス: Link先を確認
Yuchen Xiao(参考訳) 最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供している。 しかし、これらの手法はすべてエージェントが同期したプリミティブアクションの実行を実行すると仮定しており、エージェント/ロボットが非同期にハイレベルなアクションの選択を時間毎に判断する必要があるような、真のスケーラブルな実世界のマルチエージェント/ロボットタスクではない。 MacDec-POMDP (Macro-Action Decentralized partially Observable Markov Decision Process) は、完全協調型マルチエージェントタスクにおける不確実性の下での非同期決定の一般的な形式化である。 本稿では,まず,分散学習と制御,集中学習と制御,分散実行のための集中トレーニング(CTDE)という3つのパラダイムにおいて,エージェントがマクロアクション値関数を用いて非同期学習と意思決定を行うことができる,MacDec-POMDPに対する価値ベースRLアプローチのグループを提案する。 上記の研究に基づいて、3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化し、エージェントはパラメータ化されたポリシーを直接非同期に最適化することができる。 本手法は,様々な現実的な領域において,シミュレーションと実ロボットの両方で評価する。 実験結果は,大規模マルチエージェント問題に対する我々のアプローチの優位性を示し,マクロアクションを用いた高品質・非同期ソリューション学習におけるアルゴリズムの有効性を検証する。

The state-of-the-art multi-agent reinforcement learning (MARL) methods have provided promising solutions to a variety of complex problems. Yet, these methods all assume that agents perform synchronized primitive-action executions so that they are not genuinely scalable to long-horizon real-world multi-agent/robot tasks that inherently require agents/robots to asynchronously reason about high-level action selection at varying time durations. The Macro-Action Decentralized Partially Observable Markov Decision Process (MacDec-POMDP) is a general formalization for asynchronous decision-making under uncertainty in fully cooperative multi-agent tasks. In this thesis, we first propose a group of value-based RL approaches for MacDec-POMDPs, where agents are allowed to perform asynchronous learning and decision-making with macro-action-value functions in three paradigms: decentralized learning and control, centralized learning and control, and centralized training for decentralized execution (CTDE). Building on the above work, we formulate a set of macro-action-based policy gradient algorithms under the three training paradigms, where agents are allowed to directly optimize their parameterized policies in an asynchronous manner. We evaluate our methods both in simulation and on real robots over a variety of realistic domains. Empirical results demonstrate the superiority of our approaches in large multi-agent problems and validate the effectiveness of our algorithms for learning high-quality and asynchronous solutions with macro-actions.
翻訳日:2022-09-22 17:10:37 公開日:2022-09-20
# ドメイン適応回帰のためのadversarial bi-regressor network

Adversarial Bi-Regressor Network for Domain Adaptive Regression ( http://arxiv.org/abs/2209.09943v1 )

ライセンス: Link先を確認
Haifeng Xia, Pu (Perry) Wang, Toshiaki Koike-Akino, Ye Wang, Philip Orlik, Zhengming Ding(参考訳) ドメイン適応(da)は、ラベルなしのターゲット学習を容易にするために、ラベル付きソースドメインの知識を転送することを目的としている。 屋内(Wi-Fi)のローカライゼーションのような特定のタスクに切り替える場合、ドメインシフトを軽減するためにクロスドメイン回帰器を学ぶことが不可欠である。 本稿では,より効果的なクロスドメイン回帰モデルを求める新しい手法であるadversarial bi-regressor network (abrnet)を提案する。 具体的には、ソース分布から遠く離れた未知のターゲットインスタンスを発見するためにbi-regressorの違いを最大化するために離散的なbi-regressorアーキテクチャを開発し、特徴抽出器と2つのレグレプタの間で逆のトレーニング機構を採用してドメイン不変表現を生成する。 さらに大きなドメインギャップを埋めるために、ドメイン固有の拡張モジュールは、2つのソース類似およびターゲット類似の中間ドメインを合成して、元のドメインミスマッチを徐々に除去するように設計されている。 2つのクロスドメインレグレッシブベンチマークに関する実証研究は、ドメイン適応回帰(dar)問題を解決するための手法の力を示している。

Domain adaptation (DA) aims to transfer the knowledge of a well-labeled source domain to facilitate unlabeled target learning. When turning to specific tasks such as indoor (Wi-Fi) localization, it is essential to learn a cross-domain regressor to mitigate the domain shift. This paper proposes a novel method Adversarial Bi-Regressor Network (ABRNet) to seek more effective cross-domain regression model. Specifically, a discrepant bi-regressor architecture is developed to maximize the difference of bi-regressor to discover uncertain target instances far from the source distribution, and then an adversarial training mechanism is adopted between feature extractor and dual regressors to produce domain-invariant representations. To further bridge the large domain gap, a domain-specific augmentation module is designed to synthesize two source-similar and target-similar intermediate domains to gradually eliminate the original domain mismatch. The empirical studies on two cross-domain regressive benchmarks illustrate the power of our method on solving the domain adaptive regression (DAR) problem.
翻訳日:2022-09-22 17:03:43 公開日:2022-09-20
# 異なる環境下における高ダイナミックレンジ映像の主観評価

Subjective Assessment of High Dynamic Range Videos Under Different Ambient Conditions ( http://arxiv.org/abs/2209.10005v1 )

ライセンス: Link先を確認
Zaixi Shang, Joshua P. Ebenezer, Alan C. Bovik, Yongjun Wu, Hai Wei, Sriram Sethuraman(参考訳) 高ダイナミックレンジ(HDR)ビデオは、標準ダイナミックレンジ(SDR)ビデオよりもはるかに多くの明るさと色を表現でき、急速に業界標準になりつつある。 HDRビデオは、従来のSDRビデオよりも、キャプチャ、トランスミッション、表示要求が難しい。 より深いビット深度、高度な電気光学変換機能、より広い色域では、HDRビデオの品質を予測するために特別に設計されたビデオ品質アルゴリズムが必要である。 この目的のために,HDRビデオの大規模主観的研究を初めて公開する。 圧縮やエイリアスなどの歪みがHDRビデオの品質に及ぼす影響について検討する。 また, 環境照明がHDR映像の知覚品質に及ぼす影響について, 暗室環境と明るいリビングルーム環境の両方で研究を行うことにより検討した。 この研究には66人の被験者が参加し、2万点以上の意見スコアが集められた。 我々は、このデータセットが、HDRビデオの知覚品質のより良いモデルを開発するための貴重なリソースになることを期待している。

High Dynamic Range (HDR) videos can represent a much greater range of brightness and color than Standard Dynamic Range (SDR) videos and are rapidly becoming an industry standard. HDR videos have more challenging capture, transmission, and display requirements than legacy SDR videos. With their greater bit depth, advanced electro-optical transfer functions, and wider color gamuts, comes the need for video quality algorithms that are specifically designed to predict the quality of HDR videos. Towards this end, we present the first publicly released large-scale subjective study of HDR videos. We study the effect of distortions such as compression and aliasing on the quality of HDR videos. We also study the effect of ambient illumination on perceptual quality of HDR videos by conducting the study in both a dark lab environment and a brighter living-room environment. A total of 66 subjects participated in the study and more than 20,000 opinion scores were collected, which makes this the largest in-lab study of HDR video quality ever. We anticipate that the dataset will be a valuable resource for researchers to develop better models of perceptual quality for HDR videos.
翻訳日:2022-09-22 17:03:11 公開日:2022-09-20
# 内部検証手法を用いた外部クラスタリング検証ベンチマークの正当性チェック

Sanity Check for External Clustering Validation Benchmarks using Internal Validation Measures ( http://arxiv.org/abs/2209.10042v1 )

ライセンス: Link先を確認
Hyeon Jeon, Michael Aupetit, DongHwa Shin, Aeri Cho, Seokhyeon Park, Jinwook Seo(参考訳) ラベル付きデータセットに基づくベンチマーククラスタリング技術における信頼性の欠如に対処する。 外部クラスタリング検証の標準的なスキームは、各クラスが単一の明確に分離されたクラスタを形成するという仮定に基づいて、クラスラベルを基底真理クラスタとして使用することである。 しかし、このようなクラスタラベルマッチング(CLM)の仮定がしばしば破られるため、ベンチマークデータセットのCLMに対する健全性チェックの実施の欠如は、外部検証の有効性に疑問を投げかけている。 それでも、CLMの程度を評価することは難しい。 例えば、内部クラスタリング検証尺度は、同じデータセット内のclmを定量化し、異なるクラスタリングを評価するために使用できるが、異なるデータセットのクラスタリングを比較するように設計されていない。 本研究では,データセット間でのCLMの比較を可能にする,データセット間の内部測度を生成する方法を提案する。 まず,アッカーマンとベンダビッドのデータセット内公理を補完する,データセット間内測度のための4つの公理を決定する。 次に、これらの新しい公理を満たすための内部測度を一般化し、データセット間clm評価のために広く使用されるcalinski-harabaszインデックスを拡張するプロセスを提案する。 定量的実験により,(1)一般化プロセスの有効性と必要性を検証し,(2)データセット間でのCalinski-Harabasz指数がCLMを精度良く評価することを示した。 最後に,外部検証を行う前にベンチマークデータセットのclmを評価することの重要性を示す。

We address the lack of reliability in benchmarking clustering techniques based on labeled datasets. A standard scheme in external clustering validation is to use class labels as ground truth clusters, based on the assumption that each class forms a single, clearly separated cluster. However, as such cluster-label matching (CLM) assumption often breaks, the lack of conducting a sanity check for the CLM of benchmark datasets casts doubt on the validity of external validations. Still, evaluating the degree of CLM is challenging. For example, internal clustering validation measures can be used to quantify CLM within the same dataset to evaluate its different clusterings but are not designed to compare clusterings of different datasets. In this work, we propose a principled way to generate between-dataset internal measures that enable the comparison of CLM across datasets. We first determine four axioms for between-dataset internal measures, complementing Ackerman and Ben-David's within-dataset axioms. We then propose processes to generalize internal measures to fulfill these new axioms, and use them to extend the widely used Calinski-Harabasz index for between-dataset CLM evaluation. Through quantitative experiments, we (1) verify the validity and necessity of the generalization processes and (2) show that the proposed between-dataset Calinski-Harabasz index accurately evaluates CLM across datasets. Finally, we demonstrate the importance of evaluating CLM of benchmark datasets before conducting external validation.
翻訳日:2022-09-22 16:55:05 公開日:2022-09-20
# オープンソースの機械学習プロジェクトにおける実際のバグの比較分析 -- 登録レポート

Comparative analysis of real bugs in open-source Machine Learning projects -- A Registered Report ( http://arxiv.org/abs/2209.09932v1 )

ライセンス: Link先を確認
Tuan Dung Lai, Anj Simmons, Scott Barnett, Jean-Guy Schneider, Rajesh Vasa(参考訳) 背景: マシンラーニング(ML)システムは予測にデータに依存しており、データ処理パイプラインやサービスパイプライン、モデルトレーニングといった従来のソフトウェアシステムと比較して、多くのコンポーネントが追加されている。 ソフトウェアメンテナンスに関する既存の研究は、パフォーマンスやセキュリティの問題など、さまざまな種類の問題に対する問題報告のニーズと解決プロセスを調査している。 しかし、MLシステムには特定の障害クラスがあり、ML問題の報告にはドメイン固有の情報が必要である。 mlと従来のソフトウェアエンジニアリングシステムの違いから、報告のニーズがどの程度異なるのか、そして、これらの違いがどの程度問題解決プロセスに影響を与えるのかはわかりません。 目的:我々の目的は,MLと非ML課題の解決時間分布に相違があるか,また,オープンソース適用MLプロジェクトにおける実際の課題報告に基づいて,特定のカテゴリのML課題が解決に時間がかかるかを検討することである。 さらに,ML問題と非ML問題の大きさについて検討する。 方法:最近のアクティブなMLプロジェクトのイシューレポート,プルリクエスト,コードファイルをGithubから抽出し,MLや非MLの問題を自動でフィルタリングする。 ディープラーニングバグの既知の分類を用いて,問題を手作業でラベル付けする。 制御されたサンプル上で,MLおよび非ML問題の修正の解像度時間とサイズを測定し,各カテゴリの分布を比較した。

Background: Machine Learning (ML) systems rely on data to make predictions, the systems have many added components compared to traditional software systems such as the data processing pipeline, serving pipeline, and model training. Existing research on software maintenance has studied the issue-reporting needs and resolution process for different types of issues, such as performance and security issues. However, ML systems have specific classes of faults, and reporting ML issues requires domain-specific information. Because of the different characteristics between ML and traditional Software Engineering systems, we do not know to what extent the reporting needs are different, and to what extent these differences impact the issue resolution process. Objective: Our objective is to investigate whether there is a discrepancy in the distribution of resolution time between ML and non-ML issues and whether certain categories of ML issues require a longer time to resolve based on real issue reports in open-source applied ML projects. We further investigate the size of fix of ML issues and non-ML issues. Method: We extract issues reports, pull requests and code files in recent active applied ML projects from Github, and use an automatic approach to filter ML and non-ML issues. We manually label the issues using a known taxonomy of deep learning bugs. We measure the resolution time and size of fix of ML and non-ML issues on a controlled sample and compare the distributions for each category of issue.
翻訳日:2022-09-22 16:53:32 公開日:2022-09-20
# jsdp: javaの確率動的プログラミングライブラリ

jsdp: a Java Stochastic Dynamic Programming Library ( http://arxiv.org/abs/2209.09979v1 )

ライセンス: Link先を確認
Roberto Rossi(参考訳) 確率的プログラミングは不確実性の下で意思決定の問題をモデル化し解決するためのフレームワークである。 確率動的プログラミング(Stochastic Dynamic Programming)は、最適ポリシーの発見に「関数型方程式」アプローチを採用する確率的プログラミングの一分野である。 MapReduceフレームワークを運用するためにJavaで実装されたコンストラクト(ラムダ式、関数インターフェイス、コレクション、集約演算子)を活用することで、jsdpは確率動的プログラムのモデリングと解決のための汎用ライブラリを提供する。

Stochastic Programming is a framework for modelling and solving problems of decision making under uncertainty. Stochastic Dynamic Programming is a branch of Stochastic Programming that takes a "functional equation" approach to the discovery of optimal policies. By leveraging constructs - lambda expressions, functional interfaces, collections and aggregate operators - implemented in Java to operationalise the MapReduce framework, jsdp provides a general purpose library for modelling and solving Stochastic Dynamic Programs.
翻訳日:2022-09-22 16:53:09 公開日:2022-09-20
# Deep-Steiner: Euclidean Steiner Treeの問題を解決するための学習

Deep-Steiner: Learning to Solve the Euclidean Steiner Tree Problem ( http://arxiv.org/abs/2209.09983v1 )

ライセンス: Link先を確認
Siqi Wang, Yifan Wang, Guangmo Tong(参考訳) Euclidean Steiner ツリー問題では、ターゲット位置の集合体を接続するミニコストネットワークが求められ、無線ネットワークの多くの応用の基礎となっている。 本稿では,グラフ表現学習によって強化された強化学習を用いたユークリッドスタイナーツリー問題の解法について述べる。 トラベルセールスマン問題や探索空間が有限である車両ルーティング問題など、一般的に研究されている接続問題とは異なり、ユークリッドステイナーツリー問題はユークリッド空間全体を探索する必要があるため、既存の手法は適用できない。 本稿では,Steiner木の特徴を活かした離散化手法を設計し,インクリメンタルな構成中に出現する動的Steiner点を扱うための新しいトレーニング手法を提案する。 従来型組合せ法に代わる方法としての手法の有用性を実証し,データセットの集合実験を用いて健全性チェックを行い,提案手法の有効性を検証した。

The Euclidean Steiner tree problem seeks the min-cost network to connect a collection of target locations, and it underlies many applications of wireless networks. In this paper, we present a study on solving the Euclidean Steiner tree problem using reinforcement learning enhanced by graph representation learning. Different from the commonly studied connectivity problems like travelling salesman problem or vehicle routing problem where the search space is finite, the Euclidean Steiner tree problem requires to search over the entire Euclidean space, thereby making the existing methods not applicable. In this paper, we design discretization methods by leveraging the unique characteristics of the Steiner tree, and propose new training schemes for handling the dynamic Steiner points emerging during the incremental construction. Our design is examined through a sanity check using experiments on a collection of datasets, with encouraging results demonstrating the utility of our method as an alternative to classic combinatorial methods.
翻訳日:2022-09-22 16:43:18 公開日:2022-09-20
# 半超過繰り返しVAEを用いた意図的コレオグラフィー

Intentional Choreography with Semi-Supervised Recurrent VAEs ( http://arxiv.org/abs/2209.10010v1 )

ライセンス: Link先を確認
Mathilde Papillon, Mariel Pettee, Nina Miolane(参考訳) 半教師付きリカレント変分オートエンコーダであるPirouNetのモデルと結果を要約する。 定性的な振付でラベル付けされた少量のダンスシーケンスが与えられると、ピルーネは振付師のスタイルで条件付きでダンスシーケンスを生成する。

We summarize the model and results of PirouNet, a semi-supervised recurrent variational autoencoder. Given a small amount of dance sequences labeled with qualitative choreographic annotations, PirouNet conditionally generates dance sequences in the style of the choreographer.
翻訳日:2022-09-22 16:42:59 公開日:2022-09-20
# データ:プラスチック薄板の構造的健康モニタリングにおける衝撃イベント

Dataset: Impact Events for Structural Health Monitoring of a Plastic Thin Plate ( http://arxiv.org/abs/2209.10018v1 )

ライセンス: Link先を確認
Ioannis Katsidimas and Thanasis Kotzakolios and Sotiris Nikoletseas and Stefanos H. Panagiotou and Konstantinos Timpilis and Constantinos Tsakonas(参考訳) 現在、システムやモデルの研究と開発に向けてデータセットが公開され、直接比較、ソリューションの継続的な改善、実験的な実データへの研究者の関与が実現されている。 しかし、特にSHM(Structure Health Monitoring)領域では、新しい研究プロジェクトが構造設計と実装、センサーの選択、そして文献における個々の研究の構成に適合しない技術的イネーブラーの独特な組み合わせを持つケースが数多く存在する。 したがって,関連するリポジトリが見つからないため,ケーススタディのデータを研究コミュニティに共有しています。 具体的には,モノのインターネット(IoT)デバイスに接続されたセラミック圧電トランスデューサ(PZT)を用いて,プラスチック薄板上での衝撃検出と位置決めを行う新しい時系列データセットを提案する。 データセットは、各実験ごとに少なくとも3回の繰り返しを含む低速度で低エネルギーの衝撃イベントの実験手順から収集され、入力の測定はプレートの隅に4つのPZTセンサーが配置された。 繰り返しとセンサごとに、5000の値が100KHzのサンプリングレートで格納される。 システムはスチールボールで興奮しており、放たれる高さは10cmから20cm程度である。 データセットはGitHubで入手できる(https://github.com/Smart-Objects/Impact-Events-Dataset)。

Nowadays, more and more datasets are published towards research and development of systems and models, enabling direct comparisons, continuous improvement of solutions, and researchers engagement with experimental, real life data. However, especially in the Structural Health Monitoring (SHM) domain, there are plenty of cases where new research projects have a unique combination of structure design and implementation, sensor selection and technological enablers that does not fit with the configuration of relevant individual studies in the literature. Thus, we share the data from our case study to the research community as we did not find any relevant repository available. More specifically, in this paper, we present a novel time-series dataset for impact detection and localization on a plastic thin-plate, towards Structural Health Monitoring applications, using ceramic piezoelectric transducers (PZTs) connected to an Internet of Things (IoT) device. The dataset was collected from an experimental procedure of low-velocity, low-energy impact events that includes at least 3 repetitions for each unique experiment, while the input measurements come from 4 PZT sensors placed at the corners of the plate. For each repetition and sensor, 5000 values are stored with 100 KHz sampling rate. The system is excited with a steel ball, and the height from which it is released varies from 10 cm to 20 cm. The dataset is available in GitHub (https://github.com/Smart-Objects/Impact-Events-Dataset).
翻訳日:2022-09-22 16:42:53 公開日:2022-09-20
# wildNeRF:スパースモノクラーデータを用いた地中動的シーンの完全なビュー合成

wildNeRF: Complete view synthesis of in-the-wild dynamic scenes captured using sparse monocular data ( http://arxiv.org/abs/2209.10399v1 )

ライセンス: Link先を確認
Shuja Khalid, Frank Rudzicz(参考訳) 本稿では,動的非構造シーンの新規視点合成のために,自己教師付きで学習可能な新しいニューラルラジアンスモデルを提案する。 エンドツーエンドのトレーニング可能なアルゴリズムは、非常に複雑で実世界の静的なシーンを数秒で学習し、剛体と非剛体の両方で数分以内に動的シーンを学習します。 静止画素と動き中心画素を区別することにより、スパース画像から高品質な表現を生成する。 既存のベンチマークで定性的かつ定量的な評価を行い、NVIDIA Dynamic Scenes Datasetのパフォーマンス測定に最先端を設定します。 また,cholec80 や surgeryactions160 のような実世界の課題データセットにおけるモデル性能の評価を行った。

We present a novel neural radiance model that is trainable in a self-supervised manner for novel-view synthesis of dynamic unstructured scenes. Our end-to-end trainable algorithm learns highly complex, real-world static scenes within seconds and dynamic scenes with both rigid and non-rigid motion within minutes. By differentiating between static and motion-centric pixels, we create high-quality representations from a sparse set of images. We perform extensive qualitative and quantitative evaluation on existing benchmarks and set the state-of-the-art on performance measures on the challenging NVIDIA Dynamic Scenes Dataset. Additionally, we evaluate our model performance on challenging real-world datasets such as Cholec80 and SurgicalActions160.
翻訳日:2022-09-22 16:34:14 公開日:2022-09-20
# MR画像における弱視下脳腫瘍分離のためのスーパーピクセル生成とクラスタリング

Superpixel Generation and Clustering for Weakly Supervised Brain Tumor Segmentation in MR Images ( http://arxiv.org/abs/2209.09930v1 )

ライセンス: Link先を確認
Jay J. Yoo, Khashayar Namdar, Farzad Khalvati(参考訳) 医療画像における腫瘍やその他の異常をセグメント化するための機械学習(ml)モデルのトレーニングは、ますます一般的な研究分野であるが、一般的には、かなりの時間とリソースを必要とする手作業による地上真実セグメンテーションを必要とする。 本研究は,二項分類ラベルを用いたMLモデルのパイプラインを提案し,基礎的真理アノテーションを必要とせずにROIを分割する。 我々は,Multimodal Brain tumor Segmentation Challenge (BraTS) 2020データセットからのMRIの2Dスライスと,高次グリオーマ(HGG)腫瘍の存在を示すラベルを用いてパイプラインを訓練した。 このパイプラインでは,クラスタ化されたスーパーピクセルで指導されたトレーニングを可能とし,同時にスーパーピクセルクラスタリングモデルを訓練する。 我々のパイプラインのセグメンテーションはDice係数61.7%を達成し,LIME(Local Interpretable Model-Agnostic Explanations)法で得られたDice係数42.8%を大きく改善した。

Training Machine Learning (ML) models to segment tumors and other anomalies in medical images is an increasingly popular area of research but generally requires manually annotated ground truth segmentations which necessitates significant time and resources to create. This work proposes a pipeline of ML models that utilize binary classification labels, which can be easily acquired, to segment ROIs without requiring ground truth annotations. We used 2D slices of Magnetic Resonance Imaging (MRI) brain scans from the Multimodal Brain Tumor Segmentation Challenge (BraTS) 2020 dataset and labels indicating the presence of high-grade glioma (HGG) tumors to train the pipeline. Our pipeline also introduces a novel variation of deep learning-based superpixel generation, which enables training guided by clustered superpixels and simultaneously trains a superpixel clustering model. On our test set, our pipeline's segmentations achieved a Dice coefficient of 61.7%, which is a substantial improvement over the 42.8% Dice coefficient acquired when the popular Local Interpretable Model-Agnostic Explanations (LIME) method was used.
翻訳日:2022-09-22 16:19:30 公開日:2022-09-20
# ジェネレータモデルのスパース潜在表現の学習

Learning Sparse Latent Representations for Generator Model ( http://arxiv.org/abs/2209.09949v1 )

ライセンス: Link先を確認
Hanao Li, Tian Han(参考訳) スパーシティは望ましい属性です。 これは高密度モデルよりも効率的で効果的な表現につながる可能性がある。 一方,コンピュータビジョンや機械学習では,学習の難易度が低かったため,学習の難易度が問題となっている。 本稿では,従来のように徐々にスパース化スパイクとスラブ分布を持つ発電機モデルの潜在空間にスパース性を持たせるための教師なし学習手法を提案する。 我々のモデルは1つのトップダウンジェネレータネットワークから成り、潜在変数を観測データにマッピングする。 非永続勾配法を用いて, 発電機後向きの潜伏変数を推定できる。 推論ステップにおけるスパイクとスラブの正則化は、非形式的潜在次元をゼロへ押し上げ、空間性を誘導する。 広範に実験した結果,既存の手法に比べて精度が向上し,疎い表現で元の画像から得られる情報の大半を保存できることがわかった。 我々は,このモデルが不連続なセマンティクスを学習し,潜在コードの説明可能性を高めつつ,分類や弁別作業におけるロバスト性を高めることができることを観察する。

Sparsity is a desirable attribute. It can lead to more efficient and more effective representations compared to the dense model. Meanwhile, learning sparse latent representations has been a challenging problem in the field of computer vision and machine learning due to its complexity. In this paper, we present a new unsupervised learning method to enforce sparsity on the latent space for the generator model with a gradually sparsified spike and slab distribution as our prior. Our model consists of only one top-down generator network that maps the latent variable to the observed data. Latent variables can be inferred following generator posterior direction using non-persistent gradient based method. Spike and Slab regularization in the inference step can push non-informative latent dimensions towards zero to induce sparsity. Extensive experiments show the model can preserve majority of the information from original images with sparse representations while demonstrating improved results compared to other existing methods. We observe that our model can learn disentangled semantics and increase explainability of the latent codes while boosting the robustness in the task of classification and denoising.
翻訳日:2022-09-22 16:19:09 公開日:2022-09-20
# MARIO:RoboCup SPLにおける視覚統計計算のためのモジュール的で拡張可能なアーキテクチャ

MARIO: Modular and Extensible Architecture for Computing Visual Statistics in RoboCup SPL ( http://arxiv.org/abs/2209.09987v1 )

ライセンス: Link先を確認
Domenico D. Bloisi, Andrea Pennisi, Cristian Zampino, Flavio Biancospino, Francesco Laus, Gianluca Di Stefano, Michele Brienza, Rocchina Romano(参考訳) この技術レポートは、バンコク(タイ)で開催されたRoboCup 2022のSPL Open Research Challengeで発表されたRoboCup SPL(MARIO)で、視覚統計を計算するためのモジュラーで拡張可能なアーキテクチャを記述している。 MARIOはオープンソースで使えるソフトウェアアプリケーションで、RoboCup SPLコミュニティの成長に貢献することを目的としている。 MARIOには、自動カメラキャリブレーション、バックグラウンドサブトラクション、ホモグラフィ計算、プレーヤー+ボール追跡とローカライゼーション、NAOロボットのポーズ推定とフォール検出を含む、複数の機械学習とコンピュータビジョンベースの機能を統合するGUIが付属している。 MARIOはOpen Research Challengeで1位にランクインしている。

This technical report describes a modular and extensible architecture for computing visual statistics in RoboCup SPL (MARIO), presented during the SPL Open Research Challenge at RoboCup 2022, held in Bangkok (Thailand). MARIO is an open-source, ready-to-use software application whose final goal is to contribute to the growth of the RoboCup SPL community. MARIO comes with a GUI that integrates multiple machine learning and computer vision based functions, including automatic camera calibration, background subtraction, homography computation, player + ball tracking and localization, NAO robot pose estimation and fall detection. MARIO has been ranked no. 1 in the Open Research Challenge.
翻訳日:2022-09-22 16:18:54 公開日:2022-09-20
# きめ細かいvrスケッチ:データセットとインサイト

Fine-Grained VR Sketching: Dataset and Insights ( http://arxiv.org/abs/2209.10008v1 )

ライセンス: Link先を確認
Ling Luo, Yulia Gryaditskaya, Yongxin Yang, Tao Xiang, Yi-Zhe Song(参考訳) 1,497個のVRスケッチと大きな形状の椅子カテゴリーの3次元形状ペアの最初の詳細なデータセットを提示する。 我々のデータセットは、微粒なデータ分析に関するスケッチコミュニティの最近のトレンドをサポートし、それを活発に開発されている3Dドメインに拡張する。 我々は、スケッチがスパースラインで構成され、スケッチスキルや事前のトレーニング、正確な描画を必要としない、最も便利なスケッチシナリオについて論じる。 次に,3次元形状検索のための細粒度3dvrスケッチのシナリオを,新たなvrスケッチアプリケーションとして初めて検討し,今後の研究に汎用的な洞察を与えるための実証的基盤について検討した。 この新しい問題に対して慎重に選択された設計要素の組み合わせを実験することにより、作業の続行に役立つ重要な結論を導き出す。 我々のデータセットは、特にきめ細かい3D形状の再構成のような細かな角度を必要とする他の新しい応用を可能にすることを願っている。 データセットは littleurl.com/VRSketch3DV21 で利用可能である。

We present the first fine-grained dataset of 1,497 3D VR sketch and 3D shape pairs of a chair category with large shapes diversity. Our dataset supports the recent trend in the sketch community on fine-grained data analysis, and extends it to an actively developing 3D domain. We argue for the most convenient sketching scenario where the sketch consists of sparse lines and does not require any sketching skills, prior training or time-consuming accurate drawing. We then, for the first time, study the scenario of fine-grained 3D VR sketch to 3D shape retrieval, as a novel VR sketching application and a proving ground to drive out generic insights to inform future research. By experimenting with carefully selected combinations of design factors on this new problem, we draw important conclusions to help follow-on work. We hope our dataset will enable other novel applications, especially those that require a fine-grained angle such as fine-grained 3D shape reconstruction. The dataset is available at tinyurl.com/VRSketch3DV21.
翻訳日:2022-09-22 16:18:39 公開日:2022-09-20
# 3次元vr-sketchから3次元形状検索へ

Towards 3D VR-Sketch to 3D Shape Retrieval ( http://arxiv.org/abs/2209.10020v1 )

ライセンス: Link先を確認
Ling Luo, Yulia Gryaditskaya, Yongxin Yang, Tao Xiang, Yi-Zhe Song(参考訳) 無料のオンライン3D形状コレクションは、3D検索の研究を規定している。 しかし、活発な議論が続いている。 (i)検索をトリガーする最良の入力モダリティ、及び (ii)そのような検索の究極の使用シナリオ。 本稿では,3次元スケッチを入力モダリティとして用い,検索を行うVRシナリオを提案する。 したがって、究極のビジョンは、ユーザーがvr環境でエアドルリングすることで3dモデルを自由に取得できることだ。 この新しい3dvr-sketch to 3d shape searchの問題を初めて見たとき、私たちは4つの貢献をした。 まず、VRユーティリティをコーディングして、3DVRスケッチを収集し、検索を行う。 第二に、ModelNetから2つの形状カテゴリーについて、最初の167ドルの3DVRスケッチを収集する。 第3に,深層ネットワークを学習するために,抽象レベルが異なる人間の3Dスケッチの合成データセットを作成する手法を提案する。 最後に,3次元の形状検索と3次元の形状検索とは対照的に,3次元の形状検索と3次元の立体スケッチのスパースで抽象的な性質により,3次元の形状検索に優れた性能を示すことを示す。 これらのコントリビュートが、この課題に対する今後の試みの実現に一役買うと私たちは信じています。 VRインターフェース、コード、データセットはhttps://tinyurl.com/3DSketch3DVで入手できる。

Growing free online 3D shapes collections dictated research on 3D retrieval. Active debate has however been had on (i) what the best input modality is to trigger retrieval, and (ii) the ultimate usage scenario for such retrieval. In this paper, we offer a different perspective towards answering these questions -- we study the use of 3D sketches as an input modality and advocate a VR-scenario where retrieval is conducted. Thus, the ultimate vision is that users can freely retrieve a 3D model by air-doodling in a VR environment. As a first stab at this new 3D VR-sketch to 3D shape retrieval problem, we make four contributions. First, we code a VR utility to collect 3D VR-sketches and conduct retrieval. Second, we collect the first set of $167$ 3D VR-sketches on two shape categories from ModelNet. Third, we propose a novel approach to generate a synthetic dataset of human-like 3D sketches of different abstract levels to train deep networks. At last, we compare the common multi-view and volumetric approaches: We show that, in contrast to 3D shape to 3D shape retrieval, volumetric point-based approaches exhibit superior performance on 3D sketch to 3D shape retrieval due to the sparse and abstract nature of 3D VR-sketches. We believe these contributions will collectively serve as enablers for future attempts at this problem. The VR interface, code and datasets are available at https://tinyurl.com/3DSketch3DV.
翻訳日:2022-09-22 16:18:22 公開日:2022-09-20
# Fast-Image2Point:3次元スーパービジョンを用いた単一画像のリアルタイムクラウド再構築に向けて

Fast-Image2Point: Towards Real-Time Point Cloud Reconstruction of a Single Image using 3D Supervision ( http://arxiv.org/abs/2209.10029v1 )

ライセンス: Link先を確認
AmirHossein Zamani, Amir G. Aghdam and Kamran Ghaffari T(参考訳) 3D再構成の問題は、3Dオブジェクトをモデル化するための機械やロボットの訓練方法である。 自動運転車のようなリアルタイムシステムのナビゲーションのような多くのタスクは、この問題に直接依存する。 これらのシステムは通常、計算能力に制限がある。 近年の3次元再構築システムの進歩にもかかわらず、既存の手法の複雑さと計算要求が高いため、自動運転車のナビゲーションシステムのようなリアルタイムシステムに適用することは依然として困難である。 本研究では、より高速(リアルタイム)な単一視点画像で表示されたオブジェクトの再構成における現在の問題に対処する。 この目的のために、シンプルで強力なディープニューラルネットワークフレームワークが開発されている。 提案するフレームワークは,特徴抽出モジュールと3Dジェネレータモジュールの2つのコンポーネントで構成されている。 再建モジュールの出力にはポイントクラウド表現を使用します。 ShapeNetデータセットを使用して、計算時間と精度の点で既存の結果と比較する。 シミュレーションにより提案手法の優れた性能を示す。 インデックス項-リアルタイム3D再構成、一視点再構成、教師付き学習、ディープニューラルネットワーク

A key question in the problem of 3D reconstruction is how to train a machine or a robot to model 3D objects. Many tasks like navigation in real-time systems such as autonomous vehicles directly depend on this problem. These systems usually have limited computational power. Despite considerable progress in 3D reconstruction systems in recent years, applying them to real-time systems such as navigation systems in autonomous vehicles is still challenging due to the high complexity and computational demand of the existing methods. This study addresses current problems in reconstructing objects displayed in a single-view image in a faster (real-time) fashion. To this end, a simple yet powerful deep neural framework is developed. The proposed framework consists of two components: the feature extractor module and the 3D generator module. We use point cloud representation for the output of our reconstruction module. The ShapeNet dataset is utilized to compare the method with the existing results in terms of computation time and accuracy. Simulations demonstrate the superior performance of the proposed method. Index Terms-Real-time 3D reconstruction, single-view reconstruction, supervised learning, deep neural network
翻訳日:2022-09-22 16:18:00 公開日:2022-09-20
# mtr-a: 2022 waymo open dataset challengeの1位ソリューション - モーション予測

MTR-A: 1st Place Solution for 2022 Waymo Open Dataset Challenge -- Motion Prediction ( http://arxiv.org/abs/2209.10033v1 )

ライセンス: Link先を確認
Shaoshuai Shi, Li Jiang, Dengxin Dai, Bernt Schiele(参考訳) 本報告では,2022年のwaymo open dataset challengeにおいて,モーション予測トラックのための第1位解を提案する。 そこで本研究では,意図的局所化と反復的運動改善を共同で行うことで,より優れたマルチモーダル未来の軌道を生成するための,一連の新しい動作クエリペアを提案する。 非最大圧縮による単純なモデルアンサンブル戦略を採用し、最終的な性能をさらに向上させる。 当社のアプローチは,2022年のwaymo open dataset challengeのモーション予測リーダボードで,目立ったマージンを持つ他の手法を上回って,第1位を達成した。 コードはhttps://github.com/sshaoshuai/MTRで入手できる。

In this report, we present the 1st place solution for motion prediction track in 2022 Waymo Open Dataset Challenges. We propose a novel Motion Transformer framework for multimodal motion prediction, which introduces a small set of novel motion query pairs for generating better multimodal future trajectories by jointly performing the intention localization and iterative motion refinement. A simple model ensemble strategy with non-maximum-suppression is adopted to further boost the final performance. Our approach achieves the 1st place on the motion prediction leaderboard of 2022 Waymo Open Dataset Challenges, outperforming other methods with remarkable margins. Code will be available at https://github.com/sshaoshuai/MTR.
翻訳日:2022-09-22 16:17:45 公開日:2022-09-20
# 知識認識質問応答のための動的関連グラフネットワーク

Dynamic Relevance Graph Network for Knowledge-Aware Question Answering ( http://arxiv.org/abs/2209.09947v1 )

ライセンス: Link先を確認
Chen Zheng and Parisa Kordjamshidi(参考訳) 本研究は,知識グラフ(KG)の形式で外部知識源を付与したコモンセンス質問回答の学習と推論の課題について検討する。 本稿では,DRGN(Dynamic Relevance Graph Network)と呼ばれる新しいグラフニューラルネットワークアーキテクチャを提案する。 DRGNは、質問と回答のエンティティに基づいて所定のKGサブグラフで動作し、ノード間の関連スコアを使用して、グラフネットワーク内のノード表現を学習するために、新しいエッジを動的に確立する。 グラフエッジとしての関連性の明示的な使用には、次のような利点がある。 a)モデルでは,既存の関係を利用して,ノードの重み付けを再スケールし,近傍ノードの表現がkgサブグラフに集約される方法に影響を与えることができる。 b) 推論に必要なkgの欠落したエッジを回収する可能性がある。 さらに,副産物として,質問ノードとグラフエンティティの関係を考慮し,ネガティブな質問の処理を改善する。 提案手法は2つのQAベンチマークであるCommonsenseQAとOpenbookQAの競合性能を示す。

This work investigates the challenge of learning and reasoning for Commonsense Question Answering given an external source of knowledge in the form of a knowledge graph (KG). We propose a novel graph neural network architecture, called Dynamic Relevance Graph Network (DRGN). DRGN operates on a given KG subgraph based on the question and answers entities and uses the relevance scores between the nodes to establish new edges dynamically for learning node representations in the graph network. This explicit usage of relevance as graph edges has the following advantages, a) the model can exploit the existing relationships, re-scale the node weights, and influence the way the neighborhood nodes' representations are aggregated in the KG subgraph, b) It potentially recovers the missing edges in KG that are needed for reasoning. Moreover, as a byproduct, our model improves handling the negative questions due to considering the relevance between the question node and the graph entities. Our proposed approach shows competitive performance on two QA benchmarks, CommonsenseQA and OpenbookQA, compared to the state-of-the-art published results.
翻訳日:2022-09-22 16:09:37 公開日:2022-09-20
# 非構造健康記録の抽出要約のための最適粒度探索 : 日本最大の多施設健康記録アーカイブの分析

Exploring Optimal Granularity for Extractive Summarization of Unstructured Health Records: Analysis of the Largest Multi-Institutional Archive of Health Records in Japan ( http://arxiv.org/abs/2209.10041v1 )

ライセンス: Link先を確認
Kenichiro Ando, Takashi OkumuraID, Mamoru Komachi, Hiromasa Horiguchi, Yuji Matsumoto(参考訳) 臨床テキストの自動要約は、医療専門家の負担を軽減することができる。 毎日の入院記録から生成できるため、この要約の有望な応用の一つに「ディスチャージサマリー」がある。 予備実験では, 退院サマリーの20~31%が入院記録の内容と重なることが示唆された。 しかし、どのようなサマリーを非構造化ソースから生成すべきかは定かではない。 本研究は,医師の要約過程を分解するために,要約の最適粒度を特定することを目的とした。 まず, 文全体, 臨床セグメント, 節のアウトプット・サマリー生成の性能を比較するために, 粒度の異なる3種類の要約単位を定義した。 本研究では,最小の医学的意味概念の表現を目的とした臨床セグメントを定義した。 臨床セグメントを得るには,パイプラインの第1段階で自動的にテキストを分割する必要がある。 そこで,本研究ではルールベース手法と機械学習法を比較し,後者がf1得点0.846で前者を上回る結果を得た。 次に, ROUGE-1測定値に基づく抽出要約の精度を, 日本における多施設の保健記録アーカイブ上で実験的に測定した。 全文,臨床セグメント,節を用いた抽出要約の精度は,それぞれ31.91,36.15,25.18であった。 その結果,臨床セグメントは文や節よりも精度が高かった。 この結果から,患者記録の要約は文指向処理よりも細粒度を要求されることが示唆された。 日本の健康記録のみを用いたが、医師は患者の記録から「医学的意義の概念」を抽出し、それらを再結合する。

Automated summarization of clinical texts can reduce the burden of medical professionals. "Discharge summaries" are one promising application of the summarization, because they can be generated from daily inpatient records. Our preliminary experiment suggests that 20-31% of the descriptions in discharge summaries overlap with the content of the inpatient records. However, it remains unclear how the summaries should be generated from the unstructured source. To decompose the physician's summarization process, this study aimed to identify the optimal granularity in summarization. We first defined three types of summarization units with different granularities to compare the performance of the discharge summary generation: whole sentences, clinical segments, and clauses. We defined clinical segments in this study, aiming to express the smallest medically meaningful concepts. To obtain the clinical segments, it was necessary to automatically split the texts in the first stage of the pipeline. Accordingly, we compared rule-based methods and a machine learning method, and the latter outperformed the formers with an F1 score of 0.846 in the splitting task. Next, we experimentally measured the accuracy of extractive summarization using the three types of units, based on the ROUGE-1 metric, on a multi-institutional national archive of health records in Japan. The measured accuracies of extractive summarization using whole sentences, clinical segments, and clauses were 31.91, 36.15, and 25.18, respectively. We found that the clinical segments yielded higher accuracy than sentences and clauses. This result indicates that summarization of inpatient records demands finer granularity than sentence-oriented processing. Although we used only Japanese health records, it can be interpreted as follows: physicians extract "concepts of medical significance" from patient records and recombine them ...
翻訳日:2022-09-22 16:09:22 公開日:2022-09-20
# リズムシーンの設定:任意の言語キューからの深層学習に基づくドラムループ生成

Setting the rhythm scene: deep learning-based drum loop generation from arbitrary language cues ( http://arxiv.org/abs/2209.10016v1 )

ライセンス: Link先を確認
Ignacio J. Tripodi(参考訳) 創造的な人工知能モデルは、プロのミュージシャンを助け、ホビイストのための音楽制作プロセスを民主化するために、音楽の構成とライブパフォーマンスにとって貴重な助けとなる。 ここでは、英単語やフレーズを与えられた場合、与えられた言語キューの「ムード」を具現化した4ピースドラムパターンの2つのコンパスを生成するか、言語キューによって記述された音声視覚シーンに使用できる新しい手法を提案する。 我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。 このモデルのトレーニングサンプルを作成するために,「シーン」や「ムード」といった用語の手動アノテーションに加えて,任意の曲のコンセンサスドラムトラックを抽出する新しい手法を考案した。 曲の主な打楽器的モチーフを表す2バールの4ピースのドラムパターンで構成されており、あらゆる音楽ループデバイスやライブループソフトウェアにインポートすることができる。 これら2つの重要な要素(一般化された入力からのドラムパターン生成とコンセンサスパーカッション抽出)は、コンピュータ支援合成に対する新しいアプローチを示し、より包括的なリズム生成のためのステップストーンを提供する。

Generative artificial intelligence models can be a valuable aid to music composition and live performance, both to aid the professional musician and to help democratize the music creation process for hobbyists. Here we present a novel method that, given an English word or phrase, generates 2 compasses of a 4-piece drum pattern that embodies the "mood" of the given language cue, or that could be used for an audiovisual scene described by the language cue. We envision this tool as composition aid for electronic music and audiovisual soundtrack production, or an improvisation tool for live performance. In order to produce the training samples for this model, besides manual annotation of the "scene" or "mood" terms, we have designed a novel method to extract the consensus drum track of any song. This consists of a 2-bar, 4-piece drum pattern that represents the main percussive motif of a song, which could be imported into any music loop device or live looping software. These two key components (drum pattern generation from a generalizable input, and consensus percussion extraction) present a novel approach to computer-aided composition and provide a stepping stone for more comprehensive rhythm generation.
翻訳日:2022-09-22 16:00:49 公開日:2022-09-20
# マルチエージェント強化学習のための非同期アクタークリティック

Asynchronous Actor-Critic for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.10113v1 )

ライセンス: Link先を確認
Yuchen Xiao, Weihao Tan and Christopher Amato(参考訳) エージェントが他のエージェントが終了し、確実に終了について通信するのを待たなければならないため、現実的な設定で複数のエージェント間での意思決定の同期は問題となる。 理想的には、エージェントは非同期に学習し実行する必要がある。 このような非同期メソッドは、状況と実行されたアクションに基づいて異なる量の時間を要する、時間軸に拡張されたアクションも可能にする。 残念なことに、現在のポリシー勾配法は非同期設定では適用できない。 非同期学習と意思決定を可能にするために,エージェントが分散学習,集中学習,分散実行のための集中学習という3つの標準トレーニングパラダイムにおいて,非同期ポリシを直接最適化する非同期マルチエージェントアクタ批判手法を定式化した。 様々な現実的な領域における経験的結果(シミュレーションとハードウェア)は、大規模マルチエージェント問題における我々のアプローチの優位性を示し、高品質で非同期なソリューションを学習するためのアルゴリズムの有効性を検証する。

Synchronizing decisions across multiple agents in realistic settings is problematic since it requires agents to wait for other agents to terminate and communicate about termination reliably. Ideally, agents should learn and execute asynchronously instead. Such asynchronous methods also allow temporally extended actions that can take different amounts of time based on the situation and action executed. Unfortunately, current policy gradient methods are not applicable in asynchronous settings, as they assume that agents synchronously reason about action selection at every time step. To allow asynchronous learning and decision-making, we formulate a set of asynchronous multi-agent actor-critic methods that allow agents to directly optimize asynchronous policies in three standard training paradigms: decentralized learning, centralized learning, and centralized training for decentralized execution. Empirical results (in simulation and hardware) in a variety of realistic domains demonstrate the superiority of our approaches in large multi-agent problems and validate the effectiveness of our algorithms for learning high-quality and asynchronous solutions.
翻訳日:2022-09-22 15:52:18 公開日:2022-09-20
# ソフトウェア脆弱性の原因となるコードステートメントを識別するための情報理論と対比学習に基づくアプローチ

An Information-Theoretic and Contrastive Learning-based Approach for Identifying Code Statements Causing Software Vulnerability ( http://arxiv.org/abs/2209.10414v1 )

ライセンス: Link先を確認
Van Nguyen, Trung Le, Chakkrit Tantithamthavorn, John Grundy, Hung Nguyen, Seyit Camtepe, Paul Quirk and Dinh Phung(参考訳) コンピュータシステムのプログラムや機能に存在するソフトウェアの脆弱性は、深刻で重要な問題である。 通常、数百から数千のソースコードステートメントからなるプログラムや関数では、対応する脆弱性を引き起こすステートメントはごくわずかである。 脆弱性ラベリングは現在、マシンラーニングツールの助けを借りて、専門家による関数やプログラムレベルで行われている。 このアプローチをコードステートメントレベルにまで拡張するのは、はるかにコストと時間を要するため、依然としてオープンな問題です。 本稿では,特定の関数の脆弱性関連コード文を特定するための,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。 実世界の脆弱性コードに見られる特定の構造にインスパイアされ、まず相互情報を利用して、ソースコードステートメントと対応する関数の脆弱性との関連性を表す潜伏変数の集合を学習する。 そこで我々は,脆弱性関連コード文の表現学習とロバスト選択プロセスをさらに改善するために,新しい空間的コントラスト学習を提案する。 200k以上のc/c++関数の実世界のデータセットにおける実験結果は、他の最先端のベースラインよりも優れた方法を示している。 一般に,本手法は,教師なし環境で実世界のデータセット上で動作する場合,ベースライン上でのVCP,VCA,Top-10 ACCの3倍から14倍の精度を示す。 リリース済みのソースコードサンプルは、 \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.comで公開されています。 }

Software vulnerabilities existing in a program or function of computer systems are a serious and crucial concern. Typically, in a program or function consisting of hundreds or thousands of source code statements, there are only few statements causing the corresponding vulnerabilities. Vulnerability labeling is currently done on a function or program level by experts with the assistance of machine learning tools. Extending this approach to the code statement level is much more costly and time-consuming and remains an open problem. In this paper we propose a novel end-to-end deep learning-based approach to identify the vulnerability-relevant code statements of a specific function. Inspired by the specific structures observed in real world vulnerable code, we first leverage mutual information for learning a set of latent variables representing the relevance of the source code statements to the corresponding function's vulnerability. We then propose novel clustered spatial contrastive learning in order to further improve the representation learning and the robust selection process of vulnerability-relevant code statements. Experimental results on real-world datasets of 200k+ C/C++ functions show the superiority of our method over other state-of-the-art baselines. In general, our method obtains a higher performance in VCP, VCA, and Top-10 ACC measures of between 3\% to 14\% over the baselines when running on real-world datasets in an unsupervised setting. Our released source code samples are publicly available at \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.}
翻訳日:2022-09-22 15:50:01 公開日:2022-09-20
# 画像誘導現象を用いた2型糖尿病の学習による放射能予測

Learning-Based Radiomic Prediction of Type 2 Diabetes Mellitus Using Image-Derived Phenotypes ( http://arxiv.org/abs/2209.10043v1 )

ライセンス: Link先を確認
Michael S. Yao, Allison Chae, Matthew T. MacLean, Anurag Verma, Jeffrey Duda, James Gee, Drew A. Torigian, Daniel Rader, Charles Kahn, Walter R. Witschey, Hersh Sagreiya(参考訳) 2型糖尿病(T2DM)の早期診断は、タイムリーな治療介入とライフスタイルの変更を可能にするために重要である。 多くの患者で医用画像データが利用可能になるにつれて, 画像由来の表現型データを表型学習分類器モデルで活用し, 血液検査を使わずにT2DMの出現を予測できるかどうかを検討した。 画像由来の表現型を用いたニューラルネットワークと決定木モデルの両方が、リコールスコア87.6%の患者t2dmステータスを予測できることを示した。 また,血液ヘモグロビンA1C実験室測定を模倣した解釈可能な値を出力できる「シンスA1cエンコーダ」と同じアーキテクチャの新規な利用を提案する。 最後に, 入力ベクトル成分の小さな摂動に対するT2DMリスク予測モデルを用いて, 既往の患者集団から採取した共変量の性能を予測できることを実証した。

Early diagnosis of Type 2 Diabetes Mellitus (T2DM) is crucial to enable timely therapeutic interventions and lifestyle modifications. As medical imaging data become more widely available for many patient populations, we sought to investigate whether image-derived phenotypic data could be leveraged in tabular learning classifier models to predict T2DM incidence without the use of invasive blood lab measurements. We show that both neural network and decision tree models that use image-derived phenotypes can predict patient T2DM status with recall scores as high as 87.6%. We also propose the novel use of these same architectures as 'SynthA1c encoders' that are able to output interpretable values mimicking blood hemoglobin A1C empirical lab measurements. Finally, we demonstrate that T2DM risk prediction model sensitivity to small perturbations in input vector components can be used to predict performance on covariates sampled from previously unseen patient populations.
翻訳日:2022-09-22 15:41:46 公開日:2022-09-20
# 異常検出を含む多くの授業に対する受入領域の学習

Learning Acceptance Regions for Many Classes with Anomaly Detection ( http://arxiv.org/abs/2209.09963v1 )

ライセンス: Link先を確認
Zhou Wang, Xingye Qiao(参考訳) 集合値分類は、観察対象のすべての可視クラスを特定することを目的とした新しい分類パラダイムであり、全てのクラスに対する受容領域を学習することで得られる。 既存の集合値分類法の多くは、トレーニングデータに存在しない新しいクラスがテストデータに現れる可能性を考慮していない。 さらに、クラス数が大きくなると計算コストが高くなる。 テストデータに新しいクラスが存在する可能性を考慮しつつ、受入領域を推定するための一般化予測セット(gps)手法を提案する。 提案する分類器は、予測セットの期待されるサイズを最小化し、クラス固有の精度が少なくとも予め定められた値であることを保証する。 従来の手法とは異なり,提案手法は精度,効率,異常検出率のバランスが良好である。 さらに,計算負担を軽減するために,全てのクラスに並列に適用することができる。 提案手法の有効性を説明するために, 理論解析および数値実験を行った。

Set-valued classification, a new classification paradigm that aims to identify all the plausible classes that an observation belongs to, can be obtained by learning the acceptance regions for all classes. Many existing set-valued classification methods do not consider the possibility that a new class that never appeared in the training data appears in the test data. Moreover, they are computationally expensive when the number of classes is large. We propose a Generalized Prediction Set (GPS) approach to estimate the acceptance regions while considering the possibility of a new class in the test data. The proposed classifier minimizes the expected size of the prediction set while guaranteeing that the class-specific accuracy is at least a pre-specified value. Unlike previous methods, the proposed method achieves a good balance between accuracy, efficiency, and anomaly detection rate. Moreover, our method can be applied in parallel to all the classes to alleviate the computational burden. Both theoretical analysis and numerical experiments are conducted to illustrate the effectiveness of the proposed method.
翻訳日:2022-09-22 15:32:55 公開日:2022-09-20
# 強化学習と模倣学習による作物管理の最適化

Optimizing Crop Management with Reinforcement Learning and Imitation Learning ( http://arxiv.org/abs/2209.09991v1 )

ライセンス: Link先を確認
Ran Tao, Pan Zhao, Jing Wu, Nicolas F. Martin, Matthew T. Harrison, Carla Ferreira, Zahra Kalantari, Naira Hovakimyan(参考訳) 窒素(n)の肥料化や灌水管理を含む作物管理は、作物の収量、経済的な利益、環境に大きな影響を与える。 経営指針は存在するが、特定の植林環境と作物に最適な経営実践を見つけることは困難である。 以前の研究では、強化学習(RL)と作物シミュレータを使用してこの問題を解決するが、訓練されたポリシーは性能が限られているか、実際の世界では展開できない。 本稿では,農業技術移転決定支援システム (dssat) を用いて, rl, 模倣学習 (il), 作物シミュレーションによるn施肥と灌水を同時に最適化する知的作物管理システムを提案する。 我々はまず、ディープRL、特にディープQネットワークを使用して、シミュレータからのすべての状態情報を観察(完全な観察)として要求する管理ポリシーを訓練する。 次に、実世界で容易に得ることのできる限られた量の状態情報しか必要としない経営方針(部分観察)を、以前のRL訓練方針の動作をフル観察で模倣することにより、ILを訓練する。 フロリダでmaizeを用いたケーススタディで実験を行い,訓練されたポリシーをmaize管理ガイドラインと比較した。 我々の訓練された政策は、完全な観測と部分的観測の両方の下でより良い結果をもたらし、より高い利益または環境影響の少ない同様の利益をもたらす。 さらに、部分観測管理ポリシーは、利用可能な情報を使用するため、現実世界に直接デプロイ可能である。

Crop management, including nitrogen (N) fertilization and irrigation management, has a significant impact on the crop yield, economic profit, and the environment. Although management guidelines exist, it is challenging to find the optimal management practices given a specific planting environment and a crop. Previous work used reinforcement learning (RL) and crop simulators to solve the problem, but the trained policies either have limited performance or are not deployable in the real world. In this paper, we present an intelligent crop management system which optimizes the N fertilization and irrigation simultaneously via RL, imitation learning (IL), and crop simulations using the Decision Support System for Agrotechnology Transfer (DSSAT). We first use deep RL, in particular, deep Q-network, to train management policies that require all state information from the simulator as observations (denoted as full observation). We then invoke IL to train management policies that only need a limited amount of state information that can be readily obtained in the real world (denoted as partial observation) by mimicking the actions of the previously RL-trained policies under full observation. We conduct experiments on a case study using maize in Florida and compare trained policies with a maize management guideline in simulations. Our trained policies under both full and partial observations achieve better outcomes, resulting in a higher profit or a similar profit with a smaller environmental impact. Moreover, the partial-observation management policies are directly deployable in the real world as they use readily available information.
翻訳日:2022-09-22 15:23:43 公開日:2022-09-20
# メタデータ考古学: トレーニングダイナミクスを活用したデータサブセットの発掘

Metadata Archaeology: Unearthing Data Subsets by Leveraging Training Dynamics ( http://arxiv.org/abs/2209.10015v1 )

ライセンス: Link先を確認
Shoaib Ahmed Siddiqui, Nitarshan Rajkumar, Tegan Maharaj, David Krueger, Sara Hooker(参考訳) 現代の機械学習の研究は、比較的慎重にキュレートされたデータセットに頼っている。 これらのデータセットでさえも、通常 ‘untidy’ や raw data では、実践者はデータ品質と多様性の重大な問題に直面しており、それは強制的に対処しなければならない。 これらの課題に対処する既存の方法は、特定の問題に対して強い前提を定め、ドメインラベルのような事前知識やメタデータを必要とすることが多い。 代わりに、メタデータ考古学のための統一的で効率的なフレームワーク -- データセットのサンプルのメタデータを発見して推論する -- を提供することに重点を置いています。 データセットに存在する可能性のあるデータの異なるサブセット(例えば、誤ったラベル付き、非定型的、あるいは分散的例)を単純な変換を使ってキュレートし、これらのプローブスイート間の学習ダイナミクスの違いを利用して、関心のあるメタデータを推測します。 提案手法は, ミスラベル付きサンプルの識別と修正, マイノリティグループサンプルの分類, トレーニングに関連するポイントの優先順位付け, 関連事例のスケーラブルな人間監査の実現など, さまざまなタスクにわたる高度な緩和手法と同等である。

Modern machine learning research relies on relatively few carefully curated datasets. Even in these datasets, and typically in `untidy' or raw data, practitioners are faced with significant issues of data quality and diversity which can be prohibitively labor intensive to address. Existing methods for dealing with these challenges tend to make strong assumptions about the particular issues at play, and often require a priori knowledge or metadata such as domain labels. Our work is orthogonal to these methods: we instead focus on providing a unified and efficient framework for Metadata Archaeology -- uncovering and inferring metadata of examples in a dataset. We curate different subsets of data that might exist in a dataset (e.g. mislabeled, atypical, or out-of-distribution examples) using simple transformations, and leverage differences in learning dynamics between these probe suites to infer metadata of interest. Our method is on par with far more sophisticated mitigation methods across different tasks: identifying and correcting mislabeled examples, classifying minority-group samples, prioritizing points relevant for training and enabling scalable human auditing of relevant examples.
翻訳日:2022-09-22 15:23:19 公開日:2022-09-20
# バッチ製造プロセスのための産業データ科学

Industrial Data Science for Batch Manufacturing Processes ( http://arxiv.org/abs/2209.09660v1 )

ライセンス: Link先を確認
Imanol Arzac-Garmendia, Mattia Vallerio, Carlos Perez-Galvan and Francisco J. Navarro-Brull(参考訳) バッチプロセスは、原料の特性から、製造プロセスにおける異なるイベントの間に変化する初期および進化の条件まで、いくつかの変動の源を示す。 この章では、この明らかに過剰なデータを減らすために、マシンラーニングを使用して、プロセスエンジニアの関連する情報を維持しながら、産業的な例を示します。 一般的なユースケースは2つある。 1)バッチプロセスデータに相関関係を素早く発見するためのオートML分析 2)プロセス制御の改善につながる異常バッチの監視と識別のための軌道解析。

Batch processes show several sources of variability, from raw materials' properties to initial and evolving conditions that change during the different events in the manufacturing process. In this chapter, we will illustrate with an industrial example how to use machine learning to reduce this apparent excess of data while maintaining the relevant information for process engineers. Two common use cases will be presented: 1) AutoML analysis to quickly find correlations in batch process data, and 2) trajectory analysis to monitor and identify anomalous batches leading to process control improvements.
翻訳日:2022-09-21 19:51:24 公開日:2022-09-20
# FedToken:フェデレートラーニングにおけるデータ貢献のためのトークン化インセンティブ

FedToken: Tokenized Incentives for Data Contribution in Federated Learning ( http://arxiv.org/abs/2209.09775v1 )

ライセンス: Link先を確認
Shashi Raj Pandey, Lam Duc Nguyen, and Petar Popovski(参考訳) 連合学習モデル(fl)モデルの分散トレーニングにおける関連するコストを補償するインセンティブは、クライアントの長期参加のための重要な刺激として機能する。 しかし、以下がないことから、顧客に対して、flの品質参加を説得することは困難である。 (i) クライアントのデータ品質及び特性に関する完全な情報 (ii)クライアントのデータ提供の価額 (iii)金融インセンティブ提供の信頼できるメカニズム。 これはしばしば訓練やコミュニケーションの効率が悪くなる。 この問題を克服するための戦略的なインセンティブ設計とクライアント選択に焦点をあてる作業はいくつかあるが、学習目標を同時に満たしながら、Web 3.0を含む先進的なデジタル経済に合わせた全体的な設計に関して、大きな知識ギャップがある。 このギャップに対処するために,ブロックチェーン技術が支援する,モデルトレーニング中のデータ評価に対応するクライアント間のトークンの公平な割り当てを保証する,コントリビューションベースのトークン化インセンティブスキーム,すなわち \texttt{fedtoken}を提案する。 シャプレーに基づく手法を活かし,まず,モデル集約時の局所モデルの寄与を概算し,次に,制約付き金融予算の下で,通信ラウンドを縮小してコンバージェンスを行い,\emph{affordable}トークンをアロケートする方法を戦略的にスケジュールする。 本手法の有効性をシミュレーションにより検証した。

Incentives that compensate for the involved costs in the decentralized training of a Federated Learning (FL) model act as a key stimulus for clients' long-term participation. However, it is challenging to convince clients for quality participation in FL due to the absence of: (i) full information on the client's data quality and properties; (ii) the value of client's data contributions; and (iii) the trusted mechanism for monetary incentive offers. This often leads to poor efficiency in training and communication. While several works focus on strategic incentive designs and client selection to overcome this problem, there is a major knowledge gap in terms of an overall design tailored to the foreseen digital economy, including Web 3.0, while simultaneously meeting the learning objectives. To address this gap, we propose a contribution-based tokenized incentive scheme, namely \texttt{FedToken}, backed by blockchain technology that ensures fair allocation of tokens amongst the clients that corresponds to the valuation of their data during model training. Leveraging the engineered Shapley-based scheme, we first approximate the contribution of local models during model aggregation, then strategically schedule clients lowering the communication rounds for convergence and anchor ways to allocate \emph{affordable} tokens under a constrained monetary budget. Extensive simulations demonstrate the efficacy of our proposed method.
翻訳日:2022-09-21 19:51:17 公開日:2022-09-20
# 効率的な大域最適化の最悪の複雑さに関する下界

Lower Bounds on the Worst-Case Complexity of Efficient Global Optimization ( http://arxiv.org/abs/2209.09655v1 )

ライセンス: Link先を確認
Wenjie Xu and Yuning Jiang and Emilio T. Maddalena and Colin N. Jones(参考訳) 効率的なグローバル最適化は、ハイパーパラメータのチューニングや新しい素材の設計など、高価なブラックボックス機能の最適化に広く使われている方法である。 その人気にもかかわらず、問題の本質的な難しさを分析することにはあまり注意が払われていないが、その広範な利用を考えると、効率的なグローバル最適化アルゴリズムの基本的な限界を理解することが重要である。 本稿では,効率的な大域最適化問題の最悪の複雑性について検討し,既存のカーネル固有の結果とは対照的に,対応する再生カーネルヒルベルト空間~(RKHS)における球の計量エントロピーの観点から,効率的な大域最適化の複雑さに対する統一的な下界を導出する。 Specifically, we show that if there exists a deterministic algorithm that achieves suboptimality gap smaller than $\epsilon$ for any function $f\in S$ in $T$ function evaluations, it is necessary that $T$ is at least $\Omega\left(\frac{\log\mathcal{N}(S(\mathcal{X}), 4\epsilon,\|\cdot\|_\infty)}{\log(\frac{R}{\epsilon})}\right)$, where $\mathcal{N}(\cdot,\cdot,\cdot)$ is the covering number, $S$ is the ball centered at $0$ with radius $R$ in the RKHS and $S(\mathcal{X})$ is the restriction of $S$ over the feasible set $\mathcal{X}$. さらに、この下限は、よく使われる二乗指数核とmat\'ernカーネルに対する非適応探索アルゴリズムによって達成された上限にほぼ一致し、大きな平滑性パラメータである$\nu$、最大で$d/2$から$d$、対数項$\log\frac{r}{\epsilon}$が置き換えられることを示した。 つまり、我々の下限はこれらのカーネルにほぼ最適である。

Efficient global optimization is a widely used method for optimizing expensive black-box functions such as tuning hyperparameter, and designing new material, etc. Despite its popularity, less attention has been paid to analyzing the inherent hardness of the problem although, given its extensive use, it is important to understand the fundamental limits of efficient global optimization algorithms. In this paper, we study the worst-case complexity of the efficient global optimization problem and, in contrast to existing kernel-specific results, we derive a unified lower bound for the complexity of efficient global optimization in terms of the metric entropy of a ball in its corresponding reproducing kernel Hilbert space~(RKHS). Specifically, we show that if there exists a deterministic algorithm that achieves suboptimality gap smaller than $\epsilon$ for any function $f\in S$ in $T$ function evaluations, it is necessary that $T$ is at least $\Omega\left(\frac{\log\mathcal{N}(S(\mathcal{X}), 4\epsilon,\|\cdot\|_\infty)}{\log(\frac{R}{\epsilon})}\right)$, where $\mathcal{N}(\cdot,\cdot,\cdot)$ is the covering number, $S$ is the ball centered at $0$ with radius $R$ in the RKHS and $S(\mathcal{X})$ is the restriction of $S$ over the feasible set $\mathcal{X}$. Moreover, we show that this lower bound nearly matches the upper bound attained by non-adaptive search algorithms for the commonly used squared exponential kernel and the Mat\'ern kernel with a large smoothness parameter $\nu$, up to a replacement of $d/2$ by $d$ and a logarithmic term $\log\frac{R}{\epsilon}$. That is to say, our lower bound is nearly optimal for these kernels.
翻訳日:2022-09-21 19:49:17 公開日:2022-09-20
# 知覚誤差モデルの上流適応サンプリングによる希少下流安全違反の検証

Testing Rare Downstream Safety Violations via Upstream Adaptive Sampling of Perception Error Models ( http://arxiv.org/abs/2209.09674v1 )

ライセンス: Link先を確認
Craig Innes and Subramanian Ramamoorthy(参考訳) シミュレーションにおけるブラックボックスの知覚制御システムのテストは2つの困難に直面している。 第一に、シミュレーションにおける知覚入力は実世界のセンサー入力の忠実さを欠いている。 第二に、合理的に正確な知覚システムでは、まれな障害軌道に遭遇するには、多くのシミュレーションを実行する必要がある。 本稿では,センサベース検出システムにおける知覚誤差モデルと状態依存適応重要度サンプリングを組み合わせる。 これにより,実世界の知覚制御系におけるまれな故障確率をシミュレーション内で効率的に評価することができる。 rgb障害物検出装置を内蔵した自律制動システムを用いた実験により,本手法は安価にシミュレーションを行い,正確な故障確率を算出できることを示した。 さらに,安全基準の選択が,高確率障害を確実にサンプリングできる提案分布の学習プロセスにどのように影響するかを示す。

Testing black-box perceptual-control systems in simulation faces two difficulties. Firstly, perceptual inputs in simulation lack the fidelity of real-world sensor inputs. Secondly, for a reasonably accurate perception system, encountering a rare failure trajectory may require running infeasibly many simulations. This paper combines perception error models -- surrogates for a sensor-based detection system -- with state-dependent adaptive importance sampling. This allows us to efficiently assess the rare failure probabilities for real-world perceptual control systems within simulation. Our experiments with an autonomous braking system equipped with an RGB obstacle-detector show that our method can calculate accurate failure probabilities with an inexpensive number of simulations. Further, we show how choice of safety metric can influence the process of learning proposal distributions capable of reliably sampling high-probability failures.
翻訳日:2022-09-21 19:48:41 公開日:2022-09-20
# グラフニューラルネットワークにおけるスパース攻撃

Sparse Vicious Attacks on Graph Neural Networks ( http://arxiv.org/abs/2209.09688v1 )

ライセンス: Link先を確認
Giovanni Trappolini, Valentino Maiorca, Silvio Severino, Emanuele Rodol\`a, Fabrizio Silvestri, Gabriele Tolomei(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの予測モデリングタスクで成功している。 これらのタスクのうち、リンク予測は、レコメンダシステムなど、多くの現実世界のアプリケーションにとって根本的な問題の一つです。 しかし、GNNは敵の攻撃に免疫がない、すなわち予測モデルを騙すように設計された悪意のある例を慎重に作っている。 本研究では、GNNベースのリンク予測モデルに対する、特定のホワイトボックス攻撃に焦点を当て、悪意のあるノードが、特定の対象者に対する推奨ノードリストに現れることを目標としている。 この目標を達成するために、攻撃者ノードは、ネットワークに多数の‘vicious’ノードを注入する能力を直接制御する他の既存のピアの協力も考慮する可能性がある。 具体的には、これらすべての悪意のあるノードは、新しいエッジを追加したり、既存のノードを削除することができる。 そこで我々は,このタイプのリンク予測攻撃をマウントする新しいフレームワークと手法であるSAVAGEを提案する。 SAVAGEは敵の目標を最適化タスクとして定式化し、攻撃の有効性と必要となる悪意のあるリソースの空白とのバランスを崩す。 実世界のデータセットと合成データセットで実施された大規模な実験は、SAVAGEを通じて実施された敵攻撃が、少数の悪質なノードを使用しても高い攻撃成功率を達成することを示した。 最後に、これらの攻撃は対象モデルの完全な知識を必要とするが、リンク予測のための他のブラックボックス手法への転送に成功していることを示す。

Graph Neural Networks (GNNs) have proven to be successful in several predictive modeling tasks for graph-structured data. Amongst those tasks, link prediction is one of the fundamental problems for many real-world applications, such as recommender systems. However, GNNs are not immune to adversarial attacks, i.e., carefully crafted malicious examples that are designed to fool the predictive model. In this work, we focus on a specific, white-box attack to GNN-based link prediction models, where a malicious node aims to appear in the list of recommended nodes for a given target victim. To achieve this goal, the attacker node may also count on the cooperation of other existing peers that it directly controls, namely on the ability to inject a number of ``vicious'' nodes in the network. Specifically, all these malicious nodes can add new edges or remove existing ones, thereby perturbing the original graph. Thus, we propose SAVAGE, a novel framework and a method to mount this type of link prediction attacks. SAVAGE formulates the adversary's goal as an optimization task, striking the balance between the effectiveness of the attack and the sparsity of malicious resources required. Extensive experiments conducted on real-world and synthetic datasets demonstrate that adversarial attacks implemented through SAVAGE indeed achieve high attack success rate yet using a small amount of vicious nodes. Finally, despite those attacks require full knowledge of the target model, we show that they are successfully transferable to other black-box methods for link prediction.
翻訳日:2022-09-21 19:48:28 公開日:2022-09-20
# ニューラルグラフデータベース

Neural Graph Databases ( http://arxiv.org/abs/2209.09732v1 )

ライセンス: Link先を確認
Maciej Besta, Patrick Iff, Florian Scheidl, Kazuki Osawa, Nikoli Dryden, Michal Podstawski, Tiancheng Chen, Torsten Hoefler(参考訳) グラフデータベース(GDB)は、構造化されていない、複雑な、リッチで、通常は広大なグラフデータセットの処理と分析を可能にする。 学術と産業の両方においてGDBの重要性は大きいが、グラフニューラルネットワーク(GNN)の予測能力と統合するための努力はほとんど行われていない。 本稿では,ほぼすべてのGNNモデルをGDBの計算能力とシームレスに組み合わせる方法について述べる。 このため、これらのシステムの大部分はラベル付きプロパティグラフ(LPG)と呼ばれるグラフデータモデルに基づいており、頂点とエッジは任意の複雑なラベルとプロパティを持つことができる。 次に、任意のLPGデータセットを、畳み込み、注意、メッセージパッシング、さらに高階またはスペクトルモデルを含む幅広いGNNのクラスで直接使用できる表現に変換するエンコーダであるLPG2vecを開発する。 本評価では,LPGラベルやプロパティとして表されるリッチな情報をLPG2vecで適切に保存し,LPGラベルやプロパティを持たないグラフと比較して,目標とする学習タスクや使用済みGNNモデルに関わらず,予測精度を最大34%向上することを示した。 一般的に、LPG2vecは、最も強力なGNNの予測能力とLPGモデルに符号化された情報の完全なスコープを組み合わせ、保守されたデータの膨大な複雑さが、現代および将来のグラフ機械学習手法の恩恵を受けるようなシステムのクラスであるニューラルグラフデータベースへの道を開くことができる。

Graph databases (GDBs) enable processing and analysis of unstructured, complex, rich, and usually vast graph datasets. Despite the large significance of GDBs in both academia and industry, little effort has been made into integrating them with the predictive power of graph neural networks (GNNs). In this work, we show how to seamlessly combine nearly any GNN model with the computational capabilities of GDBs. For this, we observe that the majority of these systems are based on, or support, a graph data model called the Labeled Property Graph (LPG), where vertices and edges can have arbitrarily complex sets of labels and properties. We then develop LPG2vec, an encoder that transforms an arbitrary LPG dataset into a representation that can be directly used with a broad class of GNNs, including convolutional, attentional, message-passing, and even higher-order or spectral models. In our evaluation, we show that the rich information represented as LPG labels and properties is properly preserved by LPG2vec, and it increases the accuracy of predictions regardless of the targeted learning task or the used GNN model, by up to 34% compared to graphs with no LPG labels/properties. In general, LPG2vec enables combining predictive power of the most powerful GNNs with the full scope of information encoded in the LPG model, paving the way for neural graph databases, a class of systems where the vast complexity of maintained data will benefit from modern and future graph machine learning methods.
翻訳日:2022-09-21 19:48:04 公開日:2022-09-20
# 分子生成設計のための確率的生成変換言語モデル

Probabilistic Generative Transformer Language models for Generative Design of Molecules ( http://arxiv.org/abs/2209.09406v1 )

ライセンス: Link先を確認
Lai Wei, Nihang Fu, Yuqi Song, Qian Wang, Jianjun Hu(参考訳) 自己組織化されたニューラルネットワークモデルは、最近、下流構造分類と機能予測のための表現学習と同様に、有機分子やタンパク質配列の生成設計に広く応用されている。 しかしながら、分子設計のための既存のディープラーニングモデルの多くは、通常、大きなデータセットを必要とし、ブラックボックスアーキテクチャを持っているため、設計ロジックの解釈が困難である。 本稿では,分子生成設計のための確率的ニューラルネットワークモデルであるgmtransformerを提案する。 本モデルはテキスト処理用に開発された空白の充填言語モデルに基づいて構築され,高品質な生成・解釈・データ効率で「分子文法」を学習する上で,独自の利点が示された。 MOSESデータセットをベンチマークし、我々のモデルは、他のベースラインと比較して、非常に斬新さと難解さを達成します。 確率論的生成段階は、学習された暗黙の分子化学によって導かれる説明で既存の分子をどう修正するかを推奨する能力のため、分子設計を阻害する可能性がある。 ソースコードとデータセットはhttps://github.com/usccolumbia/GMTransformerで自由にアクセスできる。

Self-supervised neural language models have recently found wide applications in generative design of organic molecules and protein sequences as well as representation learning for downstream structure classification and functional prediction. However, most of the existing deep learning models for molecule design usually require a big dataset and have a black-box architecture, which makes it difficult to interpret their design logic. Here we propose Generative Molecular Transformer (GMTransformer), a probabilistic neural network model for generative design of molecules. Our model is built on the blank filling language model originally developed for text processing, which has demonstrated unique advantages in learning the "molecules grammars" with high-quality generation, interpretability, and data efficiency. Benchmarked on the MOSES datasets, our models achieve high novelty and Scaf compared to other baselines. The probabilistic generation steps have the potential in tinkering molecule design due to their capability of recommending how to modify existing molecules with explanation, guided by the learned implicit molecule chemistry. The source code and datasets can be accessed freely at https://github.com/usccolumbia/GMTransformer
翻訳日:2022-09-21 19:46:31 公開日:2022-09-20
# 感染拡大軌道アーチタイプを露呈する原因ネットワーク埋め込みモデル

Attributed Network Embedding Model for Exposing COVID-19 Spread Trajectory Archetypes ( http://arxiv.org/abs/2209.09448v1 )

ライセンス: Link先を確認
Junwei Ma, Bo Li, Qingchun Li, Chao Fan and Ali Mostafavi(参考訳) 新型コロナウイルスの感染拡大は、伝染リスクパターンが異なる都市やコミュニティに均質ではないことを明らかにし、様々な異質な特徴が拡散経路に影響を与える可能性がある。 したがって、予測的パンデミックのモニタリングには、特定のパンデミックの伝播経路を区別する都市やコミュニティにおける潜伏した異質な特徴を探求することが不可欠である。 この目的のために,本研究では,パンデミック拡散伝達軌跡に基づいて,地域間訪問ネットワークをキャプチャするネットワーク埋め込みモデルと,米国内の郡群を探索する異種特徴を作成した。 2020年3月3日から6月29日までの2,787郡(初期波)で位置情報情報を収集・計算した。 第2に,ノード属性として郡の特徴を取り入れ,ネットワークエッジとして郡間を訪問する人的訪問ネットワークを構築した。 属性付きネットワーク埋め込み手法は,クロスカントリー訪問ネットワークの類型的特徴と異種特徴を統合した。 本報告では, 属性ネットワーク埋め込みのクラスタリング解析を行い, 4郡に対応して, 拡散リスクトラジェクトリの4つのアーキタイプを明らかにした。 その後,アーチタイプ間で異なる伝達リスクパターンの基盤となる4つの重要な特徴を同定した。 推定されたネットワーク埋め込みアプローチと調査結果は、予測的パンデミックのモニタリングのために郡全体で発生しないパンデミックリスクの軌跡を特定し、説明する。 この研究は、パンデミックにおける政策分析の標準的な疫学モデルを補完する、パンデミック分析のためのデータ駆動型およびディープラーニングベースのアプローチにも貢献する。

The spread of COVID-19 revealed that transmission risk patterns are not homogenous across different cities and communities, and various heterogeneous features can influence the spread trajectories. Hence, for predictive pandemic monitoring, it is essential to explore latent heterogeneous features in cities and communities that distinguish their specific pandemic spread trajectories. To this end, this study creates a network embedding model capturing cross-county visitation networks, as well as heterogeneous features to uncover clusters of counties in the United States based on their pandemic spread transmission trajectories. We collected and computed location intelligence features from 2,787 counties from March 3 to June 29, 2020 (initial wave). Second, we constructed a human visitation network, which incorporated county features as node attributes, and visits between counties as network edges. Our attributed network embeddings approach integrates both typological characteristics of the cross-county visitation network, as well as heterogeneous features. We conducted clustering analysis on the attributed network embeddings to reveal four archetypes of spread risk trajectories corresponding to four clusters of counties. Subsequently, we identified four features as important features underlying the distinctive transmission risk patterns among the archetypes. The attributed network embedding approach and the findings identify and explain the non-homogenous pandemic risk trajectories across counties for predictive pandemic monitoring. The study also contributes to data-driven and deep learning-based approaches for pandemic analytics to complement the standard epidemiological models for policy analysis in pandemics.
翻訳日:2022-09-21 19:46:15 公開日:2022-09-20
# 反因果予測における公正性と堅牢性

Fairness and robustness in anti-causal prediction ( http://arxiv.org/abs/2209.09423v1 )

ライセンス: Link先を確認
Maggie Makar, Alexander D'Amour(参考訳) 分散シフトと公平性に対する堅牢性は、現代の機械学習モデルに必要な2つの重要なデシデラタとして独立に現れてきた。 これら2つのデシデラタは関連しているように見えるが、実際にはそれらの関係はしばしば不明確である。 本稿では,分類器(画像など)への入力が対象ラベルと保護属性の関数として生成されると仮定した反因果予測タスクに着目し,因果レンズを介してこれらの接続について議論する。 この観点から,共通フェアネス基準 - 分離 - とロバスト性 - の共通概念 - リスク不変性との間に,明らかな関係を描き出す。 これらのつながりは、分離基準をアンチコーサル設定に適用する新たな動機を与え、フェアネスパフォーマンストレードオフに関する古い議論を知らせる。 さらに,ロバストネスを動機とするアプローチは,分離を強制するためにも有効であり,分離を直接強制する手法よりも実践的に優れていることが示唆された。 医学的データセットを用いて,X線から肺炎を検出する作業において,性集団間の有病率の差異が公平さの緩和を動機づける状況において,その知見を実証的に検証した。 本研究は,公正度基準の選択・実施における因果構造の検討の重要性を強調した。

Robustness to distribution shift and fairness have independently emerged as two important desiderata required of modern machine learning models. While these two desiderata seem related, the connection between them is often unclear in practice. Here, we discuss these connections through a causal lens, focusing on anti-causal prediction tasks, where the input to a classifier (e.g., an image) is assumed to be generated as a function of the target label and the protected attribute. By taking this perspective, we draw explicit connections between a common fairness criterion - separation - and a common notion of robustness - risk invariance. These connections provide new motivation for applying the separation criterion in anticausal settings, and inform old discussions regarding fairness-performance tradeoffs. In addition, our findings suggest that robustness-motivated approaches can be used to enforce separation, and that they often work better in practice than methods designed to directly enforce separation. Using a medical dataset, we empirically validate our findings on the task of detecting pneumonia from X-rays, in a setting where differences in prevalence across sex groups motivates a fairness mitigation. Our findings highlight the importance of considering causal structure when choosing and enforcing fairness criteria.
翻訳日:2022-09-21 19:41:08 公開日:2022-09-20
# PolyMPCNet: 二次元計算に基づくプライベート推論におけるReLUフリーニューラルネットワーク探索を目指して

PolyMPCNet: Towards ReLU-free Neural Architecture Search in Two-party Computation Based Private Inference ( http://arxiv.org/abs/2209.09424v1 )

ライセンス: Link先を確認
Hongwu Peng, Shanglin Zhou, Yukui Luo, Shijin Duan, Nuo Xu, Ran Ran, Shaoyi Huang, Chenghong Wang, Tong Geng, Ang Li, Wujie Wen, Xiaolin Xu and Caiwen Ding(参考訳) ディープラーニング(DL)の急速な成長と展開は、新たなプライバシとセキュリティ上の懸念を目の当たりにした。 これらの問題を緩和するため、プライバシー保護のDL計算を可能にするために、セキュアなマルチパーティ計算(MPC)が議論されている。 実際には、計算と通信のオーバーヘッドが非常に高く、大規模システムではその人気を阻害する可能性がある。 2つの直交研究トレンドは、セキュアなディープラーニングにおけるエネルギー効率、すなわちmpc比較プロトコルのオーバーヘッド削減とハードウェアアクセラレーションに多大な関心を寄せている。 しかし、計算量や通信量が少ないため、低還元率を達成し、レイテンシの低下に悩まされるか、あるいはCPUやGPUといった一般的なコンピューティングプラットフォームに重点を置いているため、電力不足になる。 そこで本研究では,暗号ビルディングブロックのハードウェア遅延をdnn損失関数に統合し,高エネルギー効率,精度,セキュリティ保証を実現し,mpc比較プロトコルとハードウェアアクセラレーションを共同でオーバーヘッド削減するシステムフレームワークであるpolympcnetを開発した。 DNNが十分にトレーニングされた後、モデル感度をヒューリスティックにチェックする代わりに(いくつかの非ポリノミカル演算子を削除または削除することで)、DNN設計で想定されることを正確に実施すること -- ハードウェア効率と安全性の両方のDNNをトレーニングし、ローカルのミニマやサドルポイントを回避し、高い精度を維持することです。 具体的には、高価な2P-ReLU演算子を置き換えるために、暗号ハードウェアフレンドリなトレーニング可能な多項式アクティベーション関数の直通多項式アクティベーション初期化法を提案する。 我々は,フィールドプログラマブルゲートアレイ(fpga)プラットフォームのための暗号ハードウェアスケジューラと対応する性能モデルを開発した。

The rapid growth and deployment of deep learning (DL) has witnessed emerging privacy and security concerns. To mitigate these issues, secure multi-party computation (MPC) has been discussed, to enable the privacy-preserving DL computation. In practice, they often come at very high computation and communication overhead, and potentially prohibit their popularity in large scale systems. Two orthogonal research trends have attracted enormous interests in addressing the energy efficiency in secure deep learning, i.e., overhead reduction of MPC comparison protocol, and hardware acceleration. However, they either achieve a low reduction ratio and suffer from high latency due to limited computation and communication saving, or are power-hungry as existing works mainly focus on general computing platforms such as CPUs and GPUs. In this work, as the first attempt, we develop a systematic framework, PolyMPCNet, of joint overhead reduction of MPC comparison protocol and hardware acceleration, by integrating hardware latency of the cryptographic building block into the DNN loss function to achieve high energy efficiency, accuracy, and security guarantee. Instead of heuristically checking the model sensitivity after a DNN is well-trained (through deleting or dropping some non-polynomial operators), our key design principle is to em enforce exactly what is assumed in the DNN design -- training a DNN that is both hardware efficient and secure, while escaping the local minima and saddle points and maintaining high accuracy. More specifically, we propose a straight through polynomial activation initialization method for cryptographic hardware friendly trainable polynomial activation function to replace the expensive 2P-ReLU operator. We develop a cryptographic hardware scheduler and the corresponding performance model for Field Programmable Gate Arrays (FPGA) platform.
翻訳日:2022-09-21 19:40:47 公開日:2022-09-20
# 確率的dalek -- 超新星トモグラフィのための確率的予測を伴うエミュレータフレームワーク

Probabilistic Dalek -- Emulator framework with probabilistic prediction for supernova tomography ( http://arxiv.org/abs/2209.09453v1 )

ライセンス: Link先を確認
Wolfgang Kerzendorf, Nutan Chen, Jack O'Brien, Johannes Buchner, Patrick van der Smagt(参考訳) 超新星スペクトル時系列は、超新星トモグラフィーとして知られる空間的に解決された爆発モデルを再構成するために用いられる。 観測されたスペクトル時系列に加えて、超新星トモグラフィーは、再構成のための不確実な定量化を伴う逆問題を実行するために放射移動モデルを必要とする。 超新星トモグラフィーモデルの最小のパラメトリゼーションは、100以上を必要とする現実的なパラメータの約1ダースである。 現実的なラジエーション伝達モデルは、単一の評価のために数百のcpu分を必要とするため、このような問題のために何百万ものmcmcサンプルを必要とする従来の手段では計算が難しい。 機械学習技術を用いたサロゲートモデルやエミュレータとして知られるシミュレーションを高速化する新しい手法は、そのような問題に対する解決策と、スペクトル時系列から前駆者/爆発を理解する方法を提供する。 tardis supernova radiationive transfer codeのエミュレータは存在するが、それらは単純な低次元モデル(およそ12のパラメータ)でのみうまく動作し、超新星の分野における知識獲得に少数の応用がある。 本研究では,既存のエミュレータより優れているだけでなく,その予測に不確実性をもたらす放射転送符号TARDISの新しいエミュレータを提案する。 超新星と関連する分野における緊急質問を解き放つために必須となる数百のパラメータの非常に高次元の空間をエミュレートできる、将来のアクティブラーニングベースの機械の基礎を提供する。

Supernova spectral time series can be used to reconstruct a spatially resolved explosion model known as supernova tomography. In addition to an observed spectral time series, a supernova tomography requires a radiative transfer model to perform the inverse problem with uncertainty quantification for a reconstruction. The smallest parametrizations of supernova tomography models are roughly a dozen parameters with a realistic one requiring more than 100. Realistic radiative transfer models require tens of CPU minutes for a single evaluation making the problem computationally intractable with traditional means requiring millions of MCMC samples for such a problem. A new method for accelerating simulations known as surrogate models or emulators using machine learning techniques offers a solution for such problems and a way to understand progenitors/explosions from spectral time series. There exist emulators for the TARDIS supernova radiative transfer code but they only perform well on simplistic low-dimensional models (roughly a dozen parameters) with a small number of applications for knowledge gain in the supernova field. In this work, we present a new emulator for the radiative transfer code TARDIS that not only outperforms existing emulators but also provides uncertainties in its prediction. It offers the foundation for a future active-learning-based machinery that will be able to emulate very high dimensional spaces of hundreds of parameters crucial for unraveling urgent questions in supernovae and related fields.
翻訳日:2022-09-21 19:40:13 公開日:2022-09-20
# 時系列予測のための注意無料短期記憶

An Attention Free Long Short-Term Memory for Time Series Forecasting ( http://arxiv.org/abs/2209.09548v1 )

ライセンス: Link先を確認
Hugo Inzirillo and Ludovic De Villelongue(参考訳) ディープラーニングは時系列分析においてますます重要な役割を担っている。 我々は,より効率的なフレームワークである注意自由機構を用いた時系列予測に着目し,線形モデルでは時間依存を捉えられないような時系列予測のための新しいアーキテクチャを提案した。 本研究では,無注意LSTM層を用いて,条件分散予測のための線形モデルを克服するアーキテクチャを提案する。 本研究は,LSTMの予測能力を向上させるとともに,学習作業の効率化を図ることができるモデルの有効性を確認した。

Deep learning is playing an increasingly important role in time series analysis. We focused on time series forecasting using attention free mechanism, a more efficient framework, and proposed a new architecture for time series prediction for which linear models seem to be unable to capture the time dependence. We proposed an architecture built using attention free LSTM layers that overcome linear models for conditional variance prediction. Our findings confirm the validity of our model, which also allowed to improve the prediction capacity of a LSTM, while improving the efficiency of the learning task.
翻訳日:2022-09-21 19:39:43 公開日:2022-09-20
# ハードウェアとアルゴリズム共設計による注意型nnsのための適応型バタフライ加速器

Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design ( http://arxiv.org/abs/2209.09570v1 )

ライセンス: Link先を確認
Hongxiang Fan, Thomas Chau, Stylianos I. Venieris, Royson Lee, Alexandros Kouris, Wayne Luk, Nicholas D. Lane, Mohamed S. Abdelfattah(参考訳) 注意に基づくニューラルネットワークは、多くのaiタスクで普及している。 その優れたアルゴリズム性能にもかかわらず、アテンション機構とフィードフォワードネットワーク(FFN)の使用は過剰な計算とメモリ資源を必要とし、ハードウェアの性能を損なう。 様々なスパース変種が導入されたが、ほとんどのアプローチは、実際のハードウェア設計にメソッドをマッピングする効率を明示的に考慮することなく、アルゴリズムレベルでの注意の2次スケーリングを緩和することのみに焦点を当てている。 さらに、ほとんどの取り組みは注意機構またはFFNにのみ焦点をあてるが、両方の部品を共同最適化することなく、現在の設計では異なる入力長を扱う際にスケーラビリティが欠如している。 本稿では,ハードウェアの観点から異なる変種における空間パターンを体系的に考察する。 アルゴリズムレベルでは,アテンション機構とffnの両方を近似するために,統一バタフライスパーシティパターンを採用したハードウェアフレンドリーなfabnetを提案する。 ハードウェアレベルでは、単一の統一ハードウェアエンジンを用いて異なるバタフライ層を加速するために、専用のハードウェア制御を介して実行時に設定できる新しい適応型バタフライ加速器が提案されている。 Long-Range-Arenaデータセットでは、FABNetはバニラ変換器と同じ精度で計算量を10倍から66倍、パラメータ数を2倍から22倍に削減する。 アルゴリズムとハードウェアを共同で最適化することにより、FPGAベースのバタフライアクセラレータは、同じ計算予算に正規化された最先端アクセラレータよりも14.2倍から23.2倍のスピードアップを達成する。 Raspberry Pi 4とJetson Nanoで最適化されたCPUとGPUの設計と比較して、我々のシステムは同じ電力予算で最大273.8と15.1倍高速である。

Attention-based neural networks have become pervasive in many AI tasks. Despite their excellent algorithmic performance, the use of the attention mechanism and feed-forward network (FFN) demands excessive computational and memory resources, which often compromises their hardware performance. Although various sparse variants have been introduced, most approaches only focus on mitigating the quadratic scaling of attention on the algorithm level, without explicitly considering the efficiency of mapping their methods on real hardware designs. Furthermore, most efforts only focus on either the attention mechanism or the FFNs but without jointly optimizing both parts, causing most of the current designs to lack scalability when dealing with different input lengths. This paper systematically considers the sparsity patterns in different variants from a hardware perspective. On the algorithmic level, we propose FABNet, a hardware-friendly variant that adopts a unified butterfly sparsity pattern to approximate both the attention mechanism and the FFNs. On the hardware level, a novel adaptable butterfly accelerator is proposed that can be configured at runtime via dedicated hardware control to accelerate different butterfly layers using a single unified hardware engine. On the Long-Range-Arena dataset, FABNet achieves the same accuracy as the vanilla Transformer while reducing the amount of computation by 10 to 66 times and the number of parameters 2 to 22 times. By jointly optimizing the algorithm and hardware, our FPGA-based butterfly accelerator achieves 14.2 to 23.2 times speedup over state-of-the-art accelerators normalized to the same computational budget. Compared with optimized CPU and GPU designs on Raspberry Pi 4 and Jetson Nano, our system is up to 273.8 and 15.1 times faster under the same power budget.
翻訳日:2022-09-21 19:39:28 公開日:2022-09-20
# 動的判別器によるgans改善

Improving GANs with A Dynamic Discriminator ( http://arxiv.org/abs/2209.09897v1 )

ライセンス: Link先を確認
Ceyuan Yang, Yujun Shen, Yinghao Xu, Deli Zhao, Bo Dai, Bolei Zhou(参考訳) 判別器は、実検体と合成検体を区別することにより、生成敵ネットワーク(GAN)を訓練する上で重要な役割を担っている。 実際のデータ分布は同じであるが、生成器の進化により合成分布が変化し続けるため、判別器の2つの分類タスクに対応する変化が生じる。 我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。 包括的実証研究により, 提案手法はdynamicdと呼ばれ, 計算コストや学習目標の増大を伴わずに合成性能を向上できることを確認した。 異なるデータ体制下でGANを訓練するための2つの容量調整スキームが開発されている。 一 十分な量の訓練データを与えられた場合、段階的に学習能力の増大による差別者給付 二 訓練データに制限があるときは、徐々に層幅を減らし、判別器の過度に適合する問題を緩和する。 様々なデータセットを用いた2次元および3次元画像合成タスクの実験は、我々のDynamicDの一般化可能性に加えて、ベースラインよりも大幅に改善されている。 さらに、DynamicDは他の差別化手法(データ強化、正規化、事前学習を含む)と相乗効果があり、GANを学習する際に連続的なパフォーマンス向上をもたらす。

Discriminator plays a vital role in training generative adversarial networks (GANs) via distinguishing real and synthesized samples. While the real data distribution remains the same, the synthesis distribution keeps varying because of the evolving generator, and thus effects a corresponding change to the bi-classification task for the discriminator. We argue that a discriminator with an on-the-fly adjustment on its capacity can better accommodate such a time-varying task. A comprehensive empirical study confirms that the proposed training strategy, termed as DynamicD, improves the synthesis performance without incurring any additional computation cost or training objectives. Two capacity adjusting schemes are developed for training GANs under different data regimes: i) given a sufficient amount of training data, the discriminator benefits from a progressively increased learning capacity, and ii) when the training data is limited, gradually decreasing the layer width mitigates the over-fitting issue of the discriminator. Experiments on both 2D and 3D-aware image synthesis tasks conducted on a range of datasets substantiate the generalizability of our DynamicD as well as its substantial improvement over the baselines. Furthermore, DynamicD is synergistic to other discriminator-improving approaches (including data augmentation, regularizers, and pre-training), and brings continuous performance gain when combined for learning GANs.
翻訳日:2022-09-21 19:31:34 公開日:2022-09-20
# Text2Light: ゼロショットテキスト駆動HDRパノラマ生成

Text2Light: Zero-Shot Text-Driven HDR Panorama Generation ( http://arxiv.org/abs/2209.09898v1 )

ライセンス: Link先を確認
Zhaoxi Chen, Guangcong Wang, Ziwei Liu(参考訳) 高品質HDRI(High Dynamic Range Images)は、一般的にHDRパノラマであり、フォトリアリスティック照明と3Dシーンの360度リフレクションを作成する最も一般的な方法の1つである。 HDRIを捕捉することの難しさから、汎用的で制御可能な生成モデルが非常に望まれており、レイマンユーザは直感的に生成プロセスを制御できる。 しかし、既存の最先端の手法は、複雑なシーンで高品質のパノラマを合成するのに苦労している。 そこで本研究では、4K+解像度のHDRIを生成するためのゼロショットテキスト駆動フレームワークであるText2Lightを提案する。 シーン記述として自由形式のテキストが与えられた場合、対応するHDRIを2つの専用ステップで合成する。 1)低ダイナミックレンジ(ldr)および低解像度におけるテキスト駆動パノラマ生成と, 2) 超解像逆トーンマッピングはldrパノラマを解像度とダイナミックレンジの両方でスケールアップする。 具体的には、ゼロショットテキスト駆動パノラマ生成を実現するために、まず、多様な環境テクスチャの離散表現として二重コードブックを構築する。 そして、事前訓練されたCLIPモデルにより、テキスト条件付きグローバルサンプリングは、入力テキストに従って、グローバルコードブックから全体論的意味をサンプリングすることを学ぶ。 さらに、構造認識型局所サンプリング器は、総括的意味論により誘導されたldrパノラマパッチバイパッチを合成することを学ぶ。 超高分解能逆トーンマッピングを実現するため,LDRパノラマからの360度画像の連続的表現を球に固定した構造化潜在符号の集合として導出した。 この連続表現により、汎用モジュールは解像度とダイナミックレンジを同時にスケールアップすることができる。 大規模な実験は、高品質なHDRパノラマ生成におけるText2Lightの優れた能力を実証している。 さらに、現実的なレンダリングと没入型VRにおける私たちの仕事の可能性も示しています。

High-quality HDRIs(High Dynamic Range Images), typically HDR panoramas, are one of the most popular ways to create photorealistic lighting and 360-degree reflections of 3D scenes in graphics. Given the difficulty of capturing HDRIs, a versatile and controllable generative model is highly desired, where layman users can intuitively control the generation process. However, existing state-of-the-art methods still struggle to synthesize high-quality panoramas for complex scenes. In this work, we propose a zero-shot text-driven framework, Text2Light, to generate 4K+ resolution HDRIs without paired training data. Given a free-form text as the description of the scene, we synthesize the corresponding HDRI with two dedicated steps: 1) text-driven panorama generation in low dynamic range(LDR) and low resolution, and 2) super-resolution inverse tone mapping to scale up the LDR panorama both in resolution and dynamic range. Specifically, to achieve zero-shot text-driven panorama generation, we first build dual codebooks as the discrete representation for diverse environmental textures. Then, driven by the pre-trained CLIP model, a text-conditioned global sampler learns to sample holistic semantics from the global codebook according to the input text. Furthermore, a structure-aware local sampler learns to synthesize LDR panoramas patch-by-patch, guided by holistic semantics. To achieve super-resolution inverse tone mapping, we derive a continuous representation of 360-degree imaging from the LDR panorama as a set of structured latent codes anchored to the sphere. This continuous representation enables a versatile module to upscale the resolution and dynamic range simultaneously. Extensive experiments demonstrate the superior capability of Text2Light in generating high-quality HDR panoramas. In addition, we show the feasibility of our work in realistic rendering and immersive VR.
翻訳日:2022-09-21 19:31:17 公開日:2022-09-20
# スマートフォンを用いた多発性硬化症のパーソナライズド縦断評価

Personalized Longitudinal Assessment of Multiple Sclerosis Using Smartphones ( http://arxiv.org/abs/2209.09692v1 )

ライセンス: Link先を確認
Oliver Y. Ch\'en, Florian Lipsmeier, Huy Phan, Frank Dondelinger, Andrew Creagh, Christian Gossens, Michael Lindemann, Maarten de Vos(参考訳) パーソナライズされた縦断的評価は,多発性硬化症(MS)の治療戦略を迅速診断し,適切に管理し,最適適応するために重要である。 特発性主題特異的疾患プロファイルの同定にも重要である。 そこで本研究では, センサデータを用いて, 個々の疾患の軌跡を自動マッピングする新しい縦型モデルを設計した。 まず,スマートフォン上での歩行,バランス,上肢機能に関するデジタル計測を,センサによる評価を用いて行う。 次に、欠落したデータをインプテーションで扱う。 次に, 一般化推定式を用いて, ms の潜在的なマーカーを見つける。 その後、複数のトレーニングデータセットから学習されたパラメータをアンサンブルして、msを持つ未発見の人に対して、msを経時的に予測するための、単純で統一された縦方向予測モデルを構築し、重度疾患スコアを持つ人に対する潜在的な過小評価を軽減する。 また,センサを用いた評価からリモートで収集した歩行・バランスおよび上肢機能に関連する特徴が,経時的にMSを予測する上で有用なデジタルマーカーであることが示唆された。

Personalized longitudinal disease assessment is central to quickly diagnosing, appropriately managing, and optimally adapting the therapeutic strategy of multiple sclerosis (MS). It is also important for identifying the idiosyncratic subject-specific disease profiles. Here, we design a novel longitudinal model to map individual disease trajectories in an automated way using sensor data that may contain missing values. First, we collect digital measurements related to gait and balance, and upper extremity functions using sensor-based assessments administered on a smartphone. Next, we treat missing data via imputation. We then discover potential markers of MS by employing a generalized estimation equation. Subsequently, parameters learned from multiple training datasets are ensembled to form a simple, unified longitudinal predictive model to forecast MS over time in previously unseen people with MS. To mitigate potential underestimation for individuals with severe disease scores, the final model incorporates additional subject-specific fine-tuning using data from the first day. The results show that the proposed model is promising to achieve personalized longitudinal MS assessment; they also suggest that features related to gait and balance as well as upper extremity function, remotely collected from sensor-based assessments, may be useful digital markers for predicting MS over time.
翻訳日:2022-09-21 19:30:34 公開日:2022-09-20
# 大規模プログラムと確率プログラムを解く機械学習アプローチ:サイクリングネットワーク設計への応用

A Machine Learning Approach to Solving Large Bilevel and Stochastic Programs: Application to Cycling Network Design ( http://arxiv.org/abs/2209.09404v1 )

ライセンス: Link先を確認
Timothy C. Y. Chan, Bo Lin, Shoshanna Saxe(参考訳) 本稿では,2段階確率計画を含む,多数の独立系フォロワーを含むバイレベルプログラムを解決するための,機械学習に基づく新しい手法を提案する。 本研究では,フォロワーのサンプリングされたサブセットを明示的に考慮し,機械学習モデルを用いて非サンプリングフォロワーの客観的値を推定する最適化モデルを提案する。 既存のアプローチとは異なり、機械学習モデルのトレーニングを最適化問題に組み込むことで、リーダー決定で表現できない一般的なフォロワー機能を利用することができます。 我々は、全従者集合を考える元の目的関数によって測定される生成したリーダー決定の最適性ギャップの境界を証明する。 次に,境界を厳格化するためのフォロワサンプリングアルゴリズムと,組込み機械学習モデルへの入力として使用できるフォロワ特徴を学習するための表現学習手法を開発した。 サイクリングネットワーク設計問題の合成例を用いて,本手法の計算性能とベースライン法との比較を行った。 我々のアプローチは、フォロー対象の値に対するより正確な予測を提供し、さらに重要なことに、より高い品質のリーダー決定を生成する。 最後に、サイクリングインフラ計画の現実的なケーススタディを行い、100万人以上のフォロワーを持つネットワーク設計問題を解決するために我々のアプローチを適用します。 提案手法は,現在のサイクリングネットワーク拡張方式と比較して,良好な性能を示す。

We present a novel machine learning-based approach to solving bilevel programs that involve a large number of independent followers, which as a special case include two-stage stochastic programming. We propose an optimization model that explicitly considers a sampled subset of followers and exploits a machine learning model to estimate the objective values of unsampled followers. Unlike existing approaches, we embed machine learning model training into the optimization problem, which allows us to employ general follower features that can not be represented using leader decisions. We prove bounds on the optimality gap of the generated leader decision as measured by the original objective function that considers the full follower set. We then develop follower sampling algorithms to tighten the bounds and a representation learning approach to learn follower features, which can be used as inputs to the embedded machine learning model. Using synthetic instances of a cycling network design problem, we compare the computational performance of our approach versus baseline methods. Our approach provides more accurate predictions for follower objective values, and more importantly, generates leader decisions of higher quality. Finally, we perform a real-world case study on cycling infrastructure planning, where we apply our approach to solve a network design problem with over one million followers. Our approach presents favorable performance compared to the current cycling network expansion practices.
翻訳日:2022-09-21 19:28:41 公開日:2022-09-20
# エッジでのディープラーニングでリアルタイムストリーミングptychographyイメージングが可能に

Deep learning at the edge enables real-time streaming ptychographic imaging ( http://arxiv.org/abs/2209.09408v1 )

ライセンス: Link先を確認
Anakha V Babu, Tao Zhou, Saugat Kandel, Tekin Bicer, Zhengchun Liu, William Judge, Daniel J. Ching, Yi Jiang, Sinisa Veseli, Steven Henke, Ryan Chard, Yudong Yao, Ekaterina Sirazitdinova, Geetika Gupta, Martin V. Holt, Ian T. Foster, Antonino Miceli, Mathew J. Cherukara(参考訳) コヒーレント顕微鏡技術は、構造材料から量子デバイス、集積回路から生体細胞まで、科学および技術分野にわたる材料の非並列的多スケールビューを提供する。 明るい光源と高レート検出器の構築によって、プチコグラフィーのようなコヒーレントX線顕微鏡法はナノスケールの材料特性に革命をもたらす。 しかしながら、データと計算ニーズの大幅な増加は、従来の手法では高速コヒーレントイメージング実験からサンプル画像をリアルタイムに回収するには不十分であることを意味する。 本稿では,最先端の人工知能とハイパフォーマンスコンピューティングを活用して,検出器から直接2khzでストリームされるx線ピンチグラフィデータのリアルタイムインバージョンを実現するワークフローを実演する。 提案するai対応ワークフローは従来のptychographyによって課されるサンプリング制約を取り除き、従来の方法よりも桁違いに少ないデータで低線量イメージングを可能にする。

Coherent microscopy techniques provide an unparalleled multi-scale view of materials across scientific and technological fields, from structural materials to quantum devices, from integrated circuits to biological cells. Driven by the construction of brighter sources and high-rate detectors, coherent X-ray microscopy methods like ptychography are poised to revolutionize nanoscale materials characterization. However, associated significant increases in data and compute needs mean that conventional approaches no longer suffice for recovering sample images in real-time from high-speed coherent imaging experiments. Here, we demonstrate a workflow that leverages artificial intelligence at the edge and high-performance computing to enable real-time inversion on X-ray ptychography data streamed directly from a detector at up to 2 kHz. The proposed AI-enabled workflow eliminates the sampling constraints imposed by traditional ptychography, allowing low dose imaging using orders of magnitude less data than required by traditional methods.
翻訳日:2022-09-21 19:28:21 公開日:2022-09-20
# 画像誘導点雲形状完了のためのクロスモーダル学習

Cross-modal Learning for Image-Guided Point Cloud Shape Completion ( http://arxiv.org/abs/2209.09552v1 )

ライセンス: Link先を確認
Emanuele Aiello, Diego Valsesia, Enrico Magli(参考訳) 本稿では,補助画像によるポイントクラウドの完成に関する最近の話題について考察する。 本稿では,局所化された潜在空間における2つのモダリティからの情報を効果的に結合できることを示す。 また,画像空間の忠実度を測定するために,完成点雲上の微分可能レンダラを用いて,補助画像が学習プロセスに監視信号を提供する,新たな弱教師付き設定について検討する。 実験は、一様および多様の完成のための最先端の教師付き手法よりも大幅に改善された。 また,複数の教師付き手法を上回り,ポイントクラウド情報のみを利用する最新の教師付きモデルと競合する弱い教師付きアプローチの有効性を示す。

In this paper we explore the recent topic of point cloud completion, guided by an auxiliary image. We show how it is possible to effectively combine the information from the two modalities in a localized latent space, thus avoiding the need for complex point cloud reconstruction methods from single views used by the state-of-the-art. We also investigate a novel weakly-supervised setting where the auxiliary image provides a supervisory signal to the training process by using a differentiable renderer on the completed point cloud to measure fidelity in the image space. Experiments show significant improvements over state-of-the-art supervised methods for both unimodal and multimodal completion. We also show the effectiveness of the weakly-supervised approach which outperforms a number of supervised methods and is competitive with the latest supervised models only exploiting point cloud information.
翻訳日:2022-09-21 19:22:11 公開日:2022-09-20
# CoV-TI-Net:COVID-19診断のためのエンド層変更による移行初期化

CoV-TI-Net: Transferred Initialization with Modified End Layer for COVID-19 Diagnosis ( http://arxiv.org/abs/2209.09556v1 )

ライセンス: Link先を確認
Sadia Khanam, Mohammad Reza Chalak Qazani, Subrota Kumar Mondal, H M Dipu Kabir, Abadhan S. Sabyasachi, Houshyar Asadi, Keshav Kumar, Farzin Tabarsinezhad, Shady Mohamed, Abbas Khorsavi, Saeid Nahavandi(参考訳) 本稿では、新型コロナウイルス診断のための完全連結層を改良したトランスファー初期化を提案する。 畳み込みニューラルネットワーク(CNN)は画像分類において顕著な結果を得た。 しかし、画像認識アプリケーションの複雑さのため、ハイパフォーマンスモデルのトレーニングは非常に複雑で時間を要する。 一方、転送学習は比較的新しい学習手法であり、少ない計算で優れた性能を達成するために多くの分野に採用されている。 本研究では,PyTorch事前学習モデル (VGG19\_bn と WideResNet -101) を MNIST データセットに初期化として初めて適用し,完全連結層を修正した。 採用されたPyTorch事前訓練モデルは、以前はImageNetでトレーニングされていた。 提案したモデルはKaggleのノートブックで開発・検証され、ネットワークのトレーニング過程において膨大な計算時間を要さずに99.77%の精度に達した。 またSIIM-FISABIO-RSNA COVID-19検出データセットにも同様の手法を適用し,80.01%の精度で測定した。 対照的に、以前の方法は、高いパフォーマンスモデルに到達するためにトレーニングプロセス中に大きなコンパクト化時間を必要とする。 コードは以下のリンクで入手できる。 github.com/dipuk0506/SpinalNet

This paper proposes transferred initialization with modified fully connected layers for COVID-19 diagnosis. Convolutional neural networks (CNN) achieved a remarkable result in image classification. However, training a high-performing model is a very complicated and time-consuming process because of the complexity of image recognition applications. On the other hand, transfer learning is a relatively new learning method that has been employed in many sectors to achieve good performance with fewer computations. In this research, the PyTorch pre-trained models (VGG19\_bn and WideResNet -101) are applied in the MNIST dataset for the first time as initialization and with modified fully connected layers. The employed PyTorch pre-trained models were previously trained in ImageNet. The proposed model is developed and verified in the Kaggle notebook, and it reached the outstanding accuracy of 99.77% without taking a huge computational time during the training process of the network. We also applied the same methodology to the SIIM-FISABIO-RSNA COVID-19 Detection dataset and achieved 80.01% accuracy. In contrast, the previous methods need a huge compactional time during the training process to reach a high-performing model. Codes are available at the following link: github.com/dipuk0506/SpinalNet
翻訳日:2022-09-21 19:21:58 公開日:2022-09-20
# 色眼底画像からの網膜動脈と静脈の同時分割と分類

Simultaneous segmentation and classification of the retinal arteries and veins from color fundus images ( http://arxiv.org/abs/2209.09582v1 )

ライセンス: Link先を確認
Jos\'e Morano, \'Alvaro S. Hervella, Jorge Novo, Jos\'e Rouco(参考訳) 網膜血管の研究は、多くの疾患のスクリーニングと診断の基本的な段階である。 完全な網膜血管分析では、網膜の血管を動脈と静脈(A/V)に分割し分類する必要がある。 初期の自動手法は、これらの分割と分類タスクを2段階に分けた。 しかし,これらのタスクは,分類結果が船体セグメンテーションの有効性に大きく依存するため,関節セグメンテーションタスクとしてアプローチされている。 そこで本研究では,眼底画像からの網膜A/Vの同時分画と分類のための新しいアプローチを提案する。 特に,従来のアプローチと異なり,新しい損失により,関節,静脈,血管ツリー全体を対象とする3つの分節問題に分解する新しい手法を提案する。 この構成により、血管横断を直感的に扱うことができ、異なるターゲットの血管木の正確なセグメンテーションマスクを直接提供する。 公開網膜画像血管抽出(rite)データセットに関するアブレーション研究は,提案手法が,特に異なる構造のセグメンテーションにおいて,良好な性能をもたらすことを実証するものである。 さらに,A/V分類において,本手法は高い競合性を示すとともに,血管の分節化を著しく改善することを示す。 提案手法により, より多くの容器を検出し, 異なる構造を分割し, 競争力のある分類性能を達成できる。 また,本研究のアプローチは,様々な参考研究のアプローチよりも優れている。 さらに, 従来の手法とは対照的に, 提案手法では, 船体交差を直接検出し, 複雑な場所でのA/Vの連続性を保つことができる。

The study of the retinal vasculature is a fundamental stage in the screening and diagnosis of many diseases. A complete retinal vascular analysis requires to segment and classify the blood vessels of the retina into arteries and veins (A/V). Early automatic methods approached these segmentation and classification tasks in two sequential stages. However, currently, these tasks are approached as a joint semantic segmentation task, as the classification results highly depend on the effectiveness of the vessel segmentation. In that regard, we propose a novel approach for the simultaneous segmentation and classification of the retinal A/V from eye fundus images. In particular, we propose a novel method that, unlike previous approaches, and thanks to a novel loss, decomposes the joint task into three segmentation problems targeting arteries, veins and the whole vascular tree. This configuration allows to handle vessel crossings intuitively and directly provides accurate segmentation masks of the different target vascular trees. The provided ablation study on the public Retinal Images vessel Tree Extraction (RITE) dataset demonstrates that the proposed method provides a satisfactory performance, particularly in the segmentation of the different structures. Furthermore, the comparison with the state of the art shows that our method achieves highly competitive results in A/V classification, while significantly improving vascular segmentation. The proposed multi-segmentation method allows to detect more vessels and better segment the different structures, while achieving a competitive classification performance. Also, in these terms, our approach outperforms the approaches of various reference works. Moreover, in contrast with previous approaches, the proposed method allows to directly detect the vessel crossings, as well as preserving the continuity of A/V at these complex locations.
翻訳日:2022-09-21 19:21:39 公開日:2022-09-20
# 低リソース画像設定におけるディープラーニングモデルの一般化可能性:アフリカ5カ国における胎児超音波による検討

Generalisability of deep learning models in low-resource imaging settings: A fetal ultrasound study in 5 African countries ( http://arxiv.org/abs/2209.09610v1 )

ライセンス: Link先を確認
Carla Sendra-Balcells and V\'ictor M. Campello and Jordina Torrents-Barrena and Yahya Ali Ahmed and Mustafa Elattar and Benard Ohene Botwe and Pempho Nyangulu and William Stones and Mohammed Ammar and Lamya Nawal Benamer and Harriet Nalubega Kisembo and Senai Goitom Sereke and Sikolia Z. Wanyonyi and Marleen Temmerman and Kamil Mikolaj and Martin Gr{\o}nneb{\ae}k Tolsgaard and Karim Lekadir(参考訳) ほとんどの人工知能(AI)研究は、画像データ、ITインフラ、臨床専門知識が豊富である高所得国に集中している。 しかし、医療画像を必要とする限られた資源環境では、進行が遅くなっている。 例えば、サハラ以南のアフリカでは、周産期死亡率は非常に高い。 これらの国では、臨床医が胎児異常の診断のために胎児超音波面の取得を支援するためにAIモデルを実装することができる。 これまでのところ、標準胎児平面を識別するためにディープラーニングモデルが提案されているが、ハイエンドの超音波機器やデータへのアクセスが制限されたセンターで一般化できるという証拠はない。 本研究は,高資源臨床センターで訓練され,新しい低資源センターに移管された胎児平面分類モデルのドメインシフト効果を低減するための異なる戦略について検討する。 そのために、スペインから1,792人の患者を訓練した分類器が、デンマークの新しいセンターで1,008人の患者に最適な条件で評価され、その後、25人の患者を持つ5つのアフリカセンター(エジプト、アルジェリア、ウガンダ、ガーナ、マラウイ)で同じパフォーマンスに達するように最適化された。 その結果,少人数のアフリカサンプルを先進国で既存の大規模データベースに統合するトランスファーラーニング手法が有効であることが示された。 特に、リコールを0.92 \pm 0.04$に増やし、同時にセンター間で高い精度を維持することで、アフリカの人口のパフォーマンスを高めるために、モデルを再調整し最適化することができる。 このフレームワークは、困難で不均質な状況で取得された限られたデータを持つ臨床センターにまたがる新しいaiモデルを構築することを約束しており、リソースの少ない国でaiのユーザビリティのための新しいソリューションを開発するためのさらなる研究を求める。

Most artificial intelligence (AI) research have concentrated in high-income countries, where imaging data, IT infrastructures and clinical expertise are plentiful. However, slower progress has been made in limited-resource environments where medical imaging is needed. For example, in Sub-Saharan Africa the rate of perinatal mortality is very high due to limited access to antenatal screening. In these countries, AI models could be implemented to help clinicians acquire fetal ultrasound planes for diagnosis of fetal abnormalities. So far, deep learning models have been proposed to identify standard fetal planes, but there is no evidence of their ability to generalise in centres with limited access to high-end ultrasound equipment and data. This work investigates different strategies to reduce the domain-shift effect for a fetal plane classification model trained on a high-resource clinical centre and transferred to a new low-resource centre. To that end, a classifier trained with 1,792 patients from Spain is first evaluated on a new centre in Denmark in optimal conditions with 1,008 patients and is later optimised to reach the same performance in five African centres (Egypt, Algeria, Uganda, Ghana and Malawi) with 25 patients each. The results show that a transfer learning approach can be a solution to integrate small-size African samples with existing large-scale databases in developed countries. In particular, the model can be re-aligned and optimised to boost the performance on African populations by increasing the recall to $0.92 \pm 0.04$ and at the same time maintaining a high precision across centres. This framework shows promise for building new AI models generalisable across clinical centres with limited data acquired in challenging and heterogeneous conditions and calls for further research to develop new solutions for usability of AI in countries with less resources.
翻訳日:2022-09-21 19:21:14 公開日:2022-09-20
# 高品質セグメンテーションのための心血管系MRIの呼吸運動アーチファクトの検出

Detecting respiratory motion artefacts for cardiovascular MRIs to ensure high-quality segmentation ( http://arxiv.org/abs/2209.09678v1 )

ライセンス: Link先を確認
Amin Ranem, John Kalkhof, Caner \"Ozer, Anirban Mukhopadhyay, Ilkay Oksuz(参考訳) 機械学習アプローチはトレーニング領域でうまく機能するが、現実のアプリケーションでは一般的に失敗する傾向がある。 心血管性磁気共鳴画像(CMR)では, 呼吸運動は, 取得品質やその後の解析, 最終診断において大きな課題である。 CMRxMotion Challenge 2022において,CMRにおける呼吸運動の重症度スコアを予測するワークフローを提案する。 これは、患者がいまだ近くにいる間、品質の悪い画像を直接取得できるため、技術者が取得中にCMRの品質に関するフィードバックを直ちに提供するための重要なツールである。 そこで本手法は,得られたCMRがさらなる診断に使用される前に,特定の品質基準を保持できることを保証する。 このため、重度な運動アーチファクトの場合に、時間とコストのかかる再取得を伴わずに、適切な診断のための効率的なベースを提供することができる。 私たちのセグメンテーションモデルと組み合わせることで、心臓科医や技術者が毎日のルーチンで、適切な品質評価と心血管スキャンの真のセグメンテーションを保証する完全なパイプラインを提供することができます。 コードベースはhttps://github.com/MECLabTUDA/QA_med_data/tree/dev_QA_CMRxMotionで公開されている。

While machine learning approaches perform well on their training domain, they generally tend to fail in a real-world application. In cardiovascular magnetic resonance imaging (CMR), respiratory motion represents a major challenge in terms of acquisition quality and therefore subsequent analysis and final diagnosis. We present a workflow which predicts a severity score for respiratory motion in CMR for the CMRxMotion challenge 2022. This is an important tool for technicians to immediately provide feedback on the CMR quality during acquisition, as poor-quality images can directly be re-acquired while the patient is still available in the vicinity. Thus, our method ensures that the acquired CMR holds up to a specific quality standard before it is used for further diagnosis. Therefore, it enables an efficient base for proper diagnosis without having time and cost-intensive re-acquisitions in cases of severe motion artefacts. Combined with our segmentation model, this can help cardiologists and technicians in their daily routine by providing a complete pipeline to guarantee proper quality assessment and genuine segmentations for cardiovascular scans. The code base is available at https://github.com/MECLabTUDA/QA_med_data/tree/dev_QA_CMRxMotion.
翻訳日:2022-09-21 19:20:29 公開日:2022-09-20
# 呼吸運動人工物を用いた伝達学習による心臓の分節

Cardiac Segmentation using Transfer Learning under Respiratory Motion Artifacts ( http://arxiv.org/abs/2209.09714v1 )

ライセンス: Link先を確認
Carles Garcia-Cabrera, Eric Arazo, Kathleen M. Curran, Noel E. O'Connor and Kevin McGuinness(参考訳) 心臓磁気共鳴画像(MRI)のアーチファクトに対する耐性を保ちながら心室セグメンテーションを行う手法は、それらの組織の構造的および機能的解析の質を保証するために重要である。 アルゴリズムの品質向上には大きな取り組みがあったが、予測において人工物が生み出す害に対処する研究はほとんどない。 本研究では,これらのアーティファクトに対する従来の手法のレジリエンスを改善するために,事前学習ネットワークの微調整について検討する。 提案手法では,これらのアーティファクトを模倣するデータ拡張を広範囲に活用した。 その結果、ベースラインセグメンテーション(最大0.06 diceスコア、4mmハウスドルフ距離改善)が大幅に改善した。

Methods that are resilient to artifacts in the cardiac magnetic resonance imaging (MRI) while performing ventricle segmentation, are crucial for ensuring quality in structural and functional analysis of those tissues. While there has been significant efforts on improving the quality of the algorithms, few works have tackled the harm that the artifacts generate in the predictions. In this work, we study fine tuning of pretrained networks to improve the resilience of previous methods to these artifacts. In our proposed method, we adopted the extensive usage of data augmentations that mimic those artifacts. The results significantly improved the baseline segmentations (up to 0.06 Dice score, and 4mm Hausdorff distance improvement).
翻訳日:2022-09-21 19:20:07 公開日:2022-09-20
# スコアベース生成モデルを用いたCBCTプロジェクションの金属塗布

Metal Inpainting in CBCT Projections Using Score-based Generative Model ( http://arxiv.org/abs/2209.09733v1 )

ライセンス: Link先を確認
Siyuan Mei, Fuxin Fan, Andreas Maier(参考訳) 整形外科手術中、金属インプラントやスクリューの挿入は移動式Cアームシステムでしばしば行われる。 金属の高減衰のため、3次元復元では重金属のアーティファクトが発生し、画質が著しく低下する。 アーティファクトを減らすために、多くの金属アーティファクト低減アルゴリズムが開発され、プロジェクションドメインの金属インペインティングは必須のステップである。 本研究は, 膝投射を模擬したスコアベース生成モデルを訓練し, 条件付き再サンプリングプロセスにおいて, ノイズを取り除き, インペインテッド画像を得る。 その結果、スコアベース生成モデルによるインペイント画像は、補間法やCNN法と比較して、より詳細な情報を持ち、最小平均絶対誤差と最高ピーク信号-雑音比を達成することが示唆された。 さらに、スコアベースモデルでは、大きな丸いマスクと長方形のマスクで投影を復元することができる。

During orthopaedic surgery, the inserting of metallic implants or screws are often performed under mobile C-arm systems. Due to the high attenuation of metals, severe metal artifacts occur in 3D reconstructions, which degrade the image quality greatly. To reduce the artifacts, many metal artifact reduction algorithms have been developed and metal inpainting in projection domain is an essential step. In this work, a score-based generative model is trained on simulated knee projections and the inpainted image is obtained by removing the noise in conditional resampling process. The result implies that the inpainted images by score-based generative model have more detailed information and achieve the lowest mean absolute error and the highest peak-signal-to-noise-ratio compared with interpolation and CNN based method. Besides, the score-based model can also recover projections with big circlar and rectangular masks, showing its generalization in inpainting task.
翻訳日:2022-09-21 19:19:54 公開日:2022-09-20
# 高密度乳腺マモグラムの高分解能合成 : 深層学習に基づく質量検出におけるフェアネス向上への応用

High-resolution synthesis of high-density breast mammograms: Application to improved fairness in deep learning based mass detection ( http://arxiv.org/abs/2209.09809v1 )

ライセンス: Link先を確認
Lidia Garrucho, Kaisar Kushibar, Richard Osuala, Oliver Diaz, Alessandro Catanese, Javier del Riego, Maciej Bobowicz, Fredrik Strand, Laura Igual, Karim Lekadir(参考訳) 深層学習に基づくコンピュータ支援検出システムは乳癌検出において優れた性能を示した。 しかし密度の高い乳房は、密度の高い組織がマスをマスクしたりシミュレートしたりできるため、検出性能が低くなる。 したがって、乳がん検出のためのマンモグラフィーの感度は、高濃度乳がんでは20%以上低下することができる。 さらに,低密度乳房と比較して癌リスクが増大した。 本研究では, 高密度フルフィールドデジタルマンモグラム (ffdm) を母乳マス検出モデルトレーニングにおけるデータ強化として用いることで, 高密度乳房のマス検出性能の向上を目指す。 この目的のために,3つのFFDMデータセットを用いた5つのサイクル一貫性GAN(CycleGAN)モデルを用いて,高分解能マンモグラムの低密度画像翻訳を訓練した。 トレーニング画像は乳房密度 BI-RADS の分類で区切られ, BI-RADS A はほぼ完全に脂肪酸であり, BI-RADS D は極度に高濃度の乳房であった。 提案手法は, 2種類のテストセットにおいて, 高密度乳房における質量検出の感度と精度を2%, 6%向上させ, ドメイン適応法として有用であった。 さらに,2名の専門放射線医と1名の外科腫瘍医を対象とする読影者を対象に,合成画像の臨床的リアリズムを評価した。

Computer-aided detection systems based on deep learning have shown good performance in breast cancer detection. However, high-density breasts show poorer detection performance since dense tissues can mask or even simulate masses. Therefore, the sensitivity of mammography for breast cancer detection can be reduced by more than 20% in dense breasts. Additionally, extremely dense cases reported an increased risk of cancer compared to low-density breasts. This study aims to improve the mass detection performance in high-density breasts using synthetic high-density full-field digital mammograms (FFDM) as data augmentation during breast mass detection model training. To this end, a total of five cycle-consistent GAN (CycleGAN) models using three FFDM datasets were trained for low-to-high-density image translation in high-resolution mammograms. The training images were split by breast density BI-RADS categories, being BI-RADS A almost entirely fatty and BI-RADS D extremely dense breasts. Our results showed that the proposed data augmentation technique improved the sensitivity and precision of mass detection in high-density breasts by 2% and 6% in two different test sets and was useful as a domain adaptation technique. In addition, the clinical realism of the synthetic images was evaluated in a reader study involving two expert radiologists and one surgical oncologist.
翻訳日:2022-09-21 19:19:38 公開日:2022-09-20
# 超解像と雑音低減深層学習技術を用いた糖尿病性足潰瘍のモニタリング

Diabetic foot ulcers monitoring by employing super resolution and noise reduction deep learning techniques ( http://arxiv.org/abs/2209.09880v1 )

ライセンス: Link先を確認
Agapi Davradou, Eftychios Protopapadakis, Maria Kaselimi, Anastasios Doulamis, Nikolaos Doulamis(参考訳) 糖尿病性足潰瘍 (dfus) は糖尿病患者の重篤な合併症である。 DFU患者のケアは、早期診断、潰瘍予防、既存の潰瘍の合併症管理を実現するために、自己管理によって大幅に改善することができる。 本稿では,糖尿病性足部潰瘍の意思決定とモニタリングを支援する画像から画像への翻訳技術(ititt)の2つのカテゴリについて検討する。 前例では,畳み込みニューラルネットワークスタックドオートエンコーダ(CNN-SAE)のノイズ除去能力について検討した。 CNN-SAEはガウスノイズによって誘導されるRGB画像上で試験された。 後者のシナリオは、4つのディープラーニングスーパーレゾリューションモデルの導入に関するものだ。 両方のシナリオにおいて、全てのモデルのパフォーマンスは実行時間と知覚された品質で評価された。 提案手法は,DFUモニタリング用に設計されたシステムで使用すべき,実用的で実装が容易な代替手段であることを示す。

Diabetic foot ulcers (DFUs) constitute a serious complication for people with diabetes. The care of DFU patients can be substantially improved through self-management, in order to achieve early-diagnosis, ulcer prevention, and complications management in existing ulcers. In this paper, we investigate two categories of image-to-image translation techniques (ItITT), which will support decision making and monitoring of diabetic foot ulcers: noise reduction and super-resolution. In the former case, we investigated the capabilities on noise removal, for convolutional neural network stacked-autoencoders (CNN-SAE). CNN-SAE was tested on RGB images, induced with Gaussian noise. The latter scenario involves the deployment of four deep learning super-resolution models. The performance of all models, for both scenarios, was evaluated in terms of execution time and perceived quality. Results indicate that applied techniques consist a viable and easy to implement alternative that should be used by any system designed for DFU monitoring.
翻訳日:2022-09-21 19:19:18 公開日:2022-09-20
# フランジプラットフォームからの反社会的行動のスパイル : コミュニティ禁止の意図しない結果

Spillover of Antisocial Behavior from Fringe Platforms: The Unintended Consequences of Community Banning ( http://arxiv.org/abs/2209.09803v1 )

ライセンス: Link先を確認
Giuseppe Russo, Luca Verginer, Manoel Horta Ribeiro, Giona Casiraghi(参考訳) オンラインプラットフォームは、コミュニティを公然と尊重し続けるよう圧力にさらされている。 このように、redditやfacebookのような主流プラットフォームから問題のあるオンラインコミュニティの禁止は、しばしば熱烈な世論の反応に遭っている。 しかし、このポリシーにより、ユーザーはより低モデレーション基準の代替プラットフォームに移行することができ、トロルやハラスメントといった反社会的行動が広く受け入れられる。 これらのコミュニティのユーザは、主流プラットフォームとフリンジプラットフォーム間で \ca のままであることが多いため、反社会的行動が主流プラットフォームにこぼれる可能性がある。 r/The\_Donald、r/GenderCritical、r/Incelsの3つの禁止されたコミュニティからの70,000ドルのユーザを分析して、この流出の可能性を調査した。 差異の異なる設計を用いて、 \ca ユーザとマッチングしたユーザを比較して、reddit における fringe プラットフォーム参加の反社会的行動に対する因果効果を推定する。 私たちの結果は、フリンジコミュニティに参加することで、Reddit上での(パースペクティブAPIによって測定された)ユーザの毒性が増加し、禁止されているコミュニティと同様のサブレディットへの関与が増加します。 この効果は、時間とフリンジプラットフォームへの露出によって強化される。 要するに私たちは、fringeプラットフォームからredditへの共同参加を通じて、反社会的行動が流出した証拠を見つけました。

Online platforms face pressure to keep their communities civil and respectful. Thus, the bannings of problematic online communities from mainstream platforms like Reddit and Facebook are often met with enthusiastic public reactions. However, this policy can lead users to migrate to alternative fringe platforms with lower moderation standards and where antisocial behaviors like trolling and harassment are widely accepted. As users of these communities often remain \ca across mainstream and fringe platforms, antisocial behaviors may spill over onto the mainstream platform. We study this possible spillover by analyzing around $70,000$ users from three banned communities that migrated to fringe platforms: r/The\_Donald, r/GenderCritical, and r/Incels. Using a difference-in-differences design, we contrast \ca users with matched counterparts to estimate the causal effect of fringe platform participation on users' antisocial behavior on Reddit. Our results show that participating in the fringe communities increases users' toxicity on Reddit (as measured by Perspective API) and involvement with subreddits similar to the banned community -- which often also breach platform norms. The effect intensifies with time and exposure to the fringe platform. In short, we find evidence for a spillover of antisocial behavior from fringe platforms onto Reddit via co-participation.
翻訳日:2022-09-21 19:13:15 公開日:2022-09-20
# QuestSim:シミュレーションアバターによるスパースセンサーからの人間のモーショントラッキング

QuestSim: Human Motion Tracking from Sparse Sensors with Simulated Avatars ( http://arxiv.org/abs/2209.09391v1 )

ライセンス: Link先を確認
Alexander Winkler, Jungdam Won, Yuting Ye(参考訳) 人体の動きのリアルタイム追跡は、AR/VRにおけるインタラクティブで没入的な体験に不可欠である。 しかし、身体に関する非常に限られたセンサーデータは、HMD(Head Mounted Devices)やARグラスのようなスタンドアロンのウェアラブルデバイスから利用できる。 そこで本研究では,hmdと2つのコントローラからのスパース信号を取り込んで,実用的かつ物理的に有効な全身動作をシミュレートする強化学習フレームワークを提案する。 訓練中、質の高い全身運動を密集した監督として使用することで、単純なポリシーネットワークは、入力信号に忠実に追従しながら、キャラクタのバランス、歩行、ジョギングに適切なトルクを出力することができる。 以上の結果から,HMDの6次元変換のみの入力であっても,下肢の観察を行なわずに,下肢の動きに驚くほどよく似ていることが示された。 また、1つのポリシーが多様なロコモーションスタイル、異なるボディサイズ、そして新しい環境に対して堅牢であることも示しています。

Real-time tracking of human body motion is crucial for interactive and immersive experiences in AR/VR. However, very limited sensor data about the body is available from standalone wearable devices such as HMDs (Head Mounted Devices) or AR glasses. In this work, we present a reinforcement learning framework that takes in sparse signals from an HMD and two controllers, and simulates plausible and physically valid full body motions. Using high quality full body motion as dense supervision during training, a simple policy network can learn to output appropriate torques for the character to balance, walk, and jog, while closely following the input signals. Our results demonstrate surprisingly similar leg motions to ground truth without any observations of the lower body, even when the input is only the 6D transformations of the HMD. We also show that a single policy can be robust to diverse locomotion styles, different body sizes, and novel environments.
翻訳日:2022-09-21 19:12:32 公開日:2022-09-20
# 格子型3次元物体検出における次元化の再考

Rethinking Dimensionality Reduction in Grid-based 3D Object Detection ( http://arxiv.org/abs/2209.09464v1 )

ライセンス: Link先を確認
Dihe Huang, Ying Chen, Yikang Ding, Jinli Liao, Jianlin Liu, Kai Wu, Qiang Nie, Yong Liu, Chengjie Wang(参考訳) バードアイビュー (Bird's Eye View, BEV) は、よく探索された2D検出技術の適用性のため、現在の雲検出器のほとんどで広く採用されている。 しかし、既存の方法では、ボクセルや点の特徴を高さ次元に沿って簡単に折り畳み、BEVの特徴が得られ、3次元空間情報が失われる。 情報損失を軽減するため,MDRNetと呼ばれるマルチレベル特徴量次元削減戦略に基づく新しいポイントクラウド検出ネットワークを提案する。 MDRNetでは、空間認識次元度低減(SDR)は、ボクセル-BEV間の特徴変換において、オブジェクトの価値のある部分に動的に集中するように設計されている。 さらに,BEV特徴写像の多レベル空間情報を融合するために,MSR(Multi-level Spatial Residuals)を提案する。 ヌッセンに関する広範囲な実験により,提案手法が最先端手法よりも優れていることが示された。 コードは公開時に公開されます。

Bird's eye view (BEV) is widely adopted by most of the current point cloud detectors due to the applicability of well-explored 2D detection techniques. However, existing methods obtain BEV features by simply collapsing voxel or point features along the height dimension, which causes the heavy loss of 3D spatial information. To alleviate the information loss, we propose a novel point cloud detection network based on a Multi-level feature dimensionality reduction strategy, called MDRNet. In MDRNet, the Spatial-aware Dimensionality Reduction (SDR) is designed to dynamically focus on the valuable parts of the object during voxel-to-BEV feature transformation. Furthermore, the Multi-level Spatial Residuals (MSR) is proposed to fuse the multi-level spatial information in the BEV feature maps. Extensive experiments on nuScenes show that the proposed method outperforms the state-of-the-art methods. The code will be available upon publication.
翻訳日:2022-09-21 19:12:15 公開日:2022-09-20
# BuFF:光拘束型3D再構成のためのバースト機能ファインダ

BuFF: Burst Feature Finder for Light-Constrained 3D Reconstruction ( http://arxiv.org/abs/2209.09470v1 )

ライセンス: Link先を確認
Ahalya Ravendran, Mitch Bryson, Donald G. Dansereau(参考訳) 従来のビジョンカメラを使って夜間に作動するロボットは、ノイズ制限画像による復元において重大な課題に直面している。 これまでの研究は、バーストイメージング技術がこの問題を部分的に克服するために使用できることを示した。 本稿では,超低照度環境下での視覚的再構成を向上する画像バーストを直接操作する特徴検出器を開発した。 提案手法は,マルチスケールおよびマルチモーション空間を共同で探索することにより,各バースト内における明瞭なスケールと明らかな動きのキーポイントを求める。 これらの特徴を,信号対雑音比が高い段階で記述するため,検出された特徴は従来のノイズ画像やバーストマージ画像よりも高精度であり,高精度,リコール,マッチング性能を示す。 撮影性能の向上とカメラのポーズ推定を行い,照度制約のあるシーンにおける特徴検出装置を用いて,撮影性能の向上を示す。 我々の機能ファインダは、夜間操作を含む低照度シナリオやアプリケーションで動作するロボットに対して重要なステップを提供する。

Robots operating at night using conventional vision cameras face significant challenges in reconstruction due to noise-limited images. Previous work has demonstrated that burst-imaging techniques can be used to partially overcome this issue. In this paper, we develop a novel feature detector that operates directly on image bursts that enhances vision-based reconstruction under extremely low-light conditions. Our approach finds keypoints with well-defined scale and apparent motion within each burst by jointly searching in a multi-scale and multi-motion space. Because we describe these features at a stage where the images have higher signal-to-noise ratio, the detected features are more accurate than the state-of-the-art on conventional noisy images and burst-merged images and exhibit high precision, recall, and matching performance. We show improved feature performance and camera pose estimates and demonstrate improved structure-from-motion performance using our feature detector in challenging light-constrained scenes. Our feature finder provides a significant step towards robots operating in low-light scenarios and applications including night-time operations.
翻訳日:2022-09-21 19:12:01 公開日:2022-09-20
# エゴセントリックrgbビデオからの3次元手ポーズ推定と動作認識のための階層的時間変換

Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action Recognition from Egocentric RGB Videos ( http://arxiv.org/abs/2209.09484v1 )

ライセンス: Link先を確認
Yilin Wen, Hao Pan, Lei Yang, Jia Pan, Taku Komura, Wenping Wang(参考訳) 自我中心のRGBビデオから動的手の動きや動作を理解することは、自己排他性と曖昧さのため、基本的な課題である。 咬合と曖昧さに対処するために,時間的情報を利用してロバストな推定を行うトランスフォーマティブ・フレームワークを開発した。 手振り推定と動作認識の時間的粒度の違いと意味的相関に気付き、2つのカスケードトランスフォーマーエンコーダでネットワーク階層を構築し、まず手振り推定の短期的キューを利用し、後者はフレームごとのポーズとオブジェクト情報を長い時間をかけて集約し、その動作を認識する。 提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。 広範なアブレーション研究は 設計上の選択を検証します 今後の研究を促進するために、コードとデータをオープンソースにします。

Understanding dynamic hand motions and actions from egocentric RGB videos is a fundamental yet challenging task due to self-occlusion and ambiguity. To address occlusion and ambiguity, we develop a transformer-based framework to exploit temporal information for robust estimation. Noticing the different temporal granularity of and the semantic correlation between hand pose estimation and action recognition, we build a network hierarchy with two cascaded transformer encoders, where the first one exploits the short-term temporal cue for hand pose estimation, and the latter aggregates per-frame pose and object information over a longer time span to recognize the action. Our approach achieves competitive results on two first-person hand action benchmarks, namely FPHA and H2O. Extensive ablation studies verify our design choices. We will open-source code and data to facilitate future research.
翻訳日:2022-09-21 19:11:45 公開日:2022-09-20
# デジタルヒューマンヘッドの知覚品質評価

Perceptual Quality Assessment for Digital Human Heads ( http://arxiv.org/abs/2209.09489v1 )

ライセンス: Link先を確認
Zicheng Zhang, Yingjie Zhou, Wei Sun, Xiongkuo Min, Guangtao Zhai(参考訳) デジタル人間はこの10年間でますます研究の関心を惹きつけており、その生成、表現、レンダリング、アニメーションは大量の努力に費やされている。 しかし、デジタル人間の品質評価は遅れている。 そこで,デジタル人間品質評価の課題に取り組むために,スキャンされたデジタル人頭(dhhs)に対する最初の大規模品質評価データベースを提案する。 構築されたデータベースは、55の参照DHHと1,540の歪んだDHHと、主観評価からなる。 次に,単純かつ効果的なフルリファレンス(fr)投影法を提案する。 プリトレーニングされたスウィントランスを階層的特徴抽出に利用し、マルチヘッドアテンションモジュールを特徴融合に利用する。 実験の結果,本手法は主要なFR測定値の最先端性能を示すことがわかった。 この作業で提示されたデータベースとメソッドは公開されます。

Digital humans are attracting more and more research interest during the last decade, the generation, representation, rendering, and animation of which have been put into large amounts of effort. However, the quality assessment for digital humans has fallen behind. Therefore, to tackle the challenge of digital human quality assessment issues, we propose the first large-scale quality assessment database for scanned digital human heads (DHHs). The constructed database consists of 55 reference DHHs and 1,540 distorted DHHs along with the subjective ratings. Then, a simple yet effective full-reference (FR) projection-based method is proposed. The pretrained Swin Transformer tiny is employed for hierarchical feature extraction and the multi-head attention module is utilized for feature fusion. The experimental results reveal that the proposed method exhibits state-of-the-art performance among the mainstream FR metrics. The database and the method presented in this work will be made publicly available.
翻訳日:2022-09-21 19:11:27 公開日:2022-09-20
# NBD-GAP: クリーンターゲット画像のない非ブラインド画像

NBD-GAP: Non-Blind Image Deblurring Without Clean Target Images ( http://arxiv.org/abs/2209.09498v1 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair, Rajeev Yasarla and Vishal M. Patel(参考訳) 近年,ディープニューラルネットワークを用いた復元手法は,様々な画像デブラリング作業において最先端の成果を得られている。 しかし、ディープラーニングに基づくデブロワーリングネットワークの大きな欠点の1つは、優れたパフォーマンスを得るためには、訓練に大量のぼやけたクリーンなイメージペアが必要であることである。 さらに、テスト中のぼやけた画像とぼやけたカーネルがトレーニング中に使用するものとは大きく異なる場合、ディープネットワークはよく機能しないことが多い。 これは主に、トレーニングデータに対するネットワークパラメータの過度な適合に起因する。 本稿では,これらの問題に対処する手法を提案する。 非ブリンド画像のデブラリング問題をデノジング問題と見なす。 そこで我々は,1対のぼかし画像に対して,対応するぼかしカーネルを用いてワイナーフィルタリングを行う。 この結果、カラーノイズのある2つの画像が生成される。 したがって、デブルリング問題はデノージング問題に翻訳される。 次に, 明示的なクリーンターゲット画像を用いずに, 雑音除去問題を解く。 本手法は,最先端の非盲検作業と同等の結果が得られることを示すため,広範囲な実験を行った。

In recent years, deep neural network-based restoration methods have achieved state-of-the-art results in various image deblurring tasks. However, one major drawback of deep learning-based deblurring networks is that large amounts of blurry-clean image pairs are required for training to achieve good performance. Moreover, deep networks often fail to perform well when the blurry images and the blur kernels during testing are very different from the ones used during training. This happens mainly because of the overfitting of the network parameters on the training data. In this work, we present a method that addresses these issues. We view the non-blind image deblurring problem as a denoising problem. To do so, we perform Wiener filtering on a pair of blurry images with the corresponding blur kernels. This results in a pair of images with colored noise. Hence, the deblurring problem is translated into a denoising problem. We then solve the denoising problem without using explicit clean target images. Extensive experiments are conducted to show that our method achieves results that are on par to the state-of-the-art non-blind deblurring works.
翻訳日:2022-09-21 19:11:13 公開日:2022-09-20
# 心臓dti sms関連アーティファクト除去のためのデータタイプとモデル次元の検討

Review of data types and model dimensionality for cardiac DTI SMS-related artefact removal ( http://arxiv.org/abs/2209.09522v1 )

ライセンス: Link先を確認
Michael Tanzer, Sea Hee Yook, Guang Yang, Daniel Rueckert, Sonia Nielles-Vallespin(参考訳) 拡散テンソルイメージング(DTI)は、心臓の微細構造を非侵襲的に評価するユニークな能力によって、心臓イメージングにおいて人気が高まり、ディープラーニングベースの人工知能は、長いスキャン時間など、その欠点を緩和する重要なツールになりつつある。 ペースの速い研究環境ではよくあることだが、深層学習の能力を示すことには多くの注意が払われているが、入力とアーキテクチャのプロパティが心のdtiアクセラレーションに最も有益であるかどうかを調べるのに時間がないことが多い。 本研究では,マルチスライス(SMS)の同時取得によるアーティファクトの除去を訓練したモデルの性能に対する,複数の入力型(マグニチュード画像対複素画像),複数次元性(2Dと3Dの操作),複数入力型(シングルスライス対マルチスライス)の影響を比較した。 最初の直観にもかかわらず、我々の実験は、固定数のパラメータに対して、より単純な2次元実数値モデルの方が、より高度な3Dまたは複雑なモデルよりも優れていることを示した。 最良の性能は、取得したデータの大きさと位相の両方を使って訓練された実数値モデルによって得られる。 この挙動は, パラメータの少ない実数値モデルと, 実験で使用したSMSアクセラレーションの低さから空間情報を活用できない3次元モデルに起因していると考えている。

As diffusion tensor imaging (DTI) gains popularity in cardiac imaging due to its unique ability to non-invasively assess the cardiac microstructure, deep learning-based Artificial Intelligence is becoming a crucial tool in mitigating some of its drawbacks, such as the long scan times. As it often happens in fast-paced research environments, a lot of emphasis has been put on showing the capability of deep learning while often not enough time has been spent investigating what input and architectural properties would benefit cardiac DTI acceleration the most. In this work, we compare the effect of several input types (magnitude images vs complex images), multiple dimensionalities (2D vs 3D operations), and multiple input types (single slice vs multi-slice) on the performance of a model trained to remove artefacts caused by a simultaneous multi-slice (SMS) acquisition. Despite our initial intuition, our experiments show that, for a fixed number of parameters, simpler 2D real-valued models outperform their more advanced 3D or complex counterparts. The best performance is although obtained by a real-valued model trained using both the magnitude and phase components of the acquired data. We believe this behaviour to be due to real-valued models making better use of the lower number of parameters, and to 3D models not being able to exploit the spatial information because of the low SMS acceleration factor used in our experiments.
翻訳日:2022-09-21 19:10:57 公開日:2022-09-20
# 3次元mriによる脳梗塞病変の自動分割

Automated ischemic stroke lesion segmentation from 3D MRI ( http://arxiv.org/abs/2209.09546v1 )

ライセンス: Link先を確認
Md Mahfuzur Rahman Siddique, Dong Yang, Yufan He, Daguang Xu, Andriy Myronenko(参考訳) Ischemic Stroke Lesion Segmentation Challenge (ISLES 2022)は、研究者がソリューションを3D MRIから虚血脳梗塞領域の3Dセグメンテーションと比較するためのプラットフォームを提供する。 本稿では,ISLES 2022セグメンテーションタスクに対するソリューションについて述べる。 我々は、すべての画像を共通の解像度に再サンプリングし、2つのMRIモード(DWIとADC)を使用し、MONAIからSegResNetセマンティックセグメンテーションネットワークを訓練する。 最終的な提出は15モデルのアンサンブル(5倍のクロスバリデーションの3つの実行から)である。 私たちのソリューション(チーム名nvauto)は、diceメトリック(0.824)と総合ランク2(合計メトリックランキングに基づく)の点で最上位に到達します。

Ischemic Stroke Lesion Segmentation challenge (ISLES 2022) offers a platform for researchers to compare their solutions to 3D segmentation of ischemic stroke regions from 3D MRIs. In this work, we describe our solution to ISLES 2022 segmentation task. We re-sample all images to a common resolution, use two input MRI modalities (DWI and ADC) and train SegResNet semantic segmentation network from MONAI. The final submission is an ensemble of 15 models (from 3 runs of 5-fold cross validation). Our solution (team name NVAUTO) achieves the top place in terms of Dice metric (0.824), and overall rank 2 (based on the combined metric ranking).
翻訳日:2022-09-21 19:10:30 公開日:2022-09-20
# 高速関数抽出と非線形最小二乗最適化による記号回帰

Symbolic Regression with Fast Function Extraction and Nonlinear Least Squares Optimization ( http://arxiv.org/abs/2209.09675v1 )

ライセンス: Link先を確認
Lukas Kammerer, Gabriel Kronberger, Michael Kommenda(参考訳) fast function extraction (ffx) は記号回帰問題を解く決定論的アルゴリズムである。 非線形関数の引数にパラメータを追加することでFFXの精度を向上させる。 線形パラメータを最適化する代わりに、可変射影アルゴリズムを用いて分離可能な非線形最小二乗最適化を行う非線形パラメータを最適化する。 FFXと我々の新しいアルゴリズムはPennMLベンチマークスイートに適用される。 提案するffxの拡張により,同じ長さのモデルを提供しながら,与えられたデータ上でのランタイムをほんの少し増加させるだけで,精度が向上することを示す。 私たちの結果は、与えられたベンチマークスイートですでに公開された大量の回帰メソッドと比較されます。

Fast Function Extraction (FFX) is a deterministic algorithm for solving symbolic regression problems. We improve the accuracy of FFX by adding parameters to the arguments of nonlinear functions. Instead of only optimizing linear parameters, we optimize these additional nonlinear parameters with separable nonlinear least squared optimization using a variable projection algorithm. Both FFX and our new algorithm is applied on the PennML benchmark suite. We show that the proposed extensions of FFX leads to higher accuracy while providing models of similar length and with only a small increase in runtime on the given data. Our results are compared to a large set of regression methods that were already published for the given benchmark suite.
翻訳日:2022-09-21 19:04:21 公開日:2022-09-20
# 変圧器モデルにおける整数微調整

Integer Fine-tuning of Transformer-based Models ( http://arxiv.org/abs/2209.09815v1 )

ライセンス: Link先を確認
Mohammadreza Tayaranian, Alireza Ghaffari, Marzieh S. Tahaei, Mehdi Rezagholizadeh, Masoud Asgharian, Vahid Partovi Nia(参考訳) トランスフォーマーベースのモデルは、様々なディープラーニングタスクにおける最先端のパフォーマンスを達成するために使用される。 トランスフォーマーベースのモデルには多くのパラメータがあるため、下流タスクの微調整は計算量が多く、省エネである。 このようなモデルの自動混合精度fp32/fp16の微調整は、計算リソース要件の低減にこれまで用いられてきた。 しかし、低ビット整数バックプロパゲーションの最近の進歩により、計算とメモリフットプリントをさらに削減することができる。 本研究では,線形,畳み込み,層ノルム,埋め込み層の前方伝播および勾配計算に整数演算を用いる新しい整数学習法について検討する。 さらに,様々な整数ビット幅の影響について検討し,変圧器モデルにおける整数微調整に必要な最小ビット幅を求める。 整数層を用いて、人気のある下流タスク上でBERTとViTモデルを微調整する。 16ビット整数モデルは浮動小数点ベースライン性能に適合することを示す。 ビット幅を10に減らすと、平均スコアが0.5低下する。 最後に、ビット幅を8に下げると平均スコアが1.7ポイント低下する。

Transformer based models are used to achieve state-of-the-art performance on various deep learning tasks. Since transformer-based models have large numbers of parameters, fine-tuning them on downstream tasks is computationally intensive and energy hungry. Automatic mixed-precision FP32/FP16 fine-tuning of such models has been previously used to lower the compute resource requirements. However, with the recent advances in the low-bit integer back-propagation, it is possible to further reduce the computation and memory foot-print. In this work, we explore a novel integer training method that uses integer arithmetic for both forward propagation and gradient computation of linear, convolutional, layer-norm, and embedding layers in transformer-based models. Furthermore, we study the effect of various integer bit-widths to find the minimum required bit-width for integer fine-tuning of transformer-based models. We fine-tune BERT and ViT models on popular downstream tasks using integer layers. We show that 16-bit integer models match the floating-point baseline performance. Reducing the bit-width to 10, we observe 0.5 average score drop. Finally, further reduction of the bit-width to 8 provides an average score drop of 1.7 points.
翻訳日:2022-09-21 19:04:12 公開日:2022-09-20
# ESTA:Esportsの軌跡とアクションデータセット

ESTA: An Esports Trajectory and Action Dataset ( http://arxiv.org/abs/2209.09861v1 )

ライセンス: Link先を確認
Peter Xenopoulos, Claudio Silva(参考訳) スポーツは、グローバルなリーチとインパクトに富んだ予測タスクのおかげで、機械学習モデルをデプロイするエキサイティングな領域である。 しかし、従来のスポーツのデータはそのサイズ、正確性、アクセシビリティのために研究に適さないことが多い。 これらの問題に対処するため,従来のスポーツと同じような能力でプレイされるビデオゲームを対象とするエスポートに目を向ける。 esportsデータは周辺センサーではなくサーバログ経由で取得されるため、esportsは、従来のスポーツで収集されたものと類似した、クリーンで詳細な時空間データの膨大なコレクションを得るユニークな機会を提供する。 エスポートデータを解析するために,オープンソースのエスポートゲームログ解析ライブラリであるawpyを開発し,ゲームログからプレイヤーの軌跡やアクションを抽出する。 awpyを用いて、プロのCounter-Strikeトーナメントの1,558のゲームログから8.6mのアクション、7.9mのゲームフレーム、417kのトラジェクトリを解析し、Esports Trajectory and Actions(ESTA)データセットを作成する。 ESTAは、これまでで最大かつ最も細かく公開されているスポーツデータセットの1つである。 我々はestaを用いてプレイヤー固有の情報を用いたウィン予測のためのベンチマークを開発した。 ESTAデータはhttps://github.com/pnxenopoulos/estaで入手できる。

Sports, due to their global reach and impact-rich prediction tasks, are an exciting domain to deploy machine learning models. However, data from conventional sports is often unsuitable for research use due to its size, veracity, and accessibility. To address these issues, we turn to esports, a growing domain that encompasses video games played in a capacity similar to conventional sports. Since esports data is acquired through server logs rather than peripheral sensors, esports provides a unique opportunity to obtain a massive collection of clean and detailed spatiotemporal data, similar to those collected in conventional sports. To parse esports data, we develop awpy, an open-source esports game log parsing library that can extract player trajectories and actions from game logs. Using awpy, we parse 8.6m actions, 7.9m game frames, and 417k trajectories from 1,558 game logs from professional Counter-Strike tournaments to create the Esports Trajectory and Actions (ESTA) dataset. ESTA is one of the largest and most granular publicly available sports data sets to date. We use ESTA to develop benchmarks for win prediction using player-specific information. The ESTA data is available at https://github.com/pnxenopoulos/esta and awpy is made public through PyPI.
翻訳日:2022-09-21 19:03:56 公開日:2022-09-20
# スプリングバック予測を曲げた小型二層金属管の物理論理強化ネットワーク

Physical Logic Enhanced Network for Small-Sample Bi-Layer Metallic Tubes Bending Springback Prediction ( http://arxiv.org/abs/2209.09870v1 )

ライセンス: Link先を確認
Chang Sun, Zili Wang, Shuyou Zhang, Le Wang, Jianrong Tan(参考訳) 両層金属管(BMT)は工学的応用において極めて重要な役割を担い、ロータリードローイング曲げ(RDB)により高精度な曲げ加工が可能となるが、さらなるスプリングバックが期待できる。 BMTの複雑な構造とデータセット取得のコストが高いため、メカニズム研究と機械学習に基づく既存の手法は、スプリングバック予測の工学的要件を満たすことができない。 予備メカニズム解析に基づいて,物理論理拡張ネットワーク(PE-NET)を提案する。 このアーキテクチャは、BMTを単層管に等価するES-NETと、十分な単層管サンプルを持つスプリングバックの最終述語としてSP-NETを含む。 具体的には、理論駆動前爆発とデータ駆動前訓練により、es-netとsp-netがそれぞれ構築される。 第2段階では、物理論理の下でPE-NETはES-NETとSP-NETで組み立てられ、小さなサンプルBMTデータセットと複合損失関数で微調整される。 提案手法の有効性と安定性をFEシミュレーションデータセットを用いて検証し,小サンプルデータセットBMTスプリングバック角予測を行い,予測可能性および工学的応用の可能性を示す。

Bi-layer metallic tube (BMT) plays an extremely crucial role in engineering applications, with rotary draw bending (RDB) the high-precision bending processing can be achieved, however, the product will further springback. Due to the complex structure of BMT and the high cost of dataset acquisi-tion, the existing methods based on mechanism research and machine learn-ing cannot meet the engineering requirements of springback prediction. Based on the preliminary mechanism analysis, a physical logic enhanced network (PE-NET) is proposed. The architecture includes ES-NET which equivalent the BMT to the single-layer tube, and SP-NET for the final predic-tion of springback with sufficient single-layer tube samples. Specifically, in the first stage, with the theory-driven pre-exploration and the data-driven pretraining, the ES-NET and SP-NET are constructed, respectively. In the second stage, under the physical logic, the PE-NET is assembled by ES-NET and SP-NET and then fine-tuned with the small sample BMT dataset and composite loss function. The validity and stability of the proposed method are verified by the FE simulation dataset, the small-sample dataset BMT springback angle prediction is achieved, and the method potential in inter-pretability and engineering applications are demonstrated.
翻訳日:2022-09-21 19:03:34 公開日:2022-09-20
# コンフリクトベース探索 (cbs) と焦点探索 (fs) の組み合わせに基づくanytime mapfソルバの解析

Analysis Of The Anytime MAPF Solvers Based On The Combination Of Conflict-Based Search (CBS) and Focal Search (FS) ( http://arxiv.org/abs/2209.09612v1 )

ライセンス: Link先を確認
Ilya Ivanashev, Anton Andreychuk, Konstantin Yakovlev(参考訳) conflict-based search (cbs) はマルチエージェントパスファイニング(mapf)問題を最適に解くために広く用いられているアルゴリズムである。 cbsの核となる考え方は階層的探索を行い、高レベルにおいて解候補のツリーを探索し、低レベルにおいては特定のエージェント(特定の制約に従属する)の個別計画を実行することである。 CBSの高次・低次探索ルーチンを変更するため、制限付き準最適CBSの異なる変種を走らせるためのトレードオフ最適性を設計した。 さらに、CBSの高レベルなCBS - Anytime BCBSにFocal Search(FS)を適用する、CBSのあらゆるバリエーションが存在する。 しかし、cbsのサブオプティビティのバウンドが低下しただけの場合、このアルゴリズムがナイーブに比較していかにうまく機能するかの包括的な分析は行われなかった。 この仕事はこのギャップを埋めることを目指している。 さらに,CBSの両レベルにおいてFSを使用するCBSの任意のバージョンを提示し,評価する。 実験により,その挙動はAnytime BCBSが示したものとは大きく異なることがわかった。 最後に、両アルゴリズムを真っ向から比較し、CBSの両レベルでFocal Searchを使用することは、幅広い設定において有益であることを示す。

Conflict-Based Search (CBS) is a widely used algorithm for solving multi-agent pathfinding (MAPF) problems optimally. The core idea of CBS is to run hierarchical search, when, on the high level the tree of solutions candidates is explored, and on the low-level an individual planning for a specific agent (subject to certain constraints) is carried out. To trade-off optimality for running time different variants of bounded sub-optimal CBS were designed, which alter both high- and low-level search routines of CBS. Moreover, anytime variant of CBS does exist that applies Focal Search (FS) to the high-level of CBS - Anytime BCBS. However, no comprehensive analysis of how well this algorithm performs compared to the naive one, when we simply re-invoke CBS with the decreased sub-optimality bound, was present. This work aims at filling this gap. Moreover, we present and evaluate another anytime version of CBS that uses FS on both levels of CBS. Empirically, we show that its behavior is principally different from the one demonstrated by Anytime BCBS. Finally, we compare both algorithms head-to-head and show that using Focal Search on both levels of CBS can be beneficial in a wide range of setups.
翻訳日:2022-09-21 19:03:11 公開日:2022-09-20
# HPの強化フィルターは、想像以上に一般的なものだ

The boosted HP filter is more general than you might think ( http://arxiv.org/abs/2209.09810v1 )

ライセンス: Link先を確認
Ziwei Mei, Peter C. B. Phillips, Zhentao Shi(参考訳) 世界的な金融危機とコビッド不況は、マクロ経済データにおけるトレンドサイクル発見に関する新たな議論を巻き起こし、最近、人気のHPフィルタを、データリッチで高速な計算環境に適した現代的な機械学習デバイスにアップグレードした。 本稿では,HPフィルタのスムース化と一般トレンド検出の高速化による整合性の両方を簡易に説明しながら,トレンドサイクル決定の汎用性に光を当てる。 fred databaseの時系列の宇宙に適用することで、危機や回復時のダウンターンをタイムリーに捉えて、他の手法を上回ります。 適用範囲が広いHPフィルタは,マクロコノメトリツールキットに機械学習を自動で追加する手段として有用である。

The global financial crisis and Covid recession have renewed discussion concerning trend-cycle discovery in macroeconomic data, and boosting has recently upgraded the popular HP filter to a modern machine learning device suited to data-rich and rapid computational environments. This paper sheds light on its versatility in trend-cycle determination, explaining in a simple manner both HP filter smoothing and the consistency delivered by boosting for general trend detection. Applied to a universe of time series in FRED databases, boosting outperforms other methods in timely capturing downturns at crises and recoveries that follow. With its wide applicability the boosted HP filter is a useful automated machine learning addition to the macroeconometric toolkit.
翻訳日:2022-09-21 19:02:15 公開日:2022-09-20
# イノベーターの言語と社会的行動

The language and social behavior of innovators ( http://arxiv.org/abs/2209.09511v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, L. Toschi, E. Ughetto, F. Greco(参考訳) イノベーターは、革新的な組織の主要なエンジンを表す画期的なアイデアを活用できる創造的な人々である。 過去の研究は、イノベーターが誰で、仕事関連の活動でどのように振る舞うかを幅広く研究してきた。 本稿では,形式的構造やルール,作業義務を伴わずに知識を共有する非公式なコミュニケーション空間などにおいて,イノベーターが他の文脈でどのように振る舞うかを分析する必要があることを示唆する。 コミュニケーションとネットワーク理論に基づき,多国籍企業のイントラネットフォーラムで利用可能な投稿約38,000本を分析した。 このことから,イノベーターが他の従業員とソーシャル・ネットワークの行動や言語特性の点でどのように異なるかを説明する。 テキストマイニングによって、イノベーターはより多くの文章を書き、より複雑な言語を使い、新しい概念/イデアを導入し、ポジティブだが事実に基づく言語を使う。 イノベーターの振る舞いとコミュニケーションを理解することは、イノベーションを育てたいマネージャの意思決定プロセスを支援する。

Innovators are creative people who can conjure the ground-breaking ideas that represent the main engine of innovative organizations. Past research has extensively investigated who innovators are and how they behave in work-related activities. In this paper, we suggest that it is necessary to analyze how innovators behave in other contexts, such as in informal communication spaces, where knowledge is shared without formal structure, rules, and work obligations. Drawing on communication and network theory, we analyze about 38,000 posts available in the intranet forum of a large multinational company. From this, we explain how innovators differ from other employees in terms of social network behavior and language characteristics. Through text mining, we find that innovators write more, use a more complex language, introduce new concepts/ideas, and use positive but factual-based language. Understanding how innovators behave and communicate can support the decision-making processes of managers who want to foster innovation.
翻訳日:2022-09-21 19:01:39 公開日:2022-09-20
# 構造化ガウス過程を用いた部分配列ラベリング

Partial sequence labeling with structured Gaussian Processes ( http://arxiv.org/abs/2209.09397v1 )

ライセンス: Link先を確認
Xiaolei Lu, Tommy W.S. Chow(参考訳) 既存の部分列ラベリングモデルは主に、予測の不確実性評価の提供に失敗するmax-marginフレームワークに焦点を当てている。 さらに、これらのモデルが採用する一意な根拠真理曖昧化戦略は、パラメータ学習のための間違ったラベル情報を含むかもしれない。 本稿では,予測の不確かさを符号化し,モデル選択やハイパーパラメータ学習に余計な労力を要しない部分列ラベリング(sgppsl)のための構造化ガウス過程を提案する。 このモデルは、線形連鎖グラフ構造を一組の断片に分割し、基本的なマルコフランダムフィールド構造を保存し、部分的に注釈付きデータによって生成される多数の候補出力シーケンスの処理を効果的に回避する。 次に、モデルに信頼度尺度を導入し、候補ラベルの異なる貢献に対処することにより、基底ラベル情報をパラメータ学習に活用することができる。 提案モデルの変分下限の導出した下限に基づいて、変分パラメータと信頼度測度を交互最適化の枠組みで推定する。 さらに、重み付きビタビアルゴリズムは、トレーニングデータ中の複数のアノテーションから生じるラベルのあいまいさを考慮し、信頼性測定をシーケンス予測に組み込むことにより、性能の向上を支援する。 SGPPSLを複数のシーケンスラベリングタスクで評価し,実験結果から提案モデルの有効性を示した。

Existing partial sequence labeling models mainly focus on max-margin framework which fails to provide an uncertainty estimation of the prediction. Further, the unique ground truth disambiguation strategy employed by these models may include wrong label information for parameter learning. In this paper, we propose structured Gaussian Processes for partial sequence labeling (SGPPSL), which encodes uncertainty in the prediction and does not need extra effort for model selection and hyperparameter learning. The model employs factor-as-piece approximation that divides the linear-chain graph structure into the set of pieces, which preserves the basic Markov Random Field structure and effectively avoids handling large number of candidate output sequences generated by partially annotated data. Then confidence measure is introduced in the model to address different contributions of candidate labels, which enables the ground-truth label information to be utilized in parameter learning. Based on the derived lower bound of the variational lower bound of the proposed model, variational parameters and confidence measures are estimated in the framework of alternating optimization. Moreover, weighted Viterbi algorithm is proposed to incorporate confidence measure to sequence prediction, which considers label ambiguity arose from multiple annotations in the training data and thus helps improve the performance. SGPPSL is evaluated on several sequence labeling tasks and the experimental results show the effectiveness of the proposed model.
翻訳日:2022-09-21 18:54:58 公開日:2022-09-20
# クリックスルー率予測における特徴埋め込み

Feature embedding in click-through rate prediction ( http://arxiv.org/abs/2209.09481v1 )

ライセンス: Link先を確認
Samo Pahor, Davorin Kopi\v{c}, Jure Dem\v{s}ar(参考訳) クリックスルー率予測プロセスを改善するために,機能埋め込みの課題に取り組む。 我々は,ロジスティック回帰,因子分解マシン,深層因子化マシンの3つのモデルをベースラインとして選択し,組み込みスケーリング,fm組込み,エンベロープエンコーディング,nn組込み,埋め込み重み付けモジュールの5つの異なる機能組込みモジュールを提案する。 埋め込みモジュールはベースラインモデルの特徴埋め込みを改善する手段として機能し、他のモデルのパラメータとともにエンドツーエンドでトレーニングされる。 各モジュールはベースラインモデルに個別に追加され、新しい拡張モデルが得られる。 我々は,クリックスルー率予測モデルのベンチマークに使用される公開データセット上で,拡張モデルの予測性能をテストする。 提案する組込みモジュールは,トレーニング時間を大幅に増加させることなく,予測性能を著しく向上させることを示す。

We tackle the challenge of feature embedding for the purposes of improving the click-through rate prediction process. We select three models: logistic regression, factorization machines and deep factorization machines, as our baselines and propose five different feature embedding modules: embedding scaling, FM embedding, embedding encoding, NN embedding and the embedding reweighting module. The embedding modules act as a way to improve baseline model feature embeddings and are trained alongside the rest of the model parameters in an end-to-end manner. Each module is individually added to a baseline model to obtain a new augmented model. We test the predictive performance of our augmented models on a publicly accessible dataset used for benchmarking click-through rate prediction models. Our results show that several proposed embedding modules provide an important increase in predictive performance without a drastic increase in training time.
翻訳日:2022-09-21 18:54:34 公開日:2022-09-20
# 補完ラベル学習から確率推定への還元

Reduction from Complementary-Label Learning to Probability Estimates ( http://arxiv.org/abs/2209.09500v1 )

ライセンス: Link先を確認
Wei-I Lin, Hsuan-Tien Lin(参考訳) 補完ラベル学習 (Complementary-Label Learning, CLL) は、補完ラベルのみから多クラス分類器を学習することを目的とした、弱い教師付き学習問題である。 既存のアプローチは主に通常の分類への還元のパラダイムを採用しており、CLLを通常の分類に戻すために特定の変換を適用し、損失を補う。 しかし、これらのアプローチは、過度に適合する傾向や深いモデルに縛られる傾向など、いくつかの制限に直面している。 本稿では,これらの制約を新たな視点,すなわち補足クラスの確率推定への還元に脇取りする。 補ラベルの正確な確率推定は、簡単な復号化ステップを通じて、良い分類器をもたらすことが証明される。 この証明は、CLLから確率推定への還元フレームワークを確立する。 このフレームワークは、いくつかの重要なCLLアプローチを特別なケースとして説明し、ノイズの多い環境でより堅牢な改良アルゴリズムを設計できるようにします。 このフレームワークはまた、確率推定の質に基づいた検証手順も提案しており、補完ラベルのみを持つモデルを検証する別の方法に繋がる。 フレキシブルフレームワークは、CLL問題を解くために、確率推定のためにディープモデルとノンディープモデルを使用する幅広い未探索の機会を開放する。 実験により、様々な環境でのフレームワークの有効性と堅牢性をさらに検証した。

Complementary-Label Learning (CLL) is a weakly-supervised learning problem that aims to learn a multi-class classifier from only complementary labels, which indicate a class to which an instance does not belong. Existing approaches mainly adopt the paradigm of reduction to ordinary classification, which applies specific transformations and surrogate losses to connect CLL back to ordinary classification. Those approaches, however, face several limitations, such as the tendency to overfit or be hooked on deep models. In this paper, we sidestep those limitations with a novel perspective--reduction to probability estimates of complementary classes. We prove that accurate probability estimates of complementary labels lead to good classifiers through a simple decoding step. The proof establishes a reduction framework from CLL to probability estimates. The framework offers explanations of several key CLL approaches as its special cases and allows us to design an improved algorithm that is more robust in noisy environments. The framework also suggests a validation procedure based on the quality of probability estimates, leading to an alternative way to validate models with only complementary labels. The flexible framework opens a wide range of unexplored opportunities in using deep and non-deep models for probability estimates to solve the CLL problem. Empirical experiments further verified the framework's efficacy and robustness in various settings.
翻訳日:2022-09-21 18:54:19 公開日:2022-09-20
# ナイーブベイズの判別力を高める

Boosting the Discriminant Power of Naive Bayes ( http://arxiv.org/abs/2209.09532v1 )

ライセンス: Link先を確認
Shihe Wang, Jianfeng Ren, Xiaoyu Lian, Ruibin Bai, Xudong Jiang(参考訳) Naive Bayesは、数値データと分類データの両方を扱う単純さと能力のため、多くのアプリケーションで広く使われている。 しかし、特徴間の相関関係のモデル化の欠如は性能を制限している。 さらに、実世界のデータセットのノイズと外れ値も、分類性能を著しく低下させる。 本稿では,スタック自動エンコーダを用いて,データ中のノイズを低減し,ベイズの判別力を高める特徴拡張手法を提案する。 提案するスタックオートエンコーダは,異なる目的で2つのオートエンコーダで構成される。 第1エンコーダは、ノイズと冗長情報を除去するために、初期特徴を縮小してコンパクトな特徴表現を導出する。 第2のエンコーダは、それらを高次元の空間に拡張することで特徴の判別力を高めるので、異なる種類のサンプルを高次元の空間でより分離することができる。 提案手法を正規化したナイーブベイズと統合することにより,モデルの識別能力が大幅に向上した。 提案手法は,機械学習ベンチマークデータセットのセット上で評価される。 実験結果から,提案手法は最先端のベイズ分類器よりも大きく,かつ一貫した性能を示した。

Naive Bayes has been widely used in many applications because of its simplicity and ability in handling both numerical data and categorical data. However, lack of modeling of correlations between features limits its performance. In addition, noise and outliers in the real-world dataset also greatly degrade the classification performance. In this paper, we propose a feature augmentation method employing a stack auto-encoder to reduce the noise in the data and boost the discriminant power of naive Bayes. The proposed stack auto-encoder consists of two auto-encoders for different purposes. The first encoder shrinks the initial features to derive a compact feature representation in order to remove the noise and redundant information. The second encoder boosts the discriminant power of the features by expanding them into a higher-dimensional space so that different classes of samples could be better separated in the higher-dimensional space. By integrating the proposed feature augmentation method with the regularized naive Bayes, the discrimination power of the model is greatly enhanced. The proposed method is evaluated on a set of machine-learning benchmark datasets. The experimental results show that the proposed method significantly and consistently outperforms the state-of-the-art naive Bayes classifiers.
翻訳日:2022-09-21 18:53:58 公開日:2022-09-20
# ジェンダーワージギャップの閉鎖--求職勧告における相手の公正性

Closing the Gender Wage Gap: Adversarial Fairness in Job Recommendation ( http://arxiv.org/abs/2209.09592v1 )

ライセンス: Link先を確認
Clara Rus, Jeffrey Luppes, Harrie Oosterhuis, Gido H. Schoenmacker(参考訳) 本研究の目的は、求職者の履歴書に基づいて、偏見のない求人推薦を提供することで、既存の男女賃金格差を緩和することである。 我々は,1200万のジョブ空白テキストと900万の履歴書のword2vec表現からジェンダーバイアスを取り除くために,生成型adversarial networkを用いる。 その結果,採用テキストから生成された表現にはアルゴリズム的バイアスが伴い,このバイアスはレコメンデーションシステムに現実的な結果をもたらすことがわかった。 偏りをコントロールできなければ、女性は私たちのデータでかなり低い給与で推奨される仕事です。 反対に公正な表現では、この賃金格差は消滅し、偏った雇用勧告によって賃金差別が減ることを意味する。 単語表現の逆偏りは、システムの現実的公正性を高めることができるため、公平性を考慮したレコメンデーションシステムを構築するためのソリューションの一部である可能性がある。

The goal of this work is to help mitigate the already existing gender wage gap by supplying unbiased job recommendations based on resumes from job seekers. We employ a generative adversarial network to remove gender bias from word2vec representations of 12M job vacancy texts and 900k resumes. Our results show that representations created from recruitment texts contain algorithmic bias and that this bias results in real-world consequences for recommendation systems. Without controlling for bias, women are recommended jobs with significantly lower salary in our data. With adversarially fair representations, this wage gap disappears, meaning that our debiased job recommendations reduce wage discrimination. We conclude that adversarial debiasing of word representations can increase real-world fairness of systems and thus may be part of the solution for creating fairness-aware recommendation systems.
翻訳日:2022-09-21 18:53:40 公開日:2022-09-20
# データ検証のための形状制約型回帰アルゴリズムの比較

Comparing Shape-Constrained Regression Algorithms for Data Validation ( http://arxiv.org/abs/2209.09602v1 )

ライセンス: Link先を確認
Florian Bachinger, Gabriel Kronberger(参考訳) 産業や科学の応用は、人間の手作業による検証が不可能な大量のデータを扱う。 したがって、データ品質の信頼性の高い評価を行うためには、ドメインエキスパートの事前知識を考慮可能な自動データ検証アプローチが必要である。 以前の知識はしばしば、ターゲットに関する入力の相互作用を記述する規則として利用され、例えば、ターゲットは、入力値の増大に対して単調に減少し、凸である必要がある。 ドメインの専門家は一度に複数のインタラクションを検証することができます。 しかし、既存のルールベースのデータ検証アプローチでは、これらの制約を考慮できない。 本研究では,その分類精度と実行時性能に基づいて,データ検証のための異なる形状制約付き回帰アルゴリズムを比較する。

Industrial and scientific applications handle large volumes of data that render manual validation by humans infeasible. Therefore, we require automated data validation approaches that are able to consider the prior knowledge of domain experts to produce dependable, trustworthy assessments of data quality. Prior knowledge is often available as rules that describe interactions of inputs with regard to the target e.g. the target must be monotonically decreasing and convex over increasing input values. Domain experts are able to validate multiple such interactions at a glance. However, existing rule-based data validation approaches are unable to consider these constraints. In this work, we compare different shape-constrained regression algorithms for the purpose of data validation based on their classification accuracy and runtime performance.
翻訳日:2022-09-21 18:53:23 公開日:2022-09-20
# MAC: 機能学習と再結合のためのメタ学習アプローチ

MAC: A Meta-Learning Approach for Feature Learning and Recombination ( http://arxiv.org/abs/2209.09613v1 )

ライセンス: Link先を確認
S. Tiwari, M. Gogoi, S. Verma, K.P. Singh(参考訳) 最適化ベースのメタ学習は、いくつかのグラデーションアップデートで新しい見えないタスクを学習できるように初期化を学ぶことを目的としている。 Model Agnostic Meta-Learning (MAML) は2つの最適化ループからなるベンチマークアルゴリズムである。 内部ループは新しいタスクの学習に特化しており、外部ループはメタ初期化に繋がる。 しかし、ANILアルゴリズム(ほとんど内部ループなし)は、機能再利用がMAMLにおける迅速な学習の代替であることを示している。 したがって、メタ初期化フェーズにより、MAMLは機能の再利用を前提とし、迅速な学習の必要性を回避できる。 ANILとは対照的に、メタテスト中に新しい機能を学ぶ必要があるかもしれないという仮説を立てる。 非類似分布からの新たな見えないタスクは、既存の機能の再利用と再結合に加えて、迅速な学習を必要とする。 本稿では,ニューラルネットワークの幅深双対性に着目し,余分な計算単位(acu)を追加することにより,ネットワークの幅を増加させる。 ACUはメタテストタスクにおける新しい原子の特徴の学習を可能にし、関連する拡張幅はフォワードパスにおける情報伝達を容易にする。 新しい学習機能は、メタ学習のための最後のレイヤにある既存の機能と組み合わせられる。 実験結果から,提案手法は,非類似タスク分布に対する既存のANILアルゴリズムを約13%向上させた(5ショットタスク設定)。

Optimization-based meta-learning aims to learn an initialization so that a new unseen task can be learned within a few gradient updates. Model Agnostic Meta-Learning (MAML) is a benchmark algorithm comprising two optimization loops. The inner loop is dedicated to learning a new task and the outer loop leads to meta-initialization. However, ANIL (almost no inner loop) algorithm shows that feature reuse is an alternative to rapid learning in MAML. Thus, the meta-initialization phase makes MAML primed for feature reuse and obviates the need for rapid learning. Contrary to ANIL, we hypothesize that there may be a need to learn new features during meta-testing. A new unseen task from non-similar distribution would necessitate rapid learning in addition reuse and recombination of existing features. In this paper, we invoke the width-depth duality of neural networks, wherein, we increase the width of the network by adding extra computational units (ACU). The ACUs enable the learning of new atomic features in the meta-testing task, and the associated increased width facilitates information propagation in the forwarding pass. The newly learnt features combine with existing features in the last layer for meta-learning. Experimental results show that our proposed MAC method outperformed existing ANIL algorithm for non-similar task distribution by approximately 13% (5-shot task setting)
翻訳日:2022-09-21 18:53:15 公開日:2022-09-20
# 脳病変検出のためのビューディスタングル変換器

View-Disentangled Transformer for Brain Lesion Detection ( http://arxiv.org/abs/2209.09657v1 )

ライセンス: Link先を確認
Haofeng Li, Junjia Huang, Guanbin Li, Zhou Liu, Yihong Zhong, Yingying Chen, Yunfei Wang, Xiang Wan(参考訳) ディープニューラルネットワーク(DNN)は脳病変の検出とセグメンテーションに広く採用されている。 しかし, 2次元MRIスライスにおける小さな病変の発見は困難であり, 3次元コンテキストアグリゲーションの粒度と計算複雑性のバランスをとる必要がある。 本稿では,より正確な腫瘍検出のためのMRI特徴抽出のための新しいビューディスタングル変換器を提案する。 まず,提案するトランスフォーマは3次元脳スキャンにおいて,異なる位置間の長距離相関を推定する。 第二に、変換器は複数の2次元ビューとしてスライス特徴のスタックをモデル化し、これら特徴のビュー・バイ・ビューを強化し、ほぼ効率的に3次元相関計算を実現する。 第3に,提案するトランスフォーマーモジュールをトランスフォーマーバックボーンに配置し,脳病変周辺の2次元領域を効果的に検出する。 実験の結果,提案手法は難易度の高い脳mriデータにおいて脳病変検出に有効であることがわかった。

Deep neural networks (DNNs) have been widely adopted in brain lesion detection and segmentation. However, locating small lesions in 2D MRI slices is challenging, and requires to balance between the granularity of 3D context aggregation and the computational complexity. In this paper, we propose a novel view-disentangled transformer to enhance the extraction of MRI features for more accurate tumour detection. First, the proposed transformer harvests long-range correlation among different positions in a 3D brain scan. Second, the transformer models a stack of slice features as multiple 2D views and enhance these features view-by-view, which approximately achieves the 3D correlation computing in an efficient way. Third, we deploy the proposed transformer module in a transformer backbone, which can effectively detect the 2D regions surrounding brain lesions. The experimental results show that our proposed view-disentangled transformer performs well for brain lesion detection on a challenging brain MRI dataset.
翻訳日:2022-09-21 18:46:45 公開日:2022-09-20
# 視覚障害者のコンピュータビジョンに基づく指導のための評価フレームワーク

Evaluation Framework for Computer Vision-Based Guidance of the Visually Impaired ( http://arxiv.org/abs/2209.09676v1 )

ライセンス: Link先を確認
Kre\v{s}imir Romi\'c, Irena Gali\'c, Marija Habijan, Hrvoje Leventi\'c(参考訳) 視覚障害者は日常運動に重大な問題を抱えている。 そのため、これまでの研究では、視覚障害者を危機的状況に導く支援システムの開発にコンピュータビジョンが関与していた。 これらの状況の中には、道路横断歩道や屋内・屋外の階段などが含まれる。 本稿では,コンピュータビジョンに基づく視覚障害者の視覚障害者指導のための評価枠組みを提案する。 プレゼンテーションフレームワークには、指示指示のための参照人間の決定をラベル付けし、記憶するためのインタフェースが含まれており、それらをコンピュータビジョンに基づく決定と比較する。 この研究分野における厳密な評価手法は明確に定義されておらず、視覚障害者への情報伝達の具体的特徴から、特定簡易誘導指示の評価基準が提案されている。

Visually impaired persons have significant problems in their everyday movement. Therefore, some of our previous work involves computer vision in developing assistance systems for guiding the visually impaired in critical situations. Some of those situations includes crosswalks on road crossings and stairs in indoor and outdoor environment. This paper presents an evaluation framework for computer vision-based guiding of the visually impaired persons in such critical situations. Presented framework includes the interface for labeling and storing referent human decisions for guiding directions and compares them to computer vision-based decisions. Since strict evaluation methodology in this research field is not clearly defined and due to the specifics of the transfer of information to visually impaired persons, evaluation criterion for specific simplified guiding instructions is proposed.
翻訳日:2022-09-21 18:46:28 公開日:2022-09-20
# GANet:動き予測のためのゴールエリアネットワーク

GANet: Goal Area Network for Motion Forecasting ( http://arxiv.org/abs/2209.09723v1 )

ライセンス: Link先を確認
Mingkun Wang, Xinge Zhu, Changqian Yu, Wei Li, Yuexin Ma, Ruochun Jin, Xiaoguang Ren, Dongchun Ren, Mingxu Wang, Wenjing Yang(参考訳) 道路参加者の将来の動きを予測することは自動運転に不可欠であるが、停滞する動きの不確実性のために非常に困難である。 近年,動き予測手法のほとんどがゴールベースの戦略、すなわち動き軌道の終端を全体軌道を後退させる条件として予測することで,解の探索空間を縮小できる。 しかし、正確なゴール座標は予測と評価が難しい。 さらに、目的地のポイント表現は、豊かな道路コンテキストの利用を制限するため、多くの場合、不正確な予測結果をもたらす。 ゴール領域、すなわちゴール座標ではなく目的地領域は、より寛容さとガイダンスを伴って潜在的な軌道を探すためのよりソフトな制約を与えることができる。 そこで我々は,軌道予測の前提条件として,正確な目標座標ではなく,目標領域をモデル化し,より堅牢かつ正確に動作させる,動き予測用ゴールエリアネットワーク(GANet)を提案する。 具体的には,ゴール領域における意味的レーン特徴を効果的に抽出し,モデルアクターの将来の相互作用をモデル化するgoicrop(goal area of interest)オペレータを提案する。 GANetは、Argoverse Challengeのリーダーボードで、すべての公開文学の中で第1位にランクインしている(論文の提出まで)。

Predicting the future motion of road participants is crucial for autonomous driving but is extremely challenging due to staggering motion uncertainty. Recently, most motion forecasting methods resort to the goal-based strategy, i.e., predicting endpoints of motion trajectories as conditions to regress the entire trajectories, so that the search space of solution can be reduced. However, accurate goal coordinates are hard to predict and evaluate. In addition, the point representation of the destination limits the utilization of a rich road context, leading to inaccurate prediction results in many cases. Goal area, i.e., the possible destination area, rather than goal coordinate, could provide a more soft constraint for searching potential trajectories by involving more tolerance and guidance. In view of this, we propose a new goal area-based framework, named Goal Area Network (GANet), for motion forecasting, which models goal areas rather than exact goal coordinates as preconditions for trajectory prediction, performing more robustly and accurately. Specifically, we propose a GoICrop (Goal Area of Interest) operator to effectively extract semantic lane features in goal areas and model actors' future interactions, which benefits a lot for future trajectory estimations. GANet ranks the 1st on the leaderboard of Argoverse Challenge among all public literature (till the paper submission), and its source codes will be released.
翻訳日:2022-09-21 18:46:18 公開日:2022-09-20
# 複数のGANを用いた熱赤外画像における車両検出精度の向上

Enhancing vehicle detection accuracy in thermal infrared images using multiple GANs ( http://arxiv.org/abs/2209.09808v1 )

ライセンス: Link先を確認
Shivom Bhargava and Pranamesh Chakraborty(参考訳) 車両検出精度は良好な照度条件では極めて高いが、低照度条件では検出精度が低くなる。 車両ヘッドライトやテールライトからの低照度とグラアの複合効果により、車両検出の失敗は最先端の物体検出モデルにより起こりやすい。 しかし、熱赤外画像は照明変化に頑健であり、熱放射に基づいている。 近年,画像ドメイン転送タスクにおいてGAN(Generative Adversarial Networks)が広く利用されている。 最先端のGANモデルは、赤外線画像から日中RGB画像に変換することにより、夜間における車両検出精度の向上を図っている。 しかし、これらのモデルでは、昼間のモデルに比べて夜間の条件下では性能が低かった。 そこで本研究では,日時と夜間の赤外画像の特徴分布ギャップを低減するために,GANモデルの組み合わせによる3つの異なるアプローチを提案することにより,この欠点を軽減することを試みた。 提案モデルと最先端モデルを比較するための定量的解析は、最先端オブジェクト検出モデルを用いてモデルをテストすることによって行われている。 定量的および定性的な分析により,提案モデルが夜間の車両検出において最先端のganモデルよりも優れており,提案モデルの有効性が示された。

Vehicle detection accuracy is fairly accurate in good-illumination conditions but susceptible to poor detection accuracy under low-light conditions. The combined effect of low-light and glare from vehicle headlight or tail-light results in misses in vehicle detection more likely by state-of-the-art object detection models. However, thermal infrared images are robust to illumination changes and are based on thermal radiations. Recently, Generative Adversarial Networks (GANs) have been extensively used in image domain transfer tasks. State-of-the-art GAN models have attempted to improve vehicle detection accuracy in night-time by converting infrared images to day-time RGB images. However, these models have been found to under-perform during night-time conditions compared to day-time conditions. Therefore, this study attempts to alleviate this shortcoming by proposing three different approaches based on combination of GAN models at two different levels that tries to reduce the feature distribution gap between day-time and night-time infrared images. Quantitative analysis to compare the performance of the proposed models with the state-of-the-art models have been done by testing the models using state-of-the-art object detection models. Both the quantitative and qualitative analyses have shown that the proposed models outperform the state-of-the-art GAN models for vehicle detection in night-time conditions, showing the efficacy of the proposed models.
翻訳日:2022-09-21 18:45:52 公開日:2022-09-20
# スマートデータ選択によるリプレイベース連続セマンティックセグメンテーションの改善

Improving Replay-Based Continual Semantic Segmentation with Smart Data Selection ( http://arxiv.org/abs/2209.09839v1 )

ライセンス: Link先を確認
Tobias Kalb, Bj\"orn Mauthe, J\"urgen Beyerer(参考訳) セマンティックセグメンテーション(CSS)の継続的な学習は急速に発展し、セグメンテーションモデルの能力は、新しいクラスや新しいドメインを学ぶことによって徐々に改善される。 連続学習における中心的な課題は破滅的な忘れ込みの影響を克服することであり、これはモデルが新しいクラスやドメインでトレーニングされた後、学習したタスクに対する突然の正確さの低下を指す。 連続的な分類では、この課題は以前のタスクから少数のサンプルをリプレイすることで克服されることが多いが、CSSではリプレイはほとんど考慮されない。 そこで本研究では,セマンティクスセグメンテーションにおける様々なリプレイ戦略の影響を調査し,それらをクラス・インクリメンタル・セグメンテーションで評価する。 本研究は,クラス増分設定において,バッファ内の異なるクラスに対して一様分布を達成し,新たに学習したクラスに対するバイアスを回避することが重要であることを示唆する。 ドメインインクリメンタルな設定では、学習した特徴表現の分布から一様にサンプリングしたり、中央値のエントロピーを持つサンプルを選択することでバッファサンプルを選択することが最も効果的である。 最後に, 実効サンプリング手法は, 初期層における表現シフトを著しく減少させるのに有効であることが観察された。

Continual learning for Semantic Segmentation (CSS) is a rapidly emerging field, in which the capabilities of the segmentation model are incrementally improved by learning new classes or new domains. A central challenge in Continual Learning is overcoming the effects of catastrophic forgetting, which refers to the sudden drop in accuracy on previously learned tasks after the model is trained on new classes or domains. In continual classification this challenge is often overcome by replaying a small selection of samples from previous tasks, however replay is rarely considered in CSS. Therefore, we investigate the influences of various replay strategies for semantic segmentation and evaluate them in class- and domain-incremental settings. Our findings suggest that in a class-incremental setting, it is critical to achieve a uniform distribution for the different classes in the buffer to avoid a bias towards newly learned classes. In the domain-incremental setting, it is most effective to select buffer samples by uniformly sampling from the distribution of learned feature representations or by choosing samples with median entropy. Finally, we observe that the effective sampling methods help to decrease the representation shift significantly in early layers, which is a major cause of forgetting in domain-incremental learning.
翻訳日:2022-09-21 18:45:33 公開日:2022-09-20
# 物体検出のための知識蒸留におけるデータ拡張の再考

Rethinking Data Augmentation in Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2209.09841v1 )

ライセンス: Link先を確認
Jiawei Liang, Siyuan Liang, Aishan Liu, Mingli Zhu, Danni Yuan, Chenye Xu, Xiaochun Cao(参考訳) 知識蒸留(KD)は、AI知識(教師検出器)と人間の知識(人間専門家)の両方の監督の下で、コンパクトな物体検出器を訓練する。 しかし、既存の研究では、AIの知識と人間の知識を一貫して扱い、学習中に均一なデータ拡張戦略を採用することで、マルチスケールオブジェクトのバイアス学習と、不満足な蒸留性能を引き起こす教師検出のための不十分な学習につながる。 これらの問題に対処するため,サンプル固有のデータ拡張と対角的特徴増強を提案する。 まず,マルチスケールオブジェクトによる影響を軽減するために,フーリエの観点からの観測に基づく適応的データ拡張を提案する。 第2に,教師検出器の情報マイニングの不十分さを補うために,AI知識を模倣するための逆例に基づく機能拡張手法を提案する。 さらに,提案手法は統一され,他のKD法にも容易に拡張できる。 広範な実験により,1段階および2段階の検出器において,フレームワークの有効性を実証し,最先端の手法の性能を改善した。

Knowledge distillation (KD) has shown its effectiveness for object detection, where it trains a compact object detector under the supervision of both AI knowledge (teacher detector) and human knowledge (human expert). However, existing studies treat the AI knowledge and human knowledge consistently and adopt a uniform data augmentation strategy during learning, which would lead to the biased learning of multi-scale objects and insufficient learning for the teacher detector causing unsatisfactory distillation performance. To tackle these problems, we propose the sample-specific data augmentation and adversarial feature augmentation. Firstly, to mitigate the impact incurred by multi-scale objects, we propose an adaptive data augmentation based on our observations from the Fourier perspective. Secondly, we propose a feature augmentation method based on adversarial examples for better mimicking AI knowledge to make up for the insufficient information mining of the teacher detector. Furthermore, our proposed method is unified and easily extended to other KD methods. Extensive experiments demonstrate the effectiveness of our framework and improve the performance of state-of-the-art methods in one-stage and two-stage detectors, bringing at most 0.5 mAP gains.
翻訳日:2022-09-21 18:45:09 公開日:2022-09-20
# 周波数降下:ランダムフィルタによる特徴レベル正規化

Frequency Dropout: Feature-Level Regularization via Randomized Filtering ( http://arxiv.org/abs/2209.09844v1 )

ライセンス: Link先を確認
Mobarakol Islam and Ben Glocker(参考訳) 深層畳み込みニューラルネットワークは、様々なコンピュータビジョンタスクにおいて顕著な性能を示してきたが、トレーニング信号から急激な相関関係を拾うことができる。 いわゆる「ショートカット」は、例えば、出力予測と相関する画像データに特定の周波数が存在する場合、学習中に発生する。 高周波数と低周波数は、画像内容に関するタスク関連情報よりも、画像取得によって引き起こされる基礎的なノイズ分布に特徴付けられる。 この特性ノイズに関する特徴を学習するモデルは、新しいデータにうまく一般化しません。 本研究では、畳み込みニューラルネットワークが周波数固有の画像特徴を学習するのを防ぐため、シンプルで効果的なトレーニング戦略である周波数降下法を提案する。 我々は,機能レベルの正規化として機能する特徴マップをランダムにフィルタリングする。 本研究ではgaussian smoothing, laplacian of gaussian, gabor filterなどの画像処理フィルタについて検討する。 私たちのトレーニング戦略はモデルに依存しず、あらゆるコンピュータビジョンタスクに使用できる。 本研究では,画像分類,ドメイン適応,意味セグメンテーションなどのタスクにおいて,コンピュータビジョンと医用画像データセットの双方を用いた周波数ドロップアウトの有効性を示す。 提案手法は,予測精度の向上だけでなく,ドメインシフトに対する堅牢性の向上も示唆している。

Deep convolutional neural networks have shown remarkable performance on various computer vision tasks, and yet, they are susceptible to picking up spurious correlations from the training signal. So called `shortcuts' can occur during learning, for example, when there are specific frequencies present in the image data that correlate with the output predictions. Both high and low frequencies can be characteristic of the underlying noise distribution caused by the image acquisition rather than in relation to the task-relevant information about the image content. Models that learn features related to this characteristic noise will not generalize well to new data. In this work, we propose a simple yet effective training strategy, Frequency Dropout, to prevent convolutional neural networks from learning frequency-specific imaging features. We employ randomized filtering of feature maps during training which acts as a feature-level regularization. In this study, we consider common image processing filters such as Gaussian smoothing, Laplacian of Gaussian, and Gabor filtering. Our training strategy is model-agnostic and can be used for any computer vision task. We demonstrate the effectiveness of Frequency Dropout on a range of popular architectures and multiple tasks including image classification, domain adaptation, and semantic segmentation using both computer vision and medical imaging datasets. Our results suggest that the proposed approach does not only improve predictive accuracy but also improves robustness against domain shift.
翻訳日:2022-09-21 18:44:48 公開日:2022-09-20
# {\alpha}-skew Jensen-Shannon 拡散を伴うソルダー継手のきめ細かい分類

Fine-grained Classification of Solder Joints with {\alpha}-skew Jensen-Shannon Divergence ( http://arxiv.org/abs/2209.09857v1 )

ライセンス: Link先を確認
Furkan Ulger, Seniha Esen Yuksel, Atila Yilmaz, and Dincer Gokcen(参考訳) はんだ接合検査(sji)はプリント基板(pcb)の製造において重要な工程である。 SJIにおける破断誤差の検出は非常に困難であり, 破断継手は非常に小さく, 形状も様々である。 本研究では,まず,半田が特徴多様性が低いこと,SJIが難易度の高いオブジェクトクラスに着目したきめ細かな画像分類タスクとして実行可能であることを示す。 詳細な分類精度を向上させるために,エントロピーの最大化による信頼度モデル予測が文献で有用であった。 この情報に基づいて,モデル予測の信頼性を証明するために, {\alpha}-skew Jensen-Shannon divergence ({\alpha}-JS) を提案する。 α}-js正則化と既存のエントロピーレギュライゼーションベース法と,注意機構,セグメンテーション手法,トランスフォーマモデル,および細粒度画像分類タスクにおける特定の損失関数に基づく手法を比較した。 提案手法は, きめ細かな半田関節分類タスクにおいて, 異なるモデルのF1スコアと競争精度を最大化できることを示す。 最後に、アクティベーションマップを可視化し、エントロピー正規化により、より正確なクラス判別領域が局所化され、ノイズにも耐性があることを示す。 コードは受理次第、ここで入手できる。

Solder joint inspection (SJI) is a critical process in the production of printed circuit boards (PCB). Detection of solder errors during SJI is quite challenging as the solder joints have very small sizes and can take various shapes. In this study, we first show that solders have low feature diversity, and that the SJI can be carried out as a fine-grained image classification task which focuses on hard-to-distinguish object classes. To improve the fine-grained classification accuracy, penalizing confident model predictions by maximizing entropy was found useful in the literature. Inline with this information, we propose using the {\alpha}-skew Jensen-Shannon divergence ({\alpha}-JS) for penalizing the confidence in model predictions. We compare the {\alpha}-JS regularization with both existing entropyregularization based methods and the methods based on attention mechanism, segmentation techniques, transformer models, and specific loss functions for fine-grained image classification tasks. We show that the proposed approach achieves the highest F1-score and competitive accuracy for different models in the finegrained solder joint classification task. Finally, we visualize the activation maps and show that with entropy-regularization, more precise class-discriminative regions are localized, which are also more resilient to noise. Code will be made available here upon acceptance.
翻訳日:2022-09-21 18:44:28 公開日:2022-09-20
# 生成的敵攻撃における多目的シーンの局所パッチ差の活用

Leveraging Local Patch Differences in Multi-Object Scenes for Generative Adversarial Attacks ( http://arxiv.org/abs/2209.09883v1 )

ライセンス: Link先を確認
Abhishek Aich, Shasha Li, Chengyu Song, M. Salman Asif, Srikanth V. Krishnamurthy, Amit K. Roy-Chowdhury(参考訳) 画像分類器に対する最先端の生成モデルに基づく攻撃は、単一のオブジェクト(すなわち単一の支配的オブジェクト)イメージに圧倒的に焦点を当てている。 このような設定と異なり、現実のシーンを代表している多目的画像(つまり、複数の支配的物体)を用いて、対向的摂動を生成するというより実践的な問題に取り組む。 私たちの目標は、このような画像に固有の局所パッチの違い(例えば、オブジェクトの「人」の局所パッチと、トラフィックシーンの「バイク」のオブジェクトの違い)を利用して、このような自然なシーンから学ぶことができる攻撃戦略を設計することです。 敵のマルチオブジェクトイメージを誤分類するには、イメージ内の各ローカルパッチが被害者の分類器を混乱させる必要があります。 そこで本研究では,マルチオブジェクトシーンの特徴空間の局所的な差異を利用して摂動生成を最適化する,新たな生成的攻撃(ローカルパッチ差(LPD-Attack))を提案する。 様々な被害者畳み込みニューラルネットワークの様々な実験を通して,ホワイトボックスとブラックボックスの設定で評価した場合,本手法がベースライン生成攻撃よりも高い摂動特性を持つことを示す。

State-of-the-art generative model-based attacks against image classifiers overwhelmingly focus on single-object (i.e., single dominant object) images. Different from such settings, we tackle a more practical problem of generating adversarial perturbations using multi-object (i.e., multiple dominant objects) images as they are representative of most real-world scenes. Our goal is to design an attack strategy that can learn from such natural scenes by leveraging the local patch differences that occur inherently in such images (e.g. difference between the local patch on the object `person' and the object `bike' in a traffic scene). Our key idea is: to misclassify an adversarial multi-object image, each local patch in the image should confuse the victim classifier. Based on this, we propose a novel generative attack (called Local Patch Difference or LPD-Attack) where a novel contrastive loss function uses the aforesaid local differences in feature space of multi-object scenes to optimize the perturbation generator. Through various experiments across diverse victim convolutional neural networks, we show that our approach outperforms baseline generative attacks with highly transferable perturbations when evaluated under different white-box and black-box settings.
翻訳日:2022-09-21 18:44:03 公開日:2022-09-20
# 最適化によるビット割り当て

Bit Allocation using Optimization ( http://arxiv.org/abs/2209.09422v1 )

ライセンス: Link先を確認
Tongda Xu, Han Gao, Chenjian Gao, Jinyong Pi, Yanghao Li, Yuanyuan Wang, Ziyu Zhu, Dailan He, Mao Ye, Hongwei Qin, Yan Wang(参考訳) 本稿では,ニューラルビデオ圧縮(NVC)におけるビット割り当ての問題について考察する。 フレーム参照構造のため、全てのフレームに対して同じr-d (rate-distortion) トレードオフパラメータである$\lambda$を使用する現在のnvcメソッドは最適ではないため、ビット割り当てが必要となる。 経験的R-Dモデルに基づく従来の手法とは異なり、勾配に基づく最適化によりこの問題を解決することを提案する。 具体的には,Semi-Amortized Variational Inference (SAVI)に基づく連続ビット実装手法を提案する。 次に,saviターゲットの変更による反復最適化を用いた画素レベルの暗黙的ビット割当法を提案する。 さらに,NVCの微分可能特性に基づいて,高精度なR-Dモデルを導出する。 また, 正確なR-Dモデルを用いて, ビット割り当てと等価性を証明し, 提案手法の最適性を示す。 実験の結果,提案手法はNVC法を大幅に改善し,既存のビット割り当て法より優れていた。 我々のアプローチは、すべての異なるNVCメソッドに対してプラグイン・アンド・プレイであり、既存の事前学習モデルに直接適用することができる。

In this paper, we consider the problem of bit allocation in neural video compression (NVC). Due to the frame reference structure, current NVC methods using the same R-D (Rate-Distortion) trade-off parameter $\lambda$ for all frames are suboptimal, which brings the need for bit allocation. Unlike previous methods based on heuristic and empirical R-D models, we propose to solve this problem by gradient-based optimization. Specifically, we first propose a continuous bit implementation method based on Semi-Amortized Variational Inference (SAVI). Then, we propose a pixel-level implicit bit allocation method using iterative optimization by changing the SAVI target. Moreover, we derive the precise R-D model based on the differentiable trait of NVC. And we show the optimality of our method by proofing its equivalence to the bit allocation with precise R-D model. Experimental results show that our approach significantly improves NVC methods and outperforms existing bit allocation methods. Our approach is plug-and-play for all differentiable NVC methods, and it can be directly adopted on existing pre-trained models.
翻訳日:2022-09-21 18:37:50 公開日:2022-09-20
# アプリケーション駆動型きめ細かいデータセット設計に基づくデータ中心型AIパラダイム

A Data-Centric AI Paradigm Based on Application-Driven Fine-grained Dataset Design ( http://arxiv.org/abs/2209.09449v1 )

ライセンス: Link先を確認
Huan Hu, Yajie Cui, Zhaoxiang Liu and Shiguo Lian(参考訳) ディープラーニングは産業シナリオにおいて幅広い応用があるが、偽警報(FA)を減らすことは依然として大きな困難である。 ネットワークアーキテクチャやネットワークパラメータの最適化は、アプリケーションシナリオにおけるデータの本質的な特性を無視しながら、学術的なサークルでのこの問題に対処するために使用される。 本稿では,産業アプリケーションによって駆動されるデータセットのきめ細かい設計のための新しいパラダイムを提案する。 我々は、データおよびアプリケーション要件の本質的な特徴に応じて、正と負のサンプルセットを柔軟に選択し、残りのサンプルを不確実性クラスとしてトレーニングセットに追加する。 実験データとして,さまざまなアプリケーションシナリオをカバーする1万以上のマスク着用認識サンプルを収集した。 従来のデータ設計手法と比較して,本手法はより良い結果が得られ,FAを効果的に低減する。 すべてのコントリビューションを研究コミュニティに提供して,より広範な利用を可能にしています。 コントリビューションはhttps://github.com/huh30/opendatasetsで入手できる。

Deep learning has a wide range of applications in industrial scenario, but reducing false alarm (FA) remains a major difficulty. Optimizing network architecture or network parameters is used to tackle this challenge in academic circles, while ignoring the essential characteristics of data in application scenarios, which often results in increased FA in new scenarios. In this paper, we propose a novel paradigm for fine-grained design of datasets, driven by industrial applications. We flexibly select positive and negative sample sets according to the essential features of the data and application requirements, and add the remaining samples to the training set as uncertainty classes. We collect more than 10,000 mask-wearing recognition samples covering various application scenarios as our experimental data. Compared with the traditional data design methods, our method achieves better results and effectively reduces FA. We make all contributions available to the research community for broader use. The contributions will be available at https://github.com/huh30/OpenDatasets.
翻訳日:2022-09-21 18:37:32 公開日:2022-09-20
# 高分解能サルエント物体検出のための再訪像ピラミッド構造

Revisiting Image Pyramid Structure for High Resolution Salient Object Detection ( http://arxiv.org/abs/2209.09475v1 )

ライセンス: Link先を確認
Taehun Kim, Kunhee Kim, Joonyeong Lee, Dongmin Cha, Jiho Lee, Daijin Kim(参考訳) 局所物体検出(SOD)は近年注目されているが,高分解能(HR)画像では研究が進んでいない。 残念なことに、HR画像とそのピクセルレベルのアノテーションは、低解像度(LR)画像やアノテーションに比べて、明らかに労働集約的で時間を要する。 そこで我々は,画像ピラミッドを用いたSODフレームワークInSPyReNetを提案し,HRデータセットを使わずにHR予測を行う。 そこで我々は,inspyrenetをデザインし,saliency mapの厳密な画像ピラミッド構造を作成する。 HR予測のために、同じ画像から一対のLRとHRスケールから2つの異なる画像ピラミッドを合成し、有効受容場(ERF)の差を克服するピラミッドブレンディング法を設計する。 公開LRおよびHR SODベンチマークの広範な評価は、InSPyReNetが様々なSOD測定値と境界精度でState-of-the-Art(SotA)法を上回ることを示した。

Salient object detection (SOD) has been in the spotlight recently, yet has been studied less for high-resolution (HR) images. Unfortunately, HR images and their pixel-level annotations are certainly more labor-intensive and time-consuming compared to low-resolution (LR) images and annotations. Therefore, we propose an image pyramid-based SOD framework, Inverse Saliency Pyramid Reconstruction Network (InSPyReNet), for HR prediction without any of HR datasets. We design InSPyReNet to produce a strict image pyramid structure of saliency map, which enables to ensemble multiple results with pyramid-based image blending. For HR prediction, we design a pyramid blending method which synthesizes two different image pyramids from a pair of LR and HR scale from the same image to overcome effective receptive field (ERF) discrepancy. Our extensive evaluations on public LR and HR SOD benchmarks demonstrate that InSPyReNet surpasses the State-of-the-Art (SotA) methods on various SOD metrics and boundary accuracy.
翻訳日:2022-09-21 18:37:15 公開日:2022-09-20
# 3Dポイントクラウドセグメンテーションのための解釈可能なエッジ強化と抑圧学習

Interpretable Edge Enhancement and Suppression Learning for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2209.09483v1 )

ライセンス: Link先を確認
Haoyi Xiu, Xin Liu, Weimin Wang, Kyoung-Sook Kim, Takayuki Shinohara, Qiong Chang, Masashi Matsuoka(参考訳) 3Dポイントクラウドは、フレキシブルに連続した表面を表現でき、様々なアプリケーションに使用できるが、構造情報の欠如はポイントクラウド認識を困難にしている。 近年のエッジ認識手法は,学習を容易にするために,局所構造を記述する余分な特徴としてエッジ情報を主に用いている。 これらの手法は、エッジをネットワーク設計に組み込むことが有益であることを示しているが、一般的には解釈可能性に欠けており、エッジがどの程度役立つのか疑問に思う。 そこで本研究では,エッジを解釈可能な方法で処理し,良好な改善を実現する拡散ユニット(DU)を提案する。 我々の方法は3つの方法で解釈できる。 まず,duがタスク指向のエッジ強化と抑制を行うことを理論的に示す。 第2に,エッジの強化と抑制行動を実験的に観察し,検証する。 第3に、この振る舞いがパフォーマンス改善に寄与することを実証的に示します。 挑戦的なベンチマークで行った広範囲な実験は、解釈可能性と性能向上の両方の観点からduの優位性を検証する。 具体的には、ShapeNet部分とS3DISを用いたシーンセグメンテーションを用いて、オブジェクト部分セグメンテーションにおける最先端性能を実現する。 ソースコードはhttps://github.com/martianxiu/diffusionunitで公開します。

3D point clouds can flexibly represent continuous surfaces and can be used for various applications; however, the lack of structural information makes point cloud recognition challenging. Recent edge-aware methods mainly use edge information as an extra feature that describes local structures to facilitate learning. Although these methods show that incorporating edges into the network design is beneficial, they generally lack interpretability, making users wonder how exactly edges help. To shed light on this issue, in this study, we propose the Diffusion Unit (DU) that handles edges in an interpretable manner while providing decent improvement. Our method is interpretable in three ways. First, we theoretically show that DU learns to perform task-beneficial edge enhancement and suppression. Second, we experimentally observe and verify the edge enhancement and suppression behavior. Third, we empirically demonstrate that this behavior contributes to performance improvement. Extensive experiments performed on challenging benchmarks verify the superiority of DU in terms of both interpretability and performance gain. Specifically, our method achieves state-of-the-art performance in object part segmentation using ShapeNet part and scene segmentation using S3DIS. Our source code will be released at https://github.com/martianxiu/DiffusionUnit.
翻訳日:2022-09-21 18:36:56 公開日:2022-09-20
# 単分子擬似LiDARからの自己監督型3次元物体検出

Self-supervised 3D Object Detection from Monocular Pseudo-LiDAR ( http://arxiv.org/abs/2209.09486v1 )

ライセンス: Link先を確認
Curie Kim, Ue-Hwan Kim, Jong-Hwan Kim(参考訳) ステレオカメラ画像とLiDARセンサーデータを融合して3Dオブジェクトを検出する試みや、単眼画像のみを事前学習してテストする方法があるが、精度が低いため、単眼画像のみを使用する試みは少ない。 また、単眼画像のみを用いた深度予測では、スケール一貫性のない深さしか予測できないため、研究者が単眼画像のみを使用するのを嫌う理由である。 そこで本研究では,検出ネットワークと深度予測ネットワークのエンドツーエンド学習を可能にすることによって,単眼画像のみを用いた絶対深度予測と3次元物体検出手法を提案する。 その結果,提案手法は,KITTI 3Dデータセット上での他の既存手法を上回る性能を示した。 学習中に単眼画像と3次元ライダーを併用して性能向上を試みても,同一入力を用いた他の手法と比較して,高い性能を示す。 さらに,車などの3次元物体のサイズが近似サイズによって決定されるという事実を利用して,エンド・ツー・エンドの学習により深度予測性能が向上するだけでなく,絶対深度予測が可能となる。

There have been attempts to detect 3D objects by fusion of stereo camera images and LiDAR sensor data or using LiDAR for pre-training and only monocular images for testing, but there have been less attempts to use only monocular image sequences due to low accuracy. In addition, when depth prediction using only monocular images, only scale-inconsistent depth can be predicted, which is the reason why researchers are reluctant to use monocular images alone. Therefore, we propose a method for predicting absolute depth and detecting 3D objects using only monocular image sequences by enabling end-to-end learning of detection networks and depth prediction networks. As a result, the proposed method surpasses other existing methods in performance on the KITTI 3D dataset. Even when monocular image and 3D LiDAR are used together during training in an attempt to improve performance, ours exhibit is the best performance compared to other methods using the same input. In addition, end-to-end learning not only improves depth prediction performance, but also enables absolute depth prediction, because our network utilizes the fact that the size of a 3D object such as a car is determined by the approximate size.
翻訳日:2022-09-21 18:36:40 公開日:2022-09-20
# GAMA: ジェネレーティブな対戦型マルチオブジェクトシーンアタック

GAMA: Generative Adversarial Multi-Object Scene Attacks ( http://arxiv.org/abs/2209.09502v1 )

ライセンス: Link先を確認
Abhishek Aich, Calvin Khang-Ta, Akash Gupta, Chengyu Song, Srikanth V. Krishnamurthy, M. Salman Asif, Amit K. Roy-Chowdhury(参考訳) 敵攻撃を作ろうという手法の大半は、単一の支配的なオブジェクト(例えばImageNetの画像)を持つシーンに焦点を当てている。 一方、自然のシーンには、意味的に関連づけられた複数の支配的なオブジェクトが含まれている。 したがって、単一オブジェクトシーンの学習を超えた攻撃戦略を設計することや、単一オブジェクトの被害者分類器を攻撃することが重要である。 未知のモデルに対する摂動の強い伝達可能性という本質的性質から,多目的シーンに対する攻撃に対して生成モデルを用いた最初のアプローチを提案する。 入力シーンにおける異なるオブジェクト間の関係を表現するために、私たちは、視覚空間と共に言語空間で符号化された意味論を活用すべく、オープンソースの視覚言語モデルクリップ(contrastive language-image pre-training)を活用しています。 我々はこの攻撃アプローチをGAMA(Generative Adversarial Multi-Object scene Attacks)と呼ぶ。 GAMAは攻撃者のツールとしてCLIPモデルの有用性を実証し、多目的シーンのための強迫性摂動ジェネレータを訓練する。 GAMAは, 共同画像テキスト機能を用いて, 様々な攻撃環境において, 被害者の分類を騙すために, 強力なトランスファー可能な摂動を実現できることを示す。 例えば、gamaは、攻撃者の分類アーキテクチャとデータ分散が被害者と異なるブラックボックス設定において、最先端のジェネレーティブアプローチよりも16%以上の誤分類をトリガーする。 私たちのコードはまもなく公開されます。

The majority of methods for crafting adversarial attacks have focused on scenes with a single dominant object (e.g., images from ImageNet). On the other hand, natural scenes include multiple dominant objects that are semantically related. Thus, it is crucial to explore designing attack strategies that look beyond learning on single-object scenes or attack single-object victim classifiers. Due to their inherent property of strong transferability of perturbations to unknown models, this paper presents the first approach of using generative models for adversarial attacks on multi-object scenes. In order to represent the relationships between different objects in the input scene, we leverage upon the open-sourced pre-trained vision-language model CLIP (Contrastive Language-Image Pre-training), with the motivation to exploit the encoded semantics in the language space along with the visual space. We call this attack approach Generative Adversarial Multi-object scene Attacks (GAMA). GAMA demonstrates the utility of the CLIP model as an attacker's tool to train formidable perturbation generators for multi-object scenes. Using the joint image-text features to train the generator, we show that GAMA can craft potent transferable perturbations in order to fool victim classifiers in various attack settings. For example, GAMA triggers ~16% more misclassification than state-of-the-art generative approaches in black-box settings where both the classifier architecture and data distribution of the attacker are different from the victim. Our code will be made publicly available soon.
翻訳日:2022-09-21 18:36:20 公開日:2022-09-20
# 画像解析のためのグラフ推論変換器

Graph Reasoning Transformer for Image Parsing ( http://arxiv.org/abs/2209.09545v1 )

ライセンス: Link先を確認
Dong Zhang, Jinhui Tang, and Kwang-Ting Cheng(参考訳) 長距離依存関係のキャプチャは、幅広いコンピュータビジョンタスクで有効であることが実証されている。 このトピックの進歩的な進歩は、マルチヘッドアテンション機構の助けを借りてトランスフォーマーフレームワークの雇用を通じて行われてきた。 しかしながら、注意に基づくイメージパッチの相互作用は、クラス内パッチの冗長な相互作用とクラス間パッチの非指向的な相互作用の問題に直面する可能性がある。 本稿では,画像解析のためのグラフ推論変換器(GReaT)を提案する。 具体的には、線形に埋め込まれた画像パッチをまずグラフ空間に投影し、各ノードは画像パッチのクラスタの暗黙の視覚的中心を表し、各エッジは隣接する2つのノード間の関係重みを反映する。 その後、このグラフ上でグローバルな関係推論を行う。 最後に、関係情報を含む全てのノードは、後続のプロセスのために元の空間にマッピングされる。 従来の変圧器と比較して、GReaTは高い相互作用効率とより目的のある相互作用パターンを有する。 挑戦的なCityscapesとADE20Kデータセットで実験が行われている。 その結果、GReaTは、最先端のトランスフォーマーベースラインにわずかに計算オーバーヘッドを伴って、一貫した性能向上を実現することがわかった。

Capturing the long-range dependencies has empirically proven to be effective on a wide range of computer vision tasks. The progressive advances on this topic have been made through the employment of the transformer framework with the help of the multi-head attention mechanism. However, the attention-based image patch interaction potentially suffers from problems of redundant interactions of intra-class patches and unoriented interactions of inter-class patches. In this paper, we propose a novel Graph Reasoning Transformer (GReaT) for image parsing to enable image patches to interact following a relation reasoning pattern. Specifically, the linearly embedded image patches are first projected into the graph space, where each node represents the implicit visual center for a cluster of image patches and each edge reflects the relation weight between two adjacent nodes. After that, global relation reasoning is performed on this graph accordingly. Finally, all nodes including the relation information are mapped back into the original space for subsequent processes. Compared to the conventional transformer, GReaT has higher interaction efficiency and a more purposeful interaction pattern. Experiments are carried out on the challenging Cityscapes and ADE20K datasets. Results show that GReaT achieves consistent performance gains with slight computational overheads on the state-of-the-art transformer baselines.
翻訳日:2022-09-21 18:35:52 公開日:2022-09-20
# 画像セグメンテーションのロバスト化に向けて

Towards Robust Referring Image Segmentation ( http://arxiv.org/abs/2209.09554v1 )

ライセンス: Link先を確認
Jianzong Wu, Xiangtai Li, Xia Li, Henghui Ding, Yunhai Tong, Dacheng Tao(参考訳) Referring Image Segmentation (RIS)は、基本的な視覚言語タスクであるテキスト記述が与えられたオブジェクトマスクを出力することで、画像と言語を接続することを目的としている。 RISでかなりの進歩を遂げた多くの著作にもかかわらず、本書では「記述が間違っていたり、文章の記述を誤解させたりしたらどうするか」という本質的な疑問を探求する。 私たちはそのような文を否定的な文と呼ぶ。 しかし、既存の作業ではそのような設定は処理できない。 この目的のために,ロバスト参照画像セグメンテーション (R-RIS) という新しいRISの定式化を提案する。 通常のテキスト入力に加えて、負の文入力も考慮する。 入力否定文の強化と、両方の入力タイプを統一するための新しいメトリクスによって、3つの異なるデータセットを示す。 さらに,RefSegformerと呼ばれる新しいトランスフォーマーモデルの設計を行い,トークンベースのビジョンと言語融合モジュールを導入する。 このようなモジュールは、余分な空白トークンを追加することで、R-RIS設定に容易に拡張できます。 提案したRefSegformerは,3つの通常のRISデータセットと3つのR-RISデータセットに対して,新たな最先端結果を実現する。 プロジェクトページは \url{https://lxtgh.github.io/project/robust_ref_seg/} にある。

Referring Image Segmentation (RIS) aims to connect image and language via outputting the corresponding object masks given a text description, which is a fundamental vision-language task. Despite lots of works that have achieved considerable progress for RIS, in this work, we explore an essential question, "what if the description is wrong or misleading of the text description?". We term such a sentence as a negative sentence. However, we find that existing works cannot handle such settings. To this end, we propose a novel formulation of RIS, named Robust Referring Image Segmentation (R-RIS). It considers the negative sentence inputs besides the regularly given text inputs. We present three different datasets via augmenting the input negative sentences and a new metric to unify both input types. Furthermore, we design a new transformer-based model named RefSegformer, where we introduce a token-based vision and language fusion module. Such module can be easily extended to our R-RIS setting by adding extra blank tokens. Our proposed RefSegformer achieves the new state-of-the-art results on three regular RIS datasets and three R-RIS datasets, which serves as a new solid baseline for further research. The project page is at \url{https://lxtgh.github.io/project/robust_ref_seg/}.
翻訳日:2022-09-21 18:35:33 公開日:2022-09-20
# 長期的人物識別のための特異な特徴表現のサンプリング

Sampling Agnostic Feature Representation for Long-Term Person Re-identification ( http://arxiv.org/abs/2209.09574v1 )

ライセンス: Link先を確認
Seongyeop Yang, Byeongkeun Kang, Yeejin Lee(参考訳) 人物再識別は、重複しないカメラで個人を特定する問題である。 再同定問題では顕著な進展がみられてきたが、同一人物の外観変化や類似した人物の出現が問題となっている。 いくつかの先行研究は、正のサンプルの特徴と負のサンプルの特徴を分離することで問題を解決した。 しかし、既存のモデルの性能は、トレーニングに使用するサンプルの特性と統計に大きく依存する。 そこで本稿では,ランダムに選択したサンプルから乱交した特徴の埋め込みを学習する独立頑健な特徴表現ネットワーク~(SirNet)を提案する。 クラスタの同一人物のモデルサンプルに対して、独立して設計した標本化最大一致損失を導入する。 その結果,提案フレームワークは学習した特徴を用いて付加的な強陰性/肯定性を生成することができ,その結果,他者との識別性が向上する。 大規模ベンチマークデータセットの大規模な実験結果から,提案モデルが従来の最先端モデルよりも有効であることが確認された。

Person re-identification is a problem of identifying individuals across non-overlapping cameras. Although remarkable progress has been made in the re-identification problem, it is still a challenging problem due to appearance variations of the same person as well as other people of similar appearance. Some prior works solved the issues by separating features of positive samples from features of negative ones. However, the performances of existing models considerably depend on the characteristics and statistics of the samples used for training. Thus, we propose a novel framework named sampling independent robust feature representation network~(SirNet) that learns disentangled feature embedding from randomly chosen samples. A carefully designed sampling independent maximum discrepancy loss is introduced to model samples of the same person as a cluster. As a result, the proposed framework can generate additional hard negatives/positives using the learned features, which results in better discriminability from other identities. Extensive experimental results on large-scale benchmark datasets verify that the proposed model is more effective than prior state-of-the-art models.
翻訳日:2022-09-21 18:35:11 公開日:2022-09-20
# マルチターゲットマルチカメラ車両追跡のための半自動データアノテーションシステム

Semi-automatic Data Annotation System for Multi-Target Multi-Camera Vehicle Tracking ( http://arxiv.org/abs/2209.09606v1 )

ライセンス: Link先を確認
Haohong Liao, Silin Zheng, Xuelin Shen, Mark Junjie Li and Xu Wang(参考訳) マルチターゲットマルチカメラトラッキング(MTMCT)は、インテリジェントビデオ分析、監視ビデオ検索、その他のアプリケーションシナリオにおいて重要な役割を果たす。 現在、ディープラーニングベースのMTMCTが主流であり、精度と効率のトラッキングに関して素晴らしい改善を遂げている。 しかし,本研究によると,現実世界のアプリケーションシナリオに着目したデータセットの欠如は,現在の学習ベースTMCTモデルのさらなる改善を妨げている。 特に、一般的なデータセットによる学習ベースのmtmctモデルは、現実世界のアプリケーションシナリオで満足のいく結果を得ることができない。 そこで本稿では,実世界のmtmctデータセット構築を容易にする半自動データアノテーションシステムを提案する。 提案システムは,まず,深層学習に基づく単一カメラトラジェクトリ生成手法を用いて,監視ビデオからトラジェクトリを自動的に抽出する。 その後、システムは以下の手動のクロスカメラ軌道マッチングプロセスで推奨リストを提供する。 推奨リストは、カメラ位置、タイムスタンプ関係、背景シーンなどのサイド情報に基づいて生成される。 実験段階では,提案システムの有効性がさらに証明された。

Multi-target multi-camera tracking (MTMCT) plays an important role in intelligent video analysis, surveillance video retrieval, and other application scenarios. Nowadays, the deep-learning-based MTMCT has been the mainstream and has achieved fascinating improvements regarding tracking accuracy and efficiency. However, according to our investigation, the lacking of datasets focusing on real-world application scenarios limits the further improvements for current learning-based MTMCT models. Specifically, the learning-based MTMCT models training by common datasets usually cannot achieve satisfactory results in real-world application scenarios. Motivated by this, this paper presents a semi-automatic data annotation system to facilitate the real-world MTMCT dataset establishment. The proposed system first employs a deep-learning-based single-camera trajectory generation method to automatically extract trajectories from surveillance videos. Subsequently, the system provides a recommendation list in the following manual cross-camera trajectory matching process. The recommendation list is generated based on side information, including camera location, timestamp relation, and background scene. In the experimental stage, extensive results further demonstrate the efficiency of the proposed system.
翻訳日:2022-09-21 18:34:55 公開日:2022-09-20
# グラフ値の反復

Graph Value Iteration ( http://arxiv.org/abs/2209.09608v1 )

ライセンス: Link先を確認
Dieqiao Feng, Carla P. Gomes, Bart Selman(参考訳) 近年、深層強化学習(rl)は、2人のプレイヤーによるゲームや科学的発見など様々な組み合わせ探索領域で成功を収めている。 しかし、計画領域に深いRLを直接適用することは依然として困難である。 最大の難点は、人造ヒューリスティック関数がなければ、学習フレームワークが解決計画を見つけない限り、報酬信号はゼロのままである。 計画の最小長が増加するにつれて、探索空間は "emph{exponentially larger" となり、プランの最小長が数百から数千のステップを持つ計画インスタンスにとって深刻な制限となる。 ディープニューラルネットワークと余分に生成されたサブゴールでグラフ検索を増強する以前の学習フレームワークは、さまざまな挑戦的な計画領域で成功している。 しかし、有用なサブゴールを生成するには広範なドメイン知識が必要である。 本稿では,グラフ探索をグラフ値反復で拡張し,ドメイン固有化解法に到達できないハードプランニングインスタンスを解くドメイン独立手法を提案する。 特に,発見された計画からのみ学習信号を受け取るのではなく,目標状態が到達していない探索の試みから学習する。 グラフ値反復成分は、局所探索空間のグラフ構造を利用して、より情報的な学習信号を提供する。 また、カリキュラム戦略を用いて学習プロセスを円滑にし、グラフ値の反復のスケール方法と学習を可能にする方法も示す。

In recent years, deep Reinforcement Learning (RL) has been successful in various combinatorial search domains, such as two-player games and scientific discovery. However, directly applying deep RL in planning domains is still challenging. One major difficulty is that without a human-crafted heuristic function, reward signals remain zero unless the learning framework discovers any solution plan. Search space becomes \emph{exponentially larger} as the minimum length of plans grows, which is a serious limitation for planning instances with a minimum plan length of hundreds to thousands of steps. Previous learning frameworks that augment graph search with deep neural networks and extra generated subgoals have achieved success in various challenging planning domains. However, generating useful subgoals requires extensive domain knowledge. We propose a domain-independent method that augments graph search with graph value iteration to solve hard planning instances that are out of reach for domain-specialized solvers. In particular, instead of receiving learning signals only from discovered plans, our approach also learns from failed search attempts where no goal state has been reached. The graph value iteration component can exploit the graph structure of local search space and provide more informative learning signals. We also show how we use a curriculum strategy to smooth the learning process and perform a full analysis of how graph value iteration scales and enables learning.
翻訳日:2022-09-21 18:29:40 公開日:2022-09-20
# 産業自動化のための一様因果モデルについて

On a Uniform Causality Model for Industrial Automation ( http://arxiv.org/abs/2209.09618v1 )

ライセンス: Link先を確認
Maria Krantz, Alexander Windmann, Rene Heesch, Lukas Moddemann, Oliver Niggemann(参考訳) サイバーフィジカルシステム(cps)の複雑さの増大は、産業の自動化を困難にしている。 センサが記録した大量のデータを処理して、故障の診断などのタスクを適切に実行する必要がある。 この複雑さを扱うための有望なアプローチは因果性の概念である。 しかし、因果関係に関するほとんどの研究は、未知のシステムの部分間の因果関係の推測に焦点を当てている。 複雑なシステムはコンポーネントと既知の制御可能な振る舞いを組み合わせることで構築されます。 CPSは第2のアプローチで構築されているため、ほとんどのデータベースの因果関係モデルは産業自動化には適していない。 このギャップを埋めるために,産業オートメーションのさまざまな応用分野に対して,統一的な因果関係モデルが提案されている。 その結果、cpsの挙動を数学的に記述し、そのモデルがアプリケーション領域のユニークな要件に基づいて評価されていることから、一様因果関係モデルが機械学習に焦点をあてた産業オートメーションにおける新しいアプローチの適用の基盤として機能することが示されている。

The increasing complexity of Cyber-Physical Systems (CPS) makes industrial automation challenging. Large amounts of data recorded by sensors need to be processed to adequately perform tasks such as diagnosis in case of fault. A promising approach to deal with this complexity is the concept of causality. However, most research on causality has focused on inferring causal relations between parts of an unknown system. Engineering uses causality in a fundamentally different way: complex systems are constructed by combining components with known, controllable behavior. As CPS are constructed by the second approach, most data-based causality models are not suited for industrial automation. To bridge this gap, a Uniform Causality Model for various application areas of industrial automation is proposed, which will allow better communication and better data usage across disciplines. The resulting model describes the behavior of CPS mathematically and, as the model is evaluated on the unique requirements of the application areas, it is shown that the Uniform Causality Model can work as a basis for the application of new approaches in industrial automation that focus on machine learning.
翻訳日:2022-09-21 18:29:17 公開日:2022-09-20
# 効率的なモデルベース診断

Efficient Model Based Diagnosis ( http://arxiv.org/abs/2209.09819v1 )

ライセンス: Link先を確認
Nico Roos(参考訳) 本稿では,入力と出力の因果関係を持つシステムに対して,効率的なモデルに基づく診断プロセスについて述べる。 この診断プロセスでは、まず、壊れやすいコンポーネントに焦点を当てたセットが決定される。 第二に、各焦点について、焦点内の最も情報に富む探究点を決定することができる。 診断プロセスのどちらのステップも、最悪のケースタイムの複雑さは${\cal O}(n^2)$で、$n$はコンポーネントの数である。 しかし、コンポーネントの接続性が低い場合、診断プロセスは線形時間の複雑さを示す。 また,ループを含む動的システムやシステムにおいて,診断プロセスがどのように適用できるかを示す。 動的システムの診断において、断続的故障を検出するか、非断続性を想定して診断精度を向上させるかを選択することができる。

In this paper an efficient model based diagnostic process is described for systems whose components possess a causal relation between their inputs and their outputs. In this diagnostic process, firstly, a set of focuses on likely broken components is determined. Secondly, for each focus the most informative probing point within the focus can be determined. Both these steps of the diagnostic process have a worst case time complexity of ${\cal O}(n^2)$ where $n$ is the number of components. If the connectivity of the components is low, however, the diagnostic process shows a linear time complexity. It is also shown how the diagnostic process described can be applied in dynamic systems and systems containing loops. When diagnosing dynamic systems it is possible to choose between detecting intermitting faults or to improve the diagnostic precision by assuming non-intermittency.
翻訳日:2022-09-21 18:28:58 公開日:2022-09-20
# 議論の対立の解決について

On resolving conflicts between arguments ( http://arxiv.org/abs/2209.09838v1 )

ライセンス: Link先を確認
Nico Roos(参考訳) 論証体系は命題の議論、すなわち命題の信念を正当化する構造化された理由を構築できるという考えに基づいている。 デファシブルなルールを用いることで、全ての状況において引数が有効である必要はないので、命題の引数やその否定を構築できるかもしれない。 議論が対立する命題をサポートするとき、引数の1つを倒さなければならない。 法的議論において、メタルールは、紛争に関係する各議論の最終決定可能なルールを考慮し、有効な議論を決定する。 最後のルールを使って議論を評価するのが簡単であるため、関係する引数の最後のデファシブルなルールだけを考慮すれば、衝突を解決できるだろうか? 本稿では,議論間の敗北関係を導出する代わりに,デファシブルルールの破滅に関する「emph{undercutting-arguments}」を構築する新たな議論システムを提案する。 このシステムにより、(\textit{i}) は不一致の引数の最後のルールのみを使用して競合(反論の一般化)を解決し(\textit{ii})、(\textit{ii}) は jtms に基づくアルゴリズムを用いて線形時間で有効な(未定義)引数の集合を決定でき、(\textit{iii}) はデフォルト論理との関係を確立することができ(\textit{iv})、(\textit{iv}) は \emph{cumulativity} のような閉包プロパティを証明できる。 また,ケースによるemph{reasoning by cases}を可能にする引数システムの拡張も提案する。

Argument systems are based on the idea that one can construct arguments for propositions; i.e., structured reasons justifying the belief in a proposition. Using defeasible rules, arguments need not be valid in all circumstances, therefore, it might be possible to construct an argument for a proposition as well as its negation. When arguments support conflicting propositions, one of the arguments must be defeated, which raises the question of \emph{which (sub-)arguments can be subject to defeat}? In legal argumentation, meta-rules determine the valid arguments by considering the last defeasible rule of each argument involved in a conflict. Since it is easier to evaluate arguments using their last rules, \emph{can a conflict be resolved by considering only the last defeasible rules of the arguments involved}? We propose a new argument system where, instead of deriving a defeat relation between arguments, \emph{undercutting-arguments} for the defeat of defeasible rules are constructed. This system allows us, (\textit{i}) to resolve conflicts (a generalization of rebutting arguments) using only the last rules of the arguments for inconsistencies, (\textit{ii}) to determine a set of valid (undefeated) arguments in linear time using an algorithm based on a JTMS, (\textit{iii}) to establish a relation with Default Logic, and (\textit{iv}) to prove closure properties such as \emph{cumulativity}. We also propose an extension of the argument system that enables \emph{reasoning by cases}.
翻訳日:2022-09-21 18:28:35 公開日:2022-09-20
# 低離散系列を用いた不均一学習粒子群最適化における速度の更新

Updating velocities in heterogeneous comprehensive learning particle swarm optimization with low-discrepancy sequences ( http://arxiv.org/abs/2209.09438v1 )

ライセンス: Link先を確認
Yuelin Zhao, Feng Wu, Jianhua Pang, Wanxie Zhong(参考訳) ヘテロジニアス包括学習粒子群最適化(hclpso)は、探索と搾取能力を強化した進化的アルゴリズムの一種である。 低差分シーケンス(LDS)は、ランダムシーケンスよりも探索空間をカバーしている。 本稿では,HCLPSOの改良にLDSの良質な均一性を生かした。 LDSのみを用いて初期個体群を生成することでHCLPSOの探索能力を効果的に向上することは不可能であることを示す数値実験を行った。 しかし、hclpso速度更新式からランダムシーケンスを適切に選択し、決定論的ldsに置き換えれば、より効率的なアルゴリズムを得ることができる。 HCLPSOは従来のHCLPSOと同一の精度で比較し、決定論的LDSで速度を更新することで、成功率を低下させることなく最適解を見つけるのに必要なイテレーションを大幅に削減することができる。

Heterogeneous comprehensive learning particle swarm optimization (HCLPSO) is a type of evolutionary algorithm with enhanced exploration and exploitation capabilities. The low-discrepancy sequence (LDS) is more uniform in covering the search space than random sequences. In this paper, making use of the good uniformity of LDS to improve HCLPSO is researched. Numerical experiments are performed to show that it is impossible to effectively improve the search ability of HCLPSO by only using LDS to generate the initial population. However, if we properly choose some random sequences from the HCLPSO velocities updating formula and replace them with the deterministic LDS, we can obtain a more efficient algorithm. Compared with the original HCLPSO under the same accuracy requirement, the HCLPSO updating the velocities with the deterministic LDS can significantly reduce the iterations required for finding the optimal solution, without decreasing the success rate.
翻訳日:2022-09-21 18:28:04 公開日:2022-09-20
# 行動認識における表現バイアスの軽減:アルゴリズムとベンチマーク

Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks ( http://arxiv.org/abs/2209.09393v1 )

ライセンス: Link先を確認
Haodong Duan, Yue Zhao, Kai Chen, Yuanjun Xiong, Dahua Lin(参考訳) ディープラーニングモデルは、大規模ビデオベンチマークで優れた認識結果を達成している。 しかし、既存のビデオデータセットのバイアスが原因で、希少なシーンやオブジェクトの動画に適用するとパフォーマンスが低下する。 我々はアルゴリズムとデータセットの2つの異なる角度からこの問題に取り組む。 アルゴリズムの観点からは,多視点対向トレーニングによる明示的偏りと空間行動強調モジュールによる暗黙的偏りの両方を取り入れた空間認識型多視点偏り(SMAD)を提案し,非作用面に不変なより汎用的な表現を学習する。 内在的なデータセットバイアスを中和するため,我々はwebデータを選択的に活用し,より少ないwebデータで高いパフォーマンスを実現するための大雑把さを提案する。 有効性を検証するため,評価プロトコルを確立し,既存データセットの再分散分割と,レアシーンでの動作に着目した新たな評価データセットの両方について広範な実験を行う。 また、デバイアス表現は他のデータセットやタスクに転送するとより一般化できることも示している。

Deep learning models have achieved excellent recognition results on large-scale video benchmarks. However, they perform poorly when applied to videos with rare scenes or objects, primarily due to the bias of existing video datasets. We tackle this problem from two different angles: algorithm and dataset. From the perspective of algorithms, we propose Spatial-aware Multi-Aspect Debiasing (SMAD), which incorporates both explicit debiasing with multi-aspect adversarial training and implicit debiasing with the spatial actionness reweighting module, to learn a more generic representation invariant to non-action aspects. To neutralize the intrinsic dataset bias, we propose OmniDebias to leverage web data for joint training selectively, which can achieve higher performance with far fewer web data. To verify the effectiveness, we establish evaluation protocols and perform extensive experiments on both re-distributed splits of existing datasets and a new evaluation dataset focusing on the action with rare scenes. We also show that the debiased representation can generalize better when transferred to other datasets and tasks.
翻訳日:2022-09-21 18:26:29 公開日:2022-09-20
# detclip:オープンワールド検出のための辞書エンリッチビジュアルコンセプタ並列事前学習

DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection ( http://arxiv.org/abs/2209.09407v1 )

ライセンス: Link先を確認
Lewei Yao, Jianhua Han, Youpeng Wen, Xiaodan Liang, Dan Xu, Wei Zhang, Zhenguo Li, Chunjing Xu, Hang Xu(参考訳) オープンワールドオブジェクト検出は、より一般的で挑戦的な目標として、任意のカテゴリ名で記述されたオブジェクトを認識し、ローカライズすることを目的としている。 最近の研究であるglipは、検出データセットのすべてのカテゴリ名を文に結合することで、この問題を接地問題として定式化している。 本稿では,設計した概念辞書から知識の豊かさに頼り,オープンワールド検出のための並列視覚概念事前学習手法であるdetclipを提案する。 学習効率を向上させるために,異種データセット(検出,接地,画像テキストペア)を訓練に利用するために,概念を別々に抽出する並列型概念定式化を提案する。 我々はさらに,各概念の事前知識を提供するために,様々なオンラインソースと検出データセットから概念辞書を(説明付きで)設計する。 概念を記述で豊かにすることで、オープンドメイン学習を促進するために、さまざまな概念間の関係を明示的に構築します。 提案する概念辞書は,単語領域のアライメント損失の構成に十分な負の概念を提供するとともに,画像とテキストのペアデータのキャプションに記述のないオブジェクトのラベルを完備する。 提案フレームワークは,例えばLVISデータセット上で,当社のDetCLIP-TがGLIP-Tを9.9%向上させ,当社と同じバックボーンを持つ完全教師付きモデルと比較して,稀なカテゴリを13.5%改善するなど,強力なゼロショット検出性能を示す。

Open-world object detection, as a more general and challenging goal, aims to recognize and localize objects described by arbitrary category names. The recent work GLIP formulates this problem as a grounding problem by concatenating all category names of detection datasets into sentences, which leads to inefficient interaction between category names. This paper presents DetCLIP, a paralleled visual-concept pre-training method for open-world detection by resorting to knowledge enrichment from a designed concept dictionary. To achieve better learning efficiency, we propose a novel paralleled concept formulation that extracts concepts separately to better utilize heterogeneous datasets (i.e., detection, grounding, and image-text pairs) for training. We further design a concept dictionary~(with descriptions) from various online sources and detection datasets to provide prior knowledge for each concept. By enriching the concepts with their descriptions, we explicitly build the relationships among various concepts to facilitate the open-domain learning. The proposed concept dictionary is further used to provide sufficient negative concepts for the construction of the word-region alignment loss\, and to complete labels for objects with missing descriptions in captions of image-text pair data. The proposed framework demonstrates strong zero-shot detection performances, e.g., on the LVIS dataset, our DetCLIP-T outperforms GLIP-T by 9.9% mAP and obtains a 13.5% improvement on rare categories compared to the fully-supervised model with the same backbone as ours.
翻訳日:2022-09-21 18:26:09 公開日:2022-09-20
# プロンプトによる残量情報抽出のための簡単なアプローチ

A Few-shot Approach to Resume Information Extraction via Prompts ( http://arxiv.org/abs/2209.09450v1 )

ライセンス: Link先を確認
Chengguang Gan, Tatsunori Mori(参考訳) プロンプト学習は、非常に少ないトレーニング例で、ほとんどのテキスト分類タスクでほぼ微妙なパフォーマンスを達成できることが示されている。 サンプルが不足しているNLPタスクには有利である。 本稿では,情報抽出を再開する現実的なシナリオに適用し,既存の手法を強化して,情報抽出タスクにもっと適用できるようにする。 特に,履歴書のテキスト的特徴に基づいて,複数の手動テンプレートと動詞を作成した。 さらに,この課題に対して,masked Language Model (MLM) プレトレーニング言語モデル (PLM) と Seq2Seq PLM の性能を比較した。 さらに,他のアプリケーションベース NLP タスクに対する Prompt テンプレートの設計例を提供するために,知識型 Prompt-tuning のための動詞化器の設計方法を改善する。 本稿では,手動知識言語(Manual Knowledgeable Verbalizer, MKV)の概念を提案する。 アプリケーションシナリオに対応するKnowledgeable Verbalizerを構築するためのルール。 実験は、既存の手動テンプレートや自動生成プロンプトメソッドよりも、私たちのルールに基づいて設計されたテンプレートや動詞化器の方が効率的で堅牢であることを実証します。 現在利用可能な自動プロンプトメソッドは、いくつかの現実的なタスクシナリオのために手作業で設計されたプロンプトテンプレートと競合することができない。 最終混乱行列の結果,提案したMKVは試料不均衡問題を著しく解決した。

Prompt learning has been shown to achieve near-Fine-tune performance in most text classification tasks with very few training examples. It is advantageous for NLP tasks where samples are scarce. In this paper, we attempt to apply it to a practical scenario, i.e resume information extraction, and to enhance the existing method to make it more applicable to the resume information extraction task. In particular, we created multiple sets of manual templates and verbalizers based on the textual characteristics of resumes. In addition, we compared the performance of Masked Language Model (MLM) pre-training language models (PLMs) and Seq2Seq PLMs on this task. Furthermore, we improve the design method of verbalizer for Knowledgeable Prompt-tuning in order to provide a example for the design of Prompt templates and verbalizer for other application-based NLP tasks. In this case, we propose the concept of Manual Knowledgeable Verbalizer(MKV). A rule for constructing the Knowledgeable Verbalizer corresponding to the application scenario. Experiments demonstrate that templates and verbalizers designed based on our rules are more effective and robust than existing manual templates and automatically generated prompt methods. It is established that the currently available automatic prompt methods cannot compete with manually designed prompt templates for some realistic task scenarios. The results of the final confusion matrix indicate that our proposed MKV significantly resolved the sample imbalance issue.
翻訳日:2022-09-21 18:19:29 公開日:2022-09-20
# クリニカルノートにおける症状イベント抽出のためのドメインの一般化

Generalizing through Forgetting -- Domain Generalization for Symptom Event Extraction in Clinical Notes ( http://arxiv.org/abs/2209.09485v1 )

ライセンス: Link先を確認
Sitong Zhou, Kevin Lybarger, Meliha Yetisgen Mari Ostendorf(参考訳) 症状情報は、主にフリーテキストの臨床ノートに記録されており、下流のアプリケーションには直接アクセスできない。 この課題に対処するためには、様々な施設や専門分野にまたがる臨床言語の変化に対処できる情報抽出アプローチが必要である。 本稿では, 施設, 専門, 患者集団の観点から, 対象領域と異なる事前訓練データと微調整データを用いた症状抽出のための領域一般化について述べる。 変圧器を用いたジョイントエンティティと関係抽出法を用いて症状イベントを抽出する。 ドメイン固有の特徴への依存を軽減するため,ソースドメイン内の頻繁な症状語を動的にマスキングする領域一般化手法を提案する。 さらに、より優れた表現のために、タスク関連未ラベルテキスト上でトランスフォーマー言語モデル(LM)を事前訓練する。 実験により,マスキングおよび適応事前学習手法は,ソース領域が対象領域からより遠い場合,性能を著しく向上できることが示唆された。

Symptom information is primarily documented in free-text clinical notes and is not directly accessible for downstream applications. To address this challenge, information extraction approaches that can handle clinical language variation across different institutions and specialties are needed. In this paper, we present domain generalization for symptom extraction using pretraining and fine-tuning data that differs from the target domain in terms of institution and/or specialty and patient population. We extract symptom events using a transformer-based joint entity and relation extraction method. To reduce reliance on domain-specific features, we propose a domain generalization method that dynamically masks frequent symptoms words in the source domain. Additionally, we pretrain the transformer language model (LM) on task-related unlabeled texts for better representation. Our experiments indicate that masking and adaptive pretraining methods can significantly improve performance when the source domain is more distant from the target domain.
翻訳日:2022-09-21 18:19:07 公開日:2022-09-20
# 韓国の「普遍的依存」のもう1つのフォーマット

Yet Another Format of Universal Dependencies for Korean ( http://arxiv.org/abs/2209.09742v1 )

ライセンス: Link先を確認
Yige Chen and Eunkyul Leah Jo and Yundong Yao and KyungTae Lim and Miikka Silfverberg and Francis M. Tyers and Jungyeul Park(参考訳) 本研究では,韓国の係り受け解析のための形態素に基づくスキームを提案し,このスキームをユニバーサル依存に適用する。 本稿では,形態素ベースのフォーマットを採用する動機と必要性を示す言語学的根拠を示し,Universal Dependenciesが使用するオリジナルフォーマットと提案した形態素ベースのフォーマットを自動変換するスクリプトを開発する。 UDPipe や Stanza などの統計モデルとニューラルモデルにより,韓国語へのモーフィムベースの単語埋め込みを慎重に構築した上で,韓国語係り受け解析方式の有効性を検証した。 morphudは韓国全ud木バンクの解析結果を上回り,詳細な誤差解析を行う。

In this study, we propose a morpheme-based scheme for Korean dependency parsing and adopt the proposed scheme to Universal Dependencies. We present the linguistic rationale that illustrates the motivation and the necessity of adopting the morpheme-based format, and develop scripts that convert between the original format used by Universal Dependencies and the proposed morpheme-based format automatically. The effectiveness of the proposed format for Korean dependency parsing is then testified by both statistical and neural models, including UDPipe and Stanza, with our carefully constructed morpheme-based word embedding for Korean. morphUD outperforms parsing results for all Korean UD treebanks, and we also present detailed error analyses.
翻訳日:2022-09-21 18:18:50 公開日:2022-09-20
# 目標誘導型オープンドメイン会話計画

Target-Guided Open-Domain Conversation Planning ( http://arxiv.org/abs/2209.09746v1 )

ライセンス: Link先を確認
Yosuke Kishinami, Reina Akama, Shiki Sato, Ryoko Tokuhisa, Jun Suzuki, Kentaro Inui(参考訳) 目標指向の会話的タスクに取り組む以前の研究は、目標指向の人工知能エージェント、すなわち計画の文脈で集中的に研究されてきた重要な概念を欠いている。 本研究では,対話エージェントが目標指向の会話計画能力を持つかどうかを評価するために,TGCP(Target-Guided Open-Domain Conversation Planning)タスクを提案する。 tgcpタスクを用いて,既存の検索モデルと近年の強力な生成モデルの対話計画能力について検討する。 実験結果から現在の技術が直面する課題が明らかになった。

Prior studies addressing target-oriented conversational tasks lack a crucial notion that has been intensively studied in the context of goal-oriented artificial intelligence agents, namely, planning. In this study, we propose the task of Target-Guided Open-Domain Conversation Planning (TGCP) task to evaluate whether neural conversational agents have goal-oriented conversation planning abilities. Using the TGCP task, we investigate the conversation planning abilities of existing retrieval models and recent strong generative models. The experimental results reveal the challenges facing current technology.
翻訳日:2022-09-21 18:18:37 公開日:2022-09-20
# イタリアの言語多様性のためのNLP : 課題と道のり

NLP for Language Varieties of Italy: Challenges and the Path Forward ( http://arxiv.org/abs/2209.09757v1 )

ライセンス: Link先を確認
Alan Ramponi(参考訳) イタリアはヨーロッパ一流の言語多様性の風景を特徴とし、現地の知識、文化の伝統、芸術表現、話者の歴史を暗黙的にエンコードしている。 しかし、イタリアの30以上の言語品種は数世代以内に消滅する恐れがある。 言語技術は、絶滅危惧言語を保存する上で主要な役割を担っているが、現在では、未資源であり、ほとんどは標準化された正書法に欠けており、主に音声設定で使われている。 本稿では,イタリアの言語文脈について紹介し,イタリアの言語品種におけるNLP技術の発展に直面する課題について論じる。 我々は、潜在的な方向性を提供し、パラダイムを機械中心から話者中心のnlpに移行することを提唱する。 最後に,イタリアの言語・方言のための言語・言語技術の責任ある参加型開発に向けた地域コミュニティの構築を提案する。

Italy is characterized by a one-of-a-kind linguistic diversity landscape in Europe, which implicitly encodes local knowledge, cultural traditions, artistic expression, and history of its speakers. However, over 30 language varieties in Italy are at risk of disappearing within few generations. Language technology has a main role in preserving endangered languages, but it currently struggles with such varieties as they are under-resourced and mostly lack standardized orthography, being mainly used in spoken settings. In this paper, we introduce the linguistic context of Italy and discuss challenges facing the development of NLP technologies for Italy's language varieties. We provide potential directions and advocate for a shift in the paradigm from machine-centric to speaker-centric NLP. Finally, we propose building a local community towards responsible, participatory development of speech and language technologies for languages and dialects of Italy.
翻訳日:2022-09-21 18:18:28 公開日:2022-09-20
# マルチモーダル感情認識のためのプログレッシブなトリモーダル注意を伴うエンド・ツー・エンドトランスフォーマタ

An Efficient End-to-End Transformer with Progressive Tri-modal Attention for Multi-modal Emotion Recognition ( http://arxiv.org/abs/2209.09768v1 )

ライセンス: Link先を確認
Yang Wu, Pai Peng, Zhenyu Zhang, Yanyan Zhao, Bing Qin(参考訳) 近年、マルチモーダルな感情認識がエンドツーエンドモデルに移行し、ターゲットタスクによって監督されるタスク固有の特徴を、2相パイプラインと比較して抽出することができる。 しかし, 従来の手法では, テキストと視覚的モーダル間の特徴的相互作用のみをモデル化し, 音響的モーダルと視覚的モーダル間の特徴的相互作用を捉えることを無視していた。 本稿では,テキスト,音響,視覚間の相互作用を低レベル,高レベルで効果的にモデル化できるマルチモーダルエンド・ツー・エンドトランス(me2et)を提案する。 低レベルにおいては、2パス戦略を採用することで3モーダル特徴相互作用をモデル化し、さらにそのような相互作用を活用して入力トークン長を減らし、計算とメモリの複雑さを著しく低減できるプログレッシブ・トリモーダル・アテンションを提案する。 高レベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。 CMU-MOSEIとIEMOCAPデータセットの実験結果は、ME2ETが最先端のパフォーマンスを達成することを示す。 さらに詳細な分析により,提案手法の有効性, 効率, 解釈可能性を示すとともに, 計算コストとメモリコストを大幅に削減しつつ, モデルの性能向上に寄与する。 私たちのコードは公開されます。

Recent works on multi-modal emotion recognition move towards end-to-end models, which can extract the task-specific features supervised by the target task compared with the two-phase pipeline. However, previous methods only model the feature interactions between the textual and either acoustic and visual modalities, ignoring capturing the feature interactions between the acoustic and visual modalities. In this paper, we propose the multi-modal end-to-end transformer (ME2ET), which can effectively model the tri-modal features interaction among the textual, acoustic, and visual modalities at the low-level and high-level. At the low-level, we propose the progressive tri-modal attention, which can model the tri-modal feature interactions by adopting a two-pass strategy and can further leverage such interactions to significantly reduce the computation and memory complexity through reducing the input token length. At the high-level, we introduce the tri-modal feature fusion layer to explicitly aggregate the semantic representations of three modalities. The experimental results on the CMU-MOSEI and IEMOCAP datasets show that ME2ET achieves the state-of-the-art performance. The further in-depth analysis demonstrates the effectiveness, efficiency, and interpretability of the proposed progressive tri-modal attention, which can help our model to achieve better performance while significantly reducing the computation and memory cost. Our code will be publicly available.
翻訳日:2022-09-21 18:18:14 公開日:2022-09-20
# レジスタのバリエーションは60言語で安定している

Register Variation Remains Stable Across 60 Languages ( http://arxiv.org/abs/2209.09813v1 )

ライセンス: Link先を確認
Haipeng Li, Jonathan Dunn, Andrea Nini(参考訳) 本稿では,言語間レジスタ変動の安定性を計測する。 レジスタは言語外文脈に関連する言語の一種である。 レジスタを構成する言語的特徴は、コミュニケーションの状況のニーズと制約によって動機付けられている。 この見解はレジスタが普遍的であるべきであると仮定し、レジスタを定義する言語外コンテキストとレジスタが持つ言語的特徴の集合との安定した関係を期待する。 本稿では,60ヶ国語における登録固有のコーパス間の差異を,つぶやきやwikipediaの記事に匹敵する状況で生成されたコーパスを用いて比較することにより,レジスタ変動の普遍性とロバスト性を検証する。 本研究は,レジスタ変動が実際は普遍的であるという予測を裏付けるものである。

This paper measures the stability of cross-linguistic register variation. A register is a variety of a language that is associated with extra-linguistic context. The relationship between a register and its context is functional: the linguistic features that make up a register are motivated by the needs and constraints of the communicative situation. This view hypothesizes that register should be universal, so that we expect a stable relationship between the extra-linguistic context that defines a register and the sets of linguistic features which the register contains. In this paper, the universality and robustness of register variation is tested by comparing variation within vs. between register-specific corpora in 60 languages using corpora produced in comparable communicative situations: tweets and Wikipedia articles. Our findings confirm the prediction that register variation is, in fact, universal.
翻訳日:2022-09-21 18:17:48 公開日:2022-09-20
# Twitterのトピック分類

Twitter Topic Classification ( http://arxiv.org/abs/2209.09824v1 )

ライセンス: Link先を確認
Dimosthenis Antypas, Asahi Ushio, Jose Camacho-Collados, Leonardo Neves, V\'itor Silva, Francesco Barbieri(参考訳) ソーシャルメディアプラットフォームは、毎日発生するさまざまなトピックに関する議論をホストしている。 すべてのコンテンツを理解し、それをカテゴリに整理するのは大変な作業です。 この問題に対処する一般的な方法は、トピックモデリングに依存するが、この技術で発見されたトピックは解釈が難しく、コーパスとコーパスが異なる可能性がある。 本稿では,ツイートのトピック分類に基づく新しいタスクを提案し,関連するデータセットを2つリリースする。 ソーシャルメディアにおける最も重要な議論ポイントを網羅する幅広いトピックを想定し,ツイート分類モデルの評価に使用できる,最近の期間のトレーニングおよびテストデータを提供する。 さらに,タスクの課題や性質について,現在の汎用言語モデルとドメイン固有言語モデルの定量的評価と分析を行う。

Social media platforms host discussions about a wide variety of topics that arise everyday. Making sense of all the content and organising it into categories is an arduous task. A common way to deal with this issue is relying on topic modeling, but topics discovered using this technique are difficult to interpret and can differ from corpus to corpus. In this paper, we present a new task based on tweet topic classification and release two associated datasets. Given a wide range of topics covering the most important discussion points in social media, we provide training and testing data from recent time periods that can be used to evaluate tweet classification models. Moreover, we perform a quantitative evaluation and analysis of current general- and domain-specific language models on the task, which provide more insights on the challenges and nature of the task.
翻訳日:2022-09-21 18:17:36 公開日:2022-09-20
# AIサッカーのためのディープQネットワーク

Deep Q-Network for AI Soccer ( http://arxiv.org/abs/2209.09491v1 )

ライセンス: Link先を確認
Curie Kim, Yewon Hwang, and Jong-Hwan Kim(参考訳) 強化学習は、ゲーム、特にatariゲームやgoの応用において、優れたパフォーマンスを示している。 これらの成功例に基づき、AIサッカーゲームによく知られた強化学習アルゴリズムであるディープQネットワークを適用しようとする。 ai soccerは5:5のロボットサッカーゲームで、各参加者は対戦相手を倒すためにチーム内の5つのロボットを制御するアルゴリズムを開発した。 Deep Q-Networkは、元の報酬、状態空間、アクションスペースを実装して、各エージェントをトレーニングすることで、ゲーム中に異なる状況で適切なアクションをすることができるように設計されています。 我々のアルゴリズムはエージェントの訓練に成功し、AIサッカー国際大会に参加を希望する10チームに対するミニコンペティションを通じて、そのパフォーマンスが実証された。 この大会は、WCG 2019 Xi'an AI Mastersと共に、AIワールドカップ委員会によって組織された。 私たちのアルゴリズムでは、39カ国の130チームと、この国際コンペティションで16のラウンドに進むという成果を得ました。

Reinforcement learning has shown an outstanding performance in the applications of games, particularly in Atari games as well as Go. Based on these successful examples, we attempt to apply one of the well-known reinforcement learning algorithms, Deep Q-Network, to the AI Soccer game. AI Soccer is a 5:5 robot soccer game where each participant develops an algorithm that controls five robots in a team to defeat the opponent participant. Deep Q-Network is designed to implement our original rewards, the state space, and the action space to train each agent so that it can take proper actions in different situations during the game. Our algorithm was able to successfully train the agents, and its performance was preliminarily proven through the mini-competition against 10 teams wishing to take part in the AI Soccer international competition. The competition was organized by the AI World Cup committee, in conjunction with the WCG 2019 Xi'an AI Masters. With our algorithm, we got the achievement of advancing to the round of 16 in this international competition with 130 teams from 39 countries.
翻訳日:2022-09-21 18:17:24 公開日:2022-09-20
# 臨床治療におけるガイドライン適合性判定の試み

Declarative Guideline Conformance Checking of Clinical Treatments: A Case Study ( http://arxiv.org/abs/2209.09535v1 )

ライセンス: Link先を確認
Joscha Gr\"uger, Tobias Geyer, Martin Kuhn, Stefan Braun, Ralph Bergmann(参考訳) コンフォーマンスチェック(Conformance check)は、特定のモデルに対するプロセスインスタンスの適合性を検証するためのプロセスマイニング手法である。 したがって、このテクニックは、治療症例と臨床ガイドラインの比較に医療的文脈で使用されることが前提となっている。 しかし、医療プロセスは高度に変動し、動的であり、複雑である。 これにより、医療領域における命令適合性検査アプローチの使用が困難になる。 研究によると、宣言的アプローチはこれらの特徴に対処できる。 しかし、いずれのアプローチも実際は受け入れられていない。 もうひとつの課題はアライメントであり、医学的な観点からの付加価値はない。 そこで本研究では,hl7標準arden構文を用いた宣言型,ルールベースの適合性検査,手作業によるアライメントの利用について検討する。 本手法により, 治療症例の適合性を確認し, 医療ガイドラインの大部分に医学的に有意なアライメントを作成することができた。

Conformance checking is a process mining technique that allows verifying the conformance of process instances to a given model. Thus, this technique is predestined to be used in the medical context for the comparison of treatment cases with clinical guidelines. However, medical processes are highly variable, highly dynamic, and complex. This makes the use of imperative conformance checking approaches in the medical domain difficult. Studies show that declarative approaches can better address these characteristics. However, none of the approaches has yet gained practical acceptance. Another challenge are alignments, which usually do not add any value from a medical point of view. For this reason, we investigate in a case study the usability of the HL7 standard Arden Syntax for declarative, rule-based conformance checking and the use of manually modeled alignments. Using the approach, it was possible to check the conformance of treatment cases and create medically meaningful alignments for large parts of a medical guideline.
翻訳日:2022-09-21 18:17:08 公開日:2022-09-20
# 2レベル格子ニューラルネットワーク制御器を用いたLTIシステムの多項式時間到達性

Polynomial-Time Reachability for LTI Systems with Two-Level Lattice Neural Network Controllers ( http://arxiv.org/abs/2209.09400v1 )

ライセンス: Link先を確認
James Ferlez and Yasser Shoukry(参考訳) 本稿では,Rectified Linear Unit (ReLU) Two-Level Lattice (TLL) Neural Network (NN) コントローラによって制御される線形時間不変系(LTI)の到達可能な集合を束縛する計算複雑性について考察する。 特に、そのようなシステムやコントローラでは、tll nnコントローラ(ニューロン数)のサイズの大きさで多項式時間で正確に1ステップ到達可能な集合を計算できることを示す。 さらに、2つの多項式時間法により到達可能な集合のタイトな有界ボックスを得ることができ、一方はTLLの大きさの多項式複雑性を持つもので、もう一方はコントローラのリプシッツ定数の多項式複雑性を持つものである。 重要なことに、これら2つのうちより小さいものは、非退化TLL NNに対して多項式時間で決定できる。 最後に,L-TLLBox と呼ばれる実測到達性と近似到達性の利点を適応的に組み合わせた実用的アルゴリズムを提案する。 我々は,L-TLLBoxを最先端のNNコントローラの到達性ツールと比較した。 これらの実験では、L-TLLBoxは、同じネットワーク/システム上でこのツールよりも5,000倍早く到達可能性解析を完了し、面積の0.08から1.42倍のリーチボックスを生成することができた。

In this paper, we consider the computational complexity of bounding the reachable set of a Linear Time-Invariant (LTI) system controlled by a Rectified Linear Unit (ReLU) Two-Level Lattice (TLL) Neural Network (NN) controller. In particular, we show that for such a system and controller, it is possible to compute the exact one-step reachable set in polynomial time in the size of the size of the TLL NN controller (number of neurons). Additionally, we show that it is possible to obtain a tight bounding box of the reachable set via two polynomial-time methods: one with polynomial complexity in the size of the TLL and the other with polynomial complexity in the Lipschitz constant of the controller and other problem parameters. Crucially, the smaller of the two can be decided in polynomial time for non-degenerate TLL NNs. Finally, we propose a pragmatic algorithm that adaptively combines the benefits of (semi-)exact reachability and approximate reachability, which we call L-TLLBox. We evaluate L-TLLBox with an empirical comparison to a state-of-the-art NN controller reachability tool. In these experiments, L-TLLBox was able to complete reachability analysis as much as 5000x faster than this tool on the same network/system, while producing reach boxes that were from 0.08 to 1.42 times the area.
翻訳日:2022-09-21 18:11:30 公開日:2022-09-20
# 集合変換器による関係推論:確率効率とMARLへの応用

Relational Reasoning via Set Transformers: Provable Efficiency and Applications to MARL ( http://arxiv.org/abs/2209.09845v1 )

ライセンス: Link先を確認
Fengzhuo Zhang, Boyi Liu, Kaixin Wang, Vincent Y. F. Tan, Zhuoran Yang, Zhaoran Wang(参考訳) 置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな成功を収めている。 残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。 本稿では,変換器が複雑な関係推論を実装していることを検証し,モデルフリーおよびモデルベースオフラインMARLアルゴリズムを変換器近似器を用いて提案・解析する。 モデルフリーアルゴリズムとモデルベースアルゴリズムの下位最適性ギャップは,それぞれエージェント数と対数から独立していることが証明され,多くのエージェントの呪いを緩和する。 これらの結果は、変圧器の新しい一般化誤差境界と、変圧器を用いたシステムダイナミクスの最大度推定(mle)の新しい解析の結果である。 我々のモデルベースアルゴリズムは、エージェントの置換不変性を明示的に活用する最初の証明可能なMARLアルゴリズムである。

The cooperative Multi-A gent R einforcement Learning (MARL) with permutation invariant agents framework has achieved tremendous empirical successes in real-world applications. Unfortunately, the theoretical understanding of this MARL problem is lacking due to the curse of many agents and the limited exploration of the relational reasoning in existing works. In this paper, we verify that the transformer implements complex relational reasoning, and we propose and analyze model-free and model-based offline MARL algorithms with the transformer approximators. We prove that the suboptimality gaps of the model-free and model-based algorithms are independent of and logarithmic in the number of agents respectively, which mitigates the curse of many agents. These results are consequences of a novel generalization error bound of the transformer and a novel analysis of the Maximum Likelihood Estimate (MLE) of the system dynamics with the transformer. Our model-based algorithm is the first provably efficient MARL algorithm that explicitly exploits the permutation invariance of the agents.
翻訳日:2022-09-21 18:11:09 公開日:2022-09-20
# 深部一般schr\"odinger橋

Deep Generalized Schr\"odinger Bridge ( http://arxiv.org/abs/2209.09893v1 )

ライセンス: Link先を確認
Guan-Horng Liu, Tianrong Chen, Oswin So, Evangelos A. Theodorou(参考訳) Mean-Field Game (MFG) は、多数の集団と確率的に相互作用する個々のエージェントの集団的振る舞いをモデル化する重要な数学的枠組みである。 本研究は,これらの相互作用する選好の相違性を解決できないようなMFGの難解なクラスを解くことを目的としており,人口は,所望の分布に正確に収束するよう促されている。 これらの設定は、実用的な目的のために十分に動機づけられているにもかかわらず、ほとんどの(深い)数値解法を麻痺させるほど複雑である。 それにもかかわらず、Shr\"odinger Bridge - エントロピー規則化された最適輸送モデルとして、平均場構造を受け入れるように一般化できることを示し、これらのMFGを解く。 これはForward-Backward Stochastic Differential Equations理論の適用によって達成され、これは興味深いことに、時間差分学習に類似した構造を持つ計算フレームワークに導かれる。 これにより,Deep Reinforcement Learning(深層強化学習)への新たなアルゴリズム接続が開き,実践的なトレーニングを容易にする。 提案する目的関数が平均場問題に必要かつ十分な条件を提供することを示す。 提案手法はDeep Generalized Schr\"odinger Bridge (DeepGSB) と名付けられ,従来のMFGの解法に勝るだけでなく,1000次元の意見非分極を解き,高次元のMFGに対する新しい数値解法を構築することができる。 私たちのコードはhttps://github.com/ghliu/DeepGSB.comで公開されます。

Mean-Field Game (MFG) serves as a crucial mathematical framework in modeling the collective behavior of individual agents interacting stochastically with a large population. In this work, we aim at solving a challenging class of MFGs in which the differentiability of these interacting preferences may not be available to the solver, and the population is urged to converge exactly to some desired distribution. These setups are, despite being well-motivated for practical purposes, complicated enough to paralyze most (deep) numerical solvers. Nevertheless, we show that Schr\"odinger Bridge - as an entropy-regularized optimal transport model - can be generalized to accepting mean-field structures, hence solving these MFGs. This is achieved via the application of Forward-Backward Stochastic Differential Equations theory, which, intriguingly, leads to a computational framework with a similar structure to Temporal Difference learning. As such, it opens up novel algorithmic connections to Deep Reinforcement Learning that we leverage to facilitate practical training. We show that our proposed objective function provides necessary and sufficient conditions to the mean-field problem. Our method, named Deep Generalized Schr\"odinger Bridge (DeepGSB), not only outperforms prior methods in solving classical population navigation MFGs, but is also capable of solving 1000-dimensional opinion depolarization, setting a new state-of-the-art numerical solver for high-dimensional MFGs. Our code will be made available at https://github.com/ghliu/DeepGSB.
翻訳日:2022-09-21 18:10:53 公開日:2022-09-20
# 深層学習型医療セグメンテーションにおける拡張性不確実性定量化のための校正アンサンブル

Calibrating Ensembles for Scalable Uncertainty Quantification in Deep Learning-based Medical Segmentation ( http://arxiv.org/abs/2209.09563v1 )

ライセンス: Link先を確認
Thomas Buddenkotte, Lorena Escudero Sanchez, Mireia Crispin-Ortuzar, Ramona Woitek, Cathal McCague, James D. Brenton, Ozan \"Oktem, Evis Sala, Leonardo Rundo(参考訳) 自動画像解析における不確かさの定量化は、多くのアプリケーションで非常に望ましい。 通常、分類やセグメンテーションにおける機械学習モデルはバイナリな回答を提供するためにのみ開発されるが、モデルの不確実性を定量化することは、例えばアクティブな学習やマシンヒューマンインタラクションにおいて重要な役割を果たす。 多くのイメージング応用において最先端のディープラーニングモデルを使用する場合、不確かさの定量化は特に困難である。 現在の不確実量化アプローチは、高次元実世界の問題ではうまくスケールしない。 スケーラブルなソリューションは、後方分布を得るために、異なるランダムシードを持つ同一モデルの推論やトレーニングの間、ドロップアウトのような古典的なテクニックに依存することが多い。 本稿では,これらの手法が分類確率を近似できないことを示す。 そこで本研究では,ディープラーニングモデルのアンサンブルを校正し,分類確率を近似する不確実性定量化測定を行うスケーラブルで直感的なフレームワークを提案する。 未確認試験データでは,標準手法と比較した場合の校正精度,感度(3例中2例),精度が向上した。 さらに,この手法をアクティブラーニングに活用し,ラベルのない画像から学習するための擬似ラベルを作成し,人間と機械のコラボレーションを行う。

Uncertainty quantification in automated image analysis is highly desired in many applications. Typically, machine learning models in classification or segmentation are only developed to provide binary answers; however, quantifying the uncertainty of the models can play a critical role for example in active learning or machine human interaction. Uncertainty quantification is especially difficult when using deep learning-based models, which are the state-of-the-art in many imaging applications. The current uncertainty quantification approaches do not scale well in high-dimensional real-world problems. Scalable solutions often rely on classical techniques, such as dropout, during inference or training ensembles of identical models with different random seeds to obtain a posterior distribution. In this paper, we show that these approaches fail to approximate the classification probability. On the contrary, we propose a scalable and intuitive framework to calibrate ensembles of deep learning models to produce uncertainty quantification measurements that approximate the classification probability. On unseen test data, we demonstrate improved calibration, sensitivity (in two out of three cases) and precision when being compared with the standard approaches. We further motivate the usage of our method in active learning, creating pseudo-labels to learn from unlabeled images and human-machine collaboration.
翻訳日:2022-09-21 18:10:14 公開日:2022-09-20
# 文埋め込みのコントラスト学習のための非言語的スーパービジョン

Non-Linguistic Supervision for Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2209.09433v1 )

ライセンス: Link先を確認
Yiren Jian and Chongyang Gao and Soroush Vosoughi(参考訳) 文のセマンティック表現学習は、NLPにおいて重要かつよく研究された問題である。 このタスクの現在のトレンドは、テキストとの対比目的、すなわち意味的に類似した意味を持つ文章をクラスタリングし、他の文章を散乱することでトランスフォーマベースの文エンコーダを訓練することである。 本研究では,文エンコーダとしてのTransformerモデルの性能を,他のモダリティ(文や無関係画像/オーディオデータなど)の未ペア例を用いて,マルチモーダルなマルチタスク損失のトレーニングによって向上できることを示す。 特に、テキストにおける対照的な損失による学習に加えて、我々のモデルは、類似した対照的な損失を伴う非言語的ドメイン(例えば、ビジュアル/オーディオ)からサンプルをクラスタリングする。 非言語的データに対する我々のフレームワークの依存は言語に依存しないので、英語のNLPを超えて広く適用することができる。 7つの意味的テキスト類似性ベンチマークの実験により、追加の非言語的(イメージ/オーディオ)で訓練されたモデルは、高い品質の文の埋め込みにつながることが明らかになった。 このことは、Transformerモデルが、類似したタスク(すなわちクラスタリング)をマルチタスク方式で異なるモダリティの例で実行することで、より一般化できることを示している。

Semantic representation learning for sentences is an important and well-studied problem in NLP. The current trend for this task involves training a Transformer-based sentence encoder through a contrastive objective with text, i.e., clustering sentences with semantically similar meanings and scattering others. In this work, we find the performance of Transformer models as sentence encoders can be improved by training with multi-modal multi-task losses, using unpaired examples from another modality (e.g., sentences and unrelated image/audio data). In particular, besides learning by the contrastive loss on text, our model clusters examples from a non-linguistic domain (e.g., visual/audio) with a similar contrastive loss at the same time. The reliance of our framework on unpaired non-linguistic data makes it language-agnostic, enabling it to be widely applicable beyond English NLP. Experiments on 7 semantic textual similarity benchmarks reveal that models trained with the additional non-linguistic (images/audio) contrastive objective lead to higher quality sentence embeddings. This indicates that Transformer models are able to generalize better by doing a similar task (i.e., clustering) with unpaired examples from different modalities in a multi-task fashion.
翻訳日:2022-09-21 18:08:49 公開日:2022-09-20
# Vega-MT:JD Explore Academy Translation System for WMT22

Vega-MT: The JD Explore Academy Translation System for WMT22 ( http://arxiv.org/abs/2209.09444v1 )

ライセンス: Link先を確認
Changtong Zan, Keqin Peng, Liang Ding, Baopu Qiu, Boan Liu, Shwai He, Qingyu Lu, Zheng Zhang, Chuang Liu, Weifeng Liu, Yibing Zhan, Dacheng Tao(参考訳) 本稿では,JD Explore AcademyによるWMT 2022の共通翻訳タスクについて述べる。 我々は、中国英語、ドイツ英語、チェコ英語、ロシア英語、日英語を含む、すべての高資源トラックと1つの中資源トラックに参加した。 我々は、言語ペアとモデルサイズ、すなわち \textbf{Vega-MT} システムという2つの主要な要素をスケールアップすることで、翻訳のための双方向トレーニングの限界を推し進める。 言語ペアに関しては、"双方向"を"双方向"設定にスケールアップし、すべての言語をカバーし、言語間の共通知識を活用し、下流のバイリンガルタスクに転送します。 モデルサイズについては、Transformer-Bigを約470億のパラメータを持つ非常に大きなモデルに拡張し、Vega-MTのモデル容量を完全に強化します。 また,単言語データのサイクル変換や双方向・単言語データの双方向自己学習といったデータ拡張戦略を採用し,両言語・単言語データを総合的に活用する。 一般領域テストセットにVega-MTを適用するために、一般化チューニングを設計する。 Based on the official automatic scores of constrained systems, in terms of the sacreBLEU shown in Figure-1, we got the 1st place on {Zh-En (33.5), En-Zh (49.7), De-En (33.7), En-De (37.8), Cs-En (54.9), En-Cs (41.4) and En-Ru (32.7)}, 2nd place on {Ru-En (45.1) and Ja-En (25.6)}, and 3rd place on {En-Ja(41.5)}, respectively; W.R.T the COMET, we got the 1st place on {Zh-En (45.1), En-Zh (61.7), De-En (58.0), En-De (63.2), Cs-En (74.7), Ru-En (64.9), En-Ru (69.6) and En-Ja (65.1)}, 2nd place on {En-Cs (95.3) and Ja-En (40.6)}, respectively. MTコミュニティを促進するために、GitHubとOmniForce Platformを通じてモデルがリリースされる。

We describe the JD Explore Academy's submission of the WMT 2022 shared general translation task. We participated in all high-resource tracks and one medium-resource track, including Chinese-English, German-English, Czech-English, Russian-English, and Japanese-English. We push the limit of our previous work -- bidirectional training for translation by scaling up two main factors, i.e. language pairs and model sizes, namely the \textbf{Vega-MT} system. As for language pairs, we scale the "bidirectional" up to the "multidirectional" settings, covering all participating languages, to exploit the common knowledge across languages, and transfer them to the downstream bilingual tasks. As for model sizes, we scale the Transformer-Big up to the extremely large model that owns nearly 4.7 Billion parameters, to fully enhance the model capacity for our Vega-MT. Also, we adopt the data augmentation strategies, e.g. cycle translation for monolingual data, and bidirectional self-training for bilingual and monolingual data, to comprehensively exploit the bilingual and monolingual data. To adapt our Vega-MT to the general domain test set, generalization tuning is designed. Based on the official automatic scores of constrained systems, in terms of the sacreBLEU shown in Figure-1, we got the 1st place on {Zh-En (33.5), En-Zh (49.7), De-En (33.7), En-De (37.8), Cs-En (54.9), En-Cs (41.4) and En-Ru (32.7)}, 2nd place on {Ru-En (45.1) and Ja-En (25.6)}, and 3rd place on {En-Ja(41.5)}, respectively; W.R.T the COMET, we got the 1st place on {Zh-En (45.1), En-Zh (61.7), De-En (58.0), En-De (63.2), Cs-En (74.7), Ru-En (64.9), En-Ru (69.6) and En-Ja (65.1)}, 2nd place on {En-Cs (95.3) and Ja-En (40.6)}, respectively. Models will be released to facilitate the MT community through GitHub and OmniForce Platform.
翻訳日:2022-09-21 18:08:28 公開日:2022-09-20
# 変圧器モデルの緩和注意

Relaxed Attention for Transformer Models ( http://arxiv.org/abs/2209.09735v1 )

ライセンス: Link先を確認
Timo Lohrenz and Bj\"orn M\"oller and Zhengyang Li and Tim Fingscheidt(参考訳) オールアテンションベースのトランスフォーマーアーキテクチャの強力なモデリング能力は、しばしば過剰フィッティングを引き起こし、自然言語処理タスクでは、外部言語モデルの統合を複雑にする自己回帰トランスフォーマーデコーダの内部言語モデルに暗黙的に学習される。 本稿では, 注意重みの簡易な平滑化, 一般変圧器アーキテクチャの2倍の改善を図り, エンコーダの自己保持層に適用した場合, 注意の緩和により正規化が図られることを示す。 第2に,デコーダのクロス注意を緩和することにより,暗黙的に学習される内部言語モデルを抑制することにより,外部言語モデルの統合を自然にサポートすることを示す。 我々は、最近のベンチマーク手法と組み合わせて、いくつかのタスクにまたがって注意を緩める利点を実証する。 具体的には,最大のリップ読み取りlrs3ベンチマークにおいて,26.31%の単語誤り率で26.90%の単語誤り率を,iwslt14 (de$\rightarrow$en) 機械翻訳タスクで37.67という最高パフォーマンスのbleuスコアを,外部言語モデルなしで,実質的にモデルパラメータを必要とせずに達成した。 コードとモデルは公開される予定だ。

The powerful modeling capabilities of all-attention-based transformer architectures often cause overfitting and - for natural language processing tasks - lead to an implicitly learned internal language model in the autoregressive transformer decoder complicating the integration of external language models. In this paper, we explore relaxed attention, a simple and easy-to-implement smoothing of the attention weights, yielding a two-fold improvement to the general transformer architecture: First, relaxed attention provides regularization when applied to the self-attention layers in the encoder. Second, we show that it naturally supports the integration of an external language model as it suppresses the implicitly learned internal language model by relaxing the cross attention in the decoder. We demonstrate the benefit of relaxed attention across several tasks with clear improvement in combination with recent benchmark approaches. Specifically, we exceed the former state-of-the-art performance of 26.90% word error rate on the largest public lip-reading LRS3 benchmark with a word error rate of 26.31%, as well as we achieve a top-performing BLEU score of 37.67 on the IWSLT14 (DE$\rightarrow$EN) machine translation task without external language models and virtually no additional model parameters. Code and models will be made publicly available.
翻訳日:2022-09-21 18:02:12 公開日:2022-09-20
# 移動ロボットの視覚異常検出性能向上のための外周露光手法

An Outlier Exposure Approach to Improve Visual Anomaly Detection Performance for Mobile Robots ( http://arxiv.org/abs/2209.09786v1 )

ライセンス: Link先を確認
Dario Mantegazza, Alessandro Giusti, Luca Maria Gambardella and J\'er\^ome Guzzi(参考訳) 移動ロボットの視覚異常検出システム構築の問題点について考察する。 標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。 しかしながら、ロボット工学の応用においては、しばしば(潜在的に非常に少ない)異常の例が利用可能である。 これらのデータを利用して実nvp異常検出モデルの性能を最小化し、実nvp損失、補助的異常露光マージン損失を最小化することで改善する。 室内パトロールシナリオにおける異常検出を目的とした新しいデータセット(補足材料として公開)の定量的実験を行った。 解離テストセットでは,提案手法は代替手法よりも優れており,少数の異常フレームを露出しても性能が大幅に向上することを示す。

We consider the problem of building visual anomaly detection systems for mobile robots. Standard anomaly detection models are trained using large datasets composed only of non-anomalous data. However, in robotics applications, it is often the case that (potentially very few) examples of anomalies are available. We tackle the problem of exploiting these data to improve the performance of a Real-NVP anomaly detection model, by minimizing, jointly with the Real-NVP loss, an auxiliary outlier exposure margin loss. We perform quantitative experiments on a novel dataset (which we publish as supplementary material) designed for anomaly detection in an indoor patrolling scenario. On a disjoint test set, our approach outperforms alternatives and shows that exposing even a small number of anomalous frames yields significant performance improvements.
翻訳日:2022-09-21 18:01:46 公開日:2022-09-20
# 実世界計画のためのオープンボキャブラリクエリー可能なシーン表現

Open-vocabulary Queryable Scene Representations for Real World Planning ( http://arxiv.org/abs/2209.09874v1 )

ライセンス: Link先を確認
Boyuan Chen and Fei Xia and Brian Ichter and Kanishka Rao and Keerthana Gopalakrishnan and Michael S. Ryoo and Austin Stone and Daniel Kappler(参考訳) 大規模言語モデル(LLM)は、人間の指示からタスク計画の新しい機能を解放した。 しかし、LLMを現実世界のロボットタスクに適用しようとする以前の試みは、周囲のシーンでの接地不足によって制限されている。 本稿では,この問題に対処するオープン語彙およびクエリ可能なシーン表現であるNLMapを開発する。 NLMapは、LLMプランナにコンテキスト情報を収集、統合するためのフレームワークとして機能し、コンテキスト条件のプランを生成する前に、シーンで利用可能なオブジェクトを閲覧、クエリすることができる。 NLMapはまず、ビジュアル言語モデル(VLM)を用いた自然言語クエリ可能なシーン表現を確立する。 LLMベースのオブジェクト提案モジュールは命令を解析し、オブジェクトの可用性と位置に関するシーン表現をクエリする関連オブジェクトを提案する。 LLMプランナーは、そのシーンに関するそのような情報を計画する。 NLMapは、固定されたオブジェクトのリストや実行可能なオプションなしでロボットを動作させることができる。 プロジェクトサイト: https://nlmap-saycan.github.io

Large language models (LLMs) have unlocked new capabilities of task planning from human instructions. However, prior attempts to apply LLMs to real-world robotic tasks are limited by the lack of grounding in the surrounding scene. In this paper, we develop NLMap, an open-vocabulary and queryable scene representation to address this problem. NLMap serves as a framework to gather and integrate contextual information into LLM planners, allowing them to see and query available objects in the scene before generating a context-conditioned plan. NLMap first establishes a natural language queryable scene representation with Visual Language models (VLMs). An LLM based object proposal module parses instructions and proposes involved objects to query the scene representation for object availability and location. An LLM planner then plans with such information about the scene. NLMap allows robots to operate without a fixed list of objects nor executable options, enabling real robot operation unachievable by previous methods. Project website: https://nlmap-saycan.github.io
翻訳日:2022-09-21 18:01:34 公開日:2022-09-20
# マルコフ連鎖を学習するスパイクニューラルネットワーク

A Spiking Neural Network Learning Markov Chain ( http://arxiv.org/abs/2209.09572v1 )

ライセンス: Link先を確認
Mikhail Kiselev(参考訳) 本稿では, スパイキングニューラルネットワーク (SNN) が内部構造をどのように学習し, 修正するかを, 外部世界ダイナミクスのモデルとして検討する。 この問題はモデルベース強化学習(rl)の実施において重要であり、snによる決定とその報酬・加減信号による評価を重要な時間間隔と中間評価・中立世界状態のシーケンスで分けることができる。 本研究では,ネットワークによって学習されるべき事前状態遷移確率の未知なマルコフ連鎖として,世界力学を定式化する。 この問題をより現実的にするために、私はそれを連続時間で解き、マルコフ連鎖の全ての状態の持続時間が異なる可能性があり、未知である。 特別に設計された構造と局所的なシナプス可塑性規則を持つSNNによって、このタスクがどのように達成できるかを実証した。 例えば、このネットワークモチーフは、ボールが正方形の箱の中を動き、ランダムな新しい方向と速度で壁から跳ね返る、単純だが自明でない世界でどのように機能するかを示す。

In this paper, the question how spiking neural network (SNN) learns and fixes in its internal structures a model of external world dynamics is explored. This question is important for implementation of the model-based reinforcement learning (RL), the realistic RL regime where the decisions made by SNN and their evaluation in terms of reward/punishment signals may be separated by significant time interval and sequence of intermediate evaluation-neutral world states. In the present work, I formalize world dynamics as a Markov chain with unknown a priori state transition probabilities, which should be learnt by the network. To make this problem formulation more realistic, I solve it in continuous time, so that duration of every state in the Markov chain may be different and is unknown. It is demonstrated how this task can be accomplished by an SNN with specially designed structure and local synaptic plasticity rules. As an example, we show how this network motif works in the simple but non-trivial world where a ball moves inside a square box and bounces from its walls with a random new direction and velocity.
翻訳日:2022-09-21 18:01:04 公開日:2022-09-20
# sleepyco:機能ピラミッドとコントラスト学習を備えた自動睡眠スコア

SleePyCo: Automatic Sleep Scoring with Feature Pyramid and Contrastive Learning ( http://arxiv.org/abs/2209.09452v1 )

ライセンス: Link先を確認
Seongju Lee, Yeonguk Yu, Seunghyeok Back, Hogeon Seo, Kyoobin Lee(参考訳) 睡眠自動採点は睡眠障害の診断と治療に必須であり、家庭での睡眠追跡を可能にする。 従来,睡眠中にマルチチャネル信号を得るのが困難であるため,単チャンネル脳波による学習に基づく睡眠自動スコアリングが積極的に研究されている。 しかし,脳波信号からの学習表現は,次のような問題から困難である。 1)睡眠関連脳波パターンは時間的・頻度的に異なる。 2)睡眠段階は同様の脳波パターンを持つ。 これらの問題に対処するため,我々はSleePyCoというディープラーニングフレームワークを提案する。 1) 特徴ピラミッド,及び 2)自動睡眠得点のための教師付きコントラスト学習 特徴ピラミッドでは,異なる時間・周波数スケールで複数の特徴系列を検討するために,SleePyCo-backboneと呼ばれるバックボーンネットワークを提案する。 教師付きコントラスト学習(supervised contrastive learning)は,クラス内特徴間の距離を最小化し,クラス間特徴を最大化することによって,クラス識別的特徴を抽出する。 4つの公開データセットの比較分析は、SleePyCoが単一チャネルのEEGに基づいて既存のフレームワークを一貫して上回っていることを示している。 広範囲にわたるアブレーション実験により、SleePyCoは全体的な性能が向上し、N1とラピッドアイムーブメント(REM)ステージの識別が大幅に改善された。

Automatic sleep scoring is essential for the diagnosis and treatment of sleep disorders and enables longitudinal sleep tracking in home environments. Conventionally, learning-based automatic sleep scoring on single-channel electroencephalogram (EEG) is actively studied because obtaining multi-channel signals during sleep is difficult. However, learning representation from raw EEG signals is challenging owing to the following issues: 1) sleep-related EEG patterns occur on different temporal and frequency scales and 2) sleep stages share similar EEG patterns. To address these issues, we propose a deep learning framework named SleePyCo that incorporates 1) a feature pyramid and 2) supervised contrastive learning for automatic sleep scoring. For the feature pyramid, we propose a backbone network named SleePyCo-backbone to consider multiple feature sequences on different temporal and frequency scales. Supervised contrastive learning allows the network to extract class discriminative features by minimizing the distance between intra-class features and simultaneously maximizing that between inter-class features. Comparative analyses on four public datasets demonstrate that SleePyCo consistently outperforms existing frameworks based on single-channel EEG. Extensive ablation experiments show that SleePyCo exhibits enhanced overall performance, with significant improvements in discrimination between the N1 and rapid eye movement (REM) stages.
翻訳日:2022-09-21 18:00:06 公開日:2022-09-20
# FACT: 整数列の背後にある抽象化を克服する学習

FACT: Learning Governing Abstractions Behind Integer Sequences ( http://arxiv.org/abs/2209.09543v1 )

ライセンス: Link先を確認
Peter Belc\'ak, Ard Kastrati, Flavio Schenker, Roger Wattenhofer(参考訳) 整数列は完全な有限項記述を許容する概念のモデリングにおいて重要である。 このような概念の学習に関する新たな見解を紹介し,機械学習モデルによる概念理解を目的とした,一連のベンチマークタスクを概説する。 これらのタスクは、モデルを抽象化する能力を間接的に評価し、代表例を観察することによって得られる知識から補間的および外挿的の両方を推論する。 知識表現と推論の研究をさらに支援するため,FACT(Finitary Abstraction Comprehension Toolkit)を提案する。 このツールキットは、有機的および合成的エントリ、データ前処理および生成のためのライブラリ、モデルパフォーマンス評価ツールのセット、およびベースラインモデル実装の集合からなる整数列の大規模なデータセットを取り囲んで、将来の進歩を容易に作成することができる。

Integer sequences are of central importance to the modeling of concepts admitting complete finitary descriptions. We introduce a novel view on the learning of such concepts and lay down a set of benchmarking tasks aimed at conceptual understanding by machine learning models. These tasks indirectly assess model ability to abstract, and challenge them to reason both interpolatively and extrapolatively from the knowledge gained by observing representative examples. To further aid research in knowledge representation and reasoning, we present FACT, the Finitary Abstraction Comprehension Toolkit. The toolkit surrounds a large dataset of integer sequences comprising both organic and synthetic entries, a library for data pre-processing and generation, a set of model performance evaluation tools, and a collection of baseline model implementations, enabling the making of the future advancements with ease.
翻訳日:2022-09-21 17:59:44 公開日:2022-09-20
# ソフトアクション優先:ロバストな政策移行を目指す

Soft Action Priors: Towards Robust Policy Transfer ( http://arxiv.org/abs/2209.09882v1 )

ライセンス: Link先を確認
Matheus Centa and Philippe Preux(参考訳) 多くの挑戦的な問題で成功したにもかかわらず、強化学習(RL)は、エージェントに事前知識を導入することで軽減されるサンプル不効率に直面している。 しかし、強化学習における多くの伝達技術は、教師が専門家であるという仮定を限定している。 本稿では,強化学習より先行したアクションを,ベイズ前ではなく教師方針に類似した各状態におけるアクションの分布を推論フレームワークとして活用し,最先端の政策蒸留手法を回収する。 そこで本研究では,報酬形成と補助正規化損失を組み合わせることで,行動先行を堅牢に活用できる適応手法のクラスを提案する。 従来の作業とは対照的に、私たちは、それでも価値のある知識を与える可能性のある、最適でない行動優先を活用できるアルゴリズムを開発しています。 提案アルゴリズムは,各状態における教師の有用性を推定し,教師のフィードバックの強さを調整することで適応する。 本研究では,提案手法が準最適先行学習において,最先端の性能を達成することを示す表計算実験を行った。 最後に, 適応アルゴリズムの頑健性を示すため, 既存の蒸留法と比較して, 適応アルゴリズムの安定性が大幅に向上した。

Despite success in many challenging problems, reinforcement learning (RL) is still confronted with sample inefficiency, which can be mitigated by introducing prior knowledge to agents. However, many transfer techniques in reinforcement learning make the limiting assumption that the teacher is an expert. In this paper, we use the action prior from the Reinforcement Learning as Inference framework - that is, a distribution over actions at each state which resembles a teacher policy, rather than a Bayesian prior - to recover state-of-the-art policy distillation techniques. Then, we propose a class of adaptive methods that can robustly exploit action priors by combining reward shaping and auxiliary regularization losses. In contrast to prior work, we develop algorithms for leveraging suboptimal action priors that may nevertheless impart valuable knowledge - which we call soft action priors. The proposed algorithms adapt by adjusting the strength of teacher feedback according to an estimate of the teacher's usefulness in each state. We perform tabular experiments, which show that the proposed methods achieve state-of-the-art performance, surpassing it when learning from suboptimal priors. Finally, we demonstrate the robustness of the adaptive algorithms in continuous action deep RL problems, in which adaptive algorithms considerably improved stability when compared to existing policy distillation methods.
翻訳日:2022-09-21 17:53:21 公開日:2022-09-20
# クラスタリングアルゴリズムのベンチマークのためのフレームワーク

A Framework for Benchmarking Clustering Algorithms ( http://arxiv.org/abs/2209.09493v1 )

ライセンス: Link先を確認
Marek Gagolewski(参考訳) クラスタリングアルゴリズムの評価は、様々なベンチマーク問題上でそれらを実行し、それらの出力を専門家が提供した基準的基幹グループと比較することで行うことができる。 残念なことに、多くの研究論文や研究論文は少数のデータセットしか考慮していない。 また、与えられた問題集合をクラスタリングする等しく有効な方法が多数存在するという事実もまれである。 これらの制限を克服するために,クラスタリングアルゴリズムをテストする一貫した方法論を導入することを目的としたフレームワークを開発した。 さらに,機械学習やデータマイニングの分野で参照される多数のクラスタリングベンチマークバッテリを集約,洗練,標準化し,さまざまな次元,サイズ,クラスタタイプのデータセットを新たに導入した。 インタラクティブなデータセットエクスプローラ、Python APIのドキュメント、RやMATLABといった他のプログラミング言語からのフレームワークとのインタラクション方法の説明、その他の詳細はすべてhttps://clustering-benchmarks.gagolewski.comで提供されている。

The evaluation of clustering algorithms can be performed by running them on a variety of benchmark problems, and comparing their outputs to the reference, ground-truth groupings provided by experts. Unfortunately, many research papers and graduate theses consider only a small number of datasets. Also, rarely the fact that there can be many equally valid ways to cluster a given problem set is taken into account. In order to overcome these limitations, we have developed a framework whose aim is to introduce a consistent methodology for testing clustering algorithms. Furthermore, we have aggregated, polished, and standardised many clustering benchmark batteries referred to across the machine learning and data mining literature, and included new datasets of different dimensionalities, sizes, and cluster types. An interactive datasets explorer, the documentation of the Python API, a description of the ways to interact with the framework from other programming languages such as R or MATLAB, and other details are all provided at https://clustering-benchmarks.gagolewski.com.
翻訳日:2022-09-21 17:52:13 公開日:2022-09-20
# 深部物理学補正器:確率微分方程式を解くための物理強化深部学習アーキテクチャ

Deep Physics Corrector: A physics enhanced deep learning architecture for solving stochastic differential equations ( http://arxiv.org/abs/2209.09750v1 )

ライセンス: Link先を確認
Tushar and Souvik Chakraborty(参考訳) 確率微分方程式(SDE)によって制御される物理系に対する新しいグレーボックスモデリングアルゴリズムを提案する。 提案手法はDeep Physics Corrector (DPC)と呼ばれ、SDEとDeep Neural Network (DNN)で表される近似物理学をブレンドする。 第一のアイデアは、DNNを利用して行方不明の物理学をモデル化することだ。 不完全な物理とデータを組み合わせることで、モデルは解釈可能になり、より一般化できるという仮説を立てる。 確率シミュレータのトレーニング代理モデルに関連する主なボトルネックは、しばしば適切な損失関数を選択することである。 文献で利用可能な異なる損失関数のうち,dpcの条件付き最大平均損失関数(cmmd)は,その性能が証明されている。 全体として、物理データ融合とCMMDにより、DPCはスパースデータから学習することができる。 提案するdpcの性能を,文献から得られた4つのベンチマーク例で示す。 その結果,確率シミュレータのサロゲートモデルとしての利用の可能性が示唆された。

We propose a novel gray-box modeling algorithm for physical systems governed by stochastic differential equations (SDE). The proposed approach, referred to as the Deep Physics Corrector (DPC), blends approximate physics represented in terms of SDE with deep neural network (DNN). The primary idea here is to exploit DNN to model the missing physics. We hypothesize that combining incomplete physics with data will make the model interpretable and allow better generalization. The primary bottleneck associated with training surrogate models for stochastic simulators is often associated with selecting the suitable loss function. Among the different loss functions available in the literature, we use the conditional maximum mean discrepancy (CMMD) loss function in DPC because of its proven performance. Overall, physics-data fusion and CMMD allow DPC to learn from sparse data. We illustrate the performance of the proposed DPC on four benchmark examples from the literature. The results obtained are highly accurate, indicating its possible application as a surrogate model for stochastic simulators.
翻訳日:2022-09-21 17:51:40 公開日:2022-09-20
# 視覚認識のための動的グラフメッセージパッシングネットワーク

Dynamic Graph Message Passing Networks for Visual Recognition ( http://arxiv.org/abs/2209.09760v1 )

ライセンス: Link先を確認
Li Zhang, Mohan Chen, Anurag Arnab, Xiangyang Xue, Philip H.S. Torr(参考訳) 長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。 畳み込みニューラルネットワーク(cnns)は多くのビジョンタスクで優れているが、通常は局所カーネルの層で構成された長距離構造的関係を捉えることは制限されている。 トランスフォーマーの自己注意操作のような完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。 本稿では,完全連結グラフをモデル化する関連作業と比較して計算量を大幅に削減する動的グラフメッセージパッシングネットワークを提案する。 これは、メッセージパッシングのために入力に条件付きでグラフ内のノードを適応的にサンプリングすることで達成される。 サンプルノードに基づき,ノード依存フィルタ重みとそれらの間の情報伝達のための親和性行列を動的に予測する。 この定式化により、自己アテンションモジュールを設計することができ、さらに重要なのは、画像分類事前トレーニングと、さまざまな下流タスク(オブジェクト検出、インスタンス、セマンティックセグメンテーション)に使用するトランスフォーマーベースのバックボーンネットワークである。 このモデルを用いて,4つのタスクに対して,強靭で最先端のベースラインに対する大幅な改善を示す。 また,浮動小数点演算やパラメータをかなり少なくしながら,完全連結グラフよりも優れた手法を提案する。 コードとモデルはhttps://github.com/fudan-zvg/DGMN2で公開される。

Modelling long-range dependencies is critical for scene understanding tasks in computer vision. Although convolution neural networks (CNNs) have excelled in many vision tasks, they are still limited in capturing long-range structured relationships as they typically consist of layers of local kernels. A fully-connected graph, such as the self-attention operation in Transformers, is beneficial for such modelling, however, its computational overhead is prohibitive. In this paper, we propose a dynamic graph message passing network, that significantly reduces the computational complexity compared to related works modelling a fully-connected graph. This is achieved by adaptively sampling nodes in the graph, conditioned on the input, for message passing. Based on the sampled nodes, we dynamically predict node-dependent filter weights and the affinity matrix for propagating information between them. This formulation allows us to design a self-attention module, and more importantly a new Transformer-based backbone network, that we use for both image classification pretraining, and for addressing various downstream tasks (object detection, instance and semantic segmentation). Using this model, we show significant improvements with respect to strong, state-of-the-art baselines on four different tasks. Our approach also outperforms fully-connected graphs while using substantially fewer floating-point operations and parameters. Code and models will be made publicly available at https://github.com/fudan-zvg/DGMN2
翻訳日:2022-09-21 17:50:59 公開日:2022-09-20
# アウトオブディストリビューション検出のための極端に簡単なアクティベーションシェーピング

Extremely Simple Activation Shaping for Out-of-Distribution Detection ( http://arxiv.org/abs/2209.09858v1 )

ライセンス: Link先を確認
Andrija Djurisic, Nebojsa Bozanic, Arjun Ashok, Rosanne Liu(参考訳) トレーニングと機械学習モデルのデプロイメントの分離は、デプロイメントで遭遇したすべてのシナリオがトレーニング中に予測できるわけではないことを意味するため、トレーニングの進歩のみに依存することが限界となる。 アウト・オブ・ディストリビューション(OOD)検出は、モデルが目に見えない状況に対処する能力をテストする重要な領域である。 既存のOOD検出方法は、追加のトレーニングステップ、追加データ、あるいはトレーニングされたネットワークに非自明な変更を加える。 対照的に,本研究では,試料の後期層での活性化の大部分(例:90%)を除去し,残りの部分(例:10%)を簡易あるいは軽快に調整する,極端に単純でポストホックなオンザフライ活性化成形法であるASHを提案する。 形状は推論時に適用され、トレーニングデータから計算された統計は不要である。 実験により、この単純な処理は、ImageNet上で最先端のOOD検出を可能にするために、分布内および分布外サンプルの区別を向上し、分布内精度を著しく低下させないことが示された。 2つの説明と検証を要求し、発見をさらに検証し理解するための集団的な力を信じている。 コール、ビデオ、コードは以下の通り。

The separation between training and deployment of machine learning models implies that not all scenarios encountered in deployment can be anticipated during training, and therefore relying solely on advancements in training has its limits. Out-of-distribution (OOD) detection is an important area that stress-tests a model's ability to handle unseen situations: Do models know when they don't know? Existing OOD detection methods either incur extra training steps, additional data or make nontrivial modifications to the trained network. In contrast, in this work, we propose an extremely simple, post-hoc, on-the-fly activation shaping method, ASH, where a large portion (e.g. 90%) of a sample's activation at a late layer is removed, and the rest (e.g. 10%) simplified or lightly adjusted. The shaping is applied at inference time, and does not require any statistics calculated from training data. Experiments show that such a simple treatment enhances in-distribution and out-of-distribution sample distinction so as to allow state-of-the-art OOD detection on ImageNet, and does not noticeably deteriorate the in-distribution accuracy. We release alongside the paper two calls for explanation and validation, believing the collective power to further validate and understand the discovery. Calls, video and code can be found at: https://andrijazz.github.io/ash
翻訳日:2022-09-21 17:50:35 公開日:2022-09-20
# 簡単にできますか? NLGのための簡易, 効率的, 高品質評価指標

Can we do that simpler? Simple, Efficient, High-Quality Evaluation Metrics for NLG ( http://arxiv.org/abs/2209.09593v1 )

ライセンス: Link先を確認
Jens Gr\"unwald, Christoph Leiter, Steffen Eger(参考訳) 自然言語生成(NLG)の効率的な評価指標について検討する。 効率的なメトリクスを実現するために (i) bertscore、moverscore、bartscore、xmoverscoreなどのメトリクスにおける計算量の多いトランスフォーマーと、より軽いバージョン(蒸留したものなど)と (ii)線形および二次近似による単語移動距離などの立方的推論時間アライメントアルゴリズム。 6つの評価指標(単言語と多言語の両方)を3つの異なる機械翻訳データセットで評価し,16個の軽量トランスフォーマーを代替として検討した。 私たちは、とりわけ、それを見つける。 (a)TinyBERTはBERTScoreファミリーのセマンティック類似度指標に最適な品質効率のトレードオフを示し、平均推定時間では99%の品質を維持し、5倍高速である。 (b)CPUとGPUのスピードアップには大きな違いがあり(CPUのスピードアップがかなり高い)、 (c) WMD近似は効率性は向上しないが, 検討した3つのデータセットのうち2つに対して, 品質が著しく低下する。

We explore efficient evaluation metrics for Natural Language Generation (NLG). To implement efficient metrics, we replace (i) computation-heavy transformers in metrics such as BERTScore, MoverScore, BARTScore, XMoverScore, etc. with lighter versions (such as distilled ones) and (ii) cubic inference time alignment algorithms such as Word Mover Distance with linear and quadratic approximations. We consider six evaluation metrics (both monolingual and multilingual), assessed on three different machine translation datasets, and 16 light-weight transformers as replacement. We find, among others, that (a) TinyBERT shows best quality-efficiency tradeoff for semantic similarity metrics of the BERTScore family, retaining 97\% quality and being 5x faster at inference time on average, (b) there is a large difference in speed-ups on CPU vs. GPU (much higher speed-ups on CPU), and (c) WMD approximations yield no efficiency gains but lead to a substantial drop in quality on 2 out of 3 datasets we examine.
翻訳日:2022-09-21 17:44:33 公開日:2022-09-20
# 強化学習における局所制約表現

Locally Constrained Representations in Reinforcement Learning ( http://arxiv.org/abs/2209.09441v1 )

ライセンス: Link先を確認
Somjit Nath and Samira Ebrahimi Kahou(参考訳) 強化学習(rl)の成功は、環境の観察から堅牢な表現を学ぶ能力に大きく依存している。 ほとんどの場合、強化学習損失によって純粋に学習された表現は、値関数がどのように変化するかによって州によって大きく異なる。 しかし、学んだ表現は、目の前のタスクにあまり具体的ではない。 RL の目的にのみ依存すると、連続する時間ステップで大きく異なる表現が得られる。 さらに、rl損失はターゲットが変化するため、学習した表現は現在の値や政治家の良さに依存します。 したがって、メインタスクから表現を遠ざけることで、一般化を改善するトランジションダイナミクスのキャプチャにもっと集中することができる。 この目的のために、補助的損失により状態表現が隣接状態の表現によって予測可能となる局所的制約付き表現を提案する。 これにより、表現は価値/政治学習だけでなく、自己監督学習によっても駆動され、表現が急激な変化を妨げます。 提案手法をいくつかの既知のベンチマークで評価し,高い性能を示す。 特に連続制御タスクでは,実験は強いベースラインに対して大きな優位性を示す。

The success of Reinforcement Learning (RL) heavily relies on the ability to learn robust representations from the observations of the environment. In most cases, the representations learned purely by the reinforcement learning loss can differ vastly across states depending on how the value functions change. However, the representations learned need not be very specific to the task at hand. Relying only on the RL objective may yield representations that vary greatly across successive time steps. In addition, since the RL loss has a changing target, the representations learned would depend on how good the current values/policies are. Thus, disentangling the representations from the main task would allow them to focus more on capturing transition dynamics which can improve generalization. To this end, we propose locally constrained representations, where an auxiliary loss forces the state representations to be predictable by the representations of the neighbouring states. This encourages the representations to be driven not only by the value/policy learning but also self-supervised learning, which constrains the representations from changing too rapidly. We evaluate the proposed method on several known benchmarks and observe strong performance. Especially in continuous control tasks, our experiments show a significant advantage over a strong baseline.
翻訳日:2022-09-21 17:43:21 公開日:2022-09-20
# ベースラインレグレット削減のための共用模擬強化学習フレームワーク

A Joint Imitation-Reinforcement Learning Framework for Reduced Baseline Regret ( http://arxiv.org/abs/2209.09446v1 )

ライセンス: Link先を確認
Sheelabhadra Dey, Sumedh Pendurkar, Guni Sharon, Josiah P. Hanna(参考訳) 各種の制御タスクドメインでは、既存のコントローラは、おそらく最適ではないかもしれないが、ベースラインレベルのパフォーマンスを提供する。 状態と行動空間の広範な探索に依存する強化学習(RL)アルゴリズムは、制御ポリシーの最適化に使用できる。 しかし、完全探索RLアルゴリズムは、トレーニング中にベースラインレベル以下の性能を低下させる可能性がある。 本稿では,基本方針性能に対する後悔を最小限に抑えつつ,制御ポリシのオンライン最適化の問題に対処する。 本稿では,JIRLと表記される共用模倣強化学習フレームワークを提案する。 JIRLの学習プロセスはベースラインポリシーの可用性を前提としており、2つの目的を念頭に設計されている。 (a) ベースラインのオンラインデモンストレーションを活用して,トレーニング中のベースラインポリシーであるw.r.tを最小化する。 (b) 最終的にベースライン性能を超える。 JIRLは、最初にベースラインポリシーを模倣し、ベースラインからRLエージェントへ制御を徐々にシフトさせることで、これらの目的に対処する。 実験の結果,JIRLは複数の連続的な行動空間領域において,上記の目的を効果的に達成できることが示された。 その結果、JIRLは最終性能において最先端のアルゴリズムに匹敵するが、提示されたすべてのドメインでのトレーニングにおいて、ベースラインの後悔は著しく低いことが示されている。 さらに, 最先端のベースライン後悔最小化アプローチに対して, ベースライン後悔を最大21ドル削減する要因が示された。

In various control task domains, existing controllers provide a baseline level of performance that -- though possibly suboptimal -- should be maintained. Reinforcement learning (RL) algorithms that rely on extensive exploration of the state and action space can be used to optimize a control policy. However, fully exploratory RL algorithms may decrease performance below a baseline level during training. In this paper, we address the issue of online optimization of a control policy while minimizing regret w.r.t a baseline policy performance. We present a joint imitation-reinforcement learning framework, denoted JIRL. The learning process in JIRL assumes the availability of a baseline policy and is designed with two objectives in mind \textbf{(a)} leveraging the baseline's online demonstrations to minimize the regret w.r.t the baseline policy during training, and \textbf{(b)} eventually surpassing the baseline performance. JIRL addresses these objectives by initially learning to imitate the baseline policy and gradually shifting control from the baseline to an RL agent. Experimental results show that JIRL effectively accomplishes the aforementioned objectives in several, continuous action-space domains. The results demonstrate that JIRL is comparable to a state-of-the-art algorithm in its final performance while incurring significantly lower baseline regret during training in all of the presented domains. Moreover, the results show a reduction factor of up to $21$ in baseline regret over a state-of-the-art baseline regret minimization approach.
翻訳日:2022-09-21 17:43:03 公開日:2022-09-20
# タスク優先政策構成に向けて

Towards Task-Prioritized Policy Composition ( http://arxiv.org/abs/2209.09536v1 )

ライセンス: Link先を確認
Finn Rietz, Erik Schaffernicht, Todor Stoyanov, Johannes A. Stork(参考訳) モジュール設計が可能で、知識転送によるデータの再利用が容易であるため、学習したポリシを優先順位付け、順序付けした方法で組み合わせることが望ましい。 制御理論では、優先度付き合成は、低優先度制御アクションが高優先度制御アクションのヌルスペースに投影されるヌルスペース制御によって実現される。 このような方法は、現在強化学習では利用できない。 本稿では,強化学習のための新しいタスク優先型構成フレームワークを提案する。 本フレームワークは,強化学習エージェントのためのデータ効率とデータ再利用を大幅に向上しつつ,知識伝達とモジュール設計を促進する可能性を秘めている。 さらに,本手法は,ロボット工学のような安全クリティカルな分野の学習を約束する,優先度の高い制約満足度を確保する。 ヌル空間制御とは異なり,本手法は,初期複合政策構築後の高次政策の無関心空間におけるオンライン学習により,複合課題に対するグローバルな最適政策の学習を可能にする。

Combining learned policies in a prioritized, ordered manner is desirable because it allows for modular design and facilitates data reuse through knowledge transfer. In control theory, prioritized composition is realized by null-space control, where low-priority control actions are projected into the null-space of high-priority control actions. Such a method is currently unavailable for Reinforcement Learning. We propose a novel, task-prioritized composition framework for Reinforcement Learning, which involves a novel concept: The indifferent-space of Reinforcement Learning policies. Our framework has the potential to facilitate knowledge transfer and modular design while greatly increasing data efficiency and data reuse for Reinforcement Learning agents. Further, our approach can ensure high-priority constraint satisfaction, which makes it promising for learning in safety-critical domains like robotics. Unlike null-space control, our approach allows learning globally optimal policies for the compound task by online learning in the indifference-space of higher-level policies after initial compound policy construction.
翻訳日:2022-09-21 17:42:41 公開日:2022-09-20
# Exemplarsによる説明可能なクラスタリング:複雑さと効率的な近似アルゴリズム

Explainable Clustering via Exemplars: Complexity and Efficient Approximation Algorithms ( http://arxiv.org/abs/2209.09670v1 )

ライセンス: Link先を確認
Ian Davidson, Michael Livanos, Antoine Gourru, Peter Walker, Julien Velcin and S. S. Ravi(参考訳) 説明可能なAI(XAI)は重要な開発領域であるが、クラスタリングの分野ではまだ比較的過小評価されている。 本稿では,クラスタを探索するだけでなく,各クラスタを説明する実例を探索する手法を提案する。 理解のための例題の使用は、心理学における例題ベースの概念定義学派によって支持されている。 1つのクラスタでさえも説明できるような小さな例を見つけることは計算に難解であることを示し、全体的な問題は困難である。 本稿では,クラスタリングの品質および使用例数に関して,証明可能な性能保証を提供する近似アルゴリズムを開発した。 この基本的なアルゴリズムは、各クラスタのすべてのインスタンスを解析する一方、別の近似アルゴリズムは、より単純な説明を可能にするために、境界付けられた多数の例を使って、すべてのインスタンスの大部分を確実にカバーする。 画像やテキストの深い埋め込みを理解するのが難しい領域では,本研究が有用であることを示す。

Explainable AI (XAI) is an important developing area but remains relatively understudied for clustering. We propose an explainable-by-design clustering approach that not only finds clusters but also exemplars to explain each cluster. The use of exemplars for understanding is supported by the exemplar-based school of concept definition in psychology. We show that finding a small set of exemplars to explain even a single cluster is computationally intractable; hence, the overall problem is challenging. We develop an approximation algorithm that provides provable performance guarantees with respect to clustering quality as well as the number of exemplars used. This basic algorithm explains all the instances in every cluster whilst another approximation algorithm uses a bounded number of exemplars to allow simpler explanations and provably covers a large fraction of all the instances. Experimental results show that our work is useful in domains involving difficult to understand deep embeddings of images and text.
翻訳日:2022-09-21 17:42:25 公開日:2022-09-20
# SCGG: 深い構造を持つグラフ生成モデル

SCGG: A Deep Structure-Conditioned Graph Generative Model ( http://arxiv.org/abs/2209.09681v1 )

ライセンス: Link先を確認
Faezeh Faez, Negin Hashemi Dijujin, Mahdieh Soleymani Baghshah, Hamid R. Rabiee(参考訳) ディープラーニングベースのグラフ生成アプローチは、グラフデータモデリングに顕著な能力を持ち、幅広い現実世界の問題を解決することができる。 これらの手法を生成手順中に異なる条件を考慮できるようにすることで、所望の基準を満たす新しいグラフサンプルを生成することで、その効果をさらに高めることができる。 本稿では,特定の構造条件を考慮した条件付き深層グラフ生成法であるscggを提案する。 特に,提案するscggモデルでは,初期サブグラフを自動生成し,与えられた条件付きサブ構造の上に新しいノードとそのエッジを生成する。 SCGGのアーキテクチャは、グラフ表現学習ネットワークと、エンドツーエンドで訓練された自己回帰生成モデルで構成される。 このモデルを用いることで、グラフの完全性、欠落したノードとその関連エッジの回復という、本質的に困難な問題に対処できる。 合成と実世界の両方のデータセットに対する実験結果は,最先端のベースラインと比較して,本手法の優位性を示している。

Deep learning-based graph generation approaches have remarkable capacities for graph data modeling, allowing them to solve a wide range of real-world problems. Making these methods able to consider different conditions during the generation procedure even increases their effectiveness by empowering them to generate new graph samples that meet the desired criteria. This paper presents a conditional deep graph generation method called SCGG that considers a particular type of structural conditions. Specifically, our proposed SCGG model takes an initial subgraph and autoregressively generates new nodes and their corresponding edges on top of the given conditioning substructure. The architecture of SCGG consists of a graph representation learning network and an autoregressive generative model, which is trained end-to-end. Using this model, we can address graph completion, a rampant and inherently difficult problem of recovering missing nodes and their associated edges of partially observed graphs. Experimental results on both synthetic and real-world datasets demonstrate the superiority of our method compared with state-of-the-art baselines.
翻訳日:2022-09-21 17:42:09 公開日:2022-09-20
# 電気自動車用強化ラグランジアンを用いた深層強化学習型充電スケジューリング手法

A Deep Reinforcement Learning-Based Charging Scheduling Approach with Augmented Lagrangian for Electric Vehicle ( http://arxiv.org/abs/2209.09772v1 )

ライセンス: Link先を確認
Guibin. Chen and Xiaoying. Shi(参考訳) 本稿では、需要応答(DR)に参加する際に電気自動車(EV)の充電/放電スケジュールを最適化する問題に対処する。 EVの残エネルギー、到着・出発時間、将来の電気価格に不確実性が存在するため、EVの電池状態(SOC)が一定の範囲内であることを保証しながら充電コストを最小化するために充電決定を行うことは極めて困難である。 本稿では、このジレンマに対処するため、EV充電スケジューリング問題を制約付きマルコフ決定過程(CMDP)として定式化する。 拡張ラグランジアン法とソフトアクター批判アルゴリズムを相乗的に組み合わせることで, CMDPを解くために, 安全な非政治強化学習(RL)手法を提案する。 アクタネットワークは、ラグランジアン値関数と共にポリシー勾配的に更新される。 二重批判ネットワークを用いて、動作値関数を同期的に推定し、過大評価バイアスを回避する。 提案アルゴリズムは, 高い凸性保証を必要としないため, 試料効率がよい。 実世界の電力価格を用いた包括的数値実験により,提案手法が解の最適性と制約の遵守を実現できることを示す。

This paper addresses the problem of optimizing charging/discharging schedules of electric vehicles (EVs) when participate in demand response (DR). As there exist uncertainties in EVs' remaining energy, arrival and departure time, and future electricity prices, it is quite difficult to make charging decisions to minimize charging cost while guarantee that the EV's battery state-of-the-charge (SOC) is within certain range. To handle with this dilemma, this paper formulates the EV charging scheduling problem as a constrained Markov decision process (CMDP). By synergistically combining the augmented Lagrangian method and soft actor critic algorithm, a novel safe off-policy reinforcement learning (RL) approach is proposed in this paper to solve the CMDP. The actor network is updated in a policy gradient manner with the Lagrangian value function. A double-critics network is adopted to synchronously estimate the action-value function to avoid overestimation bias. The proposed algorithm does not require strong convexity guarantee of examined problems and is sample efficient. Comprehensive numerical experiments with real-world electricity price demonstrate that our proposed algorithm can achieve high solution optimality and constraints compliance.
翻訳日:2022-09-21 17:41:55 公開日:2022-09-20
# スケーラブル超次元計算のためのストリーミング符号化アルゴリズム

Streaming Encoding Algorithms for Scalable Hyperdimensional Computing ( http://arxiv.org/abs/2209.09868v1 )

ライセンス: Link先を確認
Anthony Thomas, Behnam Khaleghi, Gopi Krishna Jha, Nageen Himayat, Ravi Iyer, Nilesh Jain, Tajana Rosing(参考訳) hyperdimensional computing (hdc) は、計算神経科学を起源とするデータ表現と学習のためのパラダイムである。 HDCはデータを高次元の低精度ベクトルとして表現し、学習やリコールといった様々な情報処理タスクに使用できる。 高次元空間へのマッピングはHDCの基本的な問題であり、入力データ自体が高次元である場合、既存の手法はスケーラビリティの問題に直面する。 本稿では,ハッシュ化に基づくストリーミングエンコーディング手法のファミリーについて検討する。 我々は,これらの手法が既存の代替手段よりもはるかに効率的でありながら,学習アプリケーションの性能に匹敵する保証を享受できることを正式に示す。 これらの結果を,一般的な高次元分類問題を用いて実験的に検証し,そのアプローチが大規模データセットに容易に拡張できることを示す。

Hyperdimensional computing (HDC) is a paradigm for data representation and learning originating in computational neuroscience. HDC represents data as high-dimensional, low-precision vectors which can be used for a variety of information processing tasks like learning or recall. The mapping to high-dimensional space is a fundamental problem in HDC, and existing methods encounter scalability issues when the input data itself is high-dimensional. In this work, we explore a family of streaming encoding techniques based on hashing. We show formally that these methods enjoy comparable guarantees on performance for learning applications while being substantially more efficient than existing alternatives. We validate these results experimentally on a popular high-dimensional classification problem and show that our approach easily scales to very large data sets.
翻訳日:2022-09-21 17:35:03 公開日:2022-09-20
# CofeNet: 複雑な引用抽出のためのコンテキストと元ラベル拡張ネット

CofeNet: Context and Former-Label Enhanced Net for Complicated Quotation Extraction ( http://arxiv.org/abs/2209.09432v1 )

ライセンス: Link先を確認
Yequan Wang, Xiang Li, Aixin Sun, Xuying Meng, Huaming Liao, Jiafeng Guo(参考訳) 引用抽出は、文章から引用を抽出することを目的としている。 引用には3つの要素がある: ソースは引用の保持者を指し、キューはトリガーワードであり、コンテンツは本体である。 引用抽出のための既存のソリューションは主にルールベースのアプローチとシーケンスラベリングモデルを利用している。 ルールベースのアプローチはしばしばリコールを少なくするが、シーケンスラベリングモデルは複雑な構造を持つ引用をうまく扱えない。 本稿では、引用抽出のためのContext and former-Label Enhanced Net(CofeNet)を提案する。 CofeNetは可変長と複雑な構造を持つ複雑な引用を抽出することができる。 2つの公開データセット(すなわち PolNeAR と Riqua)と1つのプロプライエタリデータセット(すなわち PoliticsZH)では、複雑な引用抽出でCofeNetが最先端のパフォーマンスを達成することを示す。

Quotation extraction aims to extract quotations from written text. There are three components in a quotation: source refers to the holder of the quotation, cue is the trigger word(s), and content is the main body. Existing solutions for quotation extraction mainly utilize rule-based approaches and sequence labeling models. While rule-based approaches often lead to low recalls, sequence labeling models cannot well handle quotations with complicated structures. In this paper, we propose the Context and Former-Label Enhanced Net (CofeNet) for quotation extraction. CofeNet is able to extract complicated quotations with components of variable lengths and complicated structures. On two public datasets (i.e., PolNeAR and Riqua) and one proprietary dataset (i.e., PoliticsZH), we show that our CofeNet achieves state-of-the-art performance on complicated quotation extraction.
翻訳日:2022-09-21 17:34:47 公開日:2022-09-20
# 多様な論理応答生成への因果解析の導入

Incorporating Casual Analysis into Diversified and Logical Response Generation ( http://arxiv.org/abs/2209.09482v1 )

ライセンス: Link先を確認
Jiayi Liu, Wei Wei, Zhixuan Chu, Xing Gao, Ji Zhang, Tan Yan and Yulin Kang(参考訳) Conditional Variational AutoEncoder (CVAE) モデルは従来のSeq2Seqモデルよりも多様な応答を生成できるが、応答は入力語との関係が低い場合が多い。 背景となる理由を研究するために因果解析を行い、対話における媒介者を探し出し、矛盾するバイアスを軽減する方法を提供する。 具体的には,メディエータが関連する情報を保持することを予測し,メディエータを自動回帰的に生成プロセスに組み込むことを提案する。 さらに、動的トピックグラフ誘導条件変分オートエンコーダ(TGG-CVAE)モデルを用いて、セマンティック空間を補完し、応答の共起バイアスを低減する。 大規模な実験により、提案モデルが関連する応答と情報の両方を生成できることが示され、自動測定と人的評価の点において最先端の性能を向上する。

Although the Conditional Variational AutoEncoder (CVAE) model can generate more diversified responses than the traditional Seq2Seq model, the responses often have low relevance with the input words or are illogical with the question. A causal analysis is carried out to study the reasons behind, and a methodology of searching for the mediators and mitigating the confounding bias in dialogues is provided. Specifically, we propose to predict the mediators to preserve relevant information and auto-regressively incorporate the mediators into generating process. Besides, a dynamic topic graph guided conditional variational autoencoder (TGG-CVAE) model is utilized to complement the semantic space and reduce the confounding bias in responses. Extensive experiments demonstrate that the proposed model is able to generate both relevant and informative responses, and outperforms the state-of-the-art in terms of automatic metrics and human evaluations.
翻訳日:2022-09-21 17:34:32 公開日:2022-09-20
# 電子商取引におけるマルチソース事前知識による顧客レビューに対する説得応答の生成

Generating Persuasive Responses to Customer Reviews with Multi-Source Prior Knowledge in E-commerce ( http://arxiv.org/abs/2209.09497v1 )

ライセンス: Link先を確認
Bo Chen, Jiayi Liu, Mieradilijiang Maimaiti, Xing Gao and Ji Zhang(参考訳) 顧客レビューは通常、オンラインショッピング体験に関する多くの情報を含んでいる。 肯定的なレビューは店舗にとって有益であるが、否定的なレビューは消費者の決定に大きく影響を与え、販売が減少する可能性がある。 したがって、各否定的なレビューに対して慎重に説得力強く回答し、その不利な効果を最小限に抑えることが極めて重要である。 最近の研究では、販売者を支援するために世代モデルを活用することを検討している。 しかし、レビューにはそれに応じて解決すべき問題が複数含まれている可能性があるため、この問題は十分に適応されていない。 そこで本研究では,マルチソースマルチaspect有意な応答生成モデルを提案する。 より情報的かつ説得的な応答を生成するために,提案モデルにより様々な情報ソースを適切に取得し,活用する。 レビューにおいて、様々な側面に自動的に参加し、ほとんどの問題に取り組むために、マルチアスペクト注意ネットワークを提案する。 2つの実世界のデータセットに対する大規模な実験により、我々のアプローチは最先端の手法よりも優れており、オンラインテストは、我々のデプロイされたシステムが、ネガティブなレビューを扱う店舗の効率を大幅に向上することを示す。

Customer reviews usually contain much information about one's online shopping experience. While positive reviews are beneficial to the stores, negative ones will largely influence consumers' decision and may lead to a decline in sales. Therefore, it is of vital importance to carefully and persuasively reply to each negative review and minimize its disadvantageous effect. Recent studies consider leveraging generation models to help the sellers respond. However, this problem is not well-addressed as the reviews may contain multiple aspects of issues which should be resolved accordingly and persuasively. In this work, we propose a Multi-Source Multi-Aspect Attentive Generation model for persuasive response generation. Various sources of information are appropriately obtained and leveraged by the proposed model for generating more informative and persuasive responses. A multi-aspect attentive network is proposed to automatically attend to different aspects in a review and ensure most of the issues are tackled. Extensive experiments on two real-world datasets, demonstrate that our approach outperforms the state-of-the-art methods and online tests prove that our deployed system significantly enhances the efficiency of the stores' dealing with negative reviews.
翻訳日:2022-09-21 17:34:15 公開日:2022-09-20
# 時間知識グラフ間のエンティティアライメントのための簡易時間情報マッチング機構

A Simple Temporal Information Matching Mechanism for Entity Alignment Between Temporal Knowledge Graphs ( http://arxiv.org/abs/2209.09677v1 )

ライセンス: Link先を確認
Li Cai, Xin Mao, Meirong Ma, Hao Yuan, Jianchao Zhu, Man Lan(参考訳) エンティティアライメント(EA)は、現実世界で同じオブジェクトを参照する異なる知識グラフ(KG)内のエンティティを見つけることを目的としている。 最近の研究は、KGの表現を増強するために時間情報を含んでいる。 時間的KG(TKG)間のEAのための既存の手法は、時間的注意機構を利用して、関係性や時間的情報をエンティティの埋め込みに組み込む。 この手法は時間情報を用いて従来の手法よりも優れている。 しかし、ほとんどのTKGが一様時間表現を持つため、KGに時間情報の埋め込みを学習する必要はないと我々は信じている。 そこで本研究では,時間的情報マッチング機構を併用した単純なグラフニューラルネットワーク(gnn)モデルを提案する。 さらに,アライメント種子は実世界の用途ではラベル付けが難しいため,TKGの時間的情報を用いて,教師なしアライメント種子を生成する方法も提案する。 公開データセットに関する広範囲な実験は,教師あり手法が従来の手法を大幅に上回っており,教師なし手法が競合性能を持っていることを示している。

Entity alignment (EA) aims to find entities in different knowledge graphs (KGs) that refer to the same object in the real world. Recent studies incorporate temporal information to augment the representations of KGs. The existing methods for EA between temporal KGs (TKGs) utilize a time-aware attention mechanism to incorporate relational and temporal information into entity embeddings. The approaches outperform the previous methods by using temporal information. However, we believe that it is not necessary to learn the embeddings of temporal information in KGs since most TKGs have uniform temporal representations. Therefore, we propose a simple graph neural network (GNN) model combined with a temporal information matching mechanism, which achieves better performance with less time and fewer parameters. Furthermore, since alignment seeds are difficult to label in real-world applications, we also propose a method to generate unsupervised alignment seeds via the temporal information of TKG. Extensive experiments on public datasets indicate that our supervised method significantly outperforms the previous methods and the unsupervised one has competitive performance.
翻訳日:2022-09-21 17:33:58 公開日:2022-09-20
# シーケンシャル・ツー・シーケンスモデルプロンプトのためのラベルシーケンスの自動生成

Automatic Label Sequence Generation for Prompting Sequence-to-sequence Models ( http://arxiv.org/abs/2209.09401v1 )

ライセンス: Link先を確認
Zichun Yu, Tianyu Gao, Zhengyan Zhang, Yankai Lin, Zhiyuan Liu, Maosong Sun and Jie Zhou(参考訳) 下流のアプリケーションを言語モデリングタスクとして活用するPromptingは、事前訓練されたモデルによる標準的な微調整に比べて、サンプル効率が良い。 しかしながら、プロンプトの落とし穴のひとつは、手動で設計したパターンの必要性である。 To tackle the challenge, we propose AutoSeq, a fully automatic prompting method: (1) We adopt natural language prompts on sequence-to-sequence models, enabling free-form generation and larger label search space; (2) We propose label sequences -- phrases with indefinite lengths to verbalize the labels -- which eliminate the need of manual templates and are more expressive than single label words; (3) We use beam search to automatically generate a large amount of label sequence candidates and propose contrastive re-ranking to get the best combinations. AutoSeqは、ソフトプロンプトチューニング、アダプタチューニング、シングルラベル語の自動検索など、他の非マニュアル設計手法よりも優れている。 提案手法は,数点学習におけるシーケンス列モデルの可能性を明らかにし,汎用的かつ自動的なプロンプトへの経路に光を当てる。 本論文のソースコードはhttps://github.com/thunlp/Seq2Seq-Promptから取得できる。

Prompting, which casts downstream applications as language modeling tasks, has shown to be sample efficient compared to standard fine-tuning with pre-trained models. However, one pitfall of prompting is the need of manually-designed patterns, whose outcome can be unintuitive and requires large validation sets to tune. To tackle the challenge, we propose AutoSeq, a fully automatic prompting method: (1) We adopt natural language prompts on sequence-to-sequence models, enabling free-form generation and larger label search space; (2) We propose label sequences -- phrases with indefinite lengths to verbalize the labels -- which eliminate the need of manual templates and are more expressive than single label words; (3) We use beam search to automatically generate a large amount of label sequence candidates and propose contrastive re-ranking to get the best combinations. AutoSeq significantly outperforms other no-manual-design methods, such as soft prompt tuning, adapter tuning, and automatic search on single label words; the generated label sequences are even better than curated manual ones on a variety of tasks. Our method reveals the potential of sequence-to-sequence models in few-shot learning and sheds light on a path to generic and automatic prompting. The source code of this paper can be obtained from https://github.com/thunlp/Seq2Seq-Prompt.
翻訳日:2022-09-21 17:33:39 公開日:2022-09-20
# 部分構造的出力学習のための弱解法

Weak Disambiguation for Partial Structured Output Learning ( http://arxiv.org/abs/2209.09410v1 )

ライセンス: Link先を確認
Xiaolei Lu, Tommy W.S.Chow(参考訳) 部分的構造化アウトプット学習のための既存の曖昧さ回避戦略は、単にうまく一般化できず、偽陽性あるいは接地ラベルに類似する候補が存在するという問題を解決することができる。 本稿では,部分的構造化出力学習(WD-PSL)のための新しい弱い曖昧さを提案する。 まず,分節大マージンの定式化を部分構造化アウトプット学習に一般化し,複雑な構造に対する多数の候補構造化アウトプットの扱いを効果的に回避する。 第二に、提案する弱曖昧化戦略において、各候補ラベルは、学習プロセスにおける誤った基底ラベル割り当ての悪影響を減らすことを目的として、真のラベルの確率を示す信頼度値が割り当てられる。 次に、2つの大きなマージンが定式化され、候補と非候補との曖昧さと、候補に対する弱い曖昧さの2つのタイプの制約が組み合わされる。 交互最適化の枠組みでは、最適化の各イテレーションを高速化するために、新しい2n-slack変数切断平面アルゴリズムを開発した。 自然言語処理における複数のシーケンスラベリングタスクの実験結果は,提案モデルの有効性を示す。

Existing disambiguation strategies for partial structured output learning just cannot generalize well to solve the problem that there are some candidates which can be false positive or similar to the ground-truth label. In this paper, we propose a novel weak disambiguation for partial structured output learning (WD-PSL). First, a piecewise large margin formulation is generalized to partial structured output learning, which effectively avoids handling large number of candidate structured outputs for complex structures. Second, in the proposed weak disambiguation strategy, each candidate label is assigned with a confidence value indicating how likely it is the true label, which aims to reduce the negative effects of wrong ground-truth label assignment in the learning process. Then two large margins are formulated to combine two types of constraints which are the disambiguation between candidates and non-candidates, and the weak disambiguation for candidates. In the framework of alternating optimization, a new 2n-slack variables cutting plane algorithm is developed to accelerate each iteration of optimization. The experimental results on several sequence labeling tasks of Natural Language Processing show the effectiveness of the proposed model.
翻訳日:2022-09-21 17:33:18 公開日:2022-09-20
# 一対多意味コミュニケーションシステム:設計、実装、性能評価

One-to-Many Semantic Communication Systems: Design, Implementation, Performance Evaluation ( http://arxiv.org/abs/2209.09425v1 )

ライセンス: Link先を確認
Han Hu, Xingwu Zhu, Fuhui Zhou, Wei Wu, Rose Qingyang Hu, and Hongbo Zhu(参考訳) 6G時代の意味コミュニケーションは、従来のコミュニケーションのボトルネックを突破する有望なコミュニケーションパラダイムとみなされてきた。 しかし、マルチユーザシナリオ、特にブロードキャスティングケースに対するその応用は未検討のままである。 本稿では,セマンティックコミュニケーションによるメリットを効果的に活用するために,一対多のセマンティックコミュニケーションシステムを提案する。 具体的には、MR\_DeepSCと呼ばれるディープニューラルネットワーク(DNN)を利用したセマンティック通信システムを提案する。 異なるユーザに対するセマンティック機能を活用することで、事前訓練されたモデル、すなわちDistilBERTに基づくセマンティック認識が、異なるユーザを区別するために構築される。 さらに、新しい受信ネットワークのトレーニングを高速化するために、転送学習を採用する。 シミュレーションの結果,提案するmr\_deepscは,異なるチャネル条件,特に低信号対雑音比 (snr) 環境下でのbleuスコアにおいて,最良性能が得られることがわかった。

Semantic communication in the 6G era has been deemed a promising communication paradigm to break through the bottleneck of traditional communications. However, its applications for the multi-user scenario, especially the broadcasting case, remain under-explored. To effectively exploit the benefits enabled by semantic communication, in this paper, we propose a one-to-many semantic communication system. Specifically, we propose a deep neural network (DNN) enabled semantic communication system called MR\_DeepSC. By leveraging semantic features for different users, a semantic recognizer based on the pre-trained model, i.e., DistilBERT, is built to distinguish different users. Furthermore, the transfer learning is adopted to speed up the training of new receiver networks. Simulation results demonstrate that the proposed MR\_DeepSC can achieve the best performance in terms of BLEU score than the other benchmarks under different channel conditions, especially in the low signal-to-noise ratio (SNR) regime.
翻訳日:2022-09-21 17:33:01 公開日:2022-09-20
# 群衆によるシーケンスラベリングのための逐次アノテーションのモデル化

Modeling sequential annotations for sequence labeling with crowds ( http://arxiv.org/abs/2209.09430v1 )

ライセンス: Link先を確認
Xiaolei Lu, Tommy W.S.Chow(参考訳) クラウドシーケンシャルアノテーションは、シーケンスラベリングのための大規模なデータセットを構築するための効率的でコスト効率のよい方法である。 独立インスタンスのタグ付けとは異なり、クラウドシーケンシャルアノテーションでは、ラベルシーケンスの品質は、シーケンス内の各トークンの内部依存関係をキャプチャするアノテータの専門レベルに依存する。 本稿では,群集を用いたシーケンスラベリングのための逐次アノテーションのモデル化を提案する。 まず、逐次的データとアノテータの専門知識を共同でモデル化する条件確率モデルを構築し、各アノテータの局所的および非局所的なラベル依存を逐次的アノテーションとして捉える際の信頼性を推定するために分類分布を導入する。 提案するモデルの限界化を加速するため,クラウドシーケンシャルアノテーションから有効な基底構造ラベルシーケンスを導出する有効なラベルシーケンス推論(VLSE)法を提案する。 VLSEはトークンワイドレベルからゼロトラスラベルを導出し、さらにラベルシーケンス復号のためのフォワード推論においてサブパスをプーンする。 VLSEは、候補ラベルシーケンスの数を減らし、可能な基底構造ラベルシーケンスの品質を向上させる。 自然言語処理における複数のシーケンスラベリングタスクの実験結果は,提案モデルの有効性を示す。

Crowd sequential annotations can be an efficient and cost-effective way to build large datasets for sequence labeling. Different from tagging independent instances, for crowd sequential annotations the quality of label sequence relies on the expertise level of annotators in capturing internal dependencies for each token in the sequence. In this paper, we propose Modeling sequential annotation for sequence labeling with crowds (SA-SLC). First, a conditional probabilistic model is developed to jointly model sequential data and annotators' expertise, in which categorical distribution is introduced to estimate the reliability of each annotator in capturing local and non-local label dependency for sequential annotation. To accelerate the marginalization of the proposed model, a valid label sequence inference (VLSE) method is proposed to derive the valid ground-truth label sequences from crowd sequential annotations. VLSE derives possible ground-truth labels from the token-wise level and further prunes sub-paths in the forward inference for label sequence decoding. VLSE reduces the number of candidate label sequences and improves the quality of possible ground-truth label sequences. The experimental results on several sequence labeling tasks of Natural Language Processing show the effectiveness of the proposed model.
翻訳日:2022-09-21 17:32:44 公開日:2022-09-20
# 説明に学ぶ:科学質問応答のための思考連鎖によるマルチモーダル推論

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering ( http://arxiv.org/abs/2209.09513v1 )

ライセンス: Link先を確認
Pan Lu, Swaroop Mishra, Tony Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, Ashwin Kalyan(参考訳) 質問に答える際、人間は様々なモダリティで利用可能な情報を利用して、一貫性のある完全な思考の連鎖(CoT)を合成する。 このプロセスは通常、大規模言語モデルのようなディープラーニングモデルの場合、ブラックボックスになります。 近年、AIシステムのマルチホップ推論能力と解釈可能性の診断に科学質問ベンチマークが使用されている。 しかし、既存のデータセットは回答に対するアノテーションを提供できないか、テキストのみのモダリティ、小さなスケール、ドメインの多様性に制限されている。 そこで本研究では,21kのマルチモーダル・マルチチョイス質問と,科学トピックの多種多様な集合と,それらの回答の注釈と対応する講義や説明からなる,新たなベンチマークであるscience question answering(sqa)を提案する。 我々はさらに言語モデルを設計し、SQA質問に答える際のマルチホップ推論過程を模倣する思考の連鎖(CoT)として講義や説明を生成することを学ぶ。 SQA は言語モデルにおける CoT の有用性を示し、CoT は数ショット GPT-3 では 1.20%、微調整 UnifiedQA では 3.99% の回答性能を改善している。 また,GPT-3の少数ショット性能を18.96%向上させるため,入力中のモデルに入力を供給して説明を活用できる上限についても検討した。 我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するために、説明の恩恵を受けることを示している。

When answering a question, humans utilize the information available across different modalities to synthesize a consistent and complete chain of thought (CoT). This process is normally a black box in the case of deep learning models like large-scale language models. Recently, science question benchmarks have been used to diagnose the multi-hop reasoning ability and interpretability of an AI system. However, existing datasets fail to provide annotations for the answers, or are restricted to the textual-only modality, small scales, and limited domain diversity. To this end, we present Science Question Answering (SQA), a new benchmark that consists of ~21k multimodal multiple choice questions with a diverse set of science topics and annotations of their answers with corresponding lectures and explanations. We further design language models to learn to generate lectures and explanations as the chain of thought (CoT) to mimic the multi-hop reasoning process when answering SQA questions. SQA demonstrates the utility of CoT in language models, as CoT improves the question answering performance by 1.20% in few-shot GPT-3 and 3.99% in fine-tuned UnifiedQA. We also explore the upper bound for models to leverage explanations by feeding those in the input; we observe that it improves the few-shot performance of GPT-3 by 18.96%. Our analysis further shows that language models, similar to humans, benefit from explanations to learn from fewer data and achieve the same performance with just 40% of the data.
翻訳日:2022-09-21 17:27:17 公開日:2022-09-20
# 複数出口を持つDNNにおける教師なし早期退避

Unsupervised Early Exit in DNNs with Multiple Exits ( http://arxiv.org/abs/2209.09480v1 )

ライセンス: Link先を確認
Hari Narayan N U and Manjesh K. Hanawal and Avinash Bhardwaj(参考訳) Deep Neural Networks (DNN) は一般的に、最終層にのみ接続される予測モジュールを備えた、逐次カスケード可能なブロック/層として設計されている。 dnnはバックボーンに沿って複数のポイントに予測モジュールをアタッチでき、推論はすべてのモジュールを通さずに中間段階で停止することができる。 最後の出口はより良い予測エラーをもたらすかもしれないが、より多くの計算リソースとレイテンシも伴う。 予測誤差とコストの両方の観点から「最適」である出口が望ましい。 最適出口はタスクの潜在分布に依存し、あるタスクタイプから別のタスクタイプに変化する可能性がある。 ニューラル推論では、インスタンスの基底的真理は利用できず、各出口における誤差率は推定できない。 したがって、教師なしの設定で最適出口を選択する問題に直面している。 先行研究では、各出口の誤差率を推定し、より精度良くパラメータをチューニングするために十分なラベル付きデータが利用できると仮定したオフラインの教師付き設定でこの問題に対処した。 しかし、訓練済みのDNNは、多くの場合、大量の真実が得られない新しいドメインにデプロイされる。 出口選択の問題を教師なしオンライン学習問題としてモデル化し,バンディット理論を用いて最適出口を同定する。 具体的には、事前訓練されたマルチエクイットDNNであるElastic BERTに着目し、Strong Dominance(SD)プロパティを"ほぼ"満足していることを示す。 UEE-UCBと名づけられた上位信頼境界(UCB)に基づくアルゴリズムを開発し,SD特性下でのサブ線形後悔を確実に達成する。 そこで本手法は,DNNにおけるドメイン固有最適出口点を適応的に学習する手段を提供する。 IMDbとYelpのデータセットでアルゴリズムを実証的に検証する。

Deep Neural Networks (DNNs) are generally designed as sequentially cascaded differentiable blocks/layers with a prediction module connected only to its last layer. DNNs can be attached with prediction modules at multiple points along the backbone where inference can stop at an intermediary stage without passing through all the modules. The last exit point may offer a better prediction error but also involves more computational resources and latency. An exit point that is `optimal' in terms of both prediction error and cost is desirable. The optimal exit point may depend on the latent distribution of the tasks and may change from one task type to another. During neural inference, the ground truth of instances may not be available and error rates at each exit point cannot be estimated. Hence one is faced with the problem of selecting the optimal exit in an unsupervised setting. Prior works tackled this problem in an offline supervised setting assuming that enough labeled data is available to estimate the error rate at each exit point and tune the parameters for better accuracy. However, pre-trained DNNs are often deployed in new domains for which a large amount of ground truth may not be available. We model the problem of exit selection as an unsupervised online learning problem and use bandit theory to identify the optimal exit point. Specifically, we focus on Elastic BERT, a pre-trained multi-exit DNN to demonstrate that it `nearly' satisfies the Strong Dominance (SD) property making it possible to learn the optimal exit in an online setup without knowing the ground truth labels. We develop upper confidence bound (UCB) based algorithm named UEE-UCB that provably achieves sub-linear regret under the SD property. Thus our method provides a means to adaptively learn domain-specific optimal exit points in multi-exit DNNs. We empirically validate our algorithm on IMDb and Yelp datasets.
翻訳日:2022-09-21 17:26:50 公開日:2022-09-20
# lingUIST: インテント分類とスロットタギングのためのアノテーション付き発話を生成するための言語モデルインストラクションチューニング

LINGUIST: Language Model Instruction Tuning to Generate Annotated Utterances for Intent Classification and Slot Tagging ( http://arxiv.org/abs/2209.09900v1 )

ライセンス: Link先を確認
Andy Rosenbaum, Saleh Soltan, Wael Hamza, Yannick Versley, Markus Boese(参考訳) フレキシブルな命令プロンプトに基づいて,5ビリオンパラメトリックなシーケンス・ツー・シーケンス(seq2seq)モデルであるAlexaTM 5Bを微調整することで,Intent Classification and Slot Tagging (IC+ST) の注釈付きデータを生成する lingUIST を提案する。 SNIPSデータセットの10ショットの新規意図設定では、lingUISTは最先端のアプローチ(Back-Translation and Example Extrapolation)を広範囲に越え、ICリコールの+1.9点、ST F1スコアの2.5点の目標意図を絶対的に改善した。 mATIS++データセットのゼロショットのクロスランガル設定では、lingUISTは、Slot Alignmentによるマシン翻訳の強力なベースラインを、ST F1 Scoreの6言語で+4.14ポイントで上回り、ICのパフォーマンスにマッチする。 最後に,会話エージェントIC+STの内部大規模多言語データセットの検証を行い,Back-Translation, Paraphrasing, Slot Catalog Resamplingを用いたベースライン上での大幅な改善を示す。 我々の知る限り、我々は、多言語インテントおよびスロットラベルデータ生成の出力を制御するために、大規模なSeq2seqモデルの命令微調整を初めて行った。

We present LINGUIST, a method for generating annotated data for Intent Classification and Slot Tagging (IC+ST), via fine-tuning AlexaTM 5B, a 5-billion-parameter multilingual sequence-to-sequence (seq2seq) model, on a flexible instruction prompt. In a 10-shot novel intent setting for the SNIPS dataset, LINGUIST surpasses state-of-the-art approaches (Back-Translation and Example Extrapolation) by a wide margin, showing absolute improvement for the target intents of +1.9 points on IC Recall and +2.5 points on ST F1 Score. In the zero-shot cross-lingual setting of the mATIS++ dataset, LINGUIST out-performs a strong baseline of Machine Translation with Slot Alignment by +4.14 points absolute on ST F1 Score across 6 languages, while matching performance on IC. Finally, we verify our results on an internal large-scale multilingual dataset for conversational agent IC+ST and show significant improvements over a baseline which uses Back-Translation, Paraphrasing and Slot Catalog Resampling. To our knowledge, we are the first to demonstrate instruction fine-tuning of a large-scale seq2seq model to control the outputs of multilingual intent- and slot-labeled data generation.
翻訳日:2022-09-21 17:26:19 公開日:2022-09-20
# グラフを用いたマルチアームバンディット学習

Multi-armed Bandit Learning on a Graph ( http://arxiv.org/abs/2209.09419v1 )

ライセンス: Link先を確認
Tianpeng Zhang (1), Kasper Johansson (2), Na Li (1)((1) Harvard University, (2) KTH Royal Institute of Technology)(参考訳) マルチアーム・バンディット(MAB)問題は単純だが強力なフレームワークであり、不確実性の下での意思決定の文脈で広く研究されている。 ロボットアプリケーションのような現実世界の多くのアプリケーションでは、アームの選択は、次の利用可能なアーム(アクション)の選択を制限する物理的なアクションに対応する。 そこで我々は,エージェントがグラフの上を移動して,異なるノードから収集した報酬を最大化しようとするグラフバンディットと呼ばれるMABの拡張について検討する。 グラフは各ステップで次の利用可能なノードを選択する際のエージェントの自由を定義する。 グラフ構造が完全に利用可能であると仮定するが、報酬分布は不明である。 オフライングラフベースの計画アルゴリズムと楽観主義の原理に基づいて構築され、楽観主義の原理を用いて長期探索・探索のバランスをとるオンライン学習アルゴリズムを設計する。 提案手法は, ノード数を$|s|$, グラフの直径を$d$とし, 類似条件下では最もよく知られた強化学習アルゴリズムよりも優れる$o(|s|\sqrt{t}\log(t)+d|s|\log t)$学習後悔を実現する。 数値実験により,本アルゴリズムはいくつかのベンチマークより優れていることを確認した。 最後に,都市部や郊外のネットワーク上でロボットが移動して,提案アルゴリズムを用いて高速なインターネットアクセスを実現するための,グラフバンディットフレームワークをモデルとした合成ロボットアプリケーションを提案する。

The multi-armed bandit(MAB) problem is a simple yet powerful framework that has been extensively studied in the context of decision-making under uncertainty. In many real-world applications, such as robotic applications, selecting an arm corresponds to a physical action that constrains the choices of the next available arms (actions). Motivated by this, we study an extension of MAB called the graph bandit, where an agent travels over a graph trying to maximize the reward collected from different nodes. The graph defines the freedom of the agent in selecting the next available nodes at each step. We assume the graph structure is fully available, but the reward distributions are unknown. Built upon an offline graph-based planning algorithm and the principle of optimism, we design an online learning algorithm that balances long-term exploration-exploitation using the principle of optimism. We show that our proposed algorithm achieves $O(|S|\sqrt{T}\log(T)+D|S|\log T)$ learning regret, where $|S|$ is the number of nodes and $D$ is the diameter of the graph, which is superior compared to the best-known reinforcement learning algorithms under similar settings. Numerical experiments confirm that our algorithm outperforms several benchmarks. Finally, we present a synthetic robotic application modeled by the graph bandit framework, where a robot moves on a network of rural/suburban locations to provide high-speed internet access using our proposed algorithm.
翻訳日:2022-09-21 17:25:49 公開日:2022-09-20
# SparCL: エッジでのスパース継続的学習

SparCL: Sparse Continual Learning on the Edge ( http://arxiv.org/abs/2209.09476v1 )

ライセンス: Link先を確認
Zifeng Wang, Zheng Zhan, Yifan Gong, Geng Yuan, Wei Niu, Tong Jian, Bin Ren, Stratis Ioannidis, Yanzhi Wang, Jennifer Dy(参考訳) 継続学習(CL)における既存の作業は、破滅的な忘れ、すなわち新しいタスクを学ぶ際の過去のタスクのパフォーマンス劣化を緩和することに焦点を当てている。 しかし、CLシステムのトレーニング効率は未定であり、リソース制限シナリオ下でのCLシステムの現実的な適用を制限する。 本稿では,エッジデバイス上でのコスト効率の高い連続学習を実現するために,スパース性を活用した最初の研究であるsparcl(sparse continual learning)という新しいフレームワークを提案する。 SparCLは、重み空間、データ効率、勾配空間という3つの側面の相乗効果によって、トレーニングの加速と精度の維持を実現する。 具体的には,clプロセス全体を通してスパースネットワークを学習するタスクアウェア動的マスキング(tdm),情報の少ないトレーニングデータを削除する動的データ除去(ddr),勾配更新をスパース化する動的勾配マスキング(dgm)を提案する。 それぞれが効率を向上させるだけでなく、壊滅的な忘れを更に緩和する。 sparcl は既存の state-of-the-art (sota) cl 法のトレーニング効率を少なくとも 23 倍に向上させ、驚くべきことに sota の精度を最大 1.7%向上させた。 また、SparCLは、SOTAスパース訓練法をCL設定に適応させることで得られる競合ベースラインを効率と精度の両方で上回る。 また,実際の携帯電話におけるsparclの有効性を評価し,本手法の実用性を示す。

Existing work in continual learning (CL) focuses on mitigating catastrophic forgetting, i.e., model performance deterioration on past tasks when learning a new task. However, the training efficiency of a CL system is under-investigated, which limits the real-world application of CL systems under resource-limited scenarios. In this work, we propose a novel framework called Sparse Continual Learning(SparCL), which is the first study that leverages sparsity to enable cost-effective continual learning on edge devices. SparCL achieves both training acceleration and accuracy preservation through the synergy of three aspects: weight sparsity, data efficiency, and gradient sparsity. Specifically, we propose task-aware dynamic masking (TDM) to learn a sparse network throughout the entire CL process, dynamic data removal (DDR) to remove less informative training data, and dynamic gradient masking (DGM) to sparsify the gradient updates. Each of them not only improves efficiency, but also further mitigates catastrophic forgetting. SparCL consistently improves the training efficiency of existing state-of-the-art (SOTA) CL methods by at most 23X less training FLOPs, and, surprisingly, further improves the SOTA accuracy by at most 1.7%. SparCL also outperforms competitive baselines obtained from adapting SOTA sparse training methods to the CL setting in both efficiency and accuracy. We also evaluate the effectiveness of SparCL on a real mobile phone, further indicating the practical potential of our method.
翻訳日:2022-09-21 17:25:06 公開日:2022-09-20
# Ki-Pode: キーポイントに基づく剛体物体の暗黙分布推定

Ki-Pode: Keypoint-based Implicit Pose Distribution Estimation of Rigid Objects ( http://arxiv.org/abs/2209.09659v1 )

ライセンス: Link先を確認
Thorbj{\o}rn Mosekj{\ae}r Iversen, Rasmus Laurvig Haugaard, Anders Glent Buch(参考訳) 剛体物体の6次元ポーズの推定はコンピュータビジョンの基本的な問題である。 伝統的に、ポーズ推定は単一の最良の見積もりの決定に関係している。 しかし、単一の推定では視覚的なあいまいさを表現できないため、多くの場合、物体の対称性や識別特徴の閉塞のために避けられない。 ポーズのあいまいさを考慮できないと、その後の手法では失敗につながる可能性がある。 完全なポーズ分布の推定は、単一の推定とは対照的に、ポーズの不確実性を表現するのに適している。 そこで本研究では,新しいポーズ分布推定法を提案する。 オブジェクトのポーズ上の確率分布の暗黙的な定式化は、キーポイントの集合としてのオブジェクトの中間表現から導かれる。 これにより、ポーズ分布の推定値が高い解釈可能性を持つことが保証される。 さらに,本手法は,信頼性評価につながる保守的近似に基づく。 本手法は,YCB-VおよびT-LESSデータセット上での回転分布推定のタスクに基づいて評価され,すべてのオブジェクトに対して確実に動作する。

The estimation of 6D poses of rigid objects is a fundamental problem in computer vision. Traditionally pose estimation is concerned with the determination of a single best estimate. However, a single estimate is unable to express visual ambiguity, which in many cases is unavoidable due to object symmetries or occlusion of identifying features. Inability to account for ambiguities in pose can lead to failure in subsequent methods, which is unacceptable when the cost of failure is high. Estimates of full pose distributions are, contrary to single estimates, well suited for expressing uncertainty on pose. Motivated by this, we propose a novel pose distribution estimation method. An implicit formulation of the probability distribution over object pose is derived from an intermediary representation of an object as a set of keypoints. This ensures that the pose distribution estimates have a high level of interpretability. Furthermore, our method is based on conservative approximations, which leads to reliable estimates. The method has been evaluated on the task of rotation distribution estimation on the YCB-V and T-LESS datasets and performs reliably on all objects.
翻訳日:2022-09-21 17:24:40 公開日:2022-09-20
# ベイズ推論をファシリテートするためのエピデミックモデルのSeq2Seqサロゲート

Seq2Seq Surrogates of Epidemic Models to Facilitate Bayesian Inference ( http://arxiv.org/abs/2209.09617v1 )

ライセンス: Link先を確認
Giovanni Charles, Timothy M. Wolock, Peter Winskill, Azra Ghani, Samir Bhatt, Seth Flaxman(参考訳) 疫学モデルは伝染病を理解する強力なツールである。 しかし、サイズや複雑さが大きくなると、すぐに計算が難しくなる。 近年のモデリング手法の進歩により、サロゲートモデルは高次元パラメータ空間で複雑な流行モデルをエミュレートすることができることが示されている。 seq2seq(deep sequence-to-sequence)モデルが,時系列モデルパラメータを持つ複雑な流行モデルに対する正確なサロゲートとして機能し,季節と長期の伝達ダイナミクスを効果的に再現できることを示す。 訓練を済ませば、サロゲートはオリジナルのモデルよりも数千倍早くシナリオを予測できるので、政策調査に最適です。 従来の疫病モデルを学習シミュレータに置き換えることで、ベイズ推論が堅牢になることを示す。

Epidemic models are powerful tools in understanding infectious disease. However, as they increase in size and complexity, they can quickly become computationally intractable. Recent progress in modelling methodology has shown that surrogate models can be used to emulate complex epidemic models with a high-dimensional parameter space. We show that deep sequence-to-sequence (seq2seq) models can serve as accurate surrogates for complex epidemic models with sequence based model parameters, effectively replicating seasonal and long-term transmission dynamics. Once trained, our surrogate can predict scenarios a several thousand times faster than the original model, making them ideal for policy exploration. We demonstrate that replacing a traditional epidemic model with a learned simulator facilitates robust Bayesian inference.
翻訳日:2022-09-21 17:24:06 公開日:2022-09-20
# 能動学習による予測的規模架橋シミュレーション

Predictive Scale-Bridging Simulations through Active Learning ( http://arxiv.org/abs/2209.09811v1 )

ライセンス: Link先を確認
Satish Karra, Mohamed Mehana, Nicholas Lubbers, Yu Chen, Abdourahmane Diaw, Javier E. Santos, Aleksandra Pachalieva, Robert S. Pavel, Jeffrey R. Haack, Michael McKerns, Christoph Junghans, Qinjun Kang, Daniel Livescu, Timothy C. Germann, and Hari S. Viswanathan(参考訳) 計算科学を通じて、生の馬力の継続的な改善を利用して、メッシュ要素数の増加によるスケールブリッジによる物理的忠実度の向上を実現する必要性が高まっている。 例えば、固いシェール層からの炭化水素抽出に重要なナノ多孔体中の輸送の定量的予測は、分子レベルの相互作用を考慮せずには不可能である。 同様に、慣性閉じ込め融合シミュレーションは、非局所輸送や混合のような分子効果を分子間相互作用を真に考慮せずにシミュレーションするために数値拡散に依存する。 これら2つの異なる応用を念頭に、我々は、局所的な微粒なシミュレーションを用いて粗大な流体力学をインフォームする、アクティブな学習手法を用いた新しい能力を開発した。 提案手法は,新しい分子動力学計算を投機的に実行する連続体粗大軌道の予測,大規模計算からの粗大軌道の動的更新,ニューラルネットワークモデルにおける不確かさの定量化という3つの課題に対処する。

Throughout computational science, there is a growing need to utilize the continual improvements in raw computational horsepower to achieve greater physical fidelity through scale-bridging over brute-force increases in the number of mesh elements. For instance, quantitative predictions of transport in nanoporous media, critical to hydrocarbon extraction from tight shale formations, are impossible without accounting for molecular-level interactions. Similarly, inertial confinement fusion simulations rely on numerical diffusion to simulate molecular effects such as non-local transport and mixing without truly accounting for molecular interactions. With these two disparate applications in mind, we develop a novel capability which uses an active learning approach to optimize the use of local fine-scale simulations for informing coarse-scale hydrodynamics. Our approach addresses three challenges: forecasting continuum coarse-scale trajectory to speculatively execute new fine-scale molecular dynamics calculations, dynamically updating coarse-scale from fine-scale calculations, and quantifying uncertainty in neural network models.
翻訳日:2022-09-21 17:23:51 公開日:2022-09-20
# 野生でのアクティブビジュアルサーチ

Active Visual Search in the Wild ( http://arxiv.org/abs/2209.08803v2 )

ライセンス: Link先を確認
Jeongeun Park, Taerim Yoon, Jejoon Hong, Youngjae Yu, Matthew Pan, and Sungjoon Choi(参考訳) 本稿では,視覚センサ(rgbdカメラなど)を搭載した移動ロボットを用いて,自由形言語で記述された対象物体を効率的に位置決めする問題に焦点を当てる。 従来のアクティブビジュアル検索は、検索対象のセットを事前に定義し、これらのテクニックを実際には制限する。 アクティブな視覚検索の柔軟性を高めるため,フリーフォーム言語を用いてターゲットコマンドを入力可能なシステムを提案し,このシステムをAVSW(Active Visual Search in the Wild)と呼ぶ。 AVSWは静的なランドマーク(デスクやベッドなど)で表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出して検索する。 オブジェクト探索パターンを効率的に計画するために、AVSWは、どのランドマークを最初に訪問するかを決めながら、常識的知識に基づく共起と予測の不確実性を考察する。 シミュレーション環境と実環境環境の両方において,SR (success rate) とSPL (success weighted by path length) に関する提案手法を検証する。 提案手法は, 平均 0.283 のシミュレーションシナリオにおいて, 従来のspl法よりも優れていた。 さらに,実際の研究において,Pioneer-3ATロボットを用いたAVSWの実証を行った。

In this paper, we focus on the problem of efficiently locating a target object described with free-form language using a mobile robot equipped with vision sensors (e.g., an RGBD camera). Conventional active visual search predefines a set of objects to search for, rendering these techniques restrictive in practice. To provide added flexibility in active visual searching, we propose a system where a user can enter target commands using free-form language; we call this system Active Visual Search in the Wild (AVSW). AVSW detects and plans to search for a target object inputted by a user through a semantic grid map represented by static landmarks (e.g., desk or bed). For efficient planning of object search patterns, AVSW considers commonsense knowledge-based co-occurrence and predictive uncertainty while deciding which landmarks to visit first. We validate the proposed method with respect to SR (success rate) and SPL (success weighted by path length) in both simulated and real-world environments. The proposed method outperforms previous methods in terms of SPL in simulated scenarios with an average gap of 0.283. We further demonstrate AVSW with a Pioneer-3AT robot in real-world studies.
翻訳日:2022-09-21 14:43:25 公開日:2022-09-20
# VoxCeleb Speaker Recognition Challenge 2022におけるRoyalflushシステム

The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 ( http://arxiv.org/abs/2209.09010v2 )

ライセンス: Link先を確認
Jingguang Tian, Xinhui Hu, Xinkang Xu(参考訳) 本稿では,VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。 提案には,教師付き話者照合用トラック1と,半教師付き話者検証用トラック3が含まれている。 トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。 提案方式はEERが2.06%,MinDCFが0.1293である。 最先端のECAPA-TDNNと比較して、EERの20.7%、MinDCFの22.70%の相対的な改善が得られる。 トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。 その後のクラスタリングプロセスは、ターゲットドメインの擬似話者ラベルを取得できる。 話者埋め込み抽出器を全ソースおよび対象ドメインデータを用いて教師付き方式で適用し,両ドメイン情報を完全に活用する。 さらに、クラスタリングと教師付きドメイン適応は、性能が検証セットに収束するまで繰り返すことができる。 最終的な提出は10モデルの融合であり、検証セット上で7.75% EERと0.3517 MinDCFを達成する。

In this technical report, we describe the Royalflush submissions for the VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22). Our submissions contain track 1, which is for supervised speaker verification and track 3, which is for semi-supervised speaker verification. For track 1, we develop a powerful U-Net-based speaker embedding extractor with a symmetric architecture. The proposed system achieves 2.06% in EER and 0.1293 in MinDCF on the validation set. Compared with the state-of-the-art ECAPA-TDNN, it obtains a relative improvement of 20.7% in EER and 22.70% in MinDCF. For track 3, we employ the joint training of source domain supervision and target domain self-supervision to get a speaker embedding extractor. The subsequent clustering process can obtain target domain pseudo-speaker labels. We adapt the speaker embedding extractor using all source and target domain data in a supervised manner, where it can fully leverage both domain information. Moreover, clustering and supervised domain adaptation can be repeated until the performance converges on the validation set. Our final submission is a fusion of 10 models and achieves 7.75% EER and 0.3517 MinDCF on the validation set.
翻訳日:2022-09-21 14:43:10 公開日:2022-09-20
# 超音波ドップラー画像からの機械学習による大動脈特定結節領域の境界条件抽出:計算流体力学による検討

Machine Learning based Extraction of Boundary Conditions from Doppler Echo Images for Patient Specific Coarctation of the Aorta: Computational Fluid Dynamics Study ( http://arxiv.org/abs/2209.09139v2 )

ライセンス: Link先を確認
Vincent Milimo Masilokwa Punabantu, Malebogo Ngoepe, Amit Kumar Mishra, Thomas Aldersley, John Lawrenson, Liesl Zuhlke(参考訳) 資源制約条件におけるAorta (CoA) 患者固有の計算流体力学(CFD) 研究の目的-幾何および速度データ取得のための画像モダリティによって制限される。 ドップラー心エコー法はその高可用性と安全性のために、適切な速度獲得モードと見なされている。 本研究では,従来の機械学習(ML)手法を用いてドップラー心エコー画像から境界条件(BC)を抽出し,CFDを用いた血行動態モデリングを行う手法を提案する。 提案手法は, ml と cfd を組み合わせることで, 関心領域内の流れをモデル化する。 アプローチの重要な特徴は、MLモデルを使用してCFDモデルの入口および出口境界条件(BC)を校正することである。 mlモデルの主要な入力変数は患者の心拍数であり、これは研究内の測定された血管をまたいで時間的に変化するパラメータであった。 ANSYS FluentはCFD成分として,Scikit-Lern pythonライブラリはML成分として用いられた。 結果- 介入前の重篤なCoA症例に対するアプローチを検証した。 シミュレーションで得られた最大凝固速度を, 幾何学的手法を用いた患者から得られた最大凝固速度と比較した。 BCの取得に使用された5つのMLモデルのうち、最上位モデルは最大弧速度の5倍以内であった。 結語-この枠組みは、測定値間での患者の心拍数の変化を考慮に入れることができることを示した。 したがって、心臓の速度が各血管にまたがってスケールされたときに生理的に現実的なBCの計算を可能にし、合理的に正確な解が得られる。

Purpose- Coarctation of the Aorta (CoA) patient-specific computational fluid dynamics (CFD) studies in resource constrained settings are limited by the available imaging modalities for geometry and velocity data acquisition. Doppler echocardiography has been seen as a suitable velocity acquisition modality due to its higher availability and safety. This study aimed to investigate the application of classical machine learning (ML) methods to create an adequate and robust approach for obtaining boundary conditions (BCs) from Doppler Echocardiography images, for haemodynamic modeling using CFD. Methods- Our proposed approach combines ML and CFD to model haemodynamic flow within the region of interest. With the key feature of the approach being the use of ML models to calibrate the inlet and outlet boundary conditions (BCs) of the CFD model. The key input variable for the ML model was the patients heart rate as this was the parameter that varied in time across the measured vessels within the study. ANSYS Fluent was used for the CFD component of the study whilst the scikit-learn python library was used for the ML component. Results- We validated our approach against a real clinical case of severe CoA before intervention. The maximum coarctation velocity of our simulations were compared to the measured maximum coarctation velocity obtained from the patient whose geometry is used within the study. Of the 5 ML models used to obtain BCs the top model was within 5\% of the measured maximum coarctation velocity. Conclusion- The framework demonstrated that it was capable of taking variations of the patients heart rate between measurements into account. Thus, enabling the calculation of BCs that were physiologically realistic when the heart rate was scaled across each vessel whilst providing a reasonably accurate solution.
翻訳日:2022-09-21 14:42:52 公開日:2022-09-20
# 弱教師付きセマンティクスセグメンテーションにおける局所化の拡大と縮小

Expansion and Shrinkage of Localization for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2209.07761v2 )

ライセンス: Link先を確認
Jinlong Li, Zequn Jie, Xu Wang, Xiaolin Wei, Lin Ma(参考訳) クラスアクティベーションマップ(クラスアクティベーションマップ、CAM)を正確に生成することは、弱い教師付きセマンティックセマンティックセグメンテーションに不可欠である。 元のCAM法は、通常不完全かつ不正確なローカライゼーションマップを生成する。 そこで本稿では,変形可能な畳み込みにおけるオフセット学習に基づく拡張・収縮方式を提案する。 拡大段階において、変形可能な畳み込み層のオフセット学習ブランチである「膨張サンプリング」は、画像レベルの分類損失を最大化する逆の監視信号によって駆動される、より少ない識別対象領域をサンプリングする。 膨張段階におけるより完全な位置は、収縮段階において最終対象領域に徐々に狭められる。 収縮段階において、「収縮サンプリング」と呼ばれる別の変形可能な畳み込み層のオフセット学習枝を導入し、拡大段階に含まれる偽陽性背景領域を排除し、局所化マップの精度を向上させる。 我々は,pascal voc 2012 と ms coco 2014 について様々な実験を行い,弱教師付き意味セグメンテーションのための他の最先端手法よりも優れていることを示す。 コードはhttps://github.com/tyroneli/esol_wsssで公開されている。

Generating precise class-aware pseudo ground-truths, a.k.a, class activation maps (CAMs), is essential for weakly-supervised semantic segmentation. The original CAM method usually produces incomplete and inaccurate localization maps. To tackle with this issue, this paper proposes an Expansion and Shrinkage scheme based on the offset learning in the deformable convolution, to sequentially improve the recall and precision of the located object in the two respective stages. In the Expansion stage, an offset learning branch in a deformable convolution layer, referred as "expansion sampler" seeks for sampling increasingly less discriminative object regions, driven by an inverse supervision signal that maximizes image-level classification loss. The located more complete object in the Expansion stage is then gradually narrowed down to the final object region during the Shrinkage stage. In the Shrinkage stage, the offset learning branch of another deformable convolution layer, referred as "shrinkage sampler", is introduced to exclude the false positive background regions attended in the Expansion stage to improve the precision of the localization maps. We conduct various experiments on PASCAL VOC 2012 and MS COCO 2014 to well demonstrate the superiority of our method over other state-of-the-art methods for weakly-supervised semantic segmentation. Code will be made publicly available here https://github.com/TyroneLi/ESOL_WSSS.
翻訳日:2022-09-21 14:40:09 公開日:2022-09-20
# Wav2Vec2に基づくベンガル語の自動音声認識システムと伝達学習

An Automatic Speech Recognition System for Bengali Language based on Wav2Vec2 and Transfer Learning ( http://arxiv.org/abs/2209.08119v2 )

ライセンス: Link先を確認
Tushar Talukder Showrav(参考訳) 自動音声認識 (Automatic Speech Recognition, ASR) は, 音声を自動生成し, 自動生成する手法である。 典型的なASRシステムはオーディオ録音やストリームから特徴を抽出し、その特徴を対応するテキストにマッピングするために1つ以上のアルゴリズムを実行する。 近年,音声信号処理の分野では数多くの研究が行われている。 適切なリソースが与えられると、従来のASRと新興エンドツーエンド(E2E)音声認識の両方が有望な結果をもたらす。 しかし、Bengaliのような低リソース言語では、現在のASRの状況は遅れているものの、低リソースの状態は、この言語が世界中の5億人以上の人々が話すという事実を反映していない。 その人気にもかかわらず、さまざまなオープンソースデータセットが利用可能ではないため、ベンガル音声認識システムの研究は困難である。 本論文は,「BET CSE Fest DL Sprint」という競技会の一部である。 本研究の目的は,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることである。 提案手法はベンガル語を効果的にモデル化し,7747例の試験データセットにおいて,1000例の列車データセットのみを訓練した場合に,'levenshtein平均距離'で3.819点を達成した。

An independent, automated method of decoding and transcribing oral speech is known as automatic speech recognition (ASR). A typical ASR system extracts feature from audio recordings or streams and run one or more algorithms to map the features to corresponding texts. Numerous of research has been done in the field of speech signal processing in recent years. When given adequate resources, both conventional ASR and emerging end-to-end (E2E) speech recognition have produced promising results. However, for low-resource languages like Bengali, the current state of ASR lags behind, although the low resource state does not reflect upon the fact that this language is spoken by over 500 million people all over the world. Despite its popularity, there aren't many diverse open-source datasets available, which makes it difficult to conduct research on Bengali speech recognition systems. This paper is a part of the competition named `BUET CSE Fest DL Sprint'. The purpose of this paper is to improve the speech recognition performance of the Bengali language by adopting speech recognition technology on the E2E structure based on the transfer learning framework. The proposed method effectively models the Bengali language and achieves 3.819 score in `Levenshtein Mean Distance' on the test dataset of 7747 samples, when only 1000 samples of train dataset were used to train.
翻訳日:2022-09-21 14:39:47 公開日:2022-09-20
# fr:統一エンコーダによる折り畳み合理化

FR: Folded Rationalization with a Unified Encoder ( http://arxiv.org/abs/2209.08285v2 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Chao Yue, Yuankai Zhang(参考訳) 従来の作業では、ジェネレータが最も重要な部品を選択し、次に選択した部品に基づいて予測を行う予測器という2相モデルが一般的である。 しかし、そのような二相モデルでは、予測器が未訓練の発電機によって発生するノイズに過度に適合する退化問題を生じさせ、その結果、発電機は無意味な部品を選択する傾向にある準最適モデルに収束する。 そこで本研究では,論理モデルの2つの位相をテキスト意味抽出の観点から1つに折り畳む折り畳み合理化(fr)を提案する。 FRの鍵となる考え方は、ジェネレータと予測器の間に統一エンコーダを使用することであり、FRはジェネレータが従来の2相モデルでブロックした貴重な情報にアクセスし、より良いジェネレータを提供する。 実験的に、FRは最先端の手法と比較してF1スコアを最大10.3%改善することを示した。

Conventional works generally employ a two-phase model in which a generator selects the most important pieces, followed by a predictor that makes predictions based on the selected pieces. However, such a two-phase model may incur the degeneration problem where the predictor overfits to the noise generated by a not yet well-trained generator and in turn, leads the generator to converge to a sub-optimal model that tends to select senseless pieces. To tackle this challenge, we propose Folded Rationalization (FR) that folds the two phases of the rationale model into one from the perspective of text semantic extraction. The key idea of FR is to employ a unified encoder between the generator and predictor, based on which FR can facilitate a better predictor by access to valuable information blocked by the generator in the traditional two-phase model and thus bring a better generator. Empirically, we show that FR improves the F1 score by up to 10.3% as compared to state-of-the-art methods.
翻訳日:2022-09-21 14:39:26 公開日:2022-09-20
# 近距離ニューラルマシン翻訳のための学習分離検索表現

Learning Decoupled Retrieval Representation for Nearest Neighbour Neural Machine Translation ( http://arxiv.org/abs/2209.08738v2 )

ライセンス: Link先を確認
Qiang Wang, Rongxiang Weng, Ming Chen(参考訳) K-Nearest Neighbor Neural Machine Translation (kNN-MT)は、テスト時に単語レベルの表現を取得することで、外部コーパスをうまく組み込む。 一般的に、kNN-MTは、最後のデコーダ層の出力を検索タスクのクエリベクトルとして、翻訳タスクのオフ・ザ・シェルフコンテキスト表現を借用する。 本稿では,これら2つのタスクの表現の結合が,きめ細かい検索に最適であることを示す。 これを軽減するために,教師付きコントラスト学習を活用し,元の文脈表現から派生した特徴的検索表現を学習する。 また, 強陰性試料の迅速かつ効率的な構築法を提案する。 5領域の実験結果から,vailla knn-mtと比較して検索精度とbleuスコアが向上した。

K-Nearest Neighbor Neural Machine Translation (kNN-MT) successfully incorporates external corpus by retrieving word-level representations at test time. Generally, kNN-MT borrows the off-the-shelf context representation in the translation task, e.g., the output of the last decoder layer, as the query vector of the retrieval task. In this work, we highlight that coupling the representations of these two tasks is sub-optimal for fine-grained retrieval. To alleviate it, we leverage supervised contrastive learning to learn the distinctive retrieval representation derived from the original context representation. We also propose a fast and effective approach to constructing hard negative samples. Experimental results on five domains show that our approach improves the retrieval accuracy and BLEU score compared to vanilla kNN-MT.
翻訳日:2022-09-21 14:39:07 公開日:2022-09-20
# 深層畳み込みニューラルネットワークによる単一画像のレーダ化

Single Image Deraining via Rain-Steaks Aware Deep Convolutional Neural Network ( http://arxiv.org/abs/2209.07808v2 )

ライセンス: Link先を確認
Chaobing Zheng, Yuwen Li, Shiqian Wu(参考訳) 雨天ステーキは雨天像に空間的に変化するため、雨天像から雨天像を除去することは困難である。 本稿では,従来の画像処理技術と深層学習技術を組み合わせることで,この問題を考察する。 雨画像から高周波情報を抽出するため,改良した重み付き誘導画像フィルタ(iwgif)を提案する。 高周波情報は主にレインステーキとノイズを含み、レインステーキが深い畳み込みニューラルネットワーク(RSADCNN)を認識してレインステーキに注意を払うように誘導することができる。 RSADNNの効率性と説明性が改善された。 実験により,提案手法は,合成画像と実世界画像の両方において,質的および定量的尺度の両方において,最先端の手法を大幅に上回ることがわかった。 降雨時の自律航行に有用である。

It is challenging to remove rain-steaks from a single rainy image because the rain steaks are spatially varying in the rainy image. This problem is studied in this paper by combining conventional image processing techniques and deep learning based techniques. An improved weighted guided image filter (iWGIF) is proposed to extract high frequency information from a rainy image. The high frequency information mainly includes rain steaks and noise, and it can guide the rain steaks aware deep convolutional neural network (RSADCNN) to pay more attention to rain steaks. The efficiency and explain-ability of RSADNN are improved. Experiments show that the proposed algorithm significantly outperforms state-of-the-art methods on both synthetic and real-world images in terms of both qualitative and quantitative measures. It is useful for autonomous navigation in raining conditions.
翻訳日:2022-09-21 14:38:52 公開日:2022-09-20
# 密度対応変換器による統合的特徴とコスト集約

Integrative Feature and Cost Aggregation with Transformers for Dense Correspondence ( http://arxiv.org/abs/2209.08742v2 )

ライセンス: Link先を確認
Sunghwan Hong, Seokju Cho, Seungryong Kim, Stephen Lin(参考訳) 我々は高密度通信のための新しいアーキテクチャを提案する。 現在の最先端は、機能記述子とコストボリューム集約の両方に焦点を当てたトランスフォーマティブベースのアプローチである。 しかし、一般的には両者を集約するわけではないが、ジョイントアグリゲーションは、画像の構造的または意味的な情報、あるいはピクセル単位での類似性を欠いた情報を提供することによって相互を増強する。 本研究では,両形態のアグリゲーションを相補的な情報を活用する方法でインターリーブするトランスフォーマーベースのネットワークを提案する。 具体的には,記述子を利用した自己注意層を設計し,ノイズの多いコストボリュームを曖昧にし,またコストボリュームを利用して特徴量を正確なマッチングを促進する。 その後のクロスアテンション層は、両方の画像のディスクリプタに条件付きでさらに集約を行い、前の層の集約出力によって支援される。 階層的な処理によってさらに性能が向上し、より微細なレベルでのサーサーレベルの集約が導かれる。 提案手法が密マッチングタスクに与える影響を評価し,全ての主要なベンチマークで最先端性能を実現する。 設計選択を検証するために、広範囲にわたるアブレーション研究も行われている。

We present a novel architecture for dense correspondence. The current state-of-the-art are Transformer-based approaches that focus on either feature descriptors or cost volume aggregation. However, they generally aggregate one or the other but not both, though joint aggregation would boost each other by providing information that one has but other lacks, i.e., structural or semantic information of an image, or pixel-wise matching similarity. In this work, we propose a novel Transformer-based network that interleaves both forms of aggregations in a way that exploits their complementary information. Specifically, we design a self-attention layer that leverages the descriptor to disambiguate the noisy cost volume and that also utilizes the cost volume to aggregate features in a manner that promotes accurate matching. A subsequent cross-attention layer performs further aggregation conditioned on the descriptors of both images and aided by the aggregated outputs of earlier layers. We further boost the performance with hierarchical processing, in which coarser level aggregations guide those at finer levels. We evaluate the effectiveness of the proposed method on dense matching tasks and achieve state-of-the-art performance on all the major benchmarks. Extensive ablation studies are also provided to validate our design choices.
翻訳日:2022-09-21 14:38:38 公開日:2022-09-20
# 患者表現型発見のためのコストベース多層ネットワークアプローチ

A cost-based multi-layer network approach for the discovery of patient phenotypes ( http://arxiv.org/abs/2209.09032v2 )

ライセンス: Link先を確認
Clara Puga, Uli Niemann, Winfried Schlee, Myra Spiliopoulou(参考訳) 臨床記録には、様々なアンケートの完成を含む患者の特性の評価が含まれることが多い。 これらのアンケートは、患者の健康状態に関する様々な視点を提供する。 これらの観点から得られる異種性を捉えることが重要であるだけでなく、臨床表現型化のための費用対効果技術開発への需要も増えている。 多くの質問に答えることが、患者にとって負担になる可能性がある。 本研究では,コミュニティ検出手法を用いて表現型を検出するコストベース層セレクタモデルであるCOBALTを提案する。 私たちの目標は、これらの表現型の構築に使用される機能の数を最小化し、その品質を維持することです。 本モデルは,慢性耳鳴症患者からのアンケートデータを用いてテストし,多層ネットワーク構造で表現した。 次に,基本特徴(年齢,性別,前処理データ)と同定された表現型を特徴として,後処理データを予測することにより,モデルを評価する。 いくつかの後処理変数では、COBALTの表現型を特徴とする予測子は、従来のクラスタリング法で検出された表現型よりも優れていた。 さらに, 表現型データを用いて処理後データを予測することは, ベースライン特徴のみを訓練した予測器と比較して有益であることが判明した。

Clinical records frequently include assessments of the characteristics of patients, which may include the completion of various questionnaires. These questionnaires provide a variety of perspectives on a patient's current state of well-being. Not only is it critical to capture the heterogeneity given by these perspectives, but there is also a growing demand for developing cost-effective technologies for clinical phenotyping. Filling out many questionnaires may be a strain for the patients and therefore costly. In this work, we propose COBALT -- a cost-based layer selector model for detecting phenotypes using a community detection approach. Our goal is to minimize the number of features used to build these phenotypes while preserving its quality. We test our model using questionnaire data from chronic tinnitus patients and represent the data in a multi-layer network structure. The model is then evaluated by predicting post-treatment data using baseline features (age, gender, and pre-treatment data) as well as the identified phenotypes as a feature. For some post-treatment variables, predictors using phenotypes from COBALT as features outperformed those using phenotypes detected by traditional clustering methods. Moreover, using phenotype data to predict post-treatment data proved beneficial in comparison with predictors that were solely trained with baseline features.
翻訳日:2022-09-21 14:38:15 公開日:2022-09-20
# 分割型経験的ベイズECMアルゴリズムによる疎高次元線形回帰

Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm ( http://arxiv.org/abs/2209.08139v2 )

ライセンス: Link先を確認
Alexander C. McLain, Anja Zgodic, and Howard Bondell(参考訳) ベイズ変数選択法はスパース高次元線形回帰モデルに適合し、推論するための強力な手法である。 しかし、多くは計算量が多いか、モデルパラメーター上の制限付き事前分布を必要とする。 確率に基づくペナリゼーション手法の方が計算にやさしいが、推論にはリソース集約的な再フィッティング技術が必要である。 本稿では,高次元線形回帰に対する効率的かつ強力なベイズ法を提案する。 パラメータの最小事前仮定は、ハイパーパラメータのプラグイン経験ベイズ推定を使用することで要求される。 分割および拡張予測条件の最大化(ECM)アルゴリズムを用いることで、効率的な最大後続確率推定(MAP)が完了する。 その結果、PaRtitiOned empirical Bayes Ecm (PROBE)アルゴリズムが、疎高次元線形回帰に応用された。 将来予測のための信頼度と予測間隔を推定する手法を提案する。 予測の実証的性質と予測的推論を、多数のシミュレーション研究と、がん細胞株の薬物応答分析と同等のアプローチと比較した。 提案手法はRパッケージプローブに実装されている。

Bayesian variable selection methods are powerful techniques for fitting and inferring on sparse high-dimensional linear regression models. However, many are computationally intensive or require restrictive prior distributions on model parameters. Likelihood based penalization methods are more computationally friendly, but resource intensive refitting techniques are needed for inference. In this paper, we proposed an efficient and powerful Bayesian approach for sparse high-dimensional linear regression. Minimal prior assumptions on the parameters are required through the use of plug-in empirical Bayes estimates of hyperparameters. Efficient maximum a posteriori probability (MAP) estimation is completed through the use of a partitioned and extended expectation conditional maximization (ECM) algorithm. The result is a PaRtitiOned empirical Bayes Ecm (PROBE) algorithm applied to sparse high-dimensional linear regression. We propose methods to estimate credible and prediction intervals for predictions of future values. We compare the empirical properties of predictions and our predictive inference to comparable approaches with numerous simulation studies and an analysis of cancer cell lines drug response study. The proposed approach is implemented in the R package probe.
翻訳日:2022-09-21 14:37:59 公開日:2022-09-20