このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220804となっている論文です。

PDF登録状況(公開日: 20220804)

TitleAuthorsAbstract論文公表日・翻訳日
# quickxplainアルゴリズムの理解:簡単な説明と形式的証明

Understanding the QuickXPlain Algorithm: Simple Explanation and Formal Proof ( http://arxiv.org/abs/2001.01835v3 )

ライセンス: Link先を確認
Patrick Rodler(参考訳) 2004年の論文の中で、ウルリッヒ・ユンカー(Ulrich Junker)は、特定の(単調)特性を持つ既約部分集合を与えられた集合内で見つけるための分割・対数計算戦略を提供するQuickXPlainアルゴリズムを提案した。 制約満足度の問題領域での当初の応用に加えて、このアルゴリズムは、モデルベースの診断、推奨システム、検証、セマンティックwebなど、さまざまな領域で広く採用されている。 この人気は、一方で既約部分集合を見つけるという問題が頻繁に発生し、他方でQuickXPlainの一般適用性と計算複雑性が好まれることによるものである。 しかし、(定期的に経験している)人々はQuickXPlainを理解するのに苦労しており、なぜそれが正しく機能するのかを目の当たりにしています。 これは、QuickXPlainが試行錯誤されテストされた小説で説明し、それの無知な公式な証明を提示することによる、この作品における私たちの説明である。 アルゴリズムの正確性を示すことや、後の誤りの検出(証明と信頼効果)を除外することとは別に、形式的な証明の可用性の付加価値は例えば、加算される。 (i)証明を検証し、理解した後のみ、アルゴリズムの動作が完全に明確になることが多いこと(ダイダクティック効果) (ii)示された証明方法論は、他の再帰的アルゴリズム(転送効果)を証明するためのガイダンスとして使用できる。 (iii)多数のモデルベースのデバッガ(完全性効果)など、quickxplain(計算結果)に依存するシステムの「ガップレス」な正当性証明を提供する可能性。

In his seminal paper of 2004, Ulrich Junker proposed the QuickXPlain algorithm, which provides a divide-and-conquer computation strategy to find within a given set an irreducible subset with a particular (monotone) property. Beside its original application in the domain of constraint satisfaction problems, the algorithm has since then found widespread adoption in areas as different as model-based diagnosis, recommender systems, verification, or the Semantic Web. This popularity is due to the frequent occurrence of the problem of finding irreducible subsets on the one hand, and to QuickXPlain's general applicability and favorable computational complexity on the other hand. However, although (we regularly experience) people are having a hard time understanding QuickXPlain and seeing why it works correctly, a proof of correctness of the algorithm has never been published. This is what we account for in this work, by explaining QuickXPlain in a novel tried and tested way and by presenting an intelligible formal proof of it. Apart from showing the correctness of the algorithm and excluding the later detection of errors (proof and trust effect), the added value of the availability of a formal proof is, e.g., (i) that the workings of the algorithm often become completely clear only after studying, verifying and comprehending the proof (didactic effect), (ii) the shown proof methodology can be used as a guidance for proving other recursive algorithms (transfer effect), and (iii) the possibility of providing "gapless" correctness proofs of systems that rely on (results computed by) QuickXPlain, such as numerous model-based debuggers (completeness effect).
翻訳日:2023-01-13 21:10:22 公開日:2022-08-04
# 効率的なクエリベースのオントロジー故障位置推定のためのエキスパート行動と質問タイプについて

On Expert Behaviors and Question Types for Efficient Query-Based Ontology Fault Localization ( http://arxiv.org/abs/2001.05952v2 )

ライセンス: Link先を確認
Patrick Rodler(参考訳) 既存のクエリベースのオントロジーフォールトローカライゼーション手法 wrt に挑戦する。 前提、最適化基準、そして相互作用は、それらを使うことを意味します。 それらの効率は、相互作用する専門家の行動に大きく依存しており、計算は非効率的または不正確であり、使用済みの最適化基準が完全には現実的でないことが多い。 対策として,すべての特定された問題を克服し,欠陥のある実世界のオントロジーを包括的に実験し,66パーセントのケースで専門家とのインタラクションを少なくし,既存の手法と比較して少なくとも80%の待ち時間で障害の局所化を成功させることができる,新しい(そしてより単純な)インタラクションアプローチを提案する。

We challenge existing query-based ontology fault localization methods wrt. assumptions they make, criteria they optimize, and interaction means they use. We find that their efficiency depends largely on the behavior of the interacting expert, that performed calculations can be inefficient or imprecise, and that used optimization criteria are often not fully realistic. As a remedy, we suggest a novel (and simpler) interaction approach which overcomes all identified problems and, in comprehensive experiments on faulty real-world ontologies, enables a successful fault localization while requiring fewer expert interactions in 66 % of the cases, and always at least 80 % less expert waiting time, compared to existing methods.
翻訳日:2023-01-11 00:46:33 公開日:2022-08-04
# スケジューリングジョブセット最適化問題:モデルに基づく診断手法

The Scheduling Job-Set Optimization Problem: A Model-Based Diagnosis Approach ( http://arxiv.org/abs/2009.11142v2 )

ライセンス: Link先を確認
Patrick Rodler and Erich Teppan(参考訳) 企業にとって共通する問題は、製品注文の量が生産能力を超えることがあることだ。 我々は,特定の(時間軸)目標を満たすために,破棄するか延期するかという問題を扱う2つの新しい問題を正式に導入し,モデルベース診断を用いてアプローチしようとする。 徹底的な分析では,導入問題と診断問題との類似点が多数見出され,重要な慣用句が明らかになり,それらを扱う方法や活用方法について概説する。 最後に、よく知られたスケジューリングベンチマークスイートの産業規模の問題インスタンスに対する概念実証評価によって、2つの形式化された問題の1つが、既定モデルベースの診断ツールによって攻撃されることが示されている。

A common issue for companies is that the volume of product orders may at times exceed the production capacity. We formally introduce two novel problems dealing with the question which orders to discard or postpone in order to meet certain (timeliness) goals, and try to approach them by means of model-based diagnosis. In thorough analyses, we identify many similarities of the introduced problems to diagnosis problems, but also reveal crucial idiosyncracies and outline ways to handle or leverage them. Finally, a proof-of-concept evaluation on industrial-scale problem instances from a well-known scheduling benchmark suite demonstrates that one of the two formalized problems can be well attacked by out-of-the-box model-based diagnosis tools.
翻訳日:2022-10-15 16:11:05 公開日:2022-08-04
# モデルベース診断は本当に正しいのか?

Do We Really Sample Right In Model-Based Diagnosis? ( http://arxiv.org/abs/2009.12178v2 )

ライセンス: Link先を確認
Patrick Rodler and Fatima Elichanova(参考訳) 統計的サンプルは、代表的であるためには、ランダムで偏りのない方法で人口から引き出さなければならない。 しかしながら、モデルに基づく診断の分野では、(バイアスのある)ベストファーストサンプルから推定を行うのが一般的である。 1つの例は、欠陥のあるシステムに対する最も可能性の高い障害説明の計算と、これらを使用して、もし測定された場合、システムのどの側面が最高の情報を得るかを評価することである。 本研究は、診断研究者と臨床医が何十年にもわたって遵守してきた、統計的に確立されていない慣行が妥当かどうかを精査するものである。 そこで本研究では,故障説明を生成する様々なサンプリング手法を実証的に分析する。 本研究は, 生成したサンプルの代表性について, 故障説明に対する推定値, 診断判断の導出方法などの観点から検討し, サンプルサイズの影響, サンプリング効率と有効性との最適トレードオフ, 正確なサンプリング手法との比較について検討した。

Statistical samples, in order to be representative, have to be drawn from a population in a random and unbiased way. Nevertheless, it is common practice in the field of model-based diagnosis to make estimations from (biased) best-first samples. One example is the computation of a few most probable possible fault explanations for a defective system and the use of these to assess which aspect of the system, if measured, would bring the highest information gain. In this work, we scrutinize whether these statistically not well-founded conventions, that both diagnosis researchers and practitioners have adhered to for decades, are indeed reasonable. To this end, we empirically analyze various sampling methods that generate fault explanations. We study the representativeness of the produced samples in terms of their estimations about fault explanations and how well they guide diagnostic decisions, and we investigate the impact of sample size, the optimal trade-off between sampling efficiency and effectivity, and how approximate sampling techniques compare to exact ones.
翻訳日:2022-10-14 22:57:30 公開日:2022-08-04
# 音響, 完全, 線形空間, ベストファースト診断検索

Sound, Complete, Linear-Space, Best-First Diagnosis Search ( http://arxiv.org/abs/2009.12190v2 )

ライセンス: Link先を確認
Patrick Rodler(参考訳) 様々なモデルに基づく診断シナリオは、最も望ましい故障説明の計算を必要とする。 既存のアルゴリズム(すなわち、実際の故障説明のみを出力する)と完全(すなわち全ての説明を返す)は、このタスクを達成するために指数空間を必要とする。 そこで本研究では,メモリ制限されたデバイス上での診断とメモリ集約的な問題に対して,korf のよく知られた rbfs アルゴリズムに基づく診断探索法である rbf-hs を提案する。 RBF-HSは、望ましい音性や完全性を犠牲にすることなく、線形空間境界内で最優先で任意の数の故障説明を列挙することができる。 実世界の診断ケースを用いた評価では、RBF-HSは最小限の心不全の説明を計算するのに使われる場合、ほとんどの場合、相当な空間(最大98%)を節約するが、ReiterのHS-Treeよりもある程度の時間しか必要としない。

Various model-based diagnosis scenarios require the computation of the most preferred fault explanations. Existing algorithms that are sound (i.e., output only actual fault explanations) and complete (i.e., can return all explanations), however, require exponential space to achieve this task. As a remedy, to enable successful diagnosis on memory-restricted devices and for memory-intensive problem cases, we propose RBF-HS, a diagnostic search method based on Korf's well-known RBFS algorithm. RBF-HS can enumerate an arbitrary fixed number of fault explanations in best-first order within linear space bounds, without sacrificing the desirable soundness or completeness properties. Evaluations using real-world diagnosis cases show that RBF-HS, when used to compute minimum-cardinality fault explanations, in most cases saves substantial space (up to 98 %) while requiring only reasonably more or even less time than Reiter's HS-Tree, a commonly used and as generally applicable sound, complete and best-first diagnosis search.
翻訳日:2022-10-14 22:57:13 公開日:2022-08-04
# 動的調整グラフを用いたロバストグラフ注意ネットワーク

A Robust graph attention network with dynamic adjusted Graph ( http://arxiv.org/abs/2009.13038v3 )

ライセンス: Link先を確認
Xianchen Zhou, Yaoyun Zeng, Hongxia Wang(参考訳) グラフ注意ネットワーク(GAT)は、グラフデータを扱うために有用なディープラーニングモデルである。 しかし、近年の研究では、古典的なGATは敵の攻撃に弱いことが示されている。 わずかな摂動で劇的に劣化する。 したがって、GATの堅牢性を高める方法は重要な問題である。 本稿では,注意機構の改訂に基づき,gatのロバスト性を向上させるため,ロバストgat(rogat)を提案する。 異なるエッジにアテンション機構を使用しているが、摂動に敏感なオリジナルのGATとは異なり、RoGATは徐々にダイナミックアテンションスコアを追加し、ロバスト性を向上させる。 まず、RoGAT は通常のグラフによく見られる滑らかさの仮定に基づいてエッジの重みを補正する。 次に、RoGATは機能のノイズを抑制する機能をさらに改訂する。 そして、ダイナミックエッジの重みによって追加の注意スコアが生成され、敵攻撃の影響を低減するために使用できる。 引用データに基づく引用データに対する標的および未目標攻撃に対する異なる実験は、RoGATが最近の防御方法のほとんどより優れていることを示す。

Graph Attention Networks(GATs) are useful deep learning models to deal with the graph data. However, recent works show that the classical GAT is vulnerable to adversarial attacks. It degrades dramatically with slight perturbations. Therefore, how to enhance the robustness of GAT is a critical problem. Robust GAT(RoGAT) is proposed in this paper to improve the robustness of GAT based on the revision of the attention mechanism. Different from the original GAT, which uses the attention mechanism for different edges but is still sensitive to the perturbation, RoGAT adds an extra dynamic attention score progressively and improves the robustness. Firstly, RoGAT revises the edges weight based on the smoothness assumption which is quite common for ordinary graphs. Secondly, RoGAT further revises the features to suppress features' noise. Then, an extra attention score is generated by the dynamic edge's weight and can be used to reduce the impact of adversarial attacks. Different experiments against targeted and untargeted attacks on citation data on citation data demonstrate that RoGAT outperforms most of the recent defensive methods.
翻訳日:2022-10-13 21:07:44 公開日:2022-08-04
# 遅延特徴を有する正規化流れによる教師なしビデオ異常検出

Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit Latent Features ( http://arxiv.org/abs/2010.07524v3 )

ライセンス: Link先を確認
MyeongAh Cho, Taeoh Kim, Woo Jin Kim, Suhwan Cho, Sangyoun Lee(参考訳) 現代の社会では、監視ビデオにおける犯罪や事故などの異常な事象を発見できる監視異常検出が重要な課題である。 異常はめったに発生しないため、ほとんどのトレーニングデータは異常なイベントを伴わないラベルなしのビデオで構成されているため、作業は困難である。 既存の手法のほとんどはオートエンコーダ(ae)を使って通常のビデオの再生を学習し、異常なシーンの出現を再現できなかったことに基づいて異常を検知する。 しかし、異常は外見や動きによって区別されるため、従来の多くのアプローチでは、例えば、事前学習された光フローモデルを用いて、明確に外見と動き情報を分離している。 この明示的な分離は、2種類の情報間の相互表現能力を制限する。 対照的に,2つのエンコーダが外観と動作の特徴を暗黙的にモデル化し,それらを組み合わせて通常のビデオパターンを学習する構造である暗黙の2経路AE(ITAE)を提案する。 通常のシーンの複雑な分布については,正規化フロー(NF)に基づく生成モデルによるITAE特徴の正規密度推定を提案し,抽出可能な可能性の学習と分布検出による異常の同定を行う。 NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。 最後に、実世界のシナリオにおける様々な異常を含むデータベースを含む6つのベンチマークにおいて、ITAEとその特徴分布モデリングの有効性を実証する。

In contemporary society, surveillance anomaly detection, i.e., spotting anomalous events such as crimes or accidents in surveillance videos, is a critical task. As anomalies occur rarely, most training data consists of unlabeled videos without anomalous events, which makes the task challenging. Most existing methods use an autoencoder (AE) to learn to reconstruct normal videos; they then detect anomalies based on their failure to reconstruct the appearance of abnormal scenes. However, because anomalies are distinguished by appearance as well as motion, many previous approaches have explicitly separated appearance and motion information-for example, using a pre-trained optical flow model. This explicit separation restricts reciprocal representation capabilities between two types of information. In contrast, we propose an implicit two-path AE (ITAE), a structure in which two encoders implicitly model appearance and motion features, along with a single decoder that combines them to learn normal video patterns. For the complex distribution of normal scenes, we suggest normal density estimation of ITAE features through normalizing flow (NF)-based generative models to learn the tractable likelihoods and identify anomalies using out of distribution detection. NF models intensify ITAE performance by learning normality through implicitly learned features. Finally, we demonstrate the effectiveness of ITAE and its feature distribution modeling on six benchmarks, including databases that contain various anomalies in real-world scenarios.
翻訳日:2022-10-07 04:09:58 公開日:2022-08-04
# 主成分回帰のモデル同定とアウト・オブ・サンプル予測:合成制御への応用

On Model Identification and Out-of-Sample Prediction of Principal Component Regression: Applications to Synthetic Controls ( http://arxiv.org/abs/2010.14449v4 )

ライセンス: Link先を確認
Anish Agarwal, Devavrat Shah, Dennis Shen(参考訳) 固定設計による高次元誤差変数設定における主成分回帰(PCR)の解析を行う。 適切な条件下では、PCR は最小$$\ell_2$-norm で一貫した一意的なモデルを同定し、最小値が極小に近いことを示す。 これらの結果により,非漸近的なサンプル外予測の確立が可能となり,既知の精度が向上した。 本解析では, 分布的仮定を回避するために, 試料内および試料外共変量間の自然線形代数条件を導入する。 我々のシミュレーションは、共変量シフトの下でも、一般化におけるこの条件の重要性を示している。 また, 副産物として, 政策評価の先駆的アプローチである合成制御文学の新たな結果も得られた。 特に,本研究のミニマックス実験の結果から,PCR法が多種多様であったことが示唆された。 我々の知る限り、固定設計設定の予測は、高次元誤差変数と合成制御文献の両方において解明されている。

We analyze principal component regression (PCR) in a high-dimensional error-in-variables setting with fixed design. Under suitable conditions, we show that PCR consistently identifies the unique model with minimum $\ell_2$-norm and is near minimax optimal. These results enable us to establish non-asymptotic out-of-sample prediction guarantees that improve upon the best known rates. In our analysis, we introduce a natural linear algebraic condition between the in- and out-of-sample covariates, which allows us to avoid distributional assumptions. Our simulations illustrate the importance of this condition for generalization, even under covariate shifts. As a byproduct, our results also lead to novel results for the synthetic controls literature, a leading approach for policy evaluation. In particular, our minimax results suggest the attractiveness of PCR based methods amongst the numerous variants. To the best of our knowledge, our prediction guarantees for the fixed design setting have been elusive in both the high-dimensional error-in-variables and synthetic controls literatures.
翻訳日:2022-10-02 11:50:27 公開日:2022-08-04
# 分布相関--株式取引量予測のための知識蒸留

Distributional Correlation--Aware Knowledge Distillation for Stock Trading Volume Prediction ( http://arxiv.org/abs/2208.07232v1 )

ライセンス: Link先を確認
Lei Li, Zhiyuan Zhang, Ruihan Bao, Keiko Harimoto, Xu Sun(参考訳) 分類問題における伝統的な知識蒸留は、ストックトレーディングボリューム予測のような回帰問題では利用できない教師モデルによって生成されるソフトラベルのクラス相関を通じて知識を伝達する。 そこで,本稿では,歴史取引データから取引量予測を行うために,軽量な学生モデルを訓練するための新しい蒸留フレームワークを提案する。 具体的には,トレーディングボリュームが属するガウス分布を予測するためのモデルを用いて,回帰モデルを確率的予測モデルに変換する。 これにより、予測分布と教師の分布とを一致させることで、教師からより情報的な分布レベルで学習することができる。 教師モデルと一貫したペアワイズ関係を生み出すために、2つの相関蒸留目標が導入された。 2つの異なる時間窓の設定で実世界のストックボリュームデータセット上でフレームワークを評価する。 実験により、我々のフレームワークは強力なベースラインモデルよりも優れており、モデルサイズを$99.6\%の予測精度を維持しながら$5\times$圧縮できることが示されている。 広範な分析の結果,低資源シナリオではバニラ蒸留法よりも有効なフレームワークであることが判明した。

Traditional knowledge distillation in classification problems transfers the knowledge via class correlations in the soft label produced by teacher models, which are not available in regression problems like stock trading volume prediction. To remedy this, we present a novel distillation framework for training a light-weight student model to perform trading volume prediction given historical transaction data. Specifically, we turn the regression model into a probabilistic forecasting model, by training models to predict a Gaussian distribution to which the trading volume belongs. The student model can thus learn from the teacher at a more informative distributional level, by matching its predicted distributions to that of the teacher. Two correlational distillation objectives are further introduced to encourage the student to produce consistent pair-wise relationships with the teacher model. We evaluate the framework on a real-world stock volume dataset with two different time window settings. Experiments demonstrate that our framework is superior to strong baseline models, compressing the model size by $5\times$ while maintaining $99.6\%$ prediction accuracy. The extensive analysis further reveals that our framework is more effective than vanilla distillation methods under low-resource scenarios.
翻訳日:2022-08-28 22:29:02 公開日:2022-08-04
# 脳-コンピュータインタフェースにおける脳波分類のためのインターツウィンドニューラルネットワークモデル

An intertwined neural network model for EEG classification in brain-computer interfaces ( http://arxiv.org/abs/2208.08860v1 )

ライセンス: Link先を確認
Andrea Duggento, Mario De Lorenzo, Stefano Bargione, Allegra Conti, Vincenzo Catrambone, Gaetano Valenza, Nicola Toschi(参考訳) 脳コンピュータインタフェース(BCI)は、脳とコンピュータまたは外部装置との間の非刺激的直接的、時折双方向通信リンクである。 古典的なeegベースのbciアルゴリズムは、サポートベクターマシンや線形判別分析、多クラス共通空間パターンなどのモデルに依存している。 しかし、この10年間、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、長期短期メモリネットワーク、ゲートリカレントユニットネットワークなど、より洗練された機械学習アーキテクチャは、多クラスbciタスクの識別性を高めるために広く使われてきた。 さらに、脳波信号の事前処理と復号化は脳活動の復号の成功において常に重要であり、最適で標準化された脳波前処理活動の決定は研究の活発な領域である。 本稿では,具体的に設計したディープニューラルネットワークアーキテクチャを提案する。 a)マルチクラスモータ画像分類における最先端性能の提供 b) eegおよびbci機器からストリームされる生データのリアルタイム処理を可能にするために、前処理に堅牢である。 これは、時間分散完全連結(tdFC)と空間分散1次元時間的畳み込み層(sdConv)の相互利用に基づいており、EEG信号の空間的特徴と時間的特徴の相互作用があらゆる複雑さのレベルで生じる可能性を明確に解決している。 シミュレーション実験により,6クラスモータ画像ネットワークにおける3次元畳み込みと繰り返しニューラルネットワークの組み合わせによる性能比較ベースラインの精度が99%に達することを示した。 重要なことは、これらの結果は最小あるいは広範囲の事前処理を適用した場合でも変化せず、脳波分類におけるディープラーニングアーキテクチャをより超越的でリアルタイムに活用するための道を開く可能性がある。

The brain computer interface (BCI) is a nonstimulatory direct and occasionally bidirectional communication link between the brain and a computer or an external device. Classically, EEG-based BCI algorithms have relied on models such as support vector machines and linear discriminant analysis or multiclass common spatial patterns. During the last decade, however, more sophisticated machine learning architectures, such as convolutional neural networks, recurrent neural networks, long short-term memory networks and gated recurrent unit networks, have been extensively used to enhance discriminability in multiclass BCI tasks. Additionally, preprocessing and denoising of EEG signals has always been key in the successful decoding of brain activity, and the determination of an optimal and standardized EEG preprocessing activity is an active area of research. In this paper, we present a deep neural network architecture specifically engineered to a) provide state-of-the-art performance in multiclass motor imagery classification and b) remain robust to preprocessing to enable real-time processing of raw data as it streams from EEG and BCI equipment. It is based on the intertwined use of time-distributed fully connected (tdFC) and space-distributed 1D temporal convolutional layers (sdConv) and explicitly addresses the possibility that interaction of spatial and temporal features of the EEG signal occurs at all levels of complexity. Numerical experiments demonstrate that our architecture provides superior performance compared baselines based on a combination of 3D convolutions and recurrent neural networks in a six-class motor imagery network, with a subjectwise accuracy that reaches 99%. Importantly, these results remain unchanged when minimal or extensive preprocessing is applied, possibly paving the way for a more transversal and real-time use of deep learning architectures in EEG classification.
翻訳日:2022-08-28 22:27:48 公開日:2022-08-04
# 開発ネットワーク2, その最適性と創発的チューリングマシン

Developmental Network Two, Its Optimality, and Emergent Turing Machines ( http://arxiv.org/abs/2208.06279v1 )

ライセンス: Link先を確認
Juyang Weng, Zejia Zheng and Xiang Wu(参考訳) 強力なAIは、学習エンジンがタスクに特化せず、内部機能の動的な階層を自動的に構築する必要がある。 階層によって、例えば、短い道路の縁と短い茂みの縁はランドマークの中間的な特徴に等しいが、木陰からの中間的な特徴は、ハイレベルなランドマークの概念に無視される必要がある。 動的に言えば、注意散らしを無視しながら特徴の自動選択は静的ではなく、動的統計に基づく(例えばランドマークの文脈における影の不安定さ)。 内的特徴によって、それらは感覚だけでなく運動も意味しており、運動(状態)からのコンテキストが感覚入力と統合されてコンテキストベースの論理機械となる。 我々は、現実世界で確実に機能する実用的なAIシステムに強力なAIが必要な理由を提示する。 次に,次世代開発ネットワーク2(DN-2)を提案する。 DN-1以外の多くの新しい新奇性により、DN-2の最も重要な新規性は、各ニューロンの抑制領域がニューロン特異的で動的であることである。 これによりDN-2は、DN-1のように領域の数が静的でない流動的な内部階層を自動的に構築できる。 利用可能な限られた資源を最適に活用するために、DN-2は限られた学習経験と限られた資源の条件の下で、最大限の確率で最適であることを示す。 また,DN-2 が創発的ユニバーサルチューリングマシン (UTM) を学習する方法について述べる。 最適性とともに最適なUTMを示す。 DN-2を用いた実世界の視覚に基づくナビゲーション、迷路計画、オーディションの実験。 彼らはDN-2が自然と合成の入力を用いる一般的な目的であることを示した。 自動的に構築された内部表現は重要な特徴に焦点を合わせながら、イントラクタや他の無関係なコンテキスト概念に不変である。

Strong AI requires the learning engine to be task non-specific and to automatically construct a dynamic hierarchy of internal features. By hierarchy, we mean, e.g., short road edges and short bush edges amount to intermediate features of landmarks; but intermediate features from tree shadows are distractors that must be disregarded by the high-level landmark concept. By dynamic, we mean the automatic selection of features while disregarding distractors is not static, but instead based on dynamic statistics (e.g. because of the instability of shadows in the context of landmark). By internal features, we mean that they are not only sensory, but also motor, so that context from motor (state) integrates with sensory inputs to become a context-based logic machine. We present why strong AI is necessary for any practical AI systems that work reliably in the real world. We then present a new generation of Developmental Networks 2 (DN-2). With many new novelties beyond DN-1, the most important novelty of DN-2 is that the inhibition area of each internal neuron is neuron-specific and dynamic. This enables DN-2 to automatically construct an internal hierarchy that is fluid, whose number of areas is not static as in DN-1. To optimally use the limited resource available, we establish that DN-2 is optimal in terms of maximum likelihood, under the condition of limited learning experience and limited resources. We also present how DN-2 can learn an emergent Universal Turing Machine (UTM). Together with the optimality, we present the optimal UTM. Experiments for real-world vision-based navigation, maze planning, and audition used DN-2. They successfully showed that DN-2 is for general purposes using natural and synthetic inputs. Their automatically constructed internal representation focuses on important features while being invariant to distractors and other irrelevant context-concepts.
翻訳日:2022-08-28 22:21:42 公開日:2022-08-04
# 分類のためのスケーラブル量子ニューラルネットワーク

Scalable Quantum Neural Networks for Classification ( http://arxiv.org/abs/2208.07719v1 )

ライセンス: Link先を確認
Jindi Wu, Zeyi Tao, Qun Li(参考訳) 最近の機械学習タスクの多くは、量子機械学習(qml)として知られる量子力学を活用し、分類精度とトレーニング効率を向上させるために量子コンピューティングに頼っている。 変分量子回路(VQC)は、従来のニューラルネットワークに対抗する量子ニューラルネットワーク(QNN)を構築するために頻繁に使用される。 しかし、ハードウェアの制限のため、現在の量子デバイスでは、データ表現と単純な量子計算に数キュービットしか使用できない。 単一の量子デバイス上の制限された量子リソースは、データ使用量を低下させ、量子回路のスケールを制限する。 この制約を緩和するために,複数の小型量子デバイスの量子資源を協調的に活用し,スケーラブルな量子ニューラルネットワーク(sqnn)を実現する手法を提案する。 SQNNシステムでは、いくつかの量子デバイスを量子特徴抽出器として使用し、入力インスタンスから並列に局所的特徴を抽出し、量子デバイスは量子予測器として機能し、古典的な通信チャネルを通じて収集された局所的特徴の予測を行う。 SQNNシステムの量子特徴抽出器は互いに独立しているため、様々なサイズの量子デバイスを柔軟に使用でき、より大きな量子デバイスはより局所的な特徴を抽出することができる。 特に、SQNNはモジュラー方式で単一の量子デバイス上で実行することができる。 我々の研究は探索的であり、tensorflow量子ライブラリを使用して量子システムシミュレータ上で実行される。 評価は、MNISTデータセット上でバイナリ分類を行う。 これは,SQNNモデルが同一スケールの正規QNNモデルに匹敵する分類精度を実現することを示す。 さらに,量子資源を多く含むsqnnモデルは,分類精度を大幅に向上できることを示す。

Many recent machine learning tasks resort to quantum computing to improve classification accuracy and training efficiency by taking advantage of quantum mechanics, known as quantum machine learning (QML). The variational quantum circuit (VQC) is frequently utilized to build a quantum neural network (QNN), which is a counterpart to the conventional neural network. Due to hardware limitations, however, current quantum devices only allow one to use few qubits to represent data and perform simple quantum computations. The limited quantum resource on a single quantum device degrades the data usage and limits the scale of the quantum circuits, preventing quantum advantage to some extent. To alleviate this constraint, we propose an approach to implementing a scalable quantum neural network (SQNN) by utilizing the quantum resource of multiple small-size quantum devices cooperatively. In an SQNN system, several quantum devices are used as quantum feature extractors, extracting local features from an input instance in parallel, and a quantum device works as a quantum predictor, performing prediction over the local features collected through classical communication channels. The quantum feature extractors in the SQNN system are independent of each other, so one can flexibly use quantum devices of varying sizes, with larger quantum devices extracting more local features. Especially, the SQNN can be performed on a single quantum device in a modular fashion. Our work is exploratory and carried out on a quantum system simulator using the TensorFlow Quantum library. The evaluation conducts a binary classification on the MNIST dataset. It shows that the SQNN model achieves a comparable classification accuracy to a regular QNN model of the same scale. Furthermore, it demonstrates that the SQNN model with more quantum resources can significantly improve classification accuracy.
翻訳日:2022-08-28 22:21:12 公開日:2022-08-04
# Beer2Vec : Thirst-Quenchingレコメンデーションレビューからのフレーバー抽出

Beer2Vec : Extracting Flavors from Reviews for Thirst-Quenching Recommandations ( http://arxiv.org/abs/2208.04223v1 )

ライセンス: Link先を確認
Jean-Thomas Baillargeon and Nicolas Garneau(参考訳) 本稿では、世界で最も人気のあるアルコール飲料をベクターにエンコードし、風味のあるレコメンデーションを可能にするbeer2vecモデルを紹介する。 本アルゴリズムは,クラフトビールの分析に焦点を当てたユニークなデータセットを用いて提示する。 実験的な観点から、ビールベクターが有意義なレコメンデーションを生成するために、味のエンコード方法と、いかに有用かを詳しく説明する。 また、現実の環境でBeer2Vecを使うための3つの方法を提示し、クラフトビール消費者のプールを啓蒙する。 最後に、私たちはモデルと機能をWebアプリケーションを通じて誰でも利用できます。

This paper introduces the Beer2Vec model that allows the most popular alcoholic beverage in the world to be encoded into vectors enabling flavorful recommendations. We present our algorithm using a unique dataset focused on the analysis of craft beers. We thoroughly explain how we encode the flavors and how useful, from an empirical point of view, the beer vectors are to generate meaningful recommendations. We also present three different ways to use Beer2Vec in a real-world environment to enlighten the pool of craft beer consumers. Finally, we make our model and functionalities available to everybody through a web application.
翻訳日:2022-08-09 14:24:13 公開日:2022-08-04
# デルタ・ヘッジの流動性ポジション、自動市場メーカに

Delta Hedging Liquidity Positions on Automated Market Makers ( http://arxiv.org/abs/2208.03318v1 )

ライセンス: Link先を確認
Akhilesh (Adam) Khakhar and Xi Chen(参考訳) Liquidity Providers on Automated Market Makersは毎日数百万USドルを取引手数料で調達する。 しかし、流動性位置の純値は、プールの根底にある資産の価格変化に弱い。 流動性位置における損失の主要因は不純物損失である。 恒常的機能市場メーカーに対する不当な損失は広く研究されている。 基礎資産からの価格移動に基づいて, 流動性位置pnlを測定するための新しい指標を提案する。 この新たな指標が、基礎となる資産の価格移動の関数として流動性位置の純価値の変化をより適切に測定する方法を示す。 第2の貢献は、一様流動性自動化マーケットメーカ(uniswap v2)と集中流動性自動化マーケットメーカ(uniswap v3)の両方におけるデルタヘッジの任意の流動性ポジションに対するアルゴリズムである。

Liquidity Providers on Automated Market Makers generate millions of USD in transaction fees daily. However, the net value of a Liquidity Position is vulnerable to price changes in the underlying assets in the pool. The dominant measure of loss in a Liquidity Position is Impermanent Loss. Impermanent Loss for Constant Function Market Makers has been widely studied. We propose a new metric to measure Liquidity Position PNL based on price movement from the underlying assets. We show how this new metric more appropriately measures the change in the net value of a Liquidity Position as a function of price movement in the underlying assets. Our second contribution is an algorithm to delta hedge arbitrary Liquidity Positions on both uniform liquidity Automated Market Makers (such as Uniswap v2) and concentrated liquidity Automated Market Makers (such as Uniswap v3) via a combination of derivatives.
翻訳日:2022-08-09 14:13:03 公開日:2022-08-04
# CNNを用いた3次元微小CT画像からの相対拡散の推定

Estimating relative diffusion from 3D micro-CT images using CNNs ( http://arxiv.org/abs/2208.03337v1 )

ライセンス: Link先を確認
Stephan G\"arttner, Florian Frank, Fabian Woller, Andreas Meier, Nadja Ray(参考訳) 過去数年間、畳み込みニューラルネットワーク(convolutional neural networks, cnns)は、多孔質メディア研究における特性量を予測する能力を、細孔空間測地から直接証明してきた。 古典計算法と比較して計算時間の大幅な削減が頻繁に観測されているため、cnnによるバルクパラメータの予測は、例えば効果的な拡散に対して特に説得力がある。 現在の文献では, 完全飽和多孔質培地を中心に研究されているが, 部分飽和事例も注目されている。 この場合、拡散輸送に利用可能な領域の質的に異なるより複雑なジオメトリのため、標準cnnは飽和率が低いほど堅牢性と正確性が失われる傾向がある。 本稿では,全空隙空間から直接的に相対拡散の予測を行うcnnの能力を示す。 その結果, cnnは拡散予測と, 部分的に飽和した多孔質媒質中の相分布を記述する定型モデルとを簡便に融合させた。

In the past several years, convolutional neural networks (CNNs) have proven their capability to predict characteristic quantities in porous media research directly from pore-space geometries. Due to the frequently observed significant reduction in computation time in comparison to classical computational methods, bulk parameter prediction via CNNs is especially compelling, e.g. for effective diffusion. While the current literature is mainly focused on fully saturated porous media, the partially saturated case is also of high interest. Due to the qualitatively different and more complex geometries of the domain available for diffusive transport present in this case, standard CNNs tend to lose robustness and accuracy with lower saturation rates. In this paper, we demonstrate the ability of CNNs to perform predictions of relative diffusion directly from full pore-space geometries. As such, our CNN conveniently fuses diffusion prediction and a well-established morphological model which describes phase distributions in partially saturated porous media.
翻訳日:2022-08-09 14:12:48 公開日:2022-08-04
# 画像品質評価:画像歪みレベルをランク付けする学習

Image Quality Assessment: Learning to Rank Image Distortion Level ( http://arxiv.org/abs/2208.03317v1 )

ライセンス: Link先を確認
Shira Faigenbaum-Golovin, Or Shimshi(参考訳) 長年にわたり、人間の視覚システム(hvs)を模倣し、知覚画像の品質を評価する様々なアルゴリズムが開発されてきた。 しかし、特定の画像歪みに対して、hvsの機能は謎のままであり、その挙動を反響させる(特に不明確な歪み)ことは課題である。 本稿では,2つの登録画像の画質を,選択した歪みに対して比較する。 本手法は,画像の歪みをシミュレーションし,その相対的画質を評価することにより,絶対値を評価するよりも容易であることを示す。 したがって、一対の画像を与えられた場合、各画像を数値スコアにマッピングする最適次元還元関数を求め、そのスコアが画像品質の関係を反映する(つまり、より歪みの小さい画像は低いスコアを受け取る)。 我々は,画像品質秩序の違反を最小限に抑えるために,Deep Neural Networkという形で最適次元還元写像を求める。 その後、選択した歪みの予測レベルを利用して、画像の集合を注文するように拡張する。 本手法は,合成データおよび実データを用いた潜在色収差およびモアレ歪みに対する妥当性を示す。

Over the years, various algorithms were developed, attempting to imitate the Human Visual System (HVS), and evaluate the perceptual image quality. However, for certain image distortions, the functionality of the HVS continues to be an enigma, and echoing its behavior remains a challenge (especially for ill-defined distortions). In this paper, we learn to compare the image quality of two registered images, with respect to a chosen distortion. Our method takes advantage of the fact that at times, simulating image distortion and later evaluating its relative image quality, is easier than assessing its absolute value. Thus, given a pair of images, we look for an optimal dimensional reduction function that will map each image to a numerical score, so that the scores will reflect the image quality relation (i.e., a less distorted image will receive a lower score). We look for an optimal dimensional reduction mapping in the form of a Deep Neural Network which minimizes the violation of image quality order. Subsequently, we extend the method to order a set of images by utilizing the predicted level of the chosen distortion. We demonstrate the validity of our method on Latent Chromatic Aberration and Moire distortions, on synthetic and real datasets.
翻訳日:2022-08-09 13:55:32 公開日:2022-08-04
# 高強度領域における自己学習戦略と注意機構に基づく水中強化

Underwater enhancement based on a self-learning strategy and attention mechanism for high-intensity regions ( http://arxiv.org/abs/2208.03319v1 )

ライセンス: Link先を確認
Claudio D. Mello Jr., Bryan U. Moreira, Paulo J. O. Evald, Paulo L. Drews Jr., Silvia S. Botelho(参考訳) 水中活動中に取得した画像は、濁度や光減衰などの水の環境特性に悩まされる。 これらの現象は色歪み、ぼやけ、コントラスト減少を引き起こす。 さらに、不規則な周囲光の分布は、色チャネルのアンバランスと高強度画素の領域を引き起こす。 近年の水中画像強調や深層学習に基づく研究では、合成地対を生成するペアデータセットの欠如に対処している。 本稿では,組付きデータセットを必要としない深層学習に基づく水中画像強調のための自己教師あり学習手法を提案する。 提案手法は水中画像中の劣化を推定する。 さらに、オートエンコーダがこの画像を再構成し、推定劣化情報を用いて出力画像を劣化させる。 したがって、この戦略は、トレーニングフェーズ中の損失関数において、出力イメージを劣化バージョンに置き換える。 この手順 \textit{misleads} 追加の劣化を補償するために学習するニューラルネットワーク。 その結果、再構成画像は入力画像の強化版となる。 また,色チャネルアンバランスと外乱領域によって強調画像に生じる高強度領域を低減させるアテンションモジュールも提案する。 さらに,提案手法は根拠を必要としない。 また,実際の水中画像のみを用いてニューラルネットワークを訓練し,色保存,カラーキャスト低減,コントラスト改善の観点から,本手法の有効性を示した。

Images acquired during underwater activities suffer from environmental properties of the water, such as turbidity and light attenuation. These phenomena cause color distortion, blurring, and contrast reduction. In addition, irregular ambient light distribution causes color channel unbalance and regions with high-intensity pixels. Recent works related to underwater image enhancement, and based on deep learning approaches, tackle the lack of paired datasets generating synthetic ground-truth. In this paper, we present a self-supervised learning methodology for underwater image enhancement based on deep learning that requires no paired datasets. The proposed method estimates the degradation present in underwater images. Besides, an autoencoder reconstructs this image, and its output image is degraded using the estimated degradation information. Therefore, the strategy replaces the output image with the degraded version in the loss function during the training phase. This procedure \textit{misleads} the neural network that learns to compensate the additional degradation. As a result, the reconstructed image is an enhanced version of the input image. Also, the algorithm presents an attention module to reduce high-intensity areas generated in enhanced images by color channel unbalances and outlier regions. Furthermore, the proposed methodology requires no ground-truth. Besides, only real underwater images were used to train the neural network, and the results indicate the effectiveness of the method in terms of color preservation, color cast reduction, and contrast improvement.
翻訳日:2022-08-09 13:55:12 公開日:2022-08-04
# 設計者の要求の不確実性を管理するストックスプリング選択ツールの使用の利点

Advantages in Using a Stock Spring Selection Tool that Manages the Uncertainty of the Designer Requirements ( http://arxiv.org/abs/2208.03423v1 )

ライセンス: Link先を確認
Manuel Paredes (ICA), Marc Sartor (ICA), C\'edric Masclet (LGMT)(参考訳) 本稿では,設計要件の不確実性を管理するストックスプリング選択ツールの利点を分析する。 まず,手動検索とその主な欠点について述べる。 そして、データベース内から最も適したバネを抽出するために必要なすべての計算を行うコンピュータ支援ストックバネ選択ツールを示す。 本アルゴリズムは,マルチクリトリア解析とファジィ論理の両方を用いて,区間値のデータセットを解析する。 マニュアル検索とアシスト検索を比較した2つの例を示す。 彼らは、結果がアシスト検索の利用で著しく優れているだけでなく、設計者が簡単に正確に仕様を記述でき、それによって設計プロセスの柔軟性が向上することを示した。

This paper analyses the advantages of using a stock spring selection tool that manages the uncertainty of designer requirements. Firstly, the manual search and its main drawbacks are described. Then a computer assisted stock spring selection tool is presented which performs all necessary calculations to extract the most suitable spring from within a database. The algorithm analyses data set with interval values using both multi-criteria analysis and fuzzy logic. Two examples, comparing manual and assisted search, are presented. They show not only that the results are significantly better using the assisted search but it helps designers to detail easily and precisely their specifications and thus increase design process flexibility.
翻訳日:2022-08-09 13:08:35 公開日:2022-08-04
# GREASE:GNNベースの勧告のための実例と実例を生成

GREASE: Generate Factual and Counterfactual Explanations for GNN-based Recommendations ( http://arxiv.org/abs/2208.04222v1 )

ライセンス: Link先を確認
Ziheng Chen, Fabrizio Silvestri, Jia Wang, Yongfeng Zhang, Zhenhua Huang, Hongshik Ahn, Gabriele Tolomei(参考訳) 近年,グラフニューラルネットワーク(GNN)は,提案システムの成功に広く利用されている。 しかし,GNNベースのレコメンデータシステムでは,特定の項目がユーザの提案リストに表示される理由について,具体的な説明を付けることは極めて困難である。 実際、GNNに基づくレコメンデーションの説明はユニークであり、既存のGNN説明法は2つの理由から不適切である。 まず、従来のGNN説明法は、推薦システムのように、ランキングではなくノード、エッジ、グラフ分類タスク用に設計されている。 第二に、標準的な機械学習の説明は通常、熟練した意思決定者をサポートすることを意図している。 代わりに、レコメンデーションはあらゆるエンドユーザ向けに設計されているため、その説明はユーザ理解可能な方法で提供されるべきである。 本稿では,ブラックボックスGNNベースのレコメンデーションシステムにおいて提案される提案を説明する新しい手法であるGREASEを提案する。 具体的には、GREASEはまず、ターゲットのユーザとイタムのペアと、その$l$-hop地区で代理モデルを訓練する。 そして,提案する項目の適切な条件と必要な条件をそれぞれ把握するために最適な隣接行列摂動を求めることにより,事実と反事実の両方の説明を生成する。 実世界のデータセットで行った実験結果から、GREASEは人気のあるGNNベースのレコメンデータモデルに対して簡潔で効果的な説明を生成できることが示された。

Recently, graph neural networks (GNNs) have been widely used to develop successful recommender systems. Although powerful, it is very difficult for a GNN-based recommender system to attach tangible explanations of why a specific item ends up in the list of suggestions for a given user. Indeed, explaining GNN-based recommendations is unique, and existing GNN explanation methods are inappropriate for two reasons. First, traditional GNN explanation methods are designed for node, edge, or graph classification tasks rather than ranking, as in recommender systems. Second, standard machine learning explanations are usually intended to support skilled decision-makers. Instead, recommendations are designed for any end-user, and thus their explanations should be provided in user-understandable ways. In this work, we propose GREASE, a novel method for explaining the suggestions provided by any black-box GNN-based recommender system. Specifically, GREASE first trains a surrogate model on a target user-item pair and its $l$-hop neighborhood. Then, it generates both factual and counterfactual explanations by finding optimal adjacency matrix perturbations to capture the sufficient and necessary conditions for an item to be recommended, respectively. Experimental results conducted on real-world datasets demonstrate that GREASE can generate concise and effective explanations for popular GNN-based recommender models.
翻訳日:2022-08-09 12:50:24 公開日:2022-08-04
# SA-NET.v2: 深層メタラーニングにおける不確実性推定を用いた斜めUAV画像からのリアルタイム車両検出

SA-NET.v2: Real-time vehicle detection from oblique UAV images with use of uncertainty estimation in deep meta-learning ( http://arxiv.org/abs/2208.04190v1 )

ライセンス: Link先を確認
Mehdi Khoshboresh-Masouleh and Reza Shah-Hosseini(参考訳) 近年、無人航空機(UAV)イメージングは、都市規模での様々な車両のリアルタイム監視に適した解決策となっている。 ポータブルプラットフォーム(例えば、uav)のための深層メタラーニングにおける不確実性推定を用いたリアルタイム車両検出は、小さなトレーニングデータセットで実世界のアプリケーションにおけるビデオ理解を改善する可能性があるが、多くの車両監視アプローチは、大きなトレーニングデータセットでシングルタイム検出を理解するように見える。 斜めUAV画像からのリアルタイム車両検出の目的は、セマンティックセグメンテーションを用いて時系列UAV画像上の車両を特定することである。 斜視UAV画像の深度やスケールの多様性のため、リアルタイム車両検出はより困難である。 これらの事実に動機づけられた本書では,小型のトレーニングデータセットと深層メタラーニングに基づく斜めuav画像のリアルタイム車両検出の問題について考察する。 提案アーキテクチャはSA-Net.v2と呼ばれ,SA-CNNをベースとした圧縮・保持機構を改良したリアルタイム車両検出手法である。 SA-Net.v2は2つのコンポーネントで構成されており、小さなトレーニングデータセットに基づいて高レベルの特徴を抽出する圧縮&アテンション機能と、ゲートCNNである。 リアルタイム車両検出のシナリオでは、UAVidデータセット上でモデルをテストします。 UAVidは30のビデオシーケンスからなる時系列の斜めUAV画像データセットである。 時系列uav画像を用いた都市環境におけるリアルタイム車両検出手法の適用性について検討した。 実験により、SA-Net.v2は、時系列の斜めUAV画像において有望な性能を達成することが示された。

In recent years, unmanned aerial vehicle (UAV) imaging is a suitable solution for real-time monitoring different vehicles on the urban scale. Real-time vehicle detection with the use of uncertainty estimation in deep meta-learning for the portable platforms (e.g., UAV) potentially improves video understanding in real-world applications with a small training dataset, while many vehicle monitoring approaches appear to understand single-time detection with a big training dataset. The purpose of real-time vehicle detection from oblique UAV images is to locate the vehicle on the time series UAV images by using semantic segmentation. Real-time vehicle detection is more difficult due to the variety of depth and scale vehicles in oblique view UAV images. Motivated by these facts, in this manuscript, we consider the problem of real-time vehicle detection for oblique UAV images based on a small training dataset and deep meta-learning. The proposed architecture, called SA-Net.v2, is a developed method based on the SA-CNN for real-time vehicle detection by reformulating the squeeze-and-attention mechanism. The SA-Net.v2 is composed of two components, including the squeeze-and-attention function that extracts the high-level feature based on a small training dataset, and the gated CNN. For the real-time vehicle detection scenario, we test our model on the UAVid dataset. UAVid is a time series oblique UAV images dataset consisting of 30 video sequences. We examine the proposed method's applicability for stand real-time vehicle detection in urban environments using time series UAV images. The experiments show that the SA-Net.v2 achieves promising performance in time series oblique UAV images.
翻訳日:2022-08-09 12:46:45 公開日:2022-08-04
# 移動・マルチタスク・メタラーニングシステム間の同型性

Homomorphisms Between Transfer, Multi-Task, and Meta-Learning Systems ( http://arxiv.org/abs/2208.03316v1 )

ライセンス: Link先を確認
Tyler Cody(参考訳) 伝達学習、マルチタスク学習、メタ学習は、学習課題間の知識の一般化に関するよく研究された話題であり、一般知能と密接に関連している。 しかし、それらの間の形式的、一般的なシステムの違いは、文献で過小評価されている。 このシステムレベルの形式主義の欠如は、関連する分野間エンジニアリングの取り組みの調整を困難にする。 本写本は,メサロビックと高原の形式的ミニマリスト抽象システム理論と整合して,伝達学習,マルチタスク学習,メタラーニングを抽象学習システムとして定式化する。 さらに、構成、階層、構造準同型の観点で学習の3つの概念を関連付けるために提示された形式主義を用いる。 発見は入力出力システムという観点で容易に表現され、転送、マルチタスク、メタラーニングの間の形式的、一般的なシステムの違いを記述しやすくする。

Transfer learning, multi-task learning, and meta-learning are well-studied topics concerned with the generalization of knowledge across learning tasks and are closely related to general intelligence. But, the formal, general systems differences between them are underexplored in the literature. This lack of systems-level formalism leads to difficulties in coordinating related, inter-disciplinary engineering efforts. This manuscript formalizes transfer learning, multi-task learning, and meta-learning as abstract learning systems, consistent with the formal-minimalist abstract systems theory of Mesarovic and Takahara. Moreover, it uses the presented formalism to relate the three concepts of learning in terms of composition, hierarchy, and structural homomorphism. Findings are readily depicted in terms of input-output systems, highlighting the ease of delineating formal, general systems differences between transfer, multi-task, and meta-learning.
翻訳日:2022-08-09 12:43:34 公開日:2022-08-04
# 造語による画像生成に対する敵対的攻撃

Adversarial Attacks on Image Generation With Made-Up Words ( http://arxiv.org/abs/2208.04135v1 )

ライセンス: Link先を確認
Rapha\"el Milli\`ere(参考訳) テキスト誘導画像生成モデルは、特定の視覚概念を強固に誘発するように設計されたナンスワードを用いて画像を生成するよう促すことができる。 このような生成のための2つのアプローチが紹介されている: macaronic promptingは、異なる言語からのサブワードユニットを結合して、暗号的なハイブリッドワードを設計すること、そしてエボレーティブプロンプトは、既存の単語と十分に類似した形態的特徴を持つナンスワードをデザインすることで、堅牢な視覚関連を引き起こす。 2つの手法を組み合わせることで、より特定の視覚概念に関連する画像を生成することもできる。 コンテンツモデレーションへの既存のアプローチ,特に攻撃的あるいは有害な画像の生成を回避するために,これらの手法がもたらす意味について論じる。

Text-guided image generation models can be prompted to generate images using nonce words adversarially designed to robustly evoke specific visual concepts. Two approaches for such generation are introduced: macaronic prompting, which involves designing cryptic hybrid words by concatenating subword units from different languages; and evocative prompting, which involves designing nonce words whose broad morphological features are similar enough to that of existing words to trigger robust visual associations. The two methods can also be combined to generate images associated with more specific visual concepts. The implications of these techniques for the circumvention of existing approaches to content moderation, and particularly the generation of offensive or harmful images, are discussed.
翻訳日:2022-08-09 12:15:53 公開日:2022-08-04
# HPO:二度と騙されることはない

HPO: We won't get fooled again ( http://arxiv.org/abs/2208.03320v1 )

ライセンス: Link先を確認
Kalifou Ren\'e Traor\'e, Andr\'es Camero, Xiao Xiang Zhu(参考訳) ハイパーパラメータ最適化(hpo)はよく研究されている研究分野である。 しかし,HPOパイプラインにおける成分の影響と相互作用については,まだ十分に研究されていない。 HPOの状況は、個々の構成を評価するのに使用されるパイプラインに偏っているのでしょうか? そこで我々は,HPOパイプラインがHPO問題に与える影響をフィットネスランドスケープ解析を用いて解析することを提案した。 特に,DS-2019HPOベンチマークデータセットについて検討し,評価パイプラインの故障を示すパターンとHPO性能との関連性を検討した。 私たちの主な発見は (i)ほとんどの例において、多種多様なハイパーパラメータ(例えば、複数の構成)の大きな集団は、おそらく多数派クラスの予測モデルに関連し、同じ悪質な性能をもたらす。 (II) この場合, 周辺地域における観察されたフィットネスと平均フィットネスの相関関係が悪化し, 地域探索に基づくHPO戦略の展開が困難になる可能性がある。 最後に,HPOパイプラインの定義がHPOの景観に悪影響を及ぼす可能性が示唆された。

Hyperparameter optimization (HPO) is a well-studied research field. However, the effects and interactions of the components in an HPO pipeline are not yet well investigated. Then, we ask ourselves: can the landscape of HPO be biased by the pipeline used to evaluate individual configurations? To address this question, we proposed to analyze the effect of the HPO pipeline on HPO problems using fitness landscape analysis. Particularly, we studied the DS-2019 HPO benchmark data set, looking for patterns that could indicate evaluation pipeline malfunction, and relate them to HPO performance. Our main findings are: (i) In most instances, large groups of diverse hyperparameters (i.e., multiple configurations) yield the same ill performance, most likely associated with majority class prediction models; (ii) in these cases, a worsened correlation between the observed fitness and average fitness in the neighborhood is observed, potentially making harder the deployment of local-search based HPO strategies. Finally, we concluded that the HPO pipeline definition might negatively affect the HPO landscape.
翻訳日:2022-08-09 12:15:36 公開日:2022-08-04
# 高速かつ通信効率の良い分散学習のための適応確率勾配決定

Adaptive Stochastic Gradient Descent for Fast and Communication-Efficient Distributed Learning ( http://arxiv.org/abs/2208.03134v1 )

ライセンス: Link先を確認
Serge Kas Hanna and Rawad Bitar and Parimal Parag and Venkat Dasari and Salim El Rouayheb(参考訳) 我々は、マスターが分散確率勾配勾配(SGD)アルゴリズムを$n$ワーカー上で実行したい場合、それぞれがデータのサブセットを持っていることを考察する。 分散SGDは、遅延を引き起こす遅い労働者や非応答労働者の影響に悩まされることがある。 文献で研究されている解決策の1つは、モデルを更新する前に、最速の$k<n$ワーカーのレスポンスを各イテレーションで待機することである。 k$の値の選択は、SGDのランタイム(つまり収束率)とモデルのエラーの間のトレードオフを示す。 エラー実行時のトレードオフを最適化するために,アルゴリズムの実行時間を通じて,分散SGDを適応〜$k$,すなわち,$k$の変化で調べる。 我々はまず,壁面時間関数としてエラーの上限値に基づいて,このトレードオフを最適化する,様々な$k$の適応ポリシーを設計する。 そこで我々は,統計的ヒューリスティックに基づく適応分散SGDのアルゴリズムを提案し,実装する。 その結果,分散SGDの適応バージョンは,非適応実装と比較して少ない時間で低い誤差値が得られることがわかった。 さらに、適応版は通信効率が良く、マスターとワーカ間の通信に必要な量は非適応版よりも少ないことを示した。

We consider the setting where a master wants to run a distributed stochastic gradient descent (SGD) algorithm on $n$ workers, each having a subset of the data. Distributed SGD may suffer from the effect of stragglers, i.e., slow or unresponsive workers who cause delays. One solution studied in the literature is to wait at each iteration for the responses of the fastest $k<n$ workers before updating the model, where $k$ is a fixed parameter. The choice of the value of $k$ presents a trade-off between the runtime (i.e., convergence rate) of SGD and the error of the model. Towards optimizing the error-runtime trade-off, we investigate distributed SGD with adaptive~$k$, i.e., varying $k$ throughout the runtime of the algorithm. We first design an adaptive policy for varying $k$ that optimizes this trade-off based on an upper bound on the error as a function of the wall-clock time that we derive. Then, we propose and implement an algorithm for adaptive distributed SGD that is based on a statistical heuristic. Our results show that the adaptive version of distributed SGD can reach lower error values in less time compared to non-adaptive implementations. Moreover, the results also show that the adaptive version is communication-efficient, where the amount of communication required between the master and the workers is less than that of non-adaptive versions.
翻訳日:2022-08-08 13:19:54 公開日:2022-08-04
# ホテルの動的価格予測のための価格弾力性モデリングに関する研究

Research: Modeling Price Elasticity for Occupancy Prediction in Hotel Dynamic Pricing ( http://arxiv.org/abs/2208.03135v1 )

ライセンス: Link先を確認
Fanwei Zhu, Wendong Xiao, Yao Yu, Ziyi Wang, Zulong Chen, Quan Lu, Zemin Liu, Minghui Wu and Shenghua Ni(参考訳) 需要推定は、需要曲線に基づいて収益を最大化することで最適な価格が得られる動的価格決定において重要な役割を果たす。 オンラインホテル予約プラットフォームでは、部屋の需要や占有状況は部屋の種類によって異なり、時間とともに変化するため、正確な入室推定を得ることは困難である。 そこで本稿では,利用者予測のための需要の価格弾性を明示的にモデル化し,様々な要因から動的価格弾性係数を学習するための価格弾性予測モデルを設計するホテル需要関数を提案する。 本モデルは,内在性問題を軽減するために慎重に設計された弾力性学習モジュールで構成され,データスパースネスに取り組むためにマルチタスクフレームワークで訓練されている。 実世界のデータセットに関する包括的実験を行い、占有率予測と動的価格の両面において、最先端のベースラインよりも手法の優位性を検証した。

Demand estimation plays an important role in dynamic pricing where the optimal price can be obtained via maximizing the revenue based on the demand curve. In online hotel booking platform, the demand or occupancy of rooms varies across room-types and changes over time, and thus it is challenging to get an accurate occupancy estimate. In this paper, we propose a novel hotel demand function that explicitly models the price elasticity of demand for occupancy prediction, and design a price elasticity prediction model to learn the dynamic price elasticity coefficient from a variety of affecting factors. Our model is composed of carefully designed elasticity learning modules to alleviate the endogeneity problem, and trained in a multi-task framework to tackle the data sparseness. We conduct comprehensive experiments on real-world datasets and validate the superiority of our method over the state-of-the-art baselines for both occupancy prediction and dynamic pricing.
翻訳日:2022-08-08 13:19:32 公開日:2022-08-04
# 非定常連続帯域を持つ模擬市場における取引アルゴリズムの学習

Learning the Trading Algorithm in Simulated Markets with Non-stationary Continuum Bandits ( http://arxiv.org/abs/2208.02901v1 )

ライセンス: Link先を確認
Bingde Liu(参考訳) 基本的なマルチアームバンディット(mabs)問題は、有限個の試みしかできないので、異なるアームを引っ張るための支払いの未知の確率分布を持つバンディットから得られる報酬を最大化することである。 市場におけるトレーディングアルゴリズムの研究において,MABs問題,すなわちNon-stationary Continuum Bandits(NCBs)問題の最も複雑なバリエーションの1つについて検討している。 ブリストル証券取引所(BSE)は、リミットオーダーブックを通した継続的な二重オークションに基づく電子金融取引の単純なシミュレーションである。 マーケットには、異なる取引アルゴリズムを持つ自動トレーダエージェントが住んでいる。 その内、PRSHアルゴリズムはNCBの問題を解決するための基本的なアイデアを具現化している。 しかし、ハイパーパラメータの調整や複雑な市場環境の変化への対応が困難である。 ベイズ最適化により連続バンディット問題を解き、非定常バンディット問題を新しい「バンディットオーバーバンディット」フレームワークで解くprbと呼ばれる新しいアルゴリズムを提案する。 BSEでは、2つの異なる市場ダイナミクスの下で実際の市場環境をシミュレートするために、できるだけ多くの種類のトレーダーエージェントを使用します。 次に,PRSHアルゴリズムとPRBアルゴリズムの最適ハイパーパラメータを,それぞれ異なる市場ダイナミクスの下で検討する。 最後に,両アルゴリズムを用いたトレーダエージェントを同時に市場で取引させることにより,prbアルゴリズムが,両市場ダイナミクス下のprshアルゴリズムよりも優れた性能を示す。 特に,実験結果の正確性を確保するため,厳密な仮説テストを実施している。

The basic Multi-Armed Bandits (MABs) problem is trying to maximize the rewards obtained from bandits with different unknown probability distributions of payoff for pulling different arms, given that only a finite number of attempts can be made. When studying trading algorithms in the market, we are looking at one of the most complex variants of MABs problems, namely the Non-stationary Continuum Bandits (NCBs) problem. The Bristol Stock Exchange (BSE) is a simple simulation of an electronic financial exchange based on a continuous double auction running via a limit order book. The market can be populated by automated trader agents with different trading algorithms. Within them, the PRSH algorithm embodies some basic ideas for solving NCBs problems. However, it faces the difficulty to adjust hyperparameters and adapt to changes in complex market conditions. We propose a new algorithm called PRB, which solves Continuum Bandits problem by Bayesian optimization, and solves Non-stationary Bandits problem by a novel "bandit-over-bandit" framework. With BSE, we use as many kinds of trader agents as possible to simulate the real market environment under two different market dynamics. We then examine the optimal hyperparameters of the PRSH algorithm and the PRB algorithm under different market dynamics respectively. Finally, by having trader agents using both algorithms trade in the market at the same time, we demonstrate that the PRB algorithm has better performance than the PRSH algorithm under both market dynamics. In particular, we perform rigorous hypothesis testing on all experimental results to ensure their correctness.
翻訳日:2022-08-08 13:18:46 公開日:2022-08-04
# エンジニアリング・ジェネラルインテリジェンスのためのクローズドシステムとしてのコアと周辺

Core and Periphery as Closed-System Precepts for Engineering General Intelligence ( http://arxiv.org/abs/2208.02837v1 )

ライセンス: Link先を確認
Tyler Cody, Niloofar Shadab, Alejandro Salado, Peter Beling(参考訳) エンジニアリングの手法は、コンポーネントのインプットとアウトプットを分割してコンポーネントレベルのプロパティを構成後に保持する従来の分解と再結合の概念を中心にしている。 しかし、人工知能(AI)では、システムは環境に影響を与え、環境によって自分自身に影響を与えることがしばしば期待されている。 したがって、AIシステムの入力が出力から独立しているかどうかは不明であり、従ってAIシステムが従来のコンポーネントとして扱われるかどうかは不明である。 本稿では, 工学的汎用知能は, コアと周辺と呼ばれる新しい一般的システム規範を必要とし, その理論的利用を探求する。 新たな戒律は、抽象システム理論と必須変量法を用いて詳述される。 提示された資料を使用することで、AIの成果を規制してステークホルダーのニーズを達成するという一般的な特徴と、エンボディメントの一般的なシステム特性が従来のエンジニアリングプラクティスにどのように挑戦するかをより理解することができる。

Engineering methods are centered around traditional notions of decomposition and recomposition that rely on partitioning the inputs and outputs of components to allow for component-level properties to hold after their composition. In artificial intelligence (AI), however, systems are often expected to influence their environments, and, by way of their environments, to influence themselves. Thus, it is unclear if an AI system's inputs will be independent of its outputs, and, therefore, if AI systems can be treated as traditional components. This paper posits that engineering general intelligence requires new general systems precepts, termed the core and periphery, and explores their theoretical uses. The new precepts are elaborated using abstract systems theory and the Law of Requisite Variety. By using the presented material, engineers can better understand the general character of regulating the outcomes of AI to achieve stakeholder needs and how the general systems nature of embodiment challenges traditional engineering practice.
翻訳日:2022-08-08 13:12:09 公開日:2022-08-04
# Decision SincNet: 神経信号から認知過程を予測する意思決定の神経認知モデル

Decision SincNet: Neurocognitive models of decision making that predict cognitive processes from neural signals ( http://arxiv.org/abs/2208.02845v1 )

ライセンス: Link先を確認
Qinhua Jenny Sun, Khuong Vo, Kitty Lui, Michael Nunez, Joachim Vandekerckhove, Ramesh Srinivasan(参考訳) 人間の意思決定行動は、心理実験中に選択応答時間データによって観察される。 このデータのドリフト拡散モデルは、ウィナー第一通過時間(WFPT)分布からなり、ドリフト率、境界分離、出発点といった認知的パラメータによって記述される。 これらの推定パラメータは、意思決定(スピード、注意、偏見など)の認知過程の特徴にマッピングでき、脳の活動に関連するため、神経科学者にとって関心がある。 観察されたRTのパターンは、神経力学を介する試験から試験までの認知過程の変動も反映している。 実験毎に脳波信号を用いたドリフト拡散モデルに適合するように,sincnetを用いた浅層ニューラルネットワークアーキテクチャを適用した。 このモデルは、sincnet層と、深さ方向の空間畳み込み層と、2つの別々のfc層で構成され、各トライアルインパラレルのドリフトレートと境界を予測する。 SincNet層は、EEGデータに適用された帯域通過フィルタの低および高カットオフ周波数を直接学習し、ドリフトと境界パラメータを予測するためにカーネルをパラメータ化した。 トレーニング中のモデルパラメータは、試行RTが与えられたWFPT分布の負の対数確率関数を最小化することにより更新された。 我々は,2段階の強制選択作業を行う参加者毎に,SincNetモデルを別々に開発した。 以上の結果から,ドリフトとバウンダリの単心的推定はトレーニングおよびテストデータセットの中央値よりもRTの予測に優れており,脳波の特徴を用いて有意な単心的拡散モデルパラメータを推定できることが示唆された。 さらに、浅いSincNetアーキテクチャは、証拠の蓄積と注意に関連する情報処理の時間ウィンドウと、各参加者内のこれらのプロセスを反映する脳波周波数帯域を特定した。

Human decision making behavior is observed with choice-response time data during psychological experiments. Drift-diffusion models of this data consist of a Wiener first-passage time (WFPT) distribution and are described by cognitive parameters: drift rate, boundary separation, and starting point. These estimated parameters are of interest to neuroscientists as they can be mapped to features of cognitive processes of decision making (such as speed, caution, and bias) and related to brain activity. The observed patterns of RT also reflect the variability of cognitive processes from trial to trial mediated by neural dynamics. We adapted a SincNet-based shallow neural network architecture to fit the Drift-Diffusion model using EEG signals on every experimental trial. The model consists of a SincNet layer, a depthwise spatial convolution layer, and two separate FC layers that predict drift rate and boundary for each trial in-parallel. The SincNet layer parametrized the kernels in order to directly learn the low and high cutoff frequencies of bandpass filters that are applied to the EEG data to predict drift and boundary parameters. During training, model parameters were updated by minimizing the negative log likelihood function of WFPT distribution given trial RT. We developed separate decision SincNet models for each participant performing a two-alternative forced-choice task. Our results showed that single-trial estimates of drift and boundary performed better at predicting RTs than the median estimates in both training and test data sets, suggesting that our model can successfully use EEG features to estimate meaningful single-trial Diffusion model parameters. Furthermore, the shallow SincNet architecture identified time windows of information processing related to evidence accumulation and caution and the EEG frequency bands that reflect these processes within each participant.
翻訳日:2022-08-08 13:10:12 公開日:2022-08-04
# 強化学習型ワークフローによる顕微鏡化に向けて

Towards Augmented Microscopy with Reinforcement Learning-Enhanced Workflows ( http://arxiv.org/abs/2208.02865v1 )

ライセンス: Link先を確認
Michael Xu, Abinash Kumar, and James M. LeBeau(参考訳) 本稿では,走査型透過電子顕微鏡(STEM)ワークフローにおける動作を自動化するための強化学習(RL)の実装事例について報告する。 そこで我々は、電子ビームを事前の知識なく自律的に整列させるネットワークをテスト・開発するための仮想プロトタイプRL環境を設計する。 このシミュレータを用いて,環境設計とアルゴリズムハイパーパラメータがアライメント精度と学習収束に与える影響を評価し,広い超パラメータ空間におけるロバスト収束を示す。 さらに,そのアプローチを検証し,適切な仮想環境を設計する価値を示すために,顕微鏡上で成功したモデルを展開する。 シミュレーション結果と一致して,オンスコープrlモデルは最小トレーニング後に目標アライメントへの収束を実現する。 総じて、rlを活用することで、広範囲なアルゴリズム設計を必要とせずに顕微鏡操作を自動化し、電子顕微鏡を機械学習手法で強化するための新たな一歩を踏み出すことができることを強調する。

Here, we report a case study implementation of reinforcement learning (RL) to automate operations in the scanning transmission electron microscopy (STEM) workflow. To do so, we design a virtual, prototypical RL environment to test and develop a network to autonomously align the electron beam without prior knowledge. Using this simulator, we evaluate the impact of environment design and algorithm hyperparameters on alignment accuracy and learning convergence, showing robust convergence across a wide hyperparameter space. Additionally, we deploy a successful model on the microscope to validate the approach and demonstrate the value of designing appropriate virtual environments. Consistent with simulated results, the on-microscope RL model achieves convergence to the goal alignment after minimal training. Overall, the results highlight that by taking advantage of RL, microscope operations can be automated without the need for extensive algorithm design, taking another step towards augmenting electron microscopy with machine learning methods.
翻訳日:2022-08-08 13:09:42 公開日:2022-08-04
# GNN4REL:回路信頼性劣化予測のためのグラフニューラルネットワーク

GNN4REL: Graph Neural Networks for Predicting Circuit Reliability Degradation ( http://arxiv.org/abs/2208.02868v1 )

ライセンス: Link先を確認
Lilas Alrahis, Johann Knechtel, Florian Klemme, Hussam Amrouch, Ozgur Sinanoglu(参考訳) プロセスの変化とデバイスの老化は、回路設計者にとって重大な課題となる。 回路経路の遅延に対する変動の影響を正確に把握しなければ、タイミング違反を許容するガードバンドを正確に推定することはできない。 この問題は、トランジスタの寸法が原子レベルに達し、確立されたマージンが厳しく制約される先進技術ノードにおいて悪化する。 したがって、従来の最悪のケース分析は実用的ではなくなり、結果として耐え難いパフォーマンスオーバーヘッドが発生する。 逆に、プロセス変数/エイジングアウェア静的タイミング分析(sta)は、正確な統計遅延分布を設計者に供給する。 小さなが十分であるタイミングガードバンドを効果的に推定することができる。 しかし、このような分析はモンテカルロシミュレーションを必要とするためコストがかかる。 さらに、STAに必要な標準セルライブラリを生成するために、機密物理学ベースの老化モデルにアクセスする必要がある。 本研究では,回路内の任意の経路の遅延に対するプロセス変動とデバイス老化の影響を正確に推定するために,グラフニューラルネットワーク(GNN)を用いる。 提案するGNN4RELフレームワークは,トランジスタモデルや標準セルライブラリ,さらにはSTAへのアクセスなしに,設計者が迅速かつ正確な信頼性評価を行うことを可能にする。 特に、GNN4RELは工業用14nm計測データに対して校正されたFinFET技術モデルで訓練されている。 epflとitc-99ベンチマーク、およびrisc-vプロセッサの広範な実験を通じて、すべてのパス(特に数秒以内)の遅延劣化を平均的な絶対誤差0.01ポイントまで見積もることに成功した。

Process variations and device aging impose profound challenges for circuit designers. Without a precise understanding of the impact of variations on the delay of circuit paths, guardbands, which keep timing violations at bay, cannot be correctly estimated. This problem is exacerbated for advanced technology nodes, where transistor dimensions reach atomic levels and established margins are severely constrained. Hence, traditional worst-case analysis becomes impractical, resulting in intolerable performance overheads. Contrarily, process-variation/aging-aware static timing analysis (STA) equips designers with accurate statistical delay distributions. Timing guardbands that are small, yet sufficient, can then be effectively estimated. However, such analysis is costly as it requires intensive Monte-Carlo simulations. Further, it necessitates access to confidential physics-based aging models to generate the standard-cell libraries required for STA. In this work, we employ graph neural networks (GNNs) to accurately estimate the impact of process variations and device aging on the delay of any path within a circuit. Our proposed GNN4REL framework empowers designers to perform rapid and accurate reliability estimations without accessing transistor models, standard-cell libraries, or even STA; these components are all incorporated into the GNN model via training by the foundry. Specifically, GNN4REL is trained on a FinFET technology model that is calibrated against industrial 14nm measurement data. Through our extensive experiments on EPFL and ITC-99 benchmarks, as well as RISC-V processors, we successfully estimate delay degradations of all paths -- notably within seconds -- with a mean absolute error down to 0.01 percentage points.
翻訳日:2022-08-08 13:09:26 公開日:2022-08-04
# 3次元CTスキャンによる新型ウイルスの分類とセグメンテーション

A Novel Automated Classification and Segmentation for COVID-19 using 3D CT Scans ( http://arxiv.org/abs/2208.02910v1 )

ライセンス: Link先を確認
Shiyi Wang, Guang Yang(参考訳) 深層学習(DL)に基づく医用画像分類とセグメンテーションは、現在のCOVID-19の状況で異なるウイルスを診断するための緊急研究課題である。 肺のct画像では、グラウンドグラスの濁度が専門的な診断を必要とする最も一般的な発見である。 このような状況から,専門知識の欠如による専門的診断専門医の代替となるDLモデルを提案する研究者もいる。 しかし, DL法は医用画像処理において優れた性能を示すが, 人体レベルでの診断精度の向上には, 限られたデータセットが課題となる。 さらに、深層学習アルゴリズムは、医療画像の3次元または複数次元の分類と分割、高い精度を維持するという課題に直面している。 その結果,高レベルの精度で患者のCT像を正常,肺炎,COVIDの3種類に分類することができた。 その後、2つのデータセットがセグメンテーションに使用され、1つのデータセットは限られた量のデータしか持たない(20ケース)。 本システムでは,分類モデルとセグメンテーションモデルを組み合わせて,resnet50と3d u-netアルゴリズムに基づいて完全に統合された診断モデルを構築した。 異なるデータセットを供給することにより、感染地域の新型コロナウイルス画像分割を分類結果に従って実施する。 本モデルは, 肺病変の分類において94.52%の精度を, 新型コロナウイルス, 肺炎, 正常の3種類で達成する。 将来的には、このモデルを医療施設に埋め込むことは、医師の診断支援や代替の効率的な方法となり得るため、新型コロナウイルスの状況における変異型ウイルスの問題をより広範囲に解決することができる。

Medical image classification and segmentation based on deep learning (DL) are emergency research topics for diagnosing variant viruses of the current COVID-19 situation. In COVID-19 computed tomography (CT) images of the lungs, ground glass turbidity is the most common finding that requires specialist diagnosis. Based on this situation, some researchers propose the relevant DL models which can replace professional diagnostic specialists in clinics when lacking expertise. However, although DL methods have a stunning performance in medical image processing, the limited datasets can be a challenge in developing the accuracy of diagnosis at the human level. In addition, deep learning algorithms face the challenge of classifying and segmenting medical images in three or even multiple dimensions and maintaining high accuracy rates. Consequently, with a guaranteed high level of accuracy, our model can classify the patients' CT images into three types: Normal, Pneumonia and COVID. Subsequently, two datasets are used for segmentation, one of the datasets even has only a limited amount of data (20 cases). Our system combined the classification model and the segmentation model together, a fully integrated diagnostic model was built on the basis of ResNet50 and 3D U-Net algorithm. By feeding with different datasets, the COVID image segmentation of the infected area will be carried out according to classification results. Our model achieves 94.52% accuracy in the classification of lung lesions by 3 types: COVID, Pneumonia and Normal. For future medical use, embedding the model into the medical facilities might be an efficient way of assisting or substituting doctors with diagnoses, therefore, a broader range of the problem of variant viruses in the COVID-19 situation may also be successfully solved.
翻訳日:2022-08-08 13:06:46 公開日:2022-08-04
# 深部拘束型ガウスネットワークによる無監督組織分節化

Unsupervised Tissue Segmentation via Deep Constrained Gaussian Network ( http://arxiv.org/abs/2208.02912v1 )

ライセンス: Link先を確認
Yang Nan, Peng Tang, Guyue Zhang, Caihong Zeng, Zhihong Liu, Zhifan Gao, Heye Zhang, Guang Yang(参考訳) 組織分節は病理検査のメインステイであり,手指の脱線は異常に重大である。 この時間を要する主観的な手作業を支援するため、病理画像に自動的に構造を分割する方法が考案された。 近年,自動機械と深層学習に基づく手法が組織分節研究の主流となっている。 しかし、ほとんどの機械学習およびディープラーニングベースのアプローチは、大量のトレーニングサンプルを使用して教師と開発が行われており、ピクセル単位のアノテーションは高価であり、時には入手できないことがある。 本稿では,エンド・ツー・エンドの深層混合モデルと制約付き指標を統合し,正確な意味的組織区分を得る新しい教師なし学習パラダイムを提案する。 この制約は、最適化関数の計算中に深い混合モデルの成分を集中化することを目的としている。 そのため、現在の教師なし学習手法で一般的な冗長クラスや空クラスの問題を大幅に削減することができる。 パブリックデータセットと社内データセットの検証により、提案した深い制約付きガウスネットワークは、他の非教師なしセグメンテーションアプローチと比較して、組織セグメンテーションにおけるパフォーマンス(それぞれ平均Diceスコア0.737と0.735)が、安定性と堅牢性で向上した。 さらに,提案手法はu-netと同等の性能(p-value > 0.05)を示す。

Tissue segmentation is the mainstay of pathological examination, whereas the manual delineation is unduly burdensome. To assist this time-consuming and subjective manual step, researchers have devised methods to automatically segment structures in pathological images. Recently, automated machine and deep learning based methods dominate tissue segmentation research studies. However, most machine and deep learning based approaches are supervised and developed using a large number of training samples, in which the pixelwise annotations are expensive and sometimes can be impossible to obtain. This paper introduces a novel unsupervised learning paradigm by integrating an end-to-end deep mixture model with a constrained indicator to acquire accurate semantic tissue segmentation. This constraint aims to centralise the components of deep mixture models during the calculation of the optimisation function. In so doing, the redundant or empty class issues, which are common in current unsupervised learning methods, can be greatly reduced. By validation on both public and in-house datasets, the proposed deep constrained Gaussian network achieves significantly (Wilcoxon signed-rank test) better performance (with the average Dice scores of 0.737 and 0.735, respectively) on tissue segmentation with improved stability and robustness, compared to other existing unsupervised segmentation approaches. Furthermore, the proposed method presents a similar performance (p-value > 0.05) compared to the fully supervised U-Net.
翻訳日:2022-08-08 13:06:21 公開日:2022-08-04
# クリエイティブ・ワンド:コクレーティブ・セッティングにおけるコミュニケーションの効果を研究するシステム

Creative Wand: A System to Study Effects of Communications in Co-Creative Settings ( http://arxiv.org/abs/2208.02886v1 )

ライセンス: Link先を確認
Zhiyu Lin, Rohan Agarwal, Mark Riedl(参考訳) 近年のニューラルジェネレーションシステムは、ゲームコンテンツ、画像、ストーリー等を手続き的に生成する可能性を実証している。 しかしながら、ほとんどのニューラル生成アルゴリズムは、ユーザーが初期プロンプト仕様を超えて創造的な決定にほとんど言及していないという意味で「制御されていない」。 共創造的な混合開始システムは、特にユーザーが機械学習の専門知識を持っていない場合、アルゴリズムに影響を与えるユーザー中心の手段を必要とする。 共同創造システムにとっての鍵は、エージェントからエージェントまでだけでなく、ユーザからエージェントにアイデアや意図を伝える能力である。 ユーザーはどのようにして創造的な意図を表現できるのか? 創造的なAIシステムは、どのように彼らの信念を伝え、彼らの動きを説明し、ユーザに彼らの代わりに行動するよう指示するか? クリエイティブAIシステムはいつイニシアティブになるべきか? このような質問に対する回答は、より創造的な意図を表現することができるような、より良い共同創造システムの開発を可能にします。 本稿では,共同創造型混合開始生成のためのカスタマイズ可能なフレームワークCREATIVE-WANDを紹介する。 creative-wandは、生成モデルとヒューマンエージェントのコミュニケーションチャネルをチャットベースのインターフェイスにプラグイン・アンド・プレイで注入できる。 これは、AIジェネレータと人間が共同創造プロセス中にコミュニケーションできる多くの次元を提供する。 本稿では,ストーリーテリングの文脈におけるユーザによる共同創造的コミュニケーションと局所創造的意図仕様の1次元について,Creative-WANDフレームワークを用いて考察する。

Recent neural generation systems have demonstrated the potential for procedurally generating game content, images, stories, and more. However, most neural generation algorithms are "uncontrolled" in the sense that the user has little say in creative decisions beyond the initial prompt specification. Co-creative, mixed-initiative systems require user-centric means of influencing the algorithm, especially when users are unlikely to have machine learning expertise. The key to co-creative systems is the ability to communicate ideas and intent from the user to the agent, as well as from the agent to the user. Key questions in co-creative AI include: How can users express their creative intentions? How can creative AI systems communicate their beliefs, explain their moves, or instruct users to act on their behalf? When should creative AI systems take initiative? The answer to such questions and more will enable us to develop better co-creative systems that make humans more capable of expressing their creative intents. We introduce CREATIVE-WAND, a customizable framework for investigating co-creative mixed-initiative generation. CREATIVE-WAND enables plug-and-play injection of generative models and human-agent communication channels into a chat-based interface. It provides a number of dimensions along which an AI generator and humans can communicate during the co-creative process. We illustrate the CREATIVE-WAND framework by using it to study one dimension of co-creative communication-global versus local creative intent specification by the user-in the context of storytelling.
翻訳日:2022-08-08 12:59:56 公開日:2022-08-04
# ACE:ハイパーパラメータ最適化における適応制約対応早期停止

ACE: Adaptive Constraint-aware Early Stopping in Hyperparameter Optimization ( http://arxiv.org/abs/2208.02922v1 )

ライセンス: Link先を確認
Yi-Wei Chen, Chi Wang, Amin Saied, Rui Zhuang(参考訳) 機械学習モデルのデプロイには高いモデル品質が必要であり、アプリケーションの制約を満たす必要がある。 これはハイパーパラメータ最適化(HPO)を動機付け、デプロイメント制約下でモデル構成を調整する。 この制約は、しばしば評価するために追加の計算コストを必要とし、不適格な構成のトレーニングは、大量のチューニングコストを浪費する可能性がある。 本稿では,制約評価をHPO中のトライアルプルーニングに組み込む適応制約対応早期停止(ACE)手法を提案する。 全体の最適化コストを最小限に抑えるため、ACEは期待される評価コストの理論的解析に基づいて、コスト効果のある制約評価間隔を推定する。 一方、我々はプルーニングにおける最適化と制約メトリクスの両方を考慮し、正規化ハイパーパラメータを必要としないACEの早期停止基準を提案する。 公平性制約やロバスト性制約下での分類タスクのハイパーパラメータチューニングにおけるACEの優れた性能を示す。

Deploying machine learning models requires high model quality and needs to comply with application constraints. That motivates hyperparameter optimization (HPO) to tune model configurations under deployment constraints. The constraints often require additional computation cost to evaluate, and training ineligible configurations can waste a large amount of tuning cost. In this work, we propose an Adaptive Constraint-aware Early stopping (ACE) method to incorporate constraint evaluation into trial pruning during HPO. To minimize the overall optimization cost, ACE estimates the cost-effective constraint evaluation interval based on a theoretical analysis of the expected evaluation cost. Meanwhile, we propose a stratum early stopping criterion in ACE, which considers both optimization and constraint metrics in pruning and does not require regularization hyperparameters. Our experiments demonstrate superior performance of ACE in hyperparameter tuning of classification tasks under fairness or robustness constraints.
翻訳日:2022-08-08 12:55:24 公開日:2022-08-04
# cigan: 生成型adversarialネットワークを用いたクラス不均衡を処理するpythonパッケージ

CIGAN: A Python Package for Handling Class Imbalance using Generative Adversarial Networks ( http://arxiv.org/abs/2208.02931v1 )

ライセンス: Link先を確認
Yuxiao Huang and Yan Ma(参考訳) 機械学習における重要な課題は、いくつかのクラス(主要なクラス)のサンプルサイズが他のクラス(マイノリティクラス)よりもはるかに高いクラス不均衡である。 不均衡なデータに基づいて直接分類器を訓練する場合、分類器が多数派クラスの1つとして新しいサンプルを予測する可能性が高い。 極端な場合、分類器はマイノリティクラスを完全に無視することができる。 これは医療において深刻な社会学的意味を持つ可能性があり、マイノリティクラスは通常、疾患クラス(例えば、死亡または陽性の臨床検査結果)である。 本稿では,マイノリティクラスを過剰にサンプリングし,下流分類を改善するために,生成的逆ネットワークを用いたソフトウェアを提案する。 私たちの知る限りでは、これはマルチクラス分類(ターゲットが任意の数のクラスを持つことができる)を可能にする最初のツールです。 ツールのコードはgithubリポジトリで公開されています(https://github.com/yuxiaohuang/research/tree/master/gwu/working/cigan/code)。

A key challenge in Machine Learning is class imbalance, where the sample size of some classes (majority classes) are much higher than that of the other classes (minority classes). If we were to train a classifier directly on imbalanced data, it is more likely for the classifier to predict a new sample as one of the majority classes. In the extreme case, the classifier could completely ignore the minority classes. This could have serious sociological implications in healthcare, as the minority classes are usually the disease classes (e.g., death or positive clinical test result). In this paper, we introduce a software that uses Generative Adversarial Networks to oversample the minority classes so as to improve downstream classification. To the best of our knowledge, this is the first tool that allows multi-class classification (where the target can have an arbitrary number of classes). The code of the tool is publicly available in our github repository (https://github.com/yuxiaohuang/research/tree/master/gwu/working/cigan/code).
翻訳日:2022-08-08 12:55:09 公開日:2022-08-04
# TransPillars: 複数フレーム3次元物体検出のための粗粒集合

TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object Detection ( http://arxiv.org/abs/2208.03141v1 )

ライセンス: Link先を確認
Zhipeng Luo, Gongjie Zhang, Changqing Zhou, Tianrui Liu, Shijian Lu, Liang Pan(参考訳) ポイントクラウドを用いた3dオブジェクト検出は、自動運転とロボット工学の幅広い応用により、注目を集めている。 しかし、既存の研究のほとんどは、ポイントクラウドシーケンスの時間情報を利用することなく、シングルポイントクラウドフレームに焦点を当てている。 本稿では,マルチフレーム3次元物体検出のために連続点雲フレームの時間的特徴を利用するトランスピラーを設計する。 TransPillarsは2つの視点から時空間の雲の特徴を集約する。 まず、voxelレベルの機能をマルチフレーム機能マップから直接融合し、インスタンスの詳細と正確なオブジェクトのローカライゼーションに不可欠なコンテキスト情報を保存する。 第2に,マルチスケール機能を段階的に融合し,移動物体の運動を効果的に把握し,微細な特徴の集約を導く階層的粗粒化戦略を導入する。 さらに、クロスフレーム特徴マッチングの有効性を向上させるため、変形可能な変圧器の変種を導入する。 拡張実験により,提案するTransPillarsは,既存のマルチフレーム検出手法と比較して,最先端性能を実現することが示された。 コードはリリースされる。

3D object detection using point clouds has attracted increasing attention due to its wide applications in autonomous driving and robotics. However, most existing studies focus on single point cloud frames without harnessing the temporal information in point cloud sequences. In this paper, we design TransPillars, a novel transformer-based feature aggregation technique that exploits temporal features of consecutive point cloud frames for multi-frame 3D object detection. TransPillars aggregates spatial-temporal point cloud features from two perspectives. First, it fuses voxel-level features directly from multi-frame feature maps instead of pooled instance features to preserve instance details with contextual information that are essential to accurate object localization. Second, it introduces a hierarchical coarse-to-fine strategy to fuse multi-scale features progressively to effectively capture the motion of moving objects and guide the aggregation of fine features. Besides, a variant of deformable transformer is introduced to improve the effectiveness of cross-frame feature matching. Extensive experiments show that our proposed TransPillars achieves state-of-art performance as compared to existing multi-frame detection approaches. Code will be released.
翻訳日:2022-08-08 12:48:37 公開日:2022-08-04
# スマートデータ交換による教師なしフェデレーション学習のための埋め込みアライメント

Embedding Alignment for Unsupervised Federated Learning via Smart Data Exchange ( http://arxiv.org/abs/2208.02856v1 )

ライセンス: Link先を確認
Satyavrat Wagle, Seyyedali Hosseinalipour, Naji Khosravan, Mung Chiang, Christopher G. Brinton(参考訳) フェデレートラーニング(FL)は、分散機械学習(ML)の最も有望なソリューションの1つとして認識されている。 多くの文献において、FLは、エッジデバイスがラベル付きデータを収集する教師付きMLタスクのために研究されている。 しかし、多くのアプリケーションでは、デバイス間でラベル付きデータが存在すると仮定するのは現実的ではない。 そこで我々は,ラベルのないデータセットを持つエッジデバイス間のFLのための新しい手法CF-CL(Cooperative Federated Unsupervised Contrastive Learning)を開発した。 cf-clは、デバイス間でデバイス間(d2d)通信を介してデータを交換するローカルデバイス協調を採用し、非独立かつ同一の分散(非i.i.d.)ローカルデータセットから生じるローカルモデルバイアスを回避する。 cf-clは、教師なしfl設定に合わせたプッシュプル型スマートデータ共有機構を導入し、各デバイスはローカルデータポイントのサブセットをリザーブドデータポイントとして隣国にプッシュし、その隣国からデータポイントのセットを抽出し、確率的重要度サンプリング技術でサンプリングする。 CF-CLが導くことを示す。 (i)デバイス間の教師なし学習潜在空間のアライメント (ii)より高速なグローバル収束により、より頻繁なグローバルモデルアグリゲーションが可能となる。 iii) デバイス間での極端な非IDデータ設定に有効である。

Federated learning (FL) has been recognized as one of the most promising solutions for distributed machine learning (ML). In most of the current literature, FL has been studied for supervised ML tasks, in which edge devices collect labeled data. Nevertheless, in many applications, it is impractical to assume existence of labeled data across devices. To this end, we develop a novel methodology, Cooperative Federated unsupervised Contrastive Learning (CF-CL), for FL across edge devices with unlabeled datasets. CF-CL employs local device cooperation where data are exchanged among devices through device-to-device (D2D) communications to avoid local model bias resulting from non-independent and identically distributed (non-i.i.d.) local datasets. CF-CL introduces a push-pull smart data sharing mechanism tailored to unsupervised FL settings, in which, each device pushes a subset of its local datapoints to its neighbors as reserved data points, and pulls a set of datapoints from its neighbors, sampled through a probabilistic importance sampling technique. We demonstrate that CF-CL leads to (i) alignment of unsupervised learned latent spaces across devices, (ii) faster global convergence, allowing for less frequent global model aggregations; and (iii) is effective in extreme non-i.i.d. data settings across the devices.
翻訳日:2022-08-08 12:46:00 公開日:2022-08-04
# TIC:テキストガイド画像のカラー化

TIC: Text-Guided Image Colorization ( http://arxiv.org/abs/2208.02843v1 )

ライセンス: Link先を確認
Subhankar Ghosh, Prasun Roy, Saumik Bhattacharya, Umapada Pal, Michael Blumenstein(参考訳) 画像のカラー化はコンピュータビジョンにおいてよく知られた問題である。 しかし、課題の性質が不適切であるため、画像の着色は本質的に困難である。 カラー化パイプラインを自動化しようとする研究者による試みはいくつかあるが、条件付けの欠如により、しばしば非現実的な結果をもたらす。 本研究では,カラー化されるグレースケール画像とともに,補助条件としてテキスト記述を統合することにより,カラー化プロセスの忠実性を向上させる。 私たちの知る限りでは、これはカラー化パイプラインにテキストコンディショニングを組み込む最初の試みの1つです。 そこで我々は、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を取り込み、関連する色域を予測しようとする新しいディープネットワークを提案する。 各テキスト記述にはシーンに存在するオブジェクトの色情報が含まれているため、テキストエンコーディングは予測された色全体の品質を改善するのに役立つ。 提案手法は,異なる指標を用いて評価し,質的および定量的に,最先端の着色アルゴリズムに勝ることを見出した。

Image colorization is a well-known problem in computer vision. However, due to the ill-posed nature of the task, image colorization is inherently challenging. Though several attempts have been made by researchers to make the colorization pipeline automatic, these processes often produce unrealistic results due to a lack of conditioning. In this work, we attempt to integrate textual descriptions as an auxiliary condition, along with the grayscale image that is to be colorized, to improve the fidelity of the colorization process. To the best of our knowledge, this is one of the first attempts to incorporate textual conditioning in the colorization pipeline. To do so, we have proposed a novel deep network that takes two inputs (the grayscale image and the respective encoded text description) and tries to predict the relevant color gamut. As the respective textual descriptions contain color information of the objects present in the scene, the text encoding helps to improve the overall quality of the predicted colors. We have evaluated our proposed model using different metrics and found that it outperforms the state-of-the-art colorization algorithms both qualitatively and quantitatively.
翻訳日:2022-08-08 12:37:06 公開日:2022-08-04
# ロバストな医用画像分類のための自己組み立て型視覚変換器(SEViT)

Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image Classification ( http://arxiv.org/abs/2208.02851v1 )

ライセンス: Link先を確認
Faris Almalik, Mohammad Yaqub, Karthik Nandakumar(参考訳) 視覚トランスフォーマー(vit)は、分類やセグメンテーションといった医療画像の様々なコンピュータビジョンタスクで畳み込みニューラルネットワーク(cnn)を置き換えるために競争している。 敵攻撃に対するCNNの脆弱性はよく知られた問題であるが、近年の研究では、ViTはそのような攻撃の影響を受けやすく、攻撃下での大幅なパフォーマンス低下を被っていることが示されている。 敵検体に対するViTsの脆弱性は、臨床環境での安全性に対する深刻な懸念を引き起こす。 本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新しい自己認識手法を提案する。 提案したSelf-Ensembling Vision Transformer (SEViT) は、ViTの初期ブロックによって学習された特徴表現が敵の摂動によって比較的影響を受けないという事実を活用する。 これらの中間的特徴表現に基づいて複数の分類器を学習し、これらの予測を最終 ViT 分類器と組み合わせることで、敵攻撃に対する堅牢性が得られる。 様々な予測の一貫性を測定することは、敵のサンプルを検出するのに役立つ。 2つのモード(胸部x線と眼底鏡)の実験では、セビットアーキテクチャがグレイボックスの様々な敵の攻撃(アタッカーは標的モデルを完全に知っているが、防御機構は持っていない)に対して防御する効果が示されている。 コード:https://github.com/faresmalik/SEViT

Vision Transformers (ViT) are competing to replace Convolutional Neural Networks (CNN) for various computer vision tasks in medical imaging such as classification and segmentation. While the vulnerability of CNNs to adversarial attacks is a well-known problem, recent works have shown that ViTs are also susceptible to such attacks and suffer significant performance degradation under attack. The vulnerability of ViTs to carefully engineered adversarial samples raises serious concerns about their safety in clinical settings. In this paper, we propose a novel self-ensembling method to enhance the robustness of ViT in the presence of adversarial attacks. The proposed Self-Ensembling Vision Transformer (SEViT) leverages the fact that feature representations learned by initial blocks of a ViT are relatively unaffected by adversarial perturbations. Learning multiple classifiers based on these intermediate feature representations and combining these predictions with that of the final ViT classifier can provide robustness against adversarial attacks. Measuring the consistency between the various predictions can also help detect adversarial samples. Experiments on two modalities (chest X-ray and fundoscopy) demonstrate the efficacy of SEViT architecture to defend against various adversarial attacks in the gray-box (attacker has full knowledge of the target model, but not the defense mechanism) setting. Code: https://github.com/faresmalik/SEViT
翻訳日:2022-08-08 12:36:49 公開日:2022-08-04
# GAN-Prior を用いた画像超解像のための潜時多重相関推論

Latent Multi-Relation Reasoning for GAN-Prior based Image Super-Resolution ( http://arxiv.org/abs/2208.02861v1 )

ライセンス: Link先を確認
Jiahui Zhang and Fangneng Zhan and Yingchen Yu and Rongliang Wu and Xiaoqin Zhang and Shijian Lu(参考訳) 近年,事前学習されたgans(generative adversarial network)を先行して導入することで,大きなスケーリング因子による単一画像超解像(sr)が目覚ましい進歩を遂げている。 しかし、ほとんどのGAN-PriorsベースのSR法は、逆潜時符号の属性不整合問題によって制約され、生成層における視覚的属性のミスマッチに直接導かれる。 さらに、生成器に供給される確率ノイズは、非条件の詳細生成に使用され、生成したSR画像の忠実さを損なう不誠実な詳細を生成する傾向がある。 LAREN(Latent Multi-Relation rEasoNing)を設計し,遅延空間におけるグラフベースのマルチリレーション推論により超大因子SRを実現する。 LARENは2つの革新的な設計で構成されている。 1つ目はグラフベースの非絡み合いであり、階層的多関係推論を通じてより優れた非絡み合い空間を構成する。 2つ目はグラフベースのコード生成であり、再帰的関係推論を通じて画像固有のコードを生成する。 大規模な実験により、LARENは優れた大因子画像SRを達成し、複数のベンチマークで常に最先端の性能を発揮することが示された。

Recently, single image super-resolution (SR) under large scaling factors has witnessed impressive progress by introducing pre-trained generative adversarial networks (GANs) as priors. However, most GAN-Priors based SR methods are constrained by an attribute disentanglement problem in inverted latent codes which directly leads to mismatches of visual attributes in the generator layers and further degraded reconstruction. In addition, stochastic noises fed to the generator are employed for unconditional detail generation, which tends to produce unfaithful details that compromise the fidelity of the generated SR image. We design LAREN, a LAtent multi-Relation rEasoNing technique that achieves superb large-factor SR through graph-based multi-relation reasoning in latent space. LAREN consists of two innovative designs. The first is graph-based disentanglement that constructs a superior disentangled latent space via hierarchical multi-relation reasoning. The second is graph-based code generation that produces image-specific codes progressively via recursive relation reasoning which enables prior GANs to generate desirable image details. Extensive experiments show that LAREN achieves superior large-factor image SR and outperforms the state-of-the-art consistently across multiple benchmarks.
翻訳日:2022-08-08 12:36:24 公開日:2022-08-04
# 領域外mriセグメンテーションのためのポストホック確率校正の改善

Improved post-hoc probability calibration for out-of-domain MRI segmentation ( http://arxiv.org/abs/2208.02870v1 )

ライセンス: Link先を確認
Cheng Ouyang, Shuo Wang, Chen Chen, Zeju Li, Wenjia Bai, Bernhard Kainz, Daniel Rueckert(参考訳) 深部モデルの確率校正は医用画像などの安全クリティカルな応用において非常に望ましい。 テストデータの実際の精度に予測確率を合わせることにより、ディープネットワークの出力確率を解釈可能とする。 画像セグメンテーションでは、よく校正された確率により、放射線学者はモデル予測セグメンテーションが信頼できない領域を特定できる。 これらの信頼できない予測は、しばしば、画像アーティファクトや見えない画像プロトコルによって引き起こされる領域外画像(OOD)に発生する。 残念なことに、画像セグメンテーションの以前のキャリブレーション手法はOOD画像に準最適に動作する。 OOD画像に対向するキャリブレーション誤差を低減するために,新しいポストホックキャリブレーションモデルを提案する。 我々のモデルは,局所レベルでの摂動に対する画素の感受性と,グローバルレベルでの形状の事前情報を活用する。 このモデルは、見えない画像のアーティファクトと、見えない画像プロトコルの画像を含む心臓MRIセグメントデータセットでテストされる。 最新の校正アルゴリズムと比較して校正誤差の低減を示す。

Probability calibration for deep models is highly desirable in safety-critical applications such as medical imaging. It makes output probabilities of deep networks interpretable, by aligning prediction probabilities with the actual accuracy in test data. In image segmentation, well-calibrated probabilities allow radiologists to identify regions where model-predicted segmentations are unreliable. These unreliable predictions often occur to out-of-domain (OOD) images that are caused by imaging artifacts or unseen imaging protocols. Unfortunately, most previous calibration methods for image segmentation perform sub-optimally on OOD images. To reduce the calibration error when confronted with OOD images, we propose a novel post-hoc calibration model. Our model leverages the pixel susceptibility against perturbations at the local level, and the shape prior information at the global level. The model is tested on cardiac MRI segmentation datasets that contain unseen imaging artifacts and images from an unseen imaging protocol. We demonstrate reduced calibration errors compared with the state-of-the-art calibration algorithm.
翻訳日:2022-08-08 12:36:01 公開日:2022-08-04
# 集団カウントのためのマルチスケールニューラルネットワークの再設計

Redesigning Multi-Scale Neural Network for Crowd Counting ( http://arxiv.org/abs/2208.02894v1 )

ライセンス: Link先を確認
Zhipeng Du, Miaojing Shi, Jiankang Deng, Stefanos Zafeiriou(参考訳) 視点の歪みと群衆の変動は、コンピュータビジョンにおいて、群衆の数え上げが困難なタスクとなる。 これに取り組むために、多くの先行研究はディープニューラルネットワーク(DNN)にマルチスケールアーキテクチャを使用してきた。 マルチスケールブランチは直接マージされる(例えば結合によって)か、DNNのプロキシ(例えば注意)のガイダンスによってマージされる。 これらの組み合わせ法は,その普及にもかかわらず,マルチスケール密度マップに対する画素単位の性能差に対処するには不十分である。 本研究では,複数スケールの密度マップを階層的にマージした密度エキスパートの階層的混合を導入することにより,マルチスケールニューラルネットワークを再設計する。 階層構造の中では、すべてのスケールからの貢献を促進するために専門家のコンペティションとコラボレーションスキームが提示され、異なる階層のスケール組み合わせのためのピクセル単位のソフトウェイトを提供するために、ピクセル単位のソフトゲーティングネットが導入された。 ネットワークは、群集密度マップと局所カウントマップの両方を用いて最適化され、後者は、前者の局所積分によって得られる。 両者の最適化は、潜在的な競合のために問題となる可能性がある。 画像中の強予測された局所領域間の相対的数差に基づく新たな相対的局所的カウント損失を導入し, 密度マップ上の従来の絶対誤差損失と相補的であることを証明した。 実験の結果,提案手法は上海技術,UCF_CC_50,JHU-CROWD++,NWPU-Crowd,Trancosの5つの公開データセットに対して,最先端のパフォーマンスを実現することがわかった。

Perspective distortions and crowd variations make crowd counting a challenging task in computer vision. To tackle it, many previous works have used multi-scale architecture in deep neural networks (DNNs). Multi-scale branches can be either directly merged (e.g. by concatenation) or merged through the guidance of proxies (e.g. attentions) in the DNNs. Despite their prevalence, these combination methods are not sophisticated enough to deal with the per-pixel performance discrepancy over multi-scale density maps. In this work, we redesign the multi-scale neural network by introducing a hierarchical mixture of density experts, which hierarchically merges multi-scale density maps for crowd counting. Within the hierarchical structure, an expert competition and collaboration scheme is presented to encourage contributions from all scales; pixel-wise soft gating nets are introduced to provide pixel-wise soft weights for scale combinations in different hierarchies. The network is optimized using both the crowd density map and the local counting map, where the latter is obtained by local integration on the former. Optimizing both can be problematic because of their potential conflicts. We introduce a new relative local counting loss based on relative count differences among hard-predicted local regions in an image, which proves to be complementary to the conventional absolute error loss on the density map. Experiments show that our method achieves the state-of-the-art performance on five public datasets, i.e. ShanghaiTech, UCF_CC_50, JHU-CROWD++, NWPU-Crowd and Trancos.
翻訳日:2022-08-08 12:35:45 公開日:2022-08-04
# 階層的ベイズ心の理論による乳児直観ベンチマークの解法

Solving the Baby Intuitions Benchmark with a Hierarchically Bayesian Theory of Mind ( http://arxiv.org/abs/2208.02914v1 )

ライセンス: Link先を確認
Tan Zhi-Xuan, Nishad Gothoskar, Falk Pollok, Dan Gutfreund, Joshua B. Tenenbaum, Vikash K. Mansinghka(参考訳) 最近提案されたBaby Intuitions Benchmark (arXiv:2102.1 1938)は、機械と人間のソーシャルインテリジェンスのギャップを埋めるための新しいモデルの開発を容易にするために、若い幼児でさえも、エージェントの目標や行動に関する常識的推論を評価するために設計された一連のタスクを提供している。 ここでは、階層的ベイズ心の理論(hbtom)に基づいて、このベンチマークに対する原理ベイズ解を示す。 エージェントの目標と配置に関する階層的な事前情報を含めることで、我々のHBToMモデルによる推論は、エージェントの効率性や嗜好の少なからぬ学習を可能にし、その後のエージェントの振る舞いに関する常識的妥当性判断に使用することができる。 このアプローチは、ほとんどのベンチマークタスクにおいてほぼ完全に近い精度を達成し、人間の社会的認知の構造化ベイズモデルの利点を実証しながら、深層学習や模倣学習のベースラインよりも優れています。

To facilitate the development of new models to bridge the gap between machine and human social intelligence, the recently proposed Baby Intuitions Benchmark (arXiv:2102.11938) provides a suite of tasks designed to evaluate commonsense reasoning about agents' goals and actions that even young infants exhibit. Here we present a principled Bayesian solution to this benchmark, based on a hierarchically Bayesian Theory of Mind (HBToM). By including hierarchical priors on agent goals and dispositions, inference over our HBToM model enables few-shot learning of the efficiency and preferences of an agent, which can then be used in commonsense plausibility judgements about subsequent agent behavior. This approach achieves near-perfect accuracy on most benchmark tasks, outperforming deep learning and imitation learning baselines while producing interpretable human-like inferences, demonstrating the advantages of structured Bayesian models of human social cognition.
翻訳日:2022-08-08 12:30:24 公開日:2022-08-04
# 能動学習を用いたモジュール型マルチポンプの深部サロゲート

Deep Surrogate of Modular Multi Pump using Active Learning ( http://arxiv.org/abs/2208.02840v1 )

ライセンス: Link先を確認
Malathi Murugesan, Kanika Goyal, Laure Barriere, Maura Pasquotti, Giacomo Veneri, Giovanni De Magistris(参考訳) センサーの高コスト化と信頼性のため、ポンプの設計者は、可能な動作点を可能な限り推定するために必要なセンサーの数を削減した。 よい見積もりを得るための大きな課題は、利用可能なデータの量が少ないことです。 この量のデータを使用すると、推定メソッドのパフォーマンスはクライアントの要求を満たすのに十分ではない。 データ不足の問題を解決するためには、高品質なデータを取得することが重要である。 これらの考察に基づき,エネルギー分野におけるモジュール型マルチポンプの動作点推定のためのアクティブラーニングフレームワークを開発した。 特に,サージ距離の推定に着目する。 サージ距離を最小データセットで推定するためにアクティブラーニングを適用する。 その結果,アクティブラーニングは実応用にも有用であることがわかった。

Due to the high cost and reliability of sensors, the designers of a pump reduce the needed number of sensors for the estimation of the feasible operating point as much as possible. The major challenge to obtain a good estimation is the low amount of data available. Using this amount of data, the performance of the estimation method is not enough to satisfy the client requests. To solve this problem of scarcity of data, getting high quality data is important to obtain a good estimation. Based on these considerations, we develop an active learning framework for estimating the operating point of a Modular Multi Pump used in energy field. In particular we focus on the estimation of the surge distance. We apply Active learning to estimate the surge distance with minimal dataset. Results report that active learning is a valuable technique also for real application.
翻訳日:2022-08-08 12:24:55 公開日:2022-08-04
# 機能的メカニズムによる個人的対策

Differentially Private Counterfactuals via Functional Mechanism ( http://arxiv.org/abs/2208.02878v1 )

ライセンス: Link先を確認
Fan Yang, Qizhang Feng, Kaixiong Zhou, Jiahao Chen, Xia Hu(参考訳) ファクトファクトは、新しいタイプのモデル説明として機能し、近年、産業とアカデミックの両方から多くの注目を集めている。 従来の特徴に基づく説明(例えば帰属)とは異なり、反事実は、クエリに対する最小限の摂動でモデル決定をひっくり返すことができる一連の仮説的なサンプルである。 有効なカウンターファクトが与えられた場合、人間はモデル決定境界をよりよく理解するために「What-if」の状況下で推論することができる。 しかし、偽物のリリースは、意図せず敵に機密情報を漏らす可能性があり、モデルセキュリティとデータプライバシの両方により高いリスクをもたらすため、有害である可能性がある。 このギャップを埋めるため,本論文では,分散したモデルや説明集合に触らずに微分的にプライベートな反事実(dpc)を生成する新しい枠組みを提案する。 特に,ノイズの多いクラスプロトタイプを構築するための機能機構を備えたオートエンコーダを訓練し,差分プライバシーの処理後免責に基づく潜在プロトタイプからdpcを導出する。 さらに,提案手法の有効性を実証し,DPCが抽出攻撃と推論攻撃の両方のリスクを軽減できることを示した。

Counterfactual, serving as one emerging type of model explanation, has attracted tons of attentions recently from both industry and academia. Different from the conventional feature-based explanations (e.g., attributions), counterfactuals are a series of hypothetical samples which can flip model decisions with minimal perturbations on queries. Given valid counterfactuals, humans are capable of reasoning under ``what-if'' circumstances, so as to better understand the model decision boundaries. However, releasing counterfactuals could be detrimental, since it may unintentionally leak sensitive information to adversaries, which brings about higher risks on both model security and data privacy. To bridge the gap, in this paper, we propose a novel framework to generate differentially private counterfactual (DPC) without touching the deployed model or explanation set, where noises are injected for protection while maintaining the explanation roles of counterfactual. In particular, we train an autoencoder with the functional mechanism to construct noisy class prototypes, and then derive the DPC from the latent prototypes based on the post-processing immunity of differential privacy. Further evaluations demonstrate the effectiveness of the proposed framework, showing that DPC can successfully relieve the risks on both extraction and inference attacks.
翻訳日:2022-08-08 12:24:45 公開日:2022-08-04
# 難易度調整によるカリキュラム強化学習の人間的意思決定

Human Decision Makings on Curriculum Reinforcement Learning with Difficulty Adjustment ( http://arxiv.org/abs/2208.02932v1 )

ライセンス: Link先を確認
Yilei Zeng, Jiali Duan, Yang Li, Emilio Ferrara, Lerrel Pinto, C.-C. Jay Kuo, Stefanos Nikolaidis(参考訳) 人間中心AIは、AIのパフォーマンスに関する人間の経験を考察する。 完全な自動または弱い監督学習によって、AIが超人的なパフォーマンスを達成するのに十分な研究がなされている一方で、より詳細な入力によって、AIが人間の好みのスキルレベルに合わせる方法の実験は少ない。 本研究では,カリキュラム強化学習結果を,人的意思決定プロセスから学習することで,難しすぎず,難しすぎず,難しすぎるパフォーマンスレベルに導出する。 そこで我々は,タスクの難しさの操作,パフォーマンスの観察,カリキュラムのフィードバックなどを通じて,オンラインでエージェントと対話できるポータブルな対話型プラットフォームを開発した。 私たちのシステムは高度に並列化可能で、サーバなしで何百万ものサンプルを必要とする大規模な強化学習アプリケーションをトレーニングできます。 その結果,人間による強化学習における対話型カリキュラムの有効性が示された。 強化学習性能は、人間の所望の難易度と同期してうまく調整できることを示す。 この研究は、フローとパーソナライズされた適応困難を達成するための新しい扉を開くだろう。

Human-centered AI considers human experiences with AI performance. While abundant research has been helping AI achieve superhuman performance either by fully automatic or weak supervision learning, fewer endeavors are experimenting with how AI can tailor to humans' preferred skill level given fine-grained input. In this work, we guide the curriculum reinforcement learning results towards a preferred performance level that is neither too hard nor too easy via learning from the human decision process. To achieve this, we developed a portable, interactive platform that enables the user to interact with agents online via manipulating the task difficulty, observing performance, and providing curriculum feedback. Our system is highly parallelizable, making it possible for a human to train large-scale reinforcement learning applications that require millions of samples without a server. The result demonstrates the effectiveness of an interactive curriculum for reinforcement learning involving human-in-the-loop. It shows reinforcement learning performance can successfully adjust in sync with the human desired difficulty level. We believe this research will open new doors for achieving flow and personalized adaptive difficulties.
翻訳日:2022-08-08 12:24:23 公開日:2022-08-04
# BOLD MRI 時系列における胎盤の自動分割

Automatic Segmentation of the Placenta in BOLD MRI Time Series ( http://arxiv.org/abs/2208.02895v1 )

ライセンス: Link先を確認
S. Mazdak Abulnaga, Sean I. Young, Katherine Hobgood, Eileen Pan, Clinton J. Wang, P. Ellen Grant, Esra Abaci Turk, Polina Golland(参考訳) 血中酸素濃度依存性(BOLD)MRIは胎盤内の酸素輸送を評価でき、胎盤機能の研究に有望なツールとして現れている。 時間とともに変化する信号を測定するには、時系列の各ボリュームで胎盤を分割する必要がある。 BOLDタイムシリーズの大量のボリュームのため、既存の研究はすべてのボリュームを手作業で分割したテンプレートにマッピングするために登録に依存している。 胎盤は胎児の動き、母体の動き、収縮によって大きな変形を受けることができるため、この手法は多くの場合、登録アプローチが失敗する大量の廃棄ボリュームをもたらす。 そこで本研究では,u-netニューラルネットワークを用いた機械学習モデルを提案する。 境界重み付き損失関数を用いて胎盤形状を正確に把握する。 健康な胎児,胎児の成長制限のある胎児,高BMIの母親を含む91名の被験者を対象に,本モデルを訓練・試験した。 我々は,地上の真理ラベルとマッチングした場合のDiceスコア0.83+/-0.04を達成し,本モデルはBOLD時系列のノルモックス点とハイパーオキシン点のセグメンテーションボリュームにおいて確実に機能する。 私たちのコードとトレーニングされたモデルは、https://github.com/mabulnaga/automatic-placenta-segmentationで利用可能です。

Blood oxygen level dependent (BOLD) MRI with maternal hyperoxia can assess oxygen transport within the placenta and has emerged as a promising tool to study placental function. Measuring signal changes over time requires segmenting the placenta in each volume of the time series. Due to the large number of volumes in the BOLD time series, existing studies rely on registration to map all volumes to a manually segmented template. As the placenta can undergo large deformation due to fetal motion, maternal motion, and contractions, this approach often results in a large number of discarded volumes, where the registration approach fails. In this work, we propose a machine learning model based on a U-Net neural network architecture to automatically segment the placenta in BOLD MRI and apply it to segmenting each volume in a time series. We use a boundary-weighted loss function to accurately capture the placental shape. Our model is trained and tested on a cohort of 91 subjects containing healthy fetuses, fetuses with fetal growth restriction, and mothers with high BMI. We achieve a Dice score of 0.83+/-0.04 when matching with ground truth labels and our model performs reliably in segmenting volumes in both normoxic and hyperoxic points in the BOLD time series. Our code and trained model are available at https://github.com/mabulnaga/automatic-placenta-segmentation.
翻訳日:2022-08-08 12:23:11 公開日:2022-08-04
# 学習曲線からのメタラーニング: 第一ラウンドから学んだ教訓と第二ラウンドの設計

Meta-learning from Learning Curves Challenge: Lessons learned from the First Round and Design of the Second Round ( http://arxiv.org/abs/2208.02821v1 )

ライセンス: Link先を確認
Manh Hung Nguyen, Lisheng Sun, Nathan Grinsztajn (CRIStAL), Isabelle Guyon (LISN, TAU)(参考訳) 学習曲線からのメタ学習は、機械学習コミュニティにおいて重要だがしばしば無視される研究領域である。 本稿では,環境からの学習曲線のフィードバックに基づいて,エージェントが与えられたデータセットに適したアルゴリズムを探索する強化学習ベースのメタ学習課題について紹介する。 第1ラウンドは学界と産業界の両方から参加者を集めた。 本稿では,第1ラウンド(wcci 2022 のコンペティションプログラム)の結果を分析し,メタリーナーが学習曲線から学習を成功させる要因について考察する。 最初のラウンドから学んだ教訓と参加者からのフィードバックにより、私たちは新しいプロトコルと新しいメタデータセットで挑戦の第2ラウンドをデザインしました。 チャレンジの第2ラウンドは、AutoML-Conf 2022で受け入れられ、現在進行中です。

Meta-learning from learning curves is an important yet often neglected research area in the Machine Learning community. We introduce a series of Reinforcement Learning-based meta-learning challenges, in which an agent searches for the best suited algorithm for a given dataset, based on feedback of learning curves from the environment. The first round attracted participants both from academia and industry. This paper analyzes the results of the first round (accepted to the competition program of WCCI 2022), to draw insights into what makes a meta-learner successful at learning from learning curves. With the lessons learned from the first round and the feedback from the participants, we have designed the second round of our challenge with a new protocol and a new meta-dataset. The second round of our challenge is accepted at the AutoML-Conf 2022 and currently ongoing .
翻訳日:2022-08-08 12:19:02 公開日:2022-08-04
# 最適輸送を用いた解釈可能な分布シフト検出

Interpretable Distribution Shift Detection using Optimal Transport ( http://arxiv.org/abs/2208.02896v1 )

ライセンス: Link先を確認
Neha Hulkund, Nicolo Fusi, Jennifer Wortman Vaughan, David Alvarez-Melis(参考訳) 最適輸送に基づく分類データセットにおける分布変化の同定と特徴付けを行う手法を提案する。 これにより、各クラスがシフトによって影響を受ける範囲を特定し、対応するサンプルペアを取得して、その性質に関する洞察を提供することができる。 合成および自然シフトの例での使用例を示す。 本研究の成果は予備的なものであるが,今後は分布変化解析のための解釈可能な手法の開発が期待できる。

We propose a method to identify and characterize distribution shifts in classification datasets based on optimal transport. It allows the user to identify the extent to which each class is affected by the shift, and retrieves corresponding pairs of samples to provide insights on its nature. We illustrate its use on synthetic and natural shift examples. While the results we present are preliminary, we hope that this inspires future work on interpretable methods for analyzing distribution shifts.
翻訳日:2022-08-08 12:18:48 公開日:2022-08-04
# PointConvFormer: Pointベースの畳み込みの回避

PointConvFormer: Revenge of the Point-based Convolution ( http://arxiv.org/abs/2208.02879v1 )

ライセンス: Link先を確認
Wenxuan Wu, Qi Shan, Li Fuxin(参考訳) 我々は、ポイントクラウドベースのディープニューラルネットワークアーキテクチャのための新しいビルディングブロックであるpointconvformerを紹介する。 一般化理論に着想を得たPointConvFormerは、フィルタ重みが相対的な位置のみに基づく点畳み込みと、特徴に基づく注意を利用する変換器を組み合わせた。 PointConvFormerでは、近所の点間の特徴差が畳み込み重みを再重み付けする指標となる。 そこで我々は, 点畳み込み操作から不変点を保存し, 一方, 点畳み込み操作において, 周辺領域の関連点の選択に注意を払っている。 PointConvFormerの有効性を検証するために、ScanNet、SemanticKitti、FlyingThings3D、KITTIなどの複数のデータセットを用いて、ポイントクラウド上のセマンティックセグメンテーションとシーンフロー推定タスクを実験した。 その結果,pointconvformerは,従来の畳み込み,正規トランスフォーマー,voxelized sparse 畳み込みを,より小さく,計算効率の良いネットワークで大幅に上回ることがわかった。 可視化では、PointConvFormerは平面上の畳み込みと同様に機能し、一方、近傍の選択効果は物体の境界に強く、両方の世界で最高のものを得たことを示している。

We introduce PointConvFormer, a novel building block for point cloud based deep neural network architectures. Inspired by generalization theory, PointConvFormer combines ideas from point convolution, where filter weights are only based on relative position, and Transformers which utilizes feature-based attention. In PointConvFormer, feature difference between points in the neighborhood serves as an indicator to re-weight the convolutional weights. Hence, we preserved the invariances from the point convolution operation whereas attention is used to select relevant points in the neighborhood for convolution. To validate the effectiveness of PointConvFormer, we experiment on both semantic segmentation and scene flow estimation tasks on point clouds with multiple datasets including ScanNet, SemanticKitti, FlyingThings3D and KITTI. Our results show that PointConvFormer substantially outperforms classic convolutions, regular transformers, and voxelized sparse convolution approaches with smaller, more computationally efficient networks. Visualizations show that PointConvFormer performs similarly to convolution on flat surfaces, whereas the neighborhood selection effect is stronger on object boundaries, showing that it got the best of both worlds.
翻訳日:2022-08-08 12:17:45 公開日:2022-08-04
# latte: 言語軌跡トランスフォーマー

LaTTe: Language Trajectory TransformEr ( http://arxiv.org/abs/2208.02918v1 )

ライセンス: Link先を確認
Arthur Bucker, Luis Figueredo, Sami Haddadin, Ashish Kapoor, Shuang Ma, Rogerio Bonatti(参考訳) 自然言語は人間の意図を表現する最も直感的な方法の1つである。 しかし、命令やコマンドをロボットの動き生成や現実世界への展開に翻訳することは、容易な作業ではない。 実際、ロボットに固有の低レベルの幾何学的およびキノダイナミックな制約と人間の高レベルの意味的情報の組み合わせは、タスク設計の問題に新たな課題を生じさせます。 この作業は、以前のタスクやロボット情報に関する制約を減らした言語コマンドを使用して、汎用的な3Dロボット軌道を修正可能な、柔軟な言語ベースのフレームワークを提案する。 事前学習した言語モデルを利用して、自然言語入力と文脈画像から3次元軌跡の変化をマッピングする自動回帰変換器を用いる。 シミュレーションや実生活実験を通じて、複数のロボットプラットフォームやコンテキストの軌跡の形状や速度を変更することで、モデルが人間の意図に従うことができることを示した。 この研究は、ロボット工学のための大規模なトレーニング済みの基礎モデルを構築するための一歩を踏み出し、そのようなモデルが人間と機械の間のより直感的で柔軟な相互作用をいかに生み出すかを示す。 Codebase は https://github.com/arthurfenderbucker/NL_trajectory_reshaper で入手できる。

Natural language is one of the most intuitive ways to express human intent. However, translating instructions and commands towards robotic motion generation, and deployment in the real world, is far from being an easy task. Indeed, combining robotic's inherent low-level geometric and kinodynamic constraints with human's high-level semantic information reinvigorates and raises new challenges to the task-design problem -- typically leading to task or hardware specific solutions with a static set of action targets and commands. This work instead proposes a flexible language-based framework that allows to modify generic 3D robotic trajectories using language commands with reduced constraints about prior task or robot information. By taking advantage of pre-trained language models, we employ an auto-regressive transformer to map natural language inputs and contextual images into changes in 3D trajectories. We show through simulations and real-life experiments that the model can successfully follow human intent, modifying the shape and speed of trajectories for multiple robotic platforms and contexts. This study takes a step into building large pre-trained foundational models for robotics and shows how such models can create more intuitive and flexible interactions between human and machines. Codebase available at: https://github.com/arthurfenderbucker/NL_trajectory_reshaper.
翻訳日:2022-08-08 12:07:48 公開日:2022-08-04
# MOVE: 組み込み外部機能による効果的で有害なオーナシップ検証

MOVE: Effective and Harmless Ownership Verification via Embedded External Features ( http://arxiv.org/abs/2208.02820v1 )

ライセンス: Link先を確認
Yiming Li, Linghui Zhu, Xiaojun Jia, Yang Bai, Yong Jiang, Shu-Tao Xia, Xiaochun Cao(参考訳) 現在、ディープニューラルネットワーク(DNN)は様々なアプリケーションで広く採用されている。 商業的価値にもかかわらず、優れたDNNのトレーニングにはリソースがかかります。 したがって、よく訓練されたモデルは所有者にとって貴重な知的財産である。 しかし,近年の研究では,モデルに問い合わせることしかできない場合でも,敵が被害者モデルの関数類似のコピーを入手できるモデル盗難の脅威が明らかになった。 本稿では,新たなセキュリティリスクを導入することなく,異なる種類のモデル盗みを同時に防ぐための効果的かつ無害なモデル所有検証(move)を提案する。 一般に、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証することによって、所有権検証を行う。 具体的には、いくつかのトレーニングサンプルをスタイル転送でテンパリングすることで、外部機能を組み込む。 次にメタ分類器をトレーニングして、モデルが被害者から盗まれているかどうかを判断します。 このアプローチは、盗まれたモデルが被害者モデルによって学習された機能に関する知識を含むべきであるという理解から着想を得ている。 特に,ホワイトボックスとブラックボックスの両方の設定下でmoveメソッドを開発し,モデル保護を包括的に提供する。 ベンチマークデータセットの大規模な実験により,本手法の有効性と潜在的な適応攻撃に対する耐性が検証された。 本手法の主な実験を再現するためのコードは \url{https://github.com/thuyimingli/move} で入手できる。

Currently, deep neural networks (DNNs) are widely adopted in different applications. Despite its commercial values, training a well-performed DNN is resource-consuming. Accordingly, the well-trained model is valuable intellectual property for its owner. However, recent studies revealed the threats of model stealing, where the adversaries can obtain a function-similar copy of the victim model, even when they can only query the model. In this paper, we propose an effective and harmless model ownership verification (MOVE) to defend against different types of model stealing simultaneously, without introducing new security risks. In general, we conduct the ownership verification by verifying whether a suspicious model contains the knowledge of defender-specified external features. Specifically, we embed the external features by tempering a few training samples with style transfer. We then train a meta-classifier to determine whether a model is stolen from the victim. This approach is inspired by the understanding that the stolen models should contain the knowledge of features learned by the victim model. In particular, we develop our MOVE method under both white-box and black-box settings to provide comprehensive model protection. Extensive experiments on benchmark datasets verify the effectiveness of our method and its resistance to potential adaptive attacks. The codes for reproducing the main experiments of our method are available at \url{https://github.com/THUYimingLi/MOVE}.
翻訳日:2022-08-08 12:06:04 公開日:2022-08-04
# 軌跡残留点検出によるファジィ論理に基づく地図マッチング法の改良

Improving Fuzzy-Logic based Map-Matching Method with Trajectory Stay-Point Detection ( http://arxiv.org/abs/2208.02881v1 )

ライセンス: Link先を確認
Minoo Jafarlou, Omid Mahdi Ebadati E., Hassan Naderi(参考訳) 多くのアプリケーションが素早く正確な移動物体の位置を要求するため、現代における移動物体の追跡と処理の必要性は徐々に増大する。 マップマッチング手法は,対応する道路上の移動物体点と一致する前処理技術として用いられる。 しかし、GPS軌道データセットのほとんどが静止点の不規則性を含んでいるため、地図マッチングアルゴリズムは無関係な道路へのミスマッチ軌道を作る。 したがって、GPSトラジェクトリデータセットの静止領域を決定することは、より正確なマッチングとより迅速なアプローチをもたらす。 本研究では,DBSCANを用いたトラジェクトリデータセット内の静止点をクラスタリングし,冗長データを排除し,処理時間を短縮することでマップマッチングアルゴリズムの効率を向上させる。 ファジィ論理に基づくマップマッチングアルゴリズムと比較し,基底真理データセットを用いて提案手法の性能と正確性を検討した。 幸いなことに,従来のファジィ論理に基づくマップマッチング手法と同じ精度でデータサイズを27.39%削減し,処理時間を8.9%削減した。

The requirement to trace and process moving objects in the contemporary era gradually increases since numerous applications quickly demand precise moving object locations. The Map-matching method is employed as a preprocessing technique, which matches a moving object point on a corresponding road. However, most of the GPS trajectory datasets include stay-points irregularity, which makes map-matching algorithms mismatch trajectories to irrelevant streets. Therefore, determining the stay-point region in GPS trajectory datasets results in better accurate matching and more rapid approaches. In this work, we cluster stay-points in a trajectory dataset with DBSCAN and eliminate redundant data to improve the efficiency of the map-matching algorithm by lowering processing time. We reckoned our proposed method's performance and exactness with a ground truth dataset compared to a fuzzy-logic based map-matching algorithm. Fortunately, our approach yields 27.39% data size reduction and 8.9% processing time reduction with the same accurate results as the previous fuzzy-logic based map-matching approach.
翻訳日:2022-08-08 12:05:11 公開日:2022-08-04
# 空間分割問題に対するmemeticアルゴリズム

Memetic algorithms for Spatial Partitioning problems ( http://arxiv.org/abs/2208.02867v1 )

ライセンス: Link先を確認
Subhodip Biswas, Fanglan Chen, Zhiqian Chen, Chang-Tien Lu and Naren Ramakrishnan(参考訳) 空間最適化問題(SOP)は、決定変数、目的変数、および/または制約関数を管理する空間関係によって特徴づけられる。 本稿では、離散空間単位の存在による組合せ問題である空間分割と呼ばれる特定の種類のSOPに焦点を当てる。 厳密な最適化手法は問題のサイズ、特に実践可能な時間制限の範囲内ではスケールしない。 このようなSOPを解くために,人口ベースメタヒューリスティックスを開発する動機となった。 しかし、これらの人口ベース手法で用いられる探索演算子は、主に実パラメータ連続最適化問題のために設計されている。 これらの手法をSOPに適用するために、空間制約を保ちながら離散探索空間を効率的に探索する空間認識探索演算子の設計にドメイン知識を適用する。 そこで我々は,Swarm-based spatial memetic algorithm (SPATIAL) と呼ばれる単純だが効果的なアルゴリズムを提案し,それを校内(再制限)問題で検証した。 SPATIALの性能を評価するために,実世界のデータセットについて詳細な実験を行った。 また,SPATIALの個々の構成要素の役割を理解するためのアブレーション研究も行われている。 さらに,SPATIALが現実の計画プロセスにどのように役立つか,その異なるシナリオへの適用性について論じ,今後の研究方向性を示唆する。

Spatial optimization problems (SOPs) are characterized by spatial relationships governing the decision variables, objectives, and/or constraint functions. In this article, we focus on a specific type of SOP called spatial partitioning, which is a combinatorial problem due to the presence of discrete spatial units. Exact optimization methods do not scale with the size of the problem, especially within practicable time limits. This motivated us to develop population-based metaheuristics for solving such SOPs. However, the search operators employed by these population-based methods are mostly designed for real-parameter continuous optimization problems. For adapting these methods to SOPs, we apply domain knowledge in designing spatially-aware search operators for efficiently searching through the discrete search space while preserving the spatial constraints. To this end, we put forward a simple yet effective algorithm called swarm-based spatial memetic algorithm (SPATIAL) and test it on the school (re)districting problem. Detailed experimental investigations are performed on real-world datasets to evaluate the performance of SPATIAL. Besides, ablation studies are performed to understand the role of the individual components of SPATIAL. Additionally, we discuss how SPATIAL~is helpful in the real-life planning process and its applicability to different scenarios and motivate future research directions.
翻訳日:2022-08-08 12:04:55 公開日:2022-08-04
# 相互作用混合とマッチング:条件付き階層型GANとマルチホットクラス埋め込みを用いた密接な相互作用の合成

Interaction Mix and Match: Synthesizing Close Interaction using Conditional Hierarchical GAN with Multi-Hot Class Embedding ( http://arxiv.org/abs/2208.00774v2 )

ライセンス: Link先を確認
Aman Goel, Qianhui Men, Edmond S. L. Ho(参考訳) マルチキャラクタインタラクションの合成は、キャラクタ間の複雑で多様なインタラクションのため、難しいタスクである。 特に、踊りやケンカなどの密接な相互作用を生成するには、文字間の正確な時空間的アライメントが必要である。 マルチキャラクタインタラクションの生成に関する既存の作業は、与えられたシーケンスに対して単一のタイプのリアクティブモーションを生成することに焦点を当てている。 本稿では,異なる種類の密接な相互作用を混合しマッチングすることにより,与えられたデータセットに表示されないリアルな人間の反応運動を生成する新しい方法を提案する。 本稿では,複数のホットクラスを組込みした条件付き階層型生成型逆ネットワークを提案する。 ノイズ(奥行きベース)と高品質(モキャップベース)の相互作用データセットの両方で実験を行う。 定量的および定性的な結果は,提案手法が与えられたデータセットの最先端手法より優れていることを示している。 また、この領域における将来の研究を促進するために、現実的なリアクティブな動きを持つ拡張データセットも提供します。 コードはhttps://github.com/Aman-Goel1/IMMで入手できる。

Synthesizing multi-character interactions is a challenging task due to the complex and varied interactions between the characters. In particular, precise spatiotemporal alignment between characters is required in generating close interactions such as dancing and fighting. Existing work in generating multi-character interactions focuses on generating a single type of reactive motion for a given sequence which results in a lack of variety of the resultant motions. In this paper, we propose a novel way to create realistic human reactive motions which are not presented in the given dataset by mixing and matching different types of close interactions. We propose a Conditional Hierarchical Generative Adversarial Network with Multi-Hot Class Embedding to generate the Mix and Match reactive motions of the follower from a given motion sequence of the leader. Experiments are conducted on both noisy (depth-based) and high-quality (MoCap-based) interaction datasets. The quantitative and qualitative results show that our approach outperforms the state-of-the-art methods on the given datasets. We also provide an augmented dataset with realistic reactive motions to stimulate future research in this area. The code is available at https://github.com/Aman-Goel1/IMM
翻訳日:2022-08-07 14:26:34 公開日:2022-08-04
# ニューラルネットワークを用いたCOVID-19コンパートメントモデルのシミュレーションと応用

Simulation and application of COVID-19 compartment model using physic-informed neural network ( http://arxiv.org/abs/2208.02433v1 )

ライセンス: Link先を確認
Jinhuan Ke, Jiahao Ma, Xiyu Yin(参考訳) 本研究では,SVEIDRモデルとその変異体(Aged, Vaccination-structured model)を導入し,年齢の異なるグループとワクチン接種状況に対する社会的接触の効果をエンコードする。 次にシミュレーションと実世界のデータの両方にPhysic-Informed Neural Networkを実装した。 ニューラルネットワークから得られたcovid-19の拡散および予測分析を含む結果が論文に示されている。

In this work, SVEIDR model and its variants (Aged, Vaccination-structured models) are introduced to encode the effect of social contact for different age groups and vaccination status. Then we implement the Physic-Informed Neural Network on both simulation and real-world data. Results including the spread and forecasting analysis of COVID-19 learned from the neural network are shown in the paper.
翻訳日:2022-08-05 13:15:18 公開日:2022-08-04
# DL-DRL:マルチUAVの大規模タスクスケジューリングのための2層深層強化学習手法

DL-DRL: A double-layer deep reinforcement learning approach for large-scale task scheduling of multi-UAV ( http://arxiv.org/abs/2208.02447v1 )

ライセンス: Link先を確認
Xiao Mao, Guohua Wu, and Mingfeng Fan(参考訳) 本稿では,無人航空機(UAV)のタスクスケジューリング問題に対する深部強化学習(DRL)について検討する。 現在のアプローチでは、タスクのスケールが拡大し、ヒューリスティックなルールが手動設計を必要とするため、計算時間は急速に増加する一方、厳密でヒューリスティックなアルゴリズムを用いるのが一般的である。 自己学習法として、DRLは手書きのルールなしで高品質なソリューションを迅速に得ることができる。 しかし,大規模なタスクを抱える状況では,DRLモデルのトレーニングが不安定になる。 本研究では, 大規模問題に対処するため, 従来の問題をタスクアロケーションとUAV経路計画サブプロブレムに分離する分割・征服型フレームワーク(DCF)を開発し, それぞれ上層と下層に解決した。 DCFに基づく2層強化学習手法 (DL-DRL) を提案し, 上位層DRLモデルが適切なUAVにタスクを割り当てるように設計され, 下位層DRLモデル (AM) が有効なUAV経路を生成する。 上層モデルが下層モデルの入力データ分布を決定し,その報酬はトレーニング中に下層モデルを介して計算されるので,トレーニングプロセス全体が事前トレーニング,集中トレーニング,代替トレーニングプロセスで構成された対話型トレーニング戦略(ITS)を開発する。 実験結果から,我々のDL-DRLは主流の学習法や従来の手法よりも優れており,特に大規模問題において最先端のヒューリスティック手法(OR-Tools)と競合することがわかった。 DL-DRLの大幅な一般化性は、より大きな問題に対して学習したモデルをテストすることによって検証される。 さらに、アブレーション調査では、私たちのITSがモデルパフォーマンスとトレーニング期間の妥協点に達することが示されています。

This paper studies deep reinforcement learning (DRL) for the task scheduling problem of multiple unmanned aerial vehicles (UAVs). Current approaches generally use exact and heuristic algorithms to solve the problem, while the computation time rapidly increases as the task scale grows and heuristic rules need manual design. As a self-learning method, DRL can obtain a high-quality solution quickly without hand-engineered rules. However, the huge decision space makes the training of DRL models becomes unstable in situations with large-scale tasks. In this work, to address the large-scale problem, we develop a divide and conquer-based framework (DCF) to decouple the original problem into a task allocation and a UAV route planning subproblems, which are solved in the upper and lower layers, respectively. Based on DCF, a double-layer deep reinforcement learning approach (DL-DRL) is proposed, where an upper-layer DRL model is designed to allocate tasks to appropriate UAVs and a lower-layer DRL model [i.e., the widely used attention model (AM)] is applied to generate viable UAV routes. Since the upper-layer model determines the input data distribution of the lower-layer model, and its reward is calculated via the lower-layer model during training, we develop an interactive training strategy (ITS), where the whole training process consists of pre-training, intensive training, and alternate training processes. Experimental results show that our DL-DRL outperforms mainstream learning-based and most traditional methods, and is competitive with the state-of-the-art heuristic method [i.e., OR-Tools], especially on large-scale problems. The great generalizability of DL-DRL is also verified by testing the model learned for a problem size to larger ones. Furthermore, an ablation study demonstrates that our ITS can reach a compromise between the model performance and training duration.
翻訳日:2022-08-05 13:15:11 公開日:2022-08-04
# 東京イオンオン:大気データのクエリに基づく生成音化

Tokyo Kion-On: Query-Based Generative Sonification of Atmospheric Data ( http://arxiv.org/abs/2208.02494v1 )

ライセンス: Link先を確認
Stefano Kalonaris(参考訳) 環境の懸念が高まる中、データのインタラクティブな表示は、気候変動が地球の生態系の整合性に与える影響を探索し理解するための重要なツールとなっている。 本稿は,1876年から2021年までの東京の気温の問合せに基づく音化モデルである東京イオンオンについて述べる。 このシステムは、LSTMとして知られる繰り返しニューラルネットワークアーキテクチャを使用して、日本のメロディの小さなデータセットに基づいて訓練され、その大気データに基づいて調整される。 モデルの実装を説明した後、音楽結果の簡単な比較図を示し、露出したハイパーパラメータがデータのアクティブかつ非線形な探索をいかに促進できるかについて議論する。

Amid growing environmental concerns, interactive displays of data constitute an important tool for exploring and understanding the impact of climate change on the planet's ecosystemic integrity. This paper presents Tokyo kion-on, a query-based sonification model of Tokyo's air temperature from 1876 to 2021. The system uses a recurrent neural network architecture known as LSTM with attention trained on a small dataset of Japanese melodies and conditioned upon said atmospheric data. After describing the model's implementation, a brief comparative illustration of the musical results is presented, along with a discussion on how the exposed hyper-parameters can promote active and non-linear exploration of the data.
翻訳日:2022-08-05 13:14:37 公開日:2022-08-04
# 量子制御のためのニューラルネットワーク加速器

Neural network accelerator for quantum control ( http://arxiv.org/abs/2208.02645v1 )

ライセンス: Link先を確認
David Xu, A. Bar{\i}\c{s} \"Ozg\"uler, Giuseppe Di Guglielmo, Nhan Tran, Gabriel N. Perdue, Luca Carloni, Farah Fahim(参考訳) 現在の技術を用いた実用的な量子コンピューティングの実装には効率的な量子制御が不可欠である。 最適制御パラメータを決定する従来のアルゴリズムは計算コストが高く、シミュレーションの外での使用をほとんど排除している。 ルックアップテーブルとして構成された既存のハードウェアソリューションは不正確でコストがかかる。 従来のツールの結果を近似する機械学習モデルを設計すれば、より効率的な方法が作成できる。 このようなモデルは、量子システムで使用するハードウェアアクセラレーターに合成することができる。 本研究では,最適なパルスパラメータを予測する機械学習アルゴリズムを提案する。 このアルゴリズムは低リソースFPGAに適合し、175 nsの待ち時間と5 nsのパイプライン間隔で$~>~$0.99のゲート忠実度で推論を行うのに十分軽量である。 長期的には、そのような加速器は従来のコンピュータでは動作できない量子コンピューティングハードウェアの近くで使用することができ、低温環境以外で大きなデータ帯域幅を発生させることなく、低レイテンシで適切なコストで量子制御を可能にする。

Efficient quantum control is necessary for practical quantum computing implementations with current technologies. Conventional algorithms for determining optimal control parameters are computationally expensive, largely excluding them from use outside of the simulation. Existing hardware solutions structured as lookup tables are imprecise and costly. By designing a machine learning model to approximate the results of traditional tools, a more efficient method can be produced. Such a model can then be synthesized into a hardware accelerator for use in quantum systems. In this study, we demonstrate a machine learning algorithm for predicting optimal pulse parameters. This algorithm is lightweight enough to fit on a low-resource FPGA and perform inference with a latency of 175 ns and pipeline interval of 5 ns with $~>~$0.99 gate fidelity. In the long term, such an accelerator could be used near quantum computing hardware where traditional computers cannot operate, enabling quantum control at a reasonable cost at low latencies without incurring large data bandwidths outside of the cryogenic environment.
翻訳日:2022-08-05 13:14:25 公開日:2022-08-04
# 多変量時系列を用いた生成型逆ネットワークの視覚的評価

Visually Evaluating Generative Adversarial Networks Using Itself under Multivariate Time Series ( http://arxiv.org/abs/2208.02649v1 )

ライセンス: Link先を確認
Qilong Pan(参考訳) 特に生成モデルがGAN(Generative Adversarial Networks)である場合,生成したマルチ変数時系列(MTS)の良さを視覚的に評価することは困難である。 MTS生成タスクにおいて,GANを視覚的に評価するための一般フレームワークであるGaussian GANを提案する。 まず,多変数コルモゴロフ・スミルノフ(MKS)テストにおいて,GANのアーキテクチャを明示的に再構築することにより変換関数を求める。 第二に、変換 MST の正規性テストを行い、ガウス GAN が MKS テストの変換関数として機能する。 正規性テストを簡単にするために,chi平方分布を用いた効率的な可視化手法を提案する。 実験では,UniMiBデータセットを用いて,ガウスGANとチスカウレ視覚化を用いた正規性試験が有効で信頼性が高いことを示す実証的証拠を提供する。

Visually evaluating the goodness of generated Multivariate Time Series (MTS) are difficult to implement, especially in the case that the generative model is Generative Adversarial Networks (GANs). We present a general framework named Gaussian GANs to visually evaluate GANs using itself under the MTS generation task. Firstly, we attempt to find the transformation function in the multivariate Kolmogorov Smirnov (MKS) test by explicitly reconstructing the architecture of GANs. Secondly, we conduct the normality test of transformed MST where the Gaussian GANs serves as the transformation function in the MKS test. In order to simplify the normality test, an efficient visualization is proposed using the chi square distribution. In the experiment, we use the UniMiB dataset and provide empirical evidence showing that the normality test using Gaussian GANs and chi sqaure visualization is effective and credible.
翻訳日:2022-08-05 13:14:10 公開日:2022-08-04
# 音と音が与える影響: サウンドガイドによる表現と探索

Impact Makes a Sound and Sound Makes an Impact: Sound Guides Representations and Explorations ( http://arxiv.org/abs/2208.02680v1 )

ライセンス: Link先を確認
Xufeng Zhao, Cornelius Weber, Muhammad Burhan Hafez, Stefan Wermter(参考訳) 音は、モバイルデバイスに設置できる小型で安価なセンサーと接触することなく、知覚しやすくながら、現実世界でもっとも有意義で豊富なモダリティの1つだ。 深層学習は複数の感覚入力から情報を抽出することができるが、ロボット動作の制御と学習には音がほとんど使われていない。 教師なし強化学習では、エージェントが積極的に経験を収集し、自己指導的な方法で表現とポリシーを共同で学習することが期待される。 物理に基づく音響シミュレーションによる現実的なロボット操作シナリオを構築し,ISCM(Intrinsic Sound Curiosity Module)を提案する。 iscmは強化学習者にフィードバックを提供し、堅牢な表現を学び、より効率的な探索行動に報いる。 本研究は,事前学習中に音を有効にし,適応中に無力化する実験を行い,iscmが学習した表現が,視覚のみのベースラインと事前学習されたポリシーで学習プロセスを高速化できることを示す。

Sound is one of the most informative and abundant modalities in the real world while being robust to sense without contacts by small and cheap sensors that can be placed on mobile devices. Although deep learning is capable of extracting information from multiple sensory inputs, there has been little use of sound for the control and learning of robotic actions. For unsupervised reinforcement learning, an agent is expected to actively collect experiences and jointly learn representations and policies in a self-supervised way. We build realistic robotic manipulation scenarios with physics-based sound simulation and propose the Intrinsic Sound Curiosity Module (ISCM). The ISCM provides feedback to a reinforcement learner to learn robust representations and to reward a more efficient exploration behavior. We perform experiments with sound enabled during pre-training and disabled during adaptation, and show that representations learned by ISCM outperform the ones by vision-only baselines and pre-trained policies can accelerate the learning process when applied to downstream tasks.
翻訳日:2022-08-05 13:13:55 公開日:2022-08-04
# 未知チャネル統計に基づくRFフィンガープリント抽出のためのアンタングル表現学習

Disentangled Representation Learning for RF Fingerprint Extraction under Unknown Channel Statistics ( http://arxiv.org/abs/2208.02724v1 )

ライセンス: Link先を確認
Renjie Xie, Wei Xu, Jiabao Yu, Aiqun Hu, Derrick Wing Kwan Ng, and A. Lee Swindlehurst(参考訳) デバイスの高周波指紋-(rff)に適用される深層学習(dl)は、その異常な分類性能のため、物理層認証において大きな注目を集めている。 従来のDL-RFF技術は、最大推定値~(MLE)を用いて訓練され、トレーニングデータセットに埋め込まれたチャネル統計値に過度に適合する傾向にある。 これにより、可能なすべての無線チャネル環境の特性をキャプチャする十分なトレーニングデータ収集が困難であるため、実用的応用が制限される。 この課題に対処するために,我々は,まず入力信号をデバイス関連成分とデバイス関連成分に分解し,逆学習を通じてデバイス関連成分に分解する,ディエンタングル表現学習(drl)のdlフレームワークを提案する。 そして、後続のRFF抽出器を訓練するためのトレーニングデータセット内にこれらの2つの部分をシャッフルすることで、一連の拡張信号を生成する。 提案フレームワークにおける暗黙のデータ拡張は、未知のチャネルから追加のデータを集めることなく、デバイス非関連チャネル統計の過剰フィッティングを避けるために、rff抽出器に正規化を課す。 実験により、DR-RFFと呼ばれる提案手法は、直接視線〜(LoS)伝搬経路が支配的な単純な環境において、分散マルチパスフェーディングチャネルなどの未知の複雑な伝搬環境への一般化可能性において、従来の手法よりも優れていることが示された。

Deep learning (DL) applied to a device's radio-frequency fingerprint~(RFF) has attracted significant attention in physical-layer authentications due to its extraordinary classification performance. Conventional DL-RFF techniques, trained by adopting maximum likelihood estimation~(MLE), tend to overfit the channel statistics embedded in the training dataset. This restricts their practical applications as it is challenging to collect sufficient training data capturing the characteristics of all possible wireless channel environments. To address this challenge, we propose a DL framework of disentangled representation learning~(DRL) that first learns to factor the input signals into a device-relevant component and a device-irrelevant component via adversarial learning. Then, it synthesizes a set of augmented signals by shuffling these two parts within a given training dataset for training of subsequent RFF extractor. The implicit data augmentation in the proposed framework imposes a regularization on the RFF extractor to avoid the possible overfitting of device-irrelevant channel statistics, without collecting additional data from unknown channels. Experiments validate that the proposed approach, referred to as DR-RFF, outperforms conventional methods in terms of generalizability to unknown complicated propagation environments, e.g., dispersive multipath fading channels, even though all the training data are collected in a simple environment with dominated direct line-of-sight~(LoS) propagation paths.
翻訳日:2022-08-05 13:13:35 公開日:2022-08-04
# エージェントベースシステムの観察から学ぶ相互作用変数とカーネル

Learning Interaction Variables and Kernels from Observations of Agent-Based Systems ( http://arxiv.org/abs/2208.02758v1 )

ライセンス: Link先を確認
Jinchao Feng, Mauro Maggioni, Patrick Martin, Ming Zhong(参考訳) 多くの分野にわたる力学系は相互作用する粒子やエージェントとしてモデル化され、非常に少数の変数(例えば、相間の距離、相の相差など)に依存する相互作用規則や、エージェントの対の状態の関数に依存する。 しかし、これらの相互作用ルールは、複雑な創発的振る舞い(クラスタリング、群れ、群れなど)を持つ自己組織化されたダイナミクスを生成することができる。 本研究では,エージェントの軌跡に沿った状態や速度を観測することにより,相互作用カーネルが依存する変数と相互作用カーネル自体が非パラメトリックな方法で生成する学習手法を提案する。 これにより、高次元の観測データ(すべてのエージェントの状態と速度)から次元の呪いを避ける効果的な次元減少が得られる。 我々は,本手法の学習能力を,様々な一階対話システムに示す。

Dynamical systems across many disciplines are modeled as interacting particles or agents, with interaction rules that depend on a very small number of variables (e.g. pairwise distances, pairwise differences of phases, etc...), functions of the state of pairs of agents. Yet, these interaction rules can generate self-organized dynamics, with complex emergent behaviors (clustering, flocking, swarming, etc.). We propose a learning technique that, given observations of states and velocities along trajectories of the agents, yields both the variables upon which the interaction kernel depends and the interaction kernel itself, in a nonparametric fashion. This yields an effective dimension reduction which avoids the curse of dimensionality from the high-dimensional observation data (states and velocities of all the agents). We demonstrate the learning capability of our method to a variety of first-order interacting systems.
翻訳日:2022-08-05 13:13:09 公開日:2022-08-04
# 完全同型暗号を用いたプライバシー保護型カオス極端学習機

Privacy-Preserving Chaotic Extreme Learning Machine with Fully Homomorphic Encryption ( http://arxiv.org/abs/2208.02587v1 )

ライセンス: Link先を確認
Syed Imtiaz Ahamed and Vadlamani Ravi(参考訳) マシンラーニングとディープラーニングモデルには、トレーニングプロセスに多くのデータが必要です。いくつかのシナリオでは、関係する顧客情報など、モデル構築のアウトソースをためらうような、機密性の高いデータが存在するかも知れません。 差別化プライバシや同型暗号化、セキュアなマルチパーティ計算といったプライバシ保護技術は、さまざまな機械学習アルゴリズムやディープラーニングアルゴリズムと統合して、データとモデルにセキュリティを提供することができる。 本稿では,完全準同型暗号を用いたカオス型エクストリームラーニングマシンとその暗号化形式を提案し,一様分布ではなくロジスティックマップを用いて重みとバイアスを生成する。 提案手法は,ほとんどのデータセットにおいて,従来のエクストリーム学習マシンとよくあるいは類似している。

The Machine Learning and Deep Learning Models require a lot of data for the training process, and in some scenarios, there might be some sensitive data, such as customer information involved, which the organizations might be hesitant to outsource for model building. Some of the privacy-preserving techniques such as Differential Privacy, Homomorphic Encryption, and Secure Multi-Party Computation can be integrated with different Machine Learning and Deep Learning algorithms to provide security to the data as well as the model. In this paper, we propose a Chaotic Extreme Learning Machine and its encrypted form using Fully Homomorphic Encryption where the weights and biases are generated using a logistic map instead of uniform distribution. Our proposed method has performed either better or similar to the Traditional Extreme Learning Machine on most of the datasets.
翻訳日:2022-08-05 13:11:18 公開日:2022-08-04
# マルチモーダルml駆動ehealthアプリケーションのエッジ中心最適化

Edge-centric Optimization of Multi-modal ML-driven eHealth Applications ( http://arxiv.org/abs/2208.02597v1 )

ライセンス: Link先を確認
Anil Kanduri, Sina Shahhosseini, Emad Kasaeyan Naeini, Hamidreza Alikhani, Pasi Liljeberg, Nikil Dutt, and Amir M. Rahmani(参考訳) スマートeHealthアプリケーションは、リモートセンシング、継続的監視、データ分析を通じて、パーソナライズされた予防的なデジタルヘルスケアサービスをクライアントに提供する。 スマートeHealthアプリケーションは、複数のモードからの入力データを検知し、エッジやクラウドノードにデータを送信し、計算集約機械学習(ML)アルゴリズムでデータを処理します。 ノイズの多い入力データの連続ストリームによる実行時の変動、信頼性の低いネットワーク接続、MLアルゴリズムの計算要求、センサエッジクラウド層間の計算配置の選択は、ML駆動のeHealthアプリケーションの効率に影響を与える。 本章では,機械学習によるeHealthアプリケーションのためのエッジ中心の計算配置,精度-性能トレードオフの探索,および層間共最適化について述べる。 本稿では、センサエッジクラウドフレームワークを用いて、日常的な状況下でのスマートeHealthアプリケーションの実例を、客観的な痛み評価ケーススタディとして示す。

Smart eHealth applications deliver personalized and preventive digital healthcare services to clients through remote sensing, continuous monitoring, and data analytics. Smart eHealth applications sense input data from multiple modalities, transmit the data to edge and/or cloud nodes, and process the data with compute intensive machine learning (ML) algorithms. Run-time variations with continuous stream of noisy input data, unreliable network connection, computational requirements of ML algorithms, and choice of compute placement among sensor-edge-cloud layers affect the efficiency of ML-driven eHealth applications. In this chapter, we present edge-centric techniques for optimized compute placement, exploration of accuracy-performance trade-offs, and cross-layered sense-compute co-optimization for ML-driven eHealth applications. We demonstrate the practical use cases of smart eHealth applications in everyday settings, through a sensor-edge-cloud framework for an objective pain assessment case study.
翻訳日:2022-08-05 13:11:04 公開日:2022-08-04
# 格子ゲージ理論におけるディラック方程式を解くためのニューラルネットワークプリコンディショナー

Neural-network preconditioners for solving the Dirac equation in lattice gauge theory ( http://arxiv.org/abs/2208.02728v1 )

ライセンス: Link先を確認
Salvatore Cal\`i, Daniel C. Hackett, Yin Lin, Phiala E. Shanahan, Brian Xiao(参考訳) この研究は、格子量子場理論におけるウィルソン・ディラック正規方程式の解を加速するためのニューラルネットワークベースのプレコンディショナーを開発する。 このアプローチは臨界点付近の2相格子シュウィンガーモデルに対して実装されている。 本システムでは, 共役勾配解器の収束を, 未条件系の解や, 偶数あるいは不完全コレスキー分解に基づく従来手法の解と比較して加速させることが, 収束に必要な反復数および/または複素演算の削減によって測定された。 また, 格子体積が小さいアンサンブルに訓練されたプリコンディショナーは, 性能の低下を最小限に抑えながら, 格子体積の倍数のアンサンブルのプリコンディショナーを構築することができることを示した。 このボリューム転送技術は、トレーニングコストを償却し、より大きい格子体積と4次元の格子場理論計算への事前コンディショナーのスケーリングへの道筋を示す。

This work develops neural-network--based preconditioners to accelerate solution of the Wilson-Dirac normal equation in lattice quantum field theories. The approach is implemented for the two-flavor lattice Schwinger model near the critical point. In this system, neural-network preconditioners are found to accelerate the convergence of the conjugate gradient solver compared with the solution of unpreconditioned systems or those preconditioned with conventional approaches based on even-odd or incomplete Cholesky decompositions, as measured by reductions in the number of iterations and/or complex operations required for convergence. It is also shown that a preconditioner trained on ensembles with small lattice volumes can be used to construct preconditioners for ensembles with many times larger lattice volumes, with minimal degradation of performance. This volume-transferring technique amortizes the training cost and presents a pathway towards scaling such preconditioners to lattice field theory calculations with larger lattice volumes and in four dimensions.
翻訳日:2022-08-05 13:10:46 公開日:2022-08-04
# k-meansクラスタリングアルゴリズムとディープラーニングによるセマンティクスセグメンテーションモデルを用いた熱帯雨林地域の地すべり検出

Relict landslide detection in rainforest areas using a combination of k-means clustering algorithm and Deep-Learning semantic segmentation models ( http://arxiv.org/abs/2208.02693v1 )

ライセンス: Link先を確認
Guilherme P.B. Garcia and Carlos H. Grohmann and Lucas P. Soares and Mateus Espadoto(参考訳) 地すべりは破壊的かつ繰り返し発生する自然災害であり、生活や財産のリスクを表わしている。 地すべりに関する知識は、そのメカニズムを理解し、在庫地図を更新し、リスク評価を改善するために不可欠である。 しかし、熱帯地域では熱帯雨林の植生に覆われた地すべり地図が複雑である。 k-meansクラスタリングアルゴリズムが生成するデータセットを使用して,事前トレーニングステップを持つ,半自動的なリリート地すべり検出のための新しいcnnアプローチを提案する。 プレトレーニングで計算された重量は、CNNトレーニングプロセスの微調整に使用される。 CBERS-4A WPM画像を用いて,提案手法と標準手法の比較を行った。 セマンティックセグメンテーション用の3つのCNN(U-Net、FPN、Linknet)と2つの拡張データセットが使用される。 合計42種類のCNNがテストされている。 精度とリコールの値は、テストされた組み合わせと非常によく似ていた。 リコールは各組み合わせで75\%以上であったが、精度値は通常20\%以下であった。 偽陽性 (FP) はこれらの低精度値の原因となった。 提案手法の予測はより正確で正確な検出が可能であった。 本研究は, 雨林に覆われた地域において, 植生のスペクトル応答と森林伐採地との類似性に関連して, 地すべりの検出に限界があることを実証した。 地すべり痕の指標として一般的に用いられるシダ。

Landslides are destructive and recurrent natural disasters on steep slopes and represent a risk to lives and properties. Knowledge of relict landslides' location is vital to understand their mechanisms, update inventory maps and improve risk assessment. However, relict landslide mapping is complex in tropical regions covered with rainforest vegetation. A new CNN approach is proposed for semi-automatic detection of relict landslides, which uses a dataset generated by a k-means clustering algorithm and has a pre-training step. The weights computed in the pre-training are used to fine-tune the CNN training process. A comparison between the proposed and standard approaches is performed using CBERS-4A WPM images. Three CNNs for semantic segmentation are used (U-Net, FPN, Linknet) with two augmented datasets. A total of 42 combinations of CNNs are tested. Values of precision and recall were very similar between the combinations tested. Recall was higher than 75\% for every combination, but precision values were usually smaller than 20\%. False positives (FP) samples were addressed as the cause for these low precision values. Predictions of the proposed approach were more accurate and correctly detected more landslides. This work demonstrates that there are limitations for detecting relict landslides in areas covered with rainforest, mainly related to similarities between the spectral response of pastures and deforested areas with \textit{Gleichenella sp.} ferns, commonly used as an indicator of landslide scars.
翻訳日:2022-08-05 13:09:46 公開日:2022-08-04
# IPDAE:Lossy Point Cloud Geometry Compressionのためのパッチベースディープオートエンコーダの改良

IPDAE: Improved Patch-Based Deep Autoencoder for Lossy Point Cloud Geometry Compression ( http://arxiv.org/abs/2208.02519v1 )

ライセンス: Link先を確認
Kang You, Pan Gao and Qing Li(参考訳) ポイントクラウドは3Dコンテンツの重要な表現であり、仮想現実、混合現実、自動運転など多くの分野で広く利用されている。 データ内の点数の増大により、ポイントクラウドを効率的に圧縮する方法は難しい問題となる。 本稿では,エントロピー符号化のための学習可能なコンテキストモデル,セントロイド点をサンプリングするためのoctree符号化,統合圧縮・トレーニングプロセスなど,パッチベースのポイントクラウド圧縮に対する重要な改善点のセットを提案する。 さらに,再建時の点の均一性を改善するための対向ネットワークを提案する。 改良されたパッチベースのオートエンコーダは,小数点群と大規模点群の両方において,レート分散性能の点で最先端を上回っている。 さらに, 復元品質を確保しつつ, 短時間の圧縮時間を維持することも可能である。

Point cloud is a crucial representation of 3D contents, which has been widely used in many areas such as virtual reality, mixed reality, autonomous driving, etc. With the boost of the number of points in the data, how to efficiently compress point cloud becomes a challenging problem. In this paper, we propose a set of significant improvements to patch-based point cloud compression, i.e., a learnable context model for entropy coding, octree coding for sampling centroid points, and an integrated compression and training process. In addition, we propose an adversarial network to improve the uniformity of points during reconstruction. Our experiments show that the improved patch-based autoencoder outperforms the state-of-the-art in terms of rate-distortion performance, on both sparse and large-scale point clouds. More importantly, our method can maintain a short compression time while ensuring the reconstruction quality.
翻訳日:2022-08-05 13:09:23 公開日:2022-08-04
# TunaOil: 貯留層シミュレーションワークロードのチューニングアルゴリズム戦略

TunaOil: A Tuning Algorithm Strategy for Reservoir Simulation Workloads ( http://arxiv.org/abs/2208.02606v1 )

ライセンス: Link先を確認
Felipe Albuquerque Portella, David Buchaca Prats, Jos\'e Roberto Pereira Rodrigues, Josep Llu\'is Berral(参考訳) 石油・ガス産業(O&G)におけるハイパフォーマンスコンピューティング(HPC)の最も要求されるワークロードとして,石油分野の貯留層シミュレーションや地震探査が知られている。 シミュレータの数値パラメータの最適化は、かなりの計算労力を節約できるため、重要な役割を果たす。 最先端の最適化技術は、優れたパラメータ候補を見つけるために、その目的に特有な多数のシミュレーションを実行することに基づいている。 しかし、そのようなアプローチは時間と計算資源の点で非常にコストがかかる。 本研究は,性能モデルを用いた貯留層流れシミュレーションの最適数値パラメータの探索を強化する新しい手法である tunaoil を提案する。 O&G業界では、O&G生産予測に関連する不確実性を低減するために、異なるワークフローでモデルのアンサンブルを使用することが一般的である。 このようなワークフローでこれらのアンサンブルの実行を利用して、各シミュレーションから情報を取り出し、その後の実行で数値パラメータを最適化します。 この手法を検証するために,kalmanフィルタアルゴリズムを用いた履歴マッチング(hm)プロセスを用いて,実フィールドからの観測データに適合する貯留層モデルのアンサンブルを調整する手法を実装した。 数値構成の異なる多くのシミュレーションから過去の実行ログを抽出し、データから抽出した特徴に基づいて機械学習モデルを構築する。 これらの特徴は、リニアソルバの繰り返し数のようなシミュレーションの振る舞いの統計に対する活性細胞数のような貯水池モデル自体の特性を含む。 サンプリングテクニックは、oracleに問い合わせて、結果の品質に大きな影響を与えずに経過時間を削減する数値パラメータを見つけるために使用される。 実験の結果,HMワークフロー全体の実行時間を平均31%改善できることがわかった。

Reservoir simulations for petroleum fields and seismic imaging are known as the most demanding workloads for high-performance computing (HPC) in the oil and gas (O&G) industry. The optimization of the simulator numerical parameters plays a vital role as it could save considerable computational efforts. State-of-the-art optimization techniques are based on running numerous simulations, specific for that purpose, to find good parameter candidates. However, using such an approach is highly costly in terms of time and computing resources. This work presents TunaOil, a new methodology to enhance the search for optimal numerical parameters of reservoir flow simulations using a performance model. In the O&G industry, it is common to use ensembles of models in different workflows to reduce the uncertainty associated with forecasting O&G production. We leverage the runs of those ensembles in such workflows to extract information from each simulation and optimize the numerical parameters in their subsequent runs. To validate the methodology, we implemented it in a history matching (HM) process that uses a Kalman filter algorithm to adjust an ensemble of reservoir models to match the observed data from the real field. We mine past execution logs from many simulations with different numerical configurations and build a machine learning model based on extracted features from the data. These features include properties of the reservoir models themselves, such as the number of active cells, to statistics of the simulation's behavior, such as the number of iterations of the linear solver. A sampling technique is used to query the oracle to find the numerical parameters that can reduce the elapsed time without significantly impacting the quality of the results. Our experiments show that the predictions can improve the overall HM workflow runtime on average by 31%.
翻訳日:2022-08-05 13:05:50 公開日:2022-08-04
# Crowd4SDGにおけるクラウドソーシングによるソーシャルメディアの分析

Analyzing social media with crowdsourcing in Crowd4SDG ( http://arxiv.org/abs/2208.02689v1 )

ライセンス: Link先を確認
Carlo Bono, Mehmet O\u{g}uz M\"ul\^ay\.im, Cinzia Cappiello, Mark Carman, Jesus Cerquides, Jose Luis Fernandez-Marquez, Rosy Mondardini, Edoardo Ramalli, and Barbara Pernici(参考訳) ソーシャルメディアは、緊急状況や突然の出来事に関するタイムリーな情報を提供する可能性がある。 しかし、毎日投稿される数百万の投稿の中から関連する情報を見つけることは難しく、データ分析プロジェクトの開発には時間と技術スキルが必要となる。 本研究は,ソーシャルメディア,特に緊急時の分析に柔軟なサポートを提供するアプローチを提案する。 ソーシャルメディア分析が適用可能なさまざまなユースケースを導入し、大量の投稿から情報を取得することの課題について論じる。 その焦点は、ソーシャルメディア投稿に含まれる画像やテキストを分析し、データアナリストをサポートするための人道的なアプローチでコンテンツのフィルタリング、分類、位置決めを行う一連の自動データ処理ツールである。 このようなサポートには、自動化ツールの設定のためのフィードバックと提案、市民からのインプットを集めるためのクラウドソーシングが含まれている。 この結果は、crowd4sdg h2020ヨーロッパプロジェクトで開発された3つのケーススタディで検証される。

Social media have the potential to provide timely information about emergency situations and sudden events. However, finding relevant information among millions of posts being posted every day can be difficult, and developing a data analysis project usually requires time and technical skills. This study presents an approach that provides flexible support for analyzing social media, particularly during emergencies. Different use cases in which social media analysis can be adopted are introduced, and the challenges of retrieving information from large sets of posts are discussed. The focus is on analyzing images and text contained in social media posts and a set of automatic data processing tools for filtering, classification, and geolocation of content with a human-in-the-loop approach to support the data analyst. Such support includes both feedback and suggestions to configure automated tools, and crowdsourcing to gather inputs from citizens. The results are validated by discussing three case studies developed within the Crowd4SDG H2020 European project.
翻訳日:2022-08-05 13:05:22 公開日:2022-08-04
# 低消費電力エッジマイクロコントローラにおけるキーワードスポッティングシステムとプルーニング・量子化手法の評価

Keyword Spotting System and Evaluation of Pruning and Quantization Methods on Low-power Edge Microcontrollers ( http://arxiv.org/abs/2208.02765v1 )

ライセンス: Link先を確認
Jingyi Wang, Shengchen Li(参考訳) キーワードスポッティング(KWS)は、エッジの低消費電力デバイスとの音声ベースのユーザインタラクションに有用である。 エッジデバイスは通常常時オンなので、エッジコンピューティングは帯域幅の節約とプライバシー保護をもたらす。 デバイスは通常、メモリスペース、計算性能、電力とコスト、例えばcortex-mベースのマイクロコントローラが制限されている。 課題は、これらのデバイス上でのディープラーニングの高計算と低レイテンシ要件を満たすことだ。 本稿ではまず,stm32f7マイクロコントローラ上で動作し,cortex-m7コア@216mhzと512kbの静的ramを持つ小型kwsシステムについて述べる。 我々の選択した畳み込みニューラルネットワーク(CNN)アーキテクチャは、エッジデバイスの制約を満たすために、KWSの操作数を単純化した。 ベースラインシステムは,リアルタイム音声特徴抽出部を含む37ms毎に分類結果を生成する。 本稿では,マイクロコントローラ上での異なるプルーニングおよび量子化手法の実際の性能について,粒度の違い,ゼロウェイトスキップ,重み優先ループ順序,SIMD命令などについて検討する。 その結果、マイクロコントローラでは、非構造化プルーニングモデルにかなりの課題があり、構造化プルーニングは非構造化プルーニングよりもフレンドリーであることがわかった。 また,量子化およびSIMD命令の性能向上も確認した。

Keyword spotting (KWS) is beneficial for voice-based user interactions with low-power devices at the edge. The edge devices are usually always-on, so edge computing brings bandwidth savings and privacy protection. The devices typically have limited memory spaces, computational performances, power and costs, for example, Cortex-M based microcontrollers. The challenge is to meet the high computation and low-latency requirements of deep learning on these devices. This paper firstly shows our small-footprint KWS system running on STM32F7 microcontroller with Cortex-M7 core @216MHz and 512KB static RAM. Our selected convolutional neural network (CNN) architecture has simplified number of operations for KWS to meet the constraint of edge devices. Our baseline system generates classification results for each 37ms including real-time audio feature extraction part. This paper further evaluates the actual performance for different pruning and quantization methods on microcontroller, including different granularity of sparsity, skipping zero weights, weight-prioritized loop order, and SIMD instruction. The result shows that for microcontrollers, there are considerable challenges for accelerate unstructured pruned models, and the structured pruning is more friendly than unstructured pruning. The result also verified that the performance improvement for quantization and SIMD instruction.
翻訳日:2022-08-05 13:05:06 公開日:2022-08-04
# Windows `98 Vibe'':Programmable Logic Controllersのセキュリティ機能に関するユーザビリティスタディ

"Yeah, it does have a...Windows `98 Vibe'': Usability Study of Security Features in Programmable Logic Controllers ( http://arxiv.org/abs/2208.02500v1 )

ライセンス: Link先を確認
Karen Li, Kopo M. Ramokapane, Awais Rashid(参考訳) PLC(Programmable Logic Controllers)は、社会に不可欠な産業プロセス、例えば水処理と流通、電気と燃料のネットワークを駆動する。 検索エンジン(例えばshodan)は、プログラマブルなロジックコントローラ(plc)がインターネットに露出することが多いことを強調している。 なぜこのような設定ミスが発生するのか、具体的には、セキュリティコントロールのユーザビリティが役割を担っているのか? 現在まで,PLCのセキュリティ機構の設定のユーザビリティは研究されていない。 本稿では,タスクベース調査とそれに続く半構造化面接(n=19)を通じて,最初の調査を行う。 PLC接続構成と2つのキーセキュリティ機構(アクセスレベルとユーザ管理)のユーザビリティについて検討する。 不慣れなラベル、レイアウト、誤解を招く用語の使用は、セキュリティ機構を構成するための既に複雑なプロセスをさらに悪化させる。 今回の結果から,セキュリティコントロールに関するさまざまな(誤った)認識や,設計上の制約,例えば(そのようなシステムの長期的な性質によって)定期的な更新の安全性や欠如が,現代のhciとユーザビリティの原則を実現する上で大きな課題となっていることが分かる。 これらの結果に基づき,産業現場におけるセキュリティをitと同等に活用するための設計上の推奨事項を提示する。

Programmable Logic Controllers (PLCs) drive industrial processes critical to society, e.g., water treatment and distribution, electricity and fuel networks. Search engines (e.g., Shodan) have highlighted that Programmable Logic Controllers (PLCs) are often left exposed to the Internet, one of the main reasons being the misconfigurations of security settings. This leads to the question -- why do these misconfigurations occur and, specifically, whether usability of security controls plays a part? To date, the usability of configuring PLC security mechanisms has not been studied. We present the first investigation through a task-based study and subsequent semi-structured interviews (N=19). We explore the usability of PLC connection configurations and two key security mechanisms (i.e., access levels and user administration). We find that the use of unfamiliar labels, layouts and misleading terminology exacerbates an already complex process of configuring security mechanisms. Our results uncover various (mis-) perceptions about the security controls and how design constraints, e.g., safety and lack of regular updates (due to long term nature of such systems), provide significant challenges to realization of modern HCI and usability principles. Based on these findings, we provide design recommendations to bring usable security in industrial settings at par with its IT counterpart.
翻訳日:2022-08-05 13:04:44 公開日:2022-08-04
# 双方向モデルロールアウトによる後方模倣と前方強化学習

Backward Imitation and Forward Reinforcement Learning via Bi-directional Model Rollouts ( http://arxiv.org/abs/2208.02434v1 )

ライセンス: Link先を確認
Yuxin Pan and Fangzhen Lin(参考訳) 従来のモデルベース強化学習(RL)手法は,学習力学モデルを用いて前方ロールアウトトレースを生成し,実環境との相互作用を低減する。 最近のモデルベースrl法は、前回の動作が与えられた前の状態の条件付き確率と、後続のロールアウトトラジェクタを生成する現在の状態を指定する後進モデルを学ぶ方法を検討する。 しかし, このモデルベース手法では, 後方ロールアウトと前方ロールアウトからのサンプルをまとめて, モデルフリーrlアルゴリズムによるポリシー最適化を行い, サンプル効率と収束率の両方を低下させる可能性がある。 これは、そのようなアプローチが高価値状態からしばしば逆向きのロールアウトトレースが生成されるという事実を無視しており、エージェントが振る舞いを改善するためのよりインストラクティブであることからである。 本稿では,エージェントが後方ロールアウトトレースを優れた行動の模倣のエキスパートデモンストレーションとして扱い,その後に政策強化のための前方ロールアウト遷移を収集する,後方イミテーション・フォワード強化学習(bifrl)フレームワークを提案する。 その結果、BIFRLはエージェントに高価値状態への到達と探索の両方をより効率的にし、実際の相互作用をさらに減らし、実際のロボット学習に適している可能性がある。 さらに,そのエージェントが受け取りにくい有価な状態を補うために,値正規化生成逆ネットワークを導入する。 理論的には、BIFRLがベースライン法よりも優れている条件を提供する。 実験では,bifrlがサンプル効率を向上し,最先端のモデルベース手法と比較して,様々なムジョコロコモーションタスクにおいて競争的漸近的性能を発揮できることを実証する。

Traditional model-based reinforcement learning (RL) methods generate forward rollout traces using the learnt dynamics model to reduce interactions with the real environment. The recent model-based RL method considers the way to learn a backward model that specifies the conditional probability of the previous state given the previous action and the current state to additionally generate backward rollout trajectories. However, in this type of model-based method, the samples derived from backward rollouts and those from forward rollouts are simply aggregated together to optimize the policy via the model-free RL algorithm, which may decrease both the sample efficiency and the convergence rate. This is because such an approach ignores the fact that backward rollout traces are often generated starting from some high-value states and are certainly more instructive for the agent to improve the behavior. In this paper, we propose the backward imitation and forward reinforcement learning (BIFRL) framework where the agent treats backward rollout traces as expert demonstrations for the imitation of excellent behaviors, and then collects forward rollout transitions for policy reinforcement. Consequently, BIFRL empowers the agent to both reach to and explore from high-value states in a more efficient manner, and further reduces the real interactions, making it potentially more suitable for real-robot learning. Moreover, a value-regularized generative adversarial network is introduced to augment the valuable states which are infrequently received by the agent. Theoretically, we provide the condition where BIFRL is superior to the baseline methods. Experimentally, we demonstrate that BIFRL acquires the better sample efficiency and produces the competitive asymptotic performance on various MuJoCo locomotion tasks compared against state-of-the-art model-based methods.
翻訳日:2022-08-05 13:03:30 公開日:2022-08-04
# 故障面検出を伴う適応逐次サンプリングによる離散状態性能関数の信頼性解析

Reliability analysis of discrete-state performance functions via adaptive sequential sampling with detection of failure surfaces ( http://arxiv.org/abs/2208.02475v1 )

ライセンス: Link先を確認
Miroslav Vo\v{r}echovsk\'y(参考訳) 本稿では,工学製品の計算モデルや,例えば,成功か失敗かといったカテゴリ情報のみを返すプロセスに対して,新しい効率的でロバストな確率推定手法を提案する。 このようなモデルでは、結果の数値を用いて勾配を計算したり、故障面に近づいた値を推定するような、故障確率の推定のために設計された手法は、ほとんど適用できない。 パフォーマンス関数がバイナリ出力以上のものを提供しても、システムの状態は、連続入力変数の領域で定義された非スムースあるいは不連続関数であってもよい。 この場合、古典的勾配に基づく手法は通常失敗する。 本研究では,確率変数の入力領域からの点の逐次適応的選択を行い,簡易な距離ベースサーロゲートモデルの拡張と洗練を行う,単純かつ効率的なアルゴリズムを提案する。 逐次サンプリングのどの段階でも、2つの異なるタスクを実行できる。 一 故障確率の推定、及び (ii)さらなる改善が必要であれば、後続のモデル評価に最適な候補を選択すること。 提案するモデル評価のための次点選択基準は、候補を用いて分類される期待確率を最大化する。 そのため、グローバル探査と地域搾取との完全なバランスが自動的に維持される。 この方法は、複数の障害タイプの確率を推定することができる。 さらに、モデル評価の数値を用いてスムーズなサロゲートを構築することができれば、この情報に対応して推定確率の精度を向上させることができる。 最後に,提案アルゴリズムの副産物として得られた各変数に対するレアイベント確率の大域的感度の新しい単純かつ一般的な幾何学的尺度を定義する。

The paper presents a new efficient and robust method for rare event probability estimation for computational models of an engineering product or a process returning categorical information only, for example, either success or failure. For such models, most of the methods designed for the estimation of failure probability, which use the numerical value of the outcome to compute gradients or to estimate the proximity to the failure surface, cannot be applied. Even if the performance function provides more than just binary output, the state of the system may be a non-smooth or even a discontinuous function defined in the domain of continuous input variables. In these cases, the classical gradient-based methods usually fail. We propose a simple yet efficient algorithm, which performs a sequential adaptive selection of points from the input domain of random variables to extend and refine a simple distance-based surrogate model. Two different tasks can be accomplished at any stage of sequential sampling: (i) estimation of the failure probability, and (ii) selection of the best possible candidate for the subsequent model evaluation if further improvement is necessary. The proposed criterion for selecting the next point for model evaluation maximizes the expected probability classified by using the candidate. Therefore, the perfect balance between global exploration and local exploitation is maintained automatically. The method can estimate the probabilities of multiple failure types. Moreover, when the numerical value of model evaluation can be used to build a smooth surrogate, the algorithm can accommodate this information to increase the accuracy of the estimated probabilities. Lastly, we define a new simple yet general geometrical measure of the global sensitivity of the rare-event probability to individual variables, which is obtained as a by-product of the proposed algorithm.
翻訳日:2022-08-05 13:02:59 公開日:2022-08-04
# ZeroFL: ローカルに分散したフェデレーションラーニングのための効率的なオンデバイストレーニング

ZeroFL: Efficient On-Device Training for Federated Learning with Local Sparsity ( http://arxiv.org/abs/2208.02507v1 )

ライセンス: Link先を確認
Xinchi Qiu, Javier Fernandez-Marques, Pedro PB Gusmao, Yan Gao, Titouan Parcollet, Nicholas Donald Lane(参考訳) 利用可能なハードウェアが、高性能な機械学習モデルを効率的にトレーニングするためのメモリと計算の要求を満たせない場合、トレーニング品質とモデルの複雑さのいずれにも妥協が必要となる。 フェデレートラーニング(FL)では、ノードは従来のサーバグレードのハードウェアよりも桁違いに制約を受けており、しばしばバッテリ駆動であり、このパラダイムの下でトレーニングできるモデルの高度化を著しく制限します。 多くの研究は、収束率を改善するためのより良い集約戦略を設計し、FLの通信コストを軽減することに重点を置いているが、デバイス上でのトレーニングを加速する努力は少ない。 このようなステージは、数百回(つまり、毎ラウンド)繰り返し、数千のデバイスを含む可能性があるが、フェデレーションモデルのトレーニングに要する時間の大部分と、クライアント側のエネルギー消費量の合計を担っている。 本稿では,flワークロードのトレーニング時にスパーシティを導入する際に生じる特異な側面について,最初の研究を行う。 そして、デバイス上でのトレーニングを加速するために、高度にスパースな操作に依存するZeroFLを提案する。 ZeroFLと95%の間隔でトレーニングされたモデルは、最先端のスパーストレーニングフレームワークをFL設定に適用することによって得られる競争ベースラインと比較して最大2.3%の精度を達成する。

When the available hardware cannot meet the memory and compute requirements to efficiently train high performing machine learning models, a compromise in either the training quality or the model complexity is needed. In Federated Learning (FL), nodes are orders of magnitude more constrained than traditional server-grade hardware and are often battery powered, severely limiting the sophistication of models that can be trained under this paradigm. While most research has focused on designing better aggregation strategies to improve convergence rates and in alleviating the communication costs of FL, fewer efforts have been devoted to accelerating on-device training. Such stage, which repeats hundreds of times (i.e. every round) and can involve thousands of devices, accounts for the majority of the time required to train federated models and, the totality of the energy consumption at the client side. In this work, we present the first study on the unique aspects that arise when introducing sparsity at training time in FL workloads. We then propose ZeroFL, a framework that relies on highly sparse operations to accelerate on-device training. Models trained with ZeroFL and 95% sparsity achieve up to 2.3% higher accuracy compared to competitive baselines obtained from adapting a state-of-the-art sparse training framework to the FL setting.
翻訳日:2022-08-05 13:02:34 公開日:2022-08-04
# Core Challenge 2022:ソルバーとグラフ記述

Core Challenge 2022: Solver and Graph Descriptions ( http://arxiv.org/abs/2208.02495v1 )

ライセンス: Link先を確認
Takehide Soh, Yoshio Okamoto, Takehiro Ito(参考訳) 本稿では,CoRe Challenge 2022に提出された解法とISRインスタンスのすべての記述をまとめた。

This paper collects all descriptions of solvers and ISR instances submitted to CoRe Challenge 2022.
翻訳日:2022-08-05 12:58:35 公開日:2022-08-04
# 第38回論理プログラミング国際会議

Proceedings 38th International Conference on Logic Programming ( http://arxiv.org/abs/2208.02685v1 )

ライセンス: Link先を確認
Yuliya Lierler, Jose F. Morales, Carmine Dodaro, Veronica Dahl, Martin Gebser, Tuncay Tekle(参考訳) ICLP(ICLP)は論理プログラミング研究のための国際会議である。 iclp 2022への貢献は、基礎:意味論、形式論、非単調な推論、知識表現を含む、論理プログラミングのあらゆる分野において求められた。 言語の問題:並行性、オブジェクト、コーディネーション、モビリティ、高階、型、モード、アサーション、モジュール、メタプログラミング、論理ベースのドメイン固有言語、プログラミング技術。 プログラミングサポート: プログラム解析、変換、検証、検証、デバッグ、プロファイリング、テスト、実行の可視化。 実装: コンパイル、仮想マシン、メモリ管理、並列および分散実行、制約処理ルール、タブリング、外部インターフェース、ユーザインターフェース。 関連するパラダイムとシナジー:帰納的および帰納的論理プログラミング、制約論理プログラミング、Answerセットプログラミング、SAT、SMT、CSPソルバとのインタラクション、Theorem証明、Argumentation、確率的プログラミング、機械学習。 アプリケーション:データベース、ビッグデータ、データ統合と連合、ソフトウェア工学、自然言語処理、webとセマンティックウェブ、エージェント、人工知能、計算生命科学、サイバーセキュリティ、ロボット工学、教育。

ICLP is the premier international event for presenting research in logic programming. Contributions to ICLP 2022 were sought in all areas of logic programming, including but not limited to: Foundations: Semantics, Formalisms, Nonmonotonic reasoning, Knowledge representation. Languages issues: Concurrency, Objects, Coordination, Mobility, Higher order, Types, Modes, Assertions, Modules, Meta-programming, Logic-based domain-specific languages, Programming techniques. Programming support: Program analysis, Transformation, Validation, Verification, Debugging, Profiling, Testing, Execution visualization. Implementation: Compilation, Virtual machines, Memory management, Parallel and Distributed execution, Constraint handling rules, Tabling, Foreign interfaces, User interfaces. Related Paradigms and Synergies: Inductive and coinductive logic programming, Constraint logic programming, Answer set programming, Interaction with SAT, SMT and CSP solvers, Theorem proving, Argumentation, Probabilistic programming, Machine learning. Applications: Databases, Big data, Data integration and federation, Software engineering, Natural language processing, Web and semantic web, Agents, Artificial intelligence, Computational life sciences, Cyber-security, Robotics, Education.
翻訳日:2022-08-05 12:58:32 公開日:2022-08-04
# 高ダイナミックレンジイメージングのためのマルチスケールサンプリング・集約ネットワーク

Multi-scale Sampling and Aggregation Network For High Dynamic Range Imaging ( http://arxiv.org/abs/2208.02448v1 )

ライセンス: Link先を確認
Jun Xiao, Qian Ye, Tianshan Liu, Cong Zhang, Kin-Man Lam(参考訳) 高ダイナミックレンジイメージング(HDR)は画像処理の基本的な問題であり、シーンに様々な照明が存在する場合でも、よく露出した画像を生成することを目的としている。 近年,複数の低ダイナミックレンジ(ldr)画像が異なる露光で撮影され,対応するhdr画像を生成するマルチ露光融合法が注目されている。 しかし、動的シーンにおけるHDR画像の合成は依然として困難であり、高い需要がある。 HDR画像の生成には2つの課題がある。 LDR画像間の物体の動きは、生成した結果に望ましくないゴーストアーティファクトを容易に引き起こすことができる。 2). 下部および過露出領域は、融合段階におけるこれらの領域の補償が不十分なため、しばしば歪んだ画像を含む。 本稿では,動的シーンにおけるHDRイメージングのためのマルチスケールサンプリング・アグリゲーションネットワークを提案する。 小さくて大きな動きによって生じる問題を効果的に軽減するために,提案手法は粗大な方法で高対応性をサンプリング・集約することでLDR画像を暗黙的にアライメントする。 さらに,複数の非重複周波数サブバンドに入力を分解し,ウェーブレット領域で適応的に補償を行う,離散ウェーブレット変換に基づく高密度ネットワークを提案する。 実験により,提案手法は様々な場面において,他の有望なhdrイメージング手法と比較して最先端の性能が得られることを示した。 さらに,本手法により生成したHDR画像は,よりクリーンで詳細な内容を含み,歪みが少なく,視覚的品質が向上する。

High dynamic range (HDR) imaging is a fundamental problem in image processing, which aims to generate well-exposed images, even in the presence of varying illumination in the scenes. In recent years, multi-exposure fusion methods have achieved remarkable results, which merge multiple low dynamic range (LDR) images, captured with different exposures, to generate corresponding HDR images. However, synthesizing HDR images in dynamic scenes is still challenging and in high demand. There are two challenges in producing HDR images: 1). Object motion between LDR images can easily cause undesirable ghosting artifacts in the generated results. 2). Under and overexposed regions often contain distorted image content, because of insufficient compensation for these regions in the merging stage. In this paper, we propose a multi-scale sampling and aggregation network for HDR imaging in dynamic scenes. To effectively alleviate the problems caused by small and large motions, our method implicitly aligns LDR images by sampling and aggregating high-correspondence features in a coarse-to-fine manner. Furthermore, we propose a densely connected network based on discrete wavelet transform for performance improvement, which decomposes the input into several non-overlapping frequency subbands and adaptively performs compensation in the wavelet domain. Experiments show that our proposed method can achieve state-of-the-art performances under diverse scenes, compared to other promising HDR imaging methods. In addition, the HDR images generated by our method contain cleaner and more detailed content, with fewer distortions, leading to better visual quality.
翻訳日:2022-08-05 12:57:43 公開日:2022-08-04
# 人間とマシンのためのスケーラブルなビデオコーディング

Scalable Video Coding for Humans and Machines ( http://arxiv.org/abs/2208.02512v1 )

ライセンス: Link先を確認
Hyomin Choi and Ivan V. Baji\'c(参考訳) ビデオコンテンツは人間だけでなく、機械によっても見られるようになっている。 例えば、機械学習モデルは、セキュリティとトラフィック監視のための監視ビデオ、不適切なコンテンツのためのYouTubeビデオの検索などを分析する。 本稿では,その基盤層であるビットストリームと,その拡張層であるビットストリームを通じて人間の視覚を介してマシンビジョン(特にオブジェクト検出)をサポートするスケーラブルなビデオ符号化フレームワークを提案する。 提案フレームワークには,従来型とディープニューラルネットワーク(DNN)ベースのビデオ符号化の両方のコンポーネントが含まれている。 その結果,提案手法はオブジェクト検出において,最先端ビデオコーデックに比べて13~19%の節約を達成し,人間の視覚タスクにおけるms-ssimの競争力を保った。

Video content is watched not only by humans, but increasingly also by machines. For example, machine learning models analyze surveillance video for security and traffic monitoring, search through YouTube videos for inappropriate content, and so on. In this paper, we propose a scalable video coding framework that supports machine vision (specifically, object detection) through its base layer bitstream and human vision via its enhancement layer bitstream. The proposed framework includes components from both conventional and Deep Neural Network (DNN)-based video coding. The results show that on object detection, the proposed framework achieves 13-19% bit savings compared to state-of-the-art video codecs, while remaining competitive in terms of MS-SSIM on the human vision task.
翻訳日:2022-08-05 12:57:18 公開日:2022-08-04
# PSMA-PET/CTにおける転移性前立腺癌の検出と分類のための多モード容積概念アクティベーション

Multi-modal volumetric concept activation to explain detection and classification of metastatic prostate cancer on PSMA-PET/CT ( http://arxiv.org/abs/2208.02555v1 )

ライセンス: Link先を確認
Rosa C.J. Kraaijveld, Marielle E.P. Philippens, Wietse S.C. Eppinga, Ina M. J\"urgenliemk-Schulz, Kenneth G.A. Gilhuijs, Petra S. Kroon, Bas H.M. van der Velden(参考訳) 説明可能な人工知能(XAI)は、ニューラルネットワークの振る舞いを分析するためにますます使われている。 概念アクティベーションは、人間の解釈可能な概念を使って、ニューラルネットワークの振る舞いを説明する。 本研究は,マルチモーダルボリュームデータの検出と分類を説明するために,回帰概念アクティベーションの実現可能性を評価することを目的とした。 ポジトロン・エミッション・トモグラフィー/CT(PET/CT)を施行した前立腺転移症例に対し,概念実証を行った。 マルチモーダルボリュームコンセプトアクティベーションは、グローバルおよびローカルな説明を提供するために使用された。 感度は80%, 偽陽性1.78例であった。 グローバルな説明によると、検出は解剖学的位置のためのCTと、検出に対する信頼性のためのPETに焦点を当てていた。 地元の説明では、真陽性と偽陽性を区別する手助けをする約束があった。 そこで本研究では,回帰概念アクティベーションを用いたマルチモーダルボリュームデータの検出と分類が可能であることを示す。

Explainable artificial intelligence (XAI) is increasingly used to analyze the behavior of neural networks. Concept activation uses human-interpretable concepts to explain neural network behavior. This study aimed at assessing the feasibility of regression concept activation to explain detection and classification of multi-modal volumetric data. Proof-of-concept was demonstrated in metastatic prostate cancer patients imaged with positron emission tomography/computed tomography (PET/CT). Multi-modal volumetric concept activation was used to provide global and local explanations. Sensitivity was 80% at 1.78 false positive per patient. Global explanations showed that detection focused on CT for anatomical location and on PET for its confidence in the detection. Local explanations showed promise to aid in distinguishing true positives from false positives. Hence, this study demonstrated feasibility to explain detection and classification of multi-modal volumetric data using regression concept activation.
翻訳日:2022-08-05 12:57:08 公開日:2022-08-04
# ConvMixerとAdaptive Permutation Matrixを用いたプライバシー保護画像分類

Privacy-Preserving Image Classification Using ConvMixer with Adaptive Permutation Matrix ( http://arxiv.org/abs/2208.02556v1 )

ライセンス: Link先を確認
Zheng Qi, AprilPyone MaungMaung, Hitoshi Kiya(参考訳) 本稿では,convmixer構造を用いた暗号化画像を用いたプライバシー保護画像分類手法を提案する。 様々な攻撃に対して十分に頑健なブロックワイズスクランブル画像は、プライバシーを保った画像分類タスクに用いられてきたが、画像暗号化の影響を減らすためには分類ネットワークと適応ネットワークを組み合わせる必要がある。 しかし,適応ネットワークにはパラメータが多すぎるため,適応ネットワークを用いた従来の手法では大きな画像が適用できない。 そこで本研究では,適応ネットワークを使わずに,ブロックワイズ画像をConvMixerに適用するだけでなく,従来の手法よりも高い分類精度を実現する手法を提案する。

In this paper, we propose a privacy-preserving image classification method using encrypted images under the use of the ConvMixer structure. Block-wise scrambled images, which are robust enough against various attacks, have been used for privacy-preserving image classification tasks, but the combined use of a classification network and an adaptation network is needed to reduce the influence of image encryption. However, images with a large size cannot be applied to the conventional method with an adaptation network because the adaptation network has so many parameters. Accordingly, we propose a novel method, which allows us not only to apply block-wise scrambled images to ConvMixer for both training and testing without the adaptation network, but also to provide a higher classification accuracy than conventional methods.
翻訳日:2022-08-05 12:56:54 公開日:2022-08-04
# 人工画像改ざんはテクスチャランドマークの空間分布と品質特性を歪めている

Artificial Image Tampering Distorts Spatial Distribution of Texture Landmarks and Quality Characteristics ( http://arxiv.org/abs/2208.02710v1 )

ライセンス: Link先を確認
Tahir Hassan, Aras Asaad, Dashti Ali, Sabah Jassim(参考訳) Advances in AI based computer vision has led to a significant growth in synthetic image generation and artificial image tampering with serious implications for unethical exploitations that undermine person identification and could make render AI predictions less explainable.Morphing, Deepfake and other artificial generation of face photographs undermine the reliability of face biometrics authentication using different electronic ID documents.Morphed face photographs on e-passports can fool automated border control systems and human guards.This paper extends our previous work on using the persistent homology (PH) of texture landmarks to detect morphing attacks.We demonstrate that artificial image tampering distorts the spatial distribution of texture landmarks (i.e. their PH) as well as that of a set of image quality characteristics.We shall demonstrate that the tamper caused distortion of these two slim feature vectors provide significant potentials for building explainable (Handcrafted) tamper detectors with low error rates and suitable for implementation on constrained devices.

Advances in AI based computer vision has led to a significant growth in synthetic image generation and artificial image tampering with serious implications for unethical exploitations that undermine person identification and could make render AI predictions less explainable.Morphing, Deepfake and other artificial generation of face photographs undermine the reliability of face biometrics authentication using different electronic ID documents.Morphed face photographs on e-passports can fool automated border control systems and human guards.This paper extends our previous work on using the persistent homology (PH) of texture landmarks to detect morphing attacks.We demonstrate that artificial image tampering distorts the spatial distribution of texture landmarks (i.e. their PH) as well as that of a set of image quality characteristics.We shall demonstrate that the tamper caused distortion of these two slim feature vectors provide significant potentials for building explainable (Handcrafted) tamper detectors with low error rates and suitable for implementation on constrained devices.
翻訳日:2022-08-05 12:56:40 公開日:2022-08-04
# JPEG Pleno Point Cloud Codingの提案に対するIT/IST/IPLeiria応答

IT/IST/IPLeiria Response to the Call for Proposals on JPEG Pleno Point Cloud Coding ( http://arxiv.org/abs/2208.02716v1 )

ライセンス: Link先を確認
Andr\'e F. R. Guarda (1), Nuno M. M. Rodrigues (2), Manuel Ruivo (1), Lu\'is Coelho (1), Abdelrahman Seleem (1), Fernando Pereira (1) ((1) Instituto Superior T\'ecnico - Universidade de Lisboa, and Instituto de Telecomunica\c{c}\~oes, Lisbon, Portugal, (2) ESTG, Polit\'ecnico de Leiria and Instituto de Telecomunica\c{c}\~oes, Leiria, Portugal)(参考訳) 本書では,2022年1月に発行されたjpeg pleno point cloud codingに関する提案書に対して,ディープラーニングベースのpoint cloud geometry codecと,deep learningベースのpoint cloud joint geometry and color codecについて述べる。 提案したコーデックは、ディープラーニングベースのPC幾何コーディングの最近の発展に基づいており、Call for Proposalsがターゲットとする重要な機能を提供している。 提案したジオメトリコーデックは、MPEG G-PCC標準を上回り、JPEG Call for ProposalsテストセットのV-PCCイントラ標準と競合する圧縮効率を提供するが、品質飽和効果のため、ジョイントジオメトリとカラーコーデックでは同じことが起こらない。

This document describes a deep learning-based point cloud geometry codec and a deep learning-based point cloud joint geometry and colour codec, submitted to the Call for Proposals on JPEG Pleno Point Cloud Coding issued in January 2022. The proposed codecs are based on recent developments in deep learning-based PC geometry coding and offer some of the key functionalities targeted by the Call for Proposals. The proposed geometry codec offers a compression efficiency that outperforms the MPEG G-PCC standard and outperforms or is competitive with the V-PCC Intra standard for the JPEG Call for Proposals test set; however, the same does not happen for the joint geometry and colour codec due to a quality saturation effect that needs to be overcome.
翻訳日:2022-08-05 12:56:26 公開日:2022-08-04
# リスク対応線形帯域:スマートオーダールーティングの理論と応用

Risk-Aware Linear Bandits: Theory and Applications in Smart Order Routing ( http://arxiv.org/abs/2208.02389v1 )

ライセンス: Link先を確認
Jingwei Ji, Renyuan Xu, Ruihao Zhu(参考訳) リスク回避や大規模行動空間などの金融意思決定のための機械学習の実践的考察により、リスク対応線形帯域の研究を開始する。 具体的には、(初期)未知パラメータの線形関数として報酬を表現できる一連のアクションに直面する場合、平均分散尺度の下で後悔の最小化を考える。 分散最小化g-オプティカル設計により,リスク・アウェア・explore-then-commit (rise) アルゴリズムとリスク・アウェア・シーケンシャル・エグゼクション (rise++) アルゴリズムを提案する。 次に,後悔の上限を厳格に分析し,線形構造を利用することで,従来の手法と比較して後悔を劇的に軽減できることを示す。 最後に,合成スマートオーダールーティング設定において,広範囲な数値実験を行い,アルゴリズムの性能を実証する。 以上の結果から,RISE と RISE++ は競合する手法,特に複雑な意思決定シナリオよりも優れていることがわかった。

Motivated by practical considerations in machine learning for financial decision-making, such as risk-aversion and large action space, we initiate the study of risk-aware linear bandits. Specifically, we consider regret minimization under the mean-variance measure when facing a set of actions whose rewards can be expressed as linear functions of (initially) unknown parameters. Driven by the variance-minimizing G-optimal design, we propose the Risk-Aware Explore-then-Commit (RISE) algorithm and the Risk-Aware Successive Elimination (RISE++) algorithm. Then, we rigorously analyze their regret upper bounds to show that, by leveraging the linear structure, the algorithms can dramatically reduce the regret when compared to existing methods. Finally, we demonstrate the performance of the algorithms by conducting extensive numerical experiments in a synthetic smart order routing setup. Our results show that both RISE and RISE++ can outperform the competing methods, especially in complex decision-making scenarios.
翻訳日:2022-08-05 12:52:22 公開日:2022-08-04
# 非線形PID強化適応潜在因子分析モデル

A Nonlinear PID-Enhanced Adaptive Latent Factor Analysis Model ( http://arxiv.org/abs/2208.02513v1 )

ライセンス: Link先を確認
Jinli Li, Ye Yuan(参考訳) 高次元および不完全(HDI)データは、様々な産業応用において非常にインタラクティブな情報を保持する。 潜在因子(lf)モデルはhdiデータから確率的勾配適性(sgd)アルゴリズムを用いて貴重な情報を抽出するのに非常に有効である。 しかし、SGDに基づくLFAモデルは、現在の学習誤差のみを考慮するため、収束が遅い。 本稿では,非線形pid制御の原理に従って,過去の学習誤差を考慮し,学習誤差を再構築する,粒子群最適化 (pso) アルゴリズムの原理に従って,すべてのパラメータを効果的に適応させる,という2つの考え方を持つ非線形pid強調適応潜在因子 (npalf) モデルを提案する。 4つの代表的HDIデータセットの経験から,NPALFモデルは5つの最先端LFAモデルと比較して,HDIデータの欠落データに対する収束率と予測精度が向上した。

High-dimensional and incomplete (HDI) data holds tremendous interactive information in various industrial applications. A latent factor (LF) model is remarkably effective in extracting valuable information from HDI data with stochastic gradient decent (SGD) algorithm. However, an SGD-based LFA model suffers from slow convergence since it only considers the current learning error. To address this critical issue, this paper proposes a Nonlinear PID-enhanced Adaptive Latent Factor (NPALF) model with two-fold ideas: 1) rebuilding the learning error via considering the past learning errors following the principle of a nonlinear PID controller; b) implementing all parameters adaptation effectively following the principle of a particle swarm optimization (PSO) algorithm. Experience results on four representative HDI datasets indicate that compared with five state-of-the-art LFA models, the NPALF model achieves better convergence rate and prediction accuracy for missing data of an HDI data.
翻訳日:2022-08-05 12:52:03 公開日:2022-08-04
# 連続学習におけるリプレイ戦略のベンチマークと実証分析

A Benchmark and Empirical Analysis for Replay Strategies in Continual Learning ( http://arxiv.org/abs/2208.02660v1 )

ライセンス: Link先を確認
Qihan Yang, Fan Feng, Rosa Chan(参考訳) 継続的学習の能力により、人間は生涯を通じて知識を継続的に得ることができる。 しかし、一般に、計算システムはタスクを逐次学習することができない。 ディープニューラルネットワーク(DNN)のこの長年にわたる課題は、破滅的な忘れ方と呼ばれる。 この制限を克服するために複数の解決策が提案されている。 本稿では,メモリリプレイ手法の詳細な評価を行い,リプレイデータ選択時の各種サンプリング戦略の効率,性能,スケーラビリティについて検討する。 実験はすべて、さまざまなドメイン下の複数のデータセットで行われます。 最後に、様々なデータ分布に対する再生方法を選択するための実用的なソリューションを提供する。

With the capacity of continual learning, humans can continuously acquire knowledge throughout their lifespan. However, computational systems are not, in general, capable of learning tasks sequentially. This long-standing challenge for deep neural networks (DNNs) is called catastrophic forgetting. Multiple solutions have been proposed to overcome this limitation. This paper makes an in-depth evaluation of the memory replay methods, exploring the efficiency, performance, and scalability of various sampling strategies when selecting replay data. All experiments are conducted on multiple datasets under various domains. Finally, a practical solution for selecting replay methods for various data distributions is provided.
翻訳日:2022-08-05 12:51:30 公開日:2022-08-04
# 作物収量予測のための教師なしグラフスペクトル特徴化

Unsupervised Graph Spectral Feature Denoising for Crop Yield Prediction ( http://arxiv.org/abs/2208.02714v1 )

ライセンス: Link先を確認
Saghar Bagheri, Chinthaka Dinesh, Gene Cheung, Timothy Eadie(参考訳) 郡粒度の年間収穫量の予測は、国産食品生産と価格安定にとって重要である。 本稿では,近年のグラフ信号処理(gsp)ツールを活用して,隣接郡間の空間的相関を利用した作物収量予測の精度向上に向けて,ディープラーニング予測モデルに入力されるグラフスペクトルフィルタリングによる関連特徴を考察する。 具体的には、まず、土壌の郡間類似点と位置特徴をメートル法学習によりエンコードするエッジ重み付き組合せグラフを構築する。 次に、グラフラプラシアン正則化器(GLR)を用いた最大後続(MAP)定式化により特徴を識別する。 我々は、重要重みパラメータである$\mu$を推定し、教師なしの方法でノイズ分散の関数である忠実度項とglrを交換することに焦点を当てる。 まず,局所定数領域を探索するgraph clique detection (gcd) 手法を用いて,ノイズ分解されたグラフ信号から直接雑音分散を推定する。 次にバイアス分散解析により近似平均二乗誤差関数を最小化する最適な$\mu$を計算する。 得られたUSDAデータから得られた実験結果から, 農作物収量予測モデルの性能が顕著に向上できることが示唆された。

Prediction of annual crop yields at a county granularity is important for national food production and price stability. In this paper, towards the goal of better crop yield prediction, leveraging recent graph signal processing (GSP) tools to exploit spatial correlation among neighboring counties, we denoise relevant features via graph spectral filtering that are inputs to a deep learning prediction model. Specifically, we first construct a combinatorial graph with edge weights that encode county-to-county similarities in soil and location features via metric learning. We then denoise features via a maximum a posteriori (MAP) formulation with a graph Laplacian regularizer (GLR). We focus on the challenge to estimate the crucial weight parameter $\mu$, trading off the fidelity term and GLR, that is a function of noise variance in an unsupervised manner. We first estimate noise variance directly from noise-corrupted graph signals using a graph clique detection (GCD) procedure that discovers locally constant regions. We then compute an optimal $\mu$ minimizing an approximate mean square error function via bias-variance analysis. Experimental results from collected USDA data show that using denoised features as input, performance of a crop yield prediction model can be improved noticeably.
翻訳日:2022-08-05 12:51:23 公開日:2022-08-04
# QC-ODKLA:線形ADMMを用いたオンライン分散カーネル学習

QC-ODKLA: Quantized and Communication-Censored Online Decentralized Kernel Learning via Linearized ADMM ( http://arxiv.org/abs/2208.02777v1 )

ライセンス: Link先を確認
Ping Xu, Yue Wang, Xiang Chen, Zhi Tian(参考訳) 本稿では,分散ネットワーク上でのオンラインカーネル学習に焦点を当てる。 ネットワーク内の各エージェントは、局所的に連続ストリーミングデータを受信し、すべてのエージェントの全瞬時コストに関して、再生核ヒルベルト空間においてグローバルに最適な非線形予測関数を学習するために協調的に動作する。 従来のオンラインカーネル学習における次元性の呪いを回避するために、非パラメトリックカーネル学習問題をRF空間の固定長パラメトリックに変換するためにランダム特徴(RF)マッピングを用いる。 次に,オンライン分散カーネル学習問題を効率的に解くために,線形化ADMM (ODKLA) を用いたオンライン分散カーネル学習という新しい学習フレームワークを提案する。 通信効率をさらに向上するため,通信段階における量子化および検閲戦略を追加し,QC-ODKLAアルゴリズムを開発した。 理論的には、ODKLA と QC-ODKLA の両方が最適なサブ線形後悔 $\mathcal{O}(\sqrt{T})$ over $T$ time slots を達成することができる。 数値実験により,提案手法の学習効率,コミュニケーション,計算効率を評価する。

This paper focuses on online kernel learning over a decentralized network. Each agent in the network receives continuous streaming data locally and works collaboratively to learn a nonlinear prediction function that is globally optimal in the reproducing kernel Hilbert space with respect to the total instantaneous costs of all agents. In order to circumvent the curse of dimensionality issue in traditional online kernel learning, we utilize random feature (RF) mapping to convert the non-parametric kernel learning problem into a fixed-length parametric one in the RF space. We then propose a novel learning framework named Online Decentralized Kernel learning via Linearized ADMM (ODKLA) to efficiently solve the online decentralized kernel learning problem. To further improve the communication efficiency, we add the quantization and censoring strategies in the communication stage and develop the Quantized and Communication-censored ODKLA (QC-ODKLA) algorithm. We theoretically prove that both ODKLA and QC-ODKLA can achieve the optimal sublinear regret $\mathcal{O}(\sqrt{T})$ over $T$ time slots. Through numerical experiments, we evaluate the learning effectiveness, communication, and computation efficiencies of the proposed methods.
翻訳日:2022-08-05 12:51:02 公開日:2022-08-04
# グラフ上のコントラスト学習のためのデータ中心特性の解析

Analyzing Data-Centric Properties for Contrastive Learning on Graphs ( http://arxiv.org/abs/2208.02810v1 )

ライセンス: Link先を確認
Puja Trivedi, Ekdeep Singh Lubana, Mark Heimann, Danai Koutra, Jayaraman J. Thiagarajan(参考訳) 近年の自己教師付き学習(SSL)の分析では、タスク非関連セマンティクスへの不変性、潜在空間におけるクラスの分離性、拡張サンプルからのラベルの復元性など、優れた表現を学ぶ上で重要なデータ中心特性が示されている。 しかし、その離散的で非ユークリッド的性質を考えると、グラフデータセットとグラフsslメソッドはこれらの特性を満たさない。 対照的学習(CL)のようなグラフSSLメソッドは、どのように機能するのか? この問題を体系的に研究するために,汎用グラフ拡張(GGA)を用いたCLの一般化解析を行い,データ中心の性質に着目した。 我々の分析は、GGAの限界とタスク関連強化の必要性に関する公式な洞察を得る。 実証的に示すように、GGAは一般的なベンチマークデータセットでタスク関連不変性を誘導しないため、単純でトレーニングされていないベースラインよりも限界的な利得しか得られない。 本理論は,タスク関連情報を制御し,事前定義された最適な拡張性を有する合成データ生成プロセスのモチベーションである。 この柔軟なベンチマークは、高度な拡張技術(例えば、自動メソッド)における未認識の制限を特定するのに役立ちます。 全体として、私たちの研究は、経験的および理論的に、データ中心の特性がグラフsslの強化戦略と学習パラダイムに与える影響を、厳格にコンテキスト化する。

Recent analyses of self-supervised learning (SSL) find the following data-centric properties to be critical for learning good representations: invariance to task-irrelevant semantics, separability of classes in some latent space, and recoverability of labels from augmented samples. However, given their discrete, non-Euclidean nature, graph datasets and graph SSL methods are unlikely to satisfy these properties. This raises the question: how do graph SSL methods, such as contrastive learning (CL), work well? To systematically probe this question, we perform a generalization analysis for CL when using generic graph augmentations (GGAs), with a focus on data-centric properties. Our analysis yields formal insights into the limitations of GGAs and the necessity of task-relevant augmentations. As we empirically show, GGAs do not induce task-relevant invariances on common benchmark datasets, leading to only marginal gains over naive, untrained baselines. Our theory motivates a synthetic data generation process that enables control over task-relevant information and boasts pre-defined optimal augmentations. This flexible benchmark helps us identify yet unrecognized limitations in advanced augmentation techniques (e.g., automated methods). Overall, our work rigorously contextualizes, both empirically and theoretically, the effects of data-centric properties on augmentation strategies and learning paradigms for graph SSL.
翻訳日:2022-08-05 12:50:40 公開日:2022-08-04
# ドロップキー

DropKey ( http://arxiv.org/abs/2208.02646v1 )

ライセンス: Link先を確認
Bonan Li and Yinhan Hu and Xuecheng Nie and Congying Han and Xiangjian Jiang and Tiande Guo and Luoqi Liu(参考訳) 本稿では,視覚変換器の自己注意層におけるドロップアウト手法の解析と改善に焦点をあてる。 特に、私たちは3つのコアな質問について調査を行っています。 文献における注意重みの低下と異なり,注意行列計算に先立ってドロップアウト操作を前進させ,キーをドロップアウト単位に設定し,新しいドロップアウト前ソフトマックス方式を提案する。 このスキームは、注意重みの正規化と確率特性の両立を図り、特定のパターンに過度に適合する問題を緩和し、重要な情報を世界規模で把握するためのモデルを強化するのに役立つと理論的に検証する。 すべての層に対して一定降下率を利用するのに対し, 自己保持層のスタックに沿った降下率を徐々に減少させる新たな減少スケジュールを示す。 提案するスケジュールを実験的に検証することで,低レベル特徴の過剰フィットや高レベルセマンティクスの欠如を回避でき,モデルトレーニングの堅牢性と安定性が向上する。 我々はパッチベースのドロップアウト操作のブロックバージョンを試し、このcnnの便利なトリックはvitにとって必須ではないことを突き止めた。 上記の3つの質問を考察し,キーをドロップユニットとして考慮し,ドロップ比のスケジュールを短縮し,vitsを汎用的に改善する新しいドロップキー法を提案する。 包括的な実験により、様々なvitアーキテクチャ、例えば、t2tおよびvolo、および様々な視覚タスク、例えば、画像分類、オブジェクト検出、人間と物体の相互作用検出、人体形状の回復におけるdropkeyの有効性が示されている。 コードは受理後に公開される。

In this paper, we focus on analyzing and improving the dropout technique for self-attention layers of Vision Transformer, which is important while surprisingly ignored by prior works. In particular, we conduct researches on three core questions: First, what to drop in self-attention layers? Different from dropping attention weights in literature, we propose to move dropout operations forward ahead of attention matrix calculation and set the Key as the dropout unit, yielding a novel dropout-before-softmax scheme. We theoretically verify that this scheme helps keep both regularization and probability features of attention weights, alleviating the overfittings problem to specific patterns and enhancing the model to globally capture vital information; Second, how to schedule the drop ratio in consecutive layers? In contrast to exploit a constant drop ratio for all layers, we present a new decreasing schedule that gradually decreases the drop ratio along the stack of self-attention layers. We experimentally validate the proposed schedule can avoid overfittings in low-level features and missing in high-level semantics, thus improving the robustness and stableness of model training; Third, whether need to perform structured dropout operation as CNN? We attempt patch-based block-version of dropout operation and find that this useful trick for CNN is not essential for ViT. Given exploration on the above three questions, we present the novel DropKey method that regards Key as the drop unit and exploits decreasing schedule for drop ratio, improving ViTs in a general way. Comprehensive experiments demonstrate the effectiveness of DropKey for various ViT architectures, \emph{e.g.} T2T and VOLO, as well as for various vision tasks, \emph{e.g.}, image classification, object detection, human-object interaction detection and human body shape recovery. Codes will be released upon acceptance.
翻訳日:2022-08-05 12:47:54 公開日:2022-08-04
# ZeroMesh: ゼロショットのシングルビュー3Dメッシュ再構築

ZeroMesh: Zero-shot Single-view 3D Mesh Reconstruction ( http://arxiv.org/abs/2208.02676v1 )

ライセンス: Link先を確認
Xianghui Yang, Guosheng Lin, Luping Zhou(参考訳) シングルビューRGB画像から3次元形状を復元することを目的とした,基本的なコンピュータビジョンタスクである。 既存のディープラーニングに基づく再構築手法の多くは,同じカテゴリで訓練・評価されており,トレーニング中に見えない新しいカテゴリのオブジェクトを扱う場合,うまく動作しない。 この問題に焦点を当て,ゼロショット・シングルビュー・3dメッシュ再構成に取り組み,未発見のカテゴリのモデル一般化を研究し,モデルに文字通りオブジェクトを再構築するよう促す。 具体的には,エンド・ツー・エンドの2段階ネットワークであるzeromeshを提案する。 まず,複雑なイメージ・ツー・メッシュマッピングを,画像・ツー・ポイントマッピングとポイント・ツー・メッシュマッピングという,より単純な2つのマッピングに分解する。 次に,2次元および3次元特徴空間における局所特徴サンプリング戦略を考案し,オブジェクト間で共有される局所幾何をキャプチャし,モデルの一般化を促進する。 第3に、従来の点対点監視とは別に、表面生成過程を監督する多視点シルエット損失を導入し、さらなる正規化とオーバーフィッティング問題を緩和する。 実験結果から,本手法は様々なシナリオ,特に新規オブジェクトにおいて,ShapeNetとPix3Dの既存手法よりも優れた性能を示した。

Single-view 3D object reconstruction is a fundamental and challenging computer vision task that aims at recovering 3D shapes from single-view RGB images. Most existing deep learning based reconstruction methods are trained and evaluated on the same categories, and they cannot work well when handling objects from novel categories that are not seen during training. Focusing on this issue, this paper tackles Zero-shot Single-view 3D Mesh Reconstruction, to study the model generalization on unseen categories and encourage models to reconstruct objects literally. Specifically, we propose an end-to-end two-stage network, ZeroMesh, to break the category boundaries in reconstruction. Firstly, we factorize the complicated image-to-mesh mapping into two simpler mappings, i.e., image-to-point mapping and point-to-mesh mapping, while the latter is mainly a geometric problem and less dependent on object categories. Secondly, we devise a local feature sampling strategy in 2D and 3D feature spaces to capture the local geometry shared across objects to enhance model generalization. Thirdly, apart from the traditional point-to-point supervision, we introduce a multi-view silhouette loss to supervise the surface generation process, which provides additional regularization and further relieves the overfitting problem. The experimental results show that our method significantly outperforms the existing works on the ShapeNet and Pix3D under different scenarios and various metrics, especially for novel objects.
翻訳日:2022-08-05 12:47:18 公開日:2022-08-04
# 360Roam:Geometry-Aware ${360^\circ}$ Radiance Fieldsを用いた実時間室内ローミング

360Roam: Real-Time Indoor Roaming Using Geometry-Aware ${360^\circ}$ Radiance Fields ( http://arxiv.org/abs/2208.02705v1 )

ライセンス: Link先を確認
Huajian Huang, Yingshu Chen, Tianjian Zhang and Sai-Kit Yeung(参考訳) ニューラルレイディアンス場(NeRF)は近年,新しいビュー合成において顕著な成果を上げている。 しかし、以前のnrfの研究は主にオブジェクト中心のシナリオに焦点を当てている。 本研究では,大規模な屋内シーンの画像をリアルタイムで合成し,VRローミングを支援する新しいシーンレベルのNeRFシステムである360Roamを提案する。 本システムはまず,複数入力360^\circ$画像から全方位神経放射場360NeRFを構築する。 360nerfを用いて,空間密度の形でシーン形状を表す3次元確率的占有率マップを漸進的に推定する。 空き空間をスキッピングし,占有されたボクセルをアップサンプリングすることで,360NeRFを幾何学的手法でボリュームレンダリングを高速化することができる。 さらに,さらなる改良のために,ラミアンス場をスリムかつ微調整するために適応的分割・変換戦略を用いる。 占有地図から抽出したシーンのフロアプランは、レイサンプリングのガイダンスを提供し、リアルなローミング体験を促進することができる。 本システムの有効性を示すため,様々な場面で360^\circ$の画像データセットを収集し,広範な実験を行った。 複雑な室内シーンにおける新しい視点合成において,ベースライン間の定量的・定性的な比較を行った。

Neural radiance field (NeRF) has recently achieved impressive results in novel view synthesis. However, previous works on NeRF mainly focus on object-centric scenarios. In this work, we propose 360Roam, a novel scene-level NeRF system that can synthesize images of large-scale indoor scenes in real time and support VR roaming. Our system first builds an omnidirectional neural radiance field 360NeRF from multiple input $360^\circ$ images. Using 360NeRF, we then progressively estimate a 3D probabilistic occupancy map which represents the scene geometry in the form of spacial density. Skipping empty spaces and upsampling occupied voxels essentially allows us to accelerate volume rendering by using 360NeRF in a geometry-aware fashion. Furthermore, we use an adaptive divide-and-conquer strategy to slim and fine-tune the radiance fields for further improvement. The floorplan of the scene extracted from the occupancy map can provide guidance for ray sampling and facilitate a realistic roaming experience. To show the efficacy of our system, we collect a $360^\circ$ image dataset in a large variety of scenes and conduct extensive experiments. Quantitative and qualitative comparisons among baselines illustrated our predominant performance in novel view synthesis for complex indoor scenes.
翻訳日:2022-08-05 12:46:52 公開日:2022-08-04
# 農業ディープラーニングモデルの効率的なトレーニングを可能にするデータセットの標準化と集中化

Standardizing and Centralizing Datasets to Enable Efficient Training of Agricultural Deep Learning Models ( http://arxiv.org/abs/2208.02707v1 )

ライセンス: Link先を確認
Amogh Joshi, Dario Guevara, Mason Earles(参考訳) 近年、ディープラーニングモデルは農業用コンピュータビジョンの標準となっている。 このようなモデルは通常、より一般的な非農業的なデータセットに適したモデルウェイトを使用して、農業タスクに微調整される。 この農業固有の微調整の欠如により、トレーニング時間とリソース使用が向上し、モデルパフォーマンスが低下し、データ効率が全体的に低下する可能性がある。 この制限を克服するために、私たちは3つの異なるタスクのための既存のデータセットを幅広く収集し、それらを標準化し、標準のトレーニングと評価パイプラインを構築し、ベンチマークと事前訓練されたモデルのセットを提供します。 次に、ディープラーニングタスクで一般的に使用される手法を用いて、多くの実験を行うが、その分野固有の農業応用では探索されていない。 我々の実験は、既存のパイプラインに大規模な変更を加えることなく、農業のディープラーニングモデルを訓練する際のデータ効率を改善するための多くのアプローチの開発をガイドする。 農業用事前訓練モデル重みの使用やデータ処理パイプラインへの特定の空間拡張など、わずかなトレーニング変更でも、モデル性能を大幅に向上させ、コンバージェンス時間の短縮とトレーニングリソースの節約が期待できることを示した。 さらに、低品質アノテーションでトレーニングされたモデルでさえ、高品質な同等のモデルに匹敵するレベルのパフォーマンスが得られることが分かり、アノテーションの弱いデータセットをトレーニングに使用して、現在利用可能なデータセットのプールを広げることが可能であることを示唆しています。 本手法は農業深層学習全般に広く適用可能であり,データ効率の向上の可能性が高い。

In recent years, deep learning models have become the standard for agricultural computer vision. Such models are typically fine-tuned to agricultural tasks using model weights that were originally fit to more general, non-agricultural datasets. This lack of agriculture-specific fine-tuning potentially increases training time and resource use, and decreases model performance, leading an overall decrease in data efficiency. To overcome this limitation, we collect a wide range of existing public datasets for three distinct tasks, standardize them, and construct standard training and evaluation pipelines, providing us with a set of benchmarks and pretrained models. We then conduct a number of experiments using methods which are commonly used in deep learning tasks, but unexplored in their domain-specific applications for agriculture. Our experiments guide us in developing a number of approaches to improve data efficiency when training agricultural deep learning models, without large-scale modifications to existing pipelines. Our results demonstrate that even slight training modifications, such as using agricultural pretrained model weights, or adopting specific spatial augmentations into data processing pipelines, can significantly boost model performance and result in shorter convergence time, saving training resources. Furthermore, we find that even models trained on low-quality annotations can produce comparable levels of performance to their high-quality equivalents, suggesting that datasets with poor annotations can still be used for training, expanding the pool of currently available datasets. Our methods are broadly applicable throughout agricultural deep learning, and present high potential for significant data efficiency improvements.
翻訳日:2022-08-05 12:46:31 公開日:2022-08-04
# 効率的なテストタイムトレーニングによるグローバルに一貫したビデオ奥行きとポーズ推定

Globally Consistent Video Depth and Pose Estimation with Efficient Test-Time Training ( http://arxiv.org/abs/2208.02709v1 )

ライセンス: Link先を確認
Yao-Chih Lee, Kuan-Wei Tseng, Guan-Sheng Chen and Chu-Song Chen(参考訳) 深度とポーズの推定は様々なビデオアプリケーションにとって重要な前提条件である。 従来のソリューションは、機能の少ないトラッキングとビデオのカメラベースライン不足の堅牢さに苦しんでいる。 そのため、近年の手法では、深度推定に先立って学習に基づく光学的流れと深度を利用する。 しかし、以前の研究は計算時間を要するか、あるいは準最適深さの結果を得る必要がある。 本稿では,動き(SfM)から学習した映像構造をグローバルに一貫したGCVDを提案する。 GCVDはCNNに基づく最適化にコンパクトなポーズグラフを統合し、効果的なキーフレーム選択機構から一貫した評価を実現する。 フローガイド付きキーフレームと確立された深さを持つ学習ベースのメソッドのロバスト性を改善することができる。 実験の結果,GCVDは深さと姿勢の両面において最先端の手法よりも優れていた。 さらに、ランタイム実験により、グローバルな一貫性を備えたショートビデオと長期ビデオの両方で、強力な効率性を提供することが明らかになった。

Dense depth and pose estimation is a vital prerequisite for various video applications. Traditional solutions suffer from the robustness of sparse feature tracking and insufficient camera baselines in videos. Therefore, recent methods utilize learning-based optical flow and depth prior to estimate dense depth. However, previous works require heavy computation time or yield sub-optimal depth results. We present GCVD, a globally consistent method for learning-based video structure from motion (SfM) in this paper. GCVD integrates a compact pose graph into the CNN-based optimization to achieve globally consistent estimation from an effective keyframe selection mechanism. It can improve the robustness of learning-based methods with flow-guided keyframes and well-established depth prior. Experimental results show that GCVD outperforms the state-of-the-art methods on both depth and pose estimation. Besides, the runtime experiments reveal that it provides strong efficiency in both short- and long-term videos with global consistency provided.
翻訳日:2022-08-05 12:46:05 公開日:2022-08-04
# UTOPIC: 部分点クラウド登録のための不確実性認識オーバーラップ予測ネットワーク

UTOPIC: Uncertainty-aware Overlap Prediction Network for Partial Point Cloud Registration ( http://arxiv.org/abs/2208.02712v1 )

ライセンス: Link先を確認
Zhilei Chen, Honghua Chen, Lina Gong, Xuefeng Yan, Jun Wang, Yanwen Guo, Jing Qin, Mingqiang Wei(参考訳) 高信頼重なり予測と正確な対応は、一対の点雲を部分的から部分的な方法で整列させる最先端モデルにとって重要である。 しかし、重複領域と重複しない領域の間には本質的に不確実性があり、これは常に無視され、登録性能に大きな影響を及ぼす。 そこで本研究では,不確実性を考慮した新しい重なり予測ネットワーク「utopic」を提案し,曖昧な重なり予測問題に取り組む。 さらに,コンプリートデコーダを用いて形状知識を暗黙的に知覚する特徴抽出器を誘導し,トランスフォーマーの幾何学的関係埋め込みを行い,変換不変な幾何学的特徴表現を得る。 より信頼性の高い重複スコアとより正確な密接な対応の利点により、UTOPICは限られた重複領域を持つ入力に対しても安定した正確な登録結果を得ることができる。 合成および実ベンチマークにおける大規模定量的および定性的実験は、我々のアプローチが最先端の手法よりも優れていることを示す。 コードはhttps://github.com/ZhileiChen99/UTOPICで入手できる。

High-confidence overlap prediction and accurate correspondences are critical for cutting-edge models to align paired point clouds in a partial-to-partial manner. However, there inherently exists uncertainty between the overlapping and non-overlapping regions, which has always been neglected and significantly affects the registration performance. Beyond the current wisdom, we propose a novel uncertainty-aware overlap prediction network, dubbed UTOPIC, to tackle the ambiguous overlap prediction problem; to our knowledge, this is the first to explicitly introduce overlap uncertainty to point cloud registration. Moreover, we induce the feature extractor to implicitly perceive the shape knowledge through a completion decoder, and present a geometric relation embedding for Transformer to obtain transformation-invariant geometry-aware feature representations. With the merits of more reliable overlap scores and more precise dense correspondences, UTOPIC can achieve stable and accurate registration results, even for the inputs with limited overlapping areas. Extensive quantitative and qualitative experiments on synthetic and real benchmarks demonstrate the superiority of our approach over state-of-the-art methods. Code is available at https://github.com/ZhileiChen99/UTOPIC.
翻訳日:2022-08-05 12:45:52 公開日:2022-08-04
# 第1回eccv 2022チャレンジ「out of vocabulary scene text understanding: cropped word recognition」の解法

1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: Cropped Word Recognition ( http://arxiv.org/abs/2208.02747v1 )

ライセンス: Link先を確認
Zhangzi Zhu, Yu Hao, Wenqing Zhang, Chuhui Xue, Song Bai(参考訳) 本報告は,eccv 2022 challenge on out-of-vocabulary scene text understanding (oov-st) の勝者である。 この課題は、自然の風景画像から語彙外単語を抽出することを目的としたECCV 2022 Workshop on Text in Everything (TiE)の文脈で行われる。 コンペでは、まず合成データセット上でSCATTERを事前訓練し、次にデータ拡張でトレーニングセット上でモデルを微調整します。 一方、縦と縦のテキスト用に2つの追加モデルが訓練されている。 最後に、最終的な結果として、異なるモデルの出力を異なる層、異なるバックボーン、異なるシードと組み合わせます。 語彙内および語彙外の両方を考慮した場合、全体の単語精度は69.73%となる。

This report presents our winner solution to ECCV 2022 challenge on Out-of-Vocabulary Scene Text Understanding (OOV-ST) : Cropped Word Recognition. This challenge is held in the context of ECCV 2022 workshop on Text in Everything (TiE), which aims to extract out-of-vocabulary words from natural scene images. In the competition, we first pre-train SCATTER on the synthetic datasets, then fine-tune the model on the training set with data augmentations. Meanwhile, two additional models are trained specifically for long and vertical texts. Finally, we combine the output from different models with different layers, different backbones, and different seeds as the final results. Our solution achieves an overall word accuracy of 69.73% when considering both in-vocabulary and out-of-vocabulary words.
翻訳日:2022-08-05 12:45:33 公開日:2022-08-04
# ビジョン中心のBEV知覚:サーベイ

Vision-Centric BEV Perception: A Survey ( http://arxiv.org/abs/2208.02797v1 )

ライセンス: Link先を確認
Yuexin Ma, Tai Wang, Xuyang Bai, Huitong Yang, Yuenan Hou, Yaming Wang, Yu Qiao, Ruigang Yang, Dinesh Manocha, Xinge Zhu(参考訳) ビジョン中心のBEV知覚は、世界の自然な表現や融合に優しいことを含む、その固有のメリットのために、産業と学術の両方から注目を集めている。 ディープラーニングの急速な発展に伴い、視覚中心のBEV知覚に対処する多くの手法が提案されている。 しかし、この新分野や発展途上の研究分野に関する最近の調査は行われていない。 今後の研究を促進するために,視覚中心のBEV知覚の最近の進歩とその拡張に関する包括的調査を行った。 最新の知識を収集し整理し、よく使われるアルゴリズムの体系的なレビューと要約を提供する。 また、いくつかのBEV知覚タスクについて詳細な分析と比較結果を提供し、将来の作業の比較を容易にし、将来の研究方向性を刺激する。 また,経験的実装の詳細についても検討し,関連するアルゴリズムの開発に有益であることを示した。

Vision-centric BEV perception has recently received increased attention from both industry and academia due to its inherent merits, including presenting a natural representation of the world and being fusion-friendly. With the rapid development of deep learning, numerous methods have been proposed to address the vision-centric BEV perception. However, there is no recent survey for this novel and growing research field. To stimulate its future research, this paper presents a comprehensive survey of recent progress of vision-centric BEV perception and its extensions. It collects and organizes the recent knowledge, and gives a systematic review and summary of commonly used algorithms. It also provides in-depth analyses and comparative results on several BEV perception tasks, facilitating the comparisons of future works and inspiring future research directions. Moreover, empirical implementation details are also discussed and shown to benefit the development of related algorithms.
翻訳日:2022-08-05 12:45:19 公開日:2022-08-04
# 大語彙手話ビデオの自動濃密アノテーション

Automatic dense annotation of large-vocabulary sign language videos ( http://arxiv.org/abs/2208.02802v1 )

ライセンス: Link先を確認
Liliane Momeni, Hannah Bull, K R Prajwal, Samuel Albanie, G\"ul Varol, Andrew Zisserman(参考訳) 最近、手話研究者は、手話解釈テレビ放送(英語版)に切り替えた。 (i)連続署名の映像と (ii)音声コンテンツに対応する字幕は、容易に入手でき、かつ大規模に訓練データのソースとして利用できる。 このようなデータのユーザビリティにおける1つの重要な課題は、サインアノテーションの欠如である。 このような弱い整列データを利用する以前の作業は、字幕内のキーワードと個々の記号の間のスパース対応しか見つからなかった。 本稿では,自動アノテーションの密度を大幅に高めるための,単純でスケーラブルなフレームワークを提案する。 我々は,(1)シノニムとサブタイトルのアライメントを利用して,従来のアノテーション手法を大幅に改善し,(2)サインスポッティングの方法として,符号認識モデルから擬似ラベリングの価値を示し,(3)ドメイン内例に基づく未知のクラスへのアノテーションを増やすための新しいアプローチを提案する。(4)BOBSL BSL手話コーパスでは,自信ある自動アノテーションの数が670Kから5Mに増加した。 これらのアノテーションは手話研究コミュニティをサポートするために公開されています。

Recently, sign language researchers have turned to sign language interpreted TV broadcasts, comprising (i) a video of continuous signing and (ii) subtitles corresponding to the audio content, as a readily available and large-scale source of training data. One key challenge in the usability of such data is the lack of sign annotations. Previous work exploiting such weakly-aligned data only found sparse correspondences between keywords in the subtitle and individual signs. In this work, we propose a simple, scalable framework to vastly increase the density of automatic annotations. Our contributions are the following: (1) we significantly improve previous annotation methods by making use of synonyms and subtitle-signing alignment; (2) we show the value of pseudo-labelling from a sign recognition model as a way of sign spotting; (3) we propose a novel approach for increasing our annotations of known and unknown classes based on in-domain exemplars; (4) on the BOBSL BSL sign language corpus, we increase the number of confident automatic annotations from 670K to 5M. We make these annotations publicly available to support the sign language research community.
翻訳日:2022-08-05 12:45:05 公開日:2022-08-04
# 汎用ビデオ認識のための言語画像事前学習モデルの拡張

Expanding Language-Image Pretrained Models for General Video Recognition ( http://arxiv.org/abs/2208.02816v1 )

ライセンス: Link先を確認
Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling(参考訳) 対照的な言語イメージプリトレーニングは、webスケールデータから視覚とテキストのジョイント表現を学ぶことに成功し、様々な画像タスクにおいて顕著な「ゼロショット」一般化能力を示している。 しかし、このような新しい言語画像事前学習手法をビデオ領域に効果的に拡張する方法は、まだ未解決の問題である。 本研究では,新しいモデルをゼロから事前学習するのではなく,事前学習した言語イメージモデルを直接ビデオ認識に適用する,シンプルで効果的な手法を提案する。 より具体的には、時間次元に沿ったフレームの長距離依存性を捉えるために、フレーム間で情報を明示的に交換するクロスフレーム注意機構を提案する。 このようなモジュールは軽量で、トレーニング済みの言語イメージモデルにシームレスにプラグインすることができる。 さらに,映像コンテンツ情報を利用して識別テキストのプロンプトを生成するビデオ固有プロンプト方式を提案する。 広範な実験により,提案手法が有効であり,異なる映像認識シナリオに一般化できることが証明された。 特に,フル教師付き設定下では,Kinectics-400ではトップ1の精度が87.1%であり,Swin-LやViViT-Hに比べてFLOPが12倍少ない。 ゼロショット実験では、2つの一般的なプロトコルでトップ1の精度で、現在の最先端手法を+7.6%、+14.9%超える。 少数のシナリオでは、ラベル付きデータが極めて制限された場合、従来のベストメソッドを+32.1%、+23.1%で上回ります。 コードとモデルはhttps://aka.ms/x-clipで利用可能

Contrastive language-image pretraining has shown great success in learning visual-textual joint representation from web-scale data, demonstrating remarkable "zero-shot" generalization ability for various image tasks. However, how to effectively expand such new language-image pretraining methods to video domains is still an open problem. In this work, we present a simple yet effective approach that adapts the pretrained language-image models to video recognition directly, instead of pretraining a new model from scratch. More concretely, to capture the long-range dependencies of frames along the temporal dimension, we propose a cross-frame attention mechanism that explicitly exchanges information across frames. Such module is lightweight and can be plugged into pretrained language-image models seamlessly. Moreover, we propose a video-specific prompting scheme, which leverages video content information for generating discriminative textual prompts. Extensive experiments demonstrate that our approach is effective and can be generalized to different video recognition scenarios. In particular, under fully-supervised settings, our approach achieves a top-1 accuracy of 87.1% on Kinectics-400, while using 12 times fewer FLOPs compared with Swin-L and ViViT-H. In zero-shot experiments, our approach surpasses the current state-of-the-art methods by +7.6% and +14.9% in terms of top-1 accuracy under two popular protocols. In few-shot scenarios, our approach outperforms previous best methods by +32.1% and +23.1% when the labeled data is extremely limited. Code and models are available at https://aka.ms/X-CLIP
翻訳日:2022-08-05 12:44:46 公開日:2022-08-04
# 畳み込みカーネルバイパスグラフトを用いたオンラインビデオ超解像

Online Video Super-Resolution with Convolutional Kernel Bypass Graft ( http://arxiv.org/abs/2208.02470v1 )

ライセンス: Link先を確認
Jun Xiao, Xinyang Jiang, Ningxin Zheng, Huan Yang, Yifan Yang, Yuqing Yang, Dongsheng Li, Kin-Man Lam(参考訳) 近年、深層学習に基づくモデルはビデオ超解像(VSR)において顕著な性能を達成しているが、これらのモデルのほとんどはオンラインビデオアプリケーションには適用できない。 これらの手法は歪み品質のみを考慮し、例えば低レイテンシや低モデルの複雑さなど、オンラインアプリケーションに必要な要件を無視する。 本稿では,VSRアルゴリズムがフレームをリアルタイムに高精細な映像列を生成するために必要となるオンラインビデオ伝送に注目した。 このような課題に対処するために,新しいカーネル知識伝達手法である畳み込みカーネルバイパスグラフト (CKBG) に基づく極低レイテンシなVSRアルゴリズムを提案する。 まず、将来のフレームを入力として必要とせず、これらのフレームをキャッシュするのに余分なコストを節約できる軽量ネットワーク構造を設計する。 次に,本提案手法は,外部事前学習画像srモデルの知識を含む超畳み込みカーネルである ``kernel grafts''' で元のネットワークをバイパスすることで,この軽量ベースモデルを強化する。 テストフェーズでは、移植されたマルチブランチネットワークを単純な単一パス構造に変換することにより、さらに加速する。 実験の結果,提案手法は最大110fpsのオンラインビデオシーケンスを処理可能であり,モデルの複雑さとsr性能が極めて低いことがわかった。

Deep learning-based models have achieved remarkable performance in video super-resolution (VSR) in recent years, but most of these models are less applicable to online video applications. These methods solely consider the distortion quality and ignore crucial requirements for online applications, e.g., low latency and low model complexity. In this paper, we focus on online video transmission, in which VSR algorithms are required to generate high-resolution video sequences frame by frame in real time. To address such challenges, we propose an extremely low-latency VSR algorithm based on a novel kernel knowledge transfer method, named convolutional kernel bypass graft (CKBG). First, we design a lightweight network structure that does not require future frames as inputs and saves extra time costs for caching these frames. Then, our proposed CKBG method enhances this lightweight base model by bypassing the original network with ``kernel grafts'', which are extra convolutional kernels containing the prior knowledge of external pretrained image SR models. In the testing phase, we further accelerate the grafted multi-branch network by converting it into a simple single-path structure. Experiment results show that our proposed method can process online video sequences up to 110 FPS, with very low model complexity and competitive SR performance.
翻訳日:2022-08-05 12:42:25 公開日:2022-08-04
# 天然果樹における多センサ融合データに基づく果汁のセマンティックセグメンテーション

Semantic Segmentation of Fruits on Multi-sensor Fused Data in Natural Orchards ( http://arxiv.org/abs/2208.02483v1 )

ライセンス: Link先を確認
Hanwen Kang, Xing Wang(参考訳) セマンティックセグメンテーションは、農業ロボットが自然果樹園の環境を理解するための基本的な課題である。 近年のLiDAR技術により、ロボットは未構造化果樹園の視界を正確に測定できるようになっている。 RGB画像と比較すると、3次元点雲は幾何学的性質を持つ。 LiDARとカメラを組み合わせることで、ジオメトリやテクスチャに関する豊富な情報を得ることができる。 本研究では,lidarカメラを用いた視覚センサを用いて,融合データの正確な意味セグメンテーションを行うための,ディープラーニングに基づくセグメンテーション手法を提案する。 この研究で2つの重要な問題を探求し、解決した。 ひとつは、マルチセンサーデータからテクスチャと幾何学的特徴を効率的に融合する方法です。 第2の方法は,重度不均衡なクラス条件下での3次元セグメンテーションネットワークの効率的な訓練方法である。 さらに,lidarカメラデータ融合,データ収集とラベリング,ネットワークトレーニング,モデル推論を含む果樹園における3次元セグメンテーションの実装を詳細に紹介する。 実験では,リンゴ果樹園から取得した高度に非構造でノイズの多い点群を扱う際のネットワーク構成を総合的に解析する。 提案手法は,高分解能点雲(100k-200k点)上の果実のセグメンテーションにおいて86.2% mIoUを達成する。 実験の結果,本手法は実果樹園環境において高精度なセグメンテーションが可能であった。

Semantic segmentation is a fundamental task for agricultural robots to understand the surrounding environments in natural orchards. The recent development of the LiDAR techniques enables the robot to acquire accurate range measurements of the view in the unstructured orchards. Compared to RGB images, 3D point clouds have geometrical properties. By combining the LiDAR and camera, rich information on geometries and textures can be obtained. In this work, we propose a deep-learning-based segmentation method to perform accurate semantic segmentation on fused data from a LiDAR-Camera visual sensor. Two critical problems are explored and solved in this work. The first one is how to efficiently fused the texture and geometrical features from multi-sensor data. The second one is how to efficiently train the 3D segmentation network under severely imbalance class conditions. Moreover, an implementation of 3D segmentation in orchards including LiDAR-Camera data fusion, data collection and labelling, network training, and model inference is introduced in detail. In the experiment, we comprehensively analyze the network setup when dealing with highly unstructured and noisy point clouds acquired from an apple orchard. Overall, our proposed method achieves 86.2% mIoU on the segmentation of fruits on the high-resolution point cloud (100k-200k points). The experiment results show that the proposed method can perform accurate segmentation in real orchard environments.
翻訳日:2022-08-05 12:42:01 公開日:2022-08-04
# RAZE:地域指導型自己監督型迷路表現学習

RAZE: Region Guided Self-Supervised Gaze Representation Learning ( http://arxiv.org/abs/2208.02485v1 )

ライセンス: Link先を確認
Neeru Dubey, Shreya Ghosh, Abhinav Dhall(参考訳) 視覚に基づくアシスト技術では、拡張現実、仮想現実、人間とコンピュータのインタラクションなど、さまざまな新興トピックのユースケースにおいて、自動視線推定は重要な問題である。 過去数年間、大規模な注釈付きデータの要求を克服するため、教師なし、自己教師なしの学習パラダイムへの関心が高まっている。 本稿では,非注釈顔画像データを利用した地域指導型自己教師型gAZE表現学習フレームワークRAZEを提案する。 razeは補助監督によって視線表現を学ぶ。すなわち、瞳孔中心の相対位置を利用して異なる視線領域(左、右、中央)に視野を分類することを目的としている疑似ガゼゾーン分類である。 そこで我々は154Kのウェブクローリング画像の擬似ガゼゾーンラベルを自動的にアノテートし, 'Ize-Net' フレームワークを介して特徴表現を学習する。 Ize-Netはカプセル層に基づくCNNアーキテクチャであり、リッチアイ表現を効率的に捉えることができる。 特徴表現の識別行動は、CAVE、TabletGaze、MPII、RT-GENEの4つのベンチマークデータセットで評価される。 さらに、学習した視線表現の有効性を示す2つの下流タスク(運転者視線推定と視線注意推定)において、提案したネットワークの一般化可能性を評価する。

Automatic eye gaze estimation is an important problem in vision based assistive technology with use cases in different emerging topics such as augmented reality, virtual reality and human-computer interaction. Over the past few years, there has been an increasing interest in unsupervised and self-supervised learning paradigms as it overcomes the requirement of large scale annotated data. In this paper, we propose RAZE, a Region guided self-supervised gAZE representation learning framework which leverage from non-annotated facial image data. RAZE learns gaze representation via auxiliary supervision i.e. pseudo-gaze zone classification where the objective is to classify visual field into different gaze zones (i.e. left, right and center) by leveraging the relative position of pupil-centers. Thus, we automatically annotate pseudo gaze zone labels of 154K web-crawled images and learn feature representations via `Ize-Net' framework. `Ize-Net' is a capsule layer based CNN architecture which can efficiently capture rich eye representation. The discriminative behaviour of the feature representation is evaluated on four benchmark datasets: CAVE, TabletGaze, MPII and RT-GENE. Additionally, we evaluate the generalizability of the proposed network on two other downstream task (i.e. driver gaze estimation and visual attention estimation) which demonstrate the effectiveness of the learnt eye gaze representation.
翻訳日:2022-08-05 12:41:34 公開日:2022-08-04
# 激しい運動ビデオにおける心拍数推定

Heart rate estimation in intense exercise videos ( http://arxiv.org/abs/2208.02509v1 )

ライセンス: Link先を確認
Yeshwanth Napolean, Anwesh Marwade, Nergis Tomen, Puck Alkemade, Thijs Eijsvogels, Jan van Gemert(参考訳) ビデオから心拍数を推定することで、患者のケア、ヒューマンインタラクション、スポーツにおける非接触型健康モニタリングが可能になる。 既存の作業では、顔追跡によって心拍数をある程度の動作でロバストに測定できる。 しかし、顔はカメラの外側に隠されているかもしれないため、制約のない設定では必ずしも可能とは限らない。 IntensePhysioは、現実的な顔の閉塞、重度被写体の動き、および十分な心拍変動を伴う、挑戦的なビデオ心拍推定データセットである。 現実的な設定で心拍変動を確実にするために,各被験者を約1~2時間記録する。 被写体は、ビデオカメラ付きサイクリングエルゴメーター上で(適度〜高強度で)運動しており、位置や動きに関する指示は与えられない。 11の被験者と、約20時間のビデオがある。 そこで本研究では,既存のリモートフォトプレチモグラフィ法では心拍数の推定が困難であることを示す。 In addition, IBIS-CNN, a new baseline using spatio-temporal superpixels, which is improveing on existing model by eliminate the need of a visual face/face tracking。 コードとデータを間もなく公開します。

Estimating heart rate from video allows non-contact health monitoring with applications in patient care, human interaction, and sports. Existing work can robustly measure heart rate under some degree of motion by face tracking. However, this is not always possible in unconstrained settings, as the face might be occluded or even outside the camera. Here, we present IntensePhysio: a challenging video heart rate estimation dataset with realistic face occlusions, severe subject motion, and ample heart rate variation. To ensure heart rate variation in a realistic setting we record each subject for around 1-2 hours. The subject is exercising (at a moderate to high intensity) on a cycling ergometer with an attached video camera and is given no instructions regarding positioning or movement. We have 11 subjects, and approximately 20 total hours of video. We show that the existing remote photo-plethysmography methods have difficulty in estimating heart rate in this setting. In addition, we present IBIS-CNN, a new baseline using spatio-temporal superpixels, which improves on existing models by eliminating the need for a visible face/face tracking. We will make the code and data publically available soon.
翻訳日:2022-08-05 12:41:12 公開日:2022-08-04
# 微粒度セマンティックアライメントによる視覚言語事前学習

Fine-Grained Semantically Aligned Vision-Language Pre-Training ( http://arxiv.org/abs/2208.02515v1 )

ライセンス: Link先を確認
Juncheng Li, Xin He, Longhui Wei, Long Qian, Linchao Zhu, Lingxi Xie, Yueting Zhuang, Qi Tian, Siliang Tang(参考訳) 大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。 既存の手法は主に、画像やテキストのグローバルな表現の類似性や、画像やテキストの特徴に対する高度な横断的注意によって、モーダル間のアライメントをモデル化する。 しかし、グローバルな画像テキストアライメント情報のみが利用可能であるため、視覚領域とテキストフレーズ間の微粒なセマンティックアライメントを明示的に学習することができない。 本稿では,ゲーム理論的なインタラクションの新たな視点から,詳細な意味的アライメントを学ぶための,意味的にアライメントされた視覚言語事前学習フレームワークであるloupeについて紹介する。 ゲーム理論の相互作用を効率的に計算するために,不確実性を考慮したニューラルシェープリー相互作用学習モジュールを提案する。 実験の結果, LOUPEは画像テキスト検索ベンチマークの最先端化を実現している。 オブジェクトレベルの人間のアノテーションや微調整がなければ、LOUPEはオブジェクトの検出と視覚的な接地において競合するパフォーマンスを達成する。 さらに重要なことに、loupeは、大規模な画像テキストペアからきめ細かなセマンティクスを学ぶ、新しい有望な方向を開く。

Large-scale vision-language pre-training has shown impressive advances in a wide range of downstream tasks. Existing methods mainly model the cross-modal alignment by the similarity of the global representations of images and texts, or advanced cross-modal attention upon image and text features. However, they fail to explicitly learn the fine-grained semantic alignment between visual regions and textual phrases, as only global image-text alignment information is available. In this paper, we introduce LOUPE, a fine-grained semantically aLigned visiOn-langUage PrE-training framework, which learns fine-grained semantic alignment from the novel perspective of game-theoretic interactions. To efficiently compute the game-theoretic interactions, we further propose an uncertainty-aware neural Shapley interaction learning module. Experiments show that LOUPE achieves state-of-the-art on image-text retrieval benchmarks. Without any object-level human annotations and fine-tuning, LOUPE achieves competitive performance on object detection and visual grounding. More importantly, LOUPE opens a new promising direction of learning fine-grained semantics from large-scale raw image-text pairs.
翻訳日:2022-08-05 12:40:53 公開日:2022-08-04
# 網膜光コヒーレンス断層画像からのメタデータ強調コントラスト学習

Metadata-enhanced contrastive learning from retinal optical coherence tomography images ( http://arxiv.org/abs/2208.02529v1 )

ライセンス: Link先を確認
Robbie Holland, Oliver Leingang, Hrvoje Bogunovi\'c, Sophie Riedl, Lars Fritsche, Toby Prevost, Hendrik P. N. Scholl, Ursula Schmidt-Erfurth, Sobha Sivaprasad, Andrew J. Lotery, Daniel Rueckert and Martin J. Menten(参考訳) 教師付きディープラーニングアルゴリズムは、医療画像のスクリーニング、監視、評価を自動化する大きな可能性を秘めている。 しかし、トレーニングパフォーマンスモデルは通常大量のラベル付きデータを必要としており、医療分野ではほとんど利用できない。 自己監督型コントラストフレームワークは、この依存関係を非競合画像から学習することで緩和する。 本研究は,SimCLRとBYOLの2つの対照的な方法による事前トレーニングにより,加齢関連黄斑変性(AMD)の臨床評価において,深層学習の有用性が向上することを示す。 170,427光コヒーレンス断層撮影(OCT)画像を含む2つの大きな臨床データセットを用いて,AMDステージおよびタイプ分類から機能的エンドポイントの予測,網膜層のセグメンテーションに至るまで,7つの下流タスクの事前訓練による効果を評価し,ラベルの少ない7タスクのうち6タスクでパフォーマンスが有意に向上した。 しかし、標準的なコントラストフレームワークには、医学領域における事前訓練に有害な2つの既知の弱点がある。 負のコントラスト対を生成するために使用される画像変換は、グレースケールの医療スキャンには適用できない。 さらに、医療画像は、しばしば同じ解剖学的領域と病気の重症度を描いており、多くの誤解を招く負のペアを生み出している。 これらの問題に対処するため,本質的な患者情報を豊富に活用するメタデータ強化アプローチを開発した。 この目的のために、患者識別、目の位置(左または右)、時系列データの記録を用いて、画像間のコントラスト関係の典型的な不可知集合を示す。 しばしば無視される情報を活用することで、メタデータを強調したコントラストプリトレーニングは、さらにメリットをもたらし、7つのダウンストリームタスクのうち5つで従来のコントラストメソッドよりも優れています。

Supervised deep learning algorithms hold great potential to automate screening, monitoring and grading of medical images. However, training performant models has typically required vast quantities of labelled data, which is scarcely available in the medical domain. Self-supervised contrastive frameworks relax this dependency by first learning from unlabelled images. In this work we show that pretraining with two contrastive methods, SimCLR and BYOL, improves the utility of deep learning with regard to the clinical assessment of age-related macular degeneration (AMD). In experiments using two large clinical datasets containing 170,427 optical coherence tomography (OCT) images of 7,912 patients, we evaluate benefits attributed to pretraining across seven downstream tasks ranging from AMD stage and type classification to prediction of functional endpoints to segmentation of retinal layers, finding performance significantly increased in six out of seven tasks with fewer labels. However, standard contrastive frameworks have two known weaknesses that are detrimental to pretraining in the medical domain. Several of the image transformations used to create positive contrastive pairs are not applicable to greyscale medical scans. Furthermore, medical images often depict the same anatomical region and disease severity, resulting in numerous misleading negative pairs. To address these issues we develop a novel metadata-enhanced approach that exploits the rich set of inherently available patient information. To this end we employ records for patient identity, eye position (i.e. left or right) and time series data to indicate the typically unknowable set of inter-image contrastive relationships. By leveraging this often neglected information our metadata-enhanced contrastive pretraining leads to further benefits and outperforms conventional contrastive methods in five out of seven downstream tasks.
翻訳日:2022-08-05 12:40:33 公開日:2022-08-04
# MVSFormer: マルチビューステレオのためのトランスフォーマーによるロバスト画像表現と温度ベース深さの学習

MVSFormer: Learning Robust Image Representations via Transformers and Temperature-based Depth for Multi-View Stereo ( http://arxiv.org/abs/2208.02541v1 )

ライセンス: Link先を確認
Chenjie Cao, Xinlin Ren, Yanwei Fu(参考訳) 特徴表現学習は、学習に基づくマルチビューステレオ(MVS)の鍵となるレシピである。 学習ベースMVSの一般的な特徴抽出器として、Vanilla Feature Pyramid Networks (FPN) は、MVSの一般化を制限するリフレクションやテクスチャレス領域の特徴表現の妨げとなる。 FPNでさえ、事前訓練された畳み込みニューラルネットワーク(CNN)ではこれらの問題に対処できない。 一方、視覚トランスフォーマー(vits)は多くの2次元視覚タスクで顕著な成功を収めている。 したがって、ViTsはMVSの機能学習を促進することができるのか? 本稿では,事前学習型VT拡張MVSネットワークであるMVSFormerを提案する。 すると、MVSFormer-P と MVSFormer-H は、それぞれ固定された ViT 重量とトレーニング可能な重量でさらに提案される。 MVSFormer-Pは効率が良く、MVSFormer-Hは優れたパフォーマンスを実現する。 MVSタスクの任意の解像度でViTを堅牢にするために、勾配の蓄積を伴う効率的なマルチスケールトレーニングを提案する。 さらに,分類法と回帰型mvs法のメリットと欠点について検討し,さらに,温度に基づく戦略と一体化することを提案する。 MVSFormerはDTUデータセット上で最先端のパフォーマンスを達成する。 特に、MVSFormerの匿名提出は、他の出版物と比較して、競争の激しい戦車とテンプルズのリーダーボードの中間セットと先進セットの上位1位にランクされている。 コードとモデルがリリースされます。

Feature representation learning is the key recipe for learning-based Multi-View Stereo (MVS). As the common feature extractor of learning-based MVS, vanilla Feature Pyramid Networks (FPN) suffers from discouraged feature representations for reflection and texture-less areas, which limits the generalization of MVS. Even FPNs worked with pre-trained Convolutional Neural Networks (CNNs) fail to tackle these issues. On the other hand, Vision Transformers (ViTs) have achieved prominent success in many 2D vision tasks. Thus we ask whether ViTs can facilitate the feature learning in MVS? In this paper, we propose a pre-trained ViT enhanced MVS network called MVSFormer, which can learn more reliable feature representations benefited by informative priors from ViT. Then MVSFormer-P and MVSFormer-H are further proposed with fixed ViT weights and trainable ones respectively. MVSFormer-P is more efficient while MVSFormer-H can achieve superior performance. To make ViTs robust to arbitrary resolutions for MVS tasks, we propose to use an efficient multi-scale training with gradient accumulation. Moreover, we discuss the merits and drawbacks of classification and regression-based MVS methods, and further propose to unify them with a temperature-based strategy. MVSFormer achieves state-of-the-art performance on the DTU dataset. Particularly, our anonymous submission of MVSFormer is ranked in the Top-1 position on both intermediate and advanced sets of the highly competitive Tanks-and-Temples leaderboard on the day of submission compared with other published works. Codes and models will be released.
翻訳日:2022-08-05 12:39:59 公開日:2022-08-04
# SOMPT22:サーベイランス指向マルチ歩行者追跡データセット

SOMPT22: A Surveillance Oriented Multi-Pedestrian Tracking Dataset ( http://arxiv.org/abs/2208.02580v1 )

ライセンス: Link先を確認
Fatih Emre Simsek, Cevahir Cigla, Koray Kayabol(参考訳) マルチオブジェクトトラッキング(MOT)は、過去10年間の検出において畳み込みニューラルネットワーク(CNN)の成功により、検出アプローチによるトラックの使用によって支配されている。 データセットとベンチマーキングサイトが公開されるにつれ、トラッキング中のオブジェクトの再識別(reID)を含む一般的なシナリオにおいて、研究の方向性は最も正確になっている。 本研究では,歩行者の専用データセットを提供することで,監視のためのmotの範囲を狭め,実世界のアプリケーションにおける最先端(sota)技術の弱みと強みを観察する多目的追跡装置の詳細な分析に焦点をあてる。 都市監視のための高度6-8mのポール上の静止カメラから撮影した注釈付きショートビデオ付きマルチ人追跡用データセットであるSOMPT22を新たに導入する。 これは、公開MOTデータセットと比較して、屋外監視のためのMOTのより集中的で具体的なベンチマークを提供する。 新たなデータセットにおける検出およびreIDネットワークの利用方法に関して,MOTトラッカーをワンショットと2ステージに分類した。 我々の新しいデータセットの実験結果から、SOTAは依然として高効率には程遠いことが示され、シングルショットトラッカーは高速実行と精度を競合性能と一体化するための良い候補である。 データセットは以下の通りである。 sompt22.github.io

Multi-object tracking (MOT) has been dominated by the use of track by detection approaches due to the success of convolutional neural networks (CNNs) on detection in the last decade. As the datasets and bench-marking sites are published, research direction has shifted towards yielding best accuracy on generic scenarios including re-identification (reID) of objects while tracking. In this study, we narrow the scope of MOT for surveillance by providing a dedicated dataset of pedestrians and focus on in-depth analyses of well performing multi-object trackers to observe the weak and strong sides of state-of-the-art (SOTA) techniques for real-world applications. For this purpose, we introduce SOMPT22 dataset; a new set for multi person tracking with annotated short videos captured from static cameras located on poles with 6-8 meters in height positioned for city surveillance. This provides a more focused and specific benchmarking of MOT for outdoor surveillance compared to public MOT datasets. We analyze MOT trackers classified as one-shot and two-stage with respect to the way of use of detection and reID networks on this new dataset. The experimental results of our new dataset indicate that SOTA is still far from high efficiency, and single-shot trackers are good candidates to unify fast execution and accuracy with competitive performance. The dataset will be available at: sompt22.github.io
翻訳日:2022-08-05 12:39:35 公開日:2022-08-04
# ビデオセマンティックアグリゲーションによる外科的スキル評価

Surgical Skill Assessment via Video Semantic Aggregation ( http://arxiv.org/abs/2208.02611v1 )

ライセンス: Link先を確認
Zhenqiang Li, Lin Gu, Weimin Wang, Ryosuke Nakamura, and Yoichi Sato(参考訳) 手術スキルの自動評価は,若年者,特に低資源地域での訓練を支援する上で有望な課題である。 既存の作業は、空間プールした短期CNN機能上でLSTMによる長期関係をモデル化するCNN-LSTMジョイントフレームワークを利用することが多い。 しかし、この慣習は、道具、組織、空間次元における背景といった意味概念の違いを必然的に無視し、その後の時間的関係モデリングを阻害する。 本稿では,異なる意味的部分を発見し,時空間的次元にまたがってそれらを集約する,新しいスキルアセスメントフレームワークであるvideo semantic aggregation (visa)を提案する。 意味的部分の明示的な発見は、ニューラルネットワークの決定を理解するのに役立つ説明的可視化を提供する。 また,キネマティックデータなどの補助情報をさらに取り入れることで,表現学習と性能を向上させることができる。 2つのデータセットの実験は、最先端の手法と比較してViSAの競争力を示している。 ソースコードは: bit.ly/MICCAI2022ViSAで入手できる。

Automated video-based assessment of surgical skills is a promising task in assisting young surgical trainees, especially in poor-resource areas. Existing works often resort to a CNN-LSTM joint framework that models long-term relationships by LSTMs on spatially pooled short-term CNN features. However, this practice would inevitably neglect the difference among semantic concepts such as tools, tissues, and background in the spatial dimension, impeding the subsequent temporal relationship modeling. In this paper, we propose a novel skill assessment framework, Video Semantic Aggregation (ViSA), which discovers different semantic parts and aggregates them across spatiotemporal dimensions. The explicit discovery of semantic parts provides an explanatory visualization that helps understand the neural network's decisions. It also enables us to further incorporate auxiliary information such as the kinematic data to improve representation learning and performance. The experiments on two datasets show the competitiveness of ViSA compared to state-of-the-art methods. Source code is available at: bit.ly/MICCAI2022ViSA.
翻訳日:2022-08-05 12:39:12 公開日:2022-08-04
# マルチラベルリモートセンシング画像分類のための意味的インターリービンググローバルチャネル注意

Semantic Interleaving Global Channel Attention for Multilabel Remote Sensing Image Classification ( http://arxiv.org/abs/2208.02613v1 )

ライセンス: Link先を確認
Yongkun Liu, Kesong Ni, Yuhan Zhang, Lijian Zhou and Kun Zhao(参考訳) マルチラベルリモートセンシング画像分類(MLRSIC)は研究の関心が高まっている。 複数のラベルの共起関係を追加情報として取ることは、このタスクのパフォーマンスを改善するのに役立つ。 現在の手法では、畳み込みニューラルネットワーク(cnn)の最終的な特徴出力を制限するためにそれを使用する。 一方、これらの手法は特徴表現を形成するためにラベル相関を完全に利用しない。 一方で、システムのラベルノイズ感度が向上し、ロバスト性が低下する。 本稿では,MLRSICに対してSIGNA(Semantic Interleaving Global Channel Attention)と呼ばれる新しい手法を提案する。 まず、データセットの統計情報に基づいてラベル共起グラフを求める。 ラベル共起グラフはグラフニューラルネットワーク(GNN)の入力として使われ、最適な特徴表現を生成する。 次に、意味的特徴と視覚的特徴をインターリーブし、元の特徴空間から埋め込みラベル関係を持つ意味的特徴空間へ画像の特徴表現を誘導する。 SIGNAは、より重要な視覚的特徴を抽出するために、新しい意味的特徴空間における機能マップチャネルのグローバルな注意を喚起する。 マルチヘッドSIGNAに基づく特徴適応重み付けネットワークは,CNNの任意の層にプラグアンドプレイで作用する。 リモートセンシング画像の場合、浅い層にCNNを挿入することで、より良い分類性能が得られる。 UCMデータセット, AIDデータセット, DFC15データセットの3つのデータセットについて, 広範囲にわたる実験的比較を行った。 実験結果から,提案したSIGNAは最先端(SOTA)法よりも優れた分類性能を示すことが示された。 本論文のコードは再現性研究のためにコミュニティに開放されることに留意すべきである。 私たちのコードはhttps://github.com/kyle-one/signaで利用可能です。

Multi-Label Remote Sensing Image Classification (MLRSIC) has received increasing research interest. Taking the cooccurrence relationship of multiple labels as additional information helps to improve the performance of this task. Current methods focus on using it to constrain the final feature output of a Convolutional Neural Network (CNN). On the one hand, these methods do not make full use of label correlation to form feature representation. On the other hand, they increase the label noise sensitivity of the system, resulting in poor robustness. In this paper, a novel method called Semantic Interleaving Global Channel Attention (SIGNA) is proposed for MLRSIC. First, the label co-occurrence graph is obtained according to the statistical information of the data set. The label co-occurrence graph is used as the input of the Graph Neural Network (GNN) to generate optimal feature representations. Then, the semantic features and visual features are interleaved, to guide the feature expression of the image from the original feature space to the semantic feature space with embedded label relations. SIGNA triggers global attention of feature maps channels in a new semantic feature space to extract more important visual features. Multihead SIGNA based feature adaptive weighting networks are proposed to act on any layer of CNN in a plug-and-play manner. For remote sensing images, better classification performance can be achieved by inserting CNN into the shallow layer. We conduct extensive experimental comparisons on three data sets: UCM data set, AID data set, and DFC15 data set. Experimental results demonstrate that the proposed SIGNA achieves superior classification performance compared to state-of-the-art (SOTA) methods. It is worth mentioning that the codes of this paper will be open to the community for reproducibility research. Our codes are available at https://github.com/kyle-one/SIGNA.
翻訳日:2022-08-05 12:38:56 公開日:2022-08-04
# ATP:ABSAを強化するための全体的注意統合アプローチ

ATP: A holistic attention integrated approach to enhance ABSA ( http://arxiv.org/abs/2208.02653v1 )

ライセンス: Link先を確認
Ashish Kumar (1), Vasundhra Dahiya (2), Aditi Sharan (1) ((1) Jawaharlal Nehru University, New Delhi, India, (2) Indian Institute of Technology, Jodhpur, India)(参考訳) アスペクトベース感情分析(absa)は、与えられたアスペクトに対するレビュー文の感情極性の特定を扱う。 RNN、LSTM、GRUといったディープラーニングシーケンシャルモデルは、感情極性を推定するための最先端の手法である。 これらの手法は、レビュー文の単語間の文脈関係を捉えるのに有効である。 しかし、これらの手法は長期的な依存関係を捉える上で重要ではない。 注意機構は文の最も重要な部分にのみ焦点をあてることで重要な役割を果たす。 ABSAの場合、アスペクトの位置は重要な役割を果たす。 アスペクトに近い言葉は、アスペクトに対する感情を決定しながら、より貢献します。 そこで本研究では,依存性解析木を用いて位置情報を取得する手法を提案する。 単純な単語距離に基づく位置情報を用いた場合,深層学習モデルの性能が向上する。 semeval'14データセットで実験を行い,absaに対する依存解析関係に基づく注意の効果を実証した。

Aspect based sentiment analysis (ABSA) deals with the identification of the sentiment polarity of a review sentence towards a given aspect. Deep Learning sequential models like RNN, LSTM, and GRU are current state-of-the-art methods for inferring the sentiment polarity. These methods work well to capture the contextual relationship between the words of a review sentence. However, these methods are insignificant in capturing long-term dependencies. Attention mechanism plays a significant role by focusing only on the most crucial part of the sentence. In the case of ABSA, aspect position plays a vital role. Words near to aspect contribute more while determining the sentiment towards the aspect. Therefore, we propose a method that captures the position based information using dependency parsing tree and helps attention mechanism. Using this type of position information over a simple word-distance-based position enhances the deep learning model's performance. We performed the experiments on SemEval'14 dataset to demonstrate the effect of dependency parsing relation-based attention for ABSA.
翻訳日:2022-08-05 12:36:21 公開日:2022-08-04
# 不確かさ下での機械共振の致命的評価ネットワーク

Credal Valuation Networks for Machine Reasoning Under Uncertainty ( http://arxiv.org/abs/2208.02443v1 )

ライセンス: Link先を確認
Branko Ristic, Alessio Benavoli, Sanjeev Arulampalam(参考訳) 現代の事業は、不確実性、敵対性、膨大なデータ量によって特徴づけられる状況において、機械推論と人工知能を広く応用するための無制限の機会を提供する。 本稿では,人間操作者支援の不確実性下での高水準融合と推論のためのグラフィカルシステムとして評価ネットワークを開発した。 知識と収集されたデータの数学的表現である評価は、不正確確率論の枠組みにおけるコヒーレント区間確率として定義されるクレダル集合として表現される。 そのようなクレダル集合を持つ基本演算(結合と辺化)は、評価代数の公理を満たすように定義される。 credal valuation networkの実用的実装について検討し,その有用性を小規模の例で実証した。

Contemporary undertakings provide limitless opportunities for widespread application of machine reasoning and artificial intelligence in situations characterised by uncertainty, hostility and sheer volume of data. The paper develops a valuation network as a graphical system for higher-level fusion and reasoning under uncertainty in support of the human operators. Valuations, which are mathematical representation of (uncertain) knowledge and collected data, are expressed as credal sets, defined as coherent interval probabilities in the framework of imprecise probability theory. The basic operations with such credal sets, combination and marginalisation, are defined to satisfy the axioms of a valuation algebra. A practical implementation of the credal valuation network is discussed and its utility demonstrated on a small scale example.
翻訳日:2022-08-05 12:36:07 公開日:2022-08-04
# 地表面画像からのブドウ収量の直接推定のためのエンドツーエンド深度学習

End-to-end deep learning for directly estimating grape yield from ground-based imagery ( http://arxiv.org/abs/2208.02394v1 )

ライセンス: Link先を確認
Alexander G. Olenskyj, Brent S. Sams, Zhenghao Fei, Vishal Singh, Pranav V. Raja, Gail M. Bornhorst, J. Mason Earles(参考訳) 収量推定はブドウ園の管理において強力なツールであり、栽培者が収量と品質を最適化するための微調整の実践を可能にする。 しかし、現在、利得推定は、時間と不正確である手動サンプリングを用いて行われている。 本研究は, ブドウ畑の収量推定に深層学習と併用した近位画像の応用を実証する。 車両搭載センシングキットと接地真理の収集を組み合わせた連続データ収集は、収穫時に23,581点と107,933点の大規模なデータセットを生成することができる商用収量モニタを用いて得られる。 さらに, 機械的に管理された商業用ブドウ園において, 画像解析の難しい環境であるが, カリフォルニア・セントラル・バレーでは共通の条件を表わした。 オブジェクト検出、CNN回帰、トランスフォーマーモデルの3つのモデルアーキテクチャがテストされた。 対象検出モデルは,手書き画像を用いてブドウ束のローカライズを訓練し,束数または画素面積を合計してブドウ収量と相関させた。 逆に回帰モデルは、画像データからブドウ収量を予測するために、手ラベルを必要とせずにエンドツーエンドで訓練された。 その結果、変圧器と画素領域処理による物体検出モデルは、それぞれ18%と18.5%の平均絶対誤差で比較可能であった。 CNNモデルの注目度マッピングは、ブドウの群れの予測された位置と、ブドウの天蓋の上部付近に局在していることを示すために用いられた。 その結果,大規模ブドウ収量予測のための近位画像と深層学習の適用性が示唆された。 さらに、エンドツーエンドのモデリングアプローチは、ハンドラベルの必要性をなくしながら、オブジェクト検出アプローチと互換性を持たせることができた。

Yield estimation is a powerful tool in vineyard management, as it allows growers to fine-tune practices to optimize yield and quality. However, yield estimation is currently performed using manual sampling, which is time-consuming and imprecise. This study demonstrates the application of proximal imaging combined with deep learning for yield estimation in vineyards. Continuous data collection using a vehicle-mounted sensing kit combined with collection of ground truth yield data at harvest using a commercial yield monitor allowed for the generation of a large dataset of 23,581 yield points and 107,933 images. Moreover, this study was conducted in a mechanically managed commercial vineyard, representing a challenging environment for image analysis but a common set of conditions in the California Central Valley. Three model architectures were tested: object detection, CNN regression, and transformer models. The object detection model was trained on hand-labeled images to localize grape bunches, and either bunch count or pixel area was summed to correlate with grape yield. Conversely, regression models were trained end-to-end to predict grape yield from image data without the need for hand labeling. Results demonstrated that both a transformer as well as the object detection model with pixel area processing performed comparably, with a mean absolute percent error of 18% and 18.5%, respectively on a representative holdout dataset. Saliency mapping was used to demonstrate the attention of the CNN model was localized near the predicted location of grape bunches, as well as on the top of the grapevine canopy. Overall, the study showed the applicability of proximal imaging and deep learning for prediction of grapevine yield on a large scale. Additionally, the end-to-end modeling approach was able to perform comparably to the object detection approach while eliminating the need for hand-labeling.
翻訳日:2022-08-05 12:35:41 公開日:2022-08-04
# 糖尿病網膜症検出のための深層半監督学習と自己監督学習

Deep Semi-Supervised and Self-Supervised Learning for Diabetic Retinopathy Detection ( http://arxiv.org/abs/2208.02408v1 )

ライセンス: Link先を確認
Jose Miguel Arrieta Ramos and Oscar Perd\'omo and Fabio A. Gonz\'alez(参考訳) 糖尿病網膜症(英: Diabetic retinopathy, DR)は、先進国の労働年齢層における失明の原因の一つであり、糖尿病による網膜への血液供給の低下が原因である。 深部ニューラルネットワークは眼底画像のDR分類のための自動化システムで広く利用されている。 しかし、これらのモデルは多数の注釈付き画像を必要とする。 医療領域では、専門家のアノテーションは費用がかかり、退屈で、時間がかかります。 本稿では,ラベル付き画像とラベル付き画像を用いて糖尿病網膜症を検知するモデルを訓練する半教師付き手法を提案する。 提案手法は, 自己教師付き学習による教師なし事前学習と, ラベル付き画像群と知識蒸留による教師なし微調整を併用し, 分類作業における性能を向上させる。 この方法はEyePACSテストで評価され、Messidor-2データセットはそれぞれ0.94AUCと0.89AUCを達成した。

Diabetic retinopathy (DR) is one of the leading causes of blindness in the working-age population of developed countries, caused by a side effect of diabetes that reduces the blood supply to the retina. Deep neural networks have been widely used in automated systems for DR classification on eye fundus images. However, these models need a large number of annotated images. In the medical domain, annotations from experts are costly, tedious, and time-consuming; as a result, a limited number of annotated images are available. This paper presents a semi-supervised method that leverages unlabeled images and labeled ones to train a model that detects diabetic retinopathy. The proposed method uses unsupervised pretraining via self-supervised learning followed by supervised fine-tuning with a small set of labeled images and knowledge distillation to increase the performance in classification task. This method was evaluated on the EyePACS test and Messidor-2 dataset achieving 0.94 and 0.89 AUC respectively using only 2% of EyePACS train labeled images.
翻訳日:2022-08-05 12:35:12 公開日:2022-08-04
# 埋め込み関係とペアワイズ特徴のコーディネートによるNIR-to-VIS顔認識

NIR-to-VIS Face Recognition via Embedding Relations and Coordinates of the Pairwise Features ( http://arxiv.org/abs/2208.02417v1 )

ライセンス: Link先を確認
MyeongAh Cho, Tae-young Chun, g Taeoh Kim, Sangyoun Lee(参考訳) NIR-to-VIS顔認識は、ドメイン不変の特徴を抽出することにより、2つの異なるドメインの顔を特定する。 しかし、2つの異なるドメイン特性と、NIRの顔データセットがないため、これは難しい問題である。 既存の顔認識モデルを用いた場合のドメイン差を低減するために,任意の顔認識モデルに簡単に追加可能な'Relation Module'を提案する。 顔画像から抽出された局所特徴は、顔の各成分の情報を含む。 2つの異なるドメイン特性に基づいて、ローカル機能間の関係を使うのは、そのまま使うよりもドメイン不変である。 これらの関係に加えて、唇から顎までの距離や目から目までの位置情報もドメイン不変の情報を提供する。 関連モジュールでは,関係層が暗黙的に関係を捉え,関係層が位置情報をモデル化する。 また,条件付きマージンによる三重項損失により,クラス内トレーニングのばらつきが減少し,さらにパフォーマンスが向上した。 一般的な顔認識モデルとは異なり、当社のアドオンモジュールは大規模なデータセットで事前トレーニングする必要はない。 提案されたモジュールはCAIA NIR-VIS 2.0データベースでのみ微調整された。 提案モジュールでは,2つのベースラインモデルと比較して14.81%のランク-1精度と15.47%の検証率を達成した。

NIR-to-VIS face recognition is identifying faces of two different domains by extracting domain-invariant features. However, this is a challenging problem due to the two different domain characteristics, and the lack of NIR face dataset. In order to reduce domain discrepancy while using the existing face recognition models, we propose a 'Relation Module' which can simply add-on to any face recognition models. The local features extracted from face image contain information of each component of the face. Based on two different domain characteristics, to use the relationships between local features is more domain-invariant than to use it as it is. In addition to these relationships, positional information such as distance from lips to chin or eye to eye, also provides domain-invariant information. In our Relation Module, Relation Layer implicitly captures relationships, and Coordinates Layer models the positional information. Also, our proposed Triplet loss with conditional margin reduces intra-class variation in training, and resulting in additional performance improvements. Different from the general face recognition models, our add-on module does not need to pre-train with the large scale dataset. The proposed module fine-tuned only with CASIA NIR-VIS 2.0 database. With the proposed module, we achieve 14.81% rank-1 accuracy and 15.47% verification rate of 0.1% FAR improvements compare to two baseline models.
翻訳日:2022-08-05 12:34:54 公開日:2022-08-04
# 医用知識グラフ支援を用いた画像に基づくコンテキストピル認識

Image-based Contextual Pill Recognition with Medical Knowledge Graph Assistance ( http://arxiv.org/abs/2208.02432v1 )

ライセンス: Link先を確認
Anh Duy Nguyen, Thuy Dung Nguyen, Huy Hieu Pham, Thanh Hung Nguyen, Phi Le Nguyen(参考訳) 様々な条件や背景条件下での撮像画像から薬剤の同定がますます重要になっている。 文学におけるピル認識問題に取り組むために,深層学習に基づくアプローチを活用すべく,いくつかの取り組みがなされている。 しかし、錠剤の外観の類似度が高いため、誤認識がしばしば起こり、錠剤の認識が困難となる。 そこで本研究では,創薬精度を高めるために外部知識を活用するPIKAという新しいアプローチを提案する。 具体的には,患者が服薬を摂取した写真から薬を識別することを目的とした現実的なシナリオ(文脈的錠剤認識と呼ぶ)に対処する。 まず,外的データソースの存在下での錠剤間の暗黙的関連をモデル化する新しい手法を提案する。 次に,グラフ空間からベクトル空間へ変換し,ピルの凝縮関係の特徴を抽出するウォークベースのグラフ埋め込みモデルを提案する。 第3に、画像ベースとグラフベースの両方のリレーショナル機能を活用して、ピル識別タスクを達成するための最終フレームワークを提供する。 この枠組みの中で、各錠剤の視覚的表現はグラフ埋め込み空間にマッピングされ、グラフ表現に注意を向けるために使用される。 本研究は,外的処方データを用いて薬剤間の関連を確立し,この補助情報を用いて分類する初の研究である。 PIKAのアーキテクチャは軽量で、任意の認識バックボーンに組み込む柔軟性がある。 実験結果から,外部知識グラフを利用することで,ベースラインに比べてF1スコアの認識精度が4.8%から34.1%に向上することが示された。

Identifying pills given their captured images under various conditions and backgrounds has been becoming more and more essential. Several efforts have been devoted to utilizing the deep learning-based approach to tackle the pill recognition problem in the literature. However, due to the high similarity between pills' appearance, misrecognition often occurs, leaving pill recognition a challenge. To this end, in this paper, we introduce a novel approach named PIKA that leverages external knowledge to enhance pill recognition accuracy. Specifically, we address a practical scenario (which we call contextual pill recognition), aiming to identify pills in a picture of a patient's pill intake. Firstly, we propose a novel method for modeling the implicit association between pills in the presence of an external data source, in this case, prescriptions. Secondly, we present a walk-based graph embedding model that transforms from the graph space to vector space and extracts condensed relational features of the pills. Thirdly, a final framework is provided that leverages both image-based visual and graph-based relational features to accomplish the pill identification task. Within this framework, the visual representation of each pill is mapped to the graph embedding space, which is then used to execute attention over the graph representation, resulting in a semantically-rich context vector that aids in the final classification. To our knowledge, this is the first study to use external prescription data to establish associations between medicines and to classify them using this aiding information. The architecture of PIKA is lightweight and has the flexibility to incorporate into any recognition backbones. The experimental results show that by leveraging the external knowledge graph, PIKA can improve the recognition accuracy from 4.8% to 34.1% in terms of F1-score, compared to baselines.
翻訳日:2022-08-05 12:34:30 公開日:2022-08-04
# H2ステレオ:高速・高分解能ステレオビデオシステム

H2-Stereo: High-Speed, High-Resolution Stereoscopic Video System ( http://arxiv.org/abs/2208.02436v1 )

ライセンス: Link先を確認
Ming Cheng, Yiling Xu, Wang Shen, M. Salman Asif, Chao Ma, Jun Sun, Zhan Ma(参考訳) 高速・高分解能立体映像(h2-stereo)は,動的3dコンテンツを細粒度で認識できる。 しかしH2-Stereoビデオの買収は、コモディティカメラではまだ難しい。 既存の空間超解法や時間的フレーム補間法は、それぞれ時間的あるいは空間的詳細を欠いた妥協された解を提供する。 この問題を軽減するために,高解像度低フレームレート (HSR-LFR) 映像を高精細度で撮影し,高解像度高フレームレート (LSR-HFR) 映像をスムーズな時間的詳細で撮影するデュアルカメラシステムを提案する。 そこで我々は,H2-Stereoビデオの効率的な再構成のために,カメラビューを高時空間分解能(HSTR)に拡張するために,クロスカメラ冗長性を利用した学習情報融合ネットワーク(LIFnet)を考案した。 そこで本稿では,LSR-HFRビューのための分散誘導フローベースワープと,HSR-LFRビューのための補完ワープを提案する。 HSR-LFRビューにおけるオクルージョン誘導ゴーストとホールの最小化のために,特徴領域におけるマルチスケール融合法を提案する。 LIFnetは、YouTubeから収集した高品質のStereo Videoデータセットを使用して、エンドツーエンドでトレーニングされています。 広範な実験により,本モデルは,合成データとカメラで取得した実データの両方において,既存の最先端の手法を高い差で上回ることを示した。 アブレーション研究は, 時空間分解能, カメラベースライン, カメラデ同期化, 長短露光, 応用など, 様々な側面を探索し, その可能性を十分に理解している。

High-speed, high-resolution stereoscopic (H2-Stereo) video allows us to perceive dynamic 3D content at fine granularity. The acquisition of H2-Stereo video, however, remains challenging with commodity cameras. Existing spatial super-resolution or temporal frame interpolation methods provide compromised solutions that lack temporal or spatial details, respectively. To alleviate this problem, we propose a dual camera system, in which one camera captures high-spatial-resolution low-frame-rate (HSR-LFR) videos with rich spatial details, and the other captures low-spatial-resolution high-frame-rate (LSR-HFR) videos with smooth temporal details. We then devise a Learned Information Fusion network (LIFnet) that exploits the cross-camera redundancies to enhance both camera views to high spatiotemporal resolution (HSTR) for reconstructing the H2-Stereo video effectively. We utilize a disparity network to transfer spatiotemporal information across views even in large disparity scenes, based on which, we propose disparity-guided flow-based warping for LSR-HFR view and complementary warping for HSR-LFR view. A multi-scale fusion method in feature domain is proposed to minimize occlusion-induced warping ghosts and holes in HSR-LFR view. The LIFnet is trained in an end-to-end manner using our collected high-quality Stereo Video dataset from YouTube. Extensive experiments demonstrate that our model outperforms existing state-of-the-art methods for both views on synthetic data and camera-captured real data with large disparity. Ablation studies explore various aspects, including spatiotemporal resolution, camera baseline, camera desynchronization, long/short exposures and applications, of our system to fully understand its capability for potential applications.
翻訳日:2022-08-05 12:34:03 公開日:2022-08-04
# 映像ベース可視赤外人物再同定のためのモーダル不変および時間記憶の学習

Learning Modal-Invariant and Temporal-Memory for Video-based Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2208.02450v1 )

ライセンス: Link先を確認
Xinyu Lin, Jinxing Li, Zeyu Ma, Huafeng Li, Shuang Li, Kaixiong Xu, Guangming Lu, David Zhang(参考訳) クロスモーダル検索技術により、24時間監視システムにおいて、可視赤外(RGB-IR)の人物識別(Re-ID)を実現する。 しかし、プローブ対ガリーに関しては、既存のrgb-irベースのクロスモーダルパーソン・リidのほとんどすべてが画像対画像マッチングにフォーカスしているが、よりリッチな空間情報と時間情報を含むビデオ対ビデオマッチングは未検討のままである。 本稿では,主にビデオベースのクロスモーダル人物Re-ID法について検討する。 この課題を達成するために、ビデオベースのRGB-IRデータセットを構築し、12RGB/IRカメラでキャプチャされた463,259フレームと21,863トラックレットの有効ID927を収集する。 構築したデータセットから、トラックレット内のフレームの増加に伴い、RGB-IR人物Re-IDにおけるビデオ間マッチングの重要性が示され、性能が向上することが証明された。 さらに、モーダル不変部分空間に2つのモードを投影するだけでなく、運動不変部分空間の時間メモリを抽出する新しい手法も提案されている。 これら2つの戦略のおかげで、ビデオベースのクロスモーダルな人物であるRe-IDに対して、はるかに優れた結果が得られます。 コードとデータセットはhttps://github.com/vcmproject233/mitml。

Thanks for the cross-modal retrieval techniques, visible-infrared (RGB-IR) person re-identification (Re-ID) is achieved by projecting them into a common space, allowing person Re-ID in 24-hour surveillance systems. However, with respect to the probe-to-gallery, almost all existing RGB-IR based cross-modal person Re-ID methods focus on image-to-image matching, while the video-to-video matching which contains much richer spatial- and temporal-information remains under-explored. In this paper, we primarily study the video-based cross-modal person Re-ID method. To achieve this task, a video-based RGB-IR dataset is constructed, in which 927 valid identities with 463,259 frames and 21,863 tracklets captured by 12 RGB/IR cameras are collected. Based on our constructed dataset, we prove that with the increase of frames in a tracklet, the performance does meet more enhancement, demonstrating the significance of video-to-video matching in RGB-IR person Re-ID. Additionally, a novel method is further proposed, which not only projects two modalities to a modal-invariant subspace, but also extracts the temporal-memory for motion-invariant. Thanks to these two strategies, much better results are achieved on our video-based cross-modal person Re-ID. The code and dataset are released at: https://github.com/VCMproject233/MITML.
翻訳日:2022-08-05 12:33:28 公開日:2022-08-04
# 動き差量子化によるプライバシー保全行動認識

Privacy-Preserving Action Recognition via Motion Difference Quantization ( http://arxiv.org/abs/2208.02459v1 )

ライセンス: Link先を確認
Sudhakar Kumawat and Hajime Nagahara(参考訳) 私たちのパーソナルスペースでスマートコンピュータビジョンシステムが広く使われるようになると、これらのシステムが持つプライバシーとセキュリティのリスクに対する意識が高まりました。 一方、これらのシステムには、周囲を理解して日常生活を支援することが求められていますが、一方では、機密情報を収集することなく、それを行うように求めています。 そこで本研究では,Blur, Different, Quantizationの3つのモジュールから構成されるプライバシ保護人間の行動認識タスクに対して,BDQと呼ばれるシンプルかつ堅牢なプライバシ保存エンコーダを提案する。 まず、入力シーンをぼかしモジュールに渡してエッジを滑らかにする。 続いて差分モジュールが、連続フレーム間でピクセル単位でのインテンシティの減算を適用して、動きの特徴を強調し、明らかな高レベルのプライバシー属性を抑制する。 最後に、量子化モジュールをモーション差分フレームに適用し、低レベルのプライバシ属性を削除する。 BDQパラメータは、プライバシ属性を抑えながらアクション認識属性を許容するように、敵対的なトレーニングを通じてエンドツーエンドで最適化される。 3つのベンチマークデータセットを用いた実験により,提案するエンコーダ設計は,従来手法と比較して最先端のトレードオフを実現できることが示された。 さらに,DVSセンサを用いたイベントカメラと同等のトレードオフが達成された。 コードはhttps://github.com/suakaw/bdq_privacyar。

The widespread use of smart computer vision systems in our personal spaces has led to an increased consciousness about the privacy and security risks that these systems pose. On the one hand, we want these systems to assist in our daily lives by understanding their surroundings, but on the other hand, we want them to do so without capturing any sensitive information. Towards this direction, this paper proposes a simple, yet robust privacy-preserving encoder called BDQ for the task of privacy-preserving human action recognition that is composed of three modules: Blur, Difference, and Quantization. First, the input scene is passed to the Blur module to smoothen the edges. This is followed by the Difference module to apply a pixel-wise intensity subtraction between consecutive frames to highlight motion features and suppress obvious high-level privacy attributes. Finally, the Quantization module is applied to the motion difference frames to remove the low-level privacy attributes. The BDQ parameters are optimized in an end-to-end fashion via adversarial training such that it learns to allow action recognition attributes while inhibiting privacy attributes. Our experiments on three benchmark datasets show that the proposed encoder design can achieve state-of-the-art trade-off when compared with previous works. Furthermore, we show that the trade-off achieved is at par with the DVS sensor-based event cameras. Code available at: https://github.com/suakaw/BDQ_PrivacyAR.
翻訳日:2022-08-05 12:33:01 公開日:2022-08-04
# Gradient Descent を用いた一般 ReLU 活性化の学習

Agnostic Learning of General ReLU Activation Using Gradient Descent ( http://arxiv.org/abs/2208.02711v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Alex Tang, Aravindan Vijayaraghavan(参考訳) ガウス分布の下で単一のrelu関数を無知に学習する問題に対する勾配降下の収束解析を提供する。 ゼロバイアスの設定を研究する以前の研究とは異なり、ReLU関数のバイアスがゼロでない場合、より困難なシナリオを考える。 その結果, 多項式数において, ランダム初期化から開始した勾配降下出力は, 最良の relu 関数の誤差と比較して, 高い確率で競合誤差保証を実現する relu 関数となることがわかった。 また、有限サンプル保証も提供し、これらのテクニックはガウス分布を超えて広い範囲の辺分布のクラスに一般化する。

We provide a convergence analysis of gradient descent for the problem of agnostically learning a single ReLU function under Gaussian distributions. Unlike prior work that studies the setting of zero bias, we consider the more challenging scenario when the bias of the ReLU function is non-zero. Our main result establishes that starting from random initialization, in a polynomial number of iterations gradient descent outputs, with high probability, a ReLU function that achieves a competitive error guarantee when compared to the error of the best ReLU function. We also provide finite sample guarantees, and these techniques generalize to a broader class of marginal distributions beyond Gaussians.
翻訳日:2022-08-05 12:29:49 公開日:2022-08-04
# 低回転状態における二層ネットワーク上の勾配勾配による特徴選択

Feature selection with gradient descent on two-layer networks in low-rotation regimes ( http://arxiv.org/abs/2208.02789v1 )

ライセンス: Link先を確認
Matus Telgarsky(参考訳) 本研究は,標準初期化を伴う2層reluネットワーク上での勾配流(gf)と確率勾配降下(sgd)の低試験誤差を,重みの鍵集合がほとんど回転しない3つの領域(gfとsgdが自然に原因で,あるいは人工的な制約のため)において確立し,マージンをコア分析手法として利用する。 The first regime is near initialization, specifically until the weights have moved by $\mathcal{O}(\sqrt m)$, where $m$ denotes the network width, which is in sharp contrast to the $\mathcal{O}(1)$ weight motion allowed by the Neural Tangent Kernel (NTK); here it is shown that GF and SGD only need a network width and number of samples inversely proportional to the NTK margin, and moreover that GF attains at least the NTK margin itself, which suffices to establish escape from bad KKT points of the margin objective, whereas prior work could only establish nondecreasing but arbitrarily small margins. 第2のレジームは神経崩壊(neural collapse:nc)設定であり、データは極端によく分離されたグループにあり、サンプル複雑性はグループ数に比例してスケールする。 最後に、内層重みがノルムでのみ変化することを制約され、回転できない場合、大きな幅を持つGFは、大域的に最大のマージンを達成し、そのサンプルの複雑さはその逆でスケールする。 純粋に技術的な貢献として、この研究は様々な潜在的な機能やツールを開発し、将来の作業に役立つことを期待している。

This work establishes low test error of gradient flow (GF) and stochastic gradient descent (SGD) on two-layer ReLU networks with standard initialization, in three regimes where key sets of weights rotate little (either naturally due to GF and SGD, or due to an artificial constraint), and making use of margins as the core analytic technique. The first regime is near initialization, specifically until the weights have moved by $\mathcal{O}(\sqrt m)$, where $m$ denotes the network width, which is in sharp contrast to the $\mathcal{O}(1)$ weight motion allowed by the Neural Tangent Kernel (NTK); here it is shown that GF and SGD only need a network width and number of samples inversely proportional to the NTK margin, and moreover that GF attains at least the NTK margin itself, which suffices to establish escape from bad KKT points of the margin objective, whereas prior work could only establish nondecreasing but arbitrarily small margins. The second regime is the Neural Collapse (NC) setting, where data lies in extremely-well-separated groups, and the sample complexity scales with the number of groups; here the contribution over prior work is an analysis of the entire GF trajectory from initialization. Lastly, if the inner layer weights are constrained to change in norm only and can not rotate, then GF with large widths achieves globally maximal margins, and its sample complexity scales with their inverse; this is in contrast to prior work, which required infinite width and a tricky dual convergence assumption. As purely technical contributions, this work develops a variety of potential functions and other tools which will hopefully aid future work.
翻訳日:2022-08-05 12:29:36 公開日:2022-08-04
# ディープハッシュを用いた歴史文書のパターンスポッティングと画像検索

Pattern Spotting and Image Retrieval in Historical Documents using Deep Hashing ( http://arxiv.org/abs/2208.02397v1 )

ライセンス: Link先を確認
Caio da S. Dias, Alceu de S. Britto Jr., Jean P. Barddal, Laurent Heutte, Alessandro L. Koerich(参考訳) 本稿では,歴史資料のデジタルコレクションにおける画像検索とパターンスポッティングのための深層学習手法を提案する。 まず、領域提案アルゴリズムは、文書ページ画像中のオブジェクト候補を検出する。 次に、深層学習モデルは、実数値またはバイナリコード表現を提供する2つの異なる変種を考慮して、特徴抽出に使用される。 最後に、候補画像は、所定の入力クエリと特徴類似性を計算することでランク付けされる。 DocExplore画像データベース上の各表現スキーム(実数値およびバイナリコード)を考慮した,ロバストな実験プロトコルにより提案手法の評価を行う。 実験結果から,提案する深層モデルと古文書画像の最先端画像検索手法を比較し,パターンスポッティング法と同じ手法を用いて,他の深層モデルよりも2.56ポイント高い評価率を示した。 さらに,提案手法は検索時間を最大200倍に短縮し,実数値表現に基づく関連作品と比較してストレージコストを6,000倍に削減する。

This paper presents a deep learning approach for image retrieval and pattern spotting in digital collections of historical documents. First, a region proposal algorithm detects object candidates in the document page images. Next, deep learning models are used for feature extraction, considering two distinct variants, which provide either real-valued or binary code representations. Finally, candidate images are ranked by computing the feature similarity with a given input query. A robust experimental protocol evaluates the proposed approach considering each representation scheme (real-valued and binary code) on the DocExplore image database. The experimental results show that the proposed deep models compare favorably to the state-of-the-art image retrieval approaches for images of historical documents, outperforming other deep models by 2.56 percentage points using the same techniques for pattern spotting. Besides, the proposed approach also reduces the search time by up to 200x and the storage cost up to 6,000x when compared to related works based on real-valued representations.
翻訳日:2022-08-05 12:28:23 公開日:2022-08-04
# 周波数フィルタリングエンコーダによるプライバシー保護表現学習

Privacy Safe Representation Learning via Frequency Filtering Encoder ( http://arxiv.org/abs/2208.02482v1 )

ライセンス: Link先を確認
Jonghu Jeong, Minyong Cho, Philipp Benz, Jinwoo Hwang, Jeewook Kim, Seungkwan Lee, Tae-hoon Kim(参考訳) ディープラーニングモデルは、現実のアプリケーションにますますデプロイされる。 これらのモデルは、しばしばサーバ側に配置され、画像分類などの特定のタスクを解決するために、情報豊富な表現でユーザデータを受信する。 画像には、ユーザーが共有する意思のない機密情報が含まれているため、プライバシー保護はますます重要になる。 Adversarial Representation Learning (ARL) は、クライアント側で実行し、画像を難読化するエンコーダを訓練する一般的な手法である。 難読化イメージを安全に送信し、プライバシの懸念なくサーバ上のタスクに使用することができると仮定する。 しかし,本研究では,再建攻撃者の訓練により,既存のARL手法の原画像の復元に成功した。 そこで本研究では,低パスフィルタによる新しいarl方式を導入し,周波数領域で符号化する情報量を制限する。 提案手法は,プライバシ利用トレードオフに関する先行手法を上回りつつ,レコンストラクション攻撃に耐えうることを実証した。 さらに,再建攻撃の防御を質的に評価するために,ユーザ調査を行う。

Deep learning models are increasingly deployed in real-world applications. These models are often deployed on the server-side and receive user data in an information-rich representation to solve a specific task, such as image classification. Since images can contain sensitive information, which users might not be willing to share, privacy protection becomes increasingly important. Adversarial Representation Learning (ARL) is a common approach to train an encoder that runs on the client-side and obfuscates an image. It is assumed, that the obfuscated image can safely be transmitted and used for the task on the server without privacy concerns. However, in this work, we find that training a reconstruction attacker can successfully recover the original image of existing ARL methods. To this end, we introduce a novel ARL method enhanced through low-pass filtering, limiting the available information amount to be encoded in the frequency domain. Our experimental results reveal that our approach withstands reconstruction attacks while outperforming previous state-of-the-art methods regarding the privacy-utility trade-off. We further conduct a user study to qualitatively assess our defense of the reconstruction attack.
翻訳日:2022-08-05 12:28:05 公開日:2022-08-04
# 完全ランダム初期化を用いた表現モデルに基づく言語GAN

A Representation Modeling Based Language GAN with Completely Random Initialization ( http://arxiv.org/abs/2208.02531v1 )

ライセンス: Link先を確認
Da Ren and Qing Li(参考訳) MLE(Maximum Likelihood Estimation)によって訓練されたテキスト生成モデルは、悪名高い露出バイアス問題に悩まされており、GAN(Generative Adversarial Networks)はそれに対処する可能性がある。 既存の言語 GAN では、REINFORCE や連続緩和といった推定器を使って単語の分布をモデル化している。 このような推定器の固有の制限は、現在のモデルが事前トレーニング技術(事前トレーニングまたは事前トレーニング埋め込み)に依存することに繋がる。 しかし、これらの制限から解放された表現モデリング手法は、以前の試みでは性能が低かったため、しばしば検討される。 分析の結果,不正なサンプリング法と不健全な勾配が,その不満足な性能の主な要因であることが判明した。 本研究では,これらの問題に対処する手法として,ドロップアウトサンプリングと完全正規化LSTMの2つを提案する。 これらの2つの手法に基づいて,パラメータが完全にランダムに初期化される初期GANを提案する。 また,新たな評価基準であるLast Coverage Rateを導入し,生成したサンプルの質をよりよく評価する。 実験の結果,InitialGANはMLEと他の比較モデルよりも優れていた。 私たちの知る限りでは、言語 GAN が事前学習のテクニックを使わずに MLE より優れているのは、これが初めてです。

Text generative models trained via Maximum Likelihood Estimation (MLE) suffer from the notorious exposure bias problem, and Generative Adversarial Networks (GANs) are shown to have potential to tackle it. Existing language GANs adopt estimators like REINFORCE or continuous relaxations to model word distributions. The inherent limitations of such estimators lead current models to rely on pre-training techniques (MLE pre-training or pre-trained embeddings). Representation modeling methods which are free from those limitations, however, are seldom explored because of its poor performance in previous attempts. Our analyses reveal that invalid sampling method and unhealthy gradients are the main contributors to its unsatisfactory performance. In this work, we present two techniques to tackle these problems: dropout sampling and fully normalized LSTM. Based on these two techniques, we propose InitialGAN whose parameters are randomly initialized completely. Besides, we introduce a new evaluation metric, Least Coverage Rate, to better evaluate the quality of generated samples. The experimental results demonstrate that InitialGAN outperforms both MLE and other compared models. To the best of our knowledge, it is the first time a language GAN can outperform MLE without any pre-training techniques.
翻訳日:2022-08-05 12:27:46 公開日:2022-08-04
# 生成型マルチモーダル事前学習モデルのプロンプトチューニング

Prompt Tuning for Generative Multimodal Pretrained Models ( http://arxiv.org/abs/2208.02532v1 )

ライセンス: Link先を確認
Hao Yang, Junyang Lin, An Yang, Peng Wang, Chang Zhou, Hongxia Yang(参考訳) プロンプトチューニングはモデルチューニングの新しいパラダイムとなり、自然言語の事前学習や視覚前訓練でも成功している。 本研究では,コントラストモデルではなく,生成的マルチモーダルプリトレーニングモデルに着目し,プロンプトチューニングをマルチモーダルプリトレーニングへ移行することを検討する。 具体的には,理解タスクと生成タスクの両方に適応した統一シーケンスからシーケンスへの事前学習モデル上で,迅速なチューニングを実現する。 実験の結果, 軽量プロンプトチューニングは, 微調整と同等の性能を達成でき, 他の軽量チューニング法を上回った。 さらに、微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。 さらに,プロンプト長,プロンプト深さ,再パラメータ化などの実験的な要因がモデル性能に大きな影響を与えることを見出し,プロンプトチューニングのセットアップに実験的に推奨する。 観測された利点にもかかわらず、迅速なチューニングにはまだいくつかの制限があり、今後の研究の方向性を指摘する。 コードは \url{https://github.com/OFA-Sys/OFA} で入手できる。

Prompt tuning has become a new paradigm for model tuning and it has demonstrated success in natural language pretraining and even vision pretraining. In this work, we explore the transfer of prompt tuning to multimodal pretraining, with a focus on generative multimodal pretrained models, instead of contrastive ones. Specifically, we implement prompt tuning on the unified sequence-to-sequence pretrained model adaptive to both understanding and generation tasks. Experimental results demonstrate that the light-weight prompt tuning can achieve comparable performance with finetuning and surpass other light-weight tuning methods. Besides, in comparison with finetuned models, the prompt-tuned models demonstrate improved robustness against adversarial attacks. We further figure out that experimental factors, including the prompt length, prompt depth, and reparameteratization, have great impacts on the model performance, and thus we empirically provide a recommendation for the setups of prompt tuning. Despite the observed advantages, we still find some limitations in prompt tuning, and we correspondingly point out the directions for future studies. Codes are available at \url{https://github.com/OFA-Sys/OFA}
翻訳日:2022-08-05 12:27:28 公開日:2022-08-04
# 医療用テキストの語彙移動

Vocabulary Transfer for Medical Texts ( http://arxiv.org/abs/2208.02554v1 )

ライセンス: Link先を確認
Vladislav D. Mosin, Ivan P. Yamshchikov(参考訳) Vocabulary Transfer(語彙変換)は、言語モデルがデフォルトではなく、コーパス固有のトークン化を微調整するトランスファー学習サブタスクである。 これは通常、モデルの性能を改善し、本論文では、語彙変換が特に医療用テキスト処理に有用であることを示す。 3つの異なる医学自然言語処理データセットを用いて、下流分類器の精度を最大10ポイントまで向上させる語彙変換を示す。

Vocabulary transfer is a transfer learning subtask in which language models fine-tune with the corpus-specific tokenization instead of the default one, which is being used during pretraining. This usually improves the resulting performance of the model, and in the paper, we demonstrate that vocabulary transfer is especially beneficial for medical text processing. Using three different medical natural language processing datasets, we show vocabulary transfer to provide up to ten extra percentage points for the downstream classifier accuracy.
翻訳日:2022-08-05 12:27:10 公開日:2022-08-04
# N-best Response-based Analysis of Contradiction-Awareness in Neural Response Generation Models

N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models ( http://arxiv.org/abs/2208.02578v1 )

ライセンス: Link先を確認
Shiki Sato, Reina Akama, Hiroki Ouchi, Ryoko Tokuhisa, Jun Suzuki, Kentaro Inui(参考訳) 先行する文脈に矛盾する応答の生成を避けることは、対話応答生成において重要な課題である。 ひとつの実現可能な方法は、結果のn-bestレスポンスリストから矛盾する応答をフィルタリングする、ポストプロセッシングである。 このシナリオでは、このn-bestリストから最終応答が選択されるため、n-bestリストの品質が矛盾の発生に大きく影響する。 本研究は,n-bestリストの一貫性を用いて,ニューラルネットワーク生成モデルの文脈矛盾認識を定量的に分析する。 特に極性質問を刺激入力として,簡潔で定量的な分析に用いた。 実験では,近年の神経応答生成モデルと方法論の矛盾を認識し,その特性と限界について考察した。

Avoiding the generation of responses that contradict the preceding context is a significant challenge in dialogue response generation. One feasible method is post-processing, such as filtering out contradicting responses from a resulting n-best response list. In this scenario, the quality of the n-best list considerably affects the occurrence of contradictions because the final response is chosen from this n-best list. This study quantitatively analyzes the contextual contradiction-awareness of neural response generation models using the consistency of the n-best lists. Particularly, we used polar questions as stimulus inputs for concise and quantitative analyses. Our tests illustrate the contradiction-awareness of recent neural response generation models and methodologies, followed by a discussion of their properties and limitations.
翻訳日:2022-08-05 12:27:01 公開日:2022-08-04
# CFARnet:一定の誤報率による目標検出のためのディープラーニング

CFARnet: deep learning for target detection with constant false alarm rate ( http://arxiv.org/abs/2208.02474v1 )

ライセンス: Link先を確認
Tzvi Diskin, Yiftach Beer, Uri Okun and Ami Wiesel(参考訳) 本研究では,定False Alarm Rate (CFAR) を用いた検出器の学習問題について考察する。 合成仮説テストに対する古典的なモデルベースのソリューションは不完全なモデルに敏感であり、しばしば計算コストがかかる。 対照的に、データ駆動機械学習は、しばしばより堅牢であり、固定された計算複雑性を持つ分類器をもたらす。 学習された検出器は通常、多くのアプリケーションで必要とされるCFARを持たない。 このギャップを埋めるために、任意のヌル仮説シナリオの下で検出器の同様の分布を促進するために損失関数をペナル化するCFARnetを導入する。 一般ガウス雑音を持つ線形モデルにおける漸近解析は、古典的一般化可能性比検定(GLRT)が実際にCFAR制約ベイズリスクの最小化であることを示した。 合成データと実際のハイパースペクトル画像の両方の実験により、CFARnetは競合と同等の精度でCFAR検出器に近づいた。

We consider the problem of learning detectors with a Constant False Alarm Rate (CFAR). Classical model-based solutions to composite hypothesis testing are sensitive to imperfect models and are often computationally expensive. In contrast, data-driven machine learning is often more robust and yields classifiers with fixed computational complexity. Learned detectors usually do not have a CFAR as required in many applications. To close this gap, we introduce CFARnet where the loss function is penalized to promote similar distributions of the detector under any null hypothesis scenario. Asymptotic analysis in the case of linear models with general Gaussian noise reveals that the classical generalized likelihood ratio test (GLRT) is actually a minimizer of the CFAR constrained Bayes risk. Experiments in both synthetic data and real hyper-spectral images show that CFARnet leads to near CFAR detectors with similar accuracy as their competitors.
翻訳日:2022-08-05 12:23:45 公開日:2022-08-04
# 長距離画像認識のための不均衡からのバランス構築

Constructing Balance from Imbalance for Long-tailed Image Recognition ( http://arxiv.org/abs/2208.02567v1 )

ライセンス: Link先を確認
Yue Xu, Yong-Lu Li, Jiefeng Li, Cewu Lu(参考訳) 長い尾の画像認識は、多数派(頭)クラスと少数派(尾)クラスの不均衡が、データ駆動のディープニューラルネットワークを著しく歪ませるため、ディープラーニングシステムに大きな課題をもたらす。 従来の手法では,データ分布,特徴空間,モデル設計などの観点からデータの不均衡に取り組むが,本研究では,認識モデルを直接学習する代わりに,ラベル空間のバランスを省略した観点から,識別学習前の頭部間バイアスのボトルネックに立ち向かうことを提案する。 ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割し,不均衡からバランスを動的に構築し,分類を容易にする,簡潔なパラダイムを提案する。 フレキシブルなデータフィルタリングとラベル空間マッピングにより、ほとんどの分類モデル、特に分離されたトレーニング手法に容易にアプローチを組み込むことができます。 さらに、ヘッドテールクラスの分離性は、誘導バイアスの異なる異なる特徴によって異なることが分かる。 したがって,提案モデルでは特徴評価手法も提供し,長期的特徴学習の道を開く。 広範に使用されているベンチマークにおいて,本手法は様々なタイプの最先端技術の性能を向上させることができることを示す。 コードはhttps://github.com/silicx/dlsaで入手できる。

Long-tailed image recognition presents massive challenges to deep learning systems since the imbalance between majority (head) classes and minority (tail) classes severely skews the data-driven deep neural networks. Previous methods tackle with data imbalance from the viewpoints of data distribution, feature space, and model design, etc.In this work, instead of directly learning a recognition model, we suggest confronting the bottleneck of head-to-tail bias before classifier learning, from the previously omitted perspective of balancing label space. To alleviate the head-to-tail bias, we propose a concise paradigm by progressively adjusting label space and dividing the head classes and tail classes, dynamically constructing balance from imbalance to facilitate the classification. With flexible data filtering and label space mapping, we can easily embed our approach to most classification models, especially the decoupled training methods. Besides, we find the separability of head-tail classes varies among different features with different inductive biases. Hence, our proposed model also provides a feature evaluation method and paves the way for long-tailed feature learning. Extensive experiments show that our method can boost the performance of state-of-the-arts of different types on widely-used benchmarks. Code is available at https://github.com/silicx/DLSA.
翻訳日:2022-08-05 12:23:29 公開日:2022-08-04
# ocfr 2022: 合成した構造認識オクルージョンによるオクルード顔認識の競争

OCFR 2022: Competition on Occluded Face Recognition From Synthetically Generated Structure-Aware Occlusions ( http://arxiv.org/abs/2208.02760v1 )

ライセンス: Link先を確認
Pedro C. Neto, Fadi Boutros, Joao Ribeiro Pinto, Naser Damer, Ana F. Sequeira, Jaime S. Cardoso, Messaoud Bengherabi, Abderaouf Bousnat, Sana Boucheta, Nesrine Hebbadj, Bahia Yahya-Zoubir, Mustafa Ekrem Erak{\i}n, U\u{g}ur Demir, Haz{\i}m Kemal Ekenel, Pedro Beber de Queiroz Vidal, David Menotti(参考訳) IJCB-OCFR-2022(IJCB-OCFR-2022)は、生体認証に関する国際合同会議(IJCB 2022)によって採択された。 OCFR-2022は、学界から合計3つの参加チームを集めた。 最終的に6つの有効な提案が提出され、その後、主催者によって評価された。 競技会は、厳しい顔の閉塞の存在下での顔認識の課題に対処するために開催された。 参加者はどのようなトレーニングデータも自由に使用でき、テストデータはよく知られたデータセットを使用して顔画像の一部を合成的にオクルーディングすることで、主催者によって構築された。 提案されたソリューションはイノベーションを示し、検討されたベースラインと非常に競争的に機能した。 この競争の主な成果は、十分に定義された評価プロトコルを備えた、挑戦的で、現実的で、多様で、一般公開された顔認識ベンチマークである。

This work summarizes the IJCB Occluded Face Recognition Competition 2022 (IJCB-OCFR-2022) embraced by the 2022 International Joint Conference on Biometrics (IJCB 2022). OCFR-2022 attracted a total of 3 participating teams, from academia. Eventually, six valid submissions were submitted and then evaluated by the organizers. The competition was held to address the challenge of face recognition in the presence of severe face occlusions. The participants were free to use any training data and the testing data was built by the organisers by synthetically occluding parts of the face images using a well-known dataset. The submitted solutions presented innovations and performed very competitively with the considered baseline. A major output of this competition is a challenging, realistic, and diverse, and publicly available occluded face recognition benchmark with well defined evaluation protocols.
翻訳日:2022-08-05 12:23:07 公開日:2022-08-04
# オープンワールドコントラスト学習

Open-world Contrastive Learning ( http://arxiv.org/abs/2208.02764v1 )

ライセンス: Link先を確認
Yiyou Sun and Yixuan Li(参考訳) 近年のコントラスト学習の進歩は目覚ましい業績を示している。 しかし、ほとんどのアプローチはクローズドワールド設定に限定されている。 本稿では,新しいクラスからラベルなしのサンプルが自然に自然に出現できるオープンワールド環境に足を踏み入れることで,表現学習のランドスケープを高める。 ギャップを埋めるため,オープンワールドコントラスト学習(OpenCon)という新たな学習フレームワークを導入する。 OpenConは、既知のクラスと新しいクラスの両方のコンパクト表現を学ぶことの課題に取り組み、その過程で新規性発見を促進する。 ベンチマークデータセットの挑戦に対するOpenConの有効性を実証し、競争性能を確立する。 imagenetデータセットでは、openconは現在のベストメソッドを11.9%、新規と全体的な分類精度で7.4%を大きく上回っている。 私たちは、この重要な問題に取り組むために、今後の作業のための新たな扉を開くことを願っています。

Recent advance in contrastive learning has shown remarkable performance. However, the vast majority of approaches are limited to the closed-world setting. In this paper, we enrich the landscape of representation learning by tapping into an open-world setting, where unlabeled samples from novel classes can naturally emerge in the wild. To bridge the gap, we introduce a new learning framework, open-world contrastive learning (OpenCon). OpenCon tackles the challenges of learning compact representations for both known and novel classes, and facilitates novelty discovery along the way. We demonstrate the effectiveness of OpenCon on challenging benchmark datasets and establish competitive performance. On the ImageNet dataset, OpenCon significantly outperforms the current best method by 11.9% and 7.4% on novel and overall classification accuracy, respectively. We hope that our work will open up new doors for future work to tackle this important problem.
翻訳日:2022-08-05 12:22:52 公開日:2022-08-04
# メタラーナとしてのトランスフォーマー

Transformers as Meta-Learners for Implicit Neural Representations ( http://arxiv.org/abs/2208.02801v1 )

ライセンス: Link先を確認
Yinbo Chen, Xiaolong Wang(参考訳) Inlicit Neural Representations (INRs) は近年、離散表現よりもその利点を示してきた。 しかし、INRを与えられた観測に合わせるには、通常、スクラッチからの勾配降下による最適化が必要であるが、これは非効率であり、スパース観測ではうまく一般化しない。 この問題に対処するため、先行研究の多くは、INR重みを変調する単一のベクトルを生成するハイパーネットワークを訓練し、そこでは、単一のベクトルが出力INRの再構成精度を制限する情報ボトルネックとなる。 近年の研究では、勾配に基づくメタラーニングにより、単ベクトルボトルネックなしにINR全体の重みを正確に推定できることが示されている。 勾配に基づくメタラーニングを一般化した定式化により,INRのハイパーネットワークとしてTransformersを利用する定式化を提案し,セット・ツー・セット・マッピングに特化したTransformersを用いて,INR重みの集合を直接構築する。 2次元画像回帰や3次元オブジェクトのビュー合成など,さまざまなタスクやドメインにおけるinrs構築手法の有効性を実証する。 我々はTransformer Hypernetworksと勾配に基づくメタラーニングアルゴリズムの接続を図り、生成したINRを理解するためのさらなる分析を行う。 コード付きプロジェクトページは \url{https://yinboc.github.io/trans-inr/} である。

Implicit Neural Representations (INRs) have emerged and shown their benefits over discrete representations in recent years. However, fitting an INR to the given observations usually requires optimization with gradient descent from scratch, which is inefficient and does not generalize well with sparse observations. To address this problem, most of the prior works train a hypernetwork that generates a single vector to modulate the INR weights, where the single vector becomes an information bottleneck that limits the reconstruction precision of the output INR. Recent work shows that the whole set of weights in INR can be precisely inferred without the single-vector bottleneck by gradient-based meta-learning. Motivated by a generalized formulation of gradient-based meta-learning, we propose a formulation that uses Transformers as hypernetworks for INRs, where it can directly build the whole set of INR weights with Transformers specialized as set-to-set mapping. We demonstrate the effectiveness of our method for building INRs in different tasks and domains, including 2D image regression and view synthesis for 3D objects. Our work draws connections between the Transformer hypernetworks and gradient-based meta-learning algorithms and we provide further analysis for understanding the generated INRs. The project page with code is at \url{https://yinboc.github.io/trans-inr/} .
翻訳日:2022-08-05 12:22:39 公開日:2022-08-04
# cluster-to-adapt:disjointラベル間の意味セグメンテーションのためのショットドメイン適応

Cluster-to-adapt: Few Shot Domain Adaptation for Semantic Segmentation across Disjoint Labels ( http://arxiv.org/abs/2208.02804v1 )

ライセンス: Link先を確認
Tarun Kalluri, Manmohan Chandraker(参考訳) 同じカテゴリからなるデータセット間のセマンティックセグメンテーションのためのドメイン適応は、最近いくつかの成功を収めている。 しかし、より一般的なシナリオは、ソースとターゲットデータセットが重複しないラベル空間に対応する場合である。 例えば、セグメンテーションデータセットのカテゴリは環境やアプリケーションの種類によって大きく変化しますが、多くの意味的な関係を共有します。 機能アライメントや不一致最小化に基づく既存のアプローチは、そのようなカテゴリシフトを考慮していない。 本稿では,クラスタ・トゥ・アダプティブ (c2a) について述べる。クラスタ・トゥ・アダプティブとは,全く異なるが関連するカテゴリのセグメンテーションデータセットにまたがるドメイン適応のための,計算効率の高いクラスタリングに基づくアプローチである。 変換された機能空間で強制されるこのようなクラスタリングの目標は、対象の性能を改善するためにアライメント可能なソースドメインとターゲットドメインをまたいだカテゴリを自動的に選択すると同時に、関連しないカテゴリの負の転送を防止できることを示す。 提案手法の有効性を実験により検証し, 既存手法よりも一貫した性能向上, ベースラインの整合性向上を図りながら, セマンティックセマンティックセグメンテーションにおける屋外・屋内適応の難易度問題とゼロショット設定を検証した。

Domain adaptation for semantic segmentation across datasets consisting of the same categories has seen several recent successes. However, a more general scenario is when the source and target datasets correspond to non-overlapping label spaces. For example, categories in segmentation datasets change vastly depending on the type of environment or application, yet share many valuable semantic relations. Existing approaches based on feature alignment or discrepancy minimization do not take such category shift into account. In this work, we present Cluster-to-Adapt (C2A), a computationally efficient clustering-based approach for domain adaptation across segmentation datasets with completely different, but possibly related categories. We show that such a clustering objective enforced in a transformed feature space serves to automatically select categories across source and target domains that can be aligned for improving the target performance, while preventing negative transfer for unrelated categories. We demonstrate the effectiveness of our approach through experiments on the challenging problem of outdoor to indoor adaptation for semantic segmentation in few-shot as well as zero-shot settings, with consistent improvements in performance over existing approaches and baselines in all cases.
翻訳日:2022-08-05 12:22:17 公開日:2022-08-04
# AI革命を駆動するHW/SW最適化と生態系の活用

Leveraging the HW/SW Optimizations and Ecosystems that Drive the AI Revolution ( http://arxiv.org/abs/2208.02808v1 )

ライセンス: Link先を確認
Humberto Carvalho, Pavel Zaykov, Asim Ukaye(参考訳) 本稿では,ディープニューラルネットワーク(dnn)の設計,設計,最適化について概観し,性能が向上し,精度が保たれるように設計,設計,最適化する方法について述べる。 論文では、機械学習処理パイプライン全体にわたる最適化のセットを取り上げている。 我々は2種類の最適化を導入する。 1つはDNNモデルを変更し、もう1つはNNの再トレーニングを必要とする。 我々はGPU最適化に重点を置いているが、提案されたテクニックは他のAI推論プラットフォームと併用できると考えている。 DNNモデルの最適化を実証するため、一般的なエッジAI推論プラットフォーム(Nvidia Jetson AGX Xavier)上で、光学フローのための最も高度なディープネットワークアーキテクチャであるRAFT arXiv:2003.12039を改善した。

This paper presents a state-of-the-art overview on how to architect, design, and optimize Deep Neural Networks (DNNs) such that performance is improved and accuracy is preserved. The paper covers a set of optimizations that span the entire Machine Learning processing pipeline. We introduce two types of optimizations. The first alters the DNN model and requires NN re-training, while the second does not. We focus on GPU optimizations, but we believe the presented techniques can be used with other AI inference platforms. To demonstrate the DNN model optimizations, we improve one of the most advanced deep network architectures for optical flow, RAFT arXiv:2003.12039, on a popular edge AI inference platform (Nvidia Jetson AGX Xavier).
翻訳日:2022-08-05 12:21:51 公開日:2022-08-04
# 動的参加エージェントを用いたトランスファブルマルチエージェント強化学習

Transferable Multi-Agent Reinforcement Learning with Dynamic Participating Agents ( http://arxiv.org/abs/2208.02424v1 )

ライセンス: Link先を確認
Xuting Tang, Jia Xu, Shusen Wang(参考訳) 集中訓練と分散実行によるマルチエージェント強化学習(MARL)について検討した。 訓練中、新たなエージェントが参加し、既存のエージェントが予期せずトレーニングを離れる可能性がある。 このような状況下では、標準の深いMARLモデルはスクラッチから再び訓練されなければならない。 この問題に対処するために,集中学習中にエージェントの数を変動させることができる数ショット学習アルゴリズムを用いた特殊なネットワークアーキテクチャを提案する。 特に,新たなエージェントが集中トレーニングに参加すると,少数ショット学習アルゴリズムは,少数のサンプルを用いてポリシネットワークとバリューネットワークを訓練する。 提案するネットワークアーキテクチャとアルゴリズムを用いることで,新たなエージェントが参加する場合のモデル適応がベースラインの100倍以上高速になることを示す。 我々の仕事は、協力的、競争的、混合的を含むあらゆる場面に適用できる。

We study multi-agent reinforcement learning (MARL) with centralized training and decentralized execution. During the training, new agents may join, and existing agents may unexpectedly leave the training. In such situations, a standard deep MARL model must be trained again from scratch, which is very time-consuming. To tackle this problem, we propose a special network architecture with a few-shot learning algorithm that allows the number of agents to vary during centralized training. In particular, when a new agent joins the centralized training, our few-shot learning algorithm trains its policy network and value network using a small number of samples; when an agent leaves the training, the training process of the remaining agents is not affected. Our experiments show that using the proposed network architecture and algorithm, model adaptation when new agents join can be 100+ times faster than the baseline. Our work is applicable to any setting, including cooperative, competitive, and mixed.
翻訳日:2022-08-05 12:21:35 公開日:2022-08-04
# 送信ビットを超えた通信:セマンティック誘導ソースとチャネル符号化

Communication Beyond Transmitting Bits: Semantics-Guided Source and Channel Coding ( http://arxiv.org/abs/2208.02481v1 )

ライセンス: Link先を確認
Jincheng Dai, Ping Zhang, Kai Niu, Sixian Wang, Zhongwei Si, Xiaoqi Qin(参考訳) 古典的な通信パラダイムはノイズの多いチャネル上のビットを正確に伝達することに集中しており、シャノン理論は信頼性のある通信速度に基本的な理論的制限を与える。 このアプローチでは、ビットは等しく扱われ、通信システムは、これらのビットがどんな意味を伝達するか、どのように使用されるかに従わない。 未来の知性と簡潔性へのコミュニケーションは、予測される役割を担い、接続された知的エージェントの拡散は、地平線上の新しいコミュニケーション形態をサポートするために、コード化された伝達パラダイムを根本的に再考する必要がある。 近年の「セマンティックコミュニケーション」の概念は、有望な研究方向を提供する。 セマンティクス・アウェア通信を実現するために、符号化トランスミッション設計にセマンティクスガイダンスを注入することは、有効性と信頼性のさらなるブレークスルーの可能性を秘めている。 本稿では,データセマンティクスの多様性と無線チャネルの多様性を両立させてシステム全体の性能を向上させる意味コミュニケーションの伝達パラダイムとして,セマンティクス誘導ソースとチャネルコーディングに光を当てる。 本稿では,一般的なシステムアーキテクチャと鍵となる技術について述べる。

Classical communication paradigms focus on accurately transmitting bits over a noisy channel, and Shannon theory provides a fundamental theoretical limit on the rate of reliable communications. In this approach, bits are treated equally, and the communication system is oblivious to what meaning these bits convey or how they would be used. Future communications towards intelligence and conciseness will predictably play a dominant role, and the proliferation of connected intelligent agents requires a radical rethinking of coded transmission paradigm to support the new communication morphology on the horizon. The recent concept of "semantic communications" offers a promising research direction. Injecting semantic guidance into the coded transmission design to achieve semantics-aware communications shows great potential for further breakthrough in effectiveness and reliability. This article sheds light on semantics-guided source and channel coding as a transmission paradigm of semantic communications, which exploits both data semantics diversity and wireless channel diversity together to boost the whole system performance. We present the general system architecture and key techniques, and indicate some open issues on this topic.
翻訳日:2022-08-05 12:21:21 公開日:2022-08-04
# customsインポート宣言データセット

Customs Import Declaration Datasets ( http://arxiv.org/abs/2208.02484v1 )

ライセンス: Link先を確認
Chaeyoon Jeong and Sundong Kim and Jaewoo Park and Yeonsoo Choi(参考訳) 国境を越えた大量の流れを考えると、貿易の効果的かつ効率的な管理は、合法的な貿易を促進しつつ、違法な貿易から人々や社会を守る上でより重要となる。 しかし、トランザクションレベルの取引データセットのアクセシビリティの制限は、オープンリサーチの進展を妨げるものであり、データベースのリスク管理の最近の進歩から多くの税関管理が恩恵を受けていない。 本稿では,税関管理分野の専門家とデータサイエンス研究者の連携を促進するために,インポート宣言データセットを提案する。 データセットは、22のキー属性を持つ54,000の人工的に生成された取引を含む。 合成データにはいくつかの利点がある。 まず、データセットのリリースは、オリジナルのインポートデータを公開できない制限から解放される。 第2に、製造工程は、貿易統計上に存在する可能性のある同一性リスクを最小化する。 最後に、公開されたデータはソースデータと同様の分布に従っており、様々な下流タスクで使用することができる。 データの提供と生成プロセスにより、我々は不正検出タスクのベースラインコードを開く。

Given the huge volume of cross-border flows, effective and efficient control of trades becomes more crucial in protecting people and society from illicit trades while facilitating legitimate trades. However, limited accessibility of the transaction-level trade datasets hinders the progress of open research, and lots of customs administrations have not benefited from the recent progress in data-based risk management. In this paper, we introduce an import declarations dataset to facilitate the collaboration between the domain experts in customs administrations and data science researchers. The dataset contains 54,000 artificially generated trades with 22 key attributes, and it is synthesized with CTGAN while maintaining correlated features. Synthetic data has several advantages. First, releasing the dataset is free from restrictions that do not allow disclosing the original import data. Second, the fabrication step minimizes the possible identity risk which may exist in trade statistics. Lastly, the published data follow a similar distribution to the source data so that it can be used in various downstream tasks. With the provision of data and its generation process, we open baseline codes for fraud detection tasks, as we empirically show that more advanced algorithms can better detect frauds.
翻訳日:2022-08-05 12:21:02 公開日:2022-08-04
# Node Copying: 効率的なグラフサンプリングのためのランダムグラフモデル

Node Copying: A Random Graph Model for Effective Graph Sampling ( http://arxiv.org/abs/2208.02435v1 )

ライセンス: Link先を確認
Florence Regol, Soumyasundar Pal, Jianing Sun, Yingxue Zhang, Yanhui Geng, Mark Coates(参考訳) 観測されたグラフに基づく関係構造化データに機械学習技術を適用することへの関心が高まっている。 多くの場合、このグラフはノード間の真の関係を完全に表していない。 これらの設定では、観測されたグラフに条件付き生成モデルを構築することで、グラフの不確実性を考慮することができる。 既存の様々な手法は制限的な仮定に依存し、サンプル内のトポロジカルな性質を保たないか、より大きなグラフに対して違法に高価である。 本稿では,グラフ上の分布を構築するためのノード複写モデルを提案する。 ランダムなグラフのサンプリングは、各ノードの隣人をランダムにサンプリングした類似ノードに置き換えることによって行われる。 サンプルグラフは、グラフ構造の重要な特徴を明示的にターゲットせずに保持する。 さらに、このモデルからのサンプリングは非常に単純で、ノードと線形にスケールする。 コピーモデルの有用性を3つのタスクで示す。 まず、ノード分類において、ノードコピーに基づくベイズ式はスパースデータ設定において高い精度を達成する。 第2に,提案モデルを用いてグラフトポロジーに対する敵意攻撃の影響を緩和する。 最後に、レコメンデーションシステム設定におけるモデルの導入は、最先端メソッドのリコールを改善する。

There has been an increased interest in applying machine learning techniques on relational structured-data based on an observed graph. Often, this graph is not fully representative of the true relationship amongst nodes. In these settings, building a generative model conditioned on the observed graph allows to take the graph uncertainty into account. Various existing techniques either rely on restrictive assumptions, fail to preserve topological properties within the samples or are prohibitively expensive for larger graphs. In this work, we introduce the node copying model for constructing a distribution over graphs. Sampling of a random graph is carried out by replacing each node's neighbors by those of a randomly sampled similar node. The sampled graphs preserve key characteristics of the graph structure without explicitly targeting them. Additionally, sampling from this model is extremely simple and scales linearly with the nodes. We show the usefulness of the copying model in three tasks. First, in node classification, a Bayesian formulation based on node copying achieves higher accuracy in sparse data settings. Second, we employ our proposed model to mitigate the effect of adversarial attacks on the graph topology. Last, incorporation of the model in a recommendation system setting improves recall over state-of-the-art methods.
翻訳日:2022-08-05 12:17:31 公開日:2022-08-04
# 医療用機械学習データ品質保証フレームワークml-dqaの開発と検証

Development and Validation of ML-DQA -- a Machine Learning Data Quality Assurance Framework for Healthcare ( http://arxiv.org/abs/2208.02670v1 )

ライセンス: Link先を確認
Mark Sendak, Gaurav Sirdeshmukh, Timothy Ochoa, Hayley Premo, Linda Tang, Kira Niederhoffer, Sarah Reed, Kaivalya Deshpande, Emily Sterrett, Melissa Bauer, Laurie Snyder, Afreen Shariff, David Whellan, Jeffrey Riggio, David Gaieski, Kristin Corey, Megan Richards, Michael Gao, Marshall Nichols, Bradley Heintze, William Knechtle, William Ratliff, Suresh Balu(参考訳) 機械学習と臨床研究コミュニティが、電子健康記録(EHR)に記録されたデータを含む実世界データ(RWD)を利用するアプローチは、劇的に異なる。 臨床研究者は臨床研究にRWDを慎重に用いているが、医療チームのMLは新しいアルゴリズムを開発するために最小限の精査で公開データセットを消費している。 本研究では、RWDベストプラクティスに基づくデータ品質保証フレームワークであるML-DQAを開発し、検証することにより、このギャップを埋める。 ML-DQAフレームワークは、2つの地理的、異なる医療条件、異なるコホートにわたる5つのMLプロジェクトに適用される。 2,999件の品質チェックと24件の品質報告が5つのプロジェクトを通じて24,536人の患者に集められた。 すべてのプロジェクトは、診断と治療データ要素を構築するために、自動化ユーティリティを使用しており、すべてのプロジェクトは、ルールベースの変換の共通ライブラリを使用しており、すべてのプロジェクトは、データ要素にデータ品質チェックを割り当てるために統一されたアプローチを使用しており、全てのプロジェクトは、臨床適応に同様のアプローチを使用していた。 臨床医、データサイエンティスト、研修生を含む平均5.8人が各プロジェクトのためにML-DQAを実装し、平均23.4個のデータ要素がML-DQAに応じて変換または削除された。 本研究は、医療プロジェクトにおけるML-DQAの重要性を示し、これらの重要な活動を行うための枠組みを提供する。

The approaches by which the machine learning and clinical research communities utilize real world data (RWD), including data captured in the electronic health record (EHR), vary dramatically. While clinical researchers cautiously use RWD for clinical investigations, ML for healthcare teams consume public datasets with minimal scrutiny to develop new algorithms. This study bridges this gap by developing and validating ML-DQA, a data quality assurance framework grounded in RWD best practices. The ML-DQA framework is applied to five ML projects across two geographies, different medical conditions, and different cohorts. A total of 2,999 quality checks and 24 quality reports were generated on RWD gathered on 247,536 patients across the five projects. Five generalizable practices emerge: all projects used a similar method to group redundant data element representations; all projects used automated utilities to build diagnosis and medication data elements; all projects used a common library of rules-based transformations; all projects used a unified approach to assign data quality checks to data elements; and all projects used a similar approach to clinical adjudication. An average of 5.8 individuals, including clinicians, data scientists, and trainees, were involved in implementing ML-DQA for each project and an average of 23.4 data elements per project were either transformed or removed in response to ML-DQA. This study demonstrates the importance role of ML-DQA in healthcare projects and provides teams a framework to conduct these essential activities.
翻訳日:2022-08-05 12:17:15 公開日:2022-08-04
# 階層型マルチインスタンスデータで学習した分類器の説明

Explaining Classifiers Trained on Raw Hierarchical Multiple-Instance Data ( http://arxiv.org/abs/2208.02694v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Pevn\'y and Viliam Lis\'y and Branislav Bo\v{s}ansk\'y and Petr Somol and Michal P\v{e}chou\v{c}ek(参考訳) 生のデータ入力から学習することで、機能エンジニアリングの必要性を制限し、さまざまな領域における機械学習メソッドの多くの成功例の構成要素となる。 多くの問題は、標準分類器で直接使用可能なベクトル表現に自然に変換されるが、多くのデータソースは構造化データ交換フォーマット(JSON/XMLフォーマットのセキュリティログなど)の自然な形式を持っている。 階層型多重インスタンス学習(HMIL)のような既存の手法では、そのようなデータを生の形式で学習することができる。 しかし、生の構造化データで訓練された分類器の説明はほとんど未定である。 これらのモデルを部分集合選択問題として扱うことで,計算効率のよいアルゴリズムを用いて解釈可能な説明がどのように生成されるかを実証する。 我々は,グラフニューラルネットワークから導入した説明手法と比較して,桁違いの高速化と高品質な説明を行う。

Learning from raw data input, thus limiting the need for feature engineering, is a component of many successful applications of machine learning methods in various domains. While many problems naturally translate into a vector representation directly usable in standard classifiers, a number of data sources have the natural form of structured data interchange formats (e.g., security logs in JSON/XML format). Existing methods, such as in Hierarchical Multiple Instance Learning (HMIL), allow learning from such data in their raw form. However, the explanation of the classifiers trained on raw structured data remains largely unexplored. By treating these models as sub-set selections problems, we demonstrate how interpretable explanations, with favourable properties, can be generated using computationally efficient algorithms. We compare to an explanation technique adopted from graph neural networks showing an order of magnitude speed-up and higher-quality explanations.
翻訳日:2022-08-05 12:16:46 公開日:2022-08-04
# 情報共分散を用いたベイズ最適化

Bayesian Optimization with Informative Covariance ( http://arxiv.org/abs/2208.02704v1 )

ライセンス: Link先を確認
Afonso Eduardo, Michael U. Gutmann(参考訳) ベイズ最適化 (Bayesian Optimization) は、未知および高価な目的を大域的に最適化するための方法論である。 代理ベイズ回帰モデルと取得関数を組み合わせることで、目的をどこで評価するかを決定する。 典型的な回帰モデルは、定常共分散関数を持つガウス過程であり、これは、しかしながら、事前の入力依存情報、特に最適な位置に関する情報を表現できない。 定常モデルの普及により、情報的平均関数による事前情報の利用が一般的になった。 本稿では,これらのモデルが特に高次元において性能低下につながることを強調する。 非定常性を利用して探索空間の特定の領域の好みを符号化し、最適化中の局所探索を適応的に促進する新しい情報共分散関数を提案する。 より弱い事前情報の下でも高次元での最適化のサンプル効率を向上できることを実証する。

Bayesian Optimization is a methodology for global optimization of unknown and expensive objectives. It combines a surrogate Bayesian regression model with an acquisition function to decide where to evaluate the objective. Typical regression models are Gaussian processes with stationary covariance functions, which, however, are unable to express prior input-dependent information, in particular information about possible locations of the optimum. The ubiquity of stationary models has led to the common practice of exploiting prior information via informative mean functions. In this paper, we highlight that these models can lead to poor performance, especially in high dimensions. We propose novel informative covariance functions that leverage nonstationarity to encode preferences for certain regions of the search space and adaptively promote local exploration during the optimization. We demonstrate that they can increase the sample efficiency of the optimization in high dimensions, even under weak prior information.
翻訳日:2022-08-05 12:16:31 公開日:2022-08-04
# feddrl:federated learningにおける非iidデータに対する深層強化学習に基づく適応アグリゲーション

FedDRL: Deep Reinforcement Learning-based Adaptive Aggregation for Non-IID Data in Federated Learning ( http://arxiv.org/abs/2208.02442v1 )

ライセンス: Link先を確認
Nang Hung Nguyen, Phi Le Nguyen, Duc Long Nguyen, Trung Thanh Nguyen, Thuy Dung Nguyen, Huy Hieu Pham, Truong Thao Nguyen(参考訳) 異なるエッジデバイス(クライアント)にまたがるローカルデータの不均一な分散は、フェデレート学習における遅いモデルトレーニングと精度の低下をもたらす。 Naive Federated Learning(FL)戦略と、ほとんどの代替ソリューションは、クライアントをまたいだディープラーニングモデルの重み付けによって、より公平性を達成しようとした。 この研究は、実世界のデータセットで遭遇する新しい非IID型、すなわちクラスタスキューを導入し、クライアントのグループは同様の分布を持つローカルデータを持ち、グローバルモデルが過度に適合したソリューションに収束する。 非IIDデータ、特にクラスタスキューデータを扱うために、我々は、各クライアントの衝撃要因(集約プロセスの重みとして使用される)を適応的に決定するために、深層強化学習を用いた新しいFLモデルであるFedDRLを提案する。 フェデレーションデータセットの集合に関する大規模な実験により、提案されたFedDRLは、それぞれCIFAR-100データセットの平均で4.05%と2.17%まで、FedAvgとFedProxの手法に対して好適に改善されていることが確認された。

The uneven distribution of local data across different edge devices (clients) results in slow model training and accuracy reduction in federated learning. Naive federated learning (FL) strategy and most alternative solutions attempted to achieve more fairness by weighted aggregating deep learning models across clients. This work introduces a novel non-IID type encountered in real-world datasets, namely cluster-skew, in which groups of clients have local data with similar distributions, causing the global model to converge to an over-fitted solution. To deal with non-IID data, particularly the cluster-skewed data, we propose FedDRL, a novel FL model that employs deep reinforcement learning to adaptively determine each client's impact factor (which will be used as the weights in the aggregation process). Extensive experiments on a suite of federated datasets confirm that the proposed FedDRL improves favorably against FedAvg and FedProx methods, e.g., up to 4.05% and 2.17% on average for the CIFAR-100 dataset, respectively.
翻訳日:2022-08-05 12:15:18 公開日:2022-08-04
# コンフォーマルリスク制御

Conformal Risk Control ( http://arxiv.org/abs/2208.02814v1 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos and Stephen Bates and Adam Fisch and Lihua Lei and Tal Schuster(参考訳) 我々はコンフォメーション予測を拡張して,任意の単調損失関数の期待値を制御する。 このアルゴリズムは、カバレッジ保証とともに分割共形予測を一般化する。 共形予測と同様に、共形リスク制御手順は$\mathcal{O}(1/n)$ factorまで厳密である。 コンピュータビジョンと自然言語処理によるサンプルは、偽陰性率、グラフ距離、トークンレベルのf1-scoreをバインドするアルゴリズムの使用例を示している。

We extend conformal prediction to control the expected value of any monotone loss function. The algorithm generalizes split conformal prediction together with its coverage guarantee. Like conformal prediction, the conformal risk control procedure is tight up to an $\mathcal{O}(1/n)$ factor. Worked examples from computer vision and natural language processing demonstrate the usage of our algorithm to bound the false negative rate, graph distance, and token-level F1-score.
翻訳日:2022-08-05 12:12:34 公開日:2022-08-04
# 進化ロボティクスにおける環境変動の役割--性能とロバスト性の最大化

The Role of Environmental Variations in Evolutionary Robotics: Maximizing Performance and Robustness ( http://arxiv.org/abs/2208.02809v1 )

ライセンス: Link先を確認
Jonata Tyska Carvalho and Stefano Nolfi(参考訳) 環境変動に頑健で現実のギャップを越えうるソリューションを得るためには,進化するロボットを変動条件に公開する必要がある。 しかし, 環境変動が進化過程に与える影響を分析し, 理解するための方法がまだないため, 適切な変動範囲を選択する方法がまだない。 本稿では,環境変動の影響を計測する手法について紹介し,変動の振幅,導入されるモダリティ,進化エージェントの性能とロバスト性との関係について分析する。 私たちの結果は (i)進化的アルゴリズムは、非常に高い影響を持つ環境変動を許容することができる。 (ii)薬剤の作用に影響を及ぼす変動は、薬剤の初期状態又は環境に影響を及ぼす変動よりもはるかに許容される。 (iii)複数の評価による適合度尺度の精度の向上は必ずしも有用ではない。 さらに, 環境変動は, 異なる環境と非異なる環境の両方において, より良い性能を発揮できることを示す。

Exposing evolving robots to variable conditions is necessary to obtain solutions which are robust to environmental variations and which can cross the reality gap. However, we do not yet have methods for analyzing and understanding the impact of environmental variations on the evolutionary process, and therefore for choosing suitable variation ranges. In this article we introduce a method that permits us to measure the impact of environmental variations and we analyze the relation between the amplitude of variations, the modality with which they are introduced, and the performance and robustness of evolving agents. Our results demonstrate that (i) the evolutionary algorithm can tolerate environmental variations which have a very high impact, (ii) variations affecting the actions of the agent are tolerated much better than variations affecting the initial state of the agent or of the environment, and (iii) improving the accuracy of the fitness measure through multiple evaluations is not always useful. Moreover, our results show that environmental variations permit generating solutions which perform better both in varying and non-varying environments.
翻訳日:2022-08-05 12:12:06 公開日:2022-08-04
# magpie: ソフトウェアの進化による機械自動一般性能向上

MAGPIE: Machine Automated General Performance Improvement via Evolution of Software ( http://arxiv.org/abs/2208.02811v1 )

ライセンス: Link先を確認
Aymeric Blot and Justyna Petke(参考訳) パフォーマンスはソフトウェアの最も重要な品質のひとつです。 そのため、プログラム変換、ソフトウェアパラメータの最適化、コンパイラフラグなど、いくつかのテクニックが提案されている。 多くの自動化されたソフトウェア改善アプローチは、可能な改善の空間を探索するために、同様の検索戦略を使用している。 これは、様々な種類の改善の相互作用の比較と探索を非現実的に行う。 我々は、統合ソフトウェア改善フレームワークであるmagpieを提案する。 共通の編集シーケンスに基づく表現を提供し、特定の改善テクニックから探索プロセスを分離し、より単純化された相乗的ワークフローを可能にする。 コンパイラの最適化,アルゴリズム構成,遺伝的改良を比較するために,基本局所探索を用いたケーススタディを提供する。 実行時間を効率測定として選択し、C、C++、Javaで書かれた4つの現実世界ソフトウェアに対するアプローチを評価しました。 コンパイラ最適化の最大25%、アルゴリズム構成の97%、遺伝的改良を用いたソースコードの進化の61%である。 また, 異なる手法で検出された変種を部分的組み合わせることで, 最大10%の性能向上が達成できることを示した。 さらに、共通表現はすべてのテクニックの同時探索を可能にし、それぞれのテクニックを個別に使用するための競合的な代替手段を提供する。

Performance is one of the most important qualities of software. Several techniques have thus been proposed to improve it, such as program transformations, optimisation of software parameters, or compiler flags. Many automated software improvement approaches use similar search strategies to explore the space of possible improvements, yet available tooling only focuses on one approach at a time. This makes comparisons and exploration of interactions of the various types of improvement impractical. We propose MAGPIE, a unified software improvement framework. It provides a common edit sequence based representation that isolates the search process from the specific improvement technique, enabling a much simplified synergistic workflow. We provide a case study using a basic local search to compare compiler optimisation, algorithm configuration, and genetic improvement. We chose running time as our efficiency measure and evaluated our approach on four real-world software, written in C, C++, and Java. Our results show that, used independently, all techniques find significant running time improvements: up to 25% for compiler optimisation, 97% for algorithm configuration, and 61% for evolving source code using genetic improvement. We also show that up to 10% further increase in performance can be obtained with partial combinations of the variants found by the different techniques. Furthermore, the common representation also enables simultaneous exploration of all techniques, providing a competitive alternative to using each technique individually.
翻訳日:2022-08-05 12:11:50 公開日:2022-08-04
# マルチドメイン対話状態追跡における実時間スロット値予測

Act-Aware Slot-Value Predicting in Multi-Domain Dialogue State Tracking ( http://arxiv.org/abs/2208.02462v1 )

ライセンス: Link先を確認
Ruolin Su, Ting-Wei Wu, Biing-Hwang Juang(参考訳) タスク指向対話システムにおいて、対話状態追跡(DST)は人間と機械の相互作用を追跡し、対話を管理する状態表現を生成することを目的としている。 対話状態の表現はドメインオントロジーとユーザの目標に依存する。 目的の範囲が限定されたタスク指向対話では、対話状態はスロット値ペアのセットとして表現できる。 対話システムの能力が拡大してコミュニケーションの自然性が高まるにつれて,対話行動処理を対話モデル設計に組み込むことが不可欠となる。 このような考慮の欠如は、特定の目的とオントロジーを持つ対話のための対話状態追跡モデルのスケーラビリティを制限する。 この問題に対処するために,対話動作を定式化し,機械読解の最近の進歩を活用して,多分野対話状態追跡のためのカテゴリ型と非カテゴリ型の両方のスロットを予測する。 実験の結果,マルチウォズ2.1データセット上での対話状態追跡の総合的精度が向上し,今後のタスク指向対話システムにおける対話状態設計のガイドとなることを示す。

As an essential component in task-oriented dialogue systems, dialogue state tracking (DST) aims to track human-machine interactions and generate state representations for managing the dialogue. Representations of dialogue states are dependent on the domain ontology and the user's goals. In several task-oriented dialogues with a limited scope of objectives, dialogue states can be represented as a set of slot-value pairs. As the capabilities of dialogue systems expand to support increasing naturalness in communication, incorporating dialogue act processing into dialogue model design becomes essential. The lack of such consideration limits the scalability of dialogue state tracking models for dialogues having specific objectives and ontology. To address this issue, we formulate and incorporate dialogue acts, and leverage recent advances in machine reading comprehension to predict both categorical and non-categorical types of slots for multi-domain dialogue state tracking. Experimental results show that our models can improve the overall accuracy of dialogue state tracking on the MultiWOZ 2.1 dataset, and demonstrate that incorporating dialogue acts can guide dialogue state design for future task-oriented dialogue systems.
翻訳日:2022-08-05 12:11:29 公開日:2022-08-04
# 超複素空間における知識グラフ埋め込みと事前学習言語モデルの統合

Integrating Knowledge Graph embedding and pretrained Language Models in Hypercomplex Spaces ( http://arxiv.org/abs/2208.02743v1 )

ライセンス: Link先を確認
Mojtaba Nayyeri, Zihao Wang, Mst. Mahfuja Akter, Mirza Mohtashim Alam, Md Rashad Al Hasan Rony, Jens Lehmann, Steffen Staab(参考訳) Wikidataのような知識グラフは、知識を表現するために構造的およびテキスト的知識から構成される。 グラフ埋め込みと言語モデルのための2つのモダリティはそれぞれ、新しい構造的知識を予測するパターンを学習する。 学習と推論を両方のモダリティに統合したアプローチはほとんどなく、既存のアプローチは構造的知識とテキスト的知識の相互作用を部分的に活用するしかなかった。 我々のアプローチでは、単一モダリティの既存の強表現の上に構築し、両方の表現に超複素代数を用いる。 (i)単一モダリティの埋め込み、及び (ii) 異なるモダリティ間の相互作用とその相補的な知識表現手段。 具体的には、構造的知識グラフ埋め込み、単語レベルの表現(例えば、word2vec, fasttext)、文レベルの表現(sentence transformer)、文書レベルの表現(sentence transformer, doc2vec)の4つのモダリティを統合するために、4次元超複素数のディヘドロンおよび四元表現を提案する。 我々の統一ベクトル表現はハミルトン積とディヘドロン積を通じてラベル付きエッジの可算性を評価し、異なるモジュラリティ間のペアワイズ相互作用をモデル化する。 標準ベンチマークデータセットの広範囲な実験評価により,リンク予測タスクの性能向上のための構造的知識の欠如に加えて,豊富なテキスト情報を用いた2つの新モデルの優位性が示された。

Knowledge Graphs, such as Wikidata, comprise structural and textual knowledge in order to represent knowledge. For each of the two modalities dedicated approaches for graph embedding and language models learn patterns that allow for predicting novel structural knowledge. Few approaches have integrated learning and inference with both modalities and these existing ones could only partially exploit the interaction of structural and textual knowledge. In our approach, we build on existing strong representations of single modalities and we use hypercomplex algebra to represent both, (i), single-modality embedding as well as, (ii), the interaction between different modalities and their complementary means of knowledge representation. More specifically, we suggest Dihedron and Quaternion representations of 4D hypercomplex numbers to integrate four modalities namely structural knowledge graph embedding, word-level representations (e.g.\ Word2vec, Fasttext), sentence-level representations (Sentence transformer), and document-level representations (sentence transformer, Doc2vec). Our unified vector representation scores the plausibility of labelled edges via Hamilton and Dihedron products, thus modeling pairwise interactions between different modalities. Extensive experimental evaluation on standard benchmark datasets shows the superiority of our two new models using abundant textual information besides sparse structural knowledge to enhance performance in link prediction tasks.
翻訳日:2022-08-05 12:11:09 公開日:2022-08-04
# スパイクニューラルネットワークを用いたニューロシンボリックコンピューティング

Neuro-symbolic computing with spiking neural networks ( http://arxiv.org/abs/2208.02576v1 )

ライセンス: Link先を確認
Dominik Dold, Josep Soler Garrido, Victor Caceres Chian, Marcel Hildebrandt, Thomas Runkler(参考訳) 知識グラフは、意味のある機械可読性のある方法で異なるドメインからのデータを統合できるため、表現力があり、広く使われているデータ構造である。 したがって、分子やソーシャルネットワークのような様々なシステムをモデル化するのに使用できる。 しかし、スパイクシステムにおいてどのようにシンボリック推論が実現されるのか、なぜスパイクニューラルネットワークがそのようなグラフデータに適用できるのか、まだ明らかな疑問である。 ここでは、スパイクベースのグラフアルゴリズムに関するこれまでの研究を、スパイクニューロンを用いてシンボリックおよびマルチリレーショナル情報をエンコードする方法を示し、スパイクニューラルネットワークを用いた知識グラフのようなシンボリック構造の推論を可能にした。 導入されたフレームワークは、グラフ埋め込みパラダイムと、エラーバックプロパゲーションを用いたスパイクニューラルネットワークのトレーニングの最近の進歩を組み合わせたものである。 提案手法は、様々なスパイキングニューロンモデルに適用可能であり、スパイキングリレーショナルグラフニューラルネットワークを実装することで、他の微分可能なネットワークアーキテクチャと組み合わせて、エンドツーエンドで訓練することができる。

Knowledge graphs are an expressive and widely used data structure due to their ability to integrate data from different domains in a sensible and machine-readable way. Thus, they can be used to model a variety of systems such as molecules and social networks. However, it still remains an open question how symbolic reasoning could be realized in spiking systems and, therefore, how spiking neural networks could be applied to such graph data. Here, we extend previous work on spike-based graph algorithms by demonstrating how symbolic and multi-relational information can be encoded using spiking neurons, allowing reasoning over symbolic structures like knowledge graphs with spiking neural networks. The introduced framework is enabled by combining the graph embedding paradigm and the recent progress in training spiking neural networks using error backpropagation. The presented methods are applicable to a variety of spiking neuron models and can be trained end-to-end in combination with other differentiable network architectures, which we demonstrate by implementing a spiking relational graph neural network.
翻訳日:2022-08-05 12:10:44 公開日:2022-08-04
# ACSGRegNet: クロス・セルフ・アテンション・フュージョンによる腰椎CTの教師なし結合アフィンと異型登録のためのディープラーニングベースのフレームワーク

ACSGRegNet: A Deep Learning-based Framework for Unsupervised Joint Affine and Diffeomorphic Registration of Lumbar Spine CT via Cross- and Self-Attention Fusion ( http://arxiv.org/abs/2208.02642v1 )

ライセンス: Link先を確認
Xiaoru Gao and GuoYan Zheng(参考訳) 登録は医療画像解析において重要な役割を果たす。 深層学習に基づく医用画像登録法は、畳み込みニューラルネットワーク(CNN)を利用して、一対の画像から高密度な変形場を効率的に回帰する。 しかし、cnnは、正確な画像登録に重要である意味的に意味のある画像内空間対応を抽出する能力に制限がある。 本研究では、画像間特徴対応を確立するためのクロスアテンションモジュールと、画像内解剖構造を意識する自己アテンションモジュールを統合した、教師なしアフィンおよび微分型デフォルム登録のための新しいエンドツーエンドディープラーニングベースのフレームワークACSGRegNetを提案する。 どちらのアテンションモジュールもトランスフォーマーエンコーダ上に構築されている。 各注目モジュールからの出力はそれぞれデコーダに供給され、速度場を生成する。 さらに、両方の速度場を融合させるゲート融合モジュールを導入する。 そして、融合速度場を高密度変形場に統合する。 腰部CT像に対する広範囲な実験を行った。 モデルが訓練されると、見えない腰椎のペアを1枚のショットに登録することができる。 450対の椎体ctデータを用いて評価し,平均 dice 0.963 と平均距離誤差 0.321mm を達成し,sof-the-art (sota) よりも良好な結果を得た。

Registration plays an important role in medical image analysis. Deep learning-based methods have been studied for medical image registration, which leverage convolutional neural networks (CNNs) for efficiently regressing a dense deformation field from a pair of images. However, CNNs are limited in its ability to extract semantically meaningful intra- and inter-image spatial correspondences, which are of importance for accurate image registration. This study proposes a novel end-to-end deep learning-based framework for unsupervised affine and diffeomorphic deformable registration, referred as ACSGRegNet, which integrates a cross-attention module for establishing inter-image feature correspondences and a self-attention module for intra-image anatomical structures aware. Both attention modules are built on transformer encoders. The output from each attention module is respectively fed to a decoder to generate a velocity field. We further introduce a gated fusion module to fuse both velocity fields. The fused velocity field is then integrated to a dense deformation field. Extensive experiments are conducted on lumbar spine CT images. Once the model is trained, pairs of unseen lumbar vertebrae can be registered in one shot. Evaluated on 450 pairs of vertebral CT data, our method achieved an average Dice of 0.963 and an average distance error of 0.321mm, which are better than the state-of-the-art (SOTA).
翻訳日:2022-08-05 12:10:25 公開日:2022-08-04
# シングルビューRGB-Dヒト再建のための作業計画

Occupancy Planes for Single-view RGB-D Human Reconstruction ( http://arxiv.org/abs/2208.02817v1 )

ライセンス: Link先を確認
Xiaoming Zhao and Yuan-Ting Hu and Zhongzheng Ren and Alexander G. Schwing(参考訳) 暗黙的機能を持つ単視点rgb-dヒト再構成はしばしば点単位の分類として定式化される。 具体的には、カメラのビューフラストラム内の一連の3D位置をまず画像上に独立して投影し、その後、各3D位置について対応する特徴を抽出する。 そして、各3D位置の特徴を用いて、対応する3Dポイントが観測対象の内外にあるかどうかを独立に分類する。 この手法は, 周辺位置の予測の相関関係を, 抽出した特徴を通して暗黙的にのみ考慮するため, 準最適結果をもたらす。 より正確な結果を得るために,カメラの視野フラストタルをスライスする平面上での占有率予測として,一視点のRGB-D人間の再構成を定式化できる占領面(OPlanes)表現を提案する。 このような表現はvoxelグリッドよりも柔軟性があり、ポイントごとの分類よりも相関をうまく活用できる。 難解なs3dデータでは,oplanes表現に基づく単純な分類器を観察し,特に他の物体による部分的閉塞や部分的視認性の困難な状況において,事前の作業では対処されていない説得力のある結果が得られる。

Single-view RGB-D human reconstruction with implicit functions is often formulated as per-point classification. Specifically, a set of 3D locations within the view-frustum of the camera are first projected independently onto the image and a corresponding feature is subsequently extracted for each 3D location. The feature of each 3D location is then used to classify independently whether the corresponding 3D point is inside or outside the observed object. This procedure leads to sub-optimal results because correlations between predictions for neighboring locations are only taken into account implicitly via the extracted features. For more accurate results we propose the occupancy planes (OPlanes) representation, which enables to formulate single-view RGB-D human reconstruction as occupancy prediction on planes which slice through the camera's view frustum. Such a representation provides more flexibility than voxel grids and enables to better leverage correlations than per-point classification. On the challenging S3D data we observe a simple classifier based on the OPlanes representation to yield compelling results, especially in difficult situations with partial occlusions due to other objects and partial visibility, which haven't been addressed by prior work.
翻訳日:2022-08-05 12:09:56 公開日:2022-08-04
# LSTMに基づく自己回帰型言語モデルへのFusing文埋め込み

Fusing Sentence Embeddings Into LSTM-based Autoregressive Language Models ( http://arxiv.org/abs/2208.02402v1 )

ライセンス: Link先を確認
Vil\'em Zouhar, Marius Mosbach, Dietrich Klakow(参考訳) マスク付き言語モデルは非常に高性能で、NLP実践者によって広く採用されているが、自動回帰言語モデリング(次の単語予測とシーケンス確率推定)では簡単には利用できない。 LSTMに基づく自己回帰型言語モデルを提案する。このモデルでは,プレフィックス埋め込み(事前訓練されたマスク付き言語モデルから)を融合(例えば結合)して,言語モデリングのためのよりリッチなコンテキスト表現を得る。 融合は、トレーニングデータとは異なるドメインからデータセットに転送した後に保存される難易度(16.74$\rightarrow$ 15.80)を確実に低下させるのに役立つ。 また,次の単語超越推定と人間の読解時間とを関連付けることで,最もパフォーマンスの高い融合モデルを評価する。 予想とは対照的に、全体的な複雑度の改善にもかかわらず、相関関係はベースラインモデルと同じである。 最後に、融合の源泉としてテキストに事前学習した言語モデルにフォーカスしながら、固定サイズのベクトルとして表現された情報を自動回帰言語モデルに融合する手法を拡張できるかもしれない。 例えば、知識ベースやマルチモーダルエンコーダの表現のために検索された文外部情報を含む。

Although masked language models are highly performant and widely adopted by NLP practitioners, they can not be easily used for autoregressive language modelling (next word prediction and sequence probability estimation). We present an LSTM-based autoregressive language model which uses prefix embeddings (from a pretrained masked language model) via fusion (e.g. concatenation) to obtain a richer context representation for language modelling. We find that fusion helps reliably in lowering the perplexity (16.74 $\rightarrow$ 15.80), which is even preserved after a transfer to a dataset from a different domain than the training data. We also evaluate the best-performing fusion model by correlating its next word surprisal estimates with human reading times. Contradicting our expectation, and despite the improvement in perplexity overall, the correlation remains the same as for the baseline model. Lastly, while we focus on language models pre-trained on text as the sources for the fusion, our approach can be possibly extended to fuse any information represented as a fixed-size vector into an auto-regressive language model. These include e.g. sentence external information retrieved for a knowledge base or representations of multi-modal encoders.
翻訳日:2022-08-05 12:09:34 公開日:2022-08-04
# 確率量子化ニューラルネットワークによる不変表現

Invariant Representations with Stochastically Quantized Neural Networks ( http://arxiv.org/abs/2208.02656v1 )

ライセンス: Link先を確認
Mattia Cerrato, Marius K\"oppel, Roberto Esposito, Stefan Kramer(参考訳) 表現学習アルゴリズムは、ニュアンス要因に関する入力データの不変表現を学習する機会を提供する。 多くの著者はそのような戦略を利用して公正な表現、すなわち機密属性に関する情報が取り除かれるベクトルを学ぶ。 これらの方法は、神経層の活性化と機密属性の間の相互情報の最小化と解釈されるため、魅力的である。 しかし、そのような方法の理論的根拠付けは、無限に正確な敵の計算か、相互情報推定の変分上界の最小化に依拠する。 本稿では,ニューラル層と感性属性間の相互情報の直接計算手法を提案する。 確率的に活性化されるバイナリニューラルネットワークを用いて、ニューロンをランダム変数として扱うことができる。 すると、層と機密属性の間の相互情報を(束縛されない)計算し、勾配降下時の正則化因子として利用することができる。 本手法は,公平表現学習において,芸術の状態を好適に比較し,学習した表現が全精度ニューラルネットワークよりも高い不変性を示すことを示す。

Representation learning algorithms offer the opportunity to learn invariant representations of the input data with regard to nuisance factors. Many authors have leveraged such strategies to learn fair representations, i.e., vectors where information about sensitive attributes is removed. These methods are attractive as they may be interpreted as minimizing the mutual information between a neural layer's activations and a sensitive attribute. However, the theoretical grounding of such methods relies either on the computation of infinitely accurate adversaries or on minimizing a variational upper bound of a mutual information estimate. In this paper, we propose a methodology for direct computation of the mutual information between a neural layer and a sensitive attribute. We employ stochastically-activated binary neural networks, which lets us treat neurons as random variables. We are then able to compute (not bound) the mutual information between a layer and a sensitive attribute and use this information as a regularization factor during gradient descent. We show that this method compares favorably with the state of the art in fair representation learning and that the learned representations display a higher level of invariance compared to full-precision neural networks.
翻訳日:2022-08-05 12:06:55 公開日:2022-08-04
# 深層学習における専門家の混合理解に向けて

Towards Understanding Mixture of Experts in Deep Learning ( http://arxiv.org/abs/2208.02813v1 )

ライセンス: Link先を確認
Zixiang Chen and Yihe Deng and Yue Wu and Quanquan Gu and Yuanzhi Li(参考訳) ルータによって制御される疎活性化モデルであるMixture-of-Experts (MoE)層は,ディープラーニングにおいて大きな成功を収めている。 しかし、そのような建築の理解はいまだ解明されていない。 本稿では,moe層がニューラルネットワークの学習性能をどのように向上させるか,および混合モデルが単一モデルに崩壊しない理由を形式的に検討する。 実験の結果,基礎となる問題のクラスタ構造と専門家の非線形性は,MoEの成功に欠かせないことが示唆された。 これをさらに理解するため,本質的なクラスタ構造では,ひとつの専門家で学ぶのが難しい,難しい分類問題を考える。 しかし,moe層では,2層非線形畳み込みニューラルネットワーク(cnns)として専門家を選定することで,この問題をうまく学習できることを示す。 さらに,本理論は,ルータがクラスタ中心の特徴を学習できることを示し,入力複雑な問題を,個々の専門家が克服できるより単純な線形分類部分問題に分割することを支援する。 私たちの知る限り、これはディープラーニングのためのMoE層のメカニズムを正式に理解する最初の結果です。

The Mixture-of-Experts (MoE) layer, a sparsely-activated model controlled by a router, has achieved great success in deep learning. However, the understanding of such architecture remains elusive. In this paper, we formally study how the MoE layer improves the performance of neural network learning and why the mixture model will not collapse into a single model. Our empirical results suggest that the cluster structure of the underlying problem and the non-linearity of the expert are pivotal to the success of MoE. To further understand this, we consider a challenging classification problem with intrinsic cluster structures, which is hard to learn using a single expert. Yet with the MoE layer, by choosing the experts as two-layer nonlinear convolutional neural networks (CNNs), we show that the problem can be learned successfully. Furthermore, our theory shows that the router can learn the cluster-center features, which helps divide the input complex problem into simpler linear classification sub-problems that individual experts can conquer. To our knowledge, this is the first result towards formally understanding the mechanism of the MoE layer for deep learning.
翻訳日:2022-08-05 12:06:07 公開日:2022-08-04
# 敵対的事例の新たな種類

A New Kind of Adversarial Example ( http://arxiv.org/abs/2208.02430v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) ほぼ全ての敵攻撃は、モデルを騙すためにイメージに知覚できない摂動を加えるように定式化される。 ここでは、人間を騙すことができるがモデルではない逆の例を考察する。 モデルが元の決定を維持するように、十分に大きく知覚可能な摂動が画像に追加される一方、人間は決定を強制(または全く決定しない)した場合、間違いを犯す可能性が高い。 既存の攻撃は、このような敵の例を合成するために再構成することができる。 提案した攻撃はNKEと呼ばれ、本質的にはばかげた画像に似ているが、進化アルゴリズムの代わりに勾配降下を用いるため、より効率的である。 また、敵の脆弱性に関する新たな統一された視点も提供する。 MNISTとCIFAR-10データセットに対する実験結果から、我々の攻撃はディープニューラルネットワークを騙すのに非常に効果的であることが示された。 コードはhttps://github.com/aliborji/nkeで入手できる。

Almost all adversarial attacks are formulated to add an imperceptible perturbation to an image in order to fool a model. Here, we consider the opposite which is adversarial examples that can fool a human but not a model. A large enough and perceptible perturbation is added to an image such that a model maintains its original decision, whereas a human will most likely make a mistake if forced to decide (or opt not to decide at all). Existing targeted attacks can be reformulated to synthesize such adversarial examples. Our proposed attack, dubbed NKE, is similar in essence to the fooling images, but is more efficient since it uses gradient descent instead of evolutionary algorithms. It also offers a new and unified perspective into the problem of adversarial vulnerability. Experimental results over MNIST and CIFAR-10 datasets show that our attack is quite efficient in fooling deep neural networks. Code is available at https://github.com/aliborji/NKE.
翻訳日:2022-08-05 12:05:31 公開日:2022-08-04
# p2p:ポイントツーピクセルプロンプトによるポイントクラウド解析のための事前学習画像モデルのチューニング

P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting ( http://arxiv.org/abs/2208.02812v1 )

ライセンス: Link先を確認
Ziyi Wang, Xumin Yu, Yongming Rao, Jie Zhou, Jiwen Lu(参考訳) 近年,大規模データセット上での大規模モデルの事前トレーニングは,ディープラーニングにおいて重要なトピックとなっている。 表現能力と伝達性が高い事前学習モデルは非常に成功し、自然言語処理や2次元視覚において多くの下流タスクを支配している。 しかし、比較的収集に不便な限られたトレーニングデータを考えると、このような事前学習のパラダイムを3dビジョンに広めることは自明ではない。 本稿では,事前学習された3d領域の2d知識を活用してこの問題に対処し,事前学習された画像モデルに,小額なパラメータコストでポイント・クラウド解析を促す新しいポイント・ツー・ピクセル・プロンプトをチューニングする新しい視点を提案する。 ポイントクラウド分析タスクのエンドツーエンド最適化中に重みが凍結された事前学習された画像モデルに適応するために,ポイントクラウドを幾何保存投影と幾何認識カラー化でカラフルな画像に変換する。 提案するポイント・ツー・ピクセルプロンプトと協調して、事前学習された画像モデルが一貫して3dビジョンのパフォーマンスを向上させることを示すために、広範な実験を行いました。 ScanObjectNNの最も難しい設定では,画像事前学習の分野での発達を楽しみ,89.3%の精度を達成し,トレーニング可能なパラメータがはるかに少ない従来の点雲モデルを上回った。 また、ModelNet分類とShapeNet Part Segmentationで非常に競争力のある性能を示す。 コードはhttps://github.com/wangzy22/P2Pで入手できる。

Nowadays, pre-training big models on large-scale datasets has become a crucial topic in deep learning. The pre-trained models with high representation ability and transferability achieve a great success and dominate many downstream tasks in natural language processing and 2D vision. However, it is non-trivial to promote such a pretraining-tuning paradigm to the 3D vision, given the limited training data that are relatively inconvenient to collect. In this paper, we provide a new perspective of leveraging pre-trained 2D knowledge in 3D domain to tackle this problem, tuning pre-trained image models with the novel Point-to-Pixel prompting for point cloud analysis at a minor parameter cost. Following the principle of prompting engineering, we transform point clouds into colorful images with geometry-preserved projection and geometry-aware coloring to adapt to pre-trained image models, whose weights are kept frozen during the end-to-end optimization of point cloud analysis tasks. We conduct extensive experiments to demonstrate that cooperating with our proposed Point-to-Pixel Prompting, better pre-trained image model will lead to consistently better performance in 3D vision. Enjoying prosperous development from image pre-training field, our method attains 89.3% accuracy on the hardest setting of ScanObjectNN, surpassing conventional point cloud models with much fewer trainable parameters. Our framework also exhibits very competitive performance on ModelNet classification and ShapeNet Part Segmentation. Code is available at https://github.com/wangzy22/P2P
翻訳日:2022-08-05 12:05:15 公開日:2022-08-04
# 進化的バッジアンサンブル学習

Evolutionary bagged ensemble learning ( http://arxiv.org/abs/2208.02400v1 )

ライセンス: Link先を確認
Giang Ngo, Rodney Beard, Rohitash Chandra(参考訳) アンサンブル学習は機械学習で成功し、他の学習方法よりも大きな利点がある。 バッグング(bagging)は、決定木のような個々の機械学習方法によって訓練される、袋と呼ばれるデータのサブグループを作成する、著名なアンサンブル学習方法である。 ランダムフォレスト(random forest)は、学習プロセスに追加機能を備えた袋詰めの顕著な例である。 テキストカラー{black}{A の制限は、個々の学習者が高いバイアスを持つ場合の集約予測において高いバイアス(モデルアンダーフィット)である。 進化的アルゴリズムは最適化問題で顕著であり、機械学習にも使われている。 進化的アルゴリズムは、新しい解を作成するために多様性を維持する候補解の集団を持つ勾配のない方法である。 従来のバッジアンサンブル学習では、バッグは一度作成され、トレーニング例の観点からは、学習プロセス上でコンテンツが固定される。 本稿では,進化的アンサンブル学習を提案し,進化的アルゴリズムを用いてバッグの内容を進化させ,バッグの多様性を反復的に提供することによってアンサンブルの強化を図る。 その結果,本手法は,いくつかのベンチマークデータセットにおいて,一定の制約下で従来のアンサンブル手法(バッキングとランダムフォレスト)よりも優れていることがわかった。 進化的袋は、本質的にデータを犠牲にすることなく、多様な袋のセットを維持できる。

Ensemble learning has gained success in machine learning with major advantages over other learning methods. Bagging is a prominent ensemble learning method that creates subgroups of data, known as bags, that are trained by individual machine learning methods such as decision trees. Random forest is a prominent example of bagging with additional features in the learning process. \textcolor{black}{A limitation of bagging is high bias (model under-fitting) in the aggregated prediction when the individual learners have high biases.} Evolutionary algorithms have been prominent for optimisation problems and also been used for machine learning. Evolutionary algorithms are gradient-free methods with a population of candidate solutions that maintain diversity for creating new solutions. In conventional bagged ensemble learning, the bags are created once and the content, in terms of the training examples, is fixed over the learning process. In our paper, we propose evolutionary bagged ensemble learning, where we utilise evolutionary algorithms to evolve the content of the bags in order to enhance the ensemble by providing diversity in the bags iteratively. The results show that our evolutionary ensemble bagging method outperforms conventional ensemble methods (bagging and random forests) for several benchmark datasets under certain constraints. Evolutionary bagging can inherently sustain a diverse set of bags without sacrificing any data.
翻訳日:2022-08-05 12:04:47 公開日:2022-08-04
# 一般化 Momentum-Incorporated Particle Swarm Optimization による適応潜在因子解析

Adaptive Latent Factor Analysis via Generalized Momentum-Incorporated Particle Swarm Optimization ( http://arxiv.org/abs/2208.02423v1 )

ライセンス: Link先を確認
Jiufang Chen, Ye Yuan(参考訳) 確率勾配降下(SGD)アルゴリズムは,高次元および不完全行列上に潜在因子分析(LFA)モデルを構築するための効果的な学習戦略である。 粒子群最適化(PSO)アルゴリズムは、SGDベースのLFAモデルのハイパーパラメータ(学習率と正規化係数、自己適応)を作成するために一般的に用いられる。 しかし、標準のpsoアルゴリズムは、早期収束によって精度が低下することがある。 そこで本稿では,gm法(generalized-momentum method)の原理に従い,各粒子の進化過程により多くの歴史的情報を組み込んで,新しいgm-incorporated pso (gm-pso) を革新的に達成する。 これにより、GM-PSOに基づくLFA(GMPL)モデルがさらに達成され、ハイパーパラメータの効率的な自己適応が実現される。 3つのHDI行列に対する実験結果から, GMPLモデルにより, 産業アプリケーションにおけるデータ推定の精度が向上することが示された。

Stochastic gradient descent (SGD) algorithm is an effective learning strategy to build a latent factor analysis (LFA) model on a high-dimensional and incomplete (HDI) matrix. A particle swarm optimization (PSO) algorithm is commonly adopted to make an SGD-based LFA model's hyper-parameters, i.e, learning rate and regularization coefficient, self-adaptation. However, a standard PSO algorithm may suffer from accuracy loss caused by premature convergence. To address this issue, this paper incorporates more historical information into each particle's evolutionary process for avoiding premature convergence following the principle of a generalized-momentum (GM) method, thereby innovatively achieving a novel GM-incorporated PSO (GM-PSO). With it, a GM-PSO-based LFA (GMPL) model is further achieved to implement efficient self-adaptation of hyper-parameters. The experimental results on three HDI matrices demonstrate that the GMPL model achieves a higher prediction accuracy for missing data estimation in industrial applications.
翻訳日:2022-08-05 12:04:00 公開日:2022-08-04
# 人工ニューラルネットワーク生成のためのモジュラー文法進化

Modular Grammatical Evolution for the Generation of Artificial Neural Networks ( http://arxiv.org/abs/2208.02787v1 )

ライセンス: Link先を確認
Khabat Soltanian, Ali Ebnenasir, and Mohsen Afsharchi(参考訳) 本稿では,ニューロエボリューションの解空間をモジュラーかつ単純なニューラルネットワークに制限することで,より小さく,より構造化されたニューラルネットワークを効率的に生成できるという仮説を検証するため,MGE(Modular Grammatical Evolution)と呼ばれる新しい手法を提案する。 MGEはまた、最先端の文法進化法(GE)を2方向に拡張している。 まず、MGEの表現は、各個体が一組の遺伝子を持ち、各遺伝子は文法的な規則によってニューロンにマッピングされる。 第二に、提案した表現はGEの2つの重要な欠点、すなわち低スケーラビリティと低局所性を緩和し、多数のニューロンを持つモジュラーおよび多層ネットワークを生成する。 MGEを用いて,モジュール性のない5種類の構造を定義・評価し,結合性のない単一層モジュールをより生産的に発見する。 私たちの実験では、モジュール性がニューラルネットワークをより早く発見するのに役立ちます。 提案手法は,サイズ,特徴数,出力クラス数が異なる10の既知の分類ベンチマークを用いて検証した。 実験の結果,mgeは既存の神経進化法に対して優れた精度を示し,他の機械学習生成分類器よりもはるかに単純な分類器を返すことができた。 最後に,MGEが他のGE法よりも局所性と拡張性に優れることを示す。

This paper presents a novel method, called Modular Grammatical Evolution (MGE), towards validating the hypothesis that restricting the solution space of NeuroEvolution to modular and simple neural networks enables the efficient generation of smaller and more structured neural networks while providing acceptable (and in some cases superior) accuracy on large data sets. MGE also enhances the state-of-the-art Grammatical Evolution (GE) methods in two directions. First, MGE's representation is modular in that each individual has a set of genes, and each gene is mapped to a neuron by grammatical rules. Second, the proposed representation mitigates two important drawbacks of GE, namely the low scalability and weak locality of representation, towards generating modular and multi-layer networks with a high number of neurons. We define and evaluate five different forms of structures with and without modularity using MGE and find single-layer modules with no coupling more productive. Our experiments demonstrate that modularity helps in finding better neural networks faster. We have validated the proposed method using ten well-known classification benchmarks with different sizes, feature counts, and output class count. Our experimental results indicate that MGE provides superior accuracy with respect to existing NeuroEvolution methods and returns classifiers that are significantly simpler than other machine learning generated classifiers. Finally, we empirically demonstrate that MGE outperforms other GE methods in terms of locality and scalability properties.
翻訳日:2022-08-05 12:03:41 公開日:2022-08-04
# decay2distill: 自己教師付き画像デノイジングのための空間摂動と正規化の活用

Decay2Distill: Leveraging spatial perturbation and regularization for self-supervised image denoising ( http://arxiv.org/abs/2208.01948v2 )

ライセンス: Link先を確認
Manisha Das Chaity, Masud An Nur Islam Fahim(参考訳) 未確認画像のデノベーションは、ここ数年で有望な発展を遂げた。 性能に関わらず、メソッドは基礎となるノイズ特性や、必ずしも実用的ではない仮定に大きく依存する傾向にある。 あるいは、ノイズの統計ではなく、構造的な観点から問題を基礎づけることができれば、よりロバストなソリューションが実現できます。 そこで,このようなモチベーションを生かして,空間的劣化と定式化をともなう自己教師付き弁別スキームを提案する。 提案手法は,従来手法に比べて大幅に改善し,異なるデータ領域に対して一貫した性能を示した。

Unpaired image denoising has achieved promising development over the last few years. Regardless of the performance, methods tend to heavily rely on underlying noise properties or any assumption which is not always practical. Alternatively, if we can ground the problem from a structural perspective rather than noise statistics, we can achieve a more robust solution. with such motivation, we propose a self-supervised denoising scheme that is unpaired and relies on spatial degradation followed by a regularized refinement. Our method shows considerable improvement over previous methods and exhibited consistent performance over different data domains.
翻訳日:2022-08-05 10:29:15 公開日:2022-08-04
# Viskositas: 多成分化学系の粘度予測

Viskositas: Viscosity Prediction of Multicomponent Chemical Systems ( http://arxiv.org/abs/2208.01440v3 )

ライセンス: Link先を確認
Patrick dos Anjos(参考訳) 金属・ガラス産業における粘度は、その生産過程、また地球物理学の分野でも基本的な役割を担っている。 実験的な測定は経済的に高価であり、時間的にもいくつかの数学的モデルが構築され、線形モデルや非線形モデルにおいて、化学組成や温度といった様々な変数の関数として粘度が得られた。 ハイパーパラメータの変動によるニューラルネットワークによる非線形モデルの生成と,化学系や温度に対する粘性予測の信頼性の向上を目的としてデータベースを構築した。 viskositasと名づけられたモデルは、文献や1つの商用モデルと異なるモデルと比較して、テストデータベースに関する平均絶対誤差、標準偏差、決定係数の統計学的評価が向上し、エラーの少ない予測、ばらつきの少ない予測、異常の発生の少ない結果が得られた。

Viscosity in the metallurgical and glass industry plays a fundamental role in its production processes, also in the area of geophysics. As its experimental measurement is financially expensive, also in terms of time, several mathematical models were built to provide viscosity results as a function of several variables, such as chemical composition and temperature, in linear and nonlinear models. A database was built in order to produce a nonlinear model by artificial neural networks by variation of hyperparameters to provide reliable predictions of viscosity in relation to chemical systems and temperatures. The model produced named Viskositas demonstrated better statistical evaluations of mean absolute error, standard deviation and coefficient of determination in relation to the test database when compared to different models from literature and 1 commercial model, offering predictions with lower errors, less variability and less generation of outliers.
翻訳日:2022-08-05 10:29:05 公開日:2022-08-04
# 情緒障害という顔

The Face of Affective Disorders ( http://arxiv.org/abs/2208.01369v2 )

ライセンス: Link先を確認
Christian S. Pilz, Benjamin Clemens, Inka C. Hiss, Christoph Weiss, Ulrich Canzler, Jarek Krajewski, Ute Habel, Steffen Leonhardt(参考訳) 臨床領域における脳刺激の調節によって変化する顔面行動の統計的特性について検討した。 根底にあるメカニズムは、ある心の状態に対する行動の代理的測定としての警戒連続体の経験的解釈と結びついている。 提案手法は,現代のカメラを用いたリアルタイム信号処理とコンピュータビジョンのみに依拠する,古典的頭皮ベースオブトラシブセンサ(oeg)を用いたオプト・エレクトロニック・エンブレオグラフィー(oeg)の意味での計測手法である。 顔面動態のコヒーレンスとしての確率的表現に基づいて、感情表現のヘミフェイス非対称性を反映し、精神疾患のうつ病と統合失調症と症状の重症度と、患者と健康管理のほぼ不完全な区別を示す。 時間消費で主観的であり、リアルタイム顔のダイナミクスのような神経生物学的データを組み込んでいない標準的な診断プロセスとは対照的に、感情的応答性の客観的な確率的モデリングは、ビデオベースの顔記録をほんの数分しか必要としない。 また, 経診断的分析における因果推論モデルとしての方法論の可能性を強調し, 薬理学的治療の結果を予測する。 すべての結果は100人の患者と50人のコントロールを備えた臨床縦断データ収集で得られる。

We study the statistical properties of facial behaviour altered by the regulation of brain arousal in the clinical domain of psychiatry. The underlying mechanism is linked to the empirical interpretation of the vigilance continuum as behavioral surrogate measurement for certain states of mind. We name the presented measurement in the sense of the classical scalp based obtrusive sensors Opto Electronic Encephalography (OEG) which relies solely on modern camera based real-time signal processing and computer vision. Based upon a stochastic representation as coherence of the face dynamics, reflecting the hemifacial asymmetry in emotion expressions, we demonstrate an almost flawless distinction between patients and healthy controls as well as between the mental disorders depression and schizophrenia and the symptom severity. In contrast to the standard diagnostic process, which is time-consuming, subjective and does not incorporate neurobiological data such as real-time face dynamics, the objective stochastic modeling of the affective responsiveness only requires a few minutes of video-based facial recordings. We also highlight the potential of the methodology as a causal inference model in transdiagnostic analysis to predict the outcome of pharmacological treatment. All results are obtained on a clinical longitudinal data collection with an amount of 100 patients and 50 controls.
翻訳日:2022-08-05 10:28:47 公開日:2022-08-04
# 敵の強靭性に関する現在の研究は正しい問題に対処しているか?

Is current research on adversarial robustness addressing the right problem? ( http://arxiv.org/abs/2208.00539v2 )

ライセンス: Link先を確認
Ali Borji(参考訳) 短い答え: はい、長い答え: いいえ! 実際、敵対的堅牢性の研究は、問題のさまざまな側面を理解し、探求するのに役立つ貴重な洞察をもたらしました。 ここ数年、多くの攻撃や防衛策が提案されている。 しかし、問題は未解決であり、よく理解されていない。 ここで、この問題の現在の定式化は短期的な目標に役立ち、より大きな利益を達成するためには修正する必要があると論じます。 具体的には、摂動の束縛はやや複雑な設定を生み出し、緩和する必要がある。 これは、最初から表現力のないモデルクラスにフォーカスすることを誤解させました。 代わりに、人間のビジョンや、形状、頂点、前景といった堅牢な特徴よりも、テクスチャのような非ロバストな特徴に依存するという事実にインスパイアされた努力は、かなり異なるモデルのクラスを探すことに向けられなければならない。 恐らくは、知覚できない逆の摂動を狭める代わりに、知覚できる摂動、幾何学的変換(回転、スケーリング)、画像の歪み(光、ぼやけなど)、その他(オクルージョン、影など)に同時に堅牢なアーキテクチャを見つけるという、より一般的な問題に取り組むべきである。 それだけで、敵の脆弱性の問題を解決できるかもしれません。

Short answer: Yes, Long answer: No! Indeed, research on adversarial robustness has led to invaluable insights helping us understand and explore different aspects of the problem. Many attacks and defenses have been proposed over the last couple of years. The problem, however, remains largely unsolved and poorly understood. Here, I argue that the current formulation of the problem serves short term goals, and needs to be revised for us to achieve bigger gains. Specifically, the bound on perturbation has created a somewhat contrived setting and needs to be relaxed. This has misled us to focus on model classes that are not expressive enough to begin with. Instead, inspired by human vision and the fact that we rely more on robust features such as shape, vertices, and foreground objects than non-robust features such as texture, efforts should be steered towards looking for significantly different classes of models. Maybe instead of narrowing down on imperceptible adversarial perturbations, we should attack a more general problem which is finding architectures that are simultaneously robust to perceptible perturbations, geometric transformations (e.g. rotation, scaling), image distortions (lighting, blur), and more (e.g. occlusion, shadow). Only then we may be able to solve the problem of adversarial vulnerability.
翻訳日:2022-08-05 10:27:54 公開日:2022-08-04
# Effidit: あなたのAI記述アシスタント

Effidit: Your AI Writing Assistant ( http://arxiv.org/abs/2208.01815v2 )

ライセンス: Link先を確認
Shuming Shi, Enbo Zhao, Duyu Tang, Yan Wang, Piji Li, Wei Bi, Haiyun Jiang, Guoping Huang, Leyang Cui, Xinting Huang, Cong Zhou, Yong Dai, Dongyang Ma(参考訳) 本稿では,人工知能(AI)技術を用いて,高品質なテキストをより効率的に書けるようにするためのデジタルライティングアシスタントであるEffidit (Efficient and Intelligent Editing)を紹介する。 従来の筆記アシスタントは、エラーチェック(綴りと文法上の誤りの検出と訂正)やテキスト書き換えの機能に制限がある。 大規模ニューラルネットワークモデルが出現すると、一部のシステムは文や段落を自動的に補完する。 Effiditでは,テキスト補完,エラーチェック,テキスト研磨,キーワード・トゥ・センテンス(K2S),クラウド・インプット・メソッド(クラウドIME)の5つのカテゴリで機能を提供することで,文章アシスタントの能力を大幅に拡張する。 テキスト補完カテゴリでは、Effiditは生成ベースの文補完、検索ベースの文補完、フレーズ補完をサポートする。 対照的に、他の多くの筆記アシスタントは、3つの関数のうち1つまたは2つしか提供していない。 テキストの研磨には3つの機能がある: (context-aware) phrase polishing, sentence paraphrasing, sentence expansion, その他多くの筆記アシスタントは、このカテゴリの1つまたは2つの機能をサポートしている。 本報告の主な内容は,effiditの主要モジュール,これらのモジュールの実装方法,いくつかの主要なメソッドの評価結果などである。

In this technical report, we introduce Effidit (Efficient and Intelligent Editing), a digital writing assistant that facilitates users to write higher-quality text more efficiently by using artificial intelligence (AI) technologies. Previous writing assistants typically provide the function of error checking (to detect and correct spelling and grammatical errors) and limited text-rewriting functionality. With the emergence of large-scale neural language models, some systems support automatically completing a sentence or a paragraph. In Effidit, we significantly expand the capacities of a writing assistant by providing functions in five categories: text completion, error checking, text polishing, keywords to sentences (K2S), and cloud input methods (cloud IME). In the text completion category, Effidit supports generation-based sentence completion, retrieval-based sentence completion, and phrase completion. In contrast, many other writing assistants so far only provide one or two of the three functions. For text polishing, we have three functions: (context-aware) phrase polishing, sentence paraphrasing, and sentence expansion, whereas many other writing assistants often support one or two functions in this category. The main contents of this report include major modules of Effidit, methods for implementing these modules, and evaluation results of some key methods.
翻訳日:2022-08-05 10:26:47 公開日:2022-08-04
# オムニシティ:多視点・多視点画像を用いた全能都市理解

OmniCity: Omnipotent City Understanding with Multi-level and Multi-view Images ( http://arxiv.org/abs/2208.00928v2 )

ライセンス: Link先を確認
Weijia Li, Yawen Lai, Linning Xu, Yuanbo Xiangli, Jinhua Yu, Conghui He, Gui-Song Xia, Dahua Lin(参考訳) 本稿では,マルチレベル・マルチビュー画像から全能都市理解のための新しいデータセットであるOmniCityを提案する。 より正確には、omnicityには、複数のビューの衛星画像と、街並みのパノラマやモノビュー画像が含まれており、ニューヨーク市の25kの位置情報から適切に整列され、収集された10万画素の注釈付き画像で構成されている。 そこで我々は,衛星画像の既存のラベルマップと異なる視点(衛星,パノラマ,モノビュー)間の変換関係を利用する効率的なストリートビュー画像アノテーションパイプラインを提案する。 新たなOmniCityデータセットでは,フットプリント抽出や高さ推定,平面/インスタンス/きめ細かなセグメンテーションなど,さまざまなタスクのベンチマークが提供されている。 既存のマルチレベルおよびマルチビューベンチマークと比較すると、omnicityはよりリッチなアノテーションタイプとより多くのビューを持つイメージを多く含み、最先端のモデルのベンチマーク結果を提供し、ストリートレベルのパノラマイメージできめ細かいビルインスタンスのセグメンテーションを行うための新しいタスクを導入している。 さらに、OmniCityは、クロスビュー画像マッチング、合成、セグメンテーション、検出などの既存のタスクに新たな問題設定を提供し、大規模都市理解、再構築、シミュレーションのための新しい手法の開発を容易にする。 omnicityデータセットとベンチマークは、https://city-super.github.io/omnicityで入手できる。

This paper presents OmniCity, a new dataset for omnipotent city understanding from multi-level and multi-view images. More precisely, the OmniCity contains multi-view satellite images as well as street-level panorama and mono-view images, constituting over 100K pixel-wise annotated images that are well-aligned and collected from 25K geo-locations in New York City. To alleviate the substantial pixel-wise annotation efforts, we propose an efficient street-view image annotation pipeline that leverages the existing label maps of satellite view and the transformation relations between different views (satellite, panorama, and mono-view). With the new OmniCity dataset, we provide benchmarks for a variety of tasks including building footprint extraction, height estimation, and building plane/instance/fine-grained segmentation. Compared with the existing multi-level and multi-view benchmarks, OmniCity contains a larger number of images with richer annotation types and more views, provides more benchmark results of state-of-the-art models, and introduces a novel task for fine-grained building instance segmentation on street-level panorama images. Moreover, OmniCity provides new problem settings for existing tasks, such as cross-view image matching, synthesis, segmentation, detection, etc., and facilitates the developing of new methods for large-scale city understanding, reconstruction, and simulation. The OmniCity dataset as well as the benchmarks will be available at https://city-super.github.io/omnicity.
翻訳日:2022-08-05 10:26:21 公開日:2022-08-04
# YOLO-FaceV2: スケールとオクルージョンを意識した顔検出装置

YOLO-FaceV2: A Scale and Occlusion Aware Face Detector ( http://arxiv.org/abs/2208.02019v2 )

ライセンス: Link先を確認
Ziping Yu, Hongbo Huang, Weijun Chen, Yongxin Su, Yahui Liu, Xiuying Wang(参考訳) 近年,ディープラーニングに基づく顔検出アルゴリズムが大きな進歩を遂げている。 これらのアルゴリズムは一般的に、Faster R-CNNのような2段階検出器とYOLOのような1段階検出器という2つのカテゴリに分けられる。 精度と速度のバランスが良いため、1段検出器は多くの用途で広く使われている。 本稿では, YOLO-FaceV2 という一段検出器 YOLOv5 を用いたリアルタイム顔検出器を提案する。 我々は,小顔の受容野を強化するためにrfeと呼ばれる受容野強化モジュールを設計し,nwd損失を用いて小物体の位置偏差に対するiouの感度を補う。 顔閉塞にはSEAMというアテンションモジュールを導入し,それを解決するためにRepulsion Lossを導入する。 さらに, 重み関数スライドを用いて, 簡単な試料と難しい試料間の不均衡を解消し, 効果的な受容場の情報を用いてアンカーの設計を行う。 WiderFaceデータセットの実験結果によると、顔検出器はYOLOよりも優れており、その変異は、簡単で中堅なサブセットすべてで見つけることができる。 https://github.com/Krasjet-Yu/YOLO-FaceV2のソースコード。

In recent years, face detection algorithms based on deep learning have made great progress. These algorithms can be generally divided into two categories, i.e. two-stage detector like Faster R-CNN and one-stage detector like YOLO. Because of the better balance between accuracy and speed, one-stage detectors have been widely used in many applications. In this paper, we propose a real-time face detector based on the one-stage detector YOLOv5, named YOLO-FaceV2. We design a Receptive Field Enhancement module called RFE to enhance receptive field of small face, and use NWD Loss to make up for the sensitivity of IoU to the location deviation of tiny objects. For face occlusion, we present an attention module named SEAM and introduce Repulsion Loss to solve it. Moreover, we use a weight function Slide to solve the imbalance between easy and hard samples and use the information of the effective receptive field to design the anchor. The experimental results on WiderFace dataset show that our face detector outperforms YOLO and its variants can be find in all easy, medium and hard subsets. Source code in https://github.com/Krasjet-Yu/YOLO-FaceV2
翻訳日:2022-08-05 10:25:53 公開日:2022-08-04
# sc6d:対称性非依存かつ対応のない6次元物体ポーズ推定

SC6D: Symmetry-agnostic and Correspondence-free 6D Object Pose Estimation ( http://arxiv.org/abs/2208.02129v2 )

ライセンス: Link先を確認
Dingding Cai, Janne Heikkil\"a, Esa Rahtu(参考訳) 本稿では,単一の単眼rgb画像から6次元物体ポーズ推定を行うための,効率的な対称性非依存かつ対応のないフレームワークsc6dを提案する。 SC6Dは、オブジェクトの3DCADモデルも、対称性の事前の知識も必要としない。 ポーズ推定は3つのサブタスクに分解される。 a) 物体の3次元回転表現の学習及びマッチング b) 対象センターの2次元位置の推定 c) 分類によるスケール不変距離推定(z軸に沿った翻訳) SC6Dは、T-LESS、YCB-V、ITODDの3つのベンチマークデータセットで評価され、T-LESSデータセット上での最先端のパフォーマンスをもたらす。 さらに、SC6Dは従来の最先端のSurfEmbよりも計算効率が高い。 実装と事前訓練されたモデルはhttps://github.com/dingcai/SC6D-poseで公開されている。

This paper presents an efficient symmetry-agnostic and correspondence-free framework, referred to as SC6D, for 6D object pose estimation from a single monocular RGB image. SC6D requires neither the 3D CAD model of the object nor any prior knowledge of the symmetries. The pose estimation is decomposed into three sub-tasks: a) object 3D rotation representation learning and matching; b) estimation of the 2D location of the object center; and c) scale-invariant distance estimation (the translation along the z-axis) via classification. SC6D is evaluated on three benchmark datasets, T-LESS, YCB-V, and ITODD, and results in state-of-the-art performance on the T-LESS dataset. Moreover, SC6D is computationally much more efficient than the previous state-of-the-art method SurfEmb. The implementation and pre-trained models are publicly available at https://github.com/dingdingcai/SC6D-pose.
翻訳日:2022-08-05 10:25:32 公開日:2022-08-04
# gppf:sparsely activated multi-task learningによる一般知覚事前学習フレームワーク

GPPF: A General Perception Pre-training Framework via Sparsely Activated Multi-Task Learning ( http://arxiv.org/abs/2208.02148v2 )

ライセンス: Link先を確認
Benyuan Sun, Jin Dai, Zihao Liang, Congying Liu, Yi Yang, Bo Bai(参考訳) 混合マルチタスク、マルチドメイン、マルチモーダルデータに対する事前学習は、視知覚事前学習においてオープンな課題である。 本稿では,マルチタスクとマルチドメインのラベル付きデータセット上で,各レイヤの知識"レゴス"によって構成されるタスクレベルの動的ネットワークを事前学習する,一般的な知覚事前学習フレームワークgppfを提案する。 複雑な環境下での学習能力を調べることによって,1) 各バッチにおける多様なクロスタスクとクロスドメイン情報への同時露出という,3つの重要な要素を深層ネットワークに認識し,伝達する。 2)知識共有による個別のレゴ単位における知識記憶の分割。 3) 事前トレーニングとダウンストリームタスクの両方において,legoユニットのサブセットのスパースアクティベーション。 注目すべきは、異なる視覚タスクの合同トレーニングは、入力形状、損失関数、出力フォーマット、データ分布などの違いのため、非自明である。 そこで我々は,Single Iteration Multiple Tasks (SIMT) の同時学習を支援する,プラグアンドプレイマルチタスク学習アルゴリズムを革新的に開発する。 SIMTは、大規模マルチタスクマルチドメインデータセットによる事前トレーニングの基礎を築き、GPPF実験における安定したトレーニングに不可欠であることが証明された。 その結果, GPPF-R50モデルでは, GPPF-15Mにおける8つの事前学習タスクの強いベースラインに対して2.5-5.8の大幅な改善が達成され, 同様の計算予算を持つ22の下流タスクに対して, 様々なSOTAを抽出できることがわかった。 また,一貫した改良を施したSOTAビジョントランスへのGPPFの一般化能力についても検証した。 これらの確固たる実験結果は,gppfフレームワークによって提供される効果的な知識学習,記憶,共有,伝達を完全に証明した。

Pre-training over mixtured multi-task, multi-domain, and multi-modal data remains an open challenge in vision perception pre-training. In this paper, we propose GPPF, a General Perception Pre-training Framework, that pre-trains a task-level dynamic network, which is composed by knowledge "legos" in each layers, on labeled multi-task and multi-domain datasets. By inspecting humans' innate ability to learn in complex environment, we recognize and transfer three critical elements to deep networks: (1) simultaneous exposure to diverse cross-task and cross-domain information in each batch. (2) partitioned knowledge storage in separate lego units driven by knowledge sharing. (3) sparse activation of a subset of lego units for both pre-training and downstream tasks. Noteworthy, the joint training of disparate vision tasks is non-trivial due to their differences in input shapes, loss functions, output formats, data distributions, etc. Therefore, we innovatively develop a plug-and-play multi-task training algorithm, which supports Single Iteration Multiple Tasks (SIMT) concurrently training. SIMT lays the foundation of pre-training with large-scale multi-task multi-domain datasets and is proved essential for stable training in our GPPF experiments. Excitingly, the exhaustive experiments show that, our GPPF-R50 model achieves significant improvements of 2.5-5.8 over a strong baseline of the 8 pre-training tasks in GPPF-15M and harvests a range of SOTAs over the 22 downstream tasks with similar computation budgets. We also validate the generalization ability of GPPF to SOTA vision transformers with consistent improvements. These solid experimental results fully prove the effective knowledge learning, storing, sharing, and transfer provided by our novel GPPF framework.
翻訳日:2022-08-05 10:25:16 公開日:2022-08-04
# CircuitNet: 電子設計自動化(EDA)における機械学習アプリケーションのためのオープンソースデータセット

CircuitNet: An Open-Source Dataset for Machine Learning Applications in Electronic Design Automation (EDA) ( http://arxiv.org/abs/2208.01040v2 )

ライセンス: Link先を確認
Zhuomin Chai, Yuxiang Zhao, Yibo Lin, Wei Liu, Runsheng Wang, Ru Huang(参考訳) 電子設計自動化(EDA)コミュニティは、大規模統合コンピュータ支援設計(VLSI CAD)のための機械学習を積極的に研究している。 多くの研究は、より高速な設計収束を実現するために、設計フローにおけるクロスステージ予測タスクの学習に基づく技術について研究してきた。 機械学習(ml)モデルの構築は通常、大量のデータを必要とするが、ほとんどの研究は、大きな公開データセットがないため、検証のために小さな内部データセットしか生成できない。 本稿では,VLSI CADにおける機械学習タスクのためのオープンソースデータセットCircuitNetについて述べる。 データセットは、6つのオープンソースrisc-v設計に基づく商用デザインツールの万能な実行から抽出された10万以上のサンプルで構成されている。

The electronic design automation (EDA) community has been actively exploring machine learning for very-large-scale-integrated computer aided design (VLSI CAD). Many studies have explored learning based techniques for cross-stage prediction tasks in the design flow to achieve faster design convergence. Although building machine learning (ML) models usually requires a large amount of data, most studies can only generate small internal datasets for validation due to the lack of large public datasets. In this essay, we present the first open-source dataset for machine learning tasks in VLSI CAD called CircuitNet. The dataset consists of more than 10K samples extracted from versatile runs of commercial design tools based on 6 open-source RISC-V designs.
翻訳日:2022-08-05 10:24:43 公開日:2022-08-04
# 生成的神経側頭点過程の探索

Exploring Generative Neural Temporal Point Process ( http://arxiv.org/abs/2208.01874v2 )

ライセンス: Link先を確認
Haitao Lin, Lirong Wu, Guojiang Zhao, Pai Liu, Stan Z. Li(参考訳) 時間的ポイントプロセス(tpp)は、発生時のタイムスタンプを特徴とする非同期イベントシーケンスのモデル化に一般的に用いられ、歴史的な影響を前提とした確率モデルによって明らかにされる。 確率を最大化することで、tppモデルの「適合性の良さ」に多くの先行研究が注力してきたが、予測性能は不十分であり、つまりモデルによって生成されたタイムスタンプは真の観察から遠く離れている。 近年,ノイズ拡散やスコアマッチングなどの深部生成モデルは,高品質なサンプル生成能力を示すことにより,画像生成タスクにおいて大きな進歩を遂げている。 しかし、TPPの事象発生モデリングの文脈における生成モデルの可能性を探究し研究する完全で統一的な研究は存在しない。 本研究では,その実現可能性と有効性を探究し,モデルの予測性能をさらに向上させるための統合型フレームワークである \textbf{n}eural \textbf{t}emporal \textbf{p}oint \textbf{p}rocess (\textsc{gntpp}) を設計し,そのギャップを埋めようとしている。 また、歴史的影響を計測する上で、事象の型関係と時間間隔を考慮した適応的再重み付け項による歴史的事象の影響を要約した注意モデルを再検討する。 生成確率デコーダのラインによる \textsc{GNTPP} の予測能力の向上と, 改良された注目による性能向上について, 広範囲にわたる実験を行った。 我々の知る限りでは、これは生成モデルを完全に統一したフレームワークに適応し、TPPの文脈でそれらの有効性を研究する最初の研究である。 セクション5.1.1で与えられるすべてのメソッドを含む私たちのコードベースは、 \url{https://github.com/BIRD-TAO/GNTPP}で開きます。 コードフレームワークがNeural TPPの今後の研究を促進することを願っています。

Temporal point process (TPP) is commonly used to model the asynchronous event sequence featuring occurrence timestamps and revealed by probabilistic models conditioned on historical impacts. While lots of previous works have focused on `goodness-of-fit' of TPP models by maximizing the likelihood, their predictive performance is unsatisfactory, which means the timestamps generated by models are far apart from true observations. Recently, deep generative models such as denoising diffusion and score matching models have achieved great progress in image generating tasks by demonstrating their capability of generating samples of high quality. However, there are no complete and unified works exploring and studying the potential of generative models in the context of event occurence modeling for TPP. In this work, we try to fill the gap by designing a unified \textbf{g}enerative framework for \textbf{n}eural \textbf{t}emporal \textbf{p}oint \textbf{p}rocess (\textsc{GNTPP}) model to explore their feasibility and effectiveness, and further improve models' predictive performance. Besides, in terms of measuring the historical impacts, we revise the attentive models which summarize influence from historical events with an adaptive reweighting term considering events' type relation and time intervals. Extensive experiments have been conducted to illustrate the improved predictive capability of \textsc{GNTPP} with a line of generative probabilistic decoders, and performance gain from the revised attention. To the best of our knowledge, this is the first work that adapts generative models in a complete unified framework and studies their effectiveness in the context of TPP. Our codebase including all the methods given in Section.5.1.1 is open in \url{https://github.com/BIRD-TAO/GNTPP}. We hope the code framework can facilitate future research in Neural TPPs.
翻訳日:2022-08-05 10:24:33 公開日:2022-08-04