このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220311となっている論文です。

PDF登録状況(公開日: 20220311)

TitleAuthorsAbstract論文公表日・翻訳日
# 教師なしスタイル伝達のための文脈的単語レベルスタイル関係の探索

Exploring Contextual Word-level Style Relevance for Unsupervised Style Transfer ( http://arxiv.org/abs/2005.02049v2 )

ライセンス: Link先を確認
Chulun Zhou, Liangyu Chen, Jiachen Liu, Xinyan Xiao, Jinsong Su, Sheng Guo, Hua Wu(参考訳) 教師なしスタイル転送は、並列トレーニングデータを用いることなく、元のコンテンツを保存しながら入力文のスタイルを変更することを目的としている。 現在の支配的なアプローチでは、ターゲットスタイルの影響に対するきめ細かい制御が欠如しているため、望ましい出力文を得ることができない。 本稿では,教師なしのスタイル転送において,各出力語とターゲットスタイルとの関連性を動的に活用する,新しいアテンショナルシーケンス・ツー・シーケンス(Seq2seq)モデルを提案する。 具体的には、まず、各入力単語の元のスタイルへの関連性を階層的関連伝播によって定量化できるスタイル分類器を事前学習する。 注意型seq2seqモデルを訓練し、入力文を再構成し、単語レベルの事前定量化スタイルを同時に再現する。 このようにして、このモデルは、各出力ワードのスタイル関連性を自動で予測する能力を備えている。 そこで我々は,このモデルのデコーダにニューラルスタイルコンポーネントを装備し,予測されたワードレベルスタイルの関連性を利用して,より優れたスタイル転送を行う。 特に, スタイル伝達, スタイル適合性一貫性, コンテンツ保存, フラレンシーモデリング損失項を含む, 注意深く設計された目的関数を用いて, このモデルを微調整する。 実験の結果,提案モデルは転送精度とコンテンツ保存の両面で最先端の性能を実現することがわかった。

Unsupervised style transfer aims to change the style of an input sentence while preserving its original content without using parallel training data. In current dominant approaches, owing to the lack of fine-grained control on the influence from the target style,they are unable to yield desirable output sentences. In this paper, we propose a novel attentional sequence-to-sequence (Seq2seq) model that dynamically exploits the relevance of each output word to the target style for unsupervised style transfer. Specifically, we first pretrain a style classifier, where the relevance of each input word to the original style can be quantified via layer-wise relevance propagation. In a denoising auto-encoding manner, we train an attentional Seq2seq model to reconstruct input sentences and repredict word-level previously-quantified style relevance simultaneously. In this way, this model is endowed with the ability to automatically predict the style relevance of each output word. Then, we equip the decoder of this model with a neural style component to exploit the predicted wordlevel style relevance for better style transfer. Particularly, we fine-tune this model using a carefully-designed objective function involving style transfer, style relevance consistency, content preservation and fluency modeling loss terms. Experimental results show that our proposed model achieves state-of-the-art performance in terms of both transfer accuracy and content preservation.
翻訳日:2022-12-06 13:12:49 公開日:2022-03-11
# 犯罪回避予測のための解釈可能・公正・高精度機械学習の追求

In Pursuit of Interpretable, Fair and Accurate Machine Learning for Criminal Recidivism Prediction ( http://arxiv.org/abs/2005.04176v3 )

ライセンス: Link先を確認
Caroline Wang, Bin Han, Bhrij Patel, Cynthia Rudin(参考訳) 目的:機械学習(ml)モデルを用いて解釈可能な回帰予測を研究し,予測能力,スパース性,公平性の観点から性能を分析する。 従来の研究とは異なり、この研究は二項予測よりも確率を出力する解釈可能なモデルを訓練し、定量的公正定義を用いてモデルを評価する。 本研究は, モデルが地理的な位置をまたいで一般化できるかどうかについても検討する。 方法: フロリダ州とケンタッキー州の2つの異なる犯罪リシディズムデータセット上で,ブラックボックスと解釈可能なMLモデルを作成した。 我々は、これらのモデルの予測性能と公正性を、アーノルドPSAとCompASという、現在司法制度で使われている2つの方法と比較した。 2回にわたって6種類の犯罪を予測し,全てのモデルの予測性能を評価した。 結果: いくつかの解釈可能なMLモデルは、ブラックボックスMLモデルと同様にリシディズムを予測でき、CompASやアーノルドPSAよりも正確である。 これらのモデルは実用上有用である。 アーノルドPSAと同様に、これらの解釈可能なモデルのいくつかは単純なテーブルとして記述することができる。 その他は視覚化を使って表示することができる。 我々の地理的分析によると、MLモデルは別々の場所のために個別に訓練され、時間とともに更新されるべきである。 また, 解釈可能なモデルに対して公平性解析を行う。 結論: 解釈可能な機械学習モデルは、予測精度と公平性の両方の観点から、解釈不能な方法や現在使用されているリスクアセスメントスケールと同様に実行できる。 機械学習モデルは、異なる場所で個別にトレーニングし、最新の状態を維持することでより正確になる可能性がある。

Objectives: We study interpretable recidivism prediction using machine learning (ML) models and analyze performance in terms of prediction ability, sparsity, and fairness. Unlike previous works, this study trains interpretable models that output probabilities rather than binary predictions, and uses quantitative fairness definitions to assess the models. This study also examines whether models can generalize across geographic locations. Methods: We generated black-box and interpretable ML models on two different criminal recidivism datasets from Florida and Kentucky. We compared predictive performance and fairness of these models against two methods that are currently used in the justice system to predict pretrial recidivism: the Arnold PSA and COMPAS. We evaluated predictive performance of all models on predicting six different types of crime over two time spans. Results: Several interpretable ML models can predict recidivism as well as black-box ML models and are more accurate than COMPAS or the Arnold PSA. These models are potentially useful in practice. Similar to the Arnold PSA, some of these interpretable models can be written down as a simple table. Others can be displayed using a set of visualizations. Our geographic analysis indicates that ML models should be trained separately for separate locations and updated over time. We also present a fairness analysis for the interpretable models. Conclusions: Interpretable machine learning models can perform just as well as non-interpretable methods and currently-used risk assessment scales, in terms of both prediction accuracy and fairness. Machine learning models might be more accurate when trained separately for distinct locations and kept up-to-date.
翻訳日:2022-12-05 12:16:04 公開日:2022-03-11
# 一般確率過程における学習性について

On Learnability under General Stochastic Processes ( http://arxiv.org/abs/2005.07605v3 )

ライセンス: Link先を確認
A. Philip Dawid and Ambuj Tewari(参考訳) 独立分布型(iid)サンプリングとオンライン学習理論に基づく統計的学習理論は、学習理論の最も発達した分野の2つである。 一般の非iid確率過程下での統計的学習は成熟度が低い。 一般確率過程の下で関数クラスの学習可能性に関する2つの自然な概念を提供する。 両方の概念が実際にオンライン学習能力と等価であることを示す。 我々の結果は二項分類と回帰の両方に当てはまる。

Statistical learning theory under independent and identically distributed (iid) sampling and online learning theory for worst case individual sequences are two of the best developed branches of learning theory. Statistical learning under general non-iid stochastic processes is less mature. We provide two natural notions of learnability of a function class under a general stochastic process. We show that both notions are in fact equivalent to online learnability. Our results hold for both binary classification and regression.
翻訳日:2022-12-02 22:33:17 公開日:2022-03-11
# 河川汚染源同定のためのオンライン非凸学習

Online non-convex learning for river pollution source identification ( http://arxiv.org/abs/2005.11065v2 )

ライセンス: Link先を確認
Wenjie Huang, Jing Jiang, Xiao Liu(参考訳) 本研究では, 河川汚染源の流出量, 場所, 時間の推定を目的としたリアルタイム河川汚染源同定手法として, 河川汚染濃度をモニタリングする下流センサデータに基づいて, 河川汚染源の放出質量, 位置, 時刻を推定することを目的とした, 重要な環境応用について検討する。 汚染はすぐに放出されると考えられている。 この問題は統計的学習における非凸損失最小化問題として定式化することができ、我々のオンラインアルゴリズムは、異なる大きさの3次元において高い推定精度を確保するためにベクトル化され適応的なステップサイズを有する。 非凸損失のサドル点にアルゴリズムが立ち往生しないようにするため、サドル点モジュールからの脱出とマルチスタート設定を導出し、損失関数のグローバル最小化を求めることにより、推定精度をさらに向上させる。 これは理論上、実験的に、アルゴリズムの局所的後悔の$O(N)$と、損失関数の特定の誤差境界条件下での高い確率累積的後悔の$O(N)$として示される。 実生活における河川汚染源同定例は, 推定精度の点で既存の手法と比較して, アルゴリズムの優れた性能を示す。 意思決定者がアルゴリズムを使用するための管理的洞察も提供される。

In this paper, novel gradient-based online learning algorithms are developed to investigate an important environmental application: real-time river pollution source identification, which aims at estimating the released mass, location, and time of a river pollution source based on downstream sensor data monitoring the pollution concentration. The pollution is assumed to be instantaneously released once. The problem can be formulated as a non-convex loss minimization problem in statistical learning, and our online algorithms have vectorized and adaptive step sizes to ensure high estimation accuracy in three dimensions which have different magnitudes. In order to keep the algorithm from stucking to the saddle points of non-convex loss, the escaping from saddle points module and multi-start setting are derived to further improve the estimation accuracy by searching for the global minimizer of the loss functions. This can be shown theoretically and experimentally as the $O(N)$ local regret of the algorithms and the high probability cumulative regret bound $O(N)$ under a particular error bound condition in loss functions. A real-life river pollution source identification example shows the superior performance of our algorithms compared to existing methods in terms of estimation accuracy. Managerial insights for the decision maker to use the algorithms are also provided.
翻訳日:2022-11-30 08:50:20 公開日:2022-03-11
# 障害のある複素ネットワーク:エネルギー最適格子と永続ホモロジー

Disordered complex networks: energy optimal lattices and persistent homology ( http://arxiv.org/abs/2009.08811v2 )

ライセンス: Link先を確認
Subhro Ghosh, Naoto Miyoshi, Tomoyuki Shirai(参考訳) 不規則な複雑なネットワークは、無線ネットワーク上の情報伝達の確率モデルとして、基本的な関心事である。 poisson point プロセスモデルに基づくよく知られたネットワークは vis-a-vis のネットワーク効率に限界があるが、ランダム行列スペクトル(rmt)に基づくネットワークのような強相関な代替手段は扱いやすさと頑健性に問題がある。 In this work, we demonstrate that network models based on random perturbations of Euclidean lattices interpolate between Poisson and rigidly structured networks, and allow us to achieve the best of both worlds : significantly improve upon the Poisson model in terms of network efficacy measured by the Signal to Interference plus Noise Ratio (abbrv. SINR) and the related concept of coverage probabilities, at the same time retaining a considerable measure of mathematical and computational simplicity and robustness to erasure and noise. このモデルにおける基底格子の最適選択について検討し、Epstein Zeta関数に関してユークリッド格子の卓越した問題最適性に接続する。 これにより、2Dの三角形格子と3Dの面中心立方体格子の選択が導かれる。 本研究では,摂動強度の増加に伴って被覆確率が減少し,ポアソンネットワークに収束することを示す。 低次障害のシステムでは、カバレッジ関数の統計法則を概ね特徴付ける。 2Dでは、PTLとRTTのネットワークが最も近い障害強度を、パーシステンス図の比較により、ネットワークトポロジを比較することによって決定する。 我々は, この障害におけるptlネットワークを, rmtネットワークモデルの効果的な代替として捉えることができると同時に, 高いコントラクタビリティの利点も提供することを実証した。

Disordered complex networks are of fundamental interest as stochastic models for information transmission over wireless networks. Well-known networks based on the Poisson point process model have limitations vis-a-vis network efficiency, whereas strongly correlated alternatives, such as those based on random matrix spectra (RMT), have tractability and robustness issues. In this work, we demonstrate that network models based on random perturbations of Euclidean lattices interpolate between Poisson and rigidly structured networks, and allow us to achieve the best of both worlds : significantly improve upon the Poisson model in terms of network efficacy measured by the Signal to Interference plus Noise Ratio (abbrv. SINR) and the related concept of coverage probabilities, at the same time retaining a considerable measure of mathematical and computational simplicity and robustness to erasure and noise. We investigate the optimal choice of the base lattice in this model, connecting it to the celebrated problem optimality of Euclidean lattices with respect to the Epstein Zeta function, which is in turn related to notions of lattice energy. This leads us to the choice of the triangular lattice in 2D and face centered cubic lattice in 3D. We demonstrate that the coverage probability decreases with increasing strength of perturbation, eventually converging to that of the Poisson network. In the regime of low disorder, we approximately characterize the statistical law of the coverage function. In 2D, we determine the disorder strength at which the PTL and the RMT networks are the closest measured by comparing their network topologies via a comparison of their Persistence Diagrams . We demonstrate that the PTL network at this disorder strength can be taken to be an effective substitute for the RMT network model, while at the same time offering the advantages of greater tractability.
翻訳日:2022-10-19 03:22:41 公開日:2022-03-11
# モデルに依存しないプライベートラーニングの再検討:高速なレートとアクティブラーニング

Revisiting Model-Agnostic Private Learning: Faster Rates and Active Learning ( http://arxiv.org/abs/2011.03186v4 )

ライセンス: Link先を確認
Chong Liu, Yuqing Zhu, Kamalika Chaudhuri, and Yu-Xiang Wang(参考訳) 教師アンサンブル(pate)フレームワークのプライベートアグリゲーションは、微分的プライベートラーニングにおける最も有望なアプローチの1つである。 既存の理論解析によれば、PATE は任意のVCクラスを無限に学習するが、最適分類器の誤差率が 0 から外されるより一般的な場合において、その成功を説明するには不十分である。 このギャップを埋めるために,tsybakovノイズ条件(tnc)を導入し,より強く解釈可能な学習境界を確立する。 これらの境界は、PATEがいつ動作するかの新しい洞察を与え、より狭い実現可能な設定でも既存の結果を改善する。 また,プライバシ予算の節約にアクティブラーニングを利用するという説得力のあるアイデアについても検討し,このアイデアの有効性を示す実証的研究を行った。 証明の新たな要素には、多数決分類器(独立利害関係にあるかもしれない)のより洗練された分析と、合成された「学生」学習問題は、ツィバコフ雑音条件の下で構築することでほぼ実現可能であるという観察が含まれる。

The Private Aggregation of Teacher Ensembles (PATE) framework is one of the most promising recent approaches in differentially private learning. Existing theoretical analysis shows that PATE consistently learns any VC-classes in the realizable setting, but falls short in explaining its success in more general cases where the error rate of the optimal classifier is bounded away from zero. We fill in this gap by introducing the Tsybakov Noise Condition (TNC) and establish stronger and more interpretable learning bounds. These bounds provide new insights into when PATE works and improve over existing results even in the narrower realizable setting. We also investigate the compelling idea of using active learning for saving privacy budget, and empirical studies show the effectiveness of this new idea. The novel components in the proofs include a more refined analysis of the majority voting classifier - which could be of independent interest - and an observation that the synthetic "student" learning problem is nearly realizable by construction under the Tsybakov noise condition.
翻訳日:2022-09-29 05:35:56 公開日:2022-03-11
# 逆分類:必要条件と幾何学的流れ

Adversarial Classification: Necessary conditions and geometric flows ( http://arxiv.org/abs/2011.10797v2 )

ライセンス: Link先を確認
Nicolas Garcia Trillos and Ryan Murray(参考訳) 我々は,変動解析のツールを用いて,ある敵がデータ入力を一定距離まで逸脱させる権限を付与する,敵分類の1つのバージョンについて検討する。 特に,このような敵を対象とする最適分類器に付随する条件について述べる。 必要な条件を用いて、分類境界の変化を$\varepsilon$変化として追跡するために使用できる幾何学的進化方程式を導出する。 この進化方程式は、1次元の微分方程式の非結合系、あるいは高次元の平均曲率型方程式として記述することができる。 一次元において、そしてデータ分布に関する穏やかな仮定の下で、我々は、$\varepsilon$の小さな値に対する逆問題の大域的最小化のために、単にベイズ分類器である$\varepsilon=0$から始まる初期値問題を用いることができることを厳密に証明する。 より高次元では、初期値問題の正則解の存在を条件として、同様の結果が得られる。 主な結果を証明する過程で,クラスが均衡しているか否かを仮定せずに,元の対立問題と最適な輸送問題とを結び付ける独立した関心の結果を得る。 これらのアイデアを例示する数値例も提示される。

We study a version of adversarial classification where an adversary is empowered to corrupt data inputs up to some distance $\varepsilon$, using tools from variational analysis. In particular, we describe necessary conditions associated with the optimal classifier subject to such an adversary. Using the necessary conditions, we derive a geometric evolution equation which can be used to track the change in classification boundaries as $\varepsilon$ varies. This evolution equation may be described as an uncoupled system of differential equations in one dimension, or as a mean curvature type equation in higher dimension. In one dimension, and under mild assumptions on the data distribution, we rigorously prove that one can use the initial value problem starting from $\varepsilon=0$, which is simply the Bayes classifier, in order to solve for the global minimizer of the adversarial problem for small values of $\varepsilon$. In higher dimensions we provide a similar result, albeit conditional to the existence of regular solutions of the initial value problem. In the process of proving our main results we obtain a result of independent interest connecting the original adversarial problem with an optimal transport problem under no assumptions on whether classes are balanced or not. Numerical examples illustrating these ideas are also presented.
翻訳日:2022-09-22 23:16:02 公開日:2022-03-11
# ゼロショットのビジュアルスロットフィリング : 質問への回答

Zero-Shot Visual Slot Filling as Question Answering ( http://arxiv.org/abs/2011.12340v2 )

ライセンス: Link先を確認
Larry Heck and Simon Heck(参考訳) 本稿では,スロットフィリングタスクを質問回答として再構成し,スロットタグをリッチな自然言語質問に置き換えることで,視覚情報や語彙テキストのセマンティクスをデバイス画面に表示する手法を提案する。 これらの質問はユーザの発話と組み合わせられ、最先端のTransformerベースのディープラーニング質問応答システムを用いて発話からスロットを抽出する。 マルチタスクトレーニングによるモデルをさらに洗練するためのアプローチを提案する。 マルチタスクアプローチは、多くの連続した改良とタスク間での学習の取り込みを促進する。 新しいビジュアルスロットデータセットと一般的なATISデータセットのビジュアル拡張を導入し、ビジュアルスロットフィリングの研究と実験をサポートする。 その結果, 訓練条件の厳密な精度を維持するだけでなく, トレーニングデータの約10分の1をATISで0.97の最先端F1を達成することができた。

This paper presents a new approach to slot filling by reformulating the slot filling task as Question Answering, and replacing slot tags with rich natural language questions that capture the semantics of visual information and lexical text often displayed on device screens. These questions are paired with the user's utterance, and slots are extracted from the utterance using a state-of-the-art Transformer-based deep learning Question Answering system. An approach to further refine the model with multi-task training is presented. The multi-task approach facilitates the incorporation of a large number of successive refinements and transfer learning across tasks. New visual slot datasets and a visual extension of the popular ATIS dataset are introduced to support research and experimentation on visual slot filling. Results show the new approach not only maintains robust accuracy for sparse training conditions but achieves state-of-the-art F1 of 0.97 on ATIS with approximately 1/10th the training data.
翻訳日:2022-09-21 13:21:20 公開日:2022-03-11
# (参考訳) ディープラーニングを用いた自動短答格付けに関する調査--単語埋め込みからトランスフォーマーまで

Survey on Automated Short Answer Grading with Deep Learning: from Word Embeddings to Transformers ( http://arxiv.org/abs/2204.03503v1 )

ライセンス: CC BY 4.0
Stefan Haller, Adina Aldea, Christin Seifert, Nicola Strisciuglio(参考訳) 教育課題を学生数の増加に拡大する手段として,ASAG (Automated Short answer grading) が教育において注目を集めている。 自然言語処理と機械学習の最近の進歩はASAGの分野に大きな影響を与え、最近の研究動向を調査している。 我々は、最近公開されたディープラーニングアプローチをデプロイする手法の包括的分析を提供することで、過去の調査を補完する。 特に,手作業による特徴から表現学習への転換に着目し,手作業における代表的特徴を大量のデータから自動的に学習する。 我々は,単語埋め込み,逐次モデル,注意に基づく手法の3つのカテゴリに沿って,ディープラーニング手法の分析を構造化する。 深層学習はNLPの他の分野と異なる影響を受けており、学習された表現だけでは最良の結果に寄与しないが、むしろ手作業による特徴と相補的な方法で機能することが示される。 最高のパフォーマンスは、注意深い手作業による機能と、トランスフォーマーアーキテクチャのような最新のモデルが提供するセマンティック記述の力を組み合わせた方法によって達成されます。 我々は課題を特定し、将来解決できる研究の方向性を展望する

Automated short answer grading (ASAG) has gained attention in education as a means to scale educational tasks to the growing number of students. Recent progress in Natural Language Processing and Machine Learning has largely influenced the field of ASAG, of which we survey the recent research advancements. We complement previous surveys by providing a comprehensive analysis of recently published methods that deploy deep learning approaches. In particular, we focus our analysis on the transition from hand engineered features to representation learning approaches, which learn representative features for the task at hand automatically from large corpora of data. We structure our analysis of deep learning methods along three categories: word embeddings, sequential models, and attention-based methods. Deep learning impacted ASAG differently than other fields of NLP, as we noticed that the learned representations alone do not contribute to achieve the best results, but they rather show to work in a complementary way with hand-engineered features. The best performance are indeed achieved by methods that combine the carefully hand-engineered features with the power of the semantic descriptions provided by the latest models, like transformers architectures. We identify challenges and provide an outlook on research direction that can be addressed in the future
翻訳日:2022-04-10 15:00:21 公開日:2022-03-11
# (参考訳) 自動エンコーダブロックスイッチング防御手法による敵対的攻撃の防止

An integrated Auto Encoder-Block Switching defense approach to prevent adversarial attacks ( http://arxiv.org/abs/2203.10930v1 )

ライセンス: CC BY 4.0
Anirudh Yadav, Ashutosh Upadhyay, S.Sharanya(参考訳) 最近の研究によると、敵の入力サンプルに対する最先端ニューラルネットワークの脆弱性は劇的に増加している。 ニューラルネットワークは、コンピュータが機械学習アルゴリズムを用いてタスクを実行することを学習する中間経路または技法である。 機械学習と人工知能モデルは、自動運転車[1]、スマートホームデバイスなど、生活の基本的な側面となり、あらゆる脆弱性が重大な懸念となっている。 最小限の入力偏差は、これらの極めてリテラルなシステムを騙し、ユーザや管理者を偽装する可能性がある。 本稿では,自動エンコーダ[3]とブロックスイッチングアーキテクチャの組み合わせを利用したディフェンスアルゴリズムを提案する。 オートコーダは、入力画像にある摂動を取り除くことを意図しているが、ブロック切替方式は、ホワイトボックス攻撃に対してより堅牢にするために使用される。 攻撃はFGSM[9]モデルを用いて計画されており、提案アーキテクチャによるその後の反撃により、アルゴリズムによる実現可能性とセキュリティが証明される。

According to recent studies, the vulnerability of state-of-the-art Neural Networks to adversarial input samples has increased drastically. A neural network is an intermediate path or technique by which a computer learns to perform tasks using Machine learning algorithms. Machine Learning and Artificial Intelligence model has become a fundamental aspect of life, such as self-driving cars [1], smart home devices, so any vulnerability is a significant concern. The smallest input deviations can fool these extremely literal systems and deceive their users as well as administrator into precarious situations. This article proposes a defense algorithm that utilizes the combination of an auto-encoder [3] and block-switching architecture. Auto-coder is intended to remove any perturbations found in input images whereas the block switching method is used to make it more robust against White-box attacks. The attack is planned using FGSM [9] model, and the subsequent counter-attack by the proposed architecture will take place thereby demonstrating the feasibility and security delivered by the algorithm.
翻訳日:2022-03-27 11:05:43 公開日:2022-03-11
# DHEN:大規模クリックスルーレート予測のための深層および階層型アンサンブルネットワーク

DHEN: A Deep and Hierarchical Ensemble Network for Large-Scale Click-Through Rate Prediction ( http://arxiv.org/abs/2203.11014v1 )

ライセンス: Link先を確認
Buyun Zhang, Liang Luo, Xi Liu, Jay Li, Zeliang Chen, Weilin Zhang, Xiaohan Wei, Yuchen Hao, Michael Tsang, Wenjun Wang, Yang Liu, Huayu Li, Yasmine Badr, Jongsoo Park, Jiyan Yang, Dheevatsa Mudigere, Ellie Wen(参考訳) オンライン広告サービスのモデルパフォーマンスには,機能相互作用の学習が重要である。 その結果、機能相互作用を学ぶための効果的なアーキテクチャの設計に多大な努力が注がれた。 しかし、これらの設計の実践的性能は、捕捉されるとされる相互作用の順序が同じであっても、データセットからデータセットまで様々である。 これは異なる設計が異なる利点を持つ可能性を示しており、それらによって捉えられた相互作用は重複しない情報を持っている。 この観測から得られたDHEN - 異種相互作用モジュールの強みを生かし、異なる順序で相互作用の階層構造を学習できる、深く階層的なアンサンブルアーキテクチャを提案する。 学習におけるdhenの深層構造と多層構造がもたらした課題を克服するために,dhenの訓練効率をさらに向上できる新しい共同設計訓練システムを提案する。 CTR予測タスクからの大規模データセットに対するDHENの実験では、予測の正規化エントロピー(NE)が0.27倍向上し、最先端ベースラインよりも1.2倍優れたトレーニングスループットが得られた。

Learning feature interactions is important to the model performance of online advertising services. As a result, extensive efforts have been devoted to designing effective architectures to learn feature interactions. However, we observe that the practical performance of those designs can vary from dataset to dataset, even when the order of interactions claimed to be captured is the same. That indicates different designs may have different advantages and the interactions captured by them have non-overlapping information. Motivated by this observation, we propose DHEN - a deep and hierarchical ensemble architecture that can leverage strengths of heterogeneous interaction modules and learn a hierarchy of the interactions under different orders. To overcome the challenge brought by DHEN's deeper and multi-layer structure in training, we propose a novel co-designed training system that can further improve the training efficiency of DHEN. Experiments of DHEN on large-scale dataset from CTR prediction tasks attained 0.27\% improvement on the Normalized Entropy (NE) of prediction and 1.2x better training throughput than state-of-the-art baseline, demonstrating their effectiveness in practice.
翻訳日:2022-03-27 05:50:00 公開日:2022-03-11
# EコマースによるAI駆動ファッションソーシャルネットワーキングサービスのための技術

Technologies for AI-Driven Fashion Social Networking Service with E-Commerce ( http://arxiv.org/abs/2203.10996v1 )

ライセンス: Link先を確認
Jinseok Seol, Seongjae Kim, Sungchan Park, Holim Lim, Hyunsoo Na, Eunyoung Park, Dohee Jung, Soyoung Park, Kangwoo Lee, Sang-goo Lee(参考訳) オンラインファッション市場の急速な成長は、革新的なファッションサービスやコマースプラットフォームへの需要をもたらした。 最近のディープラーニングの成功により、多くのアプリケーションはビジュアル検索やレコメンダシステムといったai技術を使用して、新規で有益なサービスを提供する。 本稿では,ファッションeコマースを取り入れたAI駆動型ファッションソーシャルネットワーキングサービスの応用技術について述べる。 このアプリケーションでは、ユーザーは自分の服(OOTD)の写真を共有して閲覧でき、AIはそれらを分析し、同様のスタイルのOOTDと関連製品を提案する。 この目的のために、私たちは、ファッションのためのディープラーニングベースのAIモデルを訓練し、それらを統合して、ファッションビジュアル検索システムとOOTDの推奨システムを構築しました。 前述の技術により、AI駆動のファッションSNSプラットフォームであるiTOOが成功している。

The rapid growth of the online fashion market brought demands for innovative fashion services and commerce platforms. With the recent success of deep learning, many applications employ AI technologies such as visual search and recommender systems to provide novel and beneficial services. In this paper, we describe applied technologies for AI-driven fashion social networking service that incorporate fashion e-commerce. In the application, people can share and browse their outfit-of-the-day (OOTD) photos, while AI analyzes them and suggests similar style OOTDs and related products. To this end, we trained deep learning based AI models for fashion and integrated them to build a fashion visual search system and a recommender system for OOTD. With aforementioned technologies, the AI-driven fashion SNS platform, iTOO, has been successfully launched.
翻訳日:2022-03-27 05:49:11 公開日:2022-03-11
# 局所ニューラル演算子を用いた過渡偏微分方程式の学習

Learning Transient Partial Differential Equations with Local Neural Operators ( http://arxiv.org/abs/2203.08145v1 )

ライセンス: Link先を確認
Ximeng Ye, Hongyu Li, Peng Jiang, Tiejun Wang, Guoliang Qin(参考訳) 何十年にもわたって、膨大な計算資源が多孔体場の過渡偏微分方程式の解法に注がれている。 最新の人工知能は、これらの計算を加速する大きな可能性を示しているが、幅広い応用への道は、様々な計算領域と境界条件によって妨げられている。 本稿では,局所的ニューラル演算子(LNO)を用いた一過性PDEを純粋に表現できる学習フレームワークを構築することで,この障害を克服する。 この枠組みは、いくつかの過渡PDE、特にナビエ・ストークス方程式の学習において実証され、内部の流れ、外部の流れ、そして驚くほど、翼のカスケードを横断する流れを含む、全く異なる領域と境界の問題を解くためにうまく適用された。 これらの応用において、我々のlnoは従来の数値解法よりも1000倍以上高速であり、科学計算や工学シミュレーションにおいて重要である。

In decades, enormous computational resources are poured into solving the transient partial differential equations for multifarious physical fields. The latest artificial intelligence has shown great potential in accelerating these computations, but its road to wide applications is hindered by the variety of computational domains and boundary conditions. Here, we overcome this obstacle by constructing a learning framework capable of purely representing the transient PDEs with local neural operators (LNOs). This framework is demonstrated in learning several transient PDEs, especially the Navier-Stokes equations, and successfully applied to solve problems with quite different domains and boundaries, including the internal flow, the external flow, and remarkably, the flow across the cascade of airfoils. In these applications, our LNOs are faster than the conventional numerical solver by over 1000 times, which could be significant for scientific computations and engineering simulations.
翻訳日:2022-03-20 23:11:19 公開日:2022-03-11
# DeepTrust: 極額価格異常を説明するための信頼性の高い金融知識検索フレームワーク

DeepTrust: A Reliable Financial Knowledge Retrieval Framework For Explaining Extreme Pricing Anomalies ( http://arxiv.org/abs/2203.08144v1 )

ライセンス: Link先を確認
Pok Wah Chan(参考訳) 極端な価格異常は自明な理由なしに予期せず発生しうるし、エクイティトレーダは通常、信頼できる知識ベースに統合する前に、異なる情報をソースし、その信頼性を分析するための精巧なプロセスを経験する。 我々は、Twitter上で信頼性の高い金融知識検索フレームワークであるDeepTrustを導入し、最先端のNLP技術を用いてデータの正確性を確保しながら、極端な価格変動を高速で説明する。 提案手法は,異常検出,情報検索,信頼性評価に特化した3つのモジュールからなる。 ワークフローは、過去の価格データでトレーニングされた機械学習モデルを使用して異常な資産価格変化を識別することから始まり、動的検索条件を備えた拡張クエリを使用して、twitterから非構造化データを検索する。 DeepTrustは、ツイート機能、生成言語モデルのトレース、議論構造、主観性と感情信号から情報の信頼性を推定し、市場洞察のための正確なツイートのコレクションを洗練する。 このフレームワークは2021年4月29日と30日の2つの自己注釈付き金融異常、すなわちTwitterとFacebookの株価で評価されている。 最適な設定は、ベースライン分類器をf0.5-scoreで7.75%、15.77%、精度で10.55%、および18.88%で上回り、信頼性の低い情報を正確にスクリーニングする能力を証明する。 同時に、情報検索および信頼性評価モジュールは、その効果と限界の原因を個別に分析し、その性能に影響を与える主観的および客観的要因を同定する。 refinitivとのコラボレーションプロジェクトとして、このフレームワークは、トレーダーがソーシャルメディアプラットフォームからの認証された知識による価格異常に対する投資判断をリアルタイムで達成するための、スケーラブルな商用ソリューションを構築するための、有望な道を開く。

Extreme pricing anomalies may occur unexpectedly without a trivial cause, and equity traders typically experience a meticulous process to source disparate information and analyze its reliability before integrating it into the trusted knowledge base. We introduce DeepTrust, a reliable financial knowledge retrieval framework on Twitter to explain extreme price moves at speed, while ensuring data veracity using state-of-the-art NLP techniques. Our proposed framework consists of three modules, specialized for anomaly detection, information retrieval and reliability assessment. The workflow starts with identifying anomalous asset price changes using machine learning models trained with historical pricing data, and retrieving correlated unstructured data from Twitter using enhanced queries with dynamic search conditions. DeepTrust extrapolates information reliability from tweet features, traces of generative language model, argumentation structure, subjectivity and sentiment signals, and refine a concise collection of credible tweets for market insights. The framework is evaluated on two self-annotated financial anomalies, i.e., Twitter and Facebook stock price on 29 and 30 April 2021. The optimal setup outperforms the baseline classifier by 7.75% and 15.77% on F0.5-scores, and 10.55% and 18.88% on precision, respectively, proving its capability in screening unreliable information precisely. At the same time, information retrieval and reliability assessment modules are analyzed individually on their effectiveness and causes of limitations, with identified subjective and objective factors that influence the performance. As a collaborative project with Refinitiv, this framework paves a promising path towards building a scalable commercial solution that assists traders to reach investment decisions on pricing anomalies with authenticated knowledge from social media platforms in real-time.
翻訳日:2022-03-20 22:49:01 公開日:2022-03-11
# (参考訳) SNNにおけるアンサンブル可塑性とネットワーク適応性

Ensemble plasticity and network adaptability in SNNs ( http://arxiv.org/abs/2203.07039v1 )

ライセンス: CC BY 4.0
Mahima Milinda Alwis Weerasinghe, David Parry, Grace Wang, Jacqueline Whalley(参考訳) 人工スパイクニューラルネットワーク(asnn)は、離散的なイベントベース(スパイク)計算により、情報処理効率が向上する。 いくつかの機械学習(ML)アプリケーションは、生物学的にインスパイアされた可塑性機構を教師なし学習技術として使用し、効率を保ちながらASNNの堅牢性を高める。 スパイク時間依存可塑性(stdp)と固有可塑性(ip)(動的スパイク閾値適応)は、アンサンブル学習法を形成するために組み合わされた2つのメカニズムである。 しかし、このアンサンブル学習がスパイク活動に基づいてどのように規制されるべきかは定かではない。 さらに,STDP後におけるしきい値に基づくシナプスプルーニングを試み,ASNNの性能低下による推論効率の向上を試みた。 しかし、このような構造的適応は、個々の重量機構を用いるが、入力刺激をよりよく表わすプルーニングのためのスパイキング活性を考慮しない。 塑性に基づくスパイク制御とスパイクベースのプルーニングにより,低資源環境下でのASSNの性能向上が期待できる。 本稿では,スパイクレートニューロン切断技術と融合した,エントロピーとネットワーク活性化に基づく新しいアンサンブル学習手法を提案する。 2つの脳波データセットを1パス学習を用いて訓練した3層フィードフォワードASNNを用いた分類実験の入力として使用する。 学習過程において,ニューロンがスパイキング速度に基づいてクラスターの階層に組み立てられるのを観察した。 その結果, スパイクレートの低いニューロンクラスターを刈り取ると, 一般化が増加し, 性能が低下することが判明した。

Artificial Spiking Neural Networks (ASNNs) promise greater information processing efficiency because of discrete event-based (i.e., spike) computation. Several Machine Learning (ML) applications use biologically inspired plasticity mechanisms as unsupervised learning techniques to increase the robustness of ASNNs while preserving efficiency. Spike Time Dependent Plasticity (STDP) and Intrinsic Plasticity (IP) (i.e., dynamic spiking threshold adaptation) are two such mechanisms that have been combined to form an ensemble learning method. However, it is not clear how this ensemble learning should be regulated based on spiking activity. Moreover, previous studies have attempted threshold based synaptic pruning following STDP, to increase inference efficiency at the cost of performance in ASNNs. However, this type of structural adaptation, that employs individual weight mechanisms, does not consider spiking activity for pruning which is a better representation of input stimuli. We envisaged that plasticity-based spike-regulation and spike-based pruning will result in ASSNs that perform better in low resource situations. In this paper, a novel ensemble learning method based on entropy and network activation is introduced, which is amalgamated with a spike-rate neuron pruning technique, operated exclusively using spiking activity. Two electroencephalography (EEG) datasets are used as the input for classification experiments with a three-layer feed forward ASNN trained using one-pass learning. During the learning process, we observed neurons assembling into a hierarchy of clusters based on spiking rate. It was discovered that pruning lower spike-rate neuron clusters resulted in increased generalization or a predictable decline in performance.
翻訳日:2022-03-20 07:11:52 公開日:2022-03-11
# (参考訳) イタリアのソブリン債市場のニューラル予測と経済ニュース

Neural Forecasting of the Italian Sovereign Bond Market with Economic News ( http://arxiv.org/abs/2203.07071v1 )

ライセンス: CC BY-SA 4.0
Sergio Consoli and Luca Tiozzo Pezzoli and Elisa Tosetti(参考訳) 本稿では,イタリアの10年利率の広がりを予測するために,ニューラルネットワークフレームワーク内での経済ニュースを用いる。 我々は、Global Database of Events、Language、Toneとして知られる大規模なオープンソースデータベースを使用して、債券市場のダイナミックスに関連するトピックや感情的なニュースコンテンツを抽出します。 このような情報を,自己回帰リカレントネットワーク(DeepAR)を用いた確率予測フレームワーク内に展開する。 以上の結果から,長期記憶細胞に基づく深層学習ネットワークは従来の機械学習技術よりも優れており,従来の利子率決定因子だけで得られる以上の予測性能を提供することが示唆された。

In this paper we employ economic news within a neural network framework to forecast the Italian 10-year interest rate spread. We use a big, open-source, database known as Global Database of Events, Language and Tone to extract topical and emotional news content linked to bond markets dynamics. We deploy such information within a probabilistic forecasting framework with autoregressive recurrent networks (DeepAR). Our findings suggest that a deep learning network based on Long-Short Term Memory cells outperforms classical machine learning techniques and provides a forecasting performance that is over and above that obtained by using conventional determinants of interest rates alone.
翻訳日:2022-03-20 06:44:43 公開日:2022-03-11
# (参考訳) 倫理的AI化に向けて

Toward Ethical AIED ( http://arxiv.org/abs/2203.07067v1 )

ライセンス: CC BY 4.0
Kaska Porayska-Pomsta and Wayne Holmes(参考訳) 本稿では, 教育における人工知能の倫理 : 実践, 挑戦, 討論(2022年8月, routlege)に関する本集の鍵となる結論について述べる。 本書への重要な貢献を強調するとともに、この分野における倫理的・倫理的実践の文脈におけるAI(AIED)分野における重要な疑問と大きな課題について論じている。 この本は、AIEDの重要な倫理的問題と、AIEDコミュニティがこれまで行ってきた仕事の深い理解において、幅広い視点を達成する方法として、AIEDの外と内からのさまざまな視点を提示している。

This paper presents the key conclusions to the forthcoming edited book on The Ethics of Artificial Intelligence in Education: Practices, Challenges and Debates (August 2022, Routlege). As well as highlighting the key contributions to the book, it discusses the key questions and the grand challenges for the field of AI in Education (AIED)in the context of ethics and ethical practices within the field. The book itself presents diverse perspectives from outside and from within the AIED as a way of achieving a broad perspective in the key ethical issues for AIED and a deep understanding of work conducted to date by the AIED community.
翻訳日:2022-03-20 06:43:49 公開日:2022-03-11
# (参考訳) 転写学習によるジェットタグの普遍性向上

Leveraging universality of jet taggers through transfer learning ( http://arxiv.org/abs/2203.06210v1 )

ライセンス: CC BY 4.0
Fr\'ed\'eric A. Dreyer, Rados{\l}aw Grabarczyk and Pier Francesco Monni(参考訳) 機械学習技術による強化オブジェクトのタグ付けにおける重要な課題は、高度なモデルのトレーニングに関連する計算コストの禁止である。 それにもかかわらず、QCDの普遍性は、トレーニングで学んだ大量の情報が、異なる物理信号や実験的な設定に共通していることを示唆している。 本稿では,このような普遍性を活用した高速でデータ効率の良いジェットタガーの開発に,転送学習技術を用いることについて検討する。 グラフニューラルネットワークLundNetとParticleNetについて検討し、既存のタグをモデルのすべての重みを微調整するか、あるいはその一部を凍結するかに基づいて、新しい信号に転送するための2つの処方則を導入する。 w$-boson と top-quark tagging の場合、トレーニングプロセスの速度アップとともに、桁違いに少ないデータで信頼できるタグを取得することができる。 さらに,トレーニングデータセットのサイズを一定に保ちながら,最大3倍の速さでトレーニングのスピードアップを観察する。 これにより、衝突型加速器の物理実験におけるそのようなツールの使用を促進する有望な方法が提供される。

A significant challenge in the tagging of boosted objects via machine-learning technology is the prohibitive computational cost associated with training sophisticated models. Nevertheless, the universality of QCD suggests that a large amount of the information learnt in the training is common to different physical signals and experimental setups. In this article, we explore the use of transfer learning techniques to develop fast and data-efficient jet taggers that leverage such universality. We consider the graph neural networks LundNet and ParticleNet, and introduce two prescriptions to transfer an existing tagger into a new signal based either on fine-tuning all the weights of a model or alternatively on freezing a fraction of them. In the case of $W$-boson and top-quark tagging, we find that one can obtain reliable taggers using an order of magnitude less data with a corresponding speed-up of the training process. Moreover, while keeping the size of the training data set fixed, we observe a speed-up of the training by up to a factor of three. This offers a promising avenue to facilitate the use of such tools in collider physics experiments.
翻訳日:2022-03-20 06:32:43 公開日:2022-03-11
# (参考訳) 変圧器言語モデルの段階訓練

Staged Training for Transformer Language Models ( http://arxiv.org/abs/2203.06211v1 )

ライセンス: CC BY 4.0
Sheng Shen and Pete Walsh and Kurt Keutzer and Jesse Dodge and Matthew Peters and Iz Beltagy(参考訳) トランスフォーマー言語モデルのスケーリングに対する現在の標準的なアプローチは、異なるランダム初期化から各モデルサイズをトレーニングする。 代替案として,小さなモデルから始まり,モデルの深さと幅を増加させるために"成長演算子"を適用することで,トレーニングに使用する計算量を段階的に増加させる段階的トレーニングセットアップを考える。 トレーニングプロセスは、各ステージを前段の出力で初期化することにより、前段からの計算を効果的に再利用し、より効率的になる。 当社の成長オペレータはそれぞれ、トレーニング状態全体(モデルパラメータ、オプティマイザ状態、学習率スケジュールなどを含む)を入力として、トレーニングが継続する新たなトレーニング状態を出力する。 これらの成長作用素の2つの重要な性質、すなわち、演算子を適用した後の損失と「学習力学」の両方を保っていることを同定する。 損失保存特性は以前にも議論されてきたが、我々の知る限りでは、この研究はトレーニングダイナミクス(トレーニング中の損失減少率)を維持することの重要性を最初に確認するものである。 ステージの最適スケジュールを見つけるために、トレーニング効率が低下し始めると、新たなステージを開始することにより、最も正確な計算節約を実現するためのスケーリング法則(Kaplan et al., 2020)を用いる。 成長オペレーターと自己回帰言語モデルのトレーニングを経験的に検証し、スクラッチからトレーニングした強いベースラインと比較して最大22%の計算節約率を示した。 私たちのコードはhttps://github.com/allenai/staged-trainingで利用できます。

The current standard approach to scaling transformer language models trains each model size from a different random initialization. As an alternative, we consider a staged training setup that begins with a small model and incrementally increases the amount of compute used for training by applying a "growth operator" to increase the model depth and width. By initializing each stage with the output of the previous one, the training process effectively re-uses the compute from prior stages and becomes more efficient. Our growth operators each take as input the entire training state (including model parameters, optimizer state, learning rate schedule, etc.) and output a new training state from which training continues. We identify two important properties of these growth operators, namely that they preserve both the loss and the "training dynamics" after applying the operator. While the loss-preserving property has been discussed previously, to the best of our knowledge this work is the first to identify the importance of preserving the training dynamics (the rate of decrease of the loss during training). To find the optimal schedule for stages, we use the scaling laws from (Kaplan et al., 2020) to find a precise schedule that gives the most compute saving by starting a new stage when training efficiency starts decreasing. We empirically validate our growth operators and staged training for autoregressive language models, showing up to 22% compute savings compared to a strong baseline trained from scratch. Our code is available at https://github.com/allenai/staged-training.
翻訳日:2022-03-20 06:09:34 公開日:2022-03-11
# (参考訳) TrafPS:シェープの交通予測を視覚的に解析するシステム

TrafPS: A Visual Analysis System Interpreting Traffic Prediction in Shapley ( http://arxiv.org/abs/2203.06213v1 )

ライセンス: CC BY 4.0
Yifan Jiang, Zezheng Feng, Hongjun Wang, Zipei Fan, Xuan Song(参考訳) 近年,交通流予測において深層学習手法が優れた性能を示し,交通流予測をより正確にするための複雑なモデルが数多く提案されている。 しかし、透明性の欠如により、ドメインの専門家は、入力データが結果に主に影響する時期と場所を理解することが制限される。 ほとんどの都市の専門家やプランナーは、自身の経験に基づいてのみトラフィックを調整することができ、潜在的な交通渋滞に対して効果的に反応できない。 この問題に対処するために,shapley値を適用し,交通流予測の解釈を専門家に提供する可視化分析システムを提案する。 TrafPSはデータプロセスから結果の計算と視覚化までの3つのレイヤで構成されている。 予測解析プロセスを支援するために,TrafPSで3つの可視化ビューを設計する。 あるデモンストレーションでは、trafpsがユーザに予測フローを解釈する効果的な分析パイプラインをサポートし、意思決定のための直感的な視覚化を提供することを示している。

In recent years, deep learning approaches have been proved good performance in traffic flow prediction, many complex models have been proposed to make traffic flow prediction more accurate. However, lacking transparency limits the domain experts on understanding when and where the input data mainly impact the results. Most urban experts and planners can only adjust traffic based on their own experience and can not react effectively toward the potential traffic jam. To tackle this problem, we adapt Shapley value and present a visualization analysis system , which can provide experts with the interpretation of traffic flow prediction. TrafPS consists of three layers, from data process to results computation and visualization. We design three visualization views in TrafPS to support the prediction analysis process. One demonstration shows that the TrafPS supports an effective analytical pipeline on interpreting the prediction flow to users and provides an intuitive visualization for decision making.
翻訳日:2022-03-20 05:47:32 公開日:2022-03-11
# (参考訳) MRI画像の医用画像分割 : モダリティの欠如について

Medical Image Segmentation on MRI Images with Missing Modalities: A Review ( http://arxiv.org/abs/2203.06217v1 )

ライセンス: CC BY 4.0
Reza Azad, Nika Khosravi, Mohammad Dehghanmanshadi, Julien Cohen-Adad, Dorit Merhof(参考訳) 磁気共鳴画像(MRI)の欠如と負の反感を克服することは、生体医用画像のハードルと考えられている。 スキャン対象のシナリオと解剖学的部分に応じて選択される特定のモダリティの組み合わせは、医療従事者に人体に対する関心領域に関する完全な情報を提供するため、mriシーケンスの欠如を再請求する必要がある。 1つ以上のモダリティの欠如による有用な情報を失うことによる有害な影響の補償は、特に腫瘍のセグメンテーション、組織分類、画像生成などの医療画像処理タスクにおいて、コンピュータビジョンの分野でよく知られた課題である。 この問題のネガティブな影響を軽減するための様々なアプローチが時間をかけて開発され、この文献レビューはそれを目指すネットワークのかなりの数を通過している。 この論文でレビューされたアプローチは、一般的な潜在空間モデル、知識蒸留ネットワーク、相互情報最大化、gans(generative adversarial network)のようなディープラーニングを展開する後のアプローチと同様に、合成法のような初期の技術を含む、詳細に検討されている。 本書では,本稿執筆時に提供された最も重要なアプローチについて論じ,それぞれが持つ新しさ,強さ,弱点について検討する。 さらに、最も一般的に使用されるMRIデータセットが強調表示され、記述される。 本研究の主な目的は、欠落したモダリティ補償ネットワークの性能評価を提供することと、この問題に対処するための今後の戦略を概説することである。

Dealing with missing modalities in Magnetic Resonance Imaging (MRI) and overcoming their negative repercussions is considered a hurdle in biomedical imaging. The combination of a specified set of modalities, which is selected depending on the scenario and anatomical part being scanned, will provide medical practitioners with full information about the region of interest in the human body, hence the missing MRI sequences should be reimbursed. The compensation of the adverse impact of losing useful information owing to the lack of one or more modalities is a well-known challenge in the field of computer vision, particularly for medical image processing tasks including tumour segmentation, tissue classification, and image generation. Various approaches have been developed over time to mitigate this problem's negative implications and this literature review goes through a significant number of the networks that seek to do so. The approaches reviewed in this work are reviewed in detail, including earlier techniques such as synthesis methods as well as later approaches that deploy deep learning, such as common latent space models, knowledge distillation networks, mutual information maximization, and generative adversarial networks (GANs). This work discusses the most important approaches that have been offered at the time of this writing, examining the novelty, strength, and weakness of each one. Furthermore, the most commonly used MRI datasets are highlighted and described. The main goal of this research is to offer a performance evaluation of missing modality compensating networks, as well as to outline future strategies for dealing with this issue.
翻訳日:2022-03-20 05:41:12 公開日:2022-03-11
# (参考訳) メモリ拡張ネットワークの冗長性を柔軟に調整する一般化キーバリューメモリ

Generalized Key-Value Memory to Flexibly Adjust Redundancy in Memory-Augmented Networks ( http://arxiv.org/abs/2203.06223v1 )

ライセンス: CC BY 4.0
Denis Kleyko, Geethan Karunaratne, Jan M. Rabaey, Abu Sebastian, and Abbas Rahimi(参考訳) メモリ提示型ニューラルネットワークは、キーメモリ内のサポートベクター数によって複雑さが支配される外部キー値メモリによるニューラルネットワークを強化する。 本稿では,キーメモリ表現の冗長性を任意に追加または削除できる自由パラメータを導入することで,その次元をサポートベクトル数から切り離す一般化キー値メモリを提案する。 事実上、ロバスト性と一般化されたキーバリューメモリの保存と計算に必要なリソースの間のトレードオフを柔軟に制御する自由度を提供する。 これは、高密度ストレージと計算のために非理想的だが極めて効率的な非揮発性メモリデバイスを利用するインメモリコンピューティングハードウェアにおけるキーメモリの実現に特に有用である。 実験の結果、このパラメータを需要に適応させることで、ニューラルネットワークの再トレーニングを必要とせずに、最大44%の非理想性を効果的に軽減できることがわかった。

Memory-augmented neural networks enhance a neural network with an external key-value memory whose complexity is typically dominated by the number of support vectors in the key memory. We propose a generalized key-value memory that decouples its dimension from the number of support vectors by introducing a free parameter that can arbitrarily add or remove redundancy to the key memory representation. In effect, it provides an additional degree of freedom to flexibly control the trade-off between robustness and the resources required to store and compute the generalized key-value memory. This is particularly useful for realizing the key memory on in-memory computing hardware where it exploits nonideal, but extremely efficient non-volatile memory devices for dense storage and computation. Experimental results show that adapting this parameter on demand effectively mitigates up to 44% nonidealities, at equal accuracy and number of devices, without any need for neural network retraining.
翻訳日:2022-03-20 05:09:38 公開日:2022-03-11
# (参考訳) VerBERT: BERTを使用したブラジルの事例法文書マルチラベル分類の自動化

verBERT: Automating Brazilian Case Law Document Multi-label Categorization Using BERT ( http://arxiv.org/abs/2203.06224v1 )

ライセンス: CC BY-SA 4.0
Felipe R. Serras and Marcelo Finger(参考訳) 本研究では,ブラジルの事例法文書の分類を自動化するために注意に基づくアルゴリズムを用いた研究を行った。 Kollemata Projectのデータを使って、適切なクラスシステムを持つ2つの異なるデータセットを生成しました。 そこで本研究では,BERTのマルチクラス・マルチラベルバージョンと,生成したデータセットを用いて細調整されたさまざまなBERTモデルを実装した。 我々は,F1-micro=0.72の性能値が,試験された統計基準値の30%の利得に対応して得られたF1-micro=0.72を主指標として,F1-Scoreの評価を行った。 本研究では,ブラジルの事例法文書の分類を自動化するために注意に基づくアルゴリズムを用いた研究を行った。 私たちは、textit{Kollemata} Projectのデータを使って、適切なクラスシステムを持つ2つの異なるデータセットを生成しました。 そこで本研究では,BERTのマルチクラス・マルチラベルバージョンと,生成したデータセットを用いて細調整されたさまざまなBERTモデルを実装した。 評価指標としてF1-Scoreを主指標とし, 検定された統計基準値の30%の利得に応じて, $\langle \mathcal{F}_1 \rangle_{micro}=0.72$という性能値を得た。

In this work, we carried out a study about the use of attention-based algorithms to automate the categorization of Brazilian case law documents. We used data from the Kollemata Project to produce two distinct datasets with adequate class systems. Then, we implemented a multi-class and multi-label version of BERT and fine-tuned different BERT models with the produced datasets. We evaluated several metrics, adopting the micro-averaged F1-Score as our main metric for which we obtained a performance value of F1-micro=0.72 corresponding to gains of 30 percent points over the tested statistical baseline. In this work, we carried out a study about the use of attention-based algorithms to automate the categorization of Brazilian case law documents. We used data from the \textit{Kollemata} Project to produce two distinct datasets with adequate class systems. Then, we implemented a multi-class and multi-label version of BERT and fine-tuned different BERT models with the produced datasets. We evaluated several metrics, adopting the micro-averaged F1-Score as our main metric for which we obtained a performance value of $\langle \mathcal{F}_1 \rangle_{micro}=0.72$ corresponding to gains of 30 percent points over the tested statistical baseline.
翻訳日:2022-03-20 04:56:13 公開日:2022-03-11
# (参考訳) CoDA21:コンテキスト分割アライメントによるNLPモデルの言語理解能力の評価

CoDA21: Evaluating Language Understanding Capabilities of NLP Models With Context-Definition Alignment ( http://arxiv.org/abs/2203.06228v1 )

ライセンス: CC BY 4.0
L\"utfi Kerem Senel, Timo Schick and Hinrich Sch\"utze(参考訳) 事前学習された言語モデル(plm)は多くのベンチマークで超人的なパフォーマンスを達成し、難しいタスクの必要性を生み出した。 我々は、plmの自然言語理解(nlu)能力を測定する挑戦的なベンチマークであるcoda21(context definition alignment)を紹介している。 CoDA21は複雑な推論や世界知識を含む文脈や定義の深い理解を必要とする。 我々は、人間とPLMのパフォーマンスの間に大きなギャップがあることを発見し、CoDA21が既存のベンチマークで十分にカバーされていないNLUの側面を測定することを示唆している。

Pretrained language models (PLMs) have achieved superhuman performance on many benchmarks, creating a need for harder tasks. We introduce CoDA21 (Context Definition Alignment), a challenging benchmark that measures natural language understanding (NLU) capabilities of PLMs: Given a definition and a context each for k words, but not the words themselves, the task is to align the k definitions with the k contexts. CoDA21 requires a deep understanding of contexts and definitions, including complex inference and world knowledge. We find that there is a large gap between human and PLM performance, suggesting that CoDA21 measures an aspect of NLU that is not sufficiently covered in existing benchmarks.
翻訳日:2022-03-20 04:29:42 公開日:2022-03-11
# (参考訳) 教師付き機械学習のためのサンプリングバイアス補正:実用的なベイズ推論アプローチ

Sampling Bias Correction for Supervised Machine Learning: A Bayesian Inference Approach with Practical Applications ( http://arxiv.org/abs/2203.06239v1 )

ライセンス: CC BY 4.0
Max Sklar(参考訳) トレーニングセットが既知のサンプリングバイアスの対象となっている教師付き機械学習の問題を考えると、モデルはオリジナルのデータセットに適合するようにトレーニングできるのだろうか? 我々は, サンプリング関数を考慮した後方分布を変化させ, ベイズ推定フレームワークを用いてこれを実現する。 次に、この解をバイナリロジスティック回帰に適用し、データセットがラベルの不均衡のような意図的なサンプルバイアスを受けるシナリオについて議論する。 この手法は, 医療科学から画像認識, マーケティングに至るまで, ビッグデータの統計的推測に広く応用できる。 データ収集からモデル選択に至るまで、推論パイプラインを改善するための実践ツールが提供されるだろう。

Given a supervised machine learning problem where the training set has been subject to a known sampling bias, how can a model be trained to fit the original dataset? We achieve this through the Bayesian inference framework by altering the posterior distribution to account for the sampling function. We then apply this solution to binary logistic regression, and discuss scenarios where a dataset might be subject to intentional sample bias such as label imbalance. This technique is widely applicable for statistical inference on big data, from the medical sciences to image recognition to marketing. Familiarity with it will give the practitioner tools to improve their inference pipeline from data collection to model selection.
翻訳日:2022-03-20 04:16:53 公開日:2022-03-11
# (参考訳) 人間からの学習--擬似と深い強化学習を組み合わせて仮想採餌作業における人間レベルのパフォーマンスを達成する

Learning from humans: combining imitation and deep reinforcement learning to accomplish human-level performance on a virtual foraging task ( http://arxiv.org/abs/2203.06250v1 )

ライセンス: CC BY 4.0
Vittorio Giammarino, Matthew F Dunne, Kylie N Moore, Michael E Hasselmo, Chantal E Stern, Ioannis Ch. Paschalidis(参考訳) 本研究では,ヒトデータを用いたバイオインスパイアされた採餌政策の学習方法を開発した。 オープンフィールドの養殖環境に人間が仮想的に没入し、最高の報酬を集めるために訓練される実験を行う。 マルコフ決定プロセス(MDP)フレームワークは人間の決定力学をモデル化するために導入された。 次に、最大確率推定に基づく模倣学習(il)を用いて、人間の決定を観察状態にマップするニューラルネットワーク(nn)を訓練する。 その結果、受動的模倣は実質的に人間に劣ることが示された。 我々は,事前学習されたネットワークから学ぶのに適したオンポリシーアルゴリズムを用いて,強化学習(rl)によって人間に着想を得たポリシーをさらに洗練する。 ILとRLの組み合わせは人間の結果と一致し、優れた性能は環境の自我中心的な表現に強く依存していることを示す。 開発手法は、オープンフィールド環境でミッションを解決しなければならない無人車両のポリシーを効率的に学習するために使用することができる。

We develop a method to learn bio-inspired foraging policies using human data. We conduct an experiment where humans are virtually immersed in an open field foraging environment and are trained to collect the highest amount of rewards. A Markov Decision Process (MDP) framework is introduced to model the human decision dynamics. Then, Imitation Learning (IL) based on maximum likelihood estimation is used to train Neural Networks (NN) that map human decisions to observed states. The results show that passive imitation substantially underperforms humans. We further refine the human-inspired policies via Reinforcement Learning (RL), using on-policy algorithms that are more suitable to learn from pre-trained networks. We show that the combination of IL and RL can match human results and that good performance strongly depends on an egocentric representation of the environment. The developed methodology can be used to efficiently learn policies for unmanned vehicles which have to solve missions in an open field environment.
翻訳日:2022-03-20 04:16:03 公開日:2022-03-11
# (参考訳) 時間の知覚:ロバスト画像理解のための時間ダイナミクス

Perception Over Time: Temporal Dynamics for Robust Image Understanding ( http://arxiv.org/abs/2203.06254v1 )

ライセンス: CC BY 4.0
Maryam Daniali, Edward Kim(参考訳) ディープラーニングは、狭く特定の視覚タスクにおいて人間レベルのパフォーマンスを上回るが、分類において脆弱で過信である。 例えば、画像空間における視線、照明、または物体の変形の小さな変換は、非常に異なるラベリングをもたらし、特に逆方向の摂動によって透明になる。 一方、人間の視覚知覚は入力刺激の変化に対して、桁違いに頑健である。 しかし残念なことに、そのような堅牢な認識をもたらす基盤となるメカニズムを完全に理解し統合するには程遠い。 本研究では,静的画像理解に時間的ダイナミクスを取り入れた新しい手法を提案する。 本稿では,生物学的視覚が情報を時間とともにどのように統合するかをシミュレートする,単一の画像を一連の粗い画像に分解する神経刺激的手法について述べる。 次に,本研究で提案する視覚知覚フレームワークが,生物学的に実現可能な再帰単位を持つアルゴリズムを用いて,この情報を「時間とともに」活用できることを示し,その結果,標準cnnよりも精度と頑健性が著しく向上することを示す。 また,提案手法を最先端モデルと比較し,複数のアブレーション実験により敵のロバスト性を明示的に定量化する。 私たちの量的および質的な結果は、今日の標準的なコンピュータビジョンとディープラーニングアーキテクチャよりもエキサイティングで革新的な改善を確実に示しています。

While deep learning surpasses human-level performance in narrow and specific vision tasks, it is fragile and over-confident in classification. For example, minor transformations in perspective, illumination, or object deformation in the image space can result in drastically different labeling, which is especially transparent via adversarial perturbations. On the other hand, human visual perception is orders of magnitude more robust to changes in the input stimulus. But unfortunately, we are far from fully understanding and integrating the underlying mechanisms that result in such robust perception. In this work, we introduce a novel method of incorporating temporal dynamics into static image understanding. We describe a neuro-inspired method that decomposes a single image into a series of coarse-to-fine images that simulates how biological vision integrates information over time. Next, we demonstrate how our novel visual perception framework can utilize this information "over time" using a biologically plausible algorithm with recurrent units, and as a result, significantly improving its accuracy and robustness over standard CNNs. We also compare our proposed approach with state-of-the-art models and explicitly quantify our adversarial robustness properties through multiple ablation studies. Our quantitative and qualitative results convincingly demonstrate exciting and transformative improvements over the standard computer vision and deep learning architectures used today.
翻訳日:2022-03-20 04:01:00 公開日:2022-03-11
# (参考訳) 中国語補足グラフを用いた言語間推論

Cross-lingual Inference with A Chinese Entailment Graph ( http://arxiv.org/abs/2203.06264v1 )

ライセンス: CC BY-SA 4.0
Tianyi Li, Sabine Weber, Mohammad Javad Hosseini, Liane Guillou, Mark Steedman(参考訳) 述語包含検出はテキストからの質問応答にとって重要なタスクであり、前回の研究では、型付きオープン関係三重項からの包含グラフの教師なし学習を探求している。 本稿では,FIGER型オントロジーの下で,新しいハイリコールオープンリレーショナルリレーション抽出(ORE)法と,中国初の粒度のエンティティ型付けデータセットを含む,中国のエンテーメントグラフ構築のための最初のパイプラインを提案する。 Levy-Holtデータセットを用いた実験により、中国語のエンタテインメントグラフの強さを検証し、平行なLevi-Holtデータセットにおいて、中国語と英語のエンタテインメントグラフのアンサンブルがモノリンガルグラフの両方より優れ、教師なしSOTAを4.7AUCポイント向上させる。

Predicate entailment detection is a crucial task for question-answering from text, where previous work has explored unsupervised learning of entailment graphs from typed open relation triples. In this paper, we present the first pipeline for building Chinese entailment graphs, which involves a novel high-recall open relation extraction (ORE) method and the first Chinese fine-grained entity typing dataset under the FIGER type ontology. Through experiments on the Levy-Holt dataset, we verify the strength of our Chinese entailment graph, and reveal the cross-lingual complementarity: on the parallel Levy-Holt dataset, an ensemble of Chinese and English entailment graphs outperforms both monolingual graphs, and raises unsupervised SOTA by 4.7 AUC points.
翻訳日:2022-03-20 03:45:26 公開日:2022-03-11
# (参考訳) 遅延埋め込みと微分演算子学習による時系列のパラメータ推定

Parameter Inference of Time Series by Delay Embeddings and Learning Differentiable Operators ( http://arxiv.org/abs/2203.06269v1 )

ライセンス: CC BY 4.0
Alex Tong Lin, Daniel Eckhardt, Robert Martin, Stanley Osher, Adrian S. Wong(参考訳) 実世界の動的システムを扱う際の一般的な問題は、その振る舞いに責任があるシステムパラメータを特定することである。 頻繁なシナリオは、対応するパラメータラベルとともに時系列データを持っているが、未知のパラメータラベルを持つ新しい時系列が存在し、それを識別しようとすることである。 本稿では、まず時系列を高次元に遅延埋め込みして適切な常微分方程式(ODE)を得るとともに、ニューラルネットワークが現在の時間ステップから得られる軌道の将来の時間ステップを予測することでこの問題に対処する。 次に、学習したニューラルネットワークを用いて、ニューラルネットワークのパラメータ入力を通じて予測誤差をバックプロパゲーションし、パラメータ空間の勾配を得る。 この勾配を用いることで、時系列のパラメータをほぼ特定できる。 我々は,Hal-effect Thruster(HET)を用いた実世界データとともに,カオスロレンツシステムに対する我々のアプローチの有効性を示す。

A common issue in dealing with real-world dynamical systems is identifying system parameters responsible for its behavior. A frequent scenario is that one has time series data, along with corresponding parameter labels, but there exists new time series with unknown parameter labels, which one seeks to identify. We tackle this problem by first delay-embedding the time series into a higher dimension to obtain a proper ordinary differential equation (ODE), and then having a neural network learn to predict future time-steps of the trajectory given the present time-step. We then use the learned neural network to backpropagate prediction errors through the parameter inputs of the neural network in order to obtain a gradient in parameter space. Using this gradient, we can approximately identify parameters of time series. We demonstrate the viability of our approach on the chaotic Lorenz system, as well as real-world data with the Hall-effect Thruster (HET).
翻訳日:2022-03-20 03:14:15 公開日:2022-03-11
# 物理における解釈可能な機械学習

Interpretable machine learning in Physics ( http://arxiv.org/abs/2203.08021v1 )

ライセンス: Link先を確認
Christophe Grojean, Ayan Paul, Zhuoni Qian, Inga Str\"umke(参考訳) 多変量法に解釈性を加えることは、より高次相関を持つ複雑な物理系を探索し、システムの基盤となるダイナミクスにある程度の明確さをもたらす強力な相乗効果をもたらす。

Adding interpretability to multivariate methods creates a powerful synergy for exploring complex physical systems with higher order correlations while bringing about a degree of clarity in the underlying dynamics of the system.
翻訳日:2022-03-16 16:16:17 公開日:2022-03-11
# ブロックリカレントトランス

Block-Recurrent Transformers ( http://arxiv.org/abs/2203.07852v1 )

ライセンス: Link先を確認
DeLesley Hutchins, Imanol Schlag, Yuhuai Wu, Ethan Dyer, Behnam Neyshabur(参考訳) 本稿では,逐次的に変圧器層を逐次的に適用し,シーケンス長に関して線形複雑度を有するブロックリカレント変圧器を提案する。 当社のリカレントセルは,シングルトークンではなくトークンブロック上で動作し,アクセラレーションハードウェアを効率的に利用するために,ブロック内の並列計算を活用する。 細胞そのものは非常に単純です これは単なるトランスフォーマー層であり、多数の状態ベクトルとトークンのセット上で再帰関数を効率的に計算するために自己アテンションとクロスアテンションを使用する。 我々の設計はLSTM細胞にインスピレーションを受けており、LSTMスタイルのゲートを使用しているが、典型的なLSTM細胞を数桁スケールする。 再帰性の実装は,従来の変圧器層と計算時間とパラメータカウントの双方で同じコストがかかるが,非常に長いシーケンス上での言語モデリングタスクの難易度は劇的に向上する。 我々のモデルは、長距離トランスフォーマーXLベースラインを2倍の速さで上回ります。 PG19(書籍)、arXivの論文、GitHubのソースコードでその効果を実証する。

We introduce the Block-Recurrent Transformer, which applies a transformer layer in a recurrent fashion along a sequence, and has linear complexity with respect to sequence length. Our recurrent cell operates on blocks of tokens rather than single tokens, and leverages parallel computation within a block in order to make efficient use of accelerator hardware. The cell itself is strikingly simple. It is merely a transformer layer: it uses self-attention and cross-attention to efficiently compute a recurrent function over a large set of state vectors and tokens. Our design was inspired in part by LSTM cells, and it uses LSTM-style gates, but it scales the typical LSTM cell up by several orders of magnitude. Our implementation of recurrence has the same cost in both computation time and parameter count as a conventional transformer layer, but offers dramatically improved perplexity in language modeling tasks over very long sequences. Our model out-performs a long-range Transformer XL baseline by a wide margin, while running twice as fast. We demonstrate its effectiveness on PG19 (books), arXiv papers, and GitHub source code.
翻訳日:2022-03-16 15:06:07 公開日:2022-03-11
# 非リジッド3次元レジストレーションに関する調査

A Survey of Non-Rigid 3D Registration ( http://arxiv.org/abs/2203.07858v1 )

ライセンス: Link先を確認
Bailin Deng and Yuxin Yao and Roberto M. Dyke and Juyong Zhang(参考訳) 非剛性登録は、ソース表面とターゲット表面とのアライメントを非剛性的に計算する。 過去10年間で、時間変化面を計測できる3Dセンシング技術の進歩により、変形可能な形状の取得に非剛性登録が適用され、幅広い応用がされている。 本研究では,3次元形状の非剛性登録法について,動的形状の獲得と復元に関する技術を中心に概説する。 特に,変形場を表現するための異なる手法と,所望の変形を計算する方法について考察する。 最適化ベースと学習ベースの両方の手法がカバーされている。 また,非厳密な登録方法を評価するためのベンチマークやデータセットについて検討し,今後の研究の方向性について考察する。

Non-rigid registration computes an alignment between a source surface with a target surface in a non-rigid manner. In the past decade, with the advances in 3D sensing technologies that can measure time-varying surfaces, non-rigid registration has been applied for the acquisition of deformable shapes and has a wide range of applications. This survey presents a comprehensive review of non-rigid registration methods for 3D shapes, focusing on techniques related to dynamic shape acquisition and reconstruction. In particular, we review different approaches for representing the deformation field, and the methods for computing the desired deformation. Both optimization-based and learning-based methods are covered. We also review benchmarks and datasets for evaluating non-rigid registration methods, and discuss potential future research directions.
翻訳日:2022-03-16 15:02:47 公開日:2022-03-11
# マルチユーザMIMOシステムにおけるビットメトリック復号速度:理論

Bit-Metric Decoding Rate in Multi-User MIMO Systems: Theory ( http://arxiv.org/abs/2203.06271v1 )

ライセンス: Link先を確認
Pavan Koteshwar Srinath and Jakob Hoydis(参考訳) リンク適応(la)は、送信機によって使用される変調符号化方式(mcs)が、特定のターゲット誤り率を満たすためにチャネル条件に適合する無線通信の最も重要な側面の1つである。 シングルユーザsiso(su-siso)システムでは、受信機で後等化信号対干渉雑音比(sinr)を演算してlaを行う。 同じ技術は、線形検出器を使用するマルチユーザMIMO(MU-MIMO)受信機でも使用できる。 ポスト等化SINRのもう1つの重要な用途は物理層(PHY)の抽象化であり、システムレベルのシミュレーションを高速化するために、チャネルエンコーダ、検出器、チャネルデコーダなどのPHYブロックを抽象化モデルに置き換える。 これは、ポスト等化SINRをコードワードエラーレート(CER)またはブロックエラーレート(BLER)にマッピングすることで達成される。 しかし、スフィアデコーダアルゴリズムの変種を使用するような非線形受信機を持つMU-MIMOシステムでは、LAとPHYの抽象化を極めて困難にするポスト等化SINRの等価性は知られていない。 この重要な問題はこの2部からなる論文で論じられている。 ここでは、一連のチャネル実現のための検出器のビットメトリック復号率(BMDR)と呼ばれる計量を示す。 BMDRは任意の検出器に対する非等化後のSINRと同値である。 BMDRには、その瞬時に計算できるクローズドフォーム表現がないため、それを予測するための機械学習アプローチが提示される。 第2部では、任意の検出器を持つMU-MIMOシステムに対して、BMDRを用いてLA、検出器選択、PHY抽象化を行うアルゴリズムを記述している。 主張を裏付ける大規模なシミュレーション結果が提示される。

Link-adaptation (LA) is one of the most important aspects of wireless communications where the modulation and coding scheme (MCS) used by the transmitter is adapted to the channel conditions in order to meet a certain target error-rate. In a single-user SISO (SU-SISO) system, LA is performed by computing the post-equalization signal-to-interference-noise ratio (SINR) at the receiver. The same technique can be employed in multi-user MIMO (MU-MIMO) receivers that use linear detectors. Another important use of post-equalization SINR is for physical layer (PHY) abstraction, where several PHY blocks like the channel encoder, the detector, and the channel decoder are replaced by an abstraction model in order to speed up system-level simulations. This is achieved by mapping the post-equalization SINR to a codeword error rate (CER) or a block error rate (BLER). However, for MU-MIMO systems with non-linear receivers, like those that use variants of the sphere-decoder algorithm, there is no known equivalent of post-equalization SINR which makes both LA and PHY abstraction extremely challenging. This important issue is addressed in this two-part paper. A metric called the bit-metric decoding rate (BMDR) of a detector for a set of channel realizations is presented in this part. BMDR is the proposed equivalent of post-equalization SINR for arbitrary detectors. Since BMDR does not have a closed form expression that would enable its instantaneous calculation, a machine-learning approach to predict it is presented. The second part describes the algorithms to perform LA, detector selection, and PHY abstraction using BMDR for MU-MIMO systems with arbitrary detectors. Extensive simulation results corroborating the claims are presented.
翻訳日:2022-03-15 17:46:33 公開日:2022-03-11
# マルチユーザMIMOシステムにおけるビットメトリックデコードレート:応用

Bit-Metric Decoding Rate in Multi-User MIMO Systems: Applications ( http://arxiv.org/abs/2203.06273v1 )

ライセンス: Link先を確認
Pavan Koteshwar Srinath and Jakob Hoydis(参考訳) これは、リンク適応(LA)と物理層(PHY)の非線形受信機を用いたマルチユーザMIMO(MU-MIMO)システムの抽象化に焦点を当てた2部構成の論文の第2部である。 第1部では、非線形受信機に対する非等化信号-干渉-雑音比(SINR)の等価性として、検出器に対するビットメトリック復号率(BMDR)と呼ばれる新しい計量を提案する。 このBMDRはクローズドな形式表現を持たないため,機械学習による評価手法を効果的に提案する。 この部分では、第一部で開発された概念を用いて、LAの新しいアルゴリズム、利用可能な検出器リストからの動的検出器選択、任意の受信機を持つMU-MIMOシステムのPHY抽象化を開発する。 提案アルゴリズムの有効性を実証する大規模なシミュレーション結果を示す。

This is the second part of a two-part paper that focuses on link-adaptation (LA) and physical layer (PHY) abstraction for multi-user MIMO (MU-MIMO) systems with non-linear receivers. The first part proposes a new metric, called bit-metric decoding rate (BMDR) for a detector, as being the equivalent of post-equalization signal-to-interference-noise ratio (SINR) for non-linear receivers. Since this BMDR does not have a closed form expression, a machine-learning based approach to estimate it effectively is presented. In this part, the concepts developed in the first part are utilized to develop novel algorithms for LA, dynamic detector selection from a list of available detectors, and PHY abstraction in MU-MIMO systems with arbitrary receivers. Extensive simulation results that substantiate the efficacy of the proposed algorithms are presented.
翻訳日:2022-03-15 17:46:01 公開日:2022-03-11
# 深層学習による高エネルギー消費産業負荷の分解に対するロバストなアプローチ

A Robust Approach for the Decomposition of High-Energy-Consuming Industrial Loads with Deep Learning ( http://arxiv.org/abs/2203.07075v1 )

ライセンス: Link先を確認
Jia Cui, Yonghui Jin, Renzhe Yu, Martin Onyeka Okoye, Yang Li, Junyou Yang, Shunjiang Wang(参考訳) 利用者の電力消費パターンに関する知識は、電力会社と電力消費者の間で重要な意思決定のコーディネート機構である。 したがって, 負荷の分解は, 負荷消費と特性の関係を明らかにするために重要である。 しかし, 従来は住宅や商業の負荷に対して負荷分解を行い, 不効率な結果をもたらす高エネルギー産業負荷に対しては十分な検討がなされていない。 そこで本研究では,産業用公園負荷 (IPL) の負荷分解に着目した。 しかし、従来の方法でよく使われるパラメータは、高エネルギー消費産業負荷では適用できない。 したがって、IPL上でこの目標を達成するために、3-algorithmモデルからなるより堅牢なアプローチが開発されている。 まず、改良された変動モード分解(IVMD)アルゴリズムを導入し、IPLのトレーニングデータをノイズ化し、安定性を向上させる。 次に、畳み込みニューラルネットワーク(CNN)と単純なリカレントユニット(SRU)ジョイントアルゴリズムを用いて、IPL特性に基づく2層ディープラーニングネットワークを用いて、IPLの非侵襲的かつ非侵襲的な分解プロセスを実現する。 具体的には、CNNを用いてIPLデータの特徴を抽出し、改良された長短メモリ(LSTM)ネットワークであるSRUを採用して分解モデルを構築し、さらに負荷データをトレーニングする。 頑健な分解過程を通じて、負荷消費の基盤となる関係を抽出する。 数値例から得られた結果から,本手法は従来の分解過程における最先端技術よりも優れていることがわかった。

The knowledge of the users' electricity consumption pattern is an important coordinating mechanism between the utility company and the electricity consumers in terms of key decision makings. The load decomposition is therefore crucial to reveal the underlying relationship between the load consumption and its characteristics. However, load decomposition is conventionally performed on the residential and commercial loads, and adequate consideration has not been given to the high-energy-consuming industrial loads leading to inefficient results. This paper thus focuses on the load decomposition of the industrial park loads (IPL). The commonly used parameters in a conventional method are however inapplicable in high-energy-consuming industrial loads. Therefore, a more robust approach is developed comprising a three-algorithm model to achieve this goal on the IPL. First, the improved variational mode decomposition (IVMD) algorithm is introduced to denoise the training data of the IPL and improve its stability. Secondly, the convolutional neural network (CNN) and simple recurrent units (SRU) joint algorithms are used to achieve a non-intrusive and non-invasive decomposition process of the IPL using a double-layer deep learning network based on the IPL characteristics. Specifically, CNN is used to extract the IPL data characteristics while the improved long and short-term memory (LSTM) network, SRU, is adopted to develop the decomposition model and further train the load data. Through the robust decomposition process, the underlying relationship in the load consumption is extracted. The results obtained from the numerical examples show that this approach outperforms the state-of-the-art in the conventional decomposition process.
翻訳日:2022-03-15 17:42:47 公開日:2022-03-11
# ディスプレイ広告における印象割当とポリシー検索

Impression Allocation and Policy Search in Display Advertising ( http://arxiv.org/abs/2203.07073v1 )

ライセンス: Link先を確認
Di Wu and Cheng Chen and Xiujun Chen and Junwei Pan and Xun Yang and Qing Tan and Jian Xu and Kuang-Chih Lee(参考訳) オンラインディスプレイ広告では、保証契約とリアルタイム入札(RTB)が出版社にインプレッションを売る主要な方法である。 大手出版社では、保証契約と社内rtbの両方を通じて同時にインプレッションを販売することが人気となっている。 一般的に言って、出版社は保証契約とrtbの間の印象配分戦略を導出して、全体的な結果(例えば、収益および/または印象品質)を最大化する必要がある。 しかし、最適な戦略を導出することは簡単な作業ではなく、例えば、RTBにおけるインセンティブの適合を奨励し、不安定な交通パターン(例えば、印象量や入札状況の変化)のような現実のアプリケーションにおける共通の課題に取り組むべきである。 本稿では,各契約が個別のインプレッションに対して仮想入札を行うオークション問題として,インプレッション割り当てを定式化する。 この定式化により、保証契約の最適入札関数が導出され、その結果、最適な印象割り当てが得られる。 不安定なトラフィックパターンの課題に対処し、最適な総合的な結果を達成するために、保証された各契約からの入札を調整するためのマルチエージェント強化学習手法を提案する。 実世界のデータセットを用いて実験を行い,本手法の有効性を実証した。

In online display advertising, guaranteed contracts and real-time bidding (RTB) are two major ways to sell impressions for a publisher. For large publishers, simultaneously selling impressions through both guaranteed contracts and in-house RTB has become a popular choice. Generally speaking, a publisher needs to derive an impression allocation strategy between guaranteed contracts and RTB to maximize its overall outcome (e.g., revenue and/or impression quality). However, deriving the optimal strategy is not a trivial task, e.g., the strategy should encourage incentive compatibility in RTB and tackle common challenges in real-world applications such as unstable traffic patterns (e.g., impression volume and bid landscape changing). In this paper, we formulate impression allocation as an auction problem where each guaranteed contract submits virtual bids for individual impressions. With this formulation, we derive the optimal bidding functions for the guaranteed contracts, which result in the optimal impression allocation. In order to address the unstable traffic pattern challenge and achieve the optimal overall outcome, we propose a multi-agent reinforcement learning method to adjust the bids from each guaranteed contract, which is simple, converging efficiently and scalable. The experiments conducted on real-world datasets demonstrate the effectiveness of our method.
翻訳日:2022-03-15 17:18:55 公開日:2022-03-11
# 確率的構成ネットワークのための新しい学習パラダイム:SCN+

A New Learning Paradigm for Stochastic Configuration Network: SCN+ ( http://arxiv.org/abs/2203.07068v1 )

ライセンス: Link先を確認
Yanshuang Ao, Xinyu Zhou and Wei Dai(参考訳) 教師と学生のインタラクションメカニズムの先駆けとなった特権情報(LUPI)パラダイムを用いた学習は、学習モデルをトレーニング段階で追加情報を使用するようにする。 本稿では,確率的構成ネットワーク(SCN+)のためのLUPIパラダイムを用いた漸進学習アルゴリズムを初めて提案する。 このアルゴリズムは、SCNをトレーニングする新しい方法を提供する訓練段階において、特権情報をSCNに活用することができる。 さらに,本論文では収束について検討した。 最後に, SCN+が好適な性能を示した。

Learning using privileged information (LUPI) paradigm, which pioneered teacher-student interaction mechanism, makes the learning models use additional information in training stage. This paper is the first to propose an incremental learning algorithm with LUPI paradigm for stochastic configuration network (SCN), named SCN+. This novel algorithm can leverage privileged information into SCN in the training stage, which provides a new method to train SCN. Moreover, the convergences have been studied in this paper. Finally, experimental results indicate that SCN+ indeed performs favorably.
翻訳日:2022-03-15 16:52:00 公開日:2022-03-11
# 生成的対向ネットワークに基づく医用超音波画像の半教師付き分類

Semi-supervised classification of medical ultrasound images based on generative adversarial network ( http://arxiv.org/abs/2203.06184v1 )

ライセンス: Link先を確認
Zhaoshan Liu, Chau Hung Lee, Lei Shen(参考訳) 医用超音波(US)は、臨床における最も広く用いられている画像モダリティの1つである。 しかし、その使用は可変撮像品質などのユニークな課題を呈する。 深層学習(DL)は先進的な医用US画像解析ツールとして利用でき、DLモデルの性能は大きなデータセットの不足によって大幅に制限される。 そこで我々は,7つの畳み込みニューラルネットワーク(CNN)モデルと,最も最先端なGANモデルであるStyleGAN2-ADAを構築することにより,半教師付き分類強化(SSCE)構造を構築した。 780画像の乳がんデータセットをベースデータセットとして使用します。 その結果、ssce構造は最大97.9%の精度を示し、cnnモデル単独と比較して最大21.6%改善し、同じデータセットを用いた従来の手法を23.9%上回った。 提案手法は,医療用US画像のオンザフライ診断の補助ツールとして有用であると考えられた。

Medical ultrasound (US) is one of the most widely used imaging modalities in clinical practice. However, its use presents unique challenges such as variable imaging quality. Deep learning (DL) can be used as an advanced medical US images analysis tool, while the performance of the DL model is greatly limited by the scarcity of big datasets. Here, we develop semi-supervised classification enhancement (SSCE) structures by constructing seven convolutional neural network (CNN) models and one of the most state-of-the-art generative adversarial network (GAN) models, StyleGAN2-ADA, to address this problem. A breast cancer dataset with 780 images is used as our base dataset. The results show that our SSCE structures obtain an accuracy of up to 97.9%, showing a maximum 21.6% improvement compared with utilizing CNN models alone and outperforming the previous methods using the same dataset by up to 23.9%. We believe our proposed state-of-the-art method can be regarded as a potential auxiliary tool for on-the-fly diagnoses of medical US images.
翻訳日:2022-03-15 16:49:18 公開日:2022-03-11
# 多忠実ベイズ最適化による12誘導心電図からの心活性化マップの学習

Learning cardiac activation maps from 12-lead ECG with multi-fidelity Bayesian optimization on manifolds ( http://arxiv.org/abs/2203.06222v1 )

ライセンス: Link先を確認
Simone Pezzuto, Paris Perdikaris, Francisco Sahli Costabal(参考訳) 心臓の異所性活性化を非侵襲的に同定する方法を提案する。 心臓のアトピー活動は致命的な不整脈を引き起こす。 異所性葉または早期活性化部位(EASs)の局在は、最適治療を決定する上で、心臓科医にとって重要な情報である。 本研究では、心モデルで予測される心電図と、easでペーストした場合の心電図のミスマッチを最小化し、大域的最適化問題として同定問題を定式化する。 心臓モデルでは心電図計算の鉛場アプローチを用いて,心臓活性化の異方性等方性等方性等方性方程式と胴体前二ドメインモデルを解く。 心臓表面における損失関数のガウス過程シュロゲートモデルを構築し,ベイズ最適化を行う。 本手法では, 表面の探索と最小領域の搾取を組み合わせることで, 低信頼境界条件に従う損失関数を反復的に評価する。 このフレームワークを拡張して、モデルの複数のレベルの忠実さを取り入れます。 我々は、単一忠実度の場合の111.7\pm10.4$反復(20独立ラン)と多忠実度の場合の3.5\pm1.7$反復(英語版)の後に最小限に収束することを示した。 我々は、このツールを臨床現場でリアルタイムで適用し、潜在的に危険なERSを特定することを想定している。

We propose a method for identifying an ectopic activation in the heart non-invasively. Ectopic activity in the heart can trigger deadly arrhythmias. The localization of the ectopic foci or earliest activation sites (EASs) is therefore a critical information for cardiologists in deciding the optimal treatment. In this work, we formulate the identification problem as a global optimization problem, by minimizing the mismatch between the ECG predicted by a cardiac model, when paced at a given EAS, and the observed ECG during the ectopic activity. Our cardiac model amounts at solving an anisotropic eikonal equation for cardiac activation and the forward bidomain model in the torso with the lead field approach for computing the ECG. We build a Gaussian process surrogate model of the loss function on the heart surface to perform Bayesian optimization. In this procedure, we iteratively evaluate the loss function following the lower confidence bound criterion, which combines exploring the surface with exploitation of the minimum region. We also extend this framework to incorporate multiple levels of fidelity of the model. We show that our procedure converges to the minimum only after $11.7\pm10.4$ iterations (20 independent runs) for the single-fidelity case and $3.5\pm1.7$ iterations for the multi-fidelity case. We envision that this tool could be applied in real time in a clinical setting to identify potentially dangerous EASs.
翻訳日:2022-03-15 14:34:36 公開日:2022-03-11
# 文法的役割を分類するとき、BERTは単語の順序を気にしません。

When classifying grammatical role, BERT doesn't care about word order... except when it matters ( http://arxiv.org/abs/2203.06204v1 )

ライセンス: Link先を確認
Isabel Papadimitriou and Richard Futrell and Kyle Mahowald(参考訳) 意味はしばしば語彙意味論から推測されるので、自然言語では語順が冗長な手がかりであることが多い。 例えば、「タマネギを刻んだシェフ」ではなく、「タマネギを刻んだシェフ」という語が使われることが多い。 近年の研究では、大きな言語モデルは驚くほどの語順不変であることが示されているが、重要なことは、合成の意味が主に語彙的期待と一致する自然の原型入力と見なされている。 この欠点を克服するために、語彙期待が十分でない場合において、英文BERTとGPT-2の文法的役割表現を探索し、正しい分類には単語順の知識が必要である。 このような非原型的な例は、自然に生じる英語の文に、無生物の主語やアニメーターのオブジェクト、あるいは"The Onion chopped the chef"のような文を体系的に交換する文である。 初期の層埋め込みはほとんど語彙的だが、語順は意味論的に非定型的な位置で単語の後層表現を定義するのに不可欠である。 実験では,単語の順序が文脈化過程に与える影響を分離し,モデルがコンテキストをどのように使用するかを明らかにする。

Because meaning can often be inferred from lexical semantics alone, word order is often a redundant cue in natural language. For example, the words chopped, chef, and onion are more likely used to convey "The chef chopped the onion," not "The onion chopped the chef." Recent work has shown large language models to be surprisingly word order invariant, but crucially has largely considered natural prototypical inputs, where compositional meaning mostly matches lexical expectations. To overcome this confound, we probe grammatical role representation in English BERT and GPT-2, on instances where lexical expectations are not sufficient, and word order knowledge is necessary for correct classification. Such non-prototypical instances are naturally occurring English sentences with inanimate subjects or animate objects, or sentences where we systematically swap the arguments to make sentences like "The onion chopped the chef". We find that, while early layer embeddings are largely lexical, word order is in fact crucial in defining the later-layer representations of words in semantically non-prototypical positions. Our experiments isolate the effect of word order on the contextualization process, and highlight how models use context in the uncommon, but critical, instances where it matters.
翻訳日:2022-03-15 14:33:52 公開日:2022-03-11
# オンライン・キャピタル・レターに基づくジェンダーの自動認識に関する予備実験

Preliminary experiments on automatic gender recognition based on online capital letters ( http://arxiv.org/abs/2203.06265v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Enric Sesa-Nogueras(参考訳) 本稿では,大文字を用いたオンライン手書きテキストの自動分類実験について述べる。 手書きテキストは、顔や声ほど差別的ではないが、まだ手書きテキストに基づく性別分類の可能性が残っている。 最も難しい大文字の場合でさえ、アキュラシーは最大74%である。

In this paper we present some experiments to automatically classify online handwritten text based on capital letters. Although handwritten text is not as discriminative as face or voice, we still found some chance for gender classification based on handwritten text. Accuracies are up to 74%, even in the most challenging case of capital letters.
翻訳日:2022-03-15 14:20:45 公開日:2022-03-11
# 例を見せてもらえますか? 属性と関係のロングテールとしてのアクティブラーニング

Can I see an Example? Active Learning the Long Tail of Attributes and Relations ( http://arxiv.org/abs/2203.06215v1 )

ライセンス: Link先を確認
Tyler L. Hayes, Maximilian Nickel, Christopher Kanan, Ludovic Denoyer, Arthur Szlam(参考訳) シーン内のオブジェクトと関連する属性や関係を識別する機械学習モデルの作成には大きな進歩がありますが、最高のモデルと人間の能力の間には大きなギャップがあります。 このギャップの大きな理由の1つは、これらのシステムのトレーニングに十分な量の注釈付き関係と属性を集めることの難しさである。 いくつかの属性と関係は豊富であるが、自然界と既存のデータセットの分布は長い尾根がある。 本稿では,視覚シーンの属性や関係を問う,新たな能動学習フレームワークを導入することで,この問題に対処する。 従来のアクティブラーニング手法では、特定の例のラベルを要求するが、エージェントが特定のカテゴリから例を求めることができるように、このフレーミングをひっくり返す。 このフレーミングを用いて、データ分布の尾からサンプルを求めるアクティブサンプリング手法を導入し、Visual Genomeの古典的アクティブラーニング手法よりも優れていることを示す。

There has been significant progress in creating machine learning models that identify objects in scenes along with their associated attributes and relationships; however, there is a large gap between the best models and human capabilities. One of the major reasons for this gap is the difficulty in collecting sufficient amounts of annotated relations and attributes for training these systems. While some attributes and relations are abundant, the distribution in the natural world and existing datasets is long tailed. In this paper, we address this problem by introducing a novel incremental active learning framework that asks for attributes and relations in visual scenes. While conventional active learning methods ask for labels of specific examples, we flip this framing to allow agents to ask for examples from specific categories. Using this framing, we introduce an active sampling method that asks for examples from the tail of the data distribution and show that it outperforms classical active learning methods on Visual Genome.
翻訳日:2022-03-15 14:09:38 公開日:2022-03-11
# 攻撃からの学習:画像分類を改善する変分オートエンコーダの攻撃

Learning from Attacks: Attacking Variational Autoencoder for Improving Image Classification ( http://arxiv.org/abs/2203.07027v1 )

ライセンス: Link先を確認
Jianzhang Zheng, Fan Yang, Hao Shen, Xuan Tang, Mingsong Chen, Liang Song, Xian Wei(参考訳) 敵対的攻撃はディープニューラルネットワーク(DNN)の堅牢性に対する脅威とみなされることが多い。 タスク予測に対する敵攻撃の潜在的な負の影響を軽減するために、様々な防御技術が開発されている。 この研究は、異なる観点から敵の攻撃を分析する。 すなわち、敵対的な例としては、予測に有用な暗黙的な情報、すなわち画像分類、データ自己表現のためのDNNに対する敵対的な攻撃を、特定の学習タスクを円滑に行うことができる抽出抽象表現として扱う。 画像分類を改善するために,データ自己表現とタスク固有予測にDNNの利点を利用するアルゴリズムフレームワークを提案する。 このフレームワークは、変分オートコーダ(VAE)ネットワークを攻撃するためのDNNと分類のためのDNNを共同で学習する。 実験の結果, AVICは, クリーンな例によるトレーニングや従来の逆行訓練と比較して, 標準データセットの精度が高いことがわかった。

Adversarial attacks are often considered as threats to the robustness of Deep Neural Networks (DNNs). Various defending techniques have been developed to mitigate the potential negative impact of adversarial attacks against task predictions. This work analyzes adversarial attacks from a different perspective. Namely, adversarial examples contain implicit information that is useful to the predictions i.e., image classification, and treat the adversarial attacks against DNNs for data self-expression as extracted abstract representations that are capable of facilitating specific learning tasks. We propose an algorithmic framework that leverages the advantages of the DNNs for data self-expression and task-specific predictions, to improve image classification. The framework jointly learns a DNN for attacking Variational Autoencoder (VAE) networks and a DNN for classification, coined as Attacking VAE for Improve Classification (AVIC). The experiment results show that AVIC can achieve higher accuracy on standard datasets compared to the training with clean examples and the traditional adversarial training.
翻訳日:2022-03-15 14:05:08 公開日:2022-03-11
# 二元化ニューラルネットワークの特性検証のための混合整数計画法

A Mixed Integer Programming Approach for Verifying Properties of Binarized Neural Networks ( http://arxiv.org/abs/2203.07078v1 )

ライセンス: Link先を確認
Christopher Lazarus and Mykel J. Kochenderfer(参考訳) 近年,ニューラルネットワークの入出力特性を検証する手法が数多く提案されている。 しかし、既存のアルゴリズムは大規模ネットワークではスケールしない。 モデル圧縮の分野における最近の研究は、パラメータとアクティベーションがバイナリであるバイナライズニューラルネットワーク(BNN)を研究している。 BNNは完全精度に比べて性能がわずかに低下する傾向にあるが、検証は容易である。 本稿では,ネットワーク構造を利用したBNN検証のための単純な混合整数計画法を提案する。 本手法は,MNISTデータセットと航空機衝突回避制御器を用いて訓練したBNNの特性を検証することで実証する。 本手法のランタイムを,ニューラルネットワークの最先端検証アルゴリズムと比較した。 その結果、BNNの訓練の難しさは、我々の検証アルゴリズムが達成したランタイムの削減に価値があることが示唆された。

Many approaches for verifying input-output properties of neural networks have been proposed recently. However, existing algorithms do not scale well to large networks. Recent work in the field of model compression studied binarized neural networks (BNNs), whose parameters and activations are binary. BNNs tend to exhibit a slight decrease in performance compared to their full-precision counterparts, but they can be easier to verify. This paper proposes a simple mixed integer programming formulation for BNN verification that leverages network structure. We demonstrate our approach by verifying properties of BNNs trained on the MNIST dataset and an aircraft collision avoidance controller. We compare the runtime of our approach against state-of-the-art verification algorithms for full-precision neural networks. The results suggest that the difficulty of training BNNs might be worth the reduction in runtime achieved by our verification algorithm.
翻訳日:2022-03-15 14:03:06 公開日:2022-03-11
# projUNN: ユニタリ行列を用いたディープネットワークの効率的なトレーニング方法

projUNN: efficient method for training deep networks with unitary matrices ( http://arxiv.org/abs/2203.05483v2 )

ライセンス: Link先を確認
Bobak Kiani, Randall Balestriero, Yann Lecun, Seth Lloyd(参考訳) 繰り返しまたは非常に深いフィードフォワードネットワークで学習する場合、各層に一元行列を用いることは、長距離安定性を維持するのに非常に効果的である。 しかし、ネットワークパラメータをユニタリに制限することは、通常、高価なパラメータ化やトレーニングランタイムの増加のコストがかかる。 代わりに、ほぼ最適なトレーニングランタイムでパフォーマンスを維持する、ランク-$k$ 更新 -- またはランク-$k$近似 -- に基づく効率的なメソッドを提案します。 本手法の2つの変種である Direct (projUNN-D) と Tangent (projUNN-T) は、フル$N$次元のユニタリ行列や直交行列を$O(kN^2)$としてパラメータ化することができる。 本手法は, 最寄りのユニタリ行列 (projUNN-T) に低ランク勾配を投影するか, 低ランク勾配 (projUNN-D) の方向にユニタリ行列を輸送する。 最速設定(k=1$)であっても、projunnはモデルのユニタリパラメータをトレーニングして、ベースライン実装と同等のパフォーマンスに達することができる。 ProjUNNアルゴリズムをリカレントニューラルネットワークと畳み込みニューラルネットワークの両方に統合することで、我々のモデルは最先端のアルゴリズムのベンチマーク結果と密に一致または超えることができる。

In learning with recurrent or very deep feed-forward networks, employing unitary matrices in each layer can be very effective at maintaining long-range stability. However, restricting network parameters to be unitary typically comes at the cost of expensive parameterizations or increased training runtime. We propose instead an efficient method based on rank-$k$ updates -- or their rank-$k$ approximation -- that maintains performance at a nearly optimal training runtime. We introduce two variants of this method, named Direct (projUNN-D) and Tangent (projUNN-T) projected Unitary Neural Networks, that can parameterize full $N$-dimensional unitary or orthogonal matrices with a training runtime scaling as $O(kN^2)$. Our method either projects low-rank gradients onto the closest unitary matrix (projUNN-T) or transports unitary matrices in the direction of the low-rank gradient (projUNN-D). Even in the fastest setting ($k=1$), projUNN is able to train a model's unitary parameters to reach comparable performances against baseline implementations. By integrating our projUNN algorithm into both recurrent and convolutional neural networks, our models can closely match or exceed benchmarked results from state-of-the-art algorithms.
翻訳日:2022-03-15 11:24:57 公開日:2022-03-11
# (参考訳) Answer-Agnostic Paragraph-level Multi-Question Generation の評価について

On the Evaluation of Answer-Agnostic Paragraph-level Multi-Question Generation ( http://arxiv.org/abs/2203.04464v2 )

ライセンス: CC BY 4.0
Jishnu Ray Chowdhury, Debanjan Mahata, Cornelia Caragea(参考訳) 我々は,ある段落から有意な質問の集合を,その回答を事前に知ることなく予測するタスクについて検討する。 主な貢献は2つある。 まず、ハンガリーのアルゴリズムを用いて、与えられたペアを得点する前に、予測された質問を基準に割り当てることにより、参照集合に対して予測された質問集合を評価する新しい方法を提案する。 提案手法は,参照範囲を適切に考慮できるため,従来の手法に比べて理論的,実用的特性が優れていることを示す。 第2に,事前学習したseq2seqモデルを用いて,与えられた段落に関連する質問セットを生成し,選択するための異なる戦略を比較する。 コードは利用可能です。

We study the task of predicting a set of salient questions from a given paragraph without any prior knowledge of the precise answer. We make two main contributions. First, we propose a new method to evaluate a set of predicted questions against the set of references by using the Hungarian algorithm to assign predicted questions to references before scoring the assigned pairs. We show that our proposed evaluation strategy has better theoretical and practical properties compared to prior methods because it can properly account for the coverage of references. Second, we compare different strategies to utilize a pre-trained seq2seq model to generate and select a set of questions related to a given paragraph. The code is available.
翻訳日:2022-03-15 00:39:12 公開日:2022-03-11
# (参考訳) グループベースセグメンテーションのための統一トランスフォーマフレームワーク:コセグメンテーション,コサリエンシー検出,ビデオサルエント物体検出

A Unified Transformer Framework for Group-based Segmentation: Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection ( http://arxiv.org/abs/2203.04708v2 )

ライセンス: CC0 1.0
Yukun Su, Jingliang Deng, Ruizhou Sun, Guosheng Lin, Qingyao Wu(参考訳) 人間は、動的な世界に住んでいるため、画像のグループやビデオのフレームから学習することで、オブジェクトをマイニングする傾向があります。 コンピュータビジョン領域では、コセグメンテーション(CoS)、コセグメンテーション検出(CoSD)、ビデオサルエントオブジェクト検出(VSOD)に焦点をあてて、コセグメンテーション(CoS)を検出する。 しかし、従来のアプローチでは、これらの類似したタスク上で異なるネットワークを個別に設計しており、互いに適用することは困難であり、ディープラーニングフレームワークの転送可能性の上限を低くする。 さらに、画像グループ内の機能間および機能内におけるヒントを十分に活用できていない。 本稿では,これらの問題に取り組むための統一フレームワークであるufo(unified framework for co-object segmentation)を提案する。 具体的には、まず、画像の特徴をパッチトークンとみなし、自己保持機構を通じてそれらの長距離依存関係をキャプチャするトランスフォーマーブロックを導入する。 これにより、ネットワークが関連するオブジェクト間のパッチ構造上の類似性を発掘するのに役立つ。 さらに,部分的アクティベーションを回避するために,自己マスクを生成するMLP内学習モジュールを提案する。 4つのCoSベンチマーク(PASCAL、iCoseg、Internet、MSRC)、3つのCoSDベンチマーク(Cosal2015、CoSOD3k、CocA)と4つのVSODベンチマーク(DAVIS16、FBMS、ViSal、SegV2)の大規模な実験により、我々の手法は、同じネットワークアーキテクチャを用いて3つの異なるタスクにおいて、精度と速度の両方において、140 FPSまでリアルタイムに到達できる他の最先端技術よりも優れていることが示された。

Humans tend to mine objects by learning from a group of images or several frames of video since we live in a dynamic world. In the computer vision area, many researches focus on co-segmentation (CoS), co-saliency detection (CoSD) and video salient object detection (VSOD) to discover the co-occurrent objects. However, previous approaches design different networks on these similar tasks separately, and they are difficult to apply to each other, which lowers the upper bound of the transferability of deep learning frameworks. Besides, they fail to take full advantage of the cues among inter- and intra-feature within a group of images. In this paper, we introduce a unified framework to tackle these issues, term as UFO (Unified Framework for Co-Object Segmentation). Specifically, we first introduce a transformer block, which views the image feature as a patch token and then captures their long-range dependencies through the self-attention mechanism. This can help the network to excavate the patch structured similarities among the relevant objects. Furthermore, we propose an intra-MLP learning module to produce self-mask to enhance the network to avoid partial activation. Extensive experiments on four CoS benchmarks (PASCAL, iCoseg, Internet and MSRC), three CoSD benchmarks (Cosal2015, CoSOD3k, and CocA) and four VSOD benchmarks (DAVIS16, FBMS, ViSal and SegV2) show that our method outperforms other state-of-the-arts on three different tasks in both accuracy and speed by using the same network architecture , which can reach 140 FPS in real-time.
翻訳日:2022-03-15 00:20:55 公開日:2022-03-11
# (参考訳) BEAT:対話型ジェスチャー合成のための大規模意味・感情多モードデータセット

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis ( http://arxiv.org/abs/2203.05297v2 )

ライセンス: CC BY 4.0
Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng(参考訳) 現実的で、鮮明で、人間らしく合成された会話ジェスチャをマルチモーダルデータに条件付けすることは、利用可能なデータセット、モデル、標準評価メトリクスが欠如しているため、まだ未解決の問題である。 これを解決するために、Body-Expression-Audio-Text データセット BEAT を構築しました。 i) 76時間,高品質,マルチモーダルデータ,30人の話者が8つの異なる感情を話し,4つの異なる言語で話すこと。 二百三百万のフレームレベルの感情及び意味関連アノテーション。beatに関する統計的分析は、音声、テキスト、話者のアイデンティティとの既知の相関に加えて、表情、感情、意味論と会話のジェスチャーの相関を示す。 質的かつ定量的な実験は、メトリクスの妥当性、真実のデータ品質、ベースラインの最先端のパフォーマンスを示す。 我々の知る限り、BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットであり、制御可能なジェスチャー合成、相互モダリティ分析、感情的なジェスチャー認識など、さまざまな研究分野に寄与する可能性がある。 データ、コード、モデルは研究のためにリリースされます。

Achieving realistic, vivid, and human-like synthesized conversational gestures conditioned on multi-modal data is still an unsolved problem, due to the lack of available datasets, models and standard evaluation metrics. To address this, we build Body-Expression-Audio-Text dataset, BEAT, which has i) 76 hours, high-quality, multi-modal data captured from 30 speakers talking with eight different emotions and in four different languages, ii) 32 millions frame-level emotion and semantic relevance annotations.Our statistical analysis on BEAT demonstrates the correlation of conversational gestures with facial expressions, emotions, and semantics, in addition to the known correlation with audio, text, and speaker identity. Qualitative and quantitative experiments demonstrate metrics' validness, ground truth data quality, and baseline's state-of-the-art performance. To the best of our knowledge, BEAT is the largest motion capture dataset for investigating the human gestures, which may contribute to a number of different research fields including controllable gesture synthesis, cross-modality analysis, emotional gesture recognition. The data, code and model will be released for research.
翻訳日:2022-03-14 22:54:04 公開日:2022-03-11
# (参考訳) カメラカメラ内ハイパースペクトル画像処理の効率化に向けて

Toward Efficient Hyperspectral Image Processing inside Camera Pixels ( http://arxiv.org/abs/2203.05696v1 )

ライセンス: CC BY 4.0
Gourav Datta, Zihan Yin, Ajey Jacob, Akhilesh R. Jaiswal, Peter A. Beerel(参考訳) ハイパースペクトルカメラは、従来のカメラでは3つのチャンネル(赤、緑、青)のみではなく、数百のスペクトルバンドが存在するため、大量のデータを生成する。 これはハイパースペクトル画像センサと、画像の分類/検出/追跡に使用されるプロセッサ、フレーム単位のフレーム、高エネルギーの出力、帯域幅とセキュリティボトルネックの原因となる。 この問題を軽減するために,高スペクトル画像認識 (HSI) のための最新の畳み込みニューラルネットワーク (CNN) が必要とする幅広い複雑な操作を実現するために,高度なCMOS技術を活用した処理インピクセル (PIP) 方式を提案する。 その結果、我々のPIP最適化カスタムCNN層は、入力データを効果的に圧縮し、データをHSI処理ユニットに下流に送信するために必要な帯域幅を大幅に削減する。 これにより、カメラの画素配列とcnn処理ユニットに関する平均エネルギー消費量が、既存のハードウェア実装と比較してそれぞれ25.06倍と3.90倍削減される。 当社のカスタムモデルでは,標準HSIベンチマークのベースラインモデルの0.56%以内で,平均的なテスト精度が得られます。

Hyperspectral cameras generate a large amount of data due to the presence of hundreds of spectral bands as opposed to only three channels (red, green, and blue) in traditional cameras. This requires a significant amount of data transmission between the hyperspectral image sensor and a processor used to classify/detect/track the images, frame by frame, expending high energy and causing bandwidth and security bottlenecks. To mitigate this problem, we propose a form of processing-in-pixel (PIP) that leverages advanced CMOS technologies to enable the pixel array to perform a wide range of complex operations required by the modern convolutional neural networks (CNN) for hyperspectral image recognition (HSI). Consequently, our PIP-optimized custom CNN layers effectively compress the input data, significantly reducing the bandwidth required to transmit the data downstream to the HSI processing unit. This reduces the average energy consumption associated with pixel array of cameras and the CNN processing unit by 25.06x and 3.90x respectively, compared to existing hardware implementations. Our custom models yield average test accuracies within 0.56% of the baseline models for the standard HSI benchmarks.
翻訳日:2022-03-14 20:35:48 公開日:2022-03-11
# (参考訳) 幾何学的合成:大規模パルププリント認識モデル事前学習のための無料ランチ

Geometric Synthesis: A Free lunch for Large-scale Palmprint Recognition Model Pretraining ( http://arxiv.org/abs/2203.05703v1 )

ライセンス: CC BY 4.0
Kai Zhao, Lei Shen, Yingyi Zhang, Chuhan Zhou, Tao Wang, Ruixin Zhang, Shouhong Ding, Wei Jia and Wei Shen(参考訳) palmprintsは、生体認証のためのプライベートで安定した情報である。 深層学習時代には、十分なトレーニングデータがないため、手のひら文字認識の発達が制限される。 本稿では, 深層学習に基づくパームプリント認識において, パームラークレーゼが鍵となる情報であることから, パームラークレーゼを操作することにより, トレーニングデータを合成することを提案する。 具体的には,パラメータ化されたb\'ezier曲線を持つ手のひら折り目を表す直観的幾何モデルを提案する。 b\'ezierパラメータをランダムにサンプリングすることで、多様なアイデンティティの膨大なトレーニングサンプルを合成し、大規模パームプリント認識モデルの事前トレーニングを可能にする。 実験の結果、これらの合成事前学習モデルは非常に強力な一般化能力を持つことが示され、それらは実データセットに効率的に転送され、パームプリント認識の性能が大幅に向上した。 例えば、オープンセットプロトコルでは、我々の手法は強力なArcFaceベースラインを TAR@1e-6 で 10 % 以上改善する。 また, 閉集合プロトコルの下では, 等誤差率(EER)を桁違いに低減する。

Palmprints are private and stable information for biometric recognition. In the deep learning era, the development of palmprint recognition is limited by the lack of sufficient training data. In this paper, by observing that palmar creases are the key information to deep-learning-based palmprint recognition, we propose to synthesize training data by manipulating palmar creases. Concretely, we introduce an intuitive geometric model which represents palmar creases with parameterized B\'ezier curves. By randomly sampling B\'ezier parameters, we can synthesize massive training samples of diverse identities, which enables us to pretrain large-scale palmprint recognition models. Experimental results demonstrate that such synthetically pretrained models have a very strong generalization ability: they can be efficiently transferred to real datasets, leading to significant performance improvements on palmprint recognition. For example, under the open-set protocol, our method improves the strong ArcFace baseline by more than 10\% in terms of TAR@1e-6. And under the closed-set protocol, our method reduces the equal error rate (EER) by an order of magnitude.
翻訳日:2022-03-14 20:26:13 公開日:2022-03-11
# (参考訳) GPGPU親和性探索によるDNNトレーニング高速化

DNN Training Acceleration via Exploring GPGPU Friendly Sparsity ( http://arxiv.org/abs/2203.05705v1 )

ライセンス: CC BY 4.0
Zhuoran Song, Yihong Xu, Han Li, Naifeng Jing, Xiaoyao Liang, Li Jiang(参考訳) Deep Neural Network~(DNN)のトレーニングフェーズは、膨大な処理時間とエネルギーを消費する。 DNNの間隔を利用した圧縮技術は、DNNの推論フェーズを効果的に加速させることができる。 しかし、トレーニングフェーズでは、正規および構造データレイアウトを支持するGPGPU(General-Purpose Computation on Graphics Processors)を使用して、密度の高い行列乗算を行うため、トレーニングフェーズではほとんど使われない。 本稿では,従来のランダムなニューロンとシナプスのドロップアウトを,正規およびオンラインに生成された行ベースあるいはタイルベースのドロップアウトパターンに置き換えて,多層パーセプトロン〜(MLP)と長短期記憶〜(LSTM)の不要な計算とデータアクセスをなくす近似ランダムドロップアウトを提案する。 次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。 さらに,畳み込みニューラルネットワーク~(CNN)学習加速を目指して,まず入力特徴マップの重要性と感度について検討し,その感度に基づいて入力特徴マップを動的にドロップして,より優れたNN精度を維持しつつ,より前方および後方へのトレーニング加速を実現するための感度対応ドロップアウト手法を提案する。 DNNプログラミングを容易にするために,提案手法をソフトウェアスタックに統一したDNNトレーニング計算フレームワークを構築した。 その結果、GPGPUは基本演算子 -- 行列乗算のみをサポートする必要があり、DNNモデルによらず、大幅な性能向上を実現することができる。

The training phases of Deep neural network~(DNN) consumes enormous processing time and energy. Compression techniques utilizing the sparsity of DNNs can effectively accelerate the inference phase of DNNs. However, it is hardly used in the training phase because the training phase involves dense matrix-multiplication using General-Purpose Computation on Graphics Processors (GPGPU), which endorse the regular and structural data layout. In this paper, we first propose the Approximate Random Dropout that replaces the conventional random dropout of neurons and synapses with a regular and online generated row-based or tile-based dropout patterns to eliminate the unnecessary computation and data access for the multilayer perceptron~(MLP) and long short-term memory~(LSTM). We then develop a SGD-based Search Algorithm that produces the distribution of row-based or tile-based dropout patterns to compensate for the potential accuracy loss. Moreover, aiming at the convolution neural network~(CNN) training acceleration, we first explore the importance and sensitivity of input feature maps; and then propose the sensitivity-aware dropout method to dynamically drop the input feature maps based on their sensitivity so as to achieve greater forward and backward training acceleration while reserving better NN accuracy. To facilitate DNN programming, we build a DNN training computation framework that unifies the proposed techniques in the software stack. As a result, the GPGPU only needs to support the basic operator -- matrix multiplication and can achieve significant performance improvement regardless of DNN model.
翻訳日:2022-03-14 20:11:56 公開日:2022-03-11
# (参考訳) 映画物語の合成:ストーリー理解のためのビデオ言語データセット

Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding ( http://arxiv.org/abs/2203.05711v1 )

ライセンス: CC BY 4.0
Yidan Sun, Qin Chao, Boyang Li(参考訳) 最近のaiの進歩にもかかわらず、ストーリー理解はオープンで未調査の問題だ。 我々は、人気映画やテレビシリーズの5,193本のビデオ要約を含むビデオ言語ストーリーデータセット、Synopses of Movie Narratives(SyMoN)を収集、前処理、公開している。 SyMoNは、人間のクリエーターによる人間のオーディエンスのための自然主義的なストーリーテリングビデオをキャプチャし、同様のビデオ言語によるストーリーデータセットよりも高いストーリーカバレッジとより頻繁なメンタルステート参照を持つ。 既存のビデオテキストデータセットと違い、SyMoNは、レポートバイアスとメンタルステート記述の頻度により、視覚とテキストのモダリティの間に大きな意味的ギャップがある。 映像要約ビデオにおけるビデオテキスト検索とゼロショットアライメントのベンチマークを確立する。 SyMoNでは、マルチモーダルなストーリー理解の進歩の基礎を築きたいと考えています。

Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives(SyMoN), containing 5,193 video summaries of popular movies and TV series. SyMoN captures naturalistic storytelling videos for human audience made by human creators, and has higher story coverage and more frequent mental-state references than similar video-language story datasets. Differing from most existing video-text datasets, SyMoN features large semantic gaps between the visual and the textual modalities due to the prevalence of reporting bias and mental state descriptions. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos. With SyMoN, we hope to lay the groundwork for progress in multimodal story understanding.
翻訳日:2022-03-14 19:55:48 公開日:2022-03-11
# (参考訳) 少量のラベルデータに基づく工業製品の表面欠陥検出に関する調査

A Survey of Surface Defect Detection of Industrial Products Based on A Small Number of Labeled Data ( http://arxiv.org/abs/2203.05733v1 )

ライセンス: CC BY 4.0
Qifan Jin (1), Li Chen (1 and 2) ((1) College of Computer and Artificial Intelligence, Zhengzhou University, (2) Institute of Physical Education (Main Campus), Zhengzhou University)(参考訳) 視覚的知覚に基づく表面欠陥検出法は,産業品質検査に広く用いられている。 欠陥データは容易に取得できないので、大量の欠陥データのアノテーションは、多くの人的資源と材料資源を無駄にします。 そこで本研究では,少数のラベル付きデータに基づいて,産業製品の表面欠陥検出手法をレビューし,従来の画像処理に基づく産業製品表面欠陥検出方法と,少数のラベル付きデータに適した深層学習に基づく産業製品表面欠陥検出方法に分割する。 従来の画像処理に基づく産業製品表面欠陥検出法は, 統計的方法, スペクトル法, モデル法に分けられる。 少数のラベル付きデータに適したディープラーニングに基づく工業製品表面欠陥検出手法を、転送学習、モデルに基づく微調整、半教師付き、弱教師付き、非教師付きに基づいてデータ拡張に基づいて分割する。

The surface defect detection method based on visual perception has been widely used in industrial quality inspection. Because defect data are not easy to obtain and the annotation of a large number of defect data will waste a lot of manpower and material resources. Therefore, this paper reviews the methods of surface defect detection of industrial products based on a small number of labeled data, and this method is divided into traditional image processing-based industrial product surface defect detection methods and deep learning-based industrial product surface defect detection methods suitable for a small number of labeled data. The traditional image processing-based industrial product surface defect detection methods are divided into statistical methods, spectral methods and model methods. Deep learning-based industrial product surface defect detection methods suitable for a small number of labeled data are divided into based on data augmentation, based on transfer learning, model-based fine-tuning, semi-supervised, weak supervised and unsupervised.
翻訳日:2022-03-14 19:35:01 公開日:2022-03-11
# (参考訳) クラウドコンピューティングにおける仮想デスクトップインフラストラクチャのためのQoS制御による効率的なビデオストリーミングアーキテクチャ

An Efficient Video Streaming Architecture with QoS Control for Virtual Desktop Infrastructure in Cloud Computing ( http://arxiv.org/abs/2203.05735v1 )

ライセンス: CC BY 4.0
Huu-Quoc Nguyen, Tien-Dung Nguyen, Van-Nam Pham, Xuan-Qui Pham, Quang-Thai Ngo, Eui-Nam Huh(参考訳) 仮想デスクトップインフラ(VDI)環境では、リモートディスプレイプロトコルは、データセンターがホストするデスクトップからエンドポイントにビデオデータを送信する大きな責任を持つ。 このプロトコルは、高い作業負荷条件下でクライアントが認識するエンドツーエンド品質(QoS)を保証しなければなりません。 各リモートディスプレイプロトコルは、ネットワークと、どのアプリケーションが配信されているかによって異なる。 医療アプリケーションでは、医師や看護師は患者を監視するために直接モバイルデバイスを利用できる。 さらに、CPUやその他のリソースの高消費を必要とするタスクを実装する能力は、研究やクラウドゲームを含む様々なアプリケーションに適用できる。 このようなコンピュータゲームや複雑なプロセスは強力なクラウドサーバ上で動作し、画面の内容はクライアントに送信される。 このようなアプリケーションを実現するために、リモートディスプレイ技術は帯域幅とqosの厳密な要件を満たすためにさらなる拡張を必要としている。 本稿では,ユーザエクスペリエンス(QoE)を改善するために,柔軟なQoS制御を含むアーキテクチャを提案する。 歴史ネットワークデータを用いた線形回帰モデルに基づいてQoS制御を開発した。 さらに、このアーキテクチャには、2D画像の新たな圧縮アルゴリズムが含まれており、最高の画質を保証し、動画の遅延を低減し、k平均クラスタリングに基づいており、リアルタイムのオンボード処理の要求を満たすことができる。 我々は,MIT Computer Science and Artificial Labが収集した実作業データセットを用いてシミュレーションを行い,QoSシステムの性能を説明するとともに実験を行った。

In virtual desktop infrastructure (VDI) environments, the remote display protocol has a big responsibility to transmit video data from a data center-hosted desktop to the endpoint. The protocol must ensure a high level of client perceived end-to-end quality of service (QoS) under heavy work load conditions. Each remote display protocol works differently depending on the network and which applications are being delivered. In healthcare applications, doctors and nurses can use mobile devices directly to monitor patients. Moreover, the ability to implement tasks requiring high consumption of CPU and other resources is applicable to a variety of applications including research and cloud gaming. Such computer games and complex processes will run on powerful cloud servers and the screen contents will be transmitted to the client. TO enable such applications, remote display technology requires further enhancements to meet more stringent requirements on bandwidth and QoS, an to allow realtime operation. In this paper, we present an architecture including flexible QoS control to improve the user quality of experience (QoE). The QoS control is developed based on linear regression modeling using historical network data. Additionally, the architecture includes a novel compression algorithm of 2D images, designed to guarantee the best image quality and to reduce video delay; this algorithm is based on k-means clustering and can satisfy the requirements of realtime onboard processing. Through simulations with a real work dataset collected by the MIT Computer Science and Artificial Lab, we present experimental as well as explain the performance of the QoS system.
翻訳日:2022-03-14 19:24:07 公開日:2022-03-11
# (参考訳) アクティブドメイン適応への特有なマージンの学習

Learning Distinctive Margin toward Active Domain Adaptation ( http://arxiv.org/abs/2203.05738v1 )

ライセンス: CC BY 4.0
Ming Xie, Yuxi Li, Yabiao Wang, Zekun Luo, Zhenye Gan, Zhongyi Sun, Mingmin Chi, Chengjie Wang, Pei Wang(参考訳) 教師なしあるいは数発の半教師付き設定下でのドメイン適応能力(DA)の改善に多くの取り組みがあったが、最近、ターゲットデータに限定されたアノテーションリソースでより実用的な方法でモデルを転送できるため、アクティブラーニングのソリューションが注目されるようになった。 しかしながら、ほとんどのアクティブな学習方法は、データ分散間のドメインギャップを処理するように設計されていないが、一方、いくつかのアクティブなドメイン適応法(ADA)は通常、オーバーフィッティングに弱い複雑なクエリ関数を必要とする。 本研究では,最大マージン損失とデータ選択のためのマージンサンプリングアルゴリズムからなるsdm(select-by-distinctive-margin)と呼ばれる簡潔かつ効果的なada法を提案する。 我々は,SDMがSupport Vector Machineのように機能し,決定境界のハードな例を格納し,それらを活用して情報的かつ伝達可能なデータを見つけることを理論的に示す。 また,本手法の2つの変種を提案する。1つはマージン損失からの勾配を適応的に調整し,もう1つは勾配方向を考慮したマージンサンプリングの選択性を高める。 我々は、SDMを標準的なアクティブな学習設定でベンチマークし、我々のアルゴリズムが優れたデータスケーラビリティで競合する結果を達成することを実証した。 コードはhttps://github.com/TencentYoutuResearch/ActiveLearning-SDMで入手できる。

Despite plenty of efforts focusing on improving the domain adaptation ability (DA) under unsupervised or few-shot semi-supervised settings, recently the solution of active learning started to attract more attention due to its suitability in transferring model in a more practical way with limited annotation resource on target data. Nevertheless, most active learning methods are not inherently designed to handle domain gap between data distribution, on the other hand, some active domain adaptation methods (ADA) usually requires complicated query functions, which is vulnerable to overfitting. In this work, we propose a concise but effective ADA method called Select-by-Distinctive-Margin (SDM), which consists of a maximum margin loss and a margin sampling algorithm for data selection. We provide theoretical analysis to show that SDM works like a Support Vector Machine, storing hard examples around decision boundaries and exploiting them to find informative and transferable data. In addition, we propose two variants of our method, one is designed to adaptively adjust the gradient from margin loss, the other boosts the selectivity of margin sampling by taking the gradient direction into account. We benchmark SDM with standard active learning setting, demonstrating our algorithm achieves competitive results with good data scalability. Code is available at https://github.com/TencentYoutuResearch/ActiveLearning-SDM
翻訳日:2022-03-14 19:08:39 公開日:2022-03-11
# (参考訳) 物理インフォームド強化学習による流体の知覚と推論

Physics-informed Reinforcement Learning for Perception and Reasoning about Fluids ( http://arxiv.org/abs/2203.05775v1 )

ライセンス: CC BY 4.0
Beatriz Moya, Alberto Badias, David Gonzalez, Francisco Chinesta, Elias Cueto(参考訳) 物理現象の学習と推論はロボット工学の発展において依然として課題であり、計算科学は過去の出来事の説明や将来の状況を厳密に予測できる正確な方法の探索において重要な役割を担っている。 流体知覚と観測からの推論のための物理インフォームド強化学習戦略を提案する。 モデル問題として,ガラスに含まれる異なる流体のスロッシング現象を考察する。 特定の流体のフルフィールドおよび高分解能合成データから始め, 商品カメラで自由表面を観測した未検出液体の追跡(知覚)と分析(共鳴)の方法を開発した。 このアプローチは、データ駆動(グレーボックス)モデリングだけでなく、低データ状態における実際の物理適応の補正や、ダイナミクスの部分的な観察においても、物理学と知識の重要性を示す。 この手法は認知デジタル双生児の発達などの他の領域にも拡張可能であり、それらが明示的に訓練されていない現象の観察から学ぶことができる。

Learning and reasoning about physical phenomena is still a challenge in robotics development, and computational sciences play a capital role in the search for accurate methods able to provide explanations for past events and rigorous forecasts of future situations. We propose a physics-informed reinforcement learning strategy for fluid perception and reasoning from observations. As a model problem, we take the sloshing phenomena of different fluids contained in a glass. Starting from full-field and high-resolution synthetic data for a particular fluid, we develop a method for the tracking (perception) and analysis (reasoning) of any previously unseen liquid whose free surface is observed with a commodity camera. This approach demonstrates the importance of physics and knowledge not only in data-driven (grey box) modeling but also in the correction for real physics adaptation in low data regimes and partial observations of the dynamics. The method here presented is extensible to other domains such as the development of cognitive digital twins, able to learn from observation of phenomena for which they have not been trained explicitly.
翻訳日:2022-03-14 19:07:37 公開日:2022-03-11
# (参考訳) PathSAGE:ランダムパスサンプリングを用いた空間グラフ注意ニューラルネットワーク

PathSAGE: Spatial Graph Attention Neural Networks With Random Path Sampling ( http://arxiv.org/abs/2203.05793v1 )

ライセンス: CC BY 4.0
Junhua Ma, Jiajun Li, Xueming Li, Xu Li(参考訳) グラフ畳み込みネットワーク(GCN)は近年,非ユークリッド構造データ処理において大きな成功を収めている。 既存の研究では、ユークリッド構造データのより深い特徴を抽出するためにCCNに深い層が使用されている。 しかし、非ユークリッド構造データでは、あまりに深いgcnは"neighbor explosion"や"over-smoothing"といった問題に直面し、大規模なデータセットにも適用できない。 そこで本研究では,高次位相情報を学習し,受容場を拡大することでモデルの性能を向上させるパスセージモデルを提案する。 モデルは中央ノードから始まるパスをランダムにサンプリングし、トランスフォーマーエンコーダでそれらを集約する。 PathSAGEには、上記の問題を避けるためにノードを集約する構造層が1つしかない。 評価の結果,本モデルは帰納的学習タスクにおいて最先端モデルと同等の性能が得られることがわかった。

Graph Convolutional Networks (GCNs) achieve great success in non-Euclidean structure data processing recently. In existing studies, deeper layers are used in CCNs to extract deeper features of Euclidean structure data. However, for non-Euclidean structure data, too deep GCNs will confront with problems like "neighbor explosion" and "over-smoothing", it also cannot be applied to large datasets. To address these problems, we propose a model called PathSAGE, which can learn high-order topological information and improve the model's performance by expanding the receptive field. The model randomly samples paths starting from the central node and aggregates them by Transformer encoder. PathSAGE has only one layer of structure to aggregate nodes which avoid those problems above. The results of evaluation shows that our model achieves comparable performance with the state-of-the-art models in inductive learning tasks.
翻訳日:2022-03-14 18:49:17 公開日:2022-03-11
# (参考訳) フィルタ変数の最大化による畳み込みニューラルネットワークのプルーニングの改善

Improve Convolutional Neural Network Pruning by Maximizing Filter Variety ( http://arxiv.org/abs/2203.05807v1 )

ライセンス: CC BY 4.0
Nathan Hubens, Matei Mancas, Bernard Gosselin, Marius Preda, Titus Zaharia(参考訳) ニューラルネットワークのプルーニングは、モデルストレージとコンピューティング要件を削減するために広く使われている戦略である。 これにより、重みにスパーシティを導入することで、ネットワークの複雑さを低減できる。 スパース行列を利用するのはまだ難しいため、選択されたプルーニング基準に従って、しばしば構造化された方法でプルーニングが行われ、すなわちConvNetsの場合、畳み込みフィルタ全体を除去する。 通常、l1ノルムやムーブメントのような一般的なプルーニング基準は、フィルターの個々の効用を考慮せず、これは(1)希少かつ重要かつ差別的な振る舞いを示すフィルタの除去、(2)冗長な情報を持つフィルタの保持につながる可能性がある。 本稿では,これらの2つの問題を解く手法について述べる。 この手法により、選択の基準は冗長なフィルタに焦点を合わせながら、希少なフィルタを維持し、残されるフィルタの多様性を最大化する。 異なるデータセット (CIFAR-10, CIFAR-100, CALTECH-101) と異なるアーキテクチャ (VGG-16, ResNet-18) を用いて行った実験結果から, フィルタ選択法をプルーニング基準に付加した場合, 高い性能を維持しつつ, 同様の空間レベルを達成可能であることが示された。 さらに,Lottery Ticket仮説を適用して,検出したスパースサブネットワークの品質を評価することにより,ほとんどの場合において,より優れたパフォーマンスのチケットを見つけることができることを示す。

Neural network pruning is a widely used strategy for reducing model storage and computing requirements. It allows to lower the complexity of the network by introducing sparsity in the weights. Because taking advantage of sparse matrices is still challenging, pruning is often performed in a structured way, i.e. removing entire convolution filters in the case of ConvNets, according to a chosen pruning criteria. Common pruning criteria, such as l1-norm or movement, usually do not consider the individual utility of filters, which may lead to: (1) the removal of filters exhibiting rare, thus important and discriminative behaviour, and (2) the retaining of filters with redundant information. In this paper, we present a technique solving those two issues, and which can be appended to any pruning criteria. This technique ensures that the criteria of selection focuses on redundant filters, while retaining the rare ones, thus maximizing the variety of remaining filters. The experimental results, carried out on different datasets (CIFAR-10, CIFAR-100 and CALTECH-101) and using different architectures (VGG-16 and ResNet-18) demonstrate that it is possible to achieve similar sparsity levels while maintaining a higher performance when appending our filter selection technique to pruning criteria. Moreover, we assess the quality of the found sparse sub-networks by applying the Lottery Ticket Hypothesis and find that the addition of our method allows to discover better performing tickets in most cases
翻訳日:2022-03-14 18:41:56 公開日:2022-03-11
# (参考訳) 最適輸送とソフトアライメントを用いた時空間信号の平均化

Averaging Spatio-temporal Signals using Optimal Transport and Soft Alignments ( http://arxiv.org/abs/2203.05813v1 )

ライセンス: CC BY 4.0
Hicham Janati and Marco Cuturi and Alexandre Gramfort(参考訳) ゲノム学から神経イメージングまで、科学のいくつかの分野は、時間とともに進化する個体群(測定値)を監視する必要がある。 これらの複雑なデータセットは、時間と空間の両方のコンポーネントでダイナミクスを記述するもので、データ分析に新たな課題をもたらす。 本稿では,複数の軌跡から代表的なテンプレート軌跡を合成することを目的として,これらのデータセットの平均化を行うための新しいフレームワークを提案する。 これは時間、空間、総人口規模(質量/振幅)の3つの要因に対処する必要があることを示している。 ここでは、動的時間ワープ(DTW)、最適輸送(OT)理論およびその不均衡拡張(UOT)からインスピレーションを得て、3つの問題に対処できる基準を提案する。 この提案では、時間シフトを捉えるために示されるDTW(Soft-DTW)とUTTのスムーズな定式化を利用して、空間と大きさのバリエーションを扱う。 提案する損失は,時空間的バリセンタをfr\'echet平均として定義するために利用できる。 フェンシェル双対性を用いて、エントロピー正規化uotの新しい変種を用いて、これらのバリセンタを並列に効率的に計算する方法を示す。 手書き文字と脳画像データを用いた実験により,提案した損失が時空間データに与える影響を検証した。

Several fields in science, from genomics to neuroimaging, require monitoring populations (measures) that evolve with time. These complex datasets, describing dynamics with both time and spatial components, pose new challenges for data analysis. We propose in this work a new framework to carry out averaging of these datasets, with the goal of synthesizing a representative template trajectory from multiple trajectories. We show that this requires addressing three sources of invariance: shifts in time, space, and total population size (or mass/amplitude). Here we draw inspiration from dynamic time warping (DTW), optimal transport (OT) theory and its unbalanced extension (UOT) to propose a criterion that can address all three issues. This proposal leverages a smooth formulation of DTW (Soft-DTW) that is shown to capture temporal shifts, and UOT to handle both variations in space and size. Our proposed loss can be used to define spatio-temporal barycenters as Fr\'echet means. Using Fenchel duality, we show how these barycenters can be computed efficiently, in parallel, via a novel variant of entropy-regularized debiased UOT. Experiments on handwritten letters and brain imaging data confirm our theoretical findings and illustrate the effectiveness of the proposed loss for spatio-temporal data.
翻訳日:2022-03-14 18:31:33 公開日:2022-03-11
# (参考訳) WiCV 2021:コンピュータビジョンワークショップの8人目の女性

WiCV 2021: The Eighth Women In Computer Vision Workshop ( http://arxiv.org/abs/2203.05825v1 )

ライセンス: CC BY 4.0
Arushi Goel, Niveditha Kalavakonda, Nour Karessli, Tejaswi Kasarla, Kathryn Leonard, Boyi Li, Nermin Samet and, Ghada Zamzmi(参考訳) 本稿では,仮想CVPR 2021と共に組織されたWomen in Computer Vision WorkshopWiCV 2021の詳細について述べる。 コンピュータビジョンコミュニティの少数(女性)グループに声を提供し、学術と産業の両方においてこれらの研究者の可視性を高めることに焦点を当てている。 WiCVは、そのような出来事がコンピュータビジョンの分野における性別の不均衡を下げる上で重要な役割を果たすと考えている。 WiCVは毎年、それを提供する。 a)マイノリティグループの研究者間のコラボレーションのためのオポルティニティ b)-女性ジュニア研究者へのメンターシップ c) 金融負担を克服するためのプレゼンターへの金融支援 d) ロールモデルの大規模かつ多様な選択は、キャリアの始めに若い研究者の例として機能する。 本稿では,wicv 2021ワークショップの司会者,出席者,スポンサーに関する統計を概説したワークショッププログラム,過去数年間の動向について報告する。

In this paper, we present the details of Women in Computer Vision Workshop - WiCV 2021, organized alongside the virtual CVPR 2021. It provides a voice to a minority (female) group in the computer vision community and focuses on increasing the visibility of these researchers, both in academia and industry. WiCV believes that such an event can play an important role in lowering the gender imbalance in the field of computer vision. WiCV is organized each year where it provides a)~opportunity for collaboration between researchers from minority groups, b)~mentorship to female junior researchers, c)~financial support to presenters to overcome monetary burden and d)~large and diverse choice of role models, who can serve as examples to younger researchers at the beginning of their careers. In this paper, we present a report on the workshop program, trends over the past years, a summary of statistics regarding presenters, attendees, and sponsorship for the WiCV 2021 workshop.
翻訳日:2022-03-14 18:03:18 公開日:2022-03-11
# (参考訳) mlrm:1日の平均気温予測のための多重線形回帰モデル

MLRM: A Multiple Linear Regression based Model for Average Temperature Prediction of A Day ( http://arxiv.org/abs/2203.05835v1 )

ライセンス: CC BY 4.0
Ishu Gupta and Harsh Mittal and Deepak Rikhari and Ashutosh Kumar Singh(参考訳) 天気は、私たちの周りのすべての人々に影響を与える現象です。 気象予報は何十年も前から重要な研究ポイントであり、研究者は従来の気象技術を使って天気や気候の変化を予測しようとしてきた。 現代の技術とコンピューティング能力の出現により、機械学習技術の助けを借りてそれを実現できる。 我々は,過去の気象データと複数の線形回帰モデルを用いて,地域の天気を予測することを目的としている。 モデルの性能を評価し、結論を導出する。 このモデルは摂氏2.8度の誤差で1日の平均気温を予測することに成功した。

Weather is a phenomenon that affects everything and everyone around us on a daily basis. Weather prediction has been an important point of study for decades as researchers have tried to predict the weather and climatic changes using traditional meteorological techniques. With the advent of modern technologies and computing power, we can do so with the help of machine learning techniques. We aim to predict the weather of an area using past meteorological data and features using the Multiple Linear Regression Model. The performance of the model is evaluated and a conclusion is drawn. The model is successfully able to predict the average temperature of a day with an error of 2.8 degrees Celsius.
翻訳日:2022-03-14 17:59:08 公開日:2022-03-11
# (参考訳) ソーシャルメディアにおけるブラッグの自動識別と分類

Automatic Identification and Classification of Bragging in Social Media ( http://arxiv.org/abs/2203.05840v1 )

ライセンス: CC BY 4.0
Mali Jin, Daniel Preo\c{t}iuc-Pietro, A. Seza Do\u{g}ru\"oz, Nikolaos Aletras(参考訳) 自慢(英: bragging)とは、自分に対する肯定的な発言を通じて好意的な自己イメージを構築することを目的とした言論行為である。 日々のコミュニケーション、特にソーシャルメディアで広く普及しており、ユーザーは直接的または間接的にペルソナのポジティブなイメージを構築しようとしている。 本稿では,従来の言語学および実用学の研究をもとに,計算言語学におけるブラッグングの大規模研究を初めて実施する。 これを容易にするために、ブラッグとそのタイプに注釈を付けた新しい公開ツイートデータセットを導入する。 言語情報を用いたトランスフォーマーモデルの評価実験を行った。 (a)バイナリ・ブラッグング分類、すなわち、ツイートがブラッグング文を含むか否かを問わない場合。 (b)ブラッグを含まないマルチクラスのブラッグ型予測。 以上の結果から,マルチクラス分類タスクにおいて,マクロf1が72.42,35.95までのブギングを予測できることがわかった。 最後に,この話題の今後の研究を導くため,ブラッギング予測の言語的・誤り分析を行う。

Bragging is a speech act employed with the goal of constructing a favorable self-image through positive statements about oneself. It is widespread in daily communication and especially popular in social media, where users aim to build a positive image of their persona directly or indirectly. In this paper, we present the first large scale study of bragging in computational linguistics, building on previous research in linguistics and pragmatics. To facilitate this, we introduce a new publicly available data set of tweets annotated for bragging and their types. We empirically evaluate different transformer-based models injected with linguistic information in (a) binary bragging classification, i.e., if tweets contain bragging statements or not; and (b) multi-class bragging type prediction including not bragging. Our results show that our models can predict bragging with macro F1 up to 72.42 and 35.95 in the binary and multi-class classification tasks respectively. Finally, we present an extensive linguistic and error analysis of bragging prediction to guide future research on this topic.
翻訳日:2022-03-14 17:48:05 公開日:2022-03-11
# (参考訳) タスク指向対話生成のための解釈可能なニューロシンボリック推論フレームワーク

An Interpretable Neuro-Symbolic Reasoning Framework for Task-Oriented Dialogue Generation ( http://arxiv.org/abs/2203.05843v1 )

ライセンス: CC BY 4.0
Shiquan Yang, Rui Zhang, Sarah Erfani, Jey Han Lau(参考訳) 本稿では,タスク指向対話システムの解釈可能性について考察する。 これまで、ほとんどのニューラルベースのタスク指向対話システムは、モデル予測を人間に解釈不能にする暗黙の推論戦略を採用している。 透明な推論プロセスを得るため,我々は,推論連鎖によるモデル決定を正当化する明示的な推論を行うためのニューロシンボリックを導入する。 推論連鎖の導出にはタスク指向対話のマルチホップ推論が必要であるため、既存のニューロシンボリックアプローチは一相設計による誤り伝播を引き起こす。 これを解決するために,仮説生成器と推論器からなる2相アプローチを提案する。 まず、仮説生成器を通して、所望のタスクを実行する潜在的操作という複数の仮説を得る。 各仮説は推論者によって検証され、妥当な仮説は最終予測を行うために選択される。 システム全体は、推論チェーンアノテーションを使わずに生のテキスト対話を利用して訓練される。 2つの公開ベンチマークデータセットに関する実験的研究は、提案手法がより良い結果を得るだけでなく、解釈可能な決定プロセスも導入することを示した。

We study the interpretability issue of task-oriented dialogue systems in this paper. Previously, most neural-based task-oriented dialogue systems employ an implicit reasoning strategy that makes the model predictions uninterpretable to humans. To obtain a transparent reasoning process, we introduce neuro-symbolic to perform explicit reasoning that justifies model decisions by reasoning chains. Since deriving reasoning chains requires multi-hop reasoning for task-oriented dialogues, existing neuro-symbolic approaches would induce error propagation due to the one-phase design. To overcome this, we propose a two-phase approach that consists of a hypothesis generator and a reasoner. We first obtain multiple hypotheses, i.e., potential operations to perform the desired task, through the hypothesis generator. Each hypothesis is then verified by the reasoner, and the valid one is selected to conduct the final prediction. The whole system is trained by exploiting raw textual dialogues without using any reasoning chain annotations. Experimental studies on two public benchmark datasets demonstrate that the proposed approach not only achieves better results, but also introduces an interpretable decision process.
翻訳日:2022-03-14 17:26:16 公開日:2022-03-11
# (参考訳) 言葉埋め込みを使って抗議のニュースを分析する

Using Word Embeddings to Analyze Protests News ( http://arxiv.org/abs/2203.05875v1 )

ライセンス: CC BY 4.0
Maria Alejandra Cardoza Ceron(参考訳) CLEF 2019 ProtestNewsイベントの最初の2つのタスクは、二項分類タスクにおける抗議記事と非抗議記事と文の区別に焦点を当てている。 提案のうち、既存のワード埋め込みの word2vec と FastTest を ELMo と DistilBERT に置き換えるために、2つの優れたモデルが選択されている。 単語の袋やそれ以前のベクトルアプローチとは異なり、ELMo と DistilBERT はテキスト内の文脈情報に基づいて意味を捉え、単語をベクトルの列として表現する。 単語埋め込み以外のオリジナルのモデルのアーキテクチャを変更することなく、DistilBERTの実装はFastTextの実装と比較して0.66のF1スコアで測定されたパフォーマンスを改善した。 DistilBERTはタスクとモデルの両方でELMoを上回った。 停止語の削除と単語の補間によるデータセットのクリーニングは、インドのニュース記事を用いたデータセットのトレーニングや、中国からのニュース記事を含むデータセットのモデルの評価において、さまざまなコンテキストでモデルをより一般化できることが示されている。

The first two tasks of the CLEF 2019 ProtestNews events focused on distinguishing between protest and non-protest related news articles and sentences in a binary classification task. Among the submissions, two well performing models have been chosen in order to replace the existing word embeddings word2vec and FastTest with ELMo and DistilBERT. Unlike bag of words or earlier vector approaches, ELMo and DistilBERT represent words as a sequence of vectors by capturing the meaning based on contextual information in the text. Without changing the architecture of the original models other than the word embeddings, the implementation of DistilBERT improved the performance measured on the F1-Score of 0.66 compared to the FastText implementation. DistilBERT also outperformed ELMo in both tasks and models. Cleaning the datasets by removing stopwords and lemmatizing the words has been shown to make the models more generalizable across different contexts when training on a dataset with Indian news articles and evaluating the models on a dataset with news articles from China.
翻訳日:2022-03-14 17:01:47 公開日:2022-03-11
# (参考訳) ワイヤレス量子化フェデレーション学習 : 共同計算とコミュニケーション設計

Wireless Quantized Federated Learning: A Joint Computation and Communication Design ( http://arxiv.org/abs/2203.05878v1 )

ライセンス: CC BY 4.0
Pavlos S. Bouzinis, Panagiotis D. Diamantoulakis, and George K. Karagiannidis(参考訳) 近年、フェデレーテッド・ラーニング(FL)は、プライバシーと低遅延を提供する有望な分散型機械学習アプローチとして広く注目を集めている。 しかし、無線ネットワーク上でのFLの効率的な展開のためには、通信ボトルネックが依然として問題となっている。 本稿では,アップリンク伝送前の局所モデルパラメータを定量化することにより,FLの総収束時間を最小化する。 より具体的には、確率量子化を伴うflアルゴリズムの収束解析を最初に提示し、量子化誤差が収束率に与える影響を明らかにする。 続いて,計算,通信資源,量子化ビットの数を共同で最適化し,収束解析に起因したエネルギー・量子化誤差要件を前提とした全グローバルラウンドにおける最小収束時間を保証する。 収束時間に対する量子化誤差の影響を評価し、モデル精度と時間的実行の間のトレードオフを明らかにする。 さらに,提案手法は,ベースラインスキームと比較してより高速に収束することを示す。 最後に、量子化誤差許容度の選択に有用な知見を提供する。

Recently, federated learning (FL) has sparked widespread attention as a promising decentralized machine learning approach which provides privacy and low delay. However, communication bottleneck still constitutes an issue, that needs to be resolved for an efficient deployment of FL over wireless networks. In this paper, we aim to minimize the total convergence time of FL, by quantizing the local model parameters prior to uplink transmission. More specifically, the convergence analysis of the FL algorithm with stochastic quantization is firstly presented, which reveals the impact of the quantization error on the convergence rate. Following that, we jointly optimize the computing, communication resources and number of quantization bits, in order to guarantee minimized convergence time across all global rounds, subject to energy and quantization error requirements, which stem from the convergence analysis. The impact of the quantization error on the convergence time is evaluated and the trade-off among model accuracy and timely execution is revealed. Moreover, the proposed method is shown to result in faster convergence in comparison with baseline schemes. Finally, useful insights for the selection of the quantization error tolerance are provided.
翻訳日:2022-03-14 17:00:47 公開日:2022-03-11
# (参考訳) 疾患予測のためのマルチモーダルグラフ学習

Multi-modal Graph Learning for Disease Prediction ( http://arxiv.org/abs/2203.05880v1 )

ライセンス: CC BY 4.0
Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Zhenyu Guo, Yang Liu, Yuchen Yang, and Yao Zhao(参考訳) グラフの強力な表現能力から得られるグラフベースのアプローチは、マルチモーダルな医療データを扱うために広く応用され、様々なバイオメディカル応用において印象的な性能を達成した。 疾患予測タスクでは、既存のグラフベースの手法では、特定のモダリティ(人口統計情報など)に基づいて手動でグラフを定義し、他のモダリティを統合してグラフ表現学習(grl)により患者表現を得る傾向がある。 しかし、事前に適切なグラフを構築することはこれらの方法にとって単純な問題ではない。 一方、モダリティ間の複雑な相関は無視される。 これらの要因は必然的に、信頼できる診断のために患者の状態に関する十分な情報を提供することができない。 この目的のために,マルチモーダルな疾患予測のためのエンドツーエンドマルチモーダルグラフ学習フレームワーク (MMGL) を提案する。 病気に関連する多様性にまたがる豊かな情報を効果的に活用するために,モダリティ間の相関と相補性を利用して各モダリティの特徴を集約するモダリティ認識型表現学習を提案する。 さらに、グラフを手動で定義する代わりに、潜在グラフ構造を適応グラフ学習の効果的な方法によってキャプチャする。 予測モデルと共同で最適化することで、サンプル間の本質的な接続を明らかにすることができる。 本モデルは,これらのデータに対する帰納的学習のシナリオにも適用できる。 2つの疾患予測タスクに関する広範な実験群は、提案したMMGLがより良好な性能を発揮することを示した。 MMGLのコードは \url{https://github.com/SsGood/MMGL} で公開されている。

Benefiting from the powerful expressive capability of graphs, graph-based approaches have been popularly applied to handle multi-modal medical data and achieved impressive performance in various biomedical applications. For disease prediction tasks, most existing graph-based methods tend to define the graph manually based on specified modality (e.g., demographic information), and then integrated other modalities to obtain the patient representation by Graph Representation Learning (GRL). However, constructing an appropriate graph in advance is not a simple matter for these methods. Meanwhile, the complex correlation between modalities is ignored. These factors inevitably yield the inadequacy of providing sufficient information about the patient's condition for a reliable diagnosis. To this end, we propose an end-to-end Multi-modal Graph Learning framework (MMGL) for disease prediction with multi-modality. To effectively exploit the rich information across multi-modality associated with the disease, modality-aware representation learning is proposed to aggregate the features of each modality by leveraging the correlation and complementarity between the modalities. Furthermore, instead of defining the graph manually, the latent graph structure is captured through an effective way of adaptive graph learning. It could be jointly optimized with the prediction model, thus revealing the intrinsic connections among samples. Our model is also applicable to the scenario of inductive learning for those unseen data. An extensive group of experiments on two disease prediction tasks demonstrates that the proposed MMGL achieves more favorable performance. The code of MMGL is available at \url{https://github.com/SsGood/MMGL}.
翻訳日:2022-03-14 16:25:10 公開日:2022-03-11
# (参考訳) オープンドメイン対話システムの信頼性評価

Achieving Reliable Human Assessment of Open-Domain Dialogue Systems ( http://arxiv.org/abs/2203.05899v1 )

ライセンス: CC BY 4.0
Tianbo Ji, Yvette Graham, Gareth J. F. Jones, Chenyang Lyu, Qun Liu(参考訳) オープンドメイン対話システムの評価は非常に困難であり、より良い技術の開発は必死に必要であるように何度も強調される。 近年の競技において、システムの信頼性の高いライブ評価を行うためのかなりの努力にもかかわらず、アノテーションは放棄され、賢明な結果を得るには信頼できないと報告されている。 自動メトリクスは、何が高品質な会話であるか、そうでないのかをよく示さないことが分かっていないため、これは深刻な問題です。 対話におけるより良い評価手法の緊急の必要性を強調した競技会の難問に答えて, 信頼性が高く, 実現可能かつ低コストな評価手法の開発が成功していることを示す。 自己複製実験は、ほぼ完全に再現可能な結果を示し、相関は$r=0.969$である。 さらに, 統計的意義試験の適切な方法が欠如していることから, 対話評価において偶然に発生するシステム改善の可能性を考慮することは稀であり, 提案する評価は, 標準試験の適用を促進する。 信頼性の高い評価手法を開発した結果,システム性能に関する新たな知見が得られた。 したがって、最先端モデルの比較を含む。 一 人格とともに、会話の質に対する人格の貢献を測定すること (ii) 自由に選択された話題に対して規定する。 興味深いことに、ペルソナに関する結果は、ペルソナが期待通りに会話品質に寄与しないことを示している。

Evaluation of open-domain dialogue systems is highly challenging and development of better techniques is highlighted time and again as desperately needed. Despite substantial efforts to carry out reliable live evaluation of systems in recent competitions, annotations have been abandoned and reported as too unreliable to yield sensible results. This is a serious problem since automatic metrics are not known to provide a good indication of what may or may not be a high-quality conversation. Answering the distress call of competitions that have emphasized the urgent need for better evaluation techniques in dialogue, we present the successful development of human evaluation that is highly reliable while still remaining feasible and low cost. Self-replication experiments reveal almost perfectly repeatable results with a correlation of $r=0.969$. Furthermore, due to the lack of appropriate methods of statistical significance testing, the likelihood of potential improvements to systems occurring due to chance is rarely taken into account in dialogue evaluation, and the evaluation we propose facilitates application of standard tests. Since we have developed a highly reliable evaluation method, new insights into system performance can be revealed. We therefore include a comparison of state-of-the-art models (i) with and without personas, to measure the contribution of personas to conversation quality, as well as (ii) prescribed versus freely chosen topics. Interestingly with respect to personas, results indicate that personas do not positively contribute to conversation quality as expected.
翻訳日:2022-03-14 16:00:35 公開日:2022-03-11
# (参考訳) 文表現のための自己注意への依存木の統合

Integrating Dependency Tree Into Self-attention for Sentence Representation ( http://arxiv.org/abs/2203.05918v1 )

ライセンス: CC BY 4.0
Junhua Ma, Jiajun Li, Yuxuan Liu, Shangbo Zhou, Xue Li(参考訳) 文表現学習のための解析木エンコーダの最近の進歩は注目に値する。 しかし、これらは主に木構造を再帰的にエンコードしており、これは並列化には適さない。 一方、これらの作品が依存関係ツリーの弧のラベルを考慮に入れることは滅多にない。 両問題に対処するため,自己認識機構と協調して機能するリレーションアテンション機構を適用したDependency-Transformerを提案する。 本機構は,文の係り受け木におけるノード間の依存関係と空間的位置関係を符号化することを目的とする。 スコアベースの手法により、Transformerの並列化に影響を与えずに構文情報をインジェクトすることに成功した。 本モデルは, 文表現の4つのタスクにおいて, 最先端の手法に匹敵し, 計算効率において明らかな優位性を有する。

Recent progress on parse tree encoder for sentence representation learning is notable. However, these works mainly encode tree structures recursively, which is not conducive to parallelization. On the other hand, these works rarely take into account the labels of arcs in dependency trees. To address both issues, we propose Dependency-Transformer, which applies a relation-attention mechanism that works in concert with the self-attention mechanism. This mechanism aims to encode the dependency and the spatial positional relations between nodes in the dependency tree of sentences. By a score-based method, we successfully inject the syntax information without affecting Transformer's parallelizability. Our model outperforms or is comparable to the state-of-the-art methods on four tasks for sentence representation and has obvious advantages in computational efficiency.
翻訳日:2022-03-14 15:41:13 公開日:2022-03-11
# (参考訳) fedsyn: フェデレーション学習を用いた合成データ生成

FedSyn: Synthetic Data Generation using Federated Learning ( http://arxiv.org/abs/2203.05931v1 )

ライセンス: CC BY 4.0
Monik Raj Behera, Sudhir Upadhyay, Suresh Shetty, Sudha Priyadarshini, Palka Patel, Ker Farn Lee(参考訳) ディープラーニングアルゴリズムは進化を続け、より洗練されたものにするために、モデルのトレーニングとモデルの有効性のために大量のデータセットを必要とする。 これらのデータ要件のいくつかは、組織内の既存のデータセットの助けを借りることができます。 現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。 さらに、生成した合成データの多様性は、単一の組織またはエンティティ内で利用可能なデータセットの統計的性質に依存する(そしておそらく制限される)ことがよく確立されている。 既存のデータセットが多様であれば多いほど、より表現豊かで汎用的な合成データが得られる。 しかし、基盤となるデータの不足を考えると、ビッグデータをひとつの組織にまとめることは難しい。 異なる組織にまたがる多様で重複しないデータセットは、彼らの限られた異なるデータをより大きなプールに寄贈し、さらなる合成に活用する機会を提供する。 残念なことに、一部の機関はデータプライバシーの懸念を抱いている。 本稿では,合成データを生成する新しい手法であるFedSynを提案する。 FedSynは、フェデレーションとコラボレーティブなネットワークにおいて、複数の参加者間で合成データを生成するための、協調的でプライバシー保護のアプローチである。 fedsynは合成データ生成モデルを作成し、ネットワーク内のほぼすべての参加者の統計分布からなる合成データを生成することができる。 FedSynは個々の参加者のデータへのアクセスを必要としないため、参加者のデータのプライバシーを保護する。 本稿では,合成データ生成のためのニューラルネットワークアーキテクチャとして,フェデレーション機械学習とGANを利用する手法を提案する。 提案手法は、金融、健康、ガバナンス、テクノロジーなど、多くの機械学習問題クラスに拡張することができる。

As Deep Learning algorithms continue to evolve and become more sophisticated, they require massive datasets for model training and efficacy of models. Some of those data requirements can be met with the help of existing datasets within the organizations. Current Machine Learning practices can be leveraged to generate synthetic data from an existing dataset. Further, it is well established that diversity in generated synthetic data relies on (and is perhaps limited by) statistical properties of available dataset within a single organization or entity. The more diverse an existing dataset is, the more expressive and generic synthetic data can be. However, given the scarcity of underlying data, it is challenging to collate big data in one organization. The diverse, non-overlapping dataset across distinct organizations provides an opportunity for them to contribute their limited distinct data to a larger pool that can be leveraged to further synthesize. Unfortunately, this raises data privacy concerns that some institutions may not be comfortable with. This paper proposes a novel approach to generate synthetic data - FedSyn. FedSyn is a collaborative, privacy preserving approach to generate synthetic data among multiple participants in a federated and collaborative network. FedSyn creates a synthetic data generation model, which can generate synthetic data consisting of statistical distribution of almost all the participants in the network. FedSyn does not require access to the data of an individual participant, hence protecting the privacy of participant's data. The proposed technique in this paper leverages federated machine learning and generative adversarial network (GAN) as neural network architecture for synthetic data generation. The proposed method can be extended to many machine learning problem classes in finance, health, governance, technology and many more.
翻訳日:2022-03-14 15:32:23 公開日:2022-03-11
# (参考訳) 音声言語モデリングには離散単位が必要か?

Are discrete units necessary for Spoken Language Modeling? ( http://arxiv.org/abs/2203.05936v1 )

ライセンス: CC BY 4.0
Tu Anh Nguyen, Benoit Sagot, Emmanuel Dupoux(参考訳) 音声言語モデリングにおける最近の研究は、テキストラベルなしで生音声から教師なしの言語を学ぶ可能性を示している。 このアプローチは、まずオーディオを独立した単位(または擬似テキスト)のシーケンスに変換し、その後、そのような擬似テキストに基づいて言語モデルをトレーニングする。 このような離散的ボトルネックは必要か、音声信号の符号化に不可逆的エラーをもたらす可能性があるのか、それとも離散的単位を全く持たない言語モデルを学ぶことができるのか? 本研究は,音声言語モデリングのよい結果には,離散化が不可欠であることを示すが,入力特徴量よりも高いレベルから離散的目標機能を使用する場合,離散的ボトルネックを省くことができる。 また、HuBERTのような個別ターゲットで訓練されたエンドツーエンドモデルは、ゼロリソース音声チャレンジ2021のゼロショット音声言語モデリングメトリクスのセットに基づいて擬似テキストで訓練された最高の言語モデルと同様の結果が得られることを示す。

Recent work in spoken language modeling shows the possibility of learning a language unsupervisedly from raw audio without any text labels. The approach relies first on transforming the audio into a sequence of discrete units (or pseudo-text) and then training a language model directly on such pseudo-text. Is such a discrete bottleneck necessary, potentially introducing irreversible errors in the encoding of the speech signal, or could we learn a language model without discrete units at all? In this work, show that discretization is indeed essential for good results in spoken language modeling, but that can omit the discrete bottleneck if we use using discrete target features from a higher level than the input features. We also show that an end-to-end model trained with discrete target like HuBERT achieves similar results as the best language model trained on pseudo-text on a set of zero-shot spoken language modeling metrics from the Zero Resource Speech Challenge 2021.
翻訳日:2022-03-14 15:16:11 公開日:2022-03-11
# (参考訳) ICUからの微小分解能血圧信号のハイブリッドアーチファクト検出システム

Hybrid Artifact Detection System for Minute Resolution Blood Pressure Signals from ICU ( http://arxiv.org/abs/2203.05947v1 )

ライセンス: CC BY 4.0
Hollan Haule, Evangelos Kafantaris, Tsz-Yan Milly Lo, Chen Qin, Javier Escudero(参考訳) 集中治療室における生理的モニタリングは、早期介入を促進する臨床意思決定を支援するために使用できるデータを生成する。 しかし、臨床環境における記録条件による生理学的信号の低データ品質は、関連する情報の自動抽出を制限し、かなりの数の誤報を生じさせる。 本稿では, 変分オートエンコーダと統計的検出成分を組み合わせたハイブリッド人工物検出システムを用いて, 試料のラベル付けを行い, クリーニング作業の自動化について検討する。 このシステムは、KidsBrainITプロジェクトの範囲内で記録された集中治療単位データセットからの血圧信号に応用される。 そのパフォーマンスは、訓練された研究者による手動のアノテーションにベンチマークされる。 予備的な結果は,90%を超える感度と特異度を連続的に達成できることを示唆している。 これにより、オフラインアプリケーションのデータクリーニングを部分的に自動化し、オンラインアプリケーションの誤報を減らすことができる初期基盤を提供する。

Physiological monitoring in intensive care units generates data that can be used to aid clinical decision making facilitating early interventions. However, the low data quality of physiological signals due to the recording conditions in clinical settings limits the automated extraction of relevant information and leads to significant numbers of false alarms. This paper investigates the utilization of a hybrid artifact detection system that combines a Variational Autoencoder with a statistical detection component for the labeling of artifactual samples to automate the costly process of cleaning physiological recordings. The system is applied to mean blood pressure signals from an intensive care unit dataset recorded within the scope of the KidsBrainIT project. Its performance is benchmarked to manual annotations made by trained researchers. Our preliminary results indicate that the system is capable of consistently achieving sensitivity and specificity levels that surpass 90%. Thus, it provides an initial foundation that can be expanded upon to partially automate data cleaning in offline applications and reduce false alarms in online applications.
翻訳日:2022-03-14 15:02:36 公開日:2022-03-11
# (参考訳) 任意応答を用いた一貫したオンライン学習

Universally Consistent Online Learning with Arbitrarily Dependent Responses ( http://arxiv.org/abs/2203.06046v1 )

ライセンス: CC BY 4.0
Steve Hanneke(参考訳) この研究は、(X,Y)ペアのプロセスにおいて、Xプロセスのみの条件下で、普遍的に一貫したオンライン学習ルールを提供する。 特別な場合として、条件は (x,y) 上のすべてのプロセスを認め、x 上のプロセスは定常である。 これは、(X,Y) 上のジョイント過程に定常性を必要とする過去の結果を一般化し、さらにこの過程はエルゴード的である必要がある。 特にこれは、人間性は普遍的に一貫したオンライン学習のために過剰であることを意味する。

This work provides an online learning rule that is universally consistent under processes on (X,Y) pairs, under conditions only on the X process. As a special case, the conditions admit all processes on (X,Y) such that the process on X is stationary. This generalizes past results which required stationarity for the joint process on (X,Y), and additionally required this process to be ergodic. In particular, this means that ergodicity is superfluous for the purpose of universally consistent online learning.
翻訳日:2022-03-14 14:51:37 公開日:2022-03-11
# (参考訳) インストゥルメンタル時系列を用いた因果効果の同定 : ニュアサンスivと過去の修正

Identifying Causal Effects using Instrumental Time Series: Nuisance IV and Correcting for the Past ( http://arxiv.org/abs/2203.06056v1 )

ライセンス: CC BY 4.0
Nikolaj Thams and Rikke S{\o}ndergaard and Sebastian Weichwald and Jonas Peters(参考訳) 機器変数(IV)回帰は観測データから因果効果を推定するための機器に依存している。 ベクトル自己回帰(VAR)プロセスのような時系列モデルにおけるIV回帰を考察する。 i.d.テクニックの直接的な適用は、過去に依存性を正しく調整しなかったため、一般的に矛盾する。 本稿では,因果効果を一貫した推定に使用できる方程式を同定する手法を提案する。 そのため、既存のIV 法を一般化するため、i.d.の場合においても興味のあるニュアンス IV を開発する。 さらに,時間列に基本的手法でニュアンスや他のIV手法を適用可能なグラフ境界化フレームワークを提案する。 我々のフレームワークはグローバルなMarkovプロパティの上に構築されています。 VAR(1) プロセスでは、ヨルダン形式に関連する識別可能性条件を証明し、i.d.の場合のよく知られたランク条件と異なる(例えば、共変量ほど多くの楽器を必要としない)。 提案手法は, それらの一貫性を証明し, 分布一般化に推定因果効果をどのように利用できるかを示す。 シミュレーション実験は我々の理論結果を裏付ける。 使用可能なPythonコードを提供します。

Instrumental variable (IV) regression relies on instruments to infer causal effects from observational data with unobserved confounding. We consider IV regression in time series models, such as vector auto-regressive (VAR) processes. Direct applications of i.i.d. techniques are generally inconsistent as they do not correctly adjust for dependencies in the past. In this paper, we propose methodology for constructing identifying equations that can be used for consistently estimating causal effects. To do so, we develop nuisance IV, which can be of interest even in the i.i.d. case, as it generalizes existing IV methods. We further propose a graph marginalization framework that allows us to apply nuisance and other IV methods in a principled way to time series. Our framework builds on the global Markov property, which we prove holds for VAR processes. For VAR(1) processes, we prove identifiability conditions that relate to Jordan forms and are different from the well-known rank conditions in the i.i.d. case (they do not require as many instruments as covariates, for example). We provide methods, prove their consistency, and show how the inferred causal effect can be used for distribution generalization. Simulation experiments corroborate our theoretical results. We provide ready-to-use Python code.
翻訳日:2022-03-14 14:38:02 公開日:2022-03-11
# (参考訳) REX: Reasoning-aware と Grounded Explanation

REX: Reasoning-aware and Grounded Explanation ( http://arxiv.org/abs/2203.06107v1 )

ライセンス: CC BY 4.0
Shi Chen and Qi Zhao(参考訳) 有効性と解釈可能性は、信頼できるAIシステムに不可欠な2つの性質である。 視覚的推論における最近の研究は、予測された回答の正確性を改善することに集中しており、決定の背後にある理論的根拠を説明するために注意を払わない。 結果として、彼らは一般的に、実際の視覚的・テキストデータを推論するのではなく、スプリアスバイアスを生かして、両方のモダリティから重要な情報を考慮して意思決定を説明する能力を開発した。 本稿では,3つの異なる視点からギャップを埋めることを目的とした。まず,推論過程を段階的にトラバースし,画像中のキーワードを接地することによって,決定を説明する新しいタイプのマルチモーダル説明を定義する。 異なる推論ステップを順次実行し,1,040,830のマルチモーダルな説明による新しいデータセットを構築する機能プログラムを開発した。 第2に、決定を説明するために視覚的およびテキスト的モダリティにまたがる重要な要素を密に結合することの必要性を特定し、興味のある単語と領域のペアリー対応を明示的にモデル化する新しい説明生成法を提案する。 視覚的接地能力はかなりの差で向上し、解釈可能性と推論性能が向上する。 最後に,新しいデータと手法を用いて,マルチタスク学習やトランスファー学習など,さまざまな環境下での説明の有効性を検討する。 私たちのコードとデータはhttps://github.com/szzexpoi/rexで入手できます。

Effectiveness and interpretability are two essential properties for trustworthy AI systems. Most recent studies in visual reasoning are dedicated to improving the accuracy of predicted answers, and less attention is paid to explaining the rationales behind the decisions. As a result, they commonly take advantage of spurious biases instead of actually reasoning on the visual-textual data, and have yet developed the capability to explain their decision making by considering key information from both modalities. This paper aims to close the gap from three distinct perspectives: first, we define a new type of multi-modal explanations that explain the decisions by progressively traversing the reasoning process and grounding keywords in the images. We develop a functional program to sequentially execute different reasoning steps and construct a new dataset with 1,040,830 multi-modal explanations. Second, we identify the critical need to tightly couple important components across the visual and textual modalities for explaining the decisions, and propose a novel explanation generation method that explicitly models the pairwise correspondence between words and regions of interest. It improves the visual grounding capability by a considerable margin, resulting in enhanced interpretability and reasoning performance. Finally, with our new data and method, we perform extensive analyses to study the effectiveness of our explanation under different settings, including multi-task learning and transfer learning. Our code and data are available at https://github.com/szzexpoi/rex.
翻訳日:2022-03-14 14:36:53 公開日:2022-03-11
# (参考訳) 未知共変量シフトに適応した分布フリー予測セット

Distribution-free Prediction Sets Adaptive to Unknown Covariate Shift ( http://arxiv.org/abs/2203.06126v1 )

ライセンス: CC BY 4.0
Hongxiang Qiu, Edgar Dobriban, Eric Tchetgen Tchetgen(参考訳) ユニークな結果ではなく、結果のセットを予測することは、統計的学習における不確実性定量化の有望な解決策である。 統計的な保証を伴う予測セットの構築に関する豊富な文献にもかかわらず、実際には一般的な問題である未知の共変量シフトへの適応は深刻な課題であり、まだ解決されていない。 半パラメトリック統計学の枠組みでは、共変量シフトをニュアンスパラメータと見なすことができる。 本稿では,未知の共変量シフトに効率的に適応できる予測セットを構築するために,新しいフレキシブルな分布自由化手法PredSet-1Stepを提案する。 PredSet-1Stepは、カバレッジエラーのプラグイン推定器の1ステップの補正に依存している。 理論的には,本手法は多量の試料に対して高い被曝誤差と高い信頼性を有するほぼ正当性(PAC)を示す。 PredSet-1Stepは漸近的にリスク制御の予測セットを構築するためにも用いられる。 我々は,南アフリカのコホート研究において,HIVのリスク予測に関するデータセットを解析し,多くの実験において高いカバレッジを有することを示す。 共変量シフトのない実験では、PredSet-1Stepは有限サンプルのPAC特性を持つ帰納的共形予測と同様に機能する。 したがって、PredSet-1Stepは、ユーザが疑う -- しかし確実でない - 共変量シフトが存在し、シフトの形式を知らない – 場合、一般的なシナリオで使用される可能性がある。 この理論は、一般の漸近線形推定子に対するウォルド信頼区間被覆の収束率の新しい境界にかかっている。 これは独立した関心の技術的ツールです。

Predicting sets of outcomes -- instead of unique outcomes -- is a promising solution to uncertainty quantification in statistical learning. Despite a rich literature on constructing prediction sets with statistical guarantees, adapting to unknown covariate shift -- a prevalent issue in practice -- poses a serious challenge and has yet to be solved. In the framework of semiparametric statistics, we can view the covariate shift as a nuisance parameter. In this paper, we propose a novel flexible distribution-free method, PredSet-1Step, to construct prediction sets that can efficiently adapt to unknown covariate shift. PredSet-1Step relies on a one-step correction of the plug-in estimator of coverage error. We theoretically show that our methods are asymptotically probably approximately correct (PAC), having low coverage error with high confidence for large samples. PredSet-1Step may also be used to construct asymptotically risk-controlling prediction sets. We illustrate that our method has good coverage in a number of experiments and by analyzing a data set concerning HIV risk prediction in a South African cohort study. In experiments without covariate shift, PredSet-1Step performs similarly to inductive conformal prediction, which has finite-sample PAC properties. Thus, PredSet-1Step may be used in the common scenario if the user suspects -- but may not be certain -- that covariate shift is present, and does not know the form of the shift. Our theory hinges on a new bound for the convergence rate of Wald confidence interval coverage for general asymptotically linear estimators. This is a technical tool of independent interest.
翻訳日:2022-03-14 14:20:34 公開日:2022-03-11
# 不適切な履歴データを用いた日内電力市場価格の計量モデル

Econometric Modeling of Intraday Electricity Market Price with Inadequate Historical Data ( http://arxiv.org/abs/2203.06077v1 )

ライセンス: Link先を確認
Saeed Mohammadi and Mohammad Reza Hesamzadeh(参考訳) 日内(ID)電力市場は、最近のEU電気市場議論で注目されている。 これは、基礎となる電力システムの不確実性が高まり、ID市場がそのような不確実性に対処するための調整プラットフォームを提供するためである。 したがって、市場参加者は市場での取引によって最適なポジションを調整するために適切なID市場価格モデルが必要である。 ID市場価格の履歴データが不十分なため、モデリングがより困難になる。 本稿では,ID市場価格をモデル化するための長期記憶,深部畳み込み生成対向ネットワーク,No-U-Turnサンプルアルゴリズムを提案する。 提案するeconometric id市場価格モデルは,北欧id価格データに適用され,その有望な性能を示す。

The intraday (ID) electricity market has received an increasing attention in the recent EU electricity-market discussions. This is partly because the uncertainty in the underlying power system is growing and the ID market provides an adjustment platform to deal with such uncertainties. Hence, market participants need a proper ID market price model to optimally adjust their positions by trading in the market. Inadequate historical data for ID market price makes it more challenging to model. This paper proposes long short-term memory, deep convolutional generative adversarial networks, and No-U-Turn sampler algorithms to model ID market prices. Our proposed econometric ID market price models are applied to the Nordic ID price data and their promising performance are illustrated.
翻訳日:2022-03-14 14:18:08 公開日:2022-03-11
# (参考訳) 物理学のための対称群同変構造

Symmetry Group Equivariant Architectures for Physics ( http://arxiv.org/abs/2203.06153v1 )

ライセンス: CC BY 4.0
Alexander Bogatskiy, Sanmay Ganguly, Thomas Kipf, Risi Kondor, David W. Miller, Daniel Murnane, Jan T. Offermann, Mariel Pettee, Phiala Shanahan, Chase Shimmin, Savannah Thais(参考訳) 数学的対称性を基礎とする物理理論は、宇宙の幅広い性質を理解する上で不可欠な要素である。 同様に、機械学習の領域では、回転や置換不変性などの対称性の認識が、コンピュータビジョン、自然言語処理、その他の重要な応用において印象的なパフォーマンスブレークスルーを引き起こしている。 本報告では,物理コミュニティと広い機械学習コミュニティの両方が,対称性群同変機械学習アーキテクチャの研究に深く投資することで,理解し,潜在的に得られることを議論する。 基本的な構造設計への対称性の導入は、より経済的(すなわち、より少ないがより表現力のある、学習されたパラメータを含む)、解釈可能(より説明可能または物理的量に直接対応可能)、および/または訓練可能(すなわち、データと計算要求の両方においてより効率的)のモデルを生み出すことができる。 我々はこれらのモデルを評価する上での様々なメリットと、これらの手法の様々な物理応用に対する潜在的な利点と限界について論じる。 これらのアプローチに対する研究と投資は、新しい計算パラダイムの下でより堅牢になり得る将来のアーキテクチャの基礎を築き、それらを適用する物理システムのより豊かな記述を提供する。

Physical theories grounded in mathematical symmetries are an essential component of our understanding of a wide range of properties of the universe. Similarly, in the domain of machine learning, an awareness of symmetries such as rotation or permutation invariance has driven impressive performance breakthroughs in computer vision, natural language processing, and other important applications. In this report, we argue that both the physics community and the broader machine learning community have much to understand and potentially to gain from a deeper investment in research concerning symmetry group equivariant machine learning architectures. For some applications, the introduction of symmetries into the fundamental structural design can yield models that are more economical (i.e. contain fewer, but more expressive, learned parameters), interpretable (i.e. more explainable or directly mappable to physical quantities), and/or trainable (i.e. more efficient in both data and computational requirements). We discuss various figures of merit for evaluating these models as well as some potential benefits and limitations of these methods for a variety of physics applications. Research and investment into these approaches will lay the foundation for future architectures that are potentially more robust under new computational paradigms and will provide a richer description of the physical systems to which they are applied.
翻訳日:2022-03-14 14:17:27 公開日:2022-03-11
# スマートシティのためのPeng Chengオブジェクト検出ベンチマーク

Peng Cheng Object Detection Benchmark for Smart City ( http://arxiv.org/abs/2203.05949v1 )

ライセンス: Link先を確認
Yaowei Wang, Zhouxin Yang, Rui Liu, Deng Li, Yuandu Lai, Leyuan Fang, Yahong Han(参考訳) オブジェクト検出は、画像中のオブジェクトを認識し、位置を特定するアルゴリズムであり、複雑な都市シーンの視覚的理解に幅広い応用がある。 既存のオブジェクト検出ベンチマークは主に1つの特定のシナリオに焦点を当てており、それらのアノテーション属性は十分にリッチではないため、スマートシティシーンではオブジェクト検出モデルを一般化しない。 インテリジェントシティガバナンスにおけるシーンの多様性と複雑さを考慮して,スマートシティのための大規模オブジェクト検出ベンチマークを構築した。 私たちのベンチマークには約500Kの画像が含まれており、インテリジェントトランスポート、インテリジェントセキュリティ、ドローンの3つのシナリオが含まれています。 スマートシティの実際のシーンの複雑さについては、3つのシーンにおける画像の天候、閉塞、その他の複雑な環境の多様性属性が注釈付けされている。 ベンチマークの特性を解析し,その性能を示すために,現在最先端の目標検出アルゴリズムの広範囲な実験を行った。

Object detection is an algorithm that recognizes and locates the objects in the image and has a wide range of applications in the visual understanding of complex urban scenes. Existing object detection benchmarks mainly focus on a single specific scenario and their annotation attributes are not rich enough, these make the object detection model is not generalized for the smart city scenes. Considering the diversity and complexity of scenes in intelligent city governance, we build a large-scale object detection benchmark for the smart city. Our benchmark contains about 500K images and includes three scenarios: intelligent transportation, intelligent security, and drones. For the complexity of the real scene in the smart city, the diversity of weather, occlusion, and other complex environment diversity attributes of the images in the three scenes are annotated. The characteristics of the benchmark are analyzed and extensive experiments of the current state-of-the-art target detection algorithm are conducted based on our benchmark to show their performance.
翻訳日:2022-03-14 14:02:07 公開日:2022-03-11
# PseudoProp: 自律運転システムにおける半監督対象検出のためのロバストな擬似ラベル生成

PseudoProp: Robust Pseudo-Label Generation for Semi-Supervised Object Detection in Autonomous Driving Systems ( http://arxiv.org/abs/2203.05983v1 )

ライセンス: Link先を確認
Shu Hu, Chun-Hao Liu, Jayanta Dutta, Ming-Ching Chang, Siwei Lyu, Naveen Ramakrishnan(参考訳) 半教師付き物体検出法は、少数の物体をラベル付けした自律走行システムで広く用いられている。 ラベル付オブジェクトからラベル付オブジェクトへ情報を伝達するには、ラベル付オブジェクトの擬似ラベルを生成する必要がある。 擬似ラベルは半教師付き物体検出の性能を著しく向上することが証明されているが、画像に基づく手法をビデオフレームに適用すると、このような擬似ラベルを用いて多数のミスや誤検出が行われる。 本稿では,ビデオフレームの動作連続性を利用してロバストな擬似ラベルを生成する新しい手法であるpseudopropを提案する。 具体的には、pseudopropは新しい双方向擬似ラベル伝播アプローチを使用して誤検出を補償する。 特徴に基づく融合技術は推論ノイズを抑制するためにも用いられる。 大規模都市景観データセットの広範な実験により,map75では,最先端の半教師付き物体検出手法を7.4%上回った。

Semi-supervised object detection methods are widely used in autonomous driving systems, where only a fraction of objects are labeled. To propagate information from the labeled objects to the unlabeled ones, pseudo-labels for unlabeled objects must be generated. Although pseudo-labels have proven to improve the performance of semi-supervised object detection significantly, the applications of image-based methods to video frames result in numerous miss or false detections using such generated pseudo-labels. In this paper, we propose a new approach, PseudoProp, to generate robust pseudo-labels by leveraging motion continuity in video frames. Specifically, PseudoProp uses a novel bidirectional pseudo-label propagation approach to compensate for misdetection. A feature-based fusion technique is also used to suppress inference noise. Extensive experiments on the large-scale Cityscapes dataset demonstrate that our method outperforms the state-of-the-art semi-supervised object detection methods by 7.4% on mAP75.
翻訳日:2022-03-14 14:01:53 公開日:2022-03-11
# 分散データからのディープクラスインクリメンタル学習

Deep Class Incremental Learning from Decentralized Data ( http://arxiv.org/abs/2203.05984v1 )

ライセンス: Link先を確認
Xiaohan Zhang, Songlin Dong, Jinjie Chen, Qi Tian, Yihong Gong, Xiaopeng Hong(参考訳) 本稿では、処理すべきデータの連続的な流入と、複数のリポジトリに格納されるデータを含む、新たな分散機械学習パラダイムに焦点を当てる。 本稿では,データ分散型クラスインクリメンタルラーニング(dcil)の研究を開始する。 まず、DCIL問題を定式化し、実験プロトコルを開発する。 第二に,典型的(集中型)クラスインクリメンタルな学習アプローチの基本的な分散化手法を作成するためのパラダイムを導入し,その結果,dcil研究のベンチマークを確立する。 第3に, 分散複合知識増分蒸留フレームワーク(DCID)を提案する。 dcidは3つの主要な構成要素からなる: ローカルクラスインクリメンタルラーニング、ローカルモデル間の協調知識蒸留、およびローカルモデルから一般モデルへの集約知識蒸留である。 3つのコンポーネントの異なる実装を使用することで、DCIDフレームワークを包括的に調査する。 大規模実験によりDCIDフレームワークの有効性が示された。 ベースラインメソッドと提案されたDCILのコードはhttps://github.com/zxxxxh/DCILでリリースされる。

In this paper, we focus on a new and challenging decentralized machine learning paradigm in which there are continuous inflows of data to be addressed and the data are stored in multiple repositories. We initiate the study of data decentralized class-incremental learning (DCIL) by making the following contributions. Firstly, we formulate the DCIL problem and develop the experimental protocol. Secondly, we introduce a paradigm to create a basic decentralized counterpart of typical (centralized) class-incremental learning approaches, and as a result, establish a benchmark for the DCIL study. Thirdly, we further propose a Decentralized Composite knowledge Incremental Distillation framework (DCID) to transfer knowledge from historical models and multiple local sites to the general model continually. DCID consists of three main components namely local class-incremental learning, collaborated knowledge distillation among local models, and aggregated knowledge distillation from local models to the general one. We comprehensively investigate our DCID framework by using different implementations of the three components. Extensive experimental results demonstrate the effectiveness of our DCID framework. The codes of the baseline methods and the proposed DCIL will be released at https://github.com/zxxxxh/DCIL.
翻訳日:2022-03-14 14:01:37 公開日:2022-03-11
# グローバルおよびオブジェクト中心表現の自己改善学習に向けて

Towards Self-Supervised Learning of Global and Object-Centric Representations ( http://arxiv.org/abs/2203.05997v1 )

ライセンス: Link先を確認
Federico Baldassarre, Hossein Azizpour(参考訳) 自己スーパービジョンは、通常1つの中心オブジェクトを含む自然画像の有意義な表現を学習することを可能にする。 マルチエンタテインメントのシーンにどの程度移行しますか? 我々は、自己スーパービジョンで構造化されたオブジェクト中心表現を学習し、CLEVRデータセットに関するいくつかの実験を通して洞察を検証する。 アーキテクチャに関して、各画像パッチが1つのオブジェクトにのみ参加する、注目に基づくオブジェクト発見の競争の重要性を確認する。 学習では,マッチング機能を備えたコントラスト損失を潜在空間に直接適用し,画素ベースの再構成を回避できることを示す。 しかし、このような最適化の目標は偽陰性(繰り返しオブジェクト)と偽陽性(一致エラー)に敏感である。 したがって、データ拡張と負のサンプル選択に関して慎重に検討する必要がある。

Self-supervision allows learning meaningful representations of natural images which usually contain one central object. How well does it transfer to multi-entity scenes? We discuss key aspects of learning structured object-centric representations with self-supervision and validate our insights through several experiments on the CLEVR dataset. Regarding the architecture, we confirm the importance of competition for attention-based object discovery, where each image patch is exclusively attended by one object. For training, we show that contrastive losses equipped with matching can be applied directly in a latent space, avoiding pixel-based reconstruction. However, such an optimization objective is sensitive to false negatives (recurring objects) and false positives (matching errors). Thus, careful consideration is required around data augmentation and negative sample selection.
翻訳日:2022-03-14 14:01:19 公開日:2022-03-11
# TAPE:画像修復のためのタスク非依存の事前埋め込み

TAPE: Task-Agnostic Prior Embedding for Image Restoration ( http://arxiv.org/abs/2203.06074v1 )

ライセンス: Link先を確認
Lin Liu, Lingxi Xie, Xiaopeng Zhang, Shanxin Yuan, Xiangyu Chen, Wengang Zhou, Houqiang Li, Qi Tian(参考訳) 自然画像復元のための一般化された事前学習は重要な課題である。 初期の方法は、主に正規化スパーシティ、l0勾配、ダークチャネルプリエントなど、手作りのプリエントを含んでいた。 近年、ディープニューラルネットワークは様々な画像の事前学習に使われているが、一般化は保証されていない。 本稿では,タスクに依存しない前処理をトランスに組み込む新しい手法を提案する。 タスク非依存型先行埋め込み(TAPE)と呼ばれる我々のアプローチは,タスク非依存型事前学習,タスク非依存型微調整,タスク特化型微調整の3段階からなる。 各種劣化試験によりTAPEの有効性が検証された。 PSNRのイメージ復元性能は1.45dBまで改善され、タスク固有のアルゴリズムよりも優れています。 さらに重要なことは、TAPEは、ダウンストリームタスクへの良好な転送能力を持つ劣化した画像から、一般化された画像先を遠ざける能力を示している。

Learning an generalized prior for natural image restoration is an important yet challenging task. Early methods mostly involved handcrafted priors including normalized sparsity, L0 gradients, dark channel priors, etc. Recently, deep neural networks have been used to learn various image priors but do not guarantee to generalize. In this paper, we propose a novel approach that embeds a task-agnostic prior into a transformer. Our approach, named Task-Agnostic Prior Embedding (TAPE), consists of three stages, namely, task-agnostic pre-training, task-agnostic fine-tuning, and task-specific fine-tuning, where the first one embeds prior knowledge about natural images into the transformer and the latter two extracts the knowledge to assist downstream image restoration. Experiments on various types of degradation validate the effectiveness of TAPE. The image restoration performance in terms of PSNR is improved by as much as 1.45 dB and even outperforms task-specific algorithms. More importantly, TAPE shows the ability of disentangling generalized image priors from degraded images, which enjoys favorable transfer ability to unknown downstream tasks.
翻訳日:2022-03-14 14:01:08 公開日:2022-03-11
# LFW-Beautified:美容と拡張現実フィルターを用いた顔画像のデータセット

LFW-Beautified: A Dataset of Face Images with Beautification and Augmented Reality Filters ( http://arxiv.org/abs/2203.06082v1 )

ライセンス: Link先を確認
Pontus Hedman, Vasilios Skepetzis, Kevin Hernandez-Diaz, Josef Bigun, Fernando Alonso-Fernandez(参考訳) 自撮り画像はソーシャルメディアで非常に人気がある。 この種の画像を共有することを中心とした同じプラットフォームは、それらを美化したり、拡張現実の効果を取り入れたりするためのフィルターを提供する。 研究によると、フィルターされた画像はより多くのビューとエンゲージメントを惹きつける。 セルフィー画像は、モバイルが多くのトランザクションのためのデータハブになるため、セキュリティアプリケーションでの利用も増えている。 また、パンデミックの間にブームとなったビデオ会議アプリケーションには、このようなフィルターが含まれる。 このようなフィルターは、たとえそのようなコモディティアプリケーションが必ずしも顔のシステムを侵害するために使われていなくても、人物の認識や顔自体の検出を可能にする生体認証機能を破壊する可能性がある。 これは、ソーシャルメディアにおける犯罪などのその後の調査にも影響する可能性がある。ソーシャルサイトやデバイスやクラウドリポジトリに投稿される情報の量を考えると、通常は自動分析が必要である。 このような問題に対処するのに役立ち、複数の操作を含む顔画像のデータベースにコントリビュートします。 画像強調フィルター(コントラストや稲妻を主に修正する)や、動物の鼻や眼鏡などのアイテムを組み込んだ拡張現実フィルターが含まれている。 さらに、サングラスをかけた画像は、そのような修正を逆転するように訓練された再構成ネットワークで処理される。 これは、視覚領域の難読化が、顔検出や認識の精度に最も大きな影響を与えることが文献で観察されているためである。 まず、人気のあるLFWデータベースのラベル付き顔から始め、異なる修正を加えて、8つのデータセットを生成します。 各データセットには64 x 64の4,324枚の画像があり、合計34,592枚の画像がある。 パブリックかつ広く使用されている顔データセットを使用することで、レプリケーションと比較が可能になる。 作成したデータベースはhttps://github.com/HalmstadUniversityBiometrics/LFW-Beautifiedで入手できる。

Selfie images enjoy huge popularity in social media. The same platforms centered around sharing this type of images offer filters to beautify them or incorporate augmented reality effects. Studies suggests that filtered images attract more views and engagement. Selfie images are also in increasing use in security applications due to mobiles becoming data hubs for many transactions. Also, video conference applications, boomed during the pandemic, include such filters. Such filters may destroy biometric features that would allow person recognition or even detection of the face itself, even if such commodity applications are not necessarily used to compromise facial systems. This could also affect subsequent investigations like crimes in social media, where automatic analysis is usually necessary given the amount of information posted in social sites or stored in devices or cloud repositories. To help in counteracting such issues, we contribute with a database of facial images that includes several manipulations. It includes image enhancement filters (which mostly modify contrast and lightning) and augmented reality filters that incorporate items like animal noses or glasses. Additionally, images with sunglasses are processed with a reconstruction network trained to learn to reverse such modifications. This is because obfuscating the eye region has been observed in the literature to have the highest impact on the accuracy of face detection or recognition. We start from the popular Labeled Faces in the Wild (LFW) database, to which we apply different modifications, generating 8 datasets. Each dataset contains 4,324 images of size 64 x 64, with a total of 34,592 images. The use of a public and widely employed face dataset allows for replication and comparison. The created database is available at https://github.com/HalmstadUniversityBiometrics/LFW-Beautified
翻訳日:2022-03-14 14:00:47 公開日:2022-03-11
# ActiveMLP: Active Token Mixerを備えたMLPライクなアーキテクチャ

ActiveMLP: An MLP-like Architecture with Active Token Mixer ( http://arxiv.org/abs/2203.06108v1 )

ライセンス: Link先を確認
Guoqiang Wei, Zhizheng Zhang, Cuiling Lan, Yan Lu, Zhibo Chen(参考訳) 本稿では,コンピュータビジョンのための汎用MLP型バックボーンであるActiveMLPを提案する。 既存の3つの支配的なネットワークファミリー、すなわちCNN、トランスフォーマー、MPPは、主にコンテキスト情報を特定のトークンに融合する方法で異なり、バックボーンアーキテクチャ開発の中心に、より効果的なトークン混合機構の設計を残している。 ActiveMLPでは、グローバルスコープ内の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込むために、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。 この基本演算子は、有用なコンテキストをどこでキャプチャするかを積極的に予測し、取得したコンテキストをチャネルレベルで所定のトークンの元の情報と融合する方法を学ぶ。 このようにして、トークン混合の空間範囲を拡大し、トークン混合の方法を変更する。 この設計により、activemlpはグローバル受容フィールドとより柔軟なコンテンツ適応情報融合のメリットを享受できる。 広範囲な実験により、ActiveMLPは一般的に適用可能であり、視覚認識や密集予測タスクを含む幅広い視覚タスクにおいて、SOTA視覚バックボーンの異なるファミリーを明確なマージンで包括的に超えることが示されている。 コードとモデルはhttps://github.com/microsoft/ActiveMLP.comで入手できる。

This paper presents ActiveMLP, a general MLP-like backbone for computer vision. The three existing dominant network families, i.e., CNNs, Transformers and MLPs, differ from each other mainly in the ways to fuse contextual information into a given token, leaving the design of more effective token-mixing mechanisms at the core of backbone architecture development. In ActiveMLP, we propose an innovative token-mixer, dubbed Active Token Mixer (ATM), to actively incorporate contextual information from other tokens in the global scope into the given one. This fundamental operator actively predicts where to capture useful contexts and learns how to fuse the captured contexts with the original information of the given token at channel levels. In this way, the spatial range of token-mixing is expanded and the way of token-mixing is reformed. With this design, ActiveMLP is endowed with the merits of global receptive fields and more flexible content-adaptive information fusion. Extensive experiments demonstrate that ActiveMLP is generally applicable and comprehensively surpasses different families of SOTA vision backbones by a clear margin on a broad range of vision tasks, including visual recognition and dense prediction tasks. The code and models will be available at https://github.com/microsoft/ActiveMLP.
翻訳日:2022-03-14 14:00:22 公開日:2022-03-11
# 単一ラベルアノテーションを用いた複数ラベル分類器の訓練における空間的整合性損失

Spatial Consistency Loss for Training Multi-Label Classifiers from Single-Label Annotations ( http://arxiv.org/abs/2203.06127v1 )

ライセンス: Link先を確認
Thomas Verelst, Paul K. Rubenstein, Marcin Eichner, Tinne Tuytelaars, Maxim Berman(参考訳) 自然画像は通常複数のオブジェクトを含むため、複数ラベルのイメージ分類はシングルラベルの分類よりも「野生で」適用することができる。 しかし、興味のあるすべてのオブジェクトで画像に徹底的に注釈を付けるのはコストと時間を要する。 シングルラベルアノテーションからのみマルチラベル分類器をトレーニングすることを目指している。 ネットワークの予測が連続したトレーニング期間を通じて一貫していることを保証する一貫性損失が,マルチラベル分類器を弱い教師付き設定で訓練するための単純かつ効果的な方法であることを示す。 連続的な訓練エポック上で生成された空間特徴写像の整合性を確保し,各トレーニング画像に対するクラスごとのランニング平均ヒートマップを維持することにより,このアプローチをさらに拡張する。 この空間的整合性損失は、分類器のマルチラベルmAPをさらに改善することを示す。 また,本手法は,データ拡張によって入力画像から1つのグランド真理オブジェクトのほとんどが切り抜かれた場合でも,正しい監視信号を復元することにより,「クロップ」データ表示の欠点を克服することを示す。 我々は,MS-COCO と Pascal VOC において,二進的クロスエントロピーベースラインと競合する手法の整合性と空間的整合性損失の増大を示す。 また、ReaLマルチラベル検証セットを用いて、ImageNet-1K上のマルチラベル分類mAPを改善した。

As natural images usually contain multiple objects, multi-label image classification is more applicable "in the wild" than single-label classification. However, exhaustively annotating images with every object of interest is costly and time-consuming. We aim to train multi-label classifiers from single-label annotations only. We show that adding a consistency loss, ensuring that the predictions of the network are consistent over consecutive training epochs, is a simple yet effective method to train multi-label classifiers in a weakly supervised setting. We further extend this approach spatially, by ensuring consistency of the spatial feature maps produced over consecutive training epochs, maintaining per-class running-average heatmaps for each training image. We show that this spatial consistency loss further improves the multi-label mAP of the classifiers. In addition, we show that this method overcomes shortcomings of the "crop" data-augmentation by recovering correct supervision signal even when most of the single ground truth object is cropped out of the input image by the data augmentation. We demonstrate gains of the consistency and spatial consistency losses over the binary cross-entropy baseline, and over competing methods, on MS-COCO and Pascal VOC. We also demonstrate improved multi-label classification mAP on ImageNet-1K using the ReaL multi-label validation set.
翻訳日:2022-03-14 13:59:58 公開日:2022-03-11
# スパイクニューラルネットワークのトレーニングのためのニューロモルフィックデータ拡張

Neuromorphic Data Augmentation for Training Spiking Neural Networks ( http://arxiv.org/abs/2203.06145v1 )

ライセンス: Link先を確認
Yuhang Li, Youngeun Kim, Hyoungseob Park, Tamar Geller, Priyadarshini Panda(参考訳) スパイクニューラルネットワーク(SNN)を用いたイベントベースのデータセット上でのニューロモーフィックインテリジェンスの開発は、最近多くの研究の注目を集めている。 しかし、イベントベースのデータセットのサイズが制限されているため、SNNは過度に適合し、不安定な収束する傾向にある。 この問題は以前の学術研究では未解決のままである。 この一般化ギャップを最小化するために、SNNトレーニングの大幅な安定化と、トレーニングとテストパフォーマンスの間の一般化ギャップの低減を目的として、イベントベースデータセット用に特別に設計された幾何学的拡張であるニューロモルフィックデータ拡張(NDA)を提案する。 提案手法は単純で,既存のSNNトレーニングパイプラインと互換性がある。 提案手法を用いて,SNNに対する教師なしのコントラスト学習の実現可能性を示す。 我々はニューロモルフィック・ビジョン・ベンチマークの総合的な実験を行い、NDAが過去の最先端の結果よりも大幅に改善したことを示す。 例えば、NDAベースのSNNは、CIFAR10-DVSとN-Caltech 101の精度をそれぞれ10.1%、13.7%向上させる。

Developing neuromorphic intelligence on event-based datasets with spiking neural networks (SNNs) has recently attracted much research attention. However, the limited size of event-based datasets makes SNNs prone to overfitting and unstable convergence. This issue remains unexplored by previous academic works. In an effort to minimize this generalization gap, we propose neuromorphic data augmentation (NDA), a family of geometric augmentations specifically designed for event-based datasets with the goal of significantly stabilizing the SNN training and reducing the generalization gap between training and test performance. The proposed method is simple and compatible with existing SNN training pipelines. Using the proposed augmentation, for the first time, we demonstrate the feasibility of unsupervised contrastive learning for SNNs. We conduct comprehensive experiments on prevailing neuromorphic vision benchmarks and show that NDA yields substantial improvements over previous state-of-the-art results. For example, NDA-based SNN achieves accuracy gain on CIFAR10-DVS and N-Caltech 101 by 10.1% and 13.7%, respectively.
翻訳日:2022-03-14 13:59:38 公開日:2022-03-11
# Tevatron: ディエンス検索のための効率的で柔軟なツールキット

Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval ( http://arxiv.org/abs/2203.05765v1 )

ライセンス: Link先を確認
Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan(参考訳) 近年、深層学習言語モデルの急速な進歩と大規模なデータセットの導入は、埋め込みに基づく密集検索の研究に力を入れている。 優れた研究論文がいくつか出回っているが、その多くが独自のソフトウェアスタックを持っている。 これらのスタックは通常、効率やコード構造ではなく、特定の研究目標に最適化される。 本稿では,効率,柔軟性,コード単純性に最適化された高密度検索ツールキットTevatronを提案する。 Tevatronは、テキスト処理、モデルトレーニング、コーパス/クエリエンコーディング、検索を含む、高密度検索のための標準化されたパイプラインを提供する。 本稿では,テバトロンの概要を述べるとともに,その有効性と効率を複数のIRおよびQAデータセットで示す。 また,Tevatronのフレキシブルな設計により,データセットやモデルアーキテクチャ,アクセラレーションプラットフォーム(GPU/TPU)の一般化が容易になることを示す。 我々はテバトロンが設計、モデリング、最適化を含む高密度検索システム研究のための効果的なソフトウェア基盤となると信じている。

Recent rapid advancements in deep pre-trained language models and the introductions of large datasets have powered research in embedding-based dense retrieval. While several good research papers have emerged, many of them come with their own software stacks. These stacks are typically optimized for some particular research goals instead of efficiency or code structure. In this paper, we present Tevatron, a dense retrieval toolkit optimized for efficiency, flexibility, and code simplicity. Tevatron provides a standardized pipeline for dense retrieval including text processing, model training, corpus/query encoding, and search. This paper presents an overview of Tevatron and demonstrates its effectiveness and efficiency across several IR and QA data sets. We also show how Tevatron's flexible design enables easy generalization across datasets, model architectures, and accelerator platforms(GPU/TPU). We believe Tevatron can serve as an effective software foundation for dense retrieval system research including design, modeling, and optimization.
翻訳日:2022-03-14 13:58:54 公開日:2022-03-11
# カスケードsvmに基づく並列svmアルゴリズムに関する研究

Research on Parallel SVM Algorithm Based on Cascade SVM ( http://arxiv.org/abs/2203.05768v1 )

ライセンス: Link先を確認
Yi Cheng, Liu and XiaoYan, Liu(参考訳) Cascade SVM(CSVM)はデータセットをグループ化し、サブセットを並列にトレーニングすることで、トレーニング時間とメモリ消費を大幅に削減する。 しかし,本手法で得られたモデルの精度は,直接トレーニングと比較して若干の誤差がある。 誤りを減らすために,グループ化トレーニングにおけるエラーの原因を分析し,理想的な条件下ではエラーのないグループ化を要約する。 A Balanced Cascade SVM (BCSVM) アルゴリズムが提案され、サブセット内のサンプルの割合が元のデータセットと同じであることを保証するために、グループ化後のサブセット内のサンプル比のバランスをとる。 同時に、BCSVMアルゴリズムによって得られたモデルの精度がCSVMよりも高いことを証明する。 最後に、2つの共通データセットを用いて実験を行い、BCSVMアルゴリズムを用いて得られた精度誤差をCSVMの1%から0.1%に削減した。

Cascade SVM (CSVM) can group datasets and train subsets in parallel, which greatly reduces the training time and memory consumption. However, the model accuracy obtained by using this method has some errors compared with direct training. In order to reduce the error, we analyze the causes of error in grouping training, and summarize the grouping without error under ideal conditions. A Balanced Cascade SVM (BCSVM) algorithm is proposed, which balances the sample proportion in the subset after grouping to ensure that the sample proportion in the subset is the same as the original dataset. At the same time, it proves that the accuracy of the model obtained by BCSVM algorithm is higher than that of CSVM. Finally, two common datasets are used for experimental verification, and the results show that the accuracy error obtained by using BCSVM algorithm is reduced from 1% of CSVM to 0.1%, which is reduced by an order of magnitude.
翻訳日:2022-03-14 13:58:03 公開日:2022-03-11
# 変分オートエンコーダによるフェアガンの再プログラミング:新しいトランスファー学習モデル

Reprogramming FairGANs with Variational Auto-Encoders: A New Transfer Learning Model ( http://arxiv.org/abs/2203.05811v1 )

ライセンス: Link先を確認
Beatrice Nobile and Gabriele Santin and Bruno Lepri and Pierpaolo Brutti(参考訳) フェアネスを意識したGAN(FairGAN)は、生成したデータにフェアネスを課すためにGAN(Generative Adversarial Networks)のメカニズムを利用する。 このモデルの利点と性能を考慮すると、事前学習されたFairGANを他のタスクに転送するための新しい学習フレームワークを導入する。 この再プログラミングプロセスは、データユーティリティ、分類ユーティリティ、データフェアネスの主なターゲットを維持しつつ、適用性と使いやすさを広げるという目標を持っている。 本稿では,この新しいフレームワーク(特に変分オートエンコーダの利用)に元のアーキテクチャを適用するために必要な技術的拡張について述べるとともに,新しいモデルの利点,トレードオフ,制限について論じる。

Fairness-aware GANs (FairGANs) exploit the mechanisms of Generative Adversarial Networks (GANs) to impose fairness on the generated data, freeing them from both disparate impact and disparate treatment. Given the model's advantages and performance, we introduce a novel learning framework to transfer a pre-trained FairGAN to other tasks. This reprogramming process has the goal of maintaining the FairGAN's main targets of data utility, classification utility, and data fairness, while widening its applicability and ease of use. In this paper we present the technical extensions required to adapt the original architecture to this new framework (and in particular the use of Variational Auto-Encoders), and discuss the benefits, trade-offs, and limitations of the new model.
翻訳日:2022-03-14 13:57:46 公開日:2022-03-11
# フェデレートラーニングにおける安全・有用性のための無料給食定理

No free lunch theorem for security and utility in federated learning ( http://arxiv.org/abs/2203.05816v1 )

ライセンス: Link先を確認
Xiaojin Zhang, Hanlin Gu, Lixin Fan, Kai Chen, Qiang Yang(参考訳) 複数のチームが互いにデータからモデルを学習する連合学習シナリオでは、適切なアルゴリズムを選択するための2つの相反する目標が存在する。 一方,「textit{semi-honest}パートナ」の存在下では,個人的かつ機密性の高いトレーニングデータを可能な限り安全に保たなければならない一方で,学習ユーティリティのためには,特定の情報交換を行う必要がある。 このような課題は、学習モデルの実用性を最大化し、参加者のプライベートデータに対する証明可能なプライバシー保証を維持する、プライバシ保護フェデレーション学習ソリューションを求めるものである。 この記事では、一般的なフレームワークを説明します。 a) 統一情報理論の観点からのプライバシ損失とユーティリティ損失のトレードオフを定式化し、 ロ ランダム化、スパリティー及び均質暗号化を含む異なる保護機構を使用する場合のプライバシー利用トレードオフの量的境界を定めること。 一般に textit{there no free lunch for the privacy-utility trade-off} があり、プライバシーの保存をある程度の劣化したユーティリティと交換しなければならないことが示されている。 本論文で示した定量的解析は,実用的なフェデレーション学習アルゴリズムの設計のための指針となるかもしれない。

In a federated learning scenario where multiple parties jointly learn a model from their respective data, there exist two conflicting goals for the choice of appropriate algorithms. On one hand, private and sensitive training data must be kept secure as much as possible in the presence of \textit{semi-honest} partners, while on the other hand, a certain amount of information has to be exchanged among different parties for the sake of learning utility. Such a challenge calls for the privacy-preserving federated learning solution, which maximizes the utility of the learned model and maintains a provable privacy guarantee of participating parties' private data. This article illustrates a general framework that a) formulates the trade-off between privacy loss and utility loss from a unified information-theoretic point of view, and b) delineates quantitative bounds of privacy-utility trade-off when different protection mechanisms including Randomization, Sparsity, and Homomorphic Encryption are used. It was shown that in general \textit{there is no free lunch for the privacy-utility trade-off} and one has to trade the preserving of privacy with a certain degree of degraded utility. The quantitative analysis illustrated in this article may serve as the guidance for the design of practical federated learning algorithms.
翻訳日:2022-03-14 13:57:31 公開日:2022-03-11
# 医療詐欺検出のための複数入力ニューラルネットワーク

Multiple Inputs Neural Networks for Medicare fraud Detection ( http://arxiv.org/abs/2203.05842v1 )

ライセンス: Link先を確認
Mansour Zoubeirou A Mayaki and Michel Riveill(参考訳) メディケア詐欺は政府や保険会社にかなりの損失をもたらし、顧客からのプレミアムが高くなる。 医療詐欺はヨーロッパで約13億ユーロ、米国では年間21億から71億ドルの費用がかかる。 本研究の目的は、ニューラルネットワークに基づく分類器を用いて医療詐欺を予測することである。 不正検出やより一般的には異常検出において機械学習技術を使用する主な困難は、データセットが極めて不均衡であることである。 医療不正を検出するために,Long-Short Term Memory (LSTM) オートエンコーダコンポーネントを用いた複数入力深層ニューラルネットワークに基づく分類器を提案する。 このアーキテクチャにより、多くのデータソースを混合することなく考慮し、最終モデルの分類作業を容易にすることができる。 LSTMオートエンコーダから抽出された潜在特徴は、強い判別力を有し、プロバイダを均質クラスタに分離する。 私たちは米国連邦政府のメディケイド・メディケアサービス(cms)センターのデータセットを使用しています。 CMSは、アメリカの病院から医療機関に送られた費用要求をまとめて公開データを提供する。 その結果,ベースラインニューラルネットワークは優れた性能を示すが,マルチ入力ニューラルネットワークでは性能に優れることがわかった。 LSTMオートエンコーダを用いてプロバイダの動作を埋め込むことで、より良い結果が得られることを示し、クラス不均衡に対する分類器をより堅牢にする。

Medicare fraud results in considerable losses for governments and insurance companies and results in higher premiums from clients. Medicare fraud costs around 13 billion euros in Europe and between 21 billion and 71 billion US dollars per year in the United States. This study aims to use artificial neural network based classifiers to predict medicare fraud. The main difficulty using machine learning techniques in fraud detection or more generally anomaly detection is that the data sets are highly imbalanced. To detect medicare frauds, we propose a multiple inputs deep neural network based classifier with a Long-short Term Memory (LSTM) autoencoder component. This architecture makes it possible to take into account many sources of data without mixing them and makes the classification task easier for the final model. The latent features extracted from the LSTM autoencoder have a strong discriminating power and separate the providers into homogeneous clusters. We use the data sets from the Centers for Medicaid and Medicare Services (CMS) of the US federal government. The CMS provides publicly available data that brings together all of the cost price requests sent by American hospitals to medicare companies. Our results show that although baseline artificial neural network give good performances, they are outperformed by our multiple inputs neural networks. We have shown that using a LSTM autoencoder to embed the provider behavior gives better results and makes the classifiers more robust to class imbalance.
翻訳日:2022-03-14 13:57:10 公開日:2022-03-11
# 因果ベースフェアネス概念の識別可能性--芸術の現状

Identifiability of Causal-based Fairness Notions: A State of the Art ( http://arxiv.org/abs/2203.05900v1 )

ライセンス: Link先を確認
Karima Makhlouf, Sami Zhioua, Catuscia Palamidessi(参考訳) 機械学習アルゴリズムは、偏りのある結果/予測を生成することができる。 したがって、機械学習ベースのテクノロジーを大規模に適用するための重要な要件として公正性が生まれている。 最も一般的に用いられるフェアネスの概念(統計パリティ、等化オッズ、予測パリティなど)は観測的であり、変数間の相関のみに依存する。 これらの概念はシンプソンやバークソンのパラドックスのような統計的異常の場合はバイアスを識別できない。 因果性に基づく公平性の概念(例えば、反事実的公平性、非プロキシ識別など)はそのような異常に免疫があり、したがって公平性を評価するのがより信頼できる。 しかし因果性に基づく公平性の概念の問題は、必ずしも測定できない量(因果性、反事実性、経路特異的効果など)で定義されることである。 これは識別可能性問題として知られ、因果推論文学における大きな研究の話題となっている。 本稿では,機械学習の公平性に特に寄与する主要な識別可能性の結果をまとめた。 結果は、多数の例と因果グラフを使って示されます。 この論文は、因果関係に基づく公正概念の使用を検討している公正研究者、実践者、政策立案者にとって特に興味を持ち、主要な識別可能性の結果を要約し、示すであろう。

Machine learning algorithms can produce biased outcome/prediction, typically, against minorities and under-represented sub-populations. Therefore, fairness is emerging as an important requirement for the large scale application of machine learning based technologies. The most commonly used fairness notions (e.g. statistical parity, equalized odds, predictive parity, etc.) are observational and rely on mere correlation between variables. These notions fail to identify bias in case of statistical anomalies such as Simpson's or Berkson's paradoxes. Causality-based fairness notions (e.g. counterfactual fairness, no-proxy discrimination, etc.) are immune to such anomalies and hence more reliable to assess fairness. The problem of causality-based fairness notions, however, is that they are defined in terms of quantities (e.g. causal, counterfactual, and path-specific effects) that are not always measurable. This is known as the identifiability problem and is the topic of a large body of work in the causal inference literature. This paper is a compilation of the major identifiability results which are of particular relevance for machine learning fairness. The results are illustrated using a large number of examples and causal graphs. The paper would be of particular interest to fairness researchers, practitioners, and policy makers who are considering the use of causality-based fairness notions as it summarizes and illustrates the major identifiability results
翻訳日:2022-03-14 13:56:49 公開日:2022-03-11
# グラフニューラルネットワークによるグラフ要約

Graph Summarization with Graph Neural Networks ( http://arxiv.org/abs/2203.05919v1 )

ライセンス: Link先を確認
Maximilian Blasi and Manuel Freudenreich and Johannes Horvath and David Richerby and Ansgar Scherp(参考訳) グラフ要約の目標は、構造化されコンパクトな方法で大きなグラフを表現することである。 同値クラスに基づくグラフサマリーは、頂点ラベルやエッジラベルのような$k$-hop近傍におけるグラフの頂点の事前定義された特徴を保存する。 これらの近傍特性に基づいて、頂点は同値類に割り当てられる。 割り当てられた同値類の計算は、予め定義された特徴に対する置換不変演算でなければならない。 これは機能値のソートによって実現されます。 g. エッジラベルは計算コストが高く、その結果をハッシュします。 グラフニューラルネットワーク(GNN)は、置換不変性を満たす。 我々は,$k$-hop近傍の根頂点上の部分グラフ分類タスクとしてグラフ要約の問題を定式化する。 我々は、一般的なメッセージパスプロトコルと代替アプローチに基づいて異なるGNNアーキテクチャを適用し、構造グラフ要約タスクを実行する。 異なるGNNと標準多層パーセプトロン(MLP)とブルームフィルタを非神経的手法として比較する。 実験では,大規模 web グラフ上の 4 つの人気のあるグラフ要約モデルについて検討した。 これは挑戦的なマルチクラスの頂点分類タスクに似ており、クラス数は576ドルから数十万までである。 以上の結果から,GNNの性能は互いに近いことが明らかとなった。 4つの実験のうち3つの実験において、非メッセージパスグラフMLPモデルは他のGNNよりも優れている。 標準MLPの性能は、特に多くのクラスの存在下では、非常に良好である。 最後に、bloomフィルタは、最少の576ドルのクラスを持つデータセットを除いて、すべてのニューラルネットワークアーキテクチャを大きなマージンで上回っている。

The goal of graph summarization is to represent large graphs in a structured and compact way. A graph summary based on equivalence classes preserves pre-defined features of a graph's vertex within a $k$-hop neighborhood such as the vertex labels and edge labels. Based on these neighborhood characteristics, the vertex is assigned to an equivalence class. The calculation of the assigned equivalence class must be a permutation invariant operation on the pre-defined features. This is achieved by sorting on the feature values, e. g., the edge labels, which is computationally expensive, and subsequently hashing the result. Graph Neural Networks (GNN) fulfill the permutation invariance requirement. We formulate the problem of graph summarization as a subgraph classification task on the root vertex of the $k$-hop neighborhood. We adapt different GNN architectures, both based on the popular message-passing protocol and alternative approaches, to perform the structural graph summarization task. We compare different GNNs with a standard multi-layer perceptron (MLP) and Bloom filter as non-neural method. For our experiments, we consider four popular graph summary models on a large web graph. This resembles challenging multi-class vertex classification tasks with the numbers of classes ranging from $576$ to multiple hundreds of thousands. Our results show that the performance of GNNs are close to each other. In three out of four experiments, the non-message-passing GraphMLP model outperforms the other GNNs. The performance of the standard MLP is extraordinary good, especially in the presence of many classes. Finally, the Bloom filter outperforms all neural architectures by a large margin, except for the dataset with the fewest number of $576$ classes.
翻訳日:2022-03-14 13:55:55 公開日:2022-03-11
# 重みの2次統計を用いた対人訓練の強化

Enhancing Adversarial Training with Second-Order Statistics of Weights ( http://arxiv.org/abs/2203.06020v1 )

ライセンス: Link先を確認
Gaojie Jin, Xinping Yi, Wei Huang, Sven Schewe, Xiaowei Huang(参考訳) 敵対的トレーニングは、ディープニューラルネットワークの堅牢性を改善するための最も効果的なアプローチの1つであることが示されている。 モデル重みと逆摂動に対するmin-max最適化として定式化され、sgdのような勾配降下法によって重みを最適化することができる。 本稿では,モデルの重みを確率変数として扱うことにより,重みに関して,次数 {textbf{S}econd-Order \textbf{S}tatistics \textbf{O}ptimization (S$^2$O) による逆トレーニングの強化が可能であることを示す。 すべての重みが統計的に独立であるという、以前のPAC-ベイジアンフレームワークの一般的な(しかし非現実的な)仮定を緩和することにより、改良されたPAC-ベイジアン逆一般化境界が導かれる。 この理論的な知見に加えて、S$^2$Oは、訓練されたニューラルネットワークが単独で使用するときの堅牢性と一般化を向上するだけでなく、TRADES、AWP、MART、AVMixupといった最先端の対人訓練技術にも容易に統合できることを示し、これらの技術は測定可能な改善をもたらす。 コードは \url{https://github.com/alexkael/s2o} で入手できる。

Adversarial training has been shown to be one of the most effective approaches to improve the robustness of deep neural networks. It is formalized as a min-max optimization over model weights and adversarial perturbations, where the weights can be optimized through gradient descent methods like SGD. In this paper, we show that treating model weights as random variables allows for enhancing adversarial training through \textbf{S}econd-Order \textbf{S}tatistics \textbf{O}ptimization (S$^2$O) with respect to the weights. By relaxing a common (but unrealistic) assumption of previous PAC-Bayesian frameworks that all weights are statistically independent, we derive an improved PAC-Bayesian adversarial generalization bound, which suggests that optimizing second-order statistics of weights can effectively tighten the bound. In addition to this theoretical insight, we conduct an extensive set of experiments, which show that S$^2$O not only improves the robustness and generalization of the trained neural networks when used in isolation, but also integrates easily in state-of-the-art adversarial training techniques like TRADES, AWP, MART, and AVMixup, leading to a measurable improvement of these techniques. The code is available at \url{https://github.com/Alexkael/S2O}.
翻訳日:2022-03-14 13:55:36 公開日:2022-03-11
# 幾何学的事前学習によるタンパク質構造表現学習

Protein Structure Representation Learning by Geometric Pretraining ( http://arxiv.org/abs/2203.06125v1 )

ライセンス: Link先を確認
Zuobai Zhang, Minghao Xu, Arian Jamasb, Vijil Chenthamarakshan, Aurelie Lozano, Payel Das, Jian Tang(参考訳) 効果的なタンパク質表現の学習は、タンパク質の機能や構造を予測するといった生物学の様々なタスクにおいて重要である。 既存のアプローチは通常、多くの未ラベルアミノ酸配列でタンパク質言語モデルを事前訓練し、下流のタスクでラベル付きデータでモデルを微調整する。 配列に基づくアプローチの有効性にもかかわらず、タンパク質機能の決定因子であることが知られているが、タンパク質特性予測のために、既知のタンパク質構造を少ない数で事前訓練する能力は研究されていない。 まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。 我々は、マルチビューコントラスト学習と異なる自己予測タスクを活用して、タンパク質グラフエンコーダを事前訓練する。 関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。 すべてのコードとモデルは受け入れ次第公開される。

Learning effective protein representations is critical in a variety of tasks in biology such as predicting protein function or structure. Existing approaches usually pretrain protein language models on a large number of unlabeled amino acid sequences and then finetune the models with some labeled data in downstream tasks. Despite the effectiveness of sequence-based approaches, the power of pretraining on smaller numbers of known protein structures has not been explored for protein property prediction, though protein structures are known to be determinants of protein function. We first present a simple yet effective encoder to learn protein geometry features. We pretrain the protein graph encoder by leveraging multiview contrastive learning and different self-prediction tasks. Experimental results on both function prediction and fold classification tasks show that our proposed pretraining methods outperform or are on par with the state-of-the-art sequence-based methods using much less data. All codes and models will be published upon acceptance.
翻訳日:2022-03-14 13:55:04 公開日:2022-03-11
# モラルマシンのモラルジレンマ

Moral Dilemmas for Moral Machines ( http://arxiv.org/abs/2203.06152v1 )

ライセンス: Link先を確認
Travis LaCroix(参考訳) 自律システムは、ある程度の倫理的意思決定能力を必要とする状況で開発され、展開されている。 その結果,近年,機械倫理の研究が盛んに行われている。 この研究は、倫理的に負荷のかかる状況において意思決定アルゴリズムを実装するための検証メカニズムとして道徳的ジレンマの使用を含む。 自動車の文脈におけるトロリー的な問題を事例研究として,(1)哲学的思考実験の誤用は,(2)道徳的ジレンマの目的を理解できないこと,(3)破滅的な結果をもたらす可能性があること,(3)機械倫理における道徳的ジレンマの活用が適切であり,また,機械学習の文脈で生じる新たな状況が,倫理学における哲学的作業にいくらかの光を当てることができることを論じる。

Autonomous systems are being developed and deployed in situations that may require some degree of ethical decision-making ability. As a result, research in machine ethics has proliferated in recent years. This work has included using moral dilemmas as validation mechanisms for implementing decision-making algorithms in ethically-loaded situations. Using trolley-style problems in the context of autonomous vehicles as a case study, I argue (1) that this is a misapplication of philosophical thought experiments because (2) it fails to appreciate the purpose of moral dilemmas, and (3) this has potentially catastrophic consequences; however, (4) there are uses of moral dilemmas in machine ethics that are appropriate and the novel situations that arise in a machine-learning context can shed some light on philosophical work in ethics.
翻訳日:2022-03-14 13:54:02 公開日:2022-03-11
# ラベル付き後方確率を用いた正負・偏負データからの分類

Classification from Positive and Biased Negative Data with Skewed Labeled Posterior Probability ( http://arxiv.org/abs/2203.05749v1 )

ライセンス: Link先を確認
Shotaro Watanabe and Hidetoshi Matsui(参考訳) 二項分類問題は、偏りのあるデータのみをクラスの1つで観測する状況である。 本稿では,正・負の分類問題 (PbN) にアプローチする新たな手法を提案する。これは,正のデータと負のデータから二項分類器を学習する弱い教師付き学習法である。 本研究では,観測データが正の後方確率を表す歪んだ信頼感による負の影響を補正する手法を提案する。 これにより、データがラベル付けされた後続確率の歪みを低減し、PbN分類問題の経験的リスク最小化に必要となる。 提案手法の有効性を数値実験と実データ解析により検証した。

The binary classification problem has a situation where only biased data are observed in one of the classes. In this paper, we propose a new method to approach the positive and biased negative (PbN) classification problem, which is a weakly supervised learning method to learn a binary classifier from positive data and negative data with biased observations. We incorporate a method to correct the negative impact due to skewed confidence, which represents the posterior probability that the observed data are positive. This reduces the distortion of the posterior probability that the data are labeled, which is necessary for the empirical risk minimization of the PbN classification problem. We verified the effectiveness of the proposed method by numerical experiments and real data analysis.
翻訳日:2022-03-14 13:53:44 公開日:2022-03-11
# 6-DoFによるロボットマニピュレーションのための家庭用物体の推定:アクセシブルデータセットとベンチマーク

6-DoF Pose Estimation of Household Objects for Robotic Manipulation: An Accessible Dataset and Benchmark ( http://arxiv.org/abs/2203.05701v1 )

ライセンス: Link先を確認
Stephen Tyree, Jonathan Tremblay, Thang To, Jia Cheng, Terry Mosier, Jeffrey Smith, Stan Birchfield(参考訳) 本稿では,ロボット操作研究を中心に,既知の物体の6-DoFポーズ推定のための新しいデータセットを提案する。 そこで我々は,ロボットの握りと操作に適したサイズで,物理的インスタンス化が容易に購入できる玩具食料品のセットを提案する。 これらの物体の3dスキャンされたテクスチャモデルを提供し,合成トレーニングデータを生成するのに好適であり,また,部分的閉塞,極端な照明変動,画像当たりの複数のインスタンス,多種多様なポーズを呈する煩雑なシーンにおいて,物体のrgbd画像を生成する。 半自動RGBD-to-modelテクスチャ対応を用いて、画像は数ミリ以内の精度で実証された地上の真実のポーズで注釈付けされる。 また, 明示的な列挙を必要とせず, 物体幾何の対称性に頑健なハンガリー割当てアルゴリズムに基づいて, 新たなポーズ評価指標 {add-h} を提案する。 私たちは、すべてのtoy groceryオブジェクトの事前トレーニング済みポーズ推定子と、検証とテストセットのベースラインパフォーマンスを共有しています。 私たちはこのデータセットをコミュニティに提供し、コンピュータビジョン研究者の努力とロボット工学者のニーズを結びつける手助けをします。

We present a new dataset for 6-DoF pose estimation of known objects, with a focus on robotic manipulation research. We propose a set of toy grocery objects, whose physical instantiations are readily available for purchase and are appropriately sized for robotic grasping and manipulation. We provide 3D scanned textured models of these objects, suitable for generating synthetic training data, as well as RGBD images of the objects in challenging, cluttered scenes exhibiting partial occlusion, extreme lighting variations, multiple instances per image, and a large variety of poses. Using semi-automated RGBD-to-model texture correspondences, the images are annotated with ground truth poses that were verified empirically to be accurate to within a few millimeters. We also propose a new pose evaluation metric called {ADD-H} based upon the Hungarian assignment algorithm that is robust to symmetries in object geometry without requiring their explicit enumeration. We share pre-trained pose estimators for all the toy grocery objects, along with their baseline performance on both validation and test sets. We offer this dataset to the community to help connect the efforts of computer vision researchers with the needs of roboticists.
翻訳日:2022-03-14 13:50:21 公開日:2022-03-11
# 脳保護剤の多部位前臨床評価のための画像ベースストロークアセスメント

Image-based Stroke Assessment for Multi-site Preclinical Evaluation of Cerebroprotectants ( http://arxiv.org/abs/2203.05714v1 )

ライセンス: Link先を確認
Ryan P. Cabeen, Joseph Mandeville, Fahmeed Hyder, Basavaraju G. Sanganahalli, Daniel R. Thedens, Ali Arbab, Shuning Huang, Adnan Bibic, Erendiz Tarakci, Jelena Mihailovic, Andreia Morais, Jessica Lamb, Karisma Nagarkatti, Marcio A. Dinitz, Andre Rogatko, Arthur W. Toga, Patrick Lyden, Cenk Ayata(参考訳) 脳卒中は世界中で主要な死因であるが、脳卒中予防薬を前臨床試験から患者に翻訳することに成功した例はほとんどない。 本研究では, 大規模前臨床検診の精度, スケーラビリティ, 展望の向上を図るための画像ベース評価ツールについて検討した。 脳卒中術前評価ネットワーク(span)のための画像ベース脳卒中アウトカム定量化のためのパイプラインを開発し,評価し,展開した。 中大脳動脈閉塞モデル(mcao)から縦断的に収集したマルチパラメータmriデータから脳卒中アウトカムを評価するために,最先端のアルゴリズムとデータ解析を組み合わせることで,脳梗塞容積,脳萎縮,ミッドラインシフト,データ品質の計測を行う。 我々は1,368個のスキャンでアプローチを検証し,病変範囲と損傷の経時的変化の集団レベルを報告した。 ネットワークの盲検者によるクラウドソーシングを用いて,同じ脳の冠状mriスライスと組織切片のマニュアルアノテーションと比較し,本システムの有効性を確認した。 画像に基づく脳卒中評価の有効性とロバスト性を示す。 このパイプラインは、将来SPANや他のネットワークが実施する先臨床研究に有望なリソースを提供する可能性がある。

Ischemic stroke is a leading cause of death worldwide, but there has been little success translating putative cerebroprotectants from preclinical trials to patients. We investigated computational image-based assessment tools for practical improvement of the quality, scalability, and outlook for large scale preclinical screening for potential therapeutic interventions. We developed, evaluated, and deployed a pipeline for image-based stroke outcome quantification for the Stroke Prelinical Assessment Network (SPAN), which is a multi-site, multi-arm, multi-stage study evaluating a suite of cerebroprotectant interventions. Our fully automated pipeline combines state-of-the-art algorithmic and data analytic approaches to assess stroke outcomes from multi-parameter MRI data collected longitudinally from a rodent model of middle cerebral artery occlusion (MCAO), including measures of infarct volume, brain atrophy, midline shift, and data quality. We tested our approach with 1,368 scans and report population level results of lesion extent and longitudinal changes from injury. We validated our system by comparison with manual annotations of coronal MRI slices and tissue sections from the same brain, using crowdsourcing from blinded stroke experts from the network. Our results demonstrate the efficacy and robustness of our image-based stroke assessments. The pipeline may provide a promising resource for ongoing preclinical studies conducted by SPAN and other networks in the future.
翻訳日:2022-03-14 13:49:43 公開日:2022-03-11
# aiWave:3次元トレーニングアフィンウェーブレット様変換によるボリューム画像圧縮

aiWave: Volumetric Image Compression with 3-D Trained Affine Wavelet-like Transform ( http://arxiv.org/abs/2203.05822v1 )

ライセンス: Link先を確認
Dongmei Xue, Haichuan Ma, Li Li, Dong Liu, Zhiwei Xiong(参考訳) 生物学的研究および臨床実践において生成した画像を効果的に送信・保存するための,ボリューム画像圧縮が緊急課題となっている。 現在最もよく使われているボリューム画像圧縮法はJP3Dのようなウェーブレット変換に基づいている。 しかしjp3dは理想的で分離性があり、グローバルで固定されたウェーブレットを用い、入力画像をピクセル領域から周波数領域に変換する。 本稿では,信号依存および非分離変換を可能にする3次元ウェーブレット様変換を最初に設計する。 次に、アフィンウェーブレットベースを導入し、ボリューム画像の異なる領域における様々な局所的相関をキャプチャする。 さらに、提案したウェーブレット様変換をaiWaveと呼ばれるエンドツーエンド圧縮フレームワークに組み込んで、各種データセットに対する適応圧縮スキームを実現する。 最後に, 軸方向の体積データ特性に応じてアフィンウェーブレット様変換の重み共有戦略を導入し, パラメータの量を削減する。 実験の結果は以下の通りである。 1) 単純な因子化エントロピーモジュールでトレーニングした3Dアフィンウェーブレット様変換を協調すると、aiWaveはJP3Dよりも優れ、符号化や復号化の点で同等である。 2) 信号冗長性をさらに除去するためにコンテキストモジュールを追加する場合、aiWaveはHEVCよりもはるかに優れたパフォーマンスが得られる。

Volumetric image compression has become an urgent task to effectively transmit and store images produced in biological research and clinical practice. At present, the most commonly used volumetric image compression methods are based on wavelet transform, such as JP3D. However, JP3D employs an ideal, separable, global, and fixed wavelet basis to convert input images from pixel domain to frequency domain, which seriously limits its performance. In this paper, we first design a 3-D trained wavelet-like transform to enable signal-dependent and non-separable transform. Then, an affine wavelet basis is introduced to capture the various local correlations in different regions of volumetric images. Furthermore, we embed the proposed wavelet-like transform to an end-to-end compression framework called aiWave to enable an adaptive compression scheme for various datasets. Last but not least, we introduce the weight sharing strategies of the affine wavelet-like transform according to the volumetric data characteristics in the axial direction to reduce the amount of parameters. The experimental results show that: 1) when cooperating our trained 3-D affine wavelet-like transform with a simple factorized entropy module, aiWave performs better than JP3D and is comparable in terms of encoding and decoding complexities; 2) when adding a context module to further remove signal redundancy, aiWave can achieve a much better performance than HEVC.
翻訳日:2022-03-14 13:49:20 公開日:2022-03-11
# 特徴量ゆらぎ最適化を用いた機械の映像符号化

Video Coding for Machines with Feature-Based Rate-Distortion Optimization ( http://arxiv.org/abs/2203.05890v1 )

ライセンス: Link先を確認
Kristian Fischer, Fabian Brand, Christian Herglotz, Andr\'e Kaup(参考訳) 一般的な最先端ビデオコーデックは、レート歪み最適化(RDO)によって達成される最終観察者に一定の品質を提供することにより、低ビットレートを提供するよう最適化される。 しかし、コンピュータビジョンタスクを解くニューラルネットワークの着実に改善され、ますます多くのマルチメディアデータが人間によって観測されるようになり、ニューラルネットワークによって直接分析されるようになりました。 本稿では,機械シナリオのビデオ符号化において,デコードされたフレームをニューラルネットワークで解析した場合に,符号化性能を向上させるための標準準拠機能ベースのRDO(FRDO)を提案する。 そのために、VTM-8.0の従来のRDOにおける画素ベースの歪み測定を、ニューラルネットワークの第1層によって生成される特徴空間で計算された歪み測定に置き換える。 セグメンテーションネットワークMask R-CNNとCityscapesデータセットからの単一画像によるいくつかのテストを通して、提案したFRDOとHFRDOのハイブリッドバージョンを比較し、特徴空間における従来のRDOに対して異なる歪み測定を行った。 HFRDOでは、Bj{\o}ntegaard Delta RateによるVTM-8.0実装と比較して最大5.49 %のビットレートを保存でき、重み付き平均精度を品質指標として用いることができる。 さらに、エンコーダが量子化パラメータを変更できるようにすることで、提案するhfrdoは従来のvtmと比較して9.95%向上する。

Common state-of-the-art video codecs are optimized to deliver a low bitrate by providing a certain quality for the final human observer, which is achieved by rate-distortion optimization (RDO). But, with the steady improvement of neural networks solving computer vision tasks, more and more multimedia data is not observed by humans anymore, but directly analyzed by neural networks. In this paper, we propose a standard-compliant feature-based RDO (FRDO) that is designed to increase the coding performance, when the decoded frame is analyzed by a neural network in a video coding for machine scenario. To that extent, we replace the pixel-based distortion metrics in conventional RDO of VTM-8.0 with distortion metrics calculated in the feature space created by the first layers of a neural network. Throughout several tests with the segmentation network Mask R-CNN and single images from the Cityscapes dataset, we compare the proposed FRDO and its hybrid version HFRDO with different distortion measures in the feature space against the conventional RDO. With HFRDO, up to 5.49 % bitrate can be saved compared to the VTM-8.0 implementation in terms of Bj{\o}ntegaard Delta Rate and using the weighted average precision as quality metric. Additionally, allowing the encoder to vary the quantization parameter results in coding gains for the proposed HFRDO of up 9.95 % compared to conventional VTM.
翻訳日:2022-03-14 13:48:55 公開日:2022-03-11
# ニューラルオブジェクト検出のためのサリエンシ駆動型ヴァーサタイルビデオ符号化

Saliency-Driven Versatile Video Coding for Neural Object Detection ( http://arxiv.org/abs/2203.05944v1 )

ライセンス: Link先を確認
Kristian Fischer, Felix Fleckenstein, Christian Herglotz, Andr\'e Kaup(参考訳) 人為的な画像とビデオの符号化は、近年重要になっている。 本稿では,最新のビデオ符号化標準であるVersatile Video Coding (VVC) を用いて,機械タスクの映像符号化のためのサリエンシ駆動型コーディングフレームワークを提案する。 符号化に先立って有能な領域を決定するために,リアルタイムのオブジェクト検出ネットワークであるYou Only Look Once~(YOLO)を,新しい判定基準と組み合わせて採用する。 マシンの符号化品質を測定するために、最先端のオブジェクトセグメンテーションネットワークMask R-CNNをデコードフレームに適用した。 大規模なシミュレーションから,提案手法を適用して,一定の品質の基準VVCと比較して,デコーダ側で同じ検出精度で最大29%のビットレートを保存できることが判明した。 さらに,より伝統的な塩分検出手法であるyoloと比較した。

Saliency-driven image and video coding for humans has gained importance in the recent past. In this paper, we propose such a saliency-driven coding framework for the video coding for machines task using the latest video coding standard Versatile Video Coding (VVC). To determine the salient regions before encoding, we employ the real-time-capable object detection network You Only Look Once~(YOLO) in combination with a novel decision criterion. To measure the coding quality for a machine, the state-of-the-art object segmentation network Mask R-CNN was applied to the decoded frame. From extensive simulations we find that, compared to the reference VVC with a constant quality, up to 29 % of bitrate can be saved with the same detection accuracy at the decoder side by applying the proposed saliency-driven framework. Besides, we compare YOLO against other, more traditional saliency detection methods.
翻訳日:2022-03-14 13:48:32 公開日:2022-03-11
# ROOD-MRI:MRIにおけるディープラーニングセグメンテーションモデルのアウト・オブ・ディストリビューションと破損データに対するロバスト性の評価

ROOD-MRI: Benchmarking the robustness of deep learning segmentation models to out-of-distribution and corrupted data in MRI ( http://arxiv.org/abs/2203.06060v1 )

ライセンス: Link先を確認
Lyndon Boone, Mahdi Biparva, Parisa Mojiri Forooshani, Joel Ramirez, Mario Masellis, Robert Bartha, Sean Symons, Stephen Strother, Sandra E. Black, Chris Heyn, Anne L. Martel, Richard H. Swartz, Maged Goubran(参考訳) ディープ人工知能ニューラルネットワーク(DNN)は、分類、セグメンテーション、検出の課題の成功により、医療画像分析の最前線に移動している。 神経画像解析におけるDNNの大規模展開における大きな課題は、スキャナや取得プロトコルのばらつきにより、信号対雑音比、コントラスト、解像度、現場から現場へのアーティファクトの移動の可能性である。 DNNはコンピュータビジョンにおけるこれらの分散シフトの影響を受けやすいことで有名である。 現在、mriの特定の分布シフトに対する新しいモデルや既存のモデルの堅牢性を評価するベンチマークプラットフォームやフレームワークは存在せず、アクセス可能なマルチサイトベンチマークデータセットはまだ乏しく、タスク固有である。 ROOD-MRIは,DNNのロバスト性(ロバスト性)をOF-Distribution(OOD)データにベンチマークするプラットフォームである。 このプラットフォームは、mriの分散シフトをモデル化する変換を使ったベンチマークデータセットを生成するモジュール、画像分割のための新しく派生したベンチマークメトリクスの実装、新しいモデルとタスクで方法論を使用する例を提供する。 海馬、心室、およびホワイトマターのハイパーインテンシティセグメンテーションをいくつかの大規模研究に応用し、海馬データセットを公開ベンチマークとして提供する。 これらのデータセット上で最新のDNNを評価することで、MRIにおける分布シフトや腐敗に非常に敏感であることを示す。 データ拡張戦略は解剖学的セグメンテーションタスクにおいてoodデータのロバスト性を大幅に改善できるが、現代のdnnでは病変ベースのセグメンテーションタスクではロバスト性に欠ける。 最後にu-netとtransformerベースのモデルをベンチマークし、アーキテクチャ全体の変換の特定のクラスに対するロバスト性に一貫した違いを見出した。

Deep artificial neural networks (DNNs) have moved to the forefront of medical image analysis due to their success in classification, segmentation, and detection challenges. A principal challenge in large-scale deployment of DNNs in neuroimage analysis is the potential for shifts in signal-to-noise ratio, contrast, resolution, and presence of artifacts from site to site due to variances in scanners and acquisition protocols. DNNs are famously susceptible to these distribution shifts in computer vision. Currently, there are no benchmarking platforms or frameworks to assess the robustness of new and existing models to specific distribution shifts in MRI, and accessible multi-site benchmarking datasets are still scarce or task-specific. To address these limitations, we propose ROOD-MRI: a platform for benchmarking the Robustness of DNNs to Out-Of-Distribution (OOD) data, corruptions, and artifacts in MRI. The platform provides modules for generating benchmarking datasets using transforms that model distribution shifts in MRI, implementations of newly derived benchmarking metrics for image segmentation, and examples for using the methodology with new models and tasks. We apply our methodology to hippocampus, ventricle, and white matter hyperintensity segmentation in several large studies, providing the hippocampus dataset as a publicly available benchmark. By evaluating modern DNNs on these datasets, we demonstrate that they are highly susceptible to distribution shifts and corruptions in MRI. We show that while data augmentation strategies can substantially improve robustness to OOD data for anatomical segmentation tasks, modern DNNs using augmentation still lack robustness in more challenging lesion-based segmentation tasks. We finally benchmark U-Nets and transformer-based models, finding consistent differences in robustness to particular classes of transforms across architectures.
翻訳日:2022-03-14 13:47:50 公開日:2022-03-11
# プロトタイプネットワークを用いたセンサに基づく人間活動認識のための生涯適応機械学習

Lifelong Adaptive Machine Learning for Sensor-based Human Activity Recognition Using Prototypical Networks ( http://arxiv.org/abs/2203.05692v1 )

ライセンス: Link先を確認
Rebecca Adaimi, Edison Thomaz(参考訳) 連続学習は、生涯学習としても知られ、機械学習分野への関心が高まりつつある研究トピックである。 人間行動認識(HAR)が現実の多くの応用を実現する上で重要な役割を担っているため、このような認識システムの長期展開に向けた重要なステップは、人々の日常行動の変化に動的に適応するために活動モデルを拡張することである。 harドメインに適用される継続的学習の現在の研究は、harでコンピュータビジョンのために開発された既存の方法を探求する研究者によって、まだ検討中である。 さらに,タスク境界が知られているタスク増分学習パラダイムやクラス増分学習パラダイムにも注目が集まっている。 これは、データがランダムにストリーミングされた方法で提示されるため、現実のシステムに対するそのような手法の適用性を妨げる。 この領域を推し進めるために、我々は、連続機械学習の領域における最近の進歩を基盤として、センサベースのデータストリームをタスクフリーなデータインクリメンタルな方法で処理し、経験再現と連続プロトタイプ適応による破滅的な忘れを緩和する、プロトタイプネットワーク(LPPNet-HAR)を用いた生涯適応型学習フレームワークを設計する。 オンライン学習はさらに、クラス間分離を強制するためにコントラスト損失を用いて促進される。 LAPNet-HARは、フレームワークが以前の知識を保持しながら新しい情報を取得する能力の観点から、利用可能な5つのアクティビティデータセットで評価される。 課題のない連続学習におけるLAPNet-HARの有効性を実証し,今後の課題に対する有用な洞察を明らかにする。

Continual learning, also known as lifelong learning, is an emerging research topic that has been attracting increasing interest in the field of machine learning. With human activity recognition (HAR) playing a key role in enabling numerous real-world applications, an essential step towards the long-term deployment of such recognition systems is to extend the activity model to dynamically adapt to changes in people's everyday behavior. Current research in continual learning applied to HAR domain is still under-explored with researchers exploring existing methods developed for computer vision in HAR. Moreover, analysis has so far focused on task-incremental or class-incremental learning paradigms where task boundaries are known. This impedes the applicability of such methods for real-world systems since data is presented in a randomly streaming fashion. To push this field forward, we build on recent advances in the area of continual machine learning and design a lifelong adaptive learning framework using Prototypical Networks, LAPNet-HAR, that processes sensor-based data streams in a task-free data-incremental fashion and mitigates catastrophic forgetting using experience replay and continual prototype adaptation. Online learning is further facilitated using contrastive loss to enforce inter-class separation. LAPNet-HAR is evaluated on 5 publicly available activity datasets in terms of the framework's ability to acquire new information while preserving previous knowledge. Our extensive empirical results demonstrate the effectiveness of LAPNet-HAR in task-free continual learning and uncover useful insights for future challenges.
翻訳日:2022-03-14 13:46:27 公開日:2022-03-11
# 誘惑を克服する: 時間的選択のためのインセンティブデザイン

Overcoming Temptation: Incentive Design For Intertemporal Choice ( http://arxiv.org/abs/2203.05782v1 )

ライセンス: Link先を確認
Shruthi Sukumar, Adrian F. Ward, Camden Elliot-Williams, Shabnam Hakimi, Michael C. Mozer(参考訳) 個人はしばしば、長期的目標から順応する誘惑に直面している。 私たちは、個人が適切な初期決定を行い、その決定を時間とともに維持するための介入を開発することに興味を持っています。 金融決定の領域では、特に成功したアプローチは、貯金口座であり、個人は貯金者にボーナスを与える定期的な宝くじに預金を結び付けることで預金を行うインセンティブを得ている。 これらの宝くじは、世界中のセーバーを動機付けるのに非常に効果的だが、一大のソリューションである。 ボーナスのカスタマイズがより効果的かどうか検討する。 我々は,遅延グレイトフィケーションタスクをマルコフ決定問題として定式化し,個人を時間的ディスカウント,努力に伴うコスト,意志力の変動に係わる合理的エージェントとして特徴づける。 我々の理論は、時間的選択において重要な行動的発見を説明できる。 我々はオンラインの遅延格子ゲームを作成し、プレイヤーは待ち行列を選択し、前へ進む一連のアクションを実行することでポイントを得点する。 ゲームから収集されたデータはモデルに適合し、インスタンス化されたモデルは、インセンティブの空間で予測されたプレイヤーのパフォーマンスを最適化するために使用される。 カスタマイズされたインセンティブ構造が個人の目標指向意思決定を改善することを実証する。

Individuals are often faced with temptations that can lead them astray from long-term goals. We're interested in developing interventions that steer individuals toward making good initial decisions and then maintaining those decisions over time. In the realm of financial decision making, a particularly successful approach is the prize-linked savings account: individuals are incentivized to make deposits by tying deposits to a periodic lottery that awards bonuses to the savers. Although these lotteries have been very effective in motivating savers across the globe, they are a one-size-fits-all solution. We investigate whether customized bonuses can be more effective. We formalize a delayed-gratification task as a Markov decision problem and characterize individuals as rational agents subject to temporal discounting, a cost associated with effort, and fluctuations in willpower. Our theory is able to explain key behavioral findings in intertemporal choice. We created an online delayed-gratification game in which the player scores points by selecting a queue to wait in and then performing a series of actions to advance to the front. Data collected from the game is fit to the model, and the instantiated model is then used to optimize predicted player performance over a space of incentives. We demonstrate that customized incentive structures can improve an individual's goal-directed decision making.
翻訳日:2022-03-14 13:46:00 公開日:2022-03-11
# 印刷機械学習回路のクロス層近似

Cross-Layer Approximation For Printed Machine Learning Circuits ( http://arxiv.org/abs/2203.05915v1 )

ライセンス: Link先を確認
Giorgos Armeniakos, Georgios Zervakis, Dimitrios Soudris, Mehdi B. Tahoori, J\"org Henkel(参考訳) プリントエレクトロニクス(PE)は、非再帰的なエンジニアリングコストが低く、単位領域当たりの製造コストが低いため、極端に低コストでオンデマンドなハードウェアを実現する。 このような低コストな製造により、シリコンでは実現不可能な高いカスタマイズが可能となり、新しいPE機械学習(ML)アプリケーションの効率向上に成功している。 しかしながら、bespokeアーキテクチャでさえ、PEの大規模な機能サイズは、実装可能なMLモデルの複雑さを制約します。 本研究では,複数のMLP(Multi-Layer Perceptrons)やSupport Vector Machines(SVM)などの複雑なMLモデルをPEで実現するために,近似計算とPE設計を初めて組み合わせる。 そこで本研究では,mlアーキテクチャに適した層間近似を提案し,実装する。 アルゴリズムレベルでは、MLモデルのハードウェア駆動係数近似を適用し、回路レベルでは、全探索によるネットリストプルーニングを適用する。 我々は14のMLPとSVMについて検討し、4300以上の近似的および正確な設計を評価する。 その結果,我々のクロス近似は,最先端の正確な設計と比較して,平均面積47%,消費電力44%,精度損失1%未満のパレート最適設計を実現していることがわかった。

Printed electronics (PE) feature low non-recurring engineering costs and low per unit-area fabrication costs, enabling thus extremely low-cost and on-demand hardware. Such low-cost fabrication allows for high customization that would be infeasible in silicon, and bespoke architectures prevail to improve the efficiency of emerging PE machine learning (ML) applications. However, even with bespoke architectures, the large feature sizes in PE constraint the complexity of the ML models that can be implemented. In this work, we bring together, for the first time, approximate computing and PE design targeting to enable complex ML models, such as Multi-Layer Perceptrons (MLPs) and Support Vector Machines (SVMs), in PE. To this end, we propose and implement a cross-layer approximation, tailored for bespoke ML architectures. At the algorithmic level we apply a hardware-driven coefficient approximation of the ML model and at the circuit level we apply a netlist pruning through a full search exploration. In our extensive experimental evaluation we consider 14 MLPs and SVMs and evaluate more than 4300 approximate and exact designs. Our results demonstrate that our cross approximation delivers Pareto optimal designs that, compared to the state-of-the-art exact designs, feature 47% and 44% average area and power reduction, respectively, and less than 1% accuracy loss.
翻訳日:2022-03-14 13:44:34 公開日:2022-03-11
# 不完全な情報集約型ゲームにおける一般化帯域制限最小化フレームワーク

Generalized Bandit Regret Minimizer Framework in Imperfect Information Extensive-Form Game ( http://arxiv.org/abs/2203.05920v1 )

ライセンス: Link先を確認
Linjian Meng, Yang Gao(参考訳) レグレット最小化法は,2プレーヤゼロサム不完全な情報拡張形式ゲーム(IIEG)におけるナッシュ均衡を学習するための強力なツールである。 我々は,IIEGのダイナミクスを知らない対話型バンディットフィードバック設定における問題を考察する。 一般に、対話的軌跡と損失$(\ell^t)^Tx^t$のみを明らかにする。 近似的なナッシュ平衡を学習するために、後悔最小化器は全フィードバック損失勾配$\ell^t$を推定し、後悔を最小化する。 本稿では,この学習設定のための一般化フレームワークを提案する。 mccfr, ixomd, balanced omdを含む最新のbandit regretの最小化手法が,我々のフレームワークの特定のケースとして分析できることを実証した。 これは、バンディット後悔最小化法の設計とモジュラー解析のための理論的枠組みを示す。 正確に言えば、グラデーション推定器、探索戦略、サンプリング戦略など、すべてのフルフィードバックの後悔の最小化方法と組み合わせて使用することができます。

Regret minimization methods are a powerful tool for learning approximate Nash equilibrium in two-player zero-sum imperfect information extensive-form games (IIEGs). We consider the problem in the interactive bandit-feedback setting where we don't know the dynamics of the IIEG. In general, only the interactive trajectory and the loss $(\ell^t)^Tx^t$ are revealed. To learn approximate Nash equilibrium, the regret minimizer is required to estimate the full-feedback loss gradient $\ell^t$ and minimize the regret. In this paper, we propose a generalized framework for this learning setting. We demonstrate that the most recent bandit regret minimization methods, including MCCFR, IXOMD, and Balanced OMD, can be analyzed as a particular case of our framework. It presents a theoretical framework for the design and the modular analysis of the bandit regret minimization methods. Precisely, it allows us to use any gradient estimator, any exploration strategy, any sampling strategy, coupled with any full-feedback regret minimization methods.
翻訳日:2022-03-14 13:44:10 公開日:2022-03-11
# GATSPI:GPU加速ゲートレベルシミュレーションによる電力効率向上

GATSPI: GPU Accelerated Gate-Level Simulation for Power Improvement ( http://arxiv.org/abs/2203.06117v1 )

ライセンス: Link先を確認
Yanqing Zhang, Haoxing Ren, Akshay Sridharan, Brucek Khailany(参考訳) 本稿では,数百万のゲートを持つ業界規模のasic設計に対して,超高速電力推定が可能なgpuアクセラレーション論理ゲートシミュレータgatspiを提案する。 GATSPIはPyTorchで記述されており、コーディングと保守性を簡単にするためのカスタムCUDAカーネルを備えている。 単一のCPUコア上で動作する商用ゲートレベルシミュレータと比較して、シングルGPUシステムでは最大1668X、マルチGPUシステムでは最大7412Xのシミュレーションカーネル高速化を実現する。 GATSPIは、業界標準のセルライブラリやSDF条件の遅延ステートメントから、事前のキャリブレーションを必要とせず、様々な単純な細胞タイプと複雑な細胞タイプをサポートし、遅延対応ゲートレベルシミュレーションから業界標準のSAIFファイルを生成する。 最後に,GATSPIをグリッチ最適化フローにデプロイし,商用シミュレータを用いた同様の流れと比較して,449倍の高速化で1.4%の省電力を実現した。

In this paper, we present GATSPI, a novel GPU accelerated logic gate simulator that enables ultra-fast power estimation for industry sized ASIC designs with millions of gates. GATSPI is written in PyTorch with custom CUDA kernels for ease of coding and maintainability. It achieves simulation kernel speedup of up to 1668X on a single-GPU system and up to 7412X on a multiple-GPU system when compared to a commercial gate-level simulator running on a single CPU core. GATSPI supports a range of simple to complex cell types from an industry standard cell library and SDF conditional delay statements without requiring prior calibration runs and produces industry-standard SAIF files from delay-aware gate-level simulation. Finally, we deploy GATSPI in a glitch-optimization flow, achieving a 1.4% power saving with a 449X speedup in turnaround time compared to a similar flow using a commercial simulator.
翻訳日:2022-03-14 13:43:53 公開日:2022-03-11
# スケジュールジョブのパーソナライズされた実行時間最適化

Personalized Execution Time Optimization for the Scheduled Jobs ( http://arxiv.org/abs/2203.06158v1 )

ライセンス: Link先を確認
Yang Liu, Juan Wang, Zhengxing Chen, Ian Fox, Imani Mufti, Jason Sukumaran, Baokun He, Xiling Sun, Feng Liang(参考訳) スケジュールされたバッチジョブは、現在のレコメンダシステムのためのスケジュールされた通知や候補計算など、さまざまなエンタープライズアプリケーションを実行するために、非同期コンピューティングプラットフォームで広く使われている。 ユーザエクスペリエンスと実行への影響を維持するためには,情報を適切なタイミングでユーザに提供あるいは更新することが重要です。 しかし、ユーザベースでスケジュールされたジョブに対して、合理的なインフラストラクチャリソースの消費を維持しながら、様々な製品シナリオを満足する汎用的な実行時間最適化ソリューションを提供することは困難である。 本稿では,ポイントワイズ学習からランクへのアプローチと,最良の時間選択における「最良の時間ポリシー」をどのように適用するかについて述べる。 さらに,実行時間のスケジューリング決定において,ユーザ活動信号の複数のストリームを効率的に活用するための値モデル手法を提案する。 当社の最適化アプローチは,通知やコンテンツ候補生成など,さまざまな製品指標において統計的に有意な改善を施した,毎日数十億ユーザを対象とした実運用トラフィックの試験に成功している。 私たちの知る限りでは,本研究は大規模産業規模でスケジュールされたジョブの実行時間最適化問題に対するmlベースの最初のマルチテナントソリューションである。

Scheduled batch jobs have been widely used on the asynchronous computing platforms to execute various enterprise applications, including the scheduled notifications and the candidate computation for the modern recommender systems. It is important to deliver or update the information to the users at the right time to maintain the user experience and the execution impact. However, it is challenging to provide a versatile execution time optimization solution for the user-basis scheduled jobs to satisfy various product scenarios while maintaining reasonable infrastructure resource consumption. In this paper, we describe how we apply a pointwise learning-to-rank approach plus a "best time policy" in the best time selection. In addition, we propose a value model approach to efficiently leverage multiple streams of user activity signals in our scheduling decisions of the execution time. Our optimization approach has been successfully tested with production traffic that serves billions of users per day, with statistically significant improvements in various product metrics, including the notifications and content candidate generation. To the best of our knowledge, our study represents the first ML-based multi-tenant solution to the execution time optimization problem for the scheduled jobs at a large industrial scale.
翻訳日:2022-03-14 13:43:35 公開日:2022-03-11
# 多部位・縦型脳卒中画像におけるu-net脳抽出の評価

Evaluating U-net Brain Extraction for Multi-site and Longitudinal Preclinical Stroke Imaging ( http://arxiv.org/abs/2203.05716v1 )

ライセンス: Link先を確認
Erendiz Tarakci, Joseph Mandeville, Fahmeed Hyder, Basavaraju G. Sanganahalli, Daniel R. Thedens, Ali Arbab, Shuning Huang, Adnan Bibic, Jelena Mihailovic, Andreia Morais, Jessica Lamb, Karisma Nagarkatti, Marcio A. Dinitz, Andre Rogatko, Arthur W. Toga, Patrick Lyden, Cenk Ayata, Ryan P. Cabeen(参考訳) 脳卒中モデルは脳虚血の病態と行動の変化を評価・理解するために重要であり、MRI(MRI)は前臨床研究の成果を測定する貴重なツールである。 脳の抽出は、ほとんどの神経画像パイプラインにおいて不可欠な第一歩であるが、重篤な病理学とデータセットの品質が極めて可変である場合において、難しい場合がある。 畳み込みニューラルネットワーク(CNN)は精度を改善し、演算子時間を短縮し、高いスループットの先臨床研究を容易にする。 現在進行中の脳卒中画像研究の一環として,u-net cnnを用いた深層学習用マウス脳抽出ツールを開発した。 これまでの研究でu-netアーキテクチャを評価してきたが、データ型全体の実用性能を評価した。 6つの画像センタ、実験的な脳卒中後の2つの時点、そして4つのmriコントラストである。 定量的なマルチエコーT2と見かけの拡散係数(ADC)マップを含む240のマルチモーダルMRIデータセット上で,典型的なU-netモデルを訓練,検証,テストし,大容量の前頭脳卒中データベース(N=1,368)を用いて定性評価を行った。 本稿では,本システムの設計と開発について述べるとともに,データ特性とセグメンテーション性能の関係について報告する。 95~97%の精度で性能を一般化するU-netアーキテクチャの精度と能力は,低忠実度画像ハードウェアと脳病理に基づく性能低下に留まった。 この研究は、将来の前臨床ロデントイメージング研究の設計と、そのスケーラビリティと信頼性の向上に寄与する。

Rodent stroke models are important for evaluating treatments and understanding the pathophysiology and behavioral changes of brain ischemia, and magnetic resonance imaging (MRI) is a valuable tool for measuring outcome in preclinical studies. Brain extraction is an essential first step in most neuroimaging pipelines; however, it can be challenging in the presence of severe pathology and when dataset quality is highly variable. Convolutional neural networks (CNNs) can improve accuracy and reduce operator time, facilitating high throughput preclinical studies. As part of an ongoing preclinical stroke imaging study, we developed a deep-learning mouse brain extraction tool by using a U-net CNN. While previous studies have evaluated U-net architectures, we sought to evaluate their practical performance across data types. We ask how performance is affected with data across: six imaging centers, two time points after experimental stroke, and across four MRI contrasts. We trained, validated, and tested a typical U-net model on 240 multimodal MRI datasets including quantitative multi-echo T2 and apparent diffusivity coefficient (ADC) maps, and performed qualitative evaluation with a large preclinical stroke database (N=1,368). We describe the design and development of this system, and report our findings linking data characteristics to segmentation performance. We consistently found high accuracy and ability of the U-net architecture to generalize performance in a range of 95-97% accuracy, with only modest reductions in performance based on lower fidelity imaging hardware and brain pathology. This work can help inform the design of future preclinical rodent imaging studies and improve their scalability and reliability.
翻訳日:2022-03-14 13:43:18 公開日:2022-03-11
# (参考訳) モータ制御のためのマスク付き視覚前訓練

Masked Visual Pre-training for Motor Control ( http://arxiv.org/abs/2203.06173v1 )

ライセンス: CC BY 4.0
Tete Xiao, Ilija Radosavovic, Trevor Darrell, Jitendra Malik(参考訳) 本稿では,実世界の画像からの自己教師付き視覚前訓練が,画素からの運動制御タスクの学習に有効であることを示す。 まず,自然画像のマスキングモデルを用いて視覚表現を訓練する。 次に視覚エンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。 エンコーダのタスク固有の微調整は行いませんが、同じ視覚表現がすべてのモータ制御タスクに使われています。 私たちの知る限りでは、これは実世界の画像をモーター制御のために大規模に活用する最初の自己監視モデルです。 画素からの学習の進歩を加速するために,動作,シーン,ロボットによって異なる手作業のベンチマークスイートを寄贈する。 ラベルや状態推定、あるいは専門家によるデモンストレーションを頼りにせずに、教師付きエンコーダを最大80%の絶対的な成功率で、時にはオラクルの状態のパフォーマンスにマッチさせる。 また、例えばYouTubeやEgocentricビデオからの画像は、ImageNetイメージよりも様々な操作タスクの視覚的表現が優れていることもわかりました。

This paper shows that self-supervised visual pre-training from real-world images is effective for learning motor control tasks from pixels. We first train the visual representations by masked modeling of natural images. We then freeze the visual encoder and train neural network controllers on top with reinforcement learning. We do not perform any task-specific fine-tuning of the encoder; the same visual representations are used for all motor control tasks. To the best of our knowledge, this is the first self-supervised model to exploit real-world images at scale for motor control. To accelerate progress in learning from pixels, we contribute a benchmark suite of hand-designed tasks varying in movements, scenes, and robots. Without relying on labels, state-estimation, or expert demonstrations, we consistently outperform supervised encoders by up to 80% absolute success rate, sometimes even matching the oracle state performance. We also find that in-the-wild images, e.g., from YouTube or Egocentric videos, lead to better visual representations for various manipulation tasks than ImageNet images.
翻訳日:2022-03-14 13:41:54 公開日:2022-03-11
# リーマン勾配Descentに基づく低域テンソルトレイン深層ニューラルネットワークの発声と音声処理の図解

Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on Riemannian Gradient Descent With Illustrations of Speech Processing ( http://arxiv.org/abs/2203.06031v1 )

ライセンス: Link先を確認
Jun Qi, Chao-Han Huck Yang, Pin-Yu Chen, Javier Tejedor(参考訳) 本研究は,モデル複雑性と実用性能のトレードオフを考慮した低複雑性ハイブリッドテンソルネットワークの設計に焦点をあてる。 まず、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。 次に、LR-TT-DNNとCNN+(LR-TT-DNN)と呼ばれる畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上させる。 TT-DNNにTT-ランクをランダムに割り当てる代わりに、リーマン勾配から小さなTT-DNNに付随するTT-DNNを決定する。 さらに、CNN+(LR-TT-DNN)は特徴抽出のための下部の畳み込み層と上部のTT層から構成され、回帰と分類の問題を解決する。 音声強調タスクと音声コマンド認識タスクにおいて、LR-TT-DNNとCNN+(LR-TT-DNN)モデルを別々に評価する。 我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(TT-DNN)モデルよりも優れていることを示している。

This work focuses on designing low complexity hybrid tensor networks by considering trade-offs between the model complexity and practical performance. Firstly, we exploit a low-rank tensor-train deep neural network (TT-DNN) to build an end-to-end deep learning pipeline, namely LR-TT-DNN. Secondly, a hybrid model combining LR-TT-DNN with a convolutional neural network (CNN), which is denoted as CNN+(LR-TT-DNN), is set up to boost the performance. Instead of randomly assigning large TT-ranks for TT-DNN, we leverage Riemannian gradient descent to determine a TT-DNN associated with small TT-ranks. Furthermore, CNN+(LR-TT-DNN) consists of convolutional layers at the bottom for feature extraction and several TT layers at the top to solve regression and classification problems. We separately assess the LR-TT-DNN and CNN+(LR-TT-DNN) models on speech enhancement and spoken command recognition tasks. Our empirical evidence demonstrates that the LR-TT-DNN and CNN+(LR-TT-DNN) models with fewer model parameters can outperform the TT-DNN and CNN+(TT-DNN) counterparts.
翻訳日:2022-03-14 13:19:16 公開日:2022-03-11
# 日内電力市場におけるプロシューマーマネジメントのための機械学習アプローチ

A Machine Learning Approach for Prosumer Management in Intraday Electricity Markets ( http://arxiv.org/abs/2203.06053v1 )

ライセンス: Link先を確認
Saeed Mohammadi and Mohammad Reza Hesamzadeh(参考訳) 事業者は、不確実性を考慮しつつ、短期的な電力市場に参加するための広範な課題に対処している。 需要の変化、太陽エネルギー、風力発電、電力価格の変動、日内電気市場における応答時間の短縮といった課題。 機械学習アプローチは、複雑な関係を継続的に学習し、リアルタイムの応答を提供する能力のために、これらの課題を解決することができる。 このようなアプローチは、ハイパフォーマンスコンピューティングとビッグデータの存在に当てはまる。 これらの課題に対処するために,表型q-learningを用いた適切な観察と行動を伴う強化学習アルゴリズムを用いて,マルコフ決定過程を提案し,解決する。 訓練されたエージェントは、グローバル最適解に似たポリシーに収束する。 これはよく知られた確率最適化手法と比較して、プロシューマーの利益を13.39%増加させる。

Prosumer operators are dealing with extensive challenges to participate in short-term electricity markets while taking uncertainties into account. Challenges such as variation in demand, solar energy, wind power, and electricity prices as well as faster response time in intraday electricity markets. Machine learning approaches could resolve these challenges due to their ability to continuous learning of complex relations and providing a real-time response. Such approaches are applicable with presence of the high performance computing and big data. To tackle these challenges, a Markov decision process is proposed and solved with a reinforcement learning algorithm with proper observations and actions employing tabular Q-learning. Trained agent converges to a policy which is similar to the global optimal solution. It increases the prosumer's profit by 13.39% compared to the well-known stochastic optimization approach.
翻訳日:2022-03-14 13:18:48 公開日:2022-03-11
# 疎ハミルトン流によるベイズ推定

Bayesian inference via sparse Hamiltonian flows ( http://arxiv.org/abs/2203.05723v1 )

ライセンス: Link先を確認
Naitong Chen, Zuheng Xu, Trevor Campbell(参考訳) ベイジアンコアセット(Bayesian coreset)は、ベイジアン推論中に全データセットを置き換える小さな重み付きデータサブセットであり、計算コストを削減することを目的としている。 過去の研究は、しばしば低い推論誤差を持つコアセットが存在することを実証的に示してきたが、そのようなコアセットを効率的に構築することは依然として困難である。 現在のメソッドは遅い傾向にあり、coresetコンストラクションの後に二次的な推論ステップが必要であり、データの限界的な証拠は提供されない。 本稿では,これら3つの課題すべてに対処する新しい手法であるスパース・ハミルトン・フローを紹介する。 この方法は、まずデータを一様にサブサンプリングし、次にコアセット重みによってパラメータ化されたハミルトン流れを最適化し、周期的な運動量準リフレッシュステップを含む。 理論的には,提案手法は代表モデルにおけるデータセットの指数的圧縮を可能にし,準更新ステップによってターゲットへのKLの偏差が減少することを示す。 実および合成実験により、スパースハミルトニアンフローは、競合する動的系に基づく推論法と比較して、実行時間を大幅に削減した正確な後方近似をもたらすことが示されている。

A Bayesian coreset is a small, weighted subset of data that replaces the full dataset during Bayesian inference, with the goal of reducing computational cost. Although past work has shown empirically that there often exists a coreset with low inferential error, efficiently constructing such a coreset remains a challenge. Current methods tend to be slow, require a secondary inference step after coreset construction, and do not provide bounds on the data marginal evidence. In this work, we introduce a new method -- sparse Hamiltonian flows -- that addresses all three of these challenges. The method involves first subsampling the data uniformly, and then optimizing a Hamiltonian flow parametrized by coreset weights and including periodic momentum quasi-refreshment steps. Theoretical results show that the method enables an exponential compression of the dataset in a representative model, and that the quasi-refreshment steps reduce the KL divergence to the target. Real and synthetic experiments demonstrate that sparse Hamiltonian flows provide accurate posterior approximations with significantly reduced runtime compared with competing dynamical-system-based inference methods.
翻訳日:2022-03-14 13:18:35 公開日:2022-03-11
# 不完全データを用いたフェデレーション遠隔生理計測

Federated Remote Physiological Measurement with Imperfect Data ( http://arxiv.org/abs/2203.05759v1 )

ライセンス: Link先を確認
Xin Liu, Mingchuan Zhang, Ziheng Jiang, Shwetak Patel, Daniel McDuff(参考訳) 高齢化と新型コロナウイルス(covid-19)のパンデミックで、遠隔医療を支えるテクノロジーの必要性が高まっている。 健康関連機械学習アプリケーションでは、プライベートデバイスを離れることなく予測モデルを学習する能力は魅力的であり、特にこれらのデータが被写体を自明に識別する機能(例えば、身体の写真やビデオ)を含む場合や、トレーニングデータボリュームが大きくなる場合(例えば、非圧縮ビデオ)は魅力的である。 カメラベースのリモート生理センシングは、スケーラブルで低コストな計測を容易にするが、特定可能な画像とセンシティブな健康情報を含む高ビットレートビデオを分析するタスクの典型例である。 フェデレーション学習は、プライバシ保護のための分散トレーニングを可能にする。 我々は,モバイル・フェデレーション・ラーニング・カメラによるセンシングシステムを開発し,従来の最先端の教師付きアプローチと競争力を発揮することを示す。 しかし、いくつかのデバイスから破損したデータ(ビデオやラベルノイズなど)がある場合、平均的な重量性能は急速に低下する。 この問題に対処するために、我々はビデオ内の期待されるノイズプロファイルに関する知識を活用し、モデルウェイトがサーバ上でどのように平均されるかをインテリジェントに調整する。 その結果,信号対雑音比が低くてもモデルのロバスト性は著しく向上することがわかった。

The growing need for technology that supports remote healthcare is being acutely highlighted by an aging population and the COVID-19 pandemic. In health-related machine learning applications the ability to learn predictive models without data leaving a private device is attractive, especially when these data might contain features (e.g., photographs or videos of the body) that make identifying a subject trivial and/or the training data volume is large (e.g., uncompressed video). Camera-based remote physiological sensing facilitates scalable and low-cost measurement, but is a prime example of a task that involves analysing high bit-rate videos containing identifiable images and sensitive health information. Federated learning enables privacy-preserving decentralized training which has several properties beneficial for camera-based sensing. We develop the first mobile federated learning camera-based sensing system and show that it can perform competitively with traditional state-of-the-art supervised approaches. However, in the presence of corrupted data (e.g., video or label noise) from a few devices the performance of weight averaging quickly degrades. To address this, we leverage knowledge about the expected noise profile within the video to intelligently adjust how the model weights are averaged on the server. Our results show that this significantly improves upon the robustness of models even when the signal-to-noise ratio is low
翻訳日:2022-03-14 13:18:15 公開日:2022-03-11
# 視覚に基づくロボット制御深部強化学習における関係誘導バイアスのためのグラフニューラルネットワーク

Graph Neural Networks for Relational Inductive Bias in Vision-based Deep Reinforcement Learning of Robot Control ( http://arxiv.org/abs/2203.05985v1 )

ライセンス: Link先を確認
Marco Oliva (1), Soubarna Banik (1), Josip Josifovski (1), Alois Knoll (1) ((1) Technical University of Munich, Germany)(参考訳) 最先端の強化学習アルゴリズムは、主に数値状態ベクトルまたは画像からポリシーを学習する。 どちらのアプローチも一般にタスクの構造的な知識を考慮に入れておらず、特にロボットアプリケーションで広く使われている。 本研究は,ロボット操作のための効率的な位置制御ポリシを学ぶために,リレーショナルインダクティブバイアスと視覚フィードバックを組み合わせたニューラルネットワークアーキテクチャを提案する。 我々は,マニピュレータの物理的構造をモデル化し,ロボットの内部状態を画像符号化ネットワークによって生成された視覚シーンの低次元記述と組み合わせたグラフ表現を導出する。 これにより、強化学習で訓練されたグラフニューラルネットワークは、ロボットを制御するためのジョイント速度を予測する。 さらに,教師付き学習を用いて画像エンコーダをポリシーから分離してトレーニングする非対称的手法を提案する。 幾何学的に単純化された2次元環境において、2自由度平面ロボットの場合、視覚シーンの学習された表現は、ポリシーの品質やサンプル効率を損なうことなく、到達対象の明示的な座標へのアクセスを置き換えることができる。 さらに,実環境下での6自由度ロボットアームのサンプル効率を向上させるためのモデルの能力を示す。

State-of-the-art reinforcement learning algorithms predominantly learn a policy from either a numerical state vector or images. Both approaches generally do not take structural knowledge of the task into account, which is especially prevalent in robotic applications and can benefit learning if exploited. This work introduces a neural network architecture that combines relational inductive bias and visual feedback to learn an efficient position control policy for robotic manipulation. We derive a graph representation that models the physical structure of the manipulator and combines the robot's internal state with a low-dimensional description of the visual scene generated by an image encoding network. On this basis, a graph neural network trained with reinforcement learning predicts joint velocities to control the robot. We further introduce an asymmetric approach of training the image encoder separately from the policy using supervised learning. Experimental results demonstrate that, for a 2-DoF planar robot in a geometrically simplistic 2D environment, a learned representation of the visual scene can replace access to the explicit coordinates of the reaching target without compromising on the quality and sample efficiency of the policy. We further show the ability of the model to improve sample efficiency for a 6-DoF robot arm in a visually realistic 3D environment.
翻訳日:2022-03-14 13:17:51 公開日:2022-03-11
# 音声信号の多分解スペクトル-時間表現を用いた音響・調音音声インバージョン

Acoustic To Articulatory Speech Inversion Using Multi-Resolution Spectro-Temporal Representations Of Speech Signals ( http://arxiv.org/abs/2203.05780v1 )

ライセンス: Link先を確認
Rahil Parikh, Nadee Seneviratne, Ganesh Sivaraman, Shihab Shamma, Carol Espy-Wilson(参考訳) 音声信号のマルチレゾリューション分光時間特性は、脳が皮質細胞を異なるスペクトルと時間変調にチューニングすることで音を知覚する方法を表す。 これらの特徴は、音声信号の高次元表現を生み出す。 本研究の目的は,音声信号の聴覚野表現が,これらの信号の調音特性の推定にどのように寄与するかを評価することである。 音声信号の音響的特徴から調音的特徴を得ることは,異なる音声コミュニティで注目されている課題であり,この多分解能表現を音響的特徴として用いる可能性について検討する。 我々はウィスコンシン州のX線マイクロビーム(XRMB)データベースを用いて、6つの音節変数の音声軌跡を推定するために、フィードフォワードディープニューラルネットワーク(DNN)を訓練した。 最適スケールとレートベクトルパラメータを用いて, モデル訓練のための多分解能分光時間特性の最適セットを選択した。 実験は0.675と地道変数との相関を達成した。 本研究では,メル周波数ケプストラム係数 (mel frequency cepstral coefficients, mfccs) を用いた先行実験との比較を行った。

Multi-resolution spectro-temporal features of a speech signal represent how the brain perceives sounds by tuning cortical cells to different spectral and temporal modulations. These features produce a higher dimensional representation of the speech signals. The purpose of this paper is to evaluate how well the auditory cortex representation of speech signals contribute to estimate articulatory features of those corresponding signals. Since obtaining articulatory features from acoustic features of speech signals has been a challenging topic of interest for different speech communities, we investigate the possibility of using this multi-resolution representation of speech signals as acoustic features. We used U. of Wisconsin X-ray Microbeam (XRMB) database of clean speech signals to train a feed-forward deep neural network (DNN) to estimate articulatory trajectories of six tract variables. The optimal set of multi-resolution spectro-temporal features to train the model were chosen using appropriate scale and rate vector parameters to obtain the best performing model. Experiments achieved a correlation of 0.675 with ground-truth tract variables. We compared the performance of this speech inversion system with prior experiments conducted using Mel Frequency Cepstral Coefficients (MFCCs).
翻訳日:2022-03-14 13:15:58 公開日:2022-03-11
# コスト操作下での線形二次制御の強化学習

Reinforcement Learning for Linear Quadratic Control is Vulnerable Under Cost Manipulation ( http://arxiv.org/abs/2203.05774v1 )

ライセンス: Link先を確認
Yunhan Huang and Quanyan Zhu(参考訳) 本研究では,LQG (Linear-Quadratic-Gaussian agent) の偽装について,コスト信号の操作による検討を行った。 コストパラメータの小さな改ざんは、最適なポリシーの限定的な変更にのみつながり、その境界は、攻撃者がコストパラメータに適用できる改ざんの量に線形であることを示す。 本研究では,攻撃者の目標がエージェントを誤認して,コストパラメータのファルシフィケーションを意図した「悪質」ポリシーを学習する攻撃モデルを提案する。 本稿では,攻撃目標の達成可能性を確認する上で必要かつ十分な条件を整備した,凸性を示す最適化問題として,攻撃の問題を定式化する。 本稿では,バッチrl学習者と適応動的プログラミング(adp)学習者という,2種類のlqg学習者に対する逆操作について紹介する。 その結果,コストデータに対する偽装のわずか2.296%で,攻撃者はバッチrlを誤解して,車両を危険な位置まで導く「有害な」ポリシーを学ぶことができた。 攻撃者は、学習者に真のコスト信号に近づいた偽のコストシグナルを一貫して供給することで、ADPの学習者を徐々に、同じ「悪質な」ポリシーを学ぶことができる。 本研究の目的は、RL対応制御システムによるセキュリティ脅威に対する人々の認識を高めることである。

In this work, we study the deception of a Linear-Quadratic-Gaussian (LQG) agent by manipulating the cost signals. We show that a small falsification on the cost parameters will only lead to a bounded change in the optimal policy and the bound is linear on the amount of falsification the attacker can apply on the cost parameters. We propose an attack model where the goal of the attacker is to mislead the agent into learning a `nefarious' policy with intended falsification on the cost parameters. We formulate the attack's problem as an optimization problem, which is proved to be convex, and developed necessary and sufficient conditions to check the achievability of the attacker's goal. We showcase the adversarial manipulation on two types of LQG learners: the batch RL learner and the other is the adaptive dynamic programming (ADP) learner. Our results demonstrate that with only 2.296% of falsification on the cost data, the attacker misleads the batch RL into learning the 'nefarious' policy that leads the vehicle to a dangerous position. The attacker can also gradually trick the ADP learner into learning the same `nefarious' policy by consistently feeding the learner a falsified cost signal that stays close to the true cost signal. The aim of the paper is to raise people's awareness of the security threats faced by RL-enabled control systems.
翻訳日:2022-03-14 13:15:37 公開日:2022-03-11
# ダングリングケースを用いたエンティティアライメントのための半規則的最適トランスポート

Semi-constraint Optimal Transport for Entity Alignment with Dangling Cases ( http://arxiv.org/abs/2203.05744v1 )

ライセンス: Link先を確認
Shengxuan Luo, Pengyu Cheng, Sheng Yu(参考訳) エンティティアライメント(EA)は知識グラフ(KG)を、異なるグラフ内の等価エンティティを識別することでマージし、KGの知識表現を効果的に強化する。 しかし実際には、異なるKGは、他のグラフでは見つからないダングリングエンティティを含むことが多く、EAメソッドのパフォーマンスが制限される。 ダングリングエンティティを用いてEAを改善するために,ダングリングケース(SoTead)におけるエンティティアライメントのための半制約輸送と呼ばれる教師なし手法を提案する。 我々の考えは、2つのKG間のエンティティアライメントを、あるKGのエンティティから他のエンティティへの最適な輸送問題としてモデル化することである。 まず,事前学習した単語埋め込みに基づいて,KG間の擬似実体ペアを設定する。 そして、各エンティティペア間の輸送コストを得るために、対照的なメトリック学習を行う。 最後に、各KGに対して仮想エンティティを導入し、他のKGからダングリングエンティティを"調整"し、最適化の制約を緩和し、半制約の最適輸送をもたらす。 実験では,まず,一般に使用されるエンティティアライメントデータセット上での sotead の優位性を示す。 さらに、他のベースラインとエンティティ検出を行う能力を分析するために、医療用言語間知識グラフデータセットであるMedEDを構築しました。

Entity alignment (EA) merges knowledge graphs (KGs) by identifying the equivalent entities in different graphs, which can effectively enrich knowledge representations of KGs. However, in practice, different KGs often include dangling entities whose counterparts cannot be found in the other graph, which limits the performance of EA methods. To improve EA with dangling entities, we propose an unsupervised method called Semi-constraint Optimal Transport for Entity Alignment in Dangling cases (SoTead). Our main idea is to model the entity alignment between two KGs as an optimal transport problem from one KG's entities to the others. First, we set pseudo entity pairs between KGs based on pretrained word embeddings. Then, we conduct contrastive metric learning to obtain the transport cost between each entity pair. Finally, we introduce a virtual entity for each KG to "align" the dangling entities from the other KGs, which relaxes the optimization constraints and leads to a semi-constraint optimal transport. In the experimental part, we first show the superiority of SoTead on a commonly-used entity alignment dataset. Besides, to analyze the ability for dangling entity detection with other baselines, we construct a medical cross-lingual knowledge graph dataset, MedED, where our SoTead also reaches state-of-the-art performance.
翻訳日:2022-03-14 13:15:12 公開日:2022-03-11
# BERTopic:クラスベースTF-IDFプロシージャを用いたニューラルトピックモデリング

BERTopic: Neural topic modeling with a class-based TF-IDF procedure ( http://arxiv.org/abs/2203.05794v1 )

ライセンス: Link先を確認
Maarten Grootendorst(参考訳) トピックモデルは、ドキュメントコレクション内の潜在トピックを発見するのに有用なツールである。 近年の研究では、クラスタリングタスクとしてのアプローチトピックモデリングの実現可能性を示している。 本稿では,TF-IDFのクラスベースのバリエーションの開発を通じて,コヒーレントなトピック表現を抽出することにより,このプロセスを拡張するトピックモデルであるBERTopicを提案する。 具体的には、BERTopicは、事前訓練されたトランスフォーマーベースの言語モデルで文書埋め込みを生成し、これらの埋め込みをクラスタ化し、最後に、クラスベースのTF-IDFプロシージャでトピック表現を生成する。 BERTopicはコヒーレントなトピックを生成し、古典的なモデルを含む様々なベンチマークと、より最近のトピックモデリングのクラスタリングアプローチに従うベンチマークで競争力を維持している。

Topic models can be useful tools to discover latent topics in collections of documents. Recent studies have shown the feasibility of approach topic modeling as a clustering task. We present BERTopic, a topic model that extends this process by extracting coherent topic representation through the development of a class-based variation of TF-IDF. More specifically, BERTopic generates document embedding with pre-trained transformer-based language models, clusters these embeddings, and finally, generates topic representations with the class-based TF-IDF procedure. BERTopic generates coherent topics and remains competitive across a variety of benchmarks involving classical models and those that follow the more recent clustering approach of topic modeling.
翻訳日:2022-03-14 13:14:49 公開日:2022-03-11
# 久しぶりだ! 長期記憶を用いたオープンドメイン会話

Long Time No See! Open-Domain Conversation with Long-Term Persona Memory ( http://arxiv.org/abs/2203.05797v1 )

ライセンス: Link先を確認
Xinchao Xu, Zhibin Gou, Wenquan Wu, Zheng-Yu Niu, Hua Wu, Haifeng Wang, Shihang Wang(参考訳) オープンドメインの対話モデルのほとんどは、長期的なヒューマンボット会話の設定において、パフォーマンスが良くない傾向にある。 その理由は、長期対話履歴情報を理解し記憶する能力が欠けているからである。 この問題に対処するために、LuLeMon(Long-Term Memory Conversation)という新しいタスクを提示し、新しい対話データセットDuLeMonとLong-Term Memory(LTM)機構(PLATO-LTM)を備えた対話生成フレームワークを構築する。 このLTM機構により,モデル学習に複数の対話データセットを必要とすることなく,長期のペルソナメモリを正確に抽出し,継続的に更新することができる。 我々の知る限り、これはユーザーとボットを含む双方のペルソナ情報をリアルタイムに動的に管理する最初の試みである。 DuLeMon の結果,PLATO-LTM は長期対話の整合性においてベースラインを著しく上回り,対話性の向上につながることが示された。

Most of the open-domain dialogue models tend to perform poorly in the setting of long-term human-bot conversations. The possible reason is that they lack the capability of understanding and memorizing long-term dialogue history information. To address this issue, we present a novel task of Long-term Memory Conversation (LeMon) and then build a new dialogue dataset DuLeMon and a dialogue generation framework with Long-Term Memory (LTM) mechanism (called PLATO-LTM). This LTM mechanism enables our system to accurately extract and continuously update long-term persona memory without requiring multiple-session dialogue datasets for model training. To our knowledge, this is the first attempt to conduct real-time dynamic management of persona information of both parties, including the user and the bot. Results on DuLeMon indicate that PLATO-LTM can significantly outperform baselines in terms of long-term dialogue consistency, leading to better dialogue engagingness.
翻訳日:2022-03-14 13:14:36 公開日:2022-03-11
# オープンインテント検出に向けて

Towards Open Intent Detection ( http://arxiv.org/abs/2203.05823v1 )

ライセンス: Link先を確認
Hanlei Zhang, Hua Xu, Shaojie Zhao, Qianrui Zhou(参考訳) 本稿では,自然言語理解におけるオープンインテントの同定と,オープンインテントの検出を目的としたオープンインテント検出問題を提案する。 現在の手法には2つの課題がある。 一方、既存の手法では、事前の知識なしにオープンインテントを検出するためのロバスト表現の学習に制限がある。 一方で、既知の意図とオープンな意図を区別するために、特定かつコンパクトな決定境界を学ぶための効果的なアプローチが欠如している。 本稿では,これらの問題に対して,遠隔認識戦略とオープンインテント検出のための特徴空間に適応した適切な決定境界を用いて識別的意図特徴を逐次学習する最初のパイプラインフレームワークであるda-adbを提案する。 提案手法はまず距離情報を利用して意図表現の識別能力を向上する。 そして、経験的及び開放的リスクのバランスをとることにより、既知の意図的特徴空間に適応した判別的決定境界を得る。 広汎な実験は、距離認識および境界学習戦略の有効性を示す。 本手法は最先端手法と比較して,3つのベンチマークインテントデータセットにおいて大幅な改善を実現する。 また、ラベル付きデータと既知のカテゴリの比率が異なる堅牢なパフォーマンスが得られる。

The open intent detection problem is presented in this paper, which aims to identify known intents and detect open intent in natural language understanding. Current methods have two core challenges. On the one hand, the existing methods have limitations in learning robust representations to detect the open intent without any prior knowledge. On the other hand, there lacks an effective approach to learning the specific and compact decision boundary to distinguish the known intents and the open intent. This paper introduces an original pipeline framework, DA-ADB, to address these issues, which successively learns discriminative intent features with distance-aware strategy and appropriate decision boundaries adaptive to the feature space for open intent detection. The proposed method first leverages distance information to enhance the distinguishing capability of the intent representations. Then, it obtains discriminative decision boundaries adaptive to the known intent feature space by balancing both the empirical and open space risks. Extensive experiments show the effectiveness of distance-aware and boundary learning strategies. Compared with the state-of-the-art methods, our method achieves substantial improvements on three benchmark intent datasets. It also yields robust performance with different proportions of labeled data and known categories.
翻訳日:2022-03-14 13:14:16 公開日:2022-03-11
# 文は128個の擬似トークンの価値 - 文埋め込みのための意味認識型コントラスト学習フレームワーク

A Sentence is Worth 128 Pseudo Tokens: A Semantic-Aware Contrastive Learning Framework for Sentence Embeddings ( http://arxiv.org/abs/2203.05877v1 )

ライセンス: Link先を確認
Haochen Tan, Wei Shao, Han Wu, Ke Yang, Linqi Song(参考訳) コントラスト学習は、教師なし文の埋め込みタスク、例えばSimCSEにおいて大きな可能性を示している。 しかし,これらの既存の解は文の長さや構文構造といった表面的特徴に大きく影響されている。 本稿では,文長や構文などの表面的特徴の影響を排除しつつ,文の擬似意味空間(潜時意味空間)表現を活用可能な文埋め込み用意味論的コントラスト学習フレームワーク Pseudo-Token BERT (PT-BERT) を提案する。 具体的には,BERTエンコーダに依存しない追加の擬似トークン埋め込み層を導入し,各文を固定長の擬似トークン列にマッピングする。 これらの擬似シーケンスを活用することで、注意機構に基づいて同じ長の正と負のペアを構築し、コントラスト学習を行うことができる。 さらに,勾配上昇エンコーダと運動量上昇エンコーダを併用してインスタンスをエンコードするとともに,追加のキューを動的に保持して文の埋め込み表現を格納し,負の例に対するエンコーダの学習性能を向上させる。 実験の結果,本モデルは6つの標準意味テキスト類似性 (sts) タスクにおいて最先端のベースラインよりも優れていることがわかった。 さらに、アライメントと一様性損失の実験、および文の長さと構文の異なるハード例により、本手法の有効性を一貫して検証する。

Contrastive learning has shown great potential in unsupervised sentence embedding tasks, e.g., SimCSE. However, We find that these existing solutions are heavily affected by superficial features like the length of sentences or syntactic structures. In this paper, we propose a semantics-aware contrastive learning framework for sentence embeddings, termed Pseudo-Token BERT (PT-BERT), which is able to exploit the pseudo-token space (i.e., latent semantic space) representation of a sentence while eliminating the impact of superficial features such as sentence length and syntax. Specifically, we introduce an additional pseudo token embedding layer independent of the BERT encoder to map each sentence into a sequence of pseudo tokens in a fixed length. Leveraging these pseudo sequences, we are able to construct same-length positive and negative pairs based on the attention mechanism to perform contrastive learning. In addition, we utilize both the gradient-updating and momentum-updating encoders to encode instances while dynamically maintaining an additional queue to store the representation of sentence embeddings, enhancing the encoder's learning performance for negative examples. Experiments show that our model outperforms the state-of-the-art baselines on six standard semantic textual similarity (STS) tasks. Furthermore, experiments on alignments and uniformity losses, as well as hard examples with different sentence lengths and syntax, consistently verify the effectiveness of our method.
翻訳日:2022-03-14 13:12:36 公開日:2022-03-11
# エンコーダ・デコーダアーキテクチャの双方向スキップ接続に向けて

Towards Bi-directional Skip Connections in Encoder-Decoder Architectures and Beyond ( http://arxiv.org/abs/2203.05709v1 )

ライセンス: Link先を確認
Tiange Xiang, Chaoyi Zhang, Xinyi Wang, Yang Song, Dongnan Liu, Heng Huang, Weidong Cai(参考訳) 前方スキップ接続を持つエンコーダ/デコーダアーキテクチャとしてu-netは、様々な医用画像解析タスクで有望な結果を得た。 最近の多くのアプローチでは、より複雑なビルディングブロックでU-Netを拡張しており、通常はネットワークパラメータの数をかなり増やしている。 このような複雑さにより、推論段階は臨床応用に非常に非効率になる。 本研究では,効率的なセグメンテーションネットワークの設計に向けて,デコードされた機能をエンコーダに戻すための後方スキップ接続を提案する。 我々の設計は、余分なパラメータを導入することなく、再帰構造を形成するエンコーダ・デコーダアーキテクチャにおいて前方スキップ接続を併用することができる。 後方スキップ接続により、U-Netベースのネットワークファミリー、すなわち双方向O-シェープネットワークを提案し、複数の公開医用画像セグメンテーションデータセットに新しいベンチマークを設定した。 一方、最も平易なアーキテクチャ(BiO-Net)では、ネットワーク計算は事前に設定された繰り返し時間とともに必然的に増加する。 そこで我々は,このような繰り返し設計のボトルネックについて検討し,マルチスケールの双方向スキップ接続を探索する2相ニューラルアーキテクチャ探索(NAS)アルゴリズム(BiX-NAS)を提案する。 無効なスキップ接続は、計算コストを削減し、ネットワーク推論を高速化するために破棄される。 最終的に検索されたBiX-Netはネットワークの複雑さを最小化し、最先端のネットワークよりも大きなマージンで優れている。 2次元と3次元のセグメンテーションタスクを合計6つのデータセットで評価した。 提案手法の包括的解析を行うため,広範囲なアブレーション研究も行われている。

U-Net, as an encoder-decoder architecture with forward skip connections, has achieved promising results in various medical image analysis tasks. Many recent approaches have also extended U-Net with more complex building blocks, which typically increase the number of network parameters considerably. Such complexity makes the inference stage highly inefficient for clinical applications. Towards an effective yet economic segmentation network design, in this work, we propose backward skip connections that bring decoded features back to the encoder. Our design can be jointly adopted with forward skip connections in any encoder-decoder architecture forming a recurrence structure without introducing extra parameters. With the backward skip connections, we propose a U-Net based network family, namely Bi-directional O-shape networks, which set new benchmarks on multiple public medical imaging segmentation datasets. On the other hand, with the most plain architecture (BiO-Net), network computations inevitably increase along with the pre-set recurrence time. We have thus studied the deficiency bottleneck of such recurrent design and propose a novel two-phase Neural Architecture Search (NAS) algorithm, namely BiX-NAS, to search for the best multi-scale bi-directional skip connections. The ineffective skip connections are then discarded to reduce computational costs and speed up network inference. The finally searched BiX-Net yields the least network complexity and outperforms other state-of-the-art counterparts by large margins. We evaluate our methods on both 2D and 3D segmentation tasks in a total of six datasets. Extensive ablation studies have also been conducted to provide a comprehensive analysis for our proposed methods.
翻訳日:2022-03-14 13:08:18 公開日:2022-03-11
# 仮想世界からの学習による統一的な単眼視覚オドメトリを目指して

Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World ( http://arxiv.org/abs/2203.05712v1 )

ライセンス: Link先を確認
Sen Zhang, Jing Zhang, Dacheng Tao(参考訳) 単眼視覚計測(VO)は、コスト効率のよいカメラ画像からリアルタイム車両の動きを提供することによって、幅広い研究の注目を集めている。 しかしながら、最先端最適化に基づく単眼型vo法は、長期予測のスケール不整合問題に苦しむ。 トレーニングデータセットでステレオシーケンスや接地動作を活用することで、この問題に対処するためにディープラーニングが最近導入された。 しかし、データ収集には追加コストがかかるため、トレーニングデータはすべてのデータセットで利用できない可能性がある。 本研究では,従来のシミュレーション環境から容易に得ることができる仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。 具体的には,まず,単眼実画像とステレオ仮想データの両方を用いて,スケールアウェアな異質性ネットワークを訓練する。 仮想と現実のドメインギャップは、両ドメインのイメージを共有機能空間にマッピングする対角的なトレーニング戦略を用いてブリッジされる。 結果として生じるスケール一貫性の相違は、長い軌道上のスケール一貫性を保証する仮想ステレオオブジェクトを構築することで直接VOシステムに統合される。 さらに、個別の最適化バックエンドと学習プロセスによって生じる最適性の問題に対処するため、学習と最適化の間の双方向情報フローを可能にする相互強化パイプラインを提案し、互いの堅牢性と精度を高める。 我々は,KITTIとvKITTI2データセットにおけるフレームワークの有効性を示す。

Monocular visual odometry (VO) has attracted extensive research attention by providing real-time vehicle motion from cost-effective camera images. However, state-of-the-art optimization-based monocular VO methods suffer from the scale inconsistency problem for long-term predictions. Deep learning has recently been introduced to address this issue by leveraging stereo sequences or ground-truth motions in the training dataset. However, it comes at an additional cost for data collection, and such training data may not be available in all datasets. In this work, we propose VRVO, a novel framework for retrieving the absolute scale from virtual data that can be easily obtained from modern simulation environments, whereas in the real domain no stereo or ground-truth data are required in either the training or inference phases. Specifically, we first train a scale-aware disparity network using both monocular real images and stereo virtual data. The virtual-to-real domain gap is bridged by using an adversarial training strategy to map images from both domains into a shared feature space. The resulting scale-consistent disparities are then integrated with a direct VO system by constructing a virtual stereo objective that ensures the scale consistency over long trajectories. Additionally, to address the suboptimality issue caused by the separate optimization backend and the learning process, we further propose a mutual reinforcement pipeline that allows bidirectional information flow between learning and optimization, which boosts the robustness and accuracy of each other. We demonstrate the effectiveness of our framework on the KITTI and vKITTI2 datasets.
翻訳日:2022-03-14 13:07:51 公開日:2022-03-11
# 情報理論オドメトリー学習

Information-Theoretic Odometry Learning ( http://arxiv.org/abs/2203.05724v1 )

ライセンス: Link先を確認
Sen Zhang, Jing Zhang, Dacheng Tao(参考訳) 本稿では,ロボット工学や視覚工学における重要な要素であるオドメトリ推定を目的とした学習動機づけ手法のための統一的な情報理論フレームワークを提案する。 本稿では、この問題を変動情報ボトルネック目的関数の最適化として定式化し、ポーズ非関連情報を潜在表現から排除する。 提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。 具体的には,情報ボトルネックフレームワークの一般化エラーと潜在表現の予測可能性について検討する。 これらは性能保証だけでなく、モデル設計、サンプル収集、センサー選択のための実用的なガイダンスを提供する。 さらに、確率潜在表現は、余分な構造や計算を必要としない自然な不確実性尺度を提供する。 2つのよく知られたオドメトリデータセットの実験により,本手法の有効性が示された。

In this paper, we propose a unified information theoretic framework for learning-motivated methods aimed at odometry estimation, a crucial component of many robotics and vision tasks such as navigation and virtual reality where relative camera poses are required in real time. We formulate this problem as optimizing a variational information bottleneck objective function, which eliminates pose-irrelevant information from the latent representation. The proposed framework provides an elegant tool for performance evaluation and understanding in information-theoretic language. Specifically, we bound the generalization errors of the deep information bottleneck framework and the predictability of the latent representation. These provide not only a performance guarantee but also practical guidance for model design, sample collection, and sensor selection. Furthermore, the stochastic latent representation provides a natural uncertainty measure without the needs for extra structures or computations. Experiments on two well-known odometry datasets demonstrate the effectiveness of our method.
翻訳日:2022-03-14 13:07:27 公開日:2022-03-11
# トランスフォーマベース深層強化学習フレームワークを用いたスライス特異的高速mrスキャンの能動位相エンコード選択

Active Phase-Encode Selection for Slice-Specific Fast MR Scanning Using a Transformer-Based Deep Reinforcement Learning Framework ( http://arxiv.org/abs/2203.05756v1 )

ライセンス: Link先を確認
Yiming Liu, Yanwei Pang, Ruiqi Jin, Zhenchang Wang(参考訳) 目的: 完全K空間行列形成のための位相符号化における長期走査時間はMRIの重大な欠点であり, 患者は不快であり, 緊急性疾患の診断に要する時間を無駄にしている。 本稿では,スライス固有の不完全なK空間行列からスライスを正確に再構成できるように,部分位相を短時間で能動的かつ順次選択することでスキャン時間を短縮することを目的とする。 方法: 変換器をベースとした深層強化学習フレームワークの提案により, 再構成画質の向上度が報酬となる再構成品質に基づくQ値(報酬関数)に基づいて, 部分位相の列を積極的に決定する。 位相インジケータベクトル、不完全K空間行列、およびそれに対応するアンダーサンプ画像から、Q値が効率よく予測され、位相の逐次情報と画像のグローバルな関係が利用できる。 逆フーリエ変換は、アンダーサンプル画像の効率的な計算に使われ、したがって選択フェーズの報酬を得る。 結果: 元のK空間データにアクセス可能な高速MRIデータセットの実験結果から, 提案手法の有効性と精度が示された。 Pinedaらによる最先端の強化学習法と比較すると,提案手法は約150倍高速で,再現精度が大幅に向上する。 結論:我々は,少量の位相からなる高品質スライス特定軌道を生成するための,軽量トランスベース深層強化学習フレームワークを提案する。 提案手法はTITLE(Transformer Involved Trajectory LEarning)と呼ばれ,位相エンコード選択効率と画像再構成精度に優れる。

Purpose: Long scan time in phase encoding for forming complete K-space matrices is a critical drawback of MRI, making patients uncomfortable and wasting important time for diagnosing emergent diseases. This paper aims to reducing the scan time by actively and sequentially selecting partial phases in a short time so that a slice can be accurately reconstructed from the resultant slice-specific incomplete K-space matrix. Methods: A transformer based deep reinforcement learning framework is proposed for actively determining a sequence of partial phases according to reconstruction-quality based Q-value (a function of reward), where the reward is the improvement degree of reconstructed image quality. The Q-value is efficiently predicted from binary phase-indicator vectors, incomplete K-space matrices and their corresponding undersampled images with a light-weight transformer so that the sequential information of phases and global relationship in images can be used. The inverse Fourier transform is employed for efficiently computing the undersampled images and hence gaining the rewards of selecting phases. Results: Experimental results on the fastMRI dataset with original K-space data accessible demonstrate the efficiency and accuracy superiorities of proposed method. Compared with the state-of-the-art reinforcement learning based method proposed by Pineda et al., the proposed method is roughly 150 times faster and achieves significant improvement in reconstruction accuracy. Conclusions: We have proposed a light-weight transformer based deep reinforcement learning framework for generating high-quality slice-specific trajectory consisting of a small number of phases. The proposed method, called TITLE (Transformer Involved Trajectory LEarning), has remarkable superiority in phase-encode selection efficiency and image reconstruction accuracy.
翻訳日:2022-03-14 13:07:15 公開日:2022-03-11
# 民主主義が重要:コサレントなオブジェクト検出のための包括的特徴マイニング

Democracy Does Matter: Comprehensive Feature Mining for Co-Salient Object Detection ( http://arxiv.org/abs/2203.05787v1 )

ライセンス: Link先を確認
Siyue Yu, Jimin Xiao, Bingfeng Zhang, Eng Gee Lim(参考訳) 画像群間で共存している有向物体を検出することを目的とした共塩物検出が普及している。 最近の研究では、注意機構や余分な情報を使って共通のコサラレントな特徴を集約し、ターゲットオブジェクトに対する不完全な応答さえもたらしている。 本稿では,民主主義と包括的に共存する機能を発掘し,余分な情報を導入することなく背景干渉を低減することを目的とする。 これを実現するために,我々は,民主的応答マップを生成するための民主的プロトタイプ生成モジュールを設計した。 次に、応答マップに基づく包括的なプロトタイプを最終予測のガイドとして生成することができる。 プロトタイプのノイズの多い背景情報を抑えるために,追加の分類情報に頼ることなく,正と負のペアを同時に生成する自己比較学習モジュールを提案する。 また,注意値の調整による協調機能を強化するために,民主的機能拡張モジュールを設計する。 実験の結果,従来の最先端手法よりも優れた性能を示し,特に実世界の挑戦的事例(例えばCoCAでは,MAEが2.0%,最大Fが5.4%,最大Eが2.3%,Sが3.7%)を同じ条件で得られることがわかった。 コードはまもなくリリースされる。

Co-salient object detection, with the target of detecting co-existed salient objects among a group of images, is gaining popularity. Recent works use the attention mechanism or extra information to aggregate common co-salient features, leading to incomplete even incorrect responses for target objects. In this paper, we aim to mine comprehensive co-salient features with democracy and reduce background interference without introducing any extra information. To achieve this, we design a democratic prototype generation module to generate democratic response maps, covering sufficient co-salient regions and thereby involving more shared attributes of co-salient objects. Then a comprehensive prototype based on the response maps can be generated as a guide for final prediction. To suppress the noisy background information in the prototype, we propose a self-contrastive learning module, where both positive and negative pairs are formed without relying on additional classification information. Besides, we also design a democratic feature enhancement module to further strengthen the co-salient features by readjusting attention values. Extensive experiments show that our model obtains better performance than previous state-of-the-art methods, especially on challenging real-world cases (e.g., for CoCA, we obtain a gain of 2.0% for MAE, 5.4% for maximum F-measure, 2.3% for maximum E-measure, and 3.7% for S-measure) under the same settings. Code will be released soon.
翻訳日:2022-03-14 13:06:46 公開日:2022-03-11
# コントラスト言語-画像事前学習の民主化: データ・モデル・スーパービジョンのCLIPベンチマーク

Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark of Data, Model, and Supervision ( http://arxiv.org/abs/2203.05796v1 )

ライセンス: Link先を確認
Yufeng Cui, Lichen Zhao, Feng Liang, Yangguang Li, Jing Shao(参考訳) Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。 研究者は引き続きCLIPのフロンティアを推し進めているが、これらの作品の再現は依然として困難である。 これは、研究者が一貫したトレーニングレシピを選択したり、異なるデータを使ったりしないためです。 本稿では,CLIPとその変異体の評価,解析,ベンチマークを行う最初の試みであるCLIP-benchmarkを提案する。 データ、監視、モデルアーキテクチャの3つの重要な要素を包括的に分析します。 直感的あるいは反直感的な洞察は,(1)。 データ品質はパフォーマンスに大きな影響を与えます。 (2). ある種の監視は、畳み込みネットワーク(ConvNets)とビジョントランスフォーマー(ViT)に異なる効果がある。 より適切な監視を適用することで、CLIPのパフォーマンスを効果的に向上させることができる。 (3). テキストエンコーダの削減はトレーニングコストを削減するが、最終的なパフォーマンスにはあまり影響しない。 さらに、DeCLIPとFILIPを組み合わせることで、最強のDeFILIPを提供する。 CLIP-benchmarkは次の通りリリースされる。 https://github.com/Sense-GVT/DeCLIP for future CLIP research。

Contrastive Language-Image Pretraining (CLIP) has emerged as a novel paradigm to learn visual models from language supervision. While researchers continue to push the frontier of CLIP, reproducing these works remains challenging. This is because researchers do not choose consistent training recipes and even use different data, hampering the fair comparison between different methods. In this work, we propose CLIP-benchmark, a first attempt to evaluate, analyze, and benchmark CLIP and its variants. We conduct a comprehensive analysis of three key factors: data, supervision, and model architecture. We find considerable intuitive or counter-intuitive insights: (1). Data quality has a significant impact on performance. (2). Certain supervision has different effects for Convolutional Networks (ConvNets) and Vision Transformers (ViT). Applying more proper supervision can effectively improve the performance of CLIP. (3). Curtailing the text encoder reduces the training cost but not much affect the final performance. Moreover, we further combine DeCLIP with FILIP, bringing us the strongest variant DeFILIP. The CLIP-benchmark would be released at: https://github.com/Sense-GVT/DeCLIP for future CLIP research.
翻訳日:2022-03-14 13:05:26 公開日:2022-03-11
# フォント形状から印象への翻訳

Font Shape-to-Impression Translation ( http://arxiv.org/abs/2203.05808v1 )

ライセンス: Link先を確認
Masaya Ueda, Akisato Kimura, Seiichi Uchida(参考訳) 異なるフォントは、エレガントで、怖く、クールな印象を持っている。 本稿では,その自己着脱機構により局所部品間の相関を処理可能な変圧器アーキテクチャに基づく部分的形状印象解析を行う。 この機能は、ローカル部品の組み合わせがフォントの特定の印象を実現する方法を明らかにする。 変圧器の汎用性は,解析に非常に異なる2つのアプローチ,すなわちマルチラベル分類と翻訳を実現することができる。 定量的評価により,我々のTransformerベースのアプローチは,局所的な部分の集合からフォント印象を他のアプローチよりも正確に推定することを示した。 定性評価は、特定の印象に対して重要な局所部分を示す。

Different fonts have different impressions, such as elegant, scary, and cool. This paper tackles part-based shape-impression analysis based on the Transformer architecture, which is able to handle the correlation among local parts by its self-attention mechanism. This ability will reveal how combinations of local parts realize a specific impression of a font. The versatility of Transformer allows us to realize two very different approaches for the analysis, i.e., multi-label classification and translation. A quantitative evaluation shows that our Transformer-based approaches estimate the font impressions from a set of local parts more accurately than other approaches. A qualitative evaluation then indicates the important local parts for a specific impression.
翻訳日:2022-03-14 13:05:11 公開日:2022-03-11
# DRTAM:Dual Rank-1 Tensor Attention Module

DRTAM: Dual Rank-1 Tensor Attention Module ( http://arxiv.org/abs/2203.05893v1 )

ライセンス: Link先を確認
Hanxing Chi, Baihong Lin, Jun Hu, Liang Wang(参考訳) 近年,コンピュータビジョンにおいて注目機構が広く研究されているが,大規模ネットワークとモバイルネットワークの両方において優れた性能を示すものは少ない。 本稿では,フィードフォワード畳み込みニューラルネットワークのための新しい残差アテンション学習誘導アテンションモジュールであるdual rank-1 tensor attention module (drtam)を提案する。 DRTAMはまず3つの軸に沿って3つの2次元特徴記述子を生成する。 次に、3つの記述子を用いて、drtamは2つのランク1テンソル注意マップ、初期注意マップと補完注意マップを逐次推論し、それらを組み合わせて入力特徴マップに乗算し、適応的特徴改善を行う(図1(c)参照)。 To generate two attention maps, DRTAM introduces rank-1 tensor attention module (RTAM) and residual descriptors extraction module (RDEM): RTAM divides each 2D feature descriptors into several chunks, and generate three factor vectors of a rank-1 tensor attention map by employing strip pooling on each chunk so that local and long-range contextual information can be captured along three dimension respectively; RDEM generates three 2D feature descriptors of the residual feature to produce the complement attention map, using three factor vectors of the initial attention map and three descriptors of the input feature. ImageNet-1K, MS COCO, PASCAL VOCの大規模な実験結果から, DRTAMは, 大規模・モバイル両ネットワークにおいて, 他の最先端の注目モジュールと比較して, 競争性能が向上することが示された。

Recently, attention mechanisms have been extensively investigated in computer vision, but few of them show excellent performance on both large and mobile networks. This paper proposes Dual Rank-1 Tensor Attention Module (DRTAM), a novel residual-attention-learning-guided attention module for feed-forward convolutional neural networks. Given a 3D feature tensor map, DRTAM firstly generates three 2D feature descriptors along three axes. Then, using three descriptors, DRTAM sequentially infers two rank-1 tensor attention maps, the initial attention map and the complement attention map, combines and multiplied them to the input feature map for adaptive feature refinement(see Fig.1(c)). To generate two attention maps, DRTAM introduces rank-1 tensor attention module (RTAM) and residual descriptors extraction module (RDEM): RTAM divides each 2D feature descriptors into several chunks, and generate three factor vectors of a rank-1 tensor attention map by employing strip pooling on each chunk so that local and long-range contextual information can be captured along three dimension respectively; RDEM generates three 2D feature descriptors of the residual feature to produce the complement attention map, using three factor vectors of the initial attention map and three descriptors of the input feature. Extensive experimental results on ImageNet-1K, MS COCO and PASCAL VOC demonstrate that DRTAM achieves competitive performance on both large and mobile networks compare with other state-of-the-art attention modules.
翻訳日:2022-03-14 13:05:00 公開日:2022-03-11
# 双曲画像分割

Hyperbolic Image Segmentation ( http://arxiv.org/abs/2203.05898v1 )

ライセンス: Link先を確認
Mina GhadimiAtigh, Julian Schoep, Erman Acar, Nanne van Noord, Pascal Mettes(参考訳) イメージセグメンテーションの現在の標準は、線形超平面を通してユークリッド出力の埋め込み空間においてピクセルレベルの最適化と推論を行うことである。 本研究では,双曲多様体がイメージセグメンテーションの代替となることを示すとともに,双曲空間における階層的ピクセルレベルの分類の抽出可能な定式化を提案する。 双曲像のセグメンテーションは、自由でゼロラベルの一般化のための不確実性推定や境界情報、低次元出力埋め込みの性能向上など、セグメンテーションの新たな可能性と実用的な利点を開く。

For image segmentation, the current standard is to perform pixel-level optimization and inference in Euclidean output embedding spaces through linear hyperplanes. In this work, we show that hyperbolic manifolds provide a valuable alternative for image segmentation and propose a tractable formulation of hierarchical pixel-level classification in hyperbolic space. Hyperbolic Image Segmentation opens up new possibilities and practical benefits for segmentation, such as uncertainty estimation and boundary information for free, zero-label generalization, and increased performance in low-dimensional output embeddings.
翻訳日:2022-03-14 13:04:37 公開日:2022-03-11
# 赤ちゃんの写真から3D顔を作るBabyNet

BabyNet: Reconstructing 3D faces of babies from uncalibrated photographs ( http://arxiv.org/abs/2203.05908v1 )

ライセンス: Link先を確認
Araceli Morales, Antonio R. Porras, Marius George Linguraru, Gemma Piella, Federico M. Sukno(参考訳) 本研究では, 乳児の顔形状の復元を目的とした3次元顔再構成システム, BabyNetを提案する。 乳児の3次元顔形状は成体と大きく異なるため,乳児特有の顔再構成システムが必要である。 babynet は2つの段階からなる。 1) 3Dグラフ畳み込みオートエンコーダは、乳児の3D顔形状の潜伏空間を学習し、 2) 移動学習を用いて抽出した代表的特徴に基づいて, 写真を3次元潜在空間にマッピングする2次元エンコーダ。 このように、事前訓練された3Dデコーダを用いて、2D画像から3D顔を取り出すことができる。 BabyNetを評価します。 1) アダルトデータセットに基づく手法では乳児の3次元顔形状をモデル化できないため、乳児特有の方法の必要性が証明される。 2)ベイビーネットは,ベイビーFMのような乳児特有の3次元形態素モデルを用いた場合であっても,従来のモデル適合手法より優れる。

We present a 3D face reconstruction system that aims at recovering the 3D facial geometry of babies from uncalibrated photographs, BabyNet. Since the 3D facial geometry of babies differs substantially from that of adults, baby-specific facial reconstruction systems are needed. BabyNet consists of two stages: 1) a 3D graph convolutional autoencoder learns a latent space of the baby 3D facial shape; and 2) a 2D encoder that maps photographs to the 3D latent space based on representative features extracted using transfer learning. In this way, using the pre-trained 3D decoder, we can recover a 3D face from 2D images. We evaluate BabyNet and show that 1) methods based on adult datasets cannot model the 3D facial geometry of babies, which proves the need for a baby-specific method, and 2) BabyNet outperforms classical model-fitting methods even when a baby-specific 3D morphable model, such as BabyFM, is used.
翻訳日:2022-03-14 13:04:25 公開日:2022-03-11
# 視覚変換器におけるパッチ相互作用の可視化と理解

Visualizing and Understanding Patch Interactions in Vision Transformer ( http://arxiv.org/abs/2203.05922v1 )

ライセンス: Link先を確認
Jie Ma, Yalong Bai, Bineng Zhong, Wei Zhang, Ting Yao, Tao Mei(参考訳) Vision Transformer (ViT) は、横断的な情報通信を通じて視覚表現を明示的に学習する独自の自己認識機構により、様々なコンピュータビジョンタスクにおいて主要なツールとなっている。 優れた成功にもかかわらず、視覚トランスフォーマーの説明可能性を探ることは滅多になく、包括的なパッチ間の相関に対する注意メカニズムがパフォーマンスにどのように影響するか、さらなる可能性にどのように影響するかは明らかではない。 本研究では,視覚トランスフォーマーのパッチ間の重要な注意の相互作用を分析し,解釈するための新しい可視化手法を提案する。 具体的には、まず、パッチ間相互作用の影響を測定する定量化指標を導入し、注意窓の設計と識別不能なパッチ除去に対する量化の検証を行う。 次に,各パッチの有効応答フィールドをvitで活用し,それに応じてウィンドウフリートランスフォーマーアーキテクチャを考案する。 ImageNetの大規模な実験では、精巧に設計された量的手法がViTモデルの学習を促進できることが示され、トップ1の精度は4.28%向上した。 さらに,下流の細粒度認識タスクの結果は,提案の一般化をさらに検証する。

Vision Transformer (ViT) has become a leading tool in various computer vision tasks, owing to its unique self-attention mechanism that learns visual representations explicitly through cross-patch information interactions. Despite having good success, the literature seldom explores the explainability of vision transformer, and there is no clear picture of how the attention mechanism with respect to the correlation across comprehensive patches will impact the performance and what is the further potential. In this work, we propose a novel explainable visualization approach to analyze and interpret the crucial attention interactions among patches for vision transformer. Specifically, we first introduce a quantification indicator to measure the impact of patch interaction and verify such quantification on attention window design and indiscriminative patches removal. Then, we exploit the effective responsive field of each patch in ViT and devise a window-free transformer architecture accordingly. Extensive experiments on ImageNet demonstrate that the exquisitely designed quantitative method is shown able to facilitate ViT model learning, leading the top-1 accuracy by 4.28% at most. Moreover, the results on downstream fine-grained recognition tasks further validate the generalization of our proposal.
翻訳日:2022-03-14 13:04:09 公開日:2022-03-11
# TFCNet: 静的非バイアス時間推論のための時間完全接続ネットワーク

TFCNet: Temporal Fully Connected Networks for Static Unbiased Temporal Reasoning ( http://arxiv.org/abs/2203.05928v1 )

ライセンス: Link先を確認
Shiwen Zhang(参考訳) 時間的推論は、ビジョンインテリジェンスの重要な機能のひとつです。 コンピュータビジョン研究コミュニティでは、時間的推論は通常、ビデオ分類の形で研究され、特に3D CNNやキネティクスなど、最先端のニューラルネットワーク構造やデータセットのベンチマークが近年提案されている。 しかし、近年の研究では、現在のビデオ分類ベンチマークには静的な特徴に対する強いバイアスがあり、時間的モデリング能力を正確に反映できないことが判明している。 静的バイアスを排除するための新しいビデオ分類ベンチマークが提案され、これらの新しいベンチマークの実験により、現在のクリップベースの3D CNNは、RNN構造や最近のビデオトランスフォーマーよりも優れていることが示された。 本稿では,3次元CNNと映像レベルのサンプリング戦略を用いると,静的な時間的推論ベンチマークにおいて,RNNと最近の視覚トランスフォーマーにかなりの差で打ち勝つことができることを示す。 さらに,時間次元に沿って全連結層を近似し,映像レベルの受容場を得る効率的かつ効果的な成分である時間完全連結ブロック(tfcブロック)を提案する。 ビデオレベル3D CNN(V3D)にTFCブロックを挿入することで、提案するTFCNetsは、合成時間的推論ベンチマークCATERと実世界の静的不偏性データセットDiving48に、新しい最先端の結果を確立する。

Temporal Reasoning is one important functionality for vision intelligence. In computer vision research community, temporal reasoning is usually studied in the form of video classification, for which many state-of-the-art Neural Network structures and dataset benchmarks are proposed in recent years, especially 3D CNNs and Kinetics. However, some recent works found that current video classification benchmarks contain strong biases towards static features, thus cannot accurately reflect the temporal modeling ability. New video classification benchmarks aiming to eliminate static biases are proposed, with experiments on these new benchmarks showing that the current clip-based 3D CNNs are outperformed by RNN structures and recent video transformers. In this paper, we find that 3D CNNs and their efficient depthwise variants, when video-level sampling strategy is used, are actually able to beat RNNs and recent vision transformers by significant margins on static-unbiased temporal reasoning benchmarks. Further, we propose Temporal Fully Connected Block (TFC Block), an efficient and effective component, which approximates fully connected layers along temporal dimension to obtain video-level receptive field, enhancing the spatiotemporal reasoning ability. With TFC blocks inserted into Video-level 3D CNNs (V3D), our proposed TFCNets establish new state-of-the-art results on synthetic temporal reasoning benchmark, CATER, and real world static-unbiased dataset, Diving48, surpassing all previous methods.
翻訳日:2022-03-14 13:03:49 公開日:2022-03-11
# PD-Flow: フローを正規化するポイントクラウドDenoisingフレームワーク

PD-Flow: A Point Cloud Denoising Framework with Normalizing Flows ( http://arxiv.org/abs/2203.05940v1 )

ライセンス: Link先を確認
Aihua Mao, Zihui Du, Yu-Hui Wen, Jun Xuan, Yong-Jin Liu(参考訳) ポイント・クラウド・デノゲーション(Point cloud denoising)は、きめ細かい詳細を保存しながら、ノイズや外れ値によって破損した生の観測からクリーン・ポイント・クラウドを復元することを目的としている。 本稿では,正規化フローとノイズの非絡み合いを組み込んだ新しいDeep Learning-based denoising Modelを提案する。 点点補正のために点雲の特徴を抽出する既存の研究とは異なり,分布学習や特徴の絡み合いの観点から認知過程を定式化する。 ノイズ点雲をクリーンポイントとノイズの結合分布として考えることにより,ノイズを潜在ポイント表現から分離し,ユークリッド空間と潜在空間のマッピングを正規化することでモデル化することができる。 合成された3次元モデルと実世界のデータセットを様々なノイズ設定で評価する。 定性的かつ定量的な結果から,本手法は従来の最先端のディープラーニング手法よりも優れていることが示された。 %であった。

Point cloud denoising aims to restore clean point clouds from raw observations corrupted by noise and outliers while preserving the fine-grained details. We present a novel deep learning-based denoising model, that incorporates normalizing flows and noise disentanglement techniques to achieve high denoising accuracy. Unlike existing works that extract features of point clouds for point-wise correction, we formulate the denoising process from the perspective of distribution learning and feature disentanglement. By considering noisy point clouds as a joint distribution of clean points and noise, the denoised results can be derived from disentangling the noise counterpart from latent point representation, and the mapping between Euclidean and latent spaces is modeled by normalizing flows. We evaluate our method on synthesized 3D models and real-world datasets with various noise settings. Qualitative and quantitative results show that our method outperforms previous state-of-the-art deep learning-based approaches. %in terms of detail preservation and distribution uniformity.
翻訳日:2022-03-14 13:03:19 公開日:2022-03-11
# (参考訳) 地球埋め込み:高密度土地被覆分類のための自己監督型コントラスト事前訓練

Embedding Earth: Self-supervised contrastive pre-training for dense land cover classification ( http://arxiv.org/abs/2203.06041v1 )

ライセンス: CC BY-SA 4.0
Michail Tarasiou, Stefanos Zafeiriou(参考訳) 土地被覆意味セグメンテーションのための機械学習モデルのトレーニングでは、入力として使用する衛星画像と、教師あり学習を可能にする地上真理データとの大きな違いがある。 何千もの新しい衛星画像が毎日無料で利用できるようになる一方で、地上の真実データを取得することは依然として非常に困難であり、時間と費用がかかる。 本稿では,衛星画像の大量利用を活用し,下流の密集した土地被覆分類タスクの性能を向上させるための,自己教師付きコントラスト事前学習手法を提案する。 4つの国と2つの大陸にまたがる広範囲な実験的な評価を行い,提案手法で事前訓練したモデルを用いて,土地被覆セマンティックセマンティックセグメンテーションの初期化点とし,最大25%の絶対mIoUを観測した。 テストされたすべてのケースでは、ランダム初期化よりも優れています。 一連のアブレーション研究を通じて,提案手法の特性を考察し,地球観測タスクにおけるランダム初期化の代替として,前訓練方式を用いる可能性を開く異種領域間の学習的特徴を一般化できることを見出した。 コードはすぐにhttps://github.com/michaeltrs/DeepSatModels.comでアップロードされる。

In training machine learning models for land cover semantic segmentation there is a stark contrast between the availability of satellite imagery to be used as inputs and ground truth data to enable supervised learning. While thousands of new satellite images become freely available on a daily basis, getting ground truth data is still very challenging, time consuming and costly. In this paper we present Embedding Earth a self-supervised contrastive pre-training method for leveraging the large availability of satellite imagery to improve performance on downstream dense land cover classification tasks. Performing an extensive experimental evaluation spanning four countries and two continents we use models pre-trained with our proposed method as initialization points for supervised land cover semantic segmentation and observe significant improvements up to 25% absolute mIoU. In every case tested we outperform random initialization, especially so when ground truth data are scarse. Through a series of ablation studies we explore the qualities of the proposed approach and find that learnt features can generalize between disparate regions opening up the possibility of using the proposed pre-training scheme as a replacement to random initialization for Earth observation tasks. Code will be uploaded soon at https://github.com/michaeltrs/DeepSatModels.
翻訳日:2022-03-14 13:01:48 公開日:2022-03-11
# 深層オートオーグメント

Deep AutoAugment ( http://arxiv.org/abs/2203.06172v1 )

ライセンス: Link先を確認
Yu Zheng, Zhi Zhang, Shen Yan, Mi Zhang(参考訳) 最近の自動化されたデータ拡張手法は最先端の結果をもたらすが、その設計空間と派生したデータ拡張戦略は依然として強力な人間の優先事項を取り入れている。 本研究では,手書きのデフォルト拡張を検索データ拡張と共に修正するのではなく,Deep AutoAugment (DeepAA) というデータ拡張検索のための完全自動アプローチを提案する。 deepaaは、拡張層を1つずつ積み重ねて収束するまで、段階的に多層データ拡張パイプラインをスクラッチから構築する。 各拡張層について、ポリシーは、元の勾配と、低分散の方向に沿った拡張データのコサイン類似性を最大化するために最適化される。 実験の結果, 既定の増補がなくても, 従来よりも高い性能を達成した増補政策を学習できることが判明した。 広範囲なアブレーション研究は、正規化勾配マッチングがデータ拡張ポリシーの効果的な探索法であることを示している。 私たちのコードは、https://github.com/MSU-MLSys-Lab/DeepAAで利用可能です。

While recent automated data augmentation methods lead to state-of-the-art results, their design spaces and the derived data augmentation strategies still incorporate strong human priors. In this work, instead of fixing a set of hand-picked default augmentations alongside the searched data augmentations, we propose a fully automated approach for data augmentation search named Deep AutoAugment (DeepAA). DeepAA progressively builds a multi-layer data augmentation pipeline from scratch by stacking augmentation layers one at a time until reaching convergence. For each augmentation layer, the policy is optimized to maximize the cosine similarity between the gradients of the original and augmented data along the direction with low variance. Our experiments show that even without default augmentations, we can learn an augmentation policy that achieves strong performance with that of previous works. Extensive ablation studies show that the regularized gradient matching is an effective search method for data augmentation policies. Our code is available at: https://github.com/MSU-MLSys-Lab/DeepAA .
翻訳日:2022-03-14 12:27:27 公開日:2022-03-11
# トランスフォーマーに基づくテキスト分類器に対するブロックスパース逆攻撃

Block-Sparse Adversarial Attack to Fool Transformer-Based Text Classifiers ( http://arxiv.org/abs/2203.05948v1 )

ライセンス: Link先を確認
Sahar Sadrizadeh, Ljiljana Dolamic, Pascal Frossard(参考訳) 近年、異なる分野におけるディープニューラルネットワークの著しいパフォーマンスにもかかわらず、これらが敵対的な例に弱いことが示されている。 本稿では,変換器に基づくテキスト分類器に対する勾配に基づく逆攻撃を提案する。 本手法の逆摂動はブロックスパースに課され, 結果として得られる逆摂動例は, わずか数語で原文と異なる。 テキストデータの離散的な性質から,提案した最適化問題の最小化のために勾配予測を行う。 実験結果から, 文のセマンティクスを維持しながら, GPT-2の精度を異なるデータセット(AG News, MNLI, Yelp Reviews)で5%未満に低下させることができることがわかった。 さらに,提案した最適化問題のブロックスパーシティ制約は,逆数例の小さな摂動をもたらす。

Recently, it has been shown that, in spite of the significant performance of deep neural networks in different fields, those are vulnerable to adversarial examples. In this paper, we propose a gradient-based adversarial attack against transformer-based text classifiers. The adversarial perturbation in our method is imposed to be block-sparse so that the resultant adversarial example differs from the original sentence in only a few words. Due to the discrete nature of textual data, we perform gradient projection to find the minimizer of our proposed optimization problem. Experimental results demonstrate that, while our adversarial attack maintains the semantics of the sentence, it can reduce the accuracy of GPT-2 to less than 5% on different datasets (AG News, MNLI, and Yelp Reviews). Furthermore, the block-sparsity constraint of the proposed optimization problem results in small perturbations in the adversarial example.
翻訳日:2022-03-14 12:27:11 公開日:2022-03-11
# スケーラブルな検証のためのディープバイナリ強化学習

Deep Binary Reinforcement Learning for Scalable Verification ( http://arxiv.org/abs/2203.05704v1 )

ライセンス: Link先を確認
Christopher Lazarus and Mykel J. Kochenderfer(参考訳) 関数近似器としてのニューラルネットワークの利用は、強化学習(RL)の多くの進歩を可能にした。 ニューラルネットワークの一般化力とRLアルゴリズムの進歩は、人工知能の分野を再燃させた。 そのパワーにもかかわらず、ニューラルネットワークはブラックボックスと見なされ、安全クリティカルな設定での使用は依然として課題である。 近年,ネットワークの安全性を認証する手段として,ニューラルネットワーク検証が登場している。 検証は難しい問題であり、深層強化学習で使用されるような大規模ネットワークに拡張することは困難である。 より容易に検証可能なRLポリシーをトレーニングするためのアプローチを提供する。 主にバイナリパラメータを持つネットワークの一種であるバイナライズニューラルネットワーク(BNN)を使用している。 本稿では,BNNに特化したRLアルゴリズムを提案する。 Atari環境でBNNを訓練した後、ロバスト性特性を検証する。

The use of neural networks as function approximators has enabled many advances in reinforcement learning (RL). The generalization power of neural networks combined with advances in RL algorithms has reignited the field of artificial intelligence. Despite their power, neural networks are considered black boxes, and their use in safety-critical settings remains a challenge. Recently, neural network verification has emerged as a way to certify safety properties of networks. Verification is a hard problem, and it is difficult to scale to large networks such as the ones used in deep reinforcement learning. We provide an approach to train RL policies that are more easily verifiable. We use binarized neural networks (BNNs), a type of network with mostly binary parameters. We present an RL algorithm tailored specifically for BNNs. After training BNNs for the Atari environments, we verify robustness properties.
翻訳日:2022-03-14 12:26:55 公開日:2022-03-11
# 時系列予測のための2重再パラメータ変分生成モデル

Dual reparametrized Variational Generative Model for Time-Series Forecasting ( http://arxiv.org/abs/2203.05766v1 )

ライセンス: Link先を確認
Ziang Chen(参考訳) 本稿では,時系列予測のための生成モデルであるDualVDTを提案する。 モデル内のエビデンスローバウンド(ELBO)を厳格化するために, 変分オートエンコーダ(VAE)の二重再パラメータ化変分機構を導入した。 このメカニズムは潜在スコアに基づく生成モデル(sgm)を利用し、逆時間確率微分方程式と変動型祖先サンプリングによって潜在ベクトルに蓄積された摂動を明示的に弁別する。 脱離潜伏分布の後方は二重再パラメータ化変分密度で融合した。 エルボでのklの発散はモデルのより良い結果に到達するために減少する。 また,多変量依存を明示的に抽出する潜在注意機構を提案する。 局所的な時間的依存は、構築された局所的トポロジーと時間的ウィッドによって同時に構築する。 複数のデータセットで証明され実験されたdualvdtは、局所-時間的推論を組み合わせた逆ダイナミクスを通じて潜在摂動をデノベートする新しい双対再パラメータ構造を持ち、解析的および実験的に高度な性能を持つ。

This paper propose DualVDT, a generative model for Time-series forecasting. Introduced dual reparametrized variational mechanisms on variational autoencoder (VAE) to tighter the evidence lower bound (ELBO) of the model, prove the advance performance analytically. This mechanism leverage the latent score based generative model (SGM), explicitly denoising the perturbation accumulated on latent vector through reverse time stochastic differential equation and variational ancestral sampling. The posterior of denoised latent distribution fused with dual reparametrized variational density. The KL divergence in ELBO will reduce to reach the better results of the model. This paper also proposed a latent attention mechanisms to extract multivariate dependency explicitly. Build the local temporal dependency simultaneously in factor wised through constructed local topology and temporal wised. The proven and experiment on multiple datasets illustrate, DualVDT, with a novel dual reparametrized structure, which denoise the latent perturbation through the reverse dynamics combining local-temporal inference, has the advanced performance both analytically and experimentally.
翻訳日:2022-03-14 12:26:46 公開日:2022-03-11
# ZIN:環境推論による不変性学習の時期と方法

ZIN: When and How to Learn Invariance by Environment Inference? ( http://arxiv.org/abs/2203.05818v1 )

ライセンス: Link先を確認
Yong Lin, Shengyu Zhu, Peng Cui(参考訳) 異種データに遭遇することは一般的であり、データ分布のいくつかの側面は異なるが、根底にある因果機構は一定である。 データが異質性に応じて異なる環境に分割された場合、この環境分割に基づいて頑健で不変なモデルを学ぶための最近の不変学習法が提案されている。 したがって、環境分割が提供されていない場合でも、固有の不均一性を利用する傾向にある。 残念ながら、この研究において、この状況下での学習不変性は、さらなる帰納バイアスや追加情報なしでは、基本的に不可能であることを示す。 そこで本稿では,環境分割と不変表現を協調的に学習するフレームワークを提案する。 フレームワークが比較的一般的な設定の下で不変な特徴を確実に識別するために必要な条件を導出する。 合成と実世界の両方のデータセットによる実験結果から,既存の手法よりも提案フレームワークの性能が向上したことを示す。 最後に,環境分割を伴わずに不変モデルを学ぶことを考える場合,帰納的バイアスの役割をより明示する必要性も生ずる。

It is commonplace to encounter heterogeneous data, of which some aspects of the data distribution may vary but the underlying causal mechanisms remain constant. When data are divided into distinct environments according to the heterogeneity, recent invariant learning methods have proposed to learn robust and invariant models based on this environment partition. It is hence tempting to utilize the inherent heterogeneity even when environment partition is not provided. Unfortunately, in this work, we show that learning invariant features under this circumstance is fundamentally impossible without further inductive biases or additional information. Then, we propose a framework to jointly learn environment partition and invariant representation, assisted by additional auxiliary information. We derive sufficient and necessary conditions for our framework to provably identify invariant features under a fairly general setting. Experimental results on both synthetic and real world datasets validate our analysis and demonstrate an improved performance of the proposed framework over existing methods. Finally, our results also raise the need of making the role of inductive biases more explicit in future works, when considering learning invariant models without environment partition.
翻訳日:2022-03-14 12:26:29 公開日:2022-03-11
# 機械学習における認識不確実性定量化の難しさについて:損失最小化による直接不確実性推定の場合

On the Difficulty of Epistemic Uncertainty Quantification in Machine Learning: The Case of Direct Uncertainty Estimation through Loss Minimisation ( http://arxiv.org/abs/2203.06102v1 )

ライセンス: Link先を確認
Viktor Bengs, Eyke H\"ullermeier, Willem Waegeman(参考訳) 不確かさの定量化は、近年機械学習で注目を集めている。 特に, 動脈硬化とてんかんの不確かさの区別が有用であることが確認された。 後者は学習者の知識(知識の欠如)を指し、特に測定と定量化が難しいようである。 本稿では,確率分布上の分布の形式で予測を行う2階学習者の考えに基づく最近の提案について分析する。 標準的な(一階の)学習者は、サンプルデータ上で適切な損失関数を最小化することにより、正確な確率を予測するためにトレーニングすることができるが、損失最小化は二階の予測器では機能しないことを示す。

Uncertainty quantification has received increasing attention in machine learning in the recent past. In particular, a distinction between aleatoric and epistemic uncertainty has been found useful in this regard. The latter refers to the learner's (lack of) knowledge and appears to be especially difficult to measure and quantify. In this paper, we analyse a recent proposal based on the idea of a second-order learner, which yields predictions in the form of distributions over probability distributions. While standard (first-order) learners can be trained to predict accurate probabilities, namely by minimising suitable loss functions on sample data, we show that loss minimisation does not work for second-order predictors: The loss functions proposed for inducing such predictors do not incentivise the learner to represent its epistemic uncertainty in a faithful way.
翻訳日:2022-03-14 12:24:36 公開日:2022-03-11
# トイ以上のもの:ランダム行列モデルによる実世界のニューラル表現の一般化予測

More Than a Toy: Random Matrix Models Predict How Real-World Neural Representations Generalize ( http://arxiv.org/abs/2203.06176v1 )

ライセンス: Link先を確認
Alexander Wei and Wei Hu and Jacob Steinhardt(参考訳) 大規模機械学習モデルが非常に過度にパラメータ化されているにもかかわらず、なぜ一般化されるのかの理論について、現実世界の一般化の質的現象を捉えるためには、どのような仮定が必要か? 一方,大規模ニューラルネットワーク(例:resnet-50)と実データ(例:cifar-100)から派生したカーネルに適用した場合,理論解析では,カーネル回帰においてもこれらの定性現象を捕捉できないことが判明した。 一方,古典的GCV推定器 (Craven and Wahba, 1978) は, 過パラメータ設定においても, 正確な一般化リスクを予測する。 この経験的発見を促進するために、GCV推定器が局所確率行列法が成立するたびに一般化リスクに収束することを証明する。 最後に,このランダム行列理論のレンズを用いて,事前学習表現が一般化する理由と,カーネル回帰のスケーリング則を規定する因子を説明する。 本研究は, トイモデルではなく, ランダム行列理論が, 実際には神経表現の性質の理解の中心である可能性が示唆された。

Of theories for why large-scale machine learning models generalize despite being vastly overparameterized, which of their assumptions are needed to capture the qualitative phenomena of generalization in the real world? On one hand, we find that most theoretical analyses fall short of capturing these qualitative phenomena even for kernel regression, when applied to kernels derived from large-scale neural networks (e.g., ResNet-50) and real data (e.g., CIFAR-100). On the other hand, we find that the classical GCV estimator (Craven and Wahba, 1978) accurately predicts generalization risk even in such overparameterized settings. To bolster this empirical finding, we prove that the GCV estimator converges to the generalization risk whenever a local random matrix law holds. Finally, we apply this random matrix theory lens to explain why pretrained representations generalize better as well as what factors govern scaling laws for kernel regression. Our findings suggest that random matrix theory, rather than just being a toy model, may be central to understanding the properties of neural representations in practice.
翻訳日:2022-03-14 12:24:22 公開日:2022-03-11
# FLAG:スパース観測によるフローベース3次元アバター生成

FLAG: Flow-based 3D Avatar Generation from Sparse Observations ( http://arxiv.org/abs/2203.05789v1 )

ライセンス: Link先を確認
Sadegh Aliakbarian, Pashmina Cameron, Federica Bogo, Andrew Fitzgibbon, Thomas J. Cashman(参考訳) コラボレーションとコミュニケーションのための複合現実アプリケーションで人々を表現するためには、現実的で忠実なアバターのポーズを生成する必要があります。 しかし、ヘッドマウントデバイス(hmds)からこのタスクに応用できる信号ストリームは、通常は頭部のポーズと手のポーズの見積もりに限定される。 これらの信号は貴重なものであるが、人体の完全な表現であり、忠実な全身アバターの生成を困難にしている。 本研究では, 3次元人間の姿勢の条件分布だけでなく, 観測から潜在空間への確率的マッピングを学習し, 関節に対する不確実性推定とともに, 妥当なポーズを生成することが可能な3次元人体のフローベース生成モデルを開発することで, この課題に対処した。 我々のアプローチは強力な予測モデルであるだけでなく、優れた初期潜在コードが重要な役割を果たす最適化設定の前の効率的なポーズとしても機能することを示す。

To represent people in mixed reality applications for collaboration and communication, we need to generate realistic and faithful avatar poses. However, the signal streams that can be applied for this task from head-mounted devices (HMDs) are typically limited to head pose and hand pose estimates. While these signals are valuable, they are an incomplete representation of the human body, making it challenging to generate a faithful full-body avatar. We address this challenge by developing a flow-based generative model of the 3D human body from sparse observations, wherein we learn not only a conditional distribution of 3D human pose, but also a probabilistic mapping from observations to the latent space from which we can generate a plausible pose along with uncertainty estimates for the joints. We show that our approach is not only a strong predictive model, but can also act as an efficient pose prior in different optimization settings where a good initial latent code plays a major role.
翻訳日:2022-03-14 12:23:25 公開日:2022-03-11
# マルチビュー3次元再構成のためのマルチセンサ大規模データセット

Multi-sensor large-scale dataset for multi-view 3D reconstruction ( http://arxiv.org/abs/2203.06111v1 )

ライセンス: Link先を確認
Oleg Voynov, Gleb Bobrovskikh, Pavel Karpyshev, Andrei-Timotei Ardelean, Arseniy Bozhenko, Saveliy Galochkin, Ekaterina Karmanova, Pavel Kopanev, Yaroslav Labutin-Rymsho, Ruslan Rakhimov, Aleksandr Safin, Valerii Serpiva, Alexey Artemov, Evgeny Burnaev, Dzmitry Tsetserukou, Denis Zorin(参考訳) 我々は3次元表面再構成のための新しいマルチセンサデータセットを提案する。 そこには、スマートフォン、intel realsense、microsoft kinect、産業用カメラ、構造化光スキャナーなど、さまざまな解像度とモードのセンサーからの登録されたrgbと深度データが含まれている。 各シーンのデータは、多くの照明条件の下で取得され、シーンは、既存のアルゴリズムに挑戦する多様な素材特性を強調するために選択される。 取得プロセスでは,課題に対して高解像度の深度データ品質を最大化し,学習アルゴリズムに信頼性の高い基礎的真理を提供する。 概して、100方向から14の照明条件で取得した110の異なるシーンの140万以上の画像を提供する。 我々のデータセットは、異なるタイプの3次元再構成アルゴリズムの評価と訓練、および他の関連するタスクに役立ちます。 私たちのデータセットと付随するソフトウェアはオンラインで利用できます。

We present a new multi-sensor dataset for 3D surface reconstruction. It includes registered RGB and depth data from sensors of different resolutions and modalities: smartphones, Intel RealSense, Microsoft Kinect, industrial cameras, and structured-light scanner. The data for each scene is obtained under a large number of lighting conditions, and the scenes are selected to emphasize a diverse set of material properties challenging for existing algorithms. In the acquisition process, we aimed to maximize high-resolution depth data quality for challenging cases, to provide reliable ground truth for learning algorithms. Overall, we provide over 1.4 million images of 110 different scenes acquired at 14 lighting conditions from 100 viewing directions. We expect our dataset will be useful for evaluation and training of 3D reconstruction algorithms of different types and for other related tasks. Our dataset and accompanying software will be available online.
翻訳日:2022-03-14 12:21:28 公開日:2022-03-11
# コーヌスCTと口腔内スキャンを併用した3次元骨再建術のAI応用と臨床応用

AI-enabled Automatic Multimodal Fusion of Cone-Beam CT and Intraoral Scans for Intelligent 3D Tooth-Bone Reconstruction and Clinical Applications ( http://arxiv.org/abs/2203.05784v1 )

ライセンス: Link先を確認
Jin Hao, Jiaxiang Liu, Jin Li, Wei Pan, Ruizhe Chen, Huimin Xiong, Kaiwei Sun, Hangzheng Lin, Wanlu Liu, Wanghui Ding, Jianfei Yang, Haoji Hu, Yueling Zhang, Yang Feng, Zeyu Zhao, Huikai Wu, Youyi Zheng, Bing Fang, Zuozhu Liu, Zhihe Zhao(参考訳) 仮想歯科治療計画における重要なステップは、CBCTから全ての歯骨構造を高い忠実度と正確な解剖学的情報で正確に切り離すことである。 従来の研究では、深層学習を用いたCBCTセグメンテーションのいくつかの方法が確立されている。 しかし,CBCTの分解能の相違と咬合・歯列情報の喪失は臨床応用性に大きく制限された。 本稿では, cbctセグメンテーションモデル, 口腔内スキャン (ios) セグメンテーションモデル (最も正確なデジタル歯科モデル) および融合モデルを用いて, 高い忠実度と正確な咬合・歯列情報を有する3次元融合クラウン・ルート骨構造を生成する, 深部歯科用マルチモーダル分析 (ddma) フレームワークを提案する。 私たちのモデルは503のcbctと28,559のiosメッシュを備えた大規模データセットでトレーニングされました。 CBCTセグメンテーションでは,50 CBCTの5倍のクロスバリデーションテストを用い,平均Dice係数とIoUは93.99%,IoUは88.68%であり,ベースラインを著しく上回っている。 iosのセグメンテーションでは、このモデルは、最新の方法よりも1.77%と3.52%高い200のiosメッシュのテストセットで、上顎と下顎で93.07%と95.70%のmiouを達成している。 我々のDDMAフレームワークは、連続処理順序に従って融合した3Dメッシュモデルを生成するのに約20~25分かかります。 特に、我々のフレームワークは、明確な整列器メーカーによってソフトウェアに組み込まれており、実際の臨床ケースでは、矯正治療全体を通してクラウン・ルート骨構造を可視化でき、脱ヒスメントやフェントレーションなどのリスクを予測することができる。 これらの知見は, デジタル歯科模型の品質向上と歯科医のより良い臨床判断を支援するマルチモーダル深層学習の可能性を示している。

A critical step in virtual dental treatment planning is to accurately delineate all tooth-bone structures from CBCT with high fidelity and accurate anatomical information. Previous studies have established several methods for CBCT segmentation using deep learning. However, the inherent resolution discrepancy of CBCT and the loss of occlusal and dentition information largely limited its clinical applicability. Here, we present a Deep Dental Multimodal Analysis (DDMA) framework consisting of a CBCT segmentation model, an intraoral scan (IOS) segmentation model (the most accurate digital dental model), and a fusion model to generate 3D fused crown-root-bone structures with high fidelity and accurate occlusal and dentition information. Our model was trained with a large-scale dataset with 503 CBCT and 28,559 IOS meshes manually annotated by experienced human experts. For CBCT segmentation, we use a five-fold cross validation test, each with 50 CBCT, and our model achieves an average Dice coefficient and IoU of 93.99% and 88.68%, respectively, significantly outperforming the baselines. For IOS segmentations, our model achieves an mIoU of 93.07% and 95.70% on the maxillary and mandible on a test set of 200 IOS meshes, which are 1.77% and 3.52% higher than the state-of-art method. Our DDMA framework takes about 20 to 25 minutes to generate the fused 3D mesh model following the sequential processing order, compared to over 5 hours by human experts. Notably, our framework has been incorporated into a software by a clear aligner manufacturer, and real-world clinical cases demonstrate that our model can visualize crown-root-bone structures during the entire orthodontic treatment and can predict risks like dehiscence and fenestration. These findings demonstrate the potential of multi-modal deep learning to improve the quality of digital dental models and help dentists make better clinical decisions.
翻訳日:2022-03-14 12:20:32 公開日:2022-03-11
# 腎疾患における糸球体病変の自動認識

Automatic Fine-grained Glomerular Lesion Recognition in Kidney Pathology ( http://arxiv.org/abs/2203.05847v1 )

ライセンス: Link先を確認
Yang Nan, Fengyi Li, Peng Tang, Guyue Zhang, Caihong Zeng, Guotong Xie, Zhihong Liu, Guang Yang(参考訳) 腎病理における糸球体病変の認識は診断と治療計画の鍵となるが,メサンギウム領域などの既存の糸球体構造は,この課題の難しさを悪化させる。 本稿では,スライド画像全体から細粒度糸球体病変を認識する手法を提案する。 まず、全ての種類の糸球体を正確に同定するために、焦点インスタンス構造類似性損失が提案されている。 そして、境界ボックスアノテーションを使わずに細粒度の視覚分類を行うように不確実性支援アプロテーションネットワークを設計する。 この二重分岐型構造は、親クラスから子クラスの共通特徴を抽出し、トレーニングデータセットを再構成するための不確実性因子を生成する。 その結果, 平均精度が8~22%向上し, 検出精度が8~22%向上した。 その結果,提案手法の有効性が明らかとなった。

Recognition of glomeruli lesions is the key for diagnosis and treatment planning in kidney pathology; however, the coexisting glomerular structures such as mesangial regions exacerbate the difficulties of this task. In this paper, we introduce a scheme to recognize fine-grained glomeruli lesions from whole slide images. First, a focal instance structural similarity loss is proposed to drive the model to locate all types of glomeruli precisely. Then an Uncertainty Aided Apportionment Network is designed to carry out the fine-grained visual classification without bounding-box annotations. This double branch-shaped structure extracts common features of the child class from the parent class and produces the uncertainty factor for reconstituting the training dataset. Results of slide-wise evaluation illustrate the effectiveness of the entire scheme, with an 8-22% improvement of the mean Average Precision compared with remarkable detection methods. The comprehensive results clearly demonstrate the effectiveness of the proposed method.
翻訳日:2022-03-14 12:19:52 公開日:2022-03-11
# 機械学習を用いたマルチモーダル・ニューロイメージング・ゲノミクス認知症スコアによるアルツハイマー病の予後予測

Machine Learning Based Multimodal Neuroimaging Genomics Dementia Score for Predicting Future Conversion to Alzheimer's Disease ( http://arxiv.org/abs/2203.05707v1 )

ライセンス: Link先を確認
Ghazal Mirabnahrazam, Da Ma, Sieun Lee, Karteek Popuri, Hyunwoo Lee, Jiguo Cao, Lei Wang, James E Galvin, Mirza Faisal Beg, and the Alzheimer's Disease Neuroimaging Initiative(参考訳) 背景:MRI(MRI)と遺伝データの両方を含むデータベースの利用が増加し、研究者はマルチモーダルデータを利用してアルツハイマー型認知症の特徴をよりよく理解できるようになった。 目的: 本研究の目的は, DATの発達と進展を予測できる新しいバイオマーカーを開発し, 解析することであった。 方法: 特徴選択とアンサンブル学習分類器を用いて, 将来DATを発達させる可能性を示す画像/遺伝子型DATスコアを開発した。 MRIのみ,遺伝子のみ,複合マルチモーダルデータという3つの特徴型が用いられた。 DATの異なる段階をよりよく表現するために,新しいデータ階層化手法を用いた。 DATスコアの0.5しきい値を用いて,将来,被験者がDATを開発するか否かを予測した。 結果】アルツハイマー病の神経画像化イニシアチブ(adni)データベースでは、遺伝子データを用いた認知症スコアは、現在正常なコントロール対象(精度=0.857)に対して、mri(精度=0.143)と比較して、将来のdaf進行を予測できるが、mriでは、安定な軽度認知障害(精度=0.614)を持つ被験者を遺伝子(精度=0.356)と比較して、より優れた特徴付けが可能であることが示された。 MRIと遺伝子データを併用すると,残りの層状群では分類性能が向上した。 結論:MRIと遺伝データは、異なる方法でDAT予測に寄与することができる。 MRIデータは脳の解剖学的変化を反映し、遺伝データは症状発生前のDAT進行のリスクを検出する。 マルチモーダルデータからの情報を正しく組み合わせれば、予測性能が向上する。

Background: The increasing availability of databases containing both magnetic resonance imaging (MRI) and genetic data allows researchers to utilize multimodal data to better understand the characteristics of dementia of Alzheimer's type (DAT). Objective: The goal of this study was to develop and analyze novel biomarkers that can help predict the development and progression of DAT. Methods: We used feature selection and ensemble learning classifier to develop an image/genotype-based DAT score that represents a subject's likelihood of developing DAT in the future. Three feature types were used: MRI only, genetic only, and combined multimodal data. We used a novel data stratification method to better represent different stages of DAT. Using a pre-defined 0.5 threshold on DAT scores, we predicted whether or not a subject would develop DAT in the future. Results: Our results on Alzheimer's Disease Neuroimaging Initiative (ADNI) database showed that dementia scores using genetic data could better predict future DAT progression for currently normal control subjects (Accuracy=0.857) compared to MRI (Accuracy=0.143), while MRI can better characterize subjects with stable mild cognitive impairment (Accuracy=0.614) compared to genetics (Accuracy=0.356). Combining MRI and genetic data showed improved classification performance in the remaining stratified groups. Conclusion: MRI and genetic data can contribute to DAT prediction in different ways. MRI data reflects anatomical changes in the brain, while genetic data can detect the risk of DAT progression prior to the symptomatic onset. Combining information from multimodal data in the right way can improve prediction performance.
翻訳日:2022-03-14 12:19:12 公開日:2022-03-11
# 太陽黒点数予測のための非深層学習、深層学習、アンサンブル学習法の比較研究

A comparative study of non-deep learning, deep learning, and ensemble learning methods for sunspot number prediction ( http://arxiv.org/abs/2203.05757v1 )

ライセンス: Link先を確認
Yuchen Dang, Ziqi Chen, Heng Li, Hai Shu(参考訳) 太陽活動は人間の活動と健康に大きな影響を及ぼす。 太陽活動の最もよく使われる尺度は、太陽黒点数である。 本稿では,3つの重要な非深層学習モデル,4つの人気のある深層学習モデル,および5つのアンサンブルモデルを比較した。 提案するアンサンブルモデルXGBoost-DLは,XGBoostを2レベル非線形アンサンブル法として,ディープラーニングモデルを組み合わせることで,検討対象モデルとNASAの予測で最高の予測性能を実現する。 我々のXGBoost-DLは、2025年5月に太陽周期25で133.47、2035年11月にソーラーサイクル26で164.62、2024年10月に137.7、2034年12月に161.2と予測している。

Solar activity has significant impacts on human activities and health. One most commonly used measure of solar activity is the sunspot number. This paper compares three important non-deep learning models, four popular deep learning models, and their five ensemble models in forecasting sunspot numbers. Our proposed ensemble model XGBoost-DL, which uses XGBoost as a two-level nonlinear ensemble method to combine the deep learning models, achieves the best forecasting performance among all considered models and the NASA's forecast. Our XGBoost-DL forecasts a peak sunspot number of 133.47 in May 2025 for Solar Cycle 25 and 164.62 in November 2035 for Solar Cycle 26, similar to but later than the NASA's at 137.7 in October 2024 and 161.2 in December 2034.
翻訳日:2022-03-14 12:18:40 公開日:2022-03-11
# (参考訳) WLASL-LEX:アメリカの手話における音韻特性を認識するデータセット

WLASL-LEX: a Dataset for Recognising Phonological Properties in American Sign Language ( http://arxiv.org/abs/2203.06096v1 )

ライセンス: CC BY 4.0
Federico Tavella and Viktor Schlegel and Marta Romeo and Aphrodite Galata and Angelo Cangelosi(参考訳) 署名言語処理(SLP)は、聴覚障害者と聴覚障害者のコミュニケーション手段である署名言語の自動処理に関するものである。 SLPは、手話の認識から翻訳、生成まで、様々なタスクを特徴としているが、これまでNLPコミュニティでは見過ごされてきた。 本稿では,手話の音韻学をモデル化するタスクに注目する。 我々は既存の資源を活用し、6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築する。 次に、データ駆動のエンドツーエンドと特徴に基づくアプローチが、これらの特性を自動認識するために最適化できるかどうかを、広範な実証的研究を行う。 タスクの固有の課題にもかかわらず、生の動画から抽出されたスケルトン機能で操作するグラフベースのニューラルネットワークは、タスクである程度の成功を収めることができます。 最も重要なのは、このパフォーマンスがトレーニング中に観察できないサインにも関係していることを示しています。

Signed Language Processing (SLP) concerns the automated processing of signed languages, the main means of communication of Deaf and hearing impaired individuals. SLP features many different tasks, ranging from sign recognition to translation and production of signed speech, but has been overlooked by the NLP community thus far. In this paper, we bring to attention the task of modelling the phonology of sign languages. We leverage existing resources to construct a large-scale dataset of American Sign Language signs annotated with six different phonological properties. We then conduct an extensive empirical study to investigate whether data-driven end-to-end and feature-based approaches can be optimised to automatically recognise these properties. We find that, despite the inherent challenges of the task, graph-based neural networks that operate over skeleton features extracted from raw videos are able to succeed at the task to a varying degree. Most importantly, we show that this performance pertains even on signs unobserved during training.
翻訳日:2022-03-14 12:17:31 公開日:2022-03-11
# 楕円型観測のための低ランクアンサンブルカルマンフィルタ

A low-rank ensemble Kalman filter for elliptic observations ( http://arxiv.org/abs/2203.05120v2 )

ライセンス: Link先を確認
Mathieu Le Provost, Ricardo Baptista, Youssef Marzouk and Jeff D. Eldredge(参考訳) 楕円型観測演算子を用いたアンサンブルカルマンフィルタ(EnKF)の正規化法を提案する。 一般的に用いられるenkf正則化法は長距離の状態相関を抑制する。 非圧縮性流体中の圧力ポアソン方程式(英語版)(ppe)のような楕円偏微分方程式によって記述された観測では、散発的な長距離相関から物理的相互作用を緩やかに崩壊させることが出来ないため、距離の定位は適用できない。 これは、遠方渦要素が非線形に結合して圧力を誘導するPPEに特に当てはまる。 その代わり、これらの逆問題には低い有効次元があり、観測の低次元射影は状態空間の低次元部分空間を強く知らせる。 我々は観測作用素のヤコビアンスペクトルに基づいてカルマンゲインの低ランク分解を導出した。 同定された固有ベクトルは、問題の基本空間分布とは独立に、多極展開のソースモードとターゲットモードを一般化する。 急速なスペクトル減衰が与えられると、推論は優性固有ベクトルにまたがる低次元部分空間において行うことができる。 この低ランク EnKF はポアソン観測演算子を用いた力学系で評価され、ポテンシャルや圧力観測から時間とともに点特異点の位置と強度を推定する。 また、フィルタリングの文脈外の楕円逆問題に対するこのアプローチの適用性についてもコメントする。

We propose a regularization method for ensemble Kalman filtering (EnKF) with elliptic observation operators. Commonly used EnKF regularization methods suppress state correlations at long distances. For observations described by elliptic partial differential equations, such as the pressure Poisson equation (PPE) in incompressible fluid flows, distance localization cannot be applied, as we cannot disentangle slowly decaying physical interactions from spurious long-range correlations. This is particularly true for the PPE, in which distant vortex elements couple nonlinearly to induce pressure. Instead, these inverse problems have a low effective dimension: low-dimensional projections of the observations strongly inform a low-dimensional subspace of the state space. We derive a low-rank factorization of the Kalman gain based on the spectrum of the Jacobian of the observation operator. The identified eigenvectors generalize the source and target modes of the multipole expansion, independently of the underlying spatial distribution of the problem. Given rapid spectral decay, inference can be performed in the low-dimensional subspace spanned by the dominant eigenvectors. This low-rank EnKF is assessed on dynamical systems with Poisson observation operators, where we seek to estimate the positions and strengths of point singularities over time from potential or pressure observations. We also comment on the broader applicability of this approach to elliptic inverse problems outside the context of filtering.
翻訳日:2022-03-14 11:59:23 公開日:2022-03-11
# ODEとIndex-1 DAEの初期値問題に対するParsimonious Physics-Informed Random Projection Neural Networks

Parsimonious Physics-Informed Random Projection Neural Networks for Initial-Value Problems of ODEs and index-1 DAEs ( http://arxiv.org/abs/2203.05337v2 )

ライセンス: Link先を確認
Gianluca Fabiani, Evangelos Galaris, Lucia Russo, Constantinos Siettos(参考訳) PDEの空間的離散化から生じるかもしれない非線形ODEのIDPの数値解とインデックス-1DAEの数値解に対するランダムなプロジェクションの概念に基づく物理インフォームニューラルネットワークに対処する。 このスキームは、適切にランダムにパラメータ化されたガウス核と線形出力層を持つ単一の隠れ層を持ち、内部重みは1つに固定される。 隠蔽層と出力層の間の未知の重みはニュートンの反復によって計算され、ムーア-ペンローズ擬似逆数(英語版)を中規模から大規模に正規化したスパースQR分解を用いて計算される。 剛性および鋭い勾配に対処するために,積分間隔を調整する可変ステップサイズスキームを提案し,ニュートン反復に対するよい初期推定を提供する継続法に対処する。 従来のランダムなプロジェクションに関する研究に基づいて、正準形式におけるODEのスキームと半明示形式におけるインデックス-1DAEの近似能力を証明した。 均一分布の最適境界はバイアス分散トレードオフに基づいて同義に選択される。 4つのインデックス-1 DAE、ロバートソンモデル、ビーズの動作を記述する5つのDAEのモデル、放電制御問題を記述する6つのDAEのモデル、化学アクゾノーベル問題と3つの固い問題、ベルーソフ・ザボチンスキー、アレン・カーン PDE、そして倉本・シヴァシンスキー PDEである。 この方式の効率は、MATLAB ODE スイートの3つの解法 ode23t, ode23s, ode15s と比較される。 提案手法は,特に数値精度の面で高い剛性や鋭い勾配が生じ,計算コストは実用上同等である場合において,いくつかの場合において剛性解法よりも優れることを示す。

We address a physics-informed neural network based on the concept of random projections for the numerical solution of IVPs of nonlinear ODEs in linear-implicit form and index-1 DAEs, which may also arise from the spatial discretization of PDEs. The scheme has a single hidden layer with appropriately randomly parametrized Gaussian kernels and a linear output layer, while the internal weights are fixed to ones. The unknown weights between the hidden and output layer are computed by Newton's iterations, using the Moore-Penrose pseudoinverse for low to medium, and sparse QR decomposition with regularization for medium to large scale systems. To deal with stiffness and sharp gradients, we propose a variable step size scheme for adjusting the interval of integration and address a continuation method for providing good initial guesses for the Newton iterations. Based on previous works on random projections, we prove the approximation capability of the scheme for ODEs in the canonical form and index-1 DAEs in the semiexplicit form. The optimal bounds of the uniform distribution are parsimoniously chosen based on the bias-variance trade-off. The performance of the scheme is assessed through seven benchmark problems: four index-1 DAEs, the Robertson model, a model of five DAEs describing the motion of a bead, a model of six DAEs describing a power discharge control problem, the chemical Akzo Nobel problem and three stiff problems, the Belousov-Zhabotinsky, the Allen-Cahn PDE and the Kuramoto-Sivashinsky PDE. The efficiency of the scheme is compared with three solvers ode23t, ode23s, ode15s of the MATLAB ODE suite. Our results show that the proposed scheme outperforms the stiff solvers in several cases, especially in regimes where high stiffness or sharp gradients arise in terms of numerical accuracy, while the computational costs are for any practical purposes comparable.
翻訳日:2022-03-14 11:59:02 公開日:2022-03-11
# fr\'echet開始距離におけるimagenetクラスの役割

The Role of ImageNet Classes in Fr\'echet Inception Distance ( http://arxiv.org/abs/2203.06026v1 )

ライセンス: Link先を確認
Tuomas Kynk\"a\"anniemi, Tero Karras, Miika Aittala, Timo Aila, Jaakko Lehtinen(参考訳) fr\'echet inception distance (fid) は画像の2つの分布間の距離を定量化する指標である。 データ駆動生成モデリング研究におけるモデルランキングの標準的ヤードスティックとしての地位を考えると、距離は一般に「ビジョン関連」な特徴から計算されることが重要である。 しかし、それは? FIDは基本的に、ImageNetクラス確率の集合間の距離である。 Inception-V3分類器ネットワークの最小の"pre-logit"層である標準機能空間が、ロジットから1つのアフィン変換(つまりImageNetクラス)のみであるという事実から、その特徴は必ずしもそれらに高度に特化している。 これはメトリックの感度に直観的な結果をもたらす。 例えば、人間の顔のモデルを評価する場合、平均すると、fidは顔領域に非常に敏感であり、「ボウ・タイ」や「シート・ベルト」のようなクラスの確率がはるかに大きいことが観察される。 さらに、FIDは結果の質を実際に改善することなく、まず少し大きな候補を発生させ、次に、実際のデータにおけるそのような「フリンジ特徴」のヒストグラムにマッチするサブセットを選択することで、大幅に削減できることを示す。 そして、この観察は、観測されたFID改善の一部が現実的でないと判明した、画像ネットによるGANの事前学習における実践的関連性を示す。 以上の結果から, FID改善の過度な解釈に留意し, より知覚的に均一な分布指標の必要性を浮き彫りにした。

Fr\'echet Inception Distance (FID) is a metric for quantifying the distance between two distributions of images. Given its status as a standard yardstick for ranking models in data-driven generative modeling research, it seems important that the distance is computed from general, "vision-related" features. But is it? We observe that FID is essentially a distance between sets of ImageNet class probabilities. We trace the reason to the fact that the standard feature space, the penultimate "pre-logit" layer of a particular Inception-V3 classifier network, is only one affine transform away from the logits, i.e., ImageNet classes, and thus, the features are necessarily highly specialized to them. This has unintuitive consequences for the metric's sensitivity. For example, when evaluating a model for human faces, we observe that, on average, FID is actually very insensitive to the facial region, and that the probabilities of classes like "bow tie" or "seat belt" play a much larger role. Further, we show that FID can be significantly reduced -- without actually improving the quality of results -- by an attack that first generates a slightly larger set of candidates, and then chooses a subset that happens to match the histogram of such "fringe features" in the real data. We then demonstrate that this observation has practical relevance in case of ImageNet pre-training of GANs, where a part of the observed FID improvement turns out not to be real. Our results suggest caution against over-interpreting FID improvements, and underline the need for distribution metrics that are more perceptually uniform.
翻訳日:2022-03-14 11:58:24 公開日:2022-03-11
# 能動的評価:少ない対比較による効率的なnlg評価

Active Evaluation: Efficient NLG Evaluation with Few Pairwise Comparisons ( http://arxiv.org/abs/2203.06063v1 )

ライセンス: Link先を確認
Akash Kumar Mohankumar, Mitesh M. Khapra(参考訳) 近年の研究では、直接評価ではなく対比較を用いてnlgシステムを評価する利点が示されている。 k$ が与えられると、トップランクのシステムを特定するためのナイーブなアプローチは、すべての ${k \choose 2}$ 対のシステムから一様比較を得ることである。 しかし、必要となる人間のアノテーションの数は2倍の$k$で成長するので、これは非常に高価である。 そこで本研究では,デュエルバンドアルゴリズムを用いて,システムペアを積極的に選択することで,上位システムの効率よく識別するフレームワークであるActive Evaluationを紹介する。 5つのタスクにまたがる13のnlg評価データセット上で13のデュエルバンディットアルゴリズムを用いて広範な実験を行い、人間のアノテーションの数を80%削減できることを示した。 さらに人的アノテーションの数を減らすために,自動評価指標と人的評価値を組み合わせたモデルベースデュエルバンディットアルゴリズムを提案する。 具体的には,人間のアノテーションプロセス以前にも準最適システムを排除し,自動計量が極めて不確実な試験例に対してのみ人間による評価を行う。 これにより、人間アノテーションの数がさらに89%削減される。 その結果、上位のシステムを特定するには数百の人的アノテーションが必要であり、これは$k$で線形に成長することを示している。 最後に、最上位のシステムを効率的に識別するための実践的なレコメンデーションとベストプラクティスを提供する。 私たちのコードはhttps://github.com/akashkm99/duelnlgで公開されています。

Recent studies have shown the advantages of evaluating NLG systems using pairwise comparisons as opposed to direct assessment. Given $k$ systems, a naive approach for identifying the top-ranked system would be to uniformly obtain pairwise comparisons from all ${k \choose 2}$ pairs of systems. However, this can be very expensive as the number of human annotations required would grow quadratically with $k$. In this work, we introduce Active Evaluation, a framework to efficiently identify the top-ranked system by actively choosing system pairs for comparison using dueling bandit algorithms. We perform extensive experiments with 13 dueling bandits algorithms on 13 NLG evaluation datasets spanning 5 tasks and show that the number of human annotations can be reduced by 80%. To further reduce the number of human annotations, we propose model-based dueling bandit algorithms which combine automatic evaluation metrics with human evaluations. Specifically, we eliminate sub-optimal systems even before the human annotation process and perform human evaluations only on test examples where the automatic metric is highly uncertain. This reduces the number of human annotations required further by 89%. In effect, we show that identifying the top-ranked system requires only a few hundred human annotations, which grow linearly with $k$. Lastly, we provide practical recommendations and best practices to identify the top-ranked system efficiently. Our code has been made publicly available at https://github.com/akashkm99/duelnlg
翻訳日:2022-03-14 11:57:55 公開日:2022-03-11
# LaPraDoR:ゼロショットテキスト検索のための教師なし事前学習

LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval ( http://arxiv.org/abs/2203.06169v1 )

ライセンス: Link先を確認
Canwen Xu and Daya Guo and Nan Duan and Julian McAuley(参考訳) 本稿では,トレーニングに教師付きデータを必要としない,事前訓練されたデュアルタワー高密度レトリバーであるlapradorを提案する。 具体的には、最初にICoL(Iterative Contrastive Learning)を提示し、キャッシュ機構でクエリとドキュメントエンコーダを反復的にトレーニングする。 ICoLは、負のインスタンス数を拡大するだけでなく、キャッシュされた例の表現を同じ隠れ空間に保持する。 そこで本研究では,辞書マッチングを用いた高密度検索の簡易かつ効果的な方法として,辞書エンハンスド・デンハンスド・サーチ(ledr)を提案する。 我々は、最近提案されたBEIRベンチマークで、9つのゼロショットテキスト検索タスクの18のデータセットを含むLaPraDoRを評価する。 実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能を達成し,さらなる解析によりトレーニング戦略と目的の有効性が明らかとなった。 再ランクと比較すると,1ミリ秒 (22.5倍高速) で, 高い性能を達成できる。

In this paper, we propose LaPraDoR, a pretrained dual-tower dense retriever that does not require any supervised data for training. Specifically, we first present Iterative Contrastive Learning (ICoL) that iteratively trains the query and document encoders with a cache mechanism. ICoL not only enlarges the number of negative instances but also keeps representations of cached examples in the same hidden space. We then propose Lexicon-Enhanced Dense Retrieval (LEDR) as a simple yet effective way to enhance dense retrieval with lexical matching. We evaluate LaPraDoR on the recently proposed BEIR benchmark, including 18 datasets of 9 zero-shot text retrieval tasks. Experimental results show that LaPraDoR achieves state-of-the-art performance compared with supervised dense retrieval models, and further analysis reveals the effectiveness of our training strategy and objectives. Compared to re-ranking, our lexicon-enhanced approach can be run in milliseconds (22.5x faster) while achieving superior performance.
翻訳日:2022-03-14 11:57:31 公開日:2022-03-11
# 線形表現を用いた準最適オフライン強化学習:ペシミズムを用いた可変情報の活用

Near-optimal Offline Reinforcement Learning with Linear Representation: Leveraging Variance Information with Pessimism ( http://arxiv.org/abs/2203.05804v1 )

ライセンス: Link先を確認
Ming Yin, Yaqi Duan, Mengdi Wang, Yu-Xiang Wang(参考訳) 近年,オフライン/歴史的データを用いて意思決定戦略を最適化するオフライン強化学習が盛んに行われている。 適切な関数近似器が現代の強化学習問題におけるサンプル複雑性の軽減に役立つという利点があるため、既存の取り組みは通常、最適なポリシーを学ぶために強力な関数表現モデル(ニューラルネットワークなど)を強制する。 しかし、関数表現による統計的極限の正確な理解は、そのような表現が線型である場合でも、解明される。 この目的に向けて,線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。 そこで我々は,時間不均一なエピソドックス線形マルコフ決定過程(mdps)における値関数の条件付き分散情報を取り入れた分散認識型悲観値反復(vapvi)を設計した。 vapviは、最小二乗悲観的価値反復におけるベルマン残差の重み付けに値関数の推定分散を活用し、最もよく知られた結果(ベルマン残差は設計によって等しく重み付けされる)に対してオフライン学習境界の改善を提供する。 さらに重要なことは、我々の学習境界はシステム量で表され、前回の結果が不足しているような自然なインスタンス依存の特性を提供する。 線形表現が提供されるとき、オフライン学習がどのようなものになるか、より明確な図が得られればと思っています。

Offline reinforcement learning, which seeks to utilize offline/historical data to optimize sequential decision-making strategies, has gained surging prominence in recent studies. Due to the advantage that appropriate function approximators can help mitigate the sample complexity burden in modern reinforcement learning problems, existing endeavors usually enforce powerful function representation models (e.g. neural networks) to learn the optimal policies. However, a precise understanding of the statistical limits with function representations, remains elusive, even when such a representation is linear. Towards this goal, we study the statistical limits of offline reinforcement learning with linear model representations. To derive the tight offline learning bound, we design the variance-aware pessimistic value iteration (VAPVI), which adopts the conditional variance information of the value function for time-inhomogeneous episodic linear Markov decision processes (MDPs). VAPVI leverages estimated variances of the value functions to reweight the Bellman residuals in the least-square pessimistic value iteration and provides improved offline learning bounds over the best-known existing results (whereas the Bellman residuals are equally weighted by design). More importantly, our learning bounds are expressed in terms of system quantities, which provide natural instance-dependent characterizations that previous results are short of. We hope our results draw a clearer picture of what offline learning should look like when linear representations are provided.
翻訳日:2022-03-14 11:57:16 公開日:2022-03-11
# 概念発見のためのスパース部分空間クラスタリング(ssccd)

Sparse Subspace Clustering for Concept Discovery (SSCCD) ( http://arxiv.org/abs/2203.06043v1 )

ライセンス: Link先を確認
Johanna Vielhaben, Stefan Bl\"ucher, and Nils Strodthoff(参考訳) 概念は高いレベルの人間の理解の鍵となる構成要素である。 説明可能なAI(XAI)手法は近年著しく進歩しているが、局所帰属法ではサンプル間のコヒーレントなモデルの振る舞いを識別できないため、この必須成分を見逃すことができる。 本研究では,概念に基づく説明を研究し,隠れた特徴層の低次元部分空間として概念の新たな定義を行う。 スパース部分空間クラスタリングを用いてこれらの概念のサブスペースを発見する。 先進的には、局所的な入力(概念)マップの観点から概念部分空間から洞察を導き、概念の関連性を定量化する方法を示し、最後に、概念間の類似性と伝達可能性を評価する。 本研究では,様々な画像分類タスクに対して,SSCCD法(Sparse Subspace Clustering for Concept Discovery)の音質を実証的に示す。 このアプローチは、従来の入力レベルのヒートマップから隠されたままの実際のモデル動作に関する深い洞察を可能にする。

Concepts are key building blocks of higher level human understanding. Explainable AI (XAI) methods have shown tremendous progress in recent years, however, local attribution methods do not allow to identify coherent model behavior across samples and therefore miss this essential component. In this work, we study concept-based explanations and put forward a new definition of concepts as low-dimensional subspaces of hidden feature layers. We novelly apply sparse subspace clustering to discover these concept subspaces. Moving forward, we derive insights from concept subspaces in terms of localized input (concept) maps, show how to quantify concept relevances and lastly, evaluate similarities and transferability between concepts. We empirically demonstrate the soundness of the proposed Sparse Subspace Clustering for Concept Discovery (SSCCD) method for a variety of different image classification tasks. This approach allows for deeper insights into the actual model behavior that would remain hidden from conventional input-level heatmaps.
翻訳日:2022-03-14 11:56:50 公開日:2022-03-11
# 学習に基づくロバストLiDAR位置推定

Learning-based Localizability Estimation for Robust LiDAR Localization ( http://arxiv.org/abs/2203.05698v1 )

ライセンス: Link先を確認
Julian Nubert, Etienne Walther, Shehryar Khattak, Marco Hutter(参考訳) lidarベースのローカライズとマッピングは、範囲と幾何を直接統合することで、リアルタイムに高精度な動き推定と高品質マップの生成を可能にするため、多くの現代のロボットシステムのコアコンポーネントの1つである。 しかし、現場に存在する環境制約が不十分なため、この幾何学への依存は、トンネルのような自己対称の環境において、局所化の失敗をもたらす可能性がある。 本研究は,ロボット操作中の(非)局所性検出のためのニューラルネットワークに基づく推定手法を提案することで,この問題を正確に解決する。 多くのLiDARオドメトリー推定パイプラインにおいて重要な要素であるため、スキャン・スキャン登録のローカライズ可能性に特に注意が払われる。 従来の従来の検出手法とは対照的に,提案手法では,生センサのローカライザビリティを基礎登録の最適化を評価することなく推定することにより,故障を早期に検出できる。 さらに、縮退検出しきい値のヒューリスティックチューニングが必要とされるため、従来のアプローチは環境やセンサタイプをまたいで一般化する能力に限られていた。 提案手法は,異なる環境のコーパスから学習することで,ネットワークが様々なシナリオで機能することを可能にする。 さらに、ネットワークはシミュレーションデータのみに基づいてトレーニングされ、困難なデータ収集を避けて、挑戦的で縮退し、しばしばアクセスが難しい環境になる。 提案手法は,難易度の高い環境および2種類のセンサを用いたフィールド実験において,無修正で実験を行った。 観測された検出性能は,環境特異的しきい値調整後の最先端手法と同等である。

LiDAR-based localization and mapping is one of the core components in many modern robotic systems due to the direct integration of range and geometry, allowing for precise motion estimation and generation of high quality maps in real-time. Yet, as a consequence of insufficient environmental constraints present in the scene, this dependence on geometry can result in localization failure, happening in self-symmetric surroundings such as tunnels. This work addresses precisely this issue by proposing a neural network-based estimation approach for detecting (non-)localizability during robot operation. Special attention is given to the localizability of scan-to-scan registration, as it is a crucial component in many LiDAR odometry estimation pipelines. In contrast to previous, mostly traditional detection approaches, the proposed method enables early detection of failure by estimating the localizability on raw sensor measurements without evaluating the underlying registration optimization. Moreover, previous approaches remain limited in their ability to generalize across environments and sensor types, as heuristic-tuning of degeneracy detection thresholds is required. The proposed approach avoids this problem by learning from a corpus of different environments, allowing the network to function over various scenarios. Furthermore, the network is trained exclusively on simulated data, avoiding arduous data collection in challenging and degenerate, often hard-to-access, environments. The presented method is tested during field experiments conducted across challenging environments and on two different sensor types without any modifications. The observed detection performance is on par with state-of-the-art methods after environment-specific threshold tuning.
翻訳日:2022-03-14 11:55:36 公開日:2022-03-11
# qBOLD MRIにおけるフレキシブル・アモータイズド変量推論

Flexible Amortized Variational Inference in qBOLD MRI ( http://arxiv.org/abs/2203.05845v1 )

ライセンス: Link先を確認
Ivor J.A. Simpson, Ashley McManamon, Alan J. Stone, Nicholas P. Blockley, Alessandro Colasanti, Mara Cercignani(参考訳) ストリーミングされたqBOLDは、脳の酸素代謝を実験的に容易に観察することができる。 R_2^\prime$マップは容易に推測できるが、酸素抽出率(OEF)と脱酸素血液量(DBV)はデータからより明確に決定される。 このように、既存の推論手法は、dbvを過大評価しながら、非常に騒がしく、過小評価されたoefマップを生成する傾向がある。 本研究は, OEFとDBVの可算分布を推定できる確率論的機械学習手法について述べる。 まず,合成学習データに基づいて,情報的なvoxelwise事前分布を生成するモデルを構築した。 従来の研究とは対照的に,我々はスケールした多変量ロジット-ノルマル分布を用いて,OEFとDBVの連成分布をモデル化した。 先行分布モデルを用いて,効率的な変分ベイズ推定モデルを訓練する。 このモデルは,信号方程式をフォワードモデルとして用いて,実際の画像データを予測することにより,OEFとDBVの推測を学習する。 提案手法は,情報的事前分布の指定により適応できる生理学的に妥当な分布を用いて,スムーズなEFマップとDBVマップの推論を可能にすることを実証する。 その他の利点として、(証拠の低い境界による)モデル比較や、画像アーチファクトを特定する不確実性定量化がある。 過換気と休息の被験者を比較した小さな研究で実証された。 提案手法により, OEF と DBV のグレー物質差の測定が可能であり, 過換気時の OEF と $R_2^\prime$ の顕著な増加を観測できる条件のボクセルワイズ比較が可能であることを示す。

Streamlined qBOLD acquisitions enable experimentally straightforward observations of brain oxygen metabolism. $R_2^\prime$ maps are easily inferred; however, the Oxygen extraction fraction (OEF) and deoxygenated blood volume (DBV) are more ambiguously determined from the data. As such, existing inference methods tend to yield very noisy and underestimated OEF maps, while overestimating DBV. This work describes a novel probabilistic machine learning approach that can infer plausible distributions of OEF and DBV. Initially, we create a model that produces informative voxelwise prior distribution based on synthetic training data. Contrary to prior work, we model the joint distribution of OEF and DBV through a scaled multivariate logit-Normal distribution, which enables the values to be constrained within a plausible range. The prior distribution model is used to train an efficient amortized variational Bayesian inference model. This model learns to infer OEF and DBV by predicting real image data, with few training data required, using the signal equations as a forward model. We demonstrate that our approach enables the inference of smooth OEF and DBV maps, with a physiologically plausible distribution that can be adapted through specification of an informative prior distribution. Other benefits include model comparison (via the evidence lower bound) and uncertainty quantification for identifying image artefacts. Results are demonstrated on a small study comparing subjects undergoing hyperventilation and at rest. We illustrate that the proposed approach allows measurement of gray matter differences in OEF and DBV and enables voxelwise comparison between conditions, where we observe significant increases in OEF and $R_2^\prime$ during hyperventilation.
翻訳日:2022-03-14 11:55:09 公開日:2022-03-11
# 深層学習を用いた超広視野眼底画像における多発網膜疾患の検出:関連領域のデータ駆動同定

Detection of multiple retinal diseases in ultra-widefield fundus images using deep learning: data-driven identification of relevant regions ( http://arxiv.org/abs/2203.06113v1 )

ライセンス: Link先を確認
Justin Engelmann, Alice D. McTrusty, Ian J. C. MacCormick, Emma Pead, Amos Storkey, Miguel O. Bernabeu(参考訳) ultra-widefield (uwf) imagingは、従来の眼底撮影に比べて網膜視野を大きく捉える有望なモダリティである。 これまでの研究では、ディープラーニング(dl)モデルは、utf画像における網膜疾患の検出に有効であるが、主に非現実的条件(他の疾患、アーティファクト、コンプレビディティ、境界疾患を含む画像を除く)下での個々の疾患を考慮し、ucf画像のどの領域が疾患検出に関係しているかを体系的に調査しなかった。 まず、より現実的な環境下で複数の網膜疾患を認識できるdlモデルを提案することで、現場の状況を改善する。 次に、グローバルな説明可能性手法を用いて、モデルが一般的に参加するUWF画像の領域を特定する。 本モデルは非常によく機能しており、内部テストセット上では0.9206の曲線下(auc)の健常網膜と、挑戦的で外部テストセット上の0.09841の網膜を分離している。 特定の疾患を診断する際には、これらの疾患の発生を期待する領域にモデルが参加する。 さらに、後極を純粋にデータ駆動の方法で最も重要な領域と認識する。 驚いたことに、後極の周りの画像の10%は、全画像を利用できるのと同等のパフォーマンスを達成するのに十分である。

Ultra-widefield (UWF) imaging is a promising modality that captures a larger retinal field of view compared to traditional fundus photography. Previous studies showed that deep learning (DL) models are effective for detecting retinal disease in UWF images, but primarily considered individual diseases under less-than-realistic conditions (excluding images with other diseases, artefacts, comorbidities, or borderline cases; and balancing healthy and diseased images) and did not systematically investigate which regions of the UWF images are relevant for disease detection. We first improve on the state of the field by proposing a DL model that can recognise multiple retinal diseases under more realistic conditions. We then use global explainability methods to identify which regions of the UWF images the model generally attends to. Our model performs very well, separating between healthy and diseased retinas with an area under the curve (AUC) of 0.9206 on an internal test set, and an AUC of 0.9841 on a challenging, external test set. When diagnosing specific diseases, the model attends to regions where we would expect those diseases to occur. We further identify the posterior pole as the most important region in a purely data-driven fashion. Surprisingly, 10% of the image around the posterior pole is sufficient for achieving comparable performance to having the full images available.
翻訳日:2022-03-14 11:54:36 公開日:2022-03-11
# 高速MRIのためのV-NetとK-Netを用いたデュアルドメイン再構成ネットワーク

Dual-Domain Reconstruction Networks with V-Net and K-Net for fast MRI ( http://arxiv.org/abs/2203.05725v1 )

ライセンス: Link先を確認
Xiaohan Liu, Yanwei Pang, Ruiqi Jin, Yu Liu, Zhenchang Wang(参考訳) 部分走査は磁気共鳴イメージング(MRI)データ取得を促進する一般的な手法である。 しかし、部分走査データ(すなわち不完全k空間行列)から画像を正確に再構成することは困難である。 ほとんどの最先端の再構成法は、画像領域および/またはk空間領域にu-net(古典的なエンコーダ・デコーダ形式の畳み込みニューラルネットワーク)またはカスケードu-netを適用する。 これらの手法は、ディープラーニングが関与しない従来の方法よりも大きな利点がある。 Nevertheless, these methods have following problems: (1) Directly applying U-Net in k-space domain is not optimal for extracting features in k-space domain; (2) Classical image-domain oriented U-Net is heavy-weight and hence is inefficient to be cascaded many times for yielding good reconstruction accuracy; (3) Classical image-domain oriented U-Net does not fully make use information of encoder network for extracting features in decoder network; and (4) Existing methods are ineffective in simultaneously extracting and fusing features in image domain and its dual k-space domain. これらの問題に対処するために,(1)キャスケーディングの軽量化とデコードのための機能の完全活用に有効なV-Netという画像領域エンコーダ・デコーダサブネットワーク,(2)k空間領域の階層的特徴抽出に適したK-Netというk空間ドメインサブネットワーク,(3)V-NetとK-Netを並列かつ効果的に組み合わせたデュアルドメイン再構築ネットワークを提案する。 KV-Netの有効性は、大規模な生のk空間トレーニングデータが利用可能であり、テストデータの真実が公表されていない、挑戦的な高速MRIデータセット上で実証される。

Partial scan is a common approach for accelerating Magnetic Resonance Imaging (MRI) data acquisition. However, it is challenging to accurately reconstruct images from partial scan data (i.e., incomplete k-space matrices). Most state-of-the-art reconstruction methods apply U-Net (a classical encoder-decoder form of convolutional neural network) or cascaded U-Nets in image domain and/or k-space domain. These methods have great advantages over traditional methods where deep learning is not involved in. Nevertheless, these methods have following problems: (1) Directly applying U-Net in k-space domain is not optimal for extracting features in k-space domain; (2) Classical image-domain oriented U-Net is heavy-weight and hence is inefficient to be cascaded many times for yielding good reconstruction accuracy; (3) Classical image-domain oriented U-Net does not fully make use information of encoder network for extracting features in decoder network; and (4) Existing methods are ineffective in simultaneously extracting and fusing features in image domain and its dual k-space domain. To tackle these problems, we propose in this paper (1) an image-domain encoder-decoder sub-network called V-Net which is more light-weight for cascading and effective in fully utilizing features in the encoder for decoding, (2) a k-space domain sub-network called K-Net which is more suitable for extracting hierarchical features in k-space domain, and (3) a dual-domain reconstruction network where V-Nets and K-Nets are parallelly and effectively combined and cascaded. The effectiveness of KV-Net is demonstrated on the challenging fastMRI dataset where large-scale raw k-space training data are available and ground truth of test data is not released.
翻訳日:2022-03-14 11:53:44 公開日:2022-03-11
# QDrop: 極低ビット後トレーニング量子化のためのランダムドロップ量子化

QDrop: Randomly Dropping Quantization for Extremely Low-bit Post-Training Quantization ( http://arxiv.org/abs/2203.05740v1 )

ライセンス: Link先を確認
Xiuying Wei, Ruihao Gong, Yuhang Li, Xianglong Liu, Fengwei Yu(参考訳) 近年、PTQ(Post-training Quantization)は、長時間のトレーニングを伴わない効率的なニューラルネットワークの実現に多くの注目を集めている。 コストは低いが、現在のptqは極めて低ビット設定で失敗する傾向がある。 本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを確認する。 そこで, キャリブレーションとテストデータに対する最適化低ビットモデルの平坦性が重要であることを示す理論的枠組みを構築した。 結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに落とす。 コンピュータビジョン (画像分類, オブジェクト検出) や自然言語処理 (テキスト分類, 質問応答) など, 様々なタスクに対する広範な実験は, その優位性を証明している。 QDROPでは、PTQの制限が初めて2ビットアクティベーションにプッシュされ、精度が最大51.49%向上する。 ベルとホイッスルがなければ、QDROPはPTQのための新しい最先端技術を確立する。 私たちのコードはhttps://github.com/wimh966/QDropで利用可能で、MQBench (https://github.com/ModelTC/MQBench)に統合されています。

Recently, post-training quantization (PTQ) has driven much attention to produce efficient neural networks without long-time retraining. Despite its low cost, current PTQ works tend to fail under the extremely low-bit setting. In this study, we pioneeringly confirm that properly incorporating activation quantization into the PTQ reconstruction benefits the final accuracy. To deeply understand the inherent reason, a theoretical framework is established, indicating that the flatness of the optimized low-bit model on calibration and test data is crucial. Based on the conclusion, a simple yet effective approach dubbed as QDROP is proposed, which randomly drops the quantization of activations during PTQ. Extensive experiments on various tasks including computer vision (image classification, object detection) and natural language processing (text classification and question answering) prove its superiority. With QDROP, the limit of PTQ is pushed to the 2-bit activation for the first time and the accuracy boost can be up to 51.49%. Without bells and whistles, QDROP establishes a new state of the art for PTQ. Our code is available at https://github.com/wimh966/QDrop and has been integrated into MQBench (https://github.com/ModelTC/MQBench)
翻訳日:2022-03-14 11:53:12 公開日:2022-03-11
# wi-fi信号によるヒトシルエットと骨格ビデオ合成

Human Silhouette and Skeleton Video Synthesis through Wi-Fi signals ( http://arxiv.org/abs/2203.05864v1 )

ライセンス: Link先を確認
Danilo Avola, Marco Cascio, Luigi Cinque, Alessio Fagioli and Gian Luca Foresti(参考訳) 無線アクセスポイント(AP)の可用性の高まりは、Wi-Fi信号に基づく人間のセンシングアプリケーションを、広汎な視覚センサのサポートや代替ツールとして活用し、照明の変化や閉塞といった、よく知られた視覚関連問題に対処することを可能にする。 実際、画像合成技術を用いて無線周波数を可視光スペクトルに変換することは、利用できない視覚データを得るのに不可欠である。 このドメイン間変換は、物体と人の両方が電磁波に影響し、電波と光の周波数のばらつきを引き起こすため実現可能である。 文献では、Wi-Fi APのチャネル状態情報(CSI)を介して周波数変化が観測され、振幅などの信号に基づく特徴抽出を可能にするため、近年、無線と視覚の特徴マッピングを推測できるモデルが勢いを増している。 そこで本論文では,教師が指導する視覚的特徴に無線データを効果的にマッピングする2分岐型生成ニューラルネットを提案する。 後者は、視覚データを完全に置き換えるために、視覚領域の信号ベースの特徴を規定する。 トレーニング後,Wi-Fi信号のみを用いてヒトのシルエットと骨格ビデオの合成を行う。 このアプローチは公開データに基づいて評価され、シルエットとスケルトンビデオの生成において顕著な結果が得られ、提案したクロスモダリティ監視戦略の有効性を実証する。

The increasing availability of wireless access points (APs) is leading towards human sensing applications based on Wi-Fi signals as support or alternative tools to the widespread visual sensors, where the signals enable to address well-known vision-related problems such as illumination changes or occlusions. Indeed, using image synthesis techniques to translate radio frequencies to the visible spectrum can become essential to obtain otherwise unavailable visual data. This domain-to-domain translation is feasible because both objects and people affect electromagnetic waves, causing radio and optical frequencies variations. In literature, models capable of inferring radio-to-visual features mappings have gained momentum in the last few years since frequency changes can be observed in the radio domain through the channel state information (CSI) of Wi-Fi APs, enabling signal-based feature extraction, e.g., amplitude. On this account, this paper presents a novel two-branch generative neural network that effectively maps radio data into visual features, following a teacher-student design that exploits a cross-modality supervision strategy. The latter conditions signal-based features in the visual domain to completely replace visual data. Once trained, the proposed method synthesizes human silhouette and skeleton videos using exclusively Wi-Fi signals. The approach is evaluated on publicly available data, where it obtains remarkable results for both silhouette and skeleton videos generation, demonstrating the effectiveness of the proposed cross-modality supervision strategy.
翻訳日:2022-03-14 11:52:50 公開日:2022-03-11
# (参考訳) StyleBabel: アートスタイルのタグ付けとキャプション

StyleBabel: Artistic Style Tagging and Captioning ( http://arxiv.org/abs/2203.05321v2 )

ライセンス: CC BY 4.0
Dan Ruta, Andrew Gilbert, Pranav Aggarwal, Naveen Marri, Ajinkya Kale, Jo Briggs, Chris Speed, Hailin Jin, Baldo Faieta, Alex Filipkowski, Zhe Lin, John Collomosse(参考訳) 本稿では,135K以上のデジタルアート作品の芸術様式を記述した,自然言語キャプションと自由形式のタグのユニークなオープンアクセスデータセットであるStyleBabelについて紹介する。 stylebabelは'grounded theory'にインスパイアされた反復的手法によって収集された: 細かな芸術的スタイル属性記述のための共有言語を共進化させながら、アノテーションを可能にする質的アプローチである。 StyleBabelのいくつかのダウンストリームタスクを実演し、最近のALADINアーキテクチャをきめ細かいスタイルの類似性に適応させ、次のようにクロスモーダルな埋め込みをトレーニングします。 1) フリーフォームタグ生成 2) 芸術様式の自然言語記述 3) きめ細かいスタイルのテキスト検索。 そこで我々は,ビジュアルトランスフォーマー (ViT) とクロスモーダル表現学習の最近の進歩により,ALADINを拡張し,細粒度スタイル検索の精度向上を実現した。

We present StyleBabel, a unique open access dataset of natural language captions and free-form tags describing the artistic style of over 135K digital artworks, collected via a novel participatory method from experts studying at specialist art and design schools. StyleBabel was collected via an iterative method, inspired by `Grounded Theory': a qualitative approach that enables annotation while co-evolving a shared language for fine-grained artistic style attribute description. We demonstrate several downstream tasks for StyleBabel, adapting the recent ALADIN architecture for fine-grained style similarity, to train cross-modal embeddings for: 1) free-form tag generation; 2) natural language description of artistic style; 3) fine-grained text search of style. To do so, we extend ALADIN with recent advances in Visual Transformer (ViT) and cross-modal representation learning, achieving a state of the art accuracy in fine-grained style retrieval.
翻訳日:2022-03-14 11:51:15 公開日:2022-03-11
# AGCN:生涯多ラベル画像認識のためのグラフ畳み込みネットワーク

AGCN: Augmented Graph Convolutional Network for Lifelong Multi-label Image Recognition ( http://arxiv.org/abs/2203.05534v2 )

ライセンス: Link先を確認
Kaile Du, Fan Lyu, Fuyuan Hu, Linyan Li, Wei Feng, Fenglei Xu, Qiming Fu(参考訳) Lifelong Multi-Label (LML)画像認識は、シーケンシャルなマルチラベル画像認識データストリームにオンラインのクラスインクリメンタル分類器を構築する。 LML画像認識の鍵となる課題は、トレーニングデータの部分ラベルと古いクラスにおけるカタストロフィック・フォーッティングのラベル関係の構築である。 この問題を解決するために, 逐次認識タスク間でラベル関係を構築し, 破滅的な忘れを抑えるAGCN(Augmented Graph Convolutional Network)モデルを提案する。 まず,すべてのクラスにACM(Augmented correlation Matrix)を構築する。そこでは,タスク内関係はハードラベル統計から導かれるが,タスク間関係はデータと構築されたエキスパートネットワークからハードラベルとソフトラベルの両方を活用する。 そして、ACMに基づいて、提案したAGCNは動的拡張構造でラベルの依存関係をキャプチャし、効果的なクラス表現を得る。 最後に,古いタスク間のラベル依存の忘れることを抑制するため,ラベル関係の構築に対する制約として,関係保存損失を提案する。 提案手法は2つのマルチラベル画像ベンチマークを用いて評価し,提案手法がLML画像認識に有効であることを示す。 私たちのコードはhttps://github.com/kaile-du/agcnで利用可能です。

The Lifelong Multi-Label (LML) image recognition builds an online class-incremental classifier in a sequential multi-label image recognition data stream. The key challenges of LML image recognition are the construction of label relationships on Partial Labels of training data and the Catastrophic Forgetting on old classes, resulting in poor generalization. To solve the problems, the study proposes an Augmented Graph Convolutional Network (AGCN) model that can construct the label relationships across the sequential recognition tasks and sustain the catastrophic forgetting. First, we build an Augmented Correlation Matrix (ACM) across all seen classes, where the intra-task relationships derive from the hard label statistics while the inter-task relationships leverage both hard and soft labels from data and a constructed expert network. Then, based on the ACM, the proposed AGCN captures label dependencies with dynamic augmented structure and yields effective class representations. Last, to suppress the forgetting of label dependencies across old tasks, we propose a relationship-preserving loss as a constraint to the construction of label relationships. The proposed method is evaluated using two multi-label image benchmarks and the experimental results show that the proposed method is effective for LML image recognition and can build convincing correlation across tasks even if the labels of previous tasks are missing. Our code is available at https://github.com/Kaile-Du/AGCN.
翻訳日:2022-03-14 11:33:09 公開日:2022-03-11
# 神経機械翻訳のための双方向デコーダを用いた自己認識蒸留

Look Backward and Forward: Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation ( http://arxiv.org/abs/2203.05248v2 )

ライセンス: Link先を確認
Xuanwei Zhang and Libin Shen and Disheng Pan and Liang Wang and Yanjun Miao(参考訳) ニューラルネットワーク翻訳(NMT)モデルは通常、一方向デコーダを用いて訓練される。 しかしながら、このような一方向のデコーディングフレームワークは、グローバルコヒーレンスではなく、局所的な構造にフォーカスする傾向がある。 この問題を軽減するために,ニューラルマシン翻訳のための双方向デコーダを用いた自己知識蒸留法(SBD-NMT)を提案する。 我々は、フォワードデコーダに効果的な正規化手法として機能する後方デコーダをデプロイする。 長期的未来に関する後方デコーダの情報を活用することで、後方デコーダで学んだ知識を蒸留することで、自動回帰NMTモデルを先進的な計画に導くことができる。 実験の結果,複数機械翻訳データセットの強変圧器ベースラインよりも有意に優れていることがわかった。

Neural Machine Translation(NMT) models are usually trained via unidirectional decoder which corresponds to optimizing one-step-ahead prediction. However, this kind of unidirectional decoding framework may incline to focus on local structure rather than global coherence. To alleviate this problem, we propose a novel method, Self-Knowledge Distillation with Bidirectional Decoder for Neural Machine Translation(SBD-NMT). We deploy a backward decoder which can act as an effective regularization method to the forward decoder. By leveraging the backward decoder's information about the longer-term future, distilling knowledge learned in the backward decoder can encourage auto-regressive NMT models to plan ahead. Experiments show that our method is significantly better than the strong Transformer baselines on multiple machine translation data sets.
翻訳日:2022-03-14 11:32:45 公開日:2022-03-11
# 人体再構成のための構造認識フロー生成

Structure-Aware Flow Generation for Human Body Reshaping ( http://arxiv.org/abs/2203.04670v2 )

ライセンス: Link先を確認
Jianqiang Ren, Yuan Yao, Biwen Lei, Miaomiao Cui, Xuansong Xie(参考訳) ボディリシェーピングは、ポートレート写真のリタッチにおいて重要な手順である。 人体の複雑な構造と多彩な外観のため、既存の手法はボディーモルファブルモデルを介して3dドメインにフォールバックするか、キーポイントベースの画像変形に頼り、非効率と不満足な視覚品質をもたらす。 本稿では,骨格や部品親和性フィールドなどの体の構造的事前の指導の下で,エンドツーエンドのフロー生成アーキテクチャを定式化し,任意のポーズや衣服による前例のない制御性能を実現することにより,これらの制約に対処する。 視覚の知覚相関と人体の構造相関の両方を捉えて、関連部位間の操作一貫性を強化する構成的注意機構を導入する。 包括的評価のために,5000枚の肖像画と専門的な修正対象を含むBR-5Kという,最初の大規模ボディーリフォームデータセットを構築した。 広範な実験により,我々のアプローチは,視覚性能,制御性,効率の点で,既存の最先端手法を大きく上回っていることが示された。 データセットは当社のwebサイトで利用可能です。 https://github.com/jianqiangren/flowbasedbodyreshaping。

Body reshaping is an important procedure in portrait photo retouching. Due to the complicated structure and multifarious appearance of human bodies, existing methods either fall back on the 3D domain via body morphable model or resort to keypoint-based image deformation, leading to inefficiency and unsatisfied visual quality. In this paper, we address these limitations by formulating an end-to-end flow generation architecture under the guidance of body structural priors, including skeletons and Part Affinity Fields, and achieve unprecedentedly controllable performance under arbitrary poses and garments. A compositional attention mechanism is introduced for capturing both visual perceptual correlations and structural associations of the human body to reinforce the manipulation consistency among related parts. For a comprehensive evaluation, we construct the first large-scale body reshaping dataset, namely BR-5K, which contains 5,000 portrait photos as well as professionally retouched targets. Extensive experiments demonstrate that our approach significantly outperforms existing state-of-the-art methods in terms of visual performance, controllability, and efficiency. The dataset is available at our website: https://github.com/JianqiangRen/FlowBasedBodyReshaping.
翻訳日:2022-03-14 11:32:31 公開日:2022-03-11
# ポイントクラウドセグメンテーションのためのコントラスト境界学習

Contrastive Boundary Learning for Point Cloud Segmentation ( http://arxiv.org/abs/2203.05272v2 )

ライセンス: Link先を確認
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao(参考訳) ポイントクラウドセグメンテーションは3D環境を理解するのに基本である。 しかし、現在の3Dポイントクラウドセグメンテーション手法は通常、シーン境界では性能が悪く、全体のセグメンテーション性能は低下する。 本稿では,シーン境界のセグメンテーションに着目した。 そこで我々はまず,シーン境界におけるセグメンテーション性能を評価するための指標を検討する。 境界上の不満足なパフォーマンスに対処するために,ポイントクラウドセグメンテーションのための新しいコントラスト境界学習(cbl)フレームワークを提案する。 特に,提案したCBLは,複数のスケールのシーンコンテキストの助けを借りて,その表現を対比することで,境界点間の特徴識別を強化する。 CBLを3つの異なるベースライン法に適用することにより、CBLは、例えばmIoUにおいて、異なるベースラインを一貫して改善し、バウンダリ上で魅力的なパフォーマンスを達成するのに役立つことを示す。 本手法の有効性と3次元点雲分割における境界の重要性を実験的に検証した。 コードとモデルはhttps://github.com/LiyaoTang/contrastBoundary.comで公開される。

Point cloud segmentation is fundamental in understanding 3D environments. However, current 3D point cloud segmentation methods usually perform poorly on scene boundaries, which degenerates the overall segmentation performance. In this paper, we focus on the segmentation of scene boundaries. Accordingly, we first explore metrics to evaluate the segmentation performance on scene boundaries. To address the unsatisfactory performance on boundaries, we then propose a novel contrastive boundary learning (CBL) framework for point cloud segmentation. Specifically, the proposed CBL enhances feature discrimination between points across boundaries by contrasting their representations with the assistance of scene contexts at multiple scales. By applying CBL on three different baseline methods, we experimentally show that CBL consistently improves different baselines and assists them to achieve compelling performance on boundaries, as well as the overall performance, eg in mIoU. The experimental results demonstrate the effectiveness of our method and the importance of boundaries for 3D point cloud segmentation. Code and model will be made publicly available at https://github.com/LiyaoTang/contrastBoundary.
翻訳日:2022-03-14 11:32:12 公開日:2022-03-11
# TrueType Transformer:アウトラインフォーマットにおける文字とフォントスタイルの認識

TrueType Transformer: Character and Font Style Recognition in Outline Format ( http://arxiv.org/abs/2203.05338v2 )

ライセンス: Link先を確認
Yusuke Nagata, Jinki Otao, Daichi Haraguchi, and Seiichi Uchida(参考訳) 本稿では,アウトライン形式で文字およびフォントスタイル認識が可能なtruetype transformer(t3)を提案する。 TrueTypeのようなアウトラインフォーマットは、各文字をストローク輪郭の制御点のシーケンスとして表現し、生まれながらのデジタル文書で頻繁に使用される。 t3はディープニューラルネットワーク、いわゆるトランスフォーマーによって構成されている。 Transformerはもともとテキストなどの逐次データに対して提案されており、アウトラインデータを扱うのに適している。 言い換えれば、T3はビットマップ画像に変換することなくアウトラインデータを直接受け入れる。 その結果、T3は分解能に依存しない分類を実現する。 また、制御点の位置はフォントスタイルの微細かつ局所的な構造を表すため、t3はフォントスタイル分類に適しており、そのような構造は非常に重要である。 本稿では,各制御点が分類結果にどう貢献するかを観察しながら,文字認識タスクとフォント認識タスクにおけるT3の適用性を実験的に示す。

We propose TrueType Transformer (T3), which can perform character and font style recognition in an outline format. The outline format, such as TrueType, represents each character as a sequence of control points of stroke contours and is frequently used in born-digital documents. T3 is organized by a deep neural network, so-called Transformer. Transformer is originally proposed for sequential data, such as text, and therefore appropriate for handling the outline data. In other words, T3 directly accepts the outline data without converting it into a bitmap image. Consequently, T3 realizes a resolution-independent classification. Moreover, since the locations of the control points represent the fine and local structures of the font style, T3 is suitable for font style classification, where such structures are very important. In this paper, we experimentally show the applicability of T3 in character and font style recognition tasks, while observing how the individual control points contribute to classification results.
翻訳日:2022-03-14 11:31:54 公開日:2022-03-11
# 顔アンチスプーフィングのためのシャッフルスタイルアセンブリによるドメインの一般化

Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing ( http://arxiv.org/abs/2203.05340v2 )

ライセンス: Link先を確認
Zhuo Wang, Zezheng Wang, Zitong Yu, Weihong Deng, Jiahong Li, Size Li, Zhongyuan Wang(参考訳) 多様なプレゼンテーションアタックが絶え間なく出現する中、一般化可能な顔反偽造(FAS)が注目されている。 ほとんどの既存メソッドは完全表現にドメイン一般化(dg)を実装している。 しかし、異なる画像統計はFASタスクに固有の特性を持つ可能性がある。 この作業では、完全な表現をコンテンツとスタイルに分けます。 Shuffled Style Assembly Network (SSAN) は、スタイル化された特徴空間のための異なるコンテンツやスタイルの特徴を抽出し、再組み立てするために提案されている。 そして、一般化された表現を得るために、ドメイン固有の情報を抑えつつ、生活関連スタイル情報を強調するコントラスト学習戦略を開発する。 最後に、正しいアセンブリの表現は、推論中の生活とスプーフィングを区別するために使用される。 一方で,データ量と分布の違いから,学界と産業の間には依然としてギャップが存在する。 したがって、FASのための新しい大規模ベンチマークを構築し、実際のアルゴリズムの性能をさらに評価する。 既存のベンチマークと提案するベンチマークの質的および定量的な結果から,提案手法の有効性が示された。 コードはhttps://github.com/wangzhuo2019/ssanで入手できる。

With diverse presentation attacks emerging continually, generalizable face anti-spoofing (FAS) has drawn growing attention. Most existing methods implement domain generalization (DG) on the complete representations. However, different image statistics may have unique properties for the FAS tasks. In this work, we separate the complete representation into content and style ones. A novel Shuffled Style Assembly Network (SSAN) is proposed to extract and reassemble different content and style features for a stylized feature space. Then, to obtain a generalized representation, a contrastive learning strategy is developed to emphasize liveness-related style information while suppress the domain-specific one. Finally, the representations of the correct assemblies are used to distinguish between living and spoofing during the inferring. On the other hand, despite the decent performance, there still exists a gap between academia and industry, due to the difference in data quantity and distribution. Thus, a new large-scale benchmark for FAS is built up to further evaluate the performance of algorithms in reality. Both qualitative and quantitative results on existing and proposed benchmarks demonstrate the effectiveness of our methods. The codes will be available at https://github.com/wangzhuo2019/SSAN.
翻訳日:2022-03-14 11:31:38 公開日:2022-03-11