このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210819となっている論文です。

PDF登録状況(公開日: 20210819)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 機械ビジョンを用いた風力発電曲線生成モデル:自己学習型深層畳み込みネットワークに基づく手法 [全文訳有]

Generative Wind Power Curve Modeling Via Machine Vision: A Self-learning Deep Convolutional Network Based Method ( http://arxiv.org/abs/2109.00894v1 )

ライセンス: CC BY 4.0
Luoxiao Yang, Long Wang and Zijun Zhang(参考訳) 本稿では、データ前処理を必要とせず、自動WPCモデル生成のための新しい自己学習型U-net(STU-net)を提案する。 STU-netの自己学習(ST)プロセスには2つのステップがある。 まず, 曲線フィッティング問題としてのwpcモデリングに関する従来の研究と異なり, 本論文では, wpcモデリングの定式化を機械ビジョンの側面から再構成する。 十分に多様化したトレーニングサンプルを開発するために、WPCを表現したS字型関数のセットに基づいて、監視制御とデータ取得(SCADA)データを合成する。 これらの合成SCADAデータとWPC関数を画像として視覚化し、トレーニングサンプル(I_x,I_wpc)としてペア化する。 次に、i_xからi_wpcを回収するモデルを近似するu-netを開発する。 開発したU-netをSCADAデータに適用し、I_wpcを正常に生成する。 さらに,以前生成したi_wpcを表す数式f_wpcを導出する画素マッピングと補正プロセスを開発する。 提案されたstu-netは一度だけトレーニングする必要があり、アプリケーションでデータ前処理は必要ない。 76 WT に基づく数値実験を行い,従来の WPC モデリング手法と比較し,提案手法の優位性を検証した。 紹介した研究の再現性を示すために、コードをhttps://github.com/i keyang/stu-netにリリースします。

This paper develops a novel self-training U-net (STU-net) based method for the automated WPC model generation without requiring data pre-processing. The self-training (ST) process of STU-net has two steps. First, different from traditional studies regarding the WPC modeling as a curve fitting problem, in this paper, we renovate the WPC modeling formulation from a machine vision aspect. To develop sufficiently diversified training samples, we synthesize supervisory control and data acquisition (SCADA) data based on a set of S-shape functions depicting WPCs. These synthesized SCADA data and WPC functions are visualized as images and paired as training samples(I_x, I_wpc). A U-net is then developed to approximate the model recovering I_wpc from I_x. The developed U-net is applied into observed SCADA data and can successfully generate the I_wpc. Moreover, we develop a pixel mapping and correction process to derive a mathematical form f_wpc representing I_wpcgenerated previously. The proposed STU-net only needs to train once and does not require any data preprocessing in applications. Numerical experiments based on 76 WTs are conducted to validate the superiority of the proposed method by benchmarking against classical WPC modeling methods. To demonstrate the repeatability of the presented research, we release our code at https://github.com/I keYang/STU-net.
翻訳日:2021-09-05 11:18:35 公開日:2021-08-19
# (参考訳) tug-of-war 同期を用いた資源配分手法 [全文訳有]

Resource allocation method using tug-of-war-based synchronization ( http://arxiv.org/abs/2108.11979v1 )

ライセンス: CC BY 4.0
Song-Ju Kim, Hiroyuki Yasuda, Ryoma Kitagawa, and Mikio Hasegawa(参考訳) 本稿では,Tug-of-war(TOW)ダイナミクスに基づく簡単なチャネル割当手法と非線形発振器同期に基づく時間スケジューリングを組み合わせることで,無線通信における空間(チャネル)と時間資源の効率的な利用を提案する。 本研究は,各ノードが異なるチャネルを選択する同期群が,各グループ間の距離が影響領域よりも大きいような位相空間において一様ではないことを示す。 チャネル報酬に応じて資源割当のための新しいタイプの自己組織化時空間パターンを形成することができる。

We propose a simple channel-allocation method based on tug-of-war (TOW) dynamics, combined with the time scheduling based on nonlinear oscillator synchronization to efficiently use of the space (channel) and time resources in wireless communications. This study demonstrates that synchronization groups, where each node selects a different channel, are non-uniformly distributed in phase space such that every distance between groups is larger than the area of influence. New type of self-organized spatiotemporal patterns can be formed for resource allocation according to channel rewards.
翻訳日:2021-09-05 11:04:28 公開日:2021-08-19
# (参考訳) 映画ってどんなものか? 映画字幕に関する考察と予測 [全文訳有]

How Hateful are Movies? A Study and Prediction on Movie Subtitles ( http://arxiv.org/abs/2108.10724v1 )

ライセンス: CC BY 4.0
Niklas von Boguszewski, Sana Moin, Anirban Bhowmick, Seid Muhie Yimam, Chris Biemann(参考訳) 本研究では,映画におけるヘイトスピーチの検出手法について検討する。 6本の映画のサブタイトルから収集された新しいデータセットを導入し、それぞれの発話をヘイト、攻撃的、あるいは正常にアノテートする。 我々は、既存のソーシャルメディアデータセット、すなわちTwitterやFox Newsにドメイン適応と微調整の伝達学習手法を適用した。 11k 映画の字幕上では,Bag of Words (BoW), Bi-directional Long Short-term memory (Bi-LSTM), Bidirectional Encoder Representations from Transformers (BERT) などの異なる表現を評価する。 BERTモデルは77%のマクロ平均F1スコアを得た。 したがって、ソーシャルメディア領域からの転向学習は、字幕による映画における憎悪と不快なスピーチの分類に有効であることを示す。

In this research, we investigate techniques to detect hate speech in movies. We introduce a new dataset collected from the subtitles of six movies, where each utterance is annotated either as hate, offensive or normal. We apply transfer learning techniques of domain adaptation and fine-tuning on existing social media datasets, namely from Twitter and Fox News. We evaluate different representations, i.e., Bag of Words (BoW), Bi-directional Long short-term memory (Bi-LSTM), and Bidirectional Encoder Representations from Transformers (BERT) on 11k movie subtitles. The BERT model obtained the best macro-averaged F1-score of 77%. Hence, we show that transfer learning from the social media domain is efficacious in classifying hate and offensive speech in movies through subtitles.
翻訳日:2021-08-29 12:35:22 公開日:2021-08-19
# (参考訳) 強化学習を利用した5Gネットワークの協調的位置決め [全文訳有]

Cooperative Localization Utilizing Reinforcement Learning for 5G Networks ( http://arxiv.org/abs/2108.10222v1 )

ライセンス: CC BY 4.0
Ghazaleh Kia, Laura Ruotsalainen(参考訳) 近年、自動運転車の実用化に向けて、正確なローカライゼーションの需要が高まっている。 これらの車両をスマートシティの交通エコシステムに配置するためには、正確な位置決めシステムの必要性が強調されている。 正確な位置決めを実現するために、協調的位置決めが重要な役割を果たす。 このタイプのローカライゼーションは車両間の距離測定を計算し、より正確な値を用いて一方の故障値を修正することにより位置の精度を向上させる。 5G信号はミリ波(mmWave)技術で精密レンジ計測をサポートし、5GネットワークはD2D通信を提供し、協調的なローカライゼーションを改善する。 本研究の目的は,5G信号の最も正確かつ適切な範囲計測手法を選択するために,強化学習技術を用いた誤りの少ない自動運転車の正確な協調位置決めを行うことである。

The demand for accurate localization has risen in recent years to enable the emerging of autonomous vehicles. To have these vehicles in the traffic ecosystem of smart cities, the need for an accurate positioning system is emphasized. To realize accurate positioning, collaborative localization plays an important role. This type of localization computes range measurements between vehicles and improves the accuracy of position by correcting the possibly faulty values of one of them by using the more accurate values of the other. 5G signals with the technology of Millimeter Wave (mmWave) support precise range measurements and 5G networks provide Device to Device (D2D) communication which improves collaborative localization. The aim of this paper is to provide an accurate collaborative positioning for autonomous vehicles, which is less prone to errors utilizing reinforcement learning technique for selecting the most accurate and suitable range measurement technique for the 5G signal.
翻訳日:2021-08-26 02:02:43 公開日:2021-08-19
# POMDPのアクティブ状態軌道推定と難読化のためのスモーザーエントロピー

Smoother Entropy for Active State Trajectory Estimation and Obfuscation in POMDPs ( http://arxiv.org/abs/2108.10227v1 )

ライセンス: Link先を確認
Timothy L. Molloy and Girish N. Nair(参考訳) 本研究では, 状態軌跡の条件エントロピーを最適化し, より滑らかなエントロピーを掘り下げることにより, 状態軌跡の推定を助長または妨害するために, 部分的に観察されたマルコフ決定過程(POMDP)を制御する問題について検討する。 より滑らかなエントロピーの考察は、従前の能動状態推定と難読化アプローチとを対比し、その代わりに、移動可能性の懸念による限界(あるいは瞬時)状態の不確実性の測定に依存する。 通常のPOMDPの信念状態からスムーズなエントロピーの新たな表現を確立することで、我々のアクティブな推定と難読化問題は、信念状態において完全に観察されるマルコフ決定過程(MDP)として再構成可能であることを示す。 意外なことに,我々はコンケーブコストとコスト・ツー・ゴー機能によるアクティブな推定と難読化の両方の信念状態のMDP再構成を同定し,標準的なPOMDP技術を用いてトラクタブル・バウンド・エラー(近似)ソリューションを構築することができる。 よりスムーズなエントロピーの最適化は、代替手法と比較して軌道推定と難読化に優れていることを示す。

We study the problem of controlling a partially observed Markov decision process (POMDP) to either aid or hinder the estimation of its state trajectory by optimising the conditional entropy of the state trajectory given measurements and controls, a quantity we dub the smoother entropy. Our consideration of the smoother entropy contrasts with previous active state estimation and obfuscation approaches that instead resort to measures of marginal (or instantaneous) state uncertainty due to tractability concerns. By establishing novel expressions of the smoother entropy in terms of the usual POMDP belief state, we show that our active estimation and obfuscation problems can be reformulated as Markov decision processes (MDPs) that are fully observed in the belief state. Surprisingly, we identify belief-state MDP reformulations of both active estimation and obfuscation with concave cost and cost-to-go functions, which enables the use of standard POMDP techniques to construct tractable bounded-error (approximate) solutions. We show in simulations that optimisation of the smoother entropy leads to superior trajectory estimation and obfuscation compared to alternative approaches.
翻訳日:2021-08-24 15:21:48 公開日:2021-08-19
# (参考訳) 直立木の構造学習

Structure Learning for Directed Trees ( http://arxiv.org/abs/2108.08871v1 )

ライセンス: CC BY 4.0
Martin Emil Jakobsen, Rajen D. Shah, Peter B\"uhlmann, Jonas Peters(参考訳) システムの因果構造を知ることは科学の多くの分野において基本的な関心事であり、システムの操作の下でうまく機能する予測アルゴリズムの設計を支援することができる。 因果構造は、一定の制限の下で観測分布から特定可能となる。 データから構造を学習するために、スコアベースの手法は適合の質に応じて異なるグラフを評価する。 しかし、大きな非線形モデルでは、これらは真の因果構造を回復する一般的な保証のないヒューリスティック最適化アプローチに依存している。 本稿では,有向木の構造学習について考察する。 そこで我々はCAT(Cousal Additive Tree)と呼ばれるChu-Liu-Edmondsのアルゴリズムに基づく高速でスケーラブルな手法を提案する。 ガウス誤差の場合、非漸近的体制における一貫性を証明し、識別可能性ギャップを解消する。 また,家族毎の誤差率制御を漸近的に行うサブストラクチャー仮説の検証手法についても紹介する。 さらに,真因果モデルが観測分布にどの程度適合するかを定量化する識別可能性ギャップを考察し,因果モデルの局所的性質によって境界が低くなっていることを証明した。 シミュレーション研究は、競合する構造学習法と比較してCATの良好な性能を示す。

Knowing the causal structure of a system is of fundamental interest in many areas of science and can aid the design of prediction algorithms that work well under manipulations to the system. The causal structure becomes identifiable from the observational distribution under certain restrictions. To learn the structure from data, score-based methods evaluate different graphs according to the quality of their fits. However, for large nonlinear models, these rely on heuristic optimization approaches with no general guarantees of recovering the true causal structure. In this paper, we consider structure learning of directed trees. We propose a fast and scalable method based on Chu-Liu-Edmonds' ; algorithm we call causal additive trees (CAT). For the case of Gaussian errors, we prove consistency in an asymptotic regime with a vanishing identifiability gap. We also introduce a method for testing substructure hypotheses with asymptotic family-wise error rate control that is valid post-selection and in unidentified settings. Furthermore, we study the identifiability gap, which quantifies how much better the true causal model fits the observational distribution, and prove that it is lower bounded by local properties of the causal model. Simulation studies demonstrate the favorable performance of CAT compared to competing structure learning methods.
翻訳日:2021-08-24 00:20:51 公開日:2021-08-19
# (参考訳) 画像分類タスクにおける量子ニューラルネットワークモデルと古典ニューラルネットワークモデルの比較 [全文訳有]

Comparing concepts of quantum and classical neural network models for image classification task ( http://arxiv.org/abs/2108.08875v1 )

ライセンス: CC BY 4.0
Sebastian Porebski and Rafal Potempa(参考訳) 量子アーキテクチャはまだ開発中だが、利用可能な場合は、機械学習アルゴリズムが数値データのみを処理できる場合にのみ量子データを処理できる。 したがって、分類や回帰の問題においては、数値入力データを量子形式に転送し、量子コンピュータが利用可能な機械学習手法を利用できるようにする量子システムをシミュレートし、研究する必要がある。 本資料は、MNISTデータセットからの手書き桁の分類問題のために開発されたハイブリッド量子古典ニューラルネットワークのトレーニングと性能に関する実験結果を含む。 2つのモデルの比較結果: 類似のトレーニングパラメータの古典的および量子的ニューラルネットワークは、量子ネットワークが時間を要するが、古典的ネットワークを克服することを示している(より収束し、より高いトレーニングとテストの精度を達成する)。

While quantum architectures are still under development, when available, they will only be able to process quantum data when machine learning algorithms can only process numerical data. Therefore, in the issues of classification or regression, it is necessary to simulate and study quantum systems that will transfer the numerical input data to a quantum form and enable quantum computers to use the available methods of machine learning. This material includes the results of experiments on training and performance of a hybrid quantum-classical neural network developed for the problem of classification of handwritten digits from the MNIST data set. The comparative results of two models: classical and quantum neural networks of a similar number of training parameters, indicate that the quantum network, although its simulation is time-consuming, overcomes the classical network (it has better convergence and achieves higher training and testing accuracy).
翻訳日:2021-08-24 00:19:21 公開日:2021-08-19
# (参考訳) 深層学習に基づくその場TEMイオン照射のための自動欠陥解析フレームワーク

A Deep Learning Based Automatic Defect Analysis Framework for In-situ TEM Ion Irradiations ( http://arxiv.org/abs/2108.08882v1 )

ライセンス: CC BY 4.0
Mingren Shen, Guanzhao Li, Dongxia Wu, Yudai Yaguchi, Jack C. Haley, Kevin G. Field, and Dane Morgan(参考訳) 透過電子顕微鏡(TEM)で捉えたビデオは、ミクロ構造のスナップショットを逐次撮影することで、材料の形態的および時間的進化の詳細を符号化することができる。 しかし、こうしたビデオの手動分析は退屈で、エラーを起こしやすく、信頼性が低く、わずかな長さの動画でもフレームのかなりの部分を分析したい場合、非常に時間がかかる。 本研究では, YOLOと呼ばれる先進的物体検出モデルに基づく微細構造解析のためのTEM自動解析システムを開発し, FeCrAl合金に生成した転位ループのその場イオン照射TEMビデオで試験を行った。 このシステムは、幾何学解析モジュールと動的追跡モジュールに結合したYOLOベースの欠陥検出モジュールを用いて、TEMで観測された特徴を静的および動的に解析する。 結果は、高速で一貫性があり、スケーラブルなフレームレベルの欠陥解析のために、F1スコア0.89で人間に匹敵する性能を達成できることを示している。 この結果は、本物だが例外的にクリーンで安定したデータセットで得られ、より困難なデータセットはこの性能を達成できないかもしれない。 動的追跡により、共通の人的分析手法を用いて、欠陥成長率当たりの個々の欠陥の進化を評価することが可能となった。 我々の研究は、TEMビデオに含まれる興味深い微細構造や特性を自動的に検出し、追跡できることを示し、材料力学を評価するための新しい扉を開く。

Videos captured using Transmission Electron Microscopy (TEM) can encode details regarding the morphological and temporal evolution of a material by taking snapshots of the microstructure sequentially. However, manual analysis of such video is tedious, error-prone, unreliable, and prohibitively time-consuming if one wishes to analyze a significant fraction of frames for even videos of modest length. In this work, we developed an automated TEM video analysis system for microstructural features based on the advanced object detection model called YOLO and tested the system on an in-situ ion irradiation TEM video of dislocation loops formed in a FeCrAl alloy. The system provides analysis of features observed in TEM including both static and dynamic properties using the YOLO-based defect detection module coupled to a geometry analysis module and a dynamic tracking module. Results show that the system can achieve human comparable performance with an F1 score of 0.89 for fast, consistent, and scalable frame-level defect analysis. This result is obtained on a real but exceptionally clean and stable data set and more challenging data sets may not achieve this performance. The dynamic tracking also enabled evaluation of individual defect evolution like per defect growth rate at a fidelity never before achieved using common human analysis methods. Our work shows that automatically detecting and tracking interesting microstructures and properties contained in TEM videos is viable and opens new doors for evaluating materials dynamics.
翻訳日:2021-08-24 00:09:52 公開日:2021-08-19
# (参考訳) 深層学習による電子顕微鏡画像の多重欠陥検出と解析

Multi defect detection and analysis of electron microscopy images with deep learning ( http://arxiv.org/abs/2108.08883v1 )

ライセンス: CC BY 4.0
Mingren Shen, Guanzhao Li, Dongxia Wu, Yuhan Liu, Jacob Greaves, Wei Hao, Nathaniel J. Krakauer, Leah Krudy, Jacob Perez, Varun Sreenivasan, Bryan Sanchez, Oigimer Torres, Wei Li, Kevin Field, and Dane Morgan(参考訳) 電子顕微鏡は結晶構造の欠陥を探索するために広く用いられているが、人間の欠陥検出は時間を要することが多く、エラーを起こしやすく、信頼性が低いため、大量の画像やリアルタイム解析には拡張性がない。 本研究では, 照射鋼中の異なる欠陥クラスターの位置と形状を求めるための機械学習手法の適用について検討する。 深層学習に基づく高速R-CNN解析システムでは,比較的小さなトレーニングデータセットを用いた人間解析に匹敵する性能を示す。 本研究は,複数の特徴が存在する場合でも,自動顕微鏡データ解析の開発を支援するためにディープラーニングを応用できる有望な能力を示し,大規模電子顕微鏡データの高速・スケーラブル・信頼性の高い解析システムを実現する。

Electron microscopy is widely used to explore defects in crystal structures, but human detecting of defects is often time-consuming, error-prone, and unreliable, and is not scalable to large numbers of images or real-time analysis. In this work, we discuss the application of machine learning approaches to find the location and geometry of different defect clusters in irradiated steels. We show that a deep learning based Faster R-CNN analysis system has a performance comparable to human analysis with relatively small training data sets. This study proves the promising ability to apply deep learning to assist the development of automated microscopy data analysis even when multiple features are present and paves the way for fast, scalable, and reliable analysis systems for massive amounts of modern electron microscopy data.
翻訳日:2021-08-24 00:08:56 公開日:2021-08-19
# (参考訳) カオスゲームアートデータセットによる制御されたGANに基づく創造的合成 -ノイズラテックトレーディング- [全文訳有]

Controlled GAN-Based Creature Synthesis via a Challenging Game Art Dataset -- Addressing the Noise-Latent Trade-Off ( http://arxiv.org/abs/2108.08922v1 )

ライセンス: CC BY 4.0
Vaibhav Vavilala and David Forsyth(参考訳) 最先端のStyleGAN2ネットワークは、ランダムな画像の生成、画像の"like"検索、コンテンツやスタイルの変更など、アートの作成と編集の強力な方法をサポートしている。 さらに、最近の進歩により、小さなデータセットによるトレーニングが可能になる。 これらの手法をカードアートの合成に適用し,新しいYu-Gi-Ohデータセットをトレーニングする。 StyleGAN2へのノイズ入力は良好な合成に不可欠であるが、小さなデータセットでは、どちらも長期画像効果を制御するため、粗いスケールノイズが潜伏変数に干渉する。 ノイズ変化を伴うアートの過回帰変動と潜在変数編集によるコンテンツ制御の弱さを観察する。 本稿では,粗大ノイズが抑制された修正stylegan2のトレーニングにより,これらの不要な効果が排除されることを示す。 我々は、優れたfid、ノイズの変化により、ローカルなスタイル探索が可能となり、アイデンティティ制御が著しく改善される。 これらの結果と分析は、あらゆるスキルレベルを持つデジタルアーティストのための、GAN支援のアート合成ツールへと導かれる。

The state-of-the-art StyleGAN2 network supports powerful methods to create and edit art, including generating random images, finding images "like" some query, and modifying content or style. Further, recent advancements enable training with small datasets. We apply these methods to synthesize card art, by training on a novel Yu-Gi-Oh dataset. While noise inputs to StyleGAN2 are essential for good synthesis, we find that, for small datasets, coarse-scale noise interferes with latent variables because both control long-scale image effects. We observe over-aggressive variation in art with changes in noise and weak content control via latent variable edits. Here, we demonstrate that training a modified StyleGAN2, where coarse-scale noise is suppressed, removes these unwanted effects. We obtain a superior FID; changes in noise result in local exploration of style; and identity control is markedly improved. These results and analysis lead towards a GAN-assisted art synthesis tool for digital artists of all skill levels, which can be used in film, games, or any creative industry for artistic ideation.
翻訳日:2021-08-24 00:08:01 公開日:2021-08-19
# (参考訳) 明示的変形場を用いた入射ニューラル形状表現の増強 [全文訳有]

Augmenting Implicit Neural Shape Representations with Explicit Deformation Fields ( http://arxiv.org/abs/2108.08931v1 )

ライセンス: CC BY 4.0
Matan Atzmon, David Novotny, Andrea Vedaldi, Yaron Lipman(参考訳) 入射神経表現は、ニューラルネットワークのゼロレベルセットとして形状コレクションを学習する最近のアプローチであり、各形状は潜在コードで表現される。 これまでのところ、形状再構成に焦点が当てられ、形状一般化は主にジェネリックエンコーダデコーダやオートデコーダレギュラー化に委ねられていた。 本稿では,暗黙的ニューラル表現に対する変形認識正規化を提唱する。 課題は、暗黙の表現が異なる形状間の対応を捉えないため、それらの変形を表現し、規則化するのは難しいことである。 そこで, 形状の暗黙表現を, 補助関数として学習した明示的, 区分的な線形変形場と組み合わせることを提案する。 これらの変形場を正規化することにより、暗黙のニューラル表現を奨励し、学習された形状空間の自然な変形を誘導できることを示す。

Implicit neural representation is a recent approach to learn shape collections as zero level-sets of neural networks, where each shape is represented by a latent code. So far, the focus has been shape reconstruction, while shape generalization was mostly left to generic encoder-decoder or auto-decoder regularization. In this paper we advocate deformation-aware regularization for implicit neural representations, aiming at producing plausible deformations as latent code changes. The challenge is that implicit representations do not capture correspondences between different shapes, which makes it difficult to represent and regularize their deformations. Thus, we propose to pair the implicit representation of the shapes with an explicit, piecewise linear deformation field, learned as an auxiliary function. We demonstrate that, by regularizing these deformation fields, we can encourage the implicit neural representation to induce natural deformations in the learned shape space, such as as-rigid-as-possible deformations.
翻訳日:2021-08-23 23:57:11 公開日:2021-08-19
# (参考訳) テキストコーパスのニューラルトピックモデリングのためのフレームワーク [全文訳有]

A Framework for Neural Topic Modeling of Text Corpora ( http://arxiv.org/abs/2108.08946v1 )

ライセンス: CC BY 4.0
Shayan Fazeli, Majid Sarrafzadeh(参考訳) トピックモデリング(Topic Modeling)は、テキストデータのコーパスで発生した主要なトピックを発見する問題であり、多くの分野において重要なアプリケーションを見つけるソリューションである。 本稿では,自然言語処理領域の最近の進歩に触発されて,テキストの特徴を抽出・統合し,それらをコーパスで意味的に類似したトピックやテキスト文書のクラスタリングに活用する,効率的なメカニズムを実現するオープンソースフレームワークであるfamを紹介する。 これらの特徴は、従来のアプローチ(例えば周波数ベース)から、BERTモデルファミリのようなトランスフォーマーベースの言語モデルからの最新の自動エンコード埋め込みまで様々である。 本ライブラリの有効性を示すために,よく知られたNews-Groupデータセットの実験を行った。 図書館はオンラインで入手できる。

Topic Modeling refers to the problem of discovering the main topics that have occurred in corpora of textual data, with solutions finding crucial applications in numerous fields. In this work, inspired by the recent advancements in the Natural Language Processing domain, we introduce FAME, an open-source framework enabling an efficient mechanism of extracting and incorporating textual features and utilizing them in discovering topics and clustering text documents that are semantically similar in a corpus. These features range from traditional approaches (e.g., frequency-based) to the most recent auto-encoding embeddings from transformer-based language models such as BERT model family. To demonstrate the effectiveness of this library, we conducted experiments on the well-known News-Group dataset. The library is available online.
翻訳日:2021-08-23 23:37:33 公開日:2021-08-19
# 深層学習に基づく宇宙船の相対航法:調査

Deep Learning-based Spacecraft Relative Navigation Methods: A Survey ( http://arxiv.org/abs/2108.08876v1 )

ライセンス: Link先を確認
Jianing Song, Duarte Rondao, Nabil Aouf(参考訳) 自律的な宇宙船相対航法技術は、多くの有名な宇宙ミッションに計画され、応用されている。 搭載電子システムの開発により、より良い性能を達成するためにビジョンベースおよびLiDARベースの手法が利用できるようになった。 一方、深層学習は様々な分野で大きな成功を収めており、特にコンピュータビジョンでは宇宙研究者の注目を集めている。 しかし、信頼性は高いが、大きなデータセットがないため、宇宙船の航行は地上の作業とは異なる。 この調査は、現在ディープラーニングに基づく無人宇宙船の相対航法を体系的に調査することを目的としており、宇宙船のランデブーや小天体や月への着陸といった具体的な軌道応用に焦点を当てている。 深層学習に基づく相対航法アルゴリズムの基本的特徴、主な動機、貢献は、まず、探査機ランデブー、小惑星探査、地形航法の3つの観点から要約される。 さらに、人気のあるビジュアルトラッキングベンチマークとその特性を比較して要約する。 最後に、潜在的なアプリケーションは、期待される障害とともに議論される。

Autonomous spacecraft relative navigation technology has been planned for and applied to many famous space missions. The development of on-board electronics systems has enabled the use of vision-based and LiDAR-based methods to achieve better performances. Meanwhile, deep learning has reached great success in different areas, especially in computer vision, which has also attracted the attention of space researchers. However, spacecraft navigation differs from ground tasks due to high reliability requirements but lack of large datasets. This survey aims to systematically investigate the current deep learning-based autonomous spacecraft relative navigation methods, focusing on concrete orbital applications such as spacecraft rendezvous and landing on small bodies or the Moon. The fundamental characteristics, primary motivations, and contributions of deep learning-based relative navigation algorithms are first summarised from three perspectives of spacecraft rendezvous, asteroid exploration, and terrain navigation. Furthermore, popular visual tracking benchmarks and their respective properties are compared and summarised. Finally, potential applications are discussed, along with expected impediments.
翻訳日:2021-08-23 13:40:53 公開日:2021-08-19
# instagramにおける違法薬物密売事件の検出--深層マルチモーダル・マルチラベル学習アプローチ

Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach ( http://arxiv.org/abs/2108.08920v1 )

ライセンス: Link先を確認
Chuanbo Hu, Minglei Yin, Bin Liu, Xin Li, Yanfang Ye(参考訳) instagramやtwitterといったソーシャルメディアは、違法薬物のマーケティングや販売の重要なプラットフォームとなっている。 オンライン違法薬物取引の検出は、違法薬物のオンライン取引と戦うために重要になっている。 しかし、法的地位はしばしば空間的・時間的に変化し、同じ薬物、連邦法、州法でもその合法性に関して異なる規則を持つことができる。 一方、より多くの麻薬密売事件は、情報の多様性につながる広告コメントの新しい形態に変装している。 そのため、ソーシャルメディアからの違法薬物密売事件(idte)の正確な検出がさらに困難になっている。 本研究では,Instagram上でのIDTEのきめ細かい検出に関する最初の系統的研究を行う。 マルチモーダルidte(mm-idte)と呼ばれるデータセット上でのidteの検出とその有効性を示すために,dmml(deep multimodal multilabel learning)アプローチを提案する。 具体的には,本モデルでは,テキストと画像データを入力とし,マルチモーダル情報を組み合わせて複数の違法薬物のラベルを予測する。 BERTの成功にインスパイアされた我々は,予め訓練されたテキストと画像エンコーダを併用して,自己制御型双方向変換器を開発した。 我々は,不正薬物の詳細な検出を支援するために,手動で注釈付き複数の薬物ラベルを付加した大規模データセットMM-IDTEを構築した。 MM-IDTEデータセットの大規模な実験結果から, DMML法では, 特別な文字やスタイル変化があってもIDTEを正確に検出できることがわかった。

Social media such as Instagram and Twitter have become important platforms for marketing and selling illicit drugs. Detection of online illicit drug trafficking has become critical to combat the online trade of illicit drugs. However, the legal status often varies spatially and temporally; even for the same drug, federal and state legislation can have different regulations about its legality. Meanwhile, more drug trafficking events are disguised as a novel form of advertising commenting leading to information heterogeneity. Accordingly, accurate detection of illicit drug trafficking events (IDTEs) from social media has become even more challenging. In this work, we conduct the first systematic study on fine-grained detection of IDTEs on Instagram. We propose to take a deep multimodal multilabel learning (DMML) approach to detect IDTEs and demonstrate its effectiveness on a newly constructed dataset called multimodal IDTE(MM-IDTE). Specifically, our model takes text and image data as the input and combines multimodal information to predict multiple labels of illicit drugs. Inspired by the success of BERT, we have developed a self-supervised multimodal bidirectional transformer by jointly fine-tuning pretrained text and image encoders. We have constructed a large-scale dataset MM-IDTE with manually annotated multiple drug labels to support fine-grained detection of illicit drugs. Extensive experimental results on the MM-IDTE dataset show that the proposed DMML methodology can accurately detect IDTEs even in the presence of special characters and style changes attempting to evade detection.
翻訳日:2021-08-23 13:40:41 公開日:2021-08-19
# neural tmdlayer: sdeジェネレータによる特徴の瞬時流れのモデリング

Neural TMDlayer: Modeling Instantaneous flow of features via SDE Generators ( http://arxiv.org/abs/2108.08891v1 )

ライセンス: Link先を確認
Zihang Meng, Vikas Singh, Sathya N. Ravi(参考訳) 我々は,確率微分方程式(SDE)に基づくアイデアが,コンピュータビジョンの一連の問題に対して,既存のアルゴリズムに新たな修正をもたらすかを検討する。 我々の定式化は、データ拡張と群同値の明示的戦略と暗黙的戦略の両方に関連しているが、確率過程の無限小生成を推定するSDE文献における新しい結果から導かれる。 アプリケーション/タスクのニーズと、効率的に処理できるプロセスタイプの固有の特性と振舞いとの間に、名目上の一致がある場合、私たちは、最小限の修正とわずかな追加パラメータで、既存のネットワークアーキテクチャに組み込むことができる非常にシンプルで効率的なプラグイン層を得る。 我々は,ショット学習,ポイントクラウドトランスフォーマー,深部変動分節による効率向上や性能向上など,多くのビジョンタスクにおいて有望な実験を行う。

We study how stochastic differential equation (SDE) based ideas can inspire new modifications to existing algorithms for a set of problems in computer vision. Loosely speaking, our formulation is related to both explicit and implicit strategies for data augmentation and group equivariance, but is derived from new results in the SDE literature on estimating infinitesimal generators of a class of stochastic processes. If and when there is nominal agreement between the needs of an application/task and the inherent properties and behavior of the types of processes that we can efficiently handle, we obtain a very simple and efficient plug-in layer that can be incorporated within any existing network architecture, with minimal modification and only a few additional parameters. We show promising experiments on a number of vision tasks including few shot learning, point cloud transformers and deep variational segmentation obtaining efficiency or performance improvements.
翻訳日:2021-08-23 13:37:16 公開日:2021-08-19
# 自動意思決定のための多人数インタラクション学習による個人化次善行動推薦

Personalized next-best action recommendation with multi-party interaction learning for automated decision-making ( http://arxiv.org/abs/2108.08846v1 )

ライセンス: Link先を確認
Longbing Cao and Chengzhang Zhu(参考訳) ナチュラル、ソーシャル、ビジネスの意思決定において、逐次的、動的、インタラクティブなコンテキストで各顧客に対して、次善のアクションを推奨する自動化が広く求められている。 パーソナライズされた次のベストアクションレコメンデーションは、過去、現在、将来の顧客人口統計、状況(状態)、行動、顧客と意思決定者の間の長期的なシーケンシャルなインタラクション、状態、行動、行動の間の複数シーケンスインタラクション、相手の行動に対する反応を含む必要がある。 マルコフ決定過程、ユーザと振る舞いのモデリング、深いシーケンシャルモデリング、パーソナライズされたシーケンシャルレコメンデーションなど、既存のモデリング理論やツールは、このような複雑な意思決定を個人レベルで定量化することはできない。 強化結合型リカレントニューラルネットワーク(crn)によるパーソナライズ意思決定のための次の最善のアクションを学ぶために,データ駆動アプローチを採用する。 CRNは、顧客の過去の状態と現在の状態、意思決定者の行動に対する応答、行動に対する決定報酬、そして当事者(顧客と意思決定者)間の長期的な複数シーケンスの相互作用を学ぶ複数の動的シーケンスを表す。 次に、各顧客に対して最適な意思決定目標のために状態を変更するための次善行動が推奨される。 本研究は、複雑なシステムにおけるパーソナライズされた意思決定のための、複数シーケンスインタラクションのパーソナライズされたディープラーニングと自動動的介入の可能性を示す。

Automated next-best action recommendation for each customer in a sequential, dynamic and interactive context has been widely needed in natural, social and business decision-making. Personalized next-best action recommendation must involve past, current and future customer demographics and circumstances (states) and behaviors, long-range sequential interactions between customers and decision-makers, multi-sequence interactions between states, behaviors and actions, and their reactions to their counterpart's actions. No existing modeling theories and tools, including Markovian decision processes, user and behavior modeling, deep sequential modeling, and personalized sequential recommendation, can quantify such complex decision-making on a personal level. We take a data-driven approach to learn the next-best actions for personalized decision-making by a reinforced coupled recurrent neural network (CRN). CRN represents multiple coupled dynamic sequences of a customer's historical and current states, responses to decision-makers' ; actions, decision rewards to actions, and learns long-term multi-sequence interactions between parties (customer and decision-maker). Next-best actions are then recommended on each customer at a time point to change their state for an optimal decision-making objective. Our study demonstrates the potential of personalized deep learning of multi-sequence interactions and automated dynamic intervention for personalized decision-making in complex systems.
翻訳日:2021-08-23 13:35:47 公開日:2021-08-19
# mofit: マシンラーニングとiotを使用した肥満を軽減するフレームワーク

MOFit: A Framework to reduce Obesity using Machine learning and IoT ( http://arxiv.org/abs/2108.08868v1 )

ライセンス: Link先を確認
Satvik Garg and Pradyumn Pundir(参考訳) 近年では技術の進歩により、都市部における定住生活様式が最盛期を迎えている。 その結果、早期に肥満の被害者となる。 肥満には糖尿病、心臓病、血圧問題など様々な健康影響がある。 過去数年間の機械学習は、予測、医療、医療画像、感情分析など、あらゆる専門知識にその意味を示している。 本研究では、ランダムフォレスト、決定木、XGBoost、エクストラツリー、KNNといった機械学習アルゴリズムを用いて、肥満度(分類)、体重、脂肪比率(回帰)を様々なパラメータを用いて予測するモデルをトレーニングするフレームワークの提供を目的とする。 また,遺伝的アルゴリズム,ランダム探索,グリッド探索,オプトゥーナなどのハイパーパラメータ最適化(HPO)アルゴリズムを適用して,モデルの精度をさらに向上させた。 Webサイトフレームワークには、カスタマイズ可能なダイエット計画の作成、ワークアウト計画、進捗を追跡するダッシュボードなど、さまざまな機能が含まれている。 フレームワークはPython Flaskを使って構築されている。 さらに、IoT(Internet of Things)を用いた測定尺度もフレームワークに統合され、食物摂取量からカロリーやマクロ栄養素を追跡する。

From the past few years, due to advancements in technologies, the sedentary living style in urban areas is at its peak. This results in individuals getting a victim of obesity at an early age. There are various health impacts of obesity like Diabetes, Heart disease, Blood pressure problems, and many more. Machine learning from the past few years is showing its implications in all expertise like forecasting, healthcare, medical imaging, sentiment analysis, etc. In this work, we aim to provide a framework that uses machine learning algorithms namely, Random Forest, Decision Tree, XGBoost, Extra Trees, and KNN to train models that would help predict obesity levels (Classification), Bodyweight, and fat percentage levels (Regression) using various parameters. We also applied and compared various hyperparameter optimization (HPO) algorithms such as Genetic algorithm, Random Search, Grid Search, Optuna to further improve the accuracy of the models. The website framework contains various other features like making customizable Diet plans, workout plans, and a dashboard to track the progress. The framework is built using the Python Flask. Furthermore, a weighing scale using the Internet of Things (IoT) is also integrated into the framework to track calories and macronutrients from food intake.
翻訳日:2021-08-23 13:35:18 公開日:2021-08-19
# smart predict-then-optimiz e法におけるリスク境界とキャリブレーション

Risk Bounds and Calibration for a Smart Predict-then-Optimiz e Method ( http://arxiv.org/abs/2108.08887v1 )

ライセンス: Link先を確認
Heyuan Liu, Paul Grigas(参考訳) まず、最適化モデルの未知のパラメータを予測し、次に予測値を用いて問題を解決する。 予測パラメータによって引き起こされる決定誤差をelmachtoub と grigas [arxiv:1710.08005] による smart predict-then-optimiz e (spo) 損失と命名し、この設定における自然損失関数を定義する。 SPO損失は典型的には非凸であり、おそらく不連続であるので、エルマハトウブとグリガス(arXiv:1710.08005)はSPO+損失と呼ばれる凸代理を導入した。 本稿では,Elmachtoub と Grigas [arXiv:1710.08005] による SPO+ 損失の整合性について検討した。 SPO損失に対するリスクバウンドとSPO+損失に対する均一なキャリブレーション結果を構築し,過剰なサロゲートリスクを過剰な真のリスクに移行する定量的な方法を提供する。 我々のリスク境界と一般化境界を組み合わせることで、SPO+損失の実証的最小化が、高い確率で低い過大な真のリスクを達成することを示す。 まず, 基本最適化問題の実現可能な領域がポリヘドロンである場合において, これらの結果を実証し, そして, 強凸関数のレベルセットである場合に, 結果が実質的に強化可能であることを示す。 ポートフォリオの割り当てとコストに敏感なマルチクラス分類問題に関して,標準の$\ell_1$および$\ell_2$予測エラー損失と比較して,spo+サロゲートの強みを実証的に示す実験を行った。

The predict-then-optimiz e framework is fundamental in practical stochastic decision-making problems: first predict unknown parameters of an optimization model, then solve the problem using the predicted values. A natural loss function in this setting is defined by measuring the decision error induced by the predicted parameters, which was named the Smart Predict-then-Optimiz e (SPO) loss by Elmachtoub and Grigas [arXiv:1710.08005]. Since the SPO loss is typically nonconvex and possibly discontinuous, Elmachtoub and Grigas [arXiv:1710.08005] introduced a convex surrogate, called the SPO+ loss, that importantly accounts for the underlying structure of the optimization model. In this paper, we greatly expand upon the consistency results for the SPO+ loss provided by Elmachtoub and Grigas [arXiv:1710.08005]. We develop risk bounds and uniform calibration results for the SPO+ loss relative to the SPO loss, which provide a quantitative way to transfer the excess surrogate risk to excess true risk. By combining our risk bounds with generalization bounds, we show that the empirical minimizer of the SPO+ loss achieves low excess true risk with high probability. We first demonstrate these results in the case when the feasible region of the underlying optimization problem is a polyhedron, and then we show that the results can be strengthened substantially when the feasible region is a level set of a strongly convex function. We perform experiments to empirically demonstrate the strength of the SPO+ surrogate, as compared to standard $\ell_1$ and squared $\ell_2$ prediction error losses, on portfolio allocation and cost-sensitive multi-class classification problems.
翻訳日:2021-08-23 13:33:38 公開日:2021-08-19
# 多目的設計不確実性最適化のための局所ラテンハイパーキューブ微細化

Local Latin Hypercube Refinement for Multi-objective Design Uncertainty Optimization ( http://arxiv.org/abs/2108.08890v1 )

ライセンス: Link先を確認
Can Bogoclu, Dirk Roos, Tamara Nestorovi\'c(参考訳) 信頼性と設計のロバスト性を最適化することは重要であるが、高いサンプル要求のためにしばしば耐えられない。 統計的および機械学習手法に基づく代理モデルを用いてサンプル効率を向上させる。 しかし、高次元または多モードのシステムでは、サロゲートモデルは良い結果を得るために大量のサンプルを必要とする。 本稿では,多目的信頼度に基づくロバスト設計最適化問題のサロゲートベース解に対する逐次サンプリング戦略を提案する。 提案されたローカル・ラテン・ハイパーキューブ・リファインメント(LoLHR)戦略は、モデルに依存しないものであり、どんな代理モデルとも組み合わせることができる。 提案手法を定常サンプリング法や文献から提案された戦略と比較する。 ガウス過程と支持ベクトル回帰はどちらも代理モデルとして用いられる。 実証的な証拠が提示され、LoLHRは試験例の他のサロゲートベースの戦略と比較して平均的なより良い結果が得られることを示した。

Optimizing the reliability and the robustness of a design is important but often unaffordable due to high sample requirements. Surrogate models based on statistical and machine learning methods are used to increase the sample efficiency. However, for higher dimensional or multi-modal systems, surrogate models may also require a large amount of samples to achieve good results. We propose a sequential sampling strategy for the surrogate based solution of multi-objective reliability based robust design optimization problems. Proposed local Latin hypercube refinement (LoLHR) strategy is model-agnostic and can be combined with any surrogate model because there is no free lunch but possibly a budget one. The proposed method is compared to stationary sampling as well as other proposed strategies from the literature. Gaussian process and support vector regression are both used as surrogate models. Empirical evidence is presented, showing that LoLHR achieves on average better results compared to other surrogate based strategies on the tested examples.
翻訳日:2021-08-23 13:33:05 公開日:2021-08-19
# 注意機構と合成データによる肺感染領域の分節化

Segmentation of Lungs COVID Infected Regions by Attention Mechanism and Synthetic Data ( http://arxiv.org/abs/2108.08895v1 )

ライセンス: Link先を確認
Parham Yazdekhasty, Ali Zindari, Zahra Nabizadeh-ShahreBaba k, Pejman Khadivi, Nader Karimi, Shadrokh Samavi(参考訳) コロナウイルスは何十万人もの死者を出した。 全ての患者が適切な治療を受けることができれば、死亡率は低下する可能性がある。 機械学習、特にディープラーニングに基づくコンピュータビジョンの手法は、医療専門家が新型コロナウイルス感染症の診断と治療をより効率的に行うのに役立つ。 したがって、感染した患者は医療システムからより良いサービスを得て、新型コロナウイルスによる死者数を減らすことができる。 本研究は,感染した肺領域をCT画像に分割する手法を提案する。 この目的のために、注意機構を備えた畳み込みニューラルネットワークを用いて、複雑なパターンを持つ感染領域を検出する。 注意ブロックは、画像の情報部分に着目してセグメンテーション精度を向上させる。 さらに、生成敵対ネットワークは、利用可能な小さなデータセットのデータの増大と拡張のための合成画像を生成する。 実験の結果,提案手法は既存の方法に比べて優れていることがわかった。

Coronavirus has caused hundreds of thousands of deaths. Fatalities could decrease if every patient could get suitable treatment by the healthcare system. Machine learning, especially computer vision methods based on deep learning, can help healthcare professionals diagnose and treat COVID-19 infected cases more efficiently. Hence, infected patients can get better service from the healthcare system and decrease the number of deaths caused by the coronavirus. This research proposes a method for segmenting infected lung regions in a CT image. For this purpose, a convolutional neural network with an attention mechanism is used to detect infected areas with complex patterns. Attention blocks improve the segmentation accuracy by focusing on informative parts of the image. Furthermore, a generative adversarial network generates synthetic images for data augmentation and expansion of small available datasets. Experimental results show the superiority of the proposed method compared to some existing procedures.
翻訳日:2021-08-23 13:32:35 公開日:2021-08-19
# Sentence-T5: 事前訓練されたテキスト-テキストモデルからのスケーラブルな文エンコーダ

Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models ( http://arxiv.org/abs/2108.08877v1 )

ライセンス: Link先を確認
Jianmo Ni, Gustavo Hern\'andez {\'A}brego, Noah Constant, Ji Ma, Keith B. Hall, Daniel Cer, Yinfei Yang(参考訳) テキスト・トゥ・テキスト・トランスフォーマー (T5) 文の埋め込みを初めて行う。 文の埋め込みは言語処理タスクに広く有用である。 t5はシーケンシャル-シーケンスマッピング問題としてキャストされた言語タスクで印象的なパフォーマンスを達成しているが、エンコーダ-デコーダモデルから文を埋め込む方法が不明である。 本稿では,T5エンコーダのみを使用し,T5エンコーダ-デコーダモデルを用いて,T5文埋め込みを抽出する3つの手法について検討する。 エンコーダのみのモデルは、転送タスクとセマンティックテキスト類似性(STS)の両方においてBERTベースの文埋め込みよりも優れている。 エンコーダデコーダ法はSTSのさらなる改良を実現する。 数百万から数十億のパラメータへのT5のスケールアップは、下流タスクで一貫した改善をもたらす。 最後に,2段階のコントラスト学習手法を導入し,文埋め込みによるSTSにおける新しい最先端の学習を実現する。

We provide the first exploration of text-to-text transformers (T5) sentence embeddings. Sentence embeddings are broadly useful for language processing tasks. While T5 achieves impressive performance on language tasks cast as sequence-to-sequence mapping problems, it is unclear how to produce sentence embeddings from encoder-decoder models. We investigate three methods for extracting T5 sentence embeddings: two utilize only the T5 encoder and one uses the full T5 encoder-decoder model. Our encoder-only models outperforms BERT-based sentence embeddings on both transfer tasks and semantic textual similarity (STS). Our encoder-decoder method achieves further improvement on STS. Scaling up T5 from millions to billions of parameters is found to produce consistent improvements on downstream tasks. Finally, we introduce a two-stage contrastive learning approach that achieves a new state-of-art on STS using sentence embeddings, outperforming both Sentence BERT and SimCSE.
翻訳日:2021-08-23 13:32:08 公開日:2021-08-19
# より公平なランドマーク認識データセットに向けて

Towards A Fairer Landmark Recognition Dataset ( http://arxiv.org/abs/2108.08874v1 )

ライセンス: Link先を確認
Zu Kim, Andr\'e Araujo, Bingyi Cao, Cam Askew, Jack Sim, Mike Green, N'Mah Fodiatu Yilla, Tobias Weyand(参考訳) 我々は、世界の公正な表現に焦点を当てた、新しいランドマーク認識データセットを導入する。 以前の研究では、できるだけ多くの画像をWebリポジトリから収集することを提案していましたが、その代わりに、そのようなアプローチはバイアスのあるデータにつながる可能性があると議論しています。 より包括的で公平なデータセットを作成するには、まず、世界人口に対するランドマークの公正な関連性を定義することから始める。 これらの関連性は、匿名化されたgoogleマップユーザーの貢献統計と貢献者の人口統計情報を組み合わせることで推定される。 我々は階層化アプローチと分析を行い,既存のデータセットと比較して世界をより公平にカバーする手法を提案する。 得られたデータセットは、google landmark recognition and retrievalchallenges 2021の一部としてコンピュータビジョンモデルを評価するために使用される。

We introduce a new landmark recognition dataset, which is created with a focus on fair worldwide representation. While previous work proposes to collect as many images as possible from web repositories, we instead argue that such approaches can lead to biased data. To create a more comprehensive and equitable dataset, we start by defining the fair relevance of a landmark to the world population. These relevances are estimated by combining anonymized Google Maps user contribution statistics with the contributors' demographic information. We present a stratification approach and analysis which leads to a much fairer coverage of the world, compared to existing datasets. The resulting datasets are used to evaluate computer vision models as part of the the Google Landmark Recognition and RetrievalChallenges 2021.
翻訳日:2021-08-23 13:30:14 公開日:2021-08-19
# CenterPoly: 有界ポリゴンを用いたリアルタイムインスタンスセグメンテーション

CenterPoly: real-time instance segmentation using bounding polygons ( http://arxiv.org/abs/2108.08923v1 )

ライセンス: Link先を確認
Hughes Perreault, Guillaume-Alexandre Bilodeau, Nicolas Saunier and Maguelonne H\'eritier(参考訳) 有界多角形を用いたリアルタイムインスタンスセグメンテーションのための新しい手法であるCenterPolyを提案する。 都市密集環境における道路利用者の検出に応用し,自動走行車などのインテリジェント交通システムへの適用に適している。 CenterPolyは、各オブジェクトに対する固定数のポリゴン頂点を予測しながら、その中心キーポイントでオブジェクトを検出し、並列に検出とセグメンテーションを行う。 ネットワークパラメータのほとんどはネットワークヘッドによって共有され、高速かつ軽量でリアルタイムに実行することができる。 マスク接地をポリゴン接地接地接地に適切に変換するため,多角形学習を容易にするために頂点選択戦略を考案した。 さらに,密集した都市シーンで重なり合う物体をよりよくセグメント化するために,利用可能な弱いアノテーションを用いて,相対的な深さ分岐を訓練して,どのインスタンスが近いか,さらにどのインスタンスが近いかを判断する。 速度/精度のトレードオフを示すために,異なるバックボーンを持つモデルを提案する。 モデルは、Cityscapes、KITTI、IDDでトレーニング、評価され、その結果は彼らの公開ベンチマークで報告される。 コードはhttps://github.com/h u64/CenterPolyで入手できる。

We present a novel method, called CenterPoly, for real-time instance segmentation using bounding polygons. We apply it to detect road users in dense urban environments, making it suitable for applications in intelligent transportation systems like automated vehicles. CenterPoly detects objects by their center keypoint while predicting a fixed number of polygon vertices for each object, thus performing detection and segmentation in parallel. Most of the network parameters are shared by the network heads, making it fast and lightweight enough to run at real-time speed. To properly convert mask ground-truth to polygon ground-truth, we designed a vertex selection strategy to facilitate the learning of the polygons. Additionally, to better segment overlapping objects in dense urban scenes, we also train a relative depth branch to determine which instances are closer and which are further, using available weak annotations. We propose several models with different backbones to show the possible speed / accuracy trade-offs. The models were trained and evaluated on Cityscapes, KITTI and IDD and the results are reported on their public benchmark, which are state-of-the-art at real-time speeds. Code is available at https://github.com/h u64/CenterPoly
翻訳日:2021-08-23 13:29:59 公開日:2021-08-19
# PatchMatch-RL:Pixelw ise Depth, Normal, Visibilityを備えたディープMVS

PatchMatch-RL: Deep MVS with Pixelwise Depth, Normal, and Visibility ( http://arxiv.org/abs/2108.08943v1 )

ライセンス: Link先を確認
Jae Yong Lee, Joseph DeGol, Chuhang Zou, Derek Hoiem(参考訳) 近年の学習型マルチビューステレオ(MVS)法は,高密度カメラと小深度範囲で優れた性能を示す。 しかし、非学習ベースのアプローチは、深さ、正規値、可視性のピクセルごとの推定よりもパッチマッチングの最適化が原因で、大きな深度範囲とスパーザーの広いベースラインビューを持つシーンでは依然として優れています。 本稿では,トレーニング可能なコストと正規化の利点をピクセルワイズ推定と組み合わせた,エンドツーエンドで訓練可能なパッチマッチベースのmvs手法を提案する。 反復サンプリングとハード決定を伴う非微分パッチマッチング最適化の課題を克服するために、強化学習を用いて測光コストを最小化し、基底真理深さと正規値の可能性を最大化する。 拡張パッチカーネルを用いた正規推定を取り入れ, 画素幅の深さ/正規推定に対して, 前向き平面スイープアルゴリズムを超える繰り返しコスト正規化を提案する。 本手法は,広く使用されているmvsベンチマーク,eth3dおよびtnt(tnt)を用いて評価し,他のmvsモデルとの比較を行った。 eth3dでは,最近の学習ベースアプローチを上回り,先進的tntで比較可能である。

Recent learning-based multi-view stereo (MVS) methods show excellent performance with dense cameras and small depth ranges. However, non-learning based approaches still outperform for scenes with large depth ranges and sparser wide-baseline views, in part due to their PatchMatch optimization over pixelwise estimates of depth, normals, and visibility. In this paper, we propose an end-to-end trainable PatchMatch-based MVS approach that combines advantages of trainable costs and regularizations with pixelwise estimates. To overcome the challenge of the non-differentiable PatchMatch optimization that involves iterative sampling and hard decisions, we use reinforcement learning to minimize expected photometric cost and maximize likelihood of ground truth depth and normals. We incorporate normal estimation by using dilated patch kernels, and propose a recurrent cost regularization that applies beyond frontal plane-sweep algorithms to our pixelwise depth/normal estimates. We evaluate our method on widely used MVS benchmarks, ETH3D and Tanks and Temples (TnT), and compare to other state of the art learning based MVS models. On ETH3D, our method outperforms other recent learning-based approaches and performs comparably on advanced TnT.
翻訳日:2021-08-23 13:29:37 公開日:2021-08-19
# Topo2vec:フラクタル効果を用いた地形埋め込み

Topo2vec: Topography Embedding Using the Fractal Effect ( http://arxiv.org/abs/2108.08870v1 )

ライセンス: Link先を確認
Jonathan Kavitzky, Jonathan Zarecki, Idan Brusilovsky, Uriel Singer(参考訳) 近年のディープラーニングの進歩は,ラベリングの最小化による予測性能の向上が可能な汎用的な埋め込み空間を導入することで,多くの分野に変化をもたらした。 地質学の分野はまだそのような成功には至っていない。 本稿では,遠隔センシング画像におけるフラクタル効果を利用した自己教師あり学習手法の拡張を提案する。 フラクタル効果は、同じ構造(例えば川、ピーク、サドル)が全てのスケールで現れると仮定している。 提案手法の有効性を標高データに示すとともに,その効果を推論に用いた。 複数の分類タスクを広範囲に分析し,同じクラスを異なるスケールで検出することの有効性を強調する。 我々の知る限りでは、地形画像の汎用表現を構築しようとする最初の試みである。

Recent advances in deep learning have transformed many fields by introducing generic embedding spaces, capable of achieving great predictive performance with minimal labeling effort. The geology field has not yet met such success. In this work, we introduce an extension for self-supervised learning techniques tailored for exploiting the fractal-effect in remote-sensing images. The fractal-effect assumes that the same structures (for example rivers, peaks and saddles) will appear in all scales. We demonstrate our method's effectiveness on elevation data, we also use the effect in inference. We perform an extensive analysis on several classification tasks and emphasize its effectiveness in detecting the same class on different scales. To the best of our knowledge, it is the first attempt to build a generic representation for topographic images.
翻訳日:2021-08-23 13:22:34 公開日:2021-08-19
# CCDイメージセンサに対する信号注入攻撃

Signal Injection Attacks against CCD Image Sensors ( http://arxiv.org/abs/2108.08881v1 )

ライセンス: Link先を確認
Sebastian K\"ohler, Richard Baker, Ivan Martinovic(参考訳) 自動運転車や監視など、多くの安全クリティカルなシステムやアプリケーションにおいて、カメラが重要な役割を担っているため、学術的および非学術的な研究が主要なコンポーネントであるイメージセンサーに対する攻撃を示している。 しかし、これらの攻撃は、光が攻撃ベクトルとして使用されるため、粗粒化され、しばしば疑わしい注射に限定される。 さらに、光学攻撃の性質上、敵とターゲットカメラの間の視線線が必要である。 本稿では, ccdイメージセンサに対するポストトランスデューサ信号注入攻撃について, 専門的, 科学的, 軍事的にも応用できる新しい手法を提案する。 我々は,CCDイメージセンサが捉えた画像情報を,個々の画素の明るさまで微細度で操作するために,電磁エマニュエーションをどのように利用できるかを示す。 我々は,攻撃の可能性を調査し,その効果をバーコード自動スキャンのシナリオで実証する。 以上の結果から,インジェクション歪みは自動視覚に基づく知的システムを混乱させる可能性が示唆された。

Since cameras have become a crucial part in many safety-critical systems and applications, such as autonomous vehicles and surveillance, a large body of academic and non-academic work has shown attacks against their main component - the image sensor. However, these attacks are limited to coarse-grained and often suspicious injections because light is used as an attack vector. Furthermore, due to the nature of optical attacks, they require the line-of-sight between the adversary and the target camera. In this paper, we present a novel post-transducer signal injection attack against CCD image sensors, as they are used in professional, scientific, and even military settings. We show how electromagnetic emanation can be used to manipulate the image information captured by a CCD image sensor with the granularity down to the brightness of individual pixels. We study the feasibility of our attack and then demonstrate its effects in the scenario of automatic barcode scanning. Our results indicate that the injected distortion can disrupt automated vision-based intelligent systems.
翻訳日:2021-08-23 13:21:04 公開日:2021-08-19
# 垂直および水平データ分割による多層ネットワークのためのクロスサイロフェデレート学習

Cross-Silo Federated Learning for Multi-Tier Networks with Vertical and Horizontal Data Partitioning ( http://arxiv.org/abs/2108.08930v1 )

ライセンス: Link先を確認
Anirban Das, Shiqiang Wang and Stacy Patterson(参考訳) 連携型通信ネットワークにおける連合学習について考察する。 我々のネットワークモデルはサイロの集合で構成され、それぞれがデータの垂直分割を保持する。 各サイロにはハブとクライアントセットが含まれており、サイロの垂直データシャードはクライアント間で水平に分割されている。 このような2層ネットワークのための通信効率の高い分散学習アルゴリズムであるTiered Decentralized Coordinate Descent (TDCD)を提案する。 通信オーバーヘッドを低減するため、各サイロのクライアントは、ハブとアップデートを共有する前に、複数のローカル勾配ステップを実行する。 各ハブは、労働者の更新を平均して座標を調整し、ハブは中間更新を相互に交換する。 本稿では,アルゴリズムの理論的解析を行い,各ハブにおける垂直分割数,局所更新数,クライアント数に対する収束率の依存性を示す。 さらに,様々なデータセットと目的を用いてシミュレーション実験を行い,実証的な検証を行った。

We consider federated learning in tiered communication networks. Our network model consists of a set of silos, each holding a vertical partition of the data. Each silo contains a hub and a set of clients, with the silo's vertical data shard partitioned horizontally across its clients. We propose Tiered Decentralized Coordinate Descent (TDCD), a communication-effici ent decentralized training algorithm for such two-tiered networks. To reduce communication overhead, the clients in each silo perform multiple local gradient steps before sharing updates with their hub. Each hub adjusts its coordinates by averaging its workers' updates, and then hubs exchange intermediate updates with one another. We present a theoretical analysis of our algorithm and show the dependence of the convergence rate on the number of vertical partitions, the number of local updates, and the number of clients in each hub. We further validate our approach empirically via simulation-based experiments using a variety of datasets and objectives.
翻訳日:2021-08-23 13:19:13 公開日:2021-08-19
# ビッグデータ時代における地球観測利用の課題と解決策

Challenges and Solutions for Utilizing Earth Observations in the "Big Data" era ( http://arxiv.org/abs/2108.08886v1 )

ライセンス: Link先を確認
Lachezar Filchev, Lyubka Pashova, Vasil Kolev, Stuart Frye(参考訳) 過去10年間の社会の持続的な発展に寄与するデータ保存の必要性とその体系的分析は、数多くのビッグデータプロジェクトやイニシアチブが地球観測(EO)に焦点を当てている。 ビッグデータEOアプリケーションの数は、宇宙と情報技術科学における革新的な技術進歩により、人間の知識の他の科学的および技術的領域とほぼ同時に、世界中で著しく増加している。 この開発に大きな貢献は、NASA、ESA、ロスコスモス、JAXA、DLR、INPE、ISRO、CNESなどの有名な宇宙機関の宇宙計画である。 ブルガリアの領土をカバーする利用可能な衛星ミッションから、現在のビッグデータセットのスナップショットも紹介されている。 EOに焦点を当てた地球科学のビッグデータコレクションの概要は、EOデータの保存と操作における現在の最先端のスナップショットを提供するために、EOの複数のVを強調します。 ビッグデータ解析,解釈,可視化のための地理情報科学におけるEOの圧縮,クラスタリング,モデリングに関する最新のアプローチについて概説する。 現代のEOデータモデリングと可視化システムに特に注目されている。

The ever-growing need of data preservation and their systematic analysis contributing to sustainable development of the society spurred in the past decade,numerous Big Data projects and initiatives are focusing on the Earth Observation (EO). The number of Big Data EO applications has grown extremely worldwide almost simultaneously with other scientific and technological areas of the human knowledge due to the revolutionary technological progress in the space and information technology sciences. The substantial contribution to this development are the space programs of the renowned space agencies, such as NASA, ESA,Roskosmos, JAXA, DLR, INPE, ISRO, CNES etc. A snap-shot of the current Big Data sets from available satellite missions covering the Bulgarian territory is also presented. This short overview of the geoscience Big Data collection with a focus on EO will emphasize to the multiple Vs of EO in order to provide a snapshot on the current state-of-the-art in EO data preservation and manipulation. Main modern approaches for compressing, clustering and modelling EO in the geoinformation science for Big Data analysis, interpretation and visualization for a variety of applications are outlined. Special attention is paid to the contemporary EO data modelling and visualization systems.
翻訳日:2021-08-23 13:17:20 公開日:2021-08-19
# 自動運賃収集データを用いたネットワーク全体のリンク移動時間と駅待ち時間推定:計算グラフによるアプローチ

Network-wide link travel time and station waiting time estimation using automatic fare collection data: A computational graph approach ( http://arxiv.org/abs/2108.09292v1 )

ライセンス: Link先を確認
Jinlei Zhang, Feng Chen, Lixing Yang, Wei Ma, Guangyin Jin, and Ziyou Gao(参考訳) 北京や香港などの大都市では、都市鉄道交通(URT)が支配的な役割を担っている。 重要な役割と複雑な性質のため、公共機関が URT システムの性能をよりよく理解することが常に必要である。 本稿では,URTシステムにおける自動運賃収集(AFC)データを用いて,ネットワーク全体のリンク移動時間と局待ち時間を推定する上で,本質的かつ困難な問題に焦点を当てた。 機械学習分野における計算グラフ(CG)モデルのような新しいデータ駆動技術は、この問題を解決するための新しいソリューションを提供する。 本研究では,まずデータ駆動型推定手法を定式化し,リンク走行時間と駅待ち時間を推定する。 そこで我々は,最適化問題を解き,評価結果を得るために,推定最適化モデルをCGフレームワークにキャストした。 本手法は, 合成URTネットワーク上で検証し, 実世界のAFCデータを用いて実世界のURTネットワークに適用する。 その結果,CGベースのフレームワークの堅牢性と有効性を示した。 私たちの知る限りでは、CGがURTに適用されたのはこれが初めてです。 この研究は、RTの運用状態をよりよく理解するための重要な洞察を与えることができる。

Urban rail transit (URT) system plays a dominating role in many megacities like Beijing and Hong Kong. Due to its important role and complex nature, it is always in great need for public agencies to better understand the performance of the URT system. This paper focuses on an essential and hard problem to estimate the network-wide link travel time and station waiting time using the automatic fare collection (AFC) data in the URT system, which is beneficial to better understand the system-wide real-time operation state. The emerging data-driven techniques, such as computational graph (CG) models in the machine learning field, provide a new solution for solving this problem. In this study, we first formulate a data-driven estimation optimization framework to estimate the link travel time and station waiting time. Then, we cast the estimation optimization model into a CG framework to solve the optimization problem and obtain the estimation results. The methodology is verified on a synthetic URT network and applied to a real-world URT network using the synthetic and real-world AFC data, respectively. Results show the robustness and effectiveness of the CG-based framework. To the best of our knowledge, this is the first time that the CG is applied to the URT. This study can provide critical insights to better understand the operational state in URT.
翻訳日:2021-08-23 13:15:29 公開日:2021-08-19
# (参考訳) Box-Adapt: バウンディングボックススーパービジョンを用いたドメイン適応医療画像セグメンテーション [全文訳有]

Box-Adapt: Domain-Adaptive Medical Image Segmentation using Bounding BoxSupervision ( http://arxiv.org/abs/2108.08432v1 )

ライセンス: CC BY 4.0
Yanwu Xu, Mingming Gong, Kayhan Batmanghelich(参考訳) 深層学習は医療画像のセグメンテーションにおいて顕著な成功を収めてきたが、通常は細粒度のセグメンテーションマスクをラベル付けした大量の画像を必要とする。 したがって、最近の手法では、他のデータセット(ソースドメイン)のラベル付きデータから新しいデータセット(ターゲットドメイン)へのインフォームを、教師なしドメイン適応(UDA)メソッドで借りようとする。 しかし、対象ドメインにラベルがないため、UDA手法の性能は、完全に教師されたメソッドよりもはるかに悪い。 本稿では,セグメント化マスクよりも容易で安価であるバウンディングボックスで新しいデータセットを部分的にラベル付けできる,弱い教師付きdo-main適応設定を提案する。 そこで本研究では,ソースドメインの細粒度セグメントマスクとターゲットドメインの弱バウンディングボックスを完全に探索する,box-adaptと呼ばれる新しい弱教師付きドメイン適応手法を提案する。 私たちのBox-Adaptは、まずソースとターゲットドメインのジョイントトレーニングを行い、続いてターゲットドメインの擬似ラベルで自己学習を行う2段階の手法である。 肝分画課題における本手法の有効性を実証する。 弱教師付きdo-main適応

Deep learning has achieved remarkable success in medicalimage segmentation, but it usually requires a large numberof images labeled with fine-grained segmentation masks, andthe annotation of these masks can be very expensive andtime-consuming. Therefore, recent methods try to use un-supervised domain adaptation (UDA) methods to borrow in-formation from labeled data from other datasets (source do-mains) to a new dataset (target domain). However, due tothe absence of labels in the target domain, the performance ofUDA methods is much worse than that of the fully supervisedmethod. In this paper, we propose a weakly supervised do-main adaptation setting, in which we can partially label newdatasets with bounding boxes, which are easier and cheaperto obtain than segmentation masks. Accordingly, we proposea new weakly-supervised domain adaptation method calledBox-Adapt, which fully explores the fine-grained segmenta-tion mask in the source domain and the weak bounding boxin the target domain. Our Box-Adapt is a two-stage methodthat first performs joint training on the source and target do-mains, and then conducts self-training with the pseudo-labelsof the target domain. We demonstrate the effectiveness of ourmethod in the liver segmentation task. Weakly supervised do-main adaptation
翻訳日:2021-08-21 03:23:10 公開日:2021-08-19
# (参考訳) 視覚位置認識のための意味強化注意学習 [全文訳有]

Semantic Reinforced Attention Learning for Visual Place Recognition ( http://arxiv.org/abs/2108.08443v1 )

ライセンス: CC BY 4.0
Guohao Peng, Yufeng Yue, Jun Zhang, Zhenyu Wu, Xiaoyu Tang and Danwei Wang(参考訳) 大規模視覚位置認識(vpr)は、画像中のすべての視覚手がかりがタスクに有用であるとは限らないため、本質的に困難である。 機能埋め込みにおけるタスク関連視覚的手がかりを強調するために、既存の注意機構は人工ルールに基づくか、徹底したデータ駆動方式で訓練されている。 この2つのタイプのギャップを埋めるために,提案するsralnet(semantic reinforced attention learning network)を提案する。 貢献は2つある。 1) 局所的特徴のミスリードを抑制するため,階層的特徴分布に基づく解釈可能な局所重み付け方式を提案する。 2) 局所重み付けスキームの解釈可能性を利用して, 局所的注意を意味的優先によって強化できるように, 意味的制約付き初期化を提案する。 実験により,本手法が都市規模vprベンチマークデータセットの最先端技術を上回ることを実証した。

Large-scale visual place recognition (VPR) is inherently challenging because not all visual cues in the image are beneficial to the task. In order to highlight the task-relevant visual cues in the feature embedding, the existing attention mechanisms are either based on artificial rules or trained in a thorough data-driven manner. To fill the gap between the two types, we propose a novel Semantic Reinforced Attention Learning Network (SRALNet), in which the inferred attention can benefit from both semantic priors and data-driven fine-tuning. The contribution lies in two-folds. (1) To suppress misleading local features, an interpretable local weighting scheme is proposed based on hierarchical feature distribution. (2) By exploiting the interpretability of the local weighting scheme, a semantic constrained initialization is proposed so that the local attention can be reinforced by semantic priors. Experiments demonstrate that our method outperforms state-of-the-art techniques on city-scale VPR benchmark datasets.
翻訳日:2021-08-21 03:08:37 公開日:2021-08-19
# (参考訳) MvSR-NAT:非自己回帰機械翻訳のための多視点サブセット正規化 [全文訳有]

MvSR-NAT: Multi-view Subset Regularization for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2108.08447v1 )

ライセンス: CC BY 4.0
Pan Xie, Zexian Li, Xiaohui Hu(参考訳) 条件付きマスク付き言語モデル(CMLM)は非自己回帰機械翻訳(NAT)において顕著な進歩を示している。 対象文のランダムマスキング部分集合を予測することにより条件翻訳モデルを学習する。 CMLMフレームワークに基づいて,NATモデルの性能向上のための新しい正規化手法であるMulti-view Subset Regularization (MvSR)を導入する。 特に、MvSRは2つの部分から構成される: (1) \textit{shared mask consistency}: 同じターゲットを異なるマスク戦略で前進させ、共有マスク位置の予測を互いに一致させる。 2) <textit{model consistency} モデル重みの指数的な移動平均を維持し、平均モデルとオンラインモデルの間に一貫性のある予測を強制する。 CMLMアーキテクチャを変更せずに,従来のNATモデルよりも0.36-1.14 BLEUが向上した3つの公開ベンチマークで顕著な性能を達成した。 さらに、より強力なTransformerベースラインと比較して、小さなデータセット(WMT16 RO$\leftrightarrow$E NおよびIWSLT DE$\rightarrow$EN)上の0.01-0.44BLEUスコアにギャップを縮める。

Conditional masked language models (CMLM) have shown impressive progress in non-autoregressive machine translation (NAT). They learn the conditional translation model by predicting the random masked subset in the target sentence. Based on the CMLM framework, we introduce Multi-view Subset Regularization (MvSR), a novel regularization method to improve the performance of the NAT model. Specifically, MvSR consists of two parts: (1) \textit{shared mask consistency}: we forward the same target with different mask strategies, and encourage the predictions of shared mask positions to be consistent with each other. (2) \textit{model consistency}, we maintain an exponential moving average of the model weights, and enforce the predictions to be consistent between the average model and the online model. Without changing the CMLM-based architecture, our approach achieves remarkable performance on three public benchmarks with 0.36-1.14 BLEU gains over previous NAT models. Moreover, compared with the stronger Transformer baseline, we reduce the gap to 0.01-0.44 BLEU scores on small datasets (WMT16 RO$\leftrightarrow$E N and IWSLT DE$\rightarrow$EN).
翻訳日:2021-08-21 02:52:27 公開日:2021-08-19
# (参考訳) QUEACO:クエリ属性値抽出のための弱ラベル行動データからの宝物検索 [全文訳有]

QUEACO: Borrowing Treasures from Weakly-labeled Behavior Data for Query Attribute Value Extraction ( http://arxiv.org/abs/2108.08468v1 )

ライセンス: CC0 1.0
Danqing Zhang, Zheng Li, Tianyu Cao, Chen Luo, Tony Wu, Hanqing Lu, Yiwei Song, Bing Yin, Tuo Zhao, Qiang Yang(参考訳) ユーザクエリから名前付きエンティティを多種多様な表面的属性値として識別し,その後公式な標準形式に変換するクエリ属性値抽出の問題について検討する。 このような問題は、 {name entity recognition (NER) と {attribute value normalization (AVN) の2つのフェーズから構成される。 しかし、既存の研究はNERフェーズのみに焦点を当て、同様に重要なAVNを無視している。 そこで本稿では,このギャップを埋めるため,eコマース検索におけるクエリ属性値の統一抽出システムqueacoを提案する。 さらに,大規模弱ラベル動作データを活用することで,監視コストを低減し,抽出性能をさらに向上させる。 具体的には、NERフェーズにおいて、QUEACOは、強力なラベル付きデータに基づいてトレーニングされた教師ネットワークが擬似ラベルを生成し、学生ネットワークを訓練するための弱いラベル付きデータを洗練する新しい教師学生ネットワークを採用する。 一方、教師ネットワークは、強ラベルデータに対する生徒の演奏のフィードバックにより動的に適応でき、弱ラベルからノイズの多い監督を最大限に無視することができる。 avnフェーズでは、弱いラベルのクエリから属性への振舞いデータを利用して、クエリから表層フォーム属性値を製品から正準形式に正規化する。 実世界の大規模eコマースデータセットに関する広範な実験は、queacoの有効性を示している。

We study the problem of query attribute value extraction, which aims to identify named entities from user queries as diverse surface form attribute values and afterward transform them into formally canonical forms. Such a problem consists of two phases: {named entity recognition (NER)} and {attribute value normalization (AVN)}. However, existing works only focus on the NER phase but neglect equally important AVN. To bridge this gap, this paper proposes a unified query attribute value extraction system in e-commerce search named QUEACO, which involves both two phases. Moreover, by leveraging large-scale weakly-labeled behavior data, we further improve the extraction performance with less supervision cost. Specifically, for the NER phase, QUEACO adopts a novel teacher-student network, where a teacher network that is trained on the strongly-labeled data generates pseudo-labels to refine the weakly-labeled data for training a student network. Meanwhile, the teacher network can be dynamically adapted by the feedback of the student's performance on strongly-labeled data to maximally denoise the noisy supervisions from the weak labels. For the AVN phase, we also leverage the weakly-labeled query-to-attribute behavior data to normalize surface form attribute values from queries into canonical forms from products. Extensive experiments on a real-world large-scale E-commerce dataset demonstrate the effectiveness of QUEACO.
翻訳日:2021-08-21 02:13:24 公開日:2021-08-19
# (参考訳) densenet121およびresnet50を用いた眼底画像における糖尿病網膜症重症度分類 [全文訳有]

Classification of Diabetic Retinopathy Severity in Fundus Images with DenseNet121 and ResNet50 ( http://arxiv.org/abs/2108.08473v1 )

ライセンス: CC BY 4.0
Jonathan Zhang, Bowen Xie, Xin Wu, Rahul Ram, David Liang(参考訳) 本研究では,糖尿病網膜症重症度の観点から,深層学習アルゴリズムを用いて眼底画像の分類を行う。 Dense Convolutional Network-121とResidual Neural Network-50という2つのモデルアーキテクチャの6つの組み合わせと、RGB、Green、High Contrastの3つのイメージタイプを比較検討し、最高のパフォーマンスの組み合わせを見いだした。 平均バリデーション損失は0.17で,最大バリデーション精度は85%であった。 複数の組み合わせをテストすることで、パラメータの特定の組み合わせは他のものよりも優れた性能を示した。 グリーンろ過は最も低い値を示したが、増幅されたコントラストはrgb分析と比較して無視できない効果を示した。 ResNet50はDenseNet121とは対照的に、堅牢なモデルではないことが判明した。

In this work, deep learning algorithms are used to classify fundus images in terms of diabetic retinopathy severity. Six different combinations of two model architectures, the Dense Convolutional Network-121 and the Residual Neural Network-50 and three image types, RGB, Green, and High Contrast, were tested to find the highest performing combination. We achieved an average validation loss of 0.17 and a max validation accuracy of 85 percent. By testing out multiple combinations, certain combinations of parameters performed better than others, though minimal variance was found overall. Green filtration was shown to perform the poorest, while amplified contrast appeared to have a negligible effect in comparison to RGB analysis. ResNet50 proved to be less of a robust model as opposed to DenseNet121.
翻訳日:2021-08-21 01:54:41 公開日:2021-08-19
# (参考訳) VIL-100:ビデオインスタンスレーン検出のための新しいデータセットとベースラインモデル [全文訳有]

VIL-100: A New Dataset and A Baseline Model for Video Instance Lane Detection ( http://arxiv.org/abs/2108.08482v1 )

ライセンス: CC BY 4.0
Yujun Zhang, Lei Zhu, Wei Feng, Huazhu Fu, Mingqian Wang, Qingxia Li, Cheng Li and Song Wang(参考訳) レーン検出は自動運転において重要な役割を果たす。 車のカメラは常にストリーミングビデオを撮影するが、現在の車線検出は主にビデオのダイナミックさを無視して個々の画像(フレーム)に焦点を当てている。 本研究では、異なる実トラフィックシナリオから取得した、合計1万フレームの100のビデオを含むビデオインスタンスレーン検出(VIL-100)データセットを新たに収集する。 各ビデオのフレームはすべて、高品質のインスタンスレベルのレーンアノテーションに手動で注釈付けされ、フレームレベルのメトリクスとビデオレベルのメトリクスのセットが量的パフォーマンス評価に含まれている。 さらに,ビデオインスタンスレーン検出のためのベースラインモデルとして,マルチレベルメモリ集約ネットワーク(MMA-Net)を提案する。 提案手法では,ローカルメモリとグローバルメモリの両方を他のフレームから積極的に集約することにより,現在のフレームの表現を向上する。 新たに収集したデータセットの実験により,提案したMMA-Netは,最先端の車線検出法やビデオオブジェクトセグメンテーション法よりも優れていた。 私たちはデータセットとコードをhttps://github.com/y ujun0-0/MMA-Netでリリースします。

Lane detection plays a key role in autonomous driving. While car cameras always take streaming videos on the way, current lane detection works mainly focus on individual images (frames) by ignoring dynamics along the video. In this work, we collect a new video instance lane detection (VIL-100) dataset, which contains 100 videos with in total 10,000 frames, acquired from different real traffic scenarios. All the frames in each video are manually annotated to a high-quality instance-level lane annotation, and a set of frame-level and video-level metrics are included for quantitative performance evaluation. Moreover, we propose a new baseline model, named multi-level memory aggregation network (MMA-Net), for video instance lane detection. In our approach, the representation of current frame is enhanced by attentively aggregating both local and global memory features from other frames. Experiments on the new collected dataset show that the proposed MMA-Net outperforms state-of-the-art lane detection methods and video object segmentation methods. We release our dataset and code at https://github.com/y ujun0-0/MMA-Net.
翻訳日:2021-08-21 01:49:12 公開日:2021-08-19
# (参考訳) 高品質な事前学習とモーション・パーセプションによるWild動画の品質評価 [全文訳有]

Blindly Assess Quality of In-the-Wild Videos via Quality-aware Pre-training and Motion Perception ( http://arxiv.org/abs/2108.08505v1 )

ライセンス: CC BY 4.0
Bowen Li and Weixia Zhang and Meng Tian and Guangtao Zhai and Xianpei Wang(参考訳) 野生で取得したビデオの知覚的品質評価は、ビデオサービスの品質保証にとって極めて重要である。 基準映像の信頼性の欠如と、本物の歪みの複雑さは、この種の盲目映像品質評価(bvqa)タスクにとって大きな課題となる。 モデルベーストランスファー学習はBVQAタスクの効率的かつ効率的なパラダイムであるが、より優れたビデオ表現のためにドメインシフトをどのようにブリッジするかを探求することは依然として課題である。 本研究では,画像品質評価(IQA)データベースからの知識の伝達と,リッチな動きパターンを用いた大規模行動認識を提案する。 特徴抽出器を学ぶために、両方のデータグループに依存しています。 対象のVQAデータベース上で、混合リストワイドランキング損失関数を用いて提案モデルを訓練する。 6つのデータベースに対する大規模な実験により、個々のデータベースと混合データベースのトレーニング設定の両方で、我々の手法が非常に競争力があることを示した。 また,提案手法の各成分の合理性を検証し,さらなる改善に向けた簡単な方法を探る。

Perceptual quality assessment of the videos acquired in the wilds is of vital importance for quality assurance of video services. The inaccessibility of reference videos with pristine quality and the complexity of authentic distortions pose great challenges for this kind of blind video quality assessment (BVQA) task. Although model-based transfer learning is an effective and efficient paradigm for the BVQA task, it remains to be a challenge to explore what and how to bridge the domain shifts for better video representation. In this work, we propose to transfer knowledge from image quality assessment (IQA) databases with authentic distortions and large-scale action recognition with rich motion patterns. We rely on both groups of data to learn the feature extractor. We train the proposed model on the target VQA databases using a mixed list-wise ranking loss function. Extensive experiments on six databases demonstrate that our method performs very competitively under both individual database and mixed database training settings. We also verify the rationality of each component of the proposed method and explore a simple manner for further improvement.
翻訳日:2021-08-21 01:34:15 公開日:2021-08-19
# (参考訳) 異種膵セグメンテーションのためのマルチタスクフェデレート学習 [全文訳有]

Multi-task Federated Learning for Heterogeneous Pancreas Segmentation ( http://arxiv.org/abs/2108.08537v1 )

ライセンス: CC BY 4.0
Chen Shen, Pochuan Wang, Holger R. Roth, Dong Yang, Daguang Xu, Masahiro Oda, Weichung Wang, Chiou-Shann Fuh, Po-Ting Chen, Kao-Lang Liu, Wei-Chih Liao, Kensaku Mori(参考訳) 医療画像分割のためのフェデレーション学習(fl)は、クライアントがデータに表現されるラベルのカテゴリが異なるマルチタスク設定において、より困難になる。 例えば、あるクライアントが"healthy''' pancreasesを持つ患者データを持っているのに対して、他のクライアントからのデータセットは膵腫瘍の患者を含む可能性がある。 バニラフェデレーション平均化アルゴリズムにより、データセットを集中することなく、複数の機関からのトレーニングデータを表すより一般化可能なディープラーニングベースのセグメンテーションモデルを得ることができる。 しかし、前述のマルチタスクシナリオでは、サブ最適かもしれません。 本稿では,FL設定の腹部CT画像における膵・膵腫瘍の自動分節化の改善を示す異種最適化手法について検討する。

Federated learning (FL) for medical image segmentation becomes more challenging in multi-task settings where clients might have different categories of labels represented in their data. For example, one client might have patient data with "healthy'' pancreases only while datasets from other clients may contain cases with pancreatic tumors. The vanilla federated averaging algorithm makes it possible to obtain more generalizable deep learning-based segmentation models representing the training data from multiple institutions without centralizing datasets. However, it might be sub-optimal for the aforementioned multi-task scenarios. In this paper, we investigate heterogeneous optimization methods that show improvements for the automated segmentation of pancreas and pancreatic tumors in abdominal CT images with FL settings.
翻訳日:2021-08-21 01:04:39 公開日:2021-08-19
# (参考訳) チューリングパターンからの学習システムパラメータ

Learning System Parameters from Turing Patterns ( http://arxiv.org/abs/2108.08542v1 )

ライセンス: CC BY 4.0
David Schn\"orr, Christoph Schn\"orr(参考訳) チューリング機構は、反応拡散過程における自発的対称性の破れによる空間パターンの出現を記述し、多くの発達過程の基盤となる。 生体系におけるチューリング機構の同定は難しい問題である。 本稿では,観測されたチューリングパターンからチューリングパラメータ値を予測する手法を提案する。 パラメータ値は、チューリングパターンを定常状態として生成する反応拡散方程式のパラメータ化系に対応する。 4つのパラメータを持つGierer-Meinhardtモデルがケーススタディとして選択される。 抵抗距離ヒストグラムに基づく新しい不変パターン表現は、ワッサースタイン核とともに、未知と推定される初期条件に依存する局所パターン構造の高度に可変的な配置に対応するために用いられる。 これにより、パターン間の物理的に妥当な距離を計算し、パターンのクラスタを計算し、とりわけモデルパラメータの予測を可能にする: 小さなトレーニングセットでは、オペレーター値のカーネルを含む古典的な最先端のメソッドが、生のパターンデータに適用されるニューラルネットワークよりも優れているが、大きなトレーニングセットの場合、後者の方が正確である。 単一のパラメータ値に対する優れた予測と、すべてのパラメータ値を共同で予測するための合理的な結果が得られる。

The Turing mechanism describes the emergence of spatial patterns due to spontaneous symmetry breaking in reaction-diffusion processes and underlies many developmental processes. Identifying Turing mechanisms in biological systems defines a challenging problem. This paper introduces an approach to the prediction of Turing parameter values from observed Turing patterns. The parameter values correspond to a parametrized system of reaction-diffusion equations that generate Turing patterns as steady state. The Gierer-Meinhardt model with four parameters is chosen as a case study. A novel invariant pattern representation based on resistance distance histograms is employed, along with Wasserstein kernels, in order to cope with the highly variable arrangement of local pattern structure that depends on the initial conditions which are assumed to be unknown. This enables to compute physically plausible distances between patterns, to compute clusters of patterns and, above all, model parameter prediction: for small training sets, classical state-of-the-art methods including operator-valued kernels outperform neural networks that are applied to raw pattern data, whereas for large training sets the latter are more accurate. Excellent predictions are obtained for single parameter values and reasonably accurate results for jointly predicting all parameter values.
翻訳日:2021-08-21 00:53:07 公開日:2021-08-19
# (参考訳) 低リソース言語@LoResMT 2021翻訳用トランスフォーマーの注意深い微調整 [全文訳有]

Attentive fine-tuning of Transformers for Translation of low-resourced languages @LoResMT 2021 ( http://arxiv.org/abs/2108.08556v1 )

ライセンス: CC BY 4.0
Karthik Puranik, Adeep Hande, Ruba Priyadharshini, Thenmozi Durairaj, Anbukkarasi Sampath, Kingston Pal Thamburaj, Bharathi Raja Chakravarthi(参考訳) 英英英英英英英英英英語対LoResMT 2021共有タスクに対して,IIITTチームが提出した機械翻訳(MT)システムについて報告する。 このタスクはアイルランド語やマラタイ語のような低リソースの言語に対して、例外的な翻訳を得ることに焦点を当てている。 IndicTransは英語->Marathiのための事前訓練された多言語NMTモデルであり、外部並列コーパスを入力として追加訓練を行う。 我々は,Helsinki-NLP Opus MT English->Irish modelを後者の言語対に適用した。 我々の手法はBLEU測定値について比較的有望な結果をもたらす。 チーム名はIIITTで、我々のシステムは、それぞれ1, 1, 2, English->Marathi, Irish-> English, and English->Irishにランク付けした。

This paper reports the Machine Translation (MT) systems submitted by the IIITT team for the English->Marathi and English->Irish language pairs LoResMT 2021 shared task. The task focuses on getting exceptional translations for rather low-resourced languages like Irish and Marathi. We fine-tune IndicTrans, a pretrained multilingual NMT model for English->Marathi, using external parallel corpus as input for additional training. We have used a pretrained Helsinki-NLP Opus MT English->Irish model for the latter language pair. Our approaches yield relatively promising results on the BLEU metrics. Under the team name IIITT, our systems ranked 1, 1, and 2 in English->Marathi, Irish->English, and English->Irish, respectively.
翻訳日:2021-08-21 00:52:01 公開日:2021-08-19
# (参考訳) DECA:カプセルオートエンコーダを用いた視点-同種の人物ポーズ推定 [全文訳有]

DECA: Deep viewpoint-Equivarian t human pose estimation using Capsule Autoencoders ( http://arxiv.org/abs/2108.08557v1 )

ライセンス: CC BY 4.0
Nicola Garau, Niccol\`o Bisagno, Piotr Br\'odka, Nicola Conci(参考訳) human pose estimation (hpe) は、画像やビデオから人間の関節の3d位置を取得することを目的としている。 その結果,現在の3次元hpe法では,学習時に見当たらない視点に対処できない場合,失敗やパフォーマンスが低下する傾向がみられた。 深層学習法は、しばしばスケール不変、翻訳不変、最大プールのような回転不変の操作に依存する。 しかし、そのような手順の採用は必ずしも視点の一般化を改善せず、むしろデータ依存の方法に繋がる。 この問題に対処するために,高速変動ベイズカプセルルーティングを備えた新しいカプセルオートエンコーダネットワークdecaを提案する。 各ジョイントをカプセルエンティティとしてモデル化し,ルーティングアルゴリズムを組み合わせることにより,ジョイントの階層構造および幾何学構造を,視点から独立して保存することができる。 視点等価性を達成することにより、トレーニング時のネットワークデータの依存性を大幅に削減し、見当たらない視点を一般化する能力を向上させる。 実験による検証では、トップビューとフロントビューの両方の視点で、奥行き画像の他の方法よりも優れています。 rgbドメインでは、同じネットワークが挑戦的な視点転送タスクの最先端の結果を与え、トップビューhpeの新しいフレームワークも確立している。 コードはhttps://github.com/m mlab-cv/DECAにある。

Human Pose Estimation (HPE) aims at retrieving the 3D position of human joints from images or videos. We show that current 3D HPE methods suffer a lack of viewpoint equivariance, namely they tend to fail or perform poorly when dealing with viewpoints unseen at training time. Deep learning methods often rely on either scale-invariant, translation-invarian t, or rotation-invariant operations, such as max-pooling. However, the adoption of such procedures does not necessarily improve viewpoint generalization, rather leading to more data-dependent methods. To tackle this issue, we propose a novel capsule autoencoder network with fast Variational Bayes capsule routing, named DECA. By modeling each joint as a capsule entity, combined with the routing algorithm, our approach can preserve the joints' hierarchical and geometrical structure in the feature space, independently from the viewpoint. By achieving viewpoint equivariance, we drastically reduce the network data dependency at training time, resulting in an improved ability to generalize for unseen viewpoints. In the experimental validation, we outperform other methods on depth images from both seen and unseen viewpoints, both top-view, and front-view. In the RGB domain, the same network gives state-of-the-art results on the challenging viewpoint transfer task, also establishing a new framework for top-view HPE. The code can be found at https://github.com/m mlab-cv/DECA.
翻訳日:2021-08-21 00:36:37 公開日:2021-08-19
# (参考訳) 敵に面したプルーニング [全文訳有]

Pruning in the Face of Adversaries ( http://arxiv.org/abs/2108.08560v1 )

ライセンス: CC BY 4.0
Florian Merkle, Maximilian Samsinger, Pascal Sch\"ottle(参考訳) 深層ニューラルネットワークが、小さな知覚不能な摂動を伴う逆例入力に対する脆弱性が、近年、研究コミュニティで注目を集めている。 同時に、最先端のディープラーニングモデルのパラメータの数は大幅に増加しており、そのようなモデルのトレーニングとデプロイに必要なメモリと計算リソースに影響を及ぼしている。 ニューラルネットワークのサイズを制御するアプローチのひとつに、パラメータの数を遡って削減する、いわゆるニューラルネットワークプルーニングがある。 ニューラルネットワークのプルーニングが敵のロバスト性に与える影響に関する研究は断片的であり、しばしばロバスト性評価の確立された原則に固執しない。 我々は,L-0,L-2,L-infinity攻撃に対するプルーニングモデルのロバスト性を,幅広い攻撃強度,アーキテクチャ,データセット,プルーニング手法,圧縮速度に対して評価することで,このギャップを埋める。 その結果,ニューラルネットワークのプルーニングと対向ロバスト性は相互に排他的ではないことがわかった。 代わりに、モデルのサイズと敵の堅牢性の観点から、甘い点が好まれる。 さらに,我々の分析を,敵のシナリオに追加の仮定を組み込んだ状況にまで拡張し,状況に応じて異なる戦略が最適であることを示す。

The vulnerability of deep neural networks against adversarial examples - inputs with small imperceptible perturbations - has gained a lot of attention in the research community recently. Simultaneously, the number of parameters of state-of-the-art deep learning models has been growing massively, with implications on the memory and computational resources required to train and deploy such models. One approach to control the size of neural networks is retrospectively reducing the number of parameters, so-called neural network pruning. Available research on the impact of neural network pruning on the adversarial robustness is fragmentary and often does not adhere to established principles of robustness evaluation. We close this gap by evaluating the robustness of pruned models against L-0, L-2 and L-infinity attacks for a wide range of attack strengths, several architectures, data sets, pruning methods, and compression rates. Our results confirm that neural network pruning and adversarial robustness are not mutually exclusive. Instead, sweet spots can be found that are favorable in terms of model size and adversarial robustness. Furthermore, we extend our analysis to situations that incorporate additional assumptions on the adversarial scenario and show that depending on the situation, different strategies are optimal.
翻訳日:2021-08-21 00:22:52 公開日:2021-08-19
# (参考訳) 人間と物体の相互作用検出のための爆発的シーングラフ [全文訳有]

Exploiting Scene Graphs for Human-Object Interaction Detection ( http://arxiv.org/abs/2108.08584v1 )

ライセンス: CC BY 4.0
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li(参考訳) human-object interaction (hoi) 検出は、人間とオブジェクト間のインタラクションをローカライズし認識することを目的とした、基本的なビジュアルタスクである。 既存の作品は、人間と物体の視覚と言語の特徴に焦点を当てている。 しかし、HoI推論に重要な文脈的・詳細な関係知識を提供する画像上に存在する高レベルな意味的関係は考慮していない。 そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出のための新しい手法を提案する。 SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送する関係対応メッセージパッシングモジュールを構築する。 SG2HOI法は,2つのベンチマークHOIデータセット(V-COCOとHICO-DET)において,最先端の手法よりも優れていることを示す。 コードはhttps://github.com/h t014/SG2HOIで入手できる。

Human-Object Interaction (HOI) detection is a fundamental visual task aiming at localizing and recognizing interactions between humans and objects. Existing works focus on the visual and linguistic features of humans and objects. However, they do not capitalise on the high-level and semantic relationships present in the image, which provides crucial contextual and detailed relational knowledge for HOI inference. We propose a novel method to exploit this information, through the scene graph, for the Human-Object Interaction (SG2HOI) detection task. Our method, SG2HOI, incorporates the SG information in two ways: (1) we embed a scene graph into a global context clue, serving as the scene-specific environmental context; and (2) we build a relation-aware message-passing module to gather relationships from objects' neighborhood and transfer them into interactions. Empirical evaluation shows that our SG2HOI method outperforms the state-of-the-art methods on two benchmark HOI datasets: V-COCO and HICO-DET. Code will be available at https://github.com/h t014/SG2HOI.
翻訳日:2021-08-21 00:09:57 公開日:2021-08-19
# (参考訳) 低ショットシーングラフ生成のための意味合成学習 [全文訳有]

Semantic Compositional Learning for Low-shot Scene Graph Generation ( http://arxiv.org/abs/2108.08600v1 )

ライセンス: CC BY 4.0
Tao He, Lianli Gao, Jingkuan Song, Jianfei Cai, Yuan-Fang Li(参考訳) シーングラフは多くの下流タスクに貴重な情報を提供する。 多くのシーングラフ生成(SGG)モデルは、訓練に限定されたアノテート関係のトリプルのみを使用し、特に稀な述語において、低ショット(フェースとゼロ)のシナリオでパフォーマンスが低下する。 この問題に対処するために,異なる画像からのオブジェクトと現実的な3重関係の構築を可能にする,新しい意味合成学習戦略を提案する。 具体的には, 意味的, 視覚的に類似したオブジェクトと視覚的コンポーネント辞書とを融合させて, 新たに構成した3つのコンポーネントの現実性を確保しながら, 関係を3つに分解し, 関係を3つに分解する。 特に,我々の戦略は汎用的であり,既存のSGGモデルと組み合わせて性能を大幅に向上させることができる。 ベンチマークデータセットであるVisual Genomeの総合評価を行った。 最近の3つのsggモデルでは、我々の戦略を追加することで、パフォーマンスが50\%近く向上し、それらすべてが現在の最先端を実質的に上回っています。

Scene graphs provide valuable information to many downstream tasks. Many scene graph generation (SGG) models solely use the limited annotated relation triples for training, leading to their underperformance on low-shot (few and zero) scenarios, especially on the rare predicates. To address this problem, we propose a novel semantic compositional learning strategy that makes it possible to construct additional, realistic relation triples with objects from different images. Specifically, our strategy decomposes a relation triple by identifying and removing the unessential component and composes a new relation triple by fusing with a semantically or visually similar object from a visual components dictionary, whilst ensuring the realisticity of the newly composed triple. Notably, our strategy is generic and can be combined with existing SGG models to significantly improve their performance. We performed a comprehensive evaluation on the benchmark dataset Visual Genome. For three recent SGG models, adding our strategy improves their performance by close to 50\%, and all of them substantially exceed the current state-of-the-art.
翻訳日:2021-08-20 23:56:05 公開日:2021-08-19
# (参考訳) てんかん状態におけるフォーミュラと署名要素 [全文訳有]

Forgetting Formulas and Signature Elements in Epistemic States ( http://arxiv.org/abs/2108.08603v1 )

ライセンス: CC BY 4.0
A. Becker, G. Kern-Isberner, K. Sauerwald, C. Beierle(参考訳) 忘れることに関するデルグランデの知識レベルの説明は、多くの他の忘れる操作、特にブールの変数除去にリンクした公式の集合から構文要素を忘れる一般的なアプローチを提供する。 一方、認識状態の限界化は、より複雑な意味論の枠組みで積極的にシグネチャを減らすための特別なアプローチであり、確率論でよく知られた原子を忘れることを目的としている。 本稿では,この2つの視点を,Delgrandeの疫学的状態へのアプローチの延長と見なすことができることを示すことによって,共に考えることができる。 より正確には、我々はデルグランデの公理を認識論的に忘れてしまうことを一般化し、辺縁化がこれらの公理を満たす最も具体的で有益な忘れる作用素であることを示す。 さらに, 公理の基本概念を認識状態から忘れることに移行させることにより, 公式を忘れるというデルグランデの考え方を適切に表現する。 しかし、ここでは、この結果が式を忘れる自明なアプローチをもたらすことを示す。 この発見は、例えば構文要素を忘れることが信念の収縮と本質的に異なるという主張を支持する。 axiomatized in the AGM belief change framework。

Delgrande's knowledge level account of forgetting provides a general approach to forgetting syntax elements from sets of formulas with links to many other forgetting operations, in particular, to Boole's variable elimination. On the other hand, marginalisation of epistemic states is a specific approach to actively reduce signatures in more complex semantic frameworks, also aiming at forgetting atoms that is very well known from probability theory. In this paper, we bring these two perspectives of forgetting together by showing that marginalisation can be considered as an extension of Delgrande's approach to the level of epistemic states. More precisely, we generalize Delgrande's axioms of forgetting to forgetting in epistemic states, and show that marginalisation is the most specific and informative forgetting operator that satisfies these axioms. Moreover, we elaborate suitable phrasings of Delgrande's concept of forgetting for formulas by transferring the basic ideas of the axioms to forgetting formulas from epistemic states. However, here we show that this results in trivial approaches to forgetting formulas. This finding supports the claim that forgetting syntax elements is essentially different from belief contraction, as e.g. axiomatized in the AGM belief change framework.
翻訳日:2021-08-20 23:42:13 公開日:2021-08-19
# (参考訳) マルチレベル循環行列近似を用いたカーネルロジスティック回帰の高速化 [全文訳有]

Using Multilevel Circulant Matrix Approximate to Speed Up Kernel Logistic Regression ( http://arxiv.org/abs/2108.08605v1 )

ライセンス: CC BY 4.0
Junna~Zhang, Shuisheng~Zhou,~Cui~ Fu and Zhuan Zhang(参考訳) カーネルロジスティック回帰(カーネルロジスティックレグレッション、KLR)は、統計機械学習における古典的非線形分類法である。 二次収束率を持つニュートン法は勾配法よりも効率的にKLR問題を解くことができる。 しかし、大規模な問題を訓練するためのニュートン法の明らかな制限は、$O(n^{3})$時間複雑性と$O(n^{2})$空間複雑性であり、$n$はトレーニングインスタンスの数である。 本稿では,多レベル循環行列(mcm)近似カーネル行列を用いて保存空間を節約し,klrの解を高速化する。 MCMの特徴と創発的設計を組み合わせることで,MCM近似ニュートン反復法を提案する。 まず、カーネル行列の半有界性に応じてニュートン方向を単純化し、次にmcmを用いてニュートン方向の2段階近似を行う。 本手法は多次元高速フーリエ変換(mfft)を用いて各イテレーションの時間複雑性を$o(n \log n)$に低減する。 さらに、空間複雑性は MCM の組込み周期性により$O(n)$に縮めることができる。 いくつかの大規模バイナリおよびマルチクラス化問題に対する実験結果から,我々の手法は,KLRをメモリ消費の少ない大規模問題に対してスケーラブルにし,短時間で犠牲なく精度を検証できることを示した。

Kernel logistic regression (KLR) is a classical nonlinear classifier in statistical machine learning. Newton method with quadratic convergence rate can solve KLR problem more effectively than the gradient method. However, an obvious limitation of Newton method for training large-scale problems is the $O(n^{3})$ time complexity and $O(n^{2})$ space complexity, where $n$ is the number of training instances. In this paper, we employ the multilevel circulant matrix (MCM) approximate kernel matrix to save in storage space and accelerate the solution of the KLR. Combined with the characteristics of MCM and our ingenious design, we propose an MCM approximate Newton iterative method. We first simplify the Newton direction according to the semi-positivity of the kernel matrix and then perform a two-step approximation of the Newton direction by using MCM. Our method reduces the time complexity of each iteration to $O(n \log n)$ by using the multidimensional fast Fourier transform (mFFT). In addition, the space complexity can be reduced to $O(n)$ due to the built-in periodicity of MCM. Experimental results on some large-scale binary and multi-classification problems show that our method makes KLR scalable for large-scale problems, with less memory consumption, and converges to test accuracy without sacrifice in a shorter time.
翻訳日:2021-08-20 22:54:25 公開日:2021-08-19
# (参考訳) sch\"onhage教授の謎の機械 [全文訳有]

Prof. Sch\"onhage's Mysterious Machines ( http://arxiv.org/abs/2108.08606v1 )

ライセンス: CC BY 4.0
J.-M. Chauvet(参考訳) ルール110セルオートマトンの一イテレーションをシミュレートする単純なSch\"onhage Storage Modification Machineを提供する。 これは、Sch\"onhageによるエポニマスマシンのチューリング完全性の証明の代替的な構成を提供する。

We give a simple Sch\"onhage Storage Modification Machine that simulates one iteration of the Rule 110 cellular automaton. This provides an alternative construction to Sch\"onhage's original proof of the Turing completeness of the eponymous machines.
翻訳日:2021-08-20 22:36:53 公開日:2021-08-19
# (参考訳) デカップリングパッチ校正による高解像度画像のスーパーピクセル生成 [全文訳有]

Generating Superpixels for High-resolution Images with Decoupled Patch Calibration ( http://arxiv.org/abs/2108.08607v1 )

ライセンス: CC BY 4.0
Yaxiong Wang and Yuchao Wei and Xueming Qian and Li Zhu and Yi Yang(参考訳) スーパーピクセルのセグメンテーションは最近、差別化可能なディープラーニングの進歩から大きな進歩を遂げている。 しかし、非常に高解像度のスーパーピクセルセグメンテーションは、高価なメモリと計算コストのために依然として困難であり、現在の高度なスーパーピクセルネットワークは処理に失敗している。 本稿では,高分解能スーパーピクセルセグメンテーションを効率的かつ正確に実装することを目的としたパッチキャリブレーションネットワーク(pcnet)を考案する。 PCNetは、GPUメモリの節約と計算コストの軽減のために、低解像度入力から高解像度出力を生成するという原則に従っている。 ダウンサンプリング操作によって破壊された細部を思い出すために,本スーパーピクセル生成部を協調的に増強する新しいデカップリングパッチ校正(DPC)ブランチを提案する。 特に、DPCは高解像度画像からローカルパッチを取り、動的にバイナリマスクを生成して、ネットワークを領域境界に集中させる。 dpcとメインブランチのパラメータを共有することで、高解像度パッチから学んだ詳細な知識を転送し、破壊した情報を校正する。 私たちの知る限りでは、ディープラーニングベースのスーパーピクセル生成を高解像度ケースで検討する最初の試みをしました。 本研究では,2つの公開データセットと1つの新しい構築データセットから評価ベンチマークを構築し,人間の細粒度から都市景観まで幅広い多様性をカバーした。 大規模な実験により、PCNetは定量化結果の最先端に対して良好に機能するだけでなく、1080Ti GPU上での3Kから5Kへの上界の分解能も向上できることが示された。

Superpixel segmentation has recently seen important progress benefiting from the advances in differentiable deep learning. However, the very high-resolution superpixel segmentation still remains challenging due to the expensive memory and computation cost, making the current advanced superpixel networks fail to process. In this paper, we devise Patch Calibration Networks (PCNet), aiming to efficiently and accurately implement high-resolution superpixel segmentation. PCNet follows the principle of producing high-resolution output from low-resolution input for saving GPU memory and relieving computation cost. To recall the fine details destroyed by the down-sampling operation, we propose a novel Decoupled Patch Calibration (DPC) branch for collaboratively augment the main superpixel generation branch. In particular, DPC takes a local patch from the high-resolution images and dynamically generates a binary mask to impose the network to focus on region boundaries. By sharing the parameters of DPC and main branches, the fine-detailed knowledge learned from high-resolution patches will be transferred to help calibrate the destroyed information. To the best of our knowledge, we make the first attempt to consider the deep-learning-based superpixel generation for high-resolution cases. To facilitate this research, we build evaluation benchmarks from two public datasets and one new constructed one, covering a wide range of diversities from fine-grained human parts to cityscapes. Extensive experiments demonstrate that our PCNet can not only perform favorably against the state-of-the-arts in the quantitative results but also improve the resolution upper bound from 3K to 5K on 1080Ti GPUs.
翻訳日:2021-08-20 22:33:18 公開日:2021-08-19
# (参考訳) 歪み誘導ネットワークを用いた空間適応型画像復元 [全文訳有]

Spatially-Adaptive Image Restoration using Distortion-Guided Networks ( http://arxiv.org/abs/2108.08617v1 )

ライセンス: CC BY 4.0
Kuldeep Purohit, Maitreya Suin, A. N. Rajagopalan, Vishnu Naresh Boddeti(参考訳) 空間的に変化する劣化に苦しむ画像復元のための一般学習型ソリューションを提案する。 先行するアプローチは、通常は分解特異的であり、異なる画像と異なるピクセルをまたいで同じ処理を行う。 しかし,このような空間的剛性処理は,劣化画素の復元と画像のクリーン領域の再構築を同時に行うのに最適ではないと仮定した。 そこで本稿では,歪み局所化情報を活用し,画像中の難しい領域に動的に計算を調整するネットワーク設計spairを提案する。 SPAIR は,(1) 劣化画素を識別するローカライゼーションネットワーク,(2) 劣化画素を選択的かつ適応的に復元するフィルタ領域のローカライゼーションネットワークと特徴領域の知識を利用するリカバリネットワークの2つのコンポーネントから構成される。 我々のキーとなる考え方は、空間領域における重劣化の不均一性を利用して、この知識を歪誘導モジュールに適切に組み込むことである。 私たちのアーキテクチャは物理的形成モデルに依存せず、いくつかのタイプの空間変動劣化を一般化します。 本研究では, 雨滴, 雨滴, 影, 動きのぼやきを除去した4つの修復作業において, 個別にスペアの効果を示す。 11のベンチマークデータセットにおける先行技術との比較により、劣化に依存しないネットワーク設計は、最先端の劣化特化アーキテクチャよりも顕著なパフォーマンス向上をもたらすことが示された。 コードはhttps://github.com/h uman- analysis/spatially-a daptive-image-restor ationで入手できる。

We present a general learning-based solution for restoring images suffering from spatially-varying degradations. Prior approaches are typically degradation-specific and employ the same processing across different images and different pixels within. However, we hypothesize that such spatially rigid processing is suboptimal for simultaneously restoring the degraded pixels as well as reconstructing the clean regions of the image. To overcome this limitation, we propose SPAIR, a network design that harnesses distortion-localizat ion information and dynamically adjusts computation to difficult regions in the image. SPAIR comprises of two components, (1) a localization network that identifies degraded pixels, and (2) a restoration network that exploits knowledge from the localization network in filter and feature domain to selectively and adaptively restore degraded pixels. Our key idea is to exploit the non-uniformity of heavy degradations in spatial-domain and suitably embed this knowledge within distortion-guided modules performing sparse normalization, feature extraction and attention. Our architecture is agnostic to physical formation model and generalizes across several types of spatially-varying degradations. We demonstrate the efficacy of SPAIR individually on four restoration tasks-removal of rain-streaks, raindrops, shadows and motion blur. Extensive qualitative and quantitative comparisons with prior art on 11 benchmark datasets demonstrate that our degradation-agnostic network design offers significant performance gains over state-of-the-art degradation-specific architectures. Code available at https://github.com/h uman-analysis/spatia lly-adaptive-image-r estoration.
翻訳日:2021-08-20 22:12:13 公開日:2021-08-19
# (参考訳) フィードフォワードニューラルネットワークを用いた決定式フリーフェルミオン波動関数 [全文訳有]

Determinant-free fermionic wave function using feed-forward neural network ( http://arxiv.org/abs/2108.08631v1 )

ライセンス: CC BY 4.0
Koji Inui, Yasuyuki Kato and Yukitoshi Motome(参考訳) フィードフォワードニューラルネットワークを用いて多体フェルミオン系の基底状態を求めるための一般的な枠組みを提案する。 フェルミオンの反可換関係は、通常、slater determinant(またはpfaffian)によって変分波動関数に実装される。 このボトルネックを回避し、実空間における粒子交換に伴う符号変化を明示的に計算し、全連結ニューラルネットワークを用いて波動関数の残りの部分の最適化を行う。 これにより計算コストは$O(N^2)$以下になる。 エネルギーの「ばらつき」をエネルギー自体と同時に最適化することにより近似の精度を向上させることができることを示す。 また,モンテカルロサンプリングにおける重み付け手法が計算を安定化できることがわかった。 これらの改良は変分モンテカルロ法に基づく他のアプローチにも適用できる。 さらに,システムの対称性,代表状態,一般化したGitzwiller-Jastrow因子を実装した追加ニューラルネットワークを用いることで,精度をさらに向上できることを示す。 本手法を2次元ハバードモデルに適用し,その効率性を示す。

We propose a general framework for finding the ground state of many-body fermionic systems by using feed-forward neural networks. The anticommutation relation for fermions is usually implemented to a variational wave function by the Slater determinant (or Pfaffian), which is a computational bottleneck because of the numerical cost of $O(N^3)$ for $N$ particles. We bypass this bottleneck by explicitly calculating the sign changes associated with particle exchanges in real space and using fully connected neural networks for optimizing the rest parts of the wave function. This reduces the computational cost to $O(N^2)$ or less. We show that the accuracy of the approximation can be improved by optimizing the "variance" of the energy simultaneously with the energy itself. We also find that a reweighting method in Monte Carlo sampling can stabilize the calculation. These improvements can be applied to other approaches based on variational Monte Carlo methods. Moreover, we show that the accuracy can be further improved by using the symmetry of the system, the representative states, and an additional neural network implementing a generalized Gutzwiller-Jastrow factor. We demonstrate the efficiency of the method by applying it to a two-dimensional Hubbard model.
翻訳日:2021-08-20 21:55:26 公開日:2021-08-19
# (参考訳) 航空画像とvgg16-rcnnフレームワークによる風車翼表面損傷検出 [全文訳有]

Wind Turbine Blade Surface Damage Detection based on Aerial Imagery and VGG16-RCNN Framework ( http://arxiv.org/abs/2108.08636v1 )

ライセンス: CC BY 4.0
Juhi Patel and Lagan Sharma and Harsh S. Dhiman(参考訳) 本稿では,風車翼表面損傷検出のための画像解析に基づく深層学習フレームワークを提案する。 タービン重量の約3分の1を積んだタービンブレードは損傷を受けやすく、グリッドに接続された風力変換システムの突然の故障を引き起こす。 風力タービンブレードの表面損傷検出には、早期に損傷の種類を検出するために大きなデータセットが必要である。 タービンブレードの画像は空中画像で撮影される。 検査の結果,画像データセットは限られていたため,ブレード画像データセットを改善するために画像拡張が適用された。 このアプローチはマルチクラス教師付き学習問題としてモデル化され、コンボリューションニューラルネットワーク(cnn)、vgg16-rcnn、alexnetなどのディープラーニング手法がタービン翼表面損傷の可能性を決定するためにテストされている。

In this manuscript, an image analytics based deep learning framework for wind turbine blade surface damage detection is proposed. Turbine blade(s) which carry approximately one-third of a turbine weight are susceptible to damage and can cause sudden malfunction of a grid-connected wind energy conversion system. The surface damage detection of wind turbine blade requires a large dataset so as to detect a type of damage at an early stage. Turbine blade images are captured via aerial imagery. Upon inspection, it is found that the image dataset was limited and hence image augmentation is applied to improve blade image dataset. The approach is modeled as a multi-class supervised learning problem and deep learning methods like Convolutional neural network (CNN), VGG16-RCNN and AlexNet are tested for determining the potential capability of turbine blade surface damage.
翻訳日:2021-08-20 21:39:24 公開日:2021-08-19
# (参考訳) 3dias: 暗黙的代数曲面を用いた3次元形状再構成 [全文訳有]

3DIAS: 3D Shape Reconstruction with Implicit Algebraic Surfaces ( http://arxiv.org/abs/2108.08653v1 )

ライセンス: CC BY 4.0
Mohsen Yavartanoo, JaeYoung Chung, Reyhaneh Neshatavar, Kyoung Mu Lee(参考訳) 3次元形状表現は3次元形状再構成に大きな影響を及ぼす。 原始的ベース表現は、主に単純な暗黙的なプリミティブの集合によって3次元形状を近似するが、プリミティブの低幾何学的な複雑さは形状分解を制限している。 さらに、任意の形状に十分な数のプリミティブを設定することは困難である。 これらの問題を克服するために,学習可能な係数が少なく,幾何学的複雑度が高いプリミティブとして制約付き暗黙的代数曲面と,これらのプリミティブを生成するディープニューラルネットワークを提案する。 実験では,RGB画像の3次元形状再構成における最先端手法と比較して,表現力の面での手法の優位性を実証した。 さらに,本手法は教師なしの方法で3次元形状のセグメントを意味的に学習できることを示す。 コードはhttps://myavartanoo. github.io/3dias/から公開されている。

3D Shape representation has substantial effects on 3D shape reconstruction. Primitive-based representations approximate a 3D shape mainly by a set of simple implicit primitives, but the low geometrical complexity of the primitives limits the shape resolution. Moreover, setting a sufficient number of primitives for an arbitrary shape is challenging. To overcome these issues, we propose a constrained implicit algebraic surface as the primitive with few learnable coefficients and higher geometrical complexities and a deep neural network to produce these primitives. Our experiments demonstrate the superiorities of our method in terms of representation power compared to the state-of-the-art methods in single RGB image 3D shape reconstruction. Furthermore, we show that our method can semantically learn segments of 3D shapes in an unsupervised manner. The code is publicly available from https://myavartanoo. github.io/3dias/ .
翻訳日:2021-08-20 21:32:01 公開日:2021-08-19
# (参考訳) 残留テンソルトレイン:多重線形相関学習のための柔軟かつ効率的なアプローチ [全文訳有]

Residual Tensor Train: a Flexible and Efficient Approach for Learning Multiple Multilinear Correlations ( http://arxiv.org/abs/2108.08659v1 )

ライセンス: CC BY 4.0
Yiwei Chen, Yu Pan, Daoyi Dong(参考訳) テンソルトレイン (TT) アプローチは特徴の多線形相互作用のモデル化に成功している。 しかし、既存のモデルは単一の高次相関しかモデル化しないため、柔軟性と一般化性に欠ける。 実際には、特徴の中に複数の多重線形相関が存在する可能性がある。 本稿では,ttと残差構造の利点を統合し,同一モデル内で低次から高次までの多重線形特徴相関を捉える新しい残差テンソルトレイン(restt)を提案する。 特に,ニューラルネットワークとVolterra系列の完全連結層がResTTの特別な場合として利用できることを示す。 さらに、平均場解析に基づいてResTTのトレーニングを安定化させる重み初期化規則を導出する。 このような規則はTTよりもずっと緩やかであることが証明され、つまりResTTは現在のTTモデルに存在する消滅的・爆発的な勾配問題に容易に対処できる。 数値実験により、ResTTは最先端のテンソルネットワークアプローチよりも優れており、MNISTとFashion-MNISTデータセットのベンチマークディープラーニングモデルと競合することを示した。

Tensor Train (TT) approach has been successfully applied in the modelling of the multilinear interaction of features. Nevertheless, the existing models lack flexibility and generalizability, as they only model a single type of high-order correlation. In practice, multiple multilinear correlations may exist within the features. In this paper, we present a novel Residual Tensor Train (ResTT) which integrates the merits of TT and residual structure to capture the multilinear feature correlations, from low to higher orders, within the same model. In particular, we prove that the fully-connected layer in neural networks and the Volterra series can be taken as special cases of ResTT. Furthermore, we derive the rule for weight initialization that stabilizes the training of ResTT based on a mean-field analysis. We prove that such a rule is much more relaxed than that of TT, which means ResTT can easily address the vanishing and exploding gradient problem that exists in the current TT models. Numerical experiments demonstrate that ResTT outperforms the state-of-the-art tensor network approaches, and is competitive with the benchmark deep learning models on MNIST and Fashion-MNIST datasets.
翻訳日:2021-08-20 21:17:05 公開日:2021-08-19
# (参考訳) 制御可能・フォトリアリスティック領域画像マニピュレーションに向けて [全文訳有]

Towards Controllable and Photorealistic Region-wise Image Manipulation ( http://arxiv.org/abs/2108.08674v1 )

ライセンス: CC BY 4.0
Ansheng You, Chenglin Zhou, Qixuan Zhang, Lan Xu(参考訳) 適応的かつ柔軟な画像編集は、現代の生成モデルの望ましい機能である。 本稿では,領域ごとのスタイル操作のための自動エンコーダアーキテクチャを備えた生成モデルを提案する。 我々は、コード一貫性の損失を適用して、コンテンツとスタイル潜在表現の明確な違いを強制し、生成されたサンプルのコンテンツとスタイルが対応するコンテンツとスタイル参照と一致するようにします。 このモデルは、前景編集が背景コンテンツに干渉しないように、コンテンツアライメント損失によって制約される。 その結果,ユーザによる興味のある領域マスクが与えられた場合,前景の領域毎の転送をサポートする。 特に,本モデルでは,自己スーパービジョン以外のセマンティックラベルなどのアノテーションは受け取らない。 広域実験により,提案手法の有効性を示し,領域毎の編集,潜在空間補間,クロスドメイン方式の転送など,様々なアプリケーションに対して提案モデルの柔軟性を示す。

Adaptive and flexible image editing is a desirable function of modern generative models. In this work, we present a generative model with auto-encoder architecture for per-region style manipulation. We apply a code consistency loss to enforce an explicit disentanglement between content and style latent representations, making the content and style of generated samples consistent with their corresponding content and style references. The model is also constrained by a content alignment loss to ensure the foreground editing will not interfere background contents. As a result, given interested region masks provided by users, our model supports foreground region-wise style transfer. Specially, our model receives no extra annotations such as semantic labels except for self-supervision. Extensive experiments show the effectiveness of the proposed method and exhibit the flexibility of the proposed model for various applications, including region-wise style editing, latent space interpolation, cross-domain style transfer.
翻訳日:2021-08-20 20:56:58 公開日:2021-08-19
# (参考訳) インターネット詐欺の苦情文における細粒度要素識別 [全文訳有]

Fine-Grained Element Identification in Complaint Text of Internet Fraud ( http://arxiv.org/abs/2108.08676v1 )

ライセンス: CC BY 4.0
Tong Liu, Siyuan Wang, Jingchao Fu, Lei Chen, Zhongyu Wei, Yaqi Liu, Heng Ye, Liaosa Xu, Weiqiang Wan, Xuanjing Huang(参考訳) 既存のオンライン苦情処理システムは、説明なしに最終決定を下す。 本稿では,インターネット詐欺の苦情文をきめ細かな方法で分析することを提案する。 苦情文には,様々な機能を有する複数の節が含まれていることを考慮し,各節の役割を識別し,異なる種類の詐欺要素に分類する。 ファイナンスサービスプラットフォームから派生した,大規模ラベル付きデータセットを構築した。 BERT上に要素識別モデルを構築し、苦情文の文脈を利用して、グローバルなコンテキストエンコーダとラベル精細化器という、より優れた要素ラベル分類を行うための2つのモジュールを提案する。 実験の結果,本モデルの有効性が示された。

Existing system dealing with online complaint provides a final decision without explanations. We propose to analyse the complaint text of internet fraud in a fine-grained manner. Considering the complaint text includes multiple clauses with various functions, we propose to identify the role of each clause and classify them into different types of fraud element. We construct a large labeled dataset originated from a real finance service platform. We build an element identification model on top of BERT and propose additional two modules to utilize the context of complaint text for better element label classification, namely, global context encoder and label refiner. Experimental results show the effectiveness of our model.
翻訳日:2021-08-20 20:43:45 公開日:2021-08-19
# (参考訳) 非凸損失関数に対する次数最適単発フェデレート学習 [全文訳有]

Order Optimal One-Shot Federated Learning for non-Convex Loss Functions ( http://arxiv.org/abs/2108.08677v1 )

ライセンス: CC BY 4.0
Arsalan Sharifnassab, Saber Salehkaleybar, S. Jamaloddin Golestani(参考訳) 我々は,非凸損失関数上の未知分布から$m$のサンプル関数を観測し,それぞれが$m$のマシンを持つワンショット環境でのフェデレーション学習の問題を考察する。 F:[-1,1]^d\to\mathbb{R}$ をこの未知分布に対する期待損失関数とする。 目標は、最小値が$f$の見積もりを見つけることである。 その観察に基づいて、各マシンは有界長$b$の信号を生成し、それをサーバに送る。 severはすべてのマシンの信号を収集し、最小値である$f$の見積もりを出力する。 我々は,非凸損失関数(MRE-NC)に対する多解解推定アルゴリズムを提案し,予測誤差を$\max\big(1/\sqrt{n}(mB)^{1/d}, 1/\sqrt{mn}\big)$で有界化する。 また,MRE-NCが$n$と$m$という条件で最適であることを示す。 非凸損失関数に対するモデルパラメータの分散学習におけるMRE-NCの有効性を示す。

We consider the problem of federated learning in a one-shot setting in which there are $m$ machines, each observing $n$ samples function from an unknown distribution on non-convex loss functions. Let $F:[-1,1]^d\to\mathbb{R}$ be the expected loss function with respect to this unknown distribution. The goal is to find an estimate of the minimizer of $F$. Based on its observations, each machine generates a signal of bounded length $B$ and sends it to a server. The sever collects signals of all machines and outputs an estimate of the minimizer of $F$. We propose a distributed learning algorithm, called Multi-Resolution Estimator for Non-Convex loss function (MRE-NC), whose expected error is bounded by $\max\big(1/\sqrt{n}(mB)^{1/d}, 1/\sqrt{mn}\big)$, up to polylogarithmic factors. We also provide a matching lower bound on the performance of any algorithm, showing that MRE-NC is order optimal in terms of $n$ and $m$. Experiments on synthetic and real data show the effectiveness of MRE-NC in distributed learning of model's parameters for non-convex loss functions.
翻訳日:2021-08-20 20:35:39 公開日:2021-08-19
# (参考訳) 立法レシピ:機械可読法のための構文

The Legislative Recipe: Syntax for Machine-Readable Legislation ( http://arxiv.org/abs/2108.08678v1 )

ライセンス: CC BY-SA 4.0
Megan Ma and Bryan Wilson(参考訳) 法律解釈は言語ベンチャーである。 例えば、司法の意見では、裁判所はしばしば法令や法律の文言を解釈するよう求められている。 時が示しているように、これは必ずしも聞こえるほど簡単ではない。 物事は曖昧で一貫性のない言語にヒンジし、表面的には人間の偏見は裁判官の決定に影響を及ぼす。 法令の意味を一貫して抽出する方法があるとしたらどうだろう? つまり、もし機械が法則を数学的に正確に符号化し、法的問題に対するより明確な対応を許すことができたらどうだろう? この記事では、機械可読性の概念を解き放ち、その歴史的発展と最近の発展を概観する。 本論文は,法的知識を表現する能力と限界を評価するために,論理構文と記号言語を考察する。 この論文は、機械可読法に対する様々なアプローチの意義を議論するために、既存の文献を越えようとしている。 重要なのは、この急成長している機械可読法エコシステムにおける、既存の人間可読法に対する課題を強調することだ。

Legal interpretation is a linguistic venture. In judicial opinions, for example, courts are often asked to interpret the text of statutes and legislation. As time has shown, this is not always as easy as it sounds. Matters can hinge on vague or inconsistent language and, under the surface, human biases can impact the decision-making of judges. This raises an important question: what if there was a method of extracting the meaning of statutes consistently? That is, what if it were possible to use machines to encode legislation in a mathematically precise form that would permit clearer responses to legal questions? This article attempts to unpack the notion of machine-readability, providing an overview of both its historical and recent developments. The paper will reflect on logic syntax and symbolic language to assess the capacity and limits of representing legal knowledge. In doing so, the paper seeks to move beyond existing literature to discuss the implications of various approaches to machine-readable legislation. Importantly, this study hopes to highlight the challenges encountered in this burgeoning ecosystem of machine-readable legislation against existing human-readable counterparts.
翻訳日:2021-08-20 19:04:45 公開日:2021-08-19
# (参考訳) 単一画像hdr再構成におけるメトリクスの騙し方 [全文訳有]

How to cheat with metrics in single-image HDR reconstruction ( http://arxiv.org/abs/2108.08713v1 )

ライセンス: CC BY 4.0
Gabriel Eilertsen, Saghi Hajisharif, Param Hanji, Apostolia Tsirikoglou, Rafal K. Mantiuk, Jonas Unger(参考訳) 近年, 深層学習に適した問題として, シングルイメージハイダイナミックレンジ (SI-HDR) 再構成が登場している。 各連続するテクニックは、高画質のスコアを報告することにより、既存の方法よりも改善を示す。 しかし本稿では,このような客観的指標の改善が必ずしも視覚的に優れた画像に翻訳されるとは限らないことを強調する。 最初の問題は、データとメトリックパラメータの観点で異なる評価条件を使用することで、論文間の比較を可能にする標準プロトコルを要求できる。 本論文の主眼となる第2の問題は、再建問題の特定の側面が客観的な差異を支配し、バイアスを生じさせるため、SI-HDR再構成の評価に固有の困難さである。 本稿では,既存のSI-HDR法とシミュレーションによる評価を再現し,課題の異なる側面が客観的な品質指標に与える影響を実証する。 驚いたことに,HDR情報の再構成すらできない手法は,最先端のディープラーニング手法と競合する可能性がある。 以上の結果から,si-hdrの再構成には優れた評価プロトコルが必要と考えられた。

Single-image high dynamic range (SI-HDR) reconstruction has recently emerged as a problem well-suited for deep learning methods. Each successive technique demonstrates an improvement over existing methods by reporting higher image quality scores. This paper, however, highlights that such improvements in objective metrics do not necessarily translate to visually superior images. The first problem is the use of disparate evaluation conditions in terms of data and metric parameters, calling for a standardized protocol to make it possible to compare between papers. The second problem, which forms the main focus of this paper, is the inherent difficulty in evaluating SI-HDR reconstructions since certain aspects of the reconstruction problem dominate objective differences, thereby introducing a bias. Here, we reproduce a typical evaluation using existing as well as simulated SI-HDR methods to demonstrate how different aspects of the problem affect objective quality metrics. Surprisingly, we found that methods that do not even reconstruct HDR information can compete with state-of-the-art deep learning methods. We show how such results are not representative of the perceived quality and that SI-HDR reconstruction needs better evaluation protocols.
翻訳日:2021-08-20 19:03:47 公開日:2021-08-19
# (参考訳) 半監督学習の改善による自己スーパービジョンによる有用寿命推定の維持 [全文訳有]

Improving Semi-Supervised Learning for Remaining Useful Lifetime Estimation Through Self-Supervision ( http://arxiv.org/abs/2108.08721v1 )

ライセンス: CC BY 4.0
Tilman Krokotsch, Mirko Knaak, Clemens G\"uhmann(参考訳) RUL推定は、寿命の近いマシンからのデータが稀なサーバデータ不均衡に悩まされる。 さらに、マシンが生成したデータは、マシンが失敗した後にのみラベル付けできる。 Semi-Supervised Learning (SSL)は、まだ失敗していないマシンによって生成されたラベルのないデータを組み込むことができる。 sslに関する以前の研究は、障害に近いデータが利用可能な非現実的な条件下でのアプローチを評価した。 それでも改善は緩やかであった。 本稿では,自己教師付き事前学習に基づく新しいSSLアプローチを提案する。 この手法は、NASA C-MAPSSデータセットの現実的な条件下で、文献と教師付きベースラインの2つの競合するアプローチより優れている。 それにもかかわらず、いくつかの状況で劣化したパフォーマンスを観察し、考えられる原因について議論する。

RUL estimation suffers from a server data imbalance where data from machines near their end of life is rare. Additionally, the data produced by a machine can only be labeled after the machine failed. Semi-Supervised Learning (SSL) can incorporate the unlabeled data produced by machines that did not yet fail. Previous work on SSL evaluated their approaches under unrealistic conditions where the data near failure was still available. Even so, only moderate improvements were made. This paper proposes a novel SSL approach based on self-supervised pre-training. The method can outperform two competing approaches from the literature and a supervised baseline under realistic conditions on the NASA C-MAPSS dataset. Nevertheless, we observe degraded performance in some circumstances and discuss possible causes.
翻訳日:2021-08-20 18:18:10 公開日:2021-08-19
# (参考訳) 時系列予測のための特徴重み付きスタックリング : COVID-19エピデミック曲線を事例として [全文訳有]

Feature-weighted Stacking for Nonseasonal Time Series Forecasts: A Case Study of the COVID-19 Epidemic Curves ( http://arxiv.org/abs/2108.08723v1 )

ライセンス: CC0 1.0
Pieter Cawood and Terence L. van Zyl(参考訳) 本研究は,新型コロナウイルスのパンデミックの初期に発生したような,季節的でない時系列での利用の可能性について,その予測手法について検討する。 重要なフェーズにおいて、組織や意思決定者にデータ駆動決定を提供するため、予測方法の改善が不可欠である。 予備予測段階における予測能力を証明する2つの予測モデルと2つのメタ機能の組み合わせを用いて,遅延データ融合を提案する。 最終的なアンサンブルには、ベースモデルとして予言と長期記憶(LSTM)ニューラルネットワークが含まれる。 ベースモデルは多層パーセプトロン(MLP)によって結合され、各ベースモデルの予測精度と最も高い相関を示すメタ特徴を考慮に入れられる。 さらに,メタ機能の導入により,一般的に7日から14日間の2つの予測地平線におけるアンサンブルの予測精度が向上することを示す。 本研究は,従来の統計モデルと深層学習モデルを組み合わせて,ドメイン間の時系列予測モデルを構築することの価値を実証する。

We investigate ensembling techniques in forecasting and examine their potential for use in nonseasonal time-series similar to those in the early days of the COVID-19 pandemic. Developing improved forecast methods is essential as they provide data-driven decisions to organisations and decision-makers during critical phases. We propose using late data fusion, using a stacked ensemble of two forecasting models and two meta-features that prove their predictive power during a preliminary forecasting stage. The final ensembles include a Prophet and long short term memory (LSTM) neural network as base models. The base models are combined by a multilayer perceptron (MLP), taking into account meta-features that indicate the highest correlation with each base model's forecast accuracy. We further show that the inclusion of meta-features generally improves the ensemble's forecast accuracy across two forecast horizons of seven and fourteen days. This research reinforces previous work and demonstrates the value of combining traditional statistical models with deep learning models to produce more accurate forecast models for time-series across domains.
翻訳日:2021-08-20 17:30:17 公開日:2021-08-19
# (参考訳) siren: グラフニューラルネットワークを用いたサインアウェアレコメンデーション [全文訳有]

SiReN: Sign-Aware Recommendation Using Graph Neural Networks ( http://arxiv.org/abs/2108.08735v1 )

ライセンス: CC BY 4.0
Changwon Seo, Kyeong-Joong Jeong, Sungsu Lim, and Won-Yong Shin(参考訳) 近年,グラフニューラルネットワーク (GNN) などのネットワーク埋め込み (NE) を用いたレコメンデーションシステムの多くが,レコメンデーション精度を向上させる目的で広く研究されている。 しかし、このような試みは、高い評価とポジティブなユーザ・イテムインタラクションの情報のみを活用することに重点を置いている。 したがって、neベースのレコメンダシステムの設計において、低評価は依然として有益であるため、ユーザの好みを表すために低評価スコアをどのように利用するかという課題がある。 本研究では,GNNモデルに基づく新しいサインアウェア推薦システムSiReNを提案する。 Specifically, SiReN has three key components: 1) constructing a signed bipartite graph for more precisely representing users' preferences, which is split into two edge-disjoint graphs with positive and negative edges each, 2) generating two embeddings for the partitioned graphs with positive and negative edges via a GNN model and a multi-layer perceptron (MLP), respectively, and then using an attention model to obtain the final embeddings, and 3) establishing a sign-aware Bayesian personalized ranking (BPR) loss function in the process of optimization. 総合的な実験を通して、SiReNが最先端のNE支援レコメンデーション手法より一貫して優れていることを実証的に示す。

In recent years, many recommender systems using network embedding (NE) such as graph neural networks (GNNs) have been extensively studied in the sense of improving recommendation accuracy. However, such attempts have focused mostly on utilizing only the information of positive user-item interactions with high ratings. Thus, there is a challenge on how to make use of low rating scores for representing users' preferences since low ratings can be still informative in designing NE-based recommender systems. In this study, we present SiReN, a new sign-aware recommender system based on GNN models. Specifically, SiReN has three key components: 1) constructing a signed bipartite graph for more precisely representing users' preferences, which is split into two edge-disjoint graphs with positive and negative edges each, 2) generating two embeddings for the partitioned graphs with positive and negative edges via a GNN model and a multi-layer perceptron (MLP), respectively, and then using an attention model to obtain the final embeddings, and 3) establishing a sign-aware Bayesian personalized ranking (BPR) loss function in the process of optimization. Through comprehensive experiments, we empirically demonstrate that SiReN consistently outperforms state-of-the-art NE-aided recommendation methods.
翻訳日:2021-08-20 17:19:43 公開日:2021-08-19
# (参考訳) ツリーアンサンブル・カーネル学習におけるカーネル・ターゲットアライメント評価の枠組み [全文訳有]

A Framework for an Assessment of the Kernel-target Alignment in Tree Ensemble Kernel Learning ( http://arxiv.org/abs/2108.08752v1 )

ライセンス: CC BY-SA 4.0
Dai Feng, Richard Baumgartner(参考訳) ランダム・フォレスト (RF) や勾配増強木 (GBT) などの樹木アンサンブルから続くカーネルは、カーネル・ラーニングに使用される際に、それぞれの木アンサンブル(特に高次元シナリオにおいて)と競合することが示されている。 一方で、カーネルアルゴリズムの性能は、カーネルとターゲットのアライメントの程度に依存することも示されている。 しかし,木列に基づくカーネル学習のためのカーネル・ターゲットアライメントは検討されておらず,このギャップを埋めることが本研究の主な目標である。 カーネル行列の固有解析を用いて、連続目標に対して、ツリーベースカーネル学習の優れた性能は、強いカーネル-ターゲットアライメントと関連していることを示す。 さらに,木組合せに基づくカーネルは,カーネルマトリックスの固有ベクトルとターゲットとの間のスカラー積を通じて表現される強い目標整合成分によって特徴づけられることを示した。 これは、ツリーアンサンブルに基づくカーネル学習が成功すると、教師付き問題の関連情報は、対象のアライメントされたコンポーネントにまたがる低次元多様体の近くに集中することを示唆している。 ツリーアンサンブルベースのカーネルにおける強力なターゲットアライメントコンポーネントの永続化は、ランドマーク学習による感度分析によってさらにサポートされている。 総合的なシミュレーション研究に加えて,シミュレーションに合致した複数の実データからの実験結果も提供する。

Kernels ensuing from tree ensembles such as random forest (RF) or gradient boosted trees (GBT), when used for kernel learning, have been shown to be competitive to their respective tree ensembles (particularly in higher dimensional scenarios). On the other hand, it has been also shown that performance of the kernel algorithms depends on the degree of the kernel-target alignment. However, the kernel-target alignment for kernel learning based on the tree ensembles has not been investigated and filling this gap is the main goal of our work. Using the eigenanalysis of the kernel matrix, we demonstrate that for continuous targets good performance of the tree-based kernel learning is associated with strong kernel-target alignment. Moreover, we show that well performing tree ensemble based kernels are characterized by strong target aligned components that are expressed through scalar products between the eigenvectors of the kernel matrix and the target. This suggests that when tree ensemble based kernel learning is successful, relevant information for the supervised problem is concentrated near lower dimensional manifold spanned by the target aligned components. Persistence of the strong target aligned components in tree ensemble based kernels is further supported by sensitivity analysis via landmark learning. In addition to a comprehensive simulation study, we also provide experimental results from several real life data sets that are in line with the simulations.
翻訳日:2021-08-20 16:53:24 公開日:2021-08-19
# (参考訳) parallel quasi-concave set optimization: submodularityを必要とせずにスケールする新しいフロンティア [全文訳有]

Parallel Quasi-concave set optimization: A new frontier that scales without needing submodularity ( http://arxiv.org/abs/2108.08758v1 )

ライセンス: CC BY 4.0
Praneeth Vepakomma, Yulia Kempner, Ramesh Raskar(参考訳) 集合関数のクラスと基底集合の選択は、組合せ最適化問題の効率的な解を得るためのグレディアルゴリズムの対応する変種を決定・開発するための基盤岩である。 近似的制約付き部分モジュラ最適化のクラスは、優れた計算効率、汎用性、近似保証の交差において大きな進歩を経験し、制約なし部分モジュラ最適化の正確な解はNPハードである。 サブモジュラリティが持たない状況の代替となるものは何か? 効率的でグローバルな解が得られますか? 双対クラスとして誘導される準凸集合関数のクラスを単調結合関数へ導入する。 ここでは、$n$は基底集合の濃度であり、$g$は対応する準凸集合関数を双対性を通して誘導する単調結合関数を計算する複雑さである。 複雑さは$n^2$プロセッサで$\mathcal{O}(gn\log(n))$、$n^3$プロセッサで$\mathcal{O}(gn)$に減少する。 我々のアルゴリズムは、近似的な部分モジュラー最適化とは対照的に、極大分問題に対する大域的最適解を提供する。 本研究では,完全大域的マクシミン保証を持つ多種多様な特徴集合選択の例を用いて,距離相関と呼ばれる統計的依存測度を用いて準凸集合関数を誘導できることを示す。

Classes of set functions along with a choice of ground set are a bedrock to determine and develop corresponding variants of greedy algorithms to obtain efficient solutions for combinatorial optimization problems. The class of approximate constrained submodular optimization has seen huge advances at the intersection of good computational efficiency, versatility and approximation guarantees while exact solutions for unconstrained submodular optimization are NP-hard. What is an alternative to situations when submodularity does not hold? Can efficient and globally exact solutions be obtained? We introduce one such new frontier: The class of quasi-concave set functions induced as a dual class to monotone linkage functions. We provide a parallel algorithm with a time complexity over $n$ processors of $\mathcal{O}(n^2g) +\mathcal{O}(\log{\log{n}})$ where $n$ is the cardinality of the ground set and $g$ is the complexity to compute the monotone linkage function that induces a corresponding quasi-concave set function via a duality. The complexity reduces to $\mathcal{O}(gn\log(n))$ on $n^2$ processors and to $\mathcal{O}(gn)$ on $n^3$ processors. Our algorithm provides a globally optimal solution to a maxi-min problem as opposed to submodular optimization which is approximate. We show a potential for widespread applications via an example of diverse feature subset selection with exact global maxi-min guarantees upon showing that a statistical dependency measure called distance correlation can be used to induce a quasi-concave set function.
翻訳日:2021-08-20 16:45:15 公開日:2021-08-19
# (参考訳) DESYR: Web上の定義と構文表現に基づくクレーム検出 [全文訳有]

DESYR: Definition and Syntactic Representation Based Claim Detection on the Web ( http://arxiv.org/abs/2108.08759v1 )

ライセンス: CC BY 4.0
Megha Sundriyal, Parantak Singh, Md Shad Akhtar, Shubhashis Sengupta, Tanmoy Chakraborty(参考訳) 主張の定式化は、議論のマイニングの核心にある。 両者の言語的差異が潜んでいることと、広範囲な定義に基づく形式化の不十分さにより、クレームと非クレームの分離が人間と機械の両方にとって困難である。 さらに、オンラインソーシャルメディアの利用の増加は、非公式テキストとして提示されるウェブ上の未完成情報の爆発をもたらした。 本稿では,上記のことを考慮し,DESYRを提案する。 階層型表現学習(依存性に着想を得たPoincare埋め込み)、定義ベースのアライメント、特徴投影の組み合わせを活用することで、Webベースの非公式テキストの問題を解消するフレームワークである。 我々は、よりドメイン中心の、より軽量なアプローチを作るために、微調整されたコンピュータ重言語モデルを廃止します。 実験の結果、desyrは4つのベンチマーククレームデータセットにまたがって最先端のシステムを構築しており、そのほとんどは非公式のテキストで構築されている。 LESA-Twitterデータセットでは3つのクレームF1ポイントが増加し,オンラインコメント(OC)データセットでは1つのクレームF1ポイントと9つのマクロF1ポイントが増加し,Web Discourse(WD)データセットでは24個のクレームF1ポイントと17個のマクロF1ポイントが増加し,マイクロテキスト(MT)データセットでは8つのクレームF1ポイントと5つのマクロF1ポイントが増加した。 また、その結果を広範囲に分析する。 ソースコードとともに、Poincareの100D事前訓練バージョンを作成します。

The formulation of a claim rests at the core of argument mining. To demarcate between a claim and a non-claim is arduous for both humans and machines, owing to latent linguistic variance between the two and the inadequacy of extensive definition-based formalization. Furthermore, the increase in the usage of online social media has resulted in an explosion of unsolicited information on the web presented as informal text. To account for the aforementioned, in this paper, we proposed DESYR. It is a framework that intends on annulling the said issues for informal web-based text by leveraging a combination of hierarchical representation learning (dependency-inspired Poincare embedding), definition-based alignment, and feature projection. We do away with fine-tuning computer-heavy language models in favor of fabricating a more domain-centric but lighter approach. Experimental results indicate that DESYR builds upon the state-of-the-art system across four benchmark claim datasets, most of which were constructed with informal texts. We see an increase of 3 claim-F1 points on the LESA-Twitter dataset, an increase of 1 claim-F1 point and 9 macro-F1 points on the Online Comments(OC) dataset, an increase of 24 claim-F1 points and 17 macro-F1 points on the Web Discourse(WD) dataset, and an increase of 8 claim-F1 points and 5 macro-F1 points on the Micro Texts(MT) dataset. We also perform an extensive analysis of the results. We make a 100-D pre-trained version of our Poincare-variant along with the source code.
翻訳日:2021-08-20 16:32:26 公開日:2021-08-19
# (参考訳) 学習から学習までの非凸片方向Lipschitz関数 [全文訳有]

Learning-to-learn non-convex piecewise-Lipschitz functions ( http://arxiv.org/abs/2108.08770v1 )

ライセンス: CC BY 4.0
Maria-Florina Balcan, Mikhail Khodak, Dravyansh Sharma, Ameet Talwalkar(参考訳) 我々は,機械学習とアルゴリズムの両方に適用可能な非凸設定であるLipschitz関数の初期化とステップサイズ学習アルゴリズムのメタラーニングを分析した。 分散不連続を伴う損失の指数関数予測器に対する最近の後悔の限界から始まり、それらを初期化依存に一般化し、この結果を用いて複数のオンライン学習タスクからアルゴリズムの初期化とステップサイズの両方を学ぶ実用的なメタラーニング手順を提案する。 漸近的に、タスク間の平均的後悔は、タスク間のほぼ最適領域間の重複量を測定するタスク類似性の自然な概念でスケールすることを保証します。 最後に、ロバストなメタラーニングとマルチタスクデータ駆動アルゴリズム設計という2つの重要な設定で、メソッドとその保証をインスタンス化する。

We analyze the meta-learning of the initialization and step-size of learning algorithms for piecewise-Lipschitz functions, a non-convex setting with applications to both machine learning and algorithms. Starting from recent regret bounds for the exponential forecaster on losses with dispersed discontinuities, we generalize them to be initialization-depen dent and then use this result to propose a practical meta-learning procedure that learns both the initialization and the step-size of the algorithm from multiple online learning tasks. Asymptotically, we guarantee that the average regret across tasks scales with a natural notion of task-similarity that measures the amount of overlap between near-optimal regions of different tasks. Finally, we instantiate the method and its guarantee in two important settings: robust meta-learning and multi-task data-driven algorithm design.
翻訳日:2021-08-20 16:13:05 公開日:2021-08-19
# (参考訳) 異常な視覚認知に対する因果注意 [全文訳有]

Causal Attention for Unbiased Visual Recognition ( http://arxiv.org/abs/2108.08782v1 )

ライセンス: CC BY 4.0
Tan Wang, Chang Zhou, Qianru Sun, Hanwang Zhang(参考訳) アテンションモジュールは、例えば、フォアグラウンドオブジェクト機能は異なる背景に不変であるなど、どんなコンテキストでも堅牢な因果的特徴を深層モデルで学ぶのに役立つとは限らない。 これは、共同創設者たちが注意をそらして、トレーニングデータとテストデータがID(IDおよび独立分布)である場合の予測に利益をもたらす、突発的な相関を捉えているためである。 因果的注意を学ぶ唯一の基本的な解決策は因果的介入であり、例えば「グラス+ドッグ」と「ロード+ドッグ」でそれぞれ「ドッグ」モデルが学習されるため、「グラス」と「ロード」のコンテキストはもはや「ドッグ」認識を結合させない。 しかし、このような注釈は違法に高価であるだけでなく、本質的に問題でもある。 本稿では,共同創設者を教師なしの方法で自己注釈するcausal attention module(caam)を提案する。 特に、複数のcaamを積み重ねて、従来のアテンションcnnやセルフアテンションビジョントランスフォーマーに統合することができる。 OOD設定では、CaaMによるディープモデルはそれらを著しく上回る。ID設定においても、注意のローカライゼーションはCaaMによって改善され、堅牢な視覚的サリエンシを必要とするアプリケーションにおいて大きな可能性を示す。 コードは \url{https://github.com/w angt-cn/caam} で入手できる。

Attention module does not always help deep models learn causal features that are robust in any confounding context, e.g., a foreground object feature is invariant to different backgrounds. This is because the confounders trick the attention to capture spurious correlations that benefit the prediction when the training and testing data are IID (identical & independent distribution); while harm the prediction when the data are OOD (out-of-distribution ). The sole fundamental solution to learn causal attention is by causal intervention, which requires additional annotations of the confounders, e.g., a "dog" model is learned within "grass+dog" and "road+dog" respectively, so the "grass" and "road" contexts will no longer confound the "dog" recognition. However, such annotation is not only prohibitively expensive, but also inherently problematic, as the confounders are elusive in nature. In this paper, we propose a causal attention module (CaaM) that self-annotates the confounders in unsupervised fashion. In particular, multiple CaaMs can be stacked and integrated in conventional attention CNN and self-attention Vision Transformer. In OOD settings, deep models with CaaM outperform those without it significantly; even in IID settings, the attention localization is also improved by CaaM, showing a great potential in applications that require robust visual saliency. Codes are available at \url{https://github.com/W angt-CN/CaaM}.
翻訳日:2021-08-20 15:41:07 公開日:2021-08-19
# (参考訳) 部分畳み込みを用いたイメージインパインティング [全文訳有]

Image Inpainting using Partial Convolution ( http://arxiv.org/abs/2108.08791v1 )

ライセンス: CC BY 4.0
Harsh Patel, Amey Kulkarni, Shivam Sahni, Udit Vyas(参考訳) Image Inpaintingは、コンピュータビジョンに広く応用された画像処理分野において、非常に人気のあるタスクの1つである。 様々な応用において、画像は、劣化した、失われた、または望ましくない情報の存在によって、しばしばノイズによって劣化する。 このような問題に対処するための古典的・深層学習のアプローチでは、過去に様々な復元技術が用いられてきた。 従来の方法では、近隣の既知のピクセルを使ってギャップピクセルを埋めたり、同じ移動平均を使って画像の復元を行う。 本稿では,部分畳み込み層を用いたロバストなディープラーニング手法を用いて,画像インパインティングを行う。

Image Inpainting is one of the very popular tasks in the field of image processing with broad applications in computer vision. In various practical applications, images are often deteriorated by noise due to the presence of corrupted, lost, or undesirable information. There have been various restoration techniques used in the past with both classical and deep learning approaches for handling such issues. Some traditional methods include image restoration by filling gap pixels using the nearby known pixels or using the moving average over the same. The aim of this paper is to perform image inpainting using robust deep learning methods that use partial convolution layers.
翻訳日:2021-08-20 15:14:30 公開日:2021-08-19
# 視覚トランスフォーマーは畳み込みニューラルネットワークに見えるか?

Do Vision Transformers See Like Convolutional Neural Networks? ( http://arxiv.org/abs/2108.08810v1 )

ライセンス: Link先を確認
Maithra Raghu, Thomas Unterthiner, Simon Kornblith, Chiyuan Zhang, Alexey Dosovitskiy(参考訳) 畳み込みニューラルネットワーク(CNN)はこれまでのところ、視覚データのデファクトモデルとなっている。 近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。 視覚トランスフォーマーはどのようにこれらのタスクを解決しているのか? 畳み込みネットワークのように振る舞うか、まったく異なる視覚的表現を学ぶか? 画像分類ベンチマークでvitsとcnnの内部表現構造を分析すると、vitが全層にまたがってより均一な表現を持つなど、2つのアーキテクチャの大きな違いが分かる。 これらの違いがどのように生じ、グローバル情報の早期集約を可能にする自己注意と、下位層から上位層への特徴を強く伝達するViT残差接続によって、重要な役割が果たされるかを検討する。 空間的局所化の分岐について検討し,vitsが入力空間情報の保存に成功していることを示す。 最後に,中間的特徴と伝達学習に対するデータセットスケールの効果について検討し,MLP-Mixer などの新しいアーキテクチャとの関係について考察した。

Convolutional neural networks (CNNs) have so far been the de-facto model for visual data. Recent work has shown that (Vision) Transformer models (ViT) can achieve comparable or even superior performance on image classification tasks. This raises a central question: how are Vision Transformers solving these tasks? Are they acting like convolutional networks, or learning entirely different visual representations? Analyzing the internal representation structure of ViTs and CNNs on image classification benchmarks, we find striking differences between the two architectures, such as ViT having more uniform representations across all layers. We explore how these differences arise, finding crucial roles played by self-attention, which enables early aggregation of global information, and ViT residual connections, which strongly propagate features from lower to higher layers. We study the ramifications for spatial localization, demonstrating ViTs successfully preserve input spatial information, with noticeable effects from different classification methods. Finally, we study the effect of (pretraining) dataset scale on intermediate features and transfer learning, and conclude with a discussion on connections to new architectures such as the MLP-Mixer.
翻訳日:2021-08-20 14:48:08 公開日:2021-08-19
# セマンティックテクスト類似性のためのチェコニュースデータセット

Czech News Dataset for Semanic Textual Similarity ( http://arxiv.org/abs/2108.08708v1 )

ライセンス: Link先を確認
Jakub Sido, Michal Sej\'ak, Ond\v{r}ej Pra\v{z}\'ak, Miloslav Konop\'ik, V\'aclav Moravec(参考訳) 本稿では,意味的類似性アノテーションを持つ文からなる新しいデータセットについて述べる。 このデータはチェコ語におけるジャーナリストの領域に由来する。 データの収集と注釈付けのプロセスについて詳述する。 データセットには、138,556人のアノテーションが列車とテストセットに分割されている。 合計485人のジャーナリズム学生が作成プロセスに参加した。 テストセットの信頼性を高めるために、アノテーションを平均9個の個別アノテーションとして計算する。 アノテーションアノテータ間のアノテータ間の合意を計測することで,データセットの品質を評価する。 合意番号の他に、収集したデータセットの詳細な統計情報を提供する。 本稿では,文の意味的類似性を予測するシステムを構築するための基礎実験を行った。 大量のトレーニングアノテーション(116 956)により、平均アノテータ (0,92対0,86対人相関係数) よりもはるかに優れた性能を発揮する。

This paper describes a novel dataset consisting of sentences with semantic similarity annotations. The data originate from the journalistic domain in the Czech language. We describe the process of collecting and annotating the data in detail. The dataset contains 138,556 human annotations divided into train and test sets. In total, 485 journalism students participated in the creation process. To increase the reliability of the test set, we compute the annotation as an average of 9 individual annotations. We evaluate the quality of the dataset by measuring inter and intra annotation annotators' agreements. Beside agreement numbers, we provide detailed statistics of the collected dataset. We conclude our paper with a baseline experiment of building a system for predicting the semantic similarity of sentences. Due to the massive number of training annotations (116 956), the model can perform significantly better than an average annotator (0,92 versus 0,86 of Person's correlation coefficients).
翻訳日:2021-08-20 14:47:48 公開日:2021-08-19
# 線形関数近似を用いたオンライン・オフライン設定のための高能率生成逆推定学習

Provably Efficient Generative Adversarial Imitation Learning for Online and Offline Setting with Linear Function Approximation ( http://arxiv.org/abs/2108.08765v1 )

ライセンス: Link先を確認
Zhihan Liu, Yufeng Zhang, Zuyue Fu, Zhuoran Yang, and Zhaoran Wang(参考訳) GAIL(Generative Adversarial mimicion Learning)において、エージェントは、特定の事前定義された報酬セットのエキスパートポリシーから、そのパフォーマンスを識別できないように、専門家のデモンストレーションからポリシーを学習することを目的としている。 本稿では,オンラインとオフラインの両方において,遷移関数と報酬関数が機能マップにおいて線形であるような線形関数近似を用いてゲイルについて検討する。 専門家によるデモンストレーションの他に、オンライン設定ではエージェントが環境と対話し、オフライン設定ではエージェントは事前に収集した追加データセットのみにアクセスする。 オンラインGAILに対して、楽観的な生成逆ポリシー最適化アルゴリズム(OGAP)を提案し、OGAPが$\widetilde{\mathcal{O}}(H^2 d^{3/2}K^{1/2}+KH^{3/2}dN_1^{-1/2})を達成できることを証明する。 ここで$N_1$は専門家のデモの軌跡数を表し、$d$は特徴次元、$K$はエピソード数を表す。 本稿では, GAIL のオフライン化のために, GAIL 最適化アルゴリズム (PGAP) を提案する。 任意の追加データセットに対して、PGAPの最適性ギャップを求め、追加データセットの利用において最小限の上限を達成する。 追加データセットについて十分なカバレッジを仮定すると、PGAPは$\widetilde{\mathcal{O}}(H^{2}dK^{-1/2} + H^2d^{3/2}N_2^{-1/2}+H^{3/2}dN_1^{-1/2} \ )$Optimity gap を達成する。 ここで$N_2$は、十分なカバレッジを持つ追加データセットのトラジェクトリ数を表す。

In generative adversarial imitation learning (GAIL), the agent aims to learn a policy from an expert demonstration so that its performance cannot be discriminated from the expert policy on a certain predefined reward set. In this paper, we study GAIL in both online and offline settings with linear function approximation, where both the transition and reward function are linear in the feature maps. Besides the expert demonstration, in the online setting the agent can interact with the environment, while in the offline setting the agent only accesses an additional dataset collected by a prior. For online GAIL, we propose an optimistic generative adversarial policy optimization algorithm (OGAP) and prove that OGAP achieves $\widetilde{\mathcal{O}}(H^2 d^{3/2}K^{1/2}+KH^{3/2}dN_1^{-1/2})$ regret. Here $N_1$ represents the number of trajectories of the expert demonstration, $d$ is the feature dimension, and $K$ is the number of episodes. For offline GAIL, we propose a pessimistic generative adversarial policy optimization algorithm (PGAP). For an arbitrary additional dataset, we obtain the optimality gap of PGAP, achieving the minimax lower bound in the utilization of the additional dataset. Assuming sufficient coverage on the additional dataset, we show that PGAP achieves $\widetilde{\mathcal{O}}(H^{2}dK^{-1/2} +H^2d^{3/2}N_2^{-1/2}+H^{3/2}dN_1^{-1/2} \ )$ optimality gap. Here $N_2$ represents the number of trajectories of the additional dataset with sufficient coverage.
翻訳日:2021-08-20 14:47:35 公開日:2021-08-19
# メタコントラストネットワークを用いた自己教師付きビデオ表現学習

Self-Supervised Video Representation Learning with Meta-Contrastive Network ( http://arxiv.org/abs/2108.08426v1 )

ライセンス: Link先を確認
Yuanze Lin, Xun Guo, Yan Lu(参考訳) 自己教師付き学習は、事前学習領域から下流タスクへの効果的な適応を目的とした、事前訓練ビデオ表現に成功している。 既存のアプローチは、インスタンスレベルの識別を学ぶために対照的な損失を利用するだけです。 しかし、カテゴリ情報の欠如は、この種の手法の一般化能力を制約する強正の問題につながる。 メタ学習のマルチタスクプロセスは、この問題に対する解決策を提供することができる。 本稿では,既存の自己教師ありアプローチの学習能力を高めるために,コントラスト学習とメタ学習を組み合わせたメタコントラストネットワーク(mcn)を提案する。 本手法は,モデルに依存しないメタラーニング(MAML)に基づく2つの訓練段階を含む。 本手法の有効性を広範囲に評価した。 2つの下流タスク、すなわちビデオアクション認識とビデオ検索において、MCNはUCF101およびHMDB51データセットに対する最先端のアプローチより優れている。 より具体的に言うと、r(2+1)dバックボーンでは、ビデオアクション認識では84.8%、54.5%、ビデオ検索では52.5%、23.7%のtop-1アキュラティを達成している。

Self-supervised learning has been successfully applied to pre-train video representations, which aims at efficient adaptation from pre-training domain to downstream tasks. Existing approaches merely leverage contrastive loss to learn instance-level discrimination. However, lack of category information will lead to hard-positive problem that constrains the generalization ability of this kind of methods. We find that the multi-task process of meta learning can provide a solution to this problem. In this paper, we propose a Meta-Contrastive Network (MCN), which combines the contrastive learning and meta learning, to enhance the learning ability of existing self-supervised approaches. Our method contains two training stages based on model-agnostic meta learning (MAML), each of which consists of a contrastive branch and a meta branch. Extensive evaluations demonstrate the effectiveness of our method. For two downstream tasks, i.e., video action recognition and video retrieval, MCN outperforms state-of-the-art approaches on UCF101 and HMDB51 datasets. To be more specific, with R(2+1)D backbone, MCN achieves Top-1 accuracies of 84.8% and 54.5% for video action recognition, as well as 52.5% and 23.7% for video retrieval.
翻訳日:2021-08-20 14:46:57 公開日:2021-08-19
# 表情認識におけるアノテーションバイアスの理解と緩和

Understanding and Mitigating Annotation Bias in Facial Expression Recognition ( http://arxiv.org/abs/2108.08504v1 )

ライセンス: Link先を確認
Yunliang Chen, Jungseock Joo(参考訳) コンピュータビジョンモデルの性能は、トレーニングデータのサイズと品質に依存する。 近年の研究では、一般的な画像データセットに既知の組成バイアスが明らかにされており、歪んだモデル出力につながり、これらのバイアスを軽減する方法が提案されている。 しかし、現存するほとんどの著作は、人為的なアノテーションは金本位制であり、偏見がないと仮定している。 本稿では,この仮定が問題となりうること,モデルがアノテーションバイアスを学習することを防ぐために注意が必要であることを明らかにする。 表情認識に着目し,ラボ制御データセットとインザワイルドデータセットのラベルバイアスを比較した。 多くの表現データセットは、特に幸福な表現と怒りの表現に関して、性別間の重要なアノテーションバイアスを含んでいることを示し、伝統的な手法では、トレーニングされたモデルでこのようなバイアスを完全に軽減することはできないことを実証する。 表情のアノテーションバイアスを除去するために,顔動作単位(AU)を利用したAU-Calibrated Facial Expression Recognition (AUC-FER) フレームワークを提案し,その三重項損失を目的関数に組み込む。 実験の結果,提案手法は既存の手法よりも表現アノテーションバイアスの除去に有効であることが示唆された。

The performance of a computer vision model depends on the size and quality of its training data. Recent studies have unveiled previously-unknown composition biases in common image datasets which then lead to skewed model outputs, and have proposed methods to mitigate these biases. However, most existing works assume that human-generated annotations can be considered gold-standard and unbiased. In this paper, we reveal that this assumption can be problematic, and that special care should be taken to prevent models from learning such annotation biases. We focus on facial expression recognition and compare the label biases between lab-controlled and in-the-wild datasets. We demonstrate that many expression datasets contain significant annotation biases between genders, especially when it comes to the happy and angry expressions, and that traditional methods cannot fully mitigate such biases in trained models. To remove expression annotation bias, we propose an AU-Calibrated Facial Expression Recognition (AUC-FER) framework that utilizes facial action units (AUs) and incorporates the triplet loss into the objective function. Experimental results suggest that the proposed method is more effective in removing expression annotation bias than existing techniques.
翻訳日:2021-08-20 14:46:35 公開日:2021-08-19
# 微細視分類と再同定のための反事実的注意学習

Counterfactual Attention Learning for Fine-Grained Visual Categorization and Re-identification ( http://arxiv.org/abs/2108.08728v1 )

ライセンス: Link先を確認
Yongming Rao, Guangyi Chen, Jiwen Lu, Jie Zhou(参考訳) 注意機構は、きめ細かい視覚認識タスクにおいて大きな可能性を示している。 本稿では,因果推論に基づいてより効果的な注意を学ぶための反事実的注意学習手法を提案する。 従来の可能性に基づいて視覚的な注意を学習する既存の手法と異なり,注意の質を測定するためのツールと,学習プロセスを導く強力な監督信号を提供する反事実的因果性を用いて注意を学習することを提案する。 具体的には,学習した視覚注意が偽りの介入によるネットワーク予測に与える影響を分析し,その効果を最大化し,細粒度画像認識においてより有用な注意力を得るように促す。 画像分類,人物再識別,車両再識別など,注意が重要な役割を担う広範囲な微粒化認識タスクについて,実験により評価を行った。 全てのベンチマークにおける一貫した改善は,本手法の有効性を示す。 コードはhttps://github.com/r aoyongming/CALで入手できる。

Attention mechanism has demonstrated great potential in fine-grained visual recognition tasks. In this paper, we present a counterfactual attention learning method to learn more effective attention based on causal inference. Unlike most existing methods that learn visual attention based on conventional likelihood, we propose to learn the attention with counterfactual causality, which provides a tool to measure the attention quality and a powerful supervisory signal to guide the learning process. Specifically, we analyze the effect of the learned visual attention on network prediction through counterfactual intervention and maximize the effect to encourage the network to learn more useful attention for fine-grained image recognition. Empirically, we evaluate our method on a wide range of fine-grained recognition tasks where attention plays a crucial role, including fine-grained image categorization, person re-identification, and vehicle re-identification. The consistent improvement on all benchmarks demonstrates the effectiveness of our method. Code is available at https://github.com/r aoyongming/CAL
翻訳日:2021-08-20 14:46:14 公開日:2021-08-19
# PoinTr:Geometry-Awar e Transformerを用いた多点クラウド補完

PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers ( http://arxiv.org/abs/2108.08839v1 )

ライセンス: Link先を確認
Xumin Yu, Yongming Rao, Ziyi Wang, Zuyan Liu, Jiwen Lu, Jie Zhou(参考訳) 現実世界のアプリケーションで捉えた点雲は、センサーの解像度の制限、単一視点、閉塞のため、しばしば不完全である。 したがって、部分的なものから完全点雲を復元することは、多くの実用的な応用において必須の課題となる。 本稿では,ポイントクラウド完全化をセット・ツー・セットの翻訳問題として再構成し,ポイントクラウド完全化のためにトランスフォーマエンコーダ・デコーダアーキテクチャを採用するpointrと呼ばれる新しいモデルを設計する新しい手法を提案する。 点雲を位置埋め込みを持つ点群の一組として表現することにより、点雲を点プロキシの列に変換し、点雲の生成に変換器を用いる。 点雲の3次元幾何学構造に関する帰納バイアスをよりよく活用するために,局所幾何学的関係を明示的にモデル化する幾何学的ブロックを考案する。 トランスフォーマーの移行によって、モデルが構造知識をよりよく学習し、ポイントクラウド完成のための詳細な情報を保存することができます。 さらに、より多様な不完全な点雲を持つ2つのより挑戦的なベンチマークを提案し、将来の研究を促進するために現実のシナリオをよりよく反映できる。 実験の結果,新しいベンチマークと既存ベンチマークの両方において,本手法が最先端手法よりも大きなマージンを示した。 コードはhttps://github.com/y uxumin/PoinTrで入手できる。

Point clouds captured in real-world applications are often incomplete due to the limited sensor resolution, single viewpoint, and occlusion. Therefore, recovering the complete point clouds from partial ones becomes an indispensable task in many practical applications. In this paper, we present a new method that reformulates point cloud completion as a set-to-set translation problem and design a new model, called PoinTr that adopts a transformer encoder-decoder architecture for point cloud completion. By representing the point cloud as a set of unordered groups of points with position embeddings, we convert the point cloud to a sequence of point proxies and employ the transformers for point cloud generation. To facilitate transformers to better leverage the inductive bias about 3D geometric structures of point clouds, we further devise a geometry-aware block that models the local geometric relationships explicitly. The migration of transformers enables our model to better learn structural knowledge and preserve detailed information for point cloud completion. Furthermore, we propose two more challenging benchmarks with more diverse incomplete point clouds that can better reflect the real-world scenarios to promote future research. Experimental results show that our method outperforms state-of-the-art methods by a large margin on both the new benchmarks and the existing ones. Code is available at https://github.com/y uxumin/PoinTr
翻訳日:2021-08-20 14:45:58 公開日:2021-08-19
# コントラスト言語画像によるイタリア語の事前学習

Contrastive Language-Image Pre-training for the Italian Language ( http://arxiv.org/abs/2108.08688v1 )

ライセンス: Link先を確認
Federico Bianchi, Giuseppe Attanasio, Raphael Pisoni, Silvia Terragni, Gabriele Sarti, Sri Lakshmi(参考訳) CLIP(Contrastive Language- Image Pre-training)は、画像とテキストの表現を共同で学習する、非常に最近のマルチモーダルモデルである。 このモデルは、大量の英語データに基づいてトレーニングされ、ゼロショット分類タスクで印象的なパフォーマンスを示す。 異なる言語で同じモデルをトレーニングするのは簡単ではない。他の言語のデータでは不十分であり、優れたパフォーマンスを保証するために高品質なテキスト翻訳が必要であるからだ。 本稿では,140万以上の画像テキストペアで学習したイタリア語(CLIP-Italian)の最初のCLIPモデルを提案する。 その結果,CLIP-Italianは画像検索やゼロショット分類のタスクにおいて多言語CLIPモデルよりも優れていた。

CLIP (Contrastive Language-Image Pre-training) is a very recent multi-modal model that jointly learns representations of images and texts. The model is trained on a massive amount of English data and shows impressive performance on zero-shot classification tasks. Training the same model on a different language is not trivial, since data in other languages might be not enough and the model needs high-quality translations of the texts to guarantee a good performance. In this paper, we present the first CLIP model for the Italian Language (CLIP-Italian), trained on more than 1.4 million image-text pairs. Results show that CLIP-Italian outperforms the multilingual CLIP model on the tasks of image retrieval and zero-shot classification.
翻訳日:2021-08-20 14:45:34 公開日:2021-08-19
# click to move: スローモーションでビデオ生成を制御する

Click to Move: Controlling Video Generation with Sparse Motion ( http://arxiv.org/abs/2108.08815v1 )

ライセンス: Link先を確認
Pierfrancesco Ardino, Marco De Nadai, Bruno Lepri, Elisa Ricci and St\'ephane Lathuili\`ere(参考訳) 本稿では,Click to Move(C2M)について紹介する。C2Mは,シーン内のキーオブジェクトの単純なオブジェクトトラジェクトリを指定するマウスクリックにより,ユーザが合成ビデオの動きを制御できる,ビデオ生成の新しいフレームワークである。 本モデルでは,初期フレーム,対応するセグメンテーションマップ,ユーザが提供する入力を符号化するスパース動作ベクトルを入力として受信する。 所定のフレームから始まり、ユーザの入力と一致する動きで、妥当なビデオシーケンスを出力する。 特に,提案したディープアーキテクチャでは,全オブジェクトの動作を全体論的にモデル化するグラフ畳み込みネットワーク(GCN)を導入し,スパースなユーザ動作情報と画像特徴を効果的に組み合わせている。 実験の結果,C2Mは2つの公開データセット上で既存の手法よりも優れており,オブジェクト相互作用のモデル化におけるGCNフレームワークの有効性が示された。 ソースコードはhttps://github.com/P ierfrancescoArdino/C 2Mで公開されている。

This paper introduces Click to Move (C2M), a novel framework for video generation where the user can control the motion of the synthesized video through mouse clicks specifying simple object trajectories of the key objects in the scene. Our model receives as input an initial frame, its corresponding segmentation map and the sparse motion vectors encoding the input provided by the user. It outputs a plausible video sequence starting from the given frame and with a motion that is consistent with user input. Notably, our proposed deep architecture incorporates a Graph Convolution Network (GCN) modelling the movements of all the objects in the scene in a holistic manner and effectively combining the sparse user motion information and image features. Experimental results show that C2M outperforms existing methods on two publicly available datasets, thus demonstrating the effectiveness of our GCN framework at modelling object interactions. The source code is publicly available at https://github.com/P ierfrancescoArdino/C 2M.
翻訳日:2021-08-20 14:45:11 公開日:2021-08-19
# 言語モデル拡張関連スコア

Language Model Augmented Relevance Score ( http://arxiv.org/abs/2108.08485v1 )

ライセンス: Link先を確認
Ruibo Liu, Jason Wei, Soroush Vosoughi(参考訳) 自動メトリクスは一般的にNLGシステムの評価に使用されるが、人間の判断と相関しないことが多い。 BERTScoreのような新しいメトリクスは、n-gramマッチングに依存するBLEUやROUGEといった以前のメトリクスの多くの弱点に対処している。 しかし、これらの新しい方法は、生成コンテキストを考慮しないという点で依然として制限されているため、与えられた参照から逸脱した生成テキストを適切に報酬できない。 本稿では,nlg評価のための新しい文脈認識指標である言語モデル拡張関連スコア(mars)を提案する。 MARSは、強化学習によって導かれる既製の言語モデルを活用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成し、生成したテキストをスコアする追加参照として使用する。 3つの共通NLGタスクにおける既存の7つの指標と比較すると、MARSは人間の基準判断と高い相関を達成できるだけでなく、優れた候補を敵のサンプルと大きく区別する。

Although automated metrics are commonly used to evaluate NLG systems, they often correlate poorly with human judgements. Newer metrics such as BERTScore have addressed many weaknesses in prior metrics such as BLEU and ROUGE, which rely on n-gram matching. These newer methods, however, are still limited in that they do not consider the generation context, so they cannot properly reward generated text that is correct but deviates from the given reference. In this paper, we propose Language Model Augmented Relevance Score (MARS), a new context-aware metric for NLG evaluation. MARS leverages off-the-shelf language models, guided by reinforcement learning, to create augmented references that consider both the generation context and available human references, which are then used as additional references to score generated text. Compared with seven existing metrics in three common NLG tasks, MARS not only achieves higher correlation with human reference judgements, but also differentiates well-formed candidates from adversarial samples to a larger degree.
翻訳日:2021-08-20 14:44:06 公開日:2021-08-19
# 2段階深層学習による逆設計最適化の枠組み-風力タービン翼への適用-

Inverse design optimization framework via a two-step deep learning approach: application to a wind turbine airfoil ( http://arxiv.org/abs/2108.08500v1 )

ライセンス: Link先を確認
Sunwoong Yang, Sanga Lee, Kwanjung Yee(参考訳) 空力設計では, 目標性能分布が特定されるため, 逆アプローチは計算効率が高いが, 完全効率化を阻害する重要な限界がある。 まず、指定されたターゲット分布が変化するたびに反復手順を繰り返す。 対象分布最適化は、この分布を特定する際の曖昧さを明らかにするために行うことができるが、分布のパラメータ化による表現能力の喪失、現実的な分布に対する過度な制約、理論的・経験的予測による関心の量の不正確性、幾何学的制約を明示的に課すことの不可能など、いくつかの問題が発生する。 これらの問題に対処するために,2段階の深層学習アプローチを備えた新しい逆設計最適化フレームワークを提案する。 可変オートエンコーダと多層パーセプトロンを用いて、現実的な目標分布を生成し、生成した分布からそれぞれ興味と形状パラメータの量を予測する。 そして、逆設計最適化として目標分布最適化を行う。 提案手法は,能動的学習と伝達学習を応用し,精度と効率を向上させる。 最後に、逆設計が積極的に適用されている風力タービンブレードの翼の空力形状最適化により、枠組みを検証する。 最適化の結果、このフレームワークは他の逆設計工学アプリケーションに適用できるほど正確で効率的で柔軟であることが判明した。

Though inverse approach is computationally efficient in aerodynamic design as the desired target performance distribution is specified, it has some significant limitations that prevent full efficiency from being achieved. First, the iterative procedure should be repeated whenever the specified target distribution changes. Target distribution optimization can be performed to clarify the ambiguity in specifying this distribution, but several additional problems arise in this process such as loss of the representation capacity due to parameterization of the distribution, excessive constraints for a realistic distribution, inaccuracy of quantities of interest due to theoretical/empirica l predictions, and the impossibility of explicitly imposing geometric constraints. To deal with these issues, a novel inverse design optimization framework with a two-step deep learning approach is proposed. A variational autoencoder and multi-layer perceptron are used to generate a realistic target distribution and predict the quantities of interest and shape parameters from the generated distribution, respectively. Then, target distribution optimization is performed as the inverse design optimization. The proposed framework applies active learning and transfer learning techniques to improve accuracy and efficiency. Finally, the framework is validated through aerodynamic shape optimizations of the airfoil of a wind turbine blade, where inverse design is actively being applied. The results of the optimizations show that this framework is sufficiently accurate, efficient, and flexible to be applied to other inverse design engineering applications.
翻訳日:2021-08-20 14:43:29 公開日:2021-08-19
# EqGNN: グラフにおけるノードオポチュニティの平等化

EqGNN: Equalized Node Opportunity in Graphs ( http://arxiv.org/abs/2108.08800v1 )

ライセンス: Link先を確認
Uriel Singer and Kira Radinsky(参考訳) グラフニューラルネットワーク(gnns)は、最先端の結果に達するグラフの教師付き学習タスクに広く使われている。 しかし、その分類が人種や性別のようなセンシティブな属性と無関係であるような、偏見のないGNNを作成するための研究はほとんどなかった。 繊細な属性を無視したり、公平性に対する統計的パリティの基準を最適化する者もいる。 しかし、どちらの手法も公平性を保証せず、予測タスクの有用性を損なうことが示されている。 そこで本研究では,等化オッドの公平度基準に対する表現を最適化するGNNフレームワークを提案する。 アーキテクチャは,(1)ユーティリティクラスを予測するGNN分類器,(2)ラベルを付与したノードの機密属性の分布を学習するサンプリング器の3つのコンポーネントから構成される。 (3)識別器に供給されたサンプルを生成し、新しい「置換損失」関数を用いて真と正の敏感な属性を識別する。 これらのコンポーネントを使用して、ラベルのみに関する機密属性に関する情報を無視するようにモデルを訓練する。 我々の知識を最大限に活用するために、我々はまず、均等化されたオッズ基準のためにGNNを最適化する。 我々は,複数のグラフデータセットと繊細な属性について分類器を評価し,そのアルゴリズムが最先端の結果に達することを示す。

Graph neural networks (GNNs), has been widely used for supervised learning tasks in graphs reaching state-of-the-art results. However, little work was dedicated to creating unbiased GNNs, i.e., where the classification is uncorrelated with sensitive attributes, such as race or gender. Some ignore the sensitive attributes or optimize for the criteria of statistical parity for fairness. However, it has been shown that neither approaches ensure fairness, but rather cripple the utility of the prediction task. In this work, we present a GNN framework that allows optimizing representations for the notion of Equalized Odds fairness criteria. The architecture is composed of three components: (1) a GNN classifier predicting the utility class, (2) a sampler learning the distribution of the sensitive attributes of the nodes given their labels. It generates samples fed into a (3) discriminator that discriminates between true and sampled sensitive attributes using a novel "permutation loss" function. Using these components, we train a model to neglect information regarding the sensitive attribute only with respect to its label. To the best of our knowledge, we are the first to optimize GNNs for the equalized odds criteria. We evaluate our classifier over several graph datasets and sensitive attributes and show our algorithm reaches state-of-the-art results.
翻訳日:2021-08-20 14:42:56 公開日:2021-08-19
# 機械学習における不確実性定量化の活用事例

Teaching Uncertainty Quantification in Machine Learning through Use Cases ( http://arxiv.org/abs/2108.08712v1 )

ライセンス: Link先を確認
Matias Valdenegro-Toro(参考訳) 機械学習の不確実性は、一般的に機械学習コースのカリキュラムで一般的な知識として教えられるものではない。 本稿では、機械学習における不確実性に関するコースの短いカリキュラムを提案し、そのコースを一連のユースケースで補完し、議論の引き金となり、プログラミング環境における不確実性の概念を学生に体験させることを目的とする。 我々のユースケースは、出力の不確実性、ベイズニューラルネットワーク、重み分布、不確実性源、分布検出外の概念をカバーしている。 このカリキュラムと一連のユースケースは、コミュニティがこれらの重要な概念をAIの安全のためのコースに導入する動機になることを期待しています。

Uncertainty in machine learning is not generally taught as general knowledge in Machine Learning course curricula. In this paper we propose a short curriculum for a course about uncertainty in machine learning, and complement the course with a selection of use cases, aimed to trigger discussion and let students play with the concepts of uncertainty in a programming setting. Our use cases cover the concept of output uncertainty, Bayesian neural networks and weight distributions, sources of uncertainty, and out of distribution detection. We expect that this curriculum and set of use cases motivates the community to adopt these important concepts into courses for safety in AI.
翻訳日:2021-08-20 14:42:35 公開日:2021-08-19
# 複雑な場面における敵攻撃検出のための複数物体関係の爆発

Exploiting Multi-Object Relationships for Detecting Adversarial Attacks in Complex Scenes ( http://arxiv.org/abs/2108.08421v1 )

ライセンス: Link先を確認
Mingjun Yin, Shasha Li, Zikui Cai, Chengyu Song, M. Salman Asif, Amit K. Roy-Chowdhury, and Srikanth V. Krishnamurthy(参考訳) ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。 近年の研究では、入力データの内在的成分をチェックすることは、敵攻撃を検出するための有望な方法である(例えば、複雑な場面におけるオブジェクトの共起関係をチェックするなど)。 しかし、既存のアプローチは特定のモデルに結びついており、一般化性を提供していない。 自然シーン画像の言語記述が、言語モデルで学習可能なオブジェクト共起関係を既に捉えているという観察に触発されて、そのような言語モデルを用いてコンテキスト整合性チェックを行う新しいアプローチを開発した。 提案手法の特長は, 対象物検出装置とは独立でありながら, 複数の対象物を持つ現実的な場面において, 敵物検出の精度が高い点である。

Vision systems that deploy Deep Neural Networks (DNNs) are known to be vulnerable to adversarial examples. Recent research has shown that checking the intrinsic consistencies in the input data is a promising way to detect adversarial attacks (e.g., by checking the object co-occurrence relationships in complex scenes). However, existing approaches are tied to specific models and do not offer generalizability. Motivated by the observation that language descriptions of natural scene images have already captured the object co-occurrence relationships that can be learned by a language model, we develop a novel approach to perform context consistency checks using such language models. The distinguishing aspect of our approach is that it is independent of the deployed object detector and yet offers very high accuracy in terms of detecting adversarial examples in practical scenes with multiple objects.
翻訳日:2021-08-20 14:42:23 公開日:2021-08-19
# Image2Lego:画像からLEGOセットをカスタマイズ

Image2Lego: Customized LEGO Set Generation from Images ( http://arxiv.org/abs/2108.08477v1 )

ライセンス: Link先を確認
Kyle Lennon, Katharina Fransen, Alexander O'Brien, Yumeng Cao, Matthew Beveridge, Yamin Arefeen, Nikhil Singh, Iddo Drori(参考訳) LEGOセットは子供たちや大人の世代を楽しませてきたが、現実世界や想像上のシーンの複雑さに合わせてカスタマイズされたビルドをデザインするという課題は、平均的な愛好家にとって大きすぎる。 この偉業を可能にするため、2次元画像からLEGOブロックモデルを生成するシステムを実装した。 本稿では,3次元ボキセル化モデルで訓練されたオクツリー構造オートエンコーダを用いて,モデル再構成のための有効な潜在表現を得るための新しい手法と,この潜在表現を2次元画像から予測するために訓練された独立したネットワークを設計する。 レゴモデルは3dボクセルモデルからレンガへのアルゴリズム変換によって得られる。 写真から3D LEGOモデルへの第1世代の変換を実証する。 octreeアーキテクチャは、ユーザの創造的なビジョンや設計ニーズに最も適した、複数の解像度を作成できる柔軟性を提供します。 システムの適用性を示すために,オブジェクトと人間の顔のLEGOモデルに対して,ステップバイステップで構築する指示とアニメーションを生成する。 最後に、実際のレゴブロックを使って物理的ビルドを構築することで、これらの自動生成レゴセットをテストします。

Although LEGO sets have entertained generations of children and adults, the challenge of designing customized builds matching the complexity of real-world or imagined scenes remains too great for the average enthusiast. In order to make this feat possible, we implement a system that generates a LEGO brick model from 2D images. We design a novel solution to this problem that uses an octree-structured autoencoder trained on 3D voxelized models to obtain a feasible latent representation for model reconstruction, and a separate network trained to predict this latent representation from 2D images. LEGO models are obtained by algorithmic conversion of the 3D voxelized model to bricks. We demonstrate first-of-its-kind conversion of photographs to 3D LEGO models. An octree architecture enables the flexibility to produce multiple resolutions to best fit a user's creative vision or design needs. In order to demonstrate the broad applicability of our system, we generate step-by-step building instructions and animations for LEGO models of objects and human faces. Finally, we test these automatically generated LEGO sets by constructing physical builds using real LEGO bricks.
翻訳日:2021-08-20 14:42:09 公開日:2021-08-19
# 振幅位相再結合:周波数領域における畳み込みニューラルネットワークのロバスト性再考

Amplitude-Phase Recombination: Rethinking Robustness of Convolutional Neural Networks in Frequency Domain ( http://arxiv.org/abs/2108.08487v1 )

ライセンス: Link先を確認
Guangyao Chen, Peixi Peng, Li Ma, Jia Li, Lin Du, Yonghong Tian(参考訳) 近年,畳み込みニューラルネットワーク(CNN)の一般化動作は,周波数成分分解による説明手法により徐々に透明化されている。 しかし、ロバストな視覚システムにおける画像の位相スペクトルの重要性はいまだ無視されている。 本稿では,CNNがトレーニング画像の高周波成分と密接な関係にある局所最適値に収束する傾向にあるのに対して,振幅スペクトルはノイズや一般的な腐敗などによって容易に乱される。 対照的に、より実証的な研究により、人間は堅牢な認識を達成するためにより多くの位相成分に依存していることがわかった。 この観察により、CNNの一般的な摂動に対する頑健さと分布外検出の両方における一般化挙動がより説明され、現在の画像の位相スペクトルと散逸画像の振幅スペクトルを再結合して設計されたデータ拡張に対する新たな視点が動機付けられる。 すなわち、生成されたサンプルはcnnに位相成分の構造化情報により多くの注意を払うよう強制し、振幅の変化に頑健に維持する。 複数の画像データセットにおける実験により,提案手法は,共通の腐敗や表面変動に対する適応性,分散検出,逆攻撃など,複数の一般化とキャリブレーションタスクにおいて最先端のパフォーマンスを達成していることが示された。

Recently, the generalization behavior of Convolutional Neural Networks (CNN) is gradually transparent through explanation techniques with the frequency components decomposition. However, the importance of the phase spectrum of the image for a robust vision system is still ignored. In this paper, we notice that the CNN tends to converge at the local optimum which is closely related to the high-frequency components of the training images, while the amplitude spectrum is easily disturbed such as noises or common corruptions. In contrast, more empirical studies found that humans rely on more phase components to achieve robust recognition. This observation leads to more explanations of the CNN's generalization behaviors in both robustness to common perturbations and out-of-distribution detection, and motivates a new perspective on data augmentation designed by re-combing the phase spectrum of the current image and the amplitude spectrum of the distracter image. That is, the generated samples force the CNN to pay more attention to the structured information from phase components and keep robust to the variation of the amplitude. Experiments on several image datasets indicate that the proposed method achieves state-of-the-art performances on multiple generalizations and calibration tasks, including adaptability for common corruptions and surface variations, out-of-distribution detection, and adversarial attack.
翻訳日:2021-08-20 14:41:51 公開日:2021-08-19
# 新しいクラス発見のための統一目的

A Unified Objective for Novel Class Discovery ( http://arxiv.org/abs/2108.08536v1 )

ライセンス: Link先を確認
Enrico Fini and Enver Sangineto and St\'ephane Lathuili\`ere and Zhun Zhong and Moin Nabi and Elisa Ricci(参考訳) 本稿では,新しいクラス発見(NCD)の問題について考察する。 NCDは、異なるが関連するクラスを含むラベル付き集合の事前知識を活用して、ラベルなし集合で新しいオブジェクトカテゴリを推論することを目的としている。 既存のアプローチでは、通常ラベル付きサンプルとラベル付サンプルの特別な損失項を含む複数の目的関数を考慮し、しばしば補助正規化項を必要とする。 本稿では,この従来の手法から脱却し,教師なし学習と教師なし学習の相乗効果を優先して,新しいクラスを発見するための統一目的関数 (uno) を導入する。 多視点自己ラベル戦略を用いて、基底真理ラベルと均質に扱うことができる擬似ラベルを生成する。 これは、既知のクラスと未知のクラスの両方で動作する単一の分類目標につながる。 その単純さにもかかわらず、UNOはいくつかのベンチマーク(CIFAR-100で約10%、ImageNetで+8%)で最先端の成果を上げている。 プロジェクトページは \url{https://ncd-uno.gith ub.io} で利用可能である。

In this paper, we study the problem of Novel Class Discovery (NCD). NCD aims at inferring novel object categories in an unlabeled set by leveraging from prior knowledge of a labeled set containing different, but related classes. Existing approaches tackle this problem by considering multiple objective functions, usually involving specialized loss terms for the labeled and the unlabeled samples respectively, and often requiring auxiliary regularization terms. In this paper, we depart from this traditional scheme and introduce a UNified Objective function (UNO) for discovering novel classes, with the explicit purpose of favoring synergy between supervised and unsupervised learning. Using a multi-view self-labeling strategy, we generate pseudo-labels that can be treated homogeneously with ground truth labels. This leads to a single classification objective operating on both known and unknown classes. Despite its simplicity, UNO outperforms the state of the art by a significant margin on several benchmarks (~+10% on CIFAR-100 and +8% on ImageNet). The project page is available at: \url{https://ncd-uno.gith ub.io}.
翻訳日:2021-08-20 14:41:27 公開日:2021-08-19
# 自己監督型特徴学習における同時識別とアライメント

Concurrent Discrimination and Alignment for Self-Supervised Feature Learning ( http://arxiv.org/abs/2108.08562v1 )

ライセンス: Link先を確認
Anjan Dutta, Massimiliano Mancini, Zeynep Akata(参考訳) 既存の自己教師型学習手法では,(1)どの特徴が分離されるべきかを明確に示すこと,(2)どの特徴が閉じるべきかを明確に示すこと,あるいは(2)どの特徴が取り除かれるべきかを明確に示すこと,の2つの前提条件によって表現を学習する。 本研究では,識別法と整合法の正の側面を結合し,上記の問題に対処するハイブリッド手法を設計する。 本手法は,識別的予測タスクによってそれぞれ反発とアトラクションのメカニズムを明確に特定し,冗長な情報を共有するペアビュー間の相互情報を同時に最大化する。 提案モデルでは,分類からセマンティックセグメンテーションまで多様な下流タスクにおいて,より効果的な機能について質的に,定量的に検討した。 確立された9つのベンチマーク実験の結果,提案手法は自己教師型および移動型学習プロトコルの既成結果よりも一貫して優れていた。

Existing self-supervised learning methods learn representation by means of pretext tasks which are either (1) discriminating that explicitly specify which features should be separated or (2) aligning that precisely indicate which features should be closed together, but ignore the fact how to jointly and principally define which features to be repelled and which ones to be attracted. In this work, we combine the positive aspects of the discriminating and aligning methods, and design a hybrid method that addresses the above issue. Our method explicitly specifies the repulsion and attraction mechanism respectively by discriminative predictive task and concurrently maximizing mutual information between paired views sharing redundant information. We qualitatively and quantitatively show that our proposed model learns better features that are more effective for the diverse downstream tasks ranging from classification to semantic segmentation. Our experiments on nine established benchmarks show that the proposed model consistently outperforms the existing state-of-the-art results of self-supervised and transfer learning protocol.
翻訳日:2021-08-20 14:41:08 公開日:2021-08-19
# 変分オートエンコーダを用いた外乱検出の効率化

Efficient remedies for outlier detection with variational autoencoders ( http://arxiv.org/abs/2108.08760v1 )

ライセンス: Link先を確認
Kushal Chauhan, Pradeep Shenoy, Manish Gupta and Devarajan Sridharan(参考訳) 深層ネットワークは、トレーニングディストリビューションから遠く離れた外れ値データでテストした場合、自信を持って、誤った予測をすることが多い。 深層生成モデルによって計算される確率はラベルなしデータを用いた異常検出の候補指標である。 しかし、以前の研究では、そのような可能性は信頼性がなく、入力データへの単純な変換によって容易にバイアスを負うことが示されている。 本稿では,変分オートエンコーダ (VAE) による外乱検出について,最も単純な生成モデルとして検討する。 まず,理論的な接地補正により,vae推定値による鍵バイアスが軽減されることを示す。 バイアス補正はモデルフリーでサンプル固有であり、ベルヌーイ分布と連続ベルヌーイ分布で正確に計算される。 第2に,よく知られた前処理手法であるコントラスト正規化が,バイアス補正の有効性を自然画像データセットに拡張することを示す。 第3に,vaesのアンサンブル上で計算される確率のばらつきがロバストな外乱検出を可能にすることを示す。 我々は,9つの画像データセットによる治療の包括的評価を行い,他の4つの最先端手法と比較して,スピードと精度の両面で大きな利点を示した。 私たちの軽量な治療は生物学的にインスパイアされ、多くのタイプの深層生成モデルで効率的な異常検出を達成するのに役立ちます。

Deep networks often make confident, yet incorrect, predictions when tested with outlier data that is far removed from their training distributions. Likelihoods computed by deep generative models are a candidate metric for outlier detection with unlabeled data. Yet, previous studies have shown that such likelihoods are unreliable and can be easily biased by simple transformations to input data. Here, we examine outlier detection with variational autoencoders (VAEs), among the simplest class of deep generative models. First, we show that a theoretically-ground ed correction readily ameliorates a key bias with VAE likelihood estimates. The bias correction is model-free, sample-specific, and accurately computed with the Bernoulli and continuous Bernoulli visible distributions. Second, we show that a well-known preprocessing technique, contrast normalization, extends the effectiveness of bias correction to natural image datasets. Third, we show that the variance of the likelihoods computed over an ensemble of VAEs also enables robust outlier detection. We perform a comprehensive evaluation of our remedies with nine (grayscale and natural) image datasets, and demonstrate significant advantages, in terms of both speed and accuracy, over four other state-of-the-art methods. Our lightweight remedies are biologically inspired and may serve to achieve efficient outlier detection with many types of deep generative models.
翻訳日:2021-08-20 14:40:50 公開日:2021-08-19
# より良い最適化オブジェクトによるより効率的なフェデレーション学習を目指して

Towards More Efficient Federated Learning with Better Optimization Objects ( http://arxiv.org/abs/2108.08577v1 )

ライセンス: Link先を確認
Zirui Zhu, Ziyi Ye(参考訳) Federated Learning(FL)は、プライバシ保護された機械学習パラダイムであり、データをアップロードすることなく、モデルを直接エッジでトレーニングすることができる。 実用的な応用においてflが直面する最大の課題の1つは、エッジノードデータの多様性であり、収束速度を遅くし、モデルの性能を低下させる。 上記の問題に対して、代表的な解決策は、FedProx、FedCurv、FedCLといったローカルトレーニングに制約を追加することである。 しかし、上記のアルゴリズムには改善の余地がある。 我々は,過去に得られたすべてのモデルの集約を新たな制約対象として利用し,それらのアルゴリズムの性能をさらに向上させる手法を提案する。 各種設定実験により,本手法はモデルの収束速度と性能を著しく向上することを示した。

Federated Learning (FL) is a privacy-protected machine learning paradigm that allows model to be trained directly at the edge without uploading data. One of the biggest challenges faced by FL in practical applications is the heterogeneity of edge node data, which will slow down the convergence speed and degrade the performance of the model. For the above problems, a representative solution is to add additional constraints in the local training, such as FedProx, FedCurv and FedCL. However, the above algorithms still have room for improvement. We propose to use the aggregation of all models obtained in the past as new constraint target to further improve the performance of such algorithms. Experiments in various settings demonstrate that our method significantly improves the convergence speed and performance of the model.
翻訳日:2021-08-20 14:39:57 公開日:2021-08-19
# マルチエージェント政策勾配のばらつきの解決

Settling the Variance of Multi-Agent Policy Gradients ( http://arxiv.org/abs/2108.08612v1 )

ライセンス: Link先を確認
Jakub Grudzien Kuba, Muning Wen, Yaodong Yang, Linghui Meng, Shangding Gu, Haifeng Zhang, David Henry Mguni, Jun Wang(参考訳) ポリシーグラデーション(pg)法は一般的な強化学習(rl)手法であり、勾配推定のばらつきを減らすためにベースラインがしばしば適用される。 マルチエージェント RL (MARL) では、PG定理は自然に拡張できるが、エージェント数とともに勾配推定のばらつきが急速に増加するにつれて、マルチエージェント PG (MAPG) 法の有効性は低下する。 本稿では,まず,mapg推定器の分散に対するエージェント数とエージェントの探索の寄与度を定量化することにより,mapg法の厳密な解析を行う。 この分析に基づいて、最小分散を実現する最適ベースライン(OB)を導出する。 OBと比較して,バニラMAPGやCOMAといった既存のMARLアルゴリズムの過度な分散を測定する。 深層ニューラルネットワークの利用を考えると,marl の既存の pg メソッドにシームレスに接続可能な,サブロゲート版の ob も提案する。 マルチエージェント MuJoCo と StarCraft のベンチマークでは,OB 技術はトレーニングを効果的に安定化し,マルチエージェント PPO と COMA アルゴリズムの性能を著しく向上させる。

Policy gradient (PG) methods are popular reinforcement learning (RL) methods where a baseline is often applied to reduce the variance of gradient estimates. In multi-agent RL (MARL), although the PG theorem can be naturally extended, the effectiveness of multi-agent PG (MAPG) methods degrades as the variance of gradient estimates increases rapidly with the number of agents. In this paper, we offer a rigorous analysis of MAPG methods by, firstly, quantifying the contributions of the number of agents and agents' explorations to the variance of MAPG estimators. Based on this analysis, we derive the optimal baseline (OB) that achieves the minimal variance. In comparison to the OB, we measure the excess variance of existing MARL algorithms such as vanilla MAPG and COMA. Considering using deep neural networks, we also propose a surrogate version of OB, which can be seamlessly plugged into any existing PG methods in MARL. On benchmarks of Multi-Agent MuJoCo and StarCraft challenges, our OB technique effectively stabilises training and improves the performance of multi-agent PPO and COMA algorithms by a significant margin.
翻訳日:2021-08-20 14:39:43 公開日:2021-08-19
# 体験駆動プロシーデュラルコンテンツ生成によるバーチャルリアリティエクサゲームにおける動的難易度調整

Dynamic Difficulty Adjustment in Virtual Reality Exergames through Experience-driven Procedural Content Generation ( http://arxiv.org/abs/2108.08762v1 )

ライセンス: Link先を確認
Tobias Huber, Silvan Mertes, Stanislava Rangelova, Simon Flutura, Elisabeth Andr\'e(参考訳) 物理的なアクティビティを特徴とするバーチャルリアリティ(VR)ゲームは、物理的なエクササイズを行うプレイヤーのモチベーションを高めることが示されている。 しかし、そのような運動がポジティブな医療効果をもたらすためには、週に数回繰り返しなければならない。 プレイヤーのモチベーションを長期にわたって維持するため、ゲームはプレイヤーの能力に応じてゲームの挑戦を適応させるために動的難易度調整(dda)をしばしば使用する。 エクササイズゲームの場合、これは主にオブジェクトの速度などの特定のゲーム内パラメータをチューニングすることで行われる。 本研究では,VRエクササイズゲームにおけるDDAの体験駆動型プロシージャコンテンツ生成について,プレイヤーの現在の能力に適合するレベルをプロシージャ的に生成することを提案する。 特定のパラメータを微調整するだけでなく、全く新しいレベルを作成することで、長い時間をかけて繰り返しを減らし、エクセルゲームにおける認知的および身体的課題の同時適応を可能にする可能性がある。 概念実証として,いくつかのエクササイズルームを含む迷路をプレイヤーがトラバースしなければならない初期プロトタイプを実装し,ニューラルネットワークによって迷路の生成を実現する。 これらのエクササイズルームを通過するには、プレイヤーが身体活動を行う必要がある。 プレイヤーの能力に合わせるために、我々はDeep Reinforcement Learningを用いて迷路の構造を調整し、迷路にどの運動室を組み込むかを決定する。 生体データと主観的質問紙を併用した探索的ユーザスタディでプロトタイプを評価した。

Virtual Reality (VR) games that feature physical activities have been shown to increase players' motivation to do physical exercise. However, for such exercises to have a positive healthcare effect, they have to be repeated several times a week. To maintain player motivation over longer periods of time, games often employ Dynamic Difficulty Adjustment (DDA) to adapt the game's challenge according to the player's capabilities. For exercise games, this is mostly done by tuning specific in-game parameters like the speed of objects. In this work, we propose to use experience-driven Procedural Content Generation for DDA in VR exercise games by procedurally generating levels that match the player's current capabilities. Not only finetuning specific parameters but creating completely new levels has the potential to decrease repetition over longer time periods and allows for the simultaneous adaptation of the cognitive and physical challenge of the exergame. As a proof-of-concept, we implement an initial prototype in which the player must traverse a maze that includes several exercise rooms, whereby the generation of the maze is realized by a neural network. Passing those exercise rooms requires the player to perform physical activities. To match the player's capabilities, we use Deep Reinforcement Learning to adjust the structure of the maze and to decide which exercise rooms to include in the maze. We evaluate our prototype in an exploratory user study utilizing both biodata and subjective questionnaires.
翻訳日:2021-08-20 14:39:22 公開日:2021-08-19
# ロバスト分散平均推定によるコミュニケーション効率の良いフェデレーション学習

Communication-Effici ent Federated Learning via Robust Distributed Mean Estimation ( http://arxiv.org/abs/2108.08842v1 )

ライセンス: Link先を確認
Shay Vargaftik, Ran Ben Basat, Amit Portnoy, Gal Mendelson, Yaniv Ben-Itzhak, Michael Mitzenmacher(参考訳) フェデレーション学習は通常、分散(ミニバッチ)SGDのようなアルゴリズムに依存し、複数のクライアントが勾配を計算し、モデルを平均化し更新するための中央コーディネータに送信する。 トレーニングプロセスの送信時間とスケーラビリティを最適化するために、クライアントはしばしばメッセージサイズを減らすために損失のある圧縮を使用します。 DRIVEは、座標毎に1ビットの勾配を圧縮する(低次のオーバーヘッドがある)技術アルゴリズムの最近の状態である。 この技術報告では、ドライブを帯域幅制約をサポートし、異種クライアントリソースをサポートするように拡張し、パケット損失に対して堅牢にする。

Federated learning commonly relies on algorithms such as distributed (mini-batch) SGD, where multiple clients compute their gradients and send them to a central coordinator for averaging and updating the model. To optimize the transmission time and the scalability of the training process, clients often use lossy compression to reduce the message sizes. DRIVE is a recent state of the art algorithm that compresses gradients using one bit per coordinate (with some lower-order overhead). In this technical report, we generalize DRIVE to support any bandwidth constraint as well as extend it to support heterogeneous client resources and make it robust to packet loss.
翻訳日:2021-08-20 14:38:57 公開日:2021-08-19
# 強化学習におけるオンラインアクタ-クリティックアルゴリズムのode限界のグローバル収束

Global Convergence of the ODE Limit for Online Actor-Critic Algorithms in Reinforcement Learning ( http://arxiv.org/abs/2108.08655v1 )

ライセンス: Link先を確認
Ziheng Wang and Justin Sirignano(参考訳) アクタ-クリティックアルゴリズムは強化学習に広く使われているが、非i.i.d.のオンライン化により数学的解析が困難である。 データサンプル。 データサンプルの分布はモデルが更新されると動的に変化し、データ分布と強化学習アルゴリズムの間の複雑なフィードバックループが導入された。 時間的再スケーリングにより,表型パラメトリゼーションを伴うオンラインアクタ-クリティックアルゴリズムは,更新数が大きくなるにつれて通常の微分方程式 (odes) に収束する。 この証明はまず、固定されたアクターポリシーの下でデータサンプルの幾何学的エルゴディク性を確立する。 次に,poisson方程式を用いて,進化するアクターモデルの関数である動的確率測度周辺のデータサンプルのゆらぎが,更新数が大きくなるにつれて消失することを示す。 ODE制限が導出されると、アクターODEから批評家ODEを漸近的に分離する2つの時間スケール解析を用いて収束特性を研究する。 ベルマン方程式の解に対する批評家の収束と最適な政策へのアクターの収束が証明される。 また、このグローバル最小値への収束率も設定されている。 我々の収束分析はアクター批判アルゴリズムの学習率と探索率に対して特定の選択を下し、実際にアクター批判アルゴリズムを実装するためのガイダンスを提供することができる。

Actor-critic algorithms are widely used in reinforcement learning, but are challenging to mathematically analyze due to the online arrival of non-i.i.d. data samples. The distribution of the data samples dynamically changes as the model is updated, introducing a complex feedback loop between the data distribution and the reinforcement learning algorithm. We prove that, under a time rescaling, the online actor-critic algorithm with tabular parametrization converges to an ordinary differential equations (ODEs) as the number of updates becomes large. The proof first establishes the geometric ergodicity of the data samples under a fixed actor policy. Then, using a Poisson equation, we prove that the fluctuations of the data samples around a dynamic probability measure, which is a function of the evolving actor model, vanish as the number of updates become large. Once the ODE limit has been derived, we study its convergence properties using a two time-scale analysis which asymptotically de-couples the critic ODE from the actor ODE. The convergence of the critic to the solution of the Bellman equation and the actor to the optimal policy are proven. In addition, a convergence rate to this global minimum is also established. Our convergence analysis holds under specific choices for the learning rates and exploration rates in the actor-critic algorithm, which could provide guidance for the implementation of actor-critic algorithms in practice.
翻訳日:2021-08-20 14:38:44 公開日:2021-08-19
# バンディットフィードバックによるマッチング市場における学習平衡

Learning Equilibria in Matching Markets from Bandit Feedback ( http://arxiv.org/abs/2108.08843v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Alexander Wei, Yixin Wang, Michael I. Jordan, Jacob Steinhardt(参考訳) 大規模で双方向のマッチングプラットフォームは、ユーザの好みに合わせて、これらの好みをデータから同時に学習する市場結果を見つけなければなりません。 しかし、学習中の選好は本質的に不確実であるため、古典的安定性の概念(gale and shapley, 1962; shapley and shubik, 1971)はこれらの設定では達成できない。 このギャップを埋めるために,不確実性下で安定した市場成果を学習するためのフレームワークとアルゴリズムを開発した。 私たちの主要な設定は転送可能なユーティリティと一致し、プラットフォームはエージェントにマッチし、それらの間の金銭的移動を設定する。 市場の結果から均衡までの距離を捉えるインセンティブを意識した学習目標をデザインする。 この目的を用いて,選好構造として学習の複雑さを分析し,確率的多腕バンディット問題として学習をキャスティングする。 アルゴリズム学的には、多くのバンディットアルゴリズムの基礎となる「不確実性に直面した最適主義」は、伝達とのマッチングの原始双対的定式化に適用され、ほぼ最適の後悔の境界となる。 当社の作業は、大規模なデータ駆動市場において、いつ、どのように安定したマッチングが発生するかを明らかにするための第一歩です。

Large-scale, two-sided matching platforms must find market outcomes that align with user preferences while simultaneously learning these preferences from data. However, since preferences are inherently uncertain during learning, the classical notion of stability (Gale and Shapley, 1962; Shapley and Shubik, 1971) is unattainable in these settings. To bridge this gap, we develop a framework and algorithms for learning stable market outcomes under uncertainty. Our primary setting is matching with transferable utilities, where the platform both matches agents and sets monetary transfers between them. We design an incentive-aware learning objective that captures the distance of a market outcome from equilibrium. Using this objective, we analyze the complexity of learning as a function of preference structure, casting learning as a stochastic multi-armed bandit problem. Algorithmically, we show that "optimism in the face of uncertainty," the principle underlying many bandit algorithms, applies to a primal-dual formulation of matching with transfers and leads to near-optimal regret bounds. Our work takes a first step toward elucidating when and how stable matchings arise in large, data-driven marketplaces.
翻訳日:2021-08-20 14:38:00 公開日:2021-08-19
# 3次元畳み込みニューラルネットワークを用いた医用画像分割

Medical Image Segmentation using 3D Convolutional Neural Networks: A Review ( http://arxiv.org/abs/2108.08467v1 )

ライセンス: Link先を確認
S. Niyas, S J Pawan, M Anand Kumar, and Jeny Rajan(参考訳) コンピュータ支援医用画像解析は、専門医の診療診断支援や最適な治療計画の決定に重要な役割を果たしている。 現在、畳み込みニューラルネットワーク(CNN)が医療画像解析に好まれている。 さらに,3次元イメージングシステムの急速な進歩と,大量のデータを処理するための優れたハードウェアとソフトウェアのサポートにより,医用画像解析において3次元深層学習法が普及している。 本稿では,最近発達した医用画像分割における3次元深層学習手法について概観する。 さらに,3次元医用画像のセグメンテーションにおける研究ギャップと今後の方向性について論じる。

Computer-aided medical image analysis plays a significant role in assisting medical practitioners for expert clinical diagnosis and deciding the optimal treatment plan. At present, convolutional neural networks (CNN) are the preferred choice for medical image analysis. In addition, with the rapid advancements in three-dimensional (3D) imaging systems and the availability of excellent hardware and software support to process large volumes of data, 3D deep learning methods are gaining popularity in medical image analysis. Here, we present an extensive review of the recently evolved 3D deep learning methods in medical image segmentation. Furthermore, the research gaps and future directions in 3D medical image segmentation are discussed.
翻訳日:2021-08-20 14:37:37 公開日:2021-08-19
# MobileCaps: 新型コロナウイルスの胸部X線画像のスクリーニングと重症度分析のための軽量モデル

MobileCaps: A Lightweight Model for Screening and Severity Analysis of COVID-19 Chest X-Ray Images ( http://arxiv.org/abs/2108.08775v1 )

ライセンス: Link先を確認
S J Pawan, Rahul Sankar, Amithash M Prabhudev, P A Mahesh, K Prakashini, Sudha Kiran Das and Jeny Rajan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが医療システムや経済に与える影響で、世界は困難な状態にある。 拡散率、covid-19後の症状、新型コロナウイルスの新しい連鎖の発生により、医療システムは世界中で混乱している。 このため、新型コロナウイルスの正確なスクリーニングが最優先事項となっている。 ウイルスは呼吸器系に感染するため、胸部x線は初期スクリーニングに広く採用されているイメージングモードである。 我々は,cxr画像を用いてcovid-19症例を同定し,より汎用的なモデルの必要性を認識した包括的研究を行った。 我々はMobileNetV2アーキテクチャを特徴抽出器として利用し、Capsule Networksに統合し、MobileCapsと呼ばれる完全に自動化され軽量なモデルを構築する。 mobilecapsは、非covid-19肺炎および健康な患者からcovid-19患者のcxr画像を効率的に分類するためのモデルセンスリングおよびベイズ最適化戦略を用いて、一般公開されたデータセット上でトレーニングおよび評価される。 さらに,RT-PCRで確認した2つのデータセットを用いて,一般化可能性を示す。 また,肺浮腫スコアリング技術(rale)のx線学的評価に基づいて,mobilecaps-sを導入し,covid-19のcxr画像の重症度評価を行う。 分類モデルは, 91.60, 94.60, 92.20, 精度98.50, 88.21, 92.62, 非肺炎, 健常例の合計リコールを達成した。 さらに、重度評価モデルはR$^2$係数70.51に達した。 論文で報告された最新技術モデルよりもトレーニング可能なパラメータが少ないことから、パンデミックとの戦いにおいて、私たちのモデルは医療システムを支援する上で、長い道のりを歩むだろうと考えています。

The world is going through a challenging phase due to the disastrous effect caused by the COVID-19 pandemic on the healthcare system and the economy. The rate of spreading, post-COVID-19 symptoms, and the occurrence of new strands of COVID-19 have put the healthcare systems in disruption across the globe. Due to this, the task of accurately screening COVID-19 cases has become of utmost priority. Since the virus infects the respiratory system, Chest X-Ray is an imaging modality that is adopted extensively for the initial screening. We have performed a comprehensive study that uses CXR images to identify COVID-19 cases and realized the necessity of having a more generalizable model. We utilize MobileNetV2 architecture as the feature extractor and integrate it into Capsule Networks to construct a fully automated and lightweight model termed as MobileCaps. MobileCaps is trained and evaluated on the publicly available dataset with the model ensembling and Bayesian optimization strategies to efficiently classify CXR images of patients with COVID-19 from non-COVID-19 pneumonia and healthy cases. The proposed model is further evaluated on two additional RT-PCR confirmed datasets to demonstrate the generalizability. We also introduce MobileCaps-S and leverage it for performing severity assessment of CXR images of COVID-19 based on the Radiographic Assessment of Lung Edema (RALE) scoring technique. Our classification model achieved an overall recall of 91.60, 94.60, 92.20, and a precision of 98.50, 88.21, 92.62 for COVID-19, non-COVID-19 pneumonia, and healthy cases, respectively. Further, the severity assessment model attained an R$^2$ coefficient of 70.51. Owing to the fact that the proposed models have fewer trainable parameters than the state-of-the-art models reported in the literature, we believe our models will go a long way in aiding healthcare systems in the battle against the pandemic.
翻訳日:2021-08-20 14:37:27 公開日:2021-08-19
# 分散凸最適化の高速化について

On Accelerating Distributed Convex Optimizations ( http://arxiv.org/abs/2108.08670v1 )

ライセンス: Link先を確認
Kushal Chakrabarti, Nirupam Gupta, Nikhil Chopra(参考訳) 本稿では,分散マルチエージェント凸最適化問題について検討する。 このシステムには複数のエージェントが含まれており、それぞれに複数のローカルデータポイントと関連するローカルコスト関数がある。 エージェントはサーバに接続されており、エージェント間通信はありません。 エージェントの目標は、ローカルデータポイントを明かすことなく、ローカルコストの集約を最適化するパラメータベクトルを学ぶことである。 エージェントは従来の分散勾配差分法を用いてサーバと協調してこの問題を解くことができる。 しかし, 集約コストが不調な場合, 勾配差分法 (i) は多くの繰り返しを収束させる必要があり, (ii) プロセスノイズに対して非常に不安定である。 本稿では,コスト関数の条件付けが分散勾配の収束率に与える影響を緩和する反復的プレコンディショニング手法を提案する。 従来のプリコンディショニング技術とは異なり,提案手法のプレコンディショナーマトリックスは分散ネットワーク上での実装を容易にするために更新される。 分散環境では,提案アルゴリズムは従来型および適応型勾配偏光法よりも収束率の向上とともに線形に収束することを示す。 さらに、集約コストの最小化が一意である特別な場合、我々のアルゴリズムは超直線的に収束する。 本アルゴリズムは,実ロジスティック回帰問題を解くための分散アルゴリズムよりも優れた性能を示し,ノイズ2次モデルによるニューラルネットワークの学習をエミュレートし,非凸最適化を分散的に解くアルゴリズムの効率を示す。 さらに,提案アルゴリズムが一般化性能を損なうことなく,より高速な学習を実現することを示す。

This paper studies a distributed multi-agent convex optimization problem. The system comprises multiple agents in this problem, each with a set of local data points and an associated local cost function. The agents are connected to a server, and there is no inter-agent communication. The agents' goal is to learn a parameter vector that optimizes the aggregate of their local costs without revealing their local data points. In principle, the agents can solve this problem by collaborating with the server using the traditional distributed gradient-descent method. However, when the aggregate cost is ill-conditioned, the gradient-descent method (i) requires a large number of iterations to converge, and (ii) is highly unstable against process noise. We propose an iterative pre-conditioning technique to mitigate the deleterious effects of the cost function's conditioning on the convergence rate of distributed gradient-descent. Unlike the conventional pre-conditioning techniques, the pre-conditioner matrix in our proposed technique updates iteratively to facilitate implementation on the distributed network. In the distributed setting, we provably show that the proposed algorithm converges linearly with an improved rate of convergence than the traditional and adaptive gradient-descent methods. Additionally, for the special case when the minimizer of the aggregate cost is unique, our algorithm converges superlinearly. We demonstrate our algorithm's superior performance compared to prominent distributed algorithms for solving real logistic regression problems and emulating neural network training via a noisy quadratic model, thereby signifying the proposed algorithm's efficiency for distributively solving non-convex optimization. Moreover, we empirically show that the proposed algorithm results in faster training without compromising the generalization performance.
翻訳日:2021-08-20 14:36:59 公開日:2021-08-19
# マスアートノイズを伴うハーフスペース学習における閾値現象

Threshold Phenomena in Learning Halfspaces with Massart Noise ( http://arxiv.org/abs/2108.08767v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Vasilis Kontonis, Christos Tzamos, Nikos Zarifis(参考訳) 我々は,gaussian marginals 下でマスアートノイズを伴う$\mathbb{r}^d$ 上のpac学習ハーフスペースの問題について検討する。 massartノイズモデルでは、あるパラメータ$\eta \in [0,1/2]$ に対して、逆者は確率$\eta(\mathbf{x}) \leq \eta$ で各点$\mathbf{x}$ のラベルをひっくり返すことができる。 学習者の目標は、ミス分類エラー$\mathrm{opt} + \epsilon$, ここで、$\mathrm{opt}$はターゲットハーフスペースのエラーである。 以前の研究では、対象の半空間が均質であり、パラメータ$\eta$が厳密に1/2$より小さいと仮定してこの問題を研究した。 これらの仮定のどちらかが取り除かれたとき、問題の複雑さがどのように変化するのかを考察し、以下のしきい値の現象を確立する: $\eta = 1/2$ に対して、同次半空間に対しても成り立つ問題に対する統計的クエリ (SQ) アルゴリズムの複雑さについて$d^{\Omega (\log(1/\epsilon))} の下界を証明する。 正の面では、サンプル複雑性と実行時間 $o_\epsilon(1) \, d^{o(\log(1/\epsilon))} を持つこの方法で、任意の半空間に対する新しい学習アルゴリズムを与える。 d^{\Omega(\log(1/\gamma ))}$の低い境界は、問題のSQ複雑性に基づいて成立し、$\gamma = \max\{\epsilon, \min\{\mathbf{Pr}[f(\mathbf{x}) = 1], \mathbf{Pr}[f(\mathbf{x}) = -1]\} \}$と$f$は対象ハーフ空間である。 特にこれは、任意のMassart半空間を学ぶための$d^{\Omega (\log(1/\epsilon) )}$のSQ下界を意味する(小さな定数$\eta$に対しても)。 この下界は、サンプルの複雑さと実行時の$d^{O_{\eta}(\log(1/\gamma))} \mathrm{poly}(1/\epsilon)$で新しい学習アルゴリズムで補う。 その結果,Massartモデルにおける学習ハーフスペースの複雑さを質的に特徴づけた。

We study the problem of PAC learning halfspaces on $\mathbb{R}^d$ with Massart noise under Gaussian marginals. In the Massart noise model, an adversary is allowed to flip the label of each point $\mathbf{x}$ with probability $\eta(\mathbf{x}) \leq \eta$, for some parameter $\eta \in [0,1/2]$. The goal of the learner is to output a hypothesis with missclassification error $\mathrm{opt} + \epsilon$, where $\mathrm{opt}$ is the error of the target halfspace. Prior work studied this problem assuming that the target halfspace is homogeneous and that the parameter $\eta$ is strictly smaller than $1/2$. We explore how the complexity of the problem changes when either of these assumptions is removed, establishing the following threshold phenomena: For $\eta = 1/2$, we prove a lower bound of $d^{\Omega (\log(1/\epsilon))}$ on the complexity of any Statistical Query (SQ) algorithm for the problem, which holds even for homogeneous halfspaces. On the positive side, we give a new learning algorithm for arbitrary halfspaces in this regime with sample complexity and running time $O_\epsilon(1) \, d^{O(\log(1/\epsilon))}$. For $\eta <1/2$, we establish a lower bound of $d^{\Omega(\log(1/\gamma ))}$ on the SQ complexity of the problem, where $\gamma = \max\{\epsilon, \min\{\mathbf{Pr}[f(\mathbf{x}) = 1], \mathbf{Pr}[f(\mathbf{x}) = -1]\} \}$ and $f$ is the target halfspace. In particular, this implies an SQ lower bound of $d^{\Omega (\log(1/\epsilon) )}$ for learning arbitrary Massart halfspaces (even for small constant $\eta$). We complement this lower bound with a new learning algorithm for this regime with sample complexity and runtime $d^{O_{\eta}(\log(1/\gamma))} \mathrm{poly}(1/\epsilon)$. Taken together, our results qualitatively characterize the complexity of learning halfspaces in the Massart model.
翻訳日:2021-08-20 14:36:33 公開日:2021-08-19
# 事前学習モデルを用いた音声理解のためのスロット値と文脈の強化

Augmenting Slot Values and Contexts for Spoken Language Understanding with Pretrained Models ( http://arxiv.org/abs/2108.08451v1 )

ライセンス: Link先を確認
Haitao Lin, Lu Xiang, Yu Zhou, Jiajun Zhang, Chengqing Zong(参考訳) 音声言語理解(SLU)は対話システムを構築するための重要なステップである。 ラベル付きデータを取得するのにコストがかかるため、SLUはデータ不足の問題に悩まされる。 そこで本稿では,SLUにおけるスロット充足作業のためのデータ拡張に着目した。 そこで我々は,既存のデータに基づいて,より多様なデータを生成することを目指す。 具体的には,事前学習した言語モデルから潜在言語知識を微調整することで活用しようとする。 我々は、価値ベースとコンテキストベースの強化という2つの微調整戦略を提案する。 2つの公開SLUデータセットの実験結果から,既存のデータ拡張手法と比較して,より多様な文を生成することができ,SLUの性能を大幅に向上させることができることがわかった。

Spoken Language Understanding (SLU) is one essential step in building a dialogue system. Due to the expensive cost of obtaining the labeled data, SLU suffers from the data scarcity problem. Therefore, in this paper, we focus on data augmentation for slot filling task in SLU. To achieve that, we aim at generating more diverse data based on existing data. Specifically, we try to exploit the latent language knowledge from pretrained language models by finetuning them. We propose two strategies for finetuning process: value-based and context-based augmentation. Experimental results on two public SLU datasets have shown that compared with existing data augmentation methods, our proposed method can generate more diverse sentences and significantly improve the performance on SLU.
翻訳日:2021-08-20 14:35:32 公開日:2021-08-19
# 不確かなプロセストレースの確率推定

Probability Estimation of Uncertain Process Traces ( http://arxiv.org/abs/2108.08615v1 )

ライセンス: Link先を確認
Marco Pegoraro, Bianka Bakullari, Merih Seran Uysal, Wil M.P. van der Aalst(参考訳) プロセスマイニングは、イベントログと呼ばれるデータベースでしばしば収集されるイベントデータを分析する科学的分野である。 近年、不確定なイベントログが注目され、非決定論的かつ確率的イベント属性が含まれ、多くの現実的シナリオを表現している。 本稿では,各シナリオの確率を確実に推定し,その分析を可能にする手法を提案する。 実験により,本手法で計算した確率は,特定の結果の発生確率と密接に一致し,不確定なデータに対する信頼性の高い分析が可能となった。

Process mining is a scientific discipline that analyzes event data, often collected in databases called event logs. Recently, uncertain event logs have become of interest, which contain non-deterministic and stochastic event attributes that may represent many possible real-life scenarios. In this paper, we present a method to reliably estimate the probability of each of such scenarios, allowing their analysis. Experiments show that the probabilities calculated with our method closely match the true chances of occurrence of specific outcomes, enabling more trustworthy analyses on uncertain data.
翻訳日:2021-08-20 14:35:23 公開日:2021-08-19
# D3D-HOI:ビデオからの動的3Dオブジェクトインタラクション

D3D-HOI: Dynamic 3D Human-Object Interactions from Videos ( http://arxiv.org/abs/2108.08420v1 )

ライセンス: Link先を確認
Xiang Xu, Hanbyul Joo, Greg Mori, Manolis Savva(参考訳) d3d-hoi: 3dオブジェクトのポーズ、形状、および部分の動きを、人間とオブジェクトの相互作用に基づけた、単眼ビデオのデータセットである。 我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。 各操作対象(例えばマイクロ波オーブン)は、一致する3Dパラメトリックモデルで表される。 このデータにより,構音オブジェクトの再構成品質を評価し,この課題に対するベンチマークを確立できる。 特に,推定された3次元人間のポーズを利用して,物体の空間配置とダイナミクスをより正確に推定する。 我々は,本手法をデータセット上で評価し,人間の対象関係が実世界の挑戦的なビデオから明瞭なオブジェクト再構成のあいまいさを著しく低減できることを示した。 コードとデータセットはhttps://github.com/f acebookresearch/d3d- hoiで入手できる。

We introduce D3D-HOI: a dataset of monocular videos with ground truth annotations of 3D object pose, shape and part motion during human-object interactions. Our dataset consists of several common articulated objects captured from diverse real-world scenes and camera viewpoints. Each manipulated object (e.g., microwave oven) is represented with a matching 3D parametric model. This data allows us to evaluate the reconstruction quality of articulated objects and establish a benchmark for this challenging task. In particular, we leverage the estimated 3D human pose for more accurate inference of the object spatial layout and dynamics. We evaluate this approach on our dataset, demonstrating that human-object relations can significantly reduce the ambiguity of articulated object reconstructions from challenging real-world videos. Code and dataset are available at https://github.com/f acebookresearch/d3d- hoi.
翻訳日:2021-08-20 14:34:01 公開日:2021-08-19
# 多様な動作予測のための滑らかなポーズ列の生成

Generating Smooth Pose Sequences for Diverse Human Motion Prediction ( http://arxiv.org/abs/2108.08422v1 )

ライセンス: Link先を確認
Wei Mao, Miaomiao Liu, Mathieu Salzmann(参考訳) 確率的動き予測の最近の進歩、すなわち、1つの過去のポーズシーケンスが与えられた複数の将来の人間の動きを予測することは、非常に多様な将来の動きを生み出し、いくつかの身体部分の運動を制御することさえもたらした。 しかし、これを実現するためには、多様性のためのいくつかのマッピングと、制御可能な動き予測のための専用モデルを学ぶ必要がある。 本稿では,多様かつ制御可能な動き予測のための統合型深層生成ネットワークを提案する。 この目的のために、現実的な人間の動きは有効なポーズの滑らかなシーケンスで構成されており、限られたデータを考えると、ポーズの事前学習は動きよりもずっと扱いやすいという直観を活用できる。 そこで我々は,各部位の動作を逐次予測するジェネレータを設計し,動作リアリズムを実現するために,関節角度の損失とともに正規化フローベースのポーズを導入し,サンプルの多様性と精度の両面で,我々のアプローチが最先端のベースラインより優れていることを示す。 コードはhttps://github.com/w ei-mao-2019/gspsで入手できる。

Recent progress in stochastic motion prediction, i.e., predicting multiple possible future human motions given a single past pose sequence, has led to producing truly diverse future motions and even providing control over the motion of some body parts. However, to achieve this, the state-of-the-art method requires learning several mappings for diversity and a dedicated model for controllable motion prediction. In this paper, we introduce a unified deep generative network for both diverse and controllable motion prediction. To this end, we leverage the intuition that realistic human motions consist of smooth sequences of valid poses, and that, given limited data, learning a pose prior is much more tractable than a motion one. We therefore design a generator that predicts the motion of different body parts sequentially, and introduce a normalizing flow based pose prior, together with a joint angle loss, to achieve motion realism.Our experiments on two standard benchmark datasets, Human3.6M and HumanEva-I, demonstrate that our approach outperforms the state-of-the-art baselines in terms of both sample diversity and accuracy. The code is available at https://github.com/w ei-mao-2019/gsps
翻訳日:2021-08-20 14:33:46 公開日:2021-08-19
# グラデーション方向アライメントを有する学習アンカー型非符号距離関数による単視点衣服再構成

Learning Anchored Unsigned Distance Functions with Gradient Direction Alignment for Single-view Garment Reconstruction ( http://arxiv.org/abs/2108.08478v1 )

ライセンス: Link先を確認
Fang Zhao, Wenhao Wang, Shengcai Liao, Ling Shao(参考訳) 近年, 深部形状表現の利点を生かして, 単視3次元復元は大きな進歩を遂げているが, 開放面, 多様な地形, 複雑な幾何学的詳細などにより, 衣服の再構築は未解決のままである。 本稿では,1枚の画像から3次元衣料品を復元するための,学習可能なアンコレッドアンサイン距離関数 (AnchorUDF) 表現を提案する。 AnchorUDFは符号のない距離場(UDF)を予測して3次元形状を表現し、任意の解像度でオープンな衣服表面モデリングを可能にする。 多様な衣服トポロジをキャプチャするために、anchorudfはクエリポイントのピクセルアライメントされたローカルイメージ特徴を計算するだけでなく、表面の周囲に位置する一連のアンカーポイントを利用してクエリポイントの3d位置特徴を強化し、距離関数に強力な3d空間コンテキストを提供する。 さらに, 推論におけるより正確な点投影方向を得るため, トレーニング中にAnchorUDFの空間勾配方向と地表面の接地方向を明示的に整列する。 2つの公開3d衣料データセット、すなわちmgnとdeep fashion3dに関する広範囲な実験は、anchoudfが単視点衣料の再構築において最先端のパフォーマンスを達成していることを示している。

While single-view 3D reconstruction has made significant progress benefiting from deep shape representations in recent years, garment reconstruction is still not solved well due to open surfaces, diverse topologies and complex geometric details. In this paper, we propose a novel learnable Anchored Unsigned Distance Function (AnchorUDF) representation for 3D garment reconstruction from a single image. AnchorUDF represents 3D shapes by predicting unsigned distance fields (UDFs) to enable open garment surface modeling at arbitrary resolution. To capture diverse garment topologies, AnchorUDF not only computes pixel-aligned local image features of query points, but also leverages a set of anchor points located around the surface to enrich 3D position features for query points, which provides stronger 3D space context for the distance function. Furthermore, in order to obtain more accurate point projection direction at inference, we explicitly align the spatial gradient direction of AnchorUDF with the ground-truth direction to the surface during training. Extensive experiments on two public 3D garment datasets, i.e., MGN and Deep Fashion3D, demonstrate that AnchorUDF achieves the state-of-the-art performance on single-view garment reconstruction.
翻訳日:2021-08-20 14:33:25 公開日:2021-08-19
# 最適トランスポートマッチングとメッセージフローを用いたマイナショットセグメンテーション

Few-shot Segmentation with Optimal Transport Matching and Message Flow ( http://arxiv.org/abs/2108.08518v1 )

ライセンス: Link先を確認
Weide Liu, Chi Zhang, Henghui Ding, Tzu-Yi Hung and Guosheng Lin(参考訳) 本研究では,数発のセグメンテーションの課題に対処する。 サポート情報を完全に活用するには,少数ショットのセマンティックセグメンテーションが不可欠である。 従来の方法は、通常、サポート機能にマスキング平均プーリングを適用して、サポートヒントをグローバルベクトルとして抽出し、通常はサルエント部分によって支配され、いくつかの重要な手がかりを失う。 本稿では,すべての支援画素の情報を全てのクエリ画素に転送することを希望し,クエリとサポート画像の対応をマイニングするための最適なトランスポートマッチングモジュールを備えた対応マッチングネットワーク(cmnet)を提案する。 また、アノテーション付きサポート画像からのローカル情報とグローバル情報の両方を十分に活用することが重要である。 そこで本研究では,同じイメージ内の内部フローに沿ったメッセージと,サポートとクエリイメージ間のクロスフローを伝搬するメッセージフローモジュールを提案する。 さらに,さまざまなデータセット間のドメイン間ギャップ問題を緩和するためのマルチタスク学習問題として,マイナショットセグメンテーションについても論じる。 PASCAL VOC 2012、MS COCO、FSS-1000データセットによる実験により、我々のネットワークは最新の数ショットセグメンテーション性能を新たに達成した。

We address the challenging task of few-shot segmentation in this work. It is essential for few-shot semantic segmentation to fully utilize the support information. Previous methods typically adapt masked average pooling over the support feature to extract the support clues as a global vector, usually dominated by the salient part and loses some important clues. In this work, we argue that every support pixel's information is desired to be transferred to all query pixels and propose a Correspondence Matching Network (CMNet) with an Optimal Transport Matching module to mine out the correspondence between the query and support images. Besides, it is important to fully utilize both local and global information from the annotated support images. To this end, we propose a Message Flow module to propagate the message along the inner-flow within the same image and cross-flow between support and query images, which greatly help enhance the local feature representations. We further address the few-shot segmentation as a multi-task learning problem to alleviate the domain gap issue between different datasets. Experiments on PASCAL VOC 2012, MS COCO, and FSS-1000 datasets show that our network achieves new state-of-the-art few-shot segmentation performance.
翻訳日:2021-08-20 14:33:00 公開日:2021-08-19
# 情報理論に基づく自動ネットワーク・プルーニング戦略

An Information Theory-inspired Strategy for Automatic Network Pruning ( http://arxiv.org/abs/2108.08532v1 )

ライセンス: Link先を確認
Xiawu Zheng, Yuexiao Ma, Teng Xi, Gang Zhang, Errui Ding, Yuchao Li, Jie Chen, Yonghong Tian, Rongrong Ji(参考訳) 多くのコンピュータビジョンタスクの性能は優れているが、深い畳み込みニューラルネットワークはリソース制約のあるデバイスで圧縮されることがよく知られている。 既存のネットワークプルーニング手法の多くは、特に制約が変更された場合、人的努力と禁忌な計算資源を必要とする。 これにより、モデルが幅広いデバイスにデプロイされる必要がある場合に、モデル圧縮の適用が事実上制限される。 さらに、既存の手法は理論的なガイダンスの欠如によって依然として挑戦されている。 本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。 この手法の背後にある原理は情報ボトルネック理論であり、隠れた表現は互いに情報を圧縮すべきである。 そこで本稿では,ネットワークアクティベーションに関する正規化Hilbert-Schmidt Independence Criterion(nHSIC)を,階層の重要性の安定かつ一般化された指標として紹介する。 特定のリソース制約が与えられると、HSICインジケータと制約を統合して、アーキテクチャ探索問題を2次制約付き線形プログラミング問題に変換する。 このような問題は凸最適化法によって数秒で容易に解ける。 また、正規化HSICの最適化は異なる層間の相互情報を同時に最小化することを示す厳密な証明も提供する。 検索処理がなければ,最先端の圧縮アルゴリズムと比較して,圧縮トレードオフが向上する。 例えば、ResNet-50では45.3%のFLOPを削減し、ImageNetで75.75のトップ-1の精度を実現しています。 コードはhttps://github.com/M AC-AutoML/ITPruner/t ree/masterで検証可能である。

Despite superior performance on many computer vision tasks, deep convolution neural networks are well known to be compressed on devices that have resource constraints. Most existing network pruning methods require laborious human efforts and prohibitive computation resources, especially when the constraints are changed. This practically limits the application of model compression when the model needs to be deployed on a wide range of devices. Besides, existing methods are still challenged by the missing theoretical guidance. In this paper we propose an information theory-inspired strategy for automatic model compression. The principle behind our method is the information bottleneck theory, i.e., the hidden representation should compress information with each other. We thus introduce the normalized Hilbert-Schmidt Independence Criterion (nHSIC) on network activations as a stable and generalized indicator of layer importance. When a certain resource constraint is given, we integrate the HSIC indicator with the constraint to transform the architecture search problem into a linear programming problem with quadratic constraints. Such a problem is easily solved by a convex optimization method with a few seconds. We also provide a rigorous proof to reveal that optimizing the normalized HSIC simultaneously minimizes the mutual information between different layers. Without any search process, our method achieves better compression tradeoffs comparing to the state-of-the-art compression algorithms. For instance, with ResNet-50, we achieve a 45.3%-FLOPs reduction, with a 75.75 top-1 accuracy on ImageNet. Codes are avaliable at https://github.com/M AC-AutoML/ITPruner/t ree/master.
翻訳日:2021-08-20 14:32:37 公開日:2021-08-19
# 構造深度:自己監督型室内深度推定のための構造規則の活用

StructDepth: Leveraging the structural regularities for self-supervised indoor depth estimation ( http://arxiv.org/abs/2108.08574v1 )

ライセンス: Link先を確認
Boying Li, Yuan Huang, Zeyu Liu, Danping Zou, and Wenxian Yu(参考訳) 自己教師付き単眼深度推定は、屋外データセットで印象的なパフォーマンスを達成している。 しかし、その性能はテクスチャの欠如により室内環境において顕著に低下する。 リッチなテクスチャがなければ、光度整合性は弱すぎて、優れた深度ネットワークをトレーニングできない。 室内モデルの初期研究に触発されて,室内シーンにおける構造的規則性を活用して,奥行きネットワークのトレーニングを行った。 具体的には, マンハッタン標準制約と共平面制約という, 自己監督訓練のための2つの余分な監視信号を採用する。 マンハッタンの通常の制約は、主要な表面(床、天井、壁)を支配的な方向に合わせるように強制する。 共平面の制約は、3D点が同じ平面領域内にある場合、平面によってうまく適合することを示している。 監視信号を生成するために,2つの成分を用いて主表面を主方向に分類し,訓練中の平面領域を検出する。 トレーニングエポック後の予測深度がより正確になるにつれて、監視信号も改善され、より優れた深度モデルが得られる。 屋内ベンチマークデータセットを広範囲に実験した結果,ネットワークは最先端の手法よりも優れていた。 ソースコードはhttps://github.com/S JTU-ViSYS/StructDept hで入手できる。

Self-supervised monocular depth estimation has achieved impressive performance on outdoor datasets. Its performance however degrades notably in indoor environments because of the lack of textures. Without rich textures, the photometric consistency is too weak to train a good depth network. Inspired by the early works on indoor modeling, we leverage the structural regularities exhibited in indoor scenes, to train a better depth network. Specifically, we adopt two extra supervisory signals for self-supervised training: 1) the Manhattan normal constraint and 2) the co-planar constraint. The Manhattan normal constraint enforces the major surfaces (the floor, ceiling, and walls) to be aligned with dominant directions. The co-planar constraint states that the 3D points be well fitted by a plane if they are located within the same planar region. To generate the supervisory signals, we adopt two components to classify the major surface normal into dominant directions and detect the planar regions on the fly during training. As the predicted depth becomes more accurate after more training epochs, the supervisory signals also improve and in turn feedback to obtain a better depth model. Through extensive experiments on indoor benchmark datasets, the results show that our network outperforms the state-of-the-art methods. The source code is available at https://github.com/S JTU-ViSYS/StructDept h .
翻訳日:2021-08-20 14:32:13 公開日:2021-08-19
# 高ダイナミックレンジイメージングのためのプログレッシブかつ選択的核融合ネットワーク

Progressive and Selective Fusion Network for High Dynamic Range Imaging ( http://arxiv.org/abs/2108.08585v1 )

ライセンス: Link先を確認
Qian Ye, Jun Xiao, Kin-man Lam, and Takayuki Okatani(参考訳) 本稿では,LDR画像からシーンのHDR画像を生成する問題について考察する。 近年の研究では、ディープラーニングを採用し、エンドツーエンドで問題を解決することで、大幅なパフォーマンス向上を実現している。 しかし、手持ちカメラが捉えたダイナミックシーンのLDR画像から、例えば前景の物体の大きな動きによる閉塞など、良好な画質の画像を生成することは依然として困難である。 成功の鍵は、HDR画像生成の基本的な計算を行いながら、低品質な画像生成につながる要因(例えば、最も露呈した画像/領域の選択など)を取り除きたいという特徴空間における入力画像の融合の方法に依存する。 2つのアイデアに基づいて特徴をよりうまく融合させる新しい手法を提案する。 私たちのネットワークは、同じ構造を持つブロックのスタックに徐々に機能を融合させています。 もうひとつは、問題に不可欠な2つの操作、すなわち適切な画像/領域の比較と選択を効果的に実行するコンポーネントブロックの設計です。 実験の結果,本手法は,従来の標準ベンチマーク法よりも優れていた。

This paper considers the problem of generating an HDR image of a scene from its LDR images. Recent studies employ deep learning and solve the problem in an end-to-end fashion, leading to significant performance improvements. However, it is still hard to generate a good quality image from LDR images of a dynamic scene captured by a hand-held camera, e.g., occlusion due to the large motion of foreground objects, causing ghosting artifacts. The key to success relies on how well we can fuse the input images in their feature space, where we wish to remove the factors leading to low-quality image generation while performing the fundamental computations for HDR image generation, e.g., selecting the best-exposed image/region. We propose a novel method that can better fuse the features based on two ideas. One is multi-step feature fusion; our network gradually fuses the features in a stack of blocks having the same structure. The other is the design of the component block that effectively performs two operations essential to the problem, i.e., comparing and selecting appropriate images/regions. Experimental results show that the proposed method outperforms the previous state-of-the-art methods on the standard benchmark tests.
翻訳日:2021-08-20 14:31:50 公開日:2021-08-19
# SDFによる局所幾何符号の3次元形状学習

3D Shapes Local Geometry Codes Learning with SDF ( http://arxiv.org/abs/2108.08593v1 )

ライセンス: Link先を確認
Shun Yao, Fei Yang, Yongmei Cheng, Mikhail G. Mozerov(参考訳) 3次元形状記述としての符号付き距離関数(SDF)は、描画と再構成のための3次元幾何学を表現する最も効果的な手法の1つである。 本研究は,3次元形状をシェルのiso面として学習し解析するdeepsdf法に触発され,特に3次元形状再構成および圧縮領域において有望な結果が得られた。 本稿では,SDFをニューラルネットワークと1つの潜伏符号で近似したDeepSDFモデルの容量減少から生じる再構成の劣化問題について考察する。 本研究では,3次元形状の局所形状から学習することで,元のDeepSDF結果を改善するモデルであるローカル幾何符号学習(LGCL)を提案する。 単一送信可能な潜伏符号を3次元形状に分散した局所潜伏符号の集合に分割するために、余分なグラフニューラルネットワークを追加する。 命令付き潜伏符号は、ローカル領域のSDFを近似するために使用され、元のDeepSDFと比較して近似の複雑さが軽減される。 さらに,これらの局所潜在コードの訓練を容易にする新たな幾何損失関数を導入する。 他の局所形状調整法では3Dボクセル表現を用いるが、これは解決が極めて難しい問題であり、また解けない問題でもある。 対照的に、我々のアーキテクチャはグラフ処理を暗黙的にベースとしており、潜在コード空間で直接学習回帰プロセスを実行するため、提案したアーキテクチャをより柔軟で、実現も簡単である。 3次元形状再構成実験により,lgcl法はsdfデコーダのかなり小さいサイズでより詳細を保ち,最も重要な定量的指標の下ではdeepsdf法をかなり上回ることを証明した。

A signed distance function (SDF) as the 3D shape description is one of the most effective approaches to represent 3D geometry for rendering and reconstruction. Our work is inspired by the state-of-the-art method DeepSDF that learns and analyzes the 3D shape as the iso-surface of its shell and this method has shown promising results especially in the 3D shape reconstruction and compression domain. In this paper, we consider the degeneration problem of reconstruction coming from the capacity decrease of the DeepSDF model, which approximates the SDF with a neural network and a single latent code. We propose Local Geometry Code Learning (LGCL), a model that improves the original DeepSDF results by learning from a local shape geometry of the full 3D shape. We add an extra graph neural network to split the single transmittable latent code into a set of local latent codes distributed on the 3D shape. Mentioned latent codes are used to approximate the SDF in their local regions, which will alleviate the complexity of the approximation compared to the original DeepSDF. Furthermore, we introduce a new geometric loss function to facilitate the training of these local latent codes. Note that other local shape adjusting methods use the 3D voxel representation, which in turn is a problem highly difficult to solve or even is insolvable. In contrast, our architecture is based on graph processing implicitly and performs the learning regression process directly in the latent code space, thus make the proposed architecture more flexible and also simple for realization. Our experiments on 3D shape reconstruction demonstrate that our LGCL method can keep more details with a significantly smaller size of the SDF decoder and outperforms considerably the original DeepSDF method under the most important quantitative metrics.
翻訳日:2021-08-20 14:31:27 公開日:2021-08-19
# ドメイン一般化のための特徴スティル化とドメイン認識コントラスト学習

Feature Stylization and Domain-aware Contrastive Learning for Domain Generalization ( http://arxiv.org/abs/2108.08596v1 )

ライセンス: Link先を確認
Seogkyu Jeon, Kibeom Hong, Pilhyeon Lee, Jewook Lee, and Hyeran Byun(参考訳) ドメインの一般化は、ターゲットドメインにアクセスすることなく、ドメインシフトに対するモデル堅牢性を高めることを目的としている。 トレーニング用のソースドメインは限られているため、最近のアプローチでは新しいドメインのサンプルを生成することに重点を置いている。 それにもかかわらず、豊富なドメインを合成する際の最適化問題やクラスセマンティクスの歪みに苦しむかのどちらかである。 そこで,本論文では,特徴統計を新たなドメイン特性を持つものにスタイライゼーションするために利用する新しいドメイン一般化フレームワークを提案する。 文体化時にクラス情報を保存するために,まず特徴を高周波数成分と低周波数成分に分解する。 その後、我々は、新しいドメインスタイルの低周波成分を、高周波成分の形状を保ちながら、操作された統計から抽出した。 最後のステップとして、両方のコンポーネントを再統合して、新しいドメイン機能を合成します。 ドメインの堅牢性を高めるため、我々はスタイル化された特徴を活用し、特徴と出力の観点からモデルの一貫性を維持する。 提案するドメイン認識型コントラスト損失と機能整合性を実現し,クラス識別性を高めつつ,ドメイン不変性を保証する。 実験の結果,提案する特徴のスタイライゼーションとドメイン認識によるコントラスト損失の有効性が示された。 定量的比較により, PACSとOffice-Homeの2つのベンチマークにおいて, 既存の最先端手法による手法のリードを検証した。

Domain generalization aims to enhance the model robustness against domain shift without accessing the target domain. Since the available source domains for training are limited, recent approaches focus on generating samples of novel domains. Nevertheless, they either struggle with the optimization problem when synthesizing abundant domains or cause the distortion of class semantics. To these ends, we propose a novel domain generalization framework where feature statistics are utilized for stylizing original features to ones with novel domain properties. To preserve class information during stylization, we first decompose features into high and low frequency components. Afterward, we stylize the low frequency components with the novel domain styles sampled from the manipulated statistics, while preserving the shape cues in high frequency ones. As the final step, we re-merge both components to synthesize novel domain features. To enhance domain robustness, we utilize the stylized features to maintain the model consistency in terms of features as well as outputs. We achieve the feature consistency with the proposed domain-aware supervised contrastive loss, which ensures domain invariance while increasing class discriminability. Experimental results demonstrate the effectiveness of the proposed feature stylization and the domain-aware contrastive loss. Through quantitative comparisons, we verify the lead of our method upon existing state-of-the-art methods on two benchmarks, PACS and Office-Home.
翻訳日:2021-08-20 14:30:53 公開日:2021-08-19
# ボリュームフュージョン:3次元シーン再構成のための深部融合

VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction ( http://arxiv.org/abs/2108.08623v1 )

ライセンス: Link先を確認
Jaesung Choe, Sunghoon Im, Francois Rameau, Minjun Kang, In So Kweon(参考訳) キャリブレーションされたビューから3Dシーンを再構築するために、従来の多視点ステレオ技術は局所深度マップ計算と大域深度マップ融合という2つの異なるステージに依存している。 最近の研究は、従来の深度融合法やtsdf(reressing truncated signed distance function)による直接3次元再構成ネットワークを用いた深度推定のためのディープニューラルアーキテクチャに焦点を当てている。 本稿では,従来の2段階の枠組みをディープニューラルネットワークで再現することで,結果の解釈可能性と精度が向上することを示す。 上述したように、ネットワークは、1)深部mvs技術による局所深部マップの局所計算、2)深部マップと画像の特徴の融合による単一のtsdfボリュームの構築という2つのステップで動作します。 異なる視点(大ベースラインや回転など)から取得した画像間のマッチング性能を向上させるため、posadconvと呼ばれる回転不変3次元畳み込みカーネルを導入する。 提案アーキテクチャの有効性は,ScanNetデータセット上で実施された多数の実験を通じて評価される。

To reconstruct a 3D scene from a set of calibrated views, traditional multi-view stereo techniques rely on two distinct stages: local depth maps computation and global depth maps fusion. Recent studies concentrate on deep neural architectures for depth estimation by using conventional depth fusion method or direct 3D reconstruction network by regressing Truncated Signed Distance Function (TSDF). In this paper, we advocate that replicating the traditional two stages framework with deep neural networks improves both the interpretability and the accuracy of the results. As mentioned, our network operates in two steps: 1) the local computation of the local depth maps with a deep MVS technique, and, 2) the depth maps and images' features fusion to build a single TSDF volume. In order to improve the matching performance between images acquired from very different viewpoints (e.g., large-baseline and rotations), we introduce a rotation-invariant 3D convolution kernel called PosedConv. The effectiveness of the proposed architecture is underlined via a large series of experiments conducted on the ScanNet dataset where our approach compares favorably against both traditional and deep learning techniques.
翻訳日:2021-08-20 14:30:32 公開日:2021-08-19
# トラックレットを用いた映像変換器による映像関係検出

Video Relation Detection via Tracklet based Visual Transformer ( http://arxiv.org/abs/2108.08669v1 )

ライセンス: Link先を確認
Kaifeng Gao, Long Chen, Yifeng Huang, Jun Xiao(参考訳) 近年,ビデオ視覚関係検出 (VidVRD) がコミュニティに注目されている。 本稿では,最先端のビデオオブジェクトトラックレット検出パイプラインMEGAとDeepSORTを適用して,トラックレットの提案を生成する。 次に,プレカット操作を行わずにトラックレットベースでvidvrdを行う。 具体的には、トラックレットベースのビジュアルトランスを設計する。 トラックレットと学習可能な述語クエリ埋め込み間の機能インタラクションを実行し、最終的に関係を予測する、時間対応型デコーダが含まれている。 ACMマルチメディア2021におけるビデオ関係理解(VRU)グランドチャレンジにおいて,他の手法よりも優れていることを示す実験結果が得られた。 コードはhttps://github.com/d awn-lx/vidvrd-trackl etsでリリースされる。

Video Visual Relation Detection (VidVRD), has received significant attention of our community over recent years. In this paper, we apply the state-of-the-art video object tracklet detection pipeline MEGA and deepSORT to generate tracklet proposals. Then we perform VidVRD in a tracklet-based manner without any pre-cutting operations. Specifically, we design a tracklet-based visual Transformer. It contains a temporal-aware decoder which performs feature interactions between the tracklets and learnable predicate query embeddings, and finally predicts the relations. Experimental results strongly demonstrate the superiority of our method, which outperforms other methods by a large margin on the Video Relation Understanding (VRU) Grand Challenge in ACM Multimedia 2021. Codes are released at https://github.com/D awn-LX/VidVRD-trackl ets.
翻訳日:2021-08-20 14:30:09 公開日:2021-08-19
# カスケード関係とリカレントリコンストラクションネットワークによるカテゴリーレベル6次元オブジェクト位置推定

Category-Level 6D Object Pose Estimation via Cascaded Relation and Recurrent Reconstruction Networks ( http://arxiv.org/abs/2108.08755v1 )

ライセンス: Link先を確認
Jiaze Wang, Kai Chen, Qi Dou(参考訳) カテゴリーレベルの6Dポーズ推定は、見えないオブジェクトインスタンスの位置と向きを予測することを目的としており、ロボット操作や拡張現実といった多くのシナリオに基礎を置いているが、未解決のままである。 標準空間における正確に復元されたインスタンス3Dモデルを観察と正確にマッチングすることは、見えない物体に対して6Dのポーズを推定する際に必須のポイントである。 本稿では,カテゴリレベルの6次元ポーズ推定をカスケード関係と繰り返し再構成ネットワークを用いて高精度に行う。 具体的には、従来のRGB画像、インスタンスポイントクラウド、カテゴリ形状の複雑な情報的関係を探索するために、高度な表現学習のための新しいカスケード関係ネットワークを提供する。 さらに, 繰り返し残差補正のための再帰的再構成ネットワークの設計を行い, 粗粒から微粒までの復元および対応推定を段階的に改善する。 最後に、インスタンス6Dポーズを、標準空間におけるインスタンス点雲と再構成された3Dモデルとの推定密度対応を利用して得られる。 我々は,カテゴリーレベルの6次元ポーズ推定の2つのよく知られたベンチマークを広範囲に実験し,既存の手法よりも大幅な性能改善を行った。 典型的な3D_{75}$と5^{\circ}2 cm$の厳密な評価基準では、我々の手法は最新の最先端のSPDを4.9\%、CAMERA25データセットで17.7\%、REAL275データセットで2.7\%、そして8.5\%に上回る。 コードはhttps://wangjiaze.cn /projects/6dposeesti mation.htmlで入手できる。

Category-level 6D pose estimation, aiming to predict the location and orientation of unseen object instances, is fundamental to many scenarios such as robotic manipulation and augmented reality, yet still remains unsolved. Precisely recovering instance 3D model in the canonical space and accurately matching it with the observation is an essential point when estimating 6D pose for unseen objects. In this paper, we achieve accurate category-level 6D pose estimation via cascaded relation and recurrent reconstruction networks. Specifically, a novel cascaded relation network is dedicated for advanced representation learning to explore the complex and informative relations among instance RGB image, instance point cloud and category shape prior. Furthermore, we design a recurrent reconstruction network for iterative residual refinement to progressively improve the reconstruction and correspondence estimations from coarse to fine. Finally, the instance 6D pose is obtained leveraging the estimated dense correspondences between the instance point cloud and the reconstructed 3D model in the canonical space. We have conducted extensive experiments on two well-acknowledged benchmarks of category-level 6D pose estimation, with significant performance improvement over existing approaches. On the representatively strict evaluation metrics of $3D_{75}$ and $5^{\circ}2 cm$, our method exceeds the latest state-of-the-art SPD by $4.9\%$ and $17.7\%$ on the CAMERA25 dataset, and by $2.7\%$ and $8.5\%$ on the REAL275 dataset. Codes are available at https://wangjiaze.cn /projects/6DPoseEsti mation.html.
翻訳日:2021-08-20 14:29:58 公開日:2021-08-19
# シードグラフマッチングネットワークによる特徴のマッチング学習

Learning to Match Features with Seeded Graph Matching Network ( http://arxiv.org/abs/2108.08771v1 )

ライセンス: Link先を確認
Hongkai Chen, Zixin Luo, Jiahui Zhang, Lei Zhou, Xuyang Bai, Zeyu Hu, Chiew-Lan Tai, Long Quan(参考訳) 画像にまたがる局所的な特徴のマッチングは、コンピュータビジョンにおける根本的な問題である。 高い精度と効率を目標として,冗長接続の削減とコンパクト表現の学習を目的とした,疎構造を持つグラフニューラルネットワークであるシードドグラフマッチングネットワークを提案する。 ネットワークは1)Seeding Moduleで構成されており、種子としての信頼性のあるマッチングの小さなセットを生成してマッチングを初期化する。 2)シードマッチングを利用するシードグラフニューラルネットワークは,画像内のメッセージの送受信と割り当てコストの予測を行う。 1) 画像内のキーポイントの特徴をシードマッチに集約するアテンショナルプール。 2)シードフィルタリング – シード機能を強化し、画像間でメッセージを交換する。 3) 種子の特徴を元のキーポイントに戻す意図的アンプール。 実験により,本手法は従来の注目ネットワークと比較して計算量やメモリの複雑さを著しく低減するが,性能は高い。

Matching local features across images is a fundamental problem in computer vision. Targeting towards high accuracy and efficiency, we propose Seeded Graph Matching Network, a graph neural network with sparse structure to reduce redundant connectivity and learn compact representation. The network consists of 1) Seeding Module, which initializes the matching by generating a small set of reliable matches as seeds. 2) Seeded Graph Neural Network, which utilizes seed matches to pass messages within/across images and predicts assignment costs. Three novel operations are proposed as basic elements for message passing: 1) Attentional Pooling, which aggregates keypoint features within the image to seed matches. 2) Seed Filtering, which enhances seed features and exchanges messages across images. 3) Attentional Unpooling, which propagates seed features back to original keypoints. Experiments show that our method reduces computational and memory complexity significantly compared with typical attention-based networks while competitive or higher performance is achieved.
翻訳日:2021-08-20 14:29:29 公開日:2021-08-19
# Neural-GIF: 衣服の人々をアニメーションするためのニューラルネットワーク一般化インシシシット機能

Neural-GIF: Neural Generalized Implicit Functions for Animating People in Clothing ( http://arxiv.org/abs/2108.08807v1 )

ライセンス: Link先を確認
Garvita Tiwari, Nikolaos Sarafianos, Tony Tung, Gerard Pons-Moll1(参考訳) 本稿では,身体のポーズ機能として衣服の人々をアニメーション化するために,ニューラル一般インシシット関数(Neural-GIF)を提案する。 様々なポーズの被験者の連続したスキャンを与えられた場合、我々は新しいポーズのキャラクターをアニメーション化することを学ぶ。 既存の方法は、人体(または衣服)のテンプレートベースの表現に依存している。 しかし、そのようなモデルは通常、固定解像度と限定解像度を持ち、難しいデータ前処理ステップを必要とし、複雑な衣服では使用できない。 動きを調音および非剛性変形に分解するテンプレートベースの手法から着想を得たが、この概念を暗黙的な形状学習に一般化し、より柔軟なモデルを得る。 空間内のすべての点を正準空間に写像し、そこでは符号付き距離場を評価する前に、学習された変形場をモデル非剛性効果に適用する。 我々の定式化は、現在のアプローチと共通するテンプレート登録を計算せずに、衣服や軟組織の複雑な非剛性変形の学習を可能にする。 neural-gifは生の3dスキャンで訓練でき、複雑な表面形状や変形を再現できる。 さらに、モデルは新しいポーズに一般化することができる。 本手法は,多様な衣服スタイルの各種公開データセットから様々な文字を抽出し,定量的・定性的にベースライン法よりも有意な改善が見られた。 また、モデルを複数の形状設定に拡張します。 さらなる研究を刺激するため、モデル、コード、データはhttps://virtualhuman s.mpi-inf.mpg.de/neu ralgif/で公開します。

We present Neural Generalized Implicit Functions(Neural-GIF ), to animate people in clothing as a function of the body pose. Given a sequence of scans of a subject in various poses, we learn to animate the character for new poses. Existing methods have relied on template-based representations of the human body (or clothing). However such models usually have fixed and limited resolutions, require difficult data pre-processing steps and cannot be used with complex clothing. We draw inspiration from template-based methods, which factorize motion into articulation and non-rigid deformation, but generalize this concept for implicit shape learning to obtain a more flexible model. We learn to map every point in the space to a canonical space, where a learned deformation field is applied to model non-rigid effects, before evaluating the signed distance field. Our formulation allows the learning of complex and non-rigid deformations of clothing and soft tissue, without computing a template registration as it is common with current approaches. Neural-GIF can be trained on raw 3D scans and reconstructs detailed complex surface geometry and deformations. Moreover, the model can generalize to new poses. We evaluate our method on a variety of characters from different public datasets in diverse clothing styles and show significant improvements over baseline methods, quantitatively and qualitatively. We also extend our model to multiple shape setting. To stimulate further research, we will make the model, code and data publicly available at: https://virtualhuman s.mpi-inf.mpg.de/neu ralgif/
翻訳日:2021-08-20 14:29:16 公開日:2021-08-19
# 生成色を優先した鮮明・多彩なカラー化に向けて

Towards Vivid and Diverse Image Colorization with Generative Color Prior ( http://arxiv.org/abs/2108.08826v1 )

ライセンス: Link先を確認
Yanze Wu, Xintao Wang, Yu Li, Honglun Zhang, Xun Zhao, Ying Shan(参考訳) 近年は彩色への関心が高まっている。 古典的な参照ベースの手法は、通常、妥当な結果のために外部カラー画像に依存する。 大規模な画像データベースやオンライン検索エンジンは、必然的にそのような例の検索に必要である。 最近のディープラーニングベースの手法は、画像を自動的に低コストで着色することができる。 しかし、不満足なアーティファクトや一貫性のない色は常に伴っている。 本研究では,事前学習されたGAN(Generative Adversarial Networks)にカプセル化される多彩な色を活かし,鮮やかな色を復元することを目的とする。 具体的には、まずganエンコーダを介してマッチングされた特徴(exemplarsに似ている)を"リトリーブ"し、その特徴を特徴変調付きカラー化プロセスに組み込む。 従来型および繊細なデザインの強力な生成色により,1回のフォワードパスで鮮やかな色を生成できる。 また, GAN潜伏符号の修正により, 多様な結果が得られることが有用である。 また,本手法は,GANの解釈可能な制御の利点を継承し,GAN潜伏空間を歩くことで制御可能かつ滑らかな遷移を実現する。 広範な実験とユーザスタディにより,従来の手法よりも優れた性能が得られた。

Colorization has attracted increasing interest in recent years. Classic reference-based methods usually rely on external color images for plausible results. A large image database or online search engine is inevitably required for retrieving such exemplars. Recent deep-learning-based methods could automatically colorize images at a low cost. However, unsatisfactory artifacts and incoherent colors are always accompanied. In this work, we aim at recovering vivid colors by leveraging the rich and diverse color priors encapsulated in a pretrained Generative Adversarial Networks (GAN). Specifically, we first "retrieve" matched features (similar to exemplars) via a GAN encoder and then incorporate these features into the colorization process with feature modulations. Thanks to the powerful generative color prior and delicate designs, our method could produce vivid colors with a single forward pass. Moreover, it is highly convenient to obtain diverse results by modifying GAN latent codes. Our method also inherits the merit of interpretable controls of GANs and could attain controllable and smooth transitions by walking through GAN latent space. Extensive experiments and user studies demonstrate that our method achieves superior performance than previous works.
翻訳日:2021-08-20 14:28:49 公開日:2021-08-19
# ImageBART:自己回帰画像合成のための多項拡散を用いた双方向コンテキスト

ImageBART: Bidirectional Context with Multinomial Diffusion for Autoregressive Image Synthesis ( http://arxiv.org/abs/2108.08827v1 )

ライセンス: Link先を確認
Patrick Esser and Robin Rombach and Andreas Blattmann and Bj\"orn Ommer(参考訳) 自己回帰モデルとそのデータ可能性の逐次分解は、画像表現と合成に大きな可能性を示している。 それにもかかわらず、画像コンテキストを線形1次元順に組み込むには、予め合成された画像パッチを上または左にのみ参加する。 この一方向の連続的な注意バイアスは、合成がほぼ完了するまでシーンの大部分を無視しているため、画像には不自然なものである。 また、画像全体を単一のスケールで処理することで、シーン全体のギストまで、よりグローバルなコンテキスト情報を無視します。 自己回帰的定式化と多項拡散過程を組み合わせることで、コンテキストの粗大な階層を組み込む: 多段階拡散過程は、画像を粗大にするために情報を逐次削除するが、この過程を逆転させるために(短い)マルコフ連鎖を訓練する。 各ステージにおいて、結果の自己回帰的ImageBARTモデルは、前のステージから粗い方法でコンテキストを段階的に組み込む。 実験により、自己回帰モデルよりも画像修正能力が大幅に向上し、圧縮された潜在空間での効率的なトレーニングにより高忠実度画像生成が可能となった。 具体的には,局所的な画像編集を行うために,制限のないユーザ提供マスクを考慮に入れることができる。 したがって、純粋な自己回帰モデルとは対照的に、自由形式のイメージペイントや、条件付きモデルの場合、マスク固有のトレーニングを必要とせずに、局所的なテキストガイド付きイメージ修正を解決できる。

Autoregressive models and their sequential factorization of the data likelihood have recently demonstrated great potential for image representation and synthesis. Nevertheless, they incorporate image context in a linear 1D order by attending only to previously synthesized image patches above or to the left. Not only is this unidirectional, sequential bias of attention unnatural for images as it disregards large parts of a scene until synthesis is almost complete. It also processes the entire image on a single scale, thus ignoring more global contextual information up to the gist of the entire scene. As a remedy we incorporate a coarse-to-fine hierarchy of context by combining the autoregressive formulation with a multinomial diffusion process: Whereas a multistage diffusion process successively removes information to coarsen an image, we train a (short) Markov chain to invert this process. In each stage, the resulting autoregressive ImageBART model progressively incorporates context from previous stages in a coarse-to-fine manner. Experiments show greatly improved image modification capabilities over autoregressive models while also providing high-fidelity image generation, both of which are enabled through efficient training in a compressed latent space. Specifically, our approach can take unrestricted, user-provided masks into account to perform local image editing. Thus, in contrast to pure autoregressive models, it can solve free-form image inpainting and, in the case of conditional models, local, text-guided image modification without requiring mask-specific training.
翻訳日:2021-08-20 14:28:31 公開日:2021-08-19
# 自己教師付き単眼深度推定のための細粒度セマンティクス・アウェア表現強調

Fine-grained Semantics-aware Representation Enhancement for Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2108.08829v1 )

ライセンス: Link先を確認
Hyunyoung Jung, Eunhyeok Park, Sungjoo Yoo(参考訳) 自己教師付き単眼深度推定は実用的重要性と近年の有望な改善により広く研究されている。 しかし、ほとんどの作品は、特に弱いテクスチャ領域やオブジェクト境界において、測光一貫性の監督に苦しむ。 この弱点を克服するために、クロスドメイン情報、特にシーンセマンティクスを利用して、自己教師付き単眼深度推定を改善する新しいアイデアを提案する。 本稿では,意味論に基づく局所幾何学を利用して中間深度表現を最適化する計量学習手法と,不均一な2つの特徴表現間の相互モダリティを巧みに活用する新たな特徴融合モジュールの2つのアイデアを提案する。 KITTIデータセットの手法を総合的に評価し,提案手法が最先端の手法より優れていることを示す。 ソースコードはhttps://github.com/h yBlue/FSRE-Depth.com で入手できる。

Self-supervised monocular depth estimation has been widely studied, owing to its practical importance and recent promising improvements. However, most works suffer from limited supervision of photometric consistency, especially in weak texture regions and at object boundaries. To overcome this weakness, we propose novel ideas to improve self-supervised monocular depth estimation by leveraging cross-domain information, especially scene semantics. We focus on incorporating implicit semantic knowledge into geometric representation enhancement and suggest two ideas: a metric learning approach that exploits the semantics-guided local geometry to optimize intermediate depth representations and a novel feature fusion module that judiciously utilizes cross-modality between two heterogeneous feature representations. We comprehensively evaluate our methods on the KITTI dataset and demonstrate that our method outperforms state-of-the-art methods. The source code is available at https://github.com/h yBlue/FSRE-Depth.
翻訳日:2021-08-20 14:28:06 公開日:2021-08-19
# 幻覚とラベルなしビデオによるマルチオブジェクトトラッキング

Multi-Object Tracking with Hallucinated and Unlabeled Videos ( http://arxiv.org/abs/2108.08836v1 )

ライセンス: Link先を確認
Daniel McKee, Bing Shuai, Andrew Berneshawi, Manchen Wang, Davide Modolo, Svetlana Lazebnik, Joseph Tighe(参考訳) 本稿では,アノテーションをトラッキングせずにエンドツーエンドのディープ・ニューラルトラッカーを学習する。 これは、大規模なトレーニングデータがディープニューラルネットワークトラッカのトレーニングに不可欠であり、アノテーションの追跡は取得にコストがかかるため重要である。 アノテーションをトラッキングする代わりに、ズームイン/アウトのモーション変換を用いてバウンディングボックスアノテーションで画像からビデオを幻覚し、自由なトラッキングラベルを得る。 簡単な動きながら、多様な追跡データセットを作成するために、ビデオシミュレーションの強化を加えます。 次に、より厳格な追跡ケースに取り組むために、私たちの幻覚的なビデオデータでトレーニングされたトラッカーを使って、ラベルのない実ビデオプールをまたいでハードサンプルを発掘します。 ハードサンプルマイニングでは、まず、ラベルなしビデオのプールからハードサンプルを識別し、修正する最適化ベースの接続プロセスを提案する。 最後に、ハロゲン化データに基づいてトラッカーを共同でトレーニングし、ハードビデオ例をマイニングする。 弱教師付きトラッカーはMOT17およびTAO個人データセット上で最先端のパフォーマンスを達成する。 mot17では、当社の自己生成データと既存の手動アノテーションデータの組み合わせがさらなる改善をもたらすことをさらに示しています。

In this paper, we explore learning end-to-end deep neural trackers without tracking annotations. This is important as large-scale training data is essential for training deep neural trackers while tracking annotations are expensive to acquire. In place of tracking annotations, we first hallucinate videos from images with bounding box annotations using zoom-in/out motion transformations to obtain free tracking labels. We add video simulation augmentations to create a diverse tracking dataset, albeit with simple motion. Next, to tackle harder tracking cases, we mine hard examples across an unlabeled pool of real videos with a tracker trained on our hallucinated video data. For hard example mining, we propose an optimization-based connecting process to first identify and then rectify hard examples from the pool of unlabeled videos. Finally, we train our tracker jointly on hallucinated data and mined hard video examples. Our weakly supervised tracker achieves state-of-the-art performance on the MOT17 and TAO-person datasets. On MOT17, we further demonstrate that the combination of our self-generated data and the existing manually-annotated data leads to additional improvements.
翻訳日:2021-08-20 14:27:48 公開日:2021-08-19
# Graph-to-3D: シーングラフを用いた3次元シーンの生成と操作

Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using Scene Graphs ( http://arxiv.org/abs/2108.08841v1 )

ライセンス: Link先を確認
Helisa Dhamo, Fabian Manhardt, Nassir Navab, Federico Tombari(参考訳) 制御可能なシーン合成は、基礎となる仕様を満たす3d情報を生成する。 したがって、これらの仕様は抽象的でなければならない。 ユーザとの対話が簡単で、詳細なコントロールのためのインターフェースを提供する。 シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)で構成されるシーンの表現であり、生成されたコンテンツに対する意味制御を可能にするため、このタスクに特に適していることが証明されている。 このタスクに対処する以前の作業は、しばしば合成データに依存し、オブジェクトメッシュを取得して、生成能力を自然に制限する。 この問題を回避するために,シーングラフからエンドツーエンドで形状を直接生成する最初の作品を提案する。 さらに,各シーングラフをインターフェースとして,同じモデルがシーン修正をサポートすることを示す。 Graph Convolutional Networks (GCN)を活用することで、オブジェクトとエッジのカテゴリに加えて、3Dの形状とシーンレイアウトをトレーニングし、新しいシーンと形状のサンプリングを可能にします。

Controllable scene synthesis consists of generating 3D information that satisfy underlying specifications. Thereby, these specifications should be abstract, i.e. allowing easy user interaction, whilst providing enough interface for detailed control. Scene graphs are representations of a scene, composed of objects (nodes) and inter-object relationships (edges), proven to be particularly suited for this task, as they allow for semantic control on the generated content. Previous works tackling this task often rely on synthetic data, and retrieve object meshes, which naturally limits the generation capabilities. To circumvent this issue, we instead propose the first work that directly generates shapes from a scene graph in an end-to-end manner. In addition, we show that the same model supports scene modification, using the respective scene graph as interface. Leveraging Graph Convolutional Networks (GCN) we train a variational Auto-Encoder on top of the object and edge categories, as well as 3D shapes and scene layouts, allowing latter sampling of new scenes and shapes.
翻訳日:2021-08-20 14:27:29 公開日:2021-08-19
# 重力アウェアモノクラー3次元物体再構成

Gravity-Aware Monocular 3D Human-Object Reconstruction ( http://arxiv.org/abs/2108.08844v1 )

ライセンス: Link先を確認
Rishabh Dabral and Soshi Shimada and Arjun Jain and Christian Theobalt and Vladislav Golyanik(参考訳) 本稿では,モノクラーRGBビデオからの3次元人体モーションキャプチャと物体軌道推定のための新しいアプローチであるGraviCapを提案する。 自由飛行中に部分的に観察された物体を含むシーンに焦点を当てた。 既存の単眼法とは対照的に、物体の動きを拘束する重力の認識によって、スケールや物体の軌跡、メートルの人間の骨の長さ、地平面の向きを復元することができる。 我々の目的関数は、物体の初期速度と位置、重力方向と焦点距離によってパラメトリされ、1つまたは複数のフリーフライトエピソードに対して共同最適化される。 提案するヒューマン・オブジェクト間インタラクション制約により,3次元再構成の幾何学的一貫性が確保され,人間のポーズの物理的再現性が向上した。 自由飛行中の人や異なる物体に対する地平線アノテーションを用いた新しいデータセットでGraviCapを評価した。 実験では, 各種計測値を用いた3次元モーションキャプチャにおいて, 最先端の精度を実現する。 私たちは読者に補足ビデオを見るように促します。 ソースコードとデータセットはどちらもリリースされている。

This paper proposes GraviCap, i.e., a new approach for joint markerless 3D human motion capture and object trajectory estimation from monocular RGB videos. We focus on scenes with objects partially observed during a free flight. In contrast to existing monocular methods, we can recover scale, object trajectories as well as human bone lengths in meters and the ground plane's orientation, thanks to the awareness of the gravity constraining object motions. Our objective function is parametrised by the object's initial velocity and position, gravity direction and focal length, and jointly optimised for one or several free flight episodes. The proposed human-object interaction constraints ensure geometric consistency of the 3D reconstructions and improved physical plausibility of human poses compared to the unconstrained case. We evaluate GraviCap on a new dataset with ground-truth annotations for persons and different objects undergoing free flights. In the experiments, our approach achieves state-of-the-art accuracy in 3D human motion capture on various metrics. We urge the reader to watch our supplementary video. Both the source code and the dataset are released; see http://4dqv.mpi-inf. mpg.de/GraviCap/.
翻訳日:2021-08-20 14:27:11 公開日:2021-08-19
# 知識グラフを用いた質問応答のためのトップk演算子を用いた効率的な文脈化

Efficient Contextualization using Top-k Operators for Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2108.08597v1 )

ライセンス: Link先を確認
Philipp Christmann, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 知識ベース(KB-QA)に関する複雑な疑問に答えるには、数百万のエンティティと数千の述語を含む何十億もの事実を含む膨大な入力データに直面する。 効率性のために、QAシステムはまず、すべての回答と関連する手がかりを含む可能性のある事実の集合を特定することによって、回答検索空間を縮小する。 最も一般的なテクニックは、名前付きエンティティ曖昧化(NED)システムを問題に適用し、曖昧なエンティティに対してKB事実を検索することである。 本研究は,KB対応信号を用いて検索空間の無関係な部分を抽出する効率的なECQAを提案する。 ECQAは、語彙マッチング、質問への関連性、候補項目間のコヒーレンス、KBグラフの接続性といった信号を組み合わせたKB項目のスコア順リスト上のトップkクエリ処理に基づいている。 最近の2つのQAベンチマークによる実験は、解答の有無、検索空間のサイズ、ランタイムに関して、最先端のベースラインよりもECQAの方が優れていることを示している。

Answering complex questions over knowledge bases (KB-QA) faces huge input data with billions of facts, involving millions of entities and thousands of predicates. For efficiency, QA systems first reduce the answer search space by identifying a set of facts that is likely to contain all answers and relevant cues. The most common technique is to apply named entity disambiguation (NED) systems to the question, and retrieve KB facts for the disambiguated entities. This work presents ECQA, an efficient method that prunes irrelevant parts of the search space using KB-aware signals. ECQA is based on top-k query processing over score-ordered lists of KB items that combine signals about lexical matching, relevance to the question, coherence among candidate items, and connectivity in the KB graph. Experiments with two recent QA benchmarks demonstrate the superiority of ECQA over state-of-the-art baselines with respect to answer presence, size of the search space, and runtimes.
翻訳日:2021-08-20 14:26:55 公開日:2021-08-19
# UNIQORN: RDF知識グラフと自然言語テキストに関する統一質問

UNIQORN: Unified Question Answering over RDF Knowledge Graphs and Natural Language Text ( http://arxiv.org/abs/2108.08614v1 )

ライセンス: Link先を確認
Soumajit Pramanik, Jesujoba Alabi, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 知識グラフやその他のRDFデータに対する質問応答は大幅に進歩しており、自然言語の質問やテレグラフの問い合わせに対して簡潔な回答を提供するシステムも数多くある。 これらのシステムの一部には、回答プロセスのさらなる証拠としてテキストソースが組み込まれているが、テキストのみに存在する回答は計算できない。 逆に、IRとNLPコミュニティのシステムはテキスト上でQAに対処しているが、意味データや知識をほとんど利用していない。 本稿では,RDFデータセットとテキストコーパスをシームレスに操作できる最初のQAシステムを提案する。 この手法はuniqornと呼ばれ、rdfデータおよび/またはテキストコーパスから質問関係三重項を検索することで、文脈グラフをオンザフライで構築し、後者のケースは自動情報抽出によって処理される。 結果として得られるグラフは、典型的にはリッチだがノイズが多い。 UNIQORNはこの入力をグループステイナツリーの高度なグラフアルゴリズムによって処理し、コンテキストグラフの最良の解候補を特定する。 複数のエンティティと関係を持つ複数の複雑な質問のベンチマーク実験の結果から、5つのパラメータしか教師なしの方法であるuniqornが、kgs、テキストコーパス、異種ソースの最先端技術に匹敵する結果を生成することがわかった。 グラフベースの方法論は、完全な応答プロセスに対するユーザ解釈可能な証拠を提供する。

Question answering over knowledge graphs and other RDF data has been greatly advanced, with a number of good systems providing crisp answers for natural language questions or telegraphic queries. Some of these systems incorporate textual sources as additional evidence for the answering process, but cannot compute answers that are present in text alone. Conversely, systems from the IR and NLP communities have addressed QA over text, but barely utilize semantic data and knowledge. This paper presents the first QA system that can seamlessly operate over RDF datasets and text corpora, or both together, in a unified framework. Our method, called UNIQORN, builds a context graph on the fly, by retrieving question-relevant triples from the RDF data and/or the text corpus, where the latter case is handled by automatic information extraction. The resulting graph is typically rich but highly noisy. UNIQORN copes with this input by advanced graph algorithms for Group Steiner Trees, that identify the best answer candidates in the context graph. Experimental results on several benchmarks of complex questions with multiple entities and relations, show that UNIQORN, an unsupervised method with only five parameters, produces results comparable to the state-of-the-art on KGs, text corpora, and heterogeneous sources. The graph-based methodology provides user-interpretable evidence for the complete answering process.
翻訳日:2021-08-20 14:26:36 公開日:2021-08-19
# Mr. TyDi:Dense Retrievalのための多言語ベンチマーク

Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval ( http://arxiv.org/abs/2108.08787v1 )

ライセンス: Link先を確認
Xinyu Zhang, Xueguang Ma, Peng Shi, and Jimmy Lin(参考訳) 本稿では,11種類の言語を対象とした単言語検索のための多言語ベンチマークデータセットであるmr. tydiを提案する。 このリソースの目的は、非英語言語における密集検索技術の研究を加速させることであり、既存の表現学習技術がアウト・オブ・ディストリビューションデータに適用された場合、性能が低下するという最近の観測に動機付けられている。 出発点として、我々は"mDPR"と呼ぶDPRの多言語適応に基づいて、この新しいデータセットに対してゼロショットベースラインを提供する。 実験の結果、mDPRの有効性はBM25よりもはるかに低いが、高密度な表現は貴重な関連信号を与え、BM25の結果は疎密度ハイブリッドであることがわかった。 結果の分析に加えて,今後の課題についても論じ,多言語密集検索における研究課題を提示する。 Mr. TyDiはhttps://github.com/c astorini/mr.tydiでダウンロードできる。

We present Mr. TyDi, a multi-lingual benchmark dataset for mono-lingual retrieval in eleven typologically diverse languages, designed to evaluate ranking with learned dense representations. The goal of this resource is to spur research in dense retrieval techniques in non-English languages, motivated by recent observations that existing techniques for representation learning perform poorly when applied to out-of-distribution data. As a starting point, we provide zero-shot baselines for this new dataset based on a multi-lingual adaptation of DPR that we call "mDPR". Experiments show that although the effectiveness of mDPR is much lower than BM25, dense representations nevertheless appear to provide valuable relevance signals, improving BM25 results in sparse-dense hybrids. In addition to analyses of our results, we also discuss future challenges and present a research agenda in multi-lingual dense retrieval. Mr. TyDi can be downloaded at https://github.com/c astorini/mr.tydi.
翻訳日:2021-08-20 14:26:10 公開日:2021-08-19
# 公平で一貫した連合学習

Fair and Consistent Federated Learning ( http://arxiv.org/abs/2108.08435v1 )

ライセンス: Link先を確認
Sen Cui, Weishen Pan, Jian Liang, Changshui Zhang, Fei Wang(参考訳) フェデレーション学習(fl)は、異なるソースにまたがる生データサンプルにアクセスすることなく、分散データソースから総合的に学習する能力に対する関心が高まっている。 FLのこれまでの研究は、パフォーマンスの向上、FLから学んだモデルに対するアルゴリズム的不一致の影響、実用的不整合に対するアルゴリズム的不一致の影響などに焦点を当ててきた。 本稿では,異なるローカルクライアント(データソース)間で性能の一貫性とアルゴリズム的公平性を検討するためのflフレームワークを提案する。 我々は制約付き多目的最適化の観点からフレームワークを導出し、一貫したパフォーマンスで全てのクライアントの公正性制約を満たすモデルを学ぶ。 具体的には、各ローカルクライアントにおけるアルゴリズム予測損失を目的として扱い、全ての目的を伴って代理最大関数を最適化することにより、フェアネス制約で最低性能のクライアントを最大化する。 この最適化問題のパレート最適性を達成するために勾配法を用いる。 理論解析により,全クライアントに公平性制約を課してmin-max性能を達成するparetoソリューションに収束できることが証明される。 合成および実世界のデータセットに関する総合的な実験は、我々のアプローチがベースラインよりも優れていること、および全てのローカルクライアントにおける公平性と一貫性を達成する上での有効性を示している。

Federated learning (FL) has gain growing interests for its capability of learning from distributed data sources collectively without the need of accessing the raw data samples across different sources. So far FL research has mostly focused on improving the performance, how the algorithmic disparity will be impacted for the model learned from FL and the impact of algorithmic disparity on the utility inconsistency are largely unexplored. In this paper, we propose an FL framework to jointly consider performance consistency and algorithmic fairness across different local clients (data sources). We derive our framework from a constrained multi-objective optimization perspective, in which we learn a model satisfying fairness constraints on all clients with consistent performance. Specifically, we treat the algorithm prediction loss at each local client as an objective and maximize the worst-performing client with fairness constraints through optimizing a surrogate maximum function with all objectives involved. A gradient-based procedure is employed to achieve the Pareto optimality of this optimization problem. Theoretical analysis is provided to prove that our method can converge to a Pareto solution that achieves the min-max performance with fairness constraints on all clients. Comprehensive experiments on synthetic and real-world datasets demonstrate the superiority that our approach over baselines and its effectiveness in achieving both fairness and consistency across all local clients.
翻訳日:2021-08-20 14:25:36 公開日:2021-08-19
# 前は、meta rlを初めてデプロイする上で、ロバスト性と安全性を改善するために必要なのは、すべてです。

Prior Is All You Need to Improve the Robustness and Safety for the First Time Deployment of Meta RL ( http://arxiv.org/abs/2108.08448v1 )

ライセンス: Link先を確認
Lu Wen, Songan Zhang, H. Eric Tseng, Baljeet Singh, Dimitar Filev, Huei Peng(参考訳) メタ強化学習(meta-rl)の分野は近年大きく進歩している。 特に,メタRL手法のデータ効率を向上させるために,非政治手法を開発した。 textit{probabilistic embeddeds for actor-critic rl} (pearl) は現在マルチmdp適応問題に対する主要なアプローチの1つである。 PEARLを含む多くの既存のMeta-RLメソッドの大きな欠点は、新しいタスクに初めて暴露された際に、以前のポリシーの安全性を明示的に考慮していないことである。 これは、フィールドロボットや自律走行車(AV)など、現実のいくつかのアプリケーションにとって非常に重要である。 本稿では,事前安全と後方適応の両方のポリシーを最適化するpearl plus (pearl$^+$)アルゴリズムを開発した。 真珠上に構築したpearl$^+$アルゴリズムは,報奨関数の事前正規化項と,事前コンテキスト仮定による状態動作値の回復のためのq-ネットワークを導入することにより,新たなタスクに初めて露出するトレーニングネットワークの堅牢性と安全性を向上させる。 PEARL$^+$法の性能は、2つのMuJoCoベンチマーク問題を含むロボットとAVに関連する3つの安全クリティカルな意思決定問題を解くことで実証される。 シミュレーション実験から,従来のPEARL法と比較して,事前方針の安全性が著しく向上していることが示唆された。

The field of Meta Reinforcement Learning (Meta-RL) has seen substantial advancements recently. In particular, off-policy methods were developed to improve the data efficiency of Meta-RL techniques. \textit{Probabilistic embeddings for actor-critic RL} (PEARL) is currently one of the leading approaches for multi-MDP adaptation problems. A major drawback of many existing Meta-RL methods, including PEARL, is that they do not explicitly consider the safety of the prior policy when it is exposed to a new task for the very first time. This is very important for some real-world applications, including field robots and Autonomous Vehicles (AVs). In this paper, we develop the PEARL PLUS (PEARL$^+$) algorithm, which optimizes the policy for both prior safety and posterior adaptation. Building on top of PEARL, our proposed PEARL$^+$ algorithm introduces a prior regularization term in the reward function and a new Q-network for recovering the state-action value with prior context assumption, to improve the robustness and safety of the trained network exposing to a new task for the first time. The performance of the PEARL$^+$ method is demonstrated by solving three safety-critical decision-making problems related to robots and AVs, including two MuJoCo benchmark problems. From the simulation experiments, we show that the safety of the prior policy is significantly improved compared to that of the original PEARL method.
翻訳日:2021-08-20 14:25:13 公開日:2021-08-19
# マルチチャネルグラフ分類によるブロックチェーンフィッシング詐欺検出

Blockchain Phishing Scam Detection via Multi-channel Graph Classification ( http://arxiv.org/abs/2108.08456v1 )

ライセンス: Link先を確認
Dunjie Zhang and Jinyin Chen(参考訳) ブロックチェーン技術の普及に伴い、ブロックチェーントランザクションネットワークの金融セキュリティ問題はますます深刻化している。 フィッシング詐欺検出方法は、被害者を保護し、より健全なブロックチェーンエコシステムを構築する。 通常、既存研究では、ランダムウォークやグラフニューラルネットワーク(GNN)などのグラフ埋め込み手法を用いて、ユーザの潜在的な特徴を学習することで、フィッシング詐欺検出をノード分類タスクとして定義している。 しかし、これらの検出方法は、トランザクションの時間的情報を無視して、ブロックチェーントランザクションネットワークの大規模化による複雑さに悩まされている。 この問題に対処し,ユーザのためのトランザクションパターングラフを定義し,フィッシング詐欺検出をグラフ分類タスクに変換する。 入力グラフからよりリッチな情報を抽出するために,複数の特徴抽出チャネルを持つマルチチャネルグラフ分類モデル(MCGC)を提案する。 トランザクションパターングラフとMCGCは、ターゲットユーザのトランザクションパターンの特徴を抽出することにより、潜在的なフィッシング詐欺を検出することができる。 7つのベンチマークとEthereumデータセットの大規模な実験により、提案したMCGCは、グラフ分類タスクで最先端のパフォーマンスを達成できるだけでなく、ターゲットユーザのトランザクションパターングラフに基づいて効率的なフィッシング詐欺検出を実現できることが示された。

With the popularity of blockchain technology, the financial security issues of blockchain transaction networks have become increasingly serious. Phishing scam detection methods will protect possible victims and build a healthier blockchain ecosystem. Usually, the existing works define phishing scam detection as a node classification task by learning the potential features of users through graph embedding methods such as random walk or graph neural network (GNN). However, these detection methods are suffered from high complexity due to the large scale of the blockchain transaction network, ignoring temporal information of the transaction. Addressing this problem, we defined the transaction pattern graphs for users and transformed the phishing scam detection into a graph classification task. To extract richer information from the input graph, we proposed a multi-channel graph classification model (MCGC) with multiple feature extraction channels for GNN. The transaction pattern graphs and MCGC are more able to detect potential phishing scammers by extracting the transaction pattern features of the target users. Extensive experiments on seven benchmark and Ethereum datasets demonstrate that the proposed MCGC can not only achieve state-of-the-art performance in the graph classification task but also achieve effective phishing scam detection based on the target users' transaction pattern graphs.
翻訳日:2021-08-20 14:24:47 公開日:2021-08-19
# ニューラルアーキテクチャサーチのトレンド:サーチの加速に向けて

Trends in Neural Architecture Search: Towards the Acceleration of Search ( http://arxiv.org/abs/2108.08474v1 )

ライセンス: Link先を確認
Youngkee Kim, Won Joon Yun, Youn Kyu Lee, Soyi Jung, and Joongheon Kim(参考訳) 現代のディープラーニング研究において、最適(もしくは最適に近い)ニューラルネットワークモデルを見つけることは主要な研究方向の一つであり、多くの応用で広く研究されている。 本稿では,ニューラル・アーキテクチャ・サーチ(nas)の主な研究動向を,ニューラル・進化アルゴリズム,強化学習に基づくアルゴリズム,ワンショット・アーキテクチャ・サーチアプローチに分類する。 さらに、各研究動向を紹介し、最後に主要な3つの傾向を比較する。 最後に,NAS研究動向の今後の研究方向性について論じる。

In modern deep learning research, finding optimal (or near optimal) neural network models is one of major research directions and it is widely studied in many applications. In this paper, the main research trends of neural architecture search (NAS) are classified as neuro-evolutionary algorithms, reinforcement learning based algorithms, and one-shot architecture search approaches. Furthermore, each research trend is introduced and finally all the major three trends are compared. Lastly, the future research directions of NAS research trends are discussed.
翻訳日:2021-08-20 14:24:27 公開日:2021-08-19
# 多入力多出力トランスベースハイブリッドニューラルネットワークによる多クラスプライバシー開示検出

A Multi-input Multi-output Transformer-based Hybrid Neural Network for Multi-class Privacy Disclosure Detection ( http://arxiv.org/abs/2108.08483v1 )

ライセンス: Link先を確認
A K M Nuhil Mehdy, Hoda Mehrpouyan(参考訳) ユーザのデータプライバシに関する懸念は,コミュニケーションプラットフォームやソーシャルネットワークサイトの増加,オンライン公開談話へのユーザの参加の増加などにより,最高水準に達している。 リスクや影響を意識せずに、電子メール、テキストメッセージ、ソーシャルメディアを通じて個人情報を交換する人が増えている。 自然言語処理(NLP)分野の研究者は、大量のデータがテキスト形式で交換されるため、テキストデータのプライベート情報を識別、分類、衛生化するためのツールと戦略の開発に集中している。 しかし, 検出手法の多くは, テキスト中の事前識別キーワードの存在にのみ依存しており, 特定の文脈における発話の基本的な意味の推測を無視している。 したがって、いくつかの状況では、これらのツールとアルゴリズムは開示を検知できず、結果が誤分類される。 本稿では,伝達学習,言語学,メタデータを用いて隠れパターンを学習するマルチインプット・マルチアウトプットハイブリッドニューラルネットワークを提案する。 我々の目標は、状況の文脈で、開示/非開示コンテンツの分類を改善することである。 我々は5400のツイートを含む人間の注釈付き地上真理データセットでモデルを訓練し、評価した。 その結果,提案モデルでは2つのタスクを共同で学習することで,77.4%の精度でツイートによるプライバシー開示を識別でき,その情報タイプを99%の印象的な精度で分類することができた。

The concern regarding users' data privacy has risen to its highest level due to the massive increase in communication platforms, social networking sites, and greater users' participation in online public discourse. An increasing number of people exchange private information via emails, text messages, and social media without being aware of the risks and implications. Researchers in the field of Natural Language Processing (NLP) have concentrated on creating tools and strategies to identify, categorize, and sanitize private information in text data since a substantial amount of data is exchanged in textual form. However, most of the detection methods solely rely on the existence of pre-identified keywords in the text and disregard the inference of the underlying meaning of the utterance in a specific context. Hence, in some situations, these tools and algorithms fail to detect disclosure, or the produced results are miss-classified. In this paper, we propose a multi-input, multi-output hybrid neural network which utilizes transfer-learning, linguistics, and metadata to learn the hidden patterns. Our goal is to better classify disclosure/non-discl osure content in terms of the context of situation. We trained and evaluated our model on a human-annotated ground truth dataset, containing a total of 5,400 tweets. The results show that the proposed model was able to identify privacy disclosure through tweets with an accuracy of 77.4% while classifying the information type of those tweets with an impressive accuracy of 99%, by jointly learning for two separate tasks.
翻訳日:2021-08-20 14:24:18 公開日:2021-08-19
# 待ち時間に基づく適応トラヒック信号制御のための革新的なアタックモデリングとアタック検出手法

An Innovative Attack Modelling and Attack Detection Approach for a Waiting Time-based Adaptive Traffic Signal Controller ( http://arxiv.org/abs/2108.08627v1 )

ライセンス: Link先を確認
Sagar Dasgupta, Courtland Hollis, Mizanur Rahman, Travis Atkison(参考訳) 適応交通信号制御装置(ATSC)とコネクテッドカー(CV)の概念とが組み合わさって、リアルタイム車両軌跡データを用いてグリーンタイムを規制し、交差点待ち時間を著しく短縮し、信号化回廊の走行時間を改善する。 しかし、CVベースのATSCは、潜在的なサイバー攻撃に弱い表面のサイズを増大させ、攻撃者が道路ネットワークで壊滅的な交通渋滞を発生させることができる。 車両数の急激な変化を伴わずに信号タイミングと位相が変化するように、交通量と車両追従規則を遅い速度で維持し、偽車を生成することにより経路を混雑させることができる。 atscの適応性から、この種の攻撃をモデル化し、検出のための戦略を開発することは課題である。 本稿では,待ち時間に基づくATSCアルゴリズムとそれに対応する検出戦略について,革新的な「スロー毒」サイバーアタックを提案する。 そこで,本研究の目的は, (i) atscのための"低毒"攻撃生成戦略を開発し, (ii) リカレントニューラルネットワークを用いた予測に基づく"低毒"攻撃検出戦略(すなわち, 長期短期記憶モデル)を開発することである。 筆者らは, 微視的交通シミュレーター(SUMO)を用いた「スロー毒」攻撃モデルを作成し, シミュレーションから生成されたデータを用いて, 攻撃モデルと検出モデルの両方を開発した。 分析の結果,攻撃戦略はアプローチの混雑を引き起こすのに有効であり,検出戦略は攻撃にフラグを付けることができることがわかった。

An adaptive traffic signal controller (ATSC) combined with a connected vehicle (CV) concept uses real-time vehicle trajectory data to regulate green time and has the ability to reduce intersection waiting time significantly and thereby improve travel time in a signalized corridor. However, the CV-based ATSC increases the size of the surface vulnerable to potential cyber-attack, allowing an attacker to generate disastrous traffic congestion in a roadway network. An attacker can congest a route by generating fake vehicles by maintaining traffic and car-following rules at a slow rate so that the signal timing and phase change without having any abrupt changes in number of vehicles. Because of the adaptive nature of ATSC, it is a challenge to model this kind of attack and also to develop a strategy for detection. This paper introduces an innovative "slow poisoning" cyberattack for a waiting time based ATSC algorithm and a corresponding detection strategy. Thus, the objectives of this paper are to: (i) develop a "slow poisoning" attack generation strategy for an ATSC, and (ii) develop a prediction-based "slow poisoning" attack detection strategy using a recurrent neural network -- i.e., long short-term memory model. We have generated a "slow poisoning" attack modeling strategy using a microscopic traffic simulator -- Simulation of Urban Mobility (SUMO) -- and used generated data from the simulation to develop both the attack model and detection model. Our analyses revealed that the attack strategy is effective in creating a congestion in an approach and detection strategy is able to flag the attack.
翻訳日:2021-08-20 14:23:54 公開日:2021-08-19
# 教師なしコントラスト表現学習のためのバッチキュレーション

Batch Curation for Unsupervised Contrastive Representation Learning ( http://arxiv.org/abs/2108.08643v1 )

ライセンス: Link先を確認
Michael C. Welle, Petra Poklukar and Danica Kragic(参考訳) SimCLR, MoCo, SwAV) が最近出現した最先端の教師なしのコントラクティブな視覚表現学習手法は, 画像の類似および異種対からなる即時識別のプリテキストタスクを構築するために, すべてデータ拡張を利用する。 類似したペアは、同じイメージからランダムにパッチを抽出し、カラージッタリングやぼかしといった他の変換を適用して構成されるが、あるバッチ内の異なるイメージインスタンスからの変換されたパッチは、異なる類似のペアと見なされる。 このアプローチは、 \textit{semantically} と異なる類似のペアをもたらすことができる。 本稿では,基礎となるコントラスト目標とインラインなトレーニングプロセス中にバッチを選択する \textit{batch curation}スキームを導入することで,この問題に対処する。 simclrモデルに組み込むことで、cifar10上の \textit{batch curation} を検証するだけでなく、有益で異なるペアを構成するものについての洞察を提供する。

The state-of-the-art unsupervised contrastive visual representation learning methods that have emerged recently (SimCLR, MoCo, SwAV) all make use of data augmentations in order to construct a pretext task of instant discrimination consisting of similar and dissimilar pairs of images. Similar pairs are constructed by randomly extracting patches from the same image and applying several other transformations such as color jittering or blurring, while transformed patches from different image instances in a given batch are regarded as dissimilar pairs. We argue that this approach can result similar pairs that are \textit{semantically} dissimilar. In this work, we address this problem by introducing a \textit{batch curation} scheme that selects batches during the training process that are more inline with the underlying contrastive objective. We provide insights into what constitutes beneficial similar and dissimilar pairs as well as validate \textit{batch curation} on CIFAR10 by integrating it in the SimCLR model.
翻訳日:2021-08-20 14:23:23 公開日:2021-08-19
# マルチセンターフェデレーションラーニング

Multi-Center Federated Learning ( http://arxiv.org/abs/2108.08647v1 )

ライセンス: Link先を確認
Ming Xie, Guodong Long, Tao Shen, Tianyi Zhou, Xianzhi Wang, Jing Jiang, Chengqi Zhang(参考訳) フェデレーション学習(federated learning, fl)は、分散学習におけるデータのプライバシを保護する。 しかし、flは実用的な設定、例えば異なるユーザに対する非iidデータなどにおいて一般的に見られる異質性の存在下では脆弱である。 既存のFLアプローチは通常、1つのグローバルモデルを更新して、データ分散間の不一致に関わらず、勾配を集約することで、すべてのユーザの共有知識をキャプチャする。 対照的に、複数のグローバルモデルの混合は、FLの異なるグローバルモデル(すなわちセンター)にユーザーを割り当てる場合、様々なユーザー間の不均一性を捉えることができる。 そこで本研究では,新しい多元集約機構を提案する。 データから複数のグローバルモデルを学び、同時にユーザーとセンターの最適なマッチングを導き出す。 次に、確率的予測最大化(EM)アルゴリズムにより効率よく解ける二段階最適化問題として定式化する。 FLの複数のベンチマークデータセットに対する実験により,本手法はいくつかのFL競合より優れていることが示された。 ソースコードはGithubで公開されている。

Federated learning (FL) can protect data privacy in distributed learning since it merely collects local gradients from users without access to their data. However, FL is fragile in the presence of heterogeneity that is commonly encountered in practical settings, e.g., non-IID data over different users. Existing FL approaches usually update a single global model to capture the shared knowledge of all users by aggregating their gradients, regardless of the discrepancy between their data distributions. By comparison, a mixture of multiple global models could capture the heterogeneity across various users if assigning the users to different global models (i.e., centers) in FL. To this end, we propose a novel multi-center aggregation mechanism . It learns multiple global models from data, and simultaneously derives the optimal matching between users and centers. We then formulate it as a bi-level optimization problem that can be efficiently solved by a stochastic expectation maximization (EM) algorithm. Experiments on multiple benchmark datasets of FL show that our method outperforms several popular FL competitors. The source code are open source on Github.
翻訳日:2021-08-20 14:23:06 公開日:2021-08-19
# Causal Anonymous Walks Representationを組み込んだ時間グラフネットワーク

Temporal Graph Network Embedding with Causal Anonymous Walks Representations ( http://arxiv.org/abs/2108.08754v1 )

ライセンス: Link先を確認
Ilya Makarov, Andrey Savchenko, Arseny Korovko, Leonid Sherstyuk, Nikita Severin, Aleksandr Mikheev, Dmitrii Babaev(参考訳) グラフ機械学習における多くのタスク、例えばリンク予測やノード分類は、一般的に、ネットワークの各ノードまたはエッジが埋め込みによって符号化される表現学習を用いて解決される。 静的グラフには多くのネットワーク埋め込みが存在するが、動的(すなわち、動的)の場合、タスクはずっと複雑になる。 時間的)ネットワークを解析する。 本稿では,因果的匿名ウォークを抽出し,高度にカスタムなメッセージ生成関数を用いて,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しい手法を提案する。 評価のために,時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。 この研究は、ノード分類とリンク予測を含むグラフ機械学習問題に対して、利用可能なすべての設定において、時間的ネットワーク表現学習のための最初の包括的な比較フレームワークを提供する。 提案モデルは最先端のベースラインモデルより優れている。 この研究はまた、様々なトランスダクティブ/インダクティブエッジ/ノード分類タスクの評価に基づいて、それらの違いを正当化する。 さらに,取引データに基づく信用スコアリングを含む欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて,我々のモデルの適用性と優れた性能を示す。

Many tasks in graph machine learning, such as link prediction and node classification, are typically solved by using representation learning, in which each node or edge in the network is encoded via an embedding. Though there exists a lot of network embeddings for static graphs, the task becomes much more complicated when the dynamic (i.e. temporal) network is analyzed. In this paper, we propose a novel approach for dynamic network representation learning based on Temporal Graph Network by using a highly custom message generating function by extracting Causal Anonymous Walks. For evaluation, we provide a benchmark pipeline for the evaluation of temporal network embeddings. This work provides the first comprehensive comparison framework for temporal network representation learning in every available setting for graph machine learning problems involving node classification and link prediction. The proposed model outperforms state-of-the-art baseline models. The work also justifies the difference between them based on evaluation in various transductive/inducti ve edge/node classification tasks. In addition, we show the applicability and superior performance of our model in the real-world downstream graph machine learning task provided by one of the top European banks, involving credit scoring based on transaction data.
翻訳日:2021-08-20 14:22:48 公開日:2021-08-19
# 単純さ:ランダムサンプリングを用いて決定木を高速化する

Simple is better: Making Decision Trees faster using random sampling ( http://arxiv.org/abs/2108.08790v1 )

ライセンス: Link先を確認
Vignesh Nanda Kumar and Narayanan U Edakunni(参考訳) 近年,ビッグデータ上での堅牢な機械学習モデル構築において,勾配向上決定木が普及している。 これらのアルゴリズムを成功させた主要なテクニックは、決定木を構築しながら計算を分散させることである。 分散決定木構築は、大きなデータセットの量子化を構築し、これらの量子化集合から候補分割点を選択することで実現されている。 例えば、xgboostでは、決定木の候補分割点を特定するために洗練された質的構築アルゴリズムが用いられる。 この方法は、計算が分散されたときにより良い結果が得られるようにしばしば投影される。 本稿では,これらの手法が,意思決定木を分散的に構築する上で,より正確かつスケーラブルな手法を提供するという考えを捨てる。 有意な貢献として,ランダムにスプリットポイントを選択することで,精度や計算効率の面で同等かそれ以上の性能が得られることを理論的に実証的に示した。 したがって、単純なランダムな点選択は、より洗練された方法と比較して決定木構築に十分である。

In recent years, gradient boosted decision trees have become popular in building robust machine learning models on big data. The primary technique that has enabled these algorithms success has been distributing the computation while building the decision trees. A distributed decision tree building, in turn, has been enabled by building quantiles of the big datasets and choosing the candidate split points from these quantile sets. In XGBoost, for instance, a sophisticated quantile building algorithm is employed to identify the candidate split points for the decision trees. This method is often projected to yield better results when the computation is distributed. In this paper, we dispel the notion that these methods provide more accurate and scalable methods for building decision trees in a distributed manner. In a significant contribution, we show theoretically and empirically that choosing the split points uniformly at random provides the same or even better performance in terms of accuracy and computational efficiency. Hence, a simple random selection of points suffices for decision tree building compared to more sophisticated methods.
翻訳日:2021-08-20 14:22:32 公開日:2021-08-19
# サロゲート支援戦略(感染症治療薬モデルによるパラメータ化)

Surrogate Assisted Strategies (The Parameterisation of an Infectious Disease Agent-Based Model) ( http://arxiv.org/abs/2108.08809v1 )

ライセンス: Link先を確認
Rylan Perumal, Terence L van Zyl(参考訳) パラメータキャリブレーションはエージェントベースモデリングとシミュレーション(ABMS)において重要な課題である。 エージェントベースモデル(ABM)の複雑性は、校正に必要なパラメータの数が増えるにつれて増加する。 このパラメータ展開は、ABMS の \say{curse of dimensionality} と同値となる。 特に、無限パラメータ空間を探索する不可能な計算要求。 本稿では,より包括的で適応的なABMSフレームワークを提案する。パラメータ化戦略を効果的に交換し,感染性疾患 ABM をパラメータ化するためのモデルをサロゲートする。 このフレームワークにより、異なる戦略代理の組み合わせの性能を精度と効率(スピードアップ)で評価できる。 我々は,サロゲート支援サンプリング戦略とベースラインにおいて,精度が同等よりも優れていることを示す。 また, 計量確率応答面戦略とサポートベクターマシンのサロゲートが組み合わさって, 真の合成パラメータに最も近い位置にあることを示す。 また,xgboostをサロゲートとした応答面モデルを用いた動的コーディネート探索は,累積合成日内感染データ分布を近似する最も高い確率と組み合わせて達成され,解析において最も重要な速度向上を達成した。 最後に, DYCORS XGBoost と MSRS SVM は, それぞれ9.12$\% と9.75$\% の類似性で実世界の累積日感染分布を近似できることを示す。

Parameter calibration is a significant challenge in agent-based modelling and simulation (ABMS). An agent-based model's (ABM) complexity grows as the number of parameters required to be calibrated increases. This parameter expansion leads to the ABMS equivalent of the \say{curse of dimensionality}. In particular, infeasible computational requirements searching an infinite parameter space. We propose a more comprehensive and adaptive ABMS Framework that can effectively swap out parameterisation strategies and surrogate models to parameterise an infectious disease ABM. This framework allows us to evaluate different strategy-surrogate combinations' performance in accuracy and efficiency (speedup). We show that we achieve better than parity in accuracy across the surrogate assisted sampling strategies and the baselines. Also, we identify that the Metric Stochastic Response Surface strategy combined with the Support Vector Machine surrogate is the best overall in getting closest to the true synthetic parameters. Also, we show that DYnamic COOrdindate Search Using Response Surface Models with XGBoost as a surrogate attains in combination the highest probability of approximating a cumulative synthetic daily infection data distribution and achieves the most significant speedup with regards to our analysis. Lastly, we show in a real-world setting that DYCORS XGBoost and MSRS SVM can approximate the real world cumulative daily infection distribution with $97.12$\% and $96.75$\% similarity respectively.
翻訳日:2021-08-20 14:22:18 公開日:2021-08-19
# オフライン強化学習におけるアクタ・クリティカル法の有効性

Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning ( http://arxiv.org/abs/2108.08812v1 )

ライセンス: Link先を確認
Andrea Zanette, Martin J. Wainwright, Emma Brunskill(参考訳) アクター批判法はオフラインの強化学習に広く用いられているが、理論的にはよく理解されていない。 本稿では,ペシミズム原理を自然に取り入れたオフラインアクタ-クリティックアルゴリズムを提案する。 このアルゴリズムは、アクターのポリシーのアクション値関数に関してベルマン評価演算子がクローズされたときに動作可能であり、低ランクのMDPモデルよりも一般的な設定である。 追加の一般性にもかかわらず、手続きは二階プログラムのシーケンスの解を含むので計算的に扱いやすい。 我々は、任意のデータ依存コンパレータポリシーのデータカバレッジに依存する手順によって返されるポリシーの最適範囲の上限を証明した。 達成可能な保証は、対数係数に一致するミニマックスの下限で補完される。

Actor-critic methods are widely used in offline reinforcement learning practice, but are not so well-understood theoretically. We propose a new offline actor-critic algorithm that naturally incorporates the pessimism principle, leading to several key advantages compared to the state of the art. The algorithm can operate when the Bellman evaluation operator is closed with respect to the action value function of the actor's policies; this is a more general setting than the low-rank MDP model. Despite the added generality, the procedure is computationally tractable as it involves the solution of a sequence of second-order programs. We prove an upper bound on the suboptimality gap of the policy returned by the procedure that depends on the data coverage of any arbitrary, possibly data dependent comparator policy. The achievable guarantee is complemented with a minimax lower bound that is matching up to logarithmic factors.
翻訳日:2021-08-20 14:21:54 公開日:2021-08-19
# 第1回Adaptive Cyber Defense国際ワークショップに参加して

Proceedings of the 1st International Workshop on Adaptive Cyber Defense ( http://arxiv.org/abs/2108.08476v1 )

ライセンス: Link先を確認
Damian Marriott, Kimberly Ferguson-Walter, Sunny Fugate, Marco Carvalho(参考訳) 第1回アダプティブサイバー防衛国際ワークショップは2021年の国際人工知能合同会議の一環として開催された。 このワークショップは、AI(AI)と機械学習(ML)のユニークな応用を、適応型サイバー防御の追求のための基礎的な能力として探求する研究を共有するために組織された。 サイバードメインは現在、人間の専門家に大きく依存することなく、確実かつ効果的に防御することはできない。 熟練したサイバーディフェンダーは不足しており、サイバー脅威に十分早く対応できないことが多い。 AIとMLの最近の進歩に基づいて、サイバー防衛研究コミュニティは、サイバーと非サイバーの両方の設定にAIとML技術を採用することによって、新しい動的で持続可能な防衛を開発する動機付けを受けている。 aiとサイバー研究者と実践者の間の重要なギャップを橋渡しすることで、サイバー攻撃を認識、対応し、他のサイバーオペレーションシステムや人間専門家と協力して弱点を発見し、軽減できる半自律的なサイバー防御を開発する取り組みを加速することができる。 さらに、これらの防御は適応的で、時間とともに進化し、攻撃行動の変化、システムの健全性と準備性の変化、時間の経過とともにユーザー行動の自然な変化を防ぐことが期待されている。 2021年8月19日と20日にモントリオールで開かれたワークショップは、技術的なプレゼンテーションと、オープンな問題と潜在的研究ソリューションに焦点を当てたパネルディスカッションで構成された。 ワークショップの応募はドメイン専門家のパネルによってピアレビューされ、国家と世界のセキュリティにとって重要な問題に関する10のテクニカル記事からなる手順が検討された。 このワークショップへの参加は、適応型および自律型サイバー防衛の新興領域における研究とイノベーションを刺激する新たな機会を提供した。

The 1st International Workshop on Adaptive Cyber Defense was held as part of the 2021 International Joint Conference on Artificial Intelligence. This workshop was organized to share research that explores unique applications of Artificial Intelligence (AI) and Machine Learning (ML) as foundational capabilities for the pursuit of adaptive cyber defense. The cyber domain cannot currently be reliably and effectively defended without extensive reliance on human experts. Skilled cyber defenders are in short supply and often cannot respond fast enough to cyber threats. Building on recent advances in AI and ML the Cyber defense research community has been motivated to develop new dynamic and sustainable defenses through the adoption of AI and ML techniques to both cyber and non-cyber settings. Bridging critical gaps between AI and Cyber researchers and practitioners can accelerate efforts to create semi-autonomous cyber defenses that can learn to recognize and respond to cyber attacks or discover and mitigate weaknesses in cooperation with other cyber operation systems and human experts. Furthermore, these defenses are expected to be adaptive and able to evolve over time to thwart changes in attacker behavior, changes in the system health and readiness, and natural shifts in user behavior over time. The Workshop (held on August 19th and 20th 2021 in Montreal-themed virtual reality) was comprised of technical presentations and a panel discussion focused on open problems and potential research solutions. Workshop submissions were peer reviewed by a panel of domain experts with a proceedings consisting of 10 technical articles exploring challenging problems of critical importance to national and global security. Participation in this workshop offered new opportunities to stimulate research and innovation in the emerging domain of adaptive and autonomous cyber defense.
翻訳日:2021-08-20 14:21:40 公開日:2021-08-19
# 先端トポロジカルデータ解析による雑草ロボットの監視と機能予測

Monitoring weeder robots and anticipating their functioning by using advanced topological data analysis ( http://arxiv.org/abs/2108.08570v1 )

ライセンス: Link先を確認
Tarek Frahi, Abel Sancarlos, Matthieu Galle, Xavier Beaulieu, Anne Chambard, Antonio Falco, Elias Cueto, and Francisco Chinesta(参考訳) 本稿では,雑草自動走行ロボットが運用する複雑な軌道のトポロジカルな内容を分析することを目的とした。 我々は,これらの軌道のトポロジ的記述子は,ロボット環境やロボット状態の影響を受け,維持作業に影響を及ぼすことを実証する。 トポロジデータ分析は、ホモロジーの持続性に基づいた軌道記述子抽出に使用される。 次に、その軌跡のトポロジカル表現を比較し、それらを分類したり、効率的なパターン認識を行うために適切なメトリクスを適用する。

The present paper aims at analyzing the topological content of the complex trajectories that weeder-autonomous robots follow in operation. We will prove that the topological descriptors of these trajectories are affected by the robot environment as well as by the robot state, with respect to maintenance operations. Topological Data Analysis will be used for extracting the trajectory descriptors, based on homology persistence. Then, appropriate metrics will be applied in order to compare that topological representation of the trajectories, for classifying them or for making efficient pattern recognition.
翻訳日:2021-08-20 14:21:12 公開日:2021-08-19
# 組織の境界距離を用いたパッチによる頸部癌切除

Patch-Based Cervical Cancer Segmentation using Distance from Boundary of Tissue ( http://arxiv.org/abs/2108.08508v1 )

ライセンス: Link先を確認
Kengo Araki, Mariyo Rokutan-Kurata, Kazuhiro Terada, Akihiko Yoshizawa and Ryoma Bise(参考訳) 病理診断は癌を詳細に検査するために使用され、その自動化が要求されている。 各がん領域を自動的に分割するために、パッチベースのアプローチは通常、WSI(Whole Slide Image)が巨大であるため使用される。 しかし、このアプローチはクラスを区別するのに必要なグローバル情報を失う。 本稿では,原画像から抽出可能な大域的情報である組織境界(dfb)からの距離を利用した。 本法を子宮頸癌の3分類に応用し,従来法と比較して総合成績が向上したことを確認した。

Pathological diagnosis is used for examining cancer in detail, and its automation is in demand. To automatically segment each cancer area, a patch-based approach is usually used since a Whole Slide Image (WSI) is huge. However, this approach loses the global information needed to distinguish between classes. In this paper, we utilized the Distance from the Boundary of tissue (DfB), which is global information that can be extracted from the original image. We experimentally applied our method to the three-class classification of cervical cancer, and found that it improved the total performance compared with the conventional method.
翻訳日:2021-08-20 14:20:31 公開日:2021-08-19
# 観測制約による検索と位置決め

Retrieval and Localization with Observation Constraints ( http://arxiv.org/abs/2108.08516v1 )

ライセンス: Link先を確認
Yuhao Zhou, Huanhuan Fan, Shuang Gao, Yuchen Yang, Xudong Zhang, Jijunnan Li, Yandong Guo(参考訳) 正確な視覚的再ローカライゼーションは、拡張現実、仮想現実、ロボット工学、自動運転など、多くの人工知能アプリケーションにとって非常に重要である。 そこで本研究では,画像検索と意味的一貫性,幾何学的検証を組み合わせたrlocsと呼ばれる統合的な視覚再局在化手法を提案する。 ローカライゼーションパイプラインは粗大なパラダイムとして設計されている。 検索部では、ResNet101-GeM-ArcFac eのアーキテクチャをカスケードし、DBSCANと空間検証を用いて、より優れた初期粗いポーズを得る。 我々は,幾何学的情報と意味的一貫性を組み合わせた観測制約と呼ばれるモジュールを設計した。 r-oxford5kとr-paris6kの検索、都市景観の意味セグメンテーション、アーヘンの昼夜のローカライズ、inlocなど、オープンデータセットに関する包括的な実験が行われた。 パイプライン全体のモジュールを創造的に修正することで,課題となるローカライゼーションベンチマークにおいて,多数の性能改善を実現する。

Accurate visual re-localization is very critical to many artificial intelligence applications, such as augmented reality, virtual reality, robotics and autonomous driving. To accomplish this task, we propose an integrated visual re-localization method called RLOCS by combining image retrieval, semantic consistency and geometry verification to achieve accurate estimations. The localization pipeline is designed as a coarse-to-fine paradigm. In the retrieval part, we cascade the architecture of ResNet101-GeM-ArcFac e and employ DBSCAN followed by spatial verification to obtain a better initial coarse pose. We design a module called observation constraints, which combines geometry information and semantic consistency for filtering outliers. Comprehensive experiments are conducted on open datasets, including retrieval on R-Oxford5k and R-Paris6k, semantic segmentation on Cityscapes, localization on Aachen Day-Night and InLoc. By creatively modifying separate modules in the total pipeline, our method achieves many performance improvements on the challenging localization benchmarks.
翻訳日:2021-08-20 14:20:21 公開日:2021-08-19
# 自動機械学習による再生可能放射能の臨床的応用

Reproducible radiomics through automated machine learning validated on twelve clinical applications ( http://arxiv.org/abs/2108.08618v1 )

ライセンス: Link先を確認
Martijn P. A. Starmans, Sebastian R. van der Voort, Thomas Phil, Milea J. M. Timbergen, Melissa Vos, Guillaume A. Padmos, Wouter Kessels, David Hanff, Dirk J. Grunhagen, Cornelis Verhoef, Stefan Sleijfer, Martin J. van den Bent, Marion Smits, Roy S. Dwarkasing, Christopher J. Els, Federico Fiduzi, Geert J. L. H. van Leenders, Anela Blazevic, Johannes Hofland, Tessa Brabander, Renza A. H. van Gils, Gaston J. H. Franssen, Richard A. Feelders, Wouter W. de Herder, Florian E. Buisman, Francois E. J. A. Willemssen, Bas Groot Koerkamp, Lindsay Angus, Astrid A. M. van der Veldt, Ana Rajicic, Arlette E. Odink, Mitchell Deen, Jose M. Castillo T., Jifke Veenland, Ivo Schoots, Michel Renckens, Michail Doukas, Rob A. de Man, Jan N. M. IJzermans, Razvan L. Miclea, Peter B. Vermeulen, Esther E. Bron, Maarten G. Thomeer, Jacob J. Visser, Wiro J. Niessen, Stefan Klein (for the Alzheimers Disease Neuroimaging Initiative)(参考訳) radiomicsは定量的な医療画像機能を用いて臨床結果を予測する。 多くの放射線学的手法が文献に記述されているが、これらは一般に単一の用途のために設計されている。 本研究の目的は,アプリケーション毎の放射能ワークフローを自動的に構築し,最適化するフレームワークを提案することで,アプリケーション全体の放射能を一般化することである。 この目的のために,画像およびセグメンテーション前処理,特徴抽出,特徴とサンプル前処理,機械学習など,いくつかのコンポーネントからなるモジュール化ワークフローとしてラジオミックを定式化する。 各コンポーネントには共通のアルゴリズムのコレクションが含まれている。 アプリケーション毎のワークフローを最適化するために,ランダム検索とアンサンブルを用いた自動機械学習を採用する。 We evaluate our method in twelve different clinical applications, resulting in the following area under the curves: 1) liposarcoma (0.83); 2) desmoid-type fibromatosis (0.82); 3) primary liver tumors (0.81); 4) gastrointestinal stromal tumors (0.77); 5) colorectal liver metastases (0.68); 6) melanoma metastases (0.51); 7) hepatocellular carcinoma (0.75); 8) mesenteric fibrosis (0.81); 9) prostate cancer (0.72); 10) glioma (0.70); 11) Alzheimer's disease (0.87); and 12) head and neck cancer (0.84). 結論として,本手法はラジオミクスのワークフローを自動的に構築し,最適化し,新しい用途におけるラジオミクスバイオマーカーの検索を合理化する。 再現性と今後の研究を容易にするため、我々は6つのデータセット、フレームワークのソフトウェア実装(オープンソース)、この研究を再現するためのコードを公開した。

Radiomics uses quantitative medical imaging features to predict clinical outcomes. While many radiomics methods have been described in the literature, these are generally designed for a single application. The aim of this study is to generalize radiomics across applications by proposing a framework to automatically construct and optimize the radiomics workflow per application. To this end, we formulate radiomics as a modular workflow, consisting of several components: image and segmentation preprocessing, feature extraction, feature and sample preprocessing, and machine learning. For each component, a collection of common algorithms is included. To optimize the workflow per application, we employ automated machine learning using a random search and ensembling. We evaluate our method in twelve different clinical applications, resulting in the following area under the curves: 1) liposarcoma (0.83); 2) desmoid-type fibromatosis (0.82); 3) primary liver tumors (0.81); 4) gastrointestinal stromal tumors (0.77); 5) colorectal liver metastases (0.68); 6) melanoma metastases (0.51); 7) hepatocellular carcinoma (0.75); 8) mesenteric fibrosis (0.81); 9) prostate cancer (0.72); 10) glioma (0.70); 11) Alzheimer's disease (0.87); and 12) head and neck cancer (0.84). Concluding, our method fully automatically constructs and optimizes the radiomics workflow, thereby streamlining the search for radiomics biomarkers in new applications. To facilitate reproducibility and future research, we publicly release six datasets, the software implementation of our framework (open-source), and the code to reproduce this study.
翻訳日:2021-08-20 14:20:01 公開日:2021-08-19
# 人間-対象間インタラクション認識のための時空間相互作用グラフ解析ネットワーク

Spatio-Temporal Interaction Graph Parsing Networks for Human-Object Interaction Recognition ( http://arxiv.org/abs/2108.08633v1 )

ライセンス: Link先を確認
Ning Wang, Guangming Zhu, Liang Zhang, Peiyi Shen, Hongsheng Li, Cong Hua(参考訳) ビデオベースのヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時空間関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりとなる。 実効的な時空間関係モデリングでは,各フレームの文脈情報だけでなく,時間間の依存関係を直接把握することが可能である。 外観的特徴が時間とともに顕著な変化を起こさない場合、時空間上の人や物体の位置変化を捉えることがより重要である。 外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。 本稿では,人間ノードと対象ノードからなるグラフを用いて映像を符号化した時空間相互作用グラフ解析ネットワーク(STIGPN)を構築した。 これらのノードは、2つのタイプの関係によって接続される: (i)各フレーム内の人間と相互作用対象の間の相互作用をモデル化する空間的関係。 (ii)フレーム間の人間と相互作用対象間の長距離依存性を捉える時間間関係。 このグラフでは、STIGPNはビデオベースのヒューマンオブジェクトインタラクションシーンから直接時空間の特徴を学習する。 マルチモーダル特徴とマルチストリーム融合戦略はSTIGPNの推論能力を高めるために用いられる。 CAD-120とSome-Elseを含む2つのヒューマン・オブジェクト・インタラクション・ビデオ・データセットを用いて提案したアーキテクチャを評価し,STIGPNの優位性を示す。

For a given video-based Human-Object Interaction scene, modeling the spatio-temporal relationship between humans and objects are the important cue to understand the contextual information presented in the video. With the effective spatio-temporal relationship modeling, it is possible not only to uncover contextual information in each frame but also to directly capture inter-time dependencies. It is more critical to capture the position changes of human and objects over the spatio-temporal dimension when their appearance features may not show up significant changes over time. The full use of appearance features, the spatial location and the semantic information are also the key to improve the video-based Human-Object Interaction recognition performance. In this paper, Spatio-Temporal Interaction Graph Parsing Networks (STIGPN) are constructed, which encode the videos with a graph composed of human and object nodes. These nodes are connected by two types of relations: (i) spatial relations modeling the interactions between human and the interacted objects within each frame. (ii) inter-time relations capturing the long range dependencies between human and the interacted objects across frame. With the graph, STIGPN learn spatio-temporal features directly from the whole video-based Human-Object Interaction scenes. Multi-modal features and a multi-stream fusion strategy are used to enhance the reasoning capability of STIGPN. Two Human-Object Interaction video datasets, including CAD-120 and Something-Else, are used to evaluate the proposed architectures, and the state-of-the-art performance demonstrates the superiority of STIGPN.
翻訳日:2021-08-20 14:19:41 公開日:2021-08-19
# 学習可能な空間認識型3Dルックアップテーブルによるリアルタイム画像強調

Real-time Image Enhancer via Learnable Spatial-aware 3D Lookup Tables ( http://arxiv.org/abs/2108.08697v1 )

ライセンス: Link先を確認
Tao Wang, Yong Li, Jingyang Peng, Yipeng Ma, Xian Wang, Fenglong Song, Youliang Yan(参考訳) 近年、ディープラーニングに基づく画像強調アルゴリズムは、いくつかの公開データセットで最先端(SOTA)のパフォーマンスを達成した。 しかし、既存の手法の多くは、視覚知覚や計算効率、特に高解像度画像の実用要件を満たしていない。 本稿では,グローバルシナリオと局所空間情報を考慮した学習可能な空間認識型3次元ルックアップテーブル(3d luts)を用いた,新しいリアルタイム画像エンハンサーを提案する。 具体的には、2つの出力を持つ軽量2頭重量予測器を提案する。 1つは画像レベルのシナリオ適応に使用される1D重みベクトルであり、もう1つは画素単位のカテゴリ融合を目的とした3D重みマップである。 空間認識型3D LUTを学習し、上記の重みに応じてエンドツーエンドに融合する。 次に、融合したLUTを使用して、ソースイメージを効率よくターゲットトーンに変換する。 以上の結果から,我々のモデルは,主観的かつ客観的にSOTA画像強調法より優れており,NVIDIA V100 GPUで4K解像度画像を処理するのに約4ミリ秒しかかからないことがわかった。

Recently, deep learning-based image enhancement algorithms achieved state-of-the-art (SOTA) performance on several publicly available datasets. However, most existing methods fail to meet practical requirements either for visual perception or for computation efficiency, especially for high-resolution images. In this paper, we propose a novel real-time image enhancer via learnable spatial-aware 3-dimentional lookup tables(3D LUTs), which well considers global scenario and local spatial information. Specifically, we introduce a light weight two-head weight predictor that has two outputs. One is a 1D weight vector used for image-level scenario adaptation, the other is a 3D weight map aimed for pixel-wise category fusion. We learn the spatial-aware 3D LUTs and fuse them according to the aforementioned weights in an end-to-end manner. The fused LUT is then used to transform the source image into the target tone in an efficient way. Extensive results show that our model outperforms SOTA image enhancement methods on public datasets both subjectively and objectively, and that our model only takes about 4ms to process a 4K resolution image on one NVIDIA V100 GPU.
翻訳日:2021-08-20 14:19:19 公開日:2021-08-19
# FSNet:セマンティックセグメンテーションのための障害検出フレームワーク

FSNet: A Failure Detection Framework for Semantic Segmentation ( http://arxiv.org/abs/2108.08748v1 )

ライセンス: Link先を確認
Quazi Marufur Rahman, Niko S\"underhauf, Peter Corke and Feras Dayoub(参考訳) セマンティックセグメンテーションは、自動運転車が周囲を理解し、安全にナビゲートするための重要なタスクである。 展開中、最も成熟したセグメンテーションモデルでさえ、セグメンテーション性能を低下させる様々な外部要因に対して脆弱であり、車両とその周囲に壊滅的な結果をもたらす可能性がある。 この問題に対処するために,画素レベルの誤分類を識別する障害検出フレームワークを提案する。 セグメンテーションモデルの内部特徴を活用し,障害検出ネットワークと並行してトレーニングを行う。 配置中、故障検知器は、セグメント化モデルが正しくセグメント化できなかった画像内の領域にフラグを付けることができる。 提案手法を評価し,都市景観,bdd100k,mapillary意味セマンティクスセグメンテーションデータセットのaupr-errorメトリックにおける12.30%,9.46%,9.65%の性能改善を達成した。

Semantic segmentation is an important task that helps autonomous vehicles understand their surroundings and navigate safely. During deployment, even the most mature segmentation models are vulnerable to various external factors that can degrade the segmentation performance with potentially catastrophic consequences for the vehicle and its surroundings. To address this issue, we propose a failure detection framework to identify pixel-level misclassification. We do so by exploiting internal features of the segmentation model and training it simultaneously with a failure detection network. During deployment, the failure detector can flag areas in the image where the segmentation model have failed to segment correctly. We evaluate the proposed approach against state-of-the-art methods and achieve 12.30%, 9.46%, and 9.65% performance improvement in the AUPR-Error metric for Cityscapes, BDD100K, and Mapillary semantic segmentation datasets.
翻訳日:2021-08-20 14:18:59 公開日:2021-08-19
# 群集の知恵:集団カウントのためのベイズ戦略パラダイム

Wisdom of (Binned) Crowds: A Bayesian Stratification Paradigm for Crowd Counting ( http://arxiv.org/abs/2108.08784v1 )

ライセンス: Link先を確認
Sravya Vardhani Shivapuja, Mansi Pradeep Khamkar, Divij Bajaj, Ganesh Ramakrishnan, Ravi Kiran Sarvadevabhatla(参考訳) ディープネットワークを数える群衆を訓練するためのデータセットは通常、カウント分布が重く、カウント範囲全体で不連続を示す。 その結果、デファクト統計測度(MSE, MAE)は大きなばらつきを示し、カウント範囲全体での信頼性の低い指標となる傾向にある。 これらの懸念に包括的に対処するために、標準的な群衆カウントパイプラインの様々な段階のプロセスを改訂する。 原理的かつバランスの取れたミニバッチサンプリングを実現するために,新しい平滑化ベイズサンプル成層法を提案する。 提案するコスト関数は,大規模ネットワークをカウントする既存のクラウドに容易に組み込むことで,階層認識の最適化を促進できる。 本研究では,標準的なデータ集合を対象とする群集数算定手法の性能を,階層単位と集合単位で分析する。 標準データセット間での群集カウント手法の性能を解析し,提案手法が誤差標準偏差を著しく低減することを示す。 私たちの貢献は、群衆カウントアプローチのパフォーマンスの微妙な、統計的なバランス、きめ細かな特徴を示しています。 コード、事前トレーニングされたモデル、インタラクティブな視覚化はプロジェクトのページ https://deepcount.ii it.ac.in/ で見ることができる。

Datasets for training crowd counting deep networks are typically heavy-tailed in count distribution and exhibit discontinuities across the count range. As a result, the de facto statistical measures (MSE, MAE) exhibit large variance and tend to be unreliable indicators of performance across the count range. To address these concerns in a holistic manner, we revise processes at various stages of the standard crowd counting pipeline. To enable principled and balanced minibatch sampling, we propose a novel smoothed Bayesian sample stratification approach. We propose a novel cost function which can be readily incorporated into existing crowd counting deep networks to encourage strata-aware optimization. We analyze the performance of representative crowd counting approaches across standard datasets at per strata level and in aggregate. We analyze the performance of crowd counting approaches across standard datasets and demonstrate that our proposed modifications noticeably reduce error standard deviation. Our contributions represent a nuanced, statistically balanced and fine-grained characterization of performance for crowd counting approaches. Code, pretrained models and interactive visualizations can be viewed at our project page https://deepcount.ii it.ac.in/
翻訳日:2021-08-20 14:18:41 公開日:2021-08-19
# データベースにおける一貫性のある問合せ応答のための二階述語仕様と量化子除去

Second-Order Specifications and Quantifier Elimination for Consistent Query Answering in Databases ( http://arxiv.org/abs/2108.08423v1 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) 一貫性のないデータベースからのクエリに対する一貫性のある回答は、データベースの可能なすべての修復から同時に取得される回答である。 修復は、元の一貫性のないインスタンスと最小に異なる一貫性のあるインスタンスである。 データベースの修復は、解法論理プログラムの安定モデルとして特定できることが以前に示されている。 本稿では,この修復プログラムを用いて,一貫した問合せ応答の問題を推論問題w.r.tに変換する方法について述べる。 2階述語論理で書かれた理論。 また, 2次量子化器の除去手法を適用して, 代わりに1次理論を得る方法も検討した。

Consistent answers to a query from a possibly inconsistent database are answers that are simultaneously retrieved from every possible repair of the database. Repairs are consistent instances that minimally differ from the original inconsistent instance. It has been shown before that database repairs can be specified as the stable models of a disjunctive logic program. In this paper we show how to use the repair programs to transform the problem of consistent query answering into a problem of reasoning w.r.t. a theory written in second-order predicate logic. It also investigated how a first-order theory can be obtained instead by applying second-order quantifier elimination techniques.
翻訳日:2021-08-20 14:18:16 公開日:2021-08-19
# ChMusic: 楽器認識評価のための中国の伝統音楽データセット

ChMusic: A Traditional Chinese Music Dataset for Evaluation of Instrument Recognition ( http://arxiv.org/abs/2108.08470v1 )

ライセンス: Link先を確認
Xia Gong, Yuxiang Zhu, Haidi Zhu, Haoran Wei(参考訳) 楽器認識は、音楽情報検索に広く用いられているアプリケーションである。 従来の楽器認識データセットのほとんどは西洋楽器に重点を置いているため、研究者が中国伝統楽器認識の領域を研究・評価することは困難である。 本稿では,ChMusicという学習モデルと演奏評価のための中国の伝統音楽データセットを提案する。 このデータセットは無料で公開されており、11の中国伝統楽器と55の中国伝統音楽の抜粋がこのデータセットに記録されている。 次に,ChMusicデータセットに基づく評価基準を提案する。 この標準により、研究者は同じ規則に従って結果を比較することができ、異なる研究者による結果が同等になる。

Musical instruments recognition is a widely used application for music information retrieval. As most of previous musical instruments recognition dataset focus on western musical instruments, it is difficult for researcher to study and evaluate the area of traditional Chinese musical instrument recognition. This paper propose a traditional Chinese music dataset for training model and performance evaluation, named ChMusic. This dataset is free and publicly available, 11 traditional Chinese musical instruments and 55 traditional Chinese music excerpts are recorded in this dataset. Then an evaluation standard is proposed based on ChMusic dataset. With this standard, researchers can compare their results following the same rule, and results from different researchers will become comparable.
翻訳日:2021-08-20 14:18:04 公開日:2021-08-19
# 未知線形系の制御のための後方サンプリングに基づく強化学習に関する緩和的技術的仮定

A relaxed technical assumption for posterior sampling-based reinforcement learning for control of unknown linear systems ( http://arxiv.org/abs/2108.08502v1 )

ライセンス: Link先を確認
Mukul Gagrani and Sagar Sudhakara and Aditya Mahajan and Ashutosh Nayyar and Yi Ouyang(参考訳) 我々は最近ouyang et al (arxiv:1709.04047) によって提案された未知の線形二次(lq)系を制御するためにトンプソンサンプリングアルゴリズムを再検討する。 アルゴリズムの後悔境界は閉ループ系の誘導ノルムに関する技術的仮定の下で導出された。 この技術的注意事項では、アルゴリズムにマイナーな修正を加える(特に、エピソードが早すぎることなく終わるようにする)ことにより、この誘導ノルムに関する技術的な仮定は、閉ループ系のスペクトル半径の観点でより穏やかな仮定に置き換えられることを示します。 修正されたアルゴリズムは、$\tilde{\mathcal{o}}(\sqrt{t})$というベイズ的後悔を持ち、ここで$t$は時間ホリゾンであり、$\tilde{\mathcal{o}}(\cdot)$は対数項を$t$で隠している。

We revisit the Thompson sampling algorithm to control an unknown linear quadratic (LQ) system recently proposed by Ouyang et al (arXiv:1709.04047). The regret bound of the algorithm was derived under a technical assumption on the induced norm of the closed loop system. In this technical note, we show that by making a minor modification in the algorithm (in particular, ensuring that an episode does not end too soon), this technical assumption on the induced norm can be replaced by a milder assumption in terms of the spectral radius of the closed loop system. The modified algorithm has the same Bayesian regret of $\tilde{\mathcal{O}}(\sqrt{T})$, where $T$ is the time-horizon and the $\tilde{\mathcal{O}}(\cdot)$ notation hides logarithmic terms in~$T$.
翻訳日:2021-08-20 14:17:54 公開日:2021-08-19
# スマートグリッドフレキシビリティスケジューリングの最適化のためのニューラル予測制御

Neural Predictive Control for the Optimization of Smart Grid Flexibility Schedules ( http://arxiv.org/abs/2108.08739v1 )

ライセンス: Link先を確認
Steven de Jongh, Sina Steinle, Anna Hlawatsch, Felicitas Mueller, Michael Suriyah, Thomas Leibfried(参考訳) モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。 結果の時間制約最適化問題は、SOCP(Second Order Cone Programming)やIPOPT(Inside Point Methods)といった古典的な最適化手法を用いて、各最適化タイムステップで解決することができる。 転がり地平線スキームにMPCを適用する場合、予測の不確実性が最適スケジュールに与える影響を低減する。 MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。 関数近似を用いた最適制御動作の学習は、短時間の計算時間で最適に近い制御動作を決定することができる。 線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御(NPC)方式を提案する。 この手法は, 計算時間を桁違いに削減しつつ, ほぼ最適解を求めることができることを示した。 学習したコントローラは、ベンチマークスマートグリッドを使用して検証される。

Model predictive control (MPC) is a method to formulate the optimal scheduling problem for grid flexibilities in a mathematical manner. The resulting time-constrained optimization problem can be re-solved in each optimization time step using classical optimization methods such as Second Order Cone Programming (SOCP) or Interior Point Methods (IPOPT). When applying MPC in a rolling horizon scheme, the impact of uncertainty in forecasts on the optimal schedule is reduced. While MPC methods promise accurate results for time-constrained grid optimization they are inherently limited by the calculation time needed for large and complex power system models. Learning the optimal control behaviour using function approximation offers the possibility to determine near-optimal control actions with short calculation time. A Neural Predictive Control (NPC) scheme is proposed to learn optimal control policies for linear and nonlinear power systems through imitation. It is demonstrated that this procedure can find near-optimal solutions, while reducing the calculation time by an order of magnitude. The learned controllers are validated using a benchmark smart grid.
翻訳日:2021-08-20 14:17:35 公開日:2021-08-19
# odeN: 大規模時間ネットワークにおける複数モチーフ数の同時近似

odeN: Simultaneous Approximation of Multiple Motif Counts in Large Temporal Networks ( http://arxiv.org/abs/2108.08734v1 )

ライセンス: Link先を確認
Ilie Sarpe and Fabio Vandin(参考訳) 時間的モチーフと呼ばれる小さな連結部分グラフの出現数を数えることが、それらが表す事象の時刻にアノテートされたエッジを持つ時間的ネットワークの分析の基本的なプリミティブとなっている。 時間的モチーフの研究における主な合併症の1つは、限られた数の頂点や辺でも構築できるモチーフの多さである。 その結果、多くのアプリケーションでモチーフが探索分析に使われているため、ユーザーはネットワークの異なる側面を表現する複数のモチーフを反復的に選択して分析する必要がある。 この問題は、1つのモチーフでさえも解析が計算的に要求される大規模ネットワークにおいて悪化する。 解決策として、本研究では、同じ(静的な)トポロジ(三角形など)に対応する複数の時間的モチーフの発生数を同時に数える問題を提案し、研究する。 正確な数を計算する大きな時間的ネットワークが実現不可能であることを考えると,モチーフのすべての数の正確な近似を提供するサンプリングベースのアルゴリズムであるodenを提案する。 厳密で確率的、相対的な近似を計算するためにodenが要求するサンプル数に関する解析的境界を提供する。 実験により, 時間的ネットワークにおけるモチーフの数を, 最先端の手法が必要とする時間のごく一部で近似することが可能であり, また, それらの手法よりも正確な近似を報告できることが確認された。

Counting the number of occurrences of small connected subgraphs, called temporal motifs, has become a fundamental primitive for the analysis of temporal networks, whose edges are annotated with the time of the event they represent. One of the main complications in studying temporal motifs is the large number of motifs that can be built even with a limited number of vertices or edges. As a consequence, since in many applications motifs are employed for exploratory analyses, the user needs to iteratively select and analyze several motifs that represent different aspects of the network, resulting in an inefficient, time-consuming process. This problem is exacerbated in large networks, where the analysis of even a single motif is computationally demanding. As a solution, in this work we propose and study the problem of simultaneously counting the number of occurrences of multiple temporal motifs, all corresponding to the same (static) topology (e.g., a triangle). Given that for large temporal networks computing the exact counts is unfeasible, we propose odeN, a sampling-based algorithm that provides an accurate approximation of all the counts of the motifs. We provide analytical bounds on the number of samples required by odeN to compute rigorous, probabilistic, relative approximations. Our extensive experimental evaluation shows that odeN enables the approximation of the counts of motifs in temporal networks in a fraction of the time needed by state-of-the-art methods, and that it also reports more accurate approximations than such methods.
翻訳日:2021-08-20 14:17:17 公開日:2021-08-19
# 機械学習による意思決定の改善

Improving Human Decision-Making with Machine Learning ( http://arxiv.org/abs/2108.08454v1 )

ライセンス: Link先を確認
Hamsa Bastani, Osbert Bastani, Wichinpong Park Sinchaisri(参考訳) 人間の知性の重要な側面は、その知識を簡潔な形で他人に伝える能力である。 しかし、その予測能力にもかかわらず、現在の機械学習モデルは大部分がブラックボックスであり、人間が有用な洞察を引き出すのが困難である。 逐次的意思決定に焦点をあて,解釈可能な「チップ」という形でその洞察を人間に伝える新しい機械学習アルゴリズムを設計した。 提案アルゴリズムは,ユーザ間のパフォーマンスのギャップと最適ポリシーを最良に埋めるヒントを選択する。 参加者が仮想キッチンを管理する一連のランダム化制御ユーザスタディを通じて,このアプローチを評価した。 実験の結果,本アルゴリズムが生み出すヒントは,直感的なベースラインと比較して,人間のパフォーマンスを著しく向上できることがわかった。 さらに,人間とAIのコラボレーションを目的としたアルゴリズムの設計を支援するための実証的な知見をいくつか紹介する。 例えば、参加者は単にヒントに盲目的に従うのではなく、自分たちの経験と組み合わせて、パフォーマンスを改善するための追加の戦略を発見するのです。

A key aspect of human intelligence is their ability to convey their knowledge to others in succinct forms. However, despite their predictive power, current machine learning models are largely blackboxes, making it difficult for humans to extract useful insights. Focusing on sequential decision-making, we design a novel machine learning algorithm that conveys its insights to humans in the form of interpretable "tips". Our algorithm selects the tip that best bridges the gap in performance between human users and the optimal policy. We evaluate our approach through a series of randomized controlled user studies where participants manage a virtual kitchen. Our experiments show that the tips generated by our algorithm can significantly improve human performance relative to intuitive baselines. In addition, we discuss a number of empirical insights that can help inform the design of algorithms intended for human-AI collaboration. For instance, we find evidence that participants do not simply blindly follow our tips; instead, they combine them with their own experience to discover additional strategies for improving performance.
翻訳日:2021-08-20 14:16:15 公開日:2021-08-19
# GNSSスポーフィング攻撃検出のための強化学習手法

A Reinforcement Learning Approach for GNSS Spoofing Attack Detection of Autonomous Vehicles ( http://arxiv.org/abs/2108.08628v1 )

ライセンス: Link先を確認
Sagar Dasgupta, Tonmoy Ghosh, Mizanur Rahman(参考訳) 自律走行車(AV)の航法には、レジリエントで堅牢な位置決め、ナビゲーション、タイミング(PNT)システムが必要である。 Global Navigation Satelite System (GNSS) は衛星ベースのPNTサービスを提供している。 しかし、スプーファーは本物のnss信号を刺激し、誤った位置情報をavに送信することができる。 したがって、GNSSは、PNT受信機に関連するスプーフィング攻撃をリアルタイムに検知し、フィードバック補正する能力を持たなければならない。 本稿では、低コストの車載センサデータを用いた深部強化学習(RL)によるターンバイターンスプーフィング攻撃検出の開発を目的とする。 我々はHonda Driving Datasetを利用して、攻撃および非攻撃データセットを作成し、深いRLモデルを開発し、RLに基づく攻撃検出モデルの性能を評価する。 RLモデルの精度は99.99%から100%であり、リコール値は100%である。 しかし、精度は93.44%から100%、f1スコアは96.61%から100%である。 解析結果から,RLモデルはターンバイターンスプーフィング攻撃検出に有効であることが判明した。

A resilient and robust positioning, navigation, and timing (PNT) system is a necessity for the navigation of autonomous vehicles (AVs). Global Navigation Satelite System (GNSS) provides satellite-based PNT services. However, a spoofer can temper an authentic GNSS signal and could transmit wrong position information to an AV. Therefore, a GNSS must have the capability of real-time detection and feedback-correction of spoofing attacks related to PNT receivers, whereby it will help the end-user (autonomous vehicle in this case) to navigate safely if it falls into any compromises. This paper aims to develop a deep reinforcement learning (RL)-based turn-by-turn spoofing attack detection using low-cost in-vehicle sensor data. We have utilized Honda Driving Dataset to create attack and non-attack datasets, develop a deep RL model, and evaluate the performance of the RL-based attack detection model. We find that the accuracy of the RL model ranges from 99.99% to 100%, and the recall value is 100%. However, the precision ranges from 93.44% to 100%, and the f1 score ranges from 96.61% to 100%. Overall, the analyses reveal that the RL model is effective in turn-by-turn spoofing attack detection.
翻訳日:2021-08-20 14:15:59 公開日:2021-08-19
# 分類誤差を最小化するバイナリ分類器の最適効率的逐次校正法

Optimally Efficient Sequential Calibration of Binary Classifiers to Minimize Classification Error ( http://arxiv.org/abs/2108.08780v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究では,二進分類問題に対する推定器のスコアアウトプットを,分類誤差を最小化する(あるいは同等に精度を最大化する)意味での「最適」写像であるクラス確率への「最適」マッピングを見つけることにより,校正することを目的とする。 与えられた目標変数と推定器のスコアアウトプットに対して、スコア値を確率に単調にマッピングする「最適」ソフトマッピングは、スコア値を0$と1$にマッピングするハードマッピングであることを示す。 クラス重み付け(1つのクラスの精度がより重要である)とサンプル重み付け(サンプルの正確な分類が等しく重要でない)の誤差、あるいは一般的な線形損失が示され、このハードマッピング特性が保存されている。 そこで本論文では,各サンプルに対して逐次的な「最適」ハードマッピングを生成する逐次再帰的マージ手法を提案する。 提案手法はサンプルサイズ時間複雑性の対数を持ち,最適に効率的である。

In this work, we aim to calibrate the score outputs of an estimator for the binary classification problem by finding an 'optimal' mapping to class probabilities, where the 'optimal' mapping is in the sense that minimizes the classification error (or equivalently, maximizes the accuracy). We show that for the given target variables and the score outputs of an estimator, an 'optimal' soft mapping, which monotonically maps the score values to probabilities, is a hard mapping that maps the score values to $0$ and $1$. We show that for class weighted (where the accuracy for one class is more important) and sample weighted (where the samples' accurate classifications are not equally important) errors, or even general linear losses; this hard mapping characteristic is preserved. We propose a sequential recursive merger approach, which produces an 'optimal' hard mapping (for the observed samples so far) sequentially with each incoming new sample. Our approach has a logarithmic in sample size time complexity, which is optimally efficient.
翻訳日:2021-08-20 14:15:37 公開日:2021-08-19
# 生涯コンピューティング

Lifelong Computing ( http://arxiv.org/abs/2108.08802v1 )

ライセンス: Link先を確認
Danny Weyns, Thomas B\"ack, Ren\`e Vidal, Xin Yao, Ahmed Nabil Belbachir(参考訳) コンピューティングシステムは私たちの生活の多くの側面のバックボーンを形成しているので、社会にとって水、電気、道路のインフラと同じくらい重要になっている。 しかし、常に変化する環境で目標を達成するような、長期間稼働するコンピューティングシステムには、大きな課題がある。 現在、予想された変化に合わせて時間とともに調整または学習するコンピューティングシステムを構築することができる。 しかしながら、異常、新規性、新しい目標、制約といった予期せぬ変更に対処するには、本質的に人間主導のアクティビティであるシステム進化が必要である。 コンピューティングシステムの複雑さが増大し、処理すべき大量の高度に複雑なデータを考えると、このアプローチは最終的には管理不能になる。 現状を打破するために,我々は「生涯コンピューティング」を造語するコンピューティングシステムの設計と運用の新しいパラダイムを提唱した。 このパラダイムは、コンピューティング/サービスモジュールと学習モジュールを統合するコンピューティング学習システムから始まる。 コンピューティングウェアハウスは、データシートと利用ガイドと共にこのようなコンピューティング要素を提供する。 異常、新規性、新しい目標、制約を検出すると、生涯にわたるコンピューティングシステムは、オンライン実験を実行する進化的自己学習エンジンを起動し、コンピュータ学習システムが変化に対処するためにどのように進化する必要があるかを判断し、アーキテクチャを変更し、必要に応じてコンピューティングウェアハウスから新しいコンピューティング要素を統合する。 身近な領域によっては、生涯コンピューティングシステムのいくつかの活動は人間が支援できる。 我々は,将来の魚作シナリオで生涯コンピューティングの必要性を動機付け,生涯コンピューティングシステムの青写真アーキテクチャを概説するとともに,生涯コンピューティングのビジョンを実現するための重要な研究課題を強調する。

Computing systems form the backbone of many aspects of our life, hence they are becoming as vital as water, electricity, and road infrastructures for our society. Yet, engineering long running computing systems that achieve their goals in ever-changing environments pose significant challenges. Currently, we can build computing systems that adjust or learn over time to match changes that were anticipated. However, dealing with unanticipated changes, such as anomalies, novelties, new goals or constraints, requires system evolution, which remains in essence a human-driven activity. Given the growing complexity of computing systems and the vast amount of highly complex data to process, this approach will eventually become unmanageable. To break through the status quo, we put forward a new paradigm for the design and operation of computing systems that we coin "lifelong computing." The paradigm starts from computing-learning systems that integrate computing/service modules and learning modules. Computing warehouses offer such computing elements together with data sheets and usage guides. When detecting anomalies, novelties, new goals or constraints, a lifelong computing system activates an evolutionary self-learning engine that runs online experiments to determine how the computing-learning system needs to evolve to deal with the changes, thereby changing its architecture and integrating new computing elements from computing warehouses as needed. Depending on the domain at hand, some activities of lifelong computing systems can be supported by humans. We motivate the need for lifelong computing with a future fish farming scenario, outline a blueprint architecture for lifelong computing systems, and highlight key research challenges to realise the vision of lifelong computing.
翻訳日:2021-08-20 14:15:20 公開日:2021-08-19
# 異種間細胞検出:ウマ,ヒト,ネコの肺溶血性マクロファージのデータセット

Inter-Species Cell Detection: Datasets on pulmonary hemosiderophages in equine, human and feline specimens ( http://arxiv.org/abs/2108.08529v1 )

ライセンス: Link先を確認
Christian Marzahl and Jenny Hill and Jason Stayt and Dorothee Bienzle and Lutz Welker and Frauke Wilm and J\"orn Voigt and Marc Aubreville and Andreas Maier and Robert Klopfleisch and Katharina Breininger and Christof A. Bertram(参考訳) 肺出血 (p-hem) は複数の種で発生し、様々な原因を持つ。 ヘモシドリン含量に基づく肺胞マクロファージの5層スコアリングシステムを用いた気管支肺胞洗浄液(balf)の細胞診は最も感度の高い診断方法と考えられる。 本稿では, 74個の細胞学全スライド画像(wsis)とウマ, ネコおよびヒトのサンプルからなる, 完全に注釈付き多種多種多種多種体データセットについて紹介する。 この高品質で高品質なデータセットを作成するために、人間の専門知識とディープラーニングとデータ視覚化技術を組み合わせたアノテーションパイプラインを開発した。 専門的な注釈付きWSIを訓練した深層学習に基づく物体検出手法を,残りの39種,12種,7種のWSIに適用した。 得られたアノテーションは、複数の種類の特化アノテーションマップのエラーを半自動でスクリーニングし、最終的に訓練された病理学者によってレビューされた。 本データセットは5つのグレードに分類した297,383個のヘモサイドローファージを含む。 これは、アノテーションの数、スキャンされた領域、カバーされている種数に関して、最も大きな公開可能なデータセットの1つである。

Pulmonary hemorrhage (P-Hem) occurs among multiple species and can have various causes. Cytology of bronchoalveolarlavag e fluid (BALF) using a 5-tier scoring system of alveolar macrophages based on their hemosiderin content is considered the most sensitive diagnostic method. We introduce a novel, fully annotated multi-species P-Hem dataset which consists of 74 cytology whole slide images (WSIs) with equine, feline and human samples. To create this high-quality and high-quantity dataset, we developed an annotation pipeline combining human expertise with deep learning and data visualisation techniques. We applied a deep learning-based object detection approach trained on 17 expertly annotated equine WSIs, to the remaining 39 equine, 12 human and 7 feline WSIs. The resulting annotations were semi-automatically screened for errors on multiple types of specialised annotation maps and finally reviewed by a trained pathologists. Our dataset contains a total of 297,383 hemosiderophages classified into five grades. It is one of the largest publicly availableWSIs datasets with respect to the number of annotations, the scanned area and the number of species covered.
翻訳日:2021-08-20 14:14:54 公開日:2021-08-19
# 残差予測とループフィルタを用いた学習ビデオ圧縮

Learned Video Compression with Residual Prediction and Loop Filter ( http://arxiv.org/abs/2108.08551v1 )

ライセンス: Link先を確認
Chao Liu, Heming Sun, Jiro Katto, Xiaoyang Zeng, Yibo Fan(参考訳) 本稿では,残差予測ネットワーク(RP-Net)と機能支援ループフィルタ(LF-Net)を用いた学習ビデオコーデックを提案する。 RP-Netでは、過去の多重フレームの残余を利用して、現在のフレーム残余の冗長性をさらに排除する。 LF-Netでは、残差復号ネットワークと運動補償ネットワークの特徴を利用して復元品質を向上する。 複雑さを低減するため、RP-NetとLF-Netの両方のバックボーンとして軽量ResNet構造を用いる。 実験の結果,従来のビデオ圧縮フレームワークと比較して約10%のBDレートを節約できることがわかった。 さらに、resnetバックボーンのおかげで、より高速なコーディング速度を実現できます。 このプロジェクトはhttps://github.com/c haoliu18/RPLVCで入手できる。

In this paper, we propose a learned video codec with a residual prediction network (RP-Net) and a feature-aided loop filter (LF-Net). For the RP-Net, we exploit the residual of previous multiple frames to further eliminate the redundancy of the current frame residual. For the LF-Net, the features from residual decoding network and the motion compensation network are used to aid the reconstruction quality. To reduce the complexity, a light ResNet structure is used as the backbone for both RP-Net and LF-Net. Experimental results illustrate that we can save about 10% BD-rate compared with previous learned video compression frameworks. Moreover, we can achieve faster coding speed due to the ResNet backbone. This project is available at https://github.com/c haoliu18/RPLVC.
翻訳日:2021-08-20 14:14:33 公開日:2021-08-19
# Neural Operator: 関数空間間のマップ学習

Neural Operator: Learning Maps Between Function Spaces ( http://arxiv.org/abs/2108.08481v1 )

ライセンス: Link先を確認
Nikola Kovachki, Zongyi Li, Burigede Liu, Kamyar Azizzadenesheli, Kaushik Bhattacharya, Andrew Stuart, Anima Anandkumar(参考訳) 古典的なニューラルネットワークの発展は、主に有限次元ユークリッド空間または有限集合間の写像の学習に焦点を当てている。 無限次元関数空間間の写像を学習するためのニューラルネットワークの一般化を提案する。 線形積分作用素のクラスと非線形活性化関数の組み合わせにより作用素の近似を定式化し、合成作用素は複素非線形作用素を近似することができる。 さらに、グラフベースの演算子、低ランク演算子、多極グラフベースの演算子、フーリエ演算子という4つの演算子パラメータ化のクラスを導入し、それぞれで効率的な演算アルゴリズムを記述する。 提案したニューラル作用素は分解能不変であり、基礎となる関数空間の異なる離散化間で同じネットワークパラメータを共有し、ゼロショット超解像に使用できる。 提案手法は,従来のpde解法に比べて数桁高速でありながら,バーガーズ方程式,ダーシー流,ナビエ・ストークス方程式に基づく既存の機械学習手法と比較して優れた性能を示す。

The classical development of neural networks has primarily focused on learning mappings between finite dimensional Euclidean spaces or finite sets. We propose a generalization of neural networks tailored to learn operators mapping between infinite dimensional function spaces. We formulate the approximation of operators by composition of a class of linear integral operators and nonlinear activation functions, so that the composed operator can approximate complex nonlinear operators. Furthermore, we introduce four classes of operator parameterizations: graph-based operators, low-rank operators, multipole graph-based operators, and Fourier operators and describe efficient algorithms for computing with each one. The proposed neural operators are resolution-invariant : they share the same network parameters between different discretizations of the underlying function spaces and can be used for zero-shot super-resolutions. Numerically, the proposed models show superior performance compared to existing machine learning based methodologies on Burgers' equation, Darcy flow, and the Navier-Stokes equation, while being several order of magnitude faster compared to conventional PDE solvers.
翻訳日:2021-08-20 14:14:21 公開日:2021-08-19
# センサフュージョンを用いた自律走行車用GNSSスポーフィング検出フレームワーク

A Sensor Fusion-based GNSS Spoofing Attack Detection Framework for Autonomous Vehicles ( http://arxiv.org/abs/2108.08635v1 )

ライセンス: Link先を確認
Sagar Dasgupta, Mizanur Rahman, Mhafuzul Islam, Mashrur Chowdhury(参考訳) 本報告では, 自動走行車(AV)に対するセンサフュージョンベースグローバルナビゲーション衛星システム(GNSS)のスプーフィング攻撃検出フレームワークについて, (i) 予測位置シフトを用いた車両状態の検知, (i) 連続する2つのタイムスタンプ間を走行する距離の計測, (i) 車両動作状態の監視, (i) 旋回(i) 検出と分類 (i) の2つの同時戦略から構成する。 複数の低コストの車載センサー(加速度計、操舵角センサ、速度センサ、GNSS)からのデータを融合して、2つの連続するタイムスタンプ間をAVが移動する距離を予測するための長い短期記憶(LSTM)ネットワークであるリカレントニューラルネットワークモデルに供給する。 この位置シフトは、GNSSベースの位置シフトと比較され、攻撃を検出する。 そこで我々はk-Nearest Neighbors (k-NN) と Dynamic Time Warping (DTW) のアルゴリズムを組み合わせて、操舵角センサのデータを用いて左右旋回を検出し、分類した。 センサフュージョンベースの攻撃検出フレームワークの有効性を証明するため、Honda Research Institute Driving Dataset (HDD)を使用して、ターンバイターン、オーバーシュート、間違ったターン、ストップの4つのユニークで洗練されたスプーフィング攻撃のための攻撃データセットを作成する。 解析の結果,センサフュージョンに基づく検出フレームワークは,必要な計算遅延閾値内で,4種類のスプーフィング攻撃をすべて検出できることがわかった。

This paper presents a sensor fusion based Global Navigation Satellite System (GNSS) spoofing attack detection framework for autonomous vehicles (AV) that consists of two concurrent strategies: (i) detection of vehicle state using predicted location shift -- i.e., distance traveled between two consecutive timestamps -- and monitoring of vehicle motion state -- i.e., standstill/ in motion; and (ii) detection and classification of turns (i.e., left or right). Data from multiple low-cost in-vehicle sensors (i.e., accelerometer, steering angle sensor, speed sensor, and GNSS) are fused and fed into a recurrent neural network model, which is a long short-term memory (LSTM) network for predicting the location shift, i.e., the distance that an AV travels between two consecutive timestamps. This location shift is then compared with the GNSS-based location shift to detect an attack. We have then combined k-Nearest Neighbors (k-NN) and Dynamic Time Warping (DTW) algorithms to detect and classify left and right turns using data from the steering angle sensor. To prove the efficacy of the sensor fusion-based attack detection framework, attack datasets are created for four unique and sophisticated spoofing attacks-turn-by-turn , overshoot, wrong turn, and stop, using the publicly available real-world Honda Research Institute Driving Dataset (HDD). Our analysis reveals that the sensor fusion-based detection framework successfully detects all four types of spoofing attacks within the required computational latency threshold.
翻訳日:2021-08-20 14:14:03 公開日:2021-08-19
# 時間経済シナリオ生成におけるポイントの識別モデルアプローチ

Discriminating modelling approaches for Point in Time Economic Scenario Generation ( http://arxiv.org/abs/2108.08818v1 )

ライセンス: Link先を確認
Rui Wang(参考訳) 本稿では,先見市場データに条件付き経済シナリオ生成手法を統一・比較するために,明確な数学的問題定式化を伴う時間経済シナリオ生成(PiT ESG)の概念を導入する。 このようなPiT ESGは、長期にわたる歴史的データのみを調整した従来のESGよりも、急激な経済変化に対する迅速かつ柔軟な反応を提供するべきである。 具体的には、S&P500指数とVIX指数を前向き市場データとして捉え、非パラメトリックフィルタ履歴シミュレーション、GARCHモデルと共同推定(パラメトリック)、制限ボルツマンマシン、条件付き変分オートエンコーダ(ジェネレータネットワーク)をPiT ESGとして適合させる。 本評価は,モデル適合性に関する統計的テストと,モデル出力を停止損失基準として用いる戦略バックテストを用いたサンプル予測品質のベンチマークからなる。 生成ネットワークは、我々のテストで非パラメトリックおよび古典的パラメトリックモデルよりも優れているが、CVAEは我々の目的に特に適しているようだ。

We introduce the notion of Point in Time Economic Scenario Generation (PiT ESG) with a clear mathematical problem formulation to unify and compare economic scenario generation approaches conditional on forward looking market data. Such PiT ESGs should provide quicker and more flexible reactions to sudden economic changes than traditional ESGs calibrated solely to long periods of historical data. We specifically take as economic variable the S&P500 Index with the VIX Index as forward looking market data to compare the nonparametric filtered historical simulation, GARCH model with joint likelihood estimation (parametric), Restricted Boltzmann Machine and the conditional Variational Autoencoder (Generative Networks) for their suitability as PiT ESG. Our evaluation consists of statistical tests for model fit and benchmarking the out of sample forecasting quality with a strategy backtest using model output as stop loss criterion. We find that both Generative Networks outperform the nonparametric and classic parametric model in our tests, but that the CVAE seems to be particularly well suited for our purposes: yielding more robust performance and being computationally lighter.
翻訳日:2021-08-20 14:13:29 公開日:2021-08-19
# (参考訳) DRB-GAN: アーティストスタイル転送のための動的ResBlock生成逆ネットワーク [全文訳有]

DRB-GAN: A Dynamic ResBlock Generative Adversarial Network for Artistic Style Transfer ( http://arxiv.org/abs/2108.07379v2 )

ライセンス: CC BY 4.0
Wenju Xu and Chengjiang Long and Ruisheng Wang and Guanghui Wang(参考訳) 本稿では,芸術的スタイル伝達のための動的ResBlock Generative Adversarial Network (DRB-GAN)を提案する。 スタイルコードは、スタイルエンコーディングネットワークとスタイル転送ネットワークを接続するDynamic ResBlocksの共有パラメータとしてモデル化される。 スタイル符号化ネットワークでは、スタイルコードを生成するためのスタイル特徴表現にスタイルクラス対応アテンション機構が使用される。 スタイル転送ネットワークでは、複数のDynamic ResBlocksがスタイルコードと抽出されたCNNセマンティック機能を統合し、空間ウィンドウのレイヤ-インスタンス正規化(SW-LIN)デコーダに入力するように設計されている。 さらに,DRB-GANモデルの学習段階における任意のスタイル転送とコレクションスタイル転送の両機能を備えたスタイル収集条件判別器を設計した。 任意のスタイルの転送やコレクションスタイルの転送はともかく,我々の提案したDRB-GANは最先端の手法よりも優れており,視覚的品質と効率の点で優れた性能を示した。 我々のソースコードは \color{magenta}{\url{https://github.com/x uwenju123/drb-gan}} で入手できる。

The paper proposes a Dynamic ResBlock Generative Adversarial Network (DRB-GAN) for artistic style transfer. The style code is modeled as the shared parameters for Dynamic ResBlocks connecting both the style encoding network and the style transfer network. In the style encoding network, a style class-aware attention mechanism is used to attend the style feature representation for generating the style codes. In the style transfer network, multiple Dynamic ResBlocks are designed to integrate the style code and the extracted CNN semantic feature and then feed into the spatial window Layer-Instance Normalization (SW-LIN) decoder, which enables high-quality synthetic images with artistic style transfer. Moreover, the style collection conditional discriminator is designed to equip our DRB-GAN model with abilities for both arbitrary style transfer and collection style transfer during the training stage. No matter for arbitrary style transfer or collection style transfer, extensive experiments strongly demonstrate that our proposed DRB-GAN outperforms state-of-the-art methods and exhibits its superior performance in terms of visual quality and efficiency. Our source code is available at \color{magenta}{\url{https://github.com/x uwenju123/DRB-GAN}}.
翻訳日:2021-08-20 12:08:26 公開日:2021-08-19
# (参考訳) トゥルクパラフレーズコーパスの注釈ガイドライン [全文訳有]

Annotation Guidelines for the Turku Paraphrase Corpus ( http://arxiv.org/abs/2108.07499v2 )

ライセンス: CC BY 4.0
Jenna Kanerva, Filip Ginter, Li-Hsin Chang, Iiro Rastas, Valtteri Skantsi, Jemina Kilpel\"ainen, Hanna-Mari Kupari, Aurora Piirto, Jenna Saarni, Maija Sev\'on, Otto Tarkka(参考訳) 本論文は、turuparaphraseコーパスの構築に使用されるアノテーションガイドラインについて述べる。 これらのガイドラインはコーパスアノテーションとともに開発され、アノテーション作業中にガイドラインを定期的に修正および拡張した。 私たちのパラフレーズアノテーションスキームはベーススケール1-4を使用し、ラベル1と2は負の候補(パラフレーズではない)に使われ、ラベル3と4は少なくとも与えられた文脈で与えられたパラフレーズである。 基本ラベリングに加えて、2つの正のラベル内の異なる種類のパラフラスを分類するための追加のサブカテゴリ(flag)が強化され、より細かいパラフラス分類に適したアノテーションスキームとなる。 このアノテーションスキームは、10万以上のフィンランド語のパラフレーズ対に注釈をつけるのに使われる。

This document describes the annotation guidelines used to construct the Turku Paraphrase Corpus. These guidelines were developed together with the corpus annotation, revising and extending the guidelines regularly during the annotation work. Our paraphrase annotation scheme uses the base scale 1-4, where labels 1 and 2 are used for negative candidates (not paraphrases), while labels 3 and 4 are paraphrases at least in the given context if not everywhere. In addition to base labeling, the scheme is enriched with additional subcategories (flags) for categorizing different types of paraphrases inside the two positive labels, making the annotation scheme suitable for more fine-grained paraphrase categorization. The annotation scheme is used to annotate over 100,000 Finnish paraphrase pairs.
翻訳日:2021-08-20 11:38:19 公開日:2021-08-19
# (参考訳) 画像データにおける共変量シフトのコントラスト同定 [全文訳有]

Contrastive Identification of Covariate Shift in Image Data ( http://arxiv.org/abs/2108.08000v2 )

ライセンス: CC BY 4.0
Matthew L. Olson, Thuy-Vy Nguyen, Gaurav Dixit, Neale Ratzlaff, Weng-Keen Wong, and Minsuk Kahng(参考訳) コ変量シフトの特定は、現実世界で機械学習システムを堅牢にすることと、テストデータに反映されていないトレーニングデータバイアスの検出に不可欠である。 しかし、特にデータが高次元画像で構成されている場合や、複数の種類の局所的共変量シフトがデータの異なる部分空間に影響する場合、共変量シフトの検出は困難である。 自動的な技術は共変量シフトの存在を検出するのに使えるが、我々の目標は、大規模な画像データセットにおける共変量シフトの程度を、検出アルゴリズムから得られる情報をシームレスに統合するインターフェースで特徴付けることにある。 本稿では,学習データとテストデータの局所分布の比較を容易にする新しいビジュアルインタフェースの設計と評価を行う。 マルチ属性顔データに対する定量的なユーザスタディを行い、学習した2つの低次元潜在表現(事前学習画像ネットCNN対密度比)と2つのユーザ分析ワークフロー(アレスト・ニーバー対クラスタ・トゥ・クラスタ)を比較した。 以上の結果から,我々の密度比モデルの潜在表現と最隣接比較は,共変量変化の同定に最も有効であることが示唆された。

Identifying covariate shift is crucial for making machine learning systems robust in the real world and for detecting training data biases that are not reflected in test data. However, detecting covariate shift is challenging, especially when the data consists of high-dimensional images, and when multiple types of localized covariate shift affect different subspaces of the data. Although automated techniques can be used to detect the existence of covariate shift, our goal is to help human users characterize the extent of covariate shift in large image datasets with interfaces that seamlessly integrate information obtained from the detection algorithms. In this paper, we design and evaluate a new visual interface that facilitates the comparison of the local distributions of training and test data. We conduct a quantitative user study on multi-attribute facial data to compare two different learned low-dimensional latent representations (pretrained ImageNet CNN vs. density ratio) and two user analytic workflows (nearest-neighbor vs. cluster-to-cluster). Our results indicate that the latent representation of our density ratio model, combined with a nearest-neighbor comparison, is the most effective at helping humans identify covariate shift.
翻訳日:2021-08-20 11:22:11 公開日:2021-08-19
# ファーストパーソンビデオ領域適応のためのチャンネルタイムアテンション

Channel-Temporal Attention for First-Person Video Domain Adaptation ( http://arxiv.org/abs/2108.07846v2 )

ライセンス: Link先を確認
Xianyuan Liu, Shuo Zhou, Tao Lei, Haiping Lu(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースデータから同じカテゴリのラベル付きターゲットデータに知識を転送することができる。 しかし、一対一の行動認識のためのUDAは、データセットの欠如と一対一の映像特性の限定的な考慮により、未解決の問題である。 本稿ではこの問題に対処することに焦点を当てる。 まず,ADL$_{small}$とGTEA-KITCHENの2つの小規模ビデオドメイン適応データセットを提案する。 第2に,チャネル間および時間的関係を捉えるために,チャネル時空間的注意ブロックを導入し,その相互依存度を一人称視覚に重要なものにモデル化する。 最後に,Channel-Temporal Attention Network (CTAN)を提案し,これらのブロックを既存のアーキテクチャに統合する。 CTANは2つの提案されたデータセットと既存のデータセットEPIC$_{cvpr20}$でベースラインを上回ります。

Unsupervised Domain Adaptation (UDA) can transfer knowledge from labeled source data to unlabeled target data of the same categories. However, UDA for first-person action recognition is an under-explored problem, with lack of datasets and limited consideration of first-person video characteristics. This paper focuses on addressing this problem. Firstly, we propose two small-scale first-person video domain adaptation datasets: ADL$_{small}$ and GTEA-KITCHEN. Secondly, we introduce channel-temporal attention blocks to capture the channel-wise and temporal-wise relationships and model their inter-dependencies important to first-person vision. Finally, we propose a Channel-Temporal Attention Network (CTAN) to integrate these blocks into existing architectures. CTAN outperforms baselines on the two proposed datasets and one existing dataset EPIC$_{cvpr20}$.
翻訳日:2021-08-20 11:08:47 公開日:2021-08-19
# 現実チェックによるディープラーニングモデルの解釈と改善

Interpreting and improving deep-learning models with reality checks ( http://arxiv.org/abs/2108.06847v2 )

ライセンス: Link先を確認
Chandan Singh, Wooseok Ha, and Bin Yu(参考訳) 最近のディープラーニングモデルは、多くの変数の複雑な関数を、しばしば解釈可能性の犠牲で学習することで、印象的な予測性能を達成した。 本章は、1つの予測のために特徴群と特徴群に重きを置くことによってモデルを解釈することを目的とした最近の研究を扱っている。 重要なことに、提案された属性は、分離された特徴に加えて、機能間の相互作用に重要である。 これらの属性は、バイオイメージング、宇宙画像、自然言語処理など、現実世界の領域にまたがる洞察をもたらす。 次に、これらの帰属がニューラルネットワークの一般化を直接改善したり、単純なモデルに組み込むのにどのように役立つかを示す。 本章全体を通して,提案する解釈手法を精査するための現実チェックの利用を強調する。

Recent deep-learning models have achieved impressive predictive performance by learning complex functions of many variables, often at the cost of interpretability. This chapter covers recent work aiming to interpret models by attributing importance to features and feature groups for a single prediction. Importantly, the proposed attributions assign importance to interactions between features, in addition to features in isolation. These attributions are shown to yield insights across real-world domains, including bio-imaging, cosmology image and natural-language processing. We then show how these attributions can be used to directly improve the generalization of a neural network or to distill it into a simple model. Throughout the chapter, we emphasize the use of reality checks to scrutinize the proposed interpretation techniques.
翻訳日:2021-08-20 11:08:33 公開日:2021-08-19
# 変圧器を用いた非対称バイラテラルu-netによる突発的物体検出

Boosting Salient Object Detection with Transformer-based Asymmetric Bilateral U-Net ( http://arxiv.org/abs/2108.07851v2 )

ライセンス: Link先を確認
Yu Qiu, Yun Liu, Le Zhang, Jing Xu(参考訳) 既存のSalient Object Detection (SOD) 法は主にCNNをベースとしたU字型構造に頼り、Salient Objectの配置とオブジェクトの精細化に不可欠なグローバルコンテキストと局所空間の詳細を組み合わせる。 成功にもかかわらず、グローバルコンテキストの学習におけるCNNの能力は限られている。 近年、ビジョントランスフォーマーは、グローバル依存の強力なモデリングのため、コンピュータビジョンの革命的な進歩を遂げている。 しかし、変換器をSODに直接適用することは、局所空間表現を学習する能力に欠けるため、最適ではない。 そこで本研究では,SODのグローバル表現とローカル表現の両方を学ぶために,トランスフォーマーとCNNの組み合わせについて検討する。 トランスベース非対称双方向u-net (abiu-net) を提案する。 非対称バイラテラルエンコーダはトランスパスと軽量cnnパスを有しており、2つのパスはそれぞれエンコーダステージで通信し、相補的な大域的文脈と局所的な空間的詳細を学習する。 非対称なバイラテラルデコーダはトランスフォーマーとcnnエンコーダパスから特徴を処理するための2つのパスで構成されており、それぞれのデコーダステージでは粗いサルエントオブジェクトの位置とファインドグレードオブジェクトの詳細をデコードする。 このような2つのエンコーダ/デコーダパス間の通信により、AbiU-NetはトランスフォーマーとCNNの自然特性を利用して補完的なグローバルおよびローカル表現を学習することができる。 したがって、ABiU-NetはトランスフォーマーベースのSODの新しい視点を提供する。 大規模な実験により、ABiU-Netは従来の最先端SOD法に対して好適に機能することが示された。 コードはリリースされます。

Existing salient object detection (SOD) methods mainly rely on CNN-based U-shaped structures with skip connections to combine the global contexts and local spatial details that are crucial for locating salient objects and refining object details, respectively. Despite great successes, the ability of CNN in learning global contexts is limited. Recently, the vision transformer has achieved revolutionary progress in computer vision owing to its powerful modeling of global dependencies. However, directly applying the transformer to SOD is suboptimal because the transformer lacks the ability to learn local spatial representations. To this end, this paper explores the combination of transformer and CNN to learn both global and local representations for SOD. We propose a transformer-based Asymmetric Bilateral U-Net (ABiU-Net). The asymmetric bilateral encoder has a transformer path and a lightweight CNN path, where the two paths communicate at each encoder stage to learn complementary global contexts and local spatial details, respectively. The asymmetric bilateral decoder also consists of two paths to process features from the transformer and CNN encoder paths, with communication at each decoder stage for decoding coarse salient object locations and find-grained object details, respectively. Such communication between the two encoder/decoder paths enables AbiU-Net to learn complementary global and local representations, taking advantage of the natural properties of transformer and CNN, respectively. Hence, ABiU-Net provides a new perspective for transformer-based SOD. Extensive experiments demonstrate that ABiU-Net performs favorably against previous state-of-the-art SOD methods. The code will be released.
翻訳日:2021-08-20 11:08:21 公開日:2021-08-19
# ポイントクラウド解析のための適応グラフ畳み込み

Adaptive Graph Convolution for Point Cloud Analysis ( http://arxiv.org/abs/2108.08035v2 )

ライセンス: Link先を確認
Haoran Zhou, Yidan Feng, Mingsheng Fang, Mingqiang Wei, Jing Qin, Tong Lu(参考訳) 2dグリッドのようなドメインから一般化した3dポイントクラウドの畳み込みは、完璧にはほど遠い。 標準畳み込みは、3Dポイント間で特徴対応を識別し、特徴学習が劣る固有の限界を示す。 本稿では,動的に学習される特徴に応じて点に対する適応カーネルを生成する適応グラフ畳み込み(adaptconv)を提案する。 固定/等方性カーネルを使用する場合と比較して、adaptconvはポイントクラウド畳み込みの柔軟性を改善し、異なる意味部分からポイント間の多様な関係を効果的かつ正確に捉える。 一般的な注意重みスキームとは異なり、AdaptConvは、隣接する点に異なる重みを割り当てるのではなく、畳み込み操作内で適応性を実装する。 大規模定性的および定量的評価により,本手法はいくつかのベンチマークデータセットにおいて,最先端のクラウド分類とセグメンテーションアプローチより優れていることが示された。 私たちのコードはhttps://github.com/h rzhou2/AdaptConv-mas terで利用可能です。

Convolution on 3D point clouds that generalized from 2D grid-like domains is widely researched yet far from perfect. The standard convolution characterises feature correspondences indistinguishably among 3D points, presenting an intrinsic limitation of poor distinctive feature learning. In this paper, we propose Adaptive Graph Convolution (AdaptConv) which generates adaptive kernels for points according to their dynamically learned features. Compared with using a fixed/isotropic kernel, AdaptConv improves the flexibility of point cloud convolutions, effectively and precisely capturing the diverse relations between points from different semantic parts. Unlike popular attentional weight schemes, the proposed AdaptConv implements the adaptiveness inside the convolution operation instead of simply assigning different weights to the neighboring points. Extensive qualitative and quantitative evaluations show that our method outperforms state-of-the-art point cloud classification and segmentation approaches on several benchmark datasets. Our code is available at https://github.com/h rzhou2/AdaptConv-mas ter.
翻訳日:2021-08-20 11:07:51 公開日:2021-08-19
# コラボレーションを学ぶ

Learning to Collaborate ( http://arxiv.org/abs/2108.07926v2 )

ライセンス: Link先を確認
Sen Cui, Jian Liang, Weishen Pan, Kun Chen, Changshui Zhang, Fei Wang(参考訳) 本稿では,複数のクライアントを用いた共同研究ネットワーク上での効果的な学習に着目する。 各クライアントには、プライバシ上の懸念から他のクライアントと共有されない、独自のサンプル人口がある。 目標は、ネットワーク内の他のクライアントとのセキュアなコラボレーションを通じて、自身のデータから学んだものよりもうまく動作する各クライアントのモデルを学ぶことだ。 異なるクライアントにまたがるサンプル分布の相違により、全員との共同作業が必ずしも最高のローカルモデルに繋がるとは限らない。 各クライアントがネットワーク内の特定のメンバとコラボレートして,ネットワーク内でより小さなコラボレーティブコラボレーティブを形成する"コラボレーティブ均衡"を実現するための,コラボレーティブフレームワークを提案する。 本稿では、各クライアントが他のクライアントと協調して得られる利益グラフを提案し、それを得るためにPareto最適化アプローチを開発する。 最後に、グラフ操作に基づいてコラボレーティブ・コラボレーティブを導出することができる。 私たちのフレームワークは、研究ネットワークにコラボレーションを設定する新しい方法を提供します。 提案手法の有効性を実証するために, 合成および実世界の両方のデータセットの実験を行った。

In this paper, we focus on effective learning over a collaborative research network involving multiple clients. Each client has its own sample population which may not be shared with other clients due to privacy concerns. The goal is to learn a model for each client, which behaves better than the one learned from its own data, through secure collaborations with other clients in the network. Due to the discrepancies of the sample distributions across different clients, it is not necessarily that collaborating with everyone will lead to the best local models. We propose a learning to collaborate framework, where each client can choose to collaborate with certain members in the network to achieve a "collaboration equilibrium", where smaller collaboration coalitions are formed within the network so that each client can obtain the model with the best utility. We propose the concept of benefit graph which describes how each client can benefit from collaborating with other clients and develop a Pareto optimization approach to obtain it. Finally the collaboration coalitions can be derived from it based on graph operations. Our framework provides a new way of setting up collaborations in a research network. Experiments on both synthetic and real world data sets are provided to demonstrate the effectiveness of our method.
翻訳日:2021-08-20 11:07:33 公開日:2021-08-19
# OACAL: 脆弱性のあるユーザオブジェクトからシステムを保護するためのモジュール一貫性仕様を見つける

OACAL: Finding Module-consistent Specifications to Secure Systems from Weakened User Obligations ( http://arxiv.org/abs/2108.08282v2 )

ライセンス: Link先を確認
Pengcheng Jiang and Kenji Tei(参考訳) UIを通じてシステムと対話するユーザは通常、特定の機能目標を達成するために、事前に決定された順序でアクションを実行する義務があります。 しかし、そのような義務はしばしばユーザーによって厳密に守られず、特にセキュリティクリティカルなシステムではセキュリティプロパティに違反する可能性がある。 予期せぬユーザの振る舞いを認識したセキュリティを改善するために、システムの仕様のアクションの順序を変更することで、より堅牢なシステムに再設計することができる。 一方,機能変更後に一貫性が保たれると予測している。 本稿では,ユーザ義務の弱化による攻撃シナリオに対処する仕様修正を自動生成する効率的なアルゴリズムを提案する。 本アルゴリズムでは, 新たな再構成手法を用いて, 機能性の整合性を維持するために, 全てのリビジョンを生成する。 すると、セキュリティ要件を満たすことができる適切なリビジョンは、モデルチェックと機械学習技術を組み合わせたハイブリッドアプローチによって効率よく発見される。 本アルゴリズムは,その性能を,望ましい修正のカバレッジと探索速度に関する最先端のアプローチと比較することで評価する。

Users interacting with a system through UI are typically obliged to perform their actions in a pre-determined order, to successfully achieve certain functional goals. However, such obligations are often not followed strictly by users, which may lead to the violation to security properties, especially in security-critical systems. To improve the security with the awareness of unexpected user behaviors, a system can be redesigned to a more robust one by changing the order of actions in its specification. Meanwhile, we anticipate that the functionalities would remain consistent following the modifications. In this paper, we propose an efficient algorithm to automatically produce specification revisions tackling the attack scenarios caused by weakened user obligations. By our algorithm, all the revisions would be generated to maintain the integrity of the functionalities using a novel recomposition approach. Then, the eligible revisions that can satisfy the security requirements would be efficiently spotted by a hybrid approach combining model checking and machine learning techniques. We evaluate our algorithm by comparing its performance with a state-of-the-art approach regarding their coverage and searching speed of the desirable revisions.
翻訳日:2021-08-20 11:07:15 公開日:2021-08-19
# WiseR:因果グラフモデルのためのエンドツーエンド構造学習とデプロイメントフレームワーク

WiseR: An end-to-end structure learning and deployment framework for causal graphical models ( http://arxiv.org/abs/2108.07046v2 )

ライセンス: Link先を確認
Shubham Maheshwari, Khushbu Pahwa, Tavpritesh Sethi(参考訳) 構造学習は、複雑な生物学的データの因果的および機械的モデリングに対する表現的で多目的で説明可能なアプローチを提供する。 我々は,グラフニューラルネットワークとベイズネットワークを用いた堅牢な因果グラフモデルを学習,評価,展開するためのオープンソースアプリケーションwiseRを提案する。 新型コロナウイルスの臨床データセットにおけるバイオマーカー発見への応用を通じて,本アプリケーションの有用性を実証する。

Structure learning offers an expressive, versatile and explainable approach to causal and mechanistic modeling of complex biological data. We present wiseR, an open source application for learning, evaluating and deploying robust causal graphical models using graph neural networks and Bayesian networks. We demonstrate the utility of this application through application on for biomarker discovery in a COVID-19 clinical dataset.
翻訳日:2021-08-20 11:07:01 公開日:2021-08-19