このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210811となっている論文です。

PDF登録状況(公開日: 20210811)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) leapモーションコントローラによる手の衛生的ジェスチャー追跡 [全文訳有]

Tracking Hand Hygiene Gestures with Leap Motion Controller ( http://arxiv.org/abs/2109.00884v1 )

ライセンス: CC BY 4.0
Rashmi Bakshi, Jane Courtney, Damon Berry, Graham Gavin(参考訳) whoによると、手洗いのプロセスは、2つの手振りのダイナミックなジェスチャーを明確に定義した段階に分けられる。 本稿では,手洗いの専門家の映像をセグメント化して分析し,その特徴を抽出する。 これらの特徴をソフトウェアでさらに処理することで、特定の手の動きを分類し、ユーザが完了したかどうかを判断し、洗浄の質を評価することができる。 重要な特徴を特定した3dジェスチャートラッカーであるleap motion controller(leap)は、これらのステージに関連する手の特徴を追跡および検出するために使用された。 逐次プログラミングとしきい値の助けを借りて、手の特徴を組み合わせることで、WHOステージ2(Rub Hand Palm to Palm)の開始と完了を検知した。 LEAPは、片手ジェスチャーと2つの手を別々に追跡するための正確な生の位置情報を提供するが、手が接触したときは閉塞に悩まされる。 手動衛生以外に、ここで示すアプローチは、身近なジェスチャー分析を必要とする他のバイオメディカル応用にも適用できる。

The process of hand washing, according to the WHO, is divided into stages with clearly defined two handed dynamic gestures. In this paper, videos of hand washing experts are segmented and analyzed with the goal of extracting their corresponding features. These features can be further processed in software to classify particular hand movements, determine whether the stages have been successfully completed by the user and also assess the quality of washing. Having identified the important features, a 3D gesture tracker, the Leap Motion Controller (LEAP), was used to track and detect the hand features associated with these stages. With the help of sequential programming and threshold values, the hand features were combined together to detect the initiation and completion of a sample WHO Stage 2 (Rub hands Palm to Palm). The LEAP provides accurate raw positional data for tracking single hand gestures and two hands in separation but suffers from occlusion when hands are in contact. Other than hand hygiene the approaches shown here can be applied in other biomedical applications requiring close hand gesture analysis.
翻訳日:2021-09-05 13:26:07 公開日:2021-08-11
# (参考訳) 新型コロナウイルスの世界的な対応における自然言語処理の包括的利用の確保 [全文訳有]

Ensuring the Inclusive Use of Natural Language Processing in the Global Response to COVID-19 ( http://arxiv.org/abs/2108.10791v1 )

ライセンス: CC BY 4.0
Alexandra Sasha Luccioni, Katherine Hoffmann Pham, Cynthia Sin Nga Lam, Joseph Aylett-Bullock, Miguel Luengo-Oroz(参考訳) 自然言語処理(NLP)は、ソーシャルメディア上の誤情報の検出から正確な臨床情報の提供、科学的研究の要約まで、新型コロナウイルスのパンデミック対応のためのツールにおいて重要な役割を果たす。 しかし、これまでに開発されたアプローチは全ての人口、地域、言語に等しく利益を与えていない。 我々は、代替モダリティ、アウト・オブ・ザ・ボックスツールの活用、有意義なパートナーシップ形成など、低リソース言語をカバーし、現在および将来のNLPアプローチをより包括的に行う方法について議論する。 我々は,NLPの正の社会的影響を最大化することに関心のある研究者のために,いくつかの今後の方向性を提案する。

Natural language processing (NLP) plays a significant role in tools for the COVID-19 pandemic response, from detecting misinformation on social media to helping to provide accurate clinical information or summarizing scientific research. However, the approaches developed thus far have not benefited all populations, regions or languages equally. We discuss ways in which current and future NLP approaches can be made more inclusive by covering low-resource languages, including alternative modalities, leveraging out-of-the-box tools and forming meaningful partnerships. We suggest several future directions for researchers interested in maximizing the positive societal impacts of NLP.
翻訳日:2021-08-29 15:21:24 公開日:2021-08-11
# 有効かつプライバシーを保った表型データ合成

Effective and Privacy preserving Tabular Data Synthesizing ( http://arxiv.org/abs/2108.10064v1 )

ライセンス: Link先を確認
Aditya Kunar(参考訳) データ共有は知識開発において不可欠であるが、プライバシー問題や厳格な規制(例えば、欧州一般データ保護規則(GDPR))は残念ながらその完全な有効性を制限している。 合成表データは、規制とプライバシーの制約を満たしながらデータ共有を可能にする代替手段として出現する。 最先端の表形式データシンセサイザーは、GAN(Generative Adversarial Networks)から方法論を描画する。 本稿では,複雑な分布を持つ多様なデータ型を効果的にモデル化できる条件付きテーブルGANアーキテクチャであるCTAB-GANを開発する。 CTAB-GANは、データ類似性と分析ユーティリティの観点から、合成テーブルを生成するアートGANの状態を広範囲に評価する。 5つのデータセットの結果は、CTAB-GANの合成データが3種類の変数の実際のデータと著しく似ており、5つの機械学習アルゴリズムの精度が最大17%向上していることを示している。 さらに,悪意のあるプライバシ攻撃に対するテーブル型ganのトレーニングに関するセキュリティ向上を確保するために,差分プライバシー(dp)を研究し,厳格なプライバシ保証によるctab-ganのトレーニングに使用する。 DP-CTAB-GANは、データユーティリティと、メンバーシップや属性推論攻撃に対するプライバシーの堅牢性の観点から、最先端のDP-tabular GANを用いて厳格に評価されている。 3つのデータセットの結果から、厳密な理論上の差分プライバシー保証は、データユーティリティに深刻な影響を及ぼした後にのみ得られることが示された。 しかし、これらの保証がプライバシー攻撃に対するより強力な防御に役立つことを実証的に示している。 総じて,dp-ctabganは,プライバシ攻撃に対して頑健でありながら,従来よりも高いデータユーティリティを維持しつつ,平均精度スコアで最大18%の信頼性を有することがわかった。

While data sharing is crucial for knowledge development, privacy concerns and strict regulation (e.g., European General Data Protection Regulation (GDPR)) unfortunately limits its full effectiveness. Synthetic tabular data emerges as an alternative to enable data sharing while fulfilling regulatory and privacy constraints. The state-of-the-art tabular data synthesizers draw methodologies from Generative Adversarial Networks (GAN). In this thesis, we develop CTAB-GAN, a novel conditional table GAN architecture that can effectively model diverse data types with complex distributions. CTAB-GAN is extensively evaluated with the state of the art GANs that generate synthetic tables, in terms of data similarity and analysis utility. The results on five datasets show that the synthetic data of CTAB-GAN remarkably resembles the real data for all three types of variables and results in higher accuracy for five machine learning algorithms, by up to 17%. Additionally, to ensure greater security for training tabular GANs against malicious privacy attacks, differential privacy (DP) is studied and used to train CTAB-GAN with strict privacy guarantees. DP-CTAB-GAN is rigorously evaluated using state-of-the-art DP-tabular GANs in terms of data utility and privacy robustness against membership and attribute inference attacks. Our results on three datasets indicate that strict theoretical differential privacy guarantees come only after severely affecting data utility. However, it is shown empirically that these guarantees help provide a stronger defence against privacy attacks. Overall, it is found that DP-CTABGAN is capable of being robust to privacy attacks while maintaining the highest data utility as compared to prior work, by up to 18% in terms of the average precision score.
翻訳日:2021-08-29 12:10:35 公開日:2021-08-11
# it2cfnn : 非線形関数近似のための不確かで適応的な形状を持つ非分離ファジィルールを構成する区間型2相関認識ファジィニューラルネットワーク

IT2CFNN: An Interval Type-2 Correlation-Aware Fuzzy Neural Network to Construct Non-Separable Fuzzy Rules with Uncertain and Adaptive Shapes for Nonlinear Function Approximation ( http://arxiv.org/abs/2108.08704v1 )

ライセンス: Link先を確認
Armin Salimi-Badr(参考訳) 本稿では,適応形状を持つ非分離ファジィルールを構築可能な新しい区間型2ファジィニューラルネットワークを提案する。 不確実性を反映して、ファジィ集合の形状は不確かであると考えられる。 そこで, 異なる形状(三角形, ベル形状, 台形を含む)を構築可能な一般ガウスモデルに基づく区間型2ファジィ集合の新たな形式を提案する。 入力変数間の相互作用を考慮するため、入力ベクトルはファジィ規則の定義に適さない非相関変数を持つ新しい特徴空間に変換される。 次に, 適応形状の間隔型2ファジィ集合を用いて, ファジィ層に新たな特徴を供給した。 その結果,変数の局所的相互作用と不確実性を考慮した区間型2非分離ファジィ規則が形成される。 タイプ低減のために、各ファジィルールの上下の発射強度の寄与を別々に選択する。 ネットワークの異なるパラメータを学習するために、Levanz-Marquadt最適化法を用いる。 提案手法の性能をクリーンでノイズの多いデータセットを用いて検討し,不確実性を考慮する能力を示す。 さらに,提案手法は実世界の時系列予測,回帰問題,非線形システム同定に適用可能である。 実験結果によると,提案モデルの性能は,より類似的な構造を持つ他の手法よりも優れていた。

In this paper, a new interval type-2 fuzzy neural network able to construct non-separable fuzzy rules with adaptive shapes is introduced. To reflect the uncertainty, the shape of fuzzy sets considered to be uncertain. Therefore, a new form of interval type-2 fuzzy sets based on a general Gaussian model able to construct different shapes (including triangular, bell-shaped, trapezoidal) is proposed. To consider the interactions among input variables, input vectors are transformed to new feature spaces with uncorrelated variables proper for defining each fuzzy rule. Next, the new features are fed to a fuzzification layer using proposed interval type-2 fuzzy sets with adaptive shape. Consequently, interval type-2 non-separable fuzzy rules with proper shapes, considering the local interactions of variables and the uncertainty are formed. For type reduction the contribution of the upper and lower firing strengths of each fuzzy rule are adaptively selected separately. To train different parameters of the network, the Levenberg-Marquadt optimization method is utilized. The performance of the proposed method is investigated on clean and noisy datasets to show the ability to consider the uncertainty. Moreover, the proposed paradigm, is successfully applied to real-world time-series predictions, regression problems, and nonlinear system identification. According to the experimental results, the performance of our proposed model outperforms other methods with a more parsimonious structure.
翻訳日:2021-08-22 14:43:04 公開日:2021-08-11
# ランダムプロジェクションによる分類の漸近最適性と最小複雑さ

Asymptotic optimality and minimal complexity of classification by random projection ( http://arxiv.org/abs/2108.06339v1 )

ライセンス: Link先を確認
Mireille Boutin, Evzenie Coupkova(参考訳) 分類器の一般化誤差は、分類器が選択される関数の集合の複雑さに関連している。 大まかに言えば、ファミリーが複雑になればなるほど、訓練誤差と分類器の集団誤差の間の潜在的な格差が大きくなる。 この原理は、オッカムのカミソリの原理によってレイマンの言葉に具現化されており、これは複雑なものよりも低複素性仮説を支持することを示唆している。 そこで本研究では,kまでのオーダー単体でパラメータ化された高次元空間にデータを埋め込んだ後に,ランダム線上に投影した1次元特徴をしきい値にすることで得られる1次元特徴を1次元特徴量に閾値付けした低複雑さ分類器群について検討する。 これらの低複素分類器の一般化誤差の限界を求める。 境界は自明なVC次元を持つ任意の分類器よりも小さく、したがって線型分類器よりも小さい。 また、クラス条件密度の完全な知識が与えられた場合、分類器の誤差は最適(ベイズ)誤差に収束し、k と n が無限大に進むと、訓練データセットのみが与えられると、分類器はすべての訓練点を k と n が無限大に進むと完全に分類することを示した。

The generalization error of a classifier is related to the complexity of the set of functions among which the classifier is chosen. Roughly speaking, the more complex the family, the greater the potential disparity between the training error and the population error of the classifier. This principle is embodied in layman's terms by Occam's razor principle, which suggests favoring low-complexity hypotheses over complex ones. We study a family of low-complexity classifiers consisting of thresholding the one-dimensional feature obtained by projecting the data on a random line after embedding it into a higher dimensional space parametrized by monomials of order up to k. More specifically, the extended data is projected n-times and the best classifier among those n (based on its performance on training data) is chosen. We obtain a bound on the generalization error of these low-complexity classifiers. The bound is less than that of any classifier with a non-trivial VC dimension, and thus less than that of a linear classifier. We also show that, given full knowledge of the class conditional densities, the error of the classifiers would converge to the optimal (Bayes) error as k and n go to infinity; if only a training dataset is given, we show that the classifiers will perfectly classify all the training points as k and n go to infinity.
翻訳日:2021-08-22 14:42:18 公開日:2021-08-11
# 結晶構造の連続等長不変量による格子エネルギーの高速予測

Fast predictions of lattice energies by continuous isometry invariants of crystal structures ( http://arxiv.org/abs/2108.07233v1 )

ライセンス: Link先を確認
Jakob Ropers, Marco M Mosca, Olga Anosova, Vitaliy Kurlin, Andrew I Cooper(参考訳) 結晶構造予測(csp)は、原子、イオンまたは分子の周期配置を最適化することで、固体結晶材料を発見することを目的としている。 CSPは、数百万のシミュレーション結晶のエネルギー最小化が遅いため、スーパーコンピュータ時間に数週間かかる。 格子エネルギーは、結晶の熱力学的安定性を決定するが、単純な解析式を持たない重要な物理的性質である。 過去の機械学習アプローチは、手動で選択したパラメータに依存する低速結晶ディスクリプタを用いた格子エネルギーを予測する。 周期幾何学の新しい領域は、原子の摂動の下で連続であるより高速な等尺不変量を提供する。 シミュレーション結晶実験により,新しい不変量間の距離が小さいほどエネルギーの差が小さいことが確認された。 5679結晶のデータセット上で,エネルギーの不変性に基づく予測のためのいくつかのカーネル法を比較し,平均絶対誤差が5kJ/mole以下か0.05eV/atom以下であることを示す。

Crystal Structure Prediction (CSP) aims to discover solid crystalline materials by optimizing periodic arrangements of atoms, ions or molecules. CSP takes weeks of supercomputer time because of slow energy minimizations for millions of simulated crystals. The lattice energy is a key physical property, which determines thermodynamic stability of a crystal but has no simple analytic expression. Past machine learning approaches to predict the lattice energy used slow crystal descriptors depending on manually chosen parameters. The new area of Periodic Geometry offers much faster isometry invariants that are also continuous under perturbations of atoms. Our experiments on simulated crystals confirm that a small distance between the new invariants guarantees a small difference of energies. We compare several kernel methods for invariant-based predictions of energy and achieve the mean absolute error of less than 5kJ/mole or 0.05eV/atom on a dataset of 5679 crystals.
翻訳日:2021-08-22 14:40:45 公開日:2021-08-11
# 公正なメトリクスを越えて - 実践における倫理的AIの障害と課題

Beyond Fairness Metrics: Roadblocks and Challenges for Ethical AI in Practice ( http://arxiv.org/abs/2108.06217v1 )

ライセンス: Link先を確認
Jiahao Chen and Victor Storchan and Eren Kurshan(参考訳) 我々は,現代産業・社会利用の規模で倫理的AIを構築し,展開する上での実践的課題を概観する。 学術研究の通常の焦点である純粋に技術的な懸念は別として、一貫性のない規制圧力、矛盾するビジネス目標、データ品質の問題、開発プロセス、システム統合プラクティス、デプロイメントの規模といった運用上の課題は、すべて新しい倫理的リスクを生み出すためのものです。 これらの実践的考察から生じる倫理的懸念は、既存の研究結果によって適切に対処されていない。 我々は、AIシステムの開発と展開における倫理に関する総合的な考察が、実践的な倫理的AIの構築に必要であり、倫理的リスクを評価する際に、AIシステムの完全な運用状況を考えることを研究者に奨励する。

We review practical challenges in building and deploying ethical AI at the scale of contemporary industrial and societal uses. Apart from the purely technical concerns that are the usual focus of academic research, the operational challenges of inconsistent regulatory pressures, conflicting business goals, data quality issues, development processes, systems integration practices, and the scale of deployment all conspire to create new ethical risks. Such ethical concerns arising from these practical considerations are not adequately addressed by existing research results. We argue that a holistic consideration of ethics in the development and deployment of AI systems is necessary for building ethical AI in practice, and exhort researchers to consider the full operational contexts of AI systems when assessing ethical risks.
翻訳日:2021-08-16 13:11:03 公開日:2021-08-11
# (参考訳) AASeg: リアルタイムセマンティックセグメンテーションのための注意意識ネットワーク [全文訳有]

AASeg: Attention Aware Network for Real Time Semantic Segmentation ( http://arxiv.org/abs/2108.04349v2 )

ライセンス: CC BY 4.0
Abhinav Sagar(参考訳) 本稿では,AASeg (Attention Aware Network) という,リアルタイムなセマンティックイメージセグメンテーションのためのネットワークを提案する。 本ネットワークは,空間意図 (SA) とチャネル意図 (CA) モジュールを用いて,それぞれ空間情報とチャネル情報を含む。 また、マルチスケールコンテキスト(MSC)モジュールを使用して、密集したローカルなマルチスケールコンテキスト情報を使用する。 特徴マップは個別に連結され、最終的なセグメンテーションマップを生成する。 本手法は都市景観, ade20k, camvidデータセットを用いた包括的解析, 定量的実験, およびアブレーション実験を用いて有効性を示す。 私たちのネットワークは、Cityscapesのテストデータセット上で74.4\%の平均IOUを202.7 FPSで実行しながら、従来のアーキテクチャよりも優れたパフォーマンスを実現しています。

In this paper, we present a new network named Attention Aware Network (AASeg) for real time semantic image segmentation. Our network incorporates spatial and channel information using Spatial Attention (SA) and Channel Attention (CA) modules respectively. It also uses dense local multi-scale context information using Multi Scale Context (MSC) module. The feature maps are concatenated individually to produce the final segmentation map. We demonstrate the effectiveness of our method using a comprehensive analysis, quantitative experimental results and ablation study using Cityscapes, ADE20K and Camvid datasets. Our network performs better than most previous architectures with a 74.4\% Mean IOU on Cityscapes test dataset while running at 202.7 FPS.
翻訳日:2021-08-15 14:48:07 公開日:2021-08-11
# (参考訳) 非対称分類誤差による相関クラスタリング [全文訳有]

Correlation Clustering with Asymmetric Classification Errors ( http://arxiv.org/abs/2108.05696v1 )

ライセンス: CC BY 4.0
Jafar Jafarov, Sanchit Kalhan, Konstantin Makarychev and Yury Makarychev(参考訳) 相関クラスタリング問題では、二項分類器によって「類似」あるいは「類似」とラベルされたエッジを持つ重み付きグラフ$G$が与えられる。 目的は、クラスタ間の「類似」エッジの重みとクラスタ内の「類似」エッジの重みの和である「異」エッジの重みを最小化するクラスタリングを作ることである。 すべての "similar" edge $e$ has weight $\mathbf{w}_e\in[\alpha \mathbf{w}, \mathbf{w}]$ およびすべての "dissimilar" edge $e$ has weight $\mathbf{w}_e\geq \alpha \mathbf{w}$ (ここで $\alpha\leq 1$ と $\mathbf{w}>0$ はスケーリングパラメータである)。 この問題に対して$(3 + 2 \log_e (1/\alpha))$近似アルゴリズムを与える。 この仮定は、分類誤差が非対称である場合のシナリオをうまく捉えている。 さらに、漸近的に一致する線形計画積分性ギャップ $\omega(\log 1/\alpha)$ を示す。

In the Correlation Clustering problem, we are given a weighted graph $G$ with its edges labeled as "similar" or "dissimilar" by a binary classifier. The goal is to produce a clustering that minimizes the weight of "disagreements": the sum of the weights of "similar" edges across clusters and "dissimilar" edges within clusters. We study the correlation clustering problem under the following assumption: Every "similar" edge $e$ has weight $\mathbf{w}_e\in[\alpha \mathbf{w}, \mathbf{w}]$ and every "dissimilar" edge $e$ has weight $\mathbf{w}_e\geq \alpha \mathbf{w}$ (where $\alpha\leq 1$ and $\mathbf{w}>0$ is a scaling parameter). We give a $(3 + 2 \log_e (1/\alpha))$ approximation algorithm for this problem. This assumption captures well the scenario when classification errors are asymmetric. Additionally, we show an asymptotically matching Linear Programming integrality gap of $\Omega(\log 1/\alpha)$.
翻訳日:2021-08-14 05:24:07 公開日:2021-08-11
# (参考訳) 非対称分類誤差による局所相関クラスタリング [全文訳有]

Local Correlation Clustering with Asymmetric Classification Errors ( http://arxiv.org/abs/2108.05697v1 )

ライセンス: CC BY 4.0
Jafar Jafarov, Sanchit Kalhan, Konstantin Makarychev and Yury Makarychev(参考訳) 相関クラスタリング問題では、雑音二項分類器によって「類似」および「類似」とラベルされたエッジを持つ完全重み付きグラフ$G$が与えられる。 グラフ $G$ のクラスタリング $\mathcal{C}$ の場合、類似のエッジは $\mathcal{C}$ と、そのエンドポイントが別のクラスタに属している場合、類似のエッジは $\mathcal{C}$ と、そのエンドポイントが同じクラスタに属している場合は $\mathcal{C}$ と一致しない。 不一致ベクトル $\text{dis}$ は、$g$ の頂点によってインデックス化されたベクトルであり、$v$-th 座標 $\text{dis}_v$ は、$v$ 上の不一致エッジインシデント全体の重みと等しい。 目標は、$p\geq 1$に対する不一致ベクトルの$\ell_p$ノルムを最小化するクラスタリングを作成することである。 すべての類似エッジは$[\alpha\mathbf{w},\mathbf{w}]$の範囲で重みを持ち、すべての類似エッジは少なくとも$\alpha\mathbf{w}$である(ここで$\alpha \leq 1$と$\mathbf{w}>0$はスケーリングパラメータである)。 我々はこの問題に対して$O\left((\frac{1}{\alpha})^{\frac{1}{2}-\frac{1}{2p}}\cdot \log\frac{1}{\alpha}\right)$近似アルゴリズムを与える。 さらに、ほぼ一致する凸プログラミングの積分性ギャップを示す。

In the Correlation Clustering problem, we are given a complete weighted graph $G$ with its edges labeled as "similar" and "dissimilar" by a noisy binary classifier. For a clustering $\mathcal{C}$ of graph $G$, a similar edge is in disagreement with $\mathcal{C}$, if its endpoints belong to distinct clusters; and a dissimilar edge is in disagreement with $\mathcal{C}$ if its endpoints belong to the same cluster. The disagreements vector, $\text{dis}$, is a vector indexed by the vertices of $G$ such that the $v$-th coordinate $\text{dis}_v$ equals the weight of all disagreeing edges incident on $v$. The goal is to produce a clustering that minimizes the $\ell_p$ norm of the disagreements vector for $p\geq 1$. We study the $\ell_p$ objective in Correlation Clustering under the following assumption: Every similar edge has weight in the range of $[\alpha\mathbf{w},\mathbf{w}]$ and every dissimilar edge has weight at least $\alpha\mathbf{w}$ (where $\alpha \leq 1$ and $\mathbf{w}>0$ is a scaling parameter). We give an $O\left((\frac{1}{\alpha})^{\frac{1}{2}-\frac{1}{2p}}\cdot \log\frac{1}{\alpha}\right)$ approximation algorithm for this problem. Furthermore, we show an almost matching convex programming integrality gap.
翻訳日:2021-08-14 04:57:35 公開日:2021-08-11
# (参考訳) スキル選好:人間のフィードバックからロボットスキルを抽出・抽出する学習 [全文訳有]

Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback ( http://arxiv.org/abs/2108.05382v1 )

ライセンス: CC BY 4.0
Xiaofei Wang, Kimin Lee, Kourosh Hakhamaneshi, Pieter Abbeel, Michael Laskin(参考訳) 長期的タスクの課題を解決するための有望なアプローチは、生成モデルを大規模なオフラインデータセットに適合させることで、振る舞いの優先順位(スキル)を抽出することである。 しかし、そのような生成モデルは、基礎となるデータのバイアスを継承し、不完全なデモンストレーションデータでトレーニングされた場合、不十分で使用不能なスキルをもたらす。 人間の好みよりもモデルを学習し、オフラインデータから人間に合わせたスキルを抽出するアルゴリズムであるスキル・プレファレンス(skip)を提案する。 人間の好みのスキルを抽出した後、SkiPは人間のフィードバックを使ってRLで下流タスクを解決する。 本研究では,SkiPにより,複雑なマルチステップ操作タスクをシミュレートしたキッチンロボットが実現し,従来のRLアルゴリズムよりも人間の好みを優先するだけでなく,人間の好みを伴わないスキル抽出アルゴリズムも大幅に向上することを示す。

A promising approach to solving challenging long-horizon tasks has been to extract behavior priors (skills) by fitting generative models to large offline datasets of demonstrations. However, such generative models inherit the biases of the underlying data and result in poor and unusable skills when trained on imperfect demonstration data. To better align skill extraction with human intent we present Skill Preferences (SkiP), an algorithm that learns a model over human preferences and uses it to extract human-aligned skills from offline data. After extracting human-preferred skills, SkiP also utilizes human feedback to solve down-stream tasks with RL. We show that SkiP enables a simulated kitchen robot to solve complex multi-step manipulation tasks and substantially outperforms prior leading RL algorithms with human preferences as well as leading skill extraction algorithms without human preferences.
翻訳日:2021-08-14 04:26:27 公開日:2021-08-11
# (参考訳) wikidataにおける類似性アルゴリズムのユーザフレンドリー比較 [全文訳有]

User-friendly Comparison of Similarity Algorithms on Wikidata ( http://arxiv.org/abs/2108.05410v1 )

ライセンス: CC BY 4.0
Filip Ilievski and Pedro Szekely and Gleb Satyukov and Amandeep Singh(参考訳) 2つの概念語間の類似性は何十年も評価され研究されてきたが、wikidataのような非常に大きな知識グラフでノードの類似性を計算できるアルゴリズムにはあまり注目されていない。 Wikidataにおける類似性アルゴリズムの直接比較や調査を容易にするために,ユーザフレンドリなインタフェースを提案する。 現在、類似性インタフェースは、グラフ埋め込み(TransE、ComplEx)、テキスト埋め込み(BERT)、クラスベースの類似性という4つのアルゴリズムをサポートしている。 本研究では,意味的類似性,関連性,および全く関係のないエンティティ対に関する代表例について,アルゴリズムの挙動を実証する。 エンティティリンクやレコメンデーションなど、効率的な類似性計算を必要とする予測アプリケーションをサポートするために、wikidata内の任意のqnodeに対して、最も類似した近傍を計算できるrest apiも提供します。

While the similarity between two concept words has been evaluated and studied for decades, much less attention has been devoted to algorithms that can compute the similarity of nodes in very large knowledge graphs, like Wikidata. To facilitate investigations and head-to-head comparisons of similarity algorithms on Wikidata, we present a user-friendly interface that allows flexible computation of similarity between Qnodes in Wikidata. At present, the similarity interface supports four algorithms, based on: graph embeddings (TransE, ComplEx), text embeddings (BERT), and class-based similarity. We demonstrate the behavior of the algorithms on representative examples about semantically similar, related, and entirely unrelated entity pairs. To support anticipated applications that require efficient similarity computations, like entity linking and recommendation, we also provide a REST API that can compute most similar neighbors for any Qnode in Wikidata.
翻訳日:2021-08-14 04:13:15 公開日:2021-08-11
# (参考訳) ウィキデータにおける人種と市民権国の分析 [全文訳有]

Analyzing Race and Country of Citizenship Bias in Wikidata ( http://arxiv.org/abs/2108.05412v1 )

ライセンス: CC BY 4.0
Zaina Shaik, Filip Ilievski, Fred Morstatter(参考訳) ユーザやボットが作成したオープンで協調的な知識グラフとして、Wikidataの知識は、性別、人種、市民権の国といった複数の要因に偏っている可能性がある。 これまでの研究は、Wikidataの知識の表現性を人々の性別の観点から研究してきた。 本稿では,科学者,ソフトウェア開発者,技術者を対象としたSTEM表現に関して,一般の人種と市民権のバイアスについて検討する。 Wikidataクエリを実世界のデータセットと比較することにより、表現の違いを特定し、Wikidataに存在するバイアスを特徴付ける。 この分析により、ヨーロッパと北アメリカに白人と市民権を持つ人々の過剰な表現があることが判明した。 これらの結果から,マイノリティのSTEM科学者に関するWikidataの追加データを発見し,関連づけた。 このデータは、ボットでWikidataに挿入される準備ができている。 少数民族や市民権団体の表現の増大は、STEMにおける個人をより正確に表現することができる。

As an open and collaborative knowledge graph created by users and bots, it is possible that the knowledge in Wikidata is biased in regards to multiple factors such as gender, race, and country of citizenship. Previous work has mostly studied the representativeness of Wikidata knowledge in terms of genders of people. In this paper, we examine the race and citizenship bias in general and in regards to STEM representation for scientists, software developers, and engineers. By comparing Wikidata queries to real-world datasets, we identify the differences in representation to characterize the biases present in Wikidata. Through this analysis, we discovered that there is an overrepresentation of white individuals and those with citizenship in Europe and North America; the rest of the groups are generally underrepresented. Based on these findings, we have found and linked to Wikidata additional data about STEM scientists from the minorities. This data is ready to be inserted into Wikidata with a bot. Increasing representation of minority race and country of citizenship groups can create a more accurate portrayal of individuals in STEM.
翻訳日:2021-08-14 04:06:58 公開日:2021-08-11
# (参考訳) NoFake at CheckThat! 2021年BERTによるフェイクニュース検出 [全文訳有]

NoFake at CheckThat! 2021: Fake News Detection Using BERT ( http://arxiv.org/abs/2108.05419v1 )

ライセンス: CC BY 4.0
Sushma Kumari(参考訳) 偽ニュースを暴露し分析するために多くの研究がなされている。 昨年、多くの研究者が偽ニュースの検出を研究したが、その多くはソーシャルメディアデータに限られている。 現在、multiples fact-checkersは結果をさまざまな形式で公開しています。 また、複数のファクトチェッカーは偽ニュースに対して異なるラベルを使用するため、一般化可能な分類器を作るのが困難である。 マージクラスにより、マシンモデルのパフォーマンスが向上する。 このドメインの分類は記事をグループ化するのに役立ち、クレームの検証を手作業で割り当てるのに役立ちます。 本稿では,領域と分類を予測するため,BERTに基づく分類モデルを提案する。 ファクトチェックされた記事の追加データも使用しています。 追加のトレーニングデータを用いて,タスク3aで83.76 %,タスク3bで85.55 %のマクロf1スコアを達成した。

Much research has been done for debunking and analysing fake news. Many researchers study fake news detection in the last year, but many are limited to social media data. Currently, multiples fact-checkers are publishing their results in various formats. Also, multiple fact-checkers use different labels for the fake news, making it difficult to make a generalisable classifier. With the merge classes, the performance of the machine model can be enhanced. This domain categorisation will help group the article, which will help save the manual effort in assigning the claim verification. In this paper, we have presented BERT based classification model to predict the domain and classification. We have also used additional data from fact-checked articles. We have achieved a macro F1 score of 83.76 % for Task 3Aand 85.55 % for Task 3B using the additional training data.
翻訳日:2021-08-14 04:01:04 公開日:2021-08-11
# (参考訳) 回答セットと認識論理プログラミングを用いたSTRIPSの動作可逆性決定 [全文訳有]

Determining ActionReversibility in STRIPS Using Answer Set and Epistemic Logic Programming ( http://arxiv.org/abs/2108.05428v1 )

ライセンス: CC BY-SA 4.0
Wolfgang Faber, Michael Morak, and Luk\'a\v{s} Chrpa(参考訳) 行動と変化に関する計画と推論の文脈では、他のアクションを適用して元の状態に戻ることで、その効果が逆転できる場合、アクションを可逆的に呼びます。 この領域に対する関心は、計画タスクの記述に広く使われているPDDL言語の文脈において、いくつかの結果をもたらしている。 本稿では,動作の可逆性を決定する計算問題に対するいくつかの解を提案する。 特に、pddlからの既存の変換を利用して集合プログラミング(asp)に答え、pddlのストリップフラグメントに対するアクション可逆性の問題に取り組むためにいくつかの異なるエンコーディングを使用する。 これらのために、私たちはaspと、aspと認識演算子の拡張である認識論理プログラミング(elp)を使い、それらの長所と短所を比較して比較します。 TPLPの受容についての検討

In the context of planning and reasoning about actions and change, we call an action reversible when its effects can be reverted by applying other actions, returning to the original state. Renewed interest in this area has led to several results in the context of the PDDL language, widely used for describing planning tasks. In this paper, we propose several solutions to the computational problem of deciding the reversibility of an action. In particular, we leverage an existing translation from PDDL to Answer Set Programming (ASP), and then use several different encodings to tackle the problem of action reversibility for the STRIPS fragment of PDDL. For these, we use ASP, as well as Epistemic Logic Programming (ELP), an extension of ASP with epistemic operators, and compare and contrast their strengths and weaknesses. Under consideration for acceptance in TPLP.
翻訳日:2021-08-14 03:55:14 公開日:2021-08-11
# (参考訳) クロスサンプル相互情報最小化によるバイアス不変表現の学習 [全文訳有]

Learning Bias-Invariant Representation by Cross-Sample Mutual Information Minimization ( http://arxiv.org/abs/2108.05449v1 )

ライセンス: CC BY 4.0
Wei Zhu, Haitian Zheng, Haofu Liao, Weijian Li, Jiebo Luo(参考訳) ディープラーニングアルゴリズムはトレーニングデータから知識を抽出するので、データセットのバイアス情報を継承する可能性が高い。 結果として、得られたモデルは一般化が悪く、現実の応用において決定過程を誤解させる結果となった。 本稿では,対象タスクが誤用するバイアス情報を,CSAD法を用いて除去することを提案する。 CSADは、特徴抽出器が生み出す潜在表現から切り離されたターゲット特徴とバイアス特徴を明示的に抽出し、ターゲット特徴とバイアス特徴の相関関係を発見して除去する。 相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。 さらに,協調コンテンツと局所構造表現学習を提案し,相互情報量の推定と性能向上を図る。 我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。

Deep learning algorithms mine knowledge from the training data and thus would likely inherit the dataset's bias information. As a result, the obtained model would generalize poorly and even mislead the decision process in real-life applications. We propose to remove the bias information misused by the target task with a cross-sample adversarial debiasing (CSAD) method. CSAD explicitly extracts target and bias features disentangled from the latent representation generated by a feature extractor and then learns to discover and remove the correlation between the target and bias features. The correlation measurement plays a critical role in adversarial debiasing and is conducted by a cross-sample neural mutual information estimator. Moreover, we propose joint content and local structural representation learning to boost mutual information estimation for better performance. We conduct thorough experiments on publicly available datasets to validate the advantages of the proposed method over state-of-the-art approaches.
翻訳日:2021-08-14 03:33:58 公開日:2021-08-11
# (参考訳) 強化学習を用いた壁面パーチ作業用マルチロータの低レベルポス制御 [全文訳有]

Low-level Pose Control of Tilting Multirotor for Wall Perching Tasks Using Reinforcement Learning ( http://arxiv.org/abs/2108.05457v1 )

ライセンス: CC BY 4.0
Hyungyu Lee, Myeongwoo Jeong, Chanyoung Kim, Hyungtae Lim, Changgue Park, Sungwon Hwang, and Hyun Myung(参考訳) 近年,壁に装着可能な無人航空機(UAV)の必要性が強調されている。 このニーズに対処する方法の1つとして、操作性を高める様々な傾斜マルチロータの研究が採用されている。 残念なことに、傾斜マルチロータに関する既存の研究は、複素力学モデルに関するかなりの事前情報を必要としている。 一方、この問題を緩和するために四分儀の強化学習が研究されている。 しかし、これらは標準的なクアッドローターにのみ適用されており、システムは傾くマルチローターよりも複雑ではない。 本稿では,実世界のアプリケーションにおいて傾斜マルチロケータを制御するための新しい強化学習ベース手法を提案し,傾斜マルチロケータへの強化学習の適用を初めて試みる。 そこで本研究では,電力効率を考慮したニューラルネットワークモデルに対する新たな報酬関数を提案する。 モデルは当初、シミュレーション環境上でトレーニングされ、その後、シミュレーションから実際のギャップ問題を克服するために、実世界のデータを使って微調整される。 さらに、ネットワークが最適方針をよりよく学習するのに役立つゴールフレームに関する、新規で効率的な状態表現を提案する。 実世界の実験で検証されたように, 本手法は傾斜マルチロータの複雑なダイナミクスを克服することでロバストな制御性を示す。

Recently, needs for unmanned aerial vehicles (UAVs) that are attachable to the wall have been highlighted. As one of the ways to address the need, researches on various tilting multirotors that can increase maneuverability has been employed. Unfortunately, existing studies on the tilting multirotors require considerable amounts of prior information on the complex dynamic model. Meanwhile, reinforcement learning on quadrotors has been studied to mitigate this issue. Yet, these are only been applied to standard quadrotors, whose systems are less complex than those of tilting multirotors. In this paper, a novel reinforcement learning-based method is proposed to control a tilting multirotor on real-world applications, which is the first attempt to apply reinforcement learning to a tilting multirotor. To do so, we propose a novel reward function for a neural network model that takes power efficiency into account. The model is initially trained over a simulated environment and then fine-tuned using real-world data in order to overcome the sim-to-real gap issue. Furthermore, a novel, efficient state representation with respect to the goal frame that helps the network learn optimal policy better is proposed. As verified on real-world experiments, our proposed method shows robust controllability by overcoming the complex dynamics of tilting multirotors.
翻訳日:2021-08-14 03:13:07 公開日:2021-08-11
# (参考訳) SIDER:顔の幾何学的詳細回復のための単一画像ニューラル最適化 [全文訳有]

SIDER: Single-Image Neural Optimization for Facial Geometric Detail Recovery ( http://arxiv.org/abs/2108.05465v1 )

ライセンス: CC BY 4.0
Aggelina Chatziagapi, ShahRukh Athar, Francesc Moreno-Noguer, Dimitris Samaras(参考訳) 顔画像からの詳細な顔形状を教師なしで復元する新しい光度最適化手法であるSIDER(Single-Image Neural Optimization for facial geometry Detail Recovery)を提案する。 サース・トゥ・ファインメントの古典的な技法と最近の3次元形状の暗黙の神経表現の進歩にインスパイアされたSIDERは、統計モデルと符号付き距離関数(SDF)に基づく幾何を組み合わせて、単一の画像から顔の詳細を復元する。 まず、SDFとして表される変形可能なモデルを用いて粗い幾何学を推定する。 次に、基底真理画像に対する測光損失を最適化することにより、顔形状の詳細を再構築する。 以前の作業とは対照的に、SIDERはデータセットの事前に依存せず、複数のビュー、照明変更、地上の真実の3D形状から追加の監視を必要としない。 広汎な質的,定量的評価により,術中画像のみを用いて顔の幾何学的ディテールを再現する手法が得られた。

We present SIDER(Single-Image neural optimization for facial geometric DEtail Recovery), a novel photometric optimization method that recovers detailed facial geometry from a single image in an unsupervised manner. Inspired by classical techniques of coarse-to-fine optimization and recent advances in implicit neural representations of 3D shape, SIDER combines a geometry prior based on statistical models and Signed Distance Functions (SDFs) to recover facial details from single images. First, it estimates a coarse geometry using a morphable model represented as an SDF. Next, it reconstructs facial geometry details by optimizing a photometric loss with respect to the ground truth image. In contrast to prior work, SIDER does not rely on any dataset priors and does not require additional supervision from multiple views, lighting changes or ground truth 3D shape. Extensive qualitative and quantitative evaluation demonstrates that our method achieves state-of-the-art on facial geometric detail recovery, using only a single in-the-wild image.
翻訳日:2021-08-14 02:59:03 公開日:2021-08-11
# ゲームにおける部分的可観測性へのアプローチ:行為と観察の両方を学ぶ

An Approach to Partial Observability in Games: Learning to Both Act and Observe ( http://arxiv.org/abs/2108.05701v1 )

ライセンス: Link先を確認
Elizabeth Gilmour, Noah Plotkin, Leslie Smith(参考訳) 強化学習(RL)は、環境全体が見えるゲームを学ぶのに成功している。 しかし、RLアプローチはStarcraft IIのような複雑なゲームや、環境全体が見えない現実世界環境では挑戦されている。 より限られた視覚情報を持つより複雑なゲームでは、エージェントは、ゲームで成功するために、彼らの制限された視覚情報を最適に利用する方法を選択する必要がある。 比較的単純なモデルで、エージェントは限られた視覚帯域幅のシナリオをどこで見るかを学ぶことができる。 本研究では,アタリゲームにおける環境の一部をマスキングする手法を開発し,RLエージェントがどのように見えるか,どのようにプレイするかを学習するよう強制的にRLエージェントに強制する。 さらに,Pongゲームにおいて,エージェントがどこを見るか,どのようなアクションをとるかを選択できるようにするニューラルネットワークアーキテクチャと手法を開発した。 さらに,エージェントが学習した戦略を分析し,rlエージェントがゲームのプレイを学習する方法をよりよく理解する。

Reinforcement learning (RL) is successful at learning to play games where the entire environment is visible. However, RL approaches are challenged in complex games like Starcraft II and in real-world environments where the entire environment is not visible. In these more complex games with more limited visual information, agents must choose where to look and how to optimally use their limited visual information in order to succeed at the game. We verify that with a relatively simple model the agent can learn where to look in scenarios with a limited visual bandwidth. We develop a method for masking part of the environment in Atari games to force the RL agent to learn both where to look and how to play the game in order to study where the RL agent learns to look. In addition, we develop a neural network architecture and method for allowing the agent to choose where to look and what action to take in the Pong game. Further, we analyze the strategies the agent learns to better understand how the RL agent learns to play the game.
翻訳日:2021-08-13 14:46:46 公開日:2021-08-11
# 保守記録からのセマンティクス抽出

Extracting Semantics from Maintenance Records ( http://arxiv.org/abs/2108.05454v1 )

ライセンス: Link先を確認
Sharad Dixit, Varish Mulwad, Abhinav Saxena(参考訳) 自然言語処理の急速な進歩は、工学マニュアルやフィールドメンテナンスレポートなどの文書から情報抽出、特に名前付きエンティティ認識、関係抽出などを含む、さまざまな産業および企業での利用につながった。 名前付きエンティティ認識はよく研究されている問題であるが、既存の最先端のアプローチでは、メンテナンス記録のような機密データに対して取得が難しい大規模なラベル付きデータセットを必要とする。 さらに、産業ドメインの専門家は、特に下流の予測保守分析で抽出された情報を使用する場合、ブラックボックス機械学習モデルからの結果を信頼しない傾向がある。 辞書やオントロジーで捉えたドメインエキスパートの知識の基礎に基づく3つのアプローチを開発することで、これらの課題を克服します。 構文的・意味的ルールに基づくアプローチを開発し,事前学習した言語モデルを活用して,基本辞書のルックアップの上に質問応答タスクを微調整し,メンテナンスレコードから興味のあるエンティティを抽出する手法を開発した。 また,メンテナンスレコードのセマンティクスを表現し,キャプチャする予備的オントロジーも開発した。 実世界の航空整備記録データセットに対する評価は,有望な結果を示し,ノイズの多い産業データの文脈において,名前付きエンティティ認識に特有の課題を特定するのに役立つ。

Rapid progress in natural language processing has led to its utilization in a variety of industrial and enterprise settings, including in its use for information extraction, specifically named entity recognition and relation extraction, from documents such as engineering manuals and field maintenance reports. While named entity recognition is a well-studied problem, existing state-of-the-art approaches require large labelled datasets which are hard to acquire for sensitive data such as maintenance records. Further, industrial domain experts tend to distrust results from black box machine learning models, especially when the extracted information is used in downstream predictive maintenance analytics. We overcome these challenges by developing three approaches built on the foundation of domain expert knowledge captured in dictionaries and ontologies. We develop a syntactic and semantic rules-based approach and an approach leveraging a pre-trained language model, fine-tuned for a question-answering task on top of our base dictionary lookup to extract entities of interest from maintenance records. We also develop a preliminary ontology to represent and capture the semantics of maintenance records. Our evaluations on a real-world aviation maintenance records dataset show promising results and help identify challenges specific to named entity recognition in the context of noisy industrial data.
翻訳日:2021-08-13 14:45:09 公開日:2021-08-11
# 合成データによる知識蒸留におけるカタストロフィック生成と分布ミスマッチの防止

Preventing Catastrophic Forgetting and Distribution Mismatch in Knowledge Distillation via Synthetic Data ( http://arxiv.org/abs/2108.05698v1 )

ライセンス: Link先を確認
Kuluhan Binici, Nam Trung Pham, Tulika Mitra, Karianto Leman(参考訳) エッジデバイスでのディープラーニングの普及に伴い、リソース制約されたデバイスのハードウェア要件を満たすために大規模なニューラルネットワークを圧縮することが、重要な研究方向となった。 現在、ニューラルネットワークのメモリサイズとエネルギー消費を減らすために多くの圧縮手法が使われている。 知識蒸留(KD)はそのような手法の一つであり、データサンプルを使用して、大きなモデル(教師)が取得した知識をより小さなモデル(学生)に転送することで機能する。 しかし、様々な理由から、オリジナルのトレーニングデータは圧縮段階ではアクセスできない可能性がある。 したがって、データフリーモデル圧縮は、様々な研究で対処されている研究課題である。 本稿では, 既設のデータフリー蒸留法において, 壊滅的消失が潜在的に観察できる問題であることを指摘する。 さらに、これらの方法のいくつかにおけるサンプル生成戦略は、合成データと実際のデータ分布のミスマッチをもたらす可能性がある。 そこで本研究では,生成したサンプルの動的コレクションを時間とともに維持する,データフリーなkdフレームワークを提案する。 さらに,最大情報ゲインを目標とするサンプル生成戦略において,実際のデータ分布をマッチングする制約を加える。 実験により, SVHN, Fashion MNIST, CIFAR100データセットの最先端手法と比較して, KD を用いて得られた学生モデルの精度を向上させることができた。

With the increasing popularity of deep learning on edge devices, compressing large neural networks to meet the hardware requirements of resource-constrained devices became a significant research direction. Numerous compression methodologies are currently being used to reduce the memory sizes and energy consumption of neural networks. Knowledge distillation (KD) is among such methodologies and it functions by using data samples to transfer the knowledge captured by a large model (teacher) to a smaller one(student). However, due to various reasons, the original training data might not be accessible at the compression stage. Therefore, data-free model compression is an ongoing research problem that has been addressed by various works. In this paper, we point out that catastrophic forgetting is a problem that can potentially be observed in existing data-free distillation methods. Moreover, the sample generation strategies in some of these methods could result in a mismatch between the synthetic and real data distributions. To prevent such problems, we propose a data-free KD framework that maintains a dynamic collection of generated samples over time. Additionally, we add the constraint of matching the real data distribution in sample generation strategies that target maximum information gain. Our experiments demonstrate that we can improve the accuracy of the student models obtained via KD when compared with state-of-the-art approaches on the SVHN, Fashion MNIST and CIFAR100 datasets.
翻訳日:2021-08-13 14:43:28 公開日:2021-08-11
# 説明可能性要件の調和のための7つの課題

Seven challenges for harmonizing explainability requirements ( http://arxiv.org/abs/2108.05390v1 )

ライセンス: Link先を確認
Jiahao Chen and Victor Storchan(参考訳) 規制当局は、モデルガバナンス、運用サービス、金融サービス業界におけるコンプライアンスに対するさまざまなニーズに対応するために、説明可能なAI(XAI)技術を採用することに関心を示している。 本稿では、XAIにおける最近の技術文献を概観し、この分野の現在の理解に基づいて、特定のビジネスアプリケーションに対する利害関係者の特定のニーズを考慮して、実際にXAI技術を使うことが高度に文脈化されたアプローチを必要とすることを論じる。

Regulators have signalled an interest in adopting explainable AI(XAI) techniques to handle the diverse needs for model governance, operational servicing, and compliance in the financial services industry. In this short overview, we review the recent technical literature in XAI and argue that based on our current understanding of the field, the use of XAI techniques in practice necessitate a highly contextualized approach considering the specific needs of stakeholders for particular business applications.
翻訳日:2021-08-13 14:42:04 公開日:2021-08-11
# オントロジドリフトは説明可能なデータガバナンスの課題である

Ontology drift is a challenge for explainable data governance ( http://arxiv.org/abs/2108.05401v1 )

ライセンス: Link先を確認
Jiahao Chen(参考訳) 標準Noから生まれた説明可能なAIの必要性を紹介します。 バーゼル銀行基準委員会(BCBS 239)は、金融機関の効果的なリスクデータ収集とリスク報告に関する11の原則を概説している。 これらのうち、説明可能なAIはデータ品質と複数のステークホルダーに対する適切なレポートという2つの重要な側面でコンプライアンスのために必要である。 本稿では,ある特定の規制要件に対する実装上の課題について述べる:厳密な使用に適した完全なデータ分類を持つこと。 金融オントロジーの絶え間なく進化する性質は、継続的な更新プロセスを必要とする。

We introduce the needs for explainable AI that arise from Standard No. 239 from the Basel Committee on Banking Standards (BCBS 239), which outlines 11 principles for effective risk data aggregation and risk reporting for financial institutions. Of these, explainableAI is necessary for compliance in two key aspects: data quality, and appropriate reporting for multiple stakeholders. We describe the implementation challenges for one specific regulatory requirement:that of having a complete data taxonomy that is appropriate for firmwide use. The constantly evolving nature of financial ontologies necessitate a continuous updating process to ensure ongoing compliance.
翻訳日:2021-08-13 14:41:54 公開日:2021-08-11
# フリディマルチエージェント価格安定化モデル

Friddy multiagent price stabilization model ( http://arxiv.org/abs/2108.05436v1 )

ライセンス: Link先を確認
Abdelrahman Elsharawy(参考訳) ノードからなるマルチエージェントネットワークモデルでは、各ネットワークノードはエージェントと価格のフリディコインを持ち、エージェントは市場でフリディコインを売買することができる。 各ノードは取引時間中に同等の価格を持つことはできないが、マクロレベルでの売買を繰り返すことで、価格が均衡に達する必要がある。

In a multiagent network model consisting of nodes, each network node has an agent and priced Friddy coins, and the agent can buy or sell Friddy coins in the marketplace. Though every node may not effectively have an equal price during the transaction time, the prices have to reach equilibrium by iterating buy and sell transactions on a macro level.
翻訳日:2021-08-13 14:39:21 公開日:2021-08-11
# 症例選択の落とし穴:肺結節分類のケーススタディ

The Pitfalls of Sample Selection: A Case Study on Lung Nodule Classification ( http://arxiv.org/abs/2108.05386v1 )

ライセンス: Link先を確認
Vasileios Baltatzis, Kyriaki-Margarita Bintsi, Loic Le Folgoc, Octavio E. Martinez Manzanera, Sam Ellis, Arjun Nair, Sujal Desai, Ben Glocker, Julia A. Schnabel(参考訳) 公開データを使用して方法論的貢献のパフォーマンスを決定することは、再現性を促進し、公表された結果の精査を可能にするため重要である。 例えば肺結節分類では、多くの研究成果がlidcデータセットで公開されている。 理論的には、提案手法の性能を直接比較し、個々の貢献の影響を評価することができる。 しかし、最近の7つの研究を分析した結果、それぞれが異なるデータ選択プロセスを採用しており、サンプルの総数や良性と悪性の比率が大きく異なることが判明した。 各部分集合は分類の難易度が異なる異なる特性を持つため、提案手法間の直接比較は必ずしも可能でもフェアでもない。 複数の専門家のラベルを集約する際の真理の影響について検討する。 特定の選択がデータ分布に重大な影響を与え、あるサンプル分布において優れた性能を達成することができるが、別のサンプル分布では達成できないことを示した。 1つのサンプルセレクションの最先端をさらに改善できることが示されているが、より困難なサンプルセレクションでは、同じデータベース上では、より先進的なモデルは、非常に単純なベースラインメソッドに関して過小評価され、選択されたデータ分散が、モデルアーキテクチャよりもさらに重要な役割を果たす可能性があることを強調する。 これは、主張された方法論的貢献の妥当性に関する懸念を引き起こす。 コミュニティはこれらの落とし穴を認識し、今後の作業でこれらを避ける方法を推奨すべきだと考えています。

Using publicly available data to determine the performance of methodological contributions is important as it facilitates reproducibility and allows scrutiny of the published results. In lung nodule classification, for example, many works report results on the publicly available LIDC dataset. In theory, this should allow a direct comparison of the performance of proposed methods and assess the impact of individual contributions. When analyzing seven recent works, however, we find that each employs a different data selection process, leading to largely varying total number of samples and ratios between benign and malignant cases. As each subset will have different characteristics with varying difficulty for classification, a direct comparison between the proposed methods is thus not always possible, nor fair. We study the particular effect of truthing when aggregating labels from multiple experts. We show that specific choices can have severe impact on the data distribution where it may be possible to achieve superior performance on one sample distribution but not on another. While we show that we can further improve on the state-of-the-art on one sample selection, we also find that on a more challenging sample selection, on the same database, the more advanced models underperform with respect to very simple baseline methods, highlighting that the selected data distribution may play an even more important role than the model architecture. This raises concerns about the validity of claimed methodological contributions. We believe the community should be aware of these pitfalls and make recommendations on how these can be avoided in future work.
翻訳日:2021-08-13 14:38:19 公開日:2021-08-11
# ボクセルレベルの重要度マップによる脳年齢推定

Voxel-level Importance Maps for Interpretable Brain Age Estimation ( http://arxiv.org/abs/2108.05388v1 )

ライセンス: Link先を確認
Kyriaki-Margarita Bintsi, Vasileios Baltatzis, Alexander Hammers, Daniel Rueckert(参考訳) 脳の老化、特に人の年代と生物学的年齢の違いは、神経変性疾患を識別するための有望なバイオマーカーである可能性がある。 この目的のためには正確な予測が重要であるが、予測モデルの性能に対する臨床医の信頼と安心を得るためには、予測において重要な役割を果たす領域の局所化も重要である。 ほとんどの解釈可能性法は分類タスクに焦点を当てており、回帰タスクに直接転送することはできない。 本研究では,畳み込みニューラルネットワークを用いた3次元脳磁気共鳴(MR)画像からの脳年齢回帰の課題に着目し,予測モデルを提案する。 我々は、脳の年齢において最も重要な部分を発見する重要な地図を抽出することで、その予測を解釈する。 これを実現するため、回帰に役立たないボクセルはノイズ付加に対して弾力性があると仮定する。 予測モデルの性能を損なうことなく、入力にできるだけ多くのノイズを加えることを目的としたノイズモデルを実装した。 被験者の重要度マップを平均化し、その課題に影響を及ぼす脳の領域を表示する人口ベースの重要度マップを作成する。 本手法は,英国バイオバンクの3D脳MRI画像13750枚を用いて検討し,既存の神経病理文献と一致し,海馬と心室が脳老化の最も関連性の高い領域であることを示した。

Brain aging, and more specifically the difference between the chronological and the biological age of a person, may be a promising biomarker for identifying neurodegenerative diseases. For this purpose accurate prediction is important but the localisation of the areas that play a significant role in the prediction is also crucial, in order to gain clinicians' trust and reassurance about the performance of a prediction model. Most interpretability methods are focused on classification tasks and cannot be directly transferred to regression tasks. In this study, we focus on the task of brain age regression from 3D brain Magnetic Resonance (MR) images using a Convolutional Neural Network, termed prediction model. We interpret its predictions by extracting importance maps, which discover the parts of the brain that are the most important for brain age. In order to do so, we assume that voxels that are not useful for the regression are resilient to noise addition. We implement a noise model which aims to add as much noise as possible to the input without harming the performance of the prediction model. We average the importance maps of the subjects and end up with a population-based importance map, which displays the regions of the brain that are influential for the task. We test our method on 13,750 3D brain MR images from the UK Biobank, and our findings are consistent with the existing neuropathology literature, highlighting that the hippocampus and the ventricles are the most relevant regions for brain aging.
翻訳日:2021-08-13 14:37:55 公開日:2021-08-11
# Dempster-Shafer理論と深部PET/CT併用による悪性リンパ腫の鑑別

Deep PET/CT fusion with Dempster-Shafer theory for lymphoma segmentation ( http://arxiv.org/abs/2108.05422v1 )

ライセンス: Link先を確認
Ling Huang, Thierry Denoeux, David Tonnelet, Pierre Decazes, and Su Ruan(参考訳) 全身ポジトロントモグラフィー/CT(PET/CT)ボリュームからのリンパ腫の検出とセグメンテーションは,外科的診断と放射線治療に不可欠である。 petやctの情報を効果的に活用できる自動セグメンテーション手法の設計や、不確かさの解消が課題となっている。 本稿では,PET/CT融合層を有するUNetを用いたリンパ腫分離モデルを提案する。 単モダリティボリュームは初期セグメンテーションマップを得るために別々に訓練され、デンプスター・シェーファー理論(dst)を用いて2つの証拠を融合する証拠融合層が提案されている。 さらに,pet と ct のセグメンテーションに dice ロスを使用するのに加え,2 つのセグメンテーションの一致度に基づく損失関数を追加して最終セグメンテーションを制約するマルチタスクロス関数を提案する。 悪性リンパ腫患者の多中心性pet/ct量データベースについて,専門家による検討を行った。 提案手法は,diceスコア0.726で,ユーザインタラクションを伴わずに正確なセグメンテーション結果を得る。 その結果,本手法は最先端手法よりも優れていることがわかった。

Lymphoma detection and segmentation from whole-body Positron Emission Tomography/Computed Tomography (PET/CT) volumes are crucial for surgical indication and radiotherapy. Designing automatic segmentation methods capable of effectively exploiting the information from PET and CT as well as resolving their uncertainty remain a challenge. In this paper, we propose an lymphoma segmentation model using an UNet with an evidential PET/CT fusion layer. Single-modality volumes are trained separately to get initial segmentation maps and an evidential fusion layer is proposed to fuse the two pieces of evidence using Dempster-Shafer theory (DST). Moreover, a multi-task loss function is proposed: in addition to the use of the Dice loss for PET and CT segmentation, a loss function based on the concordance between the two segmentation is added to constrain the final segmentation. We evaluate our proposal on a database of polycentric PET/CT volumes of patients treated for lymphoma, delineated by the experts. Our method get accurate segmentation results with Dice score of 0.726, without any user interaction. Quantitative results show that our method is superior to the state-of-the-art methods.
翻訳日:2021-08-13 14:37:32 公開日:2021-08-11
# 物理結合型時空間能動的学習

Physics-Coupled Spatio-Temporal Active Learning for Dynamical Systems ( http://arxiv.org/abs/2108.05385v1 )

ライセンス: Link先を確認
Yu Huang, Yufei Tang, Xingquan Zhu, Min Shi, Ali Muhamed Ali, Hanqi Zhuang, and Laurent Cherubin(参考訳) 時空間予測は、大気科学から最近のcovid-19拡散モデリングまで、幅広い力学系応用において非常に重要である。 これらの応用は実世界の現象を反映した時空間構造データの正確な予測に依存する。 驚くべき特徴は、力学系がいくつかの物理法則によって駆動されるだけでなく、空間的および時間的領域の局所化因子によっても影響されることである。 主な課題の1つは、認識されたデータストリームを生成し、分散観測ユニットを通して関連する因果ダイナミクスを伝播する根本原因を推測することである。 もうひとつの課題は、機械学習ベースの予測モデルの成功は、モデルトレーニングに大量の注釈付きデータを必要とすることだ。 しかし、高品質な注釈付きデータの取得は、高いレベルの専門知識を必要とする分野において、かなりの量の人的介入を必要とするため、客観的に手動で面倒である。 これらの課題に取り組むため,我々は時空間的物理結合ニューラルネットワーク(st-pcnn)モデルを提唱し,力学系の基礎となる物理を学習し,さらに学習した物理を結合して繰り返し発生する力学の学習を支援する。 データ取得制約に対処するために,st-pcnnトレーニングにおいて最も有益なデータを積極的に取得するためのkrigingを用いたアクティブラーニング機構が,部分的に観察可能な環境で提案されている。 提案するST-PCNNは, 実世界のデータセットと実世界のデータセットの両方において, ほぼ最適な精度に収束することを示す。

Spatio-temporal forecasting is of great importance in a wide range of dynamical systems applications from atmospheric science, to recent COVID-19 spread modeling. These applications rely on accurate predictions of spatio-temporal structured data reflecting real-world phenomena. A stunning characteristic is that the dynamical system is not only driven by some physics laws but also impacted by the localized factor in spatial and temporal regions. One of the major challenges is to infer the underlying causes, which generate the perceived data stream and propagate the involved causal dynamics through the distributed observing units. Another challenge is that the success of machine learning based predictive models requires massive annotated data for model training. However, the acquisition of high-quality annotated data is objectively manual and tedious as it needs a considerable amount of human intervention, making it infeasible in fields that require high levels of expertise. To tackle these challenges, we advocate a spatio-temporal physics-coupled neural networks (ST-PCNN) model to learn the underlying physics of the dynamical system and further couple the learned physics to assist the learning of the recurring dynamics. To deal with data-acquisition constraints, an active learning mechanism with Kriging for actively acquiring the most informative data is proposed for ST-PCNN training in a partially observable environment. Our experiments on both synthetic and real-world datasets exhibit that the proposed ST-PCNN with active learning converges to near optimal accuracy with substantially fewer instances.
翻訳日:2021-08-13 14:29:20 公開日:2021-08-11
# 強化学習のためのギャップ依存型教師なし探索

Gap-Dependent Unsupervised Exploration for Reinforcement Learning ( http://arxiv.org/abs/2108.05439v1 )

ライセンス: Link先を確認
Jingfeng Wu, Vladimir Braverman, Lin F. Yang(参考訳) タスク非依存強化学習(RL)の問題に対して、エージェントはまず、報酬信号の監督なしに未知の環境からサンプルを収集し、報酬によって明らかにし、対応する準最適ポリシーの計算を依頼する。 既存のアプローチは主に、報酬/遷移力学の構造情報が利用されない最悪のシナリオに関するものである。 したがって、最高のサンプル上限は$\propto\widetilde{\mathcal{O}}(1/\epsilon^2)$であり、$\epsilon>0$は得られたポリシーのターゲット精度であり、過度に悲観的である。 この問題に対処するために,gapパラメータである$\rho>0$を利用する効率的なアルゴリズムを提供し,探索の量を削減する。 特に、未知の有限ホリゾンマルコフ決定プロセスでは、アルゴリズムは、$\widetilde{\mathcal{o}} (1/\epsilon \cdot (h^3sa / \rho + h^4 s^2 a) )$の探索エピソードしか受け取らず、$\epsilon$-optimal policy for a post-revealalality gap with least $\rho$, where $s$ is the number of states, $a$ is the number of action, $h$ is the length of the horizon, ほぼ \emph{quadratic saving} を$\epsilon$で得ることができる。 情報理論上、この境界は$\rho < \Theta(1/(HS))$ と $H>1$ でほぼ厳密であることを示す。 さらに、$\propto\widetilde{\mathcal{O}}(1)$のサンプルバウンドは、$H=1$(つまり、マルチアームバンディット)またはサンプリングシミュレータで可能であることを示し、それらの設定とRL設定とを分離する。

For the problem of task-agnostic reinforcement learning (RL), an agent first collects samples from an unknown environment without the supervision of reward signals, then is revealed with a reward and is asked to compute a corresponding near-optimal policy. Existing approaches mainly concern the worst-case scenarios, in which no structural information of the reward/transition-dy namics is utilized. Therefore the best sample upper bound is $\propto\widetilde{\mathcal{O}}(1/\epsilon^2)$, where $\epsilon>0$ is the target accuracy of the obtained policy, and can be overly pessimistic. To tackle this issue, we provide an efficient algorithm that utilizes a gap parameter, $\rho>0$, to reduce the amount of exploration. In particular, for an unknown finite-horizon Markov decision process, the algorithm takes only $\widetilde{\mathcal{O}} (1/\epsilon \cdot (H^3SA / \rho + H^4 S^2 A) )$ episodes of exploration, and is able to obtain an $\epsilon$-optimal policy for a post-revealed reward with sub-optimality gap at least $\rho$, where $S$ is the number of states, $A$ is the number of actions, and $H$ is the length of the horizon, obtaining a nearly \emph{quadratic saving} in terms of $\epsilon$. We show that, information-theoreti cally, this bound is nearly tight for $\rho < \Theta(1/(HS))$ and $H>1$. We further show that $\propto\widetilde{\mathcal{O}}(1)$ sample bound is possible for $H=1$ (i.e., multi-armed bandit) or with a sampling simulator, establishing a stark separation between those settings and the RL setting.
翻訳日:2021-08-13 14:28:56 公開日:2021-08-11
# コンポジションマシン:シーケンシャルなプログラム空間の出現のためのソフトウェアモデルプログラミング

Composition Machines: Programming Self-Organising Software Models for the Emergence of Sequential Program Spaces ( http://arxiv.org/abs/2108.05402v1 )

ライセンス: Link先を確認
Damian Arellanes(参考訳) 私たちは、ソフトウェアシステムがますます複雑で大きくなっている新しい時代に入りつつある。 そのため、このようなシステムの構成は手作業で不可能になっている。 この課題に対処するため、自己組織化ソフトウェアモデルは、単純なルールから複雑な計算構造の(ボットアップ)台頭を可能にするため、有望な方向性を示す。 本稿では,そのようなモデルの定義と実行を可能にする,合成機械と呼ばれる抽象機械を提案する。 従来の抽象機械とは異なり,提案手法では個々のプログラムを計算せず,複数のプログラムを同時に生成できる。 特に,機械のセマンティクスを提示し,ブール論理と基本セルオートマトンという分野からよく知られた規則を用いてその動作を実演する例を示す。

We are entering a new era in which software systems are becoming more and more complex and larger. So, the composition of such systems is becoming infeasible by manual means. To address this challenge, self-organising software models represent a promising direction since they allow the (bottom-up) emergence of complex computational structures from simple rules. In this paper, we propose an abstract machine, called the composition machine, which allows the definition and the execution of such models. Unlike typical abstract machines, our proposal does not compute individual programs but enables the emergence of multiple programs at once. We particularly present the machine's semantics and provide examples to demonstrate its operation with well-known rules from the realm of Boolean logic and elementary cellular automata.
翻訳日:2021-08-13 14:27:05 公開日:2021-08-11
# ニューラルネットワークによる地震波伝搬とインバージョン

Seismic wave propagation and inversion with Neural Operators ( http://arxiv.org/abs/2108.05421v1 )

ライセンス: Link先を確認
Yan Yang, Angela F. Gao, Jorge C. Castellanos, Zachary E. Ross, Kamyar Azizzadenesheli, Robert W. Clayton(参考訳) 地震波伝播は地震学研究のほとんどの側面の基礎となっているが、波動方程式を解くことは研究の進展を妨げる大きな計算負荷である。 これは、速度構造や震源位置が摂動した時に新しいシミュレーションを行う必要があるという事実から推測される。 本稿では、最近開発されたNeural Operatorと呼ばれる機械学習パラダイムを用いて、一般的なソリューションを学習するためのプロトタイプフレームワークを検討する。 訓練されたニューラルネットワークオペレータは、任意の速度構造やソースロケーションの解を無視できる時間で計算することができる。 本研究では,ランダム速度モデルと音源位置を用いたシミュレーションのアンサンブル上で,ニューラルネットワークを訓練する手法を開発した。 ニューラル演算子はグリッドフリーであるため、トレーニング対象よりも高い解像度の速度モデルの解を評価することができ、計算効率が向上する。 本研究では, 2次元音響波動方程式を用いて, 逆モード自動微分法を用いて, 波動場の速度構造に対する勾配を計算し, 地震トモグラフィへの適用性を示す。 本手法は, 従来の全波形逆解析法よりも約1桁高速である。

Seismic wave propagation forms the basis for most aspects of seismological research, yet solving the wave equation is a major computational burden that inhibits the progress of research. This is exaspirated by the fact that new simulations must be performed when the velocity structure or source location is perturbed. Here, we explore a prototype framework for learning general solutions using a recently developed machine learning paradigm called Neural Operator. A trained Neural Operator can compute a solution in negligible time for any velocity structure or source location. We develop a scheme to train Neural Operators on an ensemble of simulations performed with random velocity models and source locations. As Neural Operators are grid-free, it is possible to evaluate solutions on higher resolution velocity models than trained on, providing additional computational efficiency. We illustrate the method with the 2D acoustic wave equation and demonstrate the method's applicability to seismic tomography, using reverse mode automatic differentiation to compute gradients of the wavefield with respect to the velocity structure. The developed procedure is nearly an order of magnitude faster than using conventional numerical methods for full waveform inversion.
翻訳日:2021-08-13 14:23:50 公開日:2021-08-11
# 保証付きでロバストにハッシュを学習する

Learning to Hash Robustly, with Guarantees ( http://arxiv.org/abs/2108.05433v1 )

ライセンス: Link先を確認
Alexandr Andoni, Daniel Beaglehole(参考訳) 高次元近傍探索 (nns) の最大値保証付きインデックス化アルゴリズムは、ランダム化局所性センシティブハッシュ (lsh) とその導関数に基づいている。 実際、多くのヒューリスティックなアプローチは、与えられたデータセットの構造に決定的に適応するNNSを高速化するために、最良のインデックス法を「学習」するために存在する。 多くの場合、これらのヒューリスティックスは実際のデータセット上でLSHベースのアルゴリズムよりも優れていますが、ほとんどの場合、敵クエリにおける正確性または堅牢なパフォーマンスの保証を失うか、仮定された余分な構造/モデルを持つデータセットに適用するコストがかかります。 本稿では,Hamming 空間に対する NNS アルゴリズムを設計し,理論的アルゴリズムと本質的に一致することを保証し,最小性能のクエリの性能向上のために,ハッシュをデータセットの構造(インスタンス最適化アルゴリズムなど)に最適化する。 アルゴリズムが与えられたデータセットに対して理論的かつ実際的に最適化する能力を評価する。 理論的には、我々のアルゴリズムが標準的な理論よりもずっと優れている自然設定(データセットモデル)を示す。 実用面では、我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリに対して、1.8倍と2.1倍のリコールがあることを示す実験を行っている。

The indexing algorithms for the high-dimensional nearest neighbor search (NNS) with the best worst-case guarantees are based on the randomized Locality Sensitive Hashing (LSH), and its derivatives. In practice, many heuristic approaches exist to "learn" the best indexing method in order to speed-up NNS, crucially adapting to the structure of the given dataset. Oftentimes, these heuristics outperform the LSH-based algorithms on real datasets, but, almost always, come at the cost of losing the guarantees of either correctness or robust performance on adversarial queries, or apply to datasets with an assumed extra structure/model. In this paper, we design an NNS algorithm for the Hamming space that has worst-case guarantees essentially matching that of theoretical algorithms, while optimizing the hashing to the structure of the dataset (think instance-optimal algorithms) for performance on the minimum-performing query. We evaluate the algorithm's ability to optimize for a given dataset both theoretically and practically. On the theoretical side, we exhibit a natural setting (dataset model) where our algorithm is much better than the standard theoretical one. On the practical side, we run experiments that show that our algorithm has a 1.8x and 2.1x better recall on the worst-performing queries to the MNIST and ImageNet datasets.
翻訳日:2021-08-13 14:23:31 公開日:2021-08-11
# (参考訳) 構造イメージングによる高分解能拡散のマニホールド・アウェア合成 [全文訳有]

Manifold-aware Synthesis of High-resolution Diffusion from Structural Imaging ( http://arxiv.org/abs/2108.04135v2 )

ライセンス: CC BY 4.0
Benoit Anctil-Robitaille and Antoine Th\'eberge and Pierre-Marc Jodoin and Maxime Descoteaux and Christian Desrosiers and Herv\'e Lombaert(参考訳) 拡散強調画像(DWI)を取り巻く物理的および臨床的制約はしばしば、生成された画像の空間解像度を、T1w画像の最大8倍のボクセルに制限する。 したがって、T1w画像に含まれる詳細な情報は、高解像度の拡散画像の合成に役立つ。 しかし、拡散イメージングの非ユークリッド的性質は、物理的に有理な画像の合成から現在の深層生成モデルを妨げる。 本研究では,高分解能T1w画像から拡散テンソル(DT)と拡散配向分布関数(DODF)を直接生成するための最初のリーマンネットワークアーキテクチャを提案する。 標準ユークリッドネットワークとは異なり、対数ユークリッド計量の学習目的への統合は、拡散の数学的に有価な合成である。 さらに,本手法は,合成拡散と接地トラス間の分数異方性平均二乗誤差(FA MSE)を23%以上改善し,主方向のコサイン類似度をベースラインと比較して約5%改善する。 その結果を実データと比較することにより,生成した拡散の検証を行った。 類似した繊維束を観察し, 長さが3%未満, 体積が1%未満, 視覚的に近い形状の流線を観察した。 構造入力から15秒以内で高分解能拡散画像を生成することができるが,T1w画像のみに依存する拡散推定の限界を認識し,議論する。 以上の結果から,脳の高次構造と全体ホワイトマターアーキテクチャとの関係が示唆された。

The physical and clinical constraints surrounding diffusion-weighted imaging (DWI) often limit the spatial resolution of the produced images to voxels up to 8 times larger than those of T1w images. Thus, the detailed information contained in T1w imagescould help in the synthesis of diffusion images in higher resolution. However, the non-Euclidean nature of diffusion imaging hinders current deep generative models from synthesizing physically plausible images. In this work, we propose the first Riemannian network architecture for the direct generation of diffusion tensors (DT) and diffusion orientation distribution functions (dODFs) from high-resolution T1w images. Our integration of the Log-Euclidean Metric into a learning objective guarantees, unlike standard Euclidean networks, the mathematically-valid synthesis of diffusion. Furthermore, our approach improves the fractional anisotropy mean squared error (FA MSE) between the synthesized diffusion and the ground-truth by more than 23% and the cosine similarity between principal directions by almost 5% when compared to our baselines. We validate our generated diffusion by comparing the resulting tractograms to our expected real data. We observe similar fiber bundles with streamlines having less than 3% difference in length, less than 1% difference in volume, and a visually close shape. While our method is able to generate high-resolution diffusion images from structural inputs in less than 15 seconds, we acknowledge and discuss the limits of diffusion inference solely relying on T1w images. Our results nonetheless suggest a relationship between the high-level geometry of the brain and the overall white matter architecture.
翻訳日:2021-08-13 12:04:32 公開日:2021-08-11
# Pathfinder:並列準ニュートン変分推論

Pathfinder: Parallel quasi-Newton variational inference ( http://arxiv.org/abs/2108.03782v2 )

ライセンス: Link先を確認
Lu Zhang, Bob Carpenter, Andrew Gelman, Aki Vehtari(参考訳) 微分可能なログ密度からほぼサンプリングするための変分法であるpathfinderを提案する。 ランダム初期化から、パスファインダーは準ニュートン最適化経路に沿って目標密度への正規近似を見つけ、局所共分散はオプティマイザが生成する逆ヘッセン推定を用いて推定する。 Pathfinder は、KL (Kullback-Leibler) が真の後部へ発散する最小推定値で近似から引き出す。 そこで我々はPathfinderを広範囲の後方分布で評価し,その近似ドローイングが自動微分変分推論(ADVI)より優れていることを示すとともに,1-ワッサーシュタイン距離で測定した動的ハミルトニアンモンテカルロ(HMC)の短鎖と同等であることを示した。 ADVI と短い動的 HMC の実行と比較して、Pathfinder はログ密度と勾配の評価を桁違いに減らし、より困難な後部を縮小する。 複数のパスファインダーにまたがる重要性は、近似ドローの多様性を改善し、1-wasserstein距離をさらに削減し、高原、サドルポイント、またはマイナーモードでの最適化失敗に対するロバスト性の尺度を提供する。 Monte Carlo KL-divergenceの推定値は、再サンプリングバージョンにおける複数の実行と同様に、コアPathfinderアルゴリズムにおいて恥ずかしく並列化可能である。

We introduce Pathfinder, a variational method for approximately sampling from differentiable log densities. Starting from a random initialization, Pathfinder locates normal approximations to the target density along a quasi-Newton optimization path, with local covariance estimated using the inverse Hessian estimates produced by the optimizer. Pathfinder returns draws from the approximation with the lowest estimated Kullback-Leibler (KL) divergence to the true posterior. We evaluate Pathfinder on a wide range of posterior distributions, demonstrating that its approximate draws are better than those from automatic differentiation variational inference (ADVI) and comparable to those produced by short chains of dynamic Hamiltonian Monte Carlo (HMC), as measured by 1-Wasserstein distance. Compared to ADVI and short dynamic HMC runs, Pathfinder requires one to two orders of magnitude fewer log density and gradient evaluations, with greater reductions for more challenging posteriors. Importance resampling over multiple runs of Pathfinder improves the diversity of approximate draws, reducing 1-Wasserstein distance further and providing a measure of robustness to optimization failures on plateaus, saddle points, or in minor modes. The Monte Carlo KL-divergence estimates are embarrassingly parallelizable in the core Pathfinder algorithm, as are multiple runs in the resampling version, further increasing Pathfinder's speed advantage with multiple cores.
翻訳日:2021-08-13 11:28:25 公開日:2021-08-11
# (参考訳) SoK: ディープニューラルネットワークの透かし画像分類はどのようにロバストか? (拡張版) [全文訳有]

SoK: How Robust is Image Classification Deep Neural Network Watermarking? (Extended Version) ( http://arxiv.org/abs/2108.04974v1 )

ライセンス: CC BY 4.0
Nils Lukas, Edward Jiang, Xinda Li, Florian Kerschbaum(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、DNNモデルの証明検証手法である。 透かしは、証拠検証を回避する代理モデルをもたらす透かし除去攻撃に対して堅牢であるべきである。 堅牢性を主張している多くの透かしスキームが提案されているが、その頑健性は比較的小さな攻撃に対して単独でのみ検証されている。 これらの主張に対する体系的かつ実証的な評価は、共通の包括的な削除攻撃に対するものではない。 透かし方式の堅牢性に関する不確実性は、実際にその展開を信頼することの難しさを引き起こす。 本稿では,最近提案された透かし方式が,大規模な除去攻撃に対して頑健であることを示す。 我々は, (i) 除去攻撃が知られていること, (ii) 代理モデルに由来するが除去攻撃として評価されていないこと, (iii) 新規除去攻撃について文献から調査した。 ウェイトシフトとスムーズリトレーニングは,本論文で調査したDNN透かし方式に適応した新規な除去攻撃である。 透かしと除去攻撃のための分類法を提案する。 実験評価としては,cifar-10およびimagenetデータセットの各攻撃および透かしスキームのパラメータセットに関するアブレーション研究を含む。 意外なことに、測量された透かしはどれも実際は堅牢ではない。 提案手法は, 適応攻撃に耐えられず, 除去攻撃として評価されていないサロゲートモデルを導出する方法が知られている。 これは、現在の堅牢性の評価に固有の欠陥を指摘する。 我々は,より現実的な敵モデルを用いて,より広範な除去攻撃に対して,透かし方式を評価する必要があることを示す。 ソースコードと評価結果の完全なデータセットが公開されており、その結果を独立して検証することができる。

Deep Neural Network (DNN) watermarking is a method for provenance verification of DNN models. Watermarking should be robust against watermark removal attacks that derive a surrogate model that evades provenance verification. Many watermarking schemes that claim robustness have been proposed, but their robustness is only validated in isolation against a relatively small set of attacks. There is no systematic, empirical evaluation of these claims against a common, comprehensive set of removal attacks. This uncertainty about a watermarking scheme's robustness causes difficulty to trust their deployment in practice. In this paper, we evaluate whether recently proposed watermarking schemes that claim robustness are robust against a large set of removal attacks. We survey methods from the literature that (i) are known removal attacks, (ii) derive surrogate models but have not been evaluated as removal attacks, and (iii) novel removal attacks. Weight shifting and smooth retraining are novel removal attacks adapted to the DNN watermarking schemes surveyed in this paper. We propose taxonomies for watermarking schemes and removal attacks. Our empirical evaluation includes an ablation study over sets of parameters for each attack and watermarking scheme on the CIFAR-10 and ImageNet datasets. Surprisingly, none of the surveyed watermarking schemes is robust in practice. We find that schemes fail to withstand adaptive attacks and known methods for deriving surrogate models that have not been evaluated as removal attacks. This points to intrinsic flaws in how robustness is currently evaluated. We show that watermarking schemes need to be evaluated against a more extensive set of removal attacks with a more realistic adversary model. Our source code and a complete dataset of evaluation results are publicly available, which allows to independently verify our conclusions.
翻訳日:2021-08-12 19:56:23 公開日:2021-08-11
# (参考訳) Deep Pairwiseが検索オートコンプリートでランキングを学習 [全文訳有]

Deep Pairwise Learning To Rank For Search Autocomplete ( http://arxiv.org/abs/2108.04976v1 )

ライセンス: CC BY 4.0
Kai Yuan, Da Kuang(参考訳) オートコンプリート("Query Auto-Completion" ;、AC)は、顧客がタイプしたプレフィックスに基づいた完全なクエリを提案する。 Autocompleteは商用検索エンジンの中核的な機能だ。 本稿では,コンテクスト対応ニューラルネットワークを用いたペアワイズランキングシステム(DeepPLTR)を提案する。DeepPLTRは,完全接続型ニューラルネットワーク構造に基づくペアワイズ損失を最小限に抑えて,コンテキスト的特徴と行動的特徴を活用してクエリランク付けを行う。 LambdaMARTのランキングと比較すると、DeepPLTRはオフライン評価で+3.90%のMeanReciprocalRank(M RR)リフトを示し、AmazonのオンラインA/B実験で+0.06%(p < 0.1)Gross Merchandise Value(GMV)リフトを得た。

Autocomplete (a.k.a "Query Auto-Completion" ;, "AC") suggests full queries based on a prefix typed by customer. Autocomplete has been a core feature of commercial search engine. In this paper, we propose a novel context-aware neural network based pairwise ranker (DeepPLTR) to improve AC ranking, DeepPLTR leverages contextual and behavioral features to rank queries by minimizing a pairwise loss, based on a fully-connected neural network structure. Compared to LambdaMART ranker, DeepPLTR shows +3.90% MeanReciprocalRank (MRR) lift in offline evaluation, and yielded +0.06% (p < 0.1) Gross Merchandise Value (GMV) lift in an Amazon's online A/B experiment.
翻訳日:2021-08-12 19:12:21 公開日:2021-08-11
# (参考訳) 深部ニューラルネットワークに基づく医療画像分類における単純なブラックボックスの普遍的敵攻撃 [全文訳有]

Simple black-box universal adversarial attacks on medical image classification based on deep neural networks ( http://arxiv.org/abs/2108.04979v1 )

ライセンス: CC BY 4.0
Kazuki Koga, Kazuhiro Takemoto(参考訳) UAP(Universal Adversarial Perturbation)と呼ばれる単一の摂動のみを使用して、最も深いニューラルネットワーク(DNN)タスクを妨害するユニバーサル敵攻撃は、DNNの実践的応用に対する現実的なセキュリティ脅威である。 特に、このような攻撃は医療画像の深刻な問題を引き起こす。 コンピュータベースシステムは通常、入力に対するクエリのみを許可し、出力へのアクセスが可能なブラックボックス条件で運用されているため、UAPの生成によく使用されるアルゴリズムは、敵がモデルの重みや損失勾配にアクセスできるホワイトボックス条件に限られているため、UAPの影響は限られているように思われる。 しかしながら,UAPはブラックボックス条件下で比較的小さなデータセットを用いて容易に生成可能であることを示す。 具体的には、DNN出力のみに基づく単純な丘登り探索を用いてUAPを生成する方法を提案し、代表的DNNに基づく医用画像分類を用いて提案手法の有効性を実証する。 ブラックボックス uap は非標的攻撃と標的攻撃の両方に使用できる。 総じて、ブラックボックスUAPは高い攻撃成功率(40%から90%)を示したが、一部はUAPを生成するために限られた情報しか利用していないため、比較的低い成功率を示した。 ブラックボックスUAPの脆弱性は、いくつかのモデルアーキテクチャで観察された。 その結果、敵はブラックボックス条件下で単純な手順で、DNNベースの医療画像診断を偽装したり制御したりすることでUAPを生成でき、UAPはより現実的なセキュリティ脅威であることが示唆された。

Universal adversarial attacks, which hinder most deep neural network (DNN) tasks using only a small single perturbation called a universal adversarial perturbation (UAP), is a realistic security threat to the practical application of a DNN. In particular, such attacks cause serious problems in medical imaging. Given that computer-based systems are generally operated under a black-box condition in which only queries on inputs are allowed and outputs are accessible, the impact of UAPs seems to be limited because well-used algorithms for generating UAPs are limited to a white-box condition in which adversaries can access the model weights and loss gradients. Nevertheless, we demonstrate that UAPs are easily generatable using a relatively small dataset under black-box conditions. In particular, we propose a method for generating UAPs using a simple hill-climbing search based only on DNN outputs and demonstrate the validity of the proposed method using representative DNN-based medical image classifications. Black-box UAPs can be used to conduct both non-targeted and targeted attacks. Overall, the black-box UAPs showed high attack success rates (40% to 90%), although some of them had relatively low success rates because the method only utilizes limited information to generate UAPs. The vulnerability of black-box UAPs was observed in several model architectures. The results indicate that adversaries can also generate UAPs through a simple procedure under the black-box condition to foil or control DNN-based medical image diagnoses, and that UAPs are a more realistic security threat.
翻訳日:2021-08-12 19:05:14 公開日:2021-08-11
# (参考訳) 深層自然言語処理における脆弱な解釈のための摂動入力 [全文訳有]

Perturbing Inputs for Fragile Interpretations in Deep Natural Language Processing ( http://arxiv.org/abs/2108.04990v1 )

ライセンス: CC BY 4.0
Sanchit Sinha, Hanjie Chen, Arshdeep Sekhon, Yangfeng Ji, Yanjun Qi(参考訳) Integrated Gradient や LIME のような解釈可能性の手法は、自然言語モデル予測を相対的な単語重要度スコアで説明するのに一般的な方法である。 これらの解釈は、医療や金融などの高い分野における信頼できるNLP応用のために堅牢である必要がある。 本稿では,入力テキスト上で単純な単語摂動を行うことで,解釈がどのように操作できるかを示す。 単語レベルのスワップのごく一部であるこれらの逆転摂動は、結果のテキストを意味的に、空間的にそのシード入力と類似させることを目的としている。 同時に、生成したサンプルは種子と同じ予測ラベルを達成するが、解釈方法によって実質的に異なる説明が与えられる。 実験では,2つのSOTA解釈手法を,3つの人気のあるTransformerモデルと2つの異なるNLPデータセット上で攻撃する脆弱な解釈を生成する。 10%未満の単語が平均的に摂動すると,順位の相関関係は20%以上低下する。 さらに、ランク順相関は、より多くの単語が摂動するにつれて減少し続ける。 さらに,本手法から生成した候補は品質指標が良好であることを実証する。

Interpretability methods like Integrated Gradient and LIME are popular choices for explaining natural language model predictions with relative word importance scores. These interpretations need to be robust for trustworthy NLP applications in high-stake areas like medicine or finance. Our paper demonstrates how interpretations can be manipulated by making simple word perturbations on an input text. Via a small portion of word-level swaps, these adversarial perturbations aim to make the resulting text semantically and spatially similar to its seed input (therefore sharing similar interpretations). Simultaneously, the generated examples achieve the same prediction label as the seed yet are given a substantially different explanation by the interpretation methods. Our experiments generate fragile interpretations to attack two SOTA interpretation methods, across three popular Transformer models and on two different NLP datasets. We observe that the rank order correlation drops by over 20% when less than 10% of words are perturbed on average. Further, rank-order correlation keeps decreasing as more words get perturbed. Furthermore, we demonstrate that candidates generated from our method have good quality metrics.
翻訳日:2021-08-12 18:50:15 公開日:2021-08-11
# (参考訳) 貯水池システムを用いた奇妙なアトラクタの学習

Learning strange attractors with reservoir systems ( http://arxiv.org/abs/2108.05024v1 )

ライセンス: CC BY 4.0
Lyudmila Grigoryeva, Allen Hart, and Juan-Pablo Ortega(参考訳) 本稿では,Takes の有名な埋め込み定理が,非可逆力学系の一般観測をランダムに生成した線形状態空間表現が,位相空間の力学を選択されたユークリッド状態空間に埋め込むという,より一般的な主張の特別な事例であることを示す。 この埋め込みは、この設定で生じる自然な一般化された同期と一致し、力学系と力学系自体の一般的な観測によって駆動される状態空間のダイナミクスの間の位相的共役をもたらす。 この結果は、カオス的誘引者の表現、学習、分析のための追加のツールを提供し、リカレントニューラルネットワークの文脈に現れる貯水池コンピューティング現象にさらなる光を放つ。

This paper shows that the celebrated Embedding Theorem of Takens is a particular case of a much more general statement according to which, randomly generated linear state-space representations of generic observations of an invertible dynamical system carry in their wake an embedding of the phase space dynamics into the chosen Euclidean state space. This embedding coincides with a natural generalized synchronization that arises in this setup and that yields a topological conjugacy between the state-space dynamics driven by the generic observations of the dynamical system and the dynamical system itself. This result provides additional tools for the representation, learning, and analysis of chaotic attractors and sheds additional light on the reservoir computing phenomenon that appears in the context of recurrent neural networks.
翻訳日:2021-08-12 18:34:19 公開日:2021-08-11
# (参考訳) DEMix Layers: モジュール型言語モデリングのためのドメインの分離 [全文訳有]

DEMix Layers: Disentangling Domains for Modular Language Modeling ( http://arxiv.org/abs/2108.05036v1 )

ライセンス: CC BY 4.0
Suchin Gururangan, Mike Lewis, Ari Holtzman, Noah A. Smith, Luke Zettlemoyer(参考訳) 入力テキストのドメイン上で言語モデル(LM)を条件付けることができる新しいドメインエキスパート混合層(DEMix)を導入する。 DEMixレイヤは専門的なフィードフォワードネットワークの集合であり、それぞれドメインに特化しており、LMをモジュール化している。 自己回帰変圧器lms(最大1.3bパラメータ)による広範囲な実験により、デミックス層はテスト時間のパープレキシティを低減し、トレーニング効率を高め、オーバーヘッドの少ない迅速な適応を可能にする。 パラメータフリーの重み付けアンサンブルを用いて推論中に専門家を混合することで、モデルが不均質な領域や見当たらない領域によりよく一般化できることを示す。 また、新しいドメインを古いドメインを忘れずに反復的に組み込むために専門家を追加し、追加のトレーニングなしに望ましくないドメインへのアクセスを制限するために専門家を除外できることを示した。 全体として、これらの結果は言語モデリング中にテキスト領域を明示的に条件付けすることの利点を示している。

We introduce a new domain expert mixture (DEMix) layer that enables conditioning a language model (LM) on the domain of the input text. A DEMix layer is a collection of expert feedforward networks, each specialized to a domain, that makes the LM modular: experts can be mixed, added or removed after initial training. Extensive experiments with autoregressive transformer LMs (up to 1.3B parameters) show that DEMix layers reduce test-time perplexity, increase training efficiency, and enable rapid adaptation with little overhead. We show that mixing experts during inference, using a parameter-free weighted ensemble, allows the model to better generalize to heterogeneous or unseen domains. We also show that experts can be added to iteratively incorporate new domains without forgetting older ones, and that experts can be removed to restrict access to unwanted domains, without additional training. Overall, these results demonstrate benefits of explicitly conditioning on textual domains during language modeling.
翻訳日:2021-08-12 18:32:47 公開日:2021-08-11
# (参考訳) 単一画像の劣化における粗視的アプローチの再考 [全文訳有]

Rethinking Coarse-to-Fine Approach in Single Image Deblurring ( http://arxiv.org/abs/2108.05054v1 )

ライセンス: CC BY-SA 4.0
Sung-Jin Cho, Seo-Won Ji, Jun-Pyo Hong, Seung-Won Jung, Sung-Jea Ko(参考訳) 単一画像劣化ネットワークのアーキテクチャ設計には粗大な戦略が広く用いられている。 従来の手法では、マルチスケールの入力画像でサブネットワークを積み重ね、下位サブネットワークから上位サブネットワークへの画像のシャープさを徐々に改善し、計算コストが必然的に高くなる。 高速で正確なネットワーク設計に向けて、粗大な戦略を再検討し、マルチインプットなマルチアウトプットU-net(MIMO-UNet)を提案する。 MIMO-UNetには3つの異なる特徴がある。 まず、MIMO-UNetのシングルエンコーダは、訓練の難易度を高めるために、マルチスケールな入力画像を取得する。 第二に、MIMO-UNetの単一デコーダは、異なるスケールで複数のデブロワード画像を出力し、単一のU字型ネットワークを用いてマルチカスケードUネットを模倣する。 最後に、マルチスケールな特徴を効率的にマージするために非対称な特徴融合を導入する。 goproとrealblurデータセットの広範な実験により、提案されたネットワークは精度と計算量の両方において最先端の手法よりも優れていることが示されている。 ソースコードはhttps://github.com/c hosj95/mimo-unetで研究目的に利用できる。

Coarse-to-fine strategies have been extensively used for the architecture design of single image deblurring networks. Conventional methods typically stack sub-networks with multi-scale input images and gradually improve sharpness of images from the bottom sub-network to the top sub-network, yielding inevitably high computational costs. Toward a fast and accurate deblurring network design, we revisit the coarse-to-fine strategy and present a multi-input multi-output U-net (MIMO-UNet). The MIMO-UNet has three distinct features. First, the single encoder of the MIMO-UNet takes multi-scale input images to ease the difficulty of training. Second, the single decoder of the MIMO-UNet outputs multiple deblurred images with different scales to mimic multi-cascaded U-nets using a single U-shaped network. Last, asymmetric feature fusion is introduced to merge multi-scale features in an efficient manner. Extensive experiments on the GoPro and RealBlur datasets demonstrate that the proposed network outperforms the state-of-the-art methods in terms of both accuracy and computational complexity. Source code is available for research purposes at https://github.com/c hosj95/MIMO-UNet.
翻訳日:2021-08-12 18:04:14 公開日:2021-08-11
# (参考訳) 自然画像の顕著な差分推定に向けて [全文訳有]

Towards Top-Down Just Noticeable Difference Estimation of Natural Images ( http://arxiv.org/abs/2108.05058v1 )

ライセンス: CC BY 4.0
Qiuping Jiang, Zhentao Liu, Shiqi Wang, Feng Shao, Weisi Lin(参考訳) Just noticeable difference (JND) 推定への既存の取り組みは、主に空間および周波数領域における異なる要因の可視性マスキング効果をモデル化し、それらを全体 JND 推定に融合することに集中している。 しかし, 全体視認性マスキング効果は, 文献で検討されている以上の寄与因子と関連しており, 個々の因子においてもマスキング効果を定式化することは不十分である。 さらに、異なるマスキング効果間のポテンシャル相互作用は、単純な融合モデルで特徴づけることも困難である。 この作業では、トップダウンの設計哲学でこれらの問題に対処する、劇的に異なる方法に目を向けます。 提案手法では,複数のマスキング効果をボトムアップ方式で定式化・融合するのではなく,トップダウン視点から臨界知覚損失なし(cpl)画像を直接生成し,原画像とcpl画像との差分マップを最終jndマップとして算出する。 入力画像が与えられると、klt係数エネルギーの収束特性を利用して、知覚的損失のない画像再構成に使用されるカルフネン・ロ\'{e}ve変換(klt)のスペクトル成分の最小数として定義される適応的臨界点(知覚的損失なし閾値)が導出される。 そして、導出臨界点に応じて逆kltを介してcpl画像を再構成することができる。 最後に、元の画像とCPL画像との差分マップをJNDマップとして算出する。 提案したJNDモデルの性能は,JND誘導ノイズ注入とJND誘導画像圧縮の2つの応用で評価する。 実験により,提案したJNDモデルにより,最新のJNDモデルよりも優れた性能が得られることが示された。

Existing efforts on Just noticeable difference (JND) estimation mainly dedicate to modeling the visibility masking effects of different factors in spatial and frequency domains, and then fusing them into an overall JND estimate. However, the overall visibility masking effect can be related with more contributing factors beyond those have been considered in the literature and it is also insufficiently accurate to formulate the masking effect even for an individual factor. Moreover, the potential interactions among different masking effects are also difficult to be characterized with a simple fusion model. In this work, we turn to a dramatically different way to address these problems with a top-down design philosophy. Instead of formulating and fusing multiple masking effects in a bottom-up way, the proposed JND estimation model directly generates a critical perceptual lossless (CPL) image from a top-down perspective and calculates the difference map between the original image and the CPL image as the final JND map. Given an input image, an adaptively critical point (perceptual lossless threshold), defined as the minimum number of spectral components in Karhunen-Lo\'{e}ve Transform (KLT) used for perceptual lossless image reconstruction, is derived by exploiting the convergence characteristics of KLT coefficient energy. Then, the CPL image can be reconstructed via inverse KLT according to the derived critical point. Finally, the difference map between the original image and the CPL image is calculated as the JND map. The performance of the proposed JND model is evaluated with two applications including JND-guided noise injection and JND-guided image compression. Experimental results have demonstrated that our proposed JND model can achieve better performance than several latest JND models.
翻訳日:2021-08-12 17:48:23 公開日:2021-08-11
# (参考訳) MultiTask-CenterNet( MCN):アンカーフリーアプローチによる効率的な多タスク学習 [全文訳有]

MultiTask-CenterNet (MCN): Efficient and Diverse Multitask Learning using an Anchor Free Approach ( http://arxiv.org/abs/2108.05060v1 )

ライセンス: CC BY 4.0
Falk Heuer, Sven Mantowsky, Syed Saqib Bukhari, Georg Schneider(参考訳) マルチタスク学習は機械学習において一般的なアプローチであり、共有アーキテクチャで複数の目標をトレーニングすることができる。 複数のタスクを一緒にトレーニングすることで、推論時間と計算資源を節約できることが示されている。 しかし、知覚関連マルチタスクネットワークでは、オブジェクト検出、インスタンス、セマンティックセグメンテーション、深さ推定など、密接に関連するタスクのみを見つけることができる。 多様なタスクを持つマルチタスクネットワークとその効率性に対する影響は十分に研究されていない。 本稿では,物体検出や意味セグメンテーション,人間のポーズ推定など,複数の多様な知覚関連タスクを一緒にトレーニングするための,centernet anchor-freeアプローチを補強する。 このDNNを Multitask-CenterNet (MCN) と呼ぶ。 さらに,MCN設定の効率性についても検討した。 mcnは、複数のタスクを一度に実行し、場合によっては、対応する単一のタスクネットワークのパフォーマンス値を超えることができる。 さらに重要なことに、mcnアーキテクチャは推論時間を短縮し、単一のタスクネットワークの構成と比べてネットワークサイズを小さくする。

Multitask learning is a common approach in machine learning, which allows to train multiple objectives with a shared architecture. It has been shown that by training multiple tasks together inference time and compute resources can be saved, while the objectives performance remains on a similar or even higher level. However, in perception related multitask networks only closely related tasks can be found, such as object detection, instance and semantic segmentation or depth estimation. Multitask networks with diverse tasks and their effects with respect to efficiency on one another are not well studied. In this paper we augment the CenterNet anchor-free approach for training multiple diverse perception related tasks together, including the task of object detection and semantic segmentation as well as human pose estimation. We refer to this DNN as Multitask-CenterNet (MCN). Additionally, we study different MCN settings for efficiency. The MCN can perform several tasks at once while maintaining, and in some cases even exceeding, the performance values of its corresponding single task networks. More importantly, the MCN architecture decreases inference time and reduces network size when compared to a composition of single task networks.
翻訳日:2021-08-12 17:27:26 公開日:2021-08-11
# (参考訳) XLNetによる可変長楽譜入力と音楽特殊位置符号化 [全文訳有]

Variable-Length Music Score Infilling via XLNet and Musically Specialized Positional Encoding ( http://arxiv.org/abs/2108.05064v1 )

ライセンス: CC BY 4.0
Chin-Jui Chang and Chun-Yi Lee and Yi-Hsuan Yang(参考訳) 本稿では,過去と将来の状況のギャップを埋める多声楽曲列を生成するための,音楽スコアインフィルメントのための新しい自己愛着モデルを提案する。 既存のアプローチでは、一定数のメモで短いセグメントを埋めることができ、あるいは過去と将来のコンテキストにまたがる固定時間しか満たさないが、我々のモデルは異なる時間間隔で、可変数のメモ(最大128)を埋めることができる。 私たちは3つの主要な技術貢献で達成します。 まず,教師なしモデル事前学習のための自己回帰モデルであるXLNetを,楽譜入力に適用する。 第2に,過去と未来における音符の位置のモデルをよりよく知らせる,相対バーエンコーディングと呼ばれる,音楽に特化された新しい位置エンコーディングを提案する。 第三に、相対バーエンコーディングを大文字化するために、ノートの他の属性を予測する前に、ノートの開始を1回ずつ予測するルックアヘッドオンセット予測を行う。 提案モデルと2つの強いベースラインを比較し,本モデルが主観的および主観的分析において優れていることを示す。

This paper proposes a new self-attention based model for music score infilling, i.e., to generate a polyphonic music sequence that fills in the gap between given past and future contexts. While existing approaches can only fill in a short segment with a fixed number of notes, or a fixed time span between the past and future contexts, our model can infill a variable number of notes (up to 128) for different time spans. We achieve so with three major technical contributions. First, we adapt XLNet, an autoregressive model originally proposed for unsupervised model pre-training, to music score infilling. Second, we propose a new, musically specialized positional encoding called relative bar encoding that better informs the model of notes' position within the past and future context. Third, to capitalize relative bar encoding, we perform look-ahead onset prediction to predict the onset of a note one time step before predicting the other attributes of the note. We compare our proposed model with two strong baselines and show that our model is superior in both objective and subjective analyses.
翻訳日:2021-08-12 17:18:03 公開日:2021-08-11
# (参考訳) あなたに対する強み:堅牢で普遍的な敵のパッチ攻撃の検出と緩和 [全文訳有]

Turning Your Strength against You: Detecting and Mitigating Robust and Universal Adversarial Patch Attack ( http://arxiv.org/abs/2108.05075v1 )

ライセンス: CC BY 4.0
Zitao Chen, Pritam Dash, Karthik Pattabiraman(参考訳) 画像分類深層ニューラルネットワーク(DNN)に対する敵対パッチ攻撃は、攻撃者が画像の有界領域内で任意の歪みを注入でき、頑健な(物理的世界における敵対的のまま)かつ普遍的な(すなわち、任意の入力に対して敵対的である)敵対的摂動を発生させることができる。 したがって、dnnのセキュリティを確保するためにそのような攻撃を検出し緩和することが重要である。 本研究は,強固で普遍的なパッチ攻撃を検知し軽減する手法である柔術を提案する。 柔術はパッチ攻撃の普遍性を利用して検出する。 説明可能なAI技術を使って、悪意のある可能性のある不審な特徴を識別し、不審な特徴を新しい画像に移植することでその悪意を検証する。 敵パッチは新たな画像に対して悪意のある動作を継続し、予測一貫性に基づいて検出することができる。 柔術は、不審な特徴をランダムにマスキングして敵の摂動を「消す」ことで、パッチ攻撃の局所的な性質を緩和する。 しかし、いくつかのコンテンツが削除されたため、ネットワークはイメージの分類に失敗する可能性がある。 そのため、偽装された画素から代替コンテンツの合成に画像インペインティングを用い、正確な予測のために「クリーン」イメージを再構築することができる。 2つのデータセット上で5つのDNN上での柔術の評価を行い、柔術が優れた性能を発揮し、既存の技術よりも著しく優れていることを示す。 柔術は、1)物理世界攻撃、2)多様なクラスをターゲットにした攻撃、3)異なる形状のパッチを使用する攻撃、4)適応攻撃など、基本攻撃の様々なバリエーションを防御することができる。

Adversarial patch attack against image classification deep neural networks (DNNs), in which the attacker can inject arbitrary distortions within a bounded region of an image, is able to generate adversarial perturbations that are robust (i.e., remain adversarial in physical world) and universal (i.e., remain adversarial on any input). It is thus important to detect and mitigate such attack to ensure the security of DNNs. This work proposes Jujutsu, a technique to detect and mitigate robust and universal adversarial patch attack. Jujutsu leverages the universal property of the patch attack for detection. It uses explainable AI technique to identify suspicious features that are potentially malicious, and verify their maliciousness by transplanting the suspicious features to new images. An adversarial patch continues to exhibit the malicious behavior on the new images and thus can be detected based on prediction consistency. Jujutsu leverages the localized nature of the patch attack for mitigation, by randomly masking the suspicious features to "remove" adversarial perturbations. However, the network might fail to classify the images as some of the contents are removed (masked). Therefore, Jujutsu uses image inpainting for synthesizing alternative contents from the pixels that are masked, which can reconstruct the "clean" image for correct prediction. We evaluate Jujutsu on five DNNs on two datasets, and show that Jujutsu achieves superior performance and significantly outperforms existing techniques. Jujutsu can further defend against various variants of the basic attack, including 1) physical-world attack; 2) attacks that target diverse classes; 3) attacks that use patches in different shapes and 4) adaptive attacks.
翻訳日:2021-08-12 17:00:32 公開日:2021-08-11
# (参考訳) 騒音監視のための協調学習 [全文訳有]

Cooperative Learning for Noisy Supervision ( http://arxiv.org/abs/2108.05092v1 )

ライセンス: CC BY 4.0
Hao Wu, Jiangchao Yao, Ya Zhang, Yanfeng Wang(参考訳) ノイズの多いラベルによる学習は、堅牢なディープラーニング分野に大きな関心を集めている。 最近の研究は、二重ネットワークを利用することで単一ネットワークの性能が向上するが、理論的な証明がないことを実証的に明らかにしている。 本稿では,二重ネットワークや複数ネットワークの活用効果を解析的に説明し,騒音監視のための協調学習(cool)フレームワークを提案する。 具体的には、coolのシンプルで効率的な組み合わせは、見えないクリーンデータに対するより信頼性の高いリスク最小化をもたらす。 合成と実世界の両方の設定で、いくつかのベンチマークで様々な実験が行われた。 その結果,CooLはいくつかの最先端手法よりも優れていた。

Learning with noisy labels has gained the enormous interest in the robust deep learning area. Recent studies have empirically disclosed that utilizing dual networks can enhance the performance of single network but without theoretic proof. In this paper, we propose Cooperative Learning (CooL) framework for noisy supervision that analytically explains the effects of leveraging dual or multiple networks. Specifically, the simple but efficient combination in CooL yields a more reliable risk minimization for unseen clean data. A range of experiments have been conducted on several benchmarks with both synthetic and real-world settings. Extensive results indicate that CooL outperforms several state-of-the-art methods.
翻訳日:2021-08-12 16:28:56 公開日:2021-08-11
# (参考訳) PLEX: 実践的な学習インデックス化を目指して [全文訳有]

PLEX: Towards Practical Learned Indexing ( http://arxiv.org/abs/2108.05117v1 )

ライセンス: CC BY 4.0
Mihail Stoian and Andreas Kipf and Ryan Marcus and Tim Kraska(参考訳) 最近の研究は、既存のインデックス構造を学習モデルに置き換えることを提案する。 しかし、現在の学習インデックスは多くのハイパーパラメータを持ち、しばしばエラー保証を提供しておらず、構築にコストがかかる。 実践的学習指標(PLEX)を紹介する。 PLEXは単一のハイパーパラメータ$\epsilon$(最大予測エラー)しか持たず、最先端のアプローチよりもビルドとルックアップ時間のトレードオフが優れている。 RadixSplineと同様、PLEXはスプラインと(複数レベルの)ラディクス層から構成される。 最初に与えられた$\epsilon$を満たすスプラインを構築し、次にスプラインポイントの分布をアドホックに分析して、ラディクス層を素早くチューニングする。

Latest research proposes to replace existing index structures with learned models. However, current learned indexes tend to have many hyperparameters, often do not provide any error guarantees, and are expensive to build. We introduce Practical Learned Index (PLEX). PLEX only has a single hyperparameter $\epsilon$ (maximum prediction error) and offers a better trade-off between build and lookup time than state-of-the-art approaches. Similar to RadixSpline, PLEX consists of a spline and a (multi-level) radix layer. It first builds a spline satisfying the given $\epsilon$ and then performs an ad-hoc analysis of the distribution of spline points to quickly tune the radix layer.
翻訳日:2021-08-12 16:18:03 公開日:2021-08-11
# (参考訳) Logic Explained Networks

Logic Explained Networks ( http://arxiv.org/abs/2108.05149v1 )

ライセンス: CC BY 4.0
Gabriele Ciravegna, Pietro Barbiero, Francesco Giannini, Marco Gori, Pietro Li\'o, Marco Maggini, Stefano Melacci(参考訳) ディープラーニングの普及と、ニューラルネットワークアーキテクチャの大きな限界との衝突は、人間の理解に足る意思決定のモチベーションを提供する能力の欠如に起因している。 機械が人間の専門家の決定を支持すると期待されている状況では、理解可能な説明を提供することが重要な特徴である。 説明を伝えるために使われる言語は、機械で実装できるほど形式的であり、幅広い聴衆が理解できるほど友好的でなければならない。 本稿では、ニューラルネットワークにおける説明可能な人工知能に対する一般的なアプローチを提案し、ニューラルネットワークのマインドフルな設計が、論理説明ネットワーク(LEN)と呼ばれる解釈可能な深層学習モデルのファミリにつながることを示す。 LENは入力を人間の理解可能な述語にのみ要求し、そのような述語を含む単純な一階述語論理(FOL)の式で説明を提供する。 LENは、多数のシナリオをカバーするのに十分な一般性を持っている。 このうち、LENが説明可能な特別な分類器として直接使用される場合や、FOL式で説明可能なブラックボックス分類器を作るための条件を作成する際に追加のネットワークとして機能する場合を考える。 教師付き学習問題は主に強調されているが,教師なし学習環境ではlensが学習し,説明を提供できることも示している。 いくつかのデータセットとタスクの実験結果から、LENは決定木やベイズ規則リストのような確立されたホワイトボックスモデルよりも、よりコンパクトで意味のある説明を提供しながら、より良い分類が得られることが示されている。

The large and still increasing popularity of deep learning clashes with a major limit of neural network architectures, that consists in their lack of capability in providing human-understandable motivations of their decisions. In situations in which the machine is expected to support the decision of human experts, providing a comprehensible explanation is a feature of crucial importance. The language used to communicate the explanations must be formal enough to be implementable in a machine and friendly enough to be understandable by a wide audience. In this paper, we propose a general approach to Explainable Artificial Intelligence in the case of neural architectures, showing how a mindful design of the networks leads to a family of interpretable deep learning models called Logic Explained Networks (LENs). LENs only require their inputs to be human-understandable predicates, and they provide explanations in terms of simple First-Order Logic (FOL) formulas involving such predicates. LENs are general enough to cover a large number of scenarios. Amongst them, we consider the case in which LENs are directly used as special classifiers with the capability of being explainable, or when they act as additional networks with the role of creating the conditions for making a black-box classifier explainable by FOL formulas. Despite supervised learning problems are mostly emphasized, we also show that LENs can learn and provide explanations in unsupervised learning settings. Experimental results on several datasets and tasks show that LENs may yield better classifications than established white-box models, such as decision trees and Bayesian rule lists, while providing more compact and meaningful explanations.
翻訳日:2021-08-12 16:07:45 公開日:2021-08-11
# (参考訳) ProAI: 自動車アプリケーションのための効率的な組み込みAIハードウェア - ベンチマークスタディ [全文訳有]

ProAI: An Efficient Embedded AI Hardware for Automotive Applications - a Benchmark Study ( http://arxiv.org/abs/2108.05170v1 )

ライセンス: CC BY 4.0
Sven Mantowsky, Falk Heuer, Syed Saqib Bukhari, Michael Keckeisen, Georg Schneider(参考訳) シングルボードコンピュータ(sbc)の分野における開発は、数年にわたって増加している。 それらは、Advanced Driver Assistance Systems(ADAS)とAutonomous Driving(AD)の車両におけるアプリケーションのような、モバイルプラットフォームで通常必要となる、コンピューティングパフォーマンスと消費電力のバランスが良い。 しかし、電力集約型ディープニューラルネットワーク(DNN)をリアルタイムに実行し、自動車安全統合レベル(ASIL)のような機能的安全要件を満たすことができる、より強力で効率的なSBCの必要性はますます高まっている。 ProAIは、主にマルチタスクDNNのような強力で効率的なアプリケーションを実行するためにZFによって開発されており、さらにADに必要な安全認証も備えている。 本稿では,マルチタスク・センタネットと呼ばれる電力集約型マルチタスクdnnアーキテクチャに基づいて,fpsや電力効率などの性能対策に関して,技術sbcの比較・議論を行う。 自動車用のスーパーコンピュータとして、proaiはパフォーマンスと効率の優れた組み合わせを提供し、1ワットあたりのfps数は現代のワークステーションラップトップの約2倍、jetson nanoの約4倍だ。 さらに、ベンチマーク中のCPUとGPUの使用量に基づいて、ProAIのさらに複雑なタスクにはまだ予備的なパワーがあることも示されている。

Development in the field of Single Board Computers (SBC) have been increasing for several years. They provide a good balance between computing performance and power consumption which is usually required for mobile platforms, like application in vehicles for Advanced Driver Assistance Systems (ADAS) and Autonomous Driving (AD). However, there is an ever-increasing need of more powerful and efficient SBCs which can run power intensive Deep Neural Networks (DNNs) in real-time and can also satisfy necessary functional safety requirements such as Automotive Safety Integrity Level (ASIL). ProAI is being developed by ZF mainly to run powerful and efficient applications such as multitask DNNs and on top of that it also has the required safety certification for AD. In this work, we compare and discuss state of the art SBC on the basis of power intensive multitask DNN architecture called Multitask-CenterNet with respect to performance measures such as, FPS and power efficiency. As an automotive supercomputer, ProAI delivers an excellent combination of performance and efficiency, managing nearly twice the number of FPS per watt than a modern workstation laptop and almost four times compared to the Jetson Nano. Furthermore, it was also shown that there is still power in reserve for further and more complex tasks on the ProAI, based on the CPU and GPU utilization during the benchmark.
翻訳日:2021-08-12 16:06:33 公開日:2021-08-11
# (参考訳) 時系列の実証的リスク最小化:予測のための非パラメトリック性能境界

Empirical Risk Minimization for Time Series: Nonparametric Performance Bounds for Prediction ( http://arxiv.org/abs/2108.05184v1 )

ライセンス: CC BY 4.0
Christian Brownlees and Jordi Llorens-Terrazas(参考訳) 経験的リスク最小化は、学習理論におけるアルゴリズム選択の標準的な原則である。 本稿では,時系列に対する経験的リスク最小化の特性について検討する。 この分析は、文献で遭遇した様々な種類の予測アプリケーションをカバーする一般的なフレームワークで行われる。 パラメータ駆動プロセスによって生成される一変量時系列の1ステップ先進予測について検討する。 時系列を予測するために再帰アルゴリズムのクラスが利用可能である。 アルゴリズムは、所定の期間に生成された予測が、予測と時系列のラッジ値の関数であるという意味で再帰的である。 時系列の生成機構とアルゴリズムのクラスとの関係は特定されていない。 その結果,経験的リスク最小化によって選択されるアルゴリズムは,アルゴリズムのクラス内で実現可能な最適予測性能を漸近的に達成できることがわかった。

Empirical risk minimization is a standard principle for choosing algorithms in learning theory. In this paper we study the properties of empirical risk minimization for time series. The analysis is carried out in a general framework that covers different types of forecasting applications encountered in the literature. We are concerned with 1-step-ahead prediction of a univariate time series generated by a parameter-driven process. A class of recursive algorithms is available to forecast the time series. The algorithms are recursive in the sense that the forecast produced in a given period is a function of the lagged values of the forecast and of the time series. The relationship between the generating mechanism of the time series and the class of algorithms is unspecified. Our main result establishes that the algorithm chosen by empirical risk minimization achieves asymptotically the optimal predictive performance that is attainable within the class of algorithms.
翻訳日:2021-08-12 15:56:59 公開日:2021-08-11
# (参考訳) 決定木の説明力について [全文訳有]

On the Explanatory Power of Decision Trees ( http://arxiv.org/abs/2108.05266v1 )

ライセンス: CC BY 4.0
Gilles Audemard and Steve Bellart and Louenas Bounia and Fr\'ed\'eric Koriche and Jean-Marie Lagniez and Pierre Marquis(参考訳) 決定木は、解釈可能性が最も重要である敏感なアプリケーションにおいて、長い間選択のモデルとして認識されてきた。 本稿では,ブール決定木を導出し,最小化し,十分な理由と対比的な説明をカウントする計算能力について検討する。 決定木が与えられた場合のインスタンスの最小サイズに関するすべての十分な理由の集合が、入力のサイズ(例と決定木)よりも指数関数的に大きいことを証明する。 したがって、十分な理由の完全なセットを生成することは不可能である。 さらに、単一の十分な理由を計算しても、一般的には十分証明できない。実際、同じインスタンスの2つの十分な理由は、多くの機能で異なる可能性がある。 この問題に対処し、すべての十分な理由の集合の合成的ビューを生成するために、関係する特徴の概念と、少なくとも1つまたはすべての十分な理由に現れる(否定可能な)特徴を特徴付けるために必要な特徴を導入し、多項式時間で計算できることを示す。 また,説明的重要度の概念を導入して,各機能(おそらく否定的)が十分な理由のセット内にある頻度を示す。 本稿では,特徴の説明的重要性と十分な理由の数をモデルカウント演算によって得る方法を示し,その多くが実用的であることが判明した。 また,最小サイズの十分な理由を列挙する方法についても説明する。 十分な理由とは異なり、決定木が与えられた場合のすべての対照的な説明の集合は、多項式時間で導出され、最小化され、数えられる。

Decision trees have long been recognized as models of choice in sensitive applications where interpretability is of paramount importance. In this paper, we examine the computational ability of Boolean decision trees in deriving, minimizing, and counting sufficient reasons and contrastive explanations. We prove that the set of all sufficient reasons of minimal size for an instance given a decision tree can be exponentially larger than the size of the input (the instance and the decision tree). Therefore, generating the full set of sufficient reasons can be out of reach. In addition, computing a single sufficient reason does not prove enough in general; indeed, two sufficient reasons for the same instance may differ on many features. To deal with this issue and generate synthetic views of the set of all sufficient reasons, we introduce the notions of relevant features and of necessary features that characterize the (possibly negated) features appearing in at least one or in every sufficient reason, and we show that they can be computed in polynomial time. We also introduce the notion of explanatory importance, that indicates how frequent each (possibly negated) feature is in the set of all sufficient reasons. We show how the explanatory importance of a feature and the number of sufficient reasons can be obtained via a model counting operation, which turns out to be practical in many cases. We also explain how to enumerate sufficient reasons of minimal size. We finally show that, unlike sufficient reasons, the set of all contrastive explanations for an instance given a decision tree can be derived, minimized and counted in polynomial time.
翻訳日:2021-08-12 15:55:43 公開日:2021-08-11
# (参考訳) DeliData: マルチパーティ問題解決のための検討データセット [全文訳有]

DeliData: A dataset for deliberation in multi-party problem solving ( http://arxiv.org/abs/2108.05271v1 )

ライセンス: CC BY 4.0
Georgi Karadzhov, Tom Stafford, Andreas Vlachos(参考訳) 対話システムの研究は伝統的に2人の対話者間の対話に焦点を当てており、主にグループ会話を無視している。 さらに、これまでのほとんどの研究はタスク指向の対話(例えばレストラン予約)やユーザエンゲージメント(チャットボット)に焦点を当てており、協調対話システムの研究は未調査の分野である。 そこで本研究では,500個のグループ対話と1万4千発話からなるコラボレーティブな対話を含む最初の公開データセットを提案する。 さらに,検討の手がかりをキャプチャし,注釈付き対話50を解放する,新しいアノテーションスキーマを提案する。 最後に,会話の構成性を予測するための分類器の訓練における注釈データの有用性を示す。 data collection platform, dataset, annotated corpusはhttps://delibot.xyzで公開されている。

Dialogue systems research is traditionally focused on dialogues between two interlocutors, largely ignoring group conversations. Moreover, most previous research is focused either on task-oriented dialogue (e.g.\ restaurant bookings) or user engagement (chatbots), while research on systems for collaborative dialogues is an under-explored area. To this end, we introduce the first publicly available dataset containing collaborative conversations on solving a cognitive task, consisting of 500 group dialogues and 14k utterances. Furthermore, we propose a novel annotation schema that captures deliberation cues and release 50 dialogues annotated with it. Finally, we demonstrate the usefulness of the annotated data in training classifiers to predict the constructiveness of a conversation. The data collection platform, dataset and annotated corpus are publicly available at https://delibot.xyz
翻訳日:2021-08-12 15:28:59 公開日:2021-08-11
# (参考訳) ランダム森林説明におけるスパーシティの取引複雑性 [全文訳有]

Trading Complexity for Sparsity in Random Forest Explanations ( http://arxiv.org/abs/2108.05276v1 )

ライセンス: CC BY 4.0
Gilles Audemard and Steve Bellart and Louenas Bounia and Fr\'ed\'eric Koriche and Jean-Marie Lagniez and Pierre Marquis(参考訳) ランダムフォレストは機械学習において強力なモデルアンサンブルと見なされてきた。 データや特徴サブサンプリングを通じて多様性を育む複数の決定木を訓練することにより、結果として生じるランダムな森林は単一の決定木よりも安定して信頼性の高い予測につながる。 決定木は容易に解釈できるが、無作為な森林による予測は、何百もの決定木に対して多数投票を行うため、より理解が難しい。 本稿では,入力インスタンスの「なぜ」を「正」あるいは「負」に分類する理由をブールランダム林で検討する。 特に,ランダム林の素因果関係の形式を取るための十分な理由の代替として,決定木の厳密な多数を占める素因となる主要な理由を導入する。 これらの異なる帰納的説明について,生成問題(最短の理由)と最小化問題(最短の理由)のトラクタビリティについて検討した。 さまざまなデータセットで実施された実験は、実行時の複雑さとスパーシティの間のトレードオフの存在を明らかにしている。 識別問題がDP完全である十分な理由は、単純な線形時間欲求アルゴリズムを用いて生成できる主要な理由よりも若干大きく、いつでも P ARTIAL M AX SAT アルゴリズムを用いてアプローチできる最小の主観的理由よりもはるかに大きい。

Random forests have long been considered as powerful model ensembles in machine learning. By training multiple decision trees, whose diversity is fostered through data and feature subsampling, the resulting random forest can lead to more stable and reliable predictions than a single decision tree. This however comes at the cost of decreased interpretability: while decision trees are often easily interpretable, the predictions made by random forests are much more difficult to understand, as they involve a majority vote over hundreds of decision trees. In this paper, we examine different types of reasons that explain "why" an input instance is classified as positive or negative by a Boolean random forest. Notably, as an alternative to sufficient reasons taking the form of prime implicants of the random forest, we introduce majoritary reasons which are prime implicants of a strict majority of decision trees. For these different abductive explanations, the tractability of the generation problem (finding one reason) and the minimization problem (finding one shortest reason) are investigated. Experiments conducted on various datasets reveal the existence of a trade-off between runtime complexity and sparsity. Sufficient reasons - for which the identification problem is DP-complete - are slightly larger than majoritary reasons that can be generated using a simple linear- time greedy algorithm, and significantly larger than minimal majoritary reasons that can be approached using an anytime P ARTIAL M AX SAT algorithm.
翻訳日:2021-08-12 15:13:34 公開日:2021-08-11
# (参考訳) RDF2vecの順序付け [全文訳有]

Putting RDF2vec in Order ( http://arxiv.org/abs/2108.05280v1 )

ライセンス: CC BY 4.0
Jan Portisch, Heiko Paulheim(参考訳) 知識グラフ上にノード埋め込みを生成するRDF2vec法は、ワード2vecに基づいており、コンテキストワードの位置に対して非依存である。 本稿では,RDF2vecをトレーニングする際の欠点として,順序を尊重するワード2vec変種を用いることで,特に異なるクラスのエンティティが関与するタスクにおいて,大幅な性能向上が期待できることを示す。

The RDF2vec method for creating node embeddings on knowledge graphs is based on word2vec, which, in turn, is agnostic towards the position of context words. In this paper, we argue that this might be a shortcoming when training RDF2vec, and show that using a word2vec variant which respects order yields considerable performance gains especially on tasks where entities of different classes are involved.
翻訳日:2021-08-12 14:50:12 公開日:2021-08-11
# (参考訳) アイスランド並列抽象コーパス [全文訳有]

Icelandic Parallel Abstracts Corpus ( http://arxiv.org/abs/2108.05289v1 )

ライセンス: CC BY 4.0
Haukur Barri S\'imonarson and V\'esteinn Sn{\ae}bjarnarson(参考訳) アイスランド語と英語の並列コーパスであるアイスランド・パラレル・抽象コーパス(IPAC)を,学生の論文や論文から要約して紹介する。 それらのテキストは、アイスランドの大学の学生のすべての記録、論文、最終プロジェクトを保持するSkemmanリポジトリから収集された。 コーパスは、Bleualignを用いたNMTモデルから両方の翻訳方向の文レベルBLEUスコアに基づいて整列された。 その結果、6万以上の並列抽象文から64kの文ペアのコーパスが得られる。

We present a new Icelandic-English parallel corpus, the Icelandic Parallel Abstracts Corpus (IPAC), composed of abstracts from student theses and dissertations. The texts were collected from the Skemman repository which keeps records of all theses, dissertations and final projects from students at Icelandic universities. The corpus was aligned based on sentence-level BLEU scores, in both translation directions, from NMT models using Bleualign. The result is a corpus of 64k sentence pairs from over 6 thousand parallel abstracts.
翻訳日:2021-08-12 14:45:42 公開日:2021-08-11
# (参考訳) ConvNets vs. Transformers: どのビジュアル表現が転送可能か? [全文訳有]

ConvNets vs. Transformers: Whose Visual Representations are More Transferable? ( http://arxiv.org/abs/2108.05305v1 )

ライセンス: CC BY 4.0
Hong-Yu Zhou, Chixiang Lu, Sibei Yang, Yizhou Yu(参考訳) 視覚トランスフォーマーはコンベネットの空間的インダクティブバイアスに制限されないため、コンピュータビジョン研究者から多くの注目を集めている。 しかし、TransformerベースのバックボーンはImageNet分類において大きな進歩を遂げているが、学習された表現がConvNetsの機能と同じくらい転送可能であるか、さらに転送可能であるかは、まだ不明である。 本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について系統的に検討する。 事前学習されたモデルのパフォーマンスと転送学習の強い相関関係を考えると、残差の2つのconvnet(すなわち、r-101x3とr-152x4)と、imagenetでエラーレートが近い3つのトランスフォーマーベースのビジュアルバックボーン(つまり、vit-b、vit-l、swain-b)が、下流データセットで同様の転送学習性能を示している。 13の下流タスク(うち15)におけるトランスフォーマーベースバックボーンの一貫した優位性は,細粒度分類,シーン認識(分類,セグメンテーション,深さ推定),オープンドメイン分類,顔認識などに限定されない。 より具体的には、2つのViTモデルが性能向上のためにネットワーク全体の微調整に大きく依存しているのに対して、Swin Transformerはそのような要件を持っていない。 さらに、視覚変換器はマルチタスク学習においてより堅牢に振る舞う、すなわち、相互に有益なタスクを管理する際に改善をもたらし、無関係なタスクに取り組む際にパフォーマンス損失を減らす。 我々の発見が将来のビジョントランスフォーマーの探索と活用を促進することを願っている。

Vision transformers have attracted much attention from computer vision researchers as they are not restricted to the spatial inductive bias of ConvNets. However, although Transformer-based backbones have achieved much progress on ImageNet classification, it is still unclear whether the learned representations are as transferable as or even more transferable than ConvNets' features. To address this point, we systematically investigate the transfer learning ability of ConvNets and vision transformers in 15 single-task and multi-task performance evaluations. Given the strong correlation between the performance of pre-trained models and transfer learning, we include 2 residual ConvNets (i.e., R-101x3 and R-152x4) and 3 Transformer-based visual backbones (i.e., ViT-B, ViT-L and Swin-B), which have close error rates on ImageNet, that indicate similar transfer learning performance on downstream datasets. We observe consistent advantages of Transformer-based backbones on 13 downstream tasks (out of 15), including but not limited to fine-grained classification, scene recognition (classification, segmentation and depth estimation), open-domain classification, face recognition, etc. More specifically, we find that two ViT models heavily rely on whole network fine-tuning to achieve performance gains while Swin Transformer does not have such a requirement. Moreover, vision transformers behave more robustly in multi-task learning, i.e., bringing more improvements when managing mutually beneficial tasks and reducing performance losses when tackling irrelevant tasks. We hope our discoveries can facilitate the exploration and exploitation of vision transformers in the future.
翻訳日:2021-08-12 14:41:46 公開日:2021-08-11
# (参考訳) 対物的利用による公正性 [全文訳有]

Fairness Through Counterfactual Utilities ( http://arxiv.org/abs/2108.05315v1 )

ライセンス: CC BY 4.0
Jack Blandin, Ian Kash(参考訳) Demographic Parity や Equal Opportunity のようなグループフェアネスの定義は、それらが分類問題に制限される基本的な決定確率について仮定する。 先行研究は、これらの定義を教師なし学習や強化学習といった他の機械学習環境に翻訳し、最も近い数学的等価性を実装した。 結果として、これらの定義には多くの暗黙の解釈がある。 その代わり、グループフェアネス定義の一般化セットを提供し、曖昧にすべての機械学習環境に拡張し、元のフェアネス概念を維持します。 そのような一般化された枠組みを可能にする2つの公正原則を導出する。 第一に、我々の枠組みは、予測よりも実用性の観点から結果を測定し、意思決定アルゴリズムと個人の両方に当てはまる。 第二に, 観察結果ではなく, 反事実的結果を考えることにより, 自己充足的予言を通じて公平性基準が満たされる抜け穴を防止できる。 筆者らは, 分類, クラスタリング, 強化学習における既知フェアネス問題を, 対実効用フェアネスフレームワークで解決する方法の具体例を示した。 また,Demographic Parity と Equal Opportunity の難解な解釈の多くが,私たちのフレームワークの特別なケースとしてうまく適合していることを示す。

Group fairness definitions such as Demographic Parity and Equal Opportunity make assumptions about the underlying decision-problem that restrict them to classification problems. Prior work has translated these definitions to other machine learning environments, such as unsupervised learning and reinforcement learning, by implementing their closest mathematical equivalent. As a result, there are numerous bespoke interpretations of these definitions. Instead, we provide a generalized set of group fairness definitions that unambiguously extend to all machine learning environments while still retaining their original fairness notions. We derive two fairness principles that enable such a generalized framework. First, our framework measures outcomes in terms of utilities, rather than predictions, and does so for both the decision-algorithm and the individual. Second, our framework considers counterfactual outcomes, rather than just observed outcomes, thus preventing loopholes where fairness criteria are satisfied through self-fulfilling prophecies. We provide concrete examples of how our counterfactual utility fairness framework resolves known fairness issues in classification, clustering, and reinforcement learning problems. We also show that many of the bespoke interpretations of Demographic Parity and Equal Opportunity fit nicely as special cases of our framework.
翻訳日:2021-08-12 14:27:50 公開日:2021-08-11
# (参考訳) IRを用いたバグローカライゼーションにおける検索クエリーの役割--実証的研究

The Forgotten Role of Search Queries in IR-based Bug Localization: An Empirical Study ( http://arxiv.org/abs/2108.05341v1 )

ライセンス: CC BY 4.0
Mohammad Masudur Rahman and Foutse Khomh and Shamima Yeasmin and Chanchal K. Roy(参考訳) 軽量で費用効率のよいIRベースのバグローカライゼーションアプローチは、ソフトウェアのバグを見つける上で有望であることを示している。 しかし、これらのアプローチの精度は、使用中のバグレポートに大きく依存する。 多数のバグレポートには、プレーンな自然言語テキストのみが含まれている。 既存の研究によると、これらのバグレポートを検索クエリとして使用する場合、IRベースのアプローチはうまく機能しない。 一方で、これらの自然言語のみのレポートでさえ、バグのローカライズを成功させるのに役立つ十分な優れたキーワードを含んでいる、という最近の証拠もある。 これらの結果から,自然言語のみのバグレポートが,優れたクエリキーワードの十分な情報源である可能性が示唆された。 一方、IRベースのバグローカライゼーションにおけるクエリ選択の実践に深刻な疑問を呈している。 本稿では、IRベースのバグローカライゼーションにおける最先端のクエリ選択の実践を批判的に検証する、詳細な実証研究を行うことにより、この側面の空をクリアしようと試みた。 特に、2,320のバグレポートのデータセットを使用し、文献からの10の既存アプローチを採用し、遺伝的アルゴリズムに基づくアプローチを利用して、これらのバグレポートから最適に近い検索クエリを構築し、3つの研究質問に答える。 我々は、特定の自然言語のみのバグレポートから適切なクエリ(バグローカライズ)を構築するには、最先端のクエリ構築アプローチが不十分であることを確認した。 また,バグレポートテキストから選択した最適クエリと最適でないクエリは,いくつかのキーワードの特徴から大きく異なることが示され,実用的な洞察が得られた。 さらに,動作可能な洞察を応用することで,非最適クエリの性能を27%~34%向上させることを示す。

Being light-weight and cost-effective, IR-based approaches for bug localization have shown promise in finding software bugs. However, the accuracy of these approaches heavily depends on their used bug reports. A significant number of bug reports contain only plain natural language texts. According to existing studies, IR-based approaches cannot perform well when they use these bug reports as search queries. On the other hand, there is a piece of recent evidence that suggests that even these natural language-only reports contain enough good keywords that could help localize the bugs successfully. On one hand, these findings suggest that natural language-only bug reports might be a sufficient source for good query keywords. On the other hand, they cast serious doubt on the query selection practices in the IR-based bug localization. In this article, we attempted to clear the sky on this aspect by conducting an in-depth empirical study that critically examines the state-of-the-art query selection practices in IR-based bug localization. In particular, we use a dataset of 2,320 bug reports, employ ten existing approaches from the literature, exploit the Genetic Algorithm-based approach to construct optimal, near-optimal search queries from these bug reports, and then answer three research questions. We confirmed that the state-of-the-art query construction approaches are indeed not sufficient for constructing appropriate queries (for bug localization) from certain natural language-only bug reports although they contain such queries. We also demonstrate that optimal queries and non-optimal queries chosen from bug report texts are significantly different in terms of several keyword characteristics, which has led us to actionable insights. Furthermore, we demonstrate 27%--34% improvement in the performance of non-optimal queries through the application of our actionable insights to them.
翻訳日:2021-08-12 14:00:35 公開日:2021-08-11
# (参考訳) 樹木群集における偽散布率の制御

Controlling the False Split Rate in Tree-Based Aggregation ( http://arxiv.org/abs/2108.05350v1 )

ライセンス: CC BY 4.0
Simeng Shao, Jacob Bien, Adel Javanmard(参考訳) 多くの領域では、データ測定は自然に木の葉と関連付けられ、これらの測定間の関係を表現する。 例えば、企業は産業に属し、セクターなどの粗い部門に属し、微生物は種から王国までの分類学的階層に配置され、街路ブロックは地区に属し、より大きな地域に属している。 この論文で考察する木に基づく集約の問題は、葉の木のどの部分群が実際は一つの実体として扱われるべきなのか、どの要素が互いに区別されるべきなのかを問うものである。 偽分割率(false split rate)は、部分群が分割すべきでないときに分割された度合いを記述する誤差測度である。 次に,木に基づくアグリゲーションのための複数の仮説テストアルゴリズムを提案する。 木に基づく集約の2つの主要な例に焦点をあてる。1つは集約手段と、もう1つは回帰係数の集約を含む。 この方法では、そのボラティリティに基づいて株式を集約し、タクシー運賃に基づいてニューヨーク市の周辺地域を集約する。

In many domains, data measurements can naturally be associated with the leaves of a tree, expressing the relationships among these measurements. For example, companies belong to industries, which in turn belong to ever coarser divisions such as sectors; microbes are commonly arranged in a taxonomic hierarchy from species to kingdoms; street blocks belong to neighborhoods, which in turn belong to larger-scale regions. The problem of tree-based aggregation that we consider in this paper asks which of these tree-defined subgroups of leaves should really be treated as a single entity and which of these entities should be distinguished from each other. We introduce the "false split rate", an error measure that describes the degree to which subgroups have been split when they should not have been. We then propose a multiple hypothesis testing algorithm for tree-based aggregation, which we prove controls this error measure. We focus on two main examples of tree-based aggregation, one which involves aggregating means and the other which involves aggregating regression coefficients. We apply this methodology to aggregate stocks based on their volatility and to aggregate neighborhoods of New York City based on taxi fares.
翻訳日:2021-08-12 13:59:29 公開日:2021-08-11
# Smooth Manifold Triangulationのための二分割マスクにおけるボクセルの再配置学習

Learning to Rearrange Voxels in Binary Segmentation Masks for Smooth Manifold Triangulation ( http://arxiv.org/abs/2108.05269v1 )

ライセンス: Link先を確認
Jianning Li, Antonio Pepe, Christina Gsaxner, Yuan Jin, Jan Egger(参考訳) 医用画像、特にボリューム画像は高解像度であり、しばしば標準的なデスクトップGPUの容量を超える。 その結果、ほとんどの深層学習に基づく医用画像解析タスクでは、入力画像がニューラルネットワークに供給される前に、実質的にダウンサンプリングされる必要がある。 しかし、ダウンサンプリングは画像の品質を損なう可能性があり、特に微妙な幾何学的詳細を保存する必要がある再構成作業では望ましくない。 本稿では,画像の粗い表現を生成するのは深層学習アルゴリズムのみであり,中程度のgpuメモリを消費する高分解能画像の再構成が可能であることを提案する。 高分解能な結果を得るために,粗大出力のボクセル再構成と階層画像合成という2つの新しい手法を提案する。 粗い出力と比較して、高解像度版は滑らかな表面三角測量が可能で、最高の品質で3dプリントできる。 本稿では,脳インプラント設計におけるMICCAI課題であるAutoImplant 2021(https://autoimp lant2021.grand-chall enge.org/)のデータセットを用いて実験を行った。 データセットには高解像度の頭蓋骨が含まれており、3次元空間に埋め込まれた2次元多様体と見ることができる。 この研究に関連するコードはhttps://github.com/J ianningli/voxel_rear rangementでアクセスすることができる。

Medical images, especially volumetric images, are of high resolution and often exceed the capacity of standard desktop GPUs. As a result, most deep learning-based medical image analysis tasks require the input images to be downsampled, often substantially, before these can be fed to a neural network. However, downsampling can lead to a loss of image quality, which is undesirable especially in reconstruction tasks, where the fine geometric details need to be preserved. In this paper, we propose that high-resolution images can be reconstructed in a coarse-to-fine fashion, where a deep learning algorithm is only responsible for generating a coarse representation of the image, which consumes moderate GPU memory. For producing the high-resolution outcome, we propose two novel methods: learned voxel rearrangement of the coarse output and hierarchical image synthesis. Compared to the coarse output, the high-resolution counterpart allows for smooth surface triangulation, which can be 3D-printed in the highest possible quality. Experiments of this paper are carried out on the dataset of AutoImplant 2021 (https://autoimplant 2021.grand-challenge .org/), a MICCAI challenge on cranial implant design. The dataset contains high-resolution skulls that can be viewed as 2D manifolds embedded in a 3D space. Codes associated with this study can be accessed at https://github.com/J ianningli/voxel_rear rangement.
翻訳日:2021-08-12 13:44:19 公開日:2021-08-11
# 手書き数式認識のためのトランスフォーマーに基づく数学言語モデル

A Transformer-based Math Language Model for Handwritten Math Expression Recognition ( http://arxiv.org/abs/2108.05002v1 )

ライセンス: Link先を確認
Huy Quang Ung, Cuong Tuan Nguyen, Hung Tuan Nguyen, Thanh-Nghia Truong and Masaki Nakagawa(参考訳) 手書きの数学的表現(HME)は、人間の解釈にあいまいさを含むことがある。 いくつかの数学記号は、ドットやコマ、0、O、oなどの書体で非常によく似ており、文脈情報を使わずにHME認識システムが扱うことは困難である。 そこで本研究では,トランスフォーマーを用いた数学言語モデル(TMLM)を提案する。 自己確認機構に基づいて、トークン列における入力トークンの高レベル表現を、その前のトークンとの関連性によって算出する。 したがって、TMLMは、数学的表現(ME)における記号と関係の間の長い依存関係と相関を捉えることができる。 CROHME 2016で提供された約70,000個のLaTeX配列のコーパスを用いて,提案言語モデルを訓練した。 TMLMは4.42の難易度を達成し、従来の数学言語モデル、すなわちN-gramとリカレントニューラルネットワークベースの言語モデルを上回った。 さらに,TMLMを確率的文脈自由文法に基づくHME認識システムに結合し,重み付けパラメータを用いてトップ10候補を再ランクする。 crohme 2016 と crohme 2019 の試験セットの表現率をそれぞれ 2.97 % と 0.83 %向上させた。

Handwritten mathematical expressions (HMEs) contain ambiguities in their interpretations, even for humans sometimes. Several math symbols are very similar in the writing style, such as dot and comma or 0, O, and o, which is a challenge for HME recognition systems to handle without using contextual information. To address this problem, this paper presents a Transformer-based Math Language Model (TMLM). Based on the self-attention mechanism, the high-level representation of an input token in a sequence of tokens is computed by how it is related to the previous tokens. Thus, TMLM can capture long dependencies and correlations among symbols and relations in a mathematical expression (ME). We trained the proposed language model using a corpus of approximately 70,000 LaTeX sequences provided in CROHME 2016. TMLM achieved the perplexity of 4.42, which outperformed the previous math language models, i.e., the N-gram and recurrent neural network-based language models. In addition, we combine TMLM into a stochastic context-free grammar-based HME recognition system using a weighting parameter to re-rank the top-10 best candidates. The expression rates on the testing sets of CROHME 2016 and CROHME 2019 were improved by 2.97 and 0.83 percentage points, respectively.
翻訳日:2021-08-12 13:43:31 公開日:2021-08-11
# medical-vlbert: 代替学習を用いたcovid-19ctレポート生成のための医用視覚言語bert

Medical-VLBERT: Medical Visual Language BERT for COVID-19 CT Report Generation With Alternate Learning ( http://arxiv.org/abs/2108.05067v1 )

ライセンス: Link先を確認
Guangyi Liu, Yinghong Liao, Fuyu Wang, Bin Zhang, Lu Zhang, Xiaodan Liang, Xiang Wan, Shaolin Li, Zhen Li, Shuixing Zhang, Shuguang Cui(参考訳) コンピュータ断層撮影(CT)や胸部X線(CXR)などの医療画像技術は、新型コロナウイルスの診断を容易にするために主に用いられている。 手動のレポート作成には通常時間がかかりすぎるため、医療報告を自動的に即座に生成できるよりインテリジェントな補助医療システムが必要である。 本稿では,医療用視覚言語BERT(Medical-VLBERT) モデルを用いて,新型コロナウイルススキャンの異常を同定し,検出された病変領域に基づいて医療報告を自動生成する手法を提案する。 より正確な医療報告を作成し、視覚と言語の違いを最小限に抑えるために、このモデルは、知識の事前学習と伝達の2つの手順による代替学習戦略を採用する。 より正確に言うと、知識事前学習手順は、医学テキストからの知識を記憶することであり、一方、取得した知識を医療画像の観察を通じて専門的な医学文章の世代に利用することである。 実際に,中国広州省の江南大学第一附属病院と中国周海省のスンヤットセン大学第5附属病院から,中国の368例と胸部CT1104例の検診結果のデータセットを構築した。 さらに、covid-19トレーニングサンプルの不十分さを軽減するため、まずは中国の大規模cx-chrデータセットでトレーニングを行い、その後、さらなる微調整のためにcovid-19 ctデータセットに転送した。 実験の結果,CX-CHRデータセットとCX-CHRデータセットを用いて,用語予測とレポート生成に関する最先端の成果が得られた。 中国のCOVID-19 CTデータセットはhttps://covid19ct.gi thub.io/で公開されている。

Medical imaging technologies, including computed tomography (CT) or chest X-Ray (CXR), are largely employed to facilitate the diagnosis of the COVID-19. Since manual report writing is usually too time-consuming, a more intelligent auxiliary medical system that could generate medical reports automatically and immediately is urgently needed. In this article, we propose to use the medical visual language BERT (Medical-VLBERT) model to identify the abnormality on the COVID-19 scans and generate the medical report automatically based on the detected lesion regions. To produce more accurate medical reports and minimize the visual-and-linguisti c differences, this model adopts an alternate learning strategy with two procedures that are knowledge pretraining and transferring. To be more precise, the knowledge pretraining procedure is to memorize the knowledge from medical texts, while the transferring procedure is to utilize the acquired knowledge for professional medical sentences generations through observations of medical images. In practice, for automatic medical report generation on the COVID-19 cases, we constructed a dataset of 368 medical findings in Chinese and 1104 chest CT scans from The First Affiliated Hospital of Jinan University, Guangzhou, China, and The Fifth Affiliated Hospital of Sun Yat-sen University, Zhuhai, China. Besides, to alleviate the insufficiency of the COVID-19 training samples, our model was first trained on the large-scale Chinese CX-CHR dataset and then transferred to the COVID-19 CT dataset for further fine-tuning. The experimental results showed that Medical-VLBERT achieved state-of-the-art performances on terminology prediction and report generation with the Chinese COVID-19 CT dataset and the CX-CHR dataset. The Chinese COVID-19 CT dataset is available at https://covid19ct.gi thub.io/.
翻訳日:2021-08-12 13:43:12 公開日:2021-08-11
# VisEvent: フレームとイベントフローのコラボレーションによる信頼性の高いオブジェクトトラッキング

VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows ( http://arxiv.org/abs/2108.05015v1 )

ライセンス: Link先を確認
Xiao Wang, Jianing Li, Lin Zhu, Zhipeng Zhang, Zhe Chen, Xin Li, Yaowei Wang, Yonghong Tian, Feng Wu(参考訳) フレームごとの強度画像を記録する可視カメラとは異なり、生物学的にインスパイアされたイベントカメラは、より低レイテンシで非同期でスパースなイベントのストリームを生成する。 実際には、目に見えるカメラはテクスチャの詳細やスローモーションをよりよく知覚できるが、イベントカメラは動きのぼやけがなく、ダイナミックレンジが大きく、高速な動きと低照度でうまく機能する。 したがって、2つのセンサは互いに協調してより信頼性の高い物体追跡を実現することができる。 本研究では,このタスクに現実的でスケールドなデータセットが欠如していることから,大規模可視イベントベンチマーク(visevent)を提案する。 我々のデータセットは、低照度、高速、バックグラウンドの乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されており、それぞれ500と320の動画を含むトレーニングとテストサブセットに分割されている。 viseventに基づいて、イベントフローをイベントイメージに変換し、現在のシングルモダリティトラッカをデュアルモダリティバージョンに拡張して、30以上のベースラインメソッドを構築します。 さらに,可視データとイベントデータとのより効率的な融合を実現するために,クロスモダリティトランスを提案すれば,よりシンプルで効果的なトラッキングアルゴリズムを構築することができる。 提案するviseventデータセットと2つのシミュレーションデータセット(otb-dvsとvot-dvs)に関する広範な実験により,本モデルの有効性が検証された。 データセットとソースコードは、私たちのプロジェクトページで利用可能になります。

Different from visible cameras which record intensity images frame by frame, the biologically inspired event camera produces a stream of asynchronous and sparse events with much lower latency. In practice, the visible cameras can better perceive texture details and slow motion, while event cameras can be free from motion blurs and have a larger dynamic range which enables them to work well under fast motion and low illumination. Therefore, the two sensors can cooperate with each other to achieve more reliable object tracking. In this work, we propose a large-scale Visible-Event benchmark (termed VisEvent) due to the lack of a realistic and scaled dataset for this task. Our dataset consists of 820 video pairs captured under low illumination, high speed, and background clutter scenarios, and it is divided into a training and a testing subset, each of which contains 500 and 320 videos, respectively. Based on VisEvent, we transform the event flows into event images and construct more than 30 baseline methods by extending current single-modality trackers into dual-modality versions. More importantly, we further build a simple but effective tracking algorithm by proposing a cross-modality transformer, to achieve more effective feature fusion between visible and event data. Extensive experiments on the proposed VisEvent dataset, and two simulated datasets (i.e., OTB-DVS and VOT-DVS), validated the effectiveness of our model. The dataset and source code will be available at our project page: \url{https://sites.google .com/view/viseventtr ack/}.
翻訳日:2021-08-12 13:42:40 公開日:2021-08-11
# ni-uda: 非共有および不均衡ビッグデータから小さな不均衡アプリケーションへのグラフ逆ドメイン適応

NI-UDA: Graph Adversarial Domain Adaptation from Non-shared-and-Imbal anced Big Data to Small Imbalanced Applications ( http://arxiv.org/abs/2108.05061v1 )

ライセンス: Link先を確認
Guangyi Xiao, Weiwei Xiang, Huan Liu, Hao Chen, Shun Peng, Jingzhi Guo and Zhiguo Gong(参考訳) 本稿では,非共有・不均衡なクラスを持つビッグデータから,非共有・不均衡なアプリケーション (NI-UDA) への非教師なしドメイン適応 (UDA) の問題を解決するための,クラス構造の意味的知識推論に基づく汎用グラフ適応型ドメイン適応 (GADA) を提案する。 私たちの目標は、優先順位階層の知識を活用して、グラフ推論によるドメインの逆アライメント機能表現を強化することです。 本稿では, NI-UDAにおける2つの課題に対処するため, 階層グラフ推論(HGR)層とソース分類フィルタ(SCF)を用いて, 対向領域適応を行う。 スパースクラス転送チャレンジでは、ノード予測によって階層グラフノードに局所的特徴を集約し、スパースクラスに対する階層グラフ推論によるドメイン逆アライメント機能を強化する。 我々のHGRは、自己注意、非線形マッピング、グラフ正規化における階層的注意によるスパースクラスの直接的な意味パターンの学習に貢献する。 我々のSCFは,低信頼な非共有データをHGR層にフィルタリングすることで,非共有データからの知識共有を負の伝達効果なしで実現する。 2つのベンチマークデータセットの実験では、GAD手法が最先端のUDAアルゴリズムを一貫して改善していることが示されている。 GADA(HGR) は、Meal300データセットにおける不均衡なソースタスクに対して、それぞれ \textbf{7.19\%} と GVB-GD によって MDD の f1 を大幅に改善することができる。 コードはhttps://gadatransfer .wixsite.com/gada.co mで入手できる。

We propose a new general Graph Adversarial Domain Adaptation (GADA) based on semantic knowledge reasoning of class structure for solving the problem of unsupervised domain adaptation (UDA) from the big data with non-shared and imbalanced classes to specified small and imbalanced applications (NI-UDA), where non-shared classes mean the label space out of the target domain. Our goal is to leverage priori hierarchy knowledge to enhance domain adversarial aligned feature representation with graph reasoning. In this paper, to address two challenges in NI-UDA, we equip adversarial domain adaptation with Hierarchy Graph Reasoning (HGR) layer and the Source Classifier Filter (SCF). For sparse classes transfer challenge, our HGR layer can aggregate local feature to hierarchy graph nodes by node prediction and enhance domain adversarial aligned feature with hierarchy graph reasoning for sparse classes. Our HGR contributes to learn direct semantic patterns for sparse classes by hierarchy attention in self-attention, non-linear mapping and graph normalization. our SCF is proposed for the challenge of knowledge sharing from non-shared data without negative transfer effect by filtering low-confidence non-shared data in HGR layer. Experiments on two benchmark datasets show our GADA methods consistently improve the state-of-the-art adversarial UDA algorithms, e.g. GADA(HGR) can greatly improve f1 of the MDD by \textbf{7.19\%} and GVB-GD by \textbf{7.89\%} respectively on imbalanced source task in Meal300 dataset. The code is available at https://gadatransfer .wixsite.com/gada.
翻訳日:2021-08-12 13:42:13 公開日:2021-08-11
# コントラスト的自己監督型テクスチャ学習に基づく頚部光コヒーレンストモグラフィ画像分類

Cervical Optical Coherence Tomography Image Classification Based on Contrastive Self-Supervised Texture Learning ( http://arxiv.org/abs/2108.05081v1 )

ライセンス: Link先を確認
Kaiyi Chen, Qingbin Wang, Yutao Ma(参考訳) 背景: 頸部がんは女性生殖系の健康に深刻な影響を及ぼす。 光コヒーレンス断層撮影(OCT)は、頚部疾患検出のための非侵襲的高分解能イメージング技術として現れる。 しかし,OCT画像アノテーションは知識集約的かつ時間を要するため,ディープラーニングに基づく分類モデルの学習過程を阻害する。 目的: 本研究の目的は, 自己教師付き学習に基づく生体内oct画像の分類のためのcadxアプローチの開発である。 方法:畳み込みニューラルネットワーク(CNN)によって抽出された高レベルのセマンティックな特徴に加えて、CADxアプローチでは、対照的なテクスチャ学習によって学習された未ラベルの頚部CT画像のテクスチャ特徴を利用する。 中国から来院した733人の多施設臨床研究から,OCT画像データセットの10倍のクロスバリデーションを行った。 結果: 高悪性度扁平上皮内病変 (hsil) および頸部癌を含む高リスク疾患の検出のための2次分類タスクにおいて, 感度91.17+minus 4.99%, 特異度93.96+minus 4.72%のauc値が0.9798+またはminus 0.0157であった。 さらに,118名の中国人患者から2873dオクターボリュームの外部検証データセットに対して,クロスシェイプしきい値投票戦略を用いて91.53%の感度と97.37%の特異性を得た。 結論: コントラスト学習に基づくcadx法は, エンド・ツー・エンドのcnnモデルよりも優れており, テクスチャ特徴に基づく解釈性が向上した。

Background: Cervical cancer seriously affects the health of the female reproductive system. Optical coherence tomography (OCT) emerges as a non-invasive, high-resolution imaging technology for cervical disease detection. However, OCT image annotation is knowledge-intensive and time-consuming, which impedes the training process of deep-learning-based classification models. Objective: This study aims to develop a computer-aided diagnosis (CADx) approach to classifying in-vivo cervical OCT images based on self-supervised learning. Methods: Besides high-level semantic features extracted by a convolutional neural network (CNN), the proposed CADx approach leverages unlabeled cervical OCT images' texture features learned by contrastive texture learning. We conducted ten-fold cross-validation on the OCT image dataset from a multi-center clinical study on 733 patients from China. Results: In a binary classification task for detecting high-risk diseases, including high-grade squamous intraepithelial lesion (HSIL) and cervical cancer, our method achieved an area-under-the-curve (AUC) value of 0.9798 Plus or Minus 0.0157 with a sensitivity of 91.17 Plus or Minus 4.99% and a specificity of 93.96 Plus or Minus 4.72% for OCT image patches; also, it outperformed two out of four medical experts on the test set. Furthermore, our method achieved a 91.53% sensitivity and 97.37% specificity on an external validation dataset containing 287 3D OCT volumes from 118 Chinese patients in a new hospital using a cross-shaped threshold voting strategy. Conclusion: The proposed contrastive-learning -based CADx method outperformed the end-to-end CNN models and provided better interpretability based on texture features, which holds great potential to be used in the clinical protocol of "see-and-treat."
翻訳日:2021-08-12 13:41:37 公開日:2021-08-11
# オープンエンドビデオ質問応答のためのトランスフォーマティブ言語モデルにビデオメタデータを付加する

Mounting Video Metadata on Transformer-based Language Model for Open-ended Video Question Answering ( http://arxiv.org/abs/2108.05158v1 )

ライセンス: Link先を確認
Donggeon Lee, Seongho Choi, Youwon Jang, Byoung-Tak Zhang(参考訳) ビデオ質問応答は、最近マルチモーダルビデオ研究者から多くの注目を集めている。 ほとんどのビデオ質問応答データセットは、通常マルチチョイス形式である。 しかし、マルチ選択タスクのモデルは、その答えを推測しない。 むしろ、正しい答えを選択するための答え候補を比較する。 さらに、他のタスクに拡張することが難しくなります。 本稿では,既存のマルチチョイスビデオ質問応答に対して,オープンエンドビデオ質問応答に変更することで挑戦する。 オープンエンドな質問応答に対処するために、事前訓練されたGPT2モデルを用いる。 モデルはビデオ入力と字幕で微調整されている。 既存の dramaqaデータセットをオープンエンドの質問応答に変更してアブレーション研究を行い、ビデオメタデータを用いて性能を向上させることができることを示す。

Video question answering has recently received a lot of attention from multimodal video researchers. Most video question answering datasets are usually in the form of multiple-choice. But, the model for the multiple-choice task does not infer the answer. Rather it compares the answer candidates for picking the correct answer. Furthermore, it makes it difficult to extend to other tasks. In this paper, we challenge the existing multiple-choice video question answering by changing it to open-ended video question answering. To tackle open-ended question answering, we use the pretrained GPT2 model. The model is fine-tuned with video inputs and subtitles. An ablation study is performed by changing the existing DramaQA dataset to an open-ended question answering, and it shows that performance can be improved using video metadata.
翻訳日:2021-08-12 13:41:01 公開日:2021-08-11
# 注意ピラミッドによる人物識別

Person Re-identification via Attention Pyramid ( http://arxiv.org/abs/2108.05340v1 )

ライセンス: Link先を確認
Guangyi Chen, Tianpei Gu, Jiwen Lu, Jin-An Bao, and Jie Zhou(参考訳) 本稿では,人物再識別のための注意ピラミッド手法を提案する。 グローバルアテンションマップのみを学習する従来のアテンションベースの手法とは異なり、私たちのアテンションピラミッドは、人間のアテンションが異なるスケールで異なるため、マルチスケールでアテンション領域を利用する。 我々の注目ピラミッドは、ぼろぼろした背景に前景の人物に気づく傾向にある人間の視覚知覚の過程を模倣し、観察されたシャツの特定の色に焦点を合わせます。 具体的には,注意ピラミッドを"split-attend-merge-s tack"の原理で記述する。 まず、機能を複数のローカル部分に分割し、対応する注意点を学習します。 次に、局所的な注意をマージし、これらの統合された注意と残りの接続を注意ピラミッドとして積み重ねる。 提案された注目ピラミッドは、市販モデルに適用可能な軽量なプラグアンドプレイモジュールである。 本手法は,チャネル毎の注意と空間的注意の2つの異なる注意機構において,注意ピラミッド法を実装した。 本手法は, Market-1501, DukeMTMC, CUHK03, MSMT17 の4つの大規模人物識別ベンチマークを用いて評価した。 実験の結果, 計算コストが低く, 最先端の手法を高いマージンで上回る, 優れた手法が得られた。

In this paper, we propose an attention pyramid method for person re-identification. Unlike conventional attention-based methods which only learn a global attention map, our attention pyramid exploits the attention regions in a multi-scale manner because human attention varies with different scales. Our attention pyramid imitates the process of human visual perception which tends to notice the foreground person over the cluttered background, and further focus on the specific color of the shirt with close observation. Specifically, we describe our attention pyramid by a "split-attend-merge-s tack" principle. We first split the features into multiple local parts and learn the corresponding attentions. Then, we merge local attentions and stack these merged attentions with the residual connection as an attention pyramid. The proposed attention pyramid is a lightweight plug-and-play module that can be applied to off-the-shelf models. We implement our attention pyramid method in two different attention mechanisms including channel-wise attention and spatial attention. We evaluate our method on four largescale person re-identification benchmarks including Market-1501, DukeMTMC, CUHK03, and MSMT17. Experimental results demonstrate the superiority of our method, which outperforms the state-of-the-art methods by a large margin with limited computational cost.
翻訳日:2021-08-12 13:40:51 公開日:2021-08-11
# 雑音強調オートエンコーダを用いたクロスドメインFew-shot学習における一般化能力の向上

Boosting the Generalization Capability in Cross-Domain Few-shot Learning via Noise-enhanced Supervised Autoencoder ( http://arxiv.org/abs/2108.05028v1 )

ライセンス: Link先を確認
Hanwen Liang, Qiong Zhang, Peng Dai and Juwei Lu(参考訳) State of the Art (SOTA) few-shot Learning (FSL)メソッドは、ソースとターゲットのデータセット間のドメイン差が存在する場合、大幅なパフォーマンス低下を被る。 ソースデータセットの強い識別能力は、必ずしもターゲットデータセットの分類精度が高いとは限らない。 本稿では,モデルの一般化能力を高めることにより,このクロスドメイン・マイズショット学習(cdfsl)問題に対処する。 具体的には,ノイズ強調型教師付きオートエンコーダ(nsae)を用いて,特徴分布の広いバリエーションを捉えることをモデルに教える。 NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。 クラス内相関(ICC)に基づく理論的解析により、NSAEから得られた特徴埋め込みは、ターゲット領域においてより強力な識別能力と一般化能力を有することが示された。 また,nsae構造を利用し,適応性の向上と対象領域の分類性能の向上を実現する2段階の微調整手法を提案する。 提案手法の有効性を実証するための実験およびアブレーション実験を行った。 実験結果から,提案手法は様々な条件下で常にSOTA法より優れていることがわかった。

State of the art (SOTA) few-shot learning (FSL) methods suffer significant performance drop in the presence of domain differences between source and target datasets. The strong discrimination ability on the source dataset does not necessarily translate to high classification accuracy on the target dataset. In this work, we address this cross-domain few-shot learning (CDFSL) problem by boosting the generalization capability of the model. Specifically, we teach the model to capture broader variations of the feature distributions with a novel noise-enhanced supervised autoencoder (NSAE). NSAE trains the model by jointly reconstructing inputs and predicting the labels of inputs as well as their reconstructed pairs. Theoretical analysis based on intra-class correlation (ICC) shows that the feature embeddings learned from NSAE have stronger discrimination and generalization abilities in the target domain. We also take advantage of NSAE structure and propose a two-step fine-tuning procedure that achieves better adaption and improves classification performance in the target domain. Extensive experiments and ablation studies are conducted to demonstrate the effectiveness of the proposed method. Experimental results show that our proposed method consistently outperforms SOTA methods under various conditions.
翻訳日:2021-08-12 13:38:03 公開日:2021-08-11
# 逆気象下における3次元物体検出のための実LiDAR点雲の霧シミュレーション

Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in Adverse Weather ( http://arxiv.org/abs/2108.05249v1 )

ライセンス: Link先を確認
Martin Hahner, Christos Sakaridis, Dengxin Dai, Luc Van Gool(参考訳) 本研究は,霧の天候下でのLiDARによる3次元物体検出の課題に対処する。 このようなシナリオでデータの収集と注釈は、非常に時間と労力とコストがかかります。 本稿では,晴天時に収集された既存の実データ集合をタスクに再利用できるように,物理的に正確な霧をクリアウィーザーシーンにシミュレートすることで,この問題に取り組む。 1)任意のLiDARデータセットに適用可能な物理的に有効な霧シミュレーション手法を開発する。 これにより、大規模なフォグジートレーニングデータの取得は、追加コストなしで解放される。 これらの部分合成データは、実霧データ上での3次元物体検出と追跡、同時局在化とマッピングなど、複数の知覚方法のロバスト性を改善するために使用できる。 2) 最先端検出手法を用いた広範囲な実験により, 霧の存在下での3次元物体検出の性能向上にフォグシミュレーションを活用できることを実証した。 そこで,我々はフォグデータセットを用いた観測において,強い3次元物体検出ベースラインを最初に提供した。 私たちのコードはwww.trace.ethz.ch/li dar_fog_simulationで利用可能です。

This work addresses the challenging task of LiDAR-based 3D object detection in foggy weather. Collecting and annotating data in such a scenario is very time, labor and cost intensive. In this paper, we tackle this problem by simulating physically accurate fog into clear-weather scenes, so that the abundant existing real datasets captured in clear weather can be repurposed for our task. Our contributions are twofold: 1) We develop a physically valid fog simulation method that is applicable to any LiDAR dataset. This unleashes the acquisition of large-scale foggy training data at no extra cost. These partially synthetic data can be used to improve the robustness of several perception methods, such as 3D object detection and tracking or simultaneous localization and mapping, on real foggy data. 2) Through extensive experiments with several state-of-the-art detection approaches, we show that our fog simulation can be leveraged to significantly improve the performance for 3D object detection in the presence of fog. Thus, we are the first to provide strong 3D object detection baselines on the Seeing Through Fog dataset. Our code is available at www.trace.ethz.ch/li dar_fog_simulation.
翻訳日:2021-08-12 13:37:45 公開日:2021-08-11
# 視覚的テキストグラウンドの損失改善

A Better Loss for Visual-Textual Grounding ( http://arxiv.org/abs/2108.05308v1 )

ライセンス: Link先を確認
Davide Rigoni, Luciano Serafini, Alessandro Sperduti(参考訳) テキスト句と画像が与えられると、視覚の接地問題は、文章によって参照される画像の内容を特定するタスクとして定義される。 これは、人間とコンピュータの相互作用、画像-テキストの参照解像度、ビデオ-テキストの参照解像度において、いくつかの現実世界のアプリケーションを持つ困難なタスクである。 過去数年間、重くて複雑なモデルによってこの問題に対処してきたいくつかの作業は、以前よりも視覚的な依存関係をよりよく捉えようとするものである。 これらのモデルは典型的には、グラウンド化に有用なマルチモーダル特徴の学習方法と、視覚的言及の予測バウンディングボックスの改善方法に焦点を当てた2つの主要コンポーネントで構成されている。 これら2つのサブタスク間の適切な学習バランスを見つけるのは簡単ではなく、現在のモデルはこの問題に関して必ずしも最適ではない。 本稿では,単純なマルチモーダル機能融合コンポーネントを用いて,上述の2つのサブタスク間の学習バランスが向上するクラス確率に基づいて,より効果的な損失関数を導入することにより,最先端モデルよりも高い精度を実現することができるモデルを提案する。

Given a textual phrase and an image, the visual grounding problem is defined as the task of locating the content of the image referenced by the sentence. It is a challenging task that has several real-world applications in human-computer interaction, image-text reference resolution, and video-text reference resolution. In the last years, several works have addressed this problem with heavy and complex models that try to capture visual-textual dependencies better than before. These models are typically constituted by two main components that focus on how to learn useful multi-modal features for grounding and how to improve the predicted bounding box of the visual mention, respectively. Finding the right learning balance between these two sub-tasks is not easy, and the current models are not necessarily optimal with respect to this issue. In this work, we propose a model that, although using a simple multi-modal feature fusion component, is able to achieve a higher accuracy than state-of-the-art models thanks to the adoption of a more effective loss function, based on the classes probabilities, that reach, in the considered datasets, a better learning balance between the two sub-tasks mentioned above.
翻訳日:2021-08-12 13:37:26 公開日:2021-08-11
# リカレントニューラルネットワークを用いた教師なし運転行動プロファイリング

Unsupervised Driver Behavior Profiling leveraging Recurrent Neural Networks ( http://arxiv.org/abs/2108.05079v1 )

ライセンス: Link先を確認
Young Ah Choi, Kyung Ho Park, Eunji Park, Huy Kang Kim(参考訳) インテリジェント輸送の時代において、ドライバーの攻撃性に関する知識を提供するため、ドライバーの行動プロファイルは有益な技術となっている。 従来のアプローチでは、統計的ヒューリスティックスルールや教師付き学習ベースモデルを確立することで、ドライバーの行動プロファイリングのパフォーマンス向上を実現していた。 それでも、実践者がラベル付きデータセットを準備すべきには限界があり、事前のアプローチでは優先順位が分かっていない攻撃的な振る舞いを分類できない。 上記の欠点を改善するために,教師なし学習パラダイムを活用したドライバの行動プロファイリング手法を提案する。 まず,運転行動プロファイリング問題を異常検出としてキャストした。 次に,特徴ベクトル列が与えられた次の特徴ベクトルを予測する再帰ニューラルネットワークを構築した。 通常のドライバーデータだけでモデルを訓練しました。 その結果、本モデルでは、攻撃的な運転者の行動列と正常な運転者の行動列で与えられる低誤差から高い回帰誤差を生じる。 通常の運転行動とアグレッシブ運転行動の誤差の違いは、運転行動のプロファイリングに適切なフラグになりうると考え、実験で正確な性能を達成できた。 最後に,各アグレッシブドライバ行動の同定に最適なシーケンス長のレベルを更に分析した。 提案手法は,教師なし運転行動プロファイリングに有用なベースラインであり,効率的なインテリジェントトランスポーテーションエコシステムに寄与することを期待している。

In the era of intelligent transportation, driver behavior profiling has become a beneficial technology as it provides knowledge regarding the driver's aggressiveness. Previous approaches achieved promising driver behavior profiling performance through establishing statistical heuristics rules or supervised learning-based models. Still, there exist limits that the practitioner should prepare a labeled dataset, and prior approaches could not classify aggressive behaviors which are not known a priori. In pursuit of improving the aforementioned drawbacks, we propose a novel approach to driver behavior profiling leveraging an unsupervised learning paradigm. First, we cast the driver behavior profiling problem as anomaly detection. Second, we established recurrent neural networks that predict the next feature vector given a sequence of feature vectors. We trained the model with normal driver data only. As a result, our model yields high regression error given a sequence of aggressive driver behavior and low error given at a sequence of normal driver behavior. We figured this difference of error between normal and aggressive driver behavior can be an adequate flag for driver behavior profiling and accomplished a precise performance in experiments. Lastly, we further analyzed the optimal level of sequence length for identifying each aggressive driver behavior. We expect the proposed approach to be a useful baseline for unsupervised driver behavior profiling and contribute to the efficient, intelligent transportation ecosystem.
翻訳日:2021-08-12 13:37:07 公開日:2021-08-11
# ディープラーニングを用いたモバイルユーザクリック行動の大規模モデリング

Large-Scale Modeling of Mobile User Click Behaviors Using Deep Learning ( http://arxiv.org/abs/2108.05342v1 )

ライセンス: Link先を確認
Xin Zhou, Yang Li(参考訳) モバイルデバイス上のユーザのタップやクリックのシーケンスのモデリングは、インタラクションの動作の理解を深め、ユーザがクリックしたい次の要素を推奨することによって、ui最適化の機会を提供します。 我々は、オプトインした4000人以上のモバイルユーザーから2000万クリック以上の大規模なデータセットを分析した。 次に,ユーザのクリック履歴,ui画面の構造情報,さらにはその日の時刻などの現在のコンテキストに基づいて,ユーザがクリックする次の要素を予測するディープラーニングモデルを設計した。 本研究では,データセットに基づく一連のベースライン手法と比較し,深層モデルについて徹底的に検討した。 実験の結果,テストユーザの保持したデータセットに基づいて次のクリックを予測するために,モデルが48%,71%の精度(トップ-1,トップ-3)を達成した。 モバイルインタラクションにモデルを統合するためのいくつかのシナリオと、ユーザがモデルからメリットを享受できる方法について論じました。

Modeling tap or click sequences of users on a mobile device can improve our understandings of interaction behavior and offers opportunities for UI optimization by recommending next element the user might want to click on. We analyzed a large-scale dataset of over 20 million clicks from more than 4,000 mobile users who opted in. We then designed a deep learning model that predicts the next element that the user clicks given the user's click history, the structural information of the UI screen, and the current context such as the time of the day. We thoroughly investigated the deep model by comparing it with a set of baseline methods based on the dataset. The experiments show that our model achieves 48% and 71% accuracy (top-1 and top-3) for predicting next clicks based on a held-out dataset of test users, which significantly outperformed all the baseline methods with a large margin. We discussed a few scenarios for integrating the model in mobile interaction and how users can potentially benefit from the model.
翻訳日:2021-08-12 13:36:46 公開日:2021-08-11
# 走査路からの眼球運動の学習

Learning Oculomotor Behaviors from Scanpath ( http://arxiv.org/abs/2108.05025v1 )

ライセンス: Link先を確認
Beibin Li, Nicholas Nuechterlein, Erin Barney, Claire Foster, Minah Kim, Monique Mahony, Adham Atyabi, Li Feng, Quan Wang, Pamela Ventola, Linda Shapiro, Frederick Shic(参考訳) 視線追跡アプリケーションに関連する眼球運動行動の同定は重要な課題であるが、しばしば難しい課題である。 既存の視線追跡データから知識を自動学習し抽出することを目的として,oculomotor scanpathsの豊富な表現を作成し,下流タスクの学習を容易にする新しい手法を開発した。 提案する刺激非依存型oculomotor behavior framework(obf)モデルは、再構成、予測符号化、固定同定、コントラスト学習タスクを含む教師なしおよび半教師なしタスクから人間のoculomotor挙動を学習する。 トレーニング済みのOBFモデルは、様々なアプリケーションで使用することができる。 自閉症スペクトラム障害と視聴覚刺激分類課題では,前訓練モデルがベースラインアプローチや従来のスキャンパス法を上回っている。 アブレーション実験により,提案手法は,より大きなモデルサイズとより多様なアイトラッキングトレーニングデータセットを用いて,さらに優れた結果が得られることが示された。 オープンソースコード: http://github.com/be ibinli/obf。

Identifying oculomotor behaviors relevant for eye-tracking applications is a critical but often challenging task. Aiming to automatically learn and extract knowledge from existing eye-tracking data, we develop a novel method that creates rich representations of oculomotor scanpaths to facilitate the learning of downstream tasks. The proposed stimulus-agnostic Oculomotor Behavior Framework (OBF) model learns human oculomotor behaviors from unsupervised and semi-supervised tasks, including reconstruction, predictive coding, fixation identification, and contrastive learning tasks. The resultant pre-trained OBF model can be used in a variety of applications. Our pre-trained model outperforms baseline approaches and traditional scanpath methods in autism spectrum disorder and viewed-stimulus classification tasks. Ablation experiments further show our proposed method could achieve even better results with larger model sizes and more diverse eye-tracking training datasets, supporting the model's potential for future eye-tracking applications. Open source code: http://github.com/Be ibinLi/OBF.
翻訳日:2021-08-12 13:36:16 公開日:2021-08-11
# 動物プランクトン湖の深層学習分類

Deep Learning Classification of Lake Zooplankton ( http://arxiv.org/abs/2108.05258v1 )

ライセンス: Link先を確認
S. P. Kyathanahally, T. Hardeman, E. Merz, T. Kozakiewicz, M. Reyes, P. Isles, F. Pomati, M. Baity-Jesi(参考訳) プランクトンは淡水生息地における環境変化と生態系の健康の効果的な指標であるが、手動顕微鏡によるプランクトンデータの収集は非常に労働集約的で高価である。 自動プランクトンイメージングは、プランクトンコミュニティを高頻度でリアルタイムに監視する、有望な方法を提供する。 しかし、何百万もの画像のマニュアルアノテーションは、分類学者にとって深刻な課題である。 深層学習分類器は様々な分野でうまく適用され、海洋プランクトン画像の分類に用いられると奨励的な結果が得られた。 本稿では,湖底プランクトンを同定するために開発された深層学習モデルと,最適な性能を得るためのいくつかの戦略について述べる。 この目的のために、17900以上の動物プランクトンと大型植物プランクトンコロニーの画像を35クラスに分類し、scripps planktonというデュアルカメラを用いてグライフェンセ湖(スウィッツァーランド)で検出した。 最良モデルは転送学習とアンサンブルに基づいて,98%の精度と93%のF1スコアでプランクトン画像を分類した。 他の自動撮像ツール(zooscan、flowcytobot、isiis)が生成する無償利用可能なプランクトンデータセットでテストした場合、従来のモデルよりも性能が向上した。 注釈付きデータ、コード、分類モデルはオンラインで無料で利用できます。

Plankton are effective indicators of environmental change and ecosystem health in freshwater habitats, but collection of plankton data using manual microscopic methods is extremely labor-intensive and expensive. Automated plankton imaging offers a promising way forward to monitor plankton communities with high frequency and accuracy in real-time. Yet, manual annotation of millions of images proposes a serious challenge to taxonomists. Deep learning classifiers have been successfully applied in various fields and provided encouraging results when used to categorize marine plankton images. Here, we present a set of deep learning models developed for the identification of lake plankton, and study several strategies to obtain optimal performances,which lead to operational prescriptions for users. To this aim, we annotated into 35 classes over 17900 images of zooplankton and large phytoplankton colonies, detected in Lake Greifensee (Switzerland) with the Dual Scripps Plankton Camera. Our best models were based on transfer learning and ensembling, which classified plankton images with 98% accuracy and 93% F1 score. When tested on freely available plankton datasets produced by other automated imaging tools (ZooScan, FlowCytobot and ISIIS), our models performed better than previously used models. Our annotated data, code and classification models are freely available online.
翻訳日:2021-08-12 13:35:59 公開日:2021-08-11
# DQ-GAT: ディープQラーニングとグラフ注意ネットワークによる安全かつ効率的な自動運転を目指して

DQ-GAT: Towards Safe and Efficient Autonomous Driving with Deep Q-Learning and Graph Attention Networks ( http://arxiv.org/abs/2108.05030v1 )

ライセンス: Link先を確認
Peide Cai, Hengli Wang, Yuxiang Sun, Ming Liu(参考訳) マルチエージェントおよび動的交通シナリオにおける自律運転は、他の道路エージェントの動作が不確実で、明確にモデル化することが困難であり、エゴ車両は、道を譲ったり、マージしたり、ターンを取るといった様々な環境で安全かつ効率的な運転を実現するために、それらと複雑な交渉スキルを適用するべきである。 従来の計画手法は概ねルールベースであり、これらの複雑な動的シナリオではスケールが悪く、しばしば反応性や過度に保守的な振る舞いにつながる。 そのため、作業性を維持するには退屈な人的努力が必要である。 近年、深層学習に基づく手法は、より優れた一般化能力を持つが手作業の少ない有望な結果を示している。 しかし、データセットバイアスや分布ミスマッチの問題に悩まされる教師付き模倣学習(IL)や、深層強化学習(DRL)で訓練される一方、特定のトラフィックシナリオに焦点を当てている。 本研究では,グラフ注意に基づくネットワークを用いて対話を暗黙的にモデル化し,非同期深層学習を用いてネットワークのエンドツーエンドを教師なしで学習する,スケーラブルで積極的な自律運転を実現するためのDQ-GATを提案する。 高忠実度運転シミュレーションによる広範囲な実験により、本手法は、見たシナリオと見えないシナリオの両方において、より良いトレードオフ安全性と効率を示し、同等のタスク完了時間を持つベースライン(最大4.7$\times$)よりも高いゴール成功率を達成できることを示した。 デモビデオはhttps://caipeide.git hub.io/dq-gat/で見ることができる。

Autonomous driving in multi-agent and dynamic traffic scenarios is challenging, where the behaviors of other road agents are uncertain and hard to model explicitly, and the ego-vehicle should apply complicated negotiation skills with them to achieve both safe and efficient driving in various settings, such as giving way, merging and taking turns. Traditional planning methods are largely rule-based and scale poorly in these complex dynamic scenarios, often leading to reactive or even overly conservative behaviors. Therefore, they require tedious human efforts to maintain workability. Recently, deep learning-based methods have shown promising results with better generalization capability but less hand engineering effort. However, they are either implemented with supervised imitation learning (IL) that suffers from the dataset bias and distribution mismatch problems, or trained with deep reinforcement learning (DRL) but focus on one specific traffic scenario. In this work, we propose DQ-GAT to achieve scalable and proactive autonomous driving, where graph attention-based networks are used to implicitly model interactions, and asynchronous deep Q-learning is employed to train the network end-to-end in an unsupervised manner. Extensive experiments through a high-fidelity driving simulation show that our method can better trade-off safety and efficiency in both seen and unseen scenarios, achieving higher goal success rates than the baselines (at most 4.7$\times$) with comparable task completion time. Demonstration videos are available at https://caipeide.git hub.io/dq-gat/.
翻訳日:2021-08-12 13:35:34 公開日:2021-08-11
# PGCD:アスペクトベース感情分析のための位置誘導帰属分布ユニット

PGCD: a position-guied contributive distribution unit for aspect based sentiment analysis ( http://arxiv.org/abs/2108.05098v1 )

ライセンス: Link先を確認
Zijian Zhang, Chenxin Zhang, Qin Liu, Hongming Zhu, Jiangfeng Li(参考訳) アスペクト・ベース・感情分析(absa)は、アスペクト・ギブン文のセンチメント・エント極性を探るもので、ソーシャルメディアや世論に広く応用されている。 従来の研究は、テキストデータにのみ依存する文特徴生成によるアスペクト非依存表現を導出していた。 本稿では,位置ガイド型コントリビューティブ・ディストリビュータ(PGCD)ユニットを提案する。 位置依存型コントリビューションパターンを実現し、ABSAタスクのアスペクト関連ステートメント特徴を生成する。 Shapley Valueから引用すると、PGCDは位置誘導型コンテキストコントリビューションを獲得し、アスペクトベースの表現を強化することができる。 さらに、このユニットは、データセットを自身で再構成したマルチモーダルABSAタスクへの影響を改善するために使用できる。 データセット(SemEval)を用いたテキストレベルとテキストオーディオレベルの両方の大規模な実験により、提案した単位を適用して、メインストリームモデルが精度とF1スコアを向上することを示した。

Aspect based sentiment analysis (ABSA), exploring sentim- ent polarity of aspect-given sentence, has drawn widespread applications in social media and public opinion. Previously researches typically derive aspect-independent representation by sentence feature generation only depending on text data. In this paper, we propose a Position-Guided Contributive Distribution (PGCD) unit. It achieves a position-dependent contributive pattern and generates aspect-related statement feature for ABSA task. Quoted from Shapley Value, PGCD can gain position-guided contextual contribution and enhance the aspect-based representation. Furthermore, the unit can be used for improving effects on multimodal ABSA task, whose datasets restructured by ourselves. Extensive experiments on both text and text-audio level using dataset (SemEval) show that by applying the proposed unit, the mainstream models advance performance in accuracy and F1 score.
翻訳日:2021-08-12 13:35:00 公開日:2021-08-11
# PSOアルゴリズムを用いた複雑な境界条件を有する傾斜ケーブルの周波数ベース張力評価

Frequency-based tension assessment of an inclined cable with complex boundary conditions using the PSO algorithm ( http://arxiv.org/abs/2108.05020v1 )

ライセンス: Link先を確認
Wen-ming Zhang, Zhi-wei Wang, Dan-dian Feng, Zhao Liu(参考訳) 周波数ベース法は、ケーブル張力を測定する最も一般的な方法である。 しかし, 従来の周波数ベース法の計算式は, ケーブルの傾斜角, sag拡張性, 曲げ剛性を包括的に考慮することなく, 理想的なヒンジあるいは固定境界条件に基づいており, ケーブル張力同定に重大な誤差が生じた。 本研究の目的は、粒子群最適化(PSO)アルゴリズムを用いて、ケーブルの両端の複雑な境界条件を考慮した周波数に基づくケーブル張力同定手法を提案することである。 まず, 傾斜角, 曲げ剛性, サグ伸張性, および未知のケーブル境界に対する回転拘束剛性および横支持剛性を考慮した改良型ステートケーブルモデルを構築した。 静止ケーブルモデルの振動モード方程式を離散化し, 有限差分法を用いて解いた。 そこで,PSOアルゴリズムに基づくマルチパラメータ同定手法を提案する。 本手法により, 測定した多次周波数による張力, 曲げ剛性, 軸方向剛性, 境界回転拘束剛性, 境界横支持剛性を同期的に同定することができた。 本手法の有効性と精度を数値解析により検証した。 最後に,中国における吊り橋(神東橋)のアンカースパンストランドの張力同定に提案手法を適用した。 提案手法を用いたケーブル張力同定の結果と, 先行研究で検討した既存手法と, 現場圧力リング測定結果との比較を行った。 比較の結果,提案手法はケーブル張力同定において高い精度を示した。

The frequency-based method is the most commonly used method for measuring cable tension. However, the calculation formulas for the conventional frequency-based method are generally based on the ideally hinged or fixed boundary conditions without a comprehensive consideration of the inclination angle, sag-extensibility, and flexural stiffness of cables, leading to a significant error in cable tension identification. This study aimed to propose a frequency-based method of cable tension identification considering the complex boundary conditions at the two ends of cables using the particle swarm optimization (PSO) algorithm. First, the refined stay cable model was established considering the inclination angle, flexural stiffness, and sag-extensibility, as well as the rotational constraint stiffness and lateral support stiffness for the unknown boundaries of cables. The vibration mode equation of the stay cable model was discretized and solved using the finite difference method. Then, a multiparameter identification method based on the PSO algorithm was proposed. This method was able to identify the tension, flexural stiffness, axial stiffness, boundary rotational constraint stiffness, and boundary lateral support stiffness according to the measured multiorder frequencies in a synchronous manner. The feasibility and accuracy of this method were validated through numerical cases. Finally, the proposed approach was applied to the tension identification of the anchor span strands of a suspension bridge (Jindong Bridge) in China. The results of cable tension identification using the proposed method and the existing methods discussed in previous studies were compared with the on-site pressure ring measurement results. The comparison showed that the proposed approach had a high accuracy in cable tension identification.
翻訳日:2021-08-12 13:34:45 公開日:2021-08-11
# 選択的マルチモーダル参照の誘導による抽象文要約

Abstractive Sentence Summarization with Guidance of Selective Multimodal Reference ( http://arxiv.org/abs/2108.05123v1 )

ライセンス: Link先を確認
Zijian Zhang, Chenxi Zhang, Qinpei Zhao, Jiangfeng Li(参考訳) 文出力による多モーダル抽象要約は, ユーザの満足度の向上と生活の便宜を実証した, 多モーダルな三進法 – 文, 画像, 音声 – を与えられたテキスト要約を生成する。 既存のアプローチは主にマルチモーダル核融合の強化に重点を置いているが、複数の入力の不整合を無視し、特徴における異なるセグメントの強調は多モーダル相互作用の超流動をもたらす。 これらの問題を緩和するために,マルチモーダル階層型選択的トランスフォーマタ(mhsf)モデルを提案し,低レベルクロスモーダルインタラクションモジュールによる)モダリティと,単一融合機能(高レベル選択的ルーティングモジュールによる)内の各特性の相互関係を考察する。 詳しくは、まず異なるソースからの入力を調整し、次に分割と克服戦略を採用して、スパースなフィードフォワードモデルと見なすことができるマルチモーダル融合表現を強調または強調する。 提案するmhsfモデルの一般化を,事前学習+微調整およびフレッシュトレーニング戦略を用いて評価する。 さらに, ROUGE, 関連スコア, 人的評価の点から, モデルがSOTAベースラインより優れていることを示す。

Multimodal abstractive summarization with sentence output is to generate a textual summary given a multimodal triad -- sentence, image and audio, which has been proven to improve users satisfaction and convenient our life. Existing approaches mainly focus on the enhancement of multimodal fusion, while ignoring the unalignment among multiple inputs and the emphasis of different segments in feature, which has resulted in the superfluity of multimodal interaction. To alleviate these problems, we propose a Multimodal Hierarchical Selective Transformer (mhsf) model that considers reciprocal relationships among modalities (by low-level cross-modal interaction module) and respective characteristics within single fusion feature (by high-level selective routing module). In details, it firstly aligns the inputs from different sources and then adopts a divide and conquer strategy to highlight or de-emphasize multimodal fusion representation, which can be seen as a sparsely feed-forward model - different groups of parameters will be activated facing different segments in feature. We evaluate the generalism of proposed mhsf model with the pre-trained+fine-tuning and fresh training strategies. And Further experimental results on MSMO demonstrate that our model outperforms SOTA baselines in terms of ROUGE, relevance scores and human evaluation.
翻訳日:2021-08-12 13:34:19 公開日:2021-08-11
# 悩みと不完全な選好による安定した結婚問題:ASP, SAT, ILP, CP, および局所探索法の比較

Stable Marriage Problems with Ties and Incomplete Preferences: An Empirical Comparison of ASP, SAT, ILP, CP, and Local Search Methods ( http://arxiv.org/abs/2108.05165v1 )

ライセンス: Link先を確認
Ahmet Alkan, Baturay Yilmaz, Berkan Teber, Esra Erdem, Ilayda Begum Izci, Muge Fidan, Selin Eyupoglu, Yavuz Gulesen(参考訳) 安定結婚問題(Stable Marriage problem)のバリエーションについて検討し、すべての男女が好みを不完全で結びつきのある選好リストとして表現する。 この問題は、Ties and Incomplete preferences (SMTI) による安定結婚問題と呼ばれる。 SMTI、Max Cardinality、Sex-Equal、Egalitarianの3つの最適化版を検討し、それらを解決する方法として、Answer Set Programming、Constraint Programming、Integer Linear Programmingがある。 Max Cardinalityでは,これらの手法をローカル検索法と比較する。 また、SMTIインスタンスに対するAnswer Set ProgrammingとPropositional Satisfiabilityを比較した。 本稿では,論理プログラミングの理論と実践(TPLP)の受容について検討する。

We study a variation of the Stable Marriage problem, where every man and every woman express their preferences as preference lists which may be incomplete and contain ties. This problem is called the Stable Marriage problem with Ties and Incomplete preferences (SMTI). We consider three optimization variants of SMTI, Max Cardinality, Sex-Equal and Egalitarian, and empirically compare the following methods to solve them: Answer Set Programming, Constraint Programming, Integer Linear Programming. For Max Cardinality, we compare these methods with Local Search methods as well. We also empirically compare Answer Set Programming with Propositional Satisfiability, for SMTI instances. This paper is under consideration for acceptance in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-08-12 13:33:54 公開日:2021-08-11
# プログレッシブクロストランスフォーマーによるフェアフェイス表現の学習

Learning Fair Face Representation With Progressive Cross Transformer ( http://arxiv.org/abs/2108.04983v1 )

ライセンス: Link先を確認
Yong Li, Yufei Sun, Zhen Cui, Shiguang Shan, Jian Yang(参考訳) 深層畳み込みニューラルネットワークの進歩により、顔認識(fr)は驚くべき進歩を遂げている。 しかし、異なる人種のコホート間の人口バイアスは、まだ実用的な顔認識システムに挑戦している。 レース因子はfair fr(ffr)のジレンマであることが証明されており、対象に固有の属性がfrに有用な手がかりを持ちながら分類バイアスを誘導する。 人種的バイアスを軽減し、一方的にロバストなfrを保持するために、顔識別関連表現を信号雑音化問題として抽象化し、公正な顔認識のためのプログレッシブクロストランス(pct)法を提案する。 信号分解理論を起源として, 顔表現をi) 識別関連成分とi) 人種によって誘導される雑音/同一性非関連成分に分離しようとする。 信号部分空間分解の拡張として,一般化された関数式モデルとしてフェースデカップリングを定式化する。 顔表現モデルは、アイデンティティ関連成分を蒸留し、人種的ノイズを抑制するデュアルクロストランスフォーマを設計することでさらに具体化されている。 顔表現を洗練するために、私たちはアイデンティティ/人種固有のトランスフォーメーションを学ぶためのプログレッシブ・フェイス・デカップリング(progressive face decoupling)の方法を取る。 提案したPCTをパブリックフェア顔認識ベンチマーク(BFW, RFW)で評価し, 最先端FR性能を達成しつつ, 顔認識におけるバイアスを軽減できることを確認した。 さらに,PCTの注意マップでは,人種関連・偏りのある顔領域がよく示される。

Face recognition (FR) has made extraordinary progress owing to the advancement of deep convolutional neural networks. However, demographic bias among different racial cohorts still challenges the practical face recognition system. The race factor has been proven to be a dilemma for fair FR (FFR) as the subject-related specific attributes induce the classification bias whilst carrying some useful cues for FR. To mitigate racial bias and meantime preserve robust FR, we abstract face identity-related representation as a signal denoising problem and propose a progressive cross transformer (PCT) method for fair face recognition. Originating from the signal decomposition theory, we attempt to decouple face representation into i) identity-related components and ii) noisy/identity-unrel ated components induced by race. As an extension of signal subspace decomposition, we formulate face decoupling as a generalized functional expression model to cross-predict face identity and race information. The face expression model is further concretized by designing dual cross-transformers to distill identity-related components and suppress racial noises. In order to refine face representation, we take a progressive face decoupling way to learn identity/race-specif ic transformations, so that identity-unrelated components induced by race could be better disentangled. We evaluate the proposed PCT on the public fair face recognition benchmarks (BFW, RFW) and verify that PCT is capable of mitigating bias in face recognition while achieving state-of-the-art FR performance. Besides, visualization results also show that the attention maps in PCT can well reveal the race-related/biased facial regions.
翻訳日:2021-08-12 13:33:06 公開日:2021-08-11
# 非対称多層融合による深層マルチモーダル特徴表現の学習

Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion ( http://arxiv.org/abs/2108.05009v1 )

ライセンス: Link先を確認
Yikai Wang, Fuchun Sun, Ming Lu, Anbang Yao(参考訳) 本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。 この枠組みは2つの革新的な融合スキームで構成されている。 第一に、異なるモダリティに対して個別のエンコーダを必要とする既存のマルチモーダルメソッドとは異なり、エンコーダ内のモダリティ固有のバッチ正規化層を維持するだけで、共有シングルネットワーク内でマルチモーダル機能が学習可能であることを検証する。 次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。 このようなスキームを活用するために、異なる融合方向に関して異なる融合特徴を学習するチャネルシャッフルとピクセルシフトを含む2つの非対称核融合操作を導入する。 これら2つの操作はパラメータフリーであり、チャネル間のマルチモーダル特徴相互作用を強化し、チャネル内の空間的特徴識別を強化する。 多様なモダリティをカバーする3つの公開データセットに基づいて,セマンティックセグメンテーションと画像翻訳タスクに関する広範な実験を行う。 その結果,提案フレームワークは汎用的でコンパクトであり,最先端の融合フレームワークよりも優れていることがわかった。

We propose a compact and effective framework to fuse multimodal features at multiple layers in a single network. The framework consists of two innovative fusion schemes. Firstly, unlike existing multimodal methods that necessitate individual encoders for different modalities, we verify that multimodal features can be learnt within a shared single network by merely maintaining modality-specific batch normalization layers in the encoder, which also enables implicit fusion via joint feature representation learning. Secondly, we propose a bidirectional multi-layer fusion scheme, where multimodal features can be exploited progressively. To take advantage of such scheme, we introduce two asymmetric fusion operations including channel shuffle and pixel shift, which learn different fused features with respect to different fusion directions. These two operations are parameter-free and strengthen the multimodal feature interactions across channels as well as enhance the spatial feature discrimination within channels. We conduct extensive experiments on semantic segmentation and image translation tasks, based on three publicly available datasets covering diverse modalities. Results indicate that our proposed framework is general, compact and is superior to state-of-the-art fusion frameworks.
翻訳日:2021-08-12 13:32:37 公開日:2021-08-11
# ファウショット学習のためのプロトタイプ補完

Prototype Completion for Few-Shot Learning ( http://arxiv.org/abs/2108.05010v1 )

ライセンス: Link先を確認
Baoquan Zhang, Xutao Li, Yunming Ye, and Shanshan Feng(参考訳) わずかな例で新しいクラスを認識することを目的としている。 事前学習に基づく手法は,特徴抽出器を事前学習し,最寄りのセントロイドメタラーニングを通して微調整することで,この問題に効果的に対処する。 しかし、その結果は微調整が限界改善をもたらすことを示している。 本稿では,(1)事前学習された特徴空間において,基本クラスが既にコンパクトクラスタを形成しているのに対して,新しいクラスは大きな分散を持つ群として拡散しているため,微調整特徴抽出器は意味が薄い,2)微調整特徴抽出器ではなく,より代表的なプロトタイプの推定に重点を置いている理由を明らかにする。 そこで本研究では,プロトタイプの完成度に基づくメタ学習フレームワークを提案する。 このフレームワークは最初、プリミティブな知識(クラスレベルの部分または属性アノテーション)を導入し、見受けられる属性の代表的な特徴を前もって抽出する。 第2に、パート/アトリビュート転送ネットワークは、未認識属性の代表的特徴を補足優先として推測するように設計されている。 最後に,プロトタイプ完成ネットワークを考案し,これらを先行してプロトタイプを完成させる。 さらに,プロトタイプの完成誤差を回避するため,未ラベルサンプルを利用して平均および完成プロトタイプを融合するガウス型プロトタイプ融合戦略をさらに発展させる。 i)より正確なプロトタイプを得る; (ii) インダクティブおよびトランスダクティブなfsl設定の両方において優れた性能を達成する。

Few-shot learning aims to recognize novel classes with few examples. Pre-training based methods effectively tackle the problem by pre-training a feature extractor and then fine-tuning it through the nearest centroid based meta-learning. However, results show that the fine-tuning step makes marginal improvements. In this paper, 1) we figure out the reason, i.e., in the pre-trained feature space, the base classes already form compact clusters while novel classes spread as groups with large variances, which implies that fine-tuning feature extractor is less meaningful; 2) instead of fine-tuning feature extractor, we focus on estimating more representative prototypes. Consequently, we propose a novel prototype completion based meta-learning framework. This framework first introduces primitive knowledge (i.e., class-level part or attribute annotations) and extracts representative features for seen attributes as priors. Second, a part/attribute transfer network is designed to learn to infer the representative features for unseen attributes as supplementary priors. Finally, a prototype completion network is devised to learn to complete prototypes with these priors. Moreover, to avoid the prototype completion error, we further develop a Gaussian based prototype fusion strategy that fuses the mean-based and completed prototypes by exploiting the unlabeled samples. Extensive experiments show that our method: (i) obtains more accurate prototypes; (ii) achieves superior performance on both inductive and transductive FSL settings.
翻訳日:2021-08-12 13:32:15 公開日:2021-08-11
# 弱教師付き時間行動定位のためのポイントからの学習行動完全性

Learning Action Completeness from Points for Weakly-supervised Temporal Action Localization ( http://arxiv.org/abs/2108.05029v1 )

ライセンス: Link先を確認
Pilhyeon Lee, Hyeran Byun(参考訳) 本研究では,各アクションインスタンスに1フレームのラベルを付けるだけで,時間間隔の動作をローカライズする問題に取り組む。 ラベルの幅のため、既存の作業は動作の完全性を学ぶことができず、断片的な動作予測をもたらす。 本稿では,モデルに対する完全性指導を行うために,密集した擬似ラベルを生成する新しい枠組みを提案する。 具体的には、まず擬似背景点を選択し、ポイントレベルのアクションラベルを補足する。 そして,これらの点を種として取り込むことで,種子と一致しながら,完全な行動事例を含む可能性のある最適な配列を探索する。 得られたシーケンスから完全性を学ぶために、アクションインスタンスとバックグラウンドインスタンスをそれぞれアクションスコアと特徴類似性で対比する2つの新しい損失を導入する。 実験の結果, 完全性誘導は, モデルが完全なアクションインスタンスを見つけるのに有効であることを示し, 特にIoU閾値が高い場合, 高い性能向上をもたらすことがわかった。 さらに, THUMOS'14, GTEA, BEOID, ActivityNetの4つのベンチマークにおいて, 既存の最先端手法よりも優れていることを示す。 特に,本手法はアノテーションコストの6倍のコストで,近年の完全教師付き手法と同等に機能する。 私たちのコードはhttps://github.com/p ilhyeon.comで利用可能です。

We tackle the problem of localizing temporal intervals of actions with only a single frame label for each action instance for training. Owing to label sparsity, existing work fails to learn action completeness, resulting in fragmentary action predictions. In this paper, we propose a novel framework, where dense pseudo-labels are generated to provide completeness guidance for the model. Concretely, we first select pseudo background points to supplement point-level action labels. Then, by taking the points as seeds, we search for the optimal sequence that is likely to contain complete action instances while agreeing with the seeds. To learn completeness from the obtained sequence, we introduce two novel losses that contrast action instances with background ones in terms of action score and feature similarity, respectively. Experimental results demonstrate that our completeness guidance indeed helps the model to locate complete action instances, leading to large performance gains especially under high IoU thresholds. Moreover, we demonstrate the superiority of our method over existing state-of-the-art methods on four benchmarks: THUMOS'14, GTEA, BEOID, and ActivityNet. Notably, our method even performs comparably to recent fully-supervised methods, at the 6 times cheaper annotation cost. Our code is available at https://github.com/P ilhyeon.
翻訳日:2021-08-12 13:31:47 公開日:2021-08-11
# 半教師ドメイン一般化人物再同定

Semi-Supervised Domain Generalizable Person Re-Identification ( http://arxiv.org/abs/2108.05045v1 )

ライセンス: Link先を確認
Lingxiao He, Wu Liu, Jian Liang, Kecheng Zheng, Xingyu Liao, Peng Cheng, Tao Mei(参考訳) 既存の人物再識別(re-id)メソッドは、クロスカメラの人物マッチングが成功したにもかかわらず、新しい未認識のシナリオにデプロイされると立ち往生する。 近年,新たなシナリオにおける未ラベルの広範なデータをトランスダクティブ学習方式で活用するドメイン適応型人物再認識への取り組みが盛んに行われている。 しかし、各シナリオでは、まず十分なデータを収集し、そのようなドメイン適応型re-idモデルをトレーニングする必要があるため、実践的な応用は制限される。 代わりに、複数のラベル付きデータセットを探索して、person re-idの一般化されたドメイン不変表現を学習することを目指している。 実世界のシステムにおける実践性を追求するため、この分野で最も頻繁に使われている3つのデータセット(Market1501、DukeMTMC、MSMT17)を未確認のターゲットドメインとして、すべての人物(20のデータセット)を収集する。 さらに、YouTubeのストリートビュービデオから、300万以上の弱い注釈付き画像(YouTube-Human)を収集するDataHunterを開発した。 本稿では,FastHuman (~440K+ラベル付き画像) と呼ばれる大規模かつ挑戦的なベンチマークに基づいて,よりシンプルで効果的なSemi-Supervised Knowledge Distillation (SSKD) フレームワークを提案する。 SSKDは、モデルの一般化能力を改善するために、ソフトな擬似ラベルをYouTube-Humanに割り当てることで、弱い注釈付きデータを効果的に活用する。 いくつかのプロトコルの実験では、提案したSSKDフレームワークが、対象ドメイン上の教師あり学習に匹敵する、ドメイン一般化可能な人物再帰に対する有効性を検証する。 最後に、最も重要なのは、提案されたベンチマークであるFastHumanが、ドメインの一般化可能な人物再識別子アルゴリズムの次の開発をもたらすことを期待しています。

Existing person re-identification (re-id) methods are stuck when deployed to a new unseen scenario despite the success in cross-camera person matching. Recent efforts have been substantially devoted to domain adaptive person re-id where extensive unlabeled data in the new scenario are utilized in a transductive learning manner. However, for each scenario, it is required to first collect enough data and then train such a domain adaptive re-id model, thus restricting their practical application. Instead, we aim to explore multiple labeled datasets to learn generalized domain-invariant representations for person re-id, which is expected universally effective for each new-coming re-id scenario. To pursue practicability in real-world systems, we collect all the person re-id datasets (20 datasets) in this field and select the three most frequently used datasets (i.e., Market1501, DukeMTMC, and MSMT17) as unseen target domains. In addition, we develop DataHunter that collects over 300K+ weak annotated images named YouTube-Human from YouTube street-view videos, which joins 17 remaining full labeled datasets to form multiple source domains. On such a large and challenging benchmark called FastHuman (~440K+ labeled images), we further propose a simple yet effective Semi-Supervised Knowledge Distillation (SSKD) framework. SSKD effectively exploits the weakly annotated data by assigning soft pseudo labels to YouTube-Human to improve models' generalization ability. Experiments on several protocols verify the effectiveness of the proposed SSKD framework on domain generalizable person re-id, which is even comparable to supervised learning on the target domains. Lastly, but most importantly, we hope the proposed benchmark FastHuman could bring the next development of domain generalizable person re-id algorithms.
翻訳日:2021-08-12 13:31:25 公開日:2021-08-11
# 出生前超音波における複数ラベリングの統計的依存性誘導型コントラスト学習

Statistical Dependency Guided Contrastive Learning for Multiple Labeling in Prenatal Ultrasound ( http://arxiv.org/abs/2108.05055v1 )

ライセンス: Link先を確認
Shuangchi He, Zehui Lin, Xin Yang, Chaoyu Chen, Jian Wang, Xue Shuang, Ziwei Deng, Qin Liu, Yan Cao, Xiduo Lu, Ruobing Huang, Nishant Ravikumar, Alejandro Frangi, Yuanji Zhang, Yi Xiong, Dong Ni(参考訳) 標準平面認識は出生前超音波スクリーニングにおいて重要な役割を果たす。 標準平面と対応する解剖学的構造を自動的に認識することで,US画像の解釈が容易になるだけでなく,診断効率も向上する。 本研究では,複数の標準平面とそれに対応する胎児の解剖学的構造を同時に同定する新しいマルチラベル学習手法を構築した。 私たちの貢献は3倍です。 まず, 単語埋め込みによるクラス相関を表現し, 微粒なセマンティックスと潜在統計的並行性を捉える。 次に, mll にグラフ畳み込みネットワークを適用し, カテゴリ間の内外関係を探索する。 第3に,曖昧なクラス間の発散を促進するために,新しいクラスタ型relabelベースのコントラスト学習アルゴリズムを提案する。 大規模な社内データセットで大規模な検証を行った。 標準平面ラベリングでは90.25%、平面と構造物では85.59%、ラベリングでは94.63%である。 提案手法は,標準平面認識のための新しい視点を提供し,他の医用画像分類タスクにも容易に拡張できる。

Standard plane recognition plays an important role in prenatal ultrasound (US) screening. Automatically recognizing the standard plane along with the corresponding anatomical structures in US image can not only facilitate US image interpretation but also improve diagnostic efficiency. In this study, we build a novel multi-label learning (MLL) scheme to identify multiple standard planes and corresponding anatomical structures of fetus simultaneously. Our contribution is three-fold. First, we represent the class correlation by word embeddings to capture the fine-grained semantic and latent statistical concurrency. Second, we equip the MLL with a graph convolutional network to explore the inner and outer relationship among categories. Third, we propose a novel cluster relabel-based contrastive learning algorithm to encourage the divergence among ambiguous classes. Extensive validation was performed on our large in-house dataset. Our approach reports the highest accuracy as 90.25% for standard planes labeling, 85.59% for planes and structures labeling and mAP as 94.63%. The proposed MLL scheme provides a novel perspective for standard plane recognition and can be easily extended to other medical image classification tasks.
翻訳日:2021-08-12 13:30:51 公開日:2021-08-11
# ゼロショットビデオオブジェクトセグメンテーションのためのマルチソース融合と自動予測器選択

Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot Video Object Segmentation ( http://arxiv.org/abs/2108.05076v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Jiaxing Yang, Lihe Zhang, Huchuan Lu(参考訳) 位置と外観は、ビデオオブジェクトセグメンテーションの鍵となる手がかりである。 rgb、深さ、光流、静塩分といった多くのソースは、オブジェクトに関する有用な情報を提供することができる。 しかし、既存のアプローチではrgbまたはrgbとオプティカルフローのみを使用する。 本稿では,ゼロショット映像オブジェクトセグメンテーションのためのマルチソース融合ネットワークを提案する。 感性空間アテンションモジュール(ISAM)の助けを借りて、各ソースの空間的重要性が強調される。 さらに、ソース間互換性のない機能をフィルタリングする機能浄化モジュール(FPM)を設計する。 ISAMとFPMによって、マルチソース機能は効果的に融合される。 また,低品質光フローマップによる故障結果への過度な依存を防止するため,静的塩分予測器と移動物体予測器のどちらよりもよい予測を選択できる自動予測器選択ネットワーク(aps)を構築した。 3つの挑戦的な公開ベンチマーク(すなわち)に関する広範囲な実験 DAVIS$_{16}$, Youtube-Objects and FBMS) は,提案モデルが最先端技術に対して魅力的な性能を発揮することを示す。 ソースコードは、textcolor{red}{\url{https://github.com/X iaoqi-Zhao-DLUT/Mult i-Source-APS-ZVOS}}で公開されている。

Location and appearance are the key cues for video object segmentation. Many sources such as RGB, depth, optical flow and static saliency can provide useful information about the objects. However, existing approaches only utilize the RGB or RGB and optical flow. In this paper, we propose a novel multi-source fusion network for zero-shot video object segmentation. With the help of interoceptive spatial attention module (ISAM), spatial importance of each source is highlighted. Furthermore, we design a feature purification module (FPM) to filter the inter-source incompatible features. By the ISAM and FPM, the multi-source features are effectively fused. In addition, we put forward an automatic predictor selection network (APS) to select the better prediction of either the static saliency predictor or the moving object predictor in order to prevent over-reliance on the failed results caused by low-quality optical flow maps. Extensive experiments on three challenging public benchmarks (i.e. DAVIS$_{16}$, Youtube-Objects and FBMS) show that the proposed model achieves compelling performance against the state-of-the-arts. The source code will be publicly available at \textcolor{red}{\url{https://github.com/X iaoqi-Zhao-DLUT/Mult i-Source-APS-ZVOS}}.
翻訳日:2021-08-12 13:30:32 公開日:2021-08-11
# 2段階および1段階のhoi検出の利点のマイニング

Mining the Benefits of Two-stage and One-stage HOI Detection ( http://arxiv.org/abs/2108.05077v1 )

ライセンス: Link先を確認
Aixi Zhang, Yue Liao, Si Liu, Miao Lu, Yongliang Wang, Chen Gao, Xiaobo Li(参考訳) 2段階の手法は、数年にわたって人-物体相互作用(HOI)の検出を支配してきた。 近年,一段階HOI検出法が普及している。 本稿では,2段階法と1段階法の基本的な長所と短所を探究する。 目的として,従来の2段階の手法では,主にポジティブな対話的対象対の位置決めに苦しむのに対し,一段階の手法ではマルチタスク学習,すなわちオブジェクト検出,インタラクション分類において適切なトレードオフを行うのが困難である。 したがって、根本的問題は、従来の2種類の手法からドレグをどうやって取り除くかである。 そこで本研究では,人間-対象検出と対話分類をカスケード的に区別する,新しい一段階フレームワークを提案する。 本稿では,まず,対話分類モジュールや頭部を除去して,最先端の1段階HOI検出器をベースとしたヒューマンオブジェクトペアジェネレータを設計し,その上で,比較的分離されたインタラクション分類器を設計し,各対象ペアを分類する。 提案フレームワークの2つのカスケードデコーダは、特定のタスク、検出または相互作用の分類にフォーカスすることができる。 具体的実装に関しては,変換器を用いたHOI検出器をベースモデルとして採用する。 新たに導入されたディエンタングリングパラダイムは、HICO-Detで9.32%という大きな相対的なmAPゲインを持つ既存の手法よりも優れている。

Two-stage methods have dominated Human-Object Interaction (HOI) detection for several years. Recently, one-stage HOI detection methods have become popular. In this paper, we aim to explore the essential pros and cons of two-stage and one-stage methods. With this as the goal, we find that conventional two-stage methods mainly suffer from positioning positive interactive human-object pairs, while one-stage methods are challenging to make an appropriate trade-off on multi-task learning, i.e., object detection, and interaction classification. Therefore, a core problem is how to take the essence and discard the dregs from the conventional two types of methods. To this end, we propose a novel one-stage framework with disentangling human-object detection and interaction classification in a cascade manner. In detail, we first design a human-object pair generator based on a state-of-the-art one-stage HOI detector by removing the interaction classification module or head and then design a relatively isolated interaction classifier to classify each human-object pair. Two cascade decoders in our proposed framework can focus on one specific task, detection or interaction classification. In terms of the specific implementation, we adopt a transformer-based HOI detector as our base model. The newly introduced disentangling paradigm outperforms existing methods by a large margin, with a significant relative mAP gain of 9.32% on HICO-Det.
翻訳日:2021-08-12 13:30:12 公開日:2021-08-11
# マルチスケールサブトラクションネットワークによる自動ポリプセグメンテーション

Automatic Polyp Segmentation via Multi-scale Subtraction Network ( http://arxiv.org/abs/2108.05082v1 )

ライセンス: Link先を確認
Xiaoqi Zhao, Lihe Zhang, Huchuan Lu(参考訳) 大腸癌の90%以上は、徐々に大腸ポリープから形質転換される。 臨床的には、正確なポリープセグメンテーションは大腸癌の早期発見に重要な情報を提供する。 したがって, 自動ポリープセグメンテーション技術は, 患者, 医師双方にとって非常に重要である。 既存のほとんどの手法はU字型構造に基づいており、デコーダで段階的に異なるレベルの特徴を融合させるために要素ワイド付加または結合を用いる。 しかし、2つの操作は冗長な情報を容易に生成し、異なるレベルの特徴間の相補性を弱め、不正確なローカライゼーションとポリープのぼやけたエッジをもたらす。 この課題に対処するために,大腸内視鏡画像からポリプを分割するマルチスケールサブトラクションネットワーク(MSNet)を提案する。 具体的には、エンコーダの隣接レベル間の差分特性を生成するために、まず減算ユニット(su)を設計する。 そして、異なるレベルのSUを様々な受容場にピラミッド的に配置し、豊富なマルチスケール差分情報を得る。 さらに,下位層から上部層へのポリプアウェア機能を包括的に監視し,msnetが詳細な情報と構造的手がかりを同時にキャプチャする,トレーニングフリーネットワーク"lossnet"を構築した。 5つのベンチマークデータセットに対する大規模な実験により、我々のMSNetは、異なる評価基準の下で、ほとんどの最先端メソッドに対して好適に機能することを示した。 さらに、MSNetは352 \times 352$イメージを処理する場合、リアルタイムの速度が$\sim$70fpsである。 ソースコードは \url{https://github.com/X iaoqi-Zhao-DLUT/MSNe t} で公開されている。 \keywords{Colorectal Cancer \and Automatic Polyp Segmentation \and Subtraction \and LossNet.

More than 90\% of colorectal cancer is gradually transformed from colorectal polyps. In clinical practice, precise polyp segmentation provides important information in the early detection of colorectal cancer. Therefore, automatic polyp segmentation techniques are of great importance for both patients and doctors. Most existing methods are based on U-shape structure and use element-wise addition or concatenation to fuse different level features progressively in decoder. However, both the two operations easily generate plenty of redundant information, which will weaken the complementarity between different level features, resulting in inaccurate localization and blurred edges of polyps. To address this challenge, we propose a multi-scale subtraction network (MSNet) to segment polyp from colonoscopy image. Specifically, we first design a subtraction unit (SU) to produce the difference features between adjacent levels in encoder. Then, we pyramidally equip the SUs at different levels with varying receptive fields, thereby obtaining rich multi-scale difference information. In addition, we build a training-free network "LossNet" to comprehensively supervise the polyp-aware features from bottom layer to top layer, which drives the MSNet to capture the detailed and structural cues simultaneously. Extensive experiments on five benchmark datasets demonstrate that our MSNet performs favorably against most state-of-the-art methods under different evaluation metrics. Furthermore, MSNet runs at a real-time speed of $\sim$70fps when processing a $352 \times 352$ image. The source code will be publicly available at \url{https://github.com/X iaoqi-Zhao-DLUT/MSNe t}. \keywords{Colorectal Cancer \and Automatic Polyp Segmentation \and Subtraction \and LossNet.}
翻訳日:2021-08-12 13:29:44 公開日:2021-08-11
# リモートセンシングのための表現学習:教師なしセンサフュージョンアプローチ

Representation Learning for Remote Sensing: An Unsupervised Sensor Fusion Approach ( http://arxiv.org/abs/2108.05094v1 )

ライセンス: Link先を確認
Aidan M. Swope, Xander H. Rudelis, Kyle T. Story(参考訳) リモートセンシングへの機械学習の適用では、ラベル付きデータはしばしば少ないか高価であり、ディープ畳み込みニューラルネットワークのような強力なモデルのトレーニングを妨げる。 ラベルのないデータは豊富だが、最近の自己教師付き学習アプローチはリモートセンシング領域に不適である。 加えて、ほとんどのリモートセンシングアプリケーションは、現在利用可能なマルチセンサー・マルチチャネル情報の小さなサブセットしか使用していないため、融合したマルチセンサー表現の必要性を動機付けている。 本稿では,複数の情報源から得られたコマチナスなデータを利用して,それらの組み合わせのすべての有用な表現を学習する,新たな自己教師型学習目標であるContrastive Sensor Fusionを提案する。 この方法は、複数のセンサとバンドにまたがる情報を単一のモデルを訓練することで、入力チャネルの任意のサブセットが使用される場合に類似した表現を生成する。 4700万のラベルのないコフィニティ画像三重項のデータセットを用いて、入力センサーから可能なチャネルの組み合わせから意味的に意味のある表現を生成するエンコーダを訓練する。 これらの表現は、リモートセンシング分類タスクで完全に監視されたイメージネット重みを上回り、より多くのセンサーが融合されるにつれて改善される。 私たちのコードはhttps://storage.clou d.google.com/public- published-datasets/c sf_code.zipで利用可能です。

In the application of machine learning to remote sensing, labeled data is often scarce or expensive, which impedes the training of powerful models like deep convolutional neural networks. Although unlabeled data is abundant, recent self-supervised learning approaches are ill-suited to the remote sensing domain. In addition, most remote sensing applications currently use only a small subset of the multi-sensor, multi-channel information available, motivating the need for fused multi-sensor representations. We propose a new self-supervised training objective, Contrastive Sensor Fusion, which exploits coterminous data from multiple sources to learn useful representations of every possible combination of those sources. This method uses information common across multiple sensors and bands by training a single model to produce a representation that remains similar when any subset of its input channels is used. Using a dataset of 47 million unlabeled coterminous image triplets, we train an encoder to produce semantically meaningful representations from any possible combination of channels from the input sensors. These representations outperform fully supervised ImageNet weights on a remote sensing classification task and improve as more sensors are fused. Our code is available at https://storage.clou d.google.com/public- published-datasets/c sf_code.zip.
翻訳日:2021-08-12 13:29:15 公開日:2021-08-11
# M3D-VTON:単分子対3D仮想トライオンネットワーク

M3D-VTON: A Monocular-to-3D Virtual Try-On Network ( http://arxiv.org/abs/2108.05126v1 )

ライセンス: Link先を確認
Fuwei Zhao, Zhenyu Xie, Michael Kampffmeyer, Haoye Dong, Songfang Han, Tianxiang Zheng, Tao Zhang, Xiaodan Liang(参考訳) 仮想3dトライオンは、オンラインショッピングの直感的かつ現実的なビューを提供し、大きな商業価値を秘めている。 しかし、既存の3D仮想試行法は主に注釈付き3D人体形状と衣服テンプレートに依存しており、現実的なシナリオでの応用を妨げる。 2d仮想トライオンアプローチは、衣服を操作できるより高速な代替手段を提供するが、リッチで現実的な3d表現は欠如している。 本稿では,2次元と3次元の両方のアプローチの利点を生かした,モノクロから3次元仮想トライオンネットワーク(M3D-VTON)を提案する。 2D情報を効率よく統合し、2D表現を3Dに上げるマッピングを学習することにより、ターゲットの服と人画像のみを入力とする3Dトライオンメッシュを再構築する最初の試みを行う。 提案したM3D-VTONは3つのモジュールを含む: 1) 初期全体深度マップを推定し、新しい2段階のワープ手順により2次元の衣服のアライメントを達成するモノクラー予測モジュール(MPM)、2) 初期体深度を洗練してより詳細なプリートと顔の特徴を生み出すディープスリファインメントモジュール(DRM)、3) 歪んだ衣服を非ターゲットのボディ部分と融合させるテクスチュアフュージョンモジュール(TFM)。 また、高品質な合成モノクロから3D仮想試行データセットを構築し、各人物画像が前後の深度マップに関連付けられている。 広汎な実験により、提案したM3D-VTONは、所定の衣服を身に着けた3次元の人体を操作・再構築できることを示した。

Virtual 3D try-on can provide an intuitive and realistic view for online shopping and has a huge potential commercial value. However, existing 3D virtual try-on methods mainly rely on annotated 3D human shapes and garment templates, which hinders their applications in practical scenarios. 2D virtual try-on approaches provide a faster alternative to manipulate clothed humans, but lack the rich and realistic 3D representation. In this paper, we propose a novel Monocular-to-3D Virtual Try-On Network (M3D-VTON) that builds on the merits of both 2D and 3D approaches. By integrating 2D information efficiently and learning a mapping that lifts the 2D representation to 3D, we make the first attempt to reconstruct a 3D try-on mesh only taking the target clothing and a person image as inputs. The proposed M3D-VTON includes three modules: 1) The Monocular Prediction Module (MPM) that estimates an initial full-body depth map and accomplishes 2D clothes-person alignment through a novel two-stage warping procedure; 2) The Depth Refinement Module (DRM) that refines the initial body depth to produce more detailed pleat and face characteristics; 3) The Texture Fusion Module (TFM) that fuses the warped clothing with the non-target body part to refine the results. We also construct a high-quality synthesized Monocular-to-3D virtual try-on dataset, in which each person image is associated with a front and a back depth map. Extensive experiments demonstrate that the proposed M3D-VTON can manipulate and reconstruct the 3D human body wearing the given clothing with compelling details and is more efficient than other 3D approaches.
翻訳日:2021-08-12 13:28:53 公開日:2021-08-11
# 物理先行したゼロショット領域適応

Zero-Shot Domain Adaptation with a Physics Prior ( http://arxiv.org/abs/2108.05137v1 )

ライセンス: Link先を確認
Attila Lengyel and Sourav Garg and Michael Milford and Jan C. van Gemert(参考訳) 昼夜領域適応のためのゼロショット設定について検討する。 従来のドメイン適応設定は、テストセットからラベルのないデータサンプルを活用して、ひとつのドメインでトレーニングし、ターゲットドメインに適応する。 関連するテストデータの収集は費用がかかり、場合によっては不可能になるため、テストデータイメージへの依存をなくし、代わりに物理ベースのリフレクションモデルから派生したビジュアルインダクティブをドメイン適応に利用します。 畳み込みニューラルネットワークにおいて,色不変エッジ検出器を学習可能な層として配置し,照明変化に対するロバスト性を評価した。 色不変層は,ネットワーク全体の特徴マップ活性化の日中分布シフトを減少させることを示す。 本研究では,合成と自然データセットの両方におけるゼロショット・デイ・ナイト領域適応の性能向上を,分類,セグメンテーション,場所認識など様々なタスクで実証した。

We explore the zero-shot setting for day-night domain adaptation. The traditional domain adaptation setting is to train on one domain and adapt to the target domain by exploiting unlabeled data samples from the test set. As gathering relevant test data is expensive and sometimes even impossible, we remove any reliance on test data imagery and instead exploit a visual inductive prior derived from physics-based reflection models for domain adaptation. We cast a number of color invariant edge detectors as trainable layers in a convolutional neural network and evaluate their robustness to illumination changes. We show that the color invariant layer reduces the day-night distribution shift in feature map activations throughout the network. We demonstrate improved performance for zero-shot day to night domain adaptation on both synthetic as well as natural datasets in various tasks, including classification, segmentation and place recognition.
翻訳日:2021-08-12 13:28:14 公開日:2021-08-11
# 正規化情報距離を用いた効率的なサーフェル融合

Efficient Surfel Fusion Using Normalised Information Distance ( http://arxiv.org/abs/2108.05163v1 )

ライセンス: Link先を確認
Louis Gallagher and John B. McDonald(参考訳) 本研究では, 核融合型高密度3次元マッピングシステムにおいて, 正確な分解面再構成に収束するために必要な測定量を大幅に削減する手法を提案する。 これは、レコンストラクションに関して各受信フレームに含まれる情報のノベルティを計算し、冗長しきい値を超えるそれらのフレームを融合することを避ける正規化情報距離メトリックを用いて達成される。 これは、表面再構成精度と処理フレームの計算コストのトレードオフを最適化するための原則的なアプローチを提供する。 この手法はElasticFusion(EF)アルゴリズムに基づいており、ICL-NUIMとTUM RGB-Dの両方のデータセットに適用することにより、その拡張性と結果マップの精度を報告する。 これらの結果は、元のEFアルゴリズムと比較して、フレームの一部を有効活用しながら、正確な表面再構成を行うためのアプローチの能力を示している。

We present a new technique that achieves a significant reduction in the quantity of measurements required for a fusion based dense 3D mapping system to converge to an accurate, de-noised surface reconstruction. This is achieved through the use of a Normalised Information Distance metric, that computes the novelty of the information contained in each incoming frame with respect to the reconstruction, and avoids fusing those frames that exceed a redundancy threshold. This provides a principled approach for opitmising the trade-off between surface reconstruction accuracy and the computational cost of processing frames. The technique builds upon the ElasticFusion (EF) algorithm where we report results of the technique's scalability and the accuracy of the resultant maps by applying it to both the ICL-NUIM and TUM RGB-D datasets. These results demonstrate the capabilities of the approach in performing accurate surface reconstructions whilst utilising a fraction of the frames when compared to the original EF algorithm.
翻訳日:2021-08-12 13:27:59 公開日:2021-08-11
# 連続学習におけるクラス混乱低減のための識別蒸留

Discriminative Distillation to Reduce Class Confusion in Continual Learning ( http://arxiv.org/abs/2108.05187v1 )

ライセンス: Link先を確認
Changhong Zhong, Zhiying Cui, Ruixuan Wang, and Wei-Shi Zheng(参考訳) 新しい知識の継続的な学習が成功すれば、インテリジェントなシステムがより多くのオブジェクトのクラスを認識できるようになる。 しかし、現在のインテリジェントシステムは、新しいクラスを学ぶために更新されたオブジェクトの以前の学習されたクラスを正しく認識できないことが多い。 このような性能低下は、それまでの知識の破滅的な忘れ込みによるものであると広く信じられている。 本研究は,クラス混同現象が,継続学習における分類性能の低下,すなわち,新しいクラスと以前に学習したクラスとの高い類似性が,旧クラスの知識を忘れていなくても,これらの古いクラスを認識する際に,分類者が誤りを犯す可能性があることを論じる。 クラス混乱を緩和するために, 連続学習中にクラス間における識別的特徴をよく学習するための識別的蒸留戦略を提案する。 複数の自然画像分類タスクの実験では,提案した蒸留戦略と既存手法を組み合わせることで,継続学習のさらなる向上が期待できる。

Successful continual learning of new knowledge would enable intelligent systems to recognize more and more classes of objects. However, current intelligent systems often fail to correctly recognize previously learned classes of objects when updated to learn new classes. It is widely believed that such downgraded performance is solely due to the catastrophic forgetting of previously learned knowledge. In this study, we argue that the class confusion phenomena may also play a role in downgrading the classification performance during continual learning, i.e., the high similarity between new classes and any previously learned classes would also cause the classifier to make mistakes in recognizing these old classes, even if the knowledge of these old classes is not forgotten. To alleviate the class confusion issue, we propose a discriminative distillation strategy to help the classify well learn the discriminative features between confusing classes during continual learning. Experiments on multiple natural image classification tasks support that the proposed distillation strategy, when combined with existing methods, is effective in further improving continual learning.
翻訳日:2021-08-12 13:27:43 公開日:2021-08-11
# 屋内シーンの3次元再構成とセマンティックセグメンテーションのためのリアルタイムオンライン学習フレームワーク

A Real-Time Online Learning Framework for Joint 3D Reconstruction and Semantic Segmentation of Indoor Scenes ( http://arxiv.org/abs/2108.05246v1 )

ライセンス: Link先を確認
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstrom, Cristian Sminchisescu, Luc Van Gool(参考訳) 本稿では,室内シーンの3次元構造と意味的ラベルを共同で復元するリアルタイムオンラインビジョンフレームワークを提案する。 列車時間にノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルを持つフレームに深度を融合させることを学習する。 本手法は,シーン特徴空間における深度と意味の連成体積表現を利用してこの問題を解決する。 セマンティックラベルと幾何のオンライン融合をリアルタイムに行うため,高速な表面情報保存のために,オンライン深度融合にルーティングネットワークを落としながら効率的な渦プールブロックを導入する。 シーンのセマンティクスによって提供されるコンテキスト情報により,深層融合ネットワークは耐雑音性のある特徴を学習する。 それだけでなく、現在のオンライン深層融合法の欠点を克服し、薄いオブジェクト構造、厚いアーティファクト、偽表面を扱うのに役立つ。 レプリカデータセットの実験的評価により, 深さマップの解像度によって, 平均復元f-scoreが88%, 91%で, 毎秒37, 10フレームの深度融合が可能となった。 さらに,本モデルはscannet 3d semantic benchmark leaderboard上で平均0.515のiouスコアを示す。

This paper presents a real-time online vision framework to jointly recover an indoor scene's 3D structure and semantic label. Given noisy depth maps, a camera trajectory, and 2D semantic labels at train time, the proposed neural network learns to fuse the depth over frames with suitable semantic labels in the scene space. Our approach exploits the joint volumetric representation of the depth and semantics in the scene feature space to solve this task. For a compelling online fusion of the semantic labels and geometry in real-time, we introduce an efficient vortex pooling block while dropping the routing network in online depth fusion to preserve high-frequency surface details. We show that the context information provided by the semantics of the scene helps the depth fusion network learn noise-resistant features. Not only that, it helps overcome the shortcomings of the current online depth fusion method in dealing with thin object structures, thickening artifacts, and false surfaces. Experimental evaluation on the Replica dataset shows that our approach can perform depth fusion at 37, 10 frames per second with an average reconstruction F-score of 88%, and 91%, respectively, depending on the depth map resolution. Moreover, our model shows an average IoU score of 0.515 on the ScanNet 3D semantic benchmark leaderboard.
翻訳日:2021-08-12 13:27:25 公開日:2021-08-11
# シングルイメージデフォーカスデブラリングの改善 - マルチタスク学習によるデュアルピクセルイメージの活用

Improving Single-Image Defocus Deblurring: How Dual-Pixel Images Help Through Multi-Task Learning ( http://arxiv.org/abs/2108.05251v1 )

ライセンス: Link先を確認
Abdullah Abuolaim, Mahmoud Afifi, Michael S. Brown(参考訳) 多くのカメラセンサーはデュアルピクセル(dp)デザインを使用しており、1つのキャプチャーでシーンの2つのサブアパーチャービューを提供するルーディメンタリーライトフィールドとして機能する。 DPセンサーはカメラのオートフォーカス性能を改善するために開発された。 DPセンサーの導入以来、深度推定、反射除去、デフォーカス除去などのDPデータに新たな用途が発見されている。 私たちはデフォーカス・デブロリングという後者の課題に興味を持っています。 特に,2つのサブアパーチャビューをマルチタスクフレームワークに組み込む単一画像デブラリングネットワークを提案する。 具体的には、単一のぼやけた入力画像から2つのDPビューを予測することを共同で学習することで、ネットワークが画像を損なう能力を向上させることを示す。 実験により, このマルチタスク戦略は, 最先端デフォーカスデブロリング法よりも+1dBPSNRの改善を達成できることが示された。 さらに,我々のマルチタスクフレームワークは,単一の入力画像から正確なDPビュー合成(例えば,39dB PSNR)を可能にする。 これらの高品質DPビューは、リフレクション除去など、他のDPベースのアプリケーションに使用することができる。 この取り組みの一環として、DPビュー合成タスクのトレーニングを支援するために、7,059個の高品質画像のデータセットを新たに取得した。 私たちのデータセット、コード、トレーニングされたモデルはhttps://github.com/A bdullah-Abuolaim/mul ti-task-defocus-debl urring-dual-pixel-ni matで公開されます。

Many camera sensors use a dual-pixel (DP) design that operates as a rudimentary light field providing two sub-aperture views of a scene in a single capture. The DP sensor was developed to improve how cameras perform autofocus. Since the DP sensor's introduction, researchers have found additional uses for the DP data, such as depth estimation, reflection removal, and defocus deblurring. We are interested in the latter task of defocus deblurring. In particular, we propose a single-image deblurring network that incorporates the two sub-aperture views into a multi-task framework. Specifically, we show that jointly learning to predict the two DP views from a single blurry input image improves the network's ability to learn to deblur the image. Our experiments show this multi-task strategy achieves +1dB PSNR improvement over state-of-the-art defocus deblurring methods. In addition, our multi-task framework allows accurate DP-view synthesis (e.g., ~ 39dB PSNR) from the single input image. These high-quality DP views can be used for other DP-based applications, such as reflection removal. As part of this effort, we have captured a new dataset of 7,059 high-quality images to support our training for the DP-view synthesis task. Our dataset, code, and trained models will be made publicly available at https://github.com/A bdullah-Abuolaim/mul ti-task-defocus-debl urring-dual-pixel-ni mat
翻訳日:2021-08-12 13:26:59 公開日:2021-08-11
# マルチラベル画像検索におけるインスタンス重み付け中心類似性

Instance-weighted Central Similarity for Multi-label Image Retrieval ( http://arxiv.org/abs/2108.05274v1 )

ライセンス: Link先を確認
Zhiwei Zhang and Hanyu Peng and Hongsheng Li(参考訳) 高速検索のために高次元データポイントをバイナリコードに符号化することで、大規模画像検索に広く応用されている。 ペアワイズ/トリップレット類似度に基づくハッシュ学習と比較して、中央類似度に基づくハッシュ処理は、グローバルデータ分布をより効率的に捉えることができる。 しかし,複数ラベル画像検索では,画像中のハッシュ中心の重みとインスタンス領域の比率の関係を無視する学習対象として,同一の重みを持つ複数のハッシュ中心のみを用いて1セントロイドを生成する手法が提案されている。 本稿では,2段階最適化手法であるインスタンス重み付き中央類似性(ics)を提案し,ハッシュコードに対応する中心重みを自動的に学習する。 まず, 最大エントロピー正規化器を用いて, 1つのハッシュ中心が損失関数を支配できないようにし, 投射勾配勾配による中心重みの計算を行う。 次に、固定中心重み付き標準バックプロパゲーションによりニューラルネットワークパラメータを更新する。 さらに重要なことに、学習された中心重みは画像の前景のインスタンスの割合をよく反映することができる。 本手法は,画像検索ベンチマークにおいて最先端の性能を達成し,特にms cocoデータセット上で1.6%-6.4%改善する。

Deep hashing has been widely applied to large-scale image retrieval by encoding high-dimensional data points into binary codes for efficient retrieval. Compared with pairwise/triplet similarity based hash learning, central similarity based hashing can more efficiently capture the global data distribution. For multi-label image retrieval, however, previous methods only use multiple hash centers with equal weights to generate one centroid as the learning target, which ignores the relationship between the weights of hash centers and the proportion of instance regions in the image. To address the above issue, we propose a two-step alternative optimization approach, Instance-weighted Central Similarity (ICS), to automatically learn the center weight corresponding to a hash code. Firstly, we apply the maximum entropy regularizer to prevent one hash center from dominating the loss function, and compute the center weights via projection gradient descent. Secondly, we update neural network parameters by standard back-propagation with fixed center weights. More importantly, the learned center weights can well reflect the proportion of foreground instances in the image. Our method achieves the state-of-the-art performance on the image retrieval benchmarks, and especially improves the mAP by 1.6%-6.4% on the MS COCO dataset.
翻訳日:2021-08-12 13:26:34 公開日:2021-08-11
# グローバル・ローカル・コントラスト学習によるFew-Shotセグメンテーション

Few-Shot Segmentation with Global and Local Contrastive Learning ( http://arxiv.org/abs/2108.05293v1 )

ライセンス: Link先を確認
Weide Liu, Zhonghua Wu, Henghui Ding, Fayao Liu, Jie Lin, Guosheng Lin(参考訳) 本研究では,数発のセグメンテーションの課題に対処する。 従来の少数ショットセグメンテーションでは、主にクエリ画像セグメンテーションのガイダンスとしてサポート画像の情報を使用している。 サポートイメージとクエリイメージ間の相互参照を構築することを提案する研究もあるが、クエリ情報の抽出はサポートイメージに依存している。 本稿では,クエリ自体から独立して情報を抽出して,数発のセグメンテーションタスクの恩恵を受けることを提案する。 そこで本研究では,提案するグローバル局所コントラスト学習を用いて,ラベルなし画像からクエリ情報を学習するための先行抽出器を提案する。 そして、この先行抽出器を介して所定の事前の集合を抽出する。 得られた前処理により,クエリ画像に対する先行領域マップを生成し,対象を探索し,サポート機能との相互インタラクションを行うためのガイダンスとする。 このようにして、クエリ情報の抽出はサポートブランチから切り離され、サポートによる制限を克服し、より良いインタラクションを実現するためのより情報的なクエリヒントを得ることができる。 ベルとホイッスルがなければ、提案手法はpascal-5$^{i}$とcocoデータセットのマイナショットセグメンテーションタスクの新たな最先端性能を実現する。

In this work, we address the challenging task of few-shot segmentation. Previous few-shot segmentation methods mainly employ the information of support images as guidance for query image segmentation. Although some works propose to build cross-reference between support and query images, their extraction of query information still depends on the support images. We here propose to extract the information from the query itself independently to benefit the few-shot segmentation task. To this end, we first propose a prior extractor to learn the query information from the unlabeled images with our proposed global-local contrastive learning. Then, we extract a set of predetermined priors via this prior extractor. With the obtained priors, we generate the prior region maps for query images, which locate the objects, as guidance to perform cross interaction with support features. In such a way, the extraction of query information is detached from the support branch, overcoming the limitation by support, and could obtain more informative query clues to achieve better interaction. Without bells and whistles, the proposed approach achieves new state-of-the-art performance for the few-shot segmentation task on PASCAL-5$^{i}$ and COCO datasets.
翻訳日:2021-08-12 13:26:13 公開日:2021-08-11
# 階層的条件流:画像超解法と画像再スケーリングのための統一フレームワーク

Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling ( http://arxiv.org/abs/2108.05301v1 )

ライセンス: Link先を確認
Jingyun Liang, Andreas Lugmayr, Kai Zhang, Martin Danelljan, Luc Van Gool, Radu Timofte(参考訳) 正規化フローは近年,低レベルの視覚タスクに対して有望な結果を示している。 画像超解像(SR)では、決定論的マッピングを学ぶのではなく、低解像度(LR)画像から多彩なフォトリアリスティック高分解能(HR)画像を予測する。 画像再スケーリングでは、ダウンスケーリングとアップスケーリングのプロセスを共同でモデル化することで高い精度を達成する。 既存のアプローチではこれら2つのタスクに特別なテクニックを取り入れていますが、私たちはそれらを単一の定式化で統一することにしました。 本稿では,画像SRと画像再スケーリングのための統合フレームワークとして階層的条件フロー(HCFlow)を提案する。 より具体的には、HCFlowは、LR画像と残りの高周波成分の分布を同時にモデル化することにより、HRとLR画像対の単射マッピングを学習する。 特に、高周波成分は、階層的にLR画像に条件付きである。 さらに性能を高めるために、知覚的損失やGAN損失などの他の損失と、トレーニングで一般的に使用される負の対数類似損失とを組み合わせる。 一般画像SR, 顔画像SR, 画像再スケーリングに関する大規模な実験により, 提案したHCFlowは, 定量的な測定値と視覚的品質の両方の観点から, 最先端の性能を達成することを示した。

Normalizing flows have recently demonstrated promising results for low-level vision tasks. For image super-resolution (SR), it learns to predict diverse photo-realistic high-resolution (HR) images from the low-resolution (LR) image rather than learning a deterministic mapping. For image rescaling, it achieves high accuracy by jointly modelling the downscaling and upscaling processes. While existing approaches employ specialized techniques for these two tasks, we set out to unify them in a single formulation. In this paper, we propose the hierarchical conditional flow (HCFlow) as a unified framework for image SR and image rescaling. More specifically, HCFlow learns a bijective mapping between HR and LR image pairs by modelling the distribution of the LR image and the rest high-frequency component simultaneously. In particular, the high-frequency component is conditional on the LR image in a hierarchical manner. To further enhance the performance, other losses such as perceptual loss and GAN loss are combined with the commonly used negative log-likelihood loss in training. Extensive experiments on general image SR, face image SR and image rescaling have demonstrated that the proposed HCFlow achieves state-of-the-art performance in terms of both quantitative metrics and visual quality.
翻訳日:2021-08-12 13:25:58 公開日:2021-08-11
# ブラインド画像超解像における空間変動カーネル推定のための相互アフィンネットワーク

Mutual Affine Network for Spatially Variant Kernel Estimation in Blind Image Super-Resolution ( http://arxiv.org/abs/2108.05302v1 )

ライセンス: Link先を確認
Jingyun Liang, Guolei Sun, Kai Zhang, Luc Van Gool, Radu Timofte(参考訳) 既存のブラインド画像超解像法(SR)は、ぼやけたカーネルが画像全体にわたって空間的に不変であると仮定する。 しかし、物体の動きや焦点のずれなどの要因により、ぼやけたカーネルが空間的に変動する実際の画像には、そのような仮定が当てはまることはまれである。 したがって、既存の盲点SR法は必然的に実際のアプリケーションで性能が低下する。 そこで本研究では,空間変動カーネル推定のための相互アフィンネットワーク(MANet)を提案する。 具体的には、MANetには2つの特徴がある。 まず、分解の局所性を維持するために、適度な受容場を持つ。 第二に、新しい相互アフィン畳み込み(MAConv)層が、受容場、モデルサイズ、計算負担を増大させることなく特徴表現性を高める。 これはチャネル相互依存性を利用して実現され、各チャネルを残りのチャネル分割を入力とするアフィン変換モジュールで分割する。 合成および実画像の広範にわたる実験により,提案手法は空間的変動と不変なカーネル推定の両方に好適に動作するだけでなく,非盲点SR法と組み合わせた場合の最先端のブラインドSR性能にも寄与することが示された。

Existing blind image super-resolution (SR) methods mostly assume blur kernels are spatially invariant across the whole image. However, such an assumption is rarely applicable for real images whose blur kernels are usually spatially variant due to factors such as object motion and out-of-focus. Hence, existing blind SR methods would inevitably give rise to poor performance in real applications. To address this issue, this paper proposes a mutual affine network (MANet) for spatially variant kernel estimation. Specifically, MANet has two distinctive features. First, it has a moderate receptive field so as to keep the locality of degradation. Second, it involves a new mutual affine convolution (MAConv) layer that enhances feature expressiveness without increasing receptive field, model size and computation burden. This is made possible through exploiting channel interdependence, which applies each channel split with an affine transformation module whose input are the rest channel splits. Extensive experiments on synthetic and real images show that the proposed MANet not only performs favorably for both spatially variant and invariant kernel estimation, but also leads to state-of-the-art blind SR performance when combined with non-blind SR methods.
翻訳日:2021-08-12 13:25:39 公開日:2021-08-11
# インクリメンタル学習によるディープフェイク検出のためのビデオトランス

Video Transformer for Deepfake Detection with Incremental Learning ( http://arxiv.org/abs/2108.05307v1 )

ライセンス: Link先を確認
Sohail A. Khan and Hang Dai(参考訳) ディープフェイクによるフェイス偽造は、インターネット上で広く広まり、深刻な社会的な懸念を引き起こしている。 本稿では,Deepfakeビデオ検出のためのインクリメンタル学習による新しいビデオトランスフォーマを提案する。 入力顔画像のアライメントを改善するために,1つの入力顔画像からuvテクスチャを生成するために,3次元顔再構成法を用いる。 また、アライメントされた顔画像は、UVテクスチャ画像では認識できないポーズ、目まき、口の動き情報も提供できるので、顔画像とUVテクスチャマップの両方を用いて画像の特徴を抽出する。 提案したモデルを少ないデータ量で微調整し、より優れた深度検出性能を実現するための漸進的な学習戦略を提案する。 様々なディープフェイクデータセットに関する包括的実験により,インクリメンタル学習を用いたビデオトランスフォーマモデルが,シーケンスデータから特徴学習が強化されたディープフェイク映像検出タスクにおいて最先端の性能を実現することを実証した。

Face forgery by deepfake is widely spread over the internet and this raises severe societal concerns. In this paper, we propose a novel video transformer with incremental learning for detecting deepfake videos. To better align the input face images, we use a 3D face reconstruction method to generate UV texture from a single input face image. The aligned face image can also provide pose, eyes blink and mouth movement information that cannot be perceived in the UV texture image, so we use both face images and their UV texture maps to extract the image features. We present an incremental learning strategy to fine-tune the proposed model on a smaller amount of data and achieve better deepfake detection performance. The comprehensive experiments on various public deepfake datasets demonstrate that the proposed video transformer model with incremental learning achieves state-of-the-art performance in the deepfake video detection task with enhanced feature learning from the sequenced data.
翻訳日:2021-08-12 13:25:18 公開日:2021-08-11
# 単眼深度推定のための解釈可能な深部ネットワークを目指して

Towards Interpretable Deep Networks for Monocular Depth Estimation ( http://arxiv.org/abs/2108.05312v1 )

ライセンス: Link先を確認
Zunzhi You, Yi-Hsuan Tsai, Wei-Chen Chiu, Guanbin Li(参考訳) 近年,単眼深度推定のための深層ネットワークが有望な性能に達しており,これらのネットワークの解釈可能性のさらなる理解が重要である。 既存の手法では、深層ネットワークで学習した内部表現を探索しない視覚的手がかりを探索することで、ポストホックな説明を提供することを試みる。 本稿では,ネットワークの隠れたユニットが一定の範囲の深さに選択的であることから,そのような動作を内部表現の解釈の手段として利用することができる。 その結果,隠れ単位の深さ選択性によって,深層mdeネットワークの解釈可能性を定量化した。 さらに,各ユニットが選択する深度範囲を割り当てることで,元のアーキテクチャを変更することなく,解釈可能なMDE深度ネットワークを訓練する手法を提案する。 実験の結果, 本手法は, 深度推定精度を損なうことなく, ユニットの深さ選択性を大きく向上させることにより, 深層mdeネットワークの解釈性を向上させることができた。 さらに,選択単位の信頼性,異なる層,モデル,データセットに対する提案手法の適用性,モデル誤差の解析に関する実証を行った。 ソースコードとモデルはhttps://github.com/y ouzunzhi/Interpretab leMDEで入手できる。

Deep networks for Monocular Depth Estimation (MDE) have achieved promising performance recently and it is of great importance to further understand the interpretability of these networks. Existing methods attempt to provide posthoc explanations by investigating visual cues, which may not explore the internal representations learned by deep networks. In this paper, we find that some hidden units of the network are selective to certain ranges of depth, and thus such behavior can be served as a way to interpret the internal representations. Based on our observations, we quantify the interpretability of a deep MDE network by the depth selectivity of its hidden units. Moreover, we then propose a method to train interpretable MDE deep networks without changing their original architectures, by assigning a depth range for each unit to select. Experimental results demonstrate that our method is able to enhance the interpretability of deep MDE networks by largely improving the depth selectivity of their units, while not harming or even improving the depth estimation accuracy. We further provide a comprehensive analysis to show the reliability of selective units, the applicability of our method on different layers, models, and datasets, and a demonstration on analysis of model error. Source code and models are available at https://github.com/y ouzunzhi/Interpretab leMDE .
翻訳日:2021-08-12 13:25:01 公開日:2021-08-11
# 2つは群衆:ビデオ内の関係を追跡する

Two is a crowd: tracking relations in videos ( http://arxiv.org/abs/2108.05331v1 )

ライセンス: Link先を確認
Artem Moskalev, Ivan Sosnovik, Arnold Smeulders(参考訳) 複数のオブジェクトを個別に追跡することは、関連するオブジェクトのトラッキンググループとは異なる。 対象がグループの一部である場合、その軌道は他のグループメンバーの軌道に依存する。 現在の最先端トラッカーのほとんどは、必要に応じて重なり合う軌跡を扱うメカニズムとともに、各オブジェクトを独立して追跡するアプローチに従っている。 このようなアプローチは対象間の関係を考慮に入れず、特に密集したシナリオにおいて、グループのメンバーの信頼できない追跡を引き起こす可能性がある。 これらの制限を克服し、そのようなトラッカーを混雑したシーンに拡張するために、プラグインリレーショナルエンコーディングモジュール(REM)を提案する。 REMは追跡対象間の関係を、対応する時空間グラフ上でメッセージパッシングを実行し、追跡対象に対する計算関係の埋め込みを符号化する。 MOT17 と MOT20 に関する実験により,REM による単純な拡張後,ベースライントラッカーの精度が向上することを示した。 提案するモジュールは,リレーショナルキューを利用することで,厳密あるいは完全に隠蔽されたオブジェクトの追跡を可能にする。

Tracking multiple objects individually differs from tracking groups of related objects. When an object is a part of the group, its trajectory depends on the trajectories of the other group members. Most of the current state-of-the-art trackers follow the approach of tracking each object independently, with the mechanism to handle the overlapping trajectories where necessary. Such an approach does not take inter-object relations into account, which may cause unreliable tracking for the members of the groups, especially in crowded scenarios, where individual cues become unreliable due to occlusions. To overcome these limitations and to extend such trackers to crowded scenes, we propose a plug-in Relation Encoding Module (REM). REM encodes relations between tracked objects by running a message passing over a corresponding spatio-temporal graph, computing relation embeddings for the tracked objects. Our experiments on MOT17 and MOT20 demonstrate that the baseline tracker improves its results after a simple extension with REM. The proposed module allows for tracking severely or even fully occluded objects by utilizing relational cues.
翻訳日:2021-08-12 13:24:41 公開日:2021-08-11
# 機械学習を用いたCreutzfeldt-Jakob病の予測

Creutzfeldt-Jakob Disease Prediction Using Machine Learning Techniques ( http://arxiv.org/abs/2108.04972v1 )

ライセンス: Link先を確認
Arnav Bhakta, Carolyn Byrne(参考訳) クロイツフェルト・ヤコブ病(Creutzfeldt-Jakob disease, CJD)は、急速に進行し、致命的な神経変性疾患である。 具体的にはプリオン病であり、プリオンタンパク質 $prp^{c}$ の感染形態である $prp^{sc}$ と呼ばれるミスフォールドされたプリオンタンパク質によって引き起こされる。 体によってリサイクルされる代わりに、$PrP^{Sc}$アグリゲーションはプラークとして脳に蓄積され、周囲の細胞の神経変性と病理のスポンジフォーム特性をもたらす。 しかし、$PrP^{Sc}$を取得する確率に影響を与える要因についての研究はほとんど行われていない。 本稿では,米国におけるCreutzfeldt-Jakob病レベルの予測にElastic Net Regression,Long Short-Term Memory Recurrent Neural Network Architectures,Random Forestを用いた。 新しい変数は、土壌、食物、水質などのCJDに影響を与えることが知られている一般的な要因に基づいて、モデルが使用するデータとして作成された。 The root mean square error (RMSE), mean bias error (MBE), mean absolute error (MAE) values, this study revealed the high impact of unhealthy lifestyle choices, CO$_{2}$ Levels, Pesticide Usage, Potash K$_{2}$O Usage on CJD Levels。 この研究は、CJDの予防と検出のための新たな研究の道と潜在的な原因を強調している。

Creutzfeldt-Jakob disease (CJD) is a rapidly progressive and fatal neurodegenerative disease, that causes approximately 350 deaths in the United States every year. In specific, it is a prion disease that is caused by a misfolded prion protein, termed $PrP^{Sc}$, which is the infectious form of the prion protein $PrP^{C}$. Rather than being recycled by the body, the $PrP^{Sc}$ aggregates in the brain as plaques, leading to neurodegeneration of surrounding cells and the spongiform characteristics of the pathology. However, there has been very little research done into factors that can affect one's chances of acquiring $PrP^{Sc}$. In this paper, Elastic Net Regression, Long Short-Term Memory Recurrent Neural Network Architectures, and Random Forest have been used to predict Creutzfeldt-Jakob Disease Levels in the United States. New variables were created as data for the models to use on the basis of common factors that are known to affect CJD, such as soil, food, and water quality. Based on the root mean square error (RMSE), mean bias error (MBE), and mean absolute error (MAE) values, the study reveals the high impact of unhealthy lifestyle choices, CO$_{2}$ Levels, Pesticide Usage, and Potash K$_{2}$O Usage on CJD Levels. In doing so, the study highlights new avenues of research for CJD prevention and detection, as well as potential causes.
翻訳日:2021-08-12 13:24:03 公開日:2021-08-11
# LightMove:タクシーの屋上広告のための軽量次世代POIレコメンデーション

LightMove: A Lightweight Next-POI Recommendation for Taxicab Rooftop Advertising ( http://arxiv.org/abs/2108.04993v1 )

ライセンス: Link先を確認
Jinsung Jeon, Soyoung Kang, Minju Jo, Seunghyeon Cho, Noseong Park, Seonghoon Kim, Chiyoung Song(参考訳) モバイルデジタル看板はブランド認識を高める効果的な方法だ。 様々なモバイル広告の中で、タクティカブの屋上機器が、全く新しいメディアとして市場に登場している。 motov(モトフ)は、韓国の屋上広告市場で指導的な企業である。 本研究では,分類者の次の位置を推定する軽量かつ正確な深層学習に基づく手法を提案し,位置の人口統計情報に基づくターゲティング広告のより良い準備を行う。 次回のPOIレコメンデーションデータセットがしばしばスパースであるという事実を考慮すると、我々はニューラル常微分方程式(NODE)に基づく提示モデルを設計する。 我々のモデルはLightMoveと呼ばれ、予測精度がより高く、パラメータの数が少なく、そして/または様々なデータセットで評価する際のトレーニング/推論時間がより小さい。

Mobile digital billboards are an effective way to augment brand-awareness. Among various such mobile billboards, taxicab rooftop devices are emerging in the market as a brand new media. Motov is a leading company in South Korea in the taxicab rooftop advertising market. In this work, we present a lightweight yet accurate deep learning-based method to predict taxicabs' next locations to better prepare for targeted advertising based on demographic information of locations. Considering the fact that next POI recommendation datasets are frequently sparse, we design our presented model based on neural ordinary differential equations (NODEs), which are known to be robust to sparse/incorrect input, with several enhancements. Our model, which we call LightMove, has a larger prediction accuracy, a smaller number of parameters, and/or a smaller training/inference time, when evaluating with various datasets, in comparison with state-of-the-art models.
翻訳日:2021-08-12 13:23:28 公開日:2021-08-11
# edits: グラフニューラルネットワークのためのデータバイアスのモデリングと緩和

EDITS: Modeling and Mitigating Data Bias for Graph Neural Networks ( http://arxiv.org/abs/2108.05233v1 )

ライセンス: Link先を確認
Yushun Dong, Ninghao Liu, Brian Jalaian, Jundong Li(参考訳) グラフニューラルネットワーク(gnns)は、最近様々なアプリケーションでグラフ分析問題に取り組む優れた能力を示している。 しかし、高い意思決定プロセスにおけるGNNの広範な普及により、GNNが特定の人口集団に対して違法な差別的決定を下す可能性があるという社会的懸念が高まっている。 公正なGNNの開発に向けていくつかの調査が行われてきたが、既存のアプローチは特定のGNNモデルに適合している。 しかし、現実的なシナリオでは、GNNの変種が様々なタスクに対して提案されており、異なるGNNに対して既存のデバイアスモデルを訓練し、微調整することはコストがかかる。 また、トレーニングされたモデルのバイアスはトレーニングデータから発生し、グラフデータのバイアスを緩和する方法は通常見過ごされる。 本研究は, 既存の作業と異なり, まず, 推定されたネットワーク内のバイアスを測定するための新しい定義と指標を提案し, バイアスを緩和するための最適化目標を導出する。 最適化の目的に基づき,属性付きネットワークのバイアスを軽減し,有用な情報を保存するためのフレームワーク EDITS を開発した。 EDITSはモデルに依存しない方法で動作し、ダウンストリームタスクに適用される特定のGNNとは独立している。 合成と実世界の両方のデータセットに対する大規模な実験は、提案したバイアス指標の有効性と、バイアス緩和とユーティリティメンテナンスの両方に対するEDITSの優位性を示している。 オープンソース実装:https://github.com/ yushundong/EDITS。

Graph Neural Networks (GNNs) have recently demonstrated superior capability of tackling graph analytical problems in various applications. Nevertheless, with the wide-spreading practice of GNNs in high-stake decision-making processes, there is an increasing societal concern that GNNs could make discriminatory decisions that may be illegal towards certain demographic groups. Although some explorations have been made towards developing fair GNNs, existing approaches are tailored for a specific GNN model. However, in practical scenarios, myriads of GNN variants have been proposed for different tasks, and it is costly to train and fine-tune existing debiasing models for different GNNs. Also, bias in a trained model could originate from training data, while how to mitigate bias in the graph data is usually overlooked. In this work, different from existing work, we first propose novel definitions and metrics to measure the bias in an attributed network, which leads to the optimization objective to mitigate bias. Based on the optimization objective, we develop a framework named EDITS to mitigate the bias in attributed networks while preserving useful information. EDITS works in a model-agnostic manner, which means that it is independent of the specific GNNs applied for downstream tasks. Extensive experiments on both synthetic and real-world datasets demonstrate the validity of the proposed bias metrics and the superiority of EDITS on both bias mitigation and utility maintenance. Open-source implementation: https://github.com/y ushundong/EDITS.
翻訳日:2021-08-12 13:23:14 公開日:2021-08-11
# 公平性を考慮した因果経路分解によるアルゴリズムフェアネスの解説

Explaining Algorithmic Fairness Through Fairness-Aware Causal Path Decomposition ( http://arxiv.org/abs/2108.05335v1 )

ライセンス: Link先を確認
Weishen Pan, Sen Cui, Jiang Bian, Changshui Zhang, Fei Wang(参考訳) アルゴリズムの公正さは、最近データマイニングと機械学習コミュニティに大きな関心を呼んだ。 これまでの研究は主に、異なる保護グループ間でのアルゴリズムの格差を測定するための定量的なメトリクスの開発と、そのような格差を減らすためにアルゴリズムの出力を調整するアプローチに焦点を当ててきた。 本稿では,モデルの相違点の同定の問題点について検討する。 特徴量の重要性をよく学習する既存の解釈手法とは異なり,特徴変数間の因果関係を考察し,グラフ上の不明瞭な属性と最終予測をリンクする経路であるフェアネス・アウェア因果経路からの貢献の和に不一致を分解する新しい枠組みを提案する。 また、これらの経路内の特定の辺の方向が決定できない場合についても考察する。 また,この枠組みはモデル非依存であり,様々な量的格差対策に適用できる。 合成データと実世界のデータの両方について経験的評価を行い,本手法がモデルの相違に対して正確かつ包括的に説明できることを示す。

Algorithmic fairness has aroused considerable interests in data mining and machine learning communities recently. So far the existing research has been mostly focusing on the development of quantitative metrics to measure algorithm disparities across different protected groups, and approaches for adjusting the algorithm output to reduce such disparities. In this paper, we propose to study the problem of identification of the source of model disparities. Unlike existing interpretation methods which typically learn feature importance, we consider the causal relationships among feature variables and propose a novel framework to decompose the disparity into the sum of contributions from fairness-aware causal paths, which are paths linking the sensitive attribute and the final predictions, on the graph. We also consider the scenario when the directions on certain edges within those paths cannot be determined. Our framework is also model agnostic and applicable to a variety of quantitative disparity measures. Empirical evaluations on both synthetic and real-world data sets are provided to show that our method can provide precise and comprehensive explanations to the model disparities.
翻訳日:2021-08-12 13:22:50 公開日:2021-08-11
# 予測と制御のための断続的強調時間差法

Truncated Emphatic Temporal Difference Methods for Prediction and Control ( http://arxiv.org/abs/2108.05338v1 )

ライセンス: Link先を確認
Shangtong Zhang, Shimon Whiteson(参考訳) 強調時間差分法(英語: Emphatic Temporal difference, TD)とは、追従トレースを用いた非政治強化学習法である。 政治的RLの致命的な三位一体(Sutton and Barto, 2018)に対処するために、強調的なTD法が理論的に成功したにもかかわらず、まだ3つの未解決問題がある。 第一に、サットンらによって提案された強調的TD法の動機である。 (2016) は、Yu (2015) の収束解析と一致しない。 すなわち、Suttonらによって使われる量である。 (2016)は,Yu(2015)の実際の収束解析において,強調的TD手法の収束に必須であると期待されている。 第二に、追跡トレースは一般的に大きなばらつきに悩まされ、実際に使うのが難しくなる。 第三に、予測問題に対する強調的td法の漸近収束を確認したyu (2015)の独創的研究にもかかわらず、予測のための強調的td法についてはまだ有限なサンプル分析が存在しない。 本稿では,これら3つのオープンな問題を,強調的TD手法の追従トレースを用いて同時に解決する。 過去のすべての履歴に依存するオリジナルの追従トレースとは異なり、追従トレースは有限履歴のみに依存し、分散を低減し、予測と制御の両方のために提案した強調的TD法の有限サンプル解析を可能にする。

Emphatic Temporal Difference (TD) methods are a class of off-policy Reinforcement Learning (RL) methods involving the use of followon traces. Despite the theoretical success of emphatic TD methods in addressing the notorious deadly triad (Sutton and Barto, 2018) of off-policy RL, there are still three open problems. First, the motivation for emphatic TD methods proposed by Sutton et al. (2016) does not align with the convergence analysis of Yu (2015). Namely, a quantity used by Sutton et al. (2016) that is expected to be essential for the convergence of emphatic TD methods is not used in the actual convergence analysis of Yu (2015). Second, followon traces typically suffer from large variance, making them hard to use in practice. Third, despite the seminal work of Yu (2015) confirming the asymptotic convergence of some emphatic TD methods for prediction problems, there is still no finite sample analysis for any emphatic TD method for prediction, much less control. In this paper, we address those three open problems simultaneously via using truncated followon traces in emphatic TD methods. Unlike the original followon traces, which depend on all previous history, truncated followon traces depend on only finite history, reducing variance and enabling the finite sample analysis of our proposed emphatic TD methods for both prediction and control.
翻訳日:2021-08-12 13:22:31 公開日:2021-08-11
# 音響シーン分類のための長調音のロバスト特徴学習

Robust Feature Learning on Long-Duration Sounds for Acoustic Scene Classification ( http://arxiv.org/abs/2108.05008v1 )

ライセンス: Link先を確認
Yuzhong Wu, Tan Lee(参考訳) 音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的とする。 log-mel機能と畳み込みニューラルネットワーク(CNN)は最近、ASCで最も人気のある時間周波数(TF)特徴表現と分類器になった。 シーンに記録された音声信号は、時間と周波数で重なり合う様々な音を含むことができる。 前報では,CNNの長調音と短調音を別々に検討することで,ASCの精度が向上する可能性が示唆された。 本研究では,音響シーン分類器の一般化能力の問題に対処する。 実際には、音響シーン信号の特性は、記録装置の選択や記録位置の変化など、様々な要因に影響される可能性がある。 確立されたASCシステムが未確認のシナリオで記録された音声のシーンクラスを予測すると、その精度は大幅に低下する可能性がある。 長音は、ドメインに依存しない音響シーン情報を含むだけでなく、録音条件によって決定されるチャンネル情報も含む。 より堅牢なASCシステムのために、我々はCNNを訓練するための堅牢な特徴学習(RFL)フレームワークを提案する。 RFLフレームワークは、長調音に特化してCNN学習をダウンウェイトする。 提案手法は,長周期音響情報のみを入力とする補助分類器を訓練する。 補助分類器は、標準のクロスエントロピー損失よりも低い分類例に学習重量を割り当てる補助損失関数で訓練される。 実験の結果,提案するRFLフレームワークは,見えないデバイスや都市に対して,より堅牢な音響シーン分類を行うことができることがわかった。

Acoustic scene classification (ASC) aims to identify the type of scene (environment) in which a given audio signal is recorded. The log-mel feature and convolutional neural network (CNN) have recently become the most popular time-frequency (TF) feature representation and classifier in ASC. An audio signal recorded in a scene may include various sounds overlapping in time and frequency. The previous study suggests that separately considering the long-duration sounds and short-duration sounds in CNN may improve ASC accuracy. This study addresses the problem of the generalization ability of acoustic scene classifiers. In practice, acoustic scene signals' characteristics may be affected by various factors, such as the choice of recording devices and the change of recording locations. When an established ASC system predicts scene classes on audios recorded in unseen scenarios, its accuracy may drop significantly. The long-duration sounds not only contain domain-independent acoustic scene information, but also contain channel information determined by the recording conditions, which is prone to over-fitting. For a more robust ASC system, We propose a robust feature learning (RFL) framework to train the CNN. The RFL framework down-weights CNN learning specifically on long-duration sounds. The proposed method is to train an auxiliary classifier with only long-duration sound information as input. The auxiliary classifier is trained with an auxiliary loss function that assigns less learning weight to poorly classified examples than the standard cross-entropy loss. The experimental results show that the proposed RFL framework can obtain a more robust acoustic scene classifier towards unseen devices and cities.
翻訳日:2021-08-12 13:21:43 公開日:2021-08-11
# snakes ai competition 2020と2021のレポート

Snakes AI Competition 2020 and 2021 Report ( http://arxiv.org/abs/2108.05136v1 )

ライセンス: Link先を確認
Joseph Alexander Brown, Luiz Jonata Pires de Araujo, Alexandr Grichshenko(参考訳) snakes aiコンペティションはinnopolis universityによって開催され、2020年と2021年のゲームに関するieeeカンファレンスに参加した。 人工知能アルゴリズムをエージェントで学習し実装するためのサンドボックスをludic方式で作成することを目的としている。 コンペティションの両エディションには、いくつかの国のコンペティターが参加し、主催者とコミュニティの協力関係を築き上げた。 高品質な提案と開発フレームワークに関する熱意は、将来の拡張にエキサイティングなシナリオを生み出します。

The Snakes AI Competition was held by the Innopolis University and was part of the IEEE Conference on Games2020 and 2021 editions. It aimed to create a sandbox for learning and implementing artificial intelligence algorithms in agents in a ludic manner. Competitors of several countries participated in both editions of the competition, which was streamed to create asynergy between organizers and the community. The high-quality submissions and the enthusiasm around the developed framework create an exciting scenario for future extensions.
翻訳日:2021-08-12 13:21:15 公開日:2021-08-11
# 拡張性を改善するための難解論理の近似化

Approximating Defeasible Logics to Improve Scalability ( http://arxiv.org/abs/2108.05232v1 )

ライセンス: Link先を確認
Michael J. Maher(参考訳) defeasible rulesは、法律文書の計算可能な表現を提供するのに使われ、最近では、説明可能なaiの基盤として提案されている。 このようなアプリケーションは、実装のスケーラビリティに注意を向ける。 defeasible logic $dl(\partial_{|})$は、よりよく知られている$dl(\partial)$のよりスケーラブルな代替として導入された。 本稿では、$DL(\partial)$ の代替としてではなく、$DL(\partial)$ の計算結果の計算補助として $DL(\partial)$ の(実装) $DL(\partial)$ の使用を検討する。 我々は$DL(\partial_{|})$を$DL(\partial)$に置き換えることができ、$DL(\partial_{||})$を$DL(\partial)$に置き換える条件と、$DL(\partial)$を$DL(\partial)$に置き換える条件を特定する。

Defeasible rules are used in providing computable representations of legal documents and, more recently, have been suggested as a basis for explainable AI. Such applications draw attention to the scalability of implementations. The defeasible logic $DL(\partial_{||})$ was introduced as a more scalable alternative to $DL(\partial)$, which is better known. In this paper we consider the use of (implementations of) $DL(\partial_{||})$ as a computational aid to computing conclusions in $DL(\partial)$ and other defeasible logics, rather than as an alternative to $DL(\partial)$. We identify conditions under which $DL(\partial_{||})$ can be substituted for $DL(\partial)$ with no change to the conclusions drawn, and conditions under which $DL(\partial_{||})$ can be used to draw some valid conclusions, leaving the remainder to be drawn by $DL(\partial)$.
翻訳日:2021-08-12 13:21:07 公開日:2021-08-11
# エンティティアライメントには負のサンプルが必要か? 高性能,スケーラビリティ,堅牢性を備えたアプローチ

Are Negative Samples Necessary in Entity Alignment? An Approach with High Performance, Scalability and Robustness ( http://arxiv.org/abs/2108.05278v1 )

ライセンス: Link先を確認
Xin Mao, Wenting Wang, Yuanbin Wu, Man Lan(参考訳) エンティティアライメント(EA)は、複数のKGを統合する上で重要なステップである、異なるKGに等価なエンティティを見つけることを目的としている。 しかし、既存のeaメソッドの多くはスケーラビリティが悪く、大規模なデータセットに対応できない。 我々は,(1)非効率的なグラフエンコーダ,(2)負のサンプリングのジレンマ,(3)半教師あり学習における「破滅的な忘れ」という3つの課題を要約する。 これらの課題に対処するため,我々は,(1)関係グラフサンプリングによる簡易グラフエンコーダ,(2)対称負非アライメント損失,(3)漸進的半教師付き学習という,高性能,高スケーラビリティ,高ロバスト性(psr)を実現するための3つの新しいコンポーネントを用いた新しいea手法を提案する。 さらに,提案手法の有効性と有効性を検討するため,いくつかの公開データセットについて詳細な実験を行った。 実験の結果,PSRは従来のSOTAを超えるだけでなく,スケーラビリティや堅牢性にも優れていた。

Entity alignment (EA) aims to find the equivalent entities in different KGs, which is a crucial step in integrating multiple KGs. However, most existing EA methods have poor scalability and are unable to cope with large-scale datasets. We summarize three issues leading to such high time-space complexity in existing EA methods: (1) Inefficient graph encoders, (2) Dilemma of negative sampling, and (3) "Catastrophic forgetting" in semi-supervised learning. To address these challenges, we propose a novel EA method with three new components to enable high Performance, high Scalability, and high Robustness (PSR): (1) Simplified graph encoder with relational graph sampling, (2) Symmetric negative-free alignment loss, and (3) Incremental semi-supervised learning. Furthermore, we conduct detailed experiments on several public datasets to examine the effectiveness and efficiency of our proposed method. The experimental results show that PSR not only surpasses the previous SOTA in performance but also has impressive scalability and robustness.
翻訳日:2021-08-12 13:20:44 公開日:2021-08-11
# 触覚・視覚知覚のための弾性触覚シミュレーション

Elastic Tactile Simulation Towards Tactile-Visual Perception ( http://arxiv.org/abs/2108.05013v1 )

ライセンス: Link先を確認
Yikai Wang, Wenbing Huang, Bin Fang, Fuchun Sun, Chang Li(参考訳) 触覚はロボットの知覚や操作に重要な役割を果たしている。 データ収集の現実的な限界を克服するために、仮想環境における触覚応答のシミュレーションは、ロボット研究の望ましい方向性となる。 本稿では,触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。 既存の作品の多くは触覚センサーを剛性のある多体体としてモデル化しており、触覚センサーの弾性特性を反映させることができず、2つの物体間のきめ細かい物理的相互作用を特徴づけることができない。 対照的に、EIPは触覚センサを座標粒子群としてモデル化し、弾性特性を適用して接触時の粒子の変形を調節する。 EIPによる触覚シミュレーションにより,触覚データと視覚画像との情報融合を可能にする触覚知覚ネットワークを提案する。 知覚ネットワークは、多スケールの触覚特徴を、触覚位置と方向の誘導により視覚的モダリティの対応する局所領域に集約するグローバル・ローカル融合機構に基づいている。 融合法は3次元幾何再構成作業において優位性を示す。

Tactile sensing plays an important role in robotic perception and manipulation tasks. To overcome the real-world limitations of data collection, simulating tactile response in a virtual environment comes as a desirable direction of robotic research. In this paper, we propose Elastic Interaction of Particles (EIP) for tactile simulation. Most existing works model the tactile sensor as a rigid multi-body, which is incapable of reflecting the elastic property of the tactile sensor as well as characterizing the fine-grained physical interaction between the two objects. By contrast, EIP models the tactile sensor as a group of coordinated particles, and the elastic property is applied to regulate the deformation of particles during contact. With the tactile simulation by EIP, we further propose a tactile-visual perception network that enables information fusion between tactile data and visual images. The perception network is based on a global-to-local fusion mechanism where multi-scale tactile features are aggregated to the corresponding local region of the visual modality with the guidance of tactile positions and directions. The fusion method exhibits superiority regarding the 3D geometric reconstruction task.
翻訳日:2021-08-12 13:20:24 公開日:2021-08-11
# FakeAVCeleb:新しいオーディオビデオマルチモーダルディープフェイクデータセット

FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset ( http://arxiv.org/abs/2108.05080v1 )

ライセンス: Link先を確認
Hasam Khalid and Shahroz Tariq and Simon S. Woo(参考訳) ディープフェイク(deepfakes)と呼ばれる偽造ビデオやオーディオの生成において、ディープラーニング技術を使用した大きな進歩があるため、その誤用の問題は現在よく知られた問題である。 近年,人間のクローン音声や合成音声を生成する新たな課題が浮上している。 AIベースのディープラーニングモデルは、わずか数秒のオーディオを必要とする人の声を合成することができる。 ディープフェイクビデオとオーディオを使った偽装攻撃の脅威が出現する中、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検出器が必要である。 ディープフェイクの検出は難しい作業であり、研究者は数多くの試みを行い、いくつかのディープフェイク検出方法を提案した。 優れたディープフェイク検出器を開発するには、現実世界のシナリオをキャプチャする、かなり高品質なデータセットが必要です。 多くの研究者がこの原因に寄与し、いくつかのディープフェイクデータセット、自己生成、そしてその内在性を提供した。 しかし、これらのデータセットのほとんどがディープフェイクビデオかオーディオを含んでいる。 さらに、研究者が最近提案したdeepfakeデータセットには、人種的バイアスがある。 したがって、優れたディープフェイクビデオとオーディオのディープフェイクデータセットが必要である。 このギャップを埋めるために,我々は,deepfakeビデオだけでなく,合成された各クローン音声も含む新しいオーディオビデオdeepfakeデータセット(fakeavceleb)を提案する。 私たちは最近最も人気のあるdeepfake生成手法を使ってデータセットを作成し、ビデオとオーディオは完全にリップシンクされます。 より現実的なデータセットを生成するために、人種的偏見問題に対処するために4つの人種的背景(白人、黒人、東アジア、南アジア)を持つ有名人のYouTubeビデオを選択しました。 最後に,我々は,マルチモーダル・オーディオ・ビデオ・ディープフェイクデータセットに基づいて,ディープフェイク映像とオーディオを検出する新しいマルチモーダル検出手法を提案する。

With the significant advancements made in generation of forged video and audio, commonly known as deepfakes, using deep learning technologies, the problem of its misuse is a well-known issue now. Recently, a new problem of generating cloned or synthesized human voice of a person is emerging. AI-based deep learning models can synthesize any person's voice requiring just a few seconds of audio. With the emerging threat of impersonation attacks using deepfake videos and audios, new deepfake detectors are need that focuses on both, video and audio. Detecting deepfakes is a challenging task and researchers have made numerous attempts and proposed several deepfake detection methods. To develop a good deepfake detector, a handsome amount of good quality dataset is needed that captures the real world scenarios. Many researchers have contributed in this cause and provided several deepfake dataset, self generated and in-the-wild. However, almost all of these datasets either contains deepfake videos or audio. Moreover, the recent deepfake datasets proposed by researchers have racial bias issues. Hence, there is a crucial need of a good deepfake video and audio deepfake dataset. To fill this gap, we propose a novel Audio-Video Deepfake dataset (FakeAVCeleb) that not only contains deepfake videos but respective synthesized cloned audios as well. We generated our dataset using recent most popular deepfake generation methods and the videos and audios are perfectly lip-synced with each other. To generate a more realistic dataset, we selected real YouTube videos of celebrities having four racial backgrounds (Caucasian, Black, East Asian and South Asian) to counter the racial bias issue. Lastly, we propose a novel multimodal detection method that detects deepfake videos and audios based on our multimodal Audio-Video deepfake dataset.
翻訳日:2021-08-12 13:20:07 公開日:2021-08-11
# 自律走行車の安全運転のためのディープニューラルネットワークのキャプチャ不確かさ

Capture Uncertainties in Deep Neural Networks for Safe Operation of Autonomous Driving Vehicles ( http://arxiv.org/abs/2108.05118v1 )

ライセンス: Link先を確認
Liuhui Ding, Dachuan Li, Bowen Liu, Wenxing Lan, Bing Bai, Qi Hao, Weipeng Cao, Ke Pei(参考訳) ディープニューラルネットワーク(DNN)に基づく認識と車両の動きの不確実性は、安全な自動運転車両の開発に課題をもたらす。 本稿では,DNNに基づく認識の不確かさと動きの不確かさの定量化と伝播を特徴とする安全な動き計画手法を提案する。 本研究の貢献は,(1)DNNの3次元物体を検出して関連する動脈およびてんかんの不確かさを定量的に捉えるベイズディープニューラルネットワークモデル,(2)物体検出と自我車の動きの不確かさを考慮に入れた不確実性認識運動計画アルゴリズム(PU-RRT)である。 提案手法は、CARLAで構築されたシミュレーションされた複雑なシナリオを通して検証される。 実験の結果,提案手法は,dnnに基づく知覚と車両運動の不確実性に対処でき,望ましい効率を保ちながら自律走行車の運転安全性を向上できることがわかった。

Uncertainties in Deep Neural Network (DNN)-based perception and vehicle's motion pose challenges to the development of safe autonomous driving vehicles. In this paper, we propose a safe motion planning framework featuring the quantification and propagation of DNN-based perception uncertainties and motion uncertainties. Contributions of this work are twofold: (1) A Bayesian Deep Neural network model which detects 3D objects and quantitatively captures the associated aleatoric and epistemic uncertainties of DNNs; (2) An uncertainty-aware motion planning algorithm (PU-RRT) that accounts for uncertainties in object detection and ego-vehicle's motion. The proposed approaches are validated via simulated complex scenarios built in CARLA. Experimental results show that the proposed motion planning scheme can cope with uncertainties of DNN-based perception and vehicle motion, and improve the operational safety of autonomous vehicles while still achieving desirable efficiency.
翻訳日:2021-08-12 13:19:19 公開日:2021-08-11
# 運動性制約によるマルチエージェントパスの優先順位付けSIPP

Prioritized SIPP for Multi-Agent Path Finding With Kinematic Constraints ( http://arxiv.org/abs/2108.05145v1 )

ライセンス: Link先を確認
Zain Alabedeen Ali and Konstantin Yakovlev(参考訳) MAPF(Multi-Agent Path Finding)は、ロボットと人工知能における長年の問題であり、共有ワークスペースで動作している移動体エージェント(ロボット)のグループに対して、衝突のない一連のパスを見つける必要がある。 その重要性から、この問題はよく研究されており、複数の最適および近似アルゴリズムが知られている。 しかし、それらの多くは運動的な制約から抽象化し、エージェントが瞬時に加速/減速できると仮定する。 これにより、実際のロボットへのアルゴリズムの適用が複雑になる。 本稿では,この問題をある程度緩和する手法を提案する。 提案するソルバは,よく知られたsafe interval path planning (sipp)アルゴリズムに基づく優先順位付きプランナーである。 SIPP内では、速度と加速度について明確に推論し、構築された計画がエージェントの運動的制約を直接考慮する。 そこで本研究では,提案アルゴリズムの包括的評価を行うため,様々なヒューリスティック関数を提案する。

Multi-Agent Path Finding (MAPF) is a long-standing problem in Robotics and Artificial Intelligence in which one needs to find a set of collision-free paths for a group of mobile agents (robots) operating in the shared workspace. Due to its importance, the problem is well-studied and multiple optimal and approximate algorithms are known. However, many of them abstract away from the kinematic constraints and assume that the agents can accelerate/decelerat e instantaneously. This complicates the application of the algorithms on the real robots. In this paper, we present a method that mitigates this issue to a certain extent. The suggested solver is essentially, a prioritized planner based on the well-known Safe Interval Path Planning (SIPP) algorithm. Within SIPP we explicitly reason about the speed and the acceleration thus the constructed plans directly take kinematic constraints of agents into account. We suggest a range of heuristic functions for that setting and conduct a thorough empirical evaluation of the suggested algorithm.
翻訳日:2021-08-12 13:19:02 公開日:2021-08-11
# 頻繁なアイテムセットのマイニングのための並列アルゴリズム

Parallel algorithms for mining of frequent itemsets ( http://arxiv.org/abs/2108.05038v1 )

ライセンス: Link先を確認
Robert Kessl(参考訳) 最近の10年間で企業は大量のデータを集め始めた。 適切な分析がなければ、データは通常役に立たない。 データ分析の分野はデータマイニングと呼ばれる。 残念ながら、データ量は極めて大きく、データがメインメモリに収まらず、処理時間がかなり大きくなる可能性がある。 したがって並列データマイニングアルゴリズムが必要である。 人気があり重要なデータマイニングアルゴリズムの1つは、頻繁なアイテムセットを生成するアルゴリズムである。 頻繁なアイテムセットの採掘の問題は、客が商品のバスケットに入れた店に入り、店のオーナーがバスケットを集め、少なくとも1割のバスケットで購入した商品のセットを知りたがっているという例で説明できる。 現在、頻繁なアイテムセットをマイニングするためのシーケンシャルアルゴリズムは、パフォーマンス面で非常に優れている。 しかし、頻繁なアイテムセットのマイニングのための並列アルゴリズムは、まだ良いスピードアップを達成できていない。 そこで本論文では,分散メモリ並列計算機上で任意の深度ファーストサーチシーケンシャルアルゴリズムに使用可能な,頻繁なアイテムセットをマイニングする並列手法を提案する。 提案手法は10プロセッサで約6の高速化を実現する。 この方法は、データベースサンプルからのプロセッサ負荷の近似的な推定に基づいているが、データベース全体からの頻繁なアイテムセットのセットを常に計算する。 本論文では,提案手法の基礎となる理論を示し,推定プロセスの性能を示す。

In the recent decade companies started collecting of large amount of data. Without a proper analyse, the data are usually useless. The field of analysing the data is called data mining. Unfortunately, the amount of data is quite large: the data do not fit into main memory and the processing time can become quite huge. Therefore, we need parallel data mining algorithms. One of the popular and important data mining algorithm is the algorithm for generation of so called frequent itemsets. The problem of mining of frequent itemsets can be explained on the following example: customers goes in a store put into theirs baskets some goods; the owner of the store collects the baskets and wants to know the set of goods that are bought together in at least p% of the baskets. Currently, the sequential algorithms for mining of frequent itemsets are quite good in the means of performance. However, the parallel algorithms for mining of frequent itemsets still do not achieve good speedup. In this thesis, we develop a parallel method for mining of frequent itemsets that can be used for an arbitrary depth first search sequential algorithms on a distributed memory parallel computer. Our method achieves speedup of ~ 6 on 10 processors. The method is based on an approximate estimation of processor load from a database sample - however it always computes the set of frequent itemsets from the whole database. In this thesis, we show a theory underlying our method and show the performance of the estimation process.
翻訳日:2021-08-12 13:18:22 公開日:2021-08-11
# mlパイプラインの管理 - 機能ストアと組み込みエコシステムの新たな波

Managing ML Pipelines: Feature Stores and the Coming Wave of Embedding Ecosystems ( http://arxiv.org/abs/2108.05053v1 )

ライセンス: Link先を確認
Laurel Orr, Atindriyo Sanyal, Xiao Ling, Karan Goel, and Megan Leszczynski(参考訳) 産業用機械学習パイプラインは、モデル機能の反復、モデルのトレーニングとデプロイ、大規模にデプロイされたモデルの監視を必要とする。 このエンドツーエンドパイプラインでエンジニアのワークフローを管理し標準化するためにフィーチャーストアが開発された。 しかし、近年、モデル開発は自己教師付き事前学習型埋め込みをモデル機能として利用することへと移行している。 これらの組込みとそれを使用する下流システムを管理することは、組込みトレーニングデータの管理、組込み品質の測定、組込みを使用する下流モデル監視に関する新たな課題をもたらす。 これらの課題は、標準のフィーチャーストアではほとんど解決されていない。 このチュートリアルの目標は、フィーチャーストアシステムを紹介し、これら新しい組み込み中心のパイプラインを管理するための課題と現在のソリューションについて論じることです。

The industrial machine learning pipeline requires iterating on model features, training and deploying models, and monitoring deployed models at scale. Feature stores were developed to manage and standardize the engineer's workflow in this end-to-end pipeline, focusing on traditional tabular feature data. In recent years, however, model development has shifted towards using self-supervised pretrained embeddings as model features. Managing these embeddings and the downstream systems that use them introduces new challenges with respect to managing embedding training data, measuring embedding quality, and monitoring downstream models that use embeddings. These challenges are largely unaddressed in standard feature stores. Our goal in this tutorial is to introduce the feature store system and discuss the challenges and current solutions to managing these new embedding-centric pipelines.
翻訳日:2021-08-12 13:18:01 公開日:2021-08-11
# ULTRA:アルゴリズムボックスをランク付けする非偏見のない学習

ULTRA: An Unbiased Learning To Rank Algorithm Toolbox ( http://arxiv.org/abs/2108.05073v1 )

ライセンス: Link先を確認
Anh Tran, Tao Yang, Qingyao Ai(参考訳) システムのランク付けを学ぶことは、私たちの日常生活の重要な側面になっています。 しかし、多くの学習をランク付けするために使用される暗黙のユーザフィードバックは、通常騒がしく、ユーザのバイアス(つまり位置バイアス)に悩まされます。 したがって、バイアスフィードバックを用いたバイアスのないモデルを得ることは、IRにとって重要な研究分野となっている。 unbiased learning to rank (ultr) に関する既存の研究は、ログデータで不偏性を達成する2つの家族-アルゴリズム、オフライン学習、非偏りパラメータを推定して不偏性を達成するアルゴリズム、すなわちオンライン学習に一般化することができる。 どちらの家族からも多くのアルゴリズムが存在するが、それらを比較してベンチマークする方法が統一されていない。 結果として、研究者が問題に対して適切なテクニックを選択することや、既存のアルゴリズムを学習し理解する分野に新しい人を選ぶことが難しくなる可能性がある。 この問題を解決するため,ultraは柔軟で拡張性があり,ultraツールボックスを簡単に構成できる。 主要な機能には、設定可能なハイパーパラメータを備えた複数のULTRアルゴリズムのサポート、クリックをシミュレートするために個別に使用できるさまざまなビルトインクリックモデル、異なるランキングモデルアーキテクチャと評価メトリクス、パイプライン生成をランク付けするための簡単な学習が含まれている。 本稿では、ULTRの一般的なフレームワークについて論じ、ULTRAのアルゴリズムを簡潔に記述し、ツールボックスの構造とパイプラインについて詳述する。 ultraでサポートされているすべてのアルゴリズムを実験し、ツールボックスのパフォーマンスが妥当であることを示した。 ツールボックスは,異なる構成のULTRアルゴリズムの実験や,サポート対象の機能による独自のアルゴリズムのテストを行う上で,研究者にとって重要なリソースである。

Learning to rank systems has become an important aspect of our daily life. However, the implicit user feedback that is used to train many learning to rank models is usually noisy and suffered from user bias (i.e., position bias). Thus, obtaining an unbiased model using biased feedback has become an important research field for IR. Existing studies on unbiased learning to rank (ULTR) can be generalized into two families-algorithms that attain unbiasedness with logged data, offline learning, and algorithms that achieve unbiasedness by estimating unbiased parameters with real-time user interactions, namely online learning. While there exist many algorithms from both families, there lacks a unified way to compare and benchmark them. As a result, it can be challenging for researchers to choose the right technique for their problems or for people who are new to the field to learn and understand existing algorithms. To solve this problem, we introduced ULTRA, which is a flexible, extensible, and easily configure ULTR toolbox. Its key features include support for multiple ULTR algorithms with configurable hyperparameters, a variety of built-in click models that can be used separately to simulate clicks, different ranking model architecture and evaluation metrics, and simple learning to rank pipeline creation. In this paper, we discuss the general framework of ULTR, briefly describe the algorithms in ULTRA, detailed the structure, and pipeline of the toolbox. We experimented on all the algorithms supported by ultra and showed that the toolbox performance is reasonable. Our toolbox is an important resource for researchers to conduct experiments on ULTR algorithms with different configurations as well as testing their own algorithms with the supported features.
翻訳日:2021-08-12 13:17:47 公開日:2021-08-11
# Paraviewにおけるデータ駆動フィルタを目指して

Towards data-driven filters in Paraview ( http://arxiv.org/abs/2108.05196v1 )

ライセンス: Link先を確認
Drishti Majarjan and Peter Zaspel(参考訳) 科学的可視化の最近の進歩は、可視化のスコープを単なるプレゼンテーションの方法から分析と発見のツールへと拡大した。 与えられた可視化結果は通常、基礎となるデータに一連の変換やフィルタを適用することで生成される。 今日では、そのようなフィルタは決定論的アルゴリズムを使ってデータを処理する。 本研究では,この手法をデータ駆動フィルタへ拡張し,事前学習した機械学習モデルの能力を可視化システムへ公開することを目的としている。 このようなデータ駆動フィルタの使用は、セグメンテーションや分類など、機械学習モデルが既存のアルゴリズムアプローチを定期的に上回る分野に特に関心がある。 このアイデアを紹介するために、よく知られたフロー視覚化ツールであるParaviewと、ディープラーニングフレームワークであるPyTorchを組んだ。 Paraviewはプラグインによって拡張されており、ユーザが選択したトレーニング済みモデルを新たに開発されたフィルタ形式でロードすることができる。 フィルタは入力データをモデルに入力することで変換し、残りの視覚化パイプラインへの入力としてモデルの出力を提供する。 画像および流体データに対する分割と分類のための一連の簡易なユースケースを示し、将来の複雑な解析タスクのためのParaviewにおけるこのようなデータ駆動変換の技術的適用性を示す。

Recent progress in scientific visualization has expanded the scope of visualization from being merely a way of presentation to an analysis and discovery tool. A given visualization result is usually generated by applying a series of transformations or filters to the underlying data. Nowadays, such filters use deterministic algorithms to process the data. In this work, we aim at extending this methodology towards data-driven filters, thus filters that expose the abilities of pre-trained machine learning models to the visualization system. The use of such data-driven filters is of particular interest in fields like segmentation, classification, etc., where machine learning models regularly outperform existing algorithmic approaches. To showcase this idea, we couple Paraview, the well-known flow visualization tool, with PyTorch, a deep learning framework. Paraview is extended by plugins that allow users to load pre-trained models of their choice in the form of newly developed filters. The filters transform the input data by feeding it into the model and then provide the model's output as input to the remaining visualization pipeline. A series of simplistic use cases for segmentation and classification on image and fluid data is presented to showcase the technical applicability of such data-driven transformations in Paraview for future complex analysis tasks.
翻訳日:2021-08-12 13:17:16 公開日:2021-08-11
# 自然言語誘導プログラミング

Natural Language-guided Programming ( http://arxiv.org/abs/2108.05198v1 )

ライセンス: Link先を確認
Geert Heyman, Rafael Huysegems, Pascal Justen, Tom Van Cutsem(参考訳) 今日のソフトウェアの世界では、再利用可能なソフトウェアライブラリのコーンコピアがあり、プログラマがライブラリの使用によって完了できると思われるプログラミングタスクに直面したとき、彼らはしばしば検索エンジンを使用してコードの例を探し、そこで見つけたサンプルを特定の使用状況に手動で適応させる。 私たちは、このプロセスを大々的に自動化する可能性のある、新しい種類の開発者ツールに基づいたビジョンを立てました。 キーとなる考え方は、開発者がすでに記述したコードだけでなく、開発者が次に達成しようとしているタスクの意図も考慮して、コードの自動補完ツールを適用することである。 我々は、自然言語誘導プログラミングの完成を促進するために、このコードを自然言語意図で強化するプラクティスを、このプラクティスと呼んでいる。 このアイデアが実現可能であることを示すために、特定のドメイン(データサイエンス)と特定のプログラミング言語(Python)のコンテキストでこの問題を解決するツールを設計、実装、ベンチマークする。 ツールの中心は、ドキュメント化されたコードの大きなコーパスでトレーニングされた言語モデルの使用である。 最初の実験では、このアイデアの実現可能性を確認しましたが、将来可能になるかもしれない表面をひっかいただけでした。 本論文は,自然言語誘導型プログラミングの発芽領域におけるさらなる研究を刺激する総合的な研究課題で締めくくられる。

In today's software world with its cornucopia of reusable software libraries, when a programmer is faced with a programming task that they suspect can be completed through the use of a library, they often look for code examples using a search engine and then manually adapt found examples to their specific context of use. We put forward a vision based on a new breed of developer tools that have the potential to largely automate this process. The key idea is to adapt code autocompletion tools such that they take into account not only the developer's already-written code but also the intent of the task the developer is trying to achieve next, formulated in plain natural language. We call this practice of enriching the code with natural language intent to facilitate its completion natural language-guided programming. To show that this idea is feasible we design, implement and benchmark a tool that solves this problem in the context of a specific domain (data science) and a specific programming language (Python). Central to the tool is the use of language models trained on a large corpus of documented code. Our initial experiments confirm the feasibility of the idea but also make it clear that we have only scratched the surface of what may become possible in the future. We end the paper with a comprehensive research agenda to stimulate additional research in the budding area of natural language-guided programming.
翻訳日:2021-08-12 13:16:58 公開日:2021-08-11
# 弱データスライスを用いた機械学習モデルドリフト検出

Machine Learning Model Drift Detection Via Weak Data Slices ( http://arxiv.org/abs/2108.05319v1 )

ライセンス: Link先を確認
Samuel Ackerman, Parijat Dube, Eitan Farchi, Orna Raz, Marcel Zalmanovici(参考訳) 機械学習(ML)モデルのパフォーマンスのドリフトを検出することは、明らかな課題である。 MLモデルがビジネスアプリケーションの不可欠な部分になるためには、MLモデルが許容可能な操作から逸脱した時に検出することが不可欠である。 しかし、実際のラベルは、例えば、専門家の判断を必要とするため、入手が困難で高価であることが多い。 そのため,ラベルなしでML操作の劣化を検知する手法が必要である。 本研究では,データスライスと呼ばれる特徴空間規則を用いたドリフト検出手法を提案する。 本手法は,基礎となるデータの変化に基づいて,mlモデルが性能変化の可能性が高いことを識別する可能性を示す実験的な指標を提供する。

Detecting drift in performance of Machine Learning (ML) models is an acknowledged challenge. For ML models to become an integral part of business applications it is essential to detect when an ML model drifts away from acceptable operation. However, it is often the case that actual labels are difficult and expensive to get, for example, because they require expert judgment. Therefore, there is a need for methods that detect likely degradation in ML operation without labels. We propose a method that utilizes feature space rules, called data slices, for drift detection. We provide experimental indications that our method is likely to identify that the ML model will likely change in performance, based on changes in the underlying data.
翻訳日:2021-08-12 13:16:36 公開日:2021-08-11
# エッジ保存画像平滑化用片面ボックスフィルタ

One-Sided Box Filter for Edge Preserving Image Smoothing ( http://arxiv.org/abs/2108.05021v1 )

ライセンス: Link先を確認
Yuanhao Gong(参考訳) 画像平滑化は信号処理の基本的なタスクである。 このようなタスクでは、ボックスフィルタがよく知られている。 しかし、ボックスフィルタは、エッジ、コーナー、ステップ関数のジャンプなど、信号のいくつかの特徴を保持することができない。 本稿では,信号の不連続性を保ちながら,信号の平滑化が可能な片面フィルタを提案する。 具体的には、8つの片側ウィンドウでボックスフィルタを実行し、片側ボックスフィルタがコーナーとエッジを保護します。 我々のフィルタは、ウィンドウサイズに関して元のボックスフィルタの定数$o(1)$計算複雑性を継承し、サンプルの総数に関して線形$o(n)$計算複雑性を継承する。 本フィルタの効率と有効性を示すため,いくつかの実験を行った。 さらに,このフィルタを最先端のエッジ保存手法と比較する。 我々のフィルタは、古典的なボックスフィルタを採用する広範囲のアプリケーションにデプロイできる。

Image smoothing is a fundamental task in signal processing. For such task, box filter is well-known. However, box filter can not keep some features of the signal, such as edges, corners and the jump in the step function. In this paper, we present a one-sided box filter that can smooth the signal but keep the discontinuous features in the signal. More specifically, we perform box filter on eight one-sided windows, leading to a one-sided box filter that can preserve corners and edges. Our filter inherits the constant $O(1)$ computational complexity of the original box filter with respect to the window size and also the linear $O(N)$ computational complexity with respect to the total number of samples. We performance several experiments to show the efficiency and effectiveness of this filter. We further compare our filter with other the-state-of-the-art edge preserving methods. Our filter can be deployed in a large range of applications where the classical box filter is adopted.
翻訳日:2021-08-12 13:16:26 公開日:2021-08-11
# 単細胞RNAシークエンシングデータを用いた分子現象の予測:教師なし機械学習モデルの評価

Predicting Molecular Phenotypes with Single Cell RNA Sequencing Data: an Assessment of Unsupervised Machine Learning Models ( http://arxiv.org/abs/2108.05039v1 )

ライセンス: Link先を確認
Anastasia Dunca, Frederick R. Adler(参考訳) 国立がん研究所によると、2018年のがん関連死亡数は950万人である。 治療改善の課題は、遺伝学的に不安定な細胞に対する耐性である。 本研究の目的は、単一細胞RNAシークエンシング(scRNAseq)データの解析と評価指標を用いて、異種腫瘍における治療抵抗性表現型を分類する教師なし機械学習を評価することである。 scRNAseqは細胞のmRNAを定量化し、細胞表現型を特徴づける。 1つのscRNAseqデータセットを解析した(異なる分子サブタイプの腫瘍/非腫瘍細胞と患者同定)。 このパイプラインは、データフィルタリング、主成分分析による次元減少、一様多様体近似と投影による投影、9つのアプローチ(Ward, BIRCH, Gaussian Mixture Model, DBSCAN, Spectral, Affinity Propagation, Agglomerative Clustering, Mean Shift, K-Means)によるクラスタリング、および評価で構成された。 7つのモデルが腫瘍と非腫瘍細胞と分子サブタイプを分割し、6つのモデルが異なる患者の識別を分類した(うち13つはデータセットで提示された)。 K-Means, Ward, BIRCHモデルを用いた最適化された分類パイプラインが, さらなる解析に最も有効であることが評価された。 現在、scRNAseq解析の標準プロトコルがない臨床研究において、このパイプラインから生成されたクラスターは、がん細胞の挙動と悪性成長を理解でき、治療の成功に直接影響を及ぼす。

According to the National Cancer Institute, there were 9.5 million cancer-related deaths in 2018. A challenge in improving treatment is resistance in genetically unstable cells. The purpose of this study is to evaluate unsupervised machine learning on classifying treatment-resistant phenotypes in heterogeneous tumors through analysis of single cell RNA sequencing(scRNAseq) data with a pipeline and evaluation metrics. scRNAseq quantifies mRNA in cells and characterizes cell phenotypes. One scRNAseq dataset was analyzed (tumor/non-tumor cells of different molecular subtypes and patient identifications). The pipeline consisted of data filtering, dimensionality reduction with Principal Component Analysis, projection with Uniform Manifold Approximation and Projection, clustering with nine approaches (Ward, BIRCH, Gaussian Mixture Model, DBSCAN, Spectral, Affinity Propagation, Agglomerative Clustering, Mean Shift, and K-Means), and evaluation. Seven models divided tumor versus non-tumor cells and molecular subtype while six models classified different patient identification (13 of which were presented in the dataset); K-Means, Ward, and BIRCH often ranked highest with ~80% accuracy on the tumor versus non-tumor task and ~60% for molecular subtype and patient ID. An optimized classification pipeline using K-Means, Ward, and BIRCH models was evaluated to be most effective for further analysis. In clinical research where there is currently no standard protocol for scRNAseq analysis, clusters generated from this pipeline can be used to understand cancer cell behavior and malignant growth, directly affecting the success of treatment.
翻訳日:2021-08-12 13:15:22 公開日:2021-08-11
# 深層強化学習に基づくエネルギー管理における明示的予測は重要か?

Does Explicit Prediction Matter in Energy Management Based on Deep Reinforcement Learning? ( http://arxiv.org/abs/2108.05099v1 )

ライセンス: Link先を確認
Zhaoming Qin, Huaying Zhang, Yuzhou Zhao, Hong Xie, and Junwei Cao(参考訳) モデルフリーの最適化および意思決定手法として、エネルギーインターネットにおけるエネルギー管理の申請に対して、深層強化学習(DRL)が広く適用されている。 しかし、drlベースのエネルギー管理スキームの中には、従来のモデルベースの手法で使われる予測モジュールも組み込まれているものもある。 本研究では,DRLに基づく標準エネルギー管理方式について,予測と無関係に述べる。 次に、これら2つのスキームを統一エネルギー管理フレームワークで比較する。 シミュレーションの結果,予測のないエネルギー管理方式は予測方式よりも優れていることがわかった。 本研究は,エネルギー管理分野におけるDRL法の誤用を是正することを目的とする。

As a model-free optimization and decision-making method, deep reinforcement learning (DRL) has been widely applied to the filed of energy management in energy Internet. While, some DRL-based energy management schemes also incorporate the prediction module used by the traditional model-based methods, which seems to be unnecessary and even adverse. In this work, we present the standard DRL-based energy management scheme with and without prediction. Then, these two schemes are compared in the unified energy management framework. The simulation results demonstrate that the energy management scheme without prediction is superior over the scheme with prediction. This work intends to rectify the misuse of DRL methods in the field of energy management.
翻訳日:2021-08-12 13:14:53 公開日:2021-08-11
# TREC 2020 Fair Ranking Trackの概要

Overview of the TREC 2020 Fair Ranking Track ( http://arxiv.org/abs/2108.05135v1 )

ライセンス: Link先を確認
Asia J. Biega, Fernando Diaz, Michael D. Ekstrand, Sergey Feldman, Sebastian Kohlmeier(参考訳) 本稿では,nist trec 2020 fair ranking trackの概要について述べる。 2020年、我々は再び学術的な検索タスクを採用し、そこでは、学術論文の要約とクエリーのコーパスを生産的な学術的な検索エンジンに提出する。 フェアランキングトラックの中心的な目標は、異なる著者のグループ(グループフェアネスフレーミング)に公正な露出を提供することである。 我々は複数のグループ定義(例えば)が存在することを認識している。 人口統計、年齢、トピックに基づいて)、システムに堅牢になることを望んでいます。 参加者は,任意のグループ定義に対して公平性と妥当性を最適化するシステムを開発することを期待し,評価結果が提出されるまで正確なグループ定義を明かさなかった。

This paper provides an overview of the NIST TREC 2020 Fair Ranking track. For 2020, we again adopted an academic search task, where we have a corpus of academic article abstracts and queries submitted to a production academic search engine. The central goal of the Fair Ranking track is to provide fair exposure to different groups of authors (a group fairness framing). We recognize that there may be multiple group definitions (e.g. based on demographics, stature, topic) and hoped for the systems to be robust to these. We expected participants to develop systems that optimize for fairness and relevance for arbitrary group definitions, and did not reveal the exact group definitions until after the evaluation runs were submitted.The track contains two tasks,reranking and retrieval, with a shared evaluation.
翻訳日:2021-08-12 13:14:41 公開日:2021-08-11
# 不完全判断による公正ランキング指標の推定

Estimation of Fair Ranking Metrics with Incomplete Judgments ( http://arxiv.org/abs/2108.05152v1 )

ライセンス: Link先を確認
\"Omer K{\i}rnap, Fernando Diaz, Asia Biega, Michael Ekstrand, Ben Carterette, Emine Y{\i}lmaz(参考訳) 検索システムのランキング決定の公平性を評価することに注目が集まっている。 これらの指標は特定のグループへのアイテムの帰属を考慮し、しばしば性別や民族などの保護された属性を用いて識別される。 これらのメトリクスは一般的に、アイテムの保護された属性ラベルの可用性と完全性を前提としています。 しかし、個人の保護された属性はほとんど存在せず、大規模システムにおける公正なランキングメトリクスの適用を制限する。 この問題に対処するために,4つの公正ランキング指標に対するサンプリング戦略と推定手法を提案する。 非常に限られた数のラベル付きアイテムでも動作可能なロバストで偏りのない推定器を定式化する。 本手法はシミュレーションデータと実世界データの両方を用いて評価する。 実験の結果,本手法は公平なランキング指標の族を推定でき,徹底的あるいは無作為なデータアノテーションに代わるロバストで信頼性の高い代替手段を提供することができた。

There is increasing attention to evaluating the fairness of search system ranking decisions. These metrics often consider the membership of items to particular groups, often identified using protected attributes such as gender or ethnicity. To date, these metrics typically assume the availability and completeness of protected attribute labels of items. However, the protected attributes of individuals are rarely present, limiting the application of fair ranking metrics in large scale systems. In order to address this problem, we propose a sampling strategy and estimation technique for four fair ranking metrics. We formulate a robust and unbiased estimator which can operate even with very limited number of labeled items. We evaluate our approach using both simulated and real world data. Our experimental results demonstrate that our method can estimate this family of fair ranking metrics and provides a robust, reliable alternative to exhaustive or random data annotation.
翻訳日:2021-08-12 13:14:29 公開日:2021-08-11
# 非線形最小二乗に対する収束境界とテンソル回復への応用

Convergence bounds for nonlinear least squares and applications to tensor recovery ( http://arxiv.org/abs/2108.05237v1 )

ライセンス: Link先を確認
Philipp Trunschke(参考訳) L^2$-ノルムの重み付きモンテカルロ推定しか計算できないとき、一般非線形部分集合である$L^2$の関数を近似する問題を考える。 この設定で特に興味を持つのは、最適な近似を回復するために必要なサンプル数であるサンプル複雑性の概念である。 この量の境界は以前の仕事から導出され、主にモデルクラスに依存しており、求める関数の正則性に影響されない。 しかし、この結果は最悪のケース境界に過ぎず、実際に観測される反復的ハードしきい値アルゴリズムの顕著な性能を説明できない。 我々は, 前回の論文の結果を再検討し, 求める関数の正則性を活用可能な新しい境界を導出する。 結果の批判的解析により、低ランクテンソルのモデル集合に対するサンプル効率的なアルゴリズムを導出できる。 このアルゴリズムの生存性は、古典的な高次元ランダム偏微分方程式に対する興味量の回復によって示される。

We consider the problem of approximating a function in general nonlinear subsets of $L^2$ when only a weighted Monte Carlo estimate of the $L^2$-norm can be computed. Of particular interest in this setting is the concept of sample complexity, the number of samples that are necessary to recover the best approximation. Bounds for this quantity have been derived in a previous work and depend primarily on the model class and are not influenced positively by the regularity of the sought function. This result however is only a worst-case bound and is not able to explain the remarkable performance of iterative hard thresholding algorithms that is observed in practice. We reexamine the results of the previous paper and derive a new bound that is able to utilize the regularity of the sought function. A critical analysis of our results allows us to derive a sample efficient algorithm for the model set of low-rank tensors. The viability of this algorithm is demonstrated by recovering quantities of interest for a classical high-dimensional random partial differential equation.
翻訳日:2021-08-12 13:14:15 公開日:2021-08-11
# (参考訳) AdaRNN: 時系列の適応学習と予測 [全文訳有]

AdaRNN: Adaptive Learning and Forecasting of Time Series ( http://arxiv.org/abs/2108.04443v2 )

ライセンス: CC BY 4.0
Yuntao Du, Jindong Wang, Wenjie Feng, Sinno Pan, Tao Qin, Renjun Xu, Chongjun Wang(参考訳) 時系列は現実世界で広く応用されており、予測が難しいことが知られている。 統計的性質は経時的に変化するため、分布も時間的に変化し、既存の方法に厳しい分布シフト問題を引き起こす。 しかし、分布の観点から時系列をモデル化することは未定である。 本稿では、これを時間的共変量シフト(TCS)と呼ぶ。 本稿では, 未確認テストデータに基づく適応モデルを構築し, 適応RNN(AdaRNN)を用いてTCS問題に対処する手法を提案する。 AdaRNNは2つの新しいアルゴリズムで構成されている。 まず,ts内の分布情報をよりよく特徴付けるために,時間分布特性を提案する。 次に,tsの分布ミスマッチを低減し,適応型tsモデルを学ぶための時間分布マッチングを提案する。 AdaRNNは、柔軟な分布距離を統合した一般的なフレームワークである。 ヒトの行動認識、空気質予測、財務分析の実験は、AdaRNNが最新の手法を2.6%の分類精度で上回り、RMSEを9.0%減少させることを示している。 また, 時間分布マッチングアルゴリズムを Transformer 構造に拡張することで, 性能を向上できることを示す。

Time series has wide applications in the real world and is known to be difficult to forecast. Since its statistical properties change over time, its distribution also changes temporally, which will cause severe distribution shift problem to existing methods. However, it remains unexplored to model the time series in the distribution perspective. In this paper, we term this as Temporal Covariate Shift (TCS). This paper proposes Adaptive RNNs (AdaRNN) to tackle the TCS problem by building an adaptive model that generalizes well on the unseen test data. AdaRNN is sequentially composed of two novel algorithms. First, we propose Temporal Distribution Characterization to better characterize the distribution information in the TS. Second, we propose Temporal Distribution Matching to reduce the distribution mismatch in TS to learn the adaptive TS model. AdaRNN is a general framework with flexible distribution distances integrated. Experiments on human activity recognition, air quality prediction, and financial analysis show that AdaRNN outperforms the latest methods by a classification accuracy of 2.6% and significantly reduces the RMSE by 9.0%. We also show that the temporal distribution matching algorithm can be extended in Transformer structure to boost its performance.
翻訳日:2021-08-12 11:04:54 公開日:2021-08-11
# (参考訳) Split-and-Shareモジュールによるエクスプロイト機能 [全文訳有]

Exploiting Features with Split-and-Share Module ( http://arxiv.org/abs/2108.04500v2 )

ライセンス: CC BY 4.0
Jaemin Lee, Minseok Seo, Jongchan Park, Dong-Geol Choi(参考訳) deep convolutional neural networks (cnns)は様々なコンピュータビジョンタスクで最先端のパフォーマンスを示している。 cnnアーキテクチャの進歩は、主に特徴抽出器の畳み込みブロックを設計することに集中しているが、抽出された特徴を利用する分類器には依存していない。 本研究では,与えられた機能を部分に分割する分類器であるssm(slit-and-share module)を提案する。 私たちの直感では、機能が共有されるほど、それらがより一般的になり、SSMは分割された機能においてそのような構造的特性を奨励します。 SSMは、鐘や笛なしで簡単にどんなアーキテクチャにも統合できる。 我々は,ImageNet-1K分類タスクにおけるSSMの有効性を広範囲に検証し,ベースラインアーキテクチャよりも一貫した,重要な改善点を示した。 また,Grad-CAM視覚化を用いてSSMの効果を分析する。

Deep convolutional neural networks (CNNs) have shown state-of-the-art performances in various computer vision tasks. Advances on CNN architectures have focused mainly on designing convolutional blocks of the feature extractors, but less on the classifiers that exploit extracted features. In this work, we propose Split-and-Share Module (SSM),a classifier that splits a given feature into parts, which are partially shared by multiple sub-classifiers. Our intuition is that the more the features are shared, the more common they will become, and SSM can encourage such structural characteristics in the split features. SSM can be easily integrated into any architecture without bells and whistles. We have extensively validated the efficacy of SSM on ImageNet-1K classification task, andSSM has shown consistent and significant improvements over baseline architectures. In addition, we analyze the effect of SSM using the Grad-CAM visualization.
翻訳日:2021-08-12 10:42:23 公開日:2021-08-11
# cvpr 2021画像マッチングチャレンジへの取り組み

Method Towards CVPR 2021 Image Matching Challenge ( http://arxiv.org/abs/2108.04453v2 )

ライセンス: Link先を確認
Xiaopeng Bi, Yu Chen, Xinyang Liu, Dehao Zhang, Ran Yan, Zheng Chai, Haotian Zhang, Xiao Liu(参考訳) 本稿では,megvii-3dチームによるcvpr 2021画像マッチングワークショップについて述べる。

This report describes Megvii-3D team's approach towards CVPR 2021 Image Matching Workshop.
翻訳日:2021-08-12 10:32:15 公開日:2021-08-11
# TrUMAn:映画とアニメのトロープ理解

TrUMAn: Trope Understanding in Movies and Animations ( http://arxiv.org/abs/2108.04542v2 )

ライセンス: Link先を確認
Hung-Ting Su, Po-Wei Shen, Bing-Chen Tsai, Wen-Feng Cheng, Ke-Jyun Wang, Winston H. Hsu(参考訳) ビデオコンテンツの理解と理解は,検索やレコメンデーションシステムなど,多くの現実世界のアプリケーションにとって不可欠である。 近年のディープラーニングの進歩は、視覚的手がかりを用いた様々なタスクのパフォーマンスを高める一方で、意図、動機、因果関係を推論するための深い認知は依然として困難である。 既存のデータセットは、アクション、オブジェクト、関係などの視覚的な信号に焦点を当て、テキストバイアスを利用して答えることができる。 そこで本研究では,映像とアニメーションのトロープ理解(TrUMAn)とともに,視覚信号以外の学習システムの評価・開発を目的とした新しい課題を提案する。 トロピーは創造的な作品のためにしばしば使用されるストーリーテリングデバイスである。 トロープ理解タスクに対処し、マシンの深い認識能力を実現することで、データマイニングアプリケーションとアルゴリズムを次のレベルに導くことができると楽観的に思っています。 そこで,本研究では,ビデオエンコーダを潜在空間上でビデオストーリーテリングすることにより,映像エンコーダをガイドする新たな概念ストーリーテラーモジュールを,トロペ理解とストーリーテリング (trust) に導入する。 生成されたストーリー埋め込みは、さらなるシグナルを提供するためにトロペ理解モデルに送られます。 実験の結果,既存のタスクにおける最先端学習システムは生の入力信号で12.01%の精度しか達成できないことがわかった。 また、人間に注釈された記述を持つoracleの場合でさえ、bert context embeddedは、精度の最大28%を達成する。 提案したTrUStは,モデル性能を13.94%向上させる。 また、今後の研究の道を開くための詳細な分析も行っている。 TrUMAnは、https://www.cmlab.cs ie.ntu.edu.tw/projec t/tropeで公開されている。

Understanding and comprehending video content is crucial for many real-world applications such as search and recommendation systems. While recent progress of deep learning has boosted performance on various tasks using visual cues, deep cognition to reason intentions, motivation, or causality remains challenging. Existing datasets that aim to examine video reasoning capability focus on visual signals such as actions, objects, relations, or could be answered utilizing text bias. Observing this, we propose a novel task, along with a new dataset: Trope Understanding in Movies and Animations (TrUMAn), intending to evaluate and develop learning systems beyond visual signals. Tropes are frequently used storytelling devices for creative works. By coping with the trope understanding task and enabling the deep cognition skills of machines, we are optimistic that data mining applications and algorithms could be taken to the next level. To tackle the challenging TrUMAn dataset, we present a Trope Understanding and Storytelling (TrUSt) with a new Conceptual Storyteller module, which guides the video encoder by performing video storytelling on a latent space. The generated story embedding is then fed into the trope understanding model to provide further signals. Experimental results demonstrate that state-of-the-art learning systems on existing tasks reach only 12.01% of accuracy with raw input signals. Also, even in the oracle case with human-annotated descriptions, BERT contextual embedding achieves at most 28% of accuracy. Our proposed TrUSt boosts the model performance and reaches 13.94% performance. We also provide detailed analysis to pave the way for future research. TrUMAn is publicly available at:https://www.cmlab .csie.ntu.edu.tw/pro ject/trope
翻訳日:2021-08-12 10:32:12 公開日:2021-08-11
# ABC-FL:フェデレートラーニングにおける異常と良性クライアント分類

ABC-FL: Anomalous and Benign client Classification in Federated Learning ( http://arxiv.org/abs/2108.04551v2 )

ライセンス: Link先を確認
Hyejun Jeong, Joonyong Hwang, Tai Myung Chung(参考訳) フェデレーション学習(federated learning)は、データプライバシを保護するために設計された、分散機械学習フレームワークである。 プライバシーを保ちながら機械学習技術を利用できるため、連合学習が人気を集めている。 しかし、ディープラーニング技術で発生した脆弱性と感受性を継承する。 例えば、フェデレーション学習は、分散した性質と生データにアクセスできないため、パフォーマンスと整合性が低下する可能性のあるデータ中毒攻撃に対して特に脆弱である。 さらに、非独立性および/またはIdentically Distributed(非IID)データのため、悪意のあるクライアントを正しく識別することは極めて困難である。 現実世界のデータは複雑で多様であり、生のデータに直接アクセスすることなく悪意のあるデータと区別できない。 以前の研究は、iidデータを持つクライアントのみを良性として扱いながら、悪意のあるクライアントの検出に重点を置いてきた。 本研究では,良性クライアントが非IIDデータを持つ場合,良性クライアントから異常クライアントを検出し,分類する手法を提案する。 提案手法は,特徴次元の縮小,動的クラスタリング,コサイン類似度に基づくクリッピングを利用する。 実験の結果,提案手法は悪意のあるクライアントを分類するだけでなく,手続き全体の悪影響を軽減できることを確認した。 今後の研究では,多様なデータを用いたモデル構築において,異常なクライアントを効果的に排除するために用いることができる。

Federated Learning is a distributed machine learning framework designed for data privacy preservation i.e., local data remain private throughout the entire training and testing procedure. Federated Learning is gaining popularity because it allows one to use machine learning techniques while preserving privacy. However, it inherits the vulnerabilities and susceptibilities raised in deep learning techniques. For instance, Federated Learning is particularly vulnerable to data poisoning attacks that may deteriorate its performance and integrity due to its distributed nature and inaccessibility to the raw data. In addition, it is extremely difficult to correctly identify malicious clients due to the non-Independently and/or Identically Distributed (non-IID) data. The real-world data can be complex and diverse, making them hardly distinguishable from the malicious data without direct access to the raw data. Prior research has focused on detecting malicious clients while treating only the clients having IID data as benign. In this study, we propose a method that detects and classifies anomalous clients from benign clients when benign ones have non-IID data. Our proposed method leverages feature dimension reduction, dynamic clustering, and cosine similarity-based clipping. The experimental results validates that our proposed method not only classifies the malicious clients but also alleviates their negative influences from the entire procedure. Our findings may be used in future studies to effectively eliminate anomalous clients when building a model with diverse data.
翻訳日:2021-08-12 10:31:44 公開日:2021-08-11
# 特定領域適応のための自己逆転ディアンタングリング

Self-Adversarial Disentangling for Specific Domain Adaptation ( http://arxiv.org/abs/2108.03553v2 )

ライセンス: Link先を確認
Qianyu Zhou, Qiqi Gu, Jiangmiao Pang, Zhengyang Feng, Guangliang Cheng, Xuequan Lu, Jianping Shi, Lizhuang Ma(参考訳) ドメイン適応は、ソースとターゲットドメイン間のドメインシフトをブリッジすることを目的としています。 これらの変化は霧や降雨など様々な次元にまたがる可能性がある。 しかし、最近の手法は特定の次元について明示的な事前知識を考慮せず、望まれない適応性能をもたらす。 本稿では、要求された特定次元のソースドメインとターゲットドメインを整列させる、特定ドメイン適応(SDA)と呼ばれる実践的な設定について検討する。 この設定では、異なる領域性(すなわち、この次元の数値等級)によって引き起こされるドメイン内ギャップが、特定の領域に適応する際に重要であることを観察する。 この問題に対処するため,我々は新たな自己逆距離(SAD)フレームワークを提案する。 特に、特定の次元が与えられた場合、我々はまず、追加の監視信号を提供するドメイン性クリエータを導入することで、ソースドメインを強化します。 生成したドメイン性に導かれ、潜在表現をドメイン性固有の特徴とドメイン性不変特徴に結合し、ドメイン内ギャップを緩和するために、自己相反正規化子と2つの損失関数を設計する。 提案手法は,プラグイン・アンド・プレイのフレームワークとして容易に利用でき,推論時間に余分なコストがかからない。 オブジェクト検出とセマンティクスセグメンテーションタスクの両方において,最先端メソッドよりも一貫した改善を実現する。

Domain adaptation aims to bridge the domain shifts between the source and target domains. These shifts may span different dimensions such as fog, rainfall, etc. However, recent methods typically do not consider explicit prior knowledge on a specific dimension, thus leading to less desired adaptation performance. In this paper, we study a practical setting called Specific Domain Adaptation (SDA) that aligns the source and target domains in a demanded-specific dimension. Within this setting, we observe the intra-domain gap induced by different domainness (i.e., numerical magnitudes of this dimension) is crucial when adapting to a specific domain. To address the problem, we propose a novel Self-Adversarial Disentangling (SAD) framework. In particular, given a specific dimension, we first enrich the source domain by introducing a domainness creator with providing additional supervisory signals. Guided by the created domainness, we design a self-adversarial regularizer and two loss functions to jointly disentangle the latent representations into domainness-specific and domainness-invariant features, thus mitigating the intra-domain gap. Our method can be easily taken as a plug-and-play framework and does not introduce any extra costs in the inference time. We achieve consistent improvements over state-of-the-art methods in both object detection and semantic segmentation tasks.
翻訳日:2021-08-12 10:31:20 公開日:2021-08-11
# ドメイン適応意味セグメンテーションのためのコンテキストアウェアミックスアップ

Context-Aware Mixup for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2108.03557v2 )

ライセンス: Link先を確認
Qianyu Zhou, Zhengyang Feng, Qiqi Gu, Jiangmiao Pang, Guangliang Cheng, Xuequan Lu, Jianping Shi, Lizhuang Ma(参考訳) Unsupervised domain adapt (UDA) は、ラベル付きソースドメインのモデルをラベル付きターゲットドメインに適応させることを目的としている。 ドメインシフトは外観やテクスチャなどさまざまな次元に存在するかもしれないが、一般的に異なるドメイン間で共有されるコンテキスト依存は、最近の手法では無視されている。 本稿では,この重要な手がかりを明示的な事前知識として活用し,ドメイン適応意味セグメンテーションのためのエンドツーエンド・コンテキスト・アウェア・ミックスアップ(camix)を提案する。 まず,蓄積した空間分布とコンテキスト関係を利用して,コンテキストマスク生成戦略を設計する。 この作業では、生成されたコンテキストマスクが重要であり、ドメインミックスアップをガイドします。 さらに,画素がどこにあるかを示すために重要マスクを定義する。 オーバーアライメント(例えば、初期の性能劣化)を緩和するために、コンテキストマスクに基づいてソース及びターゲット重要度マスクを混合重要度マスクに混合し、重み付けされた一貫性損失を導入する。 提案手法は,GTAV $\rightarrow $ Cityscapes とSynTHIA $\rightarrow $ Cityscapes の2つの領域適応ベンチマークにおいて,最先端の手法よりも高い性能を示すことを示す。

Unsupervised domain adaptation (UDA) aims to adapt a model of the labeled source domain to an unlabeled target domain. Although the domain shifts may exist in various dimensions such as appearance, textures, etc, the contextual dependency, which is generally shared across different domains, is neglected by recent methods. In this paper, we utilize this important clue as explicit prior knowledge and propose end-to-end Context-Aware Mixup (CAMix) for domain adaptive semantic segmentation. Firstly, we design a contextual mask generation strategy by leveraging accumulated spatial distributions and contextual relationships. The generated contextual mask is critical in this work and will guide the domain mixup. In addition, we define the significance mask to indicate where the pixels are credible. To alleviate the over-alignment (e.g., early performance degradation), the source and target significance masks are mixed based on the contextual mask into the mixed significance mask, and we introduce a significance-reweigh ted consistency loss on it. Experimental results show that the proposed method outperforms the state-of-the-art methods by a large margin on two widely-used domain adaptation benchmarks, i.e., GTAV $\rightarrow $ Cityscapes and SYNTHIA $\rightarrow $ Cityscapes.
翻訳日:2021-08-12 10:30:57 公開日:2021-08-11
# AdaAttN: Arbitrary Neural Style Transferにおける再留意機構

AdaAttN: Revisit Attention Mechanism in Arbitrary Neural Style Transfer ( http://arxiv.org/abs/2108.03647v2 )

ライセンス: Link先を確認
Songhua Liu, Tianwei Lin, Dongliang He, Fu Li, Meiling Wang, Xin Li, Zhengxing Sun, Qian Li, Errui Ding(参考訳) 高速な任意の神経様式の伝達は、様々な応用を可能にする柔軟性から、学術、産業、芸術のコミュニティから広く注目を集めている。 既存のソリューションは、特徴分布を考慮せずに、ディープなスタイルの機能をディープなコンテンツ機能に意図的に融合させるか、グローバルな統計が一致するスタイルに従ってディープなコンテンツ機能に適応的に正規化する。 浅度の特徴は探索されず、特徴統計をローカルに考慮することなく有効であるが、局所的な歪みを伴わずに不自然な出力をする傾向がある。 そこで本稿では,注意正規化モジュールであるadaptive attention normalization (adaattn)を提案し,ポイント単位の注意正規化を適応的に行う。 特に、コンテンツとスタイル画像の浅い特徴と深い特徴の両方から、空間的注意スコアを学習する。 そして、すべてのスタイル特徴点の注目重み付き出力の分布として、スタイル特徴点に関するポイントごとの重み付き統計を算出する。 最後に、コンテンツ機能は正規化され、計算されたポイント毎の重み付きスタイル特徴統計と同じ局所特徴統計を示す。 さらに、AdaAttNに基づく新たな局所的特徴損失が導出され、局所的な視覚的品質が向上する。 また、AdaAttNを少し修正してビデオスタイルの転送に対応できるように拡張します。 実験により,本手法が任意の画像/ビデオスタイルの転送を実現することを示す。 コードとモデルは利用可能である。

Fast arbitrary neural style transfer has attracted widespread attention from academic, industrial and art communities due to its flexibility in enabling various applications. Existing solutions either attentively fuse deep style feature into deep content feature without considering feature distributions, or adaptively normalize deep content feature according to the style such that their global statistics are matched. Although effective, leaving shallow feature unexplored and without locally considering feature statistics, they are prone to unnatural output with unpleasing local distortions. To alleviate this problem, in this paper, we propose a novel attention and normalization module, named Adaptive Attention Normalization (AdaAttN), to adaptively perform attentive normalization on per-point basis. Specifically, spatial attention score is learnt from both shallow and deep features of content and style images. Then per-point weighted statistics are calculated by regarding a style feature point as a distribution of attention-weighted output of all style feature points. Finally, the content feature is normalized so that they demonstrate the same local feature statistics as the calculated per-point weighted style feature statistics. Besides, a novel local feature loss is derived based on AdaAttN to enhance local visual quality. We also extend AdaAttN to be ready for video style transfer with slight modifications. Experiments demonstrate that our method achieves state-of-the-art arbitrary image/video style transfer. Codes and models are available.
翻訳日:2021-08-12 10:30:31 公開日:2021-08-11
# Paint Transformer:ストローク予測によるフィードフォワードニューラルペイント

Paint Transformer: Feed Forward Neural Painting with Stroke Prediction ( http://arxiv.org/abs/2108.03798v2 )

ライセンス: Link先を確認
Songhua Liu, Tianwei Lin, Dongliang He, Fu Li, Ruifeng Deng, Xin Li, Errui Ding, Hao Wang(参考訳) ニューラル・ペインティング(Neural painting)とは、ある画像に対して一連のストロークを生成し、ニューラルネットワークを用いて非フォトリアリスティックに再現する手順である。 強化学習(RL)に基づくエージェントは、このタスクのためにステップごとにストロークシーケンスを生成できるが、安定したRLエージェントを訓練するのは容易ではない。 一方、ストローク最適化手法は、大規模な探索空間において反復的に一連のストロークパラメータを探索する。 本稿では,従来の手法と異なり,このタスクをセット予測問題として定式化し,フィードフォワードネットワークで設定したストロークのパラメータを予測するために,Paint Transformerと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。 このようにして、モデルが並列に一連のストロークを生成し、ほぼリアルタイムでサイズ512 * 512の最終的な絵を得ることができる。 さらに重要なことは、ペイントトランスフォーマーをトレーニングするためのデータセットがないため、優れた一般化能力を維持しつつ、既成のデータセットなしでトレーニングできるような、自己トレーニングパイプラインを考案する。 提案手法は,従来手法よりも低いトレーニングと推論コストで絵筆性能を向上できることが実証された。 コードとモデルは利用可能である。

Neural painting refers to the procedure of producing a series of strokes for a given image and non-photo-realistica lly recreating it using neural networks. While reinforcement learning (RL) based agents can generate a stroke sequence step by step for this task, it is not easy to train a stable RL agent. On the other hand, stroke optimization methods search for a set of stroke parameters iteratively in a large search space; such low efficiency significantly limits their prevalence and practicality. Different from previous methods, in this paper, we formulate the task as a set prediction problem and propose a novel Transformer-based framework, dubbed Paint Transformer, to predict the parameters of a stroke set with a feed forward network. This way, our model can generate a set of strokes in parallel and obtain the final painting of size 512 * 512 in near real time. More importantly, since there is no dataset available for training the Paint Transformer, we devise a self-training pipeline such that it can be trained without any off-the-shelf dataset while still achieving excellent generalization capability. Experiments demonstrate that our method achieves better painting performance than previous ones with cheaper training and inference costs. Codes and models are available.
翻訳日:2021-08-12 10:30:08 公開日:2021-08-11
# ドメイン対応ユニバーサルスタイル転送

Domain-Aware Universal Style Transfer ( http://arxiv.org/abs/2108.04441v2 )

ライセンス: Link先を確認
Kibeom Hong, Seogkyu Jeon, Huan Yang, Jianlong Fu, Hyeran Byun(参考訳) スタイル転送は、参照画像からスタイルでコンテンツイメージを再生することを目的としている。 既存のユニバーサルスタイル転送手法は、芸術的またはフォトリアリズム的な方法で、オリジナルイメージに任意のスタイルを届けることに成功した。 しかし、既存の作品で定義されている「アービタリースタイル」の範囲は、その構造的制限のため、特定の領域に制限されている。 具体的には、予め定義された対象領域に従ってコンテンツ保存及びスタイリゼーションの度合いを確立する。 その結果、フォトリアリスティックモデルと芸術モデルの両方が、他のドメインに対して望ましいスタイル転送を行うのに困難である。 この制限を克服するために、ドメイン対応スタイル転送ネットワーク(DSTN)という統一アーキテクチャを提案し、そのスタイルだけでなく、ドメインの性質(すなわち、ドメイン性)を与えられた参照画像から転送する。 この目的のために,参照画像のテクスチャと構造的特徴からドメイン性値をキャプチャする新しいドメイン性インジケータを設計する。 さらに,ストロークとパレットを,ドメイン性インジケータが指示する入力内容に適応的に転送する,ドメイン認識スキップ接続を備えた統一フレームワークを提案する。 広範な実験により,我々のモデルが質的結果を生み出すことを検証し,芸術的およびフォトリアリスティックなスタイライゼーションの指標として,これまでの手法を上回った。

Style transfer aims to reproduce content images with the styles from reference images. Existing universal style transfer methods successfully deliver arbitrary styles to original images either in an artistic or a photo-realistic way. However, the range of 'arbitrary style' defined by existing works is bounded in the particular domain due to their structural limitation. Specifically, the degrees of content preservation and stylization are established according to a predefined target domain. As a result, both photo-realistic and artistic models have difficulty in performing the desired style transfer for the other domain. To overcome this limitation, we propose a unified architecture, Domain-aware Style Transfer Networks (DSTN) that transfer not only the style but also the property of domain (i.e., domainness) from a given reference image. To this end, we design a novel domainness indicator that captures the domainness value from the texture and structural features of reference images. Moreover, we introduce a unified framework with domain-aware skip connection to adaptively transfer the stroke and palette to the input contents guided by the domainness indicator. Our extensive experiments validate that our model produces better qualitative results and outperforms previous methods in terms of proxy metrics on both artistic and photo-realistic stylizations.
翻訳日:2021-08-12 10:29:47 公開日:2021-08-11
# CPNet: 効率的な異常検出のためのクロスパラレルネットワーク

CPNet: Cross-Parallel Network for Efficient Anomaly Detection ( http://arxiv.org/abs/2108.04454v2 )

ライセンス: Link先を確認
Youngsaeng Jin, David Han and Hanseok Ko(参考訳) 映像ストリームにおける異常検出は,異常事象の不足と正確なアノテートが困難であることから,課題となっている。 これらの問題を緩和するために、教師なし学習に基づく予測手法がこれまで適用されてきた。 これらのアプローチは、通常のイベントのみを用いてモデルをトレーニングし、エンコーダ-デコーダアーキテクチャを用いて、前のフレームのシーケンスから将来のフレームを予測する。 しかし、アーキテクチャには計算負荷が伴うため、いくつかの異常検出タスクは性能を犠牲にすることなく低い計算コストを必要とする。 本稿では,性能低下のない計算を最小化するために,効率的な異常検出を行うCPNetを提案する。 n個の小さな並列u-netで構成され、それぞれが単一の入力フレームを処理するように設計され、計算をより効率的にする。 さらに,ネットワーク間シフトモジュールを組み込んで,逐次フレーム間の時間的関係を捕捉し,より正確な将来予測を可能にする。

Anomaly detection in video streams is a challenging problem because of the scarcity of abnormal events and the difficulty of accurately annotating them. To alleviate these issues, unsupervised learning-based prediction methods have been previously applied. These approaches train the model with only normal events and predict a future frame from a sequence of preceding frames by use of encoder-decoder architectures so that they result in small prediction errors on normal events but large errors on abnormal events. The architecture, however, comes with the computational burden as some anomaly detection tasks require low computational cost without sacrificing performance. In this paper, Cross-Parallel Network (CPNet) for efficient anomaly detection is proposed here to minimize computations without performance drops. It consists of N smaller parallel U-Net, each of which is designed to handle a single input frame, to make the calculations significantly more efficient. Additionally, an inter-network shift module is incorporated to capture temporal relationships among sequential frames to enable more accurate future predictions.The quantitative results show that our model requires less computational cost than the baseline U-Net while delivering equivalent performance in anomaly detection.
翻訳日:2021-08-12 10:29:26 公開日:2021-08-11
# CVPR 2021 SimLocMatch Challenge への取り組み

Method Towards CVPR 2021 SimLocMatch Challenge ( http://arxiv.org/abs/2108.04466v2 )

ライセンス: Link先を確認
Xiaopeng Bi, Ran Yan, Zheng Chai, Haotian Zhang, Xiao Liu(参考訳) 本報告では,SimLocMatch Challenge @ CVPR 2021 Image Matching Workshopに対するMegvii-3Dチームのアプローチについて述べる。

This report describes Megvii-3D team's approach towards SimLocMatch Challenge @ CVPR 2021 Image Matching Workshop.
翻訳日:2021-08-12 10:29:06 公開日:2021-08-11
# 画像-画像間翻訳におけるコントラスト学習のためのインスタンス単位のハード負例生成

Instance-wise Hard Negative Example Generation for Contrastive Learning in Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2108.04547v2 )

ライセンス: Link先を確認
Weilun Wang, Wengang Zhou, Jianmin Bao, Dong Chen and Houqiang Li(参考訳) コントラスト学習は画像と画像の翻訳において大きな可能性を秘めているが、翻訳結果は品質が悪く、コンテンツは一貫して保存されないこともある。 本稿では,画像翻訳における対照学習の性能に負の例が重要な役割を担っていることを明らかにする。 過去の手法における負の例は、ソースイメージ内の異なる位置のパッチからランダムにサンプリングされるが、クエリの例に近い正の例をプッシュするには効果がない。 この問題に対処するために、未ペア画像-画像翻訳(NEGCUT)におけるコントラスト学習のための否定例生成法を提案する。 具体的には、オンラインでネガティブな例を生成するためにジェネレータを訓練する。 ジェネレータは2つの観点から斬新である: 1) 生成したサンプルが入力イメージに基づくインスタンスワイズであり、2) 敵の損失でトレーニングされるため、ハードネガティブな例を生成することができる。 生成装置では、未ペア画像-画像間変換の性能が大幅に向上する。 3つのベンチマークデータセットの実験により、提案したNEGCUTフレームワークは、従来の手法と比較して最先端のパフォーマンスを達成することが示された。

Contrastive learning shows great potential in unpaired image-to-image translation, but sometimes the translated results are in poor quality and the contents are not preserved consistently. In this paper, we uncover that the negative examples play a critical role in the performance of contrastive learning for image translation. The negative examples in previous methods are randomly sampled from the patches of different positions in the source image, which are not effective to push the positive examples close to the query examples. To address this issue, we present instance-wise hard Negative Example Generation for Contrastive learning in Unpaired image-to-image Translation (NEGCUT). Specifically, we train a generator to produce negative examples online. The generator is novel from two perspectives: 1) it is instance-wise which means that the generated examples are based on the input image, and 2) it can generate hard negative examples since it is trained with an adversarial loss. With the generator, the performance of unpaired image-to-image translation is significantly improved. Experiments on three benchmark datasets demonstrate that the proposed NEGCUT framework achieves state-of-the-art performance compared to previous methods.
翻訳日:2021-08-12 10:29:03 公開日:2021-08-11
# ホルダ拡大下における凸最適化のための不規則近点アルゴリズムの計算複雑性

Computational complexity of Inexact Proximal Point Algorithm for Convex Optimization under Holderian Growth ( http://arxiv.org/abs/2108.04482v2 )

ライセンス: Link先を確認
Andrei Patrascu, Paul Irofti(参考訳) 数十年前、PPA (Proximal Point Algorithm) は抽象演算子理論と数値最適化のコミュニティの両方に多くの注目を集め始めた。 現代の応用においても、研究者は高次元モデルにおける非滑らか性を克服するスケーラブルなアルゴリズムを設計するために、近位最小化理論を用いている。 \cite{fer:91,ber:82constra ined,ber:89parallel, tom:11} は ppa の収束率と目的関数の正則性の間の密接な局所関係を分析した。 しかしながら、各PPAイテレーションの計算に費やされる具体的な計算労力を考慮せずに、イテレーションの複雑さは抽象的で純粋に有益である。 本論文は,PPAの計算複雑性を(近)勾配/下位反復の観点から評価することを目的としており,一階法のクラスにおける有名なPPA数値性能の公平な位置決めを可能にしている。 まず、完全かつ不正確な PPA の漸近的反復複雑性推定を導出し、凸関数を$\gamma-$Holderian growth: $\BigO{\log(1/\epsilon)}$ ($\gamma \in [1,2]$) と $\BigO{1/\epsilon^{\gamma - 2}}$ ($\gamma > 2$) で最小化する。 特に, 鋭い極小の有限収束と二次成長の線形収束という, 不正確性の存在下でもよく知られたppaの結果を復元する。 第二に、通常の(近似的な)勾配/下位のメソッドサブルーチンが不正確なPPA反復を計算するために使用されると仮定すると、目的関数の成長に関する情報が得られない場合に利用可能な、不正確なPPAの再開された変種に、新しい計算複雑性境界が現れる。 数値実験では,提案方式の実用性と実装性を確認した。

Several decades ago the Proximal Point Algorithm (PPA) started to gain much attraction for both abstract operator theory and the numerical optimization communities. Even in modern applications, researchers still use proximal minimization theory to design scalable algorithms that overcome nonsmoothness in high dimensional models. Several remarkable references as \cite{Fer:91,Ber:82constra ined,Ber:89parallel, Tom:11} analyzed the tight local relations between the convergence rate of PPA and the regularity of the objective function. However, without taking into account the concrete computational effort paid for computing each PPA iteration, any iteration complexity remains abstract and purely informative. In this manuscript we aim to evaluate the computational complexity of practical PPA in terms of (proximal) gradient/subgradient iterations, which might allow a fair positioning of the famous PPA numerical performance in the class of first order methods. First, we derive nonasymptotic iteration complexity estimates of exact and inexact PPA to minimize convex functions under $\gamma-$Holderian growth: $\BigO{\log(1/\epsilon)}$ (for $\gamma \in [1,2]$) and $\BigO{1/\epsilon^{\gamma - 2}}$ (for $\gamma > 2$). In particular, we recover well-known results on exact PPA: finite convergence for sharp minima and linear convergence for quadratic growth, even under presence of inexactness. Second, assuming that an usual (proximal) gradient/subgradient method subroutine is employed to compute inexact PPA iteration, we show novel computational complexity bounds on a restarted variant of the inexact PPA, available when no information on the growth of the objective function is known. In the numerical experiments we confirm the practical performance and implementability of our schemes.
翻訳日:2021-08-12 10:28:43 公開日:2021-08-11
# AnyoneNet: 任意者のための音声と音声の同期生成

AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary Person ( http://arxiv.org/abs/2108.04325v2 )

ライセンス: Link先を確認
Xinsheng Wang, Qicong Xie, Jihua Zhu, Lei Xie, Scharenborg(参考訳) 音声合成と口唇運動が同期するビデオの自動生成は、多くの人間とコンピュータの対話シナリオにおいて大きな可能性を秘めている。 本稿では、任意の人物のテキストと1つの顔画像に基づいて、同期した音声と話し手の映像を入力として生成する自動手法を提案する。 特定の人の声のみを合成できる従来のテキスト駆動音声ヘッド生成法とは対照的に,提案手法は訓練段階においてアクセシブルな人なら誰でも音声を合成することができる。 具体的には,tts(text-to-speech) ステージと音声駆動型音声ヘッド生成ステージの2段階に分類した。 提案するTTSモジュールは,音声の代わりに話者識別情報を話者画像から取得し,入力された顔画像に基づいてパーソナライズされた音声を合成する,顔条件付きマルチスピーカTSモデルである。 顔画像から音声ヘッドビデオを生成するために,唇の動きと頭部回転の両方を予測する顔ランドマークに基づく手法を提案する。 広汎な実験により,提案手法は任意の人や非人に対して,同期音声と音声ヘッドビデオを生成することができることを示した。 合成音声は、合成音声の音色および画像の外観に関する所定の顔と一致し、提案するランドマークに基づく発話ヘッド法は、自然発話ヘッドビデオを生成するための最先端のランドマークベース手法よりも優れる。

Automatically generating videos in which synthesized speech is synchronized with lip movements in a talking head has great potential in many human-computer interaction scenarios. In this paper, we present an automatic method to generate synchronized speech and talking-head videos on the basis of text and a single face image of an arbitrary person as input. In contrast to previous text-driven talking head generation methods, which can only synthesize the voice of a specific person, the proposed method is capable of synthesizing speech for any person that is inaccessible in the training stage. Specifically, the proposed method decomposes the generation of synchronized speech and talking head videos into two stages, i.e., a text-to-speech (TTS) stage and a speech-driven talking head generation stage. The proposed TTS module is a face-conditioned multi-speaker TTS model that gets the speaker identity information from face images instead of speech, which allows us to synthesize a personalized voice on the basis of the input face image. To generate the talking head videos from the face images, a facial landmark-based method that can predict both lip movements and head rotations is proposed. Extensive experiments demonstrate that the proposed method is able to generate synchronized speech and talking head videos for arbitrary persons and non-persons. Synthesized speech shows consistency with the given face regarding to the synthesized voice's timbre and one's appearance in the image, and the proposed landmark-based talking head method outperforms the state-of-the-art landmark-based method on generating natural talking head videos.
翻訳日:2021-08-12 10:28:02 公開日:2021-08-11
# 連続動作空間を有するマルチエージェントシステムの安全深層強化学習

Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous Action Spaces ( http://arxiv.org/abs/2108.03952v2 )

ライセンス: Link先を確認
Ziyad Sheebaelhamd, Konstantinos Zisis, Athina Nisioti, Dimitris Gkouletsos, Dario Pavllo, Jonas Kohler(参考訳) マルチエージェント制御問題は、連続的な行動空間を持つ深層強化学習モデルに対する興味深い応用分野である。 しかし、そのような現実世界のアプリケーションは、通常、違反してはいけない重要な安全上の制約が伴う。 安全性を確保するため、我々は、深層政策ネットワークに安全層を追加することで、よく知られたマルチエージェントの深層決定政策勾配(MADDPG)フレームワークを強化する。 特に,安全なddpg(dalal et al., 2018)の単一エージェントシステムに対して行われたように,単一ステップ遷移ダイナミクスをマルチエージェント設定にリニア化するという考え方を拡張した。 また,ソフト制約(Kerrigan & Maciejowski, 2000)を用いて,動作補正ステップの不実現性問題を回避することを提案する。 厳密なペナルティ関数の理論による結果は、穏やかな仮定の下でのソフト制約の制約満足度を保証するために用いられる。 ソフトな定式化によって制約違反の劇的な減少が達成され,学習過程においても安全性が確保される。

Multi-agent control problems constitute an interesting area of application for deep reinforcement learning models with continuous action spaces. Such real-world applications, however, typically come with critical safety constraints that must not be violated. In order to ensure safety, we enhance the well-known multi-agent deep deterministic policy gradient (MADDPG) framework by adding a safety layer to the deep policy network. In particular, we extend the idea of linearizing the single-step transition dynamics, as was done for single-agent systems in Safe DDPG (Dalal et al., 2018), to multi-agent settings. We additionally propose to circumvent infeasibility problems in the action correction step using soft constraints (Kerrigan & Maciejowski, 2000). Results from the theory of exact penalty functions can be used to guarantee constraint satisfaction of the soft constraints under mild assumptions. We empirically find that the soft formulation achieves a dramatic decrease in constraint violations, making safety available even during the learning procedure.
翻訳日:2021-08-12 10:27:34 公開日:2021-08-11
# データ処理と分析のための深層強化学習に関する研究

A Survey on Deep Reinforcement Learning for Data Processing and Analytics ( http://arxiv.org/abs/2108.04526v2 )

ライセンス: Link先を確認
Qingpeng Cai, Can Cui, Yiyuan Xiong, Wei Wang, Zhongle Xie and Meihui Zhang(参考訳) データ処理と分析は基本的で普及している。 アルゴリズムは、多くのアルゴリズム設計が人間の知識と経験からヒューリスティックと一般的なルールを取り入れ、その効果を向上させるためにデータ処理と分析において重要な役割を果たす。 近年、強化学習、特に深層強化学習(DRL)は、静的設計アルゴリズムよりも複雑な環境でのより良い戦略を学習できるため、多くの分野で研究され、活用されている。 この傾向に動機づけられて,深層強化学習によるデータ処理と分析の改善に焦点を当てた最近の研究の包括的レビューを行った。 まず,深層強化学習における重要な概念,理論,手法について紹介する。 次に、データベースシステムにおける深層強化学習の展開について論じ、データ構造、スケジューリング、チューニング、インデックス化など、さまざまな面でデータ処理と分析を容易にする。 次に,データ準備,自然言語インターフェースから医療,フィンテックに至るまで,データ処理と分析における深層強化学習の応用について調査した。 最後に,データ処理と分析における深層強化学習の課題と今後の研究方向性について論じる。

Data processing and analytics are fundamental and pervasive. Algorithms play a vital role in data processing and analytics where many algorithm designs have incorporated heuristics and general rules from human knowledge and experience to improve their effectiveness. Recently, reinforcement learning, deep reinforcement learning (DRL) in particular, is increasingly explored and exploited in many areas because it can learn better strategies in complicated environments it is interacting with than statically designed algorithms. Motivated by this trend, we provide a comprehensive review of recent works focusing on utilizing deep reinforcement learning to improve data processing and analytics. First, we present an introduction to key concepts, theories, and methods in deep reinforcement learning. Next, we discuss deep reinforcement learning deployment on database systems, facilitating data processing and analytics in various aspects, including data organization, scheduling, tuning, and indexing. Then, we survey the application of deep reinforcement learning in data processing and analytics, ranging from data preparation, natural language interface to healthcare, fintech, etc. Finally, we discuss important open challenges and future research directions of using deep reinforcement learning in data processing and analytics.
翻訳日:2021-08-12 10:27:16 公開日:2021-08-11