このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220514となっている論文です。

PDF登録状況(公開日: 20220514)

TitleAuthorsAbstract論文公表日・翻訳日
# ネットワークプルーニングのための重み依存ゲート

Weight-dependent Gates for Network Pruning ( http://arxiv.org/abs/2007.02066v4 )

ライセンス: Link先を確認
Yun Li, Zechun Liu, Weiqun Wu, Haotian Yao, Xiangyu Zhang, Chi Zhang, Baoqun Yin(参考訳) 本稿では,プルーニングインジケータ,プルーニング比,効率制約の問題を同時に解決するための,シンプルで効果的なネットワークプルーニングフレームワークを提案する。 本論では, 刈取決定は畳み込み重みに依存するべきであり, フィルタ重みから情報を学習し, フィルタのプーンや保持を自動的に行うための二分ゲートを得るための新しい重み依存ゲート (W-Gates) を提案する。 効率制約下でネットワークをプルークするために、ハードウェアの遅延やFLOPを予測するために、スイッチ可能な効率モジュールが構築される。 提案した効率モジュールと組み合わせることで、W-Gatesは効率に配慮したフィルタプルーニングを行い、精度と効率のトレードオフを向上したコンパクトネットワークを実現することができる。 resnet34, resnet50, mobilenet v2における提案手法の有効性を実証し,imagenet上でのハードウェアレイテンシを低減し,最大1.33/1.28/1.1高いtop-1精度を実現した。 最先端の手法と比較して、W-Gatesは性能も優れている。

In this paper, a simple yet effective network pruning framework is proposed to simultaneously address the problems of pruning indicator, pruning ratio, and efficiency constraint. This paper argues that the pruning decision should depend on the convolutional weights, and thus proposes novel weight-dependent gates (W-Gates) to learn the information from filter weights and obtain binary gates to prune or keep the filters automatically. To prune the network under efficiency constraints, a switchable Efficiency Module is constructed to predict the hardware latency or FLOPs of candidate pruned networks. Combined with the proposed Efficiency Module, W-Gates can perform filter pruning in an efficiency-aware manner and achieve a compact network with a better accuracy-efficiency trade-off. We have demonstrated the effectiveness of the proposed method on ResNet34, ResNet50, and MobileNet V2, respectively achieving up to 1.33/1.28/1.1 higher Top-1 accuracy with lower hardware latency on ImageNet. Compared with state-of-the-art methods, W-Gates also achieves superior performance.
翻訳日:2022-11-13 13:38:10 公開日:2022-05-14
# 局所微分プライバシーに基づく高次元データ収集のための表現学習

Representation Learning for High-Dimensional Data Collection under Local Differential Privacy ( http://arxiv.org/abs/2010.12464v3 )

ライセンス: Link先を確認
Alex Mansbridge, Gregory Barbour, Davide Piras, Michael Murray, Christopher Frye, Ilya Feige, David Barber(参考訳) 個人データの収集は多くの業界で一般的になっている。 ローカルディファレンシャルプライバシ(ldp)は、個人がデータをローカルに民営化するプライバシを維持するための厳格なアプローチを提供する。 したがって、LDPは個人に対して、敵とデータベース管理者の両方に対して、証明可能なプライバシー保証を提供する。 既存のLPPメカニズムは低次元データに適用されているが、高次元ではプライバシーを誘発するノイズがデータの有用性を著しく損なう。 まず,表現学習から最先端技術を適用することで,LDPのメカニズムを学習するための新しいアプローチを導入する。 これらのメカニズムは、データの基礎となる低次元多様体上の強力な表現にノイズを加え、高次元におけるLDPの禁止ノイズ要求を克服する。 第二に、下流モデル学習のための新しいDenoisingアプローチを導入する。 収集されたLDPデータを用いた高性能機械学習モデルのトレーニングはデータコレクターの共通の目標であり、下流モデルのパフォーマンスはLDPデータユーティリティーのプロキシとなる。 我々のアプローチは現在の最先端のldpメカニズムを大きく上回っている。

The collection of individuals' data has become commonplace in many industries. Local differential privacy (LDP) offers a rigorous approach to preserving privacy whereby the individual privatises their data locally, allowing only their perturbed datum to leave their possession. LDP thus provides a provable privacy guarantee to the individual against both adversaries and database administrators. Existing LDP mechanisms have successfully been applied to low-dimensional data, but in high dimensions the privacy-inducing noise largely destroys the utility of the data. In this work, our contributions are two-fold: first, by adapting state-of-the-art techniques from representation learning, we introduce a novel approach to learning LDP mechanisms. These mechanisms add noise to powerful representations on the low-dimensional manifold underlying the data, thereby overcoming the prohibitive noise requirements of LDP in high dimensions. Second, we introduce a novel denoising approach for downstream model learning. The training of performant machine learning models using collected LDP data is a common goal for data collectors, and downstream model performance forms a proxy for the LDP data utility. Our approach significantly outperforms current state-of-the-art LDP mechanisms.
翻訳日:2022-10-03 22:00:47 公開日:2022-05-14
# 音声翻訳におけるジェンダーバイアスの評価

Evaluating Gender Bias in Speech Translation ( http://arxiv.org/abs/2010.14465v4 )

ライセンス: Link先を確認
Marta R. Costa-juss\`a and Christine Basta and Gerard I. G\'allego(参考訳) 科学コミュニティは、多元主義を取り入れ、主要な社会集団と小さな社会集団を一貫して表わす必要性をますます認識している。 現在、様々な種類のバイアスに対する標準的な評価技術はない。 したがって、自動システムの既存のバイアスを測定するために、評価セットやプロトコルを提供する必要がある。 バイアスの評価は、システム内でバイアスを緩和するための重要なステップであるべきです。 本稿では、音声翻訳におけるジェンダーバイアスを評価するために、WinoSTを提案する。 WinoSTは、MTチャレンジセットであるWinoMTの音声バージョンであり、どちらも性別の精度を測定するための評価プロトコルに従う。 最先端の音声翻訳システムを用いて,4つの言語対における性バイアス評価を報告し,mt における音声翻訳における性差の精度が23%以上低いことを示す。

The scientific community is increasingly aware of the necessity to embrace pluralism and consistently represent major and minor social groups. Currently, there are no standard evaluation techniques for different types of biases. Accordingly, there is an urgent need to provide evaluation sets and protocols to measure existing biases in our automatic systems. Evaluating the biases should be an essential step towards mitigating them in the systems. This paper introduces WinoST, a new freely available challenge set for evaluating gender bias in speech translation. WinoST is the speech version of WinoMT which is a MT challenge set and both follow an evaluation protocol to measure gender accuracy. Using a state-of-the-art end-to-end speech translation system, we report the gender bias evaluation on four language pairs and we show that gender accuracy in speech translation is more than 23% lower than in MT.
翻訳日:2022-10-02 11:56:51 公開日:2022-05-14
# (参考訳) 自動意思決定システムにおける公平性と説明可能性 計算機科学と法学への挑戦

Fairness and Explainability in Automatic Decision-Making Systems. A challenge for computer science and law ( http://arxiv.org/abs/2206.03226v1 )

ライセンス: CC BY 4.0
Thierry Kirat, Olivia Tambou, Virginie Do, Alexis Tsouki\`as(参考訳) 本論文は,アルゴリズム自動決定における公平性問題の解析に関する学際的構成に寄与する。 第1節では、教師付き学習における技術的選択には、考慮すべき社会的影響があることを示している。 第2節は、意図しない集団差別の問題、すなわち、社会的グループ(例えば、性別、人種、民族)にまたがる不釣り合いな影響を生じさせる決定規則に対する文脈的アプローチを提案する。 文脈化は、一方がアメリカ合衆国の法制度、もう一方がヨーロッパに焦点をあてる。 特に、法律と判例法は、大西洋の両側で異なる公正の基準を推進しがちである。 第3節は、アルゴリズム決定の説明可能性に焦点をあてており、技術的概念(ヨーロッパ法とフランス法)を相互参照する法概念と対決し、アルゴリズム決定の明示性に関連するヨーロッパ法とフランスの法文の複数、あるいは多義性を強調する。 その結論はさらなる研究の方向性を提案する。

The paper offers a contribution to the interdisciplinary constructs of analyzing fairness issues in automatic algorithmic decisions. Section 1 shows that technical choices in supervised learning have social implications that need to be considered. Section 2 proposes a contextual approach to the issue of unintended group discrimination, i.e. decision rules that are facially neutral but generate disproportionate impacts across social groups (e.g., gender, race or ethnicity). The contextualization will focus on the legal systems of the United States on the one hand and Europe on the other. In particular, legislation and case law tend to promote different standards of fairness on both sides of the Atlantic. Section 3 is devoted to the explainability of algorithmic decisions; it will confront and attempt to cross-reference legal concepts (in European and French law) with technical concepts and will highlight the plurality, even polysemy, of European and French legal texts relating to the explicability of algorithmic decisions. The conclusion proposes directions for further research.
翻訳日:2022-06-12 23:48:41 公開日:2022-05-14
# (参考訳) スマートグリッドにおける電力ネットワーク再構成のためのHATSGAアルゴリズムによる電力損失評価

On Evaluating Power Loss with HATSGA Algorithm for Power Network Reconfiguration in the Smart Grid ( http://arxiv.org/abs/2205.10126v1 )

ライセンス: CC BY 4.0
Flavio Galvao Calhau, Alysson Pezzutti and Joberto S. B. Martins(参考訳) 本稿では,電力ネットワーク再構成アルゴリズムHATSGAを"R"モデリングアプローチで提案し,その動作をSmart Gridコンテキストにおける電力ネットワークの新たな再構成トポロジの計算において評価する。 言語「R」による配電ネットワークのモデリングは,ネットワークの表現や,新たな再構成トポロジの評価に向けて,異なるアルゴリズム構成の計算を支援するために用いられる。 HATSGAアルゴリズムは、ハイブリッドな Tabu Search and Genetic Algorithm 戦略を採用し、ネットワーク再構成ソリューションを計算するための様々な方法で設定できる。 HATSGAによる電力損失の評価は、IEEE 14-Busトポロジーをパワーテストシナリオとして用いている。 hatgaによる最小電力損失を持つ再構成トポロジの評価は,効率的な解を計算時間で達成できることを示す。 このことはhatgaが再構成ネットワークトポロジーの計算に応用できる可能性を示唆し、それ以外は計算時間が必要となる自律的自己修復管理アプローチに使用できることを示唆する。

This paper presents the power network reconfiguration algorithm HATSGA with a "R" modeling approach and evaluates its behavior in computing new reconfiguration topologies for the power network in the Smart Grid context. The modeling of the power distribution network with the language "R" is used to represent the network and support the computation of distinct algorithm configurations towards the evaluation of new reconfiguration topologies. The HATSGA algorithm adopts a hybrid Tabu Search and Genetic Algorithm strategy and can be configured in different ways to compute network reconfiguration solutions. The evaluation of power loss with HATSGA uses the IEEE 14-Bus topology as the power test scenario. The evaluation of reconfiguration topologies with minimum power loss with HATSGA indicates that an efficient solution can be reached with a feasible computational time. This suggests that HATSGA can be potentially used for computing reconfiguration network topologies and, beyond that, it can be used for autonomic self-healing management approaches where a feasible computational time is required.
翻訳日:2022-06-06 07:26:37 公開日:2022-05-14
# 顔の認識と検出のための新しい顔アンチスプーフィングニューラルネットワークモデル

A Novel Face-Anti Spoofing Neural Network Model For Face Recognition And Detection ( http://arxiv.org/abs/2205.11240v1 )

ライセンス: Link先を確認
Soham S. Sarpotdar(参考訳) 顔認識(fr)システムは、道路横断、銀行、モバイルバンキングなど、さまざまなアプリケーションで使用されている。 frシステムの広範な使用は、正統なユーザーの顔の写真やビデオを使用してリソースやアクティビティへの違法アクセスを得るために、スプーフィング攻撃に対する顔バイオメトリックスの安全性に関する懸念を提起している。 いくつかのfasやライブネス検出法(顔が生きているか、取得時にスプーフされているかを判定する)が開発されているにもかかわらず、この問題は識別の困難さと操作上合理的に価格が設定されたスプーフの特徴とアプローチのため未解決のままである。 さらに、特定の顔の部分はしばしば繰り返されたり、画像のぼけと相関しているため、全体的なパフォーマンスは低下する。 本研究は,既存のモデルより優れ,効率が0.89パーセントの対面型ニューラルネットワークモデルを提案する。

Face Recognition (FR) systems are being used in a variety of applications, including road crossings, banking, and mobile banking. The widespread use of FR systems has raised concerns about the safety of face biometrics against spoofing attacks, which use the use of a photo or video of a legitimate user's face to gain illegal access to the resources or activities. Despite the development of several FAS or liveness detection methods (which determine whether a face is live or spoofed at the time of acquisition), the problem remains unsolved due to the difficulty of identifying discrimination and operationally reasonably priced spoof characteristics but also approaches. Additionally, certain facial portions are frequently repeated or correlate to image clutter, resulting in poor performance overall. This research proposes a face-anti-spoofing neural network model that outperforms existing models and has an efficiency of 0.89 percent.
翻訳日:2022-05-29 20:37:39 公開日:2022-05-14
# (参考訳) 繰り返し非協調ゲームにおける非回帰学習

No-regret learning for repeated non-cooperative games with lossy bandits ( http://arxiv.org/abs/2205.06968v1 )

ライセンス: CC BY 4.0
Wenting Liu, Jinlong Lei, Peng Yi, Yiguang Hong(参考訳) 本稿では,バンディットフィードバックの損失を伴う連続カーネルゲームにおけるノンリグレット学習について検討する。 動的環境における効用関数の明示的なモデルを与えるのは難しいため、プレイヤーの行動はバンディットフィードバックによってのみ学習できる。 さらに、信頼性の低い通信チャネルやプライバシ保護のため、盗聴のフィードバックは無作為に失われることがある。 そこで我々は,長期的後悔の損失を最小限に抑えるため,プレイヤーの非同期オンライン学習戦略について検討した。 この論文は、オンライン勾配降下と損失バンド(ogd-lb)と呼ばれる新しい非回帰学習アルゴリズムを提供する。 まず,微分可能およびリプシッツユーティリティを備えたconcaveゲームに対する後悔の分析を行う。 次に、ゲームが厳密に単調であるときに、アクションプロファイルが確率1とナッシュ平衡に収束することを示す。 さらに、ゲームが$\beta-$強単調であるときの平均平方収束率 $\mathcal{O}\left(k^{-2\min\{\beta, 1/6\right)$ を提供する。 さらに,バンディットフィードバックの損失確率が未知の場合にもアルゴリズムを拡張し,厳密な単調ゲームに対するナッシュ平衡へのほぼ確実な収束性を証明した。 最後に,フォグコンピューティングにおける資源管理を応用例として取り上げ,アルゴリズムの性能を実証的に示す数値実験を行った。

This paper considers no-regret learning for repeated continuous-kernel games with lossy bandit feedback. Since it is difficult to give the explicit model of the utility functions in dynamic environments, the players' action can only be learned with bandit feedback. Moreover, because of unreliable communication channels or privacy protection, the bandit feedback may be lost or dropped at random. Therefore, we study the asynchronous online learning strategy of the players to adaptively adjust the next actions for minimizing the long-term regret loss. The paper provides a novel no-regret learning algorithm, called Online Gradient Descent with lossy bandits (OGD-lb). We first give the regret analysis for concave games with differentiable and Lipschitz utilities. Then we show that the action profile converges to a Nash equilibrium with probability 1 when the game is also strictly monotone. We further provide the mean square convergence rate $\mathcal{O}\left(k^{-2\min\{\beta, 1/6\}}\right)$ when the game is $\beta-$ strongly monotone. In addition, we extend the algorithm to the case when the loss probability of the bandit feedback is unknown, and prove its almost sure convergence to Nash equilibrium for strictly monotone games. Finally, we take the resource management in fog computing as an application example, and carry out numerical experiments to empirically demonstrate the algorithm performance.
翻訳日:2022-05-19 06:54:44 公開日:2022-05-14
# (参考訳) Mask CycleGAN: 解釈可能な潜在変数を持つ非ペア型マルチモーダルドメイン翻訳

Mask CycleGAN: Unpaired Multi-modal Domain Translation with Interpretable Latent Variable ( http://arxiv.org/abs/2205.06969v1 )

ライセンス: CC BY 4.0
Minfa Wang(参考訳) 提案するMask CycleGANは,CycleGANをベースとした未ペア画像領域翻訳のための新しいアーキテクチャである。 1)画像翻訳における一様性 2)潜在変数の解釈可能性の欠如。 技術的アプローチにおける私たちの革新は、マスキングスキーム、ジェネレータ、目的の3つの重要なコンポーネントで構成されています。 実験により、このアーキテクチャは、生成した画像に可変性をもたらすことができ、異なるマスクに対して合理的に堅牢であることが示された。

We propose Mask CycleGAN, a novel architecture for unpaired image domain translation built based on CycleGAN, with an aim to address two issues: 1) unimodality in image translation and 2) lack of interpretability of latent variables. Our innovation in the technical approach is comprised of three key components: masking scheme, generator and objective. Experimental results demonstrate that this architecture is capable of bringing variations to generated images in a controllable manner and is reasonably robust to different masks.
翻訳日:2022-05-19 06:26:01 公開日:2022-05-14
# (参考訳) RiCS: ボリュームオブジェクトの調和のための2次元自己閉塞マップ

RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects ( http://arxiv.org/abs/2205.06975v1 )

ライセンス: CC BY 4.0
Yunseok Jang, Ruben Villegas, Jimei Yang, Duygu Ceylan, Xin Sun, Honglak Lee(参考訳) 深層学習によるコンピュータビジョンで顕著な成功を収めた。 このようなブレークスルーは堅牢なパフォーマンスを示しているが、隠蔽や物理的相互作用の予測など、深い知識を学ぶ上ではまだ多くの課題がある。 近年の研究では, 2d と 3d の次元が不一致であることから, 3d モデルへの入力を効率的に行う方法が明らかになっていない。 カメラ空間におけるレイマーチング(Ray-marching in Camera Space, RiCS)は, 3次元前景オブジェクトの自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。 背景画像とコヒーレントなシェーディングを予測し,人間の画像調和タスクにおける表現の有効性を検証した。 実験により, 画像の質向上だけでなく, 時間的コヒーレントな複雑な影効果を, 定量的・定性的にシミュレーション・トゥ・リアル・ハーモニゼーション法と比較してモデル化できることを実証した。 さらに,本手法により,既存の合成データセット上でトレーニングされたヒト部品分割ネットワークの性能を大幅に向上させることができることを示す。

There have been remarkable successes in computer vision with deep learning. While such breakthroughs show robust performance, there have still been many challenges in learning in-depth knowledge, like occlusion or predicting physical interactions. Although some recent works show the potential of 3D data in serving such context, it is unclear how we efficiently provide 3D input to the 2D models due to the misalignment in dimensionality between 2D and 3D. To leverage the successes of 2D models in predicting self-occlusions, we design Ray-marching in Camera Space (RiCS), a new method to represent the self-occlusions of foreground objects in 3D into a 2D self-occlusion map. We test the effectiveness of our representation on the human image harmonization task by predicting shading that is coherent with a given background image. Our experiments demonstrate that our representation map not only allows us to enhance the image quality but also to model temporally coherent complex shadow effects compared with the simulation-to-real and harmonization methods, both quantitatively and qualitatively. We further show that we can significantly improve the performance of human parts segmentation networks trained on existing synthetic datasets by enhancing the harmonization quality with our method.
翻訳日:2022-05-19 06:10:16 公開日:2022-05-14
# (参考訳) アコーディオン:科学概念の多様な記述を生成するためのマルチドキュメントアプローチ

ACCoRD: A Multi-Document Approach to Generating Diverse Descriptions of Scientific Concepts ( http://arxiv.org/abs/2205.06982v1 )

ライセンス: CC BY 4.0
Sonia K. Murthy, Kyle Lo, Daniel King, Chandra Bhagavatula, Bailey Kuehl, Sophie Johnson, Jonathan Borchardt, Daniel S. Weld, Tom Hope, Doug Downey(参考訳) 不慣れな用語を自動的に定義できるシステムは、科学的なテキストのアクセシビリティを向上させるという約束を持っている。 しかし、現在のシステムは概念ごとに一つの「ベスト」な記述を前提としており、概念を記述できる多くの有用な方法を考慮できない。 本稿では,科学概念の記述セットを生成する新しいタスクに取り組む,エンドツーエンドシステムACCoRDを提案する。 我々のシステムは、科学文献で言及される概念の無数の方法を利用して、異なる参照概念の観点で、対象とする科学概念の明瞭で多様な記述を作成する。 タスクの研究を支援するために,1275のラベル付きコンテキストと1,787の手書きコンセプト記述を含む,専門家によるアノテーション付きリソースであるアコーディオンコーパスをリリースする。 本研究では,(1)エンド・ツー・エンドのシステムで作成された記述をユーザが好むこと,(2)複数の記述を1つの「ベスト」記述に優先すること,を示す。

Systems that can automatically define unfamiliar terms hold the promise of improving the accessibility of scientific texts, especially for readers who may lack prerequisite background knowledge. However, current systems assume a single "best" description per concept, which fails to account for the many potentially useful ways a concept can be described. We present ACCoRD, an end-to-end system tackling the novel task of generating sets of descriptions of scientific concepts. Our system takes advantage of the myriad ways a concept is mentioned across the scientific literature to produce distinct, diverse descriptions of target scientific concepts in terms of different reference concepts. To support research on the task, we release an expert-annotated resource, the ACCoRD corpus, which includes 1,275 labeled contexts and 1,787 hand-authored concept descriptions. We conduct a user study demonstrating that (1) users prefer descriptions produced by our end-to-end system, and (2) users prefer multiple descriptions to a single "best" description.
翻訳日:2022-05-19 05:48:11 公開日:2022-05-14
# (参考訳) バックドア攻撃に対するニューラルネットワークの検証

Verifying Neural Networks Against Backdoor Attacks ( http://arxiv.org/abs/2205.06992v1 )

ライセンス: CC BY 4.0
Long H. Pham and Jun Sun(参考訳) ニューラルネットワークは、安全/セキュリティクリティカルシステムにおける多くのアプリケーションを含む多くの問題を解決することで、最先端のパフォーマンスを達成している。 研究者は、ニューラルネットワークに関連する複数のセキュリティ問題も発見した。 そのうちの1つはバックドア攻撃であり、すなわち、ニューラルネットワークをバックドアに埋め込んで、ターゲット出力がトリガーの存在下でほぼ常に生成されるようにすることができる。 既存の防御アプローチは主に、ニューラルネットワークが活性化パターンなどのヒューリスティックに基づいて「バックドア」されているかどうかを検出することに焦点を当てている。 我々の知る限りでは、バックドアの欠如を証明する唯一の作業行は、ニューラルネットワークの性能を著しく低下させることで知られているランダム化スムース化に基づいている。 本研究では,あるニューラルネットワークが一定の成功率でバックドアから解放されているかどうかを検証するアプローチを提案する。 本手法は,統計的サンプリングと抽象解釈を統合した。 実験の結果,提案手法はバックドアの欠如を効果的に検証し,バックドアトリガーを生成する。

Neural networks have achieved state-of-the-art performance in solving many problems, including many applications in safety/security-critical systems. Researchers also discovered multiple security issues associated with neural networks. One of them is backdoor attacks, i.e., a neural network may be embedded with a backdoor such that a target output is almost always generated in the presence of a trigger. Existing defense approaches mostly focus on detecting whether a neural network is 'backdoored' based on heuristics, e.g., activation patterns. To the best of our knowledge, the only line of work which certifies the absence of backdoor is based on randomized smoothing, which is known to significantly reduce neural network performance. In this work, we propose an approach to verify whether a given neural network is free of backdoor with a certain level of success rate. Our approach integrates statistical sampling as well as abstract interpretation. The experiment results show that our approach effectively verifies the absence of backdoor or generates backdoor triggers.
翻訳日:2022-05-19 05:30:29 公開日:2022-05-14
# (参考訳) 多言語トランスファー学習による固有言語のニューラルマシン翻訳の改善

Improving Neural Machine Translation of Indigenous Languages with Multilingual Transfer Learning ( http://arxiv.org/abs/2205.06993v1 )

ライセンス: CC BY 4.0
Wei-Rui Chen and Muhammad Abdul-Mageed(参考訳) 絶滅危惧種を含む固有の言語を含む機械翻訳(MT)は、十分な並列データがないために困難である。 本稿では,バイリンガルおよび多言語事前訓練されたMTモデルをスペイン語から10の南米先住民語に翻訳するための移行学習環境に活用するアプローチについて述べる。 私たちのモデルは、新しいSOTAを考慮に入れている10の言語ペアのうち5つに設定しました。 列車セットを拡大するためにデータ拡張を行う従来のSOTAとは異なり、そのような制約の下でモデルの有効性をテストするための低リソース設定を保持します。 先住民族言語に関する言語情報の希少さにもかかわらず、我々は、結果を文脈化するための量的および質的な分析(形態学、トークン化、正書法など)を多数提供している。

Machine translation (MT) involving Indigenous languages, including those possibly endangered, is challenging due to lack of sufficient parallel data. We describe an approach exploiting bilingual and multilingual pretrained MT models in a transfer learning setting to translate from Spanish to ten South American Indigenous languages. Our models set new SOTA on five out of the ten language pairs we consider, even doubling performance on one of these five pairs. Unlike previous SOTA that perform data augmentation to enlarge the train sets, we retain the low-resource setting to test the effectiveness of our models under such a constraint. In spite of the rarity of linguistic information available about the Indigenous languages, we offer a number of quantitative and qualitative analyses (e.g., as to morphology, tokenization, and orthography) to contextualize our results.
翻訳日:2022-05-19 05:04:14 公開日:2022-05-14
# (参考訳) SaiNet: ジェネレーティブネットワークを持つオブジェクトの背景にステレオ認識

SaiNet: Stereo aware inpainting behind objects with generative networks ( http://arxiv.org/abs/2205.07014v1 )

ライセンス: CC BY 4.0
Violeta Men\'endez Gonz\'alez, Andrew Gilbert, Graeme Phillipson, Stephen Jolly, Simon Hadfield(参考訳) 本研究では,物体の後方に大きな欠損領域を塗布することを目的とした立体一貫性画像のエンドツーエンドネットワークを提案する。 提案モデルは部分畳み込みを用いたエッジ誘導型unetライクネットワークからなる。 差分損失を導入することで,多視点ステレオ一貫性を実現する。 さらに、より一般的なランダムマスクの代わりに、オブジェクトの閉塞を表すリアルなステレオマスクからモデルを学習する訓練手法を開発する。 その技法は監督された方法で訓練される。 本評価は,従来の最先端技術と比較して,競争力のある結果を示す。

In this work, we present an end-to-end network for stereo-consistent image inpainting with the objective of inpainting large missing regions behind objects. The proposed model consists of an edge-guided UNet-like network using Partial Convolutions. We enforce multi-view stereo consistency by introducing a disparity loss. More importantly, we develop a training scheme where the model is learned from realistic stereo masks representing object occlusions, instead of the more common random masks. The technique is trained in a supervised way. Our evaluation shows competitive results compared to previous state-of-the-art techniques.
翻訳日:2022-05-19 04:46:45 公開日:2022-05-14
# (参考訳) Cliff Diving:強化学習環境におけるリワードサーフェスを探る

Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning Environments ( http://arxiv.org/abs/2205.07015v1 )

ライセンス: CC BY 4.0
Ryan Sullivan, J. K. Terry, Benjamin Black, John P. Dickerson(参考訳) 最適化のランドスケープを視覚化することで、数値最適化に関する基本的な洞察が生まれ、最適化テクニックが新しくなった。 しかし、強化学習が最適化する目的の可視化("reward surface")は、ごく少数の狭い文脈でしか生成されていない。 この研究は、ギムで最も広く使われている強化学習環境27の報酬面と関連する視覚化を初めて提示する。 また,政策勾配方向の報奨面についても検討し,多くの強化学習環境が頻繁な「崖(cliffs)」を持っていることを初めて示した。 a2cはこれらの崖をパラメータ空間の低報酬領域に「分割」することが多いが、ppoはそれを回避し、以前の方法よりもppoの性能が向上したという一般的な直観を確認している。 さらに,将来,これらの視覚化を簡単に生成できる拡張性の高いライブラリも導入する。 本研究は,最新のrl手法の成功と失敗を説明するための新たな直感的考察と,強化学習エージェントのいくつかの障害モードを,新しい方法で具体的に特徴付けるものである。

Visualizing optimization landscapes has led to many fundamental insights in numeric optimization, and novel improvements to optimization techniques. However, visualizations of the objective that reinforcement learning optimizes (the "reward surface") have only ever been generated for a small number of narrow contexts. This work presents reward surfaces and related visualizations of 27 of the most widely used reinforcement learning environments in Gym for the first time. We also explore reward surfaces in the policy gradient direction and show for the first time that many popular reinforcement learning environments have frequent "cliffs" (sudden large drops in expected return). We demonstrate that A2C often "dives off" these cliffs into low reward regions of the parameter space while PPO avoids them, confirming a popular intuition for PPO's improved performance over previous methods. We additionally introduce a highly extensible library that allows researchers to easily generate these visualizations in the future. Our findings provide new intuition to explain the successes and failures of modern RL methods, and our visualizations concretely characterize several failure modes of reinforcement learning agents in novel ways.
翻訳日:2022-05-19 04:33:51 公開日:2022-05-14
# (参考訳) 結合親和性予測における勾配ブースティングの高性能化

High Performance of Gradient Boosting in Binding Affinity Prediction ( http://arxiv.org/abs/2205.07023v1 )

ライセンス: CC BY 4.0
Dmitrii Gavrilev, Nurlybek Amangeldiuly, Sergei Ivanov, Evgeny Burnaev(参考訳) タンパク質リガンド(PL)結合親和性の予測は、薬物発見の鍵である。 近年の一般的なアプローチはグラフニューラルネットワーク(GNN)であり、PL複合体のトポロジーと幾何学を学ぶのに使われている。 しかし、GNNは計算量が多く、グラフサイズに対してスケーラビリティが低い。 一方、勾配ブースト決定木(GBDT)のような従来の機械学習(ML)アプローチは、表データに対して軽量だが極めて効率的である。 GBDTのPLグラフレベル機能とともにPLインタラクション機能の利用を提案する。 この組み合わせが既存のソリューションより優れていることを示す。

Prediction of protein-ligand (PL) binding affinity remains the key to drug discovery. Popular approaches in recent years involve graph neural networks (GNNs), which are used to learn the topology and geometry of PL complexes. However, GNNs are computationally heavy and have poor scalability to graph sizes. On the other hand, traditional machine learning (ML) approaches, such as gradient-boosted decision trees (GBDTs), are lightweight yet extremely efficient for tabular data. We propose to use PL interaction features along with PL graph-level features in GBDT. We show that this combination outperforms the existing solutions.
翻訳日:2022-05-19 04:32:45 公開日:2022-05-14
# (参考訳) 動的異種情報ネットワークにおけるフェイクニュースクイック検出

Fake News Quick Detection on Dynamic Heterogeneous Information Networks ( http://arxiv.org/abs/2205.07039v1 )

ライセンス: CC BY 4.0
Jin Ho Go, Alina Sari, Jiaojiao Jiang, Shuiqiao Yang, Sanjay Jha(参考訳) 近年、偽ニュースの拡散が社会に大きな害を与えている。 そのため、フェイクニュースを素早く検出することが重要な課題となっている。 現在の検出方法は、しばしばニュース記事やその他の関連コンポーネントを静的異種情報ネットワーク(HIN)としてモデル化し、高価なメッセージパッシングアルゴリズムを使用する。 しかし、現実世界では、フェイクニュースを素早く識別することが非常に重要であり、ネットワークは動的ノードやエッジの点で時間とともに変化する可能性がある。 そこで本稿では,偽ニュースを迅速に検出するための新しい動的不均一グラフニューラルネットワーク(dhgnn)を提案する。 具体的には、まずBERTと微調整BERTを実装し、ニュース記事の内容と著者プロファイルのセマンティック表現を取得し、それをグラフデータに変換する。 そして、文脈情報と関係を反映した異種ニュース著者グラフを構築する。 さらに,個人化されたPageRankの伝搬と動的伝播のアイデアを異種ネットワークに適用し,トレーニング中の多くのノードをバックプロパゲートする場合の時間的複雑さを低減する。 3つの実世界のフェイクニュースデータセットの実験は、DHGNNが他のGNNベースのモデルよりも効率と効率の両方で優れていることを示している。

The spread of fake news has caused great harm to society in recent years. So the quick detection of fake news has become an important task. Some current detection methods often model news articles and other related components as a static heterogeneous information network (HIN) and use expensive message-passing algorithms. However, in the real-world, quickly identifying fake news is of great significance and the network may vary over time in terms of dynamic nodes and edges. Therefore, in this paper, we propose a novel Dynamic Heterogeneous Graph Neural Network (DHGNN) for fake news quick detection. More specifically, we first implement BERT and fine-tuned BERT to get a semantic representation of the news article contents and author profiles and convert it into graph data. Then, we construct the heterogeneous news-author graph to reflect contextual information and relationships. Additionally, we adapt ideas from personalized PageRank propagation and dynamic propagation to heterogeneous networks in order to reduce the time complexity of back-propagating through many nodes during training. Experiments on three real-world fake news datasets show that DHGNN can outperform other GNN-based models in terms of both effectiveness and efficiency.
翻訳日:2022-05-19 04:25:02 公開日:2022-05-14
# (参考訳) deconetの一般化誤り境界:解析圧縮センシングのための深い展開型ネットワーク

Generalization error bounds for DECONET: a deep unfolded network for analysis Compressive Sensing ( http://arxiv.org/abs/2205.07050v1 )

ライセンス: CC BY 4.0
Vasiliki Kouni(参考訳) 本稿では、圧縮センシング解析のための最先端最適化アルゴリズムに基づく、新しい深層展開ニューラルネットワークを提案する。 提案するDecoding Network (DECONET) は,ベクトルを不完全でノイズの多い測定値から再構成するデコーダを実装している。 さらに、deconetは、deconetのレイヤ間で共有されるスパース化のための冗長解析演算子を共同で学習する。 DeCONETの一般化能力について検討する。 そこで我々はまず,DECONETが実装可能なデコーダのすべてからなる仮説クラスのRademacher複雑性を推定する。 そして、上記の推定値の観点から一般化誤差境界を提供する。 最後に,理論結果の有効性を確認する数値実験を行った。

In this paper, we propose a new deep unfolding neural network -- based on a state-of-the-art optimization algorithm -- for analysis Compressed Sensing. The proposed network called Decoding Network (DECONET) implements a decoder that reconstructs vectors from their incomplete, noisy measurements. Moreover, DECONET jointly learns a redundant analysis operator for sparsification, which is shared across the layers of DECONET. We study the generalization ability of DECONET. Towards that end, we first estimate the Rademacher complexity of the hypothesis class consisting of all the decoders that DECONET can implement. Then, we provide generalization error bounds, in terms of the aforementioned estimate. Finally, we present numerical experiments which confirm the validity of our theoretical results.
翻訳日:2022-05-19 04:09:53 公開日:2022-05-14
# (参考訳) GAN-Aimbots: ファーストパーソンシューティングシューティングにおける機械学習の利用

GAN-Aimbots: Using Machine Learning for Cheating in First Person Shooters ( http://arxiv.org/abs/2205.07060v1 )

ライセンス: CC BY 4.0
Anssi Kanervisto, Tomi Kinnunen, Ville Hautam\"aki(参考訳) ゲーム開発者は、数億のプレイヤーを抱える数十億ドル規模のビデオゲーム業界では、セキュリティを改善し、その結果、不正行為を防止して、ゲームのユーザエクスペリエンスを向上させることを目指している。 従来のソフトウェアベースの手法と統計システムの両方が不正行為に対する防御に成功しているが、近年では画像や音声などのコンテンツの自動生成の進歩がビデオゲーム産業を脅かしている。 この脅威をよりよく理解するために、我々はマルチプレイヤービデオゲームの不正行為の現状をレビューし、続いて概念実証手法であるGAN-Aimbotの構築を進める。 本手法は,一対一のシューティングゲームにおいて,各種選手のデータを収集することにより,自動的・手動的保護機構から隠れたまま,選手のパフォーマンスを向上することを示す。 この作業を共有することで、この問題に対する意識を高め、ゲームコミュニティの保護に関するさらなる研究を奨励したいと考えています。

Playing games with cheaters is not fun, and in a multi-billion-dollar video game industry with hundreds of millions of players, game developers aim to improve the security and, consequently, the user experience of their games by preventing cheating. Both traditional software-based methods and statistical systems have been successful in protecting against cheating, but recent advances in the automatic generation of content, such as images or speech, threaten the video game industry; they could be used to generate artificial gameplay indistinguishable from that of legitimate human players. To better understand this threat, we begin by reviewing the current state of multiplayer video game cheating, and then proceed to build a proof-of-concept method, GAN-Aimbot. By gathering data from various players in a first-person shooter game we show that the method improves players' performance while remaining hidden from automatic and manual protection mechanisms. By sharing this work we hope to raise awareness on this issue and encourage further research into protecting the gaming communities.
翻訳日:2022-05-19 04:08:57 公開日:2022-05-14
# (参考訳) MIND:最大相互情報に基づくニューラルデコーダ

MIND: Maximum Mutual Information Based Neural Decoder ( http://arxiv.org/abs/2205.07061v1 )

ライセンス: CC BY 4.0
Andrea M. Tonello and Nunzio A. Letizia(参考訳) 我々は,デジタル通信システムへの応用により,学習アーキテクチャ開発への関心が高まっている。 本稿では,検出・復号問題を考える。 このようなタスクに最適なニューラルアーキテクチャを開発することを目指している。 最適基準の定義は基本的なステップである。 本稿では、チャネル入出力信号対の相互情報(mi)の使用を提案する。 MIの計算は厄介な作業であり、通信チャネルの大部分が不明である。 そのため、MIは学ばなければならない。 このような目的のために,識別的定式化に基づくニューラルMI推定器を提案する。 これにより、相互情報ニューラルデコーダ(MIND)が導出される。 開発したニューラルアーキテクチャは、未知チャネルにおける復号化問題を解決するだけでなく、符号化スキームで達成した平均miの推定値と復号誤差確率を返すことができる。 いくつかの数値結果が報告され、最大a-posteriori(MAP)と最大可能性復号法と比較される。

We are assisting at a growing interest in the development of learning architectures with application to digital communication systems. Herein, we consider the detection/decoding problem. We aim at developing an optimal neural architecture for such a task. The definition of the optimal criterion is a fundamental step. We propose to use the mutual information (MI) of the channel input-output signal pair. The computation of the MI is a formidable task, and for the majority of communication channels it is unknown. Therefore, the MI has to be learned. For such an objective, we propose a novel neural MI estimator based on a discriminative formulation. This leads to the derivation of the mutual information neural decoder (MIND). The developed neural architecture is capable not only to solve the decoding problem in unknown channels, but also to return an estimate of the average MI achieved with the coding scheme, as well as the decoding error probability. Several numerical results are reported and compared with maximum a-posteriori (MAP) and maximum likelihood (MaxL) decoding strategies.
翻訳日:2022-05-19 03:41:33 公開日:2022-05-14
# (参考訳) モデルはテキスト以上のトレーニングから何を学ぶのか? 視覚常識知識の測定

What do Models Learn From Training on More Than Text? Measuring Visual Commonsense Knowledge ( http://arxiv.org/abs/2205.07065v1 )

ライセンス: CC BY 4.0
Lovisa Hagstr\"om and Richard Johansson(参考訳) テキストのみから言語を学ぶには制限がある。 そのため、近年はマルチモーダルモデルの開発に焦点が当てられている。 しかし、マルチモーダルトレーニングから言語について学習する言語モデルを測定できるベンチマークは少ない。 視覚モダリティのトレーニングは、言語モデルの視覚コモンセンス知識を改善するべきだと仮定する。 そこで我々は,言語モデルにおける視覚的コモンセンス知識を測定するための2つの評価タスクを導入し,異なるマルチモーダルモデルと非モーダルベースラインを評価する。 視覚的コモンセンスの知識は、視覚的テキストデータに基づいて訓練されたマルチモーダルモデルと非モーダルベースラインモデルとは大きく異なるものではない。

There are limitations in learning language from text alone. Therefore, recent focus has been on developing multimodal models. However, few benchmarks exist that can measure what language models learn about language from multimodal training. We hypothesize that training on a visual modality should improve on the visual commonsense knowledge in language models. Therefore, we introduce two evaluation tasks for measuring visual commonsense knowledge in language models and use them to evaluate different multimodal models and unimodal baselines. Primarily, we find that the visual commonsense knowledge is not significantly different between the multimodal models and unimodal baseline models trained on visual text data.
翻訳日:2022-05-19 03:31:11 公開日:2022-05-14
# (参考訳) イベントトリガ制御と電力効率の高い資源配分の合同設計のための学習アプローチ

A Learning Approach for Joint Design of Event-triggered Control and Power-Efficient Resource Allocation ( http://arxiv.org/abs/2205.07070v1 )

ライセンス: CC0 1.0
Atefeh Termehchi, Mehdi Rasti(参考訳) 産業用サイバー物理システム(ICPS)では、これらのサブシステムが相互接続されているため、通信と制御サブシステムの共同設計が不可欠である。 本稿では,第5世代(5G)無線ネットワークにおけるイベントトリガー制御とエネルギー効率の高い資源配分の連成設計問題について検討する。 本稿では,アクチュエータの入力数とダウンリンク伝送の消費電力を最小限に抑えることを目的として,マルチ目的最適化問題としてこの問題を正式に表明する。 この問題に対処するために,4つのポリシーを同時に学習するモデルフリー階層強化学習手法 \textcolor{blue}{with uniformly ultimate boundedness stability guarantee}を提案する。 これらのポリシーには、アクチュエータの入力に対する更新時間ポリシー、制御ポリシー、エネルギー効率の低いサブキャリアと電力割り当てポリシーが含まれる。 シミュレーションの結果,提案手法はシミュレートされたICPSを適切に制御し,アクチュエータの入力とダウンリンク電力消費量を著しく削減できることがわかった。

In emerging Industrial Cyber-Physical Systems (ICPSs), the joint design of communication and control sub-systems is essential, as these sub-systems are interconnected. In this paper, we study the joint design problem of an event-triggered control and an energy-efficient resource allocation in a fifth generation (5G) wireless network. We formally state the problem as a multi-objective optimization one, aiming to minimize the number of updates on the actuators' input and the power consumption in the downlink transmission. To address the problem, we propose a model-free hierarchical reinforcement learning approach \textcolor{blue}{with uniformly ultimate boundedness stability guarantee} that learns four policies simultaneously. These policies contain an update time policy on the actuators' input, a control policy, and energy-efficient sub-carrier and power allocation policies. Our simulation results show that the proposed approach can properly control a simulated ICPS and significantly decrease the number of updates on the actuators' input as well as the downlink power consumption.
翻訳日:2022-05-19 03:18:30 公開日:2022-05-14
# (参考訳) GoalNet:ロボットの指示に続く人間計画の実証から結束目標の述語を推定する

GoalNet: Inferring Conjunctive Goal Predicates from Human Plan Demonstrations for Robot Instruction Following ( http://arxiv.org/abs/2205.07081v1 )

ライセンス: CC BY 4.0
Shreya Sharma, Jigyasa Gupta, Shreshth Tuli, Rohan Paul and Mausam(参考訳) 我々のゴールは、人間のパートナーによるデモンストレーションの成功を踏まえ、自然言語命令として指定されたタスクを実行するために、ロボットがアクションのシーケンスを学習できるようにすることです。 ハイレベルなタスクを計画する能力は (i)特定の世界状態の言語指示が意味する課題を特徴付ける特定の目標を推測すること、及び (ii)そのような述語で達成可能な目標到達行動系列を合成すること。 前者に対しては、ニューラルネットワーク予測モデルを活用し、後者のシンボルプランナーを利用する。 本稿では,人間の実験や言語的タスク記述から目標述語を文脈的およびタスク依存的に推論する新しいニューロシンボリックモデルであるgoalnetを提案する。 GoalNetが統合 (i)言語指導のための密接な表現と、新しい設定への一般化を可能にする世界状態が取得される学習 二 象徴的プランナーによる原因影響モデリングが無関係な述語を誘発し、大領域における多段階意思決定を促進する計画。 GoalNetは、特に多段階命令の言語的バリエーションを示すベンチマークデータセットに対する、最先端のルールベースのアプローチと比較して、タスク完了率に大きな改善(51%)を示した。

Our goal is to enable a robot to learn how to sequence its actions to perform tasks specified as natural language instructions, given successful demonstrations from a human partner. The ability to plan high-level tasks can be factored as (i) inferring specific goal predicates that characterize the task implied by a language instruction for a given world state and (ii) synthesizing a feasible goal-reaching action-sequence with such predicates. For the former, we leverage a neural network prediction model, while utilizing a symbolic planner for the latter. We introduce a novel neuro-symbolic model, GoalNet, for contextual and task dependent inference of goal predicates from human demonstrations and linguistic task descriptions. GoalNet combines (i) learning, where dense representations are acquired for language instruction and the world state that enables generalization to novel settings and (ii) planning, where the cause-effect modeling by the symbolic planner eschews irrelevant predicates facilitating multi-stage decision making in large domains. GoalNet demonstrates a significant improvement (51%) in the task completion rate in comparison to a state-of-the-art rule-based approach on a benchmark data set displaying linguistic variations, particularly for multi-stage instructions.
翻訳日:2022-05-19 02:50:47 公開日:2022-05-14
# 深層ニューラルネットワークのモデル量子化に関する包括的調査

A Comprehensive Survey on Model Quantization for Deep Neural Networks ( http://arxiv.org/abs/2205.07877v1 )

ライセンス: Link先を確認
Babak Rokh, Ali Azarpeyvand, Alireza Khanteymoori(参考訳) ディープニューラルネットワークによる機械学習の最近の進歩は重要である。 しかし、これらのネットワークを使用すると、ストレージと計算のための膨大なパラメータが伴うため、ハードウェアコストが増加し、問題が発生します。 そのため,効率的な加速器設計のための圧縮手法が提案されている。 ディープニューラルネットワーク圧縮の1つの重要なアプローチは、完全精度の値を低ビット幅に格納する量子化である。 このようにして、メモリの節約に加えて、操作は低コストで単純な操作に置き換えられる。 近年,効率的なハードウェア設計における柔軟性と影響から,多くの手法が提案されている。 したがって、統合レポートは、より理解し、分析し、比較するために不可欠である。 本稿では,包括的調査を行う。 量子化の概念を説明し、異なる観点からメソッドを分類する。 本稿では,量子化レベルと全精度値の分布との一致をスケールファクターを用いて検討し,クラスタリングに基づく手法について述べる。 量子化されたディープニューラルネットワークのトレーニングを初めてレビューし、ストレートスルー推定器を包括的に活用した。 また、量子化深部畳み込みニューラルネットワークにおける演算の単純さを説明し、量子化における異なる層の感度を説明する。 最後に,CIFAR-10 と大規模データセット ImageNet の重み付けとアクティベーションのために,従来の手法と各種ビット幅を比較し,量子化手法の評価を行った。

Recent advances in machine learning by deep neural networks are significant. But using these networks has been accompanied by a huge number of parameters for storage and computations that leads to an increase in the hardware cost and posing challenges. Therefore, compression approaches have been proposed to design efficient accelerators. One important approach for deep neural network compression is quantization that full-precision values are stored in low bit-width. In this way, in addition to memory saving, the operations will be replaced by simple ones with low cost. Many methods are suggested for DNNs Quantization in recent years, because of flexibility and influence in designing efficient hardware. Therefore, an integrated report is essential for better understanding, analysis, and comparison. In this paper, we provide a comprehensive survey. We describe the quantization concepts and categorize the methods from different perspectives. We discuss using the scale factor to match the quantization levels with the distribution of the full-precision values and describe the clustering-based methods. For the first time, we review the training of a quantized deep neural network and using Straight-Through Estimator comprehensively. Also, we describe the simplicity of operations in quantized deep convolutional neural networks and explain the sensitivity of the different layers in quantization. Finally, we discuss the evaluation of the quantization methods and compare the accuracy of previous methods with various bit-width for weights and activations on CIFAR-10 and the large-scale dataset, ImageNet.
翻訳日:2022-05-18 13:54:51 公開日:2022-05-14
# (参考訳) 制限ボルツマンマシンによるパターン再構成

Pattern reconstruction with restricted Boltzmann machines ( http://arxiv.org/abs/2205.07087v1 )

ライセンス: CC BY 4.0
Giuseppe Genovese(参考訳) 制限されたボルツマンマシンがランダムなパターンを再構築する能力は、隠れた事前分布のテールに依存することを示す: 厳密な準ガウス尾を持つ隠蔽先行はパターン検索において対数的損失しか与えず、一方、厳密な超ガウス尾を持つ隠蔽単位では効率的な検索ははるかに困難である。 これはエネルギー関数の局所最小値の局所化推定によって証明される。

We show that the ability of a restricted Boltzmann machine to reconstruct a random pattern depends on the tail of the hidden prior distribution: hidden priors with strictly sub-Gaussian tails give only a logarithmic loss in pattern retrieval, while an efficient retrieval is much harder with hidden units with strictly super-Gaussian tails; reconstruction with sub-Gaussian hidden prior is regulated by the number of hidden units (as in the Hopfield model). This is proved by localisation estimates for the local minima of the energy function.
翻訳日:2022-05-18 12:31:24 公開日:2022-05-14
# (参考訳) マルチモーダル縁石の検出とフィルタリング

Multi-modal curb detection and filtering ( http://arxiv.org/abs/2205.07096v1 )

ライセンス: CC BY 4.0
Sandipan Das, Navid Mahabadi, Saikat Chatterjee, Maurice Fallon(参考訳) 自動運転車の航行には、道路境界に関する信頼できる知識が不可欠である。 本稿では,カメラセマンティクスと高密度ライダー点雲の融合に基づくロバストなストレッチ検出とフィルタリング手法を提案する。 lidarポイント雲は、堅牢な特徴検出のために複数のlidarを用いて収集される。 カメラセマンティクスは、魚眼カメラから収集されたラベル付きデータをトレーニングした修正EfficientNetアーキテクチャに基づいている。 点雲は、魚眼モデル投影で画像空間に投影した後、l_2$-norm分析で最も近い縁石セグメントに関連付けられる。 次に、教師なし密度に基づく空間クラスタリングを用いて選択された点をクラスタリングし、異なる縁石領域を検出する。 新しいストレッチポイントが連続フレームで検出されるため、時間的到達性制約を用いて既存のストレッチクラスタに関連付けられる。 到達性制約が見つからない場合、これらの新しい点から新しい縁石クラスターが形成される。 これにより、センサの視野内にある場合、複数の車線からなる道路セグメントに存在する複数の縁石を検出することができる。 最後に、デラウネーフィルタを外乱除去に適用し、その性能を従来のRANSACベースのフィルタリングと比較する。 提案手法の客観的評価は,商業用地図サプライヤーから得られた接地真理抑制点を含む高精細マップを用いて行う。 提案システムは, 直線道路, 湾曲道路, 交通島との交差点を含む複雑な都市道路シナリオにおいて, いかなる方向の縁起も検出できることを実証した。

Reliable knowledge of road boundaries is critical for autonomous vehicle navigation. We propose a robust curb detection and filtering technique based on the fusion of camera semantics and dense lidar point clouds. The lidar point clouds are collected by fusing multiple lidars for robust feature detection. The camera semantics are based on a modified EfficientNet architecture which is trained with labeled data collected from onboard fisheye cameras. The point clouds are associated with the closest curb segment with $L_2$-norm analysis after projecting into the image space with the fisheye model projection. Next, the selected points are clustered using unsupervised density-based spatial clustering to detect different curb regions. As new curb points are detected in consecutive frames they are associated with the existing curb clusters using temporal reachability constraints. If no reachability constraints are found a new curb cluster is formed from these new points. This ensures we can detect multiple curbs present in road segments consisting of multiple lanes if they are in the sensors' field of view. Finally, Delaunay filtering is applied for outlier removal and its performance is compared to traditional RANSAC-based filtering. An objective evaluation of the proposed solution is done using a high-definition map containing ground truth curb points obtained from a commercial map supplier. The proposed system has proven capable of detecting curbs of any orientation in complex urban road scenarios comprising straight roads, curved roads, and intersections with traffic isles.
翻訳日:2022-05-18 12:02:32 公開日:2022-05-14
# (参考訳) voiceprivacy 2020チャレンジ評価プラン

The VoicePrivacy 2020 Challenge Evaluation Plan ( http://arxiv.org/abs/2205.07123v1 )

ライセンス: CC BY 4.0
Natalia Tomashenko, Brij Mohan Lal Srivastava, Xin Wang, Emmanuel Vincent, Andreas Nautsch, Junichi Yamagishi, Nicholas Evans, Jose Patino, Jean-Fran\c{c}ois Bonastre, Paul-Gauthier No\'e, Massimiliano Todisco(参考訳) voiceprivacy challengeは、関心のあるタスクと評価方法論を定義するための新しいコミュニティを集め、一連の課題を通じてソリューションをベンチマークすることで、音声技術のためのプライバシー保護ツールの開発を促進することを目的としている。 本稿では,VoicePrivacy 2020 Challengeで選択された音声匿名化タスクを定式化し,システム開発と評価に使用されるデータセットを記述する。 また,攻撃モデルと関連する客観的・主観的評価指標を提示する。 本稿では,2つの匿名化ベースラインと客観的評価結果を紹介する。

The VoicePrivacy Challenge aims to promote the development of privacy preservation tools for speech technology by gathering a new community to define the tasks of interest and the evaluation methodology, and benchmarking solutions through a series of challenges. In this document, we formulate the voice anonymization task selected for the VoicePrivacy 2020 Challenge and describe the datasets used for system development and evaluation. We also present the attack models and the associated objective and subjective evaluation metrics. We introduce two anonymization baselines and report objective evaluation results.
翻訳日:2022-05-18 11:52:08 公開日:2022-05-14
# (参考訳) 報告誘導型コントラストトレーニングによる固定集合病理認識の破断

Breaking with Fixed Set Pathology Recognition through Report-Guided Contrastive Training ( http://arxiv.org/abs/2205.07139v1 )

ライセンス: CC BY 4.0
Constantin Seibold, Simon Rei{\ss}, M. Saquib Sarfraz, Rainer Stiefelhagen and Jens Kleesiek(参考訳) 画像を読むと、放射線科医は所見を記述したテキストレポートを生成する。 現在のコンピュータ支援診断ツールは、これらの医療報告書から自動的に抽出された予め定義されたカテゴリの固定セットをトレーニングに利用する。 この形式の監督は、事前定義されたセットの外の異常を拾えないため、モデルの潜在的な使用を制限するため、新しいクラスに直面した時に、追加のデータで分類器を再訓練する必要がある。 対照的に、この閉じた集合の仮定から切り離すために、直接テキストの監督について検討する。 これにより,テキスト分類器による雑音ラベル抽出を回避し,さらに文脈情報を取り込むことができる。 我々は、非構造化医療報告から直接概念を学習し、自由な形態分類を行う能力を維持しながら、対照的なグローバルなデュアルエンコーダアーキテクチャを採用している。 放射能データに対するオープンセット認識の関連特性を調査し,現在弱いアノテートデータをトレーニングに活用する手法を提案する。 疾患分類のための大規模胸部X線データセットMIMIC-CXR,CheXpert,ChestX-Ray14について検討した。 本研究は,非構造化医療報告監視を用いても,厳密な推論設定により,直接ラベル管理と同等に機能することを示す。

When reading images, radiologists generate text reports describing the findings therein. Current state-of-the-art computer-aided diagnosis tools utilize a fixed set of predefined categories automatically extracted from these medical reports for training. This form of supervision limits the potential usage of models as they are unable to pick up on anomalies outside of their predefined set, thus, making it a necessity to retrain the classifier with additional data when faced with novel classes. In contrast, we investigate direct text supervision to break away from this closed set assumption. By doing so, we avoid noisy label extraction via text classifiers and incorporate more contextual information. We employ a contrastive global-local dual-encoder architecture to learn concepts directly from unstructured medical reports while maintaining its ability to perform free form classification. We investigate relevant properties of open set recognition for radiological data and propose a method to employ currently weakly annotated data into training. We evaluate our approach on the large-scale chest X-Ray datasets MIMIC-CXR, CheXpert, and ChestX-Ray14 for disease classification. We show that despite using unstructured medical report supervision, we perform on par with direct label supervision through a sophisticated inference setting.
翻訳日:2022-05-18 11:33:46 公開日:2022-05-14
# (参考訳) 経路空間における平均場ランゲヴィンによる軌道推定

Trajectory Inference via Mean-field Langevin in Path Space ( http://arxiv.org/abs/2205.07146v1 )

ライセンス: CC BY 4.0
Stephen Zhang, L\'ena\"ic Chizat, Matthieu Heitz, Geoffrey Schiebinger(参考訳) 軌道推論は、時間的限界のスナップショットから集団のダイナミクスを回復することを目的としている。 この課題を解決するために、経路空間におけるウィナー測度と相対的なミンエントロピー推定器がLavenant et al. arXiv:2102.09204によって導入され、無限次元凸最適化問題の解から大量のドリフト拡散過程の力学を一貫して回復することを示した。 本稿では,この推定器を計算するためのグリッドフリーアルゴリズムを提案する。 提案手法は, ノイズ勾配下降で進化するSchr\"odingerブリッジを介して結合された点雲群(スナップショット1枚)からなる。 動力学の平均場限界を研究し,その大域収束を所望の推定値に対する指数的速度で証明する。 全体として、これは軌道推論の解釈可能なモデルを解くエンドツーエンドの理論的保証を持つ推論方法につながる。 また,細胞が分岐・死する単一細胞RNAシークエンシングデータを扱う際に有用な拡張である,質量変動に対処する方法も提示する。

Trajectory inference aims at recovering the dynamics of a population from snapshots of its temporal marginals. To solve this task, a min-entropy estimator relative to the Wiener measure in path space was introduced by Lavenant et al. arXiv:2102.09204, and shown to consistently recover the dynamics of a large class of drift-diffusion processes from the solution of an infinite dimensional convex optimization problem. In this paper, we introduce a grid-free algorithm to compute this estimator. Our method consists in a family of point clouds (one per snapshot) coupled via Schr\"odinger bridges which evolve with noisy gradient descent. We study the mean-field limit of the dynamics and prove its global convergence at an exponential rate to the desired estimator. Overall, this leads to an inference method with end-to-end theoretical guarantees that solves an interpretable model for trajectory inference. We also present how to adapt the method to deal with mass variations, a useful extension when dealing with single cell RNA-sequencing data where cells can branch and die.
翻訳日:2022-05-18 11:03:09 公開日:2022-05-14
# 高次元におけるSGDの均質化:特殊力学と一般化特性

Homogenization of SGD in high-dimensions: Exact dynamics and generalization properties ( http://arxiv.org/abs/2205.07069v1 )

ライセンス: Link先を確認
Courtney Paquette, Elliot Paquette, Ben Adlam, Jeffrey Pennington(参考訳) 我々は,$\ell^2$-regularizationを持つ高次元ランダム最小二乗問題に対する確率勾配降下(sgd)のダイナミクスを分析するために,ホモゲン化sgdと呼ばれる確率微分方程式を開発した。 均質化された SGD は SGD の高次元同値であり、任意の二次統計量(例えば、二次的損失を伴う人口リスク)に対して、SGD の反復による統計量は、サンプル数 $n$ と特徴数 $d$ が多項式関係($d^c < n < d^{1/c}$ for some $c > 0$)であるときに同質化された SGD の統計量に収束する。 均質化されたSGDを解析することにより、ボルテラ積分方程式の解を用いて、SGDの一般化性能に対して正確な非漸近的な高次元表現を提供する。 さらに、sgdにより訓練された場合の二次損失の場合の限界余剰リスクの正確な値を提供する。 この分析は、データのサンプル側特異ベクトルの非局在化の弱い(非定量的)形式として概ね見なせる、分解条件の族を満たすデータ行列とターゲットベクトルに対して定式化される。 いくつかのモチベーションアプリケーションは、独立したサンプルを持つサンプル共分散行列と、生成しないモデルターゲットを持つランダムな特徴を含む。

We develop a stochastic differential equation, called homogenized SGD, for analyzing the dynamics of stochastic gradient descent (SGD) on a high-dimensional random least squares problem with $\ell^2$-regularization. We show that homogenized SGD is the high-dimensional equivalence of SGD -- for any quadratic statistic (e.g., population risk with quadratic loss), the statistic under the iterates of SGD converges to the statistic under homogenized SGD when the number of samples $n$ and number of features $d$ are polynomially related ($d^c < n < d^{1/c}$ for some $c > 0$). By analyzing homogenized SGD, we provide exact non-asymptotic high-dimensional expressions for the generalization performance of SGD in terms of a solution of a Volterra integral equation. Further we provide the exact value of the limiting excess risk in the case of quadratic losses when trained by SGD. The analysis is formulated for data matrices and target vectors that satisfy a family of resolvent conditions, which can roughly be viewed as a weak (non-quantitative) form of delocalization of sample-side singular vectors of the data. Several motivating applications are provided including sample covariance matrices with independent samples and random features with non-generative model targets.
翻訳日:2022-05-17 18:03:29 公開日:2022-05-14
# BronchusNet:Bronchusセグメンテーションと分類のための埋め込み表現学習前の領域と構造

BronchusNet: Region and Structure Prior Embedded Representation Learning for Bronchus Segmentation and Classification ( http://arxiv.org/abs/2205.06947v1 )

ライセンス: Link先を確認
Wenhao Huang, Haifan Gong, Huan Zhang, Yu Wang, Haofeng Li, Guanbin Li, Hong Shen(参考訳) CTによる気管支木解析は, 呼吸器疾患のコンピュータ診断において重要な役割を担っている。 気道解析の基礎は気管支の分節と分類からなる気管支樹の再建である。 しかし, 個体差と重症度不均衡により, 正確な気管支分析は困難である。 本稿では,BronchusNetという組込みフレームワークがCT画像中の気管支領域の正確なセグメンテーションと分類を実現するための領域と構造を提案する。 気管支分画のための適応型ハード領域対応UNetを提案する。このUNetは,一般的なUnet分画ネットワークにおいて,複数レベルのハードピクセルの事前ガイダンスを組み込んで,より階層的な特徴学習を実現する。 気管支枝の分類に際し, 気管支構造の先行を十分に活用し, 異なる枝間での同時的特徴相互作用を支援するために, ハイブリッドなポイントボクセルグラフ学習モジュールを提案する。 気管支分析研究を容易にするために,高品位な画素別 \textbf{s}egmentation mask と気管支セグメントの \textbf{c}lass を用いた \textbf{br}onchus画像解析のオープンアクセスベンチマークである\textbf{brsc} を提案する。 brscを用いた実験により,本手法は気管支領域の2成分分節化の最先端性能を実現するだけでなく,気管支分枝分類における既存の最良法を6.9\%上回った。

CT-based bronchial tree analysis plays an important role in the computer-aided diagnosis for respiratory diseases, as it could provide structured information for clinicians. The basis of airway analysis is bronchial tree reconstruction, which consists of bronchus segmentation and classification. However, there remains a challenge for accurate bronchial analysis due to the individual variations and the severe class imbalance. In this paper, we propose a region and structure prior embedded framework named BronchusNet to achieve accurate segmentation and classification of bronchial regions in CT images. For bronchus segmentation, we propose an adaptive hard region-aware UNet that incorporates multi-level prior guidance of hard pixel-wise samples in the general Unet segmentation network to achieve better hierarchical feature learning. For the classification of bronchial branches, we propose a hybrid point-voxel graph learning module to fully exploit bronchial structure priors and to support simultaneous feature interactions across different branches. To facilitate the study of bronchial analysis, we contribute~\textbf{BRSC}: an open-access benchmark of \textbf{BR}onchus imaging analysis with high-quality pixel-wise \textbf{S}egmentation masks and the \textbf{C}lass of bronchial segments. Experimental results on BRSC show that our proposed method not only achieves the state-of-the-art performance for binary segmentation of bronchial region but also exceeds the best existing method on bronchial branches classification by 6.9\%.
翻訳日:2022-05-17 17:40:25 公開日:2022-05-14
# 超解法ネットワークの一般化能力の評価

Evaluating the Generalization Ability of Super-Resolution Networks ( http://arxiv.org/abs/2205.07019v1 )

ライセンス: Link先を確認
Yihao Liu, Hengyuan Zhao, Jinjin Gu, Yu Qiao, Chao Dong(参考訳) ディープラーニングモデルを評価する上で,パフォーマンスと一般化能力は2つの重要な側面である。 しかし、スーパーリゾリューション(SR)ネットワークの一般化能力については現在研究されていない。 本稿では,srネットワークのための一般化評価指標,すなわちsrgaを提案する。 SRGAは、一般化能力を測定するために出力画像ではなく、ディープネットワークの内部特性の統計特性を利用する。 特に、非パラメトリックかつ非学習メトリックである。 提案手法をよりよく検証するために, 合成画像と実画像の両方を含むパッチベースの画像評価セット(PIES)を収集し, 広範囲の劣化をカバーした。 SRGAおよびPIESデータセットを用いて、一般化能力に関する既存のSRモデルをベンチマークする。 この研究は、低レベルのビジョンにおけるモデル一般化に関する将来の研究の基礎となるかもしれない。

Performance and generalization ability are two important aspects to evaluate deep learning models. However, research on the generalization ability of Super-Resolution (SR) networks is currently absent. We make the first attempt to propose a Generalization Assessment Index for SR networks, namely SRGA. SRGA exploits the statistical characteristics of internal features of deep networks, not output images to measure the generalization ability. Specially, it is a non-parametric and non-learning metric. To better validate our method, we collect a patch-based image evaluation set (PIES) that includes both synthetic and real-world images, covering a wide range of degradations. With SRGA and PIES dataset, we benchmark existing SR models on the generalization ability. This work could lay the foundation for future research on model generalization in low-level vision.
翻訳日:2022-05-17 17:39:53 公開日:2022-05-14
# マルチプレーンコンピュータによるホログラフィーのためのリアルデフォーカスブラ

Realistic Defocus Blur for Multiplane Computer-Generated Holography ( http://arxiv.org/abs/2205.07030v1 )

ライセンス: Link先を確認
Koray Kavakl{\i}, Yuta Itoh, Hakan Urey, Kaan Ak\c{s}it(参考訳) 本稿では,人工物のない高品質ホログラムを自然に見えるデフォーカスのぼかしで再構成する多面CGH計算法を提案する。 提案手法は,新たなターゲティングスキームと損失関数を導入する。 新たな損失関数は、各深度平面におけるシーンのデフォーカス部分について、再構成された画像において、フォーカス部分とデフォーカス部分とを別々に解析する。 本手法は, 各種反復法(Gerchberg-Saxton, Gradient Descentなど)と非反復法(Double Phaseなど)によるCGH計算を支援する。 そこで,2相法にインスパイアされた制約を導入し,勾配勾配勾配に基づく最適化手法を用いて最適な画質を実現する。 本手法を概念実証ホログラフィックディスプレイを用いて実験的に検証し,多彩なシーンを含む様々なアルゴリズムを比較した。

This paper introduces a new multiplane CGH computation method to reconstruct artefact-free high-quality holograms with natural-looking defocus blur. Our method introduces a new targeting scheme and a new loss function. While the targeting scheme accounts for defocused parts of the scene at each depth plane, the new loss function analyzes focused and defocused parts separately in reconstructed images. Our method support phase-only CGH calculations using various iterative (e.g., Gerchberg-Saxton, Gradient Descent) and non-iterative (e.g., Double Phase) CGH techniques. We achieve our best image quality using a modified gradient descent-based optimization recipe where we introduce a constraint inspired by the double phase method. We validate our method experimentally using our proof-of-concept holographic display, comparing various algorithms, including multi-depth scenes with sparse and dense contents.
翻訳日:2022-05-17 17:39:42 公開日:2022-05-14
# 2グリッドサイクル補正と幾何学的事前蒸留を併用したマルチサンプリング比CS-MRIフレームワーク

A Unifying Multi-sampling-ratio CS-MRI Framework With Two-grid-cycle Correction and Geometric Prior Distillation ( http://arxiv.org/abs/2205.07062v1 )

ライセンス: Link先を確認
Xiaohong Fan, Yin Yang, Ke Chen, Jianping Zhang, Ke Dong(参考訳) CSは、アンダーサンプリングされたk空間データからMR画像の取得を高速化する効率的な方法である。 既存の深層学習CS-MRI法は非常に優れた性能を保っているが、説明可能性や一般化性は、多くの場合、マルチサンプリング比の再構成代入を扱うのに十分な柔軟性を持っていないため、これらの手法では引き続き困難である。 そこで本研究では,モデルに基づく手法と深層学習方式の利点を融合して,深層展開型マルチサンプリング比CS-MRIフレームワークを提案する。 この組み合わせアプローチは、従来のものよりも一般化可能であり、ディープラーニングは幾何学的事前モジュールを通じて説明可能となる。 マルチグリッドアルゴリズムに着想を得て,まずCS-MRIに基づく最適化アルゴリズムを,事前緩和モジュール,補正モジュール,幾何事前蒸留モジュールの3成分からなる補正蒸留方式に組み込む。 さらに,各段階における圧縮サンプリング比から段階長と雑音レベルを適応的に学習する条件モジュールを用いて,単一モデルによる多段階タスクの同時学習を可能にする。 提案モデルは,幾何学的特性k空間における低周波誤差から洗練される再構成画像の失われた文脈情報を補償するだけでなく,モデルベース手法の理論的保証と深層学習手法の優れた再構成性能を統合することができる。 全ての物理モデルパラメータは学習可能であり、数値実験により、我々のフレームワークは質的および定量的評価の観点から最先端の手法より優れていることが示された。

CS is an efficient method to accelerate the acquisition of MR images from under-sampled k-space data. Although existing deep learning CS-MRI methods have achieved considerably impressive performance, explainability and generalizability continue to be challenging for such methods since most of them are not flexible enough to handle multi-sampling-ratio reconstruction assignments, often the transition from mathematical analysis to network design not always natural enough. In this work, to tackle explainability and generalizability, we propose a unifying deep unfolding multi-sampling-ratio CS-MRI framework, by merging advantages of model-based and deep learning-based methods. The combined approach offers more generalizability than previous works whereas deep learning gains explainability through a geometric prior module. Inspired by multigrid algorithm, we first embed the CS-MRI-based optimization algorithm into correction-distillation scheme that consists of three ingredients: pre-relaxation module, correction module and geometric prior distillation module. Furthermore, we employ a condition module to learn adaptively step-length and noise level from compressive sampling ratio in every stage, which enables the proposed framework to jointly train multi-ratio tasks through a single model. The proposed model can not only compensate the lost contextual information of reconstructed image which is refined from low frequency error in geometric characteristic k-space, but also integrate the theoretical guarantee of model-based methods and the superior reconstruction performances of deep learning-based methods. All physical-model parameters are learnable, and numerical experiments show that our framework outperforms state-of-the-art methods in terms of qualitative and quantitative evaluations.
翻訳日:2022-05-17 17:39:24 公開日:2022-05-14
# 局所化機能を有するGAN生成洪水画像検出のためのアーキテクチャ

An Architecture for the detection of GAN-generated Flood Images with Localization Capabilities ( http://arxiv.org/abs/2205.07073v1 )

ライセンス: Link先を確認
Jun Wang, Omran Alamayreh, Benedetta Tondi and Mauro Barni(参考訳) 本稿では,ClimateGAN アーキテクチャが生成した偽の洪水画像の検出という,新たな画像法医学的課題に対処する。 我々は,climateganが操作する画像領域の同定に重点を置いた,検出と局所化の両方を含むハイブリッドなディープラーニングアーキテクチャを提案する。 たとえ、フェイクフラッド画像の検出が目的であっても、ローカライズブランチを追加することで、画像処理操作に対する一般化機能と堅牢性の観点から、ネットワークが最も関連性の高い画像領域に集中できることがわかった。 提案アーキテクチャの優れた性能は,インターネットからダウンロードした原始洪水画像の2つのデータセットと,多様な街路画像から始まったClimateGANが生成したフェイク洪水画像の3つのデータセットで検証される。

In this paper, we address a new image forensics task, namely the detection of fake flood images generated by ClimateGAN architecture. We do so by proposing a hybrid deep learning architecture including both a detection and a localization branch, the latter being devoted to the identification of the image regions manipulated by ClimateGAN. Even if our goal is the detection of fake flood images, in fact, we found that adding a localization branch helps the network to focus on the most relevant image regions with significant improvements in terms of generalization capabilities and robustness against image processing operations. The good performance of the proposed architecture is validated on two datasets of pristine flood images downloaded from the internet and three datasets of fake flood images generated by ClimateGAN starting from a large set of diverse street images.
翻訳日:2022-05-17 17:38:52 公開日:2022-05-14
# 3次元全身イメージングによる色素性皮膚病変のモニタリング

Monitoring of Pigmented Skin Lesions Using 3D Whole Body Imaging ( http://arxiv.org/abs/2205.07085v1 )

ライセンス: Link先を確認
David Ahmedt-Aristizabal, Chuong Nguyen, Lachlan Tychsen-Smith, Ashley Stacey, Shenghong Li, Joseph Pathikulangara, Lars Petersson, Dadong Wang(参考訳) 画像解析の革新的な進歩を可能にする最新のデータ駆動機械学習研究は、皮膚病変の文書化、マッピング、追跡方法を再定義するための重要なツールとなっている。 皮膚病変の迅速な評価とマッピングを可能にする3次元全身イメージングプロトタイプを提案する。 円筒形状に配置されたモジュラーカメラリグは、全身走査のために複数の角度から同期画像を自動的にキャプチャするように設計されている。 我々は,深部畳み込みニューラルネットワークに基づく3次元体像再構成,データ処理,皮膚病変検出のためのアルゴリズムを開発した。 また,ユーザが機械と対話し,協調してデータを理解するための,カスタマイズされた直感的で柔軟なインターフェースを提案する。 ヒトとコンピュータのハイブリッドは、2D病変検出、3Dマッピング、データ管理の分析によって表現される。 合成画像と実画像を用いた実験結果から, 対象皮膚病変の複数ビューを提供することで, さらに3次元形状解析が可能となった。 皮膚病変は、皮膚がんの医師がより注目に値するアウトリーチとして同定される。 診断器は医師として同等の性能で病変を同定する。 提案する3次元全身イメージングシステムは皮膚科クリニックで使用することができ、病変の迅速な文書化と全身の迅速かつ正確な分析が可能であり、疑わしい病変を検出することができる。 迅速な検査のため、この方法はスクリーニングや疫学調査に使用される可能性がある。 3Dデータ分析は、炎症や色素性疾患を含む皮膚疾患の多くの応用で、全身撮影のパラダイムを変える可能性がある。

Modern data-driven machine learning research that enables revolutionary advances in image analysis has now become a critical tool to redefine how skin lesions are documented, mapped, and tracked. We propose a 3D whole body imaging prototype to enable rapid evaluation and mapping of skin lesions. A modular camera rig arranged in a cylindrical configuration is designed to automatically capture synchronised images from multiple angles for entire body scanning. We develop algorithms for 3D body image reconstruction, data processing and skin lesion detection based on deep convolutional neural networks. We also propose a customised, intuitive and flexible interface that allows the user to interact and collaborate with the machine to understand the data. The hybrid of the human and computer is represented by the analysis of 2D lesion detection, 3D mapping and data management. The experimental results using synthetic and real images demonstrate the effectiveness of the proposed solution by providing multiple views of the target skin lesion, enabling further 3D geometry analysis. Skin lesions are identified as outliers which deserve more attention from a skin cancer physician. Our detector identifies lesions at a comparable performance level as a physician. The proposed 3D whole body imaging system can be used by dermatological clinics, allowing for fast documentation of lesions, quick and accurate analysis of the entire body to detect suspicious lesions. Because of its fast examination, the method might be used for screening or epidemiological investigations. 3D data analysis has the potential to change the paradigm of total-body photography with many applications in skin diseases, including inflammatory and pigmentary disorders.
翻訳日:2022-05-17 17:38:36 公開日:2022-05-14
# 微分型SARレンダラーとSARターゲット再構成

Differentiable SAR Renderer and SAR Target Reconstruction ( http://arxiv.org/abs/2205.07099v1 )

ライセンス: Link先を確認
Shilei Fu, Feng Xu(参考訳) 合成開口レーダ(SAR)画像から情報抽出を行う鍵は,波動散乱とレーダイメージング機構の前方モデリングである。 光領域における逆グラフィックスと同様に、本質的に統合された前方逆アプローチは、SARの高度な情報検索とターゲット再構成に有望である。 本稿では,SAR画像の逆画像化の試みについて述べる。 sarイメージング機構のマッピングと投影アルゴリズムを確率写像の微分可能な形式に再構成する微分可能sarレンダラ(dsr)を開発した。 提案したDSRの1次勾配は解析的に導出され、描画された画像/シルエットからターゲット形状と散乱特性へ逆伝播することができる。 SAR画像からの3次元逆ターゲット再構成アルゴリズムを考案した。 地中レーダによる合成データと実測逆SAR(Real measured inverse SAR)データの両方を用いて、背景のないターゲットを含むいくつかのシミュレーションおよび再構成実験を行った。 提案するdsrの有効性と逆手法の有効性を実証する。

Forward modeling of wave scattering and radar imaging mechanisms is the key to information extraction from synthetic aperture radar (SAR) images. Like inverse graphics in optical domain, an inherently-integrated forward-inverse approach would be promising for SAR advanced information retrieval and target reconstruction. This paper presents such an attempt to the inverse graphics for SAR imagery. A differentiable SAR renderer (DSR) is developed which reformulates the mapping and projection algorithm of SAR imaging mechanism in the differentiable form of probability maps. First-order gradients of the proposed DSR are then analytically derived which can be back-propagated from rendered image/silhouette to the target geometry and scattering attributes. A 3D inverse target reconstruction algorithm from SAR images is devised. Several simulation and reconstruction experiments are conducted, including targets with and without background, using both synthesized data or real measured inverse SAR (ISAR) data by ground radar. Results demonstrate the efficacy of the proposed DSR and its inverse approach.
翻訳日:2022-05-17 17:38:01 公開日:2022-05-14
# トポロジカルフロー解析による教師なし異常交通検出

Unsupervised Abnormal Traffic Detection through Topological Flow Analysis ( http://arxiv.org/abs/2205.07109v1 )

ライセンス: Link先を確認
Paul Irofti and Andrei P\u{a}tra\c{s}cu and Andrei Iulian H\^iji(参考訳) サイバースリートは、現代の技術世界において恒久的な関心事です。 近年, 高度な交通分析技術と異常検出アルゴリズムが, より下位の敵対的攻撃に対処するために採用されている。 プライベートリソースを不法に利用しようとする侵略的行動として定義される悪意のある侵入は、異常なデータトラフィックや異常な接続パターンを通じて現れる。 現在文献に提供されている統計や署名に基づく検出器は多数存在するが、悪意のある流れのトポロジカルな接続成分の悪用は少ない。 さらに、既存の統計侵入検出器のかなりの割合は、ラベル付きデータに依存する教師付き学習に基づいている。 本稿では,ネットワークフローを一対のノード間の重み付き指向的相互作用として見ることによって,教師なし異常検出アルゴリズムにおける接続グラフ機能の利用を容易にする方法を提案する。 本手法を実ネットワークトラフィックデータセット上でテストし,標準ADよりもいくつかの改善点を観察する。

Cyberthreats are a permanent concern in our modern technological world. In the recent years, sophisticated traffic analysis techniques and anomaly detection (AD) algorithms have been employed to face the more and more subversive adversarial attacks. A malicious intrusion, defined as an invasive action intending to illegally exploit private resources, manifests through unusual data traffic and/or abnormal connectivity pattern. Despite the plethora of statistical or signature-based detectors currently provided in the literature, the topological connectivity component of a malicious flow is less exploited. Furthermore, a great proportion of the existing statistical intrusion detectors are based on supervised learning, that relies on labeled data. By viewing network flows as weighted directed interactions between a pair of nodes, in this paper we present a simple method that facilitate the use of connectivity graph features in unsupervised anomaly detection algorithms. We test our methodology on real network traffic datasets and observe several improvements over standard AD.
翻訳日:2022-05-17 17:30:50 公開日:2022-05-14
# 産業用物体の腐食検出:マルチセンサシステムから5次元特徴空間へ

Corrosion Detection for Industrial Objects: From Multi-Sensor System to 5D Feature Space ( http://arxiv.org/abs/2205.07075v1 )

ライセンス: Link先を確認
Dennis Haitz, Boris Jutzi, Patrick Huebner, Markus Ulrich(参考訳) 腐食は、産業用途に使用される金属製の物体の表面にしばしば現れる損傷の一種である。 これらの損傷は、使用済みのオブジェクトの目的によって重要である。 光ベースのテストシステムは、非接触データ取得の形式を提供し、取得したデータをオブジェクトの表面の分析に使用することができる。 産業画像処理の分野では、これを表面検査と呼ぶ。 対象物を360度回転させる回転テーブルと、産業用rgbカメラとレーザー三角測量センサとからなる試験装置を、マルチセンサーシステムとして2dおよび3dデータを取得する。 これらのセンサーはデータを取得し、テスト対象は完全な回転を取る。 さらに、データ拡張を適用して、新しいデータを作成したり、既に取得したデータを強化する。 腐食検出のためのレーザ三角センサの影響を評価するため,両領域のデータを最初に融合させることが課題である。 データ融合プロセスの後、5つの異なるチャンネルを使用して5D機能空間を作成することができる。 画像の赤、緑、青のチャネル(1-3)に加えて、レーザ三角測量センサからの追加範囲データを取り込む(4)。 第5のチャネルとして、前記センサは追加の強度データ(5)を提供する。 多チャンネル画像分類では、画像のRGBチャネルのみで構成された3D特徴空間に対して、5D特徴空間はわずかに優れた結果をもたらす。

Corrosion is a form of damage that often appears on the surface of metal-made objects used in industrial applications. Those damages can be critical depending on the purpose of the used object. Optical-based testing systems provide a form of non-contact data acquisition, where the acquired data can then be used to analyse the surface of an object. In the field of industrial image processing, this is called surface inspection. We provide a testing setup consisting of a rotary table which rotates the object by 360 degrees, as well as industrial RGB cameras and laser triangulation sensors for the acquisition of 2D and 3D data as our multi-sensor system. These sensors acquire data while the object to be tested takes a full rotation. Further on, data augmentation is applied to prepare new data or enhance already acquired data. In order to evaluate the impact of a laser triangulation sensor for corrosion detection, one challenge is to at first fuse the data of both domains. After the data fusion process, 5 different channels can be utilized to create a 5D feature space. Besides the red, green and blue channels of the image (1-3), additional range data from the laser triangulation sensor is incorporated (4). As a fifth channel, said sensor provides additional intensity data (5). With a multi-channel image classification, a 5D feature space will lead to slightly superior results opposed to a 3D feature space, composed of only the RGB channels of the image.
翻訳日:2022-05-17 17:02:12 公開日:2022-05-14
# ETAD: 効果的な時間的行動検出のための統合フレームワーク

ETAD: A Unified Framework for Efficient Temporal Action Detection ( http://arxiv.org/abs/2205.07134v1 )

ライセンス: Link先を確認
Shuming Liu, Mengmeng Xu, Chen Zhao, Xu Zhao, Bernard Ghanem(参考訳) 時間的行動検出(tad)のような未解決の映像理解は、しばしばコンピューティングリソースに対する膨大な需要の苦痛に苦しむ。 長いビデオの持続時間とgpuメモリの制限のため、ほとんどのアクション検出器は、オリジナルのビデオではなく、事前抽出された機能でしか動作できず、高い検出性能を達成するために多くの計算を必要とする。 本研究は,TADにおける重い計算問題を緩和するため,まず,少数の提案で性能が飽和する観察結果に基づいて,検出提案サンプリングを用いた効率的な動作検出法を提案する。 この検出器は、LSTMをブーイングした時間的アグリゲーションやカスケードされた提案の改良など、いくつかの重要な技術で設計されており、高い検出品質と低い計算コストを実現している。 また,この動作検出器と特徴エンコーダの協調最適化を実現するために,ビデオスニペットを通して選択的にバックプロパゲーションを行い,GPUメモリ消費を大幅に削減するエンコーダ勾配サンプリングを提案する。 2つのサンプリング戦略と効果的な検出器を用いて、効率的なエンドツーエンドの時間的動作検出(etad)のための統一フレームワークを構築し、実世界のビデオ理解を扱いやすくする。 ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。 興味深いことに、ActivityNet-1.3では平均mAPは37.78%、トレーニング時間は6分、メモリは1.23GBである。 エンドツーエンドトレーニングでは、従来のエンドツーエンドメソッドと比較して、gpuメモリフットプリントを70%以上削減し、さらに高いパフォーマンス(平均38.21%)を実現している。 コードはhttps://github.com/sming256/etadで入手できる。

Untrimmed video understanding such as temporal action detection (TAD) often suffers from the pain of huge demand for computing resources. Because of long video durations and limited GPU memory, most action detectors can only operate on pre-extracted features rather than the original videos, and they still require a lot of computation to achieve high detection performance. To alleviate the heavy computation problem in TAD, in this work, we first propose an efficient action detector with detector proposal sampling, based on the observation that performance saturates at a small number of proposals. This detector is designed with several important techniques, such as LSTM-boosted temporal aggregation and cascaded proposal refinement to achieve high detection quality as well as low computational cost. To enable joint optimization of this action detector and the feature encoder, we also propose encoder gradient sampling, which selectively back-propagates through video snippets and tremendously reduces GPU memory consumption. With the two sampling strategies and the effective detector, we build a unified framework for efficient end-to-end temporal action detection (ETAD), making real-world untrimmed video understanding tractable. ETAD achieves state-of-the-art performance on both THUMOS-14 and ActivityNet-1.3. Interestingly, on ActivityNet-1.3, it reaches 37.78% average mAP, while only requiring 6 mins of training time and 1.23 GB memory based on pre-extracted features. With end-to-end training, it reduces the GPU memory footprint by more than 70% with even higher performance (38.21% average mAP), as compared with traditional end-to-end methods. The code is available at https://github.com/sming256/ETAD.
翻訳日:2022-05-17 17:01:52 公開日:2022-05-14
# 英語アセスメントテストにおける自動選択読解文?

Auto-Select Reading Passages in English Assessment Tests? ( http://arxiv.org/abs/2205.06961v1 )

ライセンス: Link先を確認
Bruce W. Lee, Jason H. Lee(参考訳) 本稿では,英語評価試験における読解パスの自動選択手法を示し,関連する分野において有用な重要な知見を公開する。 具体例では、類似した通路(テストに既に現れた通路)を見つけることで、テスト開発に適した通路が得られることを証明します。 この過程で,簡単なデータベース・タガーフィルタアルゴリズムを作成し,人間の評価を行う。 しかし、 1. 分析したテキストの特徴、カバレッジの欠如、そして 2. それぞれの特徴と適合性スコアの間に有意な相関が見つからない。 最後に,自動読解路選択の改善に向けた今後の展開について述べる。

We show a method to auto-select reading passages in English assessment tests and share some key insights that can be helpful in related fields. In specifics, we prove that finding a similar passage (to a passage that already appeared in the test) can give a suitable passage for test development. In the process, we create a simple database-tagger-filter algorithm and perform a human evaluation. However, 1. the textual features, that we analyzed, lack coverage, and 2. we fail to find meaningful correlations between each feature and suitability score. Lastly, we describe the future developments to improve automated reading passage selection.
翻訳日:2022-05-17 16:55:02 公開日:2022-05-14
# レビューに基づく楽曲のティップ生成

Review-Based Tip Generation for Music Songs ( http://arxiv.org/abs/2205.06985v1 )

ライセンス: Link先を確認
Jingya Zang, Cuiyun Gao, Yupan Chen, Ruifeng Xu, Lanjun Zhou, Xuan Wang(参考訳) 楽曲のレビューは、オンライン音楽サービスプラットフォームにおいて重要な役割を果たす。 以前の調査では、ユーザーは意味のある曲レビューを提示すると、より迅速でより情報的な判断をすることができる。 しかし、楽曲のレビューは概して長大であり、そのほとんどがユーザーにとって非形式的である。 ユーザが意思決定に意味のあるメッセージを効率的に把握することは困難である。 この問題を解決するために、1つの実践的戦略は、短い、簡潔、共感的、自己完結した曲の記述を提供することである。 ティップは曲のレビューから作られており、曲に関する非自明な洞察を表現すべきである。 我々の知る限りでは、音楽分野におけるチップ生成の課題について先行研究は行われていない。 本稿では,タスクのためのMTipsというデータセットを作成し,楽曲レビューからヒントを自動的に生成するGenTMSというフレームワークを提案する。 データセットは、128曲から8,003曲の中国製チップ/ノンチップが5つのジャンルに分散されている。 実験の結果、GenTMSは85.56%でトップ10の精度を達成し、最低でも3.34%の精度でベースラインモデルを上回った。 また,提案手法の実用性をシミュレートするために,従来未発表の楽曲を実験し,平均78.89%のtop-10精度で最高性能を達成している。 その結果,音楽領域の先端生成における提案手法の有効性が示された。

Reviews of songs play an important role in online music service platforms. Prior research shows that users can make quicker and more informed decisions when presented with meaningful song reviews. However, reviews of music songs are generally long in length and most of them are non-informative for users. It is difficult for users to efficiently grasp meaningful messages for making decisions. To solve this problem, one practical strategy is to provide tips, i.e., short, concise, empathetic, and self-contained descriptions about songs. Tips are produced from song reviews and should express non-trivial insight about the songs. To the best of our knowledge, no prior studies have explored the tip generation task in music domain. In this paper, we create a dataset named MTips for the task and propose a framework named GenTMS for automatically generating tips from song reviews. The dataset involves 8,003 Chinese tips/non-tips from 128 songs which are distributed in five different song genres. Experimental results show that GenTMS achieves top-10 precision at 85.56%, outperforming the baseline models by at least 3.34%. Besides, to simulate the practical usage of our proposed framework, we also experiment with previously-unseen songs, during which GenTMS also achieves the best performance with top-10 precision at 78.89% on average. The results demonstrate the effectiveness of the proposed framework in tip generation of the music domain.
翻訳日:2022-05-17 16:54:54 公開日:2022-05-14
# 音声言語認識のための事前学習アプローチ:OLR 2021チャレンジへのTalTechの提出

Pretraining Approaches for Spoken Language Recognition: TalTech Submission to the OLR 2021 Challenge ( http://arxiv.org/abs/2205.07083v1 )

ライセンス: Link先を確認
Tanel Alum\"ae and Kunnar Kukk(参考訳) 本稿では,言語識別における事前学習手法について検討する。 本論文は,東洋言語認識2021チャレンジへの提案に基づいている。 我々は,制約付き言語認識と制約なし言語認識という,課題の2つのトラックに参加した。 制約付きトラックに対して,我々は書き起こし可能なトレーニングデータを用いて,多言語自動音声認識(asr)のためのコンフォーメータベースのエンコーダ・デコーダモデルを最初に訓練した。 多言語ASRモデルの共有エンコーダは、言語識別タスクのために微調整された。 多言語xlsr-53 wav2vec2.0モデルは、言語認識タスクのためにvoxlingua107コーパスに微調整され、最終的に提供されるターゲット言語トレーニングデータに微調整され、コモンボイスデータが追加された。 テストセットにおける最初のメトリック $c_{\rm avg}$ は制約付きタスクで 0.0079 であり、制約なしタスクでは 0.0119 であり、両ランキングで第2位となった。 評価後実験では、正確なバックエンドモデルのトレーニングに必要な目標言語データ量、多言語事前学習データの重要性、および異なるモデルの微調整開始点としての比較を行った。

This paper investigates different pretraining approaches to spoken language identification. The paper is based on our submission to the Oriental Language Recognition 2021 Challenge. We participated in two tracks of the challenge: constrained and unconstrained language recognition. For the constrained track, we first trained a Conformer-based encoder-decoder model for multilingual automatic speech recognition (ASR), using the provided training data that had transcripts available. The shared encoder of the multilingual ASR model was then finetuned for the language identification task. For the unconstrained task, we relied on both externally available pretrained models as well as external data: the multilingual XLSR-53 wav2vec2.0 model was finetuned on the VoxLingua107 corpus for the language recognition task, and finally finetuned on the provided target language training data, augmented with CommonVoice data. Our primary metric $C_{\rm avg}$ values on the Test set are 0.0079 for the constrained task and 0.0119 for the unconstrained task which resulted in the second place in both rankings. In post-evaluation experiments, we study the amount of target language data needed for training an accurate backend model, the importance of multilingual pretraining data, and compare different models as finetuning starting points.
翻訳日:2022-05-17 16:54:31 公開日:2022-05-14
# 雑音データを用いた逆PDE問題に対するベイズ物理学インフォームドエクストリーム学習装置

Bayesian Physics-Informed Extreme Learning Machine for Forward and Inverse PDE Problems with Noisy Data ( http://arxiv.org/abs/2205.06948v1 )

ライセンス: Link先を確認
Xu Liu, Wen Yao, Wei Peng and Weien Zhou(参考訳) physics-informed extreme learning machine (pielm) は、偏微分方程式 (pdes) の解法である physics-informed neural network (pinn) の高速版として注目されている。 鍵となる特徴は、入力層重みをランダムな値で固定し、出力層重みに対してムーア-ペンローズ一般化逆数を使用することである。 この枠組みは有効であるが、ノイズの過剰なデータや、ノイズのシナリオにおける解の不確かさの定量化に支障をきたすため、ベイズ物理学を応用したエクストリーム・ラーニング・マシン(bpielm)を開発し、ノイズのあるデータの前方および逆の線形pde問題を統一フレームワークで解決する。 本手法では,物理法則を持つ極端学習機械の出力層に事前確率分布を導入し,ベイズ法を用いてパラメータの後方推定を行う。 さらに、逆PDE問題に対して、新しい出力層重み付けとして考慮された問題パラメータは、前方PDE問題を持つフレームワークで統一される。 最後に, ポアソン, 対流, 拡散方程式を含む前方問題と, 未知の問題パラメータを推定する逆問題の両方を考慮したBPIELMを実証する。 その結果,BPIELMはPIELMと比較してノイズデータから生じる不確実性を定量化し,より正確な予測を行うことがわかった。 加えて、BPIELMは計算コストの点でPINNよりもかなり安価である。

Physics-informed extreme learning machine (PIELM) has recently received significant attention as a rapid version of physics-informed neural network (PINN) for solving partial differential equations (PDEs). The key characteristic is to fix the input layer weights with random values and use Moore-Penrose generalized inverse for the output layer weights. The framework is effective, but it easily suffers from overfitting noisy data and lacks uncertainty quantification for the solution under noise scenarios.To this end, we develop the Bayesian physics-informed extreme learning machine (BPIELM) to solve both forward and inverse linear PDE problems with noisy data in a unified framework. In our framework, a prior probability distribution is introduced in the output layer for extreme learning machine with physic laws and the Bayesian method is used to estimate the posterior of parameters. Besides, for inverse PDE problems, problem parameters considered as new output layer weights are unified in a framework with forward PDE problems. Finally, we demonstrate BPIELM considering both forward problems, including Poisson, advection, and diffusion equations, as well as inverse problems, where unknown problem parameters are estimated. The results show that, compared with PIELM, BPIELM quantifies uncertainty arising from noisy data and provides more accurate predictions. In addition, BPIELM is considerably cheaper than PINN in terms of the computational cost.
翻訳日:2022-05-17 16:52:28 公開日:2022-05-14
# SystemMatch:生成的潜在空間マッチングによる前臨床結果の最適化

SystemMatch: optimizing preclinical drug models to human clinical outcomes via generative latent-space matching ( http://arxiv.org/abs/2205.07110v1 )

ライセンス: Link先を確認
Scott Gigante, Varsha G. Raghavan, Amanda M. Robinson, Robert A. Barton, Adeeb H. Rahman, Drausin F. Wulsin, Jacques Banchereau, Noam Solomon, Luis F. Voloch and Fabian J. Theis(参考訳) ヒトにおける前臨床モデルの関連性(動物モデルまたはオルガノイド)の翻訳は、薬物開発において重要な課題である。 ヒト腫瘍や組織からの単細胞ゲノムデータの増加は、疾患の標的細胞型と類似性によってモデルシステムを最適化する新たな機会を提供する。 そこで本研究では,前臨床モデルの適応度を$\textit{in sapiens}$ターゲット人口に評価するためにsystemmatchを導入し,これらのシステムをさらに最適化するための実験的な変更を推奨する。 腫瘍由来の抑制マクロファージをモデル化するための$\textit{in vitro}$システム開発への応用を通してこれを実証する。 対象個体群との生物学的類似性により,我々のパイプラインがマクロファージ亜集団を分類することに成功していることを把握し,この分析を用いて18ドルの\textit{in vitro}$マクロファージシステムを様々なサイトカイン刺激で摂動させた。 摂動オートエンコーダを用いて生成された66$\textit{in silico}$モデルシステムの振る舞いを予測するためにこの分析を拡張し、これらのモデルシステムのサブセットを推奨するために$k$-medoidsアプローチを適用して、摂動の空間を完全に探求する。 このユースケースを通じて,人間の生物学に類似したシステムを生成するために,システム開発をモデル化する新しいアプローチを示す。

Translating the relevance of preclinical models ($\textit{in vitro}$, animal models, or organoids) to their relevance in humans presents an important challenge during drug development. The rising abundance of single-cell genomic data from human tumors and tissue offers a new opportunity to optimize model systems by their similarity to targeted human cell types in disease. In this work, we introduce SystemMatch to assess the fit of preclinical model systems to an $\textit{in sapiens}$ target population and to recommend experimental changes to further optimize these systems. We demonstrate this through an application to developing $\textit{in vitro}$ systems to model human tumor-derived suppressive macrophages. We show with held-out $\textit{in vivo}$ controls that our pipeline successfully ranks macrophage subpopulations by their biological similarity to the target population, and apply this analysis to rank a series of 18 $\textit{in vitro}$ macrophage systems perturbed with a variety of cytokine stimulations. We extend this analysis to predict the behavior of 66 $\textit{in silico}$ model systems generated using a perturbational autoencoder and apply a $k$-medoids approach to recommend a subset of these model systems for further experimental development in order to fully explore the space of possible perturbations. Through this use case, we demonstrate a novel approach to model system development to generate a system more similar to human biology.
翻訳日:2022-05-17 16:52:05 公開日:2022-05-14
# 画像分類における修復モデル問題の実例

Practical Insights of Repairing Model Problems on Image Classification ( http://arxiv.org/abs/2205.07116v1 )

ライセンス: Link先を確認
Akihito Yoshii, Susumu Tokumoto, Fuyuki Ishikawa(参考訳) ディープラーニングモデルのさらなるトレーニングは、結果に負の影響をもたらし、最初の正のサンプルを負のサンプルに変換する(劣化)。 このような劣化は実世界のユースケースではサンプル特性の多様性によって可能となる。 つまり、サンプルのセットは、欠落すべきでない重要なものと重要でないものの組み合わせである。 したがって、精度だけでは性能を理解できない。 既存の研究は、モデルの劣化を防ぐことを目的としているが、それらの利点と限界を理解するには、関連する方法に対する洞察が必要である。 本稿では, 劣化低減手法の比較から得られた影響について述べる。 特に,データセットのアレンジメントの観点から,産業設定のユースケースを定式化した。 結果は、aiシステムのデータセットの可用性とライフサイクルを継続的に考慮し、より良い方法に気を配るべきであることを示唆している。

Additional training of a deep learning model can cause negative effects on the results, turning an initially positive sample into a negative one (degradation). Such degradation is possible in real-world use cases due to the diversity of sample characteristics. That is, a set of samples is a mixture of critical ones which should not be missed and less important ones. Therefore, we cannot understand the performance by accuracy alone. While existing research aims to prevent a model degradation, insights into the related methods are needed to grasp their benefits and limitations. In this talk, we will present implications derived from a comparison of methods for reducing degradation. Especially, we formulated use cases for industrial settings in terms of arrangements of a data set. The results imply that a practitioner should care about better method continuously considering dataset availability and life cycle of an AI system because of a trade-off between accuracy and preventing degradation.
翻訳日:2022-05-17 16:51:39 公開日:2022-05-14
# 対人ロバスト性による会員推定の評価

Evaluating Membership Inference Through Adversarial Robustness ( http://arxiv.org/abs/2205.06986v1 )

ライセンス: Link先を確認
Zhaoxi Zhang and Leo Yu Zhang and Xufei Zheng and Bilal Hussain Abbasi and Shengshan Hu(参考訳) ディープラーニングの利用は、多くのアプリケーションでエスカレートされている。 優れたパフォーマンスのため、従来のアプリケーションに加えて、さまざまなセキュリティやプライバシに敏感な分野で使用されている。 ディープラーニングの有効性の重要な側面の1つは、豊富なデータを持つことである。 この特徴は、非常に敏感でプライベートなデータの使用につながります。 メンバーシップ推論攻撃は、あるデータがトレーニングデータセットに属するかどうかを判断するために使用できるため、致命的とみなされる。 これは、トレーニングデータ情報の漏洩とその特性に関して問題となる。 この種の攻撃の意義を強調するため,ホワイトボックス環境下でのラベル平滑化による敵意の摂動方向の調整により,敵対的ロバスト性に基づくメンバーシップ推論攻撃の強化手法を提案する。 提案手法をFashion-MNIST, CIFAR-10, CIFAR-100の3つのデータセットで評価した。 実験結果から,本手法の性能は,通常訓練されたモデルを攻撃する場合,既存の対向ロバスト性に基づく手法を上回ることがわかった。 さらに,提案手法を最先端のメトリックベースメンバシップ推定法と比較することにより,対戦型モデルを攻撃する際の性能も向上した。 この成果を再現するコードは \url{https://github.com/plll4zzx/evaluating-membership-inference-through-adversarial-robustness} で入手できる。

The usage of deep learning is being escalated in many applications. Due to its outstanding performance, it is being used in a variety of security and privacy-sensitive areas in addition to conventional applications. One of the key aspects of deep learning efficacy is to have abundant data. This trait leads to the usage of data which can be highly sensitive and private, which in turn causes wariness with regard to deep learning in the general public. Membership inference attacks are considered lethal as they can be used to figure out whether a piece of data belongs to the training dataset or not. This can be problematic with regards to leakage of training data information and its characteristics. To highlight the significance of these types of attacks, we propose an enhanced methodology for membership inference attacks based on adversarial robustness, by adjusting the directions of adversarial perturbations through label smoothing under a white-box setting. We evaluate our proposed method on three datasets: Fashion-MNIST, CIFAR-10, and CIFAR-100. Our experimental results reveal that the performance of our method surpasses that of the existing adversarial robustness-based method when attacking normally trained models. Additionally, through comparing our technique with the state-of-the-art metric-based membership inference methods, our proposed method also shows better performance when attacking adversarially trained models. The code for reproducing the results of this work is available at \url{https://github.com/plll4zzx/Evaluating-Membership-Inference-Through-Adversarial-Robustness}.
翻訳日:2022-05-17 16:48:58 公開日:2022-05-14
# 複素組合せ問題に対する対称性破断制約の効率的な持ち上げ

Efficient lifting of symmetry breaking constraints for complex combinatorial problems ( http://arxiv.org/abs/2205.07129v1 )

ライセンス: Link先を確認
Alice Tarzariol and Martin Gebser and Mark Law and Konstantin Schekotihin(参考訳) 多くの産業応用は組合せ問題に対する解決策を見つける必要がある。 対称解候補の効率的な除去は、高性能解法の主要な実現要因の1つである。 しかし、対称性の破れに対する既存のモデルベースのアプローチは、代表的かつ容易に解くことができるインスタンスの集合が利用可能である問題に限定されている。 この作業は、Answer Set Programmingの学習フレームワークとモデルベースのアプローチの実装を拡張して、これらの制限を克服し、パートナーユニット問題のような課題に対処します。 特に,インダクティブ論理プログラミングシステムilaspに新しいコンフリクト解析アルゴリズムを組み込んで学習タスクを再定義し,そのアプローチをスケールアップするための新しいサンプル生成手法を提案する。 パートナーユニットの異なる種類の問題インスタンスに対して実施した実験は,我々のアプローチの適用可能性と,学習した一階制約による計算上のメリットを示している。

Many industrial applications require finding solutions to challenging combinatorial problems. Efficient elimination of symmetric solution candidates is one of the key enablers for high-performance solving. However, existing model-based approaches for symmetry breaking are limited to problems for which a set of representative and easily-solvable instances is available, which is often not the case in practical applications. This work extends the learning framework and implementation of a model-based approach for Answer Set Programming to overcome these limitations and address challenging problems, such as the Partner Units Problem. In particular, we incorporate a new conflict analysis algorithm in the Inductive Logic Programming system ILASP, redefine the learning task, and suggest a new example generation method to scale up the approach. The experiments conducted for different kinds of Partner Units Problem instances demonstrate the applicability of our approach and the computational benefits due to the first-order constraints learned.
翻訳日:2022-05-17 16:46:33 公開日:2022-05-14
# 放送音声のストリーム話者変化検出のための協調学習

Collar-aware Training for Streaming Speaker Change Detection in Broadcast Speech ( http://arxiv.org/abs/2205.07086v1 )

ライセンス: Link先を確認
Joonas Kalda and Tanel Alum\"ae(参考訳) 本稿では,話者変化検出モデルのための新しい学習手法を提案する。 話者変化検出は、しばしばバイナリシーケンスラベリング問題と見なされる。 このアプローチの主な課題は、話者の交代と不均衡データの間の沈黙によって生じる注釈付き変化点の曖昧さである。 従来のトレーニング方法は、トレーニングデータ中の正のラベルの割合を人工的に増加させることでこれに取り組む。 代わりに、提案手法では、モデルに指定されたカラー内の単一の正のラベルを予測するよう促す目的関数を用いる。 これは、首輪内にちょうど1つの正のラベルを持つすべての可能な部分列を周縁化することによって行われる。 英語とエストニア語のデータセットの実験は、従来の訓練方法よりも大幅に改善されている。 さらに、モデル出力は1つのフレームに集中したピークを持ち、ストリーミングアプリケーションで特に有用な正確な変更点を見つけるために、処理後の必要性をなくす。

In this paper, we present a novel training method for speaker change detection models. Speaker change detection is often viewed as a binary sequence labelling problem. The main challenges with this approach are the vagueness of annotated change points caused by the silences between speaker turns and imbalanced data due to the majority of frames not including a speaker change. Conventional training methods tackle these by artificially increasing the proportion of positive labels in the training data. Instead, the proposed method uses an objective function which encourages the model to predict a single positive label within a specified collar. This is done by marginalizing over all possible subsequences that have exactly one positive label within the collar. Experiments on English and Estonian datasets show large improvements over the conventional training method. Additionally, the model outputs have peaks concentrated to a single frame, removing the need for post-processing to find the exact predicted change point which is particularly useful for streaming applications.
翻訳日:2022-05-17 16:45:03 公開日:2022-05-14
# ファクトチェック複雑なクレームに対するリテラルおよびインプリッド要求の生成

Generating Literal and Implied Subquestions to Fact-check Complex Claims ( http://arxiv.org/abs/2205.06938v1 )

ライセンス: Link先を確認
Jifan Chen, Aniruddh Sriram, Eunsol Choi, Greg Durrett(参考訳) 複雑な政治的主張の検証は、特に政治家が事実を微妙に誤って表現するために様々な戦術を使う場合、難しい課題である。 自動事実チェックシステムはここでは不足しており、主張のどの部分が真実で、どれがそうでないか分からないので、"半真"のような予測は単独ではあまり役に立たない。 本研究では,複雑なクレームを,そのクレームの妥当性に影響を及ぼすイエス・ノー・サブクエストの包括的集合に分解することに焦点を当てる。 我々は1000以上のクレームに対する分解のデータセットである ClaimDecomp を提示する。 事実確認者によって書かれたクレームとその検証段落について、我々の訓練された注釈家は、元のクレームとその暗黙のファセットの明示的な提案の両方をカバーするサブクエスチョーションを書きます。 現状のモデルがそのようなサブクエストを生成できるかどうかを考察し、これらのモデルが合理的な質問を生成できることを示したが、証拠のない元のクエストからの包括的なサブクエストセットを予測することは依然として困難である。 さらに,これらのサブクエストは,クレームの全文をファクトチェックする関連エビデンスを識別し,その回答を通じて検証性を引き出すのに役立つことを示し,ファクトチェックパイプラインの有用な部分となることを示唆する。

Verifying complex political claims is a challenging task, especially when politicians use various tactics to subtly misrepresent the facts. Automatic fact-checking systems fall short here, and their predictions like "half-true" are not very useful in isolation, since we have no idea which parts of the claim are true and which are not. In this work, we focus on decomposing a complex claim into a comprehensive set of yes-no subquestions whose answers influence the veracity of the claim. We present ClaimDecomp, a dataset of decompositions for over 1000 claims. Given a claim and its verification paragraph written by fact-checkers, our trained annotators write subquestions covering both explicit propositions of the original claim and its implicit facets, such as asking about additional political context that changes our view of the claim's veracity. We study whether state-of-the-art models can generate such subquestions, showing that these models generate reasonable questions to ask, but predicting the comprehensive set of subquestions from the original claim without evidence remains challenging. We further show that these subquestions can help identify relevant evidence to fact-check the full claim and derive the veracity through their answers, suggesting that they can be useful pieces of a fact-checking pipeline.
翻訳日:2022-05-17 15:51:50 公開日:2022-05-14
# モーフォシンタクスの自然な因果探索

Naturalistic Causal Probing for Morpho-Syntax ( http://arxiv.org/abs/2205.07043v1 )

ライセンス: Link先を確認
Afra Amini, Tiago Pimentel, Clara Meister, Ryan Cotterell(参考訳) 自然言語処理において深層神経モデルの解釈と解析を行うための手法として,探索法が採用されている。 最近では、プローブの限界と弱点について多くの議論がなされている。 本研究では,ジェンダーマーク付き言語であるスペイン語における実世界データに対する入力レベル介入の自然主義的戦略を提案する。 提案手法を用いることで,共同創設者から文章,例えばトピックを抽出し,事前学習したモデルを因果的に探究することができる。 本手法を用いて,事前学習したモデル(BERT,RoBERTa,GPT-2)から抽出した文脈化表現に対する性別と数字の因果効果を分析する。 我々の実験は、自然主義的介入は、文中の異なる単語にまたがって異なる因果効果の安定した推定をもたらすことを示唆する。 さらに, 形容詞のジェンダーバイアスの調査や, 仮面予測における反事実的質問への回答において, 推定器の有用性を示す。 我々の探索実験は、特定の性質が表現に符号化されているかどうかを決定する上で、因果探索を行うことの重要性を強調している。

Probing has become a go-to methodology for interpreting and analyzing deep neural models in natural language processing. Yet recently, there has been much debate around the limitations and weaknesses of probes. In this work, we suggest a naturalistic strategy for input-level intervention on real world data in Spanish, which is a language with gender marking. Using our approach, we isolate morpho-syntactic features from counfounders in sentences, e.g. topic, which will then allow us to causally probe pre-trained models. We apply this methodology to analyze causal effects of gender and number on contextualized representations extracted from pre-trained models -- BERT, RoBERTa and GPT-2. Our experiments suggest that naturalistic intervention can give us stable estimates of causal effects, which varies across different words in a sentence. We further show the utility of our estimator in investigating gender bias in adjectives, and answering counterfactual questions in masked prediction. Our probing experiments highlights the importance of conducting causal probing in determining if a particular property is encoded in representations.
翻訳日:2022-05-17 15:50:07 公開日:2022-05-14
# 効率の良いラストメーター・ウェイフィンディングのためのsariency-guided street view image inpainting framework

A Saliency-Guided Street View Image Inpainting Framework for Efficient Last-Meters Wayfinding ( http://arxiv.org/abs/2205.06934v1 )

ライセンス: Link先を確認
Chuanbo Hu, Shan Jia, Fan Zhang, Xin Li(参考訳) 地球測位システム(GPS)は様々なナビゲーションアプリケーションにおいて重要な役割を担っている。 それでも、最後の数メートル以内に完璧な目的地を配置することは、重要だが未解決の問題である。 gps測位精度によって制限されたナビゲーションシステムは、常に目的地付近を示すが、正確な位置は示さない。 没入型メディア技術としてのmapsのストリートビュー画像(svi)は、人間のラストメーター・ウェイフィングの物理的環境を提供するのに役立った。 しかし、地理的状況や取得条件の多様さにより、捕獲されたSVIには、常に様々な注意をそらす物体(歩行者や車両など)が含まれており、最後の数メートルでの目的地の効率的な発見から人間の視覚的注意をそらすことになる。 この問題に対処するために,saliency-guided image inpainting framework の提案により,画像に基づくwayfindingにおける視覚障害の軽減の重要性を強調する。 最後のメートルでより効率的で正確なウェイフィングを行うために、人間の視覚の注意を邪魔する物体から目的地関連の物体に向けることを目的としている。 具体的には,SVIの3つの意味レベルから,深度な物体検出によって駆動されるコンテキスト認識型物体検出手法を考案した。 次に,高速なフーリエ畳み込みによる大きなマスク塗装法を用いて,検出された散乱物体を除去する。 定性的・定量的な分析により, ストリートビュー画像の視覚的品質が向上するだけでなく, 静的な位置関連物体に注意を向けるよう人間の視覚的注意をリダイレクトできることがわかった。 また,人間による評価により,目標地点の配置効率を向上させる方法の有効性を正当化した。

Global Positioning Systems (GPS) have played a crucial role in various navigation applications. Nevertheless, localizing the perfect destination within the last few meters remains an important but unresolved problem. Limited by the GPS positioning accuracy, navigation systems always show users a vicinity of a destination, but not its exact location. Street view images (SVI) in maps as an immersive media technology have served as an aid to provide the physical environment for human last-meters wayfinding. However, due to the large diversity of geographic context and acquisition conditions, the captured SVI always contains various distracting objects (e.g., pedestrians and vehicles), which will distract human visual attention from efficiently finding the destination in the last few meters. To address this problem, we highlight the importance of reducing visual distraction in image-based wayfinding by proposing a saliency-guided image inpainting framework. It aims at redirecting human visual attention from distracting objects to destination-related objects for more efficient and accurate wayfinding in the last meters. Specifically, a context-aware distracting object detection method driven by deep salient object detection has been designed to extract distracting objects from three semantic levels in SVI. Then we employ a large-mask inpainting method with fast Fourier convolutions to remove the detected distracting objects. Experimental results with both qualitative and quantitative analysis show that our saliency-guided inpainting method can not only achieve great perceptual quality in street view images but also redirect the human's visual attention to focus more on static location-related objects than distracting ones. The human-based evaluation also justified the effectiveness of our method in improving the efficiency of locating the target destination.
翻訳日:2022-05-17 15:44:29 公開日:2022-05-14
# 画像デノイジング用高密度残差変圧器

Dense residual Transformer for image denoising ( http://arxiv.org/abs/2205.06944v1 )

ライセンス: Link先を確認
Chao Yao, Shuo Jin, Meiqin Liu, Xiaojuan Ban(参考訳) ノイズフリーで高品質な画像をノイズの多い画像から再構成することを目的とした,低レベルのコンピュータビジョンタスクである。 ディープラーニングの発展に伴い、畳み込みニューラルネットワーク(CNN)は徐々に適用され、画像の復調、画像圧縮、画像強調などにおいて大きな成功を収めている。 近年,Transformerはコンピュータビジョンタスクに対処するために広く利用されているホットテクニックである。 しかし、低レベルの視覚タスクに対してTransformerベースの手法はほとんど提案されていない。 本稿では,Transformerをベースとした画像記述型ネットワーク構造を提案し,DenSformerと命名した。 densformerは、プリプロセッシングモジュール、ローカルグローバル特徴抽出モジュール、再構築モジュールを含む3つのモジュールで構成されている。 具体的には、局所的な特徴抽出モジュールは、複数のSformerグループから構成され、それぞれに複数のETransformer層と畳み込み層と、残りの接続を含む。 これらのスフォーマー群は、異なる層の特徴を融合させるために密にスキップ接続され、与えられたノイズ画像から局所的および大域的な情報を取り込む。 私たちは総合的な実験でモデルを実行します。 実験結果から,デンスフォーマは,合成雑音データと実雑音データの両方について,目的的および主観的評価において,最先端手法に比べて改善が得られた。

Image denoising is an important low-level computer vision task, which aims to reconstruct a noise-free and high-quality image from a noisy image. With the development of deep learning, convolutional neural network (CNN) has been gradually applied and achieved great success in image denoising, image compression, image enhancement, etc. Recently, Transformer has been a hot technique, which is widely used to tackle computer vision tasks. However, few Transformer-based methods have been proposed for low-level vision tasks. In this paper, we proposed an image denoising network structure based on Transformer, which is named DenSformer. DenSformer consists of three modules, including a preprocessing module, a local-global feature extraction module, and a reconstruction module. Specifically, the local-global feature extraction module consists of several Sformer groups, each of which has several ETransformer layers and a convolution layer, together with a residual connection. These Sformer groups are densely skip-connected to fuse the feature of different layers, and they jointly capture the local and global information from the given noisy images. We conduct our model on comprehensive experiments. Experimental results prove that our DenSformer achieves improvement compared to some state-of-the-art methods, both for the synthetic noise data and real noise data, in the objective and subjective evaluations.
翻訳日:2022-05-17 15:43:56 公開日:2022-05-14
# マルチヘッドニューラルネットワークを用いた視覚障害者支援のための効率的なジェスチャー認識

Efficient Gesture Recognition for the Assistance of Visually Impaired People using Multi-Head Neural Networks ( http://arxiv.org/abs/2205.06980v1 )

ライセンス: Link先を確認
Samer Alashhab, Antonio Javier Gallego, Miguel \'Angel Lozano(参考訳) 本稿では,視覚障害者支援を目的とした手ジェスチャーによるモバイルデバイスの対話システムを提案する。 このシステムにより、ユーザーはシンプルな静的、ダイナミックな手の動きをすることでデバイスと対話できる。 各ジェスチャは、オブジェクト認識、シーン記述、イメージスケーリング(例えば、オブジェクトに指を向けると、その記述が表示される)など、システム内で異なるアクションをトリガーする。 このシステムは、最初はジェスチャーを検出して分類し、次に検出されたジェスチャーに応じて、対応するアクションを実行する第2段階を実行するマルチヘッドニューラルネットワークアーキテクチャに基づいている。 このマルチヘッドアーキテクチャは、異なるタスクを同時に実行するために必要なリソースを最適化し、初期バックボーンから得られる情報を利用して、第2段階で異なるプロセスを実行する。 システムのトレーニングと評価を行うため、約40kイメージのデータセットを手作業でコンパイルし、さまざまな手のジェスチャー、背景(屋内と屋外)、照明条件などを含むラベル付けした。 このデータセットには、合成ジェスチャー(結果を改善するためにシステムを事前訓練する目的)と、異なる携帯電話を使用してキャプチャされた実際の画像が含まれている。 得られた結果と技術状態との比較は,ジェスチャの分類と局所化の正確性,オブジェクトやシーンの記述の生成など,システムによってなされる異なる動作に関して,競争的な結果を示す。

This paper proposes an interactive system for mobile devices controlled by hand gestures aimed at helping people with visual impairments. This system allows the user to interact with the device by making simple static and dynamic hand gestures. Each gesture triggers a different action in the system, such as object recognition, scene description or image scaling (e.g., pointing a finger at an object will show a description of it). The system is based on a multi-head neural network architecture, which initially detects and classifies the gestures, and subsequently, depending on the gesture detected, performs a second stage that carries out the corresponding action. This multi-head architecture optimizes the resources required to perform different tasks simultaneously, and takes advantage of the information obtained from an initial backbone to perform different processes in a second stage. To train and evaluate the system, a dataset with about 40k images was manually compiled and labeled including different types of hand gestures, backgrounds (indoors and outdoors), lighting conditions, etc. This dataset contains synthetic gestures (whose objective is to pre-train the system in order to improve the results) and real images captured using different mobile phones. The results obtained and the comparison made with the state of the art show competitive results as regards the different actions performed by the system, such as the accuracy of classification and localization of gestures, or the generation of descriptions for objects and scenes.
翻訳日:2022-05-17 15:43:32 公開日:2022-05-14
# 医用画像分割のためのVoxel-wise Adversarial Semi-supervised Learning

Voxel-wise Adversarial Semi-supervised Learning for Medical Image Segmentation ( http://arxiv.org/abs/2205.06987v1 )

ライセンス: Link先を確認
Chae Eun Lee and Hyelim Park and Yeong-Gil Shin and Minyoung Chung(参考訳) 医用画像分割のための半教師付き学習は,医療領域における信頼性の高い大規模アノテーションの構築に伴う膨大なコストを軽減するための重要な研究分野である。 最近の半教師ありアプローチは、整合正則化、擬似ラベル技術、対角学習を用いて有望な結果を示した。 これらの手法は、主に予測や埋め込みコンテキストの一貫性を強制することによってラベル付きおよびラベル付きデータの分布を学習しようとする。 しかし、従来のアプローチでは、局所的な不一致の最小化や単一クラス間のコンテキスト関係にのみ焦点が当てられていた。 本稿では,複数の階層から局所的特徴とグローバル的特徴を効果的に埋め込み,複数のクラス間のコンテキスト関係を学習する,対角学習に基づく半教師付きセグメンテーション手法を提案する。 voxel-wise adversarial learning法では,voxel-wise feature discriminatorを用いて,クラス固有のvoxel-wise feature distributionを組み込んだ入力として多層voxel-wise features(局所的特徴と大域的特徴の両方を含む)を考察する。 さらに,ラベル付きデータの豊かな表現を可能にする情報損失問題や学習安定性問題を克服することで,従来の表現学習方法を改善する。 本手法は,左心房(single class)とマルチオルガンデータセット(multiorgan dataset,multiclass)の画像セグメンテーションにおいて,現在最もパフォーマンスの高い半教師付き学習手法を上回っている。 さらに,提案手法により,ラベル付きデータとラベルなしデータの両方から特徴空間を適切に分散分離し,全体の予測結果を改善することができることを示した。

Semi-supervised learning for medical image segmentation is an important area of research for alleviating the huge cost associated with the construction of reliable large-scale annotations in the medical domain. Recent semi-supervised approaches have demonstrated promising results by employing consistency regularization, pseudo-labeling techniques, and adversarial learning. These methods primarily attempt to learn the distribution of labeled and unlabeled data by enforcing consistency in the predictions or embedding context. However, previous approaches have focused only on local discrepancy minimization or context relations across single classes. In this paper, we introduce a novel adversarial learning-based semi-supervised segmentation method that effectively embeds both local and global features from multiple hidden layers and learns context relations between multiple classes. Our voxel-wise adversarial learning method utilizes a voxel-wise feature discriminator, which considers multilayer voxel-wise features (involving both local and global features) as an input by embedding class-specific voxel-wise feature distribution. Furthermore, we improve our previous representation learning method by overcoming information loss and learning stability problems, which enables rich representations of labeled data. Our method outperforms current best-performing state-of-the-art semi-supervised learning approaches on the image segmentation of the left atrium (single class) and multiorgan datasets (multiclass). Moreover, our visual interpretation of the feature space demonstrates that our proposed method enables a well-distributed and separated feature space from both labeled and unlabeled data, which improves the overall prediction results.
翻訳日:2022-05-17 15:43:10 公開日:2022-05-14
# Panoptic-PHNet:クラスタリング擬似熱マップによるリアルタイム・高精度LiDARパン光学分割を目指して

Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic Segmentation via Clustering Pseudo Heatmap ( http://arxiv.org/abs/2205.07002v1 )

ライセンス: Link先を確認
Jinke Li, Xiao He, Yang Wen, Yuan Gao, Xiaoqiang Cheng, Dan Zhang(参考訳) 上昇するタスクとして、セグメンテーションはセグメンテーションとインスタンスセグメンテーションの両方において課題に直面している。 しかし、速度と精度の面では、既存のLiDAR法はまだ限られている。 本稿では,Panoptic-PHNetと呼ばれる高速かつ高性能なLiDARベースのフレームワークを提案する。 1) 新しいパラダイムとしてクラスタリング擬似ヒートマップを導入し,それに続いて中心グループ化モジュールが,オブジェクトレベルの学習タスクを使わずに,効率的なクラスタリングのためのインスタンスセンタを生成する。 2) 正確なオフセット回帰のために, 前景点間の相互作用をモデル化する knn-transformer モジュールを提案する。 3) バックボーンデザインでは, 細粒度のボクセル特徴と2D Bird's Eye View (BEV) 特徴を異なる受容領域で融合させ, 詳細情報とグローバル情報の両方を利用する。 SemanticKITTIデータセットとnuScenesデータセットの両方での大規模な実験により、私たちのPanoptic-PHNetは最先端の手法をはるかに超え、リアルタイムな速度で実現しています。 我々は、semantickittiの公開リーダーボードで1位を獲得し、最近リリースされたnuscenesのリーダーボードでトップパフォーマンスを達成します。

As a rising task, panoptic segmentation is faced with challenges in both semantic segmentation and instance segmentation. However, in terms of speed and accuracy, existing LiDAR methods in the field are still limited. In this paper, we propose a fast and high-performance LiDAR-based framework, referred to as Panoptic-PHNet, with three attractive aspects: 1) We introduce a clustering pseudo heatmap as a new paradigm, which, followed by a center grouping module, yields instance centers for efficient clustering without object-level learning tasks. 2) A knn-transformer module is proposed to model the interaction among foreground points for accurate offset regression. 3) For backbone design, we fuse the fine-grained voxel features and the 2D Bird's Eye View (BEV) features with different receptive fields to utilize both detailed and global information. Extensive experiments on both SemanticKITTI dataset and nuScenes dataset show that our Panoptic-PHNet surpasses state-of-the-art methods by remarkable margins with a real-time speed. We achieve the 1st place on the public leaderboard of SemanticKITTI and leading performance on the recently released leaderboard of nuScenes.
翻訳日:2022-05-17 15:42:39 公開日:2022-05-14
# シーングラフ生成における重要度重み付き構造学習

Importance Weighted Structure Learning for Scene Graph Generation ( http://arxiv.org/abs/2205.07017v1 )

ライセンス: Link先を確認
Daqi Liu, Miroslaw Bober, Josef Kittler(参考訳) シーングラフ生成は、入力画像のための視覚的なシーングラフを構築することにより、オブジェクトとその関係を明示的にモデル化することを目的とした構造化予測タスクである。 現在、メッセージパッシングニューラルネットワークに基づく平均場変動ベイズ手法はそのようなタスクのユビキタスな解であり、変分推論の目的はしばしば古典的な証拠の低い境界であると仮定される。 しかし、そのようなゆるい目標から推定される変分近似は一般的に下層を過小評価し、しばしば世代性能を低下させる。 本稿では,再評価可能なグンベルソフトマックス・サンプラーから抽出した複数のサンプルから求めた重み付き下界の重み付き重み付け関数を近似することを目的とした,新しい重み付き構造学習法を提案する。 結果として生じる制約付き変動推論タスクを解決するために、一般的なエントロピーミラー降下アルゴリズムを適用する。 提案手法は,様々な人気シーングラフ生成ベンチマークにおける最先端性能を実現する。

Scene graph generation is a structured prediction task aiming to explicitly model objects and their relationships via constructing a visually-grounded scene graph for an input image. Currently, the message passing neural network based mean field variational Bayesian methodology is the ubiquitous solution for such a task, in which the variational inference objective is often assumed to be the classical evidence lower bound. However, the variational approximation inferred from such loose objective generally underestimates the underlying posterior, which often leads to inferior generation performance. In this paper, we propose a novel importance weighted structure learning method aiming to approximate the underlying log-partition function with a tighter importance weighted lower bound, which is computed from multiple samples drawn from a reparameterizable Gumbel-Softmax sampler. A generic entropic mirror descent algorithm is applied to solve the resulting constrained variational inference task. The proposed method achieves the state-of-the-art performance on various popular scene graph generation benchmarks.
翻訳日:2022-05-17 15:42:14 公開日:2022-05-14
# オブジェクト指向自己教師付きマルチラベル学習

Object-Aware Self-supervised Multi-Label Learning ( http://arxiv.org/abs/2205.07028v1 )

ライセンス: Link先を確認
Xu Kaixin, Liu Liyang, Zhao Ziyuan, Zeng Zeng, Bharadwaj Veeravalli(参考訳) 画像データのマルチラベル学習はディープラーニングモデルで広く利用されている。 しかし、深層CNNモデルの教師付きトレーニングでは、分類に十分な識別的特徴が見つからないことが多い。 その結果、より堅牢な画像表現を学習するために、多数の自己超越手法が提案されている。 しかし、ほとんどの自己監督型アプローチはシングルインスタンスなシングルラベルデータに焦点を合わせ、複数のオブジェクトを持つより複雑なイメージに取って代わる。 そこで本稿では,オブジェクト位置に基づく補助タスクを動的に生成し,マルチラベル学習のためのより詳細な表現を得るためのオブジェクト認識自己スーパービジョン(oass)手法を提案する。 第二に、OASSが学んだ堅牢な表現を利用して、提案のない方法でクラス特化インスタンス(CSI)を効率よく生成し、インスタンスへのマルチラベルの信号転送をより良くガイドすることができる。 マルチラベル分類のためのVOC2012データセットの大規模な実験により,提案手法の有効性が示された。

Multi-label Learning on Image data has been widely exploited with deep learning models. However, supervised training on deep CNN models often cannot discover sufficient discriminative features for classification. As a result, numerous self-supervision methods are proposed to learn more robust image representations. However, most self-supervised approaches focus on single-instance single-label data and fall short on more complex images with multiple objects. Therefore, we propose an Object-Aware Self-Supervision (OASS) method to obtain more fine-grained representations for multi-label learning, dynamically generating auxiliary tasks based on object locations. Secondly, the robust representation learned by OASS can be leveraged to efficiently generate Class-Specific Instances (CSI) in a proposal-free fashion to better guide multi-label supervision signal transfer to instances. Extensive experiments on the VOC2012 dataset for multi-label classification demonstrate the effectiveness of the proposed method against the state-of-the-art counterparts.
翻訳日:2022-05-17 15:41:57 公開日:2022-05-14
# セマンティックセグメンテーションのための変圧器スケールゲート

Transformer Scale Gate for Semantic Segmentation ( http://arxiv.org/abs/2205.07056v1 )

ライセンス: Link先を確認
Hengcan Shi, Munawar Hayat, Jianfei Cai(参考訳) マルチスケールコンテキスト情報を効果的に符号化することは、正確なセマンティックセグメンテーションに不可欠である。 既存のトランスフォーマーベースのセグメンテーションモデルでは、選択せずにスケールにまたがる機能を組み合わせることで、サブ最適スケールの機能はセグメンテーションの結果を劣化させる可能性がある。 視覚変換器の特性を生かして,マルチスケール特徴を最適に組み合わせた簡易かつ効果的なモジュールTransformer Scale Gate (TSG)を提案する。 tsgは高度に柔軟なプラグ・アンド・プレイモジュールであり、エンコーダ・デコーダベースの階層型視覚トランスフォーマーアーキテクチャを容易に組み込むことができる。 Pascal ContextとADE20Kデータセットに関する大規模な実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。

Effectively encoding multi-scale contextual information is crucial for accurate semantic segmentation. Existing transformer-based segmentation models combine features across scales without any selection, where features on sub-optimal scales may degrade segmentation outcomes. Leveraging from the inherent properties of Vision Transformers, we propose a simple yet effective module, Transformer Scale Gate (TSG), to optimally combine multi-scale features.TSG exploits cues in self and cross attentions in Vision Transformers for the scale selection. TSG is a highly flexible plug-and-play module, and can easily be incorporated with any encoder-decoder-based hierarchical vision Transformer architecture. Extensive experiments on the Pascal Context and ADE20K datasets demonstrate that our feature selection strategy achieves consistent gains.
翻訳日:2022-05-17 15:41:42 公開日:2022-05-14
# rtmv:新規ビュー合成のための線追跡多視点合成データセット

RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis ( http://arxiv.org/abs/2205.07058v1 )

ライセンス: Link先を確認
Jonathan Tremblay, Moustafa Meshry, Alex Evans, Jan Kautz, Alexander Keller, Sameh Khamis, Charles Loop, Nathan Morrical, Koki Nagano, Towaki Takikawa, Stan Birchfield(参考訳) 高精細(1600 x 1600ピクセル)で高画質のレイトレーシングを用いて,2000シーン近くの複雑なシーンから約300k画像がレンダリングされた,新しいビュー合成のための大規模合成データセットを提案する。 データセットは、新しいビュー合成のために既存の合成データセットよりも桁違いに大きいため、トレーニングと評価の両方のための大きな統合ベンチマークを提供する。 高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。 我々のデータセットは既存の方法で処理するには大きすぎるため、新しいビュー合成のための効率的なボクセルベースの光場アプローチであるSparse Voxel Light Field (SVLF)を提案する。 SVLFは、粗いボクセルオクツリー、慎重なボクセルサンプリング(光線当たりのクエリ数が少ない)、ネットワーク構造を削減し、トレーニング時の地上の真理深度マップを頼りにすることで、この速度を達成する。 我々のデータセットは、PythonベースのレイトレーシングレンダラーであるNViSIIによって生成される。これは、非専門家がスクリプティングを使用して使用、共有し、柔軟で強力に設計され、高品質で物理的にレンダリングされた画像を作成することができる。 データセットのサブセットを用いた実験により,単一シーンモデリングのNeRFやmip-NeRF,カテゴリレベルのモデリングのPixelNeRFといった標準手法を比較し,今後の改善の必要性を指摘する。

We present a large-scale synthetic dataset for novel view synthesis consisting of ~300k images rendered from nearly 2000 complex scenes using high-quality ray tracing at high resolution (1600 x 1600 pixels). The dataset is orders of magnitude larger than existing synthetic datasets for novel view synthesis, thus providing a large unified benchmark for both training and evaluation. Using 4 distinct sources of high-quality 3D meshes, the scenes of our dataset exhibit challenging variations in camera views, lighting, shape, materials, and textures. Because our dataset is too large for existing methods to process, we propose Sparse Voxel Light Field (SVLF), an efficient voxel-based light field approach for novel view synthesis that achieves comparable performance to NeRF on synthetic data, while being an order of magnitude faster to train and two orders of magnitude faster to render. SVLF achieves this speed by relying on a sparse voxel octree, careful voxel sampling (requiring only a handful of queries per ray), and reduced network structure; as well as ground truth depth maps at training time. Our dataset is generated by NViSII, a Python-based ray tracing renderer, which is designed to be simple for non-experts to use and share, flexible and powerful through its use of scripting, and able to create high-quality and physically-based rendered images. Experiments with a subset of our dataset allow us to compare standard methods like NeRF and mip-NeRF for single-scene modeling, and pixelNeRF for category-level modeling, pointing toward the need for future improvements in this area.
翻訳日:2022-05-17 15:41:28 公開日:2022-05-14
# 四角形追従系の分布強化推定を用いた解釈確率モデル予測制御

Interpretable Stochastic Model Predictive Control using Distributional Reinforced Estimation for Quadrotor Tracking Systems ( http://arxiv.org/abs/2205.07150v1 )

ライセンス: Link先を確認
Yanran Wang, James O'Keeffe, Qiuchen Qian, David Boyle(参考訳) 本稿では,動的および複雑な環境における自律四重子ナビゲーションのための新しい軌跡追跡器を提案する。 提案フレームワークは,未知の空力効果に対する分布強化学習(RL)推定器を軌道追跡のための確率モデル予測制御器(SMPC)に統合する。 ドラッグ力とモーメント変動から導かれる空力効果を直接的かつ正確にモデル化することは困難である。 したがって、現在のほとんどの四角形追跡システムは、従来の制御アプローチでは単純な 'disturbances' として扱う。 本研究では,空力効果の真の値と推定値の不確かさを正確に識別するために,気力外乱推定器である分位近似分布型風力外乱推定器を提案する。 簡易なアフィン外乱フィードバックは、凸性を保証するために制御パラメータ化に使われ、SMPCと統合して十分かつ保守的でない制御信号を得る。 本研究では, 空力力の未知と多様さにより, 累積追尾誤差を少なくとも66%改善できることを示す。 従来の強化学習の非解釈性については, 分散RLとSMPCの収束性, 安定性保証, 非ゼロ平均乱れをそれぞれ提供する。

This paper presents a novel trajectory tracker for autonomous quadrotor navigation in dynamic and complex environments. The proposed framework integrates a distributional Reinforcement Learning (RL) estimator for unknown aerodynamic effects into a Stochastic Model Predictive Controller (SMPC) for trajectory tracking. Aerodynamic effects derived from drag forces and moment variations are difficult to model directly and accurately. Most current quadrotor tracking systems therefore treat them as simple `disturbances' in conventional control approaches. We propose Quantile-approximation-based Distributional Reinforced-disturbance-estimator, an aerodynamic disturbance estimator, to accurately identify disturbances, i.e., uncertainties between the true and estimated values of aerodynamic effects. Simplified Affine Disturbance Feedback is employed for control parameterization to guarantee convexity, which we then integrate with a SMPC to achieve sufficient and non-conservative control signals. We demonstrate our system to improve the cumulative tracking errors by at least 66% with unknown and diverse aerodynamic forces compared with recent state-of-the-art. Concerning traditional Reinforcement Learning's non-interpretability, we provide convergence and stability guarantees of Distributional RL and SMPC, respectively, with non-zero mean disturbances.
翻訳日:2022-05-17 15:16:21 公開日:2022-05-14
# Multiformer: 直接音声翻訳のための頭部構成可能なトランスフォーマモデル

Multiformer: A Head-Configurable Transformer-Based Model for Direct Speech Translation ( http://arxiv.org/abs/2205.07100v1 )

ライセンス: Link先を確認
Gerard Sant, Gerard I. G\'allego, Belen Alastruey, Marta R. Costa-Juss\`a(参考訳) トランスフォーマーベースのモデルは、自然言語処理のいくつかの分野で最先端の結果を達成している。 しかし、音声タスクへの直接適用は簡単ではない。 この配列の性質は、長いシーケンス長や隣接するトークン間の冗長性といった問題をもたらす。 したがって, 正規の自己着脱機構は, あまり適さないと考えられる。 効率的な注意機構の使用など、これらの問題を克服するための様々なアプローチが提案されている。 しかし、これらの手法の使用には通常、情報損失による性能低下であるコストが伴う。 本研究では,各頭部に異なる注意機構を適用できるトランスフォーマモデルであるmultiformerを提案する。 これにより、モデルがより多様なトークンインタラクションの抽出に向けて自己注意を偏らせ、情報損失を低減できる。 最後に,頭部コントリビューションの分析を行い,全ての頭部関連性が均一に分布しているアーキテクチャがより良い結果が得られることを観察する。 以上の結果から,異なる頭部と層に沿った注意パターンの混合は,最大0.7BLEUでベースラインを上回った。

Transformer-based models have been achieving state-of-the-art results in several fields of Natural Language Processing. However, its direct application to speech tasks is not trivial. The nature of this sequences carries problems such as long sequence lengths and redundancy between adjacent tokens. Therefore, we believe that regular self-attention mechanism might not be well suited for it. Different approaches have been proposed to overcome these problems, such as the use of efficient attention mechanisms. However, the use of these methods usually comes with a cost, which is a performance reduction caused by information loss. In this study, we present the Multiformer, a Transformer-based model which allows the use of different attention mechanisms on each head. By doing this, the model is able to bias the self-attention towards the extraction of more diverse token interactions, and the information loss is reduced. Finally, we perform an analysis of the head contributions, and we observe that those architectures where all heads relevance is uniformly distributed obtain better results. Our results show that mixing attention patterns along the different heads and layers outperforms our baseline by up to 0.7 BLEU.
翻訳日:2022-05-17 15:10:08 公開日:2022-05-14
# 自己指導型アクティブラーニングによる皮膚病変分割

Self-supervised Assisted Active Learning for Skin Lesion Segmentation ( http://arxiv.org/abs/2205.07021v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Wenjing Lu, Zeng Zeng, Kaixin Xu, Bharadwaj Veeravalli, Cuntai Guan(参考訳) ラベルの不足は、高いアノテーションコストと専門的な要件のために、バイオメディカルイメージセグメンテーションの長年の問題であった。 近年、アクティブラーニング(al)戦略は、少量のデータに注釈を照会することでアノテーションコストを削減し、医療画像の分野で大きな牽引力を得ている。 しかし、既存のalメソッドのほとんどは、不確実性や多様性といった様々な基準に基づいて、ランダムに選択されたサンプルでモデルを初期化する必要がある。 このようなランダムスタート初期化手法は必然的に非値冗長なサンプルと不要なアノテーションコストを導入する。 この問題に対処するために,まずセグメンテーションモデルを自己教師付き学習(SSL)でウォームアップし,次にラベルをアクセスせずに潜在機能クラスタリングによるサンプル選択にSSL機能を利用する冷間開始環境における,新しい自己教師型アクティブラーニングフレームワークを提案する。 皮膚病変分割作業における提案手法の評価を行った。 大規模な実験は、我々のアプローチが既存のベースラインよりも大幅に改善され、有望なパフォーマンスを達成することができることを示した。

Label scarcity has been a long-standing issue for biomedical image segmentation, due to high annotation costs and professional requirements. Recently, active learning (AL) strategies strive to reduce annotation costs by querying a small portion of data for annotation, receiving much traction in the field of medical imaging. However, most of the existing AL methods have to initialize models with some randomly selected samples followed by active selection based on various criteria, such as uncertainty and diversity. Such random-start initialization methods inevitably introduce under-value redundant samples and unnecessary annotation costs. For the purpose of addressing the issue, we propose a novel self-supervised assisted active learning framework in the cold-start setting, in which the segmentation model is first warmed up with self-supervised learning (SSL), and then SSL features are used for sample selection via latent feature clustering without accessing labels. We assess our proposed methodology on skin lesions segmentation task. Extensive experiments demonstrate that our approach is capable of achieving promising performance with substantial improvements over existing baselines.
翻訳日:2022-05-17 15:09:50 公開日:2022-05-14
# 音声連鎖再構成と自己転写による半教師付きシーケンス-シーケンス間asrの一貫性トレーニングの改善

Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing ( http://arxiv.org/abs/2205.06963v1 )

ライセンス: Link先を確認
Heli Qi, Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura(参考訳) 近年,半教師付きシーケンス列(s2s)自動音声認識(asr)に一貫性規則化が適用されている。 この原理により、ASRモデルは、異なる摂動を持つ同じ入力音声に対して同様の予測を出力する。 半教師付きS2S ASRの既存のパラダイムは、SpecAugmentをデータ拡張として利用し、非転写音声の擬似転写を生成するために静的教師モデルを必要とする。 しかし、このパラダイムは一貫性の正規化を最大限に活用できない。 まず、スペクタグメントのマスキング操作は、音声の言語的内容に影響を与え、擬似ラベルの品質に影響を及ぼす可能性がある。 次に、S2S ASRは次の予測を行うために入力音声とプレフィックストークンの両方を必要とする。 オフライン教師モデルで作成された静的接頭辞トークンは、一貫性トレーニング中に動的擬似ラベルと一致しない。 本研究では,半教師付きS2S ASRの整合性訓練パラダイムを提案する。 音声連鎖再構成を弱い拡張として利用し,高品質な擬似ラベルを生成する。 さらに,学生のASRモデルが生成する動的擬似転写が整合性トレーニングの恩恵を受けることを示す。 ljspeechとlibrispeech corporaの実験では、教師付きベースラインと比較して、改良されたパラダイムは単一話者設定で12.2%、複数話者設定で38.6%改善した。

Consistency regularization has recently been applied to semi-supervised sequence-to-sequence (S2S) automatic speech recognition (ASR). This principle encourages an ASR model to output similar predictions for the same input speech with different perturbations. The existing paradigm of semi-supervised S2S ASR utilizes SpecAugment as data augmentation and requires a static teacher model to produce pseudo transcripts for untranscribed speech. However, this paradigm fails to take full advantage of consistency regularization. First, the masking operations of SpecAugment may damage the linguistic contents of the speech, thus influencing the quality of pseudo labels. Second, S2S ASR requires both input speech and prefix tokens to make the next prediction. The static prefix tokens made by the offline teacher model cannot match dynamic pseudo labels during consistency training. In this work, we propose an improved consistency training paradigm of semi-supervised S2S ASR. We utilize speech chain reconstruction as the weak augmentation to generate high-quality pseudo labels. Moreover, we demonstrate that dynamic pseudo transcripts produced by the student ASR model benefit the consistency training. Experiments on LJSpeech and LibriSpeech corpora show that compared to supervised baselines, our improved paradigm achieves a 12.2% CER improvement in the single-speaker setting and 38.6% in the multi-speaker setting.
翻訳日:2022-05-17 15:09:32 公開日:2022-05-14
# treemapsを用いた機械学習のための大規模画像データセットの視覚的探索

Visual Exploration of Large-Scale Image Datasets for Machine Learning with Treemaps ( http://arxiv.org/abs/2205.06935v1 )

ライセンス: Link先を確認
Donald Bertucci, Md Montaser Hamid, Yashwanthi Anand, Anita Ruangrotsakun, Delyar Tabatabai, Melissa Perez, and Minsuk Kahng(参考訳) 本稿では,機械学習のための大規模画像データセットをインタラクティブに探索する新しい手法であるdendromapを提案する。 機械学習の実践者は、画像のグリッドを生成したり、画像の高次元表現を2次元に投影して画像データセットを探索することが多い(t-sneなど)。 しかし、画像が効果的に整理されず、相互作用が不十分なため、どちらのアプローチも大きなデータセットに効果的にスケールしない。 これらの課題に対処するために、よく知られた可視化技術であるTreemapsを適用してDendroMapを開発する。 dendromapは、画像の高次元表現から階層的なクラスタ構造を抽出することで、効率的に画像を整理する。 ユーザはデータセットの全体分布を理解し、さまざまなレベルの抽象化で特定の関心領域をインタラクティブに拡大することができる。 深層学習に広く使用されている画像データセットを用いたケーススタディでは,画像の多様性を検証し,低パフォーマンスサブグループを特定し,分類エラーを分析することで,データセットやトレーニングモデルに関する洞察を発見できることが示されている。 本研究では,T-SNEのグリッド化バージョンと比較し,グループ化と探索作業におけるDendroMapの有効性を評価するユーザスタディを行い,提案手法よりもDendroMapを好んだ。

In this paper, we present DendroMap, a novel approach to interactively exploring large-scale image datasets for machine learning. Machine learning practitioners often explore image datasets by generating a grid of images or projecting high-dimensional representations of images into 2-D using dimensionality reduction techniques (e.g., t-SNE). However, neither approach effectively scales to large datasets because images are ineffectively organized and interactions are insufficiently supported. To address these challenges, we develop DendroMap by adapting Treemaps, a well-known visualization technique. DendroMap effectively organizes images by extracting hierarchical cluster structures from high-dimensional representations of images. It enables users to make sense of the overall distributions of datasets and interactively zoom into specific areas of interests at multiple levels of abstraction. Our case studies with widely-used image datasets for deep learning demonstrate that users can discover insights about datasets and trained models by examining the diversity of images, identifying underperforming subgroups, and analyzing classification errors. We conducted a user study that evaluates the effectiveness of DendroMap in grouping and searching tasks by comparing it with a gridified version of t-SNE and found that participants preferred DendroMap over the compared method.
翻訳日:2022-05-17 15:07:38 公開日:2022-05-14
# QHD:脳にインスパイアされた超次元強化学習アルゴリズム

QHD: A brain-inspired hyperdimensional reinforcement learning algorithm ( http://arxiv.org/abs/2205.06978v1 )

ライセンス: Link先を確認
Yang Ni, Danny Abraham, Mariam Issa, Yeseong Kim, Pietro Mecati, Mohsen Imani(参考訳) 強化学習(RL)は、幅広い複雑な意思決定タスクを解決する新しい機会を開いた。 しかし、最新のRLアルゴリズム、例えばDeep Q-Learningはディープニューラルネットワークに基づいており、エッジデバイス上で実行する場合の計算コストが高い。 本稿では,ロバストかつリアルタイム学習のための脳特性を模倣した超次元強化学習であるqhdを提案する。 QHDは、未知の環境で最適なポリシーを学ぶために、軽量な脳誘発モデルに依存している。 まず, 状態作用空間を高次元空間にマッピングする新しい数学的基礎と符号化モジュールを開発した。 そこで我々は,Q値関数を近似する超次元回帰モデルを開発した。 QHDを動力とするエージェントは、各アクションのQ値を比較して決定する。 異なるrlトレーニングバッチサイズとローカルメモリ容量が学習のqhd品質に及ぼす影響を評価した。 私たちのqhdは、小さなローカルメモリ容量でオンライン学習も可能です。 QHDは、メモリ容量とバッチサイズをさらに削減することで、リアルタイム学習を提供する。 これにより、qhdは、オンラインおよびリアルタイム学習をサポートすることが重要となるエッジ環境での高効率強化学習に適している。 我々のソリューションは、DQNと比較して12.3倍のスピードアップを提供するとともに、最小品質の損失を最小限に抑える小さなリプレイバッチサイズもサポートしています。 本評価は,リアルタイム学習におけるqhd能力を示し,最先端のディープrlアルゴリズムよりも,34.6倍の高速化と極めて優れた学習品質を提供する。

Reinforcement Learning (RL) has opened up new opportunities to solve a wide range of complex decision-making tasks. However, modern RL algorithms, e.g., Deep Q-Learning, are based on deep neural networks, putting high computational costs when running on edge devices. In this paper, we propose QHD, a Hyperdimensional Reinforcement Learning, that mimics brain properties toward robust and real-time learning. QHD relies on a lightweight brain-inspired model to learn an optimal policy in an unknown environment. We first develop a novel mathematical foundation and encoding module that maps state-action space into high-dimensional space. We accordingly develop a hyperdimensional regression model to approximate the Q-value function. The QHD-powered agent makes decisions by comparing Q-values of each possible action. We evaluate the effect of the different RL training batch sizes and local memory capacity on the QHD quality of learning. Our QHD is also capable of online learning with tiny local memory capacity, which can be as small as the training batch size. QHD provides real-time learning by further decreasing the memory capacity and the batch size. This makes QHD suitable for highly-efficient reinforcement learning in the edge environment, where it is crucial to support online and real-time learning. Our solution also supports a small experience replay batch size that provides 12.3 times speedup compared to DQN while ensuring minimal quality loss. Our evaluation shows QHD capability for real-time learning, providing 34.6 times speedup and significantly better quality of learning than state-of-the-art deep RL algorithms.
翻訳日:2022-05-17 15:07:18 公開日:2022-05-14
# PrefixRL:Deep Reinforcement Learningを用いた並列プリフィックス回路の最適化

PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning ( http://arxiv.org/abs/2205.07000v1 )

ライセンス: Link先を確認
Rajarshi Roy, Jonathan Raiman, Neel Kant, Ilyas Elkin, Robert Kirby, Michael Siu, Stuart Oberman, Saad Godil, Bryan Catanzaro(参考訳) 本研究では,高パフォーマンスディジタル設計の基本となる加算器や優先エンコーダなどの並列プレフィックス回路を設計するための強化学習(RL)に基づくアプローチを提案する。 先行手法とは異なり,提案手法はループ内の合成による学習を通じて,純粋にタブララサを設計できる。 我々は,グリッドベースの状態行動表現と法定プレフィックス回路を構築するためのRL環境を設計する。 この環境下で訓練された深層畳み込み型RLエージェントはプレフィックス加算回路を生成し、パレートが既存のベースラインを最大16.0%、30.2%以下で支配し、それぞれ32bと64bの設定に同じ遅延を与える。 オープンソースの合成ツールとセルライブラリで訓練されたエージェントは、産業用セルライブラリの商用ツール加算器よりも低い面積と遅延を達成する加算回路を設計することができる。

In this work, we present a reinforcement learning (RL) based approach to designing parallel prefix circuits such as adders or priority encoders that are fundamental to high-performance digital design. Unlike prior methods, our approach designs solutions tabula rasa purely through learning with synthesis in the loop. We design a grid-based state-action representation and an RL environment for constructing legal prefix circuits. Deep Convolutional RL agents trained on this environment produce prefix adder circuits that Pareto-dominate existing baselines with up to 16.0% and 30.2% lower area for the same delay in the 32b and 64b settings respectively. We observe that agents trained with open-source synthesis tools and cell library can design adder circuits that achieve lower area and delay than commercial tool adders in an industrial cell library.
翻訳日:2022-05-17 15:06:55 公開日:2022-05-14
# 統一分散環境

Unified Distributed Environment ( http://arxiv.org/abs/2205.06946v1 )

ライセンス: Link先を確認
Woong Gyu La, Sunil Muralidhara, Lingjie Kong, Pratik Nichat(参考訳) 強化学習研究のための環境仮想化ツールキットであるUnified Distributed Environment (UDE)を提案する。 UDEは、Gazebo、Unity、Unreal、OpenAI Gymなどのシミュレーションプラットフォーム上に構築された環境を統合するように設計されている。 環境仮想化を通じて、UDEはリモートマシン上で実行するための環境をオフロードし、統一されたインターフェースを維持します。 UDEインターフェースはデフォルトでマルチエージェントをサポートするように設計されている。 環境仮想化とそのインターフェース設計により、エージェントポリシーはマルチエージェント環境のために複数のマシンでトレーニングすることができる。 さらに、UDEは研究者がこの利点を利用するために既存の主要なRLツールキットとの統合をサポートする。 本稿では,UDEの構成要素とその設計決定について論じる。

We propose Unified Distributed Environment (UDE), an environment virtualization toolkit for reinforcement learning research. UDE is designed to integrate environments built on any simulation platform such as Gazebo, Unity, Unreal, and OpenAI Gym. Through environment virtualization, UDE enables offloading the environment for execution on a remote machine while still maintaining a unified interface. The UDE interface is designed to support multi-agent by default. With environment virtualization and its interface design, the agent policies can be trained in multiple machines for a multi-agent environment. Furthermore, UDE supports integration with existing major RL toolkits for researchers to leverage the benefits. This paper discusses the components of UDE and its design decisions.
翻訳日:2022-05-17 14:29:44 公開日:2022-05-14
# BackLink: 後方リンクによるローカルトレーニングの監督

BackLink: Supervised Local Training with Backward Links ( http://arxiv.org/abs/2205.07141v1 )

ライセンス: Link先を確認
Wenzhe Guo, Mohammed E Fouda, Ahmed M. Eltawil and Khaled N. Salama(参考訳) バックプロパゲーション(BP)アルゴリズムを応用したディープニューラルネットワークは、さまざまな認知タスクの解決において、レースを支配してきた。 標準BPの制限されたトレーニングパターンは、エンドツーエンドのエラー伝搬を必要とし、メモリコストが大きくなり、モデルの並列化が禁止される。 既存のローカルトレーニング手法は、モジュール間の後方経路を完全に遮断し、勾配を分離してメモリコストを削減し、トレーニングプロセスを加速することで、トレーニング障害を解決することを目的としている。 これらの手法は、モジュール間のエラーや情報交換を防止し、性能が低下する。 この研究は、モジュール間の後方依存性を導入し、モジュール間でエラーを流すことができる新しいローカルトレーニングアルゴリズム、BackLinkを提案する。 このアルゴリズムは、情報をネットワークに沿って後方に流すのを容易にする。 ローカルトレーニングの計算上の利点を維持するため、BackLinkはモジュール内のエラー伝搬長を制限する。 様々な深層畳み込みニューラルネットワークで行った広範囲な実験により,本手法は他の手法よりも局所学習アルゴリズムの分類性能が一貫して向上することを示した。 例えば16個のローカルモジュールを持つResNet32では、従来のグリージーなローカルトレーニング手法を4.00\%、最近のCIFAR10の精度が1.83\%を超えている。 計算コストの分析により、小さなオーバーヘッドはGPUメモリコストと複数のGPU上でのランタイムに発生することが明らかになった。 本手法は,resnet110におけるメモリコストの79\%,シミュレーション実行時の52\%を標準bpと比較して削減できる。 そこで本手法は, 学習アルゴリズムを改良し, 効率性, 生物学的妥当性を向上する新たな機会を創出する。

Empowered by the backpropagation (BP) algorithm, deep neural networks have dominated the race in solving various cognitive tasks. The restricted training pattern in the standard BP requires end-to-end error propagation, causing large memory cost and prohibiting model parallelization. Existing local training methods aim to resolve the training obstacle by completely cutting off the backward path between modules and isolating their gradients to reduce memory cost and accelerate the training process. These methods prevent errors from flowing between modules and hence information exchange, resulting in inferior performance. This work proposes a novel local training algorithm, BackLink, which introduces inter-module backward dependency and allows errors to flow between modules. The algorithm facilitates information to flow backward along with the network. To preserve the computational advantage of local training, BackLink restricts the error propagation length within the module. Extensive experiments performed in various deep convolutional neural networks demonstrate that our method consistently improves the classification performance of local training algorithms over other methods. For example, in ResNet32 with 16 local modules, our method surpasses the conventional greedy local training method by 4.00\% and a recent work by 1.83\% in accuracy on CIFAR10, respectively. Analysis of computational costs reveals that small overheads are incurred in GPU memory costs and runtime on multiple GPUs. Our method can lead up to a 79\% reduction in memory cost and 52\% in simulation runtime in ResNet110 compared to the standard BP. Therefore, our method could create new opportunities for improving training algorithms towards better efficiency and biological plausibility.
翻訳日:2022-05-17 14:29:37 公開日:2022-05-14
# 回帰分類のためのロバスト正規化低ランク行列モデル

Robust Regularized Low-Rank Matrix Models for Regression and Classification ( http://arxiv.org/abs/2205.07106v1 )

ライセンス: Link先を確認
Hsin-Hsiung Huang, Feng Yu, Xing Fan, Teng Zhang(参考訳) 行列変量回帰モデルは多くの既存研究で研究されているが、回帰係数推定の古典的統計学的および計算的手法は高次元および雑音的行列値予測器の影響を強く受けている。 これらの問題に対処するため,本稿では,階数制約,ベクトル正規化(sparsity),一般損失関数に基づく行列変量回帰モデルの枠組みを提案し,一般行列回帰,ロバスト行列回帰,行列ロジスティック回帰の3つの特別な場合について述べる。 また,交互に投影する勾配降下アルゴリズムを提案する。 有界な曲率を持つ多様体上の対象関数を解析した結果、アルゴリズムは収束することが保証されていることが示され、イテレートの累積点はすべて、漸近的に、実質的にミニマックス率を達成するために$o(1/\sqrt{n})の順に推定誤差を持つ。 理論解析は、有界曲率を持つ多様体の一般最適化問題に適用でき、本研究における重要な技術的貢献と考えられる。 提案手法はシミュレーション研究と実画像データ例を用いて検証する。

While matrix variate regression models have been studied in many existing works, classical statistical and computational methods for the analysis of the regression coefficient estimation are highly affected by high dimensional and noisy matrix-valued predictors. To address these issues, this paper proposes a framework of matrix variate regression models based on a rank constraint, vector regularization (e.g., sparsity), and a general loss function with three special cases considered: ordinary matrix regression, robust matrix regression, and matrix logistic regression. We also propose an alternating projected gradient descent algorithm. Based on analyzing our objective functions on manifolds with bounded curvature, we show that the algorithm is guaranteed to converge, all accumulation points of the iterates have estimation errors in the order of $O(1/\sqrt{n})$ asymptotically and substantially attaining the minimax rate. Our theoretical analysis can be applied to general optimization problems on manifolds with bounded curvature and can be considered an important technical contribution to this work. We validate the proposed method through simulation studies and real image data examples.
翻訳日:2022-05-17 14:24:38 公開日:2022-05-14
# 顔のキーポイント検出の再検討:ディープニューラルネットワークを用いた効率的なアプローチ

Revisiting Facial Key Point Detection: An Efficient Approach Using Deep Neural Networks ( http://arxiv.org/abs/2205.07121v1 )

ライセンス: Link先を確認
Prathima Dileep, Bharath Kumar Bolla, Sabeesh Ethiraj(参考訳) 顔の目印検出は、多くの分野で幅広い応用があるため、ディープラーニングの広く研究されている分野である。 これらのキーポイントは、目の中心、眼の内角と外角、口の中心、人間の感情や意図が説明できる鼻の先端など、顔の特徴的な点を区別している。 我々の研究の焦点は、カスタムCNNアーキテクチャを含むMobileNetV2やNasNetMobileのようなトランスファー学習モデルを評価することである。 本研究の目的は, モデルサイズ, パラメータ, 推論時間の観点から効率的な深層学習モデルを開発し, これらのモデルに対する拡張計算と微調整の効果を研究することである。 その結果, 拡張法ではインプテーション法よりもrmseスコアが低かったが, 推定時間には影響しなかった。 MobileNetV2アーキテクチャは最低のRMSEと推論時間を生み出した。 さらに,この結果から,手動で最適化したCNNアーキテクチャが,オートケラス調律アーキテクチャと同じような性能を示した。 しかし、手動で最適化したアーキテクチャは、より良い推論時間とトレーニング曲線をもたらした。

Facial landmark detection is a widely researched field of deep learning as this has a wide range of applications in many fields. These key points are distinguishing characteristic points on the face, such as the eyes center, the eye's inner and outer corners, the mouth center, and the nose tip from which human emotions and intent can be explained. The focus of our work has been evaluating transfer learning models such as MobileNetV2 and NasNetMobile, including custom CNN architectures. The objective of the research has been to develop efficient deep learning models in terms of model size, parameters, and inference time and to study the effect of augmentation imputation and fine-tuning on these models. It was found that while augmentation techniques produced lower RMSE scores than imputation techniques, they did not affect the inference time. MobileNetV2 architecture produced the lowest RMSE and inference time. Moreover, our results indicate that manually optimized CNN architectures performed similarly to Auto Keras tuned architecture. However, manually optimized architectures yielded better inference time and training curves.
翻訳日:2022-05-17 14:02:14 公開日:2022-05-14
# ディープニューラルネットワークの高効率層微細調整による天体の分類

Classification of Astronomical Bodies by Efficient Layer Fine-Tuning of Deep Neural Networks ( http://arxiv.org/abs/2205.07124v1 )

ライセンス: Link先を確認
Sabeesh Ethiraj, Bharath Kumar Bolla(参考訳) SDSS-IVデータセットには、銀河、星、クエーサーなどの様々な天体に関する情報が含まれている。 sdss-ivデータセットの分類に転送学習を利用する深層マルチモーダル学習の研究に着想を得て,これらのアーキテクチャの微調整に関する研究をさらに拡大し,分類シナリオの効果について検討した。 resnet-50, densenet-121 vgg-16, xception, efficientnetb2, mobilenetv2, nasnetmobile といったアーキテクチャは,さまざまなレベルでレイヤワイズなチューニングを使用して構築されている。 以上の結果から,すべての層をImagenet重みで凍結し,最終的なトレーニング可能な層を追加することが最適ではない可能性が示唆された。 さらに、トレーニング可能なレイヤの数が多いベースラインモデルやモデルも、特定のアーキテクチャで同じように実行される。 モデルは異なるレベルで微調整される必要があり、モデルが理想と呼ばれるためには特定のトレーニング比率が必要である。 異なるアーキテクチャは、トレーニング可能なレイヤ数w.r.tアキュラシーの変化に対して異なる反応を持っていた。 DenseNet-121、Xception、EfficientNetB2といったモデルは、ほぼ完璧なトレーニング曲線と比較的一致したピークアキュラシーを達成したが、Resnet-50、VGG-16、MobileNetV2、NasnetMobileといったモデルでは、トレーニング曲線の整合性の低いピークアキュラシーが低かった。 また, 移動型ニューラルネットワークはパラメータやモデルサイズが小さいが, 検証精度が常に低いため, 計算能力の低いデバイスへの展開には必ずしも理想的ではないことが分かった。 モデル評価には、チューニングパラメータ比やチューニングレイヤ比などのカスタム評価指標が使用される。

The SDSS-IV dataset contains information about various astronomical bodies such as Galaxies, Stars, and Quasars captured by observatories. Inspired by our work on deep multimodal learning, which utilized transfer learning to classify the SDSS-IV dataset, we further extended our research in the fine tuning of these architectures to study the effect in the classification scenario. Architectures such as Resnet-50, DenseNet-121 VGG-16, Xception, EfficientNetB2, MobileNetV2 and NasnetMobile have been built using layer wise fine tuning at different levels. Our findings suggest that freezing all layers with Imagenet weights and adding a final trainable layer may not be the optimal solution. Further, baseline models and models that have higher number of trainable layers performed similarly in certain architectures. Model need to be fine tuned at different levels and a specific training ratio is required for a model to be termed ideal. Different architectures had different responses to the change in the number of trainable layers w.r.t accuracies. While models such as DenseNet-121, Xception, EfficientNetB2 achieved peak accuracies that were relatively consistent with near perfect training curves, models such as Resnet-50,VGG-16, MobileNetV2 and NasnetMobile had lower, delayed peak accuracies with poorly fitting training curves. It was also found that though mobile neural networks have lesser parameters and model size, they may not always be ideal for deployment on a low computational device as they had consistently lower validation accuracies. Customized evaluation metrics such as Tuning Parameter Ratio and Tuning Layer Ratio are used for model evaluation.
翻訳日:2022-05-17 14:01:55 公開日:2022-05-14
# 解釈可能な分類規則の効率的な学習

Efficient Learning of Interpretable Classification Rules ( http://arxiv.org/abs/2205.06936v1 )

ライセンス: Link先を確認
Bishwamittra Ghosh, Dmitry Malioutov, Kuldeep S. Meel(参考訳) 機械学習は、医療、法律、交通など、さまざまな安全上重要な分野の応用と一線を画している。 これらの領域では、機械学習によって提供される高い意思決定は、研究者が解釈可能なモデルを設計する必要がある。 解釈可能な機械学習では、ルールベースの分類器は入力特徴からなる一連のルールを通して決定境界を表現するのに特に効果的である。 規則に基づく分類器の解釈可能性は通常、より小さい規則をより解釈可能なものとみなす規則のサイズに関係している。 そのような分類器を学習するために、ブルートフォース直接アプローチは、最大精度に近い最小の分類規則を学習しようとする最適化問題を考えることである。 この最適化問題は組合せの性質から計算的に難解であり、大規模なデータセットでは拡張性がない。 そこで本研究では,学習規則に基づく分類器の精度,解釈可能性,スケーラビリティの三角関係について検討する。 本論文の貢献は、命題論理で表現可能な分類規則を合成するための最大満足度(MaxSAT)に基づく解釈可能な学習フレームワークIMLIである。 過去10年間のMaxSAT解決の進歩にもかかわらず、単純なMaxSATベースのソリューションはスケールできない。 そこで我々は,ミニバッチ学習と反復ルール学習を統合することで,maxsat定式化に効率的なインクリメンタル学習技術を導入する。 我々の実験では,IMLIは予測精度,解釈可能性,スケーラビリティの最良のバランスを達成している。 アプリケーションとして、意思決定リストや意思決定セットなどの一般的な解釈可能な分類器の学習にIMLIを配置する。

Machine learning has become omnipresent with applications in various safety-critical domains such as medical, law, and transportation. In these domains, high-stake decisions provided by machine learning necessitate researchers to design interpretable models, where the prediction is understandable to a human. In interpretable machine learning, rule-based classifiers are particularly effective in representing the decision boundary through a set of rules comprising input features. The interpretability of rule-based classifiers is in general related to the size of the rules, where smaller rules are considered more interpretable. To learn such a classifier, the brute-force direct approach is to consider an optimization problem that tries to learn the smallest classification rule that has close to maximum accuracy. This optimization problem is computationally intractable due to its combinatorial nature and thus, the problem is not scalable in large datasets. To this end, in this paper we study the triangular relationship among the accuracy, interpretability, and scalability of learning rule-based classifiers. The contribution of this paper is an interpretable learning framework IMLI, that is based on maximum satisfiability (MaxSAT) for synthesizing classification rules expressible in proposition logic. Despite the progress of MaxSAT solving in the last decade, the straightforward MaxSAT-based solution cannot scale. Therefore, we incorporate an efficient incremental learning technique inside the MaxSAT formulation by integrating mini-batch learning and iterative rule-learning. In our experiments, IMLI achieves the best balance among prediction accuracy, interpretability, and scalability. As an application, we deploy IMLI in learning popular interpretable classifiers such as decision lists and decision sets.
翻訳日:2022-05-17 13:55:01 公開日:2022-05-14
# RASAT:テキストからSQLへの事前トレーニングされたSeq2Seqモデルへの関係構造の統合

RASAT: Integrating Relational Structures into Pretrained Seq2Seq Model for Text-to-SQL ( http://arxiv.org/abs/2205.06983v1 )

ライセンス: Link先を確認
Jiexing Qi, Jingyao Tang, Ziwei He, Xiangpeng Wan, Chenghu Zhou, Xinbing Wang, Quanshi Zhang, Zhouhan Lin(参考訳) スキーマリンクやスキーマエンコーディングといった関係構造は、自然言語をSQLクエリに質的に翻訳するための重要なコンポーネントとして検証されている。 しかし、これらの構造的関係を導入するには価格が伴う。それらはしばしば、テキストからSQLへの大きな事前学習モデルの使用をほとんど禁止する特別なモデル構造をもたらす。 この問題を解決するために,我々は,t5モデルから事前学習パラメータを効果的に受け継げる一方で,様々な関係構造を活用できる関係認識型自己照査により拡張されたトランスフォーマ seq2seq アーキテクチャを提案する。 本モデルでは,文献にはほとんどすべての既存関係を組み込むことができ,また,マルチターンシナリオに共参照関係を導入することを提案する。 シングルターンとマルチターンの両方のシナリオをカバーする3つの広く使用されているテキスト-SQLデータセットの実験結果から、RASATは3つのベンチマークすべてで競合する結果が得られ、実行精度で最先端のパフォーマンスを達成する(Spiderでは80.5\%、SParCでは53.1\%、CoSQLでは37.5\%)。

Relational structures such as schema linking and schema encoding have been validated as a key component to qualitatively translating natural language into SQL queries. However, introducing these structural relations comes with prices: they often result in a specialized model structure, which largely prohibits the use of large pretrained models in text-to-SQL. To address this problem, we propose RASAT: a Transformer seq2seq architecture augmented with relation-aware self-attention that could leverage a variety of relational structures while at the meantime being able to effectively inherit the pretrained parameters from the T5 model. Our model is able to incorporate almost all types of existing relations in the literature, and in addition, we propose to introduce co-reference relations for the multi-turn scenario. Experimental results on three widely used text-to-SQL datasets, covering both single-turn and multi-turn scenarios, have shown that RASAT could achieve competitive results in all three benchmarks, achieving state-of-the-art performance in execution accuracy (80.5\% EX on Spider, 53.1\% IEX on SParC, and 37.5\% IEX on CoSQL).
翻訳日:2022-05-17 13:31:08 公開日:2022-05-14
# 音声から精神疾患を検出するためのテキストとグラフ機能の統合

Integration of Text and Graph-based Features for Detecting Mental Health Disorders from Voice ( http://arxiv.org/abs/2205.07006v1 )

ライセンス: Link先を確認
Nasser Ghadiri, Rasoul Samani, Fahime Shahrokh(参考訳) スマートフォンのような音声対応デバイスが利用可能になると、メンタルヘルス障害は早期に発見され、特にパンデミック後に治療される可能性がある。 現在の手法では、音声信号から直接特徴を抽出する。 本稿では,音声信号のグラフ変換と,表現学習に基づくテキストの自然言語処理という,抑うつ検出のための音声解析を融合して最終クラスラベルを生成する2つの手法について述べる。 DAIC-WOZデータセットを用いた実験の結果、テキストベースの音声分類と低レベルおよびグラフベースの音声信号特徴からの学習の統合は、うつ病のような精神疾患の検出を改善することが示唆された。

With the availability of voice-enabled devices such as smart phones, mental health disorders could be detected and treated earlier, particularly post-pandemic. The current methods involve extracting features directly from audio signals. In this paper, two methods are used to enrich voice analysis for depression detection: graph transformation of voice signals, and natural language processing of the transcript based on representational learning, fused together to produce final class labels. The results of experiments with the DAIC-WOZ dataset suggest that integration of text-based voice classification and learning from low level and graph-based voice signal features can improve the detection of mental disorders like depression.
翻訳日:2022-05-17 13:30:42 公開日:2022-05-14
# 深部SNNにおけるMaxPooling動作のスパイキング近似

Spiking Approximations of the MaxPooling Operation in Deep SNNs ( http://arxiv.org/abs/2205.07076v1 )

ライセンス: Link先を確認
Ramashish Gaurav, Bryan Tripp, Apurva Narayan(参考訳) Spiking Neural Networks(SNN)は、生物学的にインスパイアされたニューラルネットワークの新興ドメインであり、低消費電力AIを約束している。 ディープSNNの構築にはいくつかの方法があり、Artificial Neural Network (ANN)-to-SNN変換は高い成功を収めている。 畳み込みニューラルネットワーク(CNN)のMaxPoolingレイヤは、中間機能マップをダウンサンプルし、変換不変性を導入するための重要なコンポーネントであるが、ハードウェアフレンドリーなスパイク等価性がないため、CNNの深いSNNへの変換が制限されている。 本稿では,深層SNNにMax-Poolingを実装するハードウェアフレンドリーな2つの手法を提案する。 まず、intelのloihiニューロモルフィックハードウェア(mnist、fmnist、cifar10データセット)上で、スパイク最大プール層を持つsnsを実行し、このアプローチの実現可能性を示しました。

Spiking Neural Networks (SNNs) are an emerging domain of biologically inspired neural networks that have shown promise for low-power AI. A number of methods exist for building deep SNNs, with Artificial Neural Network (ANN)-to-SNN conversion being highly successful. MaxPooling layers in Convolutional Neural Networks (CNNs) are an integral component to downsample the intermediate feature maps and introduce translational invariance, but the absence of their hardware-friendly spiking equivalents limits such CNNs' conversion to deep SNNs. In this paper, we present two hardware-friendly methods to implement Max-Pooling in deep SNNs, thus facilitating easy conversion of CNNs with MaxPooling layers to SNNs. In a first, we also execute SNNs with spiking-MaxPooling layers on Intel's Loihi neuromorphic hardware (with MNIST, FMNIST, & CIFAR10 dataset); thus, showing the feasibility of our approach.
翻訳日:2022-05-17 13:29:43 公開日:2022-05-14
# 欠陥鋳造品同定のための効率的な深層学習法

Efficient Deep Learning Methods for Identification of Defective Casting Products ( http://arxiv.org/abs/2205.07118v1 )

ライセンス: Link先を確認
Bharath Kumar Bolla, Mohan Kingam, Sabeesh Ethiraj(参考訳) 近年の製造業では品質検査が重要になっている。 ヒューマンエラーを減らすために、そのような欠陥のある製品を特定するために、効率的で低計算のAIアルゴリズムを使用することが不可欠になっている。 本稿では,不良鋳造品の検出において,モデルサイズ,性能,CPUレイテンシを用いた事前学習およびカスタムビルドアーキテクチャを比較し,比較した。 その結果,カスタムアーキテクチャは事前学習したモバイルアーキテクチャよりも効率的であることが判明した。 さらに、カスタムモデルはMobileNetV2やNasNetのような軽量モデルよりも6倍から9倍高速である。 カスタムアーキテクチャのトレーニングパラメータの数とモデルサイズは、MobileNetV2やNasNetのような最高のパフォーマンスモデルよりも大幅に低い(それぞれ386回と119回)。 モデルをより堅牢で一般化可能にするため、カスタムアーキテクチャ上で拡張実験も実施されている。 当社の作業は、EdgeやIoTデバイスにデプロイするカスタムビルドアーキテクチャの効率性に光を当てています。 その代わり、データセットの種類と直近の分類問題に特化すべきである。

Quality inspection has become crucial in any large-scale manufacturing industry recently. In order to reduce human error, it has become imperative to use efficient and low computational AI algorithms to identify such defective products. In this paper, we have compared and contrasted various pre-trained and custom-built architectures using model size, performance and CPU latency in the detection of defective casting products. Our results show that custom architectures are efficient than pre-trained mobile architectures. Moreover, custom models perform 6 to 9 times faster than lightweight models such as MobileNetV2 and NasNet. The number of training parameters and the model size of the custom architectures is significantly lower (~386 times & ~119 times respectively) than the best performing models such as MobileNetV2 and NasNet. Augmentation experimentations have also been carried out on the custom architectures to make the models more robust and generalizable. Our work sheds light on the efficiency of these custom-built architectures for deployment on Edge and IoT devices and that transfer learning models may not always be ideal. Instead, they should be specific to the kind of dataset and the classification problem at hand.
翻訳日:2022-05-17 13:29:22 公開日:2022-05-14
# (参考訳) 非連続的自己教師付き学習における予測ヘッドのメカニズム

The Mechanism of Prediction Head in Non-contrastive Self-supervised Learning ( http://arxiv.org/abs/2205.06226v2 )

ライセンス: CC BY 4.0
Zixin Wen, Yuanzhi Li(参考訳) 近年,GrillらによるBootstrap Your Own Latent (BYOL)メソッドの驚くべき発見により,ネットワークにいわゆる予測ヘッドを追加すると,負の損失項を除去できることがわかった。 これにより、非コントラスト的自己指導学習の研究が始まった。 自明な崩壊したグローバル最適解が存在するとしても、(確率的な)勾配勾配で訓練されたニューラルネットワークが競争力のある表現を学習できるのは不思議である。 この現象はディープラーニングにおける暗黙のバイアスの典型的な例であり、ほとんど理解されていない。 本研究では,非コントラスト的自己指導学習における経験的,理論的発見について述べる。 実験により、予測ヘッドが非対角的エントリのみをトレーニング可能なID行列として初期化されると、自明なオプティマがトレーニング対象に残っているにもかかわらず、ネットワークは競合表現を学習できることがわかった。 理論的には、トレーニング可能だがアイデンティティ初期化予測ヘッドの振る舞いを理解するための枠組みを提案する。 簡単な設定で,予測ヘッドの置換効果と加速効果を特徴付ける。 置換効果は、一部のニューロンで強い特徴を学習すると、予測ヘッドを更新することで他のニューロンでこれらの特徴を学習する代わりに起こる。 そして、置換された特徴が他の弱い特徴の学習を加速し、それらを無視しないようにすることで加速効果が生じる。 この2つの効果により、ニューラルネットワークは、より強力な特徴を学ぶことだけに集中するのではなく、すべての特徴を学ぶことができる。 我々の知る限り、これはトレーニング可能な予測ヘッドと正規化を備えた非線形ニューラルネットワークを用いた非競合的手法に対する最初のエンドツーエンド最適化保証でもある。

Recently the surprising discovery of the Bootstrap Your Own Latent (BYOL) method by Grill et al. shows the negative term in contrastive loss can be removed if we add the so-called prediction head to the network. This initiated the research of non-contrastive self-supervised learning. It is mysterious why even when there exist trivial collapsed global optimal solutions, neural networks trained by (stochastic) gradient descent can still learn competitive representations. This phenomenon is a typical example of implicit bias in deep learning and remains little understood. In this work, we present our empirical and theoretical discoveries on non-contrastive self-supervised learning. Empirically, we find that when the prediction head is initialized as an identity matrix with only its off-diagonal entries being trainable, the network can learn competitive representations even though the trivial optima still exist in the training objective. Theoretically, we present a framework to understand the behavior of the trainable, but identity-initialized prediction head. Under a simple setting, we characterized the substitution effect and acceleration effect of the prediction head. The substitution effect happens when learning the stronger features in some neurons can substitute for learning these features in other neurons through updating the prediction head. And the acceleration effect happens when the substituted features can accelerate the learning of other weaker features to prevent them from being ignored. These two effects enable the neural networks to learn all the features rather than focus only on learning the stronger features, which is likely the cause of the dimensional collapse phenomenon. To the best of our knowledge, this is also the first end-to-end optimization guarantee for non-contrastive methods using nonlinear neural networks with a trainable prediction head and normalization.
翻訳日:2022-05-17 11:52:00 公開日:2022-05-14