このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220909となっている論文です。

PDF登録状況(公開日: 20220909)

TitleAuthorsAbstract論文公表日・翻訳日
# ソーシャルメディアからCOVID-19イベントの知識ベースを抽出する

Extracting a Knowledge Base of COVID-19 Events from Social Media ( http://arxiv.org/abs/2006.02567v4 )

ライセンス: Link先を確認
Shi Zong, Ashutosh Baheti, Wei Xu, Alan Ritter(参考訳) 本稿では、新型コロナウイルスの陽性および陰性の検査、死亡、検査の拒否、治療の主張、予防を含む5つの事象に関する公開報告を含む1万ツイートの注釈付きコーパスを手作業で提示する。 各イベントタイプごとにスロット満タンの質問を設計,イベントの場所,最近の旅行,親密な接触など,計31の細かなスロットに注釈を付した。 当社のコーパスは細調整のBERT分類器をサポートして,報告された事象を自動的に抽出し,新たな疾患の拡散を追跡できることを示す。 また、何百万ものツイートから抽出されたイベントを集約することで、"フィラデルフィアで肯定的な従業員がいるか?"といった複雑な質問に答える際、驚くほど高い精度を達成できることも示しています。 我々は,コーパス(ユーザ情報を取り除いた),自動抽出モデル,およびそれに対応する知識ベースを研究コミュニティに公開する。

In this paper, we present a manually annotated corpus of 10,000 tweets containing public reports of five COVID-19 events, including positive and negative tests, deaths, denied access to testing, claimed cures and preventions. We designed slot-filling questions for each event type and annotated a total of 31 fine-grained slots, such as the location of events, recent travel, and close contacts. We show that our corpus can support fine-tuning BERT-based classifiers to automatically extract publicly reported events and help track the spread of a new disease. We also demonstrate that, by aggregating events extracted from millions of tweets, we achieve surprisingly high precision when answering complex queries, such as "Which organizations have employees that tested positive in Philadelphia?" We will release our corpus (with user-information removed), automatic extraction models, and the corresponding knowledge base to the research community.
翻訳日:2022-11-25 18:22:04 公開日:2022-09-09
# 多様体上の関数近似のためのランダムベクトル関数リンクネットワーク

Random Vector Functional Link Networks for Function Approximation on Manifolds ( http://arxiv.org/abs/2007.15776v2 )

ライセンス: Link先を確認
Deanna Needell, Aaron A. Nelson, Rayan Saab, Palina Salanevich(参考訳) フィードフォワードニューラルネットワークの学習速度は、非常に遅く、数十年にわたってディープラーニングアプリケーションにボトルネックをもたらしてきた。 例えば、ニューラルネットワークのトレーニングに広く使われている勾配ベースの学習アルゴリズムは、すべてのネットワークパラメータを反復的にチューニングする必要がある場合、ゆっくりと動作します。 これに対抗するため、研究者も実践者も学習要求を減らすためにランダム性の導入を試みた。 igelnikとpaoのオリジナルの構成に基づき、ランダムな入出力層重みとバイアスを持つ単層ニューラルネットワークは実際に成功したが、必要な理論的正当性は不足している。 本稿では,この理論上のギャップを埋める。 我々は、Igelnik と Pao の構造がコンパクト領域上の連続函数の普遍近似であり、ネットワークノードの数$n$に対して$O(1/\sqrt{n})$のように近似誤差が漸近的に減衰する(補正された)厳密な証明を与える。 すると、この結果を漸近的でない設定に拡張し、n$が十分大きければ高い確率で任意の所望の近似誤差を達成できることを示す。 さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用し、漸近型と非漸近型の両方において理論的保証を提供する。 最後に,数値実験により多様体上の結果を示す。

The learning speed of feed-forward neural networks is notoriously slow and has presented a bottleneck in deep learning applications for several decades. For instance, gradient-based learning algorithms, which are used extensively to train neural networks, tend to work slowly when all of the network parameters must be iteratively tuned. To counter this, both researchers and practitioners have tried introducing randomness to reduce the learning requirement. Based on the original construction of Igelnik and Pao, single layer neural-networks with random input-to-hidden layer weights and biases have seen success in practice, but the necessary theoretical justification is lacking. In this paper, we begin to fill this theoretical gap. We provide a (corrected) rigorous proof that the Igelnik and Pao construction is a universal approximator for continuous functions on compact domains, with approximation error decaying asymptotically like $O(1/\sqrt{n})$ for the number $n$ of network nodes. We then extend this result to the non-asymptotic setting, proving that one can achieve any desired approximation error with high probability provided $n$ is sufficiently large. We further adapt this randomized neural network architecture to approximate functions on smooth, compact submanifolds of Euclidean space, providing theoretical guarantees in both the asymptotic and non-asymptotic forms. Finally, we illustrate our results on manifolds with numerical experiments.
翻訳日:2022-11-05 13:58:43 公開日:2022-09-09
# SoK:ディープニューラルネットワークのロバスト性認定

SoK: Certified Robustness for Deep Neural Networks ( http://arxiv.org/abs/2009.04131v8 )

ライセンス: Link先を確認
Linyi Li, Tao Xie, Bo Li(参考訳) ディープニューラルネットワーク(DNN)の大幅な進歩により、幅広いタスクにおける最先端のパフォーマンスが向上した。 しかし、最近の研究では、DNNは敵の攻撃に弱いことが示されており、これらのモデルを自律運転のような安全クリティカルなアプリケーションにデプロイする際に大きな懸念をもたらしている。 敵対的攻撃に対する様々な防御アプローチが提案されている。 a) 強靭性証明を提供することなく、通常、再び適応的に攻撃される経験的防御 b) 一定の条件下での攻撃に対するロバストな精度の低い境界とそれに対応するロバストなトレーニングアプローチを提供するロバストな検証とからなるロバストなアプローチ 本稿では,実証可能な堅牢なアプローチと,それに関連する実用的・理論的意味と知見を体系化する。 また、既存のロバスト性検証と、異なるデータセットに対するトレーニングアプローチに関する最初の包括的なベンチマークも提供します。 特に私たちは 1)ロバスト性検証とトレーニングアプローチのための分類法を提供し、代表的なアルゴリズムの方法論を要約する。 2)これらのアプローチの特徴,強み,限界,基本的つながりを明らかにする。 3)DNN研究の進展、理論的障壁、主な課題、今後の方向性、DNNの堅牢なアプローチについて論じる。 4) 20以上の代表的堅牢なアプローチを評価するオープンソース統一プラットフォームを提供する。

Great advances in deep neural networks (DNNs) have led to state-of-the-art performance on a wide range of tasks. However, recent studies have shown that DNNs are vulnerable to adversarial attacks, which have brought great concerns when deploying these models to safety-critical applications such as autonomous driving. Different defense approaches have been proposed against adversarial attacks, including: a) empirical defenses, which can usually be adaptively attacked again without providing robustness certification; and b) certifiably robust approaches, which consist of robustness verification providing the lower bound of robust accuracy against any attacks under certain conditions and corresponding robust training approaches. In this paper, we systematize certifiably robust approaches and related practical and theoretical implications and findings. We also provide the first comprehensive benchmark on existing robustness verification and training approaches on different datasets. In particular, we 1) provide a taxonomy for the robustness verification and training approaches, as well as summarize the methodologies for representative algorithms, 2) reveal the characteristics, strengths, limitations, and fundamental connections among these approaches, 3) discuss current research progresses, theoretical barriers, main challenges, and future directions for certifiably robust approaches for DNNs, and 4) provide an open-sourced unified platform to evaluate 20+ representative certifiably robust approaches.
翻訳日:2022-10-20 09:03:56 公開日:2022-09-09
# 要約・アウトライン・ラボレート:抽出サマリーからの階層的スーパービジョンによる長文生成

Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical Supervision from Extractive Summaries ( http://arxiv.org/abs/2010.07074v2 )

ライセンス: Link先を確認
Xiaofei Sun, Zijun Sun, Yuxian Meng, Jiwei Li and Chun Fan(参考訳) コヒーレントな長文を生成することの難しさは、既存のモデルは局所的な単語の予測に圧倒的に重点を置いており、テキストチャンク間の高レベルな談話依存関係の生成やキャプチャーについて高レベルな計画を立てることができないという事実にある。 まず, 長文生成のための要約, アウトライン化, 共同作業を行うパイプラインシステムである {\it SOE} を提案し, モデルがまず, 長文の各セグメントの要約を概説し, それぞれの弾丸点について精査し, 対応するセグメントを生成する。 要約を要約する作業集約的プロセスを避けるために,セグメントを再構築するために最も有意義な部分を選択することにより,教師なしの方法でセグメント要約を抽出する「it再構築」戦略を提案する。 提案する生成システムは,(1)要約がテキスト生成のための高レベルなガイダンスを提供し,個々の単語予測の局所的最小化を回避すること,(2)要約間の条件付き依存関係に高レベルな談話依存性を取り込み,要約拡張プロセス中に保存すること,(3)コンテキストを簡潔な要約として表現することで,はるかに多くの文脈を考察できる。 大規模な実験により、SOEはより高速な収束速度とともに、非常に優れた品質の長いテキストを生成することが示された。

The difficulty of generating coherent long texts lies in the fact that existing models overwhelmingly focus on predicting local words, and cannot make high level plans on what to generate or capture the high-level discourse dependencies between chunks of texts. Inspired by human writing processes, where a list of bullet points or a catalog is first outlined, and then each bullet point is expanded to form the whole article, we propose {\it SOE}, a pipelined system that involves of summarizing, outlining and elaborating for long text generation: the model first outlines the summaries for different segments of long texts, and then elaborates on each bullet point to generate the corresponding segment. To avoid the labor-intensive process of summary soliciting, we propose the {\it reconstruction} strategy, which extracts segment summaries in an unsupervised manner by selecting its most informative part to reconstruct the segment. The proposed generation system comes with the following merits: (1) the summary provides high-level guidance for text generation and avoids the local minimum of individual word predictions; (2) the high-level discourse dependencies are captured in the conditional dependencies between summaries and are preserved during the summary expansion process and (3) additionally, we are able to consider significantly more contexts by representing contexts as concise summaries. Extensive experiments demonstrate that SOE produces long texts with significantly better quality, along with faster convergence speed.
翻訳日:2022-10-07 13:29:57 公開日:2022-09-09
# T-NER: トランスフォーマーベースの名前付きエンティティ認識のためのPythonライブラリ

T-NER: An All-Round Python Library for Transformer-based Named Entity Recognition ( http://arxiv.org/abs/2209.12616v1 )

ライセンス: Link先を確認
Asahi Ushio, Jose Camacho-Collados(参考訳) 言語モデル(LM)事前訓練は、名前付きエンティティ認識(NER)を含む多くのNLP下流タスクにおいて一貫した改善をもたらした。 本稿では,NER LMファインタニングのためのPythonライブラリであるT-NER(Transformer-based Named Entity Recognition)を提案する。 その実用性に加えて、T-NERは、NERに微調整されたLMのクロスドメインおよびクロスランガル一般化能力の研究と研究を促進する。 我々のライブラリはまた、任意のテキストに対してモデル予測を対話的に取得できるWebアプリを提供し、非専門家プログラマに対する定性的なモデル評価を容易にする。 9つの公開nerデータセットを統一フォーマットにコンパイルし,クロスドメインとクロスリンガルのパフォーマンスを評価することで,ライブラリの可能性を示す。 最初の実験の結果、ドメイン内のパフォーマンスは一般的にデータセット間で競合することがわかった。 しかし、クロスドメインの一般化は、大規模な事前訓練されたLMでも困難であり、組み合わせたデータセットで微調整された場合、ドメイン固有の特徴を学習する能力がある。 将来の研究を容易にするため、Hugging Faceモデルハブを通じてLMチェックポイントをすべてリリースしています。

Language model (LM) pretraining has led to consistent improvements in many NLP downstream tasks, including named entity recognition (NER). In this paper, we present T-NER (Transformer-based Named Entity Recognition), a Python library for NER LM finetuning. In addition to its practical utility, T-NER facilitates the study and investigation of the cross-domain and cross-lingual generalization ability of LMs finetuned on NER. Our library also provides a web app where users can get model predictions interactively for arbitrary text, which facilitates qualitative model evaluation for non-expert programmers. We show the potential of the library by compiling nine public NER datasets into a unified format and evaluating the cross-domain and cross-lingual performance across the datasets. The results from our initial experiments show that in-domain performance is generally competitive across datasets. However, cross-domain generalization is challenging even with a large pretrained LM, which has nevertheless capacity to learn domain-specific features if fine-tuned on a combined dataset. To facilitate future research, we also release all our LM checkpoints via the Hugging Face model hub.
翻訳日:2022-10-02 23:39:39 公開日:2022-09-09
# 制約領域における逆例

Adversarial Examples in Constrained Domains ( http://arxiv.org/abs/2011.01183v3 )

ライセンス: Link先を確認
Ryan Sheatsley, Nicolas Papernot, Michael Weisman, Gunjan Verma, Patrick McDaniel(参考訳) 機械学習アルゴリズムは、画像認識などの領域における入力(例えば、逆例)を体系的に修正することで、逆操作に弱いことが示されている。 デフォルトの脅威モデルでは、敵は画像の制約されていない性質を悪用し、それぞれの機能(ピクセル)は敵を完全に制御している。 しかし、これらの攻撃がどのように制限されたドメインに変換され、どの機能が敵によって修正されるかは明らかになっていない(例えば、ネットワーク侵入検出)。 本稿では,制約付きドメインが非制約型ドメインに比べて,逆例生成アルゴリズムの脆弱性が少ないかを検討する。 我々は,ドメイン制約の包絡内での特徴の持続性をエンコードする汎用摂動ベクトルを対象とする,敵対的スケッチを生成するアルゴリズムを作成する。 これらのアルゴリズムの性能を評価するために,制約のある領域(ネットワーク侵入検出など)と制約のない領域(画像認識など)で評価する。 その結果,本手法は制約領域の非制約領域(95%以上)に匹敵する誤分類率を生じさせることがわかった。 本研究は,制約領域が露出する狭い攻撃面が,攻撃例を作成するのに十分大きいことを示し,制約がドメインを堅牢にしないことを示す。 実際、ランダムに選択された5つの機能で、逆の例を生成できる。

Machine learning algorithms have been shown to be vulnerable to adversarial manipulation through systematic modification of inputs (e.g., adversarial examples) in domains such as image recognition. Under the default threat model, the adversary exploits the unconstrained nature of images; each feature (pixel) is fully under control of the adversary. However, it is not clear how these attacks translate to constrained domains that limit which and how features can be modified by the adversary (e.g., network intrusion detection). In this paper, we explore whether constrained domains are less vulnerable than unconstrained domains to adversarial example generation algorithms. We create an algorithm for generating adversarial sketches: targeted universal perturbation vectors which encode feature saliency within the envelope of domain constraints. To assess how these algorithms perform, we evaluate them in constrained (e.g., network intrusion detection) and unconstrained (e.g., image recognition) domains. The results demonstrate that our approaches generate misclassification rates in constrained domains that were comparable to those of unconstrained domains (greater than 95%). Our investigation shows that the narrow attack surface exposed by constrained domains is still sufficiently large to craft successful adversarial examples; and thus, constraints do not appear to make a domain robust. Indeed, with as little as five randomly selected features, one can still generate adversarial examples.
翻訳日:2022-09-30 13:08:30 公開日:2022-09-09
# 深部ニューラルネットワークを用いた透明透明・透明メディアにおける3次元スクロール波カオスの再構成

Reconstruction of Three-dimensional Scroll Wave Chaos in Opaque and Transparent Excitable Media using Deep Neural Networks ( http://arxiv.org/abs/2209.06860v1 )

ライセンス: Link先を確認
Jan Lebert, Meenakshi Mittal, Jan Christoph(参考訳) スクロール波カオスは、生命を脅かす心室細動を弱めると考えられている。 しかし、現在、心室の厚い心筋を透過する活動電位波パターンを直接測定する方法は存在しない。 したがって、3次元電気巻波カオスの直接観測はいまだに不可能である。 本稿では, 深層学習を用いたバルク表面波動の二次元観察から, バルク形状の励起媒質内の3次元スクロール波カオスを再現できるかどうかを考察する。 符号化・復号化畳み込みニューラルネットワークを用いて不透明で透明な3次元スクロール波のカオスを予測し、2次元投影や表面波動の観測から等方的および異方的励起性媒体を訓練した。 両面の対向面からの観測が十分であるかどうかを検証し, 表面変形の測定を組み込むことで再現性が向上し, バルクの厚さ予測の可能性を検討した。 本研究では,透明励起媒体における3次元スクロール波のカオスを異方性で完全に再構築し,バルクの2層を解析する際に不透明励起媒体で部分再構成を行うことを実証する。 異方性は、ニューラルネットワークが深度を復号化するための重要な情報であり、再構成を容易にする。 将来的には、深部ニューラルネットワークを用いて、心室細動中の心電図や心内膜記録から、経膜的活動電位波パターンを可視化することができる。

Scroll wave chaos is thought to underlie life-threatening ventricular fibrillation. However, currently there is no direct way to measure action potential wave patterns transmurally throughout the thick ventricular heart muscle. Consequently, direct observation of three-dimensional electrical scroll wave chaos remains elusive. Here, we study whether it is possible to reconstruct simulated three-dimensional scroll wave chaos inside a bulk-shaped excitable medium from two-dimensional observations of the wave dynamics on the bulk's surface using deep learning. We trained encoding-decoding convolutional neural networks to predict three-dimensional scroll wave chaos inside opaque and transparent as well as isotropic and anisotropic excitable media from two-dimensional projections or observations of the wave dynamics on the surface. We tested whether observations from one or two opposing surfaces would be sufficient, whether incorporating measurements of the surface deformation improves the reconstruction, and tested the feasibility of predicting the bulk's thickness. We demonstrate that it is possible to fully reconstruct three-dimensional scroll wave chaos in transparent excitable media with anisotropy and to obtain partial reconstructions in opaque excitable media when analyzing two opposing layers of the bulk. We found that anisotropy provides crucial information for neural networks to decode depth, which facilitates the reconstructions. In the future, deep neural networks could be used to visualize transmural action potential wave patterns during ventricular fibrillation from epi- or endocardial recordings.
翻訳日:2022-09-25 17:41:46 公開日:2022-09-09
# IC偽造防止のためのメモリチップのナノエレクトロニクス特性の爆発

Exploiting Nanoelectronic Properties of Memory Chips for Prevention of IC Counterfeiting ( http://arxiv.org/abs/2209.09197v1 )

ライセンス: Link先を確認
Supriya Chakraborty Tamoghno Das and Manan Suri(参考訳) 本研究では,非揮発性メモリ(NVM)チップのアンチカウンタファイリング手法を提案する。 特に 一般化された検出法を実験的に実証し (i)集積回路(ic)の起源 (ii)nvmチップのリサイクル又は使用、及び (iii)チップ内の使用場所(アドレス)の特定。 提案手法は,市販市販nvmチップのレイテンシと変動特性を検査する。 提案手法は低サイクル(〜100)プレコンディショニングを必要とし,機械学習(ML)アルゴリズムを利用する。 異なるベンダの異なるNVMテクノロジをサイクリングすることで、レイテンシ(セクタ消去やページ書き込み)の進化のさまざまなトレンドを観察します。 ML補助アプローチは、6つの異なる製造元(9種類のチップ)を含む3つの異なるNVM技術からなる準備済みテストデータセット上で95.1パーセントの精度でIC製造元を検出するために使用される。

This study presents a methodology for anticounterfeiting of Non-Volatile Memory (NVM) chips. In particular, we experimentally demonstrate a generalized methodology for detecting (i) Integrated Circuit (IC) origin, (ii) recycled or used NVM chips, and (iii) identification of used locations (addresses) in the chip. Our proposed methodology inspects latency and variability signatures of Commercial-Off-The-Shelf (COTS) NVM chips. The proposed technique requires low-cycle (~100) pre-conditioning and utilizes Machine Learning (ML) algorithms. We observe different trends in evolution of latency (sector erase or page write) with cycling on different NVM technologies from different vendors. ML assisted approach is utilized for detecting IC manufacturers with 95.1 % accuracy obtained on prepared test dataset consisting of 3 different NVM technologies including 6 different manufacturers (9 types of chips).
翻訳日:2022-09-25 17:40:49 公開日:2022-09-09
# クラス非依存型弱教師付き物体定位のための制約サンプリング

Constrained Sampling for Class-Agnostic Weakly Supervised Object Localization ( http://arxiv.org/abs/2209.09195v1 )

ライセンス: Link先を確認
Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Aydin Sarraf, Eric Granger(参考訳) 自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。 しかし、シーンは様々なオブジェクトを含む複数のマップに分解され、明示的な監視信号は依存しないため、弱い監督対象のローカライゼーション(WSOL)に必要なように、他のオブジェクトと関心の対象を区別することはできない。 この問題に対処するために,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,WSOLモデルをトレーニングするための擬似ラベルを取得することを提案する。 特に,事前訓練されたcnn分類器を用いて識別領域を識別する新しい識別提案サンプリング法が導入された。 そして、これらの領域から前景および背景画素をサンプリングし、特定のクラスに属するオブジェクトを正確にローカライズできるアクティベーションマップを生成するためのWSOLモデルを訓練する。 挑戦的なCUBベンチマークデータセットの実証結果から,提案手法は幅広いしきい値に対して最先端の手法より優れていることが示された。 本手法は,前景オブジェクト領域(背景領域)をよりよく網羅したクラスアクティベーションマップを提供する。

Self-supervised vision transformers can generate accurate localization maps of the objects in an image. However, since they decompose the scene into multiple maps containing various objects, and they do not rely on any explicit supervisory signal, they cannot distinguish between the object of interest from other objects, as required in weakly-supervised object localization (WSOL). To address this issue, we propose leveraging the multiple maps generated by the different transformer heads to acquire pseudo-labels for training a WSOL model. In particular, a new discriminative proposals sampling method is introduced that relies on a pretrained CNN classifier to identify discriminative regions. Then, foreground and background pixels are sampled from these regions in order to train a WSOL model for generating activation maps that can accurately localize objects belonging to a specific class. Empirical results on the challenging CUB benchmark dataset indicate that our proposed approach can outperform state-of-art methods over a wide range of threshold values. Our method provides class activation maps with a better coverage of foreground object regions w.r.t. the background.
翻訳日:2022-09-25 17:32:15 公開日:2022-09-09
# 弱教師付き物体位置決めのための自己監督型変圧器の提案の判別サンプリング

Discriminative Sampling of Proposals in Self-Supervised Transformers for Weakly Supervised Object Localization ( http://arxiv.org/abs/2209.09209v1 )

ライセンス: Link先を確認
Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Aydin Sarraf, Eric Granger(参考訳) 自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。 しかし、シーンは様々なオブジェクトを含む複数のマップに分解され、明示的な監視信号は依存しないため、弱い監督対象のローカライゼーション(WSOL)に必要なように、他のオブジェクトと関心の対象を区別することはできない。 この問題に対処するために,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,WSOLモデルをトレーニングするための擬似ラベルを取得することを提案する。 特に,事前訓練されたcnn分類器を用いて識別領域を識別する新しい識別提案サンプリング(dips)法が導入された。 そして、これらの領域から前景および背景画素をサンプリングし、特定のクラスに属するオブジェクトを正確にローカライズできるアクティベーションマップを生成するためのWSOLモデルを訓練する。 CUB、OpenImages、ILSVRCベンチマークデータセットの挑戦的な結果から、提案手法は幅広いしきい値で最先端の手法より優れていることが示唆された。 DiPSはクラスアクティベーションマップを提供し、背景にある前景のオブジェクト領域をよりよくカバーしている。

Self-supervised vision transformers can generate accurate localization maps of the objects in an image. However, since they decompose the scene into multiple maps containing various objects, and they do not rely on any explicit supervisory signal, they cannot distinguish between the object of interest from other objects, as required in weakly-supervised object localization (WSOL). To address this issue, we propose leveraging the multiple maps generated by the different transformer heads to acquire pseudo-labels for training a WSOL model. In particular, a new Discriminative Proposals Sampling (DiPS) method is introduced that relies on a pretrained CNN classifier to identify discriminative regions. Then, foreground and background pixels are sampled from these regions in order to train a WSOL model for generating activation maps that can accurately localize objects belonging to a specific class. Empirical results on the challenging CUB, OpenImages, and ILSVRC benchmark datasets indicate that our proposed approach can outperform state-of-art methods over a wide range of threshold values. DiPS provides class activation maps with a better coverage of foreground object regions w.r.t. the background.
翻訳日:2022-09-25 17:31:56 公開日:2022-09-09
# Margin-based Label Smoothing を用いたセグメンテーションネットワークの校正

Calibrating Segmentation Networks with Margin-based Label Smoothing ( http://arxiv.org/abs/2209.09641v1 )

ライセンス: Link先を確認
Balamurali Murugesan, Bingyuan Liu, Adrian Galdran, Ismail Ben Ayed, Jose Dolz(参考訳) 深層ニューラルネットワークによって引き起こされる視覚認識タスクの不確実な進歩にもかかわらず、これらのモデルが校正が不十分であることを示す最近の証拠がある。 訓練中のクロスエントロピー損失を最小化する標準的な慣行は、予測されたソフトマックス確率を1つのホットラベル割り当てに合致させる。 それにもかかわらず、これは、残りのアクティベーションよりもかなり大きい正しいクラスのソフトマックス前のアクティベーションをもたらし、誤校正問題を悪化させる。 分類文献からの最近の観察から、予測のエントロピーを暗黙的または明示的に最大化する損失関数は、最先端のキャリブレーション性能をもたらすことが示唆されている。 これらの結果にもかかわらず、医療画像分割ネットワークの校正作業におけるこれらの損失の影響は未解明のままである。 本研究では,現在のキャリブレーション損失の統一的最適化視点を提案する。 特に、これらの損失はロジット距離の等式制約を課す線形ペナルティ(あるいはラグランジュ項)の近似と見なすことができる。 このことは、そのような基礎となる等式制約の重要な制限であり、従って勾配が常に非形式的解に向かって進み、勾配に基づく最適化の際の判別性能とモデルのキャリブレーションの最良の妥協点に達するのを防いでいることを示している。 本稿では,不等式制約に基づく簡易かつ柔軟な一般化を提案し,ロジット距離に制御可能なマージンを課す。 各種公開医用画像セグメンテーションベンチマークの総合的な実験により,ネットワークキャリブレーションの観点から,これらのタスクに新たな成果が得られたが,識別性能も向上した。

Despite the undeniable progress in visual recognition tasks fueled by deep neural networks, there exists recent evidence showing that these models are poorly calibrated, resulting in over-confident predictions. The standard practices of minimizing the cross entropy loss during training promote the predicted softmax probabilities to match the one-hot label assignments. Nevertheless, this yields a pre-softmax activation of the correct class that is significantly larger than the remaining activations, which exacerbates the miscalibration problem. Recent observations from the classification literature suggest that loss functions that embed implicit or explicit maximization of the entropy of predictions yield state-of-the-art calibration performances. Despite these findings, the impact of these losses in the relevant task of calibrating medical image segmentation networks remains unexplored. In this work, we provide a unifying constrained-optimization perspective of current state-of-the-art calibration losses. Specifically, these losses could be viewed as approximations of a linear penalty (or a Lagrangian term) imposing equality constraints on logit distances. This points to an important limitation of such underlying equality constraints, whose ensuing gradients constantly push towards a non-informative solution, which might prevent from reaching the best compromise between the discriminative performance and calibration of the model during gradient-based optimization. Following our observations, we propose a simple and flexible generalization based on inequality constraints, which imposes a controllable margin on logit distances. Comprehensive experiments on a variety of public medical image segmentation benchmarks demonstrate that our method sets novel state-of-the-art results on these tasks in terms of network calibration, whereas the discriminative performance is also improved.
翻訳日:2022-09-25 17:31:27 公開日:2022-09-09
# 単一回答・複数回答自動抽出による活動報告分析

Activity report analysis with automatic single or multispan answer extraction ( http://arxiv.org/abs/2209.09316v1 )

ライセンス: Link先を確認
Ravi Choudhary, Arvind Krishna Sridhar, Erik Visser(参考訳) loT(モノのインターネット)の時代、私たちは、画像、ビデオ、オーディオ、センサーの信号をテキスト記述に書き起こすことができる、Al対応デバイスが多用されている。 このような書き起こしが監視、ライフログ、異常検出アプリケーションのためのアクティビティレポートに記録されると、ユーザは通常、要約を要求するか、関心のあるレポートの特定のセクションについてターゲットとする質問をする。 質問内容や質問の種類に応じて、質問応答(QA)システムは、回答がシングルスパンかマルチスパンのテキストコンポーネントをカバーするかどうかを自動的に判断する必要がある。 現在利用可能なQAデータセットは、主にシングルスパン応答(SQuAD[4]など)のみに焦点を当てているか、あるいは複数のスパン応答(DROP[3]など)を持つサンプルの割合が低い。 実例では, 単一/マルチスパン回答の自動選択について検討するため, 質問内容や質問内容に応じて, 単一スパン回答と複数スパン回答を組み合わせたスマートホーム環境データセットを構築した。 さらに,RoBERTa[6]に基づくマルチスパン抽出質問応答(MSEQA)モデルを提案する。 実験の結果,提案手法はデータセット上での最先端QAモデルよりも優れており,個々のタスクデータセットに対して同等のパフォーマンスを提供する。

In the era of loT (Internet of Things) we are surrounded by a plethora of Al enabled devices that can transcribe images, video, audio, and sensors signals into text descriptions. When such transcriptions are captured in activity reports for monitoring, life logging and anomaly detection applications, a user would typically request a summary or ask targeted questions about certain sections of the report they are interested in. Depending on the context and the type of question asked, a question answering (QA) system would need to automatically determine whether the answer covers single-span or multi-span text components. Currently available QA datasets primarily focus on single span responses only (such as SQuAD[4]) or contain a low proportion of examples with multiple span answers (such as DROP[3]). To investigate automatic selection of single/multi-span answers in the use case described, we created a new smart home environment dataset comprised of questions paired with single-span or multi-span answers depending on the question and context queried. In addition, we propose a RoBERTa[6]-based multiple span extraction question answering (MSEQA) model returning the appropriate answer span for a given question. Our experiments show that the proposed model outperforms state-of-the-art QA models on our dataset while providing comparable performance on published individual single/multi-span task datasets.
翻訳日:2022-09-25 17:22:10 公開日:2022-09-09
# PoxVerifi: モンキーポックスの誤報に対処する情報検証システム

PoxVerifi: An Information Verification System to Combat Monkeypox Misinformation ( http://arxiv.org/abs/2209.09300v1 )

ライセンス: Link先を確認
Akaash Kolluri, Kami Vinton, and Dhiraj Murthy(参考訳) 近年、サルポックス関連の誤報がオンラインで急速に広まっている。 これは反応戦略に悪影響を及ぼし、LGBTQ+コミュニティを短期的に不均等に傷つけ、最終的には公衆衛生反応の全体的な効果を損なう。 サルポックス関連誤報と闘うために,我々は,サルポックス関連クレームの正確性を評価するための包括的アプローチを提供するオープンソース拡張ツールpoxverifiを提案する。 既存の事実チェックソースからの情報を活用し、WHO(World Health Organization)情報を公開し、225の分類されたサルポックスクレームのオープンソースコーパスを作成しました。 さらに,サルポックス情報を分類するためのbertベースの機械学習モデルを,96%のクロスバリデーション精度を実現した。 PoxVerifiはGoogle Chromeブラウザエクステンションで、サルポックス関連の誤報をナビゲートするためのものだ。 具体的には、PoxVerifiは、外部サイトを訪れなくても、インターネット上のあらゆるWebページの見出しの正確性を評価する包括的なツールキットを提供する。 トレーニングされた機械学習モデルから自動的な精度レビュー、コミュニティメンバの投票に基づくユーザ生成の精度レビュー、同様の、審査済みのクレームを見ることができる。 poxverifiのクレームテストに対する包括的なアプローチの他に、当社のプラットフォームは、サルポックス関連請求の正確性評価をクラウドソースする、効率的でアクセス可能な方法を提供しています。

Following recent outbreaks, monkeypox-related misinformation continues to rapidly spread online. This negatively impacts response strategies and disproportionately harms LGBTQ+ communities in the short-term, and ultimately undermines the overall effectiveness of public health responses. In an attempt to combat monkeypox-related misinformation, we present PoxVerifi, an open-source, extensible tool that provides a comprehensive approach to assessing the accuracy of monkeypox related claims. Leveraging information from existing fact checking sources and published World Health Organization (WHO) information, we created an open-sourced corpus of 225 rated monkeypox claims. Additionally, we trained an open-sourced BERT-based machine learning model for specifically classifying monkeypox information, which achieved 96% cross-validation accuracy. PoxVerifi is a Google Chrome browser extension designed to empower users to navigate through monkeypox-related misinformation. Specifically, PoxVerifi provides users with a comprehensive toolkit to assess the veracity of headlines on any webpage across the Internet without having to visit an external site. Users can view an automated accuracy review from our trained machine learning model, a user-generated accuracy review based on community-member votes, and have the ability to see similar, vetted, claims. Besides PoxVerifi's comprehensive approach to claim-testing, our platform provides an efficient and accessible method to crowdsource accuracy ratings on monkeypox related-claims, which can be aggregated to create new labeled misinformation datasets.
翻訳日:2022-09-25 17:21:31 公開日:2022-09-09
# 半球特殊化を伴う両側脳における深層学習

Deep learning in a bilateral brain with hemispheric specialization ( http://arxiv.org/abs/2209.06862v1 )

ライセンス: Link先を確認
Chandramouli Rajagopalan, David Rawlinson, Elkhonon Goldberg, Gideon Kowadlo(参考訳) 地球上の両側対称動物の脳は左半球と右半球に分けられる。 半球の解剖学と機能は非常に重複しているが、それらは異なる属性を持つように特化している。 左半球は特異性、ルーチン、一般性、新規性に特化していると考えられている。 本研究では,異なる学習目標を持つ2つの畳み込みニューラルネットワークを用いて,バイラテラルアーキテクチャを模倣したニューラルネットワークを提案し,画像分類タスクでテストする。 両アーキテクチャは、差分特殊化を利用していない同様の表現能力のアーキテクチャよりも優れています。 これは二元論の有効性を示し、他の計算神経科学モデルに組み込まれ、新しいMLシステムを設計する際に誘導バイアスとして用いられる新しい原理を構成する。 モデルの分析は、人間の脳を理解するのに役立ちます。

The brains of all bilaterally symmetric animals on Earth are are divided into left and right hemispheres. The anatomy and functionality of the hemispheres have a large degree of overlap, but they specialize to possess different attributes. The left hemisphere is believed to specialize in specificity and routine, the right in generalities and novelty. In this study, we propose an artificial neural network that imitates that bilateral architecture using two convolutional neural networks with different training objectives and test it on an image classification task. The bilateral architecture outperforms architectures of similar representational capacity that don't exploit differential specialization. It demonstrates the efficacy of bilateralism and constitutes a new principle that could be incorporated into other computational neuroscientific models and used as an inductive bias when designing new ML systems. An analysis of the model can help us to understand the human brain.
翻訳日:2022-09-18 16:55:32 公開日:2022-09-09
# 落札者インプットによる大規模オンライン実験の感度向上

Boosting Sensitivity of Large-scale Online Experimentation via Dropout Buyer Imputation ( http://arxiv.org/abs/2209.06125v1 )

ライセンス: Link先を確認
Sumin Shen, Huiying Mao, Zezhong Zhang, Zili Chen, Keyu Nie, Xinwei Deng(参考訳) メトリクスはオンライン実験における仮説を支持する強力な証拠を提供するため、意思決定プロセスにおける議論を減らす。 本研究では,ドロップアウトバイヤーの概念を紹介し,不完全なメトリック値を持つユーザを,訪問者とドロップアウトバイヤーの2つのグループに分類する。 不完全なメトリクスの分析のために、クラスタベースのk-nearest近傍に基づくインプテーション法を提案する。 提案手法では,実験特有の特徴と買い物経路に沿ったユーザの活動の両方を考慮し,異なるユーザに対して異なるインプテーション値を付与する。 オンライン実験における大規模データセットの効率的なインプテーションを容易にするために,提案手法では階層化とクラスタリングの組み合わせを用いる。 提案手法の性能は,過去にeBayで行ったいくつかの従来手法と比較された。

Metrics provide strong evidence to support hypotheses in online experimentation and hence reduce debates in the decision-making process. In this work, we introduce the concept of dropout buyers and categorize users with incomplete metric values into two groups: visitors and dropout buyers. For the analysis of incomplete metrics, we propose a cluster-based k-nearest neighbors-based imputation method. Our proposed imputation method considers both the experiment-specific features and users' activities along their shopping paths, allowing different imputation values for different users. To facilitate efficient imputation in large-scale data sets in online experimentation, the proposed method uses a combination of stratification and clustering. The performance of the proposed method was compared to several conventional methods in a past experiment at eBay.
翻訳日:2022-09-14 13:21:46 公開日:2022-09-09
# 移植学習による病理組織像の自動スコア化

Automatically Score Tissue Images Like a Pathologist by Transfer Learning ( http://arxiv.org/abs/2209.05954v1 )

ライセンス: Link先を確認
Iris Yan(参考訳) がんは世界で2番目に多い死因である。 早期にがんを診断することで多くの命を救える。 病理学者は、腫瘍を特定するために手動で組織マイクロアレイ(TMA)画像を見る必要がある。 腫瘍を自動的に検出する既存のアルゴリズムは、病理学者の正確性レベルを達成していないか、あるいはかなりの人間の関与を必要とする。 最大の課題は、異なる形状、サイズ、位置のtma画像が同じスコアを持つ可能性があることである。 tma画像の染色パターンを学ぶには膨大な数の画像が必要であるが、医療機関におけるプライバシーの懸念や規制のために、非常に制限されている。 異なるがんタイプのTMA画像には、貴重な情報を提供する共通の特徴があるかもしれないが、それらを使用することで直接精度が損なわれる。 トランスファーラーニングは、異なるがんタイプから組織画像から知識を抽出することにより、トレーニングサンプルサイズを増加させる。 転送学習は、アルゴリズムが重要な精度障壁を破ることを可能にした。 提案アルゴリズムは,スタンフォード大学組織マイクロアレイデータベースを用いた乳癌tma画像における75.9%の精度を示し,病理組織学的に75%の精度を得た。 これにより、病理学者は自信を持って自動アルゴリズムを使用して腫瘍の認識をリアルタイムでより高精度に行うことができる。

Cancer is the second leading cause of death in the world. Diagnosing cancer early on can save many lives. Pathologists have to look at tissue microarray (TMA) images manually to identify tumors, which can be time-consuming, inconsistent and subjective. Existing algorithms that automatically detect tumors have either not achieved the accuracy level of a pathologist or require substantial human involvements. A major challenge is that TMA images with different shapes, sizes, and locations can have the same score. Learning staining patterns in TMA images requires a huge number of images, which are severely limited due to privacy concerns and regulations in medical organizations. TMA images from different cancer types may have common characteristics that could provide valuable information, but using them directly harms the accuracy. Transfer learning is adopted to increase the training sample size by extracting knowledge from tissue images from different cancer types. Transfer learning has made it possible for the algorithm to break the critical accuracy barrier. The proposed algorithm reports an accuracy of 75.9% on breast cancer TMA images from the Stanford Tissue Microarray Database, achieving the 75% accuracy level of pathologists. This will allow pathologists to confidently use automatic algorithms to assist them in recognizing tumors consistently with a higher accuracy in real time.
翻訳日:2022-09-14 12:40:49 公開日:2022-09-09
# ノイズレジームにおける高次元簡易学習のためのサンプル複雑境界

Sample Complexity Bounds for Learning High-dimensional Simplices in Noisy Regimes ( http://arxiv.org/abs/2209.05953v1 )

ライセンス: Link先を確認
Amir Hossein Saberi, Amir Najafi, Seyed Abolfazl Motahari and Babak H. Khalaj(参考訳) 本稿では,ノイズのあるサンプルからsimplexを学習するためのサンプル複雑性を提案する。 サイズ$n$のデータセットが与えられ、そのデータセットには、未知の任意の単純集合上の一様分布から引き出されたサンプルが $\mathbb{r}^k$ で示され、サンプルは任意の大きさの付加ガウス雑音によって崩壊すると仮定される。 任意の$\epsilon>0$に対して、真のsimplexから$\epsilon + o\left(\mathrm{snr}^{-1}\right)$の全変動距離を持つsimplexを出力する戦略を提案する。 これを真の単純性に近づけると、$n\ge\tilde{o}\left(k^2/\epsilon^2\right)$ のサンプルが得られる。 ここでは、SNRはノイズの標準偏差に対する単純度の直径の比と見なせる信号対雑音比を表す。 この証明は,高次元ガウス混合モデルにおける密度推定の厳密な境界を導出する可能性をすでに示している試料圧縮技術の最近の進歩に基づいている。

In this paper, we propose a sample complexity bound for learning a simplex from noisy samples. A dataset of size $n$ is given which includes i.i.d. samples drawn from a uniform distribution over an unknown arbitrary simplex in $\mathbb{R}^K$, where samples are assumed to be corrupted by an additive Gaussian noise of an arbitrary magnitude. We propose a strategy which outputs a simplex having, with high probability, a total variation distance of $\epsilon + O\left(\mathrm{SNR}^{-1}\right)$ from the true simplex, for any $\epsilon>0$. We prove that to arrive this close to the true simplex, it is sufficient to have $n\ge\tilde{O}\left(K^2/\epsilon^2\right)$ samples. Here, SNR stands for the signal-to-noise ratio which can be viewed as the ratio of the diameter of the simplex to the standard deviation of the noise. Our proofs are based on recent advancements in sample compression techniques, which have already shown promises in deriving tight bounds for density estimation in high-dimensional Gaussian mixture models.
翻訳日:2022-09-14 12:30:29 公開日:2022-09-09
# 物理インフォームドニューラルネットワークの適応学習のための残留成分調整

Residual-Quantile Adjustment for Adaptive Training of Physics-informed Neural Network ( http://arxiv.org/abs/2209.05315v1 )

ライセンス: Link先を確認
Jiayue Han, Zhiqiang Cai, Zhiyou Wu, Xiang Zhou(参考訳) 物理形ニューラルネットワーク(pinn)の適応的トレーニングには、各トレーニングサンプルに割り当てられた重みの分布の専用の構成が必要となる。 このような最適重量分布を求めるのが簡単な作業ではなく、既存のほとんどの方法は、全分布や残余の最大値の近似に基づいて適応重量を選択する。 本稿では, 学習効率向上のためのサンプルの適応選択におけるボトルネックは, 数値残差の尾分布の挙動であることを示す。 そこで本研究では,トレーニングサンプル毎の重量選択に優れたResidual-Quantile Adjustment (RQA)法を提案する。 我々のRQA法は、最初は残余の$p$-thパワーに比例した重量を設定した後、中央値に$q$-quantile(例えば$90\%$)以上の全ての重量を割り当て、残基から導出される量子調整分布に従うようにした。 反復的再重み付け技術では、RQAの実装も非常に容易である。 実験の結果,提案手法は様々な偏微分方程式 (pde) 問題に対する適応法よりも優れていることがわかった。

Adaptive training methods for physical-informed neural network (PINN) require dedicated constructions of the distribution of weights assigned at each training sample. To efficiently seek such an optimal weight distribution is not a simple task and most existing methods choose the adaptive weights based on approximating the full distribution or the maximum of residuals. In this paper, we show that the bottleneck in the adaptive choice of samples for training efficiency is the behavior of the tail distribution of the numerical residual. Thus, we propose the Residual-Quantile Adjustment (RQA) method for a better weight choice for each training sample. After initially setting the weights proportional to the $p$-th power of the residual, our RQA method reassign all weights above $q$-quantile ($90\%$ for example) to the median value, so that the weight follows a quantile-adjusted distribution derived from the residuals. With the iterative reweighting technique, RQA is also very easy to implement. Experiment results show that the proposed method can outperform several adaptive methods on various partial differential equation (PDE) problems.
翻訳日:2022-09-13 14:20:28 公開日:2022-09-09
# 多変量ホークスプロセスによるセプシス関連配列のグランガー因果連鎖発見

Granger Causal Chain Discovery for Sepsis-Associated Derangements via Multivariate Hawkes Processes ( http://arxiv.org/abs/2209.04480v1 )

ライセンス: Link先を確認
Song Wei, Yao Xie, Christopher S. Josef, Rishikesan Kamaleswaran(参考訳) 現代の医療システムでは、電子医療記録(EMR)を継続的に自動で監視し、頻度の上昇に伴う有害事象を識別するが、セプシスのような多くの事象は、その過程の早い段階で有害事象を識別し、傍受するために用いられる、明確に解明されたプロドロム(すなわちイベントチェーン)を持っていない。 現在、有害な病院イベントに先立つ因果連鎖の発見や記述のための信頼できるフレームワークは存在しない。 臨床的に関連があり、解釈可能な結果には、(1)emrデータ(例えば、研究室、バイタルサインなど)にある複数の患者の特徴をまたいだ時間的相互作用を推測し、(2)差し迫った有害事象(例えば敗血症)に特異的なパターンを識別できる枠組みが必要である。 本稿では,Granger Causal(GC)グラフを復元するために,$g(x) = x^+$リンク関数と組み合わせた線形多変量ホークスプロセスモデルを提案する。 問題パラメータを推定する確率のサロゲートを最大化する二相勾配に基づくスキームを開発する。 この2相アルゴリズムはスケーラブルであり,数値シミュレーションにより有効であることを示す。 その後、GAアタランタのグレーディ病院システムに入院した患者のデータセットに拡張され、適合したグランガー因果グラフは敗血症に先立ついくつかの高度に解釈可能な鎖を特定する。

Modern health care systems are conducting continuous, automated surveillance of the electronic medical record (EMR) to identify adverse events with increasing frequency; however, many events such as sepsis do not have clearly elucidated prodromes (i.e., event chains) that can be used to identify and intercept the adverse event early in its course. Currently there does not exist a reliable framework for discovering or describing causal chains that precede adverse hospital events. Clinically relevant and interpretable results require a framework that can (1) infer temporal interactions across multiple patient features found in EMR data (e.g., labs, vital signs, etc.) and (2) can identify pattern(s) which precede and are specific to an impending adverse event (e.g., sepsis). In this work, we propose a linear multivariate Hawkes process model, coupled with $g(x) = x^+$ link function to allow potential inhibition effects, in order to recover a Granger Causal (GC) graph. We develop a two-phase gradient-based scheme to maximize a surrogate of likelihood to estimate the problem parameters. This two-phase algorithm is scalable and shown to be effective via our numerical simulation. It is subsequently extended to a data set of patients admitted to Grady hospital system in Atalanta, GA, where the fitted Granger Causal graph identifies several highly interpretable chains that precede sepsis.
翻訳日:2022-09-13 14:02:21 公開日:2022-09-09
# グリーンAI画像符号化のためのスパースオートエンコーダの学習

Learning sparse auto-encoders for green AI image coding ( http://arxiv.org/abs/2209.04448v1 )

ライセンス: Link先を確認
Cyprien Gille, Fr\'ed\'eric Guyard, Marc Antonini, and Michel Barlaud(参考訳) 近年,画像符号化のための畳み込みオートエンコーダ (CAE) が導入された。 彼らは最先端のJPEG2000法よりも性能が向上した。 しかし、これらの性能は大量のパラメータを特徴とする大量のCAEを用いて得られ、そのトレーニングには大量の計算能力が必要であった。 本稿では,メモリフットプリントが小さく,計算消費電力の少ないCAEを用いて画像圧縮を行う際の問題点について述べる。 計算コストの問題を克服するために、文献の大半はラグランジュ近位正規化法を用いており、これは自分自身で時間を消費している。 そこで本研究では,制約付きアプローチと新しい構造化スパース学習手法を提案する。 我々はアルゴリズムを設計し、古典的な$\ell_1$制約、$\ell_{1,\infty}$および新しい$\ell_{1,1}$制約という3つの制約でそれをテストする。 実験の結果、$\ell_{1,1}$の制約は最も構造化されたスパース性をもたらし、結果としてメモリと計算コストが大幅に削減され、密集したネットワークと同様のレートゆがみ性能が得られた。

Recently, convolutional auto-encoders (CAE) were introduced for image coding. They achieved performance improvements over the state-of-the-art JPEG2000 method. However, these performances were obtained using massive CAEs featuring a large number of parameters and whose training required heavy computational power.\\ In this paper, we address the problem of lossy image compression using a CAE with a small memory footprint and low computational power usage. In order to overcome the computational cost issue, the majority of the literature uses Lagrangian proximal regularization methods, which are time consuming themselves.\\ In this work, we propose a constrained approach and a new structured sparse learning method. We design an algorithm and test it on three constraints: the classical $\ell_1$ constraint, the $\ell_{1,\infty}$ and the new $\ell_{1,1}$ constraint. Experimental results show that the $\ell_{1,1}$ constraint provides the best structured sparsity, resulting in a high reduction of memory and computational cost, with similar rate-distortion performance as with dense networks.
翻訳日:2022-09-13 14:01:34 公開日:2022-09-09
# 逆境戦略の空間

The Space of Adversarial Strategies ( http://arxiv.org/abs/2209.04521v1 )

ライセンス: Link先を確認
Ryan Sheatsley, Blaine Hoak, Eric Pauley, Patrick McDaniel(参考訳) 機械学習モデルにおける最悪のケース動作を誘発するインプットである逆例は、過去10年間に広く研究されてきた。 しかし、この現象に対する我々の理解は、かなり断片化された知識のプールに由来する。現在、脅威モデルにおける異なる仮定と、比較不能な最適性の定義を持つ、いくつかの攻撃がある。 本稿では,最悪の(即ち最適)敵を特徴付けるための体系的アプローチを提案する。 まず,攻撃成分を表面や旅行者に微粒化することで,敵対的機械学習における攻撃の拡張的分解を導入する。 分解することで、コンポーネントを列挙して576のアタックを生成します(そのうち568は以前未調査でした)。 次に,アッパーバウンド攻撃性能を示す理論攻撃であるPareto Ensemble Attack (PEA)を提案する。 新しい攻撃では、ロバストモデルと非ロバストモデルと7つのデータセット、計算コストを組み込んだ3つの拡張lpベースの脅威モデルの両方で、PEAに対するパフォーマンスを測定する。 ドメイン、モデル堅牢性、脅威モデルは、攻撃の有効性に大きな影響を及ぼす可能性がある。 機械学習の安全性を計測する将来の研究は、(1)ドメインモデルと脅威モデルに文脈化され、(2)今日使われているいくつかの既知の攻撃を越えていくべきである。

Adversarial examples, inputs designed to induce worst-case behavior in machine learning models, have been extensively studied over the past decade. Yet, our understanding of this phenomenon stems from a rather fragmented pool of knowledge; at present, there are a handful of attacks, each with disparate assumptions in threat models and incomparable definitions of optimality. In this paper, we propose a systematic approach to characterize worst-case (i.e., optimal) adversaries. We first introduce an extensible decomposition of attacks in adversarial machine learning by atomizing attack components into surfaces and travelers. With our decomposition, we enumerate over components to create 576 attacks (568 of which were previously unexplored). Next, we propose the Pareto Ensemble Attack (PEA): a theoretical attack that upper-bounds attack performance. With our new attacks, we measure performance relative to the PEA on: both robust and non-robust models, seven datasets, and three extended lp-based threat models incorporating compute costs, formalizing the Space of Adversarial Strategies. From our evaluation we find that attack performance to be highly contextual: the domain, model robustness, and threat model can have a profound influence on attack efficacy. Our investigation suggests that future studies measuring the security of machine learning should: (1) be contextualized to the domain & threat models, and (2) go beyond the handful of known attacks used today.
翻訳日:2022-09-13 14:01:17 公開日:2022-09-09
# 一般地名認識調査 : 現実の自律化時代に向けて

General Place Recognition Survey: Towards the Real-world Autonomy Age ( http://arxiv.org/abs/2209.04497v1 )

ライセンス: Link先を確認
Peng Yin, Shiqi Zhao, Ivan Cisneros, Abulikemu Abuduweili, Guoquan Huang, Micheal Milford, Changliu Liu, Howie Choset, and Sebastian Scherer(参考訳) 位置認識は、ループ閉鎖検出と長期ナビゲーションのための再局在化において、SLAM(Salmultaneous Localization and Mapping)を補助する基本的なモジュールである。 場所認識コミュニティは、過去20ドルにわたって驚くべき進歩を遂げており、コンピュータビジョンやロボティクスなど、さまざまな分野で広く研究や応用が進められている。 しかし、長期および大規模の外観変化が通常失敗に繋がる複雑な実世界シナリオにおいて、有望な位置認識性能を示す方法はほとんどない。 さらに、見かけの変化、視点の違い、未知の領域に対する堅牢性、現実世界のアプリケーションにおける効率性など、場所認識におけるすべての課題を処理できる最先端のメソッドに統合されたフレームワークが欠如している。 本研究では, 長期的局在化を目標とした最先端の手法を調査し, 今後の方向性と機会について考察する。 まず,長期的な自律性における場所認識の定式化と,実環境における主要な課題について検討する。 次に、センサの異なる位置認識に関する最近の研究と、様々な位置認識課題に対処するための現在の戦略を概観する。 最後に,既存のデータセットの長期的ローカライズについて検討し,異なるアプローチのためのデータセットと評価apiを紹介する。 本論文は,場所認識コミュニティと長期ロボット工学の自律性に関心を持つ研究者を対象としたチュートリアルである。 ロボットは長期的な自律性のために正確なローカライズを必要としているか? この作業の概要とデータセットと評価apiは、ロボティクスコミュニティに対して、https://github.com/metaslam/gprs.com/で公開されている。

Place recognition is the fundamental module that can assist Simultaneous Localization and Mapping (SLAM) in loop-closure detection and re-localization for long-term navigation. The place recognition community has made astonishing progress over the last $20$ years, and this has attracted widespread research interest and application in multiple fields such as computer vision and robotics. However, few methods have shown promising place recognition performance in complex real-world scenarios, where long-term and large-scale appearance changes usually result in failures. Additionally, there is a lack of an integrated framework amongst the state-of-the-art methods that can handle all of the challenges in place recognition, which include appearance changes, viewpoint differences, robustness to unknown areas, and efficiency in real-world applications. In this work, we survey the state-of-the-art methods that target long-term localization and discuss future directions and opportunities. We start by investigating the formulation of place recognition in long-term autonomy and the major challenges in real-world environments. We then review the recent works in place recognition for different sensor modalities and current strategies for dealing with various place recognition challenges. Finally, we review the existing datasets for long-term localization and introduce our datasets and evaluation API for different approaches. This paper can be a tutorial for researchers new to the place recognition community and those who care about long-term robotics autonomy. We also provide our opinion on the frequently asked question in robotics: Do robots need accurate localization for long-term autonomy? A summary of this work and our datasets and evaluation API is publicly available to the robotics community at: https://github.com/MetaSLAM/GPRS.
翻訳日:2022-09-13 13:49:52 公開日:2022-09-09
# Pragmatic Oddityを避ける - ボトムアップで定義可能なデオン論理

Avoiding Pragmatic Oddity: A Bottom-up Defeasible Deontic Logic ( http://arxiv.org/abs/2209.04553v1 )

ライセンス: Link先を確認
Guido Governatori, Silvano Colombo Tosatto and Antonino Rotolo(参考訳) 本稿では,実用性の問題に対処するため,Dedeasible Deontic Logicの拡張を提案する。 Pragmatic Oddity問題は、CTD推論の一般的な論理的処理の中で解決されなければならない; 2)非単調法はCTD推論を扱うために適用されなければならない; 3)CTD推論の論理モデルは計算可能で、可能であれば効率的でなければならない。 defeasible deontic logicの提案された拡張は、governatori and rotolo (2019) によって提案されたモデルの予備バージョンを詳述している。 以前の解は論理学の(構成的、トップダウンな)証明理論の特徴に基づいている。 しかし、この方法はある程度の非決定性をもたらす。 この問題を回避するために,論理のボトムアップ特性を提供する。 新しい特徴付けは、論理の効率的な実装に関する洞察を与え、問題の計算複雑性を確立することを可能にする。

This paper presents an extension of Defeasible Deontic Logic to deal with the Pragmatic Oddity problem. The logic applies three general principles: (1) the Pragmatic Oddity problem must be solved within a general logical treatment of CTD reasoning; (2) non-monotonic methods must be adopted to handle CTD reasoning; (3) logical models of CTD reasoning must be computationally feasible and, if possible, efficient. The proposed extension of Defeasible Deontic Logic elaborates a preliminary version of the model proposed by Governatori and Rotolo (2019). The previous solution was based on particular characteristics of the (constructive, top-down) proof theory of the logic. However, that method introduces some degree of non-determinism. To avoid the problem, we provide a bottom-up characterisation of the logic. The new characterisation offers insights for the efficient implementation of the logic and allows us to establish the computational complexity of the problem.
翻訳日:2022-09-13 13:44:08 公開日:2022-09-09
# gluformer:不確実性定量化を用いたトランスフォーマタによるパーソナライズ型グルコース予測

Gluformer: Transformer-Based Personalized Glucose Forecasting with Uncertainty Quantification ( http://arxiv.org/abs/2209.04526v1 )

ライセンス: Link先を確認
Renat Sergazinov, Mohammadreza Armandpour, Irina Gaynanova(参考訳) 深層学習モデルは、幅広いアーキテクチャーが提案され、血糖の軌跡を予測するための最先端の成果を達成する。 しかし、そのようなモデルの臨床実践への適応は遅く、主に提供された予測の不確実性の定量化が欠如しているためである。 本研究では,過去に条件づけられたグルコースの軌跡を,基底分布(ガウス,ラプラスなど)の無限混合としてモデル化する。 この変化は不確かさを学習し、軌道が異種分布または多様分布を持つ場合においてより正確な予測を可能にする。 予測分布のパラメータを推定するために,Transformerアーキテクチャを用いる。 我々は,合成グルコースデータセットとベンチマークグルコースデータセットの精度と不確実性の観点から,既存の最先端技術よりも優れた手法を実証的に示す。

Deep learning models achieve state-of-the art results in predicting blood glucose trajectories, with a wide range of architectures being proposed. However, the adaptation of such models in clinical practice is slow, largely due to the lack of uncertainty quantification of provided predictions. In this work, we propose to model the future glucose trajectory conditioned on the past as an infinite mixture of basis distributions (i.e., Gaussian, Laplace, etc.). This change allows us to learn the uncertainty and predict more accurately in the cases when the trajectory has a heterogeneous or multi-modal distribution. To estimate the parameters of the predictive distribution, we utilize the Transformer architecture. We empirically demonstrate the superiority of our method over existing state-of-the-art techniques both in terms of accuracy and uncertainty on the synthetic and benchmark glucose data sets.
翻訳日:2022-09-13 13:31:53 公開日:2022-09-09
# 自己学習ラベル表現によるモデルトレーニングの改善

Improving Model Training via Self-learned Label Representations ( http://arxiv.org/abs/2209.04528v1 )

ライセンス: Link先を確認
Xiao Yu and Nakul Verma(参考訳) 現代のニューラルネットワークアーキテクチャは、いくつかの大規模分類と予測タスクで顕著な成功を収めている。 これらのアーキテクチャの成功の一部は、データを生の入力表現(視覚タスクのピクセルや自然言語処理タスクのテキストなど)からワンホットな出力エンコーディングに変換する柔軟性にあります。 作業の多くは入力が1つのホットなエンコーディングにどのように変換されるかの研究に費やされているが、これらの1つのホットなラベルの有効性についてはほとんど研究されていない。 本研究では,従来のワンホット符号化よりも高度なラベル表現の方が分類に適していることを示す。 本稿では,分類タスクの学習中にラベル表現を同時に学習する適応ラベル(lwal)アルゴリズムによる学習を提案する。 これらの学習されたラベルは、トレーニング時間(通常50%以上)を大幅に削減できると同時に、テストの精度も向上する。 本アルゴリズムは無視可能な追加パラメータを導入し,計算オーバーヘッドが最小となる。 トレーニング時間の改善とともに、学習したラベルは意味的に意味があり、データに存在するかもしれない階層的関係を明らかにすることができます。

Modern neural network architectures have shown remarkable success in several large-scale classification and prediction tasks. Part of the success of these architectures is their flexibility to transform the data from the raw input representations (e.g. pixels for vision tasks, or text for natural language processing tasks) to one-hot output encoding. While much of the work has focused on studying how the input gets transformed to the one-hot encoding, very little work has examined the effectiveness of these one-hot labels. In this work, we demonstrate that more sophisticated label representations are better for classification than the usual one-hot encoding. We propose Learning with Adaptive Labels (LwAL) algorithm, which simultaneously learns the label representation while training for the classification task. These learned labels can significantly cut down on the training time (usually by more than 50%) while often achieving better test accuracies. Our algorithm introduces negligible additional parameters and has a minimal computational overhead. Along with improved training times, our learned labels are semantically meaningful and can reveal hierarchical relationships that may be present in the data.
翻訳日:2022-09-13 13:31:40 公開日:2022-09-09
# mcibi++: セマンティックセグメンテーションのための画像を超えたソフトマイニングコンテキスト情報

MCIBI++: Soft Mining Contextual Information Beyond Image for Semantic Segmentation ( http://arxiv.org/abs/2209.04471v1 )

ライセンス: Link先を確認
Zhenchao Jin, Dongdong Yu, Zehuan Yuan, Lequan Yu(参考訳) 共起型視覚パターンはコンテキスト集約を意味的セグメンテーションに必須のパラダイムとし、既存の研究では、画像以外のカテゴリの貴重な意味を無視しながら、画像内のコンテキストをモデル化することに重点を置いている。 そこで本研究では,MCIBI++という画像パラダイムを超越したソフトマイニングのコンテキスト情報を提案し,ピクセルレベルの表現をさらに強化する。 具体的には、まず動的に更新されたメモリモジュールを設定し、様々なカテゴリのデータセットレベルの分布情報を格納し、その情報を利用して、ネットワーク転送中にデータセットレベルのカテゴリ表現を生成する。 その後、各画素表現に対してクラス確率分布を生成し、クラス確率分布を重みとしてデータセットレベルのコンテキスト集約を行う。 最後に、元の画素表現を集約データセットレベルと従来の画像レベルのコンテキスト情報で拡張する。 さらに, 推定段階では, 分割結果をさらに高めるために, 粗大から細かな反復的推論戦略も設計する。 MCIBI++は、既存のセグメンテーションフレームワークに懸命に組み込むことができ、一貫したパフォーマンス改善をもたらす。 また、mcibi++はビデオセマンティクスセグメンテーションフレームワークに拡張でき、ベースラインを大幅に改善することができる。 MCIBI++と組み合わせて、7つの挑戦的な画像またはビデオセマンティックセグメンテーションベンチマークで最先端のパフォーマンスを達成した。

Co-occurrent visual pattern makes context aggregation become an essential paradigm for semantic segmentation.The existing studies focus on modeling the contexts within image while neglecting the valuable semantics of the corresponding category beyond image. To this end, we propose a novel soft mining contextual information beyond image paradigm named MCIBI++ to further boost the pixel-level representations. Specifically, we first set up a dynamically updated memory module to store the dataset-level distribution information of various categories and then leverage the information to yield the dataset-level category representations during network forward. After that, we generate a class probability distribution for each pixel representation and conduct the dataset-level context aggregation with the class probability distribution as weights. Finally, the original pixel representations are augmented with the aggregated dataset-level and the conventional image-level contextual information. Moreover, in the inference phase, we additionally design a coarse-to-fine iterative inference strategy to further boost the segmentation results. MCIBI++ can be effortlessly incorporated into the existing segmentation frameworks and bring consistent performance improvements. Also, MCIBI++ can be extended into the video semantic segmentation framework with considerable improvements over the baseline. Equipped with MCIBI++, we achieved the state-of-the-art performance on seven challenging image or video semantic segmentation benchmarks.
翻訳日:2022-09-13 13:08:01 公開日:2022-09-09
# EPIC-KITCHENS-100へのPolito-IIT-CINIのサブミッション

PoliTO-IIT-CINI Submission to the EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition ( http://arxiv.org/abs/2209.04525v1 )

ライセンス: Link先を確認
Mirco Planamente, Gabriele Goletto, Gabriele Trivigno, Giuseppe Averta, Barbara Caputo(参考訳) 本稿では、epic-kitchens-100unsupervised domain adaptation (uda) challenge in action recognitionの技術的詳細について述べる。 UDA設定下で存在するドメインシフトに対処するために、私たちは最近、Relative Norm Alignment (RNA)と呼ばれるドメイン一般化(DG)技術を利用した。 第二に、この手法を非競合対象データに拡張し、教師なしの方法でモデルが対象分布に適応することを可能にした。 この目的のために、我々は、多レベル対向アライメントや注意エントロピーなどのUDAアルゴリズムをフレームワークに組み込んだ。 課題を解析することにより、通常環境バイアスと呼ばれるデータに二次的コンカレンスシフトが存在することに気づく。 それは、異なる環境、すなわちキッチンの存在によって引き起こされる。 これら2つのシフト(環境と時間)に対処するため,マルチソースマルチターゲットドメイン適応を行うようシステムを拡張した。 最後に,人気のあるビデオアーキテクチャの可能性を活用するため,最終提案では異なるモデルを採用し,アンサンブル適応にさらに2つの損失を導入した。 我々の提出(エントリー「plnet」)は、リーダーボードに表示され、第2位は「動詞」、第3位は「名詞」と「アクション」の両方にランク付けされます。

In this report, we describe the technical details of our submission to the EPIC-Kitchens-100 Unsupervised Domain Adaptation (UDA) Challenge in Action Recognition. To tackle the domain-shift which exists under the UDA setting, we first exploited a recent Domain Generalization (DG) technique, called Relative Norm Alignment (RNA). Secondly, we extended this approach to work on unlabelled target data, enabling a simpler adaptation of the model to the target distribution in an unsupervised fashion. To this purpose, we included in our framework UDA algorithms, such as multi-level adversarial alignment and attentive entropy. By analyzing the challenge setting, we notice the presence of a secondary concurrence shift in the data, which is usually called environmental bias. It is caused by the existence of different environments, i.e., kitchens. To deal with these two shifts (environmental and temporal), we extended our system to perform Multi-Source Multi-Target Domain Adaptation. Finally, we employed distinct models in our final proposal to leverage the potential of popular video architectures, and we introduced two more losses for the ensemble adaptation. Our submission (entry 'plnet') is visible on the leaderboard and ranked in 2nd position for 'verb', and in 3rd position for both 'noun' and 'action'.
翻訳日:2022-09-13 13:07:37 公開日:2022-09-09
# フレーム補間のための空間誘導型ネットワーク設計

Sparsity-guided Network Design for Frame Interpolation ( http://arxiv.org/abs/2209.04551v1 )

ライセンス: Link先を確認
Tianyu Ding, Luming Liang, Zhihui Zhu, Tianyi Chen, Ilya Zharkov(参考訳) 2つの連続するフレームから中間フレームを生成するDNNベースのフレーム補間は、しばしば多数の機能を持つモデルアーキテクチャに依存し、モバイルデバイスのような限られたリソースを持つシステムへの展開を妨げている。 本稿では,フレーム補間のための圧縮駆動型ネットワーク設計手法を提案する。 具体的には、最近提案されたadacofモデルを圧縮し、10倍の圧縮adacofが元のadacofと同等の性能を発揮することを示すことから始める。 次に,マルチレゾリューションウォーピングモジュールを導入することで圧縮モデルを強化し,マルチレベル詳細との視覚的一貫性を向上した。 その結果、オリジナルのadacofの4分の1のサイズでかなりのパフォーマンス向上を達成しました。 さらに、我々のモデルは、様々なデータセットに対する他の最先端アプローチに対して好意的に機能する。 提案する圧縮駆動フレームワークは汎用的であり,他のDNNベースのフレーム補間アルゴリズムに容易に移行可能である。 ソースコードはhttps://github.com/tding1/CDFIで入手できる。

DNN-based frame interpolation, which generates intermediate frames from two consecutive frames, is often dependent on model architectures with a large number of features, preventing their deployment on systems with limited resources, such as mobile devices. We present a compression-driven network design for frame interpolation that leverages model pruning through sparsity-inducing optimization to greatly reduce the model size while attaining higher performance. Concretely, we begin by compressing the recently proposed AdaCoF model and demonstrating that a 10 times compressed AdaCoF performs similarly to its original counterpart, where different strategies for using layerwise sparsity information as a guide are comprehensively investigated under a variety of hyperparameter settings. We then enhance this compressed model by introducing a multi-resolution warping module, which improves visual consistency with multi-level details. As a result, we achieve a considerable performance gain with a quarter of the size of the original AdaCoF. In addition, our model performs favorably against other state-of-the-art approaches on a wide variety of datasets. We note that the suggested compression-driven framework is generic and can be easily transferred to other DNN-based frame interpolation algorithms. The source code is available at https://github.com/tding1/CDFI.
翻訳日:2022-09-13 13:07:13 公開日:2022-09-09
# 大学進学指導のテキスト簡易化--専門職に簡略化・検証されたコーパス

Text Simplification of College Admissions Instructions: A Professionally Simplified and Verified Corpus ( http://arxiv.org/abs/2209.04529v1 )

ライセンス: Link先を確認
Zachary W. Taylor, Maximus H. Chu, Junyi Jessy Li(参考訳) 高等教育へのアクセスは少数民族や創発的なバイリンガルの学生にとって重要である。 しかし、高等教育機関が先進的な学生とコミュニケーションするために使う言語は複雑すぎることが多く、具体的には、米国内の多くの機関が、13年生か14年生に近い典型的な高校卒業者の平均読解レベルよりもはるかに高い許可申請書を発行している。 これにより、生徒と高等教育へのアクセスが不要になる。 この作業は、テキストの単純化によってこの問題に取り組むことを目的としている。 PSAT(Professionally Simplified Admissions Texts)は、全米の高等教育機関からランダムに選抜された112の入学命令を含むデータセットである。 これらのテキストは、専門的に単純化され、様々な機関の入社事務所でフルタイムの従業員である専門家によって検証され、受け入れられる。 さらに、PSATは1,883の原文対を手動でアライメントする。 その結果,既存の単純化資源と異なるジャンルのテキスト単純化システムの評価と微調整を行う第一種コーパスが得られた。

Access to higher education is critical for minority populations and emergent bilingual students. However, the language used by higher education institutions to communicate with prospective students is often too complex; concretely, many institutions in the US publish admissions application instructions far above the average reading level of a typical high school graduate, often near the 13th or 14th grade level. This leads to an unnecessary barrier between students and access to higher education. This work aims to tackle this challenge via text simplification. We present PSAT (Professionally Simplified Admissions Texts), a dataset with 112 admissions instructions randomly selected from higher education institutions across the US. These texts are then professionally simplified, and verified and accepted by subject-matter experts who are full-time employees in admissions offices at various institutions. Additionally, PSAT comes with manual alignments of 1,883 original-simplified sentence pairs. The result is a first-of-its-kind corpus for the evaluation and fine-tuning of text simplification systems in a high-stakes genre distinct from existing simplification resources.
翻訳日:2022-09-13 12:57:33 公開日:2022-09-09
# 音声認証におけるデータ中毒攻撃の防御

Defend Data Poisoning Attacks on Voice Authentication ( http://arxiv.org/abs/2209.04547v1 )

ライセンス: Link先を確認
Ke Li, Cameron Baird and Dan Lin(参考訳) ディープラーニングの進歩により、話者認証は非常に高い精度を達成し、私たちの日常生活、特に成長しているwebサービスの市場において、バイオメトリック認証の選択肢として人気が高まっています。 従来のパスワードと比べて、「ボーカルパスワード」は、人々が異なるパスワードを覚えるのを和らげるため、ずっと便利です。 しかし、新しい機械学習攻撃は、これらの音声認証システムを危険にさらしている。 強力なセキュリティ保証がなければ、攻撃者はdeep neural network(dnn)ベースの音声認識モデルを騙すことで、正当なユーザーのwebアカウントにアクセスできる。 本稿では,既存の防御機構では把握できない音声認証システムに対して,実装が容易なデータ中毒攻撃を実演する。 そこで我々は,畳み込みニューラルネットワークに基づく識別器であるGuardianという,より堅牢な防御手法を提案する。 guardian discriminatorはバイアス低減、入力強化、アンサンブル学習を含む一連の新しいテクニックを統合している。 攻撃されたアカウントの95%を通常のアカウントと区別することができ、60%の精度で既存のアプローチよりもはるかに効果的です。

With the advances in deep learning, speaker verification has achieved very high accuracy and is gaining popularity as a type of biometric authentication option in many scenes of our daily life, especially the growing market of web services. Compared to traditional passwords, "vocal passwords" are much more convenient as they relieve people from memorizing different passwords. However, new machine learning attacks are putting these voice authentication systems at risk. Without a strong security guarantee, attackers could access legitimate users' web accounts by fooling the deep neural network (DNN) based voice recognition models. In this paper, we demonstrate an easy-to-implement data poisoning attack to the voice authentication system, which can hardly be captured by existing defense mechanisms. Thus, we propose a more robust defense method, called Guardian, which is a convolutional neural network-based discriminator. The Guardian discriminator integrates a series of novel techniques including bias reduction, input augmentation, and ensemble learning. Our approach is able to distinguish about 95% of attacked accounts from normal accounts, which is much more effective than existing approaches with only 60% accuracy.
翻訳日:2022-09-13 12:49:35 公開日:2022-09-09
# DeepSTI: Susceptibility Tensor Imaging における低位方向を用いた腱再建に向けて

DeepSTI: Towards Tensor Reconstruction using Fewer Orientations in Susceptibility Tensor Imaging ( http://arxiv.org/abs/2209.04504v1 )

ライセンス: Link先を確認
Zhenghan Fang, Kuo-Wei Lai, Peter van Zijl, Xu Li, Jeremias Sulam(参考訳) 磁化率テンソルイメージング(sti: susceptibility tensor imaging)は、異方性組織磁化率を2次テンソルモデルで特徴づける新しい磁気共鳴イメージング技術である。 STIは、白質繊維経路の再構築と、ミリ分解能以下の脳のミエリン変化の検出の両方のための情報を提供する可能性がある。 しかし、生体内でのSTIの応用は、複数の(通常6つ以上の)頭部配向において、感受性誘導MR相の変化を測定するという煩雑で時間を要する買収要求によって妨げられている。 この複雑さは、ヘッドコイルの物理的制約による頭部回転角の制限によって強化される。 その結果、STIはin vivoでヒト研究に広く適用されていない。 本研究では,データ駆動の事前情報を活用するSTIの画像再構成アルゴリズムを提案することで,これらの課題に対処する。 我々の手法はDeepSTIと呼ばれ、STIの正則化関数の近位演算子を近似したディープニューラルネットワークを介して暗黙的にデータを学習する。 次に、学習した近位ネットワークを用いて双極子反転問題を反復的に解く。 シミュレーションと生体内データの両方を用いた実験により, 再構成テンソル画像, 主固有ベクトルマップ, トラクトグラフィーの結果から, 最先端のアルゴリズムよりも大幅に改善され, MR位相を6方向以下で測定したテンソル再構成が可能となった。 とくに, 生体内一方向のみから有望な再構成法が得られ, 多発性硬化症の病変感受性異方性評価に有用である可能性が示唆された。

Susceptibility tensor imaging (STI) is an emerging magnetic resonance imaging technique that characterizes the anisotropic tissue magnetic susceptibility with a second-order tensor model. STI has the potential to provide information for both the reconstruction of white matter fiber pathways and detection of myelin changes in the brain at mm resolution or less, which would be of great value for understanding brain structure and function in healthy and diseased brain. However, the application of STI in vivo has been hindered by its cumbersome and time-consuming acquisition requirement of measuring susceptibility induced MR phase changes at multiple (usually more than six) head orientations. This complexity is enhanced by the limitation in head rotation angles due to physical constraints of the head coil. As a result, STI has not yet been widely applied in human studies in vivo. In this work, we tackle these issues by proposing an image reconstruction algorithm for STI that leverages data-driven priors. Our method, called DeepSTI, learns the data prior implicitly via a deep neural network that approximates the proximal operator of a regularizer function for STI. The dipole inversion problem is then solved iteratively using the learned proximal network. Experimental results using both simulation and in vivo human data demonstrate great improvement over state-of-the-art algorithms in terms of the reconstructed tensor image, principal eigenvector maps and tractography results, while allowing for tensor reconstruction with MR phase measured at much less than six different orientations. Notably, promising reconstruction results are achieved by our method from only one orientation in human in vivo, and we demonstrate a potential application of this technique for estimating lesion susceptibility anisotropy in patients with multiple sclerosis.
翻訳日:2022-09-13 12:43:51 公開日:2022-09-09
# 多次元画像データにおける物体の絡み合い・クラスタリング・分類のための親和性

Affinity-VAE for disentanglement, clustering and classification of objects in multidimensional image data ( http://arxiv.org/abs/2209.04517v1 )

ライセンス: Link先を確認
Jola Mirecka, Marjan Famili, Anna Kota\'nska, Nikolai Juraschko, Beatriz Costa-Gomes, Colin M. Palmer, Jeyan Thiyagalingam, Tom Burnley, Mark Basham, Alan R. Lowe(参考訳) 本稿では,多次元画像データにおけるオブジェクトの自動クラスタリングと分類のためのフレームワーク affinity-vae を提案する。 この方法は、親和行列によって駆動される類似性に基づく損失成分により、$\beta$-vaesの概念を拡張する。 affinity-vaeは、標準の$\beta$-vaeと比較してクラスタ分離を改善し、潜在表現で回転不変で形態学的に均質なクラスターを作成できる。 本研究では,2次元および3次元画像データ上での潜伏空間のゆがみと連続性の範囲について検討し,その例として生物電子線クロマトグラフィー(cryo-ET)の体積のシミュレーションを行った。

In this work we present affinity-VAE: a framework for automatic clustering and classification of objects in multidimensional image data based on their similarity. The method expands on the concept of $\beta$-VAEs with an informed similarity-based loss component driven by an affinity matrix. The affinity-VAE is able to create rotationally-invariant, morphologically homogeneous clusters in the latent representation, with improved cluster separation compared with a standard $\beta$-VAE. We explore the extent of latent disentanglement and continuity of the latent spaces on both 2D and 3D image data, including simulated biological electron cryo-tomography (cryo-ET) volumes as an example of a scientific application.
翻訳日:2022-09-13 12:43:23 公開日:2022-09-09
# DeID-VC:ゼロショット擬似音声変換による話者識別

DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion ( http://arxiv.org/abs/2209.04530v1 )

ライセンス: Link先を確認
Ruibin Yuan, Yuxuan Wu, Jacob Li, Jaxter Kim(参考訳) 音声ベースのオンラインサービスの普及により、彼らが使用し共有するデータに関するセキュリティとプライバシーの懸念が高まる。 データが漏洩したら、攻撃者はユーザーのスピーチを利用して話者認証システムをバイパスしたり、ユーザーを偽装したりできる。 これを軽減するために,実話者を擬似話者に変換する話者識別システムであるDeID-VCを提案する。 DeID-VCの重要なコンポーネントは、可変オートエンコーダ(VAE)ベースのPseudo Speaker Generator(PSG)とゼロショット設定による音声変換オートエンコーダ(AE)である。 PSGの助けを借りて、DeID-VCは独自の擬似話者を話者レベルや発話レベルに割り当てることができる。 また、ゼロショット音声変換の訓練と推論のギャップを埋めるために、2つの新しい学習目標が追加された。 本稿では,単語誤り率 (WER) と等しい誤り率 (EER) と,DeID-VCの出力を評価するための3つの主観的指標について述べる。 その結果,本手法はベースラインに比べて知性が大幅に向上し(10%以下),非識別性(5%以上)が向上した。 コードとリスニングデモ:https://github.com/a43992899/DeID-VC

The widespread adoption of speech-based online services raises security and privacy concerns regarding the data that they use and share. If the data were compromised, attackers could exploit user speech to bypass speaker verification systems or even impersonate users. To mitigate this, we propose DeID-VC, a speaker de-identification system that converts a real speaker to pseudo speakers, thus removing or obfuscating the speaker-dependent attributes from a spoken voice. The key components of DeID-VC include a Variational Autoencoder (VAE) based Pseudo Speaker Generator (PSG) and a voice conversion Autoencoder (AE) under zero-shot settings. With the help of PSG, DeID-VC can assign unique pseudo speakers at speaker level or even at utterance level. Also, two novel learning objectives are added to bridge the gap between training and inference of zero-shot voice conversion. We present our experimental results with word error rate (WER) and equal error rate (EER), along with three subjective metrics to evaluate the generated output of DeID-VC. The result shows that our method substantially improved intelligibility (WER 10% lower) and de-identification effectiveness (EER 5% higher) compared to our baseline. Code and listening demo: https://github.com/a43992899/DeID-VC
翻訳日:2022-09-13 12:39:48 公開日:2022-09-09
# 階層型分類を用いた分布外データの微粒化推論

Fine-grain Inference on Out-of-Distribution Data with Hierarchical Classification ( http://arxiv.org/abs/2209.04493v1 )

ライセンス: Link先を確認
Randolph Linderman, Jingyang Zhang, Nathan Inkawhich, Hai Li, Yiran Chen(参考訳) 機械学習の手法は、たとえood(out-of-distribution)サンプルに直面したとしても、現実世界の環境で適切な判断を行うように信頼されなければならない。 現在の多くのアプローチは、単にOODの例を検出し、未認識の入力が与えられたときにユーザーに警告することを目的としています。 しかし、OODサンプルがトレーニングデータと著しく重なり合う場合、バイナリ異常検出は解釈できないか説明できないため、ユーザにはほとんど情報を提供しない。 我々は,入力があいまいになり,モデル予測がより粗く,保守的になるにつれて,様々な粒度の予測を行うOOD検出の新しいモデルを提案する。 未知の鳥類と自動車に遭遇する動物分類器を考える。 どちらのケースもOODであるが、特定の種に対する不確実性が大きすぎることを認識し、OODとして検出する代わりに鳥を予測すると、ユーザがより多くの情報を得る。 さらに,分類器の性能を階層ごとに診断し,モデル予測の説明可能性や解釈可能性を向上させる。 細粒度OODタスクと粗粒度OODタスクの階層型分類器の有効性を示す。

Machine learning methods must be trusted to make appropriate decisions in real-world environments, even when faced with out-of-distribution (OOD) samples. Many current approaches simply aim to detect OOD examples and alert the user when an unrecognized input is given. However, when the OOD sample significantly overlaps with the training data, a binary anomaly detection is not interpretable or explainable, and provides little information to the user. We propose a new model for OOD detection that makes predictions at varying levels of granularity as the inputs become more ambiguous, the model predictions become coarser and more conservative. Consider an animal classifier that encounters an unknown bird species and a car. Both cases are OOD, but the user gains more information if the classifier recognizes that its uncertainty over the particular species is too large and predicts bird instead of detecting it as OOD. Furthermore, we diagnose the classifiers performance at each level of the hierarchy improving the explainability and interpretability of the models predictions. We demonstrate the effectiveness of hierarchical classifiers for both fine- and coarse-grained OOD tasks.
翻訳日:2022-09-13 12:39:25 公開日:2022-09-09
# 非線形因子モデルによる深層学習:次元の曲線の適応性と回避

Deep Learning with Non-Linear Factor Models: Adaptability and Avoidance of Curse of Dimensionality ( http://arxiv.org/abs/2209.04512v1 )

ライセンス: Link先を確認
Mehmet Caner Maurizio Daniele(参考訳) 本稿では,深層学習文と非線形因子モデルを結びつけることにより,深層学習推定が非線形加法因子モデル文の大幅な改善をもたらすことを示す。 これらの上限は、シュミット・ハイバー(2020)の定理を拡張することで、複数の応答変数の集合に対して均一であることを示す。 リスクバウンドが要因の数に依存しないことを示します。 資産返却のための共分散行列推定器を構築するため,深層ニューラルネットワークにおける誤差共分散行列の新しいデータ依存推定器を開発した。 推定器はフレキシブルな適応しきい値決定技術であり、イノベーションにおける外れ値に対して堅牢である。 推定器がスペクトルノルムで一貫していることを証明する。 この結果を用いて、共分散行列の一貫性と収束率、および資産返却の精度行列推定器を示す。 両結果の収束率は因子の数には依存しないため,因子の数が推定や予測に支障をきたすため,因子モデル文献の新たな結果となる。 精度マトリクス結果以外は,アセット数が時間スパンより大きい場合でもすべての結果が得られ,両量ともに増加している。 モンテカルロシミュレーションにより, DNN-FMの精度が向上し, 因子と可観測変数を結合する真の機能形式と, 競合するアプローチと比較して共分散行列と精度行列を推定できることがわかった。 さらに、サンプル外ポートフォリオ予測アプリケーションでは、ほとんどの場合、サンプル外ポートフォリオ標準偏差とシャープ比の点で、代替ポートフォリオ戦略よりも優れています。

In this paper, we connect deep learning literature with non-linear factor models and show that deep learning estimation makes a substantial improvement in the non-linear additive factor model literature. We provide bounds on the expected risk and show that these upper bounds are uniform over a set of multiple response variables by extending Schmidt-Hieber (2020) theorems. We show that our risk bound does not depend on the number of factors. In order to construct a covariance matrix estimator for asset returns, we develop a novel data-dependent estimator of the error covariance matrix in deep neural networks. The estimator refers to a flexible adaptive thresholding technique which is robust to outliers in the innovations. We prove that the estimator is consistent in spectral norm. Then using that result, we show consistency and rate of convergence of covariance matrix and precision matrix estimator for asset returns. The rate of convergence in both results do not depend on the number of factors, hence ours is a new result in the factor model literature due to the fact that number of factors are impediment to better estimation and prediction. Except from the precision matrix result, all our results are obtained even with number of assets are larger than the time span, and both quantities are growing. Various Monte Carlo simulations confirm our large sample findings and reveal superior accuracies of the DNN-FM in estimating the true underlying functional form which connects the factors and observable variables, as well as the covariance and precision matrix compared to competing approaches. Moreover, in an out-of-sample portfolio forecasting application it outperforms in most of the cases alternative portfolio strategies in terms of out-of-sample portfolio standard deviation and Sharpe ratio.
翻訳日:2022-09-13 12:33:28 公開日:2022-09-09
# 複数の睡眠メカニズムによる継続的学習のメリット:nrem、rem、シナプスダウンスケーリング

Continual learning benefits from multiple sleep mechanisms: NREM, REM, and Synaptic Downscaling ( http://arxiv.org/abs/2209.05245v1 )

ライセンス: Link先を確認
Brian S. Robinson, Clare W. Lau, Alexander New, Shane M. Nichols, Erik C. Johnson, Michael Wolmetz, and William G. Coon(参考訳) 先行学習を失うことなく新しいタスクやスキルを学習することは、人工ニューラルネットワークと生物学的ニューラルネットワークの両方にとって計算上の課題であるが、人工システムは生物学的な類似物と同等性を達成するのに苦労している。 哺乳類の脳は、睡眠中の継続的な学習を支援するために多くの神経操作を用いる。 これらは人工適応のための熟成である。 本稿では, 哺乳類睡眠の3つの異なる成分が人工ニューラルネットワークの連続学習にどのように影響するかを検討する。(1)非ラピッドアイムーブメント(NREM)睡眠中に観察される検証的記憶再生過程, (2)REM睡眠に関連する生成的記憶再生過程, 3)信号-ノイズ比を調整し, ニューラルアップキープをサポートするためのシナプスダウンスケーリングプロセス。 連続学習型CIFAR-100画像分類ベンチマークの性能評価において、3つの睡眠成分を全て含んでいることによる利点を見出した。 訓練中は最大精度が向上し,その後は破滅的忘れ込みが軽減された。 ネットワークトレーニングの過程で壊滅的な忘れが続く一方で、シナプスダウンスケーリングのレベルが高まり、初期のタスクの保持が向上し、その後のトレーニングで初期のタスク精度の回復が促進された。 ひとつ重要な点は、より積極的なダウンスケーリングを使用するためのシナプス的なダウンスケーリングのレベルが早期タスクをよりよく保護する一方で、ダウンスケーリングの少ないことで新しいタスクを学ぶ能力が向上する、という点だ。 中間レベルは、トレーニング中に最も高い確率でバランスをとることができる。 以上の結果から, 人工連続学習システムに睡眠成分を適応させる方法についての知見が得られ, 今後の神経科学睡眠研究の分野に注目する。

Learning new tasks and skills in succession without losing prior learning (i.e., catastrophic forgetting) is a computational challenge for both artificial and biological neural networks, yet artificial systems struggle to achieve parity with their biological analogues. Mammalian brains employ numerous neural operations in support of continual learning during sleep. These are ripe for artificial adaptation. Here, we investigate how modeling three distinct components of mammalian sleep together affects continual learning in artificial neural networks: (1) a veridical memory replay process observed during non-rapid eye movement (NREM) sleep; (2) a generative memory replay process linked to REM sleep; and (3) a synaptic downscaling process which has been proposed to tune signal-to-noise ratios and support neural upkeep. We find benefits from the inclusion of all three sleep components when evaluating performance on a continual learning CIFAR-100 image classification benchmark. Maximum accuracy improved during training and catastrophic forgetting was reduced during later tasks. While some catastrophic forgetting persisted over the course of network training, higher levels of synaptic downscaling lead to better retention of early tasks and further facilitated the recovery of early task accuracy during subsequent training. One key takeaway is that there is a trade-off at hand when considering the level of synaptic downscaling to use - more aggressive downscaling better protects early tasks, but less downscaling enhances the ability to learn new tasks. Intermediate levels can strike a balance with the highest overall accuracies during training. Overall, our results both provide insight into how to adapt sleep components to enhance artificial continual learning systems and highlight areas for future neuroscientific sleep research to further such systems.
翻訳日:2022-09-13 12:20:54 公開日:2022-09-09
# オートエンコーダに基づく反復モデリングと多変量時系列クラスタリングアルゴリズム

Autoencoder Based Iterative Modeling and Multivariate Time-Series Subsequence Clustering Algorithm ( http://arxiv.org/abs/2209.04213v1 )

ライセンス: Link先を確認
Jonas K\"ohne, Lars Henning, Clemens G\"uhmann(参考訳) 本稿では,過渡多変量時系列データ(MTSD)における変化点の検出と対応する部分列の同定を行うアルゴリズムを提案する。 このようなデータの解析は、多くの産業分野の可用性の向上により、ますます重要になっている。 訓練条件ベースメンテナンス(cbm)モデルのための、高度に過渡的な測定データのラベル付け、ソート、フィルタリングは、面倒でエラーやすい。 一部のアプリケーションでは、単純なしきい値による測定をフィルタリングしたり、平均値と変動の変化に基づいて変更点を見つけるのに十分です。 しかし、例えば、複数のセンサ値の間に複雑な非線形相関を持つコンポーネント群内のコンポーネントの堅牢な診断は、単純なアプローチでは実現できないだろう。 CbMモデルのトレーニングに使用できる有意義で一貫性のある測定データは存在しない。 そこで本研究では,リカレントニューラルネットワーク(RNN)をベースとしたオートエンコーダ(AE)を用いたアルゴリズムを提案する。 スコアリング関数は、再構成誤差と潜時空間情報を用いる。 識別されたサブシーケンスのモデルは保存され、繰り返しサブシーケンスの認識や、高速なオフラインクラスタリングに使用される。 評価のために,より直感的な時系列サブシーケンスクラスタリング尺度の曲率に基づく新しい類似度尺度を提案する。 他の7つの最先端アルゴリズムと8つのデータセットと比較すると、メカトロニクスシステムとともにMTSDをオンラインおよびオフラインでクラスタリングするアルゴリズムの性能と性能が向上している。

This paper introduces an algorithm for the detection of change-points and the identification of the corresponding subsequences in transient multivariate time-series data (MTSD). The analysis of such data has become more and more important due to the increase of availability in many industrial fields. Labeling, sorting or filtering highly transient measurement data for training condition based maintenance (CbM) models is cumbersome and error-prone. For some applications it can be sufficient to filter measurements by simple thresholds or finding change-points based on changes in mean value and variation. But a robust diagnosis of a component within a component group for example, which has a complex non-linear correlation between multiple sensor values, a simple approach would not be feasible. No meaningful and coherent measurement data which could be used for training a CbM model would emerge. Therefore, we introduce an algorithm which uses a recurrent neural network (RNN) based Autoencoder (AE) which is iteratively trained on incoming data. The scoring function uses the reconstruction error and latent space information. A model of the identified subsequence is saved and used for recognition of repeating subsequences as well as fast offline clustering. For evaluation, we propose a new similarity measure based on the curvature for a more intuitive time-series subsequence clustering metric. A comparison with seven other state-of-the-art algorithms and eight datasets shows the capability and the increased performance of our algorithm to cluster MTSD online and offline in conjunction with mechatronic systems.
翻訳日:2022-09-12 13:15:50 公開日:2022-09-09
# 非観血的共同設立者とのリスク・アバース多関節バンド : モバイルヘルスにおける情動制御の事例研究

Risk-Averse Multi-Armed Bandits with Unobserved Confounders: A Case Study in Emotion Regulation in Mobile Health ( http://arxiv.org/abs/2209.04356v1 )

ライセンス: Link先を確認
Yi Shen, Jessilyn Dunn, Michael M. Zavlanos(参考訳) 本稿では、リスクニュートラルMABに対する通常のアプローチの目的である期待したリターンを最大化するのとは対照的に、低いリターンのリスクを最小限に抑える政策を学ぶことを目標とするリスクアバースマルチアームバンディット(MAB)問題を考える。 具体的には,この問題を,専門家と学習者エージェント間の伝達学習問題として定式化し,専門家によってのみ観察できるが学習者によっては観察できないコンテキストの存在下で述べる。 したがって、このような文脈は学習者の視点から観察されていない共同設立者(ucs)である。 UCを除外する専門家によって生成されたデータセットを前提として、学習者の目標は、専門家のデータにUCが存在することによるバイアスのある決定を回避しつつ、オンライン学習のステップが少ない真の最小リスクアームを特定することである。

In this paper, we consider a risk-averse multi-armed bandit (MAB) problem where the goal is to learn a policy that minimizes the risk of low expected return, as opposed to maximizing the expected return itself, which is the objective in the usual approach to risk-neutral MAB. Specifically, we formulate this problem as a transfer learning problem between an expert and a learner agent in the presence of contexts that are only observable by the expert but not by the learner. Thus, such contexts are unobserved confounders (UCs) from the learner's perspective. Given a dataset generated by the expert that excludes the UCs, the goal for the learner is to identify the true minimum-risk arm with fewer online learning steps, while avoiding possible biased decisions due to the presence of UCs in the expert's data.
翻訳日:2022-09-12 13:15:29 公開日:2022-09-09
# SC-Square: 機械学習の今後の進歩?

SC-Square: Future Progress with Machine Learning? ( http://arxiv.org/abs/2209.04361v1 )

ライセンス: Link先を確認
Matthew England(参考訳) コミュニティが採用するアルゴリズムは、しばしば不特定であり、複数の実装選択があるため、出力の正しさには影響しないが、生産効率やトラクタビリティにも影響を及ぼす。 この拡張要約では、2021年のSC-Square Workshopでの基調講演に付随して、SC-Squareに対する関心のアルゴリズムを改善するための機械学習技術の使用に関する最近の研究(著者と文献の両方)を調査します。

The algorithms employed by our communities are often underspecified, and thus have multiple implementation choices, which do not effect the correctness of the output, but do impact the efficiency or even tractability of its production. In this extended abstract, to accompany a keynote talk at the 2021 SC-Square Workshop, we survey recent work (both the author's and from the literature) on the use of Machine Learning technology to improve algorithms of interest to SC-Square.
翻訳日:2022-09-12 13:15:12 公開日:2022-09-09
# 野生人検証のための視聴覚埋め込み学習

Learning Audio-Visual embedding for Wild Person Verification ( http://arxiv.org/abs/2209.04093v1 )

ライセンス: Link先を確認
Peiwen Sun, Shanshan Zhang, Zishan Liu, Yougen Yuan, Taotao Zhang, Honggang Zhang, Pengfei Hu(参考訳) この2つのモードから音声-視覚的埋め込みを抽出し,個人認証の堅牢性を得ることができた。 しかし、各フレームから1つの発話表現を生成するアグリゲータは、よく調べられていないようである。 本稿では,融合の観点からアグリゲータを考慮した音声視覚ネットワークを提案する。 顔認証において, 注意統計プーリングの改善を初めて導入した。 そして, プール中のモード間には強い相関関係があることが判明し, フレーム間重みを暗黙的に学習するサイクル整合性を含む連係プーリングが提案される。 最後に、モダリティをゲートアテンション機構で融合する。 提案したモデルはすべてVoxCeleb2開発データセットに基づいてトレーニングされており、最も優れたシステムはVoxCeleb1の3つのオフィシャルパスリストにおいて0.18\%、0.27\%、および0.49\%のEERを得る。 解析として可視化マップが生成され、このシステムがモダリティ間の相互作用を説明する。

It has already been observed that audio-visual embedding can be extracted from these two modalities to gain robustness for person verification. However, the aggregator that used to generate a single utterance representation from each frame does not seem to be well explored. In this article, we proposed an audio-visual network that considers aggregator from a fusion perspective. We introduced improved attentive statistics pooling for the first time in face verification. Then we find that strong correlation exists between modalities during pooling, so joint attentive pooling is proposed which contains cycle consistency to learn the implicit inter-frame weight. Finally, fuse the modality with a gated attention mechanism. All the proposed models are trained on the VoxCeleb2 dev dataset and the best system obtains 0.18\%, 0.27\%, and 0.49\% EER on three official trail lists of VoxCeleb1 respectively, which is to our knowledge the best-published results for person verification. As an analysis, visualization maps are generated to explain how this system interact between modalities.
翻訳日:2022-09-12 13:15:04 公開日:2022-09-09
# 経時的調節可能な経時的流体減衰逆回復mriによる多発性硬化症の推定/合成

Temporally Adjustable Longitudinal Fluid-Attenuated Inversion Recovery MRI Estimation / Synthesis for Multiple Sclerosis ( http://arxiv.org/abs/2209.04275v1 )

ライセンス: Link先を確認
Jueqi Wang, Derek Berger, Erin Mazerolle, Othman Soufan, Jacob Levman(参考訳) 多発性硬化症(multiple sclerosis、ms)は、慢性進行性神経疾患の一つで、脳の白質病変の発生を特徴とする。 T2-fluid-attenuated inversion recovery (FLAIR) 脳磁気共鳴画像(MRI)は、他のMRI法と比較して、MS病変のより優れた可視化とキャラクタリゼーションを提供する。 経時的脳フレアmri(ms)は、繰り返し患者を画像化し、臨床医が疾患の進行を監視するための有用な情報を提供する。 様々な時間ラグを伴う将来の脳MRI検査の予測は、健康な老化やアルツハイマー病の構造的変性など、限られた用途でのみ試みられている。 本稿では,ms flair画像合成のための深層学習アーキテクチャの新たな修正を行い,フレキシブルな連続的な縦方向画像の予測を支援する。 これは学習された畳み込みによって実現され、異なる空間位置における可変時間特性を持つ空間分布配列としてのモデリング時間をサポートする。 したがって、このアプローチは理論的に空間特異的な時間依存脳発達をモデル化することができ、MS脳病変の部位のような適切な物理的位置においてより急速な成長のモデリングをサポートする。 このアプローチはまた、予測試験が対象とする未来までの距離を定義するために、臨床ユーザーを支援します。 将来の画像検査の正確な予測は、早期治療や予後の改善に寄与する可能性のある患者の予後不良を臨床医に知らせる可能性がある。 4つの異なるディープラーニングアーキテクチャが開発されている。 提案手法の検証と比較にISBI2015長手MSデータセットを用いた。 その結果、改良されたACGANが最高の性能を達成し、モデルの精度の変動を低減できることが示されている。

Multiple Sclerosis (MS) is a chronic progressive neurological disease characterized by the development of lesions in the white matter of the brain. T2-fluid-attenuated inversion recovery (FLAIR) brain magnetic resonance imaging (MRI) provides superior visualization and characterization of MS lesions, relative to other MRI modalities. Longitudinal brain FLAIR MRI in MS, involving repetitively imaging a patient over time, provides helpful information for clinicians towards monitoring disease progression. Predicting future whole brain MRI examinations with variable time lag has only been attempted in limited applications, such as healthy aging and structural degeneration in Alzheimer's Disease. In this article, we present novel modifications to deep learning architectures for MS FLAIR image synthesis, in order to support prediction of longitudinal images in a flexible continuous way. This is achieved with learned transposed convolutions, which support modelling time as a spatially distributed array with variable temporal properties at different spatial locations. Thus, this approach can theoretically model spatially-specific time-dependent brain development, supporting the modelling of more rapid growth at appropriate physical locations, such as the site of an MS brain lesion. This approach also supports the clinician user to define how far into the future a predicted examination should target. Accurate prediction of future rounds of imaging can inform clinicians of potentially poor patient outcomes, which may be able to contribute to earlier treatment and better prognoses. Four distinct deep learning architectures have been developed. The ISBI2015 longitudinal MS dataset was used to validate and compare our proposed approaches. Results demonstrate that a modified ACGAN achieves the best performance and reduces variability in model accuracy.
翻訳日:2022-09-12 13:14:44 公開日:2022-09-09
# 高性能原子炉の自律運転のための監視制御系の設計

Design of a Supervisory Control System for Autonomous Operation of Advanced Reactors ( http://arxiv.org/abs/2209.04334v1 )

ライセンス: Link先を確認
Akshay J. Dave, Taeseung Lee, Roberto Ponciroli, Richard B. Vilim(参考訳) 今後数十年で展開される先進的な原子炉は、規制の厳しいエネルギー市場に直面し、収益性を高めるために柔軟な運用を採用する可能性がある。 ベースロードからフレキシブルな運用パラダイムへの移行を支援するために,自律的な運用を求める。 本研究は自律運転の制御面に焦点を当てる。 特に、階層的な制御システムは、定期的な運用上の過渡期における制約執行をサポートするように設計されている。 システム内では、データ駆動モデリング、物理ベースの状態観測、古典的な制御アルゴリズムが統合され、適応可能でロバストなソリューションを提供する。 320MWのフッ化物冷却高温Pebbleベッドリアクターが制御システムの実証のための設計基盤である。 階層制御システムは、監督層と低レベル層から構成される。 監督層は、システムの動作条件を変更する要求を受信し、割り当てられた制約に基づいてそれらを受け入れ、拒否する。 プラントを最適な運転領域に保つために制約が課される。 低レベル層は、トラッキングと規制の義務を維持しながら、要求された変更を満たすためにシステムのアクチュエータとインターフェースする。 監視層での要求を受け入れるために、参照ガバナアルゴリズムが採用された。 反応器の動力学をモデル化するために, システム同定アルゴリズムである動的モード分解を用いた。 直接測定できない過程変数の進化を推定するために、核動力学の非線形モデルを取り入れた非香りカルマンフィルタが採用された。 これらのアルゴリズムの構成は、40%の電力低下時における制約強制の数値実証につながった。 提案するシステムの適応性は,制約値を変更し,過渡期に強制することによって実証された。 雑音環境下で制約を課すことでロバスト性が実証された。

Advanced reactors deployed in the coming decades will face deregulated energy markets, and may adopt flexible operation to boost profitability. To aid in the transition from baseload to flexible operation paradigm, autonomous operation is sought. This work focuses on the control aspect of autonomous operation. Specifically, a hierarchical control system is designed to support constraint enforcement during routine operational transients. Within the system, data-driven modeling, physics-based state observation, and classical control algorithms are integrated to provide an adaptable and robust solution. A 320 MW Fluoride-cooled High-temperature Pebble-bed Reactor is the design basis for demonstrating the control system. The hierarchical control system consists of a supervisory layer and low-level layer. The supervisory layer receives requests to change the system's operating conditions, and accepts or rejects them based on constraints that have been assigned. Constraints are issued to keep the plant within an optimal operating region. The low-level layer interfaces with the actuators of the system to fulfill requested changes, while maintaining tracking and regulation duties. To accept requests at the supervisory layer, the Reference Governor algorithm was adopted. To model the dynamics of the reactor, a system identification algorithm, Dynamic Mode Decomposition, was utilized. To estimate the evolution of process variables that cannot be directly measured, the Unscented Kalman Filter was adopted, incorporating a nonlinear model of nuclear dynamics. The composition of these algorithms led to a numerical demonstration of constraint enforcement during a 40 % power drop transient. Adaptability of the proposed system was demonstrated by modifying the constraint values, and enforcing them during the transient. Robustness was also demonstrated by enforcing constraints under noisy environments.
翻訳日:2022-09-12 13:13:50 公開日:2022-09-09
# クラウドソーシングデータセットの一貫性向上のための半監督的アルゴリズム : 呼吸器障害分類におけるCOVID-19事例研究

A Semi-Supervised Algorithm for Improving the Consistency of Crowdsourced Datasets: The COVID-19 Case Study on Respiratory Disorder Classification ( http://arxiv.org/abs/2209.04360v1 )

ライセンス: Link先を確認
Lara Orlandic, Tomas Teijeiro, David Atienza(参考訳) cough audio signal classificationは、新型コロナウイルスなどの呼吸器疾患のスクリーニングに有用である。 このような伝染性疾患の患者からデータを集めるのは危険であるため、多くの研究チームは、COUGHVIDデータセットを生成するために行われたように、クラウドソーシングに移行した。 COUGHVIDデータセットは、専門家の医師に、限られた数のアップロードされた記録に存在する基礎疾患の診断を依頼した。 しかし、このアプローチは干ばつを誤記する可能性や専門家間の顕著な意見の相違に苦しめられている。 本研究では, COUGHVIDデータセットのラベル付け一貫性の向上と, 健全な音分類に対する新型コロナウイルスの堅牢性向上のために, 半教師付き学習(SSL)アプローチを用いる。 まず、既存のSSL専門家知識集約技術を活用して、データセットのラベル付けの不整合とスパーシリティを克服する。 次に、我々のSSLアプローチは、将来のコークス分類モデルをトレーニングまたは拡張するために使用可能な、再ラベルされたCOUGHVIDオーディオサンプルのサブサンプルを特定するために使用される。 元のデータセットに専門家ラベルの不整合があるにもかかわらず、再ラベルデータの一貫性は、ユーザラベルデータよりも3倍高い高い高いクラス分離性を示すことを示す。 さらに、ユーザラベル付き音声セグメントのスペクトル差は、再ラベルされたデータに増幅され、その結果、健康と新型コロナウイルス間のパワースペクトル密度が著しく異なり、新しいデータセットの一貫性の増大と、音響的視点からの説明可能性の両方が示される。 最後に、再ラベルされたデータセットを使用してcough分類器をトレーニングする方法をデモする。 このsslアプローチは、診断分類タスクのデータベース一貫性を改善するために、複数の専門家の医療知識を組み合わせるために使用できる。

Cough audio signal classification is a potentially useful tool in screening for respiratory disorders, such as COVID-19. Since it is dangerous to collect data from patients with such contagious diseases, many research teams have turned to crowdsourcing to quickly gather cough sound data, as it was done to generate the COUGHVID dataset. The COUGHVID dataset enlisted expert physicians to diagnose the underlying diseases present in a limited number of uploaded recordings. However, this approach suffers from potential mislabeling of the coughs, as well as notable disagreement between experts. In this work, we use a semi-supervised learning (SSL) approach to improve the labeling consistency of the COUGHVID dataset and the robustness of COVID-19 versus healthy cough sound classification. First, we leverage existing SSL expert knowledge aggregation techniques to overcome the labeling inconsistencies and sparsity in the dataset. Next, our SSL approach is used to identify a subsample of re-labeled COUGHVID audio samples that can be used to train or augment future cough classification models. The consistency of the re-labeled data is demonstrated in that it exhibits a high degree of class separability, 3x higher than that of the user-labeled data, despite the expert label inconsistency present in the original dataset. Furthermore, the spectral differences in the user-labeled audio segments are amplified in the re-labeled data, resulting in significantly different power spectral densities between healthy and COVID-19 coughs, which demonstrates both the increased consistency of the new dataset and its explainability from an acoustic perspective. Finally, we demonstrate how the re-labeled dataset can be used to train a cough classifier. This SSL approach can be used to combine the medical knowledge of several experts to improve the database consistency for any diagnostic classification task.
翻訳日:2022-09-12 13:12:23 公開日:2022-09-09
# clusterBMA: クラスタリングのためのベイジアンモデル平均化

clusterBMA: Bayesian model averaging for clustering ( http://arxiv.org/abs/2209.04117v1 )

ライセンス: Link先を確認
Owen Forbes, Edgar Santos-Fernandez, Paul Pao-Yen Wu, Hong-Bo Xie, Paul E. Schwenn, Jim Lagopoulos, Lia Mills, Dashiell D. Sacks, Daniel F. Hermens, Kerrie Mengersen(参考訳) アンサンブルとコンセンサスクラスタリングの文献の中で、教師なしクラスタリングのための複数の結果集合に対する推論を組み合わせるために、様々な手法が開発されている。 複数のクラスタリングモデルのうちの1つの'best'モデルからの報告のアプローチは、一般的にモデル選択から生じる不確実性を無視し、選択した特定のモデルやパラメータに敏感な推測と、特に小さなサンプルサイズや小さなクラスタサイズでの仮定をもたらす。 ベイズモデル平均化(bayesian model averaging, bma)は、クラスタ構造の確率論的解釈やモデルに基づく不確かさの定量化など、複数のモデルにまたがる結果を組み合わせるための一般的なアプローチである。 本研究では,複数の教師なしクラスタリングアルゴリズムの結果を平均化する重み付きモデルを実現する方法であるclusterbmaを提案する。 我々は,クラスタリング内部検証基準の組み合わせを,各モデルの結果を重み付けするための後部モデル確率の新しい近似として利用する。 モデル間のクラスタリング解の重み付け平均を表す結合後類似性行列から、対称的単純行列分解を適用し、最終的な確率的クラスタ割り当てを計算する。 この方法は付随するRパッケージに実装される。 本稿では,脳波(EEG)データに基づく個体の確率的クラスタの同定を目的としたケーススタディを通じて,本手法の性能を検討する。 また、シミュレーションデータセットを用いて、サブグループ間の分離レベルやモデル間でのクラスタ数が異なるロバストな統合クラスタを識別する手法について検討した。

Various methods have been developed to combine inference across multiple sets of results for unsupervised clustering, within the ensemble and consensus clustering literature. The approach of reporting results from one `best' model out of several candidate clustering models generally ignores the uncertainty that arises from model selection, and results in inferences that are sensitive to the particular model and parameters chosen, and assumptions made, especially with small sample size or small cluster sizes. Bayesian model averaging (BMA) is a popular approach for combining results across multiple models that offers some attractive benefits in this setting, including probabilistic interpretation of the combine cluster structure and quantification of model-based uncertainty. In this work we introduce clusterBMA, a method that enables weighted model averaging across results from multiple unsupervised clustering algorithms. We use a combination of clustering internal validation criteria as a novel approximation of the posterior model probability for weighting the results from each model. From a combined posterior similarity matrix representing a weighted average of the clustering solutions across models, we apply symmetric simplex matrix factorisation to calculate final probabilistic cluster allocations. This method is implemented in an accompanying R package. We explore the performance of this approach through a case study that aims to to identify probabilistic clusters of individuals based on electroencephalography (EEG) data. We also use simulated datasets to explore the ability of the proposed technique to identify robust integrated clusters with varying levels of separations between subgroups, and with varying numbers of clusters between models.
翻訳日:2022-09-12 13:11:51 公開日:2022-09-09
# 構成制約付き確率的構成最適化

Stochastic Compositional Optimization with Compositional Constraints ( http://arxiv.org/abs/2209.04086v1 )

ライセンス: Link先を確認
Shuoguang Yang, Zhe Zhang, Ethan X. Fang(参考訳) 確率的合成最適化(SCO)は、重要な実世界の問題に広く適用できるため、注目されている。 しかし、SCO上の既存の研究は、ソリューション更新におけるプロジェクションは単純であり、経験的条件付き値-リスク制約のような期待の形で制約が設定されている問題インスタンスでは保持できないと仮定している。 単一レベルの期待値と2レベルの構成制約を現在のSCOフレームワークに組み込んだ新しいモデルについて検討する。 我々のモデルは、リスク-逆最適化やハイモーメントポートフォリオ選択など、データ駆動最適化やリスク管理に広く適用でき、複数の制約を処理できる。 さらに, 1 レベル期待値と 2 レベル構成制約の両方で$\cO(\frac{1}{\sqrt{N}})$under$\cO(\frac{1}{\sqrt{N}})の速度で最適解に収束する列を生成する原始双対アルゴリズムのクラスを提案する。

Stochastic compositional optimization (SCO) has attracted considerable attention because of its broad applicability to important real-world problems. However, existing works on SCO assume that the projection within a solution update is simple, which fails to hold for problem instances where the constraints are in the form of expectations, such as empirical conditional value-at-risk constraints. We study a novel model that incorporates single-level expected value and two-level compositional constraints into the current SCO framework. Our model can be applied widely to data-driven optimization and risk management, including risk-averse optimization and high-moment portfolio selection, and can handle multiple constraints. We further propose a class of primal-dual algorithms that generates sequences converging to the optimal solution at the rate of $\cO(\frac{1}{\sqrt{N}})$under both single-level expected value and two-level compositional constraints, where $N$ is the iteration counter, establishing the benchmarks in expected value constrained SCO.
翻訳日:2022-09-12 13:10:23 公開日:2022-09-09
# spt-nrtl:熱力学的に一貫した活動係数を予測する物理誘導機械学習モデル

SPT-NRTL: A physics-guided machine learning model to predict thermodynamically consistent activity coefficients ( http://arxiv.org/abs/2209.04135v1 )

ライセンス: Link先を確認
Benedikt Winter, Clemens Winter, Timm Esper, Johannes Schilling, Andr\'e Bardow(参考訳) 特性データの入手は、化学プロセスの発展における主要なボトルネックの1つであり、しばしば時間と費用のかかる実験を必要とし、設計空間を少数の既知の分子に制限する。 このボトルネックは、予測特性モデルの開発を継続する動機となった。 新規分子の性質予測のために, グループ寄与法は画期的である。 近年では、より確立されたプロパティ予測モデルに機械学習が加わった。 しかし、最近の成功にもかかわらず、物理的制約を機械学習モデルに統合することは依然として困難である。 物理的制約はgibbs-dunham関係のような多くの熱力学的性質に不可欠であり、予測にさらに複雑さの層を導入する。 本稿では,熱力学的に一貫した活動係数を予測し,nrtlパラメータをプロセスシミュレーションに利用するための機械学習モデル spt-nrtl を提案する。 その結果,SPT-NRTLは全官能基にわたる活性係数の予測においてUNIFACよりも高い精度を示し,水/エタノールおよびクロロホルム/n-ヘキサンの例に示すように,多くの気液平衡をほぼ実験精度で予測できることがわかった。 SPT-NRTLの応用を容易にするため、100000万混合のNRTLパラメータをSPT-NRTLで計算し、オンラインで提供する。

The availability of property data is one of the major bottlenecks in the development of chemical processes, often requiring time-consuming and expensive experiments or limiting the design space to a small number of known molecules. This bottleneck has been the motivation behind the continuing development of predictive property models. For the property prediction of novel molecules, group contribution methods have been groundbreaking. In recent times, machine learning has joined the more established property prediction models. However, even with recent successes, the integration of physical constraints into machine learning models remains challenging. Physical constraints are vital to many thermodynamic properties, such as the Gibbs-Dunham relation, introducing an additional layer of complexity into the prediction. Here, we introduce SPT-NRTL, a machine learning model to predict thermodynamically consistent activity coefficients and provide NRTL parameters for easy use in process simulations. The results show that SPT-NRTL achieves higher accuracy than UNIFAC in the prediction of activity coefficients across all functional groups and is able to predict many vapor-liquid-equilibria with near experimental accuracy, as illustrated for the exemplary mixtures water/ethanol and chloroform/n-hexane. To ease the application of SPT-NRTL, NRTL-parameters of 100 000 000 mixtures are calculated with SPT-NRTL and provided online.
翻訳日:2022-09-12 13:10:00 公開日:2022-09-09
# 治療とアウトカムのための共同非パラメトリックポイントプロセスモデル:政策介入下における対実時間予測

Joint Non-parametric Point Process model for Treatments and Outcomes: Counterfactual Time-series Prediction Under Policy Interventions ( http://arxiv.org/abs/2209.04142v1 )

ライセンス: Link先を確認
\c{C}a\u{g}lar H{\i}zl{\i}, ST John, Anne Juuti, Tuure Saarinen, Kirsi Pietil\"ainen, Pekka Marttinen(参考訳) 政策立案者は、新たな治療方針を採用する前に結果の進行を予測する必要がある。 一般に、介入的未来の結果軌道を予測するアルゴリズムは、将来の治療を入力として一定の順序を取る。 これは、将来の治療が先行する結果への依存を無視するか、またはその治療方針が分かっていることを暗黙的に仮定するかのどちらかであり、したがって、方針が未知であるか、あるいは反事実分析が必要となるシナリオを除外する。 これらの制約に対処するために,治療方針と治療効果を逐次的な治療成果データから推定できる,治療と成果のジョイントモデルを開発した。 血液グルコースの進行に関する実際のデータや、この上に構築されたシミュレーション研究で示されるように、治療方針に対する介入に関する介入や反ファクトの問い合わせに答えることができる。

Policy makers need to predict the progression of an outcome before adopting a new treatment policy, which defines when and how a sequence of treatments affecting the outcome occurs in continuous time. Commonly, algorithms that predict interventional future outcome trajectories take a fixed sequence of future treatments as input. This either neglects the dependence of future treatments on outcomes preceding them or implicitly assumes the treatment policy is known, and hence excludes scenarios where the policy is unknown or a counterfactual analysis is needed. To handle these limitations, we develop a joint model for treatments and outcomes, which allows for the estimation of treatment policies and effects from sequential treatment--outcome data. It can answer interventional and counterfactual queries about interventions on treatment policies, as we show with real-world data on blood glucose progression and a simulation study building on top of this.
翻訳日:2022-09-12 13:09:39 公開日:2022-09-09
# 産業課題をシミュレートするオープンバンドパイプラインの拡張

Extending Open Bandit Pipeline to Simulate Industry Challenges ( http://arxiv.org/abs/2209.04147v1 )

ライセンス: Link先を確認
Bram van den Akker, Niklas Weber, Felipe Moraes, and Dmitri Goldenberg(参考訳) 帯域幅アルゴリズムは、事前にラベル付けされたデータが利用できない場合に機械学習(ML)システムのトレーニングにしばしば使用される。 しかし、業界設定は、実際にバンディットアルゴリズムを実装することの難しさを生んでいる。 本稿では,ブッキング.comでバンディットアルゴリズムを適用する際に経験する,オフ・ポリティクス最適化,遅延報酬,コンセプトドリフト,報酬設計,ビジネスルール制約の課題について詳述する。 私たちの主な貢献は、open bandit pipeline(obp)フレームワークの拡張です。 今後の実践者、研究者、教育者に対して、Eコマース業界で直面する課題に対処するためのリソースを提供するため、上記の課題のいくつかをシミュレーションコンポーネントとして提供します。

Bandit algorithms are often used in the e-commerce industry to train Machine Learning (ML) systems when pre-labeled data is unavailable. However, the industry setting poses various challenges that make implementing bandit algorithms in practice non-trivial. In this paper, we elaborate on the challenges of off-policy optimisation, delayed reward, concept drift, reward design, and business rules constraints that practitioners at Booking.com encounter when applying bandit algorithms. Our main contributions is an extension to the Open Bandit Pipeline (OBP) framework. We provide simulation components for some of the above-mentioned challenges to provide future practitioners, researchers, and educators with a resource to address challenges encountered in the e-commerce industry.
翻訳日:2022-09-12 13:09:23 公開日:2022-09-09
# FLInt:効率的なランダム森林推定のための整数算術可能な浮動小数点の爆発

FLInt: Exploiting Floating Point Enabled Integer Arithmetic for Efficient Random Forest Inference ( http://arxiv.org/abs/2209.04181v1 )

ライセンス: Link先を確認
Christian Hakert, Kuan-Hsun Chen, Jian-Jia Chen(参考訳) 木に基づくアンサンブルのような多くの機械学習アプリケーションでは、浮動小数点数は表現力のために広く利用される。 現在、組み込みデバイスで動的データマスからデータ分析を行うことができるが、そのようなシステムは浮動小数点数を処理するハードウェア機能に欠けており、処理のオーバーヘッドが大きい。 このようなハードウェアが一般のコンピュータシステムに存在しているとしても、浮動小数点演算の代わりに整数演算を用いることで演算オーバーヘッドを減らし、性能を向上させることができる。 本稿では、整数演算と論理演算のみを用いることで、ランダムな森林に対する完全精度浮動小数点比較である \mdname を提供する。 同じ機能を維持するために、この比較の正しさを正式に証明します。 ランダムフォレストでは、推定中に浮動小数点数を比較するだけでよいため、低レベル実現において \mdname~ を実装し、モデルの精度を保ちながら浮動小数点ハードウェアを完全に不要にする。 例えば、c における比較文 if(px[3]<=(float)10.074347) は if(*(((int*)(px))+3))<=((int)(0x41213087)) となる。 X86 と ARMv8 のデスクトップおよびサーバクラスシステムに対する実験的評価により,我々の新しいアプローチにより,実行時間を $\approx 30\% まで短縮できることがわかった。

In many machine learning applications, e.g., tree-based ensembles, floating point numbers are extensively utilized due to their expressiveness. Nowadays performing data analysis on embedded devices from dynamic data masses becomes available, but such systems often lack hardware capabilities to process floating point numbers, introducing large overheads for their processing. Even if such hardware is present in general computing systems, using integer operations instead of floating point operations promises to reduce operation overheads and improve the performance. In this paper, we provide \mdname, a full precision floating point comparison for random forests, by only using integer and logic operations. To ensure the same functionality preserves, we formally prove the correctness of this comparison. Since random forests only require comparison of floating point numbers during inference, we implement \mdname~in low level realizations and therefore eliminate the need for floating point hardware entirely, by keeping the model accuracy unchanged. The usage of \mdname~basically boils down to a one-by-one replacement of conditions: For instance, a comparison statement in C: if(pX[3]<=(float)10.074347) becomes if((*(((int*)(pX))+3))<=((int)(0x41213087))). Experimental evaluation on X86 and ARMv8 desktop and server class systems shows that the execution time can be reduced by up to $\approx 30\%$ with our novel approach.
翻訳日:2022-09-12 13:09:09 公開日:2022-09-09
# 試料選択および非応答下における治療効果の不均質境界の推定

Estimating Heterogeneous Bounds for Treatment Effects under Sample Selection and Non-response ( http://arxiv.org/abs/2209.04329v1 )

ライセンス: Link先を確認
Phillip Heiler(参考訳) 本稿では,初期治療が介入後の結果が観察されるか否かに影響を及ぼす可能性のある一般サンプル選択モデルにおいて,因果効果パラメータの不均一な境界の非パラメトリック推定と推定法を提案する。 治療選択は可観測性共変量によって、結果選択は可観測性と可観測性の両方で両立することができる。 この方法は、ポリシーに関連する事前処理変数の関数として条件効果境界を提供する。 これにより、未同定条件効果曲線上で有効な統計的推測を行うことができる。 フレキシブルな半パラメトリックな非バイアス機械学習アプローチを用いて、フレキシブルな機能形式と、処理、選択、結果プロセス間の高次元の共役変数に対応できる。 推定と誤特定のための容易に検証可能なハイレベルな条件も提供される。

In this paper we propose a method for nonparametric estimation and inference for heterogeneous bounds for causal effect parameters in general sample selection models where the initial treatment can affect whether a post-intervention outcome is observed or not. Treatment selection can be confounded by observable covariates while the outcome selection can be confounded by both observables and unobservables. The method provides conditional effect bounds as functions of policy relevant pre-treatment variables. It allows for conducting valid statistical inference on the unidentified conditional effect curves. We use a flexible semiparametric de-biased machine learning approach that can accommodate flexible functional forms and high-dimensional confounding variables between treatment, selection, and outcome processes. Easily verifiable high-level conditions for estimation and misspecification robust inference guarantees are provided as well.
翻訳日:2022-09-12 13:06:14 公開日:2022-09-09
# マサチューセッツ海洋の赤外線データセット

MassMIND: Massachusetts Maritime INfrared Dataset ( http://arxiv.org/abs/2209.04097v1 )

ライセンス: Link先を確認
Shailesh Nirgudkar, Michael DeFilippo, Michael Sacarny, Michael Benjamin and Paul Robinette(参考訳) 近年のディープラーニング技術の進歩は、地上車両の自律性の急激な進歩を引き起こしている。 監視、監視、その他のルーチンタスクに定期的に使用される海沿岸自律水上車両(asv)は、この自律性から恩恵を受けることができる。 長距離の深海輸送活動も大きな機会である。 この2つのユースケースは、最初は沿岸海域で、多くの障害物、構造、人間の存在があるが、後者はそのような障害物がほとんどない。 環境条件の変化は両方の地形に共通である。 このような地形をマッピングするロバストラベル付きデータセットは、自律性を促進する状況認識を改善する上で不可欠である。 しかし、そのような海洋データセットは限られており、これらは主に光学画像で構成されている。 ロングウェーブ赤外(Long Wave Infrared、LWIR)は、極端光条件下での光スペクトルの強力な補完であるが、LWIR画像を用いたラベル付き公開データセットは存在しない。 本稿では,沿岸海洋環境下で得られた2,900 LWIR画像のラベル付きデータセットを多種多様な条件下で提示することにより,このギャップを埋める。 画像はインスタンスセグメンテーションを使用してラベル付けされ、空、水、障害物、リビング障害物、ブリッジ、自己、背景の7つのカテゴリに分類される。 また、このデータセットを3つのディープラーニングアーキテクチャ(UNet、PSPNet、DeepLabv3)にわたって評価し、その効果を詳細に分析する。 データセットは沿岸の地形に焦点を当てているが、海洋深層でのユースケースにも等しく役立つ。 このような地形は交通量が少なく、散らかった環境で訓練された分類器は、スパースなシーンを効果的に処理できる。 我々はこのデータセットを研究コミュニティと共有し、海洋環境における新たなシーン理解能力の促進を期待する。

Recent advances in deep learning technology have triggered radical progress in the autonomy of ground vehicles. Marine coastal Autonomous Surface Vehicles (ASVs) that are regularly used for surveillance, monitoring and other routine tasks can benefit from this autonomy. Long haul deep sea transportation activities are additional opportunities. These two use cases present very different terrains -- the first being coastal waters -- with many obstacles, structures and human presence while the latter is mostly devoid of such obstacles. Variations in environmental conditions are common to both terrains. Robust labeled datasets mapping such terrains are crucial in improving the situational awareness that can drive autonomy. However, there are only limited such maritime datasets available and these primarily consist of optical images. Although, Long Wave Infrared (LWIR) is a strong complement to the optical spectrum that helps in extreme light conditions, a labeled public dataset with LWIR images does not currently exist. In this paper, we fill this gap by presenting a labeled dataset of over 2,900 LWIR segmented images captured in coastal maritime environment under diverse conditions. The images are labeled using instance segmentation and classified in seven categories -- sky, water, obstacle, living obstacle, bridge, self and background. We also evaluate this dataset across three deep learning architectures (UNet, PSPNet, DeepLabv3) and provide detailed analysis of its efficacy. While the dataset focuses on the coastal terrain it can equally help deep sea use cases. Such terrain would have less traffic, and the classifier trained on cluttered environment would be able to handle sparse scenes effectively. We share this dataset with the research community with the hope that it spurs new scene understanding capabilities in the maritime environment.
翻訳日:2022-09-12 13:05:43 公開日:2022-09-09
# 2次元VAEとGANを用いた3次元心筋MRイムエイジの病態合成

Pathology Synthesis of 3D Consistent Cardiac MR Im-ages Using 2D VAEs and GANs ( http://arxiv.org/abs/2209.04223v1 )

ライセンス: Link先を確認
Sina Amirrajab, Cristian Lorenz, Juergen Weese, Josien Pluim, Marcel Breeuwer(参考訳) 深層学習(DL)トレーニングのためのラベル付きデータを生成するために,心臓のMR画像に可塑性心臓形状とリアルな外観を合成する方法を提案する。 画像合成をラベル変形とラベルから画像への変換タスクに分解する。 前者はVAEモデルにおける潜時空間補間により達成され、後者は条件付きGANモデルによって達成される。 本研究は, 心疾患の特徴を有する擬似病理学的合成対象の合成を目的とした, VAEモデルの潜在空間におけるラベル操作のアプローチを考案した。 さらに,vaeの潜在空間における2次元スライスの関係を,相対ベクトル間の相関係数行列を推定し,画像空間に復号する前にランダムに描画されたサンプルの要素を相関させることによりモデル化する。 この単純で効果的なアプローチは、2次元スライス・バイ・スライス世代から3次元一貫した主題を生成する。 このようなアプローチは、利用可能な心臓MR画像のデータベースを多様化し、強化し、一般化可能なDLベースの画像解析アルゴリズムを開発するための道を開くソリューションを提供することができる。 コードはhttps://github.com/sinaamirrajab/CardiacPathologySynthesisで入手できる。

We propose a method for synthesizing cardiac MR images with plausible heart shapes and realistic appearances for the purpose of generating labeled data for deep-learning (DL) training. It breaks down the image synthesis into label deformation and label-to-image translation tasks. The former is achieved via latent space interpolation in a VAE model, while the latter is accomplished via a conditional GAN model. We devise an approach for label manipulation in the latent space of the trained VAE model, namely pathology synthesis, aiming to synthesize a series of pseudo-pathological synthetic subjects with characteristics of a desired heart disease. Furthermore, we propose to model the relationship between 2D slices in the latent space of the VAE via estimating the correlation coefficient matrix between the latent vectors and utilizing it to correlate elements of randomly drawn samples before decoding to image space. This simple yet effective approach results in generating 3D consistent subjects from 2D slice-by-slice generations. Such an approach could provide a solution to diversify and enrich the available database of cardiac MR images and to pave the way for the development of generalizable DL-based image analysis algorithms. The code will be available at https://github.com/sinaamirrajab/CardiacPathologySynthesis.
翻訳日:2022-09-12 13:05:14 公開日:2022-09-09
# 改良回路CBAMとCBAM-UNetを用いた網膜画像再構成と血管分割

Retinal Image Restoration and Vessel Segmentation using Modified Cycle-CBAM and CBAM-UNet ( http://arxiv.org/abs/2209.04234v1 )

ライセンス: Link先を確認
Alnur Alimanov and Md Baharul Islam(参考訳) 低画質の眼底画像による臨床検診は困難であり、誤診につながる。 本稿では,網膜画像修復による網膜画質の向上と血管分割の課題に対処する。 より具体的には、畳み込みブロックアテンションモジュール(CBAM)を備えたサイクル一貫性生成対向ネットワーク(CycleGAN)が網膜画像復元に使用される。 修正UNetは、回復網膜画像(CBAM-UNet)の網膜血管セグメンテーションに使用される。 提案モデルは2つの生成器と2つの判別器から構成される。 ジェネレータは、あるドメインから別のドメイン、すなわち低レベルから高品質へ画像を変換します。 識別器は生成された画像とオリジナル画像を分類する。 網膜血管セグメンテーションモデルは、ダウンサンプリング、ボトルネック、アップサンプリング層を使用してセグメンテーション画像を生成する。 CBAMはこれらのモデルの特徴抽出を強化するために使われてきた。 提案手法では,組画像データセットは不要であり,作成が困難である。 代わりに、公開データセットから取得した低品質および高品質なファンドイメージからなる非ペアデータを使用する。 提案手法の復元性能は,psnr(peak signal-to-noise ratio)やssim(structure similarity index measure)といったフルリファレンス評価指標を用いて評価した。 網膜血管のセグメンテーション性能は,底部画像と比較した。 提案手法は,焦点のずれ,色歪,低,高,不均一の照明による劣化効果を著しく低減できる。 実験結果から,網膜画像の回復と血管分割に対する提案手法の有効性が示された。

Clinical screening with low-quality fundus images is challenging and significantly leads to misdiagnosis. This paper addresses the issue of improving the retinal image quality and vessel segmentation through retinal image restoration. More specifically, a cycle-consistent generative adversarial network (CycleGAN) with a convolution block attention module (CBAM) is used for retinal image restoration. A modified UNet is used for retinal vessel segmentation for the restored retinal images (CBAM-UNet). The proposed model consists of two generators and two discriminators. Generators translate images from one domain to another, i.e., from low to high quality and vice versa. Discriminators classify generated and original images. The retinal vessel segmentation model uses downsampling, bottlenecking, and upsampling layers to generate segmented images. The CBAM has been used to enhance the feature extraction of these models. The proposed method does not require paired image datasets, which are challenging to produce. Instead, it uses unpaired data that consists of low- and high-quality fundus images retrieved from publicly available datasets. The restoration performance of the proposed method was evaluated using full-reference evaluation metrics, e.g., peak signal-to-noise ratio (PSNR) and structural similarity index measure (SSIM). The retinal vessel segmentation performance was compared with the ground-truth fundus images. The proposed method can significantly reduce the degradation effects caused by out-of-focus blurring, color distortion, low, high, and uneven illumination. Experimental results show the effectiveness of the proposed method for retinal image restoration and vessel segmentation.
翻訳日:2022-09-12 13:04:53 公開日:2022-09-09
# GRASP-Net:ポイントクラウド圧縮のための幾何学的残留解析と合成

GRASP-Net: Geometric Residual Analysis and Synthesis for Point Cloud Compression ( http://arxiv.org/abs/2209.04401v1 )

ライセンス: Link先を確認
Jiahao Pang, Muhammad Asad Lodhi, Dong Tian(参考訳) ポイントクラウド圧縮(PCC)は、ポイントクラウドフォーマットの普遍性のため、様々な3Dアプリケーションにとって重要なイネーブルである。 理想的には、3Dポイントの雲は連続したオブジェクト/シーンの表面を描いている。 実際、離散的なサンプルの集合として、点雲は局所的に切断され、わずかに分散される。 このスパースの性質は圧縮点間の局所的相関の発見を妨げる。 フラクタル次元を用いた解析により,損失点雲幾何圧縮のための深層学習を用いた異種アプローチを提案する。 入力の粗い表現を圧縮するベース層の上には、難解な幾何学的残差/詳細を扱うようにエンハンスメント層が設計されている。 具体的には、不規則なローカル詳細を粗いポイントクラウドに存在する潜在機能に変換するために、ポイントベースのネットワークが適用される。 そして、粗点クラウド上で動作する疎畳み込みニューラルネットワークを起動する。 粗い幾何学の連続性/滑らかさを利用し、潜在的な特徴を拡張ビットストリームとして圧縮し、復元品質に大きな恩恵を与える。 このビットストリームが利用できない場合、例えばパケットロスのために、粗い点雲から直接幾何学的詳細を生成する同じアーキテクチャでスキップモードをサポートします。 密集点雲と疎開点雲の実験により,本提案により得られた最先端圧縮性能を実証した。 私たちのコードはhttps://github.com/InterDigitalInc/GRASP-Net.orgから入手可能です。

Point cloud compression (PCC) is a key enabler for various 3-D applications, owing to the universality of the point cloud format. Ideally, 3D point clouds endeavor to depict object/scene surfaces that are continuous. Practically, as a set of discrete samples, point clouds are locally disconnected and sparsely distributed. This sparse nature is hindering the discovery of local correlation among points for compression. Motivated by an analysis with fractal dimension, we propose a heterogeneous approach with deep learning for lossy point cloud geometry compression. On top of a base layer compressing a coarse representation of the input, an enhancement layer is designed to cope with the challenging geometric residual/details. Specifically, a point-based network is applied to convert the erratic local details to latent features residing on the coarse point cloud. Then a sparse convolutional neural network operating on the coarse point cloud is launched. It utilizes the continuity/smoothness of the coarse geometry to compress the latent features as an enhancement bit-stream that greatly benefits the reconstruction quality. When this bit-stream is unavailable, e.g., due to packet loss, we support a skip mode with the same architecture which generates geometric details from the coarse point cloud directly. Experimentation on both dense and sparse point clouds demonstrate the state-of-the-art compression performance achieved by our proposal. Our code is available at https://github.com/InterDigitalInc/GRASP-Net.
翻訳日:2022-09-12 13:04:29 公開日:2022-09-09
# 自律走行車のための音声分析に基づく人身売買検出フレームワーク

Audio Analytics-based Human Trafficking Detection Framework for Autonomous Vehicles ( http://arxiv.org/abs/2209.04071v1 )

ライセンス: Link先を確認
Sagar Dasgupta, Kazi Shakib, Mizanur Rahman, Silvana V Croope, Steven Jones(参考訳) 人身売買は普遍的な問題であり、世界規模で戦うために多くの努力が続けられている。 年齢、人種、民族、性別、性別、性的指向、国籍、移民状況、文化的背景、宗教、社会経済的階級、教育の個人は、人身売買の犠牲になる可能性がある。 テクノロジーの進歩と自動運転車(AV)の導入により、人身売買業者は、被害者を輸送する新しい方法を採用し、組織化された人身売買ネットワークの成長を加速させ、法執行機関にとってより困難な人身売買の検出を可能にする。 本研究の目的は、自動運転車のための革新的な音声分析に基づく人身売買検出フレームワークの開発である。 本研究の主な貢献は次のとおりである。 (i)AVの非自明で実現可能で現実的な人身売買シナリオを4つ定義すること。 (ii)泣いたり叫んだり、車のドアを叩いたり、車の騒音が聞こえたり、会話したりする5つのクラスで、人身売買に関連する新しい包括的なオーディオデータセットを作成します。 (iii)人身売買に関連する音声データ分類のための深部1次元畳み込みニューラルネットワーク(cnn)アーキテクチャの開発。 また,新しい音声データセットを用いたケーススタディを実施し,深部1次元CNNの音声分類性能を評価した。 分析の結果、深部1次元cnnは、人身売買被害者の発する音と、95%の精度で非人身売買音を区別できることが明らかとなり、この枠組みの有効性が証明された。

Human trafficking is a universal problem, persistent despite numerous efforts to combat it globally. Individuals of any age, race, ethnicity, sex, gender identity, sexual orientation, nationality, immigration status, cultural background, religion, socioeconomic class, and education can be a victim of human trafficking. With the advancements in technology and the introduction of autonomous vehicles (AVs), human traffickers will adopt new ways to transport victims, which could accelerate the growth of organized human trafficking networks, which can make the detection of trafficking in persons more challenging for law enforcement agencies. The objective of this study is to develop an innovative audio analytics-based human trafficking detection framework for autonomous vehicles. The primary contributions of this study are to: (i) define four non-trivial, feasible, and realistic human trafficking scenarios for AVs; (ii) create a new and comprehensive audio dataset related to human trafficking with five classes i.e., crying, screaming, car door banging, car noise, and conversation; and (iii) develop a deep 1-D Convolution Neural Network (CNN) architecture for audio data classification related to human trafficking. We have also conducted a case study using the new audio dataset and evaluated the audio classification performance of the deep 1-D CNN. Our analyses reveal that the deep 1-D CNN can distinguish sound coming from a human trafficking victim from a non-human trafficking sound with an accuracy of 95%, which proves the efficacy of our framework.
翻訳日:2022-09-12 13:03:48 公開日:2022-09-09
# 深層学習に基づく音声分類による自動運転車の環境知覚の改善

Improving the Environmental Perception of Autonomous Vehicles using Deep Learning-based Audio Classification ( http://arxiv.org/abs/2209.04075v1 )

ライセンス: Link先を確認
Finley Walden, Sagar Dasgupta, Mizanur Rahman, Mhafuzul Islam(参考訳) 聴覚は、自律走行車(avs)が周囲の環境をよりよく認識するためには不可欠である。 AVの視覚センサー(カメラ、ライダー、レーダーなど)は周囲の環境を見るのに役立っているが、AVはそのセンサーの視線を超えて見ることはできない。 一方、AVの聴覚は視線によって妨げられない。 例えば、AVは、緊急車両がAVの視線内にないにもかかわらず、オーディオ分類により緊急車両のサイレンを識別することができる。 したがって、聴覚知覚はカメラ、ライダー、レーダーベースの知覚システムと相補的である。 本稿では,AVの環境認識向上を目的とした,ディープラーニングに基づく頑健な音声分類フレームワークを提案する。 提示されたフレームワークは、ディープ畳み込みニューラルネットワーク(CNN)を利用して、異なるオーディオクラスを分類する。 UrbanSound8kは、開発フレームワークのトレーニングとテストに使用される都市環境データセットである。 エアコン、カーホーン、子供の遊び、犬の樹皮、エンジンアイドリング、銃弾、サイレンの7つのオーディオクラスは、AVに関連する関連性からUrbanSound8kデータセットから同定される。 我々のフレームワークは97.82%の精度で異なるオーディオクラスを分類できる。 さらに,全10クラスにおける音声分類精度が示され,既存の音声分類フレームワークと比較して,av関連音の場合の音声分類性能が良好であることが証明された。

Sense of hearing is crucial for autonomous vehicles (AVs) to better perceive its surrounding environment. Although visual sensors of an AV, such as camera, lidar, and radar, help to see its surrounding environment, an AV cannot see beyond those sensors line of sight. On the other hand, an AV s sense of hearing cannot be obstructed by line of sight. For example, an AV can identify an emergency vehicle s siren through audio classification even though the emergency vehicle is not within the line of sight of the AV. Thus, auditory perception is complementary to the camera, lidar, and radar-based perception systems. This paper presents a deep learning-based robust audio classification framework aiming to achieve improved environmental perception for AVs. The presented framework leverages a deep Convolution Neural Network (CNN) to classify different audio classes. UrbanSound8k, an urban environment dataset, is used to train and test the developed framework. Seven audio classes i.e., air conditioner, car horn, children playing, dog bark, engine idling, gunshot, and siren, are identified from the UrbanSound8k dataset because of their relevancy related to AVs. Our framework can classify different audio classes with 97.82% accuracy. Moreover, the audio classification accuracies with all ten classes are presented, which proves that our framework performed better in the case of AV-related sounds compared to the existing audio classification frameworks.
翻訳日:2022-09-12 13:03:24 公開日:2022-09-09
# WavLM事前学習機能を用いた過剰音声と性別検出

Overlapped speech and gender detection with WavLM pre-trained features ( http://arxiv.org/abs/2209.04167v1 )

ライセンス: Link先を確認
Martin Lebourdais, Marie Tahon, Antoine Laurent, Sylvain Meignier(参考訳) 本稿では,フランス音声メディア(ジェンダー平等監視プロジェクト)における男女間の相互作用を研究するために,重なり合った発話と性別検出に焦点を当てた。 このアプリケーションでは、話者の性別に応じて音声信号を自動的に分割し、少なくとも2人の話者が同時に話すことを識別する必要がある。 本稿では,大量の音声データに基づいて事前学習を行うWavLMモデルを用いて,重複した音声検出(OSD)と性別検出(GD)システムを構築することを提案する。 本研究では2つの異なるコーパスを用いる。 DIHARD IIIコーパスはOSDタスクに適しているが、性別情報がない。 ALLIESコーパスは、プロジェクトアプリケーションコンテキストに適合します。 我々の最良のosdシステムは、wavlmを入力として事前学習した時間的畳み込みネットワーク(tcn)であり、dihard上で新しい最先端のf1-score性能に達する。 ニューラルgdは、フランスの放送ニュースアソシエイトデータの男女均衡サブセット上でwavlm入力で訓練され、97.9%の精度が得られる。 この研究は、フランスメディアにおける女性と男性の表現の違いに関する、人間科学研究者の新しい視点を開くものである。

This article focuses on overlapped speech and gender detection in order to study interactions between women and men in French audiovisual media (Gender Equality Monitoring project). In this application context, we need to automatically segment the speech signal according to speakers gender, and to identify when at least two speakers speak at the same time. We propose to use WavLM model which has the advantage of being pre-trained on a huge amount of speech data, to build an overlapped speech detection (OSD) and a gender detection (GD) systems. In this study, we use two different corpora. The DIHARD III corpus which is well adapted for the OSD task but lack gender information. The ALLIES corpus fits with the project application context. Our best OSD system is a Temporal Convolutional Network (TCN) with WavLM pre-trained features as input, which reaches a new state-of-the-art F1-score performance on DIHARD. A neural GD is trained with WavLM inputs on a gender balanced subset of the French broadcast news ALLIES data, and obtains an accuracy of 97.9%. This work opens new perspectives for human science researchers regarding the differences of representation between women and men in French media.
翻訳日:2022-09-12 13:03:01 公開日:2022-09-09
# ラベルセット分布を用いたマルチラベル精度の推定

Estimating Multi-label Accuracy using Labelset Distributions ( http://arxiv.org/abs/2209.04163v1 )

ライセンス: Link先を確認
Laurence A. F. Park, Jesse Read(参考訳) マルチラベル分類器は、任意のインスタンスに対して、概念ラベルのセットごとにバイナリラベルの状態(関連性対無関係)を推定する。 確率的多重ラベル分類器は、そのようなラベル状態(ラベルのパワーセット)の可能なすべてのラベルセットの組み合わせに対して予測的な後方分布を提供し、その分布に対して最も期待される最大精度に対応するラベルセットを選択するだけで、最良の推定を行うことができる。 例えば、正確なマッチング精度を最大化するために、分布のモードを提供する。 しかし、このような見積もりにおける信頼とは、どのように関係があるのでしょう? 信頼性はマルチラベル分類器(一般に機械学習)の現実的応用の重要な要素であり、説明可能性や解釈可能性の重要な要素である。 しかしながら、マルチラベルの文脈や特定の正確度メトリクスに対する信頼度を提供する方法が明確ではなく、実際の意思決定において最も価値のある、期待される正確さとよく相関する信頼度を提供する方法も明確ではない。 本稿では、所定の精度測定値に対して、予測された精度を信頼の代理として推定する。 マルチラベル予測分布から予測精度を推定できると仮定した。 予測分布から予測精度を推定できる7つの候補関数について検討した。 これらのうち3つは、予測された精度と相関し、堅牢であることがわかった。 さらに,各候補関数はハミングの類似度を推定するために別々に使用できると判断したが,jaccardインデックスと正確な一致には候補の組み合わせが最適であった。

A multi-label classifier estimates the binary label state (relevant vs irrelevant) for each of a set of concept labels, for any given instance. Probabilistic multi-label classifiers provide a predictive posterior distribution over all possible labelset combinations of such label states (the powerset of labels) from which we can provide the best estimate, simply by selecting the labelset corresponding to the largest expected accuracy, over that distribution. For example, in maximizing exact match accuracy, we provide the mode of the distribution. But how does this relate to the confidence we may have in such an estimate? Confidence is an important element of real-world applications of multi-label classifiers (as in machine learning in general) and is an important ingredient in explainability and interpretability. However, it is not obvious how to provide confidence in the multi-label context and relating to a particular accuracy metric, and nor is it clear how to provide a confidence which correlates well with the expected accuracy, which would be most valuable in real-world decision making. In this article we estimate the expected accuracy as a surrogate for confidence, for a given accuracy metric. We hypothesise that the expected accuracy can be estimated from the multi-label predictive distribution. We examine seven candidate functions for their ability to estimate expected accuracy from the predictive distribution. We found three of these to correlate to expected accuracy and are robust. Further, we determined that each candidate function can be used separately to estimate Hamming similarity, but a combination of the candidates was best for expected Jaccard index and exact match.
翻訳日:2022-09-12 13:01:07 公開日:2022-09-09
# 教師なしフェデレーション学習による異常検出

Anomaly Detection through Unsupervised Federated Learning ( http://arxiv.org/abs/2209.04184v1 )

ライセンス: Link先を確認
Mirko Nardi, Lorenzo Valerio, Andrea Passarella(参考訳) 分散学習(federated learning, fl)は、分散リソースを活用する上で、最も有望なパラダイムのひとつであることが証明されている。 このトピックに対する関心の爆発的な増加は、通信効率、非IIDデータ処理、プライバシ、セキュリティ機能など、いくつかの中核的な面で急速に進歩しました。 しかしながら、flの作業の大部分は、クライアントのトレーニングセットがラベル付けされていることを前提として、監督されたタスクのみを扱う。 本稿では,分散エッジデバイス上の膨大なラベルなしデータを活用するため,分散環境での異常検出問題に対処することにより,教師なしタスクにflパラダイムを拡張することを目的とする。 特に,前処理フェーズを通じて,クライアントがコミュニティにグループ化され,それぞれが類似の多数派(すなわちインキュア)パターンを持つ新しい手法を提案する。 その後、各クライアントのコミュニティは、同じ異常検出モデル(オートエンコーダ)をフェデレーション形式で訓練する。 得られたモデルは共有され、対応する連合プロセスに参加した同じコミュニティのクライアント内の異常を検出するために使用される。 実験の結果,本手法はロバストであり,同じ不規則パターンを持つクライアント群が知られている理想的なパーティショニングと一致するコミュニティを検出できることがわかった。 さらに、クライアントがローカルデータのみに基づいてモデルをトレーニングし、理想的なコミュニティのパーティショニングのフェデレーションモデルに匹敵するパフォーマンスが大幅に向上している。

Federated learning (FL) is proving to be one of the most promising paradigms for leveraging distributed resources, enabling a set of clients to collaboratively train a machine learning model while keeping the data decentralized. The explosive growth of interest in the topic has led to rapid advancements in several core aspects like communication efficiency, handling non-IID data, privacy, and security capabilities. However, the majority of FL works only deal with supervised tasks, assuming that clients' training sets are labeled. To leverage the enormous unlabeled data on distributed edge devices, in this paper, we aim to extend the FL paradigm to unsupervised tasks by addressing the problem of anomaly detection in decentralized settings. In particular, we propose a novel method in which, through a preprocessing phase, clients are grouped into communities, each having similar majority (i.e., inlier) patterns. Subsequently, each community of clients trains the same anomaly detection model (i.e., autoencoders) in a federated fashion. The resulting model is then shared and used to detect anomalies within the clients of the same community that joined the corresponding federated process. Experiments show that our method is robust, and it can detect communities consistent with the ideal partitioning in which groups of clients having the same inlier patterns are known. Furthermore, the performance is significantly better than those in which clients train models exclusively on local data and comparable with federated models of ideal communities' partition.
翻訳日:2022-09-12 13:00:27 公開日:2022-09-09
# サンプルバイアスの修正のための迅速かつ正確な重み付け

Fast and Accurate Importance Weighting for Correcting Sample Bias ( http://arxiv.org/abs/2209.04215v1 )

ライセンス: Link先を確認
Antoine de Mathelin, Francois Deheeger, Mathilde Mougeot, Nicolas Vayatis(参考訳) データセットのバイアスは、適切な統計推定に非常に有害である。 この問題に対する重み付け法は,任意の偏り分布と対応する非偏り分布とを一致させるために開発された。 KMM法(en:Kernel Mean Matching)は現在でも研究分野における最先端技術であると考えられている。 しかし,本手法の主な欠点の1つは,大規模データセットの計算負担である。 Huang et al. (2007) と de Mathelin et al. (2021) による以前の研究に基づいて、ニューラルネットワークを用いてインスタンスの重みを予測し、大規模データセットにスケールする新しい重要重み付けアルゴリズムを導出する。 複数の公開データセットにおいて,様々なサンプルバイアスの下で,提案手法が大規模データセットの計算時間を劇的に短縮するとともに,他の重み付け手法と比較して類似したサンプルバイアス補正性能を維持することを示した。 提案されたアプローチは,200万までのデータを持つ大規模データセットに対して,適切な時間内に適切な重み付けを行うことのできる唯一の方法だと思われる。

Bias in datasets can be very detrimental for appropriate statistical estimation. In response to this problem, importance weighting methods have been developed to match any biased distribution to its corresponding target unbiased distribution. The seminal Kernel Mean Matching (KMM) method is, nowadays, still considered as state of the art in this research field. However, one of the main drawbacks of this method is the computational burden for large datasets. Building on previous works by Huang et al. (2007) and de Mathelin et al. (2021), we derive a novel importance weighting algorithm which scales to large datasets by using a neural network to predict the instance weights. We show, on multiple public datasets, under various sample biases, that our proposed approach drastically reduces the computational time on large dataset while maintaining similar sample bias correction performance compared to other importance weighting methods. The proposed approach appears to be the only one able to give relevant reweighting in a reasonable time for large dataset with up to two million data.
翻訳日:2022-09-12 13:00:02 公開日:2022-09-09
# マルチモーダル情報を用いた患者軌跡のモデル化

Modelling Patient Trajectories Using Multimodal Information ( http://arxiv.org/abs/2209.04224v1 )

ライセンス: Link先を確認
Jo\~ao Figueira Silva and S\'ergio Matos(参考訳) 電子健康記録 (Electronic Health Records, EHRs) は、患者の健康状態の経時的変化の軌跡として、患者レベルで多様な情報を収集する。 この情報はコンテキストを提供し、医師が患者の健康状態を監視し、より正確な予後/診断を行うために利用できるが、患者の記録には、非常に長い期間にわたる情報が含まれている可能性がある。 患者軌道モデリングは、既存の情報をスケーラブルな方法で探索することで支援することができ、予防医療の実践を育むことで医療の質を高めることに貢献することができる。 本稿では,異なる種類の情報を組み合わせて臨床データの時間的側面を考慮した患者軌跡のモデル化手法を提案する。 本手法は, 患者入力を高密度な表現に変換するための柔軟な特徴セットをサポートする2つのアーキテクチャと, リカレントベースアーキテクチャにおいて, 患者軌跡をスライディングウインドウ機構を用いてサブシーケンスで処理する2つの入力表現を探索する。 本研究は,MIMIC-III臨床データベースを用いて,予期せぬ患者寛解と疾患進行の2つの異なる臨床結果について検討した。 以上の結果から,1回の入院患者による寛解と診断の予測をモデル化する最初のアーキテクチャの可能性が示された。 臨床文献から得られた情報は、他の既存の研究で観察された差別力を示すものではないが、臨床BERTモデルを微調整する必要性から説明できる。 最後に,入力データを表すスライディングウィンドウ機構を用いてシーケンスベースアーキテクチャの可能性を示し,他の既存ソリューションと同等の性能を実現する。

Electronic Health Records (EHRs) aggregate diverse information at the patient level, holding a trajectory representative of the evolution of the patient health status throughout time. Although this information provides context and can be leveraged by physicians to monitor patient health and make more accurate prognoses/diagnoses, patient records can contain information from very long time spans, which combined with the rapid generation rate of medical data makes clinical decision making more complex. Patient trajectory modelling can assist by exploring existing information in a scalable manner, and can contribute in augmenting health care quality by fostering preventive medicine practices. We propose a solution to model patient trajectories that combines different types of information and considers the temporal aspect of clinical data. This solution leverages two different architectures: one supporting flexible sets of input features, to convert patient admissions into dense representations; and a second exploring extracted admission representations in a recurrent-based architecture, where patient trajectories are processed in sub-sequences using a sliding window mechanism. The developed solution was evaluated on two different clinical outcomes, unexpected patient readmission and disease progression, using the publicly available MIMIC-III clinical database. The results obtained demonstrate the potential of the first architecture to model readmission and diagnoses prediction using single patient admissions. While information from clinical text did not show the discriminative power observed in other existing works, this may be explained by the need to fine-tune the clinicalBERT model. Finally, we demonstrate the potential of the sequence-based architecture using a sliding window mechanism to represent the input data, attaining comparable performances to other existing solutions.
翻訳日:2022-09-12 12:59:42 公開日:2022-09-09
# 回帰応用におけるディープファジィシステムに関する調査:解釈可能性に関する考察

Survey on Deep Fuzzy Systems in regression applications: a view on interpretability ( http://arxiv.org/abs/2209.04230v1 )

ライセンス: Link先を確認
Jorge S. S. J\'unior, J\'er\^ome Mendes, Francisco Souza, Cristiano Premebida(参考訳) 回帰問題は、ディープラーニング(DL)技術によってますます受け入れられてきた。 この領域で最近発行された調査やレビューを含む論文の数が増えていることは、高次元データを持つシステムにおける効率性と精度の良さから、深い回帰がコミュニティの注目を集めていることを示している。 しかし、多くのDL手法は複雑な構造を持ち、人に対して容易に透過的でない。 これらのモデルの解釈可能性にアクセスすることは、サイバーセキュリティシステム、医療、金融監視、産業プロセスといったセンシティブな分野の問題に対処するための重要な要素である。 ファジィ論理系(FLS)は本質的に解釈可能なモデルであり、文学においてよく知られており、人間の思考を模倣するメンバーシップの学位を持つ言語用語を通して複雑なシステムに対する非線形表現を使用することができる。 説明可能な人工知能の雰囲気の中では、インテリジェントモデルを開発するための正確性と解釈可能性の間のトレードオフを検討する必要がある。 本稿では,DLとFLSを組み合わせた既存手法,すなわち深層ファジィシステムを用いて回帰問題に対処し,現在文献で十分に研究されていないトピックを整理し,総合的な調査にふさわしい手法について検討することを目的とする。

Regression problems have been more and more embraced by deep learning (DL) techniques. The increasing number of papers recently published in this domain, including surveys and reviews, shows that deep regression has captured the attention of the community due to efficiency and good accuracy in systems with high-dimensional data. However, many DL methodologies have complex structures that are not readily transparent to human users. Accessing the interpretability of these models is an essential factor for addressing problems in sensitive areas such as cyber-security systems, medical, financial surveillance, and industrial processes. Fuzzy logic systems (FLS) are inherently interpretable models, well known in the literature, capable of using nonlinear representations for complex systems through linguistic terms with membership degrees mimicking human thought. Within an atmosphere of explainable artificial intelligence, it is necessary to consider a trade-off between accuracy and interpretability for developing intelligent models. This paper aims to investigate the state-of-the-art on existing methodologies that combine DL and FLS, namely deep fuzzy systems, to address regression problems, configuring a topic that is currently not sufficiently explored in the literature and thus deserves a comprehensive survey.
翻訳日:2022-09-12 12:58:52 公開日:2022-09-09
# 確率的シーケンシャルカバーによる最悪の場合の後悔

Expected Worst Case Regret via Stochastic Sequential Covering ( http://arxiv.org/abs/2209.04417v1 )

ライセンス: Link先を確認
Changlong Wu, Mohsen Heidari, Ananth Grama, Wojciech Szpankowski(参考訳) 一般損失関数の下で確率的に生成した特徴を用いた逐次予測とオンラインミニマックス後悔の問題について検討した。 我々は、既知のミニマックス後悔を一般化し包含する、予想される最悪のミニマックス後悔の概念を導入する。 そのようなミニマックスの後悔に対して、我々は確率的大域的シーケンシャル被覆という新しい概念を通じて厳密な上界を確立する。 VC次元の仮説クラス $\mathsf{VC}$ と $i.i.d.$ の生成した長さ $T$ に対して、確率的大域的シーケンシャル被覆の濃度は $e^{O(\mathsf{VC} \cdot \log^2T)}$ によって高い確率 (whp) で上界できることを示す。 次に、スター・リトルストーン次元と呼ばれる新しい複雑性測度を導入し、スター・リトルストーン次元が$\mathsf{SL}$のクラスが位数$e^{O(\mathsf{SL} \cdot \log T)}$の確率的大域的シーケンシャル被覆を認めることを示す。 さらに,有限ファットシャッタリング数を持つ実数値クラスの上界をさらに確立する。 最後に、固定設計のミニマックス後悔の情報理論ツールを適用することで、期待される最悪のミニマックス後悔に対して低い限界を与える。 対数損失と一般に混合可能な損失に対する最小限の後悔に対する厳密な境界を確立することで,本手法の有効性を実証する。

We study the problem of sequential prediction and online minimax regret with stochastically generated features under a general loss function. We introduce a notion of expected worst case minimax regret that generalizes and encompasses prior known minimax regrets. For such minimax regrets we establish tight upper bounds via a novel concept of stochastic global sequential covering. We show that for a hypothesis class of VC-dimension $\mathsf{VC}$ and $i.i.d.$ generated features of length $T$, the cardinality of the stochastic global sequential covering can be upper bounded with high probability (whp) by $e^{O(\mathsf{VC} \cdot \log^2 T)}$. We then improve this bound by introducing a new complexity measure called the Star-Littlestone dimension, and show that classes with Star-Littlestone dimension $\mathsf{SL}$ admit a stochastic global sequential covering of order $e^{O(\mathsf{SL} \cdot \log T)}$. We further establish upper bounds for real valued classes with finite fat-shattering numbers. Finally, by applying information-theoretic tools of the fixed design minimax regrets, we provide lower bounds for the expected worst case minimax regret. We demonstrate the effectiveness of our approach by establishing tight bounds on the expected worst case minimax regrets for logarithmic loss and general mixable losses.
翻訳日:2022-09-12 12:58:30 公開日:2022-09-09
# Super-Rec:リコメンデーションのための位置強調表現

SUPER-Rec: SUrrounding Position-Enhanced Representation for Recommendation ( http://arxiv.org/abs/2209.04154v1 )

ライセンス: Link先を確認
Taejun Lim, Siqu Long, Josiah Poon, Soyeon Caren Han(参考訳) ユーザの相互作用行列の欠落を回復する行列完備化技術に基づいて,協調フィルタリング問題の解法が一般的である。 行列において、評価位置は、与えられたユーザと評価されたアイテムを具体的に表す。 以前のマトリクス補完技術では、マトリクス内の各要素(ユーザ、アイテム、レーティング)の位置を無視する傾向があるが、主に、マトリクスの欠落値を予測するためにユーザとアイテム間の意味的類似性に注目している。 本稿では,新しい位置強調型ユーザ/イテム表現トレーニングモデル SUPER-Rec を提案する。 まず、相対的位置評価エンコーディングを用いて行列内の評価位置をキャプチャし、行列サイズの影響を受けない埋め込みの固定次元に対する位置強調評価情報とそのユーザ・イテム関係を記憶する。 次に、最も単純な機械学習モデルに、訓練された位置強調ユーザとアイテム表現を適用し、表現学習モデルの純粋新しさを強調する。 提案手法は,提案領域における位置強調項目表現の形式的導入と定量的分析を行い,従来の協調フィルタリング推薦タスクにおいて,明示的かつ暗黙的なフィードバックを伴って,性能向上に寄与する。

Collaborative filtering problems are commonly solved based on matrix completion techniques which recover the missing values of user-item interaction matrices. In a matrix, the rating position specifically represents the user given and the item rated. Previous matrix completion techniques tend to neglect the position of each element (user, item and ratings) in the matrix but mainly focus on semantic similarity between users and items to predict the missing value in a matrix. This paper proposes a novel position-enhanced user/item representation training model for recommendation, SUPER-Rec. We first capture the rating position in the matrix using the relative positional rating encoding and store the position-enhanced rating information and its user-item relationship to the fixed dimension of embedding that is not affected by the matrix size. Then, we apply the trained position-enhanced user and item representations to the simplest traditional machine learning models to highlight the pure novelty of our representation learning model. We contribute the first formal introduction and quantitative analysis of position-enhanced item representation in the recommendation domain and produce a principled discussion about our SUPER-Rec to the outperformed performance of typical collaborative filtering recommendation tasks with both explicit and implicit feedback.
翻訳日:2022-09-12 12:57:37 公開日:2022-09-09
# 知識生成における不確かさの進化の関数としての信頼校正:調査

Trust Calibration as a Function of the Evolution of Uncertainty in Knowledge Generation: A Survey ( http://arxiv.org/abs/2209.04388v1 )

ライセンス: Link先を確認
Joshua Boley and Maoyuan Sun(参考訳) ユーザ信頼は、人間、機械、そして知識が出現するキャンバスを描くデータソースによってもたらされる不確実性にもかかわらず、ユーザに合理的な結論を導くための堅牢なビジュアル分析システムを設計する上で重要な考慮事項である。 知的社会技術システムと同様に、視覚分析システムにおいて信頼関係がどのように進化するかについての理解が、かなり複雑化し、さらに悪化する研究上の考察に、数多くの要因が浮かび上がっている。 しかし、視覚分析システムは、その性質上、単純な従兄弟と全く同じ現象を生じさせるものではなく、必ずしも全く同じ種類の現象であるとは限らない。 いずれにしても、どちらのアプリケーションドメインも、信頼性の必要性が生まれる同じ根本原因、不確実性とリスクの仮定を示します。 さらに、視覚分析システムは、(従来は)人間の入力や処理中の方向を指示するために閉じられている知的なシステムよりも、多くの認知バイアスに影響され、ユーザの信頼を損なう可能性のある不確実性の会計を更に悪化させ、最終的にはシステムへの信頼を増す。 In this article we argue that accounting for the propagation of uncertainty from data sources all the way through extraction of information and hypothesis testing is necessary to understand how user trust in a visual analytics system evolves over its lifecycle, and that the analyst's selection of visualization parameters affords us a simple means to capture the interactions between uncertainty and cognitive bias as a function of the attributes of the search tasks the analyst executes while evaluating explanations. 我々は,視覚分析,認知理論,不確実性から幅広い文献を抽出し,有用な視点を合成する試みを行った。

User trust is a crucial consideration in designing robust visual analytics systems that can guide users to reasonably sound conclusions despite inevitable biases and other uncertainties introduced by the human, the machine, and the data sources which paint the canvas upon which knowledge emerges. A multitude of factors emerge upon studied consideration which introduce considerable complexity and exacerbate our understanding of how trust relationships evolve in visual analytics systems, much as they do in intelligent sociotechnical systems. A visual analytics system, however, does not by its nature provoke exactly the same phenomena as its simpler cousins, nor are the phenomena necessarily of the same exact kind. Regardless, both application domains present the same root causes from which the need for trustworthiness arises: Uncertainty and the assumption of risk. In addition, visual analytics systems, even more than the intelligent systems which (traditionally) tend to be closed to direct human input and direction during processing, are influenced by a multitude of cognitive biases that further exacerbate an accounting of the uncertainties that may afflict the user's confidence, and ultimately trust in the system. In this article we argue that accounting for the propagation of uncertainty from data sources all the way through extraction of information and hypothesis testing is necessary to understand how user trust in a visual analytics system evolves over its lifecycle, and that the analyst's selection of visualization parameters affords us a simple means to capture the interactions between uncertainty and cognitive bias as a function of the attributes of the search tasks the analyst executes while evaluating explanations. We sample a broad cross-section of the literature from visual analytics, human cognitive theory, and uncertainty, and attempt to synthesize a useful perspective.
翻訳日:2022-09-12 12:57:13 公開日:2022-09-09
# 時空間心エコー法による左室エジェクション分画の推定

EchoCoTr: Estimation of the Left Ventricular Ejection Fraction from Spatiotemporal Echocardiography ( http://arxiv.org/abs/2209.04242v1 )

ライセンス: Link先を確認
Rand Muhtaseb and Mohammad Yaqub(参考訳) 時空間的特徴の学習は、特に心エコー図などの医療画像において、効率的な映像理解のための重要な課題である。 畳み込みニューラルネットワーク(CNN)と、より最近のビジョントランスフォーマー(ViT)は、それぞれに制限がある最も一般的な方法である。 CNNはローカルなコンテキストを捉えるのが得意だが、ビデオフレーム全体にわたってグローバルな情報を学べない。 一方、視覚変換器はグローバルな詳細と長いシーケンスを組み込むことができるが、計算コストが高く、訓練により多くのデータを必要とする。 本稿では,心エコー検査などの医用ビデオデータのトレーニングにおいて,通常直面する限界に対処する手法を提案する。 超音波映像における左室放出率(LVEF)を推定するために,視覚変換器とCNNの強度を利用したEchoCoTrを提案する。 提案手法は,3.95 mae と 0.82 の $r^2$ を持つ echonet-dynamic dataset において,最先端の作業よりも優れることを示す。 これらの結果は、公表されたすべての研究と比較して明らかな改善を示した。 さらに, ViT や BERT などのアルゴリズムとの比較を行った。 コードはhttps://github.com/BioMedIA-MBzuAI/EchoCoTrで公開されている。

Learning spatiotemporal features is an important task for efficient video understanding especially in medical images such as echocardiograms. Convolutional neural networks (CNNs) and more recent vision transformers (ViTs) are the most commonly used methods with limitations per each. CNNs are good at capturing local context but fail to learn global information across video frames. On the other hand, vision transformers can incorporate global details and long sequences but are computationally expensive and typically require more data to train. In this paper, we propose a method that addresses the limitations we typically face when training on medical video data such as echocardiographic scans. The algorithm we propose (EchoCoTr) utilizes the strength of vision transformers and CNNs to tackle the problem of estimating the left ventricular ejection fraction (LVEF) on ultrasound videos. We demonstrate how the proposed method outperforms state-of-the-art work to-date on the EchoNet-Dynamic dataset with MAE of 3.95 and $R^2$ of 0.82. These results show noticeable improvement compared to all published research. In addition, we show extensive ablations and comparisons with several algorithms, including ViT and BERT. The code is available at https://github.com/BioMedIA-MBZUAI/EchoCoTr.
翻訳日:2022-09-12 12:54:24 公開日:2022-09-09
# 予め学習した画像生成器を用いた音声音声からの発話頭部

Talking Head from Speech Audio using a Pre-trained Image Generator ( http://arxiv.org/abs/2209.04252v1 )

ライセンス: Link先を確認
Mohammed M. Alghamdi, He Wang, Andrew J. Bulpitt, David C. Hogg(参考訳) 音声音声と1つの「同一性」画像から音声の高精細度映像を生成する手法を提案する。 本手法は,事前学習したStyleGANジェネレータを組み込んだ畳み込みニューラルネットワークモデルに基づく。 各フレームをスタイルガンの潜在空間の点としてモデル化し、ビデオが潜在空間内の軌道に対応するようにした。 ネットワークのトレーニングは2段階です。 第1段階は、音声発話を条件とした潜在空間における軌跡のモデル化である。 これを実現するために,既存のエンコーダを用いて生成元を反転させ,各ビデオフレームから潜在空間へのマッピングを行う。 我々は、音声発話から画像生成装置の潜時空間の変位へマッピングするために、繰り返しニューラルネットワークを訓練する。 これらの変位は、トレーニングデータセットで描かれた個人から選択されたアイデンティティイメージの潜在空間へのバックプロジェクションに相対する。 第2段階では、画像生成装置を単一の画像または選択したアイデンティティのショートビデオに調整することにより、生成した映像の視覚的品質を向上させる。 標準測度(PSNR, SSIM, FID, LMD)で評価し, 2つの一般的なデータセットのうちの1つで最近の最先端の手法を著しく上回り, 他方で同等の性能を示した。 最後に,モデルの構成要素を検証するアブレーション実験について報告する。 実験のコードとビデオはhttps://mohammedalghamdi.github.io/talking-heads-acm-mmにある。

We propose a novel method for generating high-resolution videos of talking-heads from speech audio and a single 'identity' image. Our method is based on a convolutional neural network model that incorporates a pre-trained StyleGAN generator. We model each frame as a point in the latent space of StyleGAN so that a video corresponds to a trajectory through the latent space. Training the network is in two stages. The first stage is to model trajectories in the latent space conditioned on speech utterances. To do this, we use an existing encoder to invert the generator, mapping from each video frame into the latent space. We train a recurrent neural network to map from speech utterances to displacements in the latent space of the image generator. These displacements are relative to the back-projection into the latent space of an identity image chosen from the individuals depicted in the training dataset. In the second stage, we improve the visual quality of the generated videos by tuning the image generator on a single image or a short video of any chosen identity. We evaluate our model on standard measures (PSNR, SSIM, FID and LMD) and show that it significantly outperforms recent state-of-the-art methods on one of two commonly used datasets and gives comparable performance on the other. Finally, we report on ablation experiments that validate the components of the model. The code and videos from experiments can be found at https://mohammedalghamdi.github.io/talking-heads-acm-mm
翻訳日:2022-09-12 12:54:05 公開日:2022-09-09
# 小型で高速に動くオブジェクトの追跡:ベンチマーク

Tracking Small and Fast Moving Objects: A Benchmark ( http://arxiv.org/abs/2209.04284v1 )

ライセンス: Link先を確認
Zhewen Zhang, Fuliang Wu, Yuming Qiu, Jingdong Liang, Shuiwang Li(参考訳) トレーニング用の大規模データセットがますます増えており、ビジュアルトラッキングは近年大きな進歩を遂げている。 しかし、この分野における現在の研究は主にジェネリックオブジェクトの追跡に焦点を当てている。 本稿では, \textbf{t}racking \textbf{s}mallと \textbf{f}ast \textbf{m}oving \textbf{o}bjectsのベンチマークであるtsfmoを提案する。 このベンチマークは、特にこの課題に対する新規で正確な手法の開発を奨励することを目的としている。 tsfmoは約50kフレームからなる250のシーケンスからなる。 これらのシーケンスの各フレームは慎重に、手動でバウンディングボックスで注釈付けされる。 私たちの知る限りでは、TSFMOは、特にスポーツに関連する、小さく速く動く物体を追跡するための最初のベンチマークです。 既存の手法がどのように機能するかを理解し,将来のTSFMO研究との比較を行うため,ベンチマーク上で20の最先端トラッカーを広範囲に評価した。 評価結果は,小型で高速な物体の追跡を改善するためには,より多くの努力が必要であることを示している。 さらに,今後の研究を奨励するために,評価対象20種を超越した新しいトラッカーS-KeepTrackを提案する。 tsfmoのリリースにより、小型で高速に動くオブジェクトを追跡する将来の研究やアプリケーションを促進することが期待されます。 TSFMOとS-KeepTrackの評価結果は、 \url{https://github.com/CodeOfGithub/S-KeepTrack}で見ることができる。

With more and more large-scale datasets available for training, visual tracking has made great progress in recent years. However, current research in the field mainly focuses on tracking generic objects. In this paper, we present TSFMO, a benchmark for \textbf{T}racking \textbf{S}mall and \textbf{F}ast \textbf{M}oving \textbf{O}bjects. This benchmark aims to encourage research in developing novel and accurate methods for this challenging task particularly. TSFMO consists of 250 sequences with about 50k frames in total. Each frame in these sequences is carefully and manually annotated with a bounding box. To the best of our knowledge, TSFMO is the first benchmark dedicated to tracking small and fast moving objects, especially connected to sports. To understand how existing methods perform and to provide comparison for future research on TSFMO, we extensively evaluate 20 state-of-the-art trackers on the benchmark. The evaluation results exhibit that more effort are required to improve tracking small and fast moving objects. Moreover, to encourage future research, we proposed a novel tracker S-KeepTrack which surpasses all 20 evaluated approaches. By releasing TSFMO, we expect to facilitate future researches and applications of tracking small and fast moving objects. The TSFMO and evaluation results as well as S-KeepTrack are available at \url{https://github.com/CodeOfGithub/S-KeepTrack}.
翻訳日:2022-09-12 12:53:41 公開日:2022-09-09
# オープンボキャブラリータスクのための画像言語トランスフォーマーの事前学習

Pre-training image-language transformers for open-vocabulary tasks ( http://arxiv.org/abs/2209.04372v1 )

ライセンス: Link先を確認
AJ Piergiovanni and Weicheng Kuo and Anelia Angelova(参考訳) 本稿では,様々なタスクの混合に基づく視覚・言語トランスフォーマーモデルのための事前学習手法を提案する。 我々は,事前学習における画像テキストキャプションデータの利用と,モデルを事前学習するためのオブジェクト認識戦略について検討する。 本手法は,視覚質問応答,視覚表示,キャプションといったテキスト生成型視覚+言語タスクで評価し,標準事前学習法よりも大きな向上を示す。

We present a pre-training approach for vision and language transformer models, which is based on a mixture of diverse tasks. We explore both the use of image-text captioning data in pre-training, which does not need additional supervision, as well as object-aware strategies to pre-train the model. We evaluate the method on a number of textgenerative vision+language tasks, such as Visual Question Answering, visual entailment and captioning, and demonstrate large gains over standard pre-training methods.
翻訳日:2022-09-12 12:53:19 公開日:2022-09-09
# Token-Criticによるマスク画像生成の改善

Improved Masked Image Generation with Token-Critic ( http://arxiv.org/abs/2209.04439v1 )

ライセンス: Link先を確認
Jos\'e Lezama, Huiwen Chang, Lu Jiang, Irfan Essa(参考訳) 最近、非自己回帰生成変換器は、印象的な画像生成性能を示し、自己回帰変換器よりも桁違いに高速なサンプリングを行った。 しかし、視覚トークンの真の結合分布からの最適な並列サンプリングは、未解決の課題である。 本稿では,非自己回帰生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。 マスクと再構成された実画像が与えられると、トークン批判モデルは、どの視覚トークンが元の画像に属し、どれが生成トランスフォーマーによってサンプリングされたかを識別するために訓練される。 非自己回帰的な反復サンプリングでは、どのトークンを受け入れるか、どれを拒否するか、どれをサンプルするかを選択するためにtoken-criticが使用される。 Token-Criticと組み合わせることで、最先端の生成変換器の性能が大幅に向上し、画像品質と多様性のトレードオフの観点から最近の拡散モデルやGANよりも優れている。

Non-autoregressive generative transformers recently demonstrated impressive image generation performance, and orders of magnitude faster sampling than their autoregressive counterparts. However, optimal parallel sampling from the true joint distribution of visual tokens remains an open challenge. In this paper we introduce Token-Critic, an auxiliary model to guide the sampling of a non-autoregressive generative transformer. Given a masked-and-reconstructed real image, the Token-Critic model is trained to distinguish which visual tokens belong to the original image and which were sampled by the generative transformer. During non-autoregressive iterative sampling, Token-Critic is used to select which tokens to accept and which to reject and resample. Coupled with Token-Critic, a state-of-the-art generative transformer significantly improves its performance, and outperforms recent diffusion models and GANs in terms of the trade-off between generated image quality and diversity, in the challenging class-conditional ImageNet generation.
翻訳日:2022-09-12 12:52:50 公開日:2022-09-09
# モバイルパーセルロッカーを用いたラストミル配送の位置情報ルーティング計画:ハイブリッドQラーニングネットワークアプローチ

Location-Routing Planning for Last-Mile Deliveries Using Mobile Parcel Lockers: A Hybrid Q-Learning Network Approach ( http://arxiv.org/abs/2209.04265v1 )

ライセンス: Link先を確認
Yubin Liu, Qiming Ye, Jose Escribano-Macias, Yuxiang Feng, Panagiotis Angeloudis(参考訳) 移動式パーセルロッカー (MPL) は近年, 都市貨物流通における交通渋滞の低減と運用コストの低減を支援する技術として, 物流事業者によって提案されている。 デプロイメントの領域全体を移動できる能力を考えると、顧客のアクセシビリティと利便性を向上させる可能性を秘めている。 本研究では,MPLP (Mobile Parcel Locker Problem) を定式化し,LRP (Location-Routing Problem) の特殊な事例として,MPL の終日停止位置を最適に決定し,それに対応する配送経路を計画する。 局所的オプティマを脱出しながら生じる大規模問題インスタンスの計算複雑性を解決するために,ハイブリッドq-learning-network-based method (hqm) を開発した。 さらに、HQMは、古典的な強化学習(RL)手法が直面する探索と搾取のジレンマを解決するために、グローバルおよびローカル検索機構と統合されている。 異なる問題サイズ(最大200ノード)でhqmの性能を調べ、遺伝的アルゴリズム(ga)に対してベンチマークを行った。 その結果,HQM の平均報酬は GA の 1.96 倍であり,HQM の最適化能力が向上していることが示された。 最後に,フリートサイズの要求,移動距離,サービス遅延に寄与する重要な要因を明らかにする。 以上の結果から,MPL の効率は,時間窓の長さや MPL の停止時間に大きく左右されることが明らかとなった。

Mobile parcel lockers (MPLs) have been recently proposed by logistics operators as a technology that could help reduce traffic congestion and operational costs in urban freight distribution. Given their ability to relocate throughout their area of deployment, they hold the potential to improve customer accessibility and convenience. In this study, we formulate the Mobile Parcel Locker Problem (MPLP), a special case of the Location-Routing Problem (LRP) which determines the optimal stopover location for MPLs throughout the day and plans corresponding delivery routes. A Hybrid Q-Learning-Network-based Method (HQM) is developed to resolve the computational complexity of the resulting large problem instances while escaping local optima. In addition, the HQM is integrated with global and local search mechanisms to resolve the dilemma of exploration and exploitation faced by classic reinforcement learning (RL) methods. We examine the performance of HQM under different problem sizes (up to 200 nodes) and benchmarked it against the Genetic Algorithm (GA). Our results indicate that the average reward obtained by HQM is 1.96 times greater than GA, which demonstrates that HQM has a better optimisation ability. Finally, we identify critical factors that contribute to fleet size requirements, travel distances, and service delays. Our findings outline that the efficiency of MPLs is mainly contingent on the length of time windows and the deployment of MPL stopovers.
翻訳日:2022-09-12 12:48:43 公開日:2022-09-09
# 確率事象に対するアライメントに基づくコンフォーマンスチェック

Alignment-based conformance checking over probabilistic events ( http://arxiv.org/abs/2209.04309v1 )

ライセンス: Link先を確認
Jiawei Zheng and Petros Papapanagiotou(参考訳) コンフォーマンスチェック技術により、監視されたイベントのトレースとして表される一部の振る舞いが、特定のプロセスモデルにどの程度適合しているかを評価することができます。 センサ、IoT、統計、AIなどに依存する現代の監視とアクティビティ認識技術は、豊富な関連するイベントデータを生成することができる。 しかしながら、このデータは、コンフォーマンスチェックアルゴリズムが要求する決定論的イベントログの仮定とは対照的に、ノイズと不確実性によって特徴づけられる。 本稿では,アライメントに基づくコンフォーマンスチェックを確率的イベントログ下で機能するように拡張する。 本稿では,確率的トレースモデルとアライメントコスト関数,イベントデータに対する信頼度とプロセスモデルに対する信頼度を制御するカスタムしきい値パラメータを提案する。 得られたアルゴリズムは、従来のアライメントに比べて十分に高い確率のアライメントイベントの存在下での適合度スコアが増加し、従って偽陽性偏差が減少する。 本稿では,そのアルゴリズムとその動機を形式的かつ直感的視点から説明し,その機能と決定論的アライメントとの比較を理論的例で示す。

Conformance checking techniques allow us to evaluate how well some exhibited behaviour, represented by a trace of monitored events, conforms to a specified process model. Modern monitoring and activity recognition technologies, such as those relying on sensors, the IoT, statistics and AI, can produce a wealth of relevant event data. However, this data is typically characterised by noise and uncertainty, in contrast to the assumption of a deterministic event log required by conformance checking algorithms. In this paper, we extend alignment-based conformance checking to function under a probabilistic event log. We introduce a probabilistic trace model and alignment cost function, and a custom threshold parameter that controls the level of trust on the event data vs. the process model. The resulting algorithm yields an increased fitness score in the presence of aligned events of sufficiently high probability compared to traditional alignment, and thus fewer false positive deviations. We explain the algorithm and its motivation both from a formal and intuitive perspective, and demonstrate its functionality in comparison with deterministic alignment using a set of theoretical examples.
翻訳日:2022-09-12 12:48:17 公開日:2022-09-09
# MIntRec: マルチモーダルインテント認識のための新しいデータセット

MIntRec: A New Dataset for Multimodal Intent Recognition ( http://arxiv.org/abs/2209.04355v1 )

ライセンス: Link先を確認
Hanlei Zhang, Hua Xu, Xin Wang, Qianrui Zhou, Shaojie Zhao, Jiayan Teng(参考訳) マルチモーダルインテント認識は、現実世界のマルチモーダルシーンにおける人間の言語を理解する上で重要なタスクである。 既存のインテント認識手法の多くは、テキスト情報のみを含むベンチマークデータセットの制限のため、マルチモーダル情報を活用することに制限がある。 本稿では,マルチモーダルな意図認識のための新しいデータセット(MIntRec)を提案する。 テレビシリーズ『スーパーストア』から収集されたデータに基づいて、粗くきめ細かな意図の分類を定式化する。 データセットは、テキスト、ビデオ、オーディオのモダリティを持つ2,224の高品質なサンプルで構成され、20のインテントカテゴリにマルチモーダルアノテーションがある。 さらに,各映像セグメントにアノテートされた話者境界ボックスを提供し,話者アノテーションの自動処理を実現する。 MIntRecは、意図認識能力を高めるために、様々なモダリティ間の関係を掘り下げるのに役立つ。 ベースライン構築に3つの強力なマルチモーダル融合法を適用することにより,各モーダルおよびモデル間の相互作用の特徴を抽出する。 非言語的モダリティの利用は、テキストのみのモダリティよりも大幅に改善され、意図認識にマルチモーダル情報を使用することの有効性が示されている。 もっとも優れた方法と人間とのギャップは、コミュニティにとってこのタスクの課題と重要性を示している。 完全なデータセットとコードはhttps://github.com/thuiar/MIntRecで利用可能である。

Multimodal intent recognition is a significant task for understanding human language in real-world multimodal scenes. Most existing intent recognition methods have limitations in leveraging the multimodal information due to the restrictions of the benchmark datasets with only text information. This paper introduces a novel dataset for multimodal intent recognition (MIntRec) to address this issue. It formulates coarse-grained and fine-grained intent taxonomies based on the data collected from the TV series Superstore. The dataset consists of 2,224 high-quality samples with text, video, and audio modalities and has multimodal annotations among twenty intent categories. Furthermore, we provide annotated bounding boxes of speakers in each video segment and achieve an automatic process for speaker annotation. MIntRec is helpful for researchers to mine relationships between different modalities to enhance the capability of intent recognition. We extract features from each modality and model cross-modal interactions by adapting three powerful multimodal fusion methods to build baselines. Extensive experiments show that employing the non-verbal modalities achieves substantial improvements compared with the text-only modality, demonstrating the effectiveness of using multimodal information for intent recognition. The gap between the best-performing methods and humans indicates the challenge and importance of this task for the community. The full dataset and codes are available for use at https://github.com/thuiar/MIntRec.
翻訳日:2022-09-12 12:47:56 公開日:2022-09-09
# TEACH:3D人間のための時間的行動構成

TEACH: Temporal Action Composition for 3D Humans ( http://arxiv.org/abs/2209.04066v1 )

ライセンス: Link先を確認
Nikos Athanasiou, Mathis Petrovich, Michael J. Black, G\"ul Varol(参考訳) 自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成し,命令の時間的順序に従う。 特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。 テキストコンディショルドモーション合成における現在の技術は、入力として1つのアクションまたは1つの文だけを取る。 これは、アクションシーケンスを含む適切なトレーニングデータが欠如していることに加えて、非自己回帰モデル定式化の計算の複雑さによっても原因である。 この作業では、両方の問題に対処します。 まず,BABELの動作テキストコレクションを利用して,ラベル付きアクションを多種多様に表現し,それらの間の遷移を連続して生成する。 次に、動作のシーケンス内で非自己回帰的に動作するTransformerベースのアプローチを設計する。 この階層的な定式化は、複数のベースラインと比較して、我々の実験で有効であることを示す。 我々のアプローチはTAACH(Temporal Action compositions for Human Motions)と呼ばれ、多種多様な行動のためのリアルな人間の動きと、言語記述からの時間的構成を生成する。 この新しいタスクの作業を促進するため、コードは研究目的で$\href{teach.is.tue.mpg.de}{\textrm{our website}}$で利用可能です。

Given a series of natural language descriptions, our task is to generate 3D human motions that correspond semantically to the text, and follow the temporal order of the instructions. In particular, our goal is to enable the synthesis of a series of actions, which we refer to as temporal action composition. The current state of the art in text-conditioned motion synthesis only takes a single action or a single sentence as input. This is partially due to lack of suitable training data containing action sequences, but also due to the computational complexity of their non-autoregressive model formulation, which does not scale well to long sequences. In this work, we address both issues. First, we exploit the recent BABEL motion-text collection, which has a wide range of labeled actions, many of which occur in a sequence with transitions between them. Next, we design a Transformer-based approach that operates non-autoregressively within an action, but autoregressively within the sequence of actions. This hierarchical formulation proves effective in our experiments when compared with multiple baselines. Our approach, called TEACH for "TEmporal Action Compositions for Human motions", produces realistic human motions for a wide variety of actions and temporal compositions from language descriptions. To encourage work on this new task, we make our code available for research purposes at $\href{teach.is.tue.mpg.de}{\textrm{our website}}$.
翻訳日:2022-09-12 12:46:51 公開日:2022-09-09
# ISS:テキストガイドによる3D形状生成のためのステッティングストーンとしてのイメージ

ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation ( http://arxiv.org/abs/2209.04145v1 )

ライセンス: Link先を確認
Zhengzhe Liu, Peng Dai, Ruihui Li, Xiaojuan Qi, Chi-Wing Fu(参考訳) テキストガイドによる3次元形状生成は、大きなペアのテキスト形状データがないこと、これらの2つのモード間の実質的な意味的ギャップ、および3次元形状の構造的複雑さにより、依然として困難である。 本稿では,2次元イメージをステッピングストーンとして導入し,これら2つのモダリティを接続し,テキスト型データのペア化を不要とした,ステッピングストーン(iss)と呼ばれる新たな枠組みを提案する。 まず、クリップ画像の特徴をsvrモデルのディテールリッチな形状空間にマッピングし、次にクリップテキスト特徴を形状空間にマッピングし、入力テキストとレンダリング画像間のクリップ一貫性を奨励することにより、マッピングを最適化します。 さらに,テキストガイド型形状分類モジュールを定式化し,その出力形状を新しいテクスチャで表現する。 テキストから3d形状を生成する既存の作業以外にも、我々の新しいアプローチは、テキスト形式のデータをペアにすることなく、幅広いカテゴリの形状を作成するのに一般的です。 実験の結果,本手法はテキストの忠実性と一貫性の観点から,最先端とベースラインを上回っていることがわかった。 さらに,現実的,ファンタジー的な構造とテクスチャの両方で生成した形状をスタイリッシュすることができる。

Text-guided 3D shape generation remains challenging due to the absence of large paired text-shape data, the substantial semantic gap between these two modalities, and the structural complexity of 3D shapes. This paper presents a new framework called Image as Stepping Stone (ISS) for the task by introducing 2D image as a stepping stone to connect the two modalities and to eliminate the need for paired text-shape data. Our key contribution is a two-stage feature-space-alignment approach that maps CLIP features to shapes by harnessing a pre-trained single-view reconstruction (SVR) model with multi-view supervisions: first map the CLIP image feature to the detail-rich shape space in the SVR model, then map the CLIP text feature to the shape space and optimize the mapping by encouraging CLIP consistency between the input text and the rendered images. Further, we formulate a text-guided shape stylization module to dress up the output shapes with novel textures. Beyond existing works on 3D shape generation from text, our new approach is general for creating shapes in a broad range of categories, without requiring paired text-shape data. Experimental results manifest that our approach outperforms the state-of-the-arts and our baselines in terms of fidelity and consistency with text. Further, our approach can stylize the generated shapes with both realistic and fantasy structures and textures.
翻訳日:2022-09-12 12:46:26 公開日:2022-09-09
# パーソナリティ特性予測のための多人数顔のドメイン特化学習

Domain-specific Learning of Multi-scale Facial Dynamics for Apparent Personality Traits Prediction ( http://arxiv.org/abs/2209.04148v1 )

ライセンス: Link先を確認
Fang Li(参考訳) 人間の性格は日常生活や労働行動の様々な側面を決定する。 パーソナリティ特性は時間とともに相対的に安定し、各被験者にとってユニークであるため、以前のアプローチでは1つのフレームや短期的な行動からパーソナリティを推測することが多い。 さらに、そのほとんどが、人格認識のための個人固有のユニークな手がかりを抽出しなかった。 In this paper, we propose a novel video-based automatic personality traits recognition approach which consists of: (1) a \textbf{domain-specific facial behavior modelling} module that extracts personality-related multi-scale short-term human facial behavior features; (2) a \textbf{long-term behavior modelling} module that summarizes all short-term features of a video as a long-term/video-level personality representation and (3) a \textbf{multi-task personality traits prediction module} that models underlying relationship among all traits and jointly predict them based on the video-level personality representation. われわれはChaLearn First Impressionデータセットを用いて実験を行い、そのアプローチは最先端技術に匹敵する結果を得た。 重要なことは、3つのモジュールがパーソナリティ認識に重要な利点をもたらしたことである。

Human personality decides various aspects of their daily life and working behaviors. Since personality traits are relatively stable over time and unique for each subject, previous approaches frequently infer personality from a single frame or short-term behaviors. Moreover, most of them failed to specifically extract person-specific and unique cues for personality recognition. In this paper, we propose a novel video-based automatic personality traits recognition approach which consists of: (1) a \textbf{domain-specific facial behavior modelling} module that extracts personality-related multi-scale short-term human facial behavior features; (2) a \textbf{long-term behavior modelling} module that summarizes all short-term features of a video as a long-term/video-level personality representation and (3) a \textbf{multi-task personality traits prediction module} that models underlying relationship among all traits and jointly predict them based on the video-level personality representation. We conducted the experiments on ChaLearn First Impression dataset, and our approach achieved comparable results to the state-of-the-art. Importantly, we show that all three proposed modules brought important benefits for personality recognition.
翻訳日:2022-09-12 12:46:03 公開日:2022-09-09
# 位相可変物体の遠交画像合成のための生成可能な変形可能放射場

Generative Deformable Radiance Fields for Disentangled Image Synthesis of Topology-Varying Objects ( http://arxiv.org/abs/2209.04183v1 )

ライセンス: Link先を確認
Ziyu Wang, Yu Deng, Jiaolong Yang, Jingyi Yu, Xin Tong(参考訳) 3D認識生成モデルは、トポロジに変化する対象カテゴリであっても、モノクロ2D画像の集合から3Dニューラル放射場(NeRF)を生成するために、そのスーパーブパフォーマンスを実証している。 しかし、これらの手法は生成した放射能場における物体の形状と外観を別々に制御する能力に欠ける。 本稿では, トポロジー変化物体の放射場を非交叉形状と外観変化で合成する生成モデルを提案する。 本手法は,オブジェクトの密度場間の密対応を構築し,その外観を共有テンプレートフィールドにエンコードする,変形可能な放射場を生成する。 従来の3D-Aware GANトレーニングに余分なラベルを導入することなく、教師なしの方法で不整合を実現する。 また,実モノクロ画像における物体の放射場を再構成し,その形状と外観を操作するための効果的な画像インバージョンスキームを開発した。 実験により,非構造単分子画像から生成モデルを学習し,物体の形状や外観(例えば椅子)を大きな位相差でうまく歪めることができることがわかった。 合成データに基づいて訓練されたモデルは、所定の画像内の実物体を忠実に再構成し、高品質なテクスチャおよび形状編集結果が得られる。

3D-aware generative models have demonstrated their superb performance to generate 3D neural radiance fields (NeRF) from a collection of monocular 2D images even for topology-varying object categories. However, these methods still lack the capability to separately control the shape and appearance of the objects in the generated radiance fields. In this paper, we propose a generative model for synthesizing radiance fields of topology-varying objects with disentangled shape and appearance variations. Our method generates deformable radiance fields, which builds the dense correspondence between the density fields of the objects and encodes their appearances in a shared template field. Our disentanglement is achieved in an unsupervised manner without introducing extra labels to previous 3D-aware GAN training. We also develop an effective image inversion scheme for reconstructing the radiance field of an object in a real monocular image and manipulating its shape and appearance. Experiments show that our method can successfully learn the generative model from unstructured monocular images and well disentangle the shape and appearance for objects (e.g., chairs) with large topological variance. The model trained on synthetic data can faithfully reconstruct the real object in a given single image and achieve high-quality texture and shape editing results.
翻訳日:2022-09-12 12:45:45 公開日:2022-09-09
# 支援・抑制された交通信号検出のためのインド道路データセット

An Indian Roads Dataset for Supported and Suspended Traffic Lights Detection ( http://arxiv.org/abs/2209.04203v1 )

ライセンス: Link先を確認
Sarita Gautam, Anuj Kumar(参考訳) 自動運転車は、アメリカ、ヨーロッパ、中国などの先進国で急速に成長している。 Google、Tesla、Audi、BMW、Mercedesといったテック大企業が、高度に効率的な自動運転車を開発している。 しかし、インド、タイ、アフリカなどの発展途上国では依然としてこの技術が主流とはなっていないため、先進国とインド道路に基づく既存のデータセットを徹底的に比較する。 次に,64メガピクセルのカメラで撮影された3000以上の画像から8000以上のアノテーションを抽出した新しいデータセット"Indian Roads Dataset"(IRD)を開発した。 すべてのアノテーションは、アノテーションの厳格な規則に従って手動でラベル付けされます。 インドの2つの都市、すなわちニューデリーとチャンディガルから、昼と夜の条件でリアルタイムで映像が撮影された。 私たちのデータセットは、サイズ、アノテーション、分散の以前のインドのトラフィックライトデータセットを超えています。 既存のインドのデータセットと比較することにより、データセットの改善を実証する。 サイズ、キャプチャデバイス、都市数、交通光方向の変化など、さまざまなデータセットの基準が検討されている。 データセットはhere https://sites.google.com/view/ird-dataset/homeからダウンロードできる。

Autonomous vehicles are growing rapidly, in well-developed nations like America, Europe, and China. Tech giants like Google, Tesla, Audi, BMW, and Mercedes are building highly efficient self-driving vehicles. However, the technology is still not mainstream for developing nations like India, Thailand, Africa, etc., In this paper, we present a thorough comparison of the existing datasets based on well-developed nations as well as Indian roads. We then developed a new dataset "Indian Roads Dataset" (IRD) having more than 8000 annotations extracted from 3000+ images shot using a 64 (megapixel) camera. All the annotations are manually labelled adhering to the strict rules of annotations. Real-time video sequences have been captured from two different cities in India namely New Delhi and Chandigarh during the day and night-light conditions. Our dataset exceeds previous Indian traffic light datasets in size, annotations, and variance. We prove the amelioration of our dataset by providing an extensive comparison with existing Indian datasets. Various dataset criteria like size, capturing device, a number of cities, and variations of traffic light orientations are considered. The dataset can be downloaded from here https://sites.google.com/view/ird-dataset/home
翻訳日:2022-09-12 12:45:23 公開日:2022-09-09
# Tolerance Principle に基づく言語力学系の導出

Deriving dynamical systems for language based on the Tolerance Principle ( http://arxiv.org/abs/2209.04261v1 )

ライセンス: Link先を確認
Fernando C. Alves(参考訳) 本研究は,子どもが言語習得過程において規則が生産的かどうかを判断するための許容原則(yang,2016)に従うことを前提として,獲得駆動フレームワーク(niyogi \& berwick,1997,niyogi,2006)内の言語に対する明示的な動的システムを導出する。 私は、人口サイズ(有限対無限)や学習者にデータを提供する前世代の数といった、異なる理論的なパラメータを考える。 ここで得られた力学の複数のシミュレーションと音素言語データへの応用が準備されているので、最初のノートには含まれていない。

In this research note, I derive explicit dynamical systems for language within an acquisition-driven framework (Niyogi \& Berwick, 1997; Niyogi, 2006) assuming that children/learners follow the Tolerance Principle (Yang, 2016) to determine whether a rule is productive during the process of language acquisition. I consider different theoretical parameters such as population size (finite vs. infinite) and the number of previous generations that provide learners with data. Multiple simulations of the dynamics obtained here and applications to diacrhonic language data are in preparation, so they are not included in this first note.
翻訳日:2022-09-12 12:41:42 公開日:2022-09-09
# F-COREF: 高速で高精度で容易に参照解決

F-COREF: Fast, Accurate and Easy to Use Coreference Resolution ( http://arxiv.org/abs/2209.04280v1 )

ライセンス: Link先を確認
Shon Otmazgin, Arie Cattan, Yoav Goldberg(参考訳) fastcorefは、高速で正確で使いやすい英語のコリファレンス解決のためのpythonパッケージです。 パッケージはpipインストール可能で、2つのモードがある。lingmessアーキテクチャに基づく正確なモード、最先端のコリファレンス精度を提供する、そして、この作業の焦点である実質的に高速なモデルであるf-corefである。 モデル{}は、V100 GPU上で2.8K OntoNotesの文書を25秒で処理できる(LingMessモデルでは6分、一般的なAllenNLPコア参照モデルでは12分)。 この高速化はLingMessモデルからのコンパクトモデルの蒸留と,余剰バッチと呼ばれる手法による効率的なバッチ化との組み合わせによって実現される。 https://github.com/shon-otmazgin/fastcoref

We introduce fastcoref, a python package for fast, accurate, and easy-to-use English coreference resolution. The package is pip-installable, and allows two modes: an accurate mode based on the LingMess architecture, providing state-of-the-art coreference accuracy, and a substantially faster model, F-coref, which is the focus of this work. \model{} allows to process 2.8K OntoNotes documents in 25 seconds on a V100 GPU (compared to 6 minutes for the LingMess model, and to 12 minutes of the popular AllenNLP coreference model) with only a modest drop in accuracy. The fast speed is achieved through a combination of distillation of a compact model from the LingMess model, and an efficient batching implementation using a technique we call leftover batching. https://github.com/shon-otmazgin/fastcoref
翻訳日:2022-09-12 12:41:26 公開日:2022-09-09
# 変圧器を用いたドイツ語文の自動可読性評価

Automatic Readability Assessment of German Sentences with Transformer Ensembles ( http://arxiv.org/abs/2209.04299v1 )

ライセンス: Link先を確認
Patrick Gustav Blaneck, Tobias Bornheim, Niklas Grieger, Stephan Bialonski(参考訳) 信頼性の高い自動可読性評価手法は、機械翻訳から自己学習まで、様々な分野に影響を及ぼす可能性がある。 近年、ドイツ語(GBERTやGPT-2-Wechselなど)の大規模言語モデルが利用可能となり、Deep Learningベースのアプローチが開発され、自動可読性の評価がさらに改善された。 本研究では,GBERTとGPT-2-Wechselモデルのアンサンブルによるドイツ語文の可読性を確実に予測する能力について検討した。 これらのモデルと言語特徴を組み合わせることにより,アンサンブルサイズと構成に対する予測性能の依存性を検討した。 GBERT と GPT-2-Wechsel の混合アンサンブルは、GBERT と GPT-2-Wechsel のみからなる同じ大きさのアンサンブルよりも優れた性能を示した。 本モデルは2022年にドイツ文データを用いたテキスト複雑性評価に関する共同タスクにおいて評価された。 サンプル外データでは、最良アンサンブルは0.435の根平均2乗誤差を達成した。

Reliable methods for automatic readability assessment have the potential to impact a variety of fields, ranging from machine translation to self-informed learning. Recently, large language models for the German language (such as GBERT and GPT-2-Wechsel) have become available, allowing to develop Deep Learning based approaches that promise to further improve automatic readability assessment. In this contribution, we studied the ability of ensembles of fine-tuned GBERT and GPT-2-Wechsel models to reliably predict the readability of German sentences. We combined these models with linguistic features and investigated the dependence of prediction performance on ensemble size and composition. Mixed ensembles of GBERT and GPT-2-Wechsel performed better than ensembles of the same size consisting of only GBERT or GPT-2-Wechsel models. Our models were evaluated in the GermEval 2022 Shared Task on Text Complexity Assessment on data of German sentences. On out-of-sample data, our best ensemble achieved a root mean squared error of 0.435.
翻訳日:2022-09-12 12:41:10 公開日:2022-09-09
# ランキング強化型教師なし文表現学習

Ranking-Enhanced Unsupervised Sentence Representation Learning ( http://arxiv.org/abs/2209.04333v1 )

ライセンス: Link先を確認
Yeon Seonwoo, Guoyin Wang, Sajal Choudhary, Changmin Seo, Jiwei Li, Xiang Li, Puyang Xu, Sunghyun Park, Alice Oh(参考訳) 従来の教師なし文の埋め込み研究は、ドロップアウトマスキングやルールベースの文変換法といったデータ拡張手法に重点を置いてきた。 しかしながら、これらのアプローチは、文の拡張ビューのきめ細かいセマンティクスを制御する制限を持っている。 これにより、類似した文の意味的類似性を捉えるための監視信号が不十分になる。 本研究では,類似文間の意味的類似性をより正確に捉えることができることを示す。 そこで本研究では,教師なし文エンコーダを学習するためのコーパスにおいて,入力文と文の関係を用いたrankencoderを提案する。 RankEncoderを3つの観点から評価する。 1)意味的テキスト類似性性能 2)類似文対の有効性,及び 3) RankEncoderの普遍性。 RankEncoderは80.07\%のSpearman相関を達成し,従来の最先端性能と比較して1.1%の絶対改善を実現した。 この改良はさらに重要であり、類似の文対では1.73%改善されている。 また, rankencoder は既存の教師なし文エンコーダに適用可能であることを示す。

Previous unsupervised sentence embedding studies have focused on data augmentation methods such as dropout masking and rule-based sentence transformation methods. However, these approaches have a limitation of controlling the fine-grained semantics of augmented views of a sentence. This results in inadequate supervision signals for capturing a semantic similarity of similar sentences. In this work, we found that using neighbor sentences enables capturing a more accurate semantic similarity between similar sentences. Based on this finding, we propose RankEncoder, which uses relations between an input sentence and sentences in a corpus for training unsupervised sentence encoders. We evaluate RankEncoder from three perspectives: 1) the semantic textual similarity performance, 2) the efficacy on similar sentence pairs, and 3) the universality of RankEncoder. Experimental results show that RankEncoder achieves 80.07\% Spearman's correlation, a 1.1% absolute improvement compared to the previous state-of-the-art performance. The improvement is even more significant, a 1.73% improvement, on similar sentence pairs. Also, we demonstrate that RankEncoder is universally applicable to existing unsupervised sentence encoders.
翻訳日:2022-09-12 12:40:53 公開日:2022-09-09
# トリガー警告:ファンフィクション用バイオレンス検出器のブートストラップ

Trigger Warnings: Bootstrapping a Violence Detector for FanFiction ( http://arxiv.org/abs/2209.04409v1 )

ライセンス: Link先を確認
Magdalena Wolska, Christopher Schr\"oder, Ole Borchardt, Benno Stein, and Martin Potthast(参考訳) 本稿では,新しい計算課題であるトリガー警告の課題に対して,最初のデータセットと評価結果を示す。 ラベル付きコーパスデータは、有名なファンフィクションサイトArchive of Our Own (AO3)にホストされた物語作品から収集されている。 本稿では,最も頻繁に割り当てられるトリガ型-----に着目し,ao3の著者による警告ラベルを活用し,暴力的トリガ警告をファンフィクションに割り当てるか否かの文書レベルのバイナリ分類タスクを定義する。 SVM と BERT モデルは、コーパス上で4つの評価設定でトレーニングされ、0.585 から 0.798 まで F_1$ の結果が得られた。

We present the first dataset and evaluation results on a newly defined computational task of trigger warning assignment. Labeled corpus data has been compiled from narrative works hosted on Archive of Our Own (AO3), a well-known fanfiction site. In this paper, we focus on the most frequently assigned trigger type--violence--and define a document-level binary classification task of whether or not to assign a violence trigger warning to a fanfiction, exploiting warning labels provided by AO3 authors. SVM and BERT models trained in four evaluation setups on the corpora we compiled yield $F_1$ results ranging from 0.585 to 0.798, proving the violence trigger warning assignment to be a doable, however, non-trivial task.
翻訳日:2022-09-12 12:40:40 公開日:2022-09-09
# タスク非依存探索に基づくメモリ関連マルチタスク手法

A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration ( http://arxiv.org/abs/2209.04100v1 )

ライセンス: Link先を確認
Xianqi Zhang, Xingtao Wang, Xu Liu, Xiaopeng Fan and Debin Zhao(参考訳) エージェントは、人間のように、以前のタスクからアクションを組み合わせて新しいタスクを完遂する方法を学ぶことができますか? 模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。 オフラインの強化学習と比較して、データ分散シフトの問題は深刻である。 新しいタスクを解決するアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせであるかもしれないので、つまり、トレーニングデータに直接テストタスクと解決戦略が存在しない。 これにより問題はより難しくなる。 本稿では,メモリ関連マルチタスク手法(M3)を提案する。 方法は3段階からなる。 まず、データ収集のためにタスクに依存しない探索を行う。 従来の手法とは違って,探索データを知識グラフに整理する。 我々は,行動予測モデルを訓練しながら,行動効果の特徴を抽出し,記憶に保存する探索データに基づくモデルを設計する。 第二に、新しいタスクでは、メモリに格納されたアクションエフェクト機能を使用して、特徴分解に基づくアプローチで候補アクションを生成する。 最後に、マルチスケール候補アクションプールとアクション予測モデルを融合させてタスクを完了させる戦略を生成する。 実験の結果,提案手法の性能はベースラインと比較して有意に向上した。

We pose a new question: Can agents learn how to combine actions from previous tasks to complete new tasks, just as humans? In contrast to imitation learning, there is no expert data, only the data collected through environmental exploration. Compared with offline reinforcement learning, the problem of data distribution shift is more serious. Since the action sequence to solve the new task may be the combination of trajectory segments of multiple training tasks, in other words, the test task and the solving strategy do not exist directly in the training data. This makes the problem more difficult. We propose a Memory-related Multi-task Method (M3) to address this problem. The method consists of three stages. First, task-agnostic exploration is carried out to collect data. Different from previous methods, we organize the exploration data into a knowledge graph. We design a model based on the exploration data to extract action effect features and save them in memory, while an action predictive model is trained. Secondly, for a new task, the action effect features stored in memory are used to generate candidate actions by a feature decomposition-based approach. Finally, a multi-scale candidate action pool and the action predictive model are fused to generate a strategy to complete the task. Experimental results show that the performance of our proposed method is significantly improved compared with the baseline.
翻訳日:2022-09-12 12:39:45 公開日:2022-09-09
# metaverse for healthcare: 潜在的な応用、課題、今後の方向性に関する調査

Metaverse for Healthcare: A Survey on Potential Applications, Challenges and Future Directions ( http://arxiv.org/abs/2209.04160v1 )

ライセンス: Link先を確認
Rajeswari Chengoden, Nancy Victor, Thien Huynh-The, Gokul Yenduri, Rutvij H.Jhaveri, Mamoun Alazab, Sweta Bhattacharya, Pawan Hegde, Praveen Kumar Reddy Maddikunta, and Thippa Reddy Gadekallu(参考訳) デジタル化と自動化の急速な進歩は、医療の成長を加速させ、コスト削減による新しいレンダリング処理チャネルを創出する新しいモデルを生み出した。 Metaverseはデジタル空間における新興技術であり、医療分野で大きな可能性を秘めており、患者や医療従事者に現実的な体験を可能にする。 metaverseは、人工知能、仮想現実、拡張現実、医療機器のインターネット、ロボティクス、量子コンピューティングなど、複数の実現可能なテクノロジの融合であり、高品質な医療治療とサービスを提供できる。 これらの技術の融合は、没入的で親密でパーソナライズされた患者ケアを保証する。 また、医療提供者とレシーバーの間の障壁を取り除く、適応的なインテリジェントソリューションも提供する。 本稿では、医療用メタバースの総合的なレビューを行い、その技術の現状、医療用メタバースの採用を可能にする技術、潜在的なアプリケーションおよび関連するプロジェクトについて強調する。 医療応用のためのMetaverseの適応に関する課題も特定され、今後の研究の方向性として、有効なソリューションが強調される。

The rapid progress in digitalization and automation have led to an accelerated growth in healthcare, generating novel models that are creating new channels for rendering treatment with reduced cost. The Metaverse is an emerging technology in the digital space which has huge potential in healthcare, enabling realistic experiences to the patients as well as the medical practitioners. The Metaverse is a confluence of multiple enabling technologies such as artificial intelligence, virtual reality, augmented reality, internet of medical devices, robotics, quantum computing, etc. through which new directions for providing quality healthcare treatment and services can be explored. The amalgamation of these technologies ensures immersive, intimate and personalized patient care. It also provides adaptive intelligent solutions that eliminates the barriers between healthcare providers and receivers. This article provides a comprehensive review of the Metaverse for healthcare, emphasizing on the state of the art, the enabling technologies for adopting the Metaverse for healthcare, the potential applications and the related projects. The issues in the adaptation of the Metaverse for healthcare applications are also identified and the plausible solutions are highlighted as part of future research directions.
翻訳日:2022-09-12 12:39:28 公開日:2022-09-09
# 自然言語処理を用いたデジタルフィルタによる音響信号(音声)のテキストへの変換

Conversion of Acoustic Signal (Speech) Into Text By Digital Filter using Natural Language Processing ( http://arxiv.org/abs/2209.04189v1 )

ライセンス: Link先を確認
Abhiram Katuri, Sindhu Salugu, Gelli Tharuni, Challa Sri Gouri(参考訳) 日常生活におけるコミュニケーションの最も重要な側面の1つは音声認識である。 自然言語処理に基づく音声認識は、あるシステムから別のシステムへの変換において不可欠な要素の1つである。 本稿では,音声などの聴覚入力をディジタルフィルタを用いてテキストに変換するインタフェースを開発した。 この変換の多くの方法とは対照的に、言語的欠陥が時々現れること、性別認識、失敗する(音声を認識できない)音声認識、性別認識が失敗することもある。 技術的問題が関与しているため、我々は、この小さなずれを解消するために、ソフトウェア問題の発生を阻止する仲介者として機能するプログラムを開発した。 計画中のMFCCとHMMは、AIシステムと同期している。 その結果、技術的な誤りは避けられた。

One of the most crucial aspects of communication in daily life is speech recognition. Speech recognition that is based on natural language processing is one of the essential elements in the conversion of one system to another. In this paper, we created an interface that transforms speech and other auditory inputs into text using a digital filter. Contrary to the many methods for this conversion, it is also possible for linguistic faults to appear occasionally, gender recognition, speech recognition that is unsuccessful (cannot recognize voice), and gender recognition to fail. Since technical problems are involved, we developed a program that acts as a mediator to prevent initiating software issues in order to eliminate even this little deviation. Its planned MFCC and HMM are in sync with its AI system. As a result, technical errors have been avoided.
翻訳日:2022-09-12 12:39:11 公開日:2022-09-09
# ロボット応用のための自信誘導型形状完成に向けて

Towards Confidence-guided Shape Completion for Robotic Applications ( http://arxiv.org/abs/2209.04300v1 )

ライセンス: Link先を確認
Andrea Rosasco, Stefano Berti, Fabrizio Bottarel, Michele Colledanchise and Lorenzo Natale(参考訳) ある種の3D視覚知覚を含む多くのロボットタスクは、作業環境の完全な知識から大いに恩恵を受ける。 しかし、ロボットは、しばしば非構造環境に取り組む必要があり、搭載された視覚センサーは、限られたワークスペース、クラッタ、オブジェクトの自己隠蔽のために、不完全な情報しか提供できない。 近年, 形状完備化のためのディープラーニングアーキテクチャが, 部分的視覚データから完全な3次元オブジェクト表現を推定する効果的な方法として注目され始めている。 それでも、既存の最先端のアプローチのほとんどは、ニューラルネットワークの出力ステージのサイズに厳密に関連して、ボクセルグリッドの形で一定の出力解像度を提供する。 これはナビゲーションにおける障害物回避、把握と操作といったタスクには十分だが、ニューラルネットワークのアウトプットのスケールアップは計算コストがかかる。 本稿では,再構成点ごとに信頼度を与える暗黙の3次元表現に基づく物体形状補完手法を提案することで,この制約に対処する。 第2の貢献として,このような暗黙関数を任意の解像度で効率的にサンプリングする勾配に基づく手法を提案する。 本手法は,再構成された形状と地盤の真理を比較し,ロボット把持パイプラインに形状完了アルゴリズムを配置することで検証した。 どちらの場合も、結果を最先端の形状補完手法と比較する。

Many robotic tasks involving some form of 3D visual perception greatly benefit from a complete knowledge of the working environment. However, robots often have to tackle unstructured environments and their onboard visual sensors can only provide incomplete information due to limited workspaces, clutter or object self-occlusion. In recent years, deep learning architectures for shape completion have begun taking traction as effective means of inferring a complete 3D object representation from partial visual data. Nevertheless, most of the existing state-of-the-art approaches provide a fixed output resolution in the form of voxel grids, strictly related to the size of the neural network output stage. While this is enough for some tasks, e.g. obstacle avoidance in navigation, grasping and manipulation require finer resolutions and simply scaling up the neural network outputs is computationally expensive. In this paper, we address this limitation by proposing an object shape completion method based on an implicit 3D representation providing a confidence value for each reconstructed point. As a second contribution, we propose a gradient-based method for efficiently sampling such implicit function at an arbitrary resolution, tunable at inference time. We experimentally validate our approach by comparing reconstructed shapes with ground truths, and by deploying our shape completion algorithm in a robotic grasping pipeline. In both cases, we compare results with a state-of-the-art shape completion approach.
翻訳日:2022-09-12 12:35:28 公開日:2022-09-09
# 医学画像分類システムへの応用をめざして : 塩分指導による一般特徴の学習

Saliency Guided Adversarial Training for Learning Generalizable Features with Applications to Medical Imaging Classification System ( http://arxiv.org/abs/2209.04326v1 )

ライセンス: Link先を確認
Xin Li, Yao Qiang, Chengyin Li, Sijia Liu and Dongxiao Zhu(参考訳) 本研究は,out-of-distribution (ood) テストセットの性能低下に関する中央機械学習問題に取り組む。 この問題は、医療画像に基づく診断システムでは特に顕著で、正確と思われるが、新しい病院やデータセットで検査すると失敗する。 最近の研究では、システムは一般化可能な特徴ではなく、ショートカットや非関連する特徴を学習する可能性がある。 提案手法は,oodテストセットの性能低下を考慮したニュアサンス機能であり,逆行訓練では近道的特徴を排除できるが,saliency guided trainingでは関連しない特徴を排除できる,という仮説を定めている。 そこで我々は,OODテストセットにおける一貫した一般化性能を保証するため,ディープラーニングのための新しいモデルトレーニング手法を定式化し,分類および/または検出タスクの優れた特徴を学習する。 実験結果は, 分類タスクにおけるベンチマークcxr画像データセットを用いて, 定量的に定量的に評価した。

This work tackles a central machine learning problem of performance degradation on out-of-distribution (OOD) test sets. The problem is particularly salient in medical imaging based diagnosis system that appears to be accurate but fails when tested in new hospitals/datasets. Recent studies indicate the system might learn shortcut and non-relevant features instead of generalizable features, so-called good features. We hypothesize that adversarial training can eliminate shortcut features whereas saliency guided training can filter out non-relevant features; both are nuisance features accounting for the performance degradation on OOD test sets. With that, we formulate a novel model training scheme for the deep neural network to learn good features for classification and/or detection tasks ensuring a consistent generalization performance on OOD test sets. The experimental results qualitatively and quantitatively demonstrate the superior performance of our method using the benchmark CXR image data sets on classification tasks.
翻訳日:2022-09-12 12:35:07 公開日:2022-09-09
# ギャップをブリッジする: 医用画像解析のための差分プライベートな等価深層学習

Bridging the Gap: Differentially Private Equivariant Deep Learning for Medical Image Analysis ( http://arxiv.org/abs/2209.04338v1 )

ライセンス: Link先を確認
Florian A. H\"olzl, Daniel Rueckert, Georgios Kaissis(参考訳) 差分プライバシー(DP)のような正式なプライバシー保護技術を用いた機械学習は、機密性の高い医療画像データから貴重な洞察を得ると同時に、患者のプライバシーを保護することを約束する。 本研究では,DPを用いた医用画像解析にステアブルな同変畳み込みネットワークを提案する。 機能品質とパラメータ効率の改善は、プライバシ利用のギャップを狭めながら、驚くべき精度向上をもたらす。

Machine learning with formal privacy-preserving techniques like Differential Privacy (DP) allows one to derive valuable insights from sensitive medical imaging data while promising to protect patient privacy, but it usually comes at a sharp privacy-utility trade-off. In this work, we propose to use steerable equivariant convolutional networks for medical image analysis with DP. Their improved feature quality and parameter efficiency yield remarkable accuracy gains, narrowing the privacy-utility gap.
翻訳日:2022-09-12 12:34:49 公開日:2022-09-09
# MATT:ロングテール音楽ジャンル分類のための複数インスタンス注意機構

MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre Classification ( http://arxiv.org/abs/2209.04109v1 )

ライセンス: Link先を確認
Xiaokai Liu, Menghua Zhang(参考訳) 非バランスな音楽ジャンル分類は、音楽情報検索(mir)の分野で重要な課題であり、実世界のシナリオにおいて非常に一般的である、関連する音楽オーディオセグメントに基づいて、ロングテール、データポーアジャンルを特定する。 既存のモデルの多くは、クラスバランスの音楽データセット用に設計されており、分布の尾にある音楽ジャンルを特定する際に、精度と一般化が低い。 様々な分類タスクにおけるマルチインスタンス学習(MIL)の導入の成功に触発されて,末尾クラスの識別性能を高めるために,MATT(Multi-instance Attention)と呼ばれる新しいメカニズムを提案する。 具体的には,まずアルバムとアーティストのペアバッグを生成することで,バッグレベルのデータセットを構築する。 第2に,ニューラルネットを用いて音楽音声セグメントを符号化する。 最後に、マルチインスタンスアテンションメカニズムの指導の下で、ニューラルネットワークベースのモデルは、与えられた音楽セグメントにマッチする最も情報性の高いジャンルを選択することができる。 長期分布を持つ大規模音楽ジャンルベンチマークの総合的な実験結果は、MATTが他の最先端のベースラインを著しく上回ることを示している。

Imbalanced music genre classification is a crucial task in the Music Information Retrieval (MIR) field for identifying the long-tail, data-poor genre based on the related music audio segments, which is very prevalent in real-world scenarios. Most of the existing models are designed for class-balanced music datasets, resulting in poor performance in accuracy and generalization when identifying the music genres at the tail of the distribution. Inspired by the success of introducing Multi-instance Learning (MIL) in various classification tasks, we propose a novel mechanism named Multi-instance Attention (MATT) to boost the performance for identifying tail classes. Specifically, we first construct the bag-level datasets by generating the album-artist pair bags. Second, we leverage neural networks to encode the music audio segments. Finally, under the guidance of a multi-instance attention mechanism, the neural network-based models could select the most informative genre to match the given music segment. Comprehensive experimental results on a large-scale music genre benchmark dataset with long-tail distribution demonstrate MATT significantly outperforms other state-of-the-art baselines.
翻訳日:2022-09-12 12:34:37 公開日:2022-09-09
# テキストベースゲームのための深層強化学習エージェントの解析

An Analysis of Deep Reinforcement Learning Agents for Text-based Games ( http://arxiv.org/abs/2209.04105v1 )

ライセンス: Link先を確認
Chen Chen, Yue Dai, Josiah Poon, Caren Han(参考訳) テキストベースのゲーム(TBG)は、ユーザまたはコンピュータエージェントがテキストインタラクションを行い、ゲーム目標を達成する複雑な環境である。 特に、ステップワイズフィードバックをモデルのための唯一のテキスト入力として使用する場合、テキストベースのゲームのための目標指向コンピュータエージェントを構築するのは難しい。 さらに、より大きなテキスト入力空間から評価することで、エージェントが柔軟な長さと形状の応答を提供するのは難しい。 本稿では,テキストベースのゲーム分野に適用する深層学習手法の広範な分析を行う。

Text-based games(TBG) are complex environments which allow users or computer agents to make textual interactions and achieve game goals. It is challenging to build goal-oriented computer agents for text-based games, especially when we use step-wise feedback as the only text input for the model. Moreover, it is hard for agents to provide replies with flexible length and form by valuing from a much larger text input space. In this paper, we provide an extensive analysis of deep learning methods applied to the Text-Based Games field.
翻訳日:2022-09-12 12:34:00 公開日:2022-09-09
# MaxMatch-Dropout: WordPieceのサブワード正規化

MaxMatch-Dropout: Subword Regularization for WordPiece ( http://arxiv.org/abs/2209.04126v1 )

ライセンス: Link先を確認
Tatsuya Hiraoka(参考訳) 本稿では,トークン化に最大マッチングアルゴリズムを用いるWordPieceのサブワード正規化手法を提案する。 提案手法であるMaxMatch-Dropoutは,最大マッチングアルゴリズムを用いて単語をランダムに検索する。 BERTベースのような訓練済み言語モデルのサブワード正規化による微調整を実現する。 実験の結果,MaxMatch-Dropoutはテキスト分類や機械翻訳タスク,その他のサブワード正規化手法の性能を向上させることがわかった。 さらに,SentencePiece (Unigram), BPE-Dropout, MaxMatch-Dropout を用いたサブワード正規化手法の比較分析を行った。

We present a subword regularization method for WordPiece, which uses a maximum matching algorithm for tokenization. The proposed method, MaxMatch-Dropout, randomly drops words in a search using the maximum matching algorithm. It realizes finetuning with subword regularization for popular pretrained language models such as BERT-base. The experimental results demonstrate that MaxMatch-Dropout improves the performance of text classification and machine translation tasks as well as other subword regularization methods. Moreover, we provide a comparative analysis of subword regularization methods: subword regularization with SentencePiece (Unigram), BPE-Dropout, and MaxMatch-Dropout.
翻訳日:2022-09-12 12:33:51 公開日:2022-09-09
# ゼロショット多言語翻訳のための非中心言語への適応

Adapting to Non-Centered Languages for Zero-shot Multilingual Translation ( http://arxiv.org/abs/2209.04138v1 )

ライセンス: Link先を確認
Zhi Qu, Taro Watanabe(参考訳) 多言語ニューラルマシン翻訳は、訓練中に知覚されない言語対、すなわちゼロショット翻訳を翻訳することができる。 しかし、ゼロショット変換は常に不安定である。 先行研究は、例えば英語のような中央言語の支配の不安定さに起因しているが、この視点を非中心言語への厳密な依存で補う。 本研究では,非中心言語に適応し,共有情報と言語固有情報を組み合わせてゼロショット翻訳の不安定性に対処する,シンプルで軽量で効果的な言語固有モデリング手法を提案する。 IWSLT17, Europarl, TED Talk, OPUS-100 データセットの Transformer を用いた実験により,本手法は中心データ条件の強いベースラインよりも優れているだけでなく,非中心データ条件にも容易に適合できることを示した。 提案手法は,レイヤの属性をさらに調べることで,結合した表現を正しい方向に切り離すことができることを示す。

Multilingual neural machine translation can translate unseen language pairs during training, i.e. zero-shot translation. However, the zero-shot translation is always unstable. Although prior works attributed the instability to the domination of central language, e.g. English, we supplement this viewpoint with the strict dependence of non-centered languages. In this work, we propose a simple, lightweight yet effective language-specific modeling method by adapting to non-centered languages and combining the shared information and the language-specific information to counteract the instability of zero-shot translation. Experiments with Transformer on IWSLT17, Europarl, TED talks, and OPUS-100 datasets show that our method not only performs better than strong baselines in centered data conditions but also can easily fit non-centered data conditions. By further investigating the layer attribution, we show that our proposed method can disentangle the coupled representation in the correct direction.
翻訳日:2022-09-12 12:33:42 公開日:2022-09-09
# 共用インテント検出とスロットフィリングのための依存構造を有する多粒ラベリングネットワーク

Multi-grained Label Refinement Network with Dependency Structures for Joint Intent Detection and Slot Filling ( http://arxiv.org/abs/2209.04156v1 )

ライセンス: Link先を確認
Baohang Zhou, Ying Zhang, Xuhui Sui, Kehui Song, Xiaojie Yuan(参考訳) スロット充填とインテント検出は、自然言語理解の分野における2つの基本的なタスクである。 これら2つのタスク間の強い相関関係から,従来の研究では,マルチタスク学習によるモデリングや,各タスクのパフォーマンス向上のための機能インタラクションモジュールの設計に尽力している。 しかし,既存の手法では,文の構造情報と2つのタスクのラベルセマンティクスとの関連性は考慮されていない。 発話の意図と意味的構成要素は文の構文的要素に依存する。 本稿では,依存性構造とラベルセマンティック埋め込みを利用した多層ラベル精細ネットワークについて検討する。 構文表現の強化を念頭において,文の依存構造をグラフアテンション層によってモデルに導入する。 構文情報とタスクラベル間の意味的依存関係を捉えるために,タスク固有の特徴と対応するラベル埋め込みをアテンション機構で結合する。 実験の結果,2つの公開データセット上での競合性能が得られた。

Slot filling and intent detection are two fundamental tasks in the field of natural language understanding. Due to the strong correlation between these two tasks, previous studies make efforts on modeling them with multi-task learning or designing feature interaction modules to improve the performance of each task. However, none of the existing approaches consider the relevance between the structural information of sentences and the label semantics of two tasks. The intent and semantic components of a utterance are dependent on the syntactic elements of a sentence. In this paper, we investigate a multi-grained label refinement network, which utilizes dependency structures and label semantic embeddings. Considering to enhance syntactic representations, we introduce the dependency structures of sentences into our model by graph attention layer. To capture the semantic dependency between the syntactic information and task labels, we combine the task specific features with corresponding label embeddings by attention mechanism. The experimental results demonstrate that our model achieves the competitive performance on two public datasets.
翻訳日:2022-09-12 12:33:26 公開日:2022-09-09
# 遺伝子制御ネットワークの人工化学による実装

An Artificial Chemistry Implementation of a Gene Regulatory Network ( http://arxiv.org/abs/2209.04114v1 )

ライセンス: Link先を確認
Iliya Miralavy and Wolfgang Banzhaf(参考訳) 遺伝子制御ネットワーク(英: Gene Regulatory Networks)は、タンパク質とペプチドの生産レベルを決定する生物学的生物の相互作用ネットワークである。 タンパク質は細胞工場の労働者であり、その生産は細胞とその発達の目標を定義する。 このようなネットワークをモデル化して、これらの生物学的システムをよりよく理解し、それらの理解からインスピレーションを得て計算問題を解こうとする様々な試みがなされている。 本研究は、細胞オートマトンと人工化学を組み込んで、転写因子と呼ばれる転写タンパク質と遺伝子の調節部位の間の相互作用をモデル化する、遺伝子制御ネットワークの生物学的により現実的なモデルを提案する。 この研究の成果は、自然界で観察できるものに近い複雑なダイナミクスを示している。 ここでは、システムの初期状態が生成したダイナミクスに与える影響の分析を行い、そのような進化可能なモデルが所望のタンパク質ダイナミクスの生成に向けられることを示す。

Gene Regulatory Networks are networks of interactions in biological organisms responsible for determining the production levels of proteins and peptides. Proteins are workers of a cell factory, and their production defines the goal of a cell and its development. Various attempts have been made to model such networks both to understand these biological systems better and to use inspiration from understanding them to solve computational problems. In this work, a biologically more realistic model for gene regulatory networks is proposed, which incorporates Cellular Automata and Artificial Chemistry to model the interactions between regulatory proteins called the Transcription Factors and the regulatory sites of genes. The result of this work shows complex dynamics close to what can be observed in nature. Here, an analysis of the impact of the initial states of the system on the produced dynamics is performed, showing that such evolvable models can be directed towards producing desired protein dynamics.
翻訳日:2022-09-12 12:31:29 公開日:2022-09-09
# 周波数変化を伴うリードワンの高速再最適化

Fast Re-Optimization of LeadingOnes with Frequent Changes ( http://arxiv.org/abs/2209.04391v1 )

ライセンス: Link先を確認
Nina Bulanova, Arina Buzdalova, Carola Doerr(参考訳) 現実世界の最適化シナリオでは、例えば、新しい情報が利用可能になったときや環境条件が変わったときなど、最適化プロセス中に解決するよう求められた問題インスタンスが変化することがある。 このような状況では、元の問題に対する最良のソリューションから検索を継続することで、合理的なパフォーマンスを達成できると期待できる。 同様に、互いに類似した複数の問題インスタンスを解く場合、第1の解決法によって第2のインスタンスの最適化プロセスが ``warm-start'''' になることも期待できる。 しかし、[Doerr et al., GECCO 2019]では、構造的に良い解を初期化しても、進化的アルゴリズムはこれらの優れた解を構造的に悪い解に置き換える傾向があり、結果として、同じアルゴリズムに対して優位な最適化時間がゼロから始まります。 Doerrらもこの問題を克服するための多様性のメカニズムを提案した。 彼らのアプローチは、前回のインスタンスの最良のソリューションの周辺で、現在の問題に対するベストソファーソリューションの周りの欲求検索のバランスをとる。 本研究では,Dierrらが提案する再最適化アプローチが,問題インスタンスがより頻繁な変化を起こす傾向にある場合に限界に達することを示す。 より正確には、ターゲット文字列が周期的に変化する動的LeadingOnes問題に、それらが立ち往生していることを示す。 そこで我々は,前ベスト周辺における欲求探索と現在ベスト解を補間するアルゴリズムの修正を提案する。 我々は,変化頻度や摂動要因の異なる先導者インスタンス上での平滑化再最適化アルゴリズムを実験的に評価し,完全な再スタート(1+1)進化アルゴリズムとdoerrらによる再最適化アプローチの両方よりも優れることを示した。

In real-world optimization scenarios, the problem instance that we are asked to solve may change during the optimization process, e.g., when new information becomes available or when the environmental conditions change. In such situations, one could hope to achieve reasonable performance by continuing the search from the best solution found for the original problem. Likewise, one may hope that when solving several problem instances that are similar to each other, it can be beneficial to ``warm-start'' the optimization process of the second instance by the best solution found for the first. However, it was shown in [Doerr et al., GECCO 2019] that even when initialized with structurally good solutions, evolutionary algorithms can have a tendency to replace these good solutions by structurally worse ones, resulting in optimization times that have no advantage over the same algorithms started from scratch. Doerr et al. also proposed a diversity mechanism to overcome this problem. Their approach balances greedy search around a best-so-far solution for the current problem with search in the neighborhood around the best-found solution for the previous instance. In this work, we first show that the re-optimization approach suggested by Doerr et al. reaches a limit when the problem instances are prone to more frequent changes. More precisely, we show that they get stuck on the dynamic LeadingOnes problem in which the target string changes periodically. We then propose a modification of their algorithm which interpolates between greedy search around the previous-best and the current-best solution. We empirically evaluate our smoothed re-optimization algorithm on LeadingOnes instances with various frequencies of change and with different perturbation factors and show that it outperforms both a fully restarted (1+1) Evolutionary Algorithm and the re-optimization approach by Doerr et al.
翻訳日:2022-09-12 12:31:16 公開日:2022-09-09
# 自動アルゴリズム構成によるNevergradのアルゴリズム選択ウィザードNGOptの改善

Improving Nevergrad's Algorithm Selection Wizard NGOpt through Automated Algorithm Configuration ( http://arxiv.org/abs/2209.04412v1 )

ライセンス: Link先を確認
Risto Trajanov, Ana Nikolikj, Gjorgjina Cenikj, Fabien Teytaud, Mathurin Videau, Olivier Teytaud, Tome Eftimov, Manuel L\'opez-Ib\'a\~nez, Carola Doerr(参考訳) アルゴリズム選択ウィザードは、問題と利用可能な決定変数の数や種類、評価の最大数、評価の並列化可能性などの計算資源に関する高レベルな情報を与えられた最適化アルゴリズムを自動的に選択する、効率的で汎用的なツールである。 最先端のアルゴリズム選択ウィザードは複雑で改善が難しい。 そこで本研究では,アルゴリズムの構成を改良することにより,性能を向上させるための自動構成手法を提案する。 特に,Nevergrad プラットフォームが提供する NGOpt ウィザードで現在使用されている手作りの CMA 構成を置き換える,特定の人工ベンチマーク用の CMA 構成を見つけるために,エリート主義的反復レース (irace) を用いる。 我々は、各ベンチマーク内の様々な問題インスタンスセットに対してうまく機能する構成を生成するために、iraceの設定を詳細に議論する。 提案手法は,irace によるチューニングの一部ではないベンチマークスイートでも NGOpt ウィザードの性能を向上させる。

Algorithm selection wizards are effective and versatile tools that automatically select an optimization algorithm given high-level information about the problem and available computational resources, such as number and type of decision variables, maximal number of evaluations, possibility to parallelize evaluations, etc. State-of-the-art algorithm selection wizards are complex and difficult to improve. We propose in this work the use of automated configuration methods for improving their performance by finding better configurations of the algorithms that compose them. In particular, we use elitist iterated racing (irace) to find CMA configurations for specific artificial benchmarks that replace the hand-crafted CMA configurations currently used in the NGOpt wizard provided by the Nevergrad platform. We discuss in detail the setup of irace for the purpose of generating configurations that work well over the diverse set of problem instances within each benchmark. Our approach improves the performance of the NGOpt wizard, even on benchmark suites that were not part of the tuning by irace.
翻訳日:2022-09-12 12:30:41 公開日:2022-09-09
# 知識蒸留と固定点量子化を用いたその場動物行動分類

In-situ animal behavior classification using knowledge distillation and fixed-point quantization ( http://arxiv.org/abs/2209.04130v1 )

ライセンス: Link先を確認
Reza Arablouei, Liang Wang, Caitlin Phillips, Lachlan Currie, Jordan Yates, Greg Bishop-Hurley(参考訳) ウェアラブルデバイス上での加速度計測データから動物行動の分類を可能にするコンパクトで正確なモデルを学ぶための知識蒸留(kd)の利用について検討する。 この目的のために,教師モデルとして残差ニューラルネットワーク(resnet)と呼ばれる,深く複雑な畳み込みニューラルネットワークを用いる。 ResNetは多変量時系列分類用に特別に設計されている。 resnetを用いて,動物行動分類データセットの知識をソフトラベルに分割し,各データポイントに対する各クラスの疑似確率を予測した。 次に, ソフトラベルを用いて, ゲートリカレントユニット (gru) と多層パーセプトロン (mlp) をベースとする, より複雑でない学生モデルの学習を行った。 2つの実世界の動物行動分類データセットを用いた評価結果から,gru-mlpモデルの分類精度はkdにより向上し,教師のresnetモデルに近づいた。 kdで学習した学生モデルを用いて推論を行うための計算とメモリの要求をさらに削減するために,モデルの計算グラフを適切に修正することで動的不動点量子化を行う。 動物行動の分類をリアルタイムに行うために, 開発したKDモデルと耳栓装置の組込みシステム上で, 定量化および定量化の両バージョンを実装した。 その結果、kdの有効性と量子化が、分類精度と計算量とメモリ効率の両面で推論性能の向上に寄与した。

We explore the use of knowledge distillation (KD) for learning compact and accurate models that enable classification of animal behavior from accelerometry data on wearable devices. To this end, we take a deep and complex convolutional neural network, known as residual neural network (ResNet), as the teacher model. ResNet is specifically designed for multivariate time-series classification. We use ResNet to distil the knowledge of animal behavior classification datasets into soft labels, which consist of the predicted pseudo-probabilities of every class for each datapoint. We then use the soft labels to train our significantly less complex student models, which are based on the gated recurrent unit (GRU) and multilayer perceptron (MLP). The evaluation results using two real-world animal behavior classification datasets show that the classification accuracy of the student GRU-MLP models improves appreciably through KD, approaching that of the teacher ResNet model. To further reduce the computational and memory requirements of performing inference using the student models trained via KD, we utilize dynamic fixed-point quantization through an appropriate modification of the computational graphs of the models. We implement both unquantized and quantized versions of the developed KD-based models on the embedded systems of our purpose-built collar and ear tag devices to classify animal behavior in situ and in real time. The results corroborate the effectiveness of KD and quantization in improving the inference performance in terms of both classification accuracy and computational and memory efficiency.
翻訳日:2022-09-12 12:30:22 公開日:2022-09-09
# ApproxTrain: DNNトレーニングと推論のための近似乗算器の高速シミュレーション

ApproxTrain: Fast Simulation of Approximate Multipliers for DNN Training and Inference ( http://arxiv.org/abs/2209.04161v1 )

ライセンス: Link先を確認
Jing Gong, Hassaan Saadat, Hasindu Gamaarachchi, Haris Javaid, Xiaobo Sharon Hu, Sri Parameswaran(参考訳) Deep Neural Networks(DNN)のエッジトレーニングは、継続的学習の望ましい目標であるが、トレーニングに必要な膨大な計算能力によって妨げられている。 ハードウェア近似乗算器は、dnn推論加速器の資源効率を向上させる効果を示しているが、近似乗算器を用いたトレーニングはほとんど未検討である。 DNN訓練を支援する近似乗算器を備えた資源効率の高い加速器を構築するには、異なるDNNアーキテクチャと異なる近似乗算器の訓練収束度と精度を徹底的に評価する必要がある。 本稿では,シミュレーション近似乗算器を用いたdnnトレーニングと推論の高速評価を可能にする,オープンソースのフレームワークであるapproxtrainを提案する。 ApproxTrainはTensorFlow(TF)と同じくらいユーザフレンドリで、近似乗算器のC/C++関数モデルとともに、DNNアーキテクチャの高レベルな記述のみを必要とする。 本稿では,新しいlutベース近似浮動小数点(fp)乗算シミュレータ(amsim)を用いて,乗算レベルでのシミュレーションの高速化を行う。 ApproxTrainはCUDAを活用して、商用GPUにおけるネイティブハードウェア近似乗算器の欠如を克服するため、AMSimをTensorFlowライブラリに効率的に統合する。 我々はApproxTrainを用いて、LeNetsとResNetsアーキテクチャを用いて、小規模および大規模データセット(ImageNetを含む)の近似乗算器を用いてDNNトレーニングの収束と精度を評価する。 その結果, FP32およびbfloat16乗算器と比較して, 同様の収束挙動とテスト精度の変化が認められた。 トレーニングと推論におけるCPUベースの近似乗算器シミュレーションと比較すると、GPUアクセラレーションされたApproxTrainは2500倍以上高速である。 ネイティブハードウェア乗算器を備えた高度に最適化されたクローズドソースのcuDNN/cuBLASライブラリをベースとして、オリジナルのTensorFlowは、ApproxTrainの8倍高速である。

Edge training of Deep Neural Networks (DNNs) is a desirable goal for continuous learning; however, it is hindered by the enormous computational power required by training. Hardware approximate multipliers have shown their effectiveness for gaining resource-efficiency in DNN inference accelerators; however, training with approximate multipliers is largely unexplored. To build resource efficient accelerators with approximate multipliers supporting DNN training, a thorough evaluation of training convergence and accuracy for different DNN architectures and different approximate multipliers is needed. This paper presents ApproxTrain, an open-source framework that allows fast evaluation of DNN training and inference using simulated approximate multipliers. ApproxTrain is as user-friendly as TensorFlow (TF) and requires only a high-level description of a DNN architecture along with C/C++ functional models of the approximate multiplier. We improve the speed of the simulation at the multiplier level by using a novel LUT-based approximate floating-point (FP) multiplier simulator on GPU (AMSim). ApproxTrain leverages CUDA and efficiently integrates AMSim into the TensorFlow library, in order to overcome the absence of native hardware approximate multiplier in commercial GPUs. We use ApproxTrain to evaluate the convergence and accuracy of DNN training with approximate multipliers for small and large datasets (including ImageNet) using LeNets and ResNets architectures. The evaluations demonstrate similar convergence behavior and negligible change in test accuracy compared to FP32 and bfloat16 multipliers. Compared to CPU-based approximate multiplier simulations in training and inference, the GPU-accelerated ApproxTrain is more than 2500x faster. Based on highly optimized closed-source cuDNN/cuBLAS libraries with native hardware multipliers, the original TensorFlow is only 8x faster than ApproxTrain.
翻訳日:2022-09-12 12:29:56 公開日:2022-09-09
# 混合数値空間とカテゴリ空間における異常検出法

Explanation Method for Anomaly Detection on Mixed Numerical and Categorical Spaces ( http://arxiv.org/abs/2209.04173v1 )

ライセンス: Link先を確認
I\~nigo L\'opez-Riob\'oo Botana (1), Carlos Eiras-Franco (1), Julio Hernandez-Castro (2), Amparo Alonso-Betanzos (1) ((1) University of A Coru\~na - Research Center on Information and Communication Technologies (CITIC), (2) University of Kent - School of Computing)(参考訳) 異常検出分野におけるほとんどの提案は、検出段階、特に最近のディープラーニングアプローチにのみ焦点をあてている。 精度の高い予測を提供する一方で、これらのモデルは透明性を欠いており、"ブラックボックス"として機能する。 この批判は、今日では説明が受容性と信頼性の観点から非常に関連していると考えられる点にまで達している。 本稿では,ADMNC(Anomaly Detection on Mixed Numerical and Categorical Spaces)モデル,すなわち,数値入力とカテゴリ入力の両方で動作可能な不透明な異常検出を,高精度に行うことで,この問題に対処する。 本研究は,拡張型eadmnc(混合数値空間とカテゴリ空間における説明可能な異常検出)を提案する。 私たちはApache Sparkフレームワークのおかげで、オリジナルのメソッドのスケーラビリティを保ちました。 EADMNCは以前のADMNCモデルの定式化を利用して、オリジナルのアーキテクチャの精度を維持しながら、事前のホックとポストホックの説明性を提供する。 入力データを数変数のみで記述した同種群に分割することで出力をグローバルに説明できるプレホックモデルを提案する。 我々は回帰木に基づくグラフィカル表現を設計し、管理者は正規データと異常データの違いを検査することができる。 ポストホックな説明はテキストベースのテンプレートメソッドからなり、各検出をサポートするテキスト引数を局所的に提供する。 本稿では,特にネットワーク侵入検出領域における実世界データに関する実験結果について報告する。 ネットワーク侵入領域のエキスパート知識を用いた理論解析により, 説明の有用性を評価する。

Most proposals in the anomaly detection field focus exclusively on the detection stage, specially in the recent deep learning approaches. While providing highly accurate predictions, these models often lack transparency, acting as "black boxes". This criticism has grown to the point that explanation is now considered very relevant in terms of acceptability and reliability. In this paper, we addressed this issue by inspecting the ADMNC (Anomaly Detection on Mixed Numerical and Categorical Spaces) model, an existing very accurate although opaque anomaly detector capable to operate with both numerical and categorical inputs. This work presents the extension EADMNC (Explainable Anomaly Detection on Mixed Numerical and Categorical spaces), which adds explainability to the predictions obtained with the original model. We preserved the scalability of the original method thanks to the Apache Spark framework. EADMNC leverages the formulation of the previous ADMNC model to offer pre hoc and post hoc explainability, while maintaining the accuracy of the original architecture. We present a pre hoc model that globally explains the outputs by segmenting input data into homogeneous groups, described with only a few variables. We designed a graphical representation based on regression trees, which supervisors can inspect to understand the differences between normal and anomalous data. Our post hoc explanations consist of a text-based template method that locally provides textual arguments supporting each detection. We report experimental results on extensive real-world data, particularly in the domain of network intrusion detection. The usefulness of the explanations is assessed by theory analysis using expert knowledge in the network intrusion domain.
翻訳日:2022-09-12 12:29:23 公開日:2022-09-09
# ユニタリ勾配ニューラルネットワークによるロバスト・バイ・デザイン分類

Robust-by-Design Classification via Unitary-Gradient Neural Networks ( http://arxiv.org/abs/2209.04293v1 )

ライセンス: Link先を確認
Fabio Brau, Giulio Rossolini, Alessandro Biondi and Giorgio Buttazzo(参考訳) 安全クリティカルシステムにおけるニューラルネットワークの使用には、敵攻撃が存在するため、安全で堅牢なモデルが必要である。 入力 x の最小の逆摂動、あるいは分類境界から x の距離を知ることは、分類の堅牢性を評価することを可能にし、証明可能な予測を提供する。 残念ながら、そのような距離を計算するための最先端技術は計算コストが高く、オンラインアプリケーションには適していない。 この研究は、新しい分類器の族、すなわち Signed Distance Classifiers (SDCs) を提案し、理論的な観点から、確率スコア(例えば、SoftMax)ではなく、分類境界からxの正確な距離を直接出力する。 SDCはロバスト・バイ・デザインの分類器のファミリーを表す。 SDCの理論的要求に実際に対処するために、ユニタリ・グラディエントニューラルネットワークと呼ばれる新しいネットワークアーキテクチャを提案する。 実験の結果,提案アーキテクチャは符号付き距離分類器を近似し,単一の推論コストでxのオンライン認証分類を行うことができた。

The use of neural networks in safety-critical systems requires safe and robust models, due to the existence of adversarial attacks. Knowing the minimal adversarial perturbation of any input x, or, equivalently, knowing the distance of x from the classification boundary, allows evaluating the classification robustness, providing certifiable predictions. Unfortunately, state-of-the-art techniques for computing such a distance are computationally expensive and hence not suited for online applications. This work proposes a novel family of classifiers, namely Signed Distance Classifiers (SDCs), that, from a theoretical perspective, directly output the exact distance of x from the classification boundary, rather than a probability score (e.g., SoftMax). SDCs represent a family of robust-by-design classifiers. To practically address the theoretical requirements of a SDC, a novel network architecture named Unitary-Gradient Neural Network is presented. Experimental results show that the proposed architecture approximates a signed distance classifier, hence allowing an online certifiable classification of x at the cost of a single inference.
翻訳日:2022-09-12 12:28:57 公開日:2022-09-09
# SKAパルサー探索パイプラインのための機械学習手法の検討

Investigation of a Machine learning methodology for the SKA pulsar search pipeline ( http://arxiv.org/abs/2209.04430v1 )

ライセンス: Link先を確認
Shashank Sanjay Bhat, Prabu Thiagaraj, Ben Stappers, Atul Ghalame, Snehanshu Saha, T.S.B Sudarshan, Zaffirah Hosenie(参考訳) SKAパルサー探索パイプラインはパルサーのリアルタイム検出に使用される。 SKAのような現代の電波望遠鏡は、完全な運用規模でペタバイト単位のデータを生成する。 したがって、経験に基づくデータ駆動アルゴリズムは、候補検出のようなアプリケーションには不可欠である。 本稿では,SKAパルサー探索パイプラインの候補シグネチャを検出するために,Mask R-CNNと呼ばれるアートオブジェクト検出アルゴリズムの状態を検証した結果について述べる。 候補画像を検出するために,Mask R-CNNモデルを訓練した。 大規模なデータセットに関心のある領域を効率的にマークするカスタムアノテーションツールが開発された。 シミュレーションデータセット上で候補シグネチャを検出することで,このアルゴリズムの実証に成功した。 本稿では,本研究の詳細と今後の展望について概説する。

The SKA pulsar search pipeline will be used for real time detection of pulsars. Modern radio telescopes such as SKA will be generating petabytes of data in their full scale of operation. Hence experience-based and data-driven algorithms become indispensable for applications such as candidate detection. Here we describe our findings from testing a state of the art object detection algorithm called Mask R-CNN to detect candidate signatures in the SKA pulsar search pipeline. We have trained the Mask R-CNN model to detect candidate images. A custom annotation tool was developed to mark the regions of interest in large datasets efficiently. We have successfully demonstrated this algorithm by detecting candidate signatures on a simulation dataset. The paper presents details of this work with a highlight on the future prospects.
翻訳日:2022-09-12 12:28:37 公開日:2022-09-09
# 低雑音による個人性確率勾配の差

Differentially Private Stochastic Gradient Descent with Low-Noise ( http://arxiv.org/abs/2209.04188v1 )

ライセンス: Link先を確認
Puyu Wang, Yunwen Lei, Yiming Ying, Ding-Xuan Zhou(参考訳) 本稿では,低雑音条件を導入することにより,確率的凸最適化(SCO)の設定において,確率的勾配勾配勾配(SGD)アルゴリズムのプライバシと実用性(一般化)性能について検討する。 ポイントワイズ学習では、$(\epsilon,\delta)$-微分的プライベートなsgdアルゴリズムにより、$(\epsilon,\delta)$が強く滑らかで$\alpha$-h\"olderの滑らかな損失に対して、$n$がサンプルサイズで$d$が次元性である、$\mathcal{o}\big( \frac{\sqrt{d\log(1/\alpha}{2}}}+\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}\big)$ と$\mathcal{o}\big( \frac{\sqrt{d\log(1/\delta)}}{n\epsilon} \big)$ と$\mathcal{o}\big({n^{\frac{1+\alpha}{2}}}+\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}\big)$ が成立する。 ペアワイズ学習のために,{lei2020sharper,lei2021 generalization} に触発され,$(\epsilon,\delta)$-differential privacy を満たす勾配摂動に基づく簡易なsgdアルゴリズムを提案し,提案アルゴリズムの新たなユーティリティ境界を開発する。 特に、このアルゴリズムが超過リスク率$\mathcal{o}\big(\frac{1}{\sqrt{n}}+\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}\big)$ 勾配複雑性$\mathcal{o}(n)$ と $\mathcal{o}\big(n^{\frac{2-\alpha}{1+\alpha}}+n\big)$ をそれぞれ強滑らかかつ$\alpha$-h\"older 滑らかな損失に対して達成できることを証明する。 さらに、スムーズかつ非スムーズな損失に対して、低ノイズ環境でより高速な学習率を確立する。 我々の知る限りでは、これはプライバシ保存ペアワイズ学習に$\mathcal{o}\big(\frac{1}{\sqrt{n}}+\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}\big)$よりも優れた過剰人口境界を提供する最初のユーティリティ分析である。

In this paper, by introducing a low-noise condition, we study privacy and utility (generalization) performances of differentially private stochastic gradient descent (SGD) algorithms in a setting of stochastic convex optimization (SCO) for both pointwise and pairwise learning problems. For pointwise learning, we establish sharper excess risk bounds of order $\mathcal{O}\Big( \frac{\sqrt{d\log(1/\delta)}}{n\epsilon} \Big)$ and $\mathcal{O}\Big( {n^{- \frac{1+\alpha}{2}}}+\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}\Big)$ for the $(\epsilon,\delta)$-differentially private SGD algorithm for strongly smooth and $\alpha$-H\"older smooth losses, respectively, where $n$ is the sample size and $d$ is the dimensionality. For pairwise learning, inspired by \cite{lei2020sharper,lei2021generalization}, we propose a simple private SGD algorithm based on gradient perturbation which satisfies $(\epsilon,\delta)$-differential privacy, and develop novel utility bounds for the proposed algorithm. In particular, we prove that our algorithm can achieve excess risk rates $\mathcal{O}\Big(\frac{1}{\sqrt{n}}+\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}\Big)$ with gradient complexity $\mathcal{O}(n)$ and $\mathcal{O}\big(n^{\frac{2-\alpha}{1+\alpha}}+n\big)$ for strongly smooth and $\alpha$-H\"older smooth losses, respectively. Further, faster learning rates are established in a low-noise setting for both smooth and non-smooth losses. To the best of our knowledge, this is the first utility analysis which provides excess population bounds better than $\mathcal{O}\Big(\frac{1}{\sqrt{n}}+\frac{\sqrt{d\log(1/\delta)}}{n\epsilon}\Big)$ for privacy-preserving pairwise learning.
翻訳日:2022-09-12 12:28:27 公開日:2022-09-09
# カオスシステムモデリングのための知識に基づくディープラーニング

Knowledge-based Deep Learning for Modeling Chaotic Systems ( http://arxiv.org/abs/2209.04259v1 )

ライセンス: Link先を確認
Zakaria Elabid, Tanujit Chakraborty, Abdenour Hadid(参考訳) ディープラーニングはコンピュータビジョン、自然言語処理、レコメンデーションシステムなど多くの分野で成功しておらず、最近では多物理問題のシミュレーションや非線形力学系の予測で注目を集めている。 しかし、ディープラーニングモデルのトレーニングにはビッグデータが必要であるため、カオスシステムのダイナミクスをモデル化し、予測することはオープンな研究課題のままである。 このような深層学習者は、シミュレーション結果から得られた追加情報とカオスシステムの物理法則を強制することにより、訓練することができる。 本稿では,極限事象とそのダイナミクスを考察し,知識ベースディープラーニング(kdl)と呼ばれる深層ニューラルネットワークに基づくエレガントモデルを提案する。 提案するkdlは,実データとシミュレーションデータをダイナミクスと微分方程式から直接学習することにより,カオスシステムを支配する複雑なパターンを学習することができる。 この知識はモデルに移され、極端な振る舞いを示す現実世界のカオスイベントを予測する。 我々は,エルニーニョ海表面温度,サンフアン・デングウイルス感染,Bj{\o}rn{\o}ya日降水量という3つの実世界のベンチマークデータを用いて,これらのモデルの有効性を検証した。 エクストリームイベントの事前知識と物理ベースの損失関数を使用してニューラルネットワーク学習を導くことにより、小さなデータレジームであっても、物理的に一貫性があり、一般化され、正確な予測が可能になる。

Deep Learning has received increased attention due to its unbeatable success in many fields, such as computer vision, natural language processing, recommendation systems, and most recently in simulating multiphysics problems and predicting nonlinear dynamical systems. However, modeling and forecasting the dynamics of chaotic systems remains an open research problem since training deep learning models requires big data, which is not always available in many cases. Such deep learners can be trained from additional information obtained from simulated results and by enforcing the physical laws of the chaotic systems. This paper considers extreme events and their dynamics and proposes elegant models based on deep neural networks, called knowledge-based deep learning (KDL). Our proposed KDL can learn the complex patterns governing chaotic systems by jointly training on real and simulated data directly from the dynamics and their differential equations. This knowledge is transferred to model and forecast real-world chaotic events exhibiting extreme behavior. We validate the efficiency of our model by assessing it on three real-world benchmark datasets: El Nino sea surface temperature, San Juan Dengue viral infection, and Bj{\o}rn{\o}ya daily precipitation, all governed by extreme events' dynamics. Using prior knowledge of extreme events and physics-based loss functions to lead the neural network learning, we ensure physically consistent, generalizable, and accurate forecasting, even in a small data regime.
翻訳日:2022-09-12 12:27:24 公開日:2022-09-09
# 統一・離散二部グラフ学習による効率的なマルチビュークラスタリング

Efficient Multi-view Clustering via Unified and Discrete Bipartite Graph Learning ( http://arxiv.org/abs/2209.04187v1 )

ライセンス: Link先を確認
Si-Guo Fang, Dong Huang, Xiao-Sha Cai, Chang-Dong Wang, Chaobo He, Yong Tang(参考訳) 従来のグラフベースのマルチビュークラスタリングアルゴリズムは大きな進歩を遂げているが、そのほとんどがまだ3つの制限に直面している。 まず、それらはしばしば計算の複雑さに悩まされ、大規模なシナリオでの応用を制限する。 第二に、通常はシングルビューレベルでもビューコンセンサスレベルでもグラフ学習を行うが、シングルビューとコンセンサスグラフの共同学習の可能性は無視されることが多い。 第3に、その多くはスペクトル埋め込みの離散化のために$k$-meansに依存しており、離散クラスタ構造でグラフを直接学習する能力が欠けている。 そこで本稿では,統一型および離散型2部グラフ学習(udbgl)による効率的なマルチビュークラスタリング手法を提案する。 具体的には、アンカーベースの部分空間学習を用いて、複数のビューからビュー固有の二部グラフを学習し、その上で二部グラフ融合を利用して、適応重み学習を伴うビュー合意二部グラフを学習する。 さらに、融合二部グラフが(特定の数の連結成分を持つ)離散クラスタ構造を持つことを保証するために、ラプラシアン階制限が課される。 ビュー固有二部グラフ学習、ビュー合意二部グラフ学習、および個別クラスタ構造学習を統一目的関数に同時に定式化することにより、この最適化問題に対処し、特にデータサイズに線形時間的複雑性を有する分別クラスタリングソリューションを直接実現する効率的な最小化アルゴリズムを設計する。 さまざまなマルチビューデータセットの実験は、UDBGLアプローチの堅牢性と効率を実証しています。

Although previous graph-based multi-view clustering algorithms have gained significant progress, most of them are still faced with three limitations. First, they often suffer from high computational complexity, which restricts their applications in large-scale scenarios. Second, they usually perform graph learning either at the single-view level or at the view-consensus level, but often neglect the possibility of the joint learning of single-view and consensus graphs. Third, many of them rely on the $k$-means for discretization of the spectral embeddings, which lack the ability to directly learn the graph with discrete cluster structure. In light of this, this paper presents an efficient multi-view clustering approach via unified and discrete bipartite graph learning (UDBGL). Specifically, the anchor-based subspace learning is incorporated to learn the view-specific bipartite graphs from multiple views, upon which the bipartite graph fusion is leveraged to learn a view-consensus bipartite graph with adaptive weight learning. Further, the Laplacian rank constraint is imposed to ensure that the fused bipartite graph has discrete cluster structures (with a specific number of connected components). By simultaneously formulating the view-specific bipartite graph learning, the view-consensus bipartite graph learning, and the discrete cluster structure learning into a unified objective function, an efficient minimization algorithm is then designed to tackle this optimization problem and directly achieve a discrete clustering solution without requiring additional partitioning, which notably has linear time complexity in data size. Experiments on a variety of multi-view datasets demonstrate the robustness and efficiency of our UDBGL approach.
翻訳日:2022-09-12 12:25:04 公開日:2022-09-09
# 共有価値に基づく機械学習における分類器の堅牢性の説明手法

Shapley value-based approaches to explain the robustness of classifiers in machine learning ( http://arxiv.org/abs/2209.04254v1 )

ライセンス: Link先を確認
Guilherme Dean Pelegrina and Sajid Siraj(参考訳) 機械学習におけるアルゴリズム非依存アプローチの利用は、予測結果に対する個々の特徴の寄与を説明するための新たな研究分野である。 予測そのものを説明することに焦点が当てられているが、これらのモデルの堅牢性、すなわち、それぞれの機能がその堅牢性を達成するためにどのように貢献するかを説明することはほとんど行われていない。 本稿では,各特徴のロバスト性への寄与を説明するためにShapley値を用い,受信者操作特性(ROC)曲線とROC曲線(AUC)領域を用いて測定した。 実証的な例の助けを借りて、ROC曲線を説明し、これらの曲線の不確かさを可視化する提案を行った。 不均衡なデータセットに対しては、PRC(Precision-Recall Curve)の使用がより適切と考えられるため、Shapley値の助けを借りてPRCを説明する方法も示す。

In machine learning, the use of algorithm-agnostic approaches is an emerging area of research for explaining the contribution of individual features towards the predicted outcome. Whilst there is a focus on explaining the prediction itself, a little has been done on explaining the robustness of these models, that is, how each feature contributes towards achieving that robustness. In this paper, we propose the use of Shapley values to explain the contribution of each feature towards the model's robustness, measured in terms of Receiver-operating Characteristics (ROC) curve and the Area under the ROC curve (AUC). With the help of an illustrative example, we demonstrate the proposed idea of explaining the ROC curve, and visualising the uncertainties in these curves. For imbalanced datasets, the use of Precision-Recall Curve (PRC) is considered more appropriate, therefore we also demonstrate how to explain the PRCs with the help of Shapley values.
翻訳日:2022-09-12 12:24:35 公開日:2022-09-09
# 性能不確実性を考慮した多目的ハイパーパラメータ最適化

Multi-objective hyperparameter optimization with performance uncertainty ( http://arxiv.org/abs/2209.04340v1 )

ライセンス: Link先を確認
Alejandro Morales-Hern\'andez and Inneke Van Nieuwenhuyse and Gonzalo N\'apoles(参考訳) 機械学習(ML)アルゴリズムのパフォーマンスは、ハイパーパラメータの選択によって影響を受ける。 MLアルゴリズムのトレーニングと評価は通常高価であるため、ハイパーパラメータ最適化(HPO)手法は実際に有用であるためには計算的に効率的である必要がある。 マルチ目的hpoの既存のアプローチのほとんどは進化戦略とメタモデルに基づく最適化を使っている。 しかし、性能測定の不確実性を考慮する方法がほとんど開発されていない。 本稿では,MLアルゴリズムの評価における不確実性を考慮した多目的ハイパーパラメータ最適化の結果について述べる。 木構造型Parzen Estimator(TPE)のサンプリング戦略と、ガウス過程回帰(GPR)と異種雑音の訓練後に得られたメタモデルを組み合わせる。 3つの解析的テスト関数と3つのML問題による実験結果から,多目的TPEおよびGPRよりも高体積インジケータに改善が得られた。

The performance of any Machine Learning (ML) algorithm is impacted by the choice of its hyperparameters. As training and evaluating a ML algorithm is usually expensive, the hyperparameter optimization (HPO) method needs to be computationally efficient to be useful in practice. Most of the existing approaches on multi-objective HPO use evolutionary strategies and metamodel-based optimization. However, few methods have been developed to account for uncertainty in the performance measurements. This paper presents results on multi-objective hyperparameter optimization with uncertainty on the evaluation of ML algorithms. We combine the sampling strategy of Tree-structured Parzen Estimators (TPE) with the metamodel obtained after training a Gaussian Process Regression (GPR) with heterogeneous noise. Experimental results on three analytical test functions and three ML problems show the improvement over multi-objective TPE and GPR, achieved with respect to the hypervolume indicator.
翻訳日:2022-09-12 12:24:18 公開日:2022-09-09
# ガウス過程 クープマンモード分解

Gaussian Process Koopman Mode Decomposition ( http://arxiv.org/abs/2209.04111v1 )

ライセンス: Link先を確認
Takahiro Kawashima, Hideitsu Hino(参考訳) 本論文では,教師なしガウス過程に基づくクープマンモード分解の非線形確率生成モデルを提案する。 既存のクープマンモード分解のためのデータ駆動手法は、クープマンモード分解によって指定された量、すなわち固有値、固有関数、モードの推定に重点を置いている。 我々のモデルは、未知の力学系によって支配されるこれらの量と潜在変数の同時推定を可能にする。 さらに,共分散行列の低ランク近似によりモデルのパラメータを推定する効率的な手法を提案する。 提案モデルを合成データと実世界の疫学データセットの両方に適用することで,推定パラメータを用いて様々な解析が可能となることを示す。

In this paper, we propose a nonlinear probabilistic generative model of Koopman mode decomposition based on an unsupervised Gaussian process. Existing data-driven methods for Koopman mode decomposition have focused on estimating the quantities specified by Koopman mode decomposition, namely, eigenvalues, eigenfunctions, and modes. Our model enables the simultaneous estimation of these quantities and latent variables governed by an unknown dynamical system. Furthermore, we introduce an efficient strategy to estimate the parameters of our model by low-rank approximations of covariance matrices. Applying the proposed model to both synthetic data and a real-world epidemiological dataset, we show that various analyses are available using the estimated parameters.
翻訳日:2022-09-12 12:23:27 公開日:2022-09-09
# オンライン連続学習における効率的なチャンネルアテンションによる関連知識の選択

Selecting Related Knowledge via Efficient Channel Attention for Online Continual Learning ( http://arxiv.org/abs/2209.04212v1 )

ライセンス: Link先を確認
Ya-nan Han, Jian-wei Liu(参考訳) 連続学習は、過去の知識をオンライン学習方式で活用してタスクのシーケンスを学習することを目的としており、この能力は人工知能(AI)システムにとって不可欠である。 しかし、現在のモデルは、通常、各タスク上のクラスラベルの汎用表現ベースを学習し、破滅的な忘れを避けるために効果的な戦略を選択する。 各タスクを遂行するために得られた知識のみから、関連し有用な部分を選択することは、知識全体の活用よりも有効であると仮定する。 そこで本研究では,タスク毎に特定の関連する知識を選択するための,より効率的なチャネルアテンション機構を備えたSRKOCL(Selecting Related Knowledge for Online Continual Learning)というフレームワークを提案する。 我々のモデルはまた、破滅的な忘れを回避するために経験的リプレイと知識蒸留を組み合わせる。 最後に,様々なベンチマークを用いて広範な実験を行い,提案するsrkoclが最先端の手法であることを示す。

Continual learning aims to learn a sequence of tasks by leveraging the knowledge acquired in the past in an online-learning manner while being able to perform well on all previous tasks, this ability is crucial to the artificial intelligence (AI) system, hence continual learning is more suitable for most real-word and complex applicative scenarios compared to the traditional learning pattern. However, the current models usually learn a generic representation base on the class label on each task and an effective strategy is selected to avoid catastrophic forgetting. We postulate that selecting the related and useful parts only from the knowledge obtained to perform each task is more effective than utilizing the whole knowledge. Based on this fact, in this paper we propose a new framework, named Selecting Related Knowledge for Online Continual Learning (SRKOCL), which incorporates an additional efficient channel attention mechanism to pick the particular related knowledge for every task. Our model also combines experience replay and knowledge distillation to circumvent the catastrophic forgetting. Finally, extensive experiments are conducted on different benchmarks and the competitive experimental results demonstrate that our proposed SRKOCL is a promised approach against the state-of-the-art.
翻訳日:2022-09-12 12:23:17 公開日:2022-09-09
# メタパスに基づく構造情報によるヘテロジニアスグラフの自己教師あり学習

Self-supervised Learning for Heterogeneous Graph via Structure Information based on Metapath ( http://arxiv.org/abs/2209.04218v1 )

ライセンス: Link先を確認
Shuai Ma, Jian-wei Liu, Xin Zuo(参考訳) グラフニューラルネットワーク(GNN)は、普遍ノード表現の学習によるグラフ構造データのモデリングと処理の主流パラダイムである。 従来のGNNのトレーニング方法は、多くのラベル付きデータに依存するため、コストと時間の要求が高い。 特別な場面では使用不可能で、実行不可能である。 グラフ構造データ自身でラベルを生成できる自己教師あり表現学習は、この問題に取り組むための潜在的なアプローチである。 また、異種グラフに対する自己教師付き学習問題の研究を、同種グラフを扱うよりも難しいものにし、それに関する研究も少ない。 本稿では,メタパス(SESIM)に基づく構造情報を用いたヘテロジニアスグラフの教師付き学習手法を提案する。 提案モデルでは,各メタパスのノード間のジャンプ数を予測し,プライマリタスクの表現能力を向上させることにより,プリテキストタスクを構築することができる。 ジャンプ数を予測するために、sesimはデータ自身を使ってラベルを生成し、時間を要する手動ラベリングを避ける。 さらに、各メタパスにおけるジャンプ数を予測することは、ノード間の必須特性であるグラフ構造情報を有効に活用することができる。 したがって、SESIMはグラフ構造のモデルの理解を深める。 最後に、プライマリタスクとpretextタスクを共同でトレーニングし、プライマリタスクに対するpretextタスクの貢献のバランスをとるためにメタラーニングを使用します。 実験によりSESIM法の性能を検証し,従来のニューラルネットワークのリンク予測タスクとノード分類タスクにおける表現能力を向上できることを実証した。

graph neural networks (GNNs) are the dominant paradigm for modeling and handling graph structure data by learning universal node representation. The traditional way of training GNNs depends on a great many labeled data, which results in high requirements on cost and time. In some special scene, it is even unavailable and impracticable. Self-supervised representation learning, which can generate labels by graph structure data itself, is a potential approach to tackle this problem. And turning to research on self-supervised learning problem for heterogeneous graphs is more challenging than dealing with homogeneous graphs, also there are fewer studies about it. In this paper, we propose a SElfsupervised learning method for heterogeneous graph via Structure Information based on Metapath (SESIM). The proposed model can construct pretext tasks by predicting jump number between nodes in each metapath to improve the representation ability of primary task. In order to predict jump number, SESIM uses data itself to generate labels, avoiding time-consuming manual labeling. Moreover, predicting jump number in each metapath can effectively utilize graph structure information, which is the essential property between nodes. Therefore, SESIM deepens the understanding of models for graph structure. At last, we train primary task and pretext tasks jointly, and use meta-learning to balance the contribution of pretext tasks for primary task. Empirical results validate the performance of SESIM method and demonstrate that this method can improve the representation ability of traditional neural networks on link prediction task and node classification task.
翻訳日:2022-09-12 12:22:57 公開日:2022-09-09
# プール型メンバシップ推論によるディープニューラルネットワークのロバストかつロスレスフィンガープリント

Robust and Lossless Fingerprinting of Deep Neural Networks via Pooled Membership Inference ( http://arxiv.org/abs/2209.04113v1 )

ライセンス: Link先を確認
Hanzhou Wu(参考訳) ディープニューラルネットワーク(dnn)はすでに多くのアプリケーション領域で大きな成功を収めており、社会に大きな変化をもたらしています。 しかし、DNNの知的財産権(IP)を侵害から保護する方法は、最も重要かつ非常に困難なトピックの1つだ。 この問題を解決するために,近年の研究では,ネットワークパラメータを直接あるいは間接的にチューニングすることにより,ソース情報や認証データをdnnモデルに組み込むデジタル透かしを適用することで,dnnのip保護に重点を置いている。 しかし、ネットワークパラメータのチューニングは必然的にDNNを歪ませるため、性能劣化の程度にかかわらず、DNNモデルが元のタスクで性能を損なうことは確実である。 本論文の著者らは,DNNモデルのIPを保護するために,emph{pooled membership inference (PMI) と呼ばれる新しい手法を提案する。 提案したPMIは、与えられたDNNモデルのネットワークパラメータを変更したり、慎重に作成されたトリガサンプルのシーケンスでDNNモデルを微調整したりしない。 代わりに、元のDNNモデルを変更せずに、DNNモデルのオーナーシップを決定できるが、複数のミニデータセットのどのミニデータセットが、かつてはターゲットのDNNモデルをトレーニングするために使用されたかを推測することで、DNNモデルのオーナーシップを決定できる。 実験はまた、この研究の優位性と適用性を示した。

Deep neural networks (DNNs) have already achieved great success in a lot of application areas and brought profound changes to our society. However, it also raises new security problems, among which how to protect the intellectual property (IP) of DNNs against infringement is one of the most important yet very challenging topics. To deal with this problem, recent studies focus on the IP protection of DNNs by applying digital watermarking, which embeds source information and/or authentication data into DNN models by tuning network parameters directly or indirectly. However, tuning network parameters inevitably distorts the DNN and therefore surely impairs the performance of the DNN model on its original task regardless of the degree of the performance degradation. It has motivated the authors in this paper to propose a novel technique called \emph{pooled membership inference (PMI)} so as to protect the IP of the DNN models. The proposed PMI neither alters the network parameters of the given DNN model nor fine-tunes the DNN model with a sequence of carefully crafted trigger samples. Instead, it leaves the original DNN model unchanged, but can determine the ownership of the DNN model by inferring which mini-dataset among multiple mini-datasets was once used to train the target DNN model, which differs from previous arts and has remarkable potential in practice. Experiments also have demonstrated the superiority and applicability of this work.
翻訳日:2022-09-12 12:22:34 公開日:2022-09-09
# アグリロボットのインフィールドナビゲーションのためのディープラーニングに基づく作物列追従

Deep learning-based Crop Row Following for Infield Navigation of Agri-Robots ( http://arxiv.org/abs/2209.04278v1 )

ライセンス: Link先を確認
Rajitha de Silva, Grzegorz Cielniak, Gang Wang, Junfeng Gao(参考訳) 農業環境における自律航行は、耕作可能な畑で起こる様々なフィールド条件によってしばしば挑戦される。 これらの農業環境での自律ナビゲーションのための最先端のソリューションは、RTK-GPSのような高価なハードウェアを必要とする。 本稿では,視覚サーボのための作物列の検出を行いながら,その変動に耐えられるロバストな作物列検出アルゴリズムを提案する。 サトウキビ画像のデータセットは、耕作畑で見られる11の畑の変種を43組み合わせて作成した。 新規な作列検出アルゴリズムは、作列検出性能と、作列に沿って視覚サーボを行う能力の両方を試験する。 このアルゴリズムは入力としてRGB画像のみを使用し、畳み込みニューラルネットワークを使用して作物の列マスクを予測する。 本アルゴリズムは,色に基づくセグメンテーションをフィールド変動の組合せに用いたベースライン法よりも優れていた。 我々は,作物列検出の角および変位誤差を考慮に入れた性能指標を用いた。 我々のアルゴリズムは、作物の初期生育段階における最悪の性能を示した。

Autonomous navigation in agricultural environments is often challenged by varying field conditions that may arise in arable fields. The state-of-the-art solutions for autonomous navigation in these agricultural environments will require expensive hardware such as RTK-GPS. This paper presents a robust crop row detection algorithm that can withstand those variations while detecting crop rows for visual servoing. A dataset of sugar beet images was created with 43 combinations of 11 field variations found in arable fields. The novel crop row detection algorithm is tested both for the crop row detection performance and also the capability of visual servoing along a crop row. The algorithm only uses RGB images as input and a convolutional neural network was used to predict crop row masks. Our algorithm outperformed the baseline method which uses colour-based segmentation for all the combinations of field variations. We use a combined performance indicator that accounts for the angular and displacement errors of the crop row detection. Our algorithm exhibited the worst performance during the early growth stages of the crop.
翻訳日:2022-09-12 12:22:08 公開日:2022-09-09
# 2次元クラスター変動法トポロジーを特徴付けるパラメータ推定への変分的アプローチ

A Variational Approach to Parameter Estimation for Characterizing 2-D Cluster Variation Method Topographies ( http://arxiv.org/abs/2209.04087v1 )

ライセンス: Link先を確認
Alianna J. Maren(参考訳) 2次元トポグラフィーの特徴付けにおける最大の課題の1つは、局所的な構成の優位性を簡潔に伝えることである。 バイステート単位からなる2次元グリッドでは、これは最も近い-neighborペアや三重項の組み合わせのような特徴的な構成変数を見つけることができる。 2次元クラスタ変動法(CVM)は、自由エネルギー平衡状態にあるシステムに対して、構成変数の集合をたった2つのパラメータで関連付ける理論的枠組みを提供する。 本研究は、2パラメータ集合が与えられた2次元トポグラフィーに「最も適した」マッチングを与えるかを決定する方法を示し、変分推論に使用される方法から導かれる。 この研究は、アクティベーションエンタルピーパラメータ (epsilon_0) がゼロであるような2つの状態間の分布が等しくなるようなトポグラフィーにのみ焦点をあてる。 この条件は、2つの状態が同値であるとき、h-値の関数として構成変数値を与える解析解が存在し、h は相互作用エンタルピーパラメータ (epsilon_1) として h = exp(2*epsilon_1) として定義される。 これにより、計算可能な構成変数値を、与えられたh値に対する解析的に予測された値と比較することができる。 各パターンが等確率基準に合致する3つの異なる白黒地形から派生した4つのパターンを用いて図示する。 パターンが比較的少ない同種近傍のノードから増加する同種近傍の質量へと進むにつれて、各自由エネルギー最小化モデルに対するh値も増加するという期待結果が得られる。 さらに、(自由エネルギー最小)モデルパターンに対する対応する構成変数値は、解析的に予測された値に近似する。

One of the biggest challenges in characterizing 2-D topographies is succinctly communicating the dominant nature of local configurations. In a 2-D grid composed of bistate units, this could be expressed as finding the characteristic configuration variables such as nearest-neighbor pairs and triplet combinations. The 2-D cluster variation method (CVM) provides a theoretical framework for associating a set of configuration variables with only two parameters, for a system that is at free energy equilibrium. This work presents a method for determining which of many possible two-parameter sets provides the ``most suitable'' match for a given 2-D topography, drawing from methods used for variational inference. This particular work focuses exclusively on topographies for which the activation enthalpy parameter (epsilon_0) is zero, so that the distribution between two states is equiprobable. This condition is used since, when the two states are equiprobable, there is an analytic solution giving the configuration variable values as functions of the h-value, where we define h in terms of the interaction enthalpy parameter (epsilon_1) as h = exp(2*epsilon_1). This allows the computationally-achieved configuration variable values to be compared with the analytically-predicted values for a given h-value. The method is illustrated using four patterns derived from three different naturally-occurring black-and-white topographies, where each pattern meets the equiprobability criterion. We achieve expected results, that is, as the patterns progress from having relatively low numbers of like-near-like nodes to increasing like-near-like masses, the h-values for each corresponding free energy-minimized model also increase. Further, the corresponding configuration variable values for the (free energy-minimized) model patterns are in approximate alignment with the analytically-predicted values.
翻訳日:2022-09-12 12:21:52 公開日:2022-09-09
# EDeNN: 低レイテンシビジョンのためのイベント減衰ニューラルネットワーク

EDeNN: Event Decay Neural Networks for low latency vision ( http://arxiv.org/abs/2209.04362v1 )

ライセンス: Link先を確認
Celyn Walters, Simon Hadfield(参考訳) コンピュータビジョンタスクにおけるニューラルネットワークの成功にもかかわらず、デジタルニューロンは生物学的ニューロンの非常に緩やかな近似である。 今日の学習アプローチは、画像フレームなどのデジタルデータ表現を備えたデジタルデバイスで機能するように設計されている。 対照的に、生体視覚システムは一般的に最先端のデジタルコンピュータビジョンアルゴリズムよりも能力と効率が優れている。 イベントカメラは、生物学的ビジョンを模倣し、非同期にピクセルを発射し、画像フレームの概念を進化させる新しいセンサー技術である。 現代の学習技術を活用するために、多くのイベントベースのアルゴリズムは、イベントをイメージフレームに蓄積せざるを得ない。 我々は、逆のパラダイムに従い、元のイベントデータストリームに近く動作する新しいタイプのニューラルネットワークを開発する。 我々は,SNN訓練に伴う困難を回避しつつ,角速度回帰と競合する光フロー推定における最先端性能を示す。 さらに,提案手法の処理遅延は,他の実装では1/10以下であり,連続推論は,この改善をさらに桁違いに向上させる。

Despite the success of neural networks in computer vision tasks, digital 'neurons' are a very loose approximation of biological neurons. Today's learning approaches are designed to function on digital devices with digital data representations such as image frames. In contrast, biological vision systems are generally much more capable and efficient than state-of-the-art digital computer vision algorithms. Event cameras are an emerging sensor technology which imitates biological vision with asynchronously firing pixels, eschewing the concept of the image frame. To leverage modern learning techniques, many event-based algorithms are forced to accumulate events back to image frames, somewhat squandering the advantages of event cameras. We follow the opposite paradigm and develop a new type of neural network which operates closer to the original event data stream. We demonstrate state-of-the-art performance in angular velocity regression and competitive optical flow estimation, while avoiding difficulties related to training SNN. Furthermore, the processing latency of our proposed approached is less than 1/10 any other implementation, while continuous inference increases this improvement by another order of magnitude.
翻訳日:2022-09-12 12:18:28 公開日:2022-09-09
# エネルギーを考慮したJPEG画像圧縮:多目的アプローチ

Energy-Aware JPEG Image Compression: A Multi-Objective Approach ( http://arxiv.org/abs/2209.04374v1 )

ライセンス: Link先を確認
Seyed Jalaleddin Mousavirad and Lu\'is A. Alexandre(参考訳) 顧客満足度はモバイルデバイスのエネルギー消費に大きく影響している。 アプリケーションでもっともエネルギーを消費する部分の1つは画像である。 異なる画質の異なる画像は異なる量のエネルギーを消費するが、典型的な画像における操作のエネルギー消費を計算する簡単な方法は存在しない。 本稿では,まず,エネルギー消費と画質と画像ファイルサイズとの間に相関があることを示す。 したがって、これら2つはエネルギー消費のプロキシと見なすことができる。 次に,JPEG画像圧縮における量子化テーブルに基づく画像品質の向上と画像ファイルサイズ削減のための多目的戦略を提案する。 この目的のために、スカラー化とパレートベースという2つの一般的な多目的メタヒューリスティックアプローチを用いた。 スカラー化手法は、異なる目的を組み合わせることによって単一の最適解を見つけるが、paretoベースの手法は、解の集合を達成することを目的としている。 本稿では、エネルギー対応多目的遺伝的アルゴリズム(EnMOGA)、エネルギー対応多目的粒子群最適化(EnMOPSO)、エネルギー対応多目的微分進化(EnMODE)、エネルギー対応多目的進化戦略(EnMOES)、エネルギー対応多目的パターン探索(EnMOPS)の5つのスカラー化アルゴリズムに戦略を組み込む。 また、非支配的ソート遺伝的アルゴリズム(NSGA-II)と基準点に基づくNSGA-II(NSGA-III)を含む2つのParetoベースの手法を埋め込みスキームに用いて、EnNSGAIIとEnNSGAIIIという2つのParetoベースのアルゴリズムを提示する。 実験により,提案手法をメタヒューリスティックアルゴリズムに組み込むことにより,ベースラインアルゴリズムの性能が向上することを示した。

Customer satisfaction is crucially affected by energy consumption in mobile devices. One of the most energy-consuming parts of an application is images. While different images with different quality consume different amounts of energy, there are no straightforward methods to calculate the energy consumption of an operation in a typical image. This paper, first, investigates that there is a correlation between energy consumption and image quality as well as image file size. Therefore, these two can be considered as a proxy for energy consumption. Then, we propose a multi-objective strategy to enhance image quality and reduce image file size based on the quantisation tables in JPEG image compression. To this end, we have used two general multi-objective metaheuristic approaches: scalarisation and Pareto-based. Scalarisation methods find a single optimal solution based on combining different objectives, while Pareto-based techniques aim to achieve a set of solutions. In this paper, we embed our strategy into five scalarisation algorithms, including energy-aware multi-objective genetic algorithm (EnMOGA), energy-aware multi-objective particle swarm optimisation (EnMOPSO), energy-aware multi-objective differential evolution (EnMODE), energy-aware multi-objective evolutionary strategy (EnMOES), and energy-aware multi-objective pattern search (EnMOPS). Also, two Pareto-based methods, including a non-dominated sorting genetic algorithm (NSGA-II) and a reference-point-based NSGA-II (NSGA-III) are used for the embedding scheme, and two Pareto-based algorithms, EnNSGAII and EnNSGAIII, are presented. Experimental studies show that the performance of the baseline algorithm is improved by embedding the proposed strategy into metaheuristic algorithms.
翻訳日:2022-09-12 12:18:11 公開日:2022-09-09
# MICO:相互情報協調学習による選択検索

MICO: Selective Search with Mutual Information Co-training ( http://arxiv.org/abs/2209.04378v1 )

ライセンス: Link先を確認
Zhanyu Wang, Xiao Zhang, Hyokun Yun, Choon Hui Teo, Trishul Chilimbi(参考訳) 従来の徹底的な検索とは対照的に、選択的な検索ファーストは文書を複数のグループに分類し、すべての文書がクエリによって徹底的に検索される。 選択的検索は、現代の大規模検索システムにおけるレイテンシと計算量を削減するように設計されている。 本研究では,検索ログを用いた選択的検索のための相互情報協調学習フレームワークであるmicoを提案する。 トレーニング後、micoはドキュメントをクラスタ化するだけでなく、未取得のクエリを関連するクラスタにルーティングして効率的な検索を行う。 実証実験では、MICOは選択探索の複数の指標の性能を著しく改善し、既存の競争基準よりも優れています。

In contrast to traditional exhaustive search, selective search first clusters documents into several groups before all the documents are searched exhaustively by a query, to limit the search executed within one group or only a few groups. Selective search is designed to reduce the latency and computation in modern large-scale search systems. In this study, we propose MICO, a Mutual Information CO-training framework for selective search with minimal supervision using the search logs. After training, MICO does not only cluster the documents, but also routes unseen queries to the relevant clusters for efficient retrieval. In our empirical experiments, MICO significantly improves the performance on multiple metrics of selective search and outperforms a number of existing competitive baselines.
翻訳日:2022-09-12 12:17:26 公開日:2022-09-09
# 汎用アクティベーションのための高速ニューラルカーネル埋め込み

Fast Neural Kernel Embeddings for General Activations ( http://arxiv.org/abs/2209.04121v1 )

ライセンス: Link先を確認
Insu Han, Amir Zandieh, Jaehoon Lee, Roman Novak, Lechao Xiao, Amin Karbasi(参考訳) 無限幅制限は、ニューラルネットワークとカーネルメソッド間の接続を確立することによって、ディープラーニングの一般化と最適化の側面に光を当てている。 その重要性にもかかわらず、これらのカーネルメソッドの実用性は、(超)クアッドラティックランタイムとメモリの複雑さのために、大規模な学習環境で制限されていた。 さらに、ニューラルカーネルに関するほとんどの先行研究は、主にその人気のためにreluアクティベーションにフォーカスしているが、一般的なアクティベーションのためにそのようなカーネルを計算するのが難しいためでもある。 本稿では,一般的なアクティベーションを扱うメソッドを提供することによって,このような困難を克服する。 まず、ニューラルネットワークの正確な双対アクティベーション表現を許容するアクティベーション関数のリストをコンパイルし、拡張する。 正確な計算方法が不明な場合,効果的に近似する手法を提案する。 本稿では,多層ニューラルネットワークgaussian process (nngp) カーネルとneural tangent kernel (ntk) 行列を,広く解析されたreluアクティベーションを超越した幅広いアクティベーション関数に対して近似する高速スケッチ法を提案する。 これは、任意のアクティベーション関数の切り詰められたハーマイト展開を用いて、ニューラルカーネルを近似する方法を示す。 ほとんどの先行研究は単位球上のデータポイントを必要とするが、我々の手法はそのような制限に悩まされず、$\mathbb{R}^d$の任意の点のデータセットに適用できる。 さらに, NNGP および NTK 行列に対して, 急速に収束したTaylor 展開を持つ任意の \emph{homogeneous} 二重活性化関数に適用可能な, ほぼ入力スパーシティランタイムと準最適目標次元を持つ部分空間埋め込みを提供する。 経験的に, 完全畳み込みntk (cntk) 計算に関しては, cifar-10データセット上の5層myrtleネットワークの近似cntkに対して106\times$ speedupを実現する。

Infinite width limit has shed light on generalization and optimization aspects of deep learning by establishing connections between neural networks and kernel methods. Despite their importance, the utility of these kernel methods was limited in large-scale learning settings due to their (super-)quadratic runtime and memory complexities. Moreover, most prior works on neural kernels have focused on the ReLU activation, mainly due to its popularity but also due to the difficulty of computing such kernels for general activations. In this work, we overcome such difficulties by providing methods to work with general activations. First, we compile and expand the list of activation functions admitting exact dual activation expressions to compute neural kernels. When the exact computation is unknown, we present methods to effectively approximate them. We propose a fast sketching method that approximates any multi-layered Neural Network Gaussian Process (NNGP) kernel and Neural Tangent Kernel (NTK) matrices for a wide range of activation functions, going beyond the commonly analyzed ReLU activation. This is done by showing how to approximate the neural kernels using the truncated Hermite expansion of any desired activation functions. While most prior works require data points on the unit sphere, our methods do not suffer from such limitations and are applicable to any dataset of points in $\mathbb{R}^d$. Furthermore, we provide a subspace embedding for NNGP and NTK matrices with near input-sparsity runtime and near-optimal target dimension which applies to any \emph{homogeneous} dual activation functions with rapidly convergent Taylor expansion. Empirically, with respect to exact convolutional NTK (CNTK) computation, our method achieves $106\times$ speedup for approximate CNTK of a 5-layer Myrtle network on CIFAR-10 dataset.
翻訳日:2022-09-12 12:17:15 公開日:2022-09-09
# 感情原因対抽出のためのマルチタスク特徴とラベル空間の結合アライメント

Joint Alignment of Multi-Task Feature and Label Spaces for Emotion Cause Pair Extraction ( http://arxiv.org/abs/2209.04112v1 )

ライセンス: Link先を確認
Shunjie Chen, Xiaochuan Shi, Jingye Li, Shengqiong Wu, Hao Fei, Fei Li, Donghong Ji(参考訳) 感情原因ペア抽出(ECPE)は感情原因分析(ECA)の派生サブタスクの1つであり、感情要因抽出(EE)と原因抽出(CE)とを併せ持つ。 そのため、EE と CE は、マルチタスク学習(MTL)フレームワークを用いて、最先端(SoTA) ECPE 結果を達成するための補助的なタスクとして頻繁に利用される。 しかし、既存のMTLベースの手法では、特定の特徴と対話的な特徴を同時にモデル化できないか、ラベル予測の不整合に悩まされるかのいずれかである。 本研究では、新しいA^2Netモデルを用いて2つのアライメント機構を実行することにより、ECPEを改善する上での課題に対処する。 まず,特定の感情・原因機能と共有対話機能を明確にモデル化する機能タスクアライメントを提案する。 さらに、ECPEとEE&CEの組み合わせ間のラベル距離を狭めることで、より優れたラベル一貫性を実現するためのタスク間アライメントも実装されている。 評価の結果,提案手法は全てのECAサブタスクにおいて,現在の最高性能システムよりも優れていた。 さらに分析した結果,提案するアライメント機構の重要性が証明された。

Emotion cause pair extraction (ECPE), as one of the derived subtasks of emotion cause analysis (ECA), shares rich inter-related features with emotion extraction (EE) and cause extraction (CE). Therefore EE and CE are frequently utilized as auxiliary tasks for better feature learning, modeled via multi-task learning (MTL) framework by prior works to achieve state-of-the-art (SoTA) ECPE results. However, existing MTL-based methods either fail to simultaneously model the specific features and the interactive feature in between, or suffer from the inconsistency of label prediction. In this work, we consider addressing the above challenges for improving ECPE by performing two alignment mechanisms with a novel A^2Net model. We first propose a feature-task alignment to explicitly model the specific emotion-&cause-specific features and the shared interactive feature. Besides, an inter-task alignment is implemented, in which the label distance between the ECPE and the combinations of EE&CE are learned to be narrowed for better label consistency. Evaluations of benchmarks show that our methods outperform current best-performing systems on all ECA subtasks. Further analysis proves the importance of our proposed alignment mechanisms for the task.
翻訳日:2022-09-12 12:16:44 公開日:2022-09-09
# 質問生成のためのテキスト構造知識を用いた事前学習モデルの強化

Enhancing Pre-trained Models with Text Structure Knowledge for Question Generation ( http://arxiv.org/abs/2209.04179v1 )

ライセンス: Link先を確認
Zichen Wu, Xin Jia, Fanyi Qu, Yunfang Wu (Key Laboratory of Computational Linguistics, Ministry of Education, China, School of Computer Science, Peking University, China)(参考訳) 今日、事前学習された言語モデルは質問生成(qg)タスクで大きな成功を収め、従来のシーケンスからシーケンスへのアプローチを大きく上回っている。 しかし、事前訓練されたモデルは入力路をフラットシーケンスとして扱うため、入力路のテキスト構造を意識していない。 QGタスクでは、テキスト構造を応答位置と構文依存としてモデル化し、これらの制限に対処するために、応答局所性モデリングと構文マスクアテンションを提案する。 特に,ガウスバイアスを用いた局所性モデルを提案し,回答を取り巻く文脈に焦点を合わせ,質問生成プロセスにおいて入力経路の統語的構造をアクセス可能にするマスクアテンション機構を提案する。 squadデータセットを用いた実験により,提案する2つのモジュールにより,事前学習モデルであるprophetnetの性能が向上し,最新の事前学習モデルと非常に競争的な結果が得られた。

Today the pre-trained language models achieve great success for question generation (QG) task and significantly outperform traditional sequence-to-sequence approaches. However, the pre-trained models treat the input passage as a flat sequence and are thus not aware of the text structure of input passage. For QG task, we model text structure as answer position and syntactic dependency, and propose answer localness modeling and syntactic mask attention to address these limitations. Specially, we present localness modeling with a Gaussian bias to enable the model to focus on answer-surrounded context, and propose a mask attention mechanism to make the syntactic structure of input passage accessible in question generation process. Experiments on SQuAD dataset show that our proposed two modules improve performance over the strong pre-trained model ProphetNet, and combing them together achieves very competitive results with the state-of-the-art pre-trained model.
翻訳日:2022-09-12 12:16:22 公開日:2022-09-09
# 知識グラフからの多文書科学的要約

Multi-Document Scientific Summarization from a Knowledge Graph-Centric View ( http://arxiv.org/abs/2209.04319v1 )

ライセンス: Link先を確認
Pancheng Wang, Shasha Li, Kunyuan Pang, Liangliang He, Dong Li, Jintao Tang, Ting Wang(参考訳) MDSS(Multi-Document Scientific Summarization)は、トピック関連科学論文の集合に対して、一貫性と簡潔な要約を作成することを目的としている。 このタスクは、紙の内容の正確な理解と、紙間の関係の正確なモデリングを必要とする。 知識グラフは文書のコンパクトで解釈可能な構造化情報を伝達するので、コンテンツモデリングや関係モデリングに最適である。 本稿では,符号化処理と復号処理の両方において知識グラフを中心としたMDSSモデルであるKGSumを提案する。 具体的には, 知識グラフ情報を紙符号化に組み込むために2つのグラフベースモジュールを提案し, 復号処理において, まず記述文の形で要約の知識グラフ情報を生成し, 最終要約を生成する2段階復号器を提案する。 実証的な結果から,提案アーキテクチャは,Multi-Xscienceデータセットのベースラインよりも大幅に改善されている。

Multi-Document Scientific Summarization (MDSS) aims to produce coherent and concise summaries for clusters of topic-relevant scientific papers. This task requires precise understanding of paper content and accurate modeling of cross-paper relationships. Knowledge graphs convey compact and interpretable structured information for documents, which makes them ideal for content modeling and relationship modeling. In this paper, we present KGSum, an MDSS model centred on knowledge graphs during both the encoding and decoding process. Specifically, in the encoding process, two graph-based modules are proposed to incorporate knowledge graph information into paper encoding, while in the decoding process, we propose a two-stage decoder by first generating knowledge graph information of summary in the form of descriptive sentences, followed by generating the final summary. Empirical results show that the proposed architecture brings substantial improvements over baselines on the Multi-Xscience dataset.
翻訳日:2022-09-12 12:16:05 公開日:2022-09-09
# RASR:EVaRとエントロピーリスクを備えたリスク逆ソフトロバストMDP

RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk ( http://arxiv.org/abs/2209.04067v1 )

ライセンス: Link先を確認
Jia Lin Hai, Marek Petrik, Mohammad Ghavamzadeh, Reazul Russel(参考訳) 安全強化学習(rl)の先行研究は、力学におけるランダム性へのリスク回避と、独立して不確実性(epistemic)をモデル化することを研究した。 本稿では,有限ホリゾンとディスカウント無限ホリゾンmdpの認識的不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,解析する。 リスク・アバース法とソフト・ロバスト法を組み合わせたフレームワークをRASRと呼ぶ。 リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。 その結果、最適リスク-逆ポリシは決定論的だが、無限水平割引設定でも時間依存である。 また,特定のRASR目標が,平均後進遷移確率を持つリスク逆RLに還元されることも示した。 実験の結果,新しいアルゴリズムはEVaRや他の標準リスク対策によって測定された不確実性を一貫して緩和することが示された。

Prior work on safe Reinforcement Learning (RL) has studied risk-aversion to randomness in dynamics (aleatory) and to model uncertainty (epistemic) in isolation. We propose and analyze a new framework to jointly model the risk associated with epistemic and aleatory uncertainties in finite-horizon and discounted infinite-horizon MDPs. We call this framework that combines Risk-Averse and Soft-Robust methods RASR. We show that when the risk-aversion is defined using either EVaR or the entropic risk, the optimal policy in RASR can be computed efficiently using a new dynamic program formulation with a time-dependent risk level. As a result, the optimal risk-averse policies are deterministic but time-dependent, even in the infinite-horizon discounted setting. We also show that particular RASR objectives reduce to risk-averse RL with mean posterior transition probabilities. Our empirical results show that our new algorithms consistently mitigate uncertainty as measured by EVaR and other standard risk measures.
翻訳日:2022-09-12 12:15:27 公開日:2022-09-09
# GNNにおけるサンプリングが個人の公正性に及ぼす影響の分析

Analyzing the Effect of Sampling in GNNs on Individual Fairness ( http://arxiv.org/abs/2209.03904v2 )

ライセンス: Link先を確認
Rebecca Salganik, Fernando Diaz, Golnoosh Farnadi(参考訳) グラフニューラルネットワーク(GNN)ベースの手法はレコメンダシステムの分野を飽和させた。 これらのシステムの利点は重要であり、ネットワーク構造を通してデータを解釈する利点を示している。 しかしながら、レコメンデーションタスクでグラフ構造を用いることの顕著な利点にもかかわらず、この表現形式はアルゴリズムバイアスを緩和する複雑さを悪化させる新しい課題も生み出している。 GNNがリコメンデーションなどの下流タスクに統合されると、バイアス軽減はさらに難しくなります。 さらに、既存の公正化促進手法を大規模で実世界のデータセットに適用することの難しさは、緩和の試みにさらに深刻な制約を課す。 このギャップを埋めるために,グラフ上で個別の公平性を推進し,それをミニバッチ(サブサンプルベース)でGNNのトレーニングをサポートするように拡張することで,下流レコメンデーションタスクにこの手法を適用するための土台を構築した。 グラフ全体をトレーニングするグラフ畳み込みネットワーク(GCN)と、確率的ランダムウォークを用いてミニバッチトレーニング用のサブグラフを作成し、サブサンプリングが個々のフェアネスに与える影響を評価するグラフSAGEという2つの一般的なGNN手法を評価した。 dongらによって提案された \textit{redress} と呼ばれる個々のフェアネス概念を実装し、ランク最適化を用いて個々のフェアノードやアイテムの埋め込みを学習する。 我々は2つの実世界のデータセットについて、graphsageが同等の正確性だけでなく、gcnモデルと比較して公正性も向上できることを実証的に示した。 これらの発見は、個別のフェアネス促進、GNN、下流形態のレコメンデーションシステムに対して、局所的なニュアンスが表現学習におけるフェアネス促進のプロセスを導くことによって、個別のフェアネス促進を促進することを示す。

Graph neural network (GNN) based methods have saturated the field of recommender systems. The gains of these systems have been significant, showing the advantages of interpreting data through a network structure. However, despite the noticeable benefits of using graph structures in recommendation tasks, this representational form has also bred new challenges which exacerbate the complexity of mitigating algorithmic bias. When GNNs are integrated into downstream tasks, such as recommendation, bias mitigation can become even more difficult. Furthermore, the intractability of applying existing methods of fairness promotion to large, real world datasets places even more serious constraints on mitigation attempts. Our work sets out to fill in this gap by taking an existing method for promoting individual fairness on graphs and extending it to support mini-batch, or sub-sample based, training of a GNN, thus laying the groundwork for applying this method to a downstream recommendation task. We evaluate two popular GNN methods: Graph Convolutional Network (GCN), which trains on the entire graph, and GraphSAGE, which uses probabilistic random walks to create subgraphs for mini-batch training, and assess the effects of sub-sampling on individual fairness. We implement an individual fairness notion called \textit{REDRESS}, proposed by Dong et al., which uses rank optimization to learn individual fair node, or item, embeddings. We empirically show on two real world datasets that GraphSAGE is able to achieve, not just, comparable accuracy, but also, improved fairness as compared with the GCN model. These finding have consequential ramifications to individual fairness promotion, GNNs, and in downstream form, recommender systems, showing that mini-batch training facilitate individual fairness promotion by allowing for local nuance to guide the process of fairness promotion in representation learning.
翻訳日:2022-09-12 10:39:56 公開日:2022-09-09
# CTスキャンによる肺動脈セグメンテーションのためのマルチビュー多段階およびマルチウィンドウフレームワーク

A multi view multi stage and multi window framework for pulmonary artery segmentation from CT scans ( http://arxiv.org/abs/2209.03918v2 )

ライセンス: Link先を確認
ZeYu Liu, Yi Wang, Jing Wen, Yong Zhang, Hao Yin, Chao Guo, Zhongyu Wang(参考訳) これはPARSE2022 Challengeの最終結果の第9位の技術的報告である。 3d cnnネットワークを用いた2段階法を用いて肺動脈の分画問題を解決する。 粗いモデルはROIを見つけるために使われ、細かいモデルはセグメンテーション結果を洗練するために使用される。 また, セグメンテーション性能を向上させるため, マルチビュー・マルチウィンドウレベル手法を採用すると同時に, 不整合ラベリングの影響を軽減するため, 微調整戦略を採用する。

This is the technical report of the 9th place in the final result of PARSE2022 Challenge. We solve the segmentation problem of the pulmonary artery by using a two-stage method based on a 3D CNN network. The coarse model is used to locate the ROI, and the fine model is used to refine the segmentation result. In addition, in order to improve the segmentation performance, we adopt multi-view and multi-window level method, at the same time we employ a fine-tune strategy to mitigate the impact of inconsistent labeling.
翻訳日:2022-09-12 10:39:22 公開日:2022-09-09
# なぜ毒なのか? オープンドメインチャットボットにおける毒性挙動の測定とトリガー

Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain Chatbots ( http://arxiv.org/abs/2209.03463v2 )

ライセンス: Link先を確認
Wai Man Si, Michael Backes, Jeremy Blackburn, Emiliano De Cristofaro, Gianluca Stringhini, Savvas Zannettou, Yang Zhang(参考訳) チャットボットは、自動化エージェント、スマートホームアシスタント、オンラインゲームにおけるインタラクティブ文字など、多くのアプリケーションで使用されている。 そのため、望ましくない振る舞いをせず、攻撃的、有害な反応をユーザーに与えないことが不可欠である。 最先端のチャットボットモデルは、インターネットからオープンに収集された大規模な公開データセットでトレーニングされているため、これは簡単な作業ではない。 本稿では,チャットボットの毒性を定量的に測定する。 公に利用できるチャットボットは、有害な質問に餌をやると、有害な反応をもたらす可能性が高い。 さらに心配なのは、一部の有害なクエリは有害な応答を引き起こす可能性があることだ。 そこで私たちは、細調整のGPT-2を使ってチャットボットに有害な反応を与える非有害なクエリを生成するToxicBuddyという攻撃を設計し、実験した。 広範な実験結果から,本攻撃は公開チャットボットモデルに対して有効であり,先行研究が提案する手作業による悪意のあるクエリよりも優れていることが示された。 また,有毒バッドに対する3つの防御機構を評価し,チャットボットの有用性に影響を与えるコストで攻撃性能を低下させるか,攻撃の一部緩和にのみ有効であることを示した。 これは、チャットボットモデルがユーザーを傷つけないようにするために、コンピュータセキュリティとオンライン安全コミュニティからのさらなる研究の必要性を強調している。 全体として、ToxicBuddyは監査ツールとして利用でき、チャットボットの安全性のためにより効果的な防御を設計するための道を開くと確信しています。

Chatbots are used in many applications, e.g., automated agents, smart home assistants, interactive characters in online games, etc. Therefore, it is crucial to ensure they do not behave in undesired manners, providing offensive or toxic responses to users. This is not a trivial task as state-of-the-art chatbot models are trained on large, public datasets openly collected from the Internet. This paper presents a first-of-its-kind, large-scale measurement of toxicity in chatbots. We show that publicly available chatbots are prone to providing toxic responses when fed toxic queries. Even more worryingly, some non-toxic queries can trigger toxic responses too. We then set out to design and experiment with an attack, ToxicBuddy, which relies on fine-tuning GPT-2 to generate non-toxic queries that make chatbots respond in a toxic manner. Our extensive experimental evaluation demonstrates that our attack is effective against public chatbot models and outperforms manually-crafted malicious queries proposed by previous work. We also evaluate three defense mechanisms against ToxicBuddy, showing that they either reduce the attack performance at the cost of affecting the chatbot's utility or are only effective at mitigating a portion of the attack. This highlights the need for more research from the computer security and online safety communities to ensure that chatbot models do not hurt their users. Overall, we are confident that ToxicBuddy can be used as an auditing tool and that our work will pave the way toward designing more effective defenses for chatbot safety.
翻訳日:2022-09-12 10:39:11 公開日:2022-09-09
# 私たちが保持している会社で知られている:社会関係における互換性の代理人としての「トリアド・インフルエンス」

Known by the company we keep: `Triadic influence' as a proxy for compatibility in social relationships ( http://arxiv.org/abs/2209.03683v2 )

ライセンス: Link先を確認
Miguel Ru\'iz-Garc\'ia, Juan Ozaita, Mar\'ia Pereda, Antonio Alfonso, Pablo Bra\~nas-Garza, Jose A. Cuesta and \'Angel S\'anchez(参考訳) 社会的相互作用のネットワークは文明が構築される基盤である。 多くの場合、私たちは、第三者の介入によって関係が損なわれていると感じている人々と新しい債券を作ります。 その重要性と、これらのプロセスが私たちの生活に与えた大きな影響にもかかわらず、その定量的科学的理解は、主に個々の属性を含むソーシャルネットワークの大規模なデータセットの収集が困難であるため、まだ初期段階にある。 本研究は,13校の実際の社会ネットワークを徹底的に調査し,学生3,000名以上の学生と6万人が肯定的かつ否定的な関係を宣言し,学生全員の個人的特性の検証を行った。 我々は,接点関係における最寄りの接点の影響を測定する尺度である「トリアード・インフルエンス」を導入する。 ニューラルネットワークを用いて関係を予測し、2人の学生が友人あるいは敵である確率を個人的属性や三角的影響に応じて抽出する。 代わりに、ネットワーク構造の高次元埋め込みを用いて関係を予測します。 驚くべきことに、三進的影響(単純な1次元の計量)は、2人の学生間の関係を予測する上で最も高い精度を達成する。 我々は、ニューラルネットワークから抽出された確率(三進的影響の機能と学生の個性)が、実際のソーシャルネットワークの進化を制御し、これらのシステムの定量的研究のための新たな道を開くことを仮定する。

Networks of social interactions are the substrate upon which civilizations are built. Often, we create new bonds with people that we like or feel that our relationships are damaged through the intervention of third parties. Despite their importance and the huge impact that these processes have in our lives, quantitative scientific understanding of them is still in its infancy, mainly due to the difficulty of collecting large datasets of social networks including individual attributes. In this work, we present a thorough study of real social networks of 13 schools, with more than 3,000 students and 60,000 declared positive and negative relations, including tests for personal traits of all the students. We introduce a metric -- the `triadic influence' -- that measures the influence of nearest-neighbors in the relationships of their contacts. We use neural networks to predict the relationships and to extract the probability that two students are friends or enemies depending on their personal attributes or the triadic influence. We alternatively use a high-dimensional embedding of the network structure to also predict the relationships. Remarkably, the triadic influence (a simple one-dimensional metric) achieves the highest accuracy at predicting the relationship between two students. We postulate that the probabilities extracted from the neural networks -- functions of the triadic influence and the personalities of the students -- control the evolution of real social networks, opening a new avenue for the quantitative study of these systems.
翻訳日:2022-09-12 10:38:49 公開日:2022-09-09
# 垂直フェデレーション学習におけるプライバシ利用トレードオフ評価の枠組み

A Framework for Evaluating Privacy-Utility Trade-off in Vertical Federated Learning ( http://arxiv.org/abs/2209.03885v2 )

ライセンス: Link先を確認
Yan Kang, Jiahuan Luo, Yuanqin He, Xiaojin Zhang, Lixin Fan, Qiang Yang(参考訳) フェデレーション学習(fl)は、ユーザのプライバシを損なうことなくデータサイロ問題に取り組むための実用的なソリューションとして登場した。 その変種の一つである垂直フェデレーション学習(vertical federated learning, vfl)が最近注目を集めている。vflは、ユーザのプライバシを維持しながら、より価値の高い機械学習モデルを構築するという、企業の要求に合致するものだ。 現在、vflは特定のvflアルゴリズムの特定の保護または攻撃機構の開発に集中している。 本稿では,プライバシ利用性評価問題を定式化する評価フレームワークを提案する。 次に、このフレームワークをガイドとして、3つの広くデプロイされたvflアルゴリズムの最先端プライバシ攻撃に対する幅広い保護メカニズムを包括的に評価する。 これらの評価は、特定の要求に応じて適切な保護機構を選択するのに役立つ。 モデルインバージョンとラベル推論攻撃の大部分は,既存の保護機構によって妨害される可能性がある。モデル補完攻撃(mc)は防止が困難であり,より高度なmc標的保護機構が要求される。 評価結果に基づき,vflシステムのプライバシ保護能力の向上に関する具体的なアドバイスを行う。

Federated learning (FL) has emerged as a practical solution to tackle data silo issues without compromising user privacy. One of its variants, vertical federated learning (VFL), has recently gained increasing attention as the VFL matches the enterprises' demands of leveraging more valuable features to build better machine learning models while preserving user privacy. Current works in VFL concentrate on developing a specific protection or attack mechanism for a particular VFL algorithm. In this work, we propose an evaluation framework that formulates the privacy-utility evaluation problem. We then use this framework as a guide to comprehensively evaluate a broad range of protection mechanisms against most of the state-of-the-art privacy attacks for three widely-deployed VFL algorithms. These evaluations may help FL practitioners select appropriate protection mechanisms given specific requirements. Our evaluation results demonstrate that: the model inversion and most of the label inference attacks can be thwarted by existing protection mechanisms; the model completion (MC) attack is difficult to be prevented, which calls for more advanced MC-targeted protection mechanisms. Based on our evaluation results, we offer concrete advice on improving the privacy-preserving capability of VFL systems.
翻訳日:2022-09-12 10:38:25 公開日:2022-09-09