このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220509となっている論文です。

PDF登録状況(公開日: 20220509)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 学習スパイクニューロンをエミュレートする分子システム

Programming molecular systems to emulate a learning spiking neuron ( http://arxiv.org/abs/2206.02519v1 )

ライセンス: CC BY 4.0
Jakub Fil, Neil Dalchau, Dominique Chu(参考訳) ヘビアン理論は、脳のニューロンが刺激にどのように適応し、学習を可能にするかを説明する。 ヘビー学習の興味深い特徴は、教師なしの方法であり、フィードバックを必要とせず、システムが自律的に学習しなければならない状況に適していることである。 本稿では,このような先駆的知的行動を示す分子システムを設計し,任意の数の入力チャネルにまたがって自律的なヒュービアン学習を示す最初の化学反応ネットワーク (crn) を提案する。 このシステムはスパイキングニューロンをエミュレートし,入力の統計的バイアスを学習できることを実証する。 基本的なCRNは、そのエネルギー要求に対して分析できる最小限の、熱力学的に可塑性なマイクロ可逆性化学方程式である。 しかし,このような化学系がどのように設計されるかを検討するために,酵素による区画化反応に基づく拡張版も提案する。 最後に、DNA鎖の変位のパラダイムに基づいて構築された純粋なDNAシステムが、神経力学を実現する方法を示す。 私たちの分析は、生物環境における自律学習を探求するための説得力のある青写真を提供し、本物の合成生物知能の実現に近づいています。

Hebbian theory seeks to explain how the neurons in the brain adapt to stimuli, to enable learning. An interesting feature of Hebbian learning is that it is an unsupervised method and as such, does not require feedback, making it suitable in contexts where systems have to learn autonomously. This paper explores how molecular systems can be designed to show such proto-intelligent behaviours, and proposes the first chemical reaction network (CRN) that can exhibit autonomous Hebbian learning across arbitrarily many input channels. The system emulates a spiking neuron, and we demonstrate that it can learn statistical biases of incoming inputs. The basic CRN is a minimal, thermodynamically plausible set of micro-reversible chemical equations that can be analysed with respect to their energy requirements. However, to explore how such chemical systems might be engineered de novo, we also propose an extended version based on enzyme-driven compartmentalised reactions. Finally, we also show how a purely DNA system, built upon the paradigm of DNA strand displacement, can realise neuronal dynamics. Our analysis provides a compelling blueprint for exploring autonomous learning in biological settings, bringing us closer to realising real synthetic biological intelligence.
翻訳日:2022-06-13 00:11:09 公開日:2022-05-09
# (参考訳) 教育におけるAIのための透明性指標フレームワーク [全文訳有]

A Transparency Index Framework for AI in Education ( http://arxiv.org/abs/2206.03220v1 )

ライセンス: CC BY-SA 4.0
Muhammad Ali Chaudhry, Mutlu Cukurova, Rose Luckin(参考訳) 多くのAI倫理チェックリストとフレームワークが、公正性、説明可能性、安全性といった倫理的AIのさまざまな側面に焦点を当てて提案されている。 しかし、現実世界の教育シナリオのために透明なaiシステムを開発する作業は行われていない。 本稿では、教育におけるAIの様々な利害関係者と反復的に共同設計された透明性指標フレームワークを提案する。 教育におけるAIの利害関係者のさまざまなカテゴリに対する透明性の要件をマップし、データ収集段階からAIシステムが現実世界にデプロイされ、反復的に改善されるまで、透明性の考慮事項がAI開発プロセス全体に組み込まれていることを示す。 また、透明性が、解釈可能性、説明責任、安全性など、他の倫理的なai次元を教育においてどのように実装できるかを実証する。 この新たな分野における今後の研究の方向性について論じる。 この研究の主な貢献は、AIを活用した教育技術開発における透明性の重要性を強調し、教育におけるAIの概念化のための指標フレームワークを提案することである。

Numerous AI ethics checklists and frameworks have been proposed focusing on different dimensions of ethical AI such as fairness, explainability, and safety. Yet, no such work has been done on developing transparent AI systems for real-world educational scenarios. This paper presents a Transparency Index framework that has been iteratively co-designed with different stakeholders of AI in education, including educators, ed-tech experts, and AI practitioners. We map the requirements of transparency for different categories of stakeholders of AI in education and demonstrate that transparency considerations are embedded in the entire AI development process from the data collection stage until the AI system is deployed in the real world and iteratively improved. We also demonstrate how transparency enables the implementation of other ethical AI dimensions in Education like interpretability, accountability, and safety. In conclusion, we discuss the directions for future research in this newly emerging field. The main contribution of this study is that it highlights the importance of transparency in developing AI-powered educational technologies and proposes an index framework for its conceptualization for AI in education.
翻訳日:2022-06-13 00:10:04 公開日:2022-05-09
# M3ED:マルチモーダルマルチシーンマルチラベル感情対話データベース

M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database ( http://arxiv.org/abs/2205.10237v1 )

ライセンス: Link先を確認
Jinming Zhao, Tenggan Zhang, Jingwen Hu, Yuchen Liu, Qin Jin, Xinchao Wang, Haizhou Li(参考訳) 話者の感情状態は、対話シーン、対話トピック、対話者間の刺激など、対話における様々な要因に影響される可能性がある。 しかし、対話におけるマルチモーダルな感情分析をサポートするために現在利用可能なデータリソースは、規模と多様性に制限がある。 本研究では,56種類のテレビシリーズから990種類の感情対話,9,082回転,24,449発の音声を含むマルチモーダルマルチステージマルチラベル感情対話データセットM3EDを提案する。 M3 EDは7つの感情カテゴリー(幸福、驚き、悲しみ、嫌悪、怒り、恐怖、中立)を発話レベルでアノテートし、音響的、視覚的、テキスト的モダリティを包含する。 我々の知る限り、M3EDは中国語における最初のマルチモーダル感情対話データセットである。 文化横断的な感情分析や認識に有用である。 M3EDデータセットにいくつかの最先端手法を適用し、データセットの有効性と品質を検証する。 また、感情認識のための対話コンテキストをモデル化する汎用マルチモーダル対話対応インタラクションフレームワークであるMDIを提案し、M3EDの最先端手法に匹敵する性能を実現する。 完全なデータセットとコードは利用可能だ。

The emotional state of a speaker can be influenced by many different factors in dialogues, such as dialogue scene, dialogue topic, and interlocutor stimulus. The currently available data resources to support such multimodal affective analysis in dialogues are however limited in scale and diversity. In this work, we propose a Multi-modal Multi-scene Multi-label Emotional Dialogue dataset, M3ED, which contains 990 dyadic emotional dialogues from 56 different TV series, a total of 9,082 turns and 24,449 utterances. M3 ED is annotated with 7 emotion categories (happy, surprise, sad, disgust, anger, fear, and neutral) at utterance level, and encompasses acoustic, visual, and textual modalities. To the best of our knowledge, M3ED is the first multimodal emotional dialogue dataset in Chinese. It is valuable for cross-culture emotion analysis and recognition. We apply several state-of-the-art methods on the M3ED dataset to verify the validity and quality of the dataset. We also propose a general Multimodal Dialogue-aware Interaction framework, MDI, to model the dialogue context for emotion recognition, which achieves comparable performance to the state-of-the-art methods on the M3ED. The full dataset and codes are available.
翻訳日:2022-05-29 20:36:40 公開日:2022-05-09
# (参考訳) 逆行性攻撃画像の検出と浄化に関するBtech論文報告

Btech thesis report on adversarial attack detection and purification of adverserially attacked images ( http://arxiv.org/abs/2205.07859v1 )

ライセンス: CC BY 4.0
Dvij Kalaria(参考訳) これはbtech論文で 有害な攻撃された画像の検出と浄化に関する論文です ディープラーニングモデルは、分類や回帰など、さまざまなタスクのトレーニング例に基づいてトレーニングされる。 トレーニングにより、モデルが特定のメトリックで判断されるトレーニング例だけでなく、一般的にテストデータと呼ばれる他の未知の例を一般化する優れた能力を持つように、重み付けが調整される。 機械学習モデルが幅広いタスクで大きく成功しているにもかかわらず、セキュリティは長年にわたってずっと注目を集めていない。 さまざまな潜在的なサイバー攻撃に対する堅牢性も、マシンラーニングモデルの精度の指標となるべきです。 これらのサイバー攻撃は、医療や交通システムなど機械学習が使用される現実世界のセンシティブなアプリケーションに様々なネガティブな影響をもたらす可能性がある。 したがって、このような攻撃からシステムを保護する必要がある。 本報告では, 対人攻撃と呼ばれるサイバー攻撃のクラスに注目し, 元の入力サンプルを小さな摂動によって修正し, 視覚的に人間と同一に見えるが, 機械学習モデルはそのような入力に騙される。 本稿では,AutoEncoders を用いた敵攻撃に対抗する2つの新しい方法について論じる。 1) 敵の存在を検出して 2)これらの敵を清浄し、標的分類モデルをこのような攻撃に対して堅牢にする。

This is Btech thesis report on detection and purification of adverserially attacked images. A deep learning model is trained on certain training examples for various tasks such as classification, regression etc. By training, weights are adjusted such that the model performs the task well not only on training examples judged by a certain metric but has an excellent ability to generalize on other unseen examples as well which are typically called the test data. Despite the huge success of machine learning models on a wide range of tasks, security has received a lot less attention along the years. Robustness along various potential cyber attacks also should be a metric for the accuracy of the machine learning models. These cyber attacks can potentially lead to a variety of negative impacts in the real world sensitive applications for which machine learning is used such as medical and transportation systems. Hence, it is a necessity to secure the system from such attacks. Int this report, I focus on a class of these cyber attacks called the adversarial attacks in which the original input sample is modified by small perturbations such that they still look visually the same to human beings but the machine learning models are fooled by such inputs. In this report I discuss 2 novel ways to counter the adversarial attack using AutoEncoders, 1) by detecting the presence of adversaries and 2) purifying these adversaries to make target classification models robust against such attacks.
翻訳日:2022-05-22 14:45:13 公開日:2022-05-09
# (参考訳) adacap:フィードフォワードニューラルネットワークのための適応キャパシティ制御 [全文訳有]

AdaCap: Adaptive Capacity control for Feed-Forward Neural Networks ( http://arxiv.org/abs/2205.07860v1 )

ライセンス: CC BY 4.0
Katia Meziani, Karim Lounici, Benjamin Riu(参考訳) MLモデルの容量は、このモデルが近似できる関数の範囲を指す。 モデルが学習できるパターンの複雑さだけでなく、モデルが任意のラベルに適合する能力の記憶にも影響します。 本稿では、フィードフォワードニューラルネットワーク(FFNN)のトレーニングスキームであるAdaptive Capacity(AdaCap)を提案する。 AdaCapはFFNNのキャパシティを最適化し、トレーニングデータセットを記憶することなく、問題の根底にある高レベルの抽象表現をキャプチャする。 AdaCapは2つの新しい材料、Muddling labels for Regularization (MLR) LosとTikhonovオペレーターのトレーニングスキームの組み合わせである。 mlr損失はランダムに生成されたラベルを利用してモデルが記憶する傾向を定量化する。 我々は、MLR損失がサンプル外一般化性能の精度の高いインサンプル推定器であることを証明し、信号対雑音比条件を満たす場合、ハイパーパラメータ最適化に使用できることを示した。 Tikhonov演算子トレーニングスキームは、適応的で微分可能でデータ依存的な方法でFFNNの容量を変調する。 我々は、DNNが暗記や小さな表のデータセットに傾向のある環境でAdaCapの有効性を評価し、その性能を一般的な機械学習手法と比較する。

The capacity of a ML model refers to the range of functions this model can approximate. It impacts both the complexity of the patterns a model can learn but also memorization, the ability of a model to fit arbitrary labels. We propose Adaptive Capacity (AdaCap), a training scheme for Feed-Forward Neural Networks (FFNN). AdaCap optimizes the capacity of FFNN so it can capture the high-level abstract representations underlying the problem at hand without memorizing the training dataset. AdaCap is the combination of two novel ingredients, the Muddling labels for Regularization (MLR) loss and the Tikhonov operator training scheme. The MLR loss leverages randomly generated labels to quantify the propensity of a model to memorize. We prove that the MLR loss is an accurate in-sample estimator for out-of-sample generalization performance and that it can be used to perform Hyper-Parameter Optimization provided a Signal-to-Noise Ratio condition is met. The Tikhonov operator training scheme modulates the capacity of a FFNN in an adaptive, differentiable and data-dependent manner. We assess the effectiveness of AdaCap in a setting where DNN are typically prone to memorization, small tabular datasets, and benchmark its performance against popular machine learning methods.
翻訳日:2022-05-22 14:44:10 公開日:2022-05-09
# (参考訳) 注意が必要か? 機械学習における統合の疫学的・倫理的意味 [全文訳有]

Should attention be all we need? The epistemic and ethical implications of unification in machine learning ( http://arxiv.org/abs/2205.08377v1 )

ライセンス: CC BY 4.0
Nic Fishman, Leif Hancox-Li(参考訳) 「注意は必要なだけ」は機械学習研究の根本的規範となっている。 元々は機械翻訳、トランスフォーマー、そしてそれらを支える注意機構のために設計されたが、今では多くの問題領域で成功している。 トランスフォーマーの明らかにドメインに依存しない成功によって、多くの研究者は、同様のモデルアーキテクチャが視覚、言語、その他の様々なアプリケーションにうまくデプロイできることに興奮しています。 我々は、これらの統合の波の利点とリスクを、疫学と倫理の両面で検討する。 疫学的な側面では、自然科学の一元化を支持する議論の多くは、機械学習のケースに受け継がれなかったり、持たない仮定の下でのみ受け継がれなかったりしている。 統一はまた、移植性、経路依存、方法論的多様性、ブラックボックスの増加に関連するてんかんのリスクも導入する。 倫理面では、疫学的な懸念から生じるリスク、未表現の視点をさらに疎外し、権力の中央集権化、より多くの適用領域にまたがるモデルが少ないことについて議論する。

"Attention is all you need" has become a fundamental precept in machine learning research. Originally designed for machine translation, transformers and the attention mechanisms that underpin them now find success across many problem domains. With the apparent domain-agnostic success of transformers, many researchers are excited that similar model architectures can be successfully deployed across diverse applications in vision, language and beyond. We consider the benefits and risks of these waves of unification on both epistemic and ethical fronts. On the epistemic side, we argue that many of the arguments in favor of unification in the natural sciences fail to transfer over to the machine learning case, or transfer over only under assumptions that might not hold. Unification also introduces epistemic risks related to portability, path dependency, methodological diversity, and increased black-boxing. On the ethical side, we discuss risks emerging from epistemic concerns, further marginalizing underrepresented perspectives, the centralization of power, and having fewer models across more domains of application
翻訳日:2022-05-22 14:10:40 公開日:2022-05-09
# 機械学習を用いた腎移植患者のタクロリムス曝露予測

Predicting tacrolimus exposure in kidney transplanted patients using machine learning ( http://arxiv.org/abs/2205.07858v1 )

ライセンス: Link先を確認
Andrea M. Stor{\aa}s, Anders {\AA}sberg, P{\aa}l Halvorsen, Michael A. Riegler and Inga Str\"umke(参考訳) タクロリムス(Tacrolimus)は、世界中の移植センターにおいて、固形臓器移植後の免疫抑制薬の1つである。 移植臓器の拒絶や重篤な副作用を避けるためには,タクロリムスの治療薬モニタリングが必要である。 しかし, 経験豊富な臨床医であっても, 適切な服用量を見つけることは困難である。 したがって、個々の線量適応のための薬物曝露を正確に推定できるツールは、高い臨床的価値である。 そこで本研究では, 腎移植患者におけるタクロリムス曝露を機械学習を用いて推定する新しい手法を提案する。 我々のモデルは確立された集団薬物動態モデルと同等のレベルの予測誤差を達成するが、より早く開発でき、薬物の薬物動態特性に関する知識も少ない。

Tacrolimus is one of the cornerstone immunosuppressive drugs in most transplantation centers worldwide following solid organ transplantation. Therapeutic drug monitoring of tacrolimus is necessary in order to avoid rejection of the transplanted organ or severe side effects. However, finding the right dose for a given patient is challenging, even for experienced clinicians. Consequently, a tool that can accurately estimate the drug exposure for individual dose adaptions would be of high clinical value. In this work, we propose a new technique using machine learning to estimate the tacrolimus exposure in kidney transplant recipients. Our models achieve predictive errors that are at the same level as an established population pharmacokinetic model, but are faster to develop and require less knowledge about the pharmacokinetic properties of the drug.
翻訳日:2022-05-22 11:19:44 公開日:2022-05-09
# ディープラーニングに基づくテキスト感情マイニングと株式市場との相関に関する研究

Research on the correlation between text emotion mining and stock market based on deep learning ( http://arxiv.org/abs/2205.06675v1 )

ライセンス: Link先を確認
Chenrui Zhang(参考訳) 本稿では,ストックバーなどの金融フォーラムのデータをクロールし,深層学習モデルと組み合わせて感情分析を行う方法について論じる。 本稿では,Bertモデルを用いて金融コーパスをトレーニングし,深セン株価指数を予測する。 最大情報係数 (MIC) の比較研究により, BERTモデルを金融コーパスに適用することにより得られる感情特性が, 株価の変動に反映され, 予測精度を効果的に向上させることができることがわかった。 同時に、深層学習と財務文書を組み合わせることで、詳細な学習を通じて、投資家の感情が株式市場に与える影響のメカニズムをさらに探求し、これは、株式市場の安定性を維持するためのより合理的な政策やガイドラインを、国家規制当局や政策部門が定式化するのに役立ちます。

This paper discusses how to crawl the data of financial forums such as stock bar, and conduct emotional analysis combined with the in-depth learning model. This paper will use the Bert model to train the financial corpus and predict the Shenzhen stock index. Through the comparative study of the maximal information coefficient (MIC), it is found that the emotional characteristics obtained by applying the BERT model to the financial corpus can be reflected in the fluctuation of the stock market, which is conducive to effectively improve the prediction accuracy. At the same time, this paper combines in-depth learning with financial texts to further explore the impact mechanism of investor sentiment on the stock market through in-depth learning, which will help the national regulatory authorities and policy departments to formulate more reasonable policies and guidelines for maintaining the stability of the stock market.
翻訳日:2022-05-22 11:16:23 公開日:2022-05-09
# (参考訳) 米国北東部の農耕後景観における低地低地被覆種の分類とマッピング [全文訳有]

Classification and mapping of low-statured 'shrubland' cover types in post-agricultural landscapes of the US Northeast ( http://arxiv.org/abs/2205.05047v1 )

ライセンス: CC BY 4.0
Michael J Mahoney, Lucas K Johnson, Colin M Beier(参考訳) コンテクスト:新しい植物コミュニティは、ランドスケープを再構築し、研究とスチュワードシップの努力を制限できる土地被覆分類とマッピングの課題を提起する。 アメリカ合衆国北東部では、農業後の景観における二次林ではなく、低木質植生の出現は、フィールドスタディによってよく記録されているが、ランドスケープの観点からはあまり理解されておらず、これらの土地を体系的に研究し管理する能力に制限がある。 目的: 歴史的に稀な低定位被覆型の分類・マッピングにおけるギャップを解消するため, 植生被覆のリモートセンシングと光学的(衛星画像)特性を統合するために, 機械学習とモデルアンサンブル技術を用いて, ニューヨーク州全体で30mの解像度で「低地」分布を予測するモデルを開発した。 まず,1mキャノピー高さモデル(CHM)の分類を行った。 次に,これらの非連続地図を用いて,時系列画像に基づくモデルアンサンブルを訓練し,研究景観全体(nys)の「シュルーブランド」確率を予測する。 結果:CHM面積の約2.5%が低木に分類された。 分類されたCHMでトレーニングされたランドサット予測器を用いたモデルは、低木林と他のカバークラスの識別において、低木(AUC=0.893、実世界のAUC=0.904)を特定するのに有効であり、元のトレーニングデータを超えても定性的に意味のある地図を作成した。 結論: 地上調査の結果,これらの低木分布図とモデルには,野生生物保全,外来種除去,自然気候対策など,多くの研究と管理の応用が期待できる。

Context: Novel plant communities reshape landscapes and pose challenges for land cover classification and mapping that can constrain research and stewardship efforts. In the US Northeast, emergence of low-statured woody vegetation, or 'shrublands', instead of secondary forests in post-agricultural landscapes is well-documented by field studies, but poorly understood from a landscape perspective, which limits the ability to systematically study and manage these lands. Objectives: To address gaps in classification/mappi ng of low-statured cover types where they have been historically rare, we developed models to predict 'shrubland' distributions at 30m resolution across New York State (NYS), using machine learning and model ensembling techniques to integrate remote sensing of structural (airborne LIDAR) and optical (satellite imagery) properties of vegetation cover. We first classified a 1m canopy height model (CHM), derived from a "patchwork" of available LIDAR coverages, to define shrubland presence/absence. Next, these non-contiguous maps were used to train a model ensemble based on temporally-segmented imagery to predict 'shrubland' probability for the entire study landscape (NYS). Results: Approximately 2.5% of the CHM coverage area was classified as shrubland. Models using Landsat predictors trained on the classified CHM were effective at identifying shrubland (test set AUC=0.893, real-world AUC=0.904), in discriminating between shrub/young forest and other cover classes, and produced qualitatively sensible maps, even when extending beyond the original training data. Conclusions: After ground-truthing, we expect these shrubland maps and models will have many research and stewardship applications including wildlife conservation, invasive species mitigation and natural climate solutions.
翻訳日:2022-05-15 03:14:22 公開日:2022-05-09
# (参考訳) 極端画像変換を用いた物体認識における人間と機械のロバスト性 [全文訳有]

Robustness of Humans and Machines on Object Recognition with Extreme Image Transformations ( http://arxiv.org/abs/2205.05167v1 )

ライセンス: CC BY 4.0
Dakarai Crowder and Girik Malik(参考訳) 最近のニューラルネットワークアーキテクチャは、人間の視覚皮質からのデータを説明すると主張している。 しかしながら、彼らの実証されたパフォーマンスは、視覚的なタスクを解決するための低レベル機能の利用に依存しているため、依然として制限されている。 この戦略は、分散/逆データの場合のパフォーマンスを制限する。 一方、人間は抽象概念を学び、極端に画像の歪みの影響を受けない。 人間とネットワークは視覚的なタスクを解決するために驚くほど異なる戦略を採用している。 そこで本研究では,新しい画像変換セットを導入し,物体認識タスクにおける人間とネットワークの評価を行う。 人間は高い精度で物体を認識できる一方で、いくつかの共通ネットワークの性能は急速に低下することがわかった。

Recent neural network architectures have claimed to explain data from the human visual cortex. Their demonstrated performance is however still limited by the dependence on exploiting low-level features for solving visual tasks. This strategy limits their performance in case of out-of-distribution/ adversarial data. Humans, meanwhile learn abstract concepts and are mostly unaffected by even extreme image distortions. Humans and networks employ strikingly different strategies to solve visual tasks. To probe this, we introduce a novel set of image transforms and evaluate humans and networks on an object recognition task. We found performance for a few common networks quickly decreases while humans are able to recognize objects with a high accuracy.
翻訳日:2022-05-15 02:57:43 公開日:2022-05-09
# (参考訳) マスクの裏側:PIIマスクの名前検出におけるデモグラフィックバイアス [全文訳有]

Behind the Mask: Demographic bias in name detection for PII masking ( http://arxiv.org/abs/2205.04505v1 )

ライセンス: CC BY-SA 4.0
Courtney Mansfield, Amandalynne Paullada, Kristen Howell(参考訳) 多くのデータセットには、個人にプライバシーリスクをもたらす個人識別情報(pii)が含まれている。 PIIマスキングは、テキストデータから名前、住所、電話番号などの個人情報を書き換えるのに一般的に用いられる。 現代のPIIマスキングパイプラインのほとんどは、機械学習アルゴリズムを含んでいる。 しかし、これらのシステムは、特定の人口集団の個人が個人情報を暴露するリスクが高いなど、パフォーマンスに異なる可能性がある。 本稿では,3種類の市販PIIマスキングシステムの性能を名前検出とリアクションで評価する。 顧客サービスドメインから名前とテンプレートを使ってデータを生成します。 オープンソースのRoBERTaベースのシステムでは、テストした商用モデルよりも相違が少ないことが分かりました。 しかし、全てのシステムは人口統計に基づく誤差率の顕著な違いを示している。 特に、ブラック・アンド・アジア・太平洋諸島の個人に最も高いエラー率があった。

Many datasets contain personally identifiable information, or PII, which poses privacy risks to individuals. PII masking is commonly used to redact personal information such as names, addresses, and phone numbers from text data. Most modern PII masking pipelines involve machine learning algorithms. However, these systems may vary in performance, such that individuals from particular demographic groups bear a higher risk for having their personal information exposed. In this paper, we evaluate the performance of three off-the-shelf PII masking systems on name detection and redaction. We generate data using names and templates from the customer service domain. We find that an open-source RoBERTa-based system shows fewer disparities than the commercial models we test. However, all systems demonstrate significant differences in error rate based on demographics. In particular, the highest error rates occurred for names associated with Black and Asian/Pacific Islander individuals.
翻訳日:2022-05-15 02:49:14 公開日:2022-05-09
# (参考訳) PinnerFormer:Pintere stのユーザ表現のためのシーケンスモデリング [全文訳有]

PinnerFormer: Sequence Modeling for User Representation at Pinterest ( http://arxiv.org/abs/2205.04507v1 )

ライセンス: CC BY 4.0
Nikil Pancha, Andrew Zhai, Jure Leskovec, Charles Rosenberg(参考訳) 過去数年間、パーソナライズされたレコメンデーションシステムを動かすために、シーケンシャルモデルがますます人気になっている。 これらのアプローチは伝統的にwebサイトのユーザのアクションを、ユーザの次のアクションを予測するシーケンスとしてモデル化する。 理論的には単純だが、運用環境でのデプロイは極めて困難であり、一般的には、最新のユーザアクティビティを反映したストリーミングインフラストラクチャと、ユーザの隠れた状態をエンコードするための変更可能なデータ管理が必要になる。 本稿では、ユーザの最近のアクションの逐次モデルを用いて、ユーザの長期的な関与を予測するようにトレーニングされたユーザ表現であるpinnerformerを紹介する。 従来のアプローチとは異なり、我々は新しい密集した全アクション損失を通じてバッチインフラストラクチャにモデリングを適用し、次のアクション予測の代わりに長期的なアクションをモデル化します。 その結果,1日に1回発生するバッチユーザ埋め込みと,ユーザがアクションを行うたびに発生するリアルタイムユーザ埋め込みとの間には,大きなギャップがあることが判明した。 Pinterestのユーザ保持とエンゲージメントの大幅な改善を示すA/B実験において、PinnerFormerとこれまでのユーザ表現との比較において、当社のアプローチの有効性を検証する。 PinnerFormerは2021年秋に運用が開始された。

Sequential models have become increasingly popular in powering personalized recommendation systems over the past several years. These approaches traditionally model a user's actions on a website as a sequence to predict the user's next action. While theoretically simplistic, these models are quite challenging to deploy in production, commonly requiring streaming infrastructure to reflect the latest user activity and potentially managing mutable data for encoding a user's hidden state. Here we introduce PinnerFormer, a user representation trained to predict a user's future long-term engagement using a sequential model of a user's recent actions. Unlike prior approaches, we adapt our modeling to a batch infrastructure via our new dense all-action loss, modeling long-term future actions instead of next action prediction. We show that by doing so, we significantly close the gap between batch user embeddings that are generated once a day and realtime user embeddings generated whenever a user takes an action. We describe our design decisions via extensive offline experimentation and ablations and validate the efficacy of our approach in A/B experiments showing substantial improvements in Pinterest's user retention and engagement when comparing PinnerFormer against our previous user representation. PinnerFormer is deployed in production as of Fall 2021.
翻訳日:2022-05-15 02:35:27 公開日:2022-05-09
# (参考訳) ultrareal-gan:semi-s upervised representation learning via ganによる異種疾患関連イメージングパターンの解明 [全文訳有]

Surreal-GAN:Semi-Sup ervised Representation Learning via GAN for uncovering heterogeneous disease-related imaging patterns ( http://arxiv.org/abs/2205.04523v1 )

ライセンス: CC BY 4.0
Zhijian Yang, Junhao Wen, Christos Davatzikos(参考訳) 多くの機械学習手法が画像データに応用され、臨床に関係のある神経学的および神経精神医学的な疾患の画像署名の構築を可能にした。 多くの場合、そのような手法は疾患効果の不均一性を明示的にモデル化したり、解釈不可能な非線形モデルを通してアプローチしたりしない。 さらに、教師なしの手法は、関心の病理に関連する異質性ではなく、脳の構造や機能に影響を与えるニュアサンス結合因子によって引き起こされる異質性を解析することができる。 一方,半教師付きクラスタリング法は,疾患が空間的にも時間的にも連続体に沿って延在するという事実を無視して,dichotomousサブタイプメンバシップを導出しようとする。 本稿では,Surreal-GAN(Semi-SU peRvised ReprEsentAtion Learning via GAN)と呼ばれる新しい手法を提案する。 半教師付きクラスタリング(正常な制御から患者へのクラスターマッピング)の原則に基づいて,超現実的画像データを用いて疾患関連不均質性を解剖し,連続的な次元表現を提案し,各次元に沿って各疾患の重症度を推定する。 モデルはまず、正規制御(CN)ドメインから患者(PT)ドメインへの変換関数を学習し、潜在変数が変換方向を制御する。 また, 機能連続性, パターン直交性, 単調性の正則化とともに, 変換関数が臨床的意義のある有意義な画像パターンを確実に捉えるために, 逆写像関数を課した。 まず, 広範囲な半合成実験により本モデルの有効性を検証し, アルツハイマー病 (AD) における生物学的にもっともらしい画像パターンを捉えた。

A plethora of machine learning methods have been applied to imaging data, enabling the construction of clinically relevant imaging signatures of neurological and neuropsychiatric diseases. Oftentimes, such methods don't explicitly model the heterogeneity of disease effects, or approach it via nonlinear models that are not interpretable. Moreover, unsupervised methods may parse heterogeneity that is driven by nuisance confounding factors that affect brain structure or function, rather than heterogeneity relevant to a pathology of interest. On the other hand, semi-supervised clustering methods seek to derive a dichotomous subtype membership, ignoring the truth that disease heterogeneity spatially and temporally extends along a continuum. To address the aforementioned limitations, herein, we propose a novel method, termed Surreal-GAN (Semi-SUpeRvised ReprEsentAtion Learning via GAN). Using cross-sectional imaging data, Surreal-GAN dissects underlying disease-related heterogeneity under the principle of semi-supervised clustering (cluster mappings from normal control to patient), proposes a continuously dimensional representation, and infers the disease severity of patients at individual level along each dimension. The model first learns a transformation function from normal control (CN) domain to the patient (PT) domain with latent variables controlling transformation directions. An inverse mapping function together with regularization on function continuity, pattern orthogonality and monotonicity was also imposed to make sure that the transformation function captures necessarily meaningful imaging patterns with clinical significance. We first validated the model through extensive semi-synthetic experiments, and then demonstrate its potential in capturing biologically plausible imaging patterns in Alzheimer's disease (AD).
翻訳日:2022-05-15 02:16:14 公開日:2022-05-09
# (参考訳) アルゴリズムシステムのためのマルチstakeholder value-based assessment frameworkに向けて

Towards a multi-stakeholder value-based assessment framework for algorithmic systems ( http://arxiv.org/abs/2205.04525v1 )

ライセンス: CC BY 4.0
Mireia Yurrita, Dave Murray-Rust, Agathe Balayn, Alessandro Bozzon(参考訳) 機械学習駆動(ML)システムを規制するために、現在の監査プロセスは主に有害なアルゴリズムバイアスを検出することに焦点を当てている。 これらの戦略は影響があることが証明されているが、ML駆動システムにおける倫理を扱う文書に概説されているいくつかの価値は、監査プロセスにおいてまだ不足している。 このような未適応な値は、簡単に定量化できない文脈的要因を主に扱う。 本稿では,バイアス監査に限らず,アルゴリズムシステムに対する著名な倫理的原則をカバーする価値ベースの評価フレームワークを開発した。 我々の枠組みは、共通のモチベーションと潜在的な緊張を明示する2つの双極性次元を持つ値の円形配列を示す。 これらの高レベルの原則を運用するために、価値を特定の基準とマニフェストに分割する。 しかしながら、これらの価値特有な基準のいくつかは相互排他的であり、交渉を必要とする。 ML研究者や実践者の入力にのみ依存する他の監査フレームワークとは対照的に、価値と基準緊張を体系的に交渉・統合するための多様な視点を示す利害関係者を含める必要があると論じる。 そのために、ステークホルダーを異なる洞察のニーズでマッピングし、価値のマニフェストを伝えるための適切な手段を割り当てます。 したがって、我々は、価値間の近さと緊張を可視化するアセスメントフレームワークを用いて、現在のML監査の実践に貢献し、それらの運用方法に関するガイドラインを提示するとともに、幅広い利害関係者に評価と検討プロセスを開放する。

In an effort to regulate Machine Learning-driven (ML) systems, current auditing processes mostly focus on detecting harmful algorithmic biases. While these strategies have proven to be impactful, some values outlined in documents dealing with ethics in ML-driven systems are still underrepresented in auditing processes. Such unaddressed values mainly deal with contextual factors that cannot be easily quantified. In this paper, we develop a value-based assessment framework that is not limited to bias auditing and that covers prominent ethical principles for algorithmic systems. Our framework presents a circular arrangement of values with two bipolar dimensions that make common motivations and potential tensions explicit. In order to operationalize these high-level principles, values are then broken down into specific criteria and their manifestations. However, some of these value-specific criteria are mutually exclusive and require negotiation. As opposed to some other auditing frameworks that merely rely on ML researchers' and practitioners' input, we argue that it is necessary to include stakeholders that present diverse standpoints to systematically negotiate and consolidate value and criteria tensions. To that end, we map stakeholders with different insight needs, and assign tailored means for communicating value manifestations to them. We, therefore, contribute to current ML auditing practices with an assessment framework that visualizes closeness and tensions between values and we give guidelines on how to operationalize them, while opening up the evaluation and deliberation process to a wide range of stakeholders.
翻訳日:2022-05-15 01:39:38 公開日:2022-05-09
# (参考訳) 選択的にコンテクストなバンディット [全文訳有]

Selectively Contextual Bandits ( http://arxiv.org/abs/2205.04528v1 )

ライセンス: CC BY 4.0
Claudia Roberts and Maria Dimakopoulou and Qifeng Qiao and Ashok Chandrashekhar and Tony Jebara(参考訳) 文脈帯は産業パーソナライズシステムで広く使われている。 これらのオンライン学習フレームワークは、ユーザの観察した文脈的特徴と異なる治療効果の存在下で、治療課題ポリシーを学習する。 パーソナライゼーションは個人の関心を反映したリッチなユーザエクスペリエンスを生み出すが、コミュニティ全体で共有エクスペリエンスの利点があり、セグジストへの参加を可能にする。 このような利点はネットワーク効果によって発生し、典型的には帯域幅の評価に使用される後悔の指標では捉えられない。 これらのニーズのバランスをとるために,我々はパーソナライゼーションのメリットを保ちつつ,ユーザ間の治療の共通性を高める新しいオンライン学習アルゴリズムを提案する。 本手法はコンテキストバンディットアルゴリズムとコンテキストフリーマルチアームバンディットを選択的に補間し,有意な利益が期待できる場合に限り,治療決定にコンテキスト情報を活用する。 パーソナライズシステムの利用者が個別化と共有のバランスをとるのを助けることとは別に、コンテキストに選択的に依存させることで治療課題ポリシーを簡素化することは、場合によっては学習率の向上に寄与する。 我々は,公開データセットを用いた分類環境でのアプローチを評価し,ハイブリッドポリシーの利点を示す。

Contextual bandits are widely used in industrial personalization systems. These online learning frameworks learn a treatment assignment policy in the presence of treatment effects that vary with the observed contextual features of the users. While personalization creates a rich user experience that reflect individual interests, there are benefits of a shared experience across a community that enable participation in the zeitgeist. Such benefits are emergent through network effects and are not captured in regret metrics typically employed in evaluating bandits. To balance these needs, we propose a new online learning algorithm that preserves benefits of personalization while increasing the commonality in treatments across users. Our approach selectively interpolates between a contextual bandit algorithm and a context-free multi-arm bandit and leverages the contextual information for a treatment decision only if it promises significant gains. Apart from helping users of personalization systems balance their experience between the individualized and shared, simplifying the treatment assignment policy by making it selectively reliant on the context can help improve the rate of learning in some cases. We evaluate our approach in a classification setting using public datasets and show the benefits of the hybrid policy.
翻訳日:2022-05-15 01:37:58 公開日:2022-05-09
# (参考訳) ニューラルイメージ分類器のロバスト性に周波数バイアスはどのように影響するか? [全文訳有]

How Does Frequency Bias Affect the Robustness of Neural Image Classifiers against Common Corruption and Adversarial Perturbations? ( http://arxiv.org/abs/2205.04533v1 )

ライセンス: CC BY 4.0
Alvin Chan, Yew-Soon Ong, Clement Tan(参考訳) モデルロバスト性は、現実世界のアプリケーションに機械学習モデルの信頼性の高いデプロイに不可欠である。 近年の研究では、データの強化は低周波領域の特徴を過大にモデル化し、低周波破壊に対する性能を犠牲にし、周波数とロバスト性の関係を強調している。 ここでは、ジャコビアンのレンズを通してモデルの周波数バイアスとモデルロバスト性との関係をより直接的に研究するために、さらに一歩踏み出す。 これを実現するために、モデルのヤコビアンに対して低周波成分の比が大きいようにヤコビアン周波数正規化を提案する。 4つの画像データセットを用いた実験により,低(高)周波成分に対する偏りの偏りは,低(高)周波成分に対する高い(低)周波汚損と逆方向の摂動に対する性能向上をもたらすことが示された。 我々の手法は、深層学習モデルの周波数バイアスとロバスト性の間のより直接的な関係を解明する。

Model robustness is vital for the reliable deployment of machine learning models in real-world applications. Recent studies have shown that data augmentation can result in model over-relying on features in the low-frequency domain, sacrificing performance against low-frequency corruptions, highlighting a connection between frequency and robustness. Here, we take one step further to more directly study the frequency bias of a model through the lens of its Jacobians and its implication to model robustness. To achieve this, we propose Jacobian frequency regularization for models' Jacobians to have a larger ratio of low-frequency components. Through experiments on four image datasets, we show that biasing classifiers towards low (high)-frequency components can bring performance gain against high (low)-frequency corruption and adversarial perturbation, albeit with a tradeoff in performance for low (high)-frequency corruption. Our approach elucidates a more direct connection between the frequency bias and robustness of deep learning models.
翻訳日:2022-05-15 01:23:22 公開日:2022-05-09
# (参考訳) Nested Justification Systems (フルバージョン)について

On Nested Justification Systems (full version) ( http://arxiv.org/abs/2205.04541v1 )

ライセンス: CC BY 4.0
Simon Marynissen, Jesse Heyninck, Bart Bogaerts, Marc Denecker(参考訳) 正当化理論は、説明可能性の高い規則に基づく言語の意味論を定義するための一般的な枠組みである。 Deneckerらによって最初に導入されたNested Justification System (2015)は、正当化システムを構成することができる。 このネストの概念は、規則に基づく言語のセマンティクスのモジュラー定義を可能にし、正当化理論の表現能力を高める。 本稿で示すように、ネストされた正当化システムの本来の意味論は、説明に関する情報の喪失につながる。 この問題を考慮し、ネストされた正当化システムの意味論の代替的特徴付けを行い、この特徴付けが元の意味論と等価であることを示す。 さらに、ネストされた正当化システムがフィクスポイント定義をどのように表現できるかを示す(hou と denecker 2009)。

Justification theory is a general framework for the definition of semantics of rule-based languages that has a high explanatory potential. Nested justification systems, first introduced by Denecker et al. (2015), allow for the composition of justification systems. This notion of nesting thus enables the modular definition of semantics of rule-based languages, and increases the representational capacities of justification theory. As we show in this paper, the original semantics for nested justification systems lead to the loss of information relevant for explanations. In view of this problem, we provide an alternative characterization of semantics of nested justification systems and show that this characterization is equivalent to the original semantics. Furthermore, we show how nested justification systems allow representing fixpoint definitions (Hou and Denecker 2009).
翻訳日:2022-05-15 01:04:10 公開日:2022-05-09
# (参考訳) 類型分類器のガロア理論 [全文訳有]

Galois theory for analogical classifiers ( http://arxiv.org/abs/2205.04593v1 )

ライセンス: CC BY 4.0
Miguel Couceiro, Erkko Lehtonen(参考訳) 解析的比例は「A は B に、C は D に、A は B に、という四項関係である。 最近の研究は、そのような関係が類似推論と呼ばれる特定の形の推論を支持できるという事実を強調している。 この推論機構は、いくつかの推論や分類タスクにおいて有効であることが実証的に証明された。 後者の場合、類似保存の概念に依存している。 本稿では、類似の形式モデルと類似保存関数の対応するクラスとの関係を考察し、類似分類器のガロア理論を確立する。 我々は,このガロアフレームワークがブール領域上で有用であることを示すとともに,その類型化器の閉集合,すなわち,類型推論と適合する類型化器を,ブール領域の各対に対して明示的に決定する。

Analogical proportions are 4-ary relations that read "A is to B as C is to D". Recent works have highlighted the fact that such relations can support a specific form of inference, called analogical inference. This inference mechanism was empirically proved to be efficient in several reasoning and classification tasks. In the latter case, it relies on the notion of analogy preservation. In this paper, we explore this relation between formal models of analogy and the corresponding classes of analogy preserving functions, and we establish a Galois theory of analogical classifiers. We illustrate the usefulness of this Galois framework over Boolean domains, and we explicitly determine the closed sets of analogical classifiers, i.e., classifiers that are compatible with the analogical inference, for each pair of Boolean analogies.
翻訳日:2022-05-15 01:03:13 公開日:2022-05-09
# (参考訳) 生地はいつベーグルになるのですか。 ImageNetの残りのミスの分析 [全文訳有]

When does dough become a bagel? Analyzing the remaining mistakes on ImageNet ( http://arxiv.org/abs/2205.04596v1 )

ライセンス: CC BY 4.0
Vijay Vasudevan, Benjamin Caine, Raphael Gontijo-Lopes, Sara Fridovich-Keil, Rebecca Roelofs(参考訳) imagenetデータセットの画像分類精度は、過去10年間、コンピュータビジョンの進歩のバロメーターだった。 最近のいくつかの論文は、ベンチマークがコミュニティにどのように役立つか疑問視しているが、今日の最大モデルが90%以上のtop-1精度を達成し、イノベーションはパフォーマンスの向上に貢献し続けている。 ImageNetの進捗のコンテキスト化を支援し、今日の最先端モデルに対してより有意義な評価を提供するために、コンピュータビジョンにおいて最もベンチマークされたデータセットの1つにおいて、エラーの長い範囲に関する洞察を提供するために、いくつかのトップモデルが行う残りのすべての誤りを手作業でレビューし、分類します。 我々は、imagenetのマルチラベルサブセット評価に焦点を当て、今日のベストモデルが最大97%のtop-1精度を達成する。 分析の結果、想定されるミスの半数近くは誤りではないことが判明し、新しい有効な複数ラベルを発見し、慎重にレビューすることなく、これらのモデルの性能を著しく過小評価していることが判明した。 一方で、今日の最良のモデルは、人間のレビュアーにとって明らかに間違っている、かなりの数の誤り(40%)をまだ犯していることも分かりました。 ImageNetの今後の進歩を校正するために、更新されたマルチラベル評価セットを提供し、ImageNet-Majorをキュレートします。

Image classification accuracy on the ImageNet dataset has been a barometer for progress in computer vision over the last decade. Several recent papers have questioned the degree to which the benchmark remains useful to the community, yet innovations continue to contribute gains to performance, with today's largest models achieving 90%+ top-1 accuracy. To help contextualize progress on ImageNet and provide a more meaningful evaluation for today's state-of-the-art models, we manually review and categorize every remaining mistake that a few top models make in order to provide insight into the long-tail of errors on one of the most benchmarked datasets in computer vision. We focus on the multi-label subset evaluation of ImageNet, where today's best models achieve upwards of 97% top-1 accuracy. Our analysis reveals that nearly half of the supposed mistakes are not mistakes at all, and we uncover new valid multi-labels, demonstrating that, without careful review, we are significantly underestimating the performance of these models. On the other hand, we also find that today's best models still make a significant number of mistakes (40%) that are obviously wrong to human reviewers. To calibrate future progress on ImageNet, we provide an updated multi-label evaluation set, and we curate ImageNet-Major: a 68-example "major error" slice of the obvious mistakes made by today's top models -- a slice where models should achieve near perfection, but today are far from doing so.
翻訳日:2022-05-15 00:38:20 公開日:2022-05-09
# (参考訳) 物理乱流に対する観測制約付き確率データ駆動モデルの長期安定性と一般化 [全文訳有]

Long-term stability and generalization of observationally-cons trained stochastic data-driven models for geophysical turbulence ( http://arxiv.org/abs/2205.04601v1 )

ライセンス: CC BY 4.0
Ashesh Chattopadhyay, Jaideep Pathak, Ebrahim Nabizadeh, Wahid Bhimji, Pedram Hassanzadeh(参考訳) 近年、気象予報のためのディープラーニングベースの完全なデータ駆動モデルの構築への関心が高まっている。 このような深層学習モデルは、観測に基づいて訓練すれば、現在の最先端気象モデルにおける特定のバイアスを軽減することができる。 しかし、これらのデータ駆動モデルは過パラメータ化されており、再分析(観測データ)製品から利用できない多くのトレーニングデータを必要とする。 さらに、データ駆動の気象モデルで予測を開始するための正確なノイズのない初期条件は、現実的なシナリオでは利用できない。 最後に、決定論的データ駆動予測モデルは長期的な安定性と非物理的気候ドリフトの問題に苦しんでいる。 これらの課題を踏まえて、これまでの研究では、大量の不完全な気候モデルシミュレーションに基づいてディープラーニングベースの天気予報モデルを事前学習し、利用可能な観測データに基づいて再トレーニングしようと試みている。 本稿では,2層の準地質構造流から不完全な気候モデルシミュレーションを事前学習し,遷移学習を用いて,完全シミュレーションから少数のノイズ観測に基づいて再学習する畳み込み変分自動エンコーダに基づく確率的データ駆動モデルを提案する。 この再訓練されたモデルは、完全シミュレーションからサンプリングされたノイズの多い初期条件で確率予測を行う。 我々は,我々のアンサンブルに基づく確率的データ駆動モデルが,短期的スキルの観点から基本決定論的エンコーダに基づく畳み込みモデルよりも優れ,長期的気候シミュレーションでは正確な気候学が得られることを示した。

Recent years have seen a surge in interest in building deep learning-based fully data-driven models for weather prediction. Such deep learning models if trained on observations can mitigate certain biases in current state-of-the-art weather models, some of which stem from inaccurate representation of subgrid-scale processes. However, these data-driven models, being over-parameterized, require a lot of training data which may not be available from reanalysis (observational data) products. Moreover, an accurate, noise-free, initial condition to start forecasting with a data-driven weather model is not available in realistic scenarios. Finally, deterministic data-driven forecasting models suffer from issues with long-term stability and unphysical climate drift, which makes these data-driven models unsuitable for computing climate statistics. Given these challenges, previous studies have tried to pre-train deep learning-based weather forecasting models on a large amount of imperfect long-term climate model simulations and then re-train them on available observational data. In this paper, we propose a convolutional variational autoencoder-based stochastic data-driven model that is pre-trained on an imperfect climate model simulation from a 2-layer quasi-geostrophic flow and re-trained, using transfer learning, on a small number of noisy observations from a perfect simulation. This re-trained model then performs stochastic forecasting with a noisy initial condition sampled from the perfect simulation. We show that our ensemble-based stochastic data-driven model outperforms a baseline deterministic encoder-decoder-base d convolutional model in terms of short-term skills while remaining stable for long-term climate simulations yielding accurate climatology.
翻訳日:2022-05-15 00:15:33 公開日:2022-05-09
# 単純ニューラルネットワークの近似定常点に対する統計的保証

Statistical Guarantees for Approximate Stationary Points of Simple Neural Networks ( http://arxiv.org/abs/2205.04491v1 )

ライセンス: Link先を確認
Mahsa Taheri, Fang Xie, Johannes Lederer(参考訳) ニューラルネットワークの統計的保証は通常、複雑な目的関数の大域的最適に制限されるため、これらの理論が実際にニューラルネットワークパイプラインの実際の出力の性能を説明するかどうかは不明である。 そこで本論文の目的は,統計的理論を実践に近づけることである。 我々は,グローバル最適値と対数的因子に一致する単純なニューラルネットワークの統計的保証を開発するが,静止点や近傍の点に適用する。 これらの結果は、ニューラルネットワークが必ずしも数学的観点からグローバルに最適化される必要はないという一般的な概念を支持する。 より一般的には、今のところは単純なニューラルネットワークに限られているが、我々の理論は、数学的にニューラルネットワークの実用的性質を記述するために一歩前進している。

Since statistical guarantees for neural networks are usually restricted to global optima of intricate objective functions, it is not clear whether these theories really explain the performances of actual outputs of neural-network pipelines. The goal of this paper is, therefore, to bring statistical theory closer to practice. We develop statistical guarantees for simple neural networks that coincide up to logarithmic factors with the global optima but apply to stationary points and the points nearby. These results support the common notion that neural networks do not necessarily need to be optimized globally from a mathematical perspective. More generally, despite being limited to simple neural networks for now, our theories make a step forward in describing the practical properties of neural networks in mathematical terms.
翻訳日:2022-05-12 21:37:27 公開日:2022-05-09
# 機械学習拡散モンテカルロエネルギー密度

Machine Learning Diffusion Monte Carlo Energy Densities ( http://arxiv.org/abs/2205.04547v1 )

ライセンス: Link先を確認
Kevin Ryczko, Jaron T. Krogel, Isaac Tamblyn(参考訳) 本研究では,拡散モンテカルロ(dmc)エネルギーを小さなデータセット(約60 dmc)で予測可能な2つの機械学習手法を提案する。 まず、voxel deep neural networks (vdnns) を用いて、khn-sham密度汎関数理論 (dft) を入力としてdmcエネルギー密度を予測する。 2つ目は、原子中心対称性関数、ANIモデルからの原子環境ベクトル、原子位置の滑らかな重なり)を用いて、DMCの全エネルギーに対する原子寄与を予測するためにカーネルリッジ回帰(KRR)を用いる。 グラフェン格子の手法を最初に比較したところ、KRR法は勾配増進決定木、ランダム森林、ガウス過程回帰、多層パーセプトロンと比較して最適であることがわかった。 さらに、KRRはVDNNよりも桁違いに優れている。 その後,岩盤欠陥に伴うエネルギー障壁を予測するため,KRRの一般化可能性について検討した。 最後に,2次元から3次元へ移動し,KRRを用いて液体水の総エネルギーを予測する。 いずれの場合においても、krrモデルはコーンシャムdftよりも正確であり、全ての絶対誤差は化学的精度よりも低い。

We present two machine learning methodologies which are capable of predicting diffusion Monte Carlo (DMC) energies with small datasets ($\approx$60 DMC calculations in total). The first uses voxel deep neural networks (VDNNs) to predict DMC energy densities using Kohn-Sham density functional theory (DFT) electron densities as input. The second uses kernel ridge regression (KRR) to predict atomic contributions to the DMC total energy using atomic environment vectors as input (we used atom centred symmetry functions, atomic environment vectors from the ANI models, and smooth overlap of atomic positions). We first compare the methodologies on pristine graphene lattices, where we find the KRR methodology performs best in comparison to gradient boosted decision trees, random forest, gaussian process regression, and multilayer perceptrons. In addition, KRR outperforms VDNNs by an order of magnitude. Afterwards, we study the generalizability of KRR to predict the energy barrier associated with a Stone-Wales defect. Lastly, we move from 2D to 3D materials and use KRR to predict total energies of liquid water. In all cases, we find that the KRR models are more accurate than Kohn-Sham DFT and all mean absolute errors are less than chemical accuracy.
翻訳日:2022-05-12 20:57:15 公開日:2022-05-09
# インフォームド・スタイナー木:高次元の多方向経路探索のためのサンプリングとプルーニング

Informed Steiner Trees: Sampling and Pruning for Multi-Goal Path Finding in High Dimensions ( http://arxiv.org/abs/2205.04548v1 )

ライセンス: Link先を確認
Nikhil Chandak, Kenny Chour, Sivakumar Rathinam, R. Ravi(参考訳) 高次元空間における多方向経路探索(mgpf)問題を解くための新しい手法を開発するために,最小スパンディングツリーアルゴリズムを用いたサンプルベース動作計画法とプルーニングアイデアをインターリーブする。 この手法は、探索空間内の選択された領域からのサンプリングポイントと、MGPFのよい解に導かないかもしれない非強調領域との交互に行われる。 MGPF に対する漸近的 2-近似保証を提供する。 また,提案手法による一様サンプリングの利点を,解の質と計算速度の観点から示すために,広範な数値計算結果を提示した。

We interleave sampling based motion planning methods with pruning ideas from minimum spanning tree algorithms to develop a new approach for solving a Multi-Goal Path Finding (MGPF) problem in high dimensional spaces. The approach alternates between sampling points from selected regions in the search space and de-emphasizing regions that may not lead to good solutions for MGPF. Our approach provides an asymptotic, 2-approximation guarantee for MGPF. We also present extensive numerical results to illustrate the advantages of our proposed approach over uniform sampling in terms of the quality of the solutions found and computation speed.
翻訳日:2022-05-12 20:56:53 公開日:2022-05-09
# カタストロフィ結合誘導体の価格設定のための統一ベイズ的枠組み

A Unified Bayesian Framework for Pricing Catastrophe Bond Derivatives ( http://arxiv.org/abs/2205.04520v1 )

ライセンス: Link先を確認
Dixon Domfeh, Arpita Chatterjee, and Matthew Dixon(参考訳) カタストロフィ(CAT)債券市場は不完全であり、機器価格の不確実性がある。 このような様々な価格アプローチが提案されているが、統一資産価格枠組みの中で十分に柔軟で統計的に信頼できる方法で災害発生や金利の不確実性を扱うものはない。 その結果、CAT結合の予想されるリスク前提について、実証的にはほとんど知られていない。 本論文の主な貢献は、カタストロフィと金利の不確実性の定量化に基づく統一ベイズCAT社債価格フレームワークを提案することである。 この枠組みにより, 災害リスクに関する複雑な信念が, 災害発生の特異かつ一般的なパターンを捉えることができ, 確率的利率と組み合わせれば, 有望なリスク予知を伴う統一資産価格のアプローチが得られる。 具体的には、修正された集団リスクモデル(dirichlet prior-hierarchical bayesian collective risk model (dp-hbcrm)フレームワーク)を使用して、モデルベースのクラスタリングアプローチによって、災害リスクをモデル化します。 金利リスクはベイズ的アプローチの下でのCIRプロセスとしてモデル化される。 当社のフレームワークにCAT価格モデルを投入した結果,災害リスクプロファイルのクラスタリングに対応する各種CAT債券契約の価格と期待されるリスクプリミアが評価された。 数値実験により、これらのクラスターが猫の結合価格と予測されるリスクプレミアがクレームの頻度と損失の重大さにどのように関係しているかが明らかになった。

Catastrophe (CAT) bond markets are incomplete and hence carry uncertainty in instrument pricing. As such various pricing approaches have been proposed, but none treat the uncertainty in catastrophe occurrences and interest rates in a sufficiently flexible and statistically reliable way within a unifying asset pricing framework. Consequently, little is known empirically about the expected risk-premia of CAT bonds. The primary contribution of this paper is to present a unified Bayesian CAT bond pricing framework based on uncertainty quantification of catastrophes and interest rates. Our framework allows for complex beliefs about catastrophe risks to capture the distinct and common patterns in catastrophe occurrences, and when combined with stochastic interest rates, yields a unified asset pricing approach with informative expected risk premia. Specifically, using a modified collective risk model -- Dirichlet Prior-Hierarchical Bayesian Collective Risk Model (DP-HBCRM) framework -- we model catastrophe risk via a model-based clustering approach. Interest rate risk is modeled as a CIR process under the Bayesian approach. As a consequence of casting CAT pricing models into our framework, we evaluate the price and expected risk premia of various CAT bond contracts corresponding to clustering of catastrophe risk profiles. Numerical experiments show how these clusters reveal how CAT bond prices and expected risk premia relate to claim frequency and loss severity.
翻訳日:2022-05-12 20:56:44 公開日:2022-05-09
# 量子コンピュータはまだ実用的か? テンソルネットワークを用いた推薦システムにおける特徴選択の事例

Are Quantum Computers Practical Yet? A Case for Feature Selection in Recommender Systems using Tensor Networks ( http://arxiv.org/abs/2205.04490v1 )

ライセンス: Link先を確認
Artyom Nikitin, Andrei Chertkov, Rafael Ballester-Ripoll, Ivan Oseledets, Evgeny Frolov(参考訳) 協調フィルタリングモデルは通常、コンテンツベースのフィルタリングモデルよりもよく機能し、注意深い機能工学を必要としない。 しかし、コールドスタートのシナリオでは、協調情報が不足したり、利用できない場合もあれば、コンテンツ情報が豊富である場合もあります。 したがって、コールドスタートレコメンデーションを改善する特定の機能の選択は重要かつ非自明なタスクとなる。 nembriniらによる最近のアプローチでは、機能選択は協調モデルとコンテンツベースモデルの相関互換性によって推進されている。 この問題はQUBO ( Quadratic Unconstrained Binary Optimization) として定式化され、NPハードな複雑さのため、D-Waveが提供する量子コンピュータ上で量子アニーリングを用いて解かれる。 報告された結果に触発されて、我々は現在の量子アニールがこの問題に勝るという考えを論じ、代わりに古典的なアルゴリズムに焦点をあてる。 特に、テンソルネットワークと多線型代数に基づく最近提案されたブラックボックスオプティマイザであるTTOptを用いてQUBOに取り組む。 本研究では,何千もの特徴を有する大規模問題に対して,この手法の計算可能性を示すとともに,各データ集合のd-waveによる解と同等の解を実証的に示す。

Collaborative filtering models generally perform better than content-based filtering models and do not require careful feature engineering. However, in the cold-start scenario collaborative information may be scarce or even unavailable, whereas the content information may be abundant, but also noisy and expensive to acquire. Thus, selection of particular features that improve cold-start recommendations becomes an important and non-trivial task. In the recent approach by Nembrini et al., the feature selection is driven by the correlational compatibility between collaborative and content-based models. The problem is formulated as a Quadratic Unconstrained Binary Optimization (QUBO) which, due to its NP-hard complexity, is solved using Quantum Annealing on a quantum computer provided by D-Wave. Inspired by the reported results, we contend the idea that current quantum annealers are superior for this problem and instead focus on classical algorithms. In particular, we tackle QUBO via TTOpt, a recently proposed black-box optimizer based on tensor networks and multilinear algebra. We show the computational feasibility of this method for large problems with thousands of features, and empirically demonstrate that the solutions found are comparable to the ones obtained with D-Wave across all examined datasets.
翻訳日:2022-05-12 20:52:58 公開日:2022-05-09
# 逆辞書と定義モデリングのための統一モデル

A Unified Model for Reverse Dictionary and Definition Modelling ( http://arxiv.org/abs/2205.04602v1 )

ライセンス: Link先を確認
Pinzhen Chen, Zheng Zhao(参考訳) 二方向ニューラル辞書を訓練し、定義から単語を推測し(逆辞書)、与えられた単語を生成(定義モデル)する。 提案手法は2つのタスクを同時に学習し,未知の単語を埋め込みで処理する。 単語や定義を共有層を通じて同じ表現空間にキャストし、そこから他の形式をマルチタスク形式で生成する。 このモデルは余分なリソースなしで有望な自動スコアを達成する。 ヒューマンアノテータは、その実用性を示す参照レス評価と参照ベース評価の両方において、提案モデルの出力を好む。 分析は、複数の目的が学習に役立つことを示唆している。

We train a dual-way neural dictionary to guess words from definitions (reverse dictionary), and produce definitions given words (definition modelling). Our method learns the two tasks simultaneously, and handles unknown words via embeddings. It casts a word or a definition to the same representation space through a shared layer, then generates the other form from there, in a multi-task fashion. The model achieves promising automatic scores without extra resources. Human annotators prefer the proposed model's outputs in both reference-less and reference-based evaluation, which indicates its practicality. Analysis suggests that multiple objectives benefit learning.
翻訳日:2022-05-12 19:32:44 公開日:2022-05-09
# タスク指向ダイアログのための教師なしスロットスキーマインダクション

Unsupervised Slot Schema Induction for Task-oriented Dialog ( http://arxiv.org/abs/2205.04515v1 )

ライセンス: Link先を確認
Dian Yu, Mingqiu Wang, Yuan Cao, Izhak Shafran, Laurent El Shafey, Hagen Soltau(参考訳) ダイアログコーパスの収集とアノテート方法を慎重に設計したスキーマは、タスク指向のダイアログシステムを構築するための前提条件である。 実用的なアプリケーションでは、特にスキーマが複雑である場合には、手動でスキーマを設計することはエラーを起こしやすく、手間がかかり、反復的になり、遅くなります。 このコストと時間のかかるプロセスを軽減するため、ラベルなしダイアログコーパスからのスロットスキーマ誘導のための教師なしアプローチを提案する。 ドメイン内言語モデルと教師なし構文構造を利用して、データ駆動型アプローチは制約のない候補スロットを抽出し、続いて粗いクラスタリングによってスロットタイプを誘導する。 提案手法を複数の教師付きベースラインと比較し,MultiWozおよびSGDデータセット上でのスロットスキーマ誘導の性能向上を示す。 また,対話状態追跡や応答生成を含む下流アプリケーションにおける誘導スキーマの有効性を実証する。

Carefully-designed schemas describing how to collect and annotate dialog corpora are a prerequisite towards building task-oriented dialog systems. In practical applications, manually designing schemas can be error-prone, laborious, iterative, and slow, especially when the schema is complicated. To alleviate this expensive and time consuming process, we propose an unsupervised approach for slot schema induction from unlabeled dialog corpora. Leveraging in-domain language models and unsupervised parsing structures, our data-driven approach extracts candidate slots without constraints, followed by coarse-to-fine clustering to induce slot types. We compare our method against several strong supervised baselines, and show significant performance improvement in slot schema induction on MultiWoz and SGD datasets. We also demonstrate the effectiveness of induced schemas on downstream applications including dialog state tracking and response generation.
翻訳日:2022-05-12 18:53:41 公開日:2022-05-09
# Cascaded Epipolar RAFT を用いた多視点ステレオ

Multiview Stereo with Cascaded Epipolar RAFT ( http://arxiv.org/abs/2205.04502v1 )

ライセンス: Link先を確認
Zeyu Ma, Zachary Teed, Jia Deng(参考訳) 複数の校正画像から高密度点雲などの3次元モデルを再構成する重要な3次元視覚課題であるマルチビューステレオ(MVS)に対処する。 CER-MVS (Cascaded Epipolar RAFT Multiview Stereo) は、光学流用RAFT(Recurrent All-Pairs Field Transforms)アーキテクチャに基づく新しいアプローチである。 CER-MVSはRAFTに5つの新しい変更を加えた: エピポーラコストボリューム、コストボリュームカスケード、コストボリュームのマルチビュー融合、動的監視、深度マップのマルチ解像度融合。 CER-MVSは、従来のマルチビューステレオとは大きく異なる。 CER-MVSは3Dコストボリュームを更新して運用する以前の作業とは異なり、不均一フィールドを更新して運用する。 さらに,再構成された点雲の完全性と精度をバランスさせる適応しきい値法を提案する。 実験により,本手法はDTU(既知の結果の中では2番目に高い)の競合性能と,Tants-and-Templesベンチマーク(中間セットと上級セットの両方)の最先端性能を実現することが示された。 コードはhttps://github.com/p rinceton-vl/CER-MVSで入手できる。

We address multiview stereo (MVS), an important 3D vision task that reconstructs a 3D model such as a dense point cloud from multiple calibrated images. We propose CER-MVS (Cascaded Epipolar RAFT Multiview Stereo), a new approach based on the RAFT (Recurrent All-Pairs Field Transforms) architecture developed for optical flow. CER-MVS introduces five new changes to RAFT: epipolar cost volumes, cost volume cascading, multiview fusion of cost volumes, dynamic supervision, and multiresolution fusion of depth maps. CER-MVS is significantly different from prior work in multiview stereo. Unlike prior work, which operates by updating a 3D cost volume, CER-MVS operates by updating a disparity field. Furthermore, we propose an adaptive thresholding method to balance the completeness and accuracy of the reconstructed point clouds. Experiments show that our approach achieves competitive performance on DTU (the second best among known results) and state-of-the-art performance on the Tanks-and-Temples benchmark (both the intermediate and advanced set). Code is available at https://github.com/p rinceton-vl/CER-MVS
翻訳日:2022-05-12 18:47:21 公開日:2022-05-09
# 私の深度は地平線で十分か? HAMMER -- 高精度な3次元シーン回帰用マルチモードデータセット

Is my Depth Ground-Truth Good Enough? HAMMER -- Highly Accurate Multi-Modal Dataset for DEnse 3D Scene Regression ( http://arxiv.org/abs/2205.04565v1 )

ライセンス: Link先を確認
HyunJun Jung, Patrick Ruhkamp, Guangyao Zhai, Nikolas Brasch, Yitong Li, Yannick Verdie, Jifei Song, Yiren Zhou, Anil Armagan, Slobodan Ilic, Ales Leonardis, Benjamin Busam(参考訳) 深度推定は3dコンピュータビジョンのコアタスクである。 各種深度センサを用いた単分子深度学習の課題について検討する。 どのセンサーにも、推定の性質によって生じる利点と欠点がある。 文献では、主に深さの平均誤差を調査し、センサの能力について論じることはない。 しかし、特に屋内環境はいくつかのデバイスに課題をもたらす。 テクスチャレス領域は運動からの構造に挑戦し、反射材料はアクティブセンシングに問題があり、半透明材料の距離は既存のセンサーで測定するのに複雑である。 本稿では,屋内深度推定用センサの奥行き推定値であるtof,ステレオ,構造化光と単眼rgb+pデータを組み合わせたデータ集合であるhammerを提案する。 3dスキャナとアライメントレンダリングの助けを借りて,信頼性の高い地上真理深度マップを構築した。 一般的な深度推定器は、このデータと典型的な深度センサに基づいて訓練されている。 推定値は、異なるシーン構造に基づいて広範囲に分析される。 家庭環境における各種センサ技術から生じる一般化問題には,挑戦的ではあるが日常的なシーンコンテンツが存在する。 私たちが公開しているHAMMERは、目標とする深度改善とセンサ融合アプローチへの道を開くための信頼性の高い基盤を提供します。

Depth estimation is a core task in 3D computer vision. Recent methods investigate the task of monocular depth trained with various depth sensor modalities. Every sensor has its advantages and drawbacks caused by the nature of estimates. In the literature, mostly mean average error of the depth is investigated and sensor capabilities are typically not discussed. Especially indoor environments, however, pose challenges for some devices. Textureless regions pose challenges for structure from motion, reflective materials are problematic for active sensing, and distances for translucent material are intricate to measure with existing sensors. This paper proposes HAMMER, a dataset comprising depth estimates from multiple commonly used sensors for indoor depth estimation, namely ToF, stereo, structured light together with monocular RGB+P data. We construct highly reliable ground truth depth maps with the help of 3D scanners and aligned renderings. A popular depth estimators is trained on this data and typical depth senosors. The estimates are extensively analyze on different scene structures. We notice generalization issues arising from various sensor technologies in household environments with challenging but everyday scene content. HAMMER, which we make publicly available, provides a reliable base to pave the way to targeted depth improvements and sensor fusion approaches.
翻訳日:2022-05-12 18:46:58 公開日:2022-05-09
# 機械学習によるハロー質量プロファイルの起源に関する考察

Insights into the origin of halo mass profiles from machine learning ( http://arxiv.org/abs/2205.04474v1 )

ライセンス: Link先を確認
Luisa Lucie-Smith, Susmita Adhikari and Risa H. Wechsler(参考訳) ダークマターハロースの質量分布は、質量蓄積と合併による初期密度摂動の階層的な成長の結果である。 我々は、解釈可能な機械学習フレームワークを使用して、暗黒物質ハローの球面平均質量プロファイルの起源に関する物理的な洞察を提供する。 勾配ブーストツリーアルゴリズムを訓練し,クラスタサイズのハロインの最終質量プロファイルを予測し,そのアルゴリズムに提供される異なる入力の重要性を計測した。 初期状態(IC)において最終質量プロファイルに影響を及ぼす2つの主要なスケールが見つかる: ハロアのラグランジアンパッチのスケールの密度$R_L$(R\sim 0.7\, R_L$)と、大規模環境(R\sim 1.7~R_L$)である。 このモデルは、最終プロファイルに影響するhaloアセンブリ履歴の3つの主要なタイムスケールも識別する。 (i)ハロ内部のウイルス化した崩壊した物質の形成時期 (II)最初の軌道上のハロの動的に非相対的に降着する成分を捉える動的時間。 (iii)最近の大規模な合併イベントの外形への影響を捉えた、最新の第3のタイムスケール。 内部プロファイルはICのメモリを保持するが、この情報だけでは外部プロファイルの正確な予測には不十分である。 ハロエの大量降着履歴に関する情報を加えると、全ての半径で予測されたプロファイルが大幅に改善される。 我々の機械学習フレームワークは、クラスタサイズのハローの最終質量プロファイルを決定する上でのICの役割と集団集合の歴史に関する新しい知見を提供する。

The mass distribution of dark matter haloes is the result of the hierarchical growth of initial density perturbations through mass accretion and mergers. We use an interpretable machine-learning framework to provide physical insights into the origin of the spherically-averaged mass profile of dark matter haloes. We train a gradient-boosted-tre es algorithm to predict the final mass profiles of cluster-sized haloes, and measure the importance of the different inputs provided to the algorithm. We find two primary scales in the initial conditions (ICs) that impact the final mass profile: the density at approximately the scale of the haloes' Lagrangian patch $R_L$ ($R\sim 0.7\, R_L$) and that in the large-scale environment ($R\sim 1.7~R_L$). The model also identifies three primary time-scales in the halo assembly history that affect the final profile: (i) the formation time of the virialized, collapsed material inside the halo, (ii) the dynamical time, which captures the dynamically unrelaxed, infalling component of the halo over its first orbit, (iii) a third, most recent time-scale, which captures the impact on the outer profile of recent massive merger events. While the inner profile retains memory of the ICs, this information alone is insufficient to yield accurate predictions for the outer profile. As we add information about the haloes' mass accretion history, we find a significant improvement in the predicted profiles at all radii. Our machine-learning framework provides novel insights into the role of the ICs and the mass assembly history in determining the final mass profile of cluster-sized haloes.
翻訳日:2022-05-12 18:16:39 公開日:2022-05-09
# ニューラルネットワークによるハードウェア性能推定によるVPUコンパイラコストの最適モデリング

Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances ( http://arxiv.org/abs/2205.04586v1 )

ライセンス: Link先を確認
Ian Frederick Vigogne Goodbody Hunter, Alessandro Palla, Sebastian Eusebiu Nagy, Richard Richmond and Kyle McAdoo(参考訳) ニューラルネットワークコンパイラで作業の最も効率的なスケジュールを計算するのは難しい作業です。 設定によってそのスケジュールに肯定的あるいは悪影響を及ぼす可能性のあるパラメータはたくさんあります 分散ターゲット間で作業が共有されているか、メモリに収まるテンソルのサブディビジョン、最適化の有効性などです。 従来、ニューラルネットワークコンパイラは、選択のグラフを構築し、最小限の‘コスト’で経路を選択することによって、これらの値の設定方法を決定する。 これらの選択とその対応するコストは、通常、ターゲットプラットフォームの深い知識を持つエンジニアによって作られたアルゴリズムによって決定される。 しかしながら、コンパイラに利用可能なオプションの量が多ければ、これらのモデルが許容可能な時間枠でコンパイルを完了しながら、すべてのシナリオに対して常に最適なスケジュールを生成することを保証することは極めて困難である。 本稿では,低レベルのタスクプロファイリングをトレーニングしたニューラルネットワークベースのコストモデルであるVPUNNについて述べる。

Calculating the most efficient schedule of work in a neural network compiler is a difficult task. There are many parameters to be accounted for that can positively or adversely affect that schedule depending on their configuration - How work is shared between distributed targets, the subdivision of tensors to fit in memory, toggling the enablement of optimizations, etc. Traditionally, neural network compilers determine how to set these values by building a graph of choices and choosing the path with minimal 'cost'. These choices and their corresponding costs are usually determined by an algorithm crafted by engineers with a deep knowledge of the target platform. However, when the amount of options available to a compiler is large, it is very difficult to ensure that these models consistently produce an optimal schedule for all scenarios, whilst still completing compilation in an acceptable timeframe. This paper presents 'VPUNN' - a neural network-based cost model trained on low-level task profiling that consistently outperforms the state-of-the-art cost modeling in Intel's line of VPU processors.
翻訳日:2022-05-12 18:16:10 公開日:2022-05-09
# 安全・重要航空システム検証のための検証フレームワーク

A Verification Framework for Certifying Learning-Based Safety-Critical Aviation Systems ( http://arxiv.org/abs/2205.04590v1 )

ライセンス: Link先を確認
Ali Baheri, Hao Ren, Benjamin Johnson, Pouria Razzaghi, Peng Wei(参考訳) 本稿では,航空システムにおける学習ベースコンポーネントの設計時および実行時保証のための安全性検証フレームワークを提案する。 提案手法は2つの新しい手法を統合する。 設計時保証の観点から,シミュレーション環境における異なるレベルの粒度からの知識を組み込んだオフライン混合忠実度検証ツールを提案する。 実行時保証の観点からは,オフライン検証手法を補完する学習ベース意思決定モデルに対して,リーチビリティと統計に基づくオンライン監視と安全ガードを提案する。 このフレームワークはモジュール間で疎結合に設計されており、異なる状況下で個々のモジュールを独立した方法論や技術で開発することができる。 提案するフレームワークは,システム開発とデプロイメントサイクルを通じて,さまざまな段階でシステム安全性要件を満たすための実現可能なソリューションを提供し,システムプロダクトの継続的学習と評価を可能にする。

We present a safety verification framework for design-time and run-time assurance of learning-based components in aviation systems. Our proposed framework integrates two novel methodologies. From the design-time assurance perspective, we propose offline mixed-fidelity verification tools that incorporate knowledge from different levels of granularity in simulated environments. From the run-time assurance perspective, we propose reachability- and statistics-based online monitoring and safety guards for a learning-based decision-making model to complement the offline verification methods. This framework is designed to be loosely coupled among modules, allowing the individual modules to be developed using independent methodologies and techniques, under varying circumstances and with different tool access. The proposed framework offers feasible solutions for meeting system safety requirements at different stages throughout the system development and deployment cycle, enabling the continuous learning and assessment of the system product.
翻訳日:2022-05-12 18:15:52 公開日:2022-05-09
# 視覚的学習と深層学習による医療評価と意思決定

Affective Medical Estimation and Decision Making via Visualized Learning and Deep Learning ( http://arxiv.org/abs/2205.04599v1 )

ライセンス: Link先を確認
Mohammad Eslami, Solale Tabarestani, Ehsan Adeli, Glyn Elwyn, Tobias Elze, Mengyu Wang, Nazlee Zebardast, Nassir Navab, Malek Adjouadi(参考訳) 高度な機械学習(ML)技術の出現とそれらがもたらす有望な成果、特に医療応用において、意思決定プロセスを強化するために様々なタスクについて調査されてきた。 可視化は人間の理解、記憶、判断に有効なツールであるため、医医や臨床医が合理的な判断を下すのを助けるだけでなく、適切な分類や予測を行うのに不確実性のある可視化を評価できる、視覚的学習(Visualized Learning for Machine Learning, VL4ML)と呼んでいる。 概念の証明と、この視覚化された推定手法の一般化した性質を示すために、分類、回帰、縦方向予測を含む様々なタスクの5つの異なるケーススタディについて検討した。 また,100人以上の個人を対象にした調査分析を行い,ユーザからのフィードバックを可視化推定法で評価した。 実験および調査は,(1)視覚的臨床・医学的評価の妥当性,(2)患者の嗜好に近づくこと,(3)医師と患者のコミュニケーションの改善,(4)デプロイされたMLアルゴリズムのブラックボックス効果によって生じる不確実性を可視化することを含む,VL4MLの実用的メリットを実証した。 すべてのソースコードはGitHubリポジトリ経由で共有される。

With the advent of sophisticated machine learning (ML) techniques and the promising results they yield, especially in medical applications, where they have been investigated for different tasks to enhance the decision-making process. Since visualization is such an effective tool for human comprehension, memorization, and judgment, we have presented a first-of-its-kind estimation approach we refer to as Visualized Learning for Machine Learning (VL4ML) that not only can serve to assist physicians and clinicians in making reasoned medical decisions, but it also allows to appreciate the uncertainty visualization, which could raise incertitude in making the appropriate classification or prediction. For the proof of concept, and to demonstrate the generalized nature of this visualized estimation approach, five different case studies are examined for different types of tasks including classification, regression, and longitudinal prediction. A survey analysis with more than 100 individuals is also conducted to assess users' feedback on this visualized estimation method. The experiments and the survey demonstrate the practical merits of the VL4ML that include: (1) appreciating visually clinical/medical estimations; (2) getting closer to the patients' preferences; (3) improving doctor-patient communication, and (4) visualizing the uncertainty introduced through the black box effect of the deployed ML algorithm. All the source codes are shared via a GitHub repository.
翻訳日:2022-05-12 17:51:03 公開日:2022-05-09
# 画像解析と自然言語処理による皮膚疾患診断

Skin disease diagnosis using image analysis and natural language processing ( http://arxiv.org/abs/2205.04468v1 )

ライセンス: Link先を確認
Martin Chileshe, Mayumbo Nyirenda(参考訳) ザンビアでは、医療従事者が1つの地区で約1700人の患者に診察し、他の患者は10km以上を旅して基本的な医療サービスにアクセスしている。 本研究では,臨床診断プロセスの実行が可能な深層学習モデルを実装した。 この研究は、画像分析が臨床診断が可能かどうかを証明する。 また、画像分析を使って、AIにタスクを委譲することで、医療従事者の作業負荷を減らすことができるかどうかも理解できます。 この研究の成功は、vision 2030の国家目標の一つであるザンビア人に医療サービスのアクセシビリティを高める可能性を秘めている。

In Zambia, there is a serious shortage of medical staff where each practitioner attends to about 17000 patients in a given district while still, other patients travel over 10 km to access the basic medical services. In this research, we implement a deep learning model that can perform the clinical diagnosis process. The study will prove whether image analysis is capable of performing clinical diagnosis. It will also enable us to understand if we can use image analysis to lessen the workload on medical practitioners by delegating some tasks to an AI. The success of this study has the potential to increase the accessibility of medical services to Zambians, which is one of the national goals of Vision 2030.
翻訳日:2022-05-12 17:44:44 公開日:2022-05-09
# 自由カテゴリの確率的生成モデル

A Probabilistic Generative Model of Free Categories ( http://arxiv.org/abs/2205.04545v1 )

ライセンス: Link先を確認
Eli Sennesh, Tom Xu, Yoshihiro Maruyama(参考訳) 応用圏論は、最近、興味あるカテゴリーにおける射を伴う計算ライブラリを開発し、機械学習は興味深い言語における学習プログラムの方法を開発した。 カテゴリーと言語間の類似を真剣に考えると、ドメイン固有の生成対象と射に対する自由モノイド圏の射の確率的生成モデルを定義する。 この論文は、非巡回有向配線図が射の仕様をモデル化し、モデルが射を生成できることを示す。 生成モデルにおけるamortized variational inferenceは、(最大確率による)パラメータの学習と(ベイズ反転による)潜在変数の推論を可能にする。 具体的な実験により、Omniglotデータセット上での競合的再構成性能をフリーカテゴリが達成できることが示されている。

Applied category theory has recently developed libraries for computing with morphisms in interesting categories, while machine learning has developed ways of learning programs in interesting languages. Taking the analogy between categories and languages seriously, this paper defines a probabilistic generative model of morphisms in free monoidal categories over domain-specific generating objects and morphisms. The paper shows how acyclic directed wiring diagrams can model specifications for morphisms, which the model can use to generate morphisms. Amortized variational inference in the generative model then enables learning of parameters (by maximum likelihood) and inference of latent variables (by Bayesian inversion). A concrete experiment shows that the free category prior achieves competitive reconstruction performance on the Omniglot dataset.
翻訳日:2022-05-12 17:22:06 公開日:2022-05-09
# Image2Gif: ウォーピングノードによる連続リアルアニメーションの生成

Image2Gif: Generating Continuous Realistic Animations with Warping NODEs ( http://arxiv.org/abs/2205.04519v1 )

ライセンス: Link先を確認
Jurijs Nazarovs, Zhichun Huang(参考訳) 少数の連続的な観測から滑らかなアニメーションを生成することは、視覚に多くの応用をもたらす。 例えば、1秒あたりのフレーム数を増やしたり、最初のフレームと最後のフレーム(例えば顔の感情の動き)に基づいて新しいトラジェクトリを生成するのに使うことができる。 離散的な観測データ(フレーム)にもかかわらず、新しい軌道を生成する問題は継続する問題である。 さらに、知覚的に現実的になるためには、画像の領域が変化の軌跡によって大きく変わるべきではない。 本稿では,アニメーションの開始と終了を示す2つのフレーム(より離れている)が与えられた,滑らかなアニメーション(ビデオフレーム補間)を連続的に生成する,ニューラルodeをウォーピングする新しいフレームワークを提案する。 このフレームワークの重要な特徴は、微分方程式系から導かれるベクトル場に基づく画像の連続的な空間変換を利用することである。 これにより、フレーム間の無限に小さな時間ステップでアニメーションの滑らかさと現実性を達成することができる。 本稿では,GAN (Generative Adversarial Network) や$L_2$ロスなど,異なるトレーニング環境で2フレームのアニメーションを生成する上で,我々の作業の適用例を示す。

Generating smooth animations from a limited number of sequential observations has a number of applications in vision. For example, it can be used to increase number of frames per second, or generating a new trajectory only based on first and last frames, e.g. a motion of face emotions. Despite the discrete observed data (frames), the problem of generating a new trajectory is a continues problem. In addition, to be perceptually realistic, the domain of an image should not alter drastically through the trajectory of changes. In this paper, we propose a new framework, Warping Neural ODE, for generating a smooth animation (video frame interpolation) in a continuous manner, given two ("farther apart") frames, denoting the start and the end of the animation. The key feature of our framework is utilizing the continuous spatial transformation of the image based on the vector field, derived from a system of differential equations. This allows us to achieve the smoothness and the realism of an animation with infinitely small time steps between the frames. We show the application of our work in generating an animation given two frames, in different training settings, including Generative Adversarial Network (GAN) and with $L_2$ loss.
翻訳日:2022-05-12 17:21:07 公開日:2022-05-09
# disの語源:自然言語処理における説明可能な人工知能の評価

A Song of (Dis)agreement: Evaluating the Evaluation of Explainable Artificial Intelligence in Natural Language Processing ( http://arxiv.org/abs/2205.04559v1 )

ライセンス: Link先を確認
Michael Neely, Stefan F. Schouten, Maurits Bleeker, Ana Lucic(参考訳) nlpコミュニティでは、注意重みが説明として使用できるかどうか、すなわち、各入力トークンが特定の予測にどれほど重要であるかを解釈するメカニズムとして、重要な議論がなされている。 LSTMモデルを用いて,注意に基づく説明と既存特徴帰属説明とのランク相関を計算し,「説明としての意図」の妥当性を評価した。 私たちの仕事では (i)最近の5つの特徴帰属法と2つの注意に基づく方法のランク相関を2種類のnlpタスクで比較する。 (ii)この分析を拡張して、トランスフォーマティブベースのモデルも含む。 注意に基づく説明は、モデルやタスクに関係なく、最近の特徴帰属手法と強く相関しないことがわかった。 さらに, 検証された説明はいずれもトランスフォーマーモデルと強く相関しておらず, 既存の特徴帰属説明法とどのように相関するかに基づいて, 注意に基づく説明の有効性を測定するべきであるという仮定を疑問視する。 2つの異なるモデルを用いて5つのデータセットを実験した結果、コミュニティは注意に基づく説明のための評価指標としてランク相関の使用をやめるべきだと論じた。 研究者や実践者は、その代わりに様々な説明法をテストし、その説明が手元にある特定のユースケースに対する人間の直感と一致するかどうかを判断するために、人間-イン-ループプロセスを採用するべきである。

There has been significant debate in the NLP community about whether or not attention weights can be used as an explanation - a mechanism for interpreting how important each input token is for a particular prediction. The validity of "attention as explanation" has so far been evaluated by computing the rank correlation between attention-based explanations and existing feature attribution explanations using LSTM-based models. In our work, we (i) compare the rank correlation between five more recent feature attribution methods and two attention-based methods, on two types of NLP tasks, and (ii) extend this analysis to also include transformer-based models. We find that attention-based explanations do not correlate strongly with any recent feature attribution methods, regardless of the model or task. Furthermore, we find that none of the tested explanations correlate strongly with one another for the transformer-based model, leading us to question the underlying assumption that we should measure the validity of attention-based explanations based on how well they correlate with existing feature attribution explanation methods. After conducting experiments on five datasets using two different models, we argue that the community should stop using rank correlation as an evaluation metric for attention-based explanations. We suggest that researchers and practitioners should instead test various explanation methods and employ a human-in-the-loop process to determine if the explanations align with human intuition for the particular use case at hand.
翻訳日:2022-05-12 17:15:17 公開日:2022-05-09
# (参考訳) acm -- 抽象的マルチドキュメント要約のための属性条件付け [全文訳有]

ACM -- Attribute Conditioning for Abstractive Multi Document Summarization ( http://arxiv.org/abs/2205.03978v1 )

ライセンス: CC BY 4.0
Aiswarya Sankar, Ankit Chadha(参考訳) 抽象的多文書要約は、トランスフォーマーやグラフベースの手法への塩基配列アプローチによるタスクとして進化してきた。 それぞれのアプローチは、主に多文書情報合成と注意に基づく情報抽出の課題に焦点を当てている。 単一の文書要約において一般的ではない複数の文書要約は、あるトピックに関する対立する極性、感情、主観的な情報を持つ複数の文書を効果的に要約する必要性である。 本稿では,属性条件付きマルチドキュメント要約(acm, attribute conditioned multi document summarization)を提案する。 この手法は, ROUGEスコアにおいて, 基準文書要約手法よりも高い利得を示し, 人間のアノテーション分析研究から示すように, 流布率, 情報性, 繰り返し性の低下の利得を示す。

Abstractive multi document summarization has evolved as a task through the basic sequence to sequence approaches to transformer and graph based techniques. Each of these approaches has primarily focused on the issues of multi document information synthesis and attention based approaches to extract salient information. A challenge that arises with multi document summarization which is not prevalent in single document summarization is the need to effectively summarize multiple documents that might have conflicting polarity, sentiment or subjective information about a given topic. In this paper we propose ACM, attribute conditioned multi document summarization,a model that incorporates attribute conditioning modules in order to decouple conflicting information by conditioning for a certain attribute in the output summary. This approach shows strong gains in ROUGE score over baseline multi document summarization approaches and shows gains in fluency, informativeness and reduction in repetitiveness as shown through a human annotation analysis study.
翻訳日:2022-05-11 01:32:15 公開日:2022-05-09
# (参考訳) 次の数千言語のための機械翻訳システムの構築

Building Machine Translation Systems for the Next Thousand Languages ( http://arxiv.org/abs/2205.03983v1 )

ライセンス: CC BY 4.0
Ankur Bapna, Isaac Caswell, Julia Kreutzer, Orhan Firat, Daan van Esch, Aditya Siddhant, Mengmeng Niu, Pallavi Baljekar, Xavier Garcia, Wolfgang Macherey, Theresa Breiner, Vera Axelrod, Jason Riesa, Yuan Cao, Mia Xu Chen, Klaus Macherey, Maxim Krikun, Pidong Wang, Alexander Gutkin, Apurva Shah, Yanping Huang, Zhifeng Chen, Yonghui Wu, Macduff Hughes(参考訳) 本稿では,1000以上の言語を翻訳可能な実用的な機械翻訳(MT)システムの構築に向けた取り組みから得られた知見を紹介する。 3つの研究領域で結果を説明します (i)言語識別のための半教師付き事前学習とデータ駆動フィルタリング技術の開発により、1500以上の言語のためのクリーンでウェブマインドなデータセットを構築すること。 (II)100以上の高リソース言語と1000以上の追加言語を対象としたモノリンガルデータセットの教師付き並列データで訓練された多言語モデルを活用して、低サービス言語のための実用的なMTモデルを開発する。 3) これらの言語に対する評価指標の限界について検討し, MTモデルからの出力の質的分析を行い, これらのモデルの頻繁なエラーモードを強調した。 私たちは、現在未熟な言語のためのmtシステム構築に携わる実践者に有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。

In this paper we share findings from our effort to build practical machine translation (MT) systems capable of translating across over one thousand languages. We describe results in three research domains: (i) Building clean, web-mined datasets for 1500+ languages by leveraging semi-supervised pre-training for language identification and developing data-driven filtering techniques; (ii) Developing practical MT models for under-served languages by leveraging massively multilingual models trained with supervised parallel data for over 100 high-resource languages and monolingual datasets for an additional 1000+ languages; and (iii) Studying the limitations of evaluation metrics for these languages and conducting qualitative analysis of the outputs from our MT models, highlighting several frequent error modes of these types of models. We hope that our work provides useful insights to practitioners working towards building MT systems for currently understudied languages, and highlights research directions that can complement the weaknesses of massively multilingual models in data-sparse settings.
翻訳日:2022-05-11 01:21:45 公開日:2022-05-09
# (参考訳) 医療における機械学習分析のための分析・ナイーブなホールドアウト記録の作成方法とトレーニング・テスト記録の作成 [全文訳有]

Methodology to Create Analysis-Naive Holdout Records as well as Train and Test Records for Machine Learning Analyses in Healthcare ( http://arxiv.org/abs/2205.03987v1 )

ライセンス: CC BY 4.0
Michele Bennett, Mehdi Nekouei, Armand Prieditis Rajesh Mehta, Ewa Kleczyk, Karin Hayes(参考訳) 研究者は、外部の検証や将来の研究に使用する研究プールからデータを保持することが一般的であり、機械学習モデリング研究を使用する研究者も同様の欲求がある。 本研究の目的は,全データセットから分析的かつランダムに選択される研究研究のためのデータを保存することである。 Analysis-naiveは、機械学習モデル(ML)のテストやトレーニングに使用されていないレコードであり、現在の機械学習研究のいかなる側面にも関与していない。 ホールドアウトを作成するための方法論は、ランダム化を考慮したk-foldクロスバリデーションの修正であり、強制せずに3方向分割(ホールドアウト、テスト、トレーニング)を効果的に行うことができる。 論文はまた、Pythonにおける自動機能のセットと、医療への適用性に関するいくつかのシナリオを使った実例も提供している。

It is common for researchers to holdout data from a study pool to be used for external validation as well as for future research, and the same desire is true to those using machine learning modeling research. For this discussion, the purpose of the holdout sample it is preserve data for research studies that will be analysis-naive and randomly selected from the full dataset. Analysis-naive are records that are not used for testing or training machine learning (ML) models and records that do not participate in any aspect of the current machine learning study. The methodology suggested for creating holdouts is a modification of k-fold cross validation, which takes into account randomization and efficiently allows a three-way split (holdout, test and training) as part of the method without forcing. The paper also provides a working example using set of automated functions in Python and some scenarios for applicability in healthcare.
翻訳日:2022-05-11 01:20:32 公開日:2022-05-09
# (参考訳) 多分解能PDE構造保存深層学習によるパラメトリック時空間ダイナミクスの予測

Predicting parametric spatiotemporal dynamics by multi-resolution PDE structure-preserved deep learning ( http://arxiv.org/abs/2205.03990v1 )

ライセンス: CC BY 4.0
Xin-Yang Liu and Hao Sun and Jian-Xun Wang(参考訳) 近年のディープラーニング(DL)の進歩は、複雑な時空間ダイナミクスを示す物理を学ぶための大きな可能性を示しており、訓練コストが高く、長期的な予測には不満足な外挿可能性があり、サンプル外体制における一般化性が低いため、科学・工学的問題への応用は著しく制限されている。 より有望な方法は、利用可能な物理先行知識とドメイン知識を活用して、物理情報深層学習(PiDL)として知られる科学的DLモデルを開発することである。 物理インフォームドニューラルネットワークなど、既存のほとんどのPiDLフレームワークでは、従来の物理学は、制御方程式を損失関数にソフトに組み込むことで、ニューラルネットワークトレーニングの規則化に主に使用されている。 本研究では, 制御方程式の数学的構造をニューラルネットワークアーキテクチャ設計に組み込むことにより, 物理の事前知識を活用する新たな方向性を提案する。 特に、PDEが(部分的に)知られていることを考えると、パラメトリック時空間力学を迅速に予測する新しいPDE保存ニューラルネットワーク(PPNN)を開発した。 離散化されたpde構造は、マルチレゾリューション設定で定式化された畳み込み残差ネットワーク(convresnet)ブロックとしてppnnに保存される。 この物理に触発された学習アーキテクチャ設計は、最先端のブラックボックス・コンヴレスネットベースラインと比較して、汎用性と長期予測精度に優れたendws ppnnを設計した。 提案手法の有効性と有用性は,反応拡散方程式,バーガーズ方程式,ナビエ・ストークス方程式など非定常pdesによって制御される一握りの時空間力学系に対して実証されている。

Although recent advances in deep learning (DL) have shown a great promise for learning physics exhibiting complex spatiotemporal dynamics, the high training cost, unsatisfying extrapolability for long-term predictions, and poor generalizability in out-of-sample regimes significantly limit their applications in science/engineering problems. A more promising way is to leverage available physical prior and domain knowledge to develop scientific DL models, known as physics-informed deep learning (PiDL). In most existing PiDL frameworks, e.g., physics-informed neural networks, the physics prior is mainly utilized to regularize neural network training by incorporating governing equations into the loss function in a soft manner. In this work, we propose a new direction to leverage physics prior knowledge by baking the mathematical structures of governing equations into the neural network architecture design. In particular, we develop a novel PDE-preserved neural network (PPNN) for rapidly predicting parametric spatiotemporal dynamics, given the governing PDEs are (partially) known. The discretized PDE structures are preserved in PPNN as convolutional residual network (ConvResNet) blocks, which are formulated in a multi-resolution setting. This physics-inspired learning architecture design endows PPNN with excellent generalizability and long-term prediction accuracy compared to the state-of-the-art black-box ConvResNet baseline. The effectiveness and merit of the proposed methods have been demonstrated over a handful of spatiotemporal dynamical systems governed by unsteady PDEs, including reaction-diffusion, Burgers', and Navier-Stokes equations.
翻訳日:2022-05-11 01:15:30 公開日:2022-05-09
# (参考訳) オブジェクト検出のためのハードウェアロバストIn-RRAM計算 [全文訳有]

Hardware-Robust In-RRAM-Computing for Object Detection ( http://arxiv.org/abs/2205.03996v1 )

ライセンス: CC BY 4.0
Yu-Hsiang Chiang, Cheng En Ni, Yun Sung, Tuo-Hung Hou, Tian-Sheuan Chang, and Shyh Jye Jou(参考訳) 近年、インメモリコンピューティングは、高並列コンピューティング、低消費電力、低領域コストのため、ディープラーニングハードウェアアクセラレーターの一般的なアーキテクチャとなっている。 しかし、in-rramコンピューティング(irc)は大きなデバイス変動とハードウェアの非理想的影響に苦しんだ。 モデルトレーニングにおけるこれらの効果を含む以前のアプローチは、変動耐性を改善できたが、彼らは非理想的効果の一部と比較的単純な分類タスクしか考慮しなかった。 本稿では,オブジェクト検出のためのハードウェアロバストIRCマクロを設計するためのハードウェアとソフトウェアの共同最適化手法を提案する。 非線形加算の影響を最小限に抑える1つの演算で完全な畳み込み計算を可能にするために、低ワード線電圧を用いてセル電流を下げる。 また,3次重みマッピングを実装し,デバイス変動に対する耐性向上,センスアンプ変動,irドロップ問題に対してバッチ正規化を除去した。 電流センシング範囲の制限を克服するために、余分なバイアスを含む。 提案手法は3.85\%のマップドロップしか持たない複雑な物体検出タスクにうまく適用できたが、単純な設計ではこれらの非理想的影響下で壊滅的な失敗に苦しめられている。

In-memory computing is becoming a popular architecture for deep-learning hardware accelerators recently due to its highly parallel computing, low power, and low area cost. However, in-RRAM computing (IRC) suffered from large device variation and numerous nonideal effects in hardware. Although previous approaches including these effects in model training successfully improved variation tolerance, they only considered part of the nonideal effects and relatively simple classification tasks. This paper proposes a joint hardware and software optimization strategy to design a hardware-robust IRC macro for object detection. We lower the cell current by using a low word-line voltage to enable a complete convolution calculation in one operation that minimizes the impact of nonlinear addition. We also implement ternary weight mapping and remove batch normalization for better tolerance against device variation, sense amplifier variation, and IR drop problem. An extra bias is included to overcome the limitation of the current sensing range. The proposed approach has been successfully applied to a complex object detection task with only 3.85\% mAP drop, whereas a naive design suffers catastrophic failure under these nonideal effects.
翻訳日:2022-05-11 01:14:12 公開日:2022-05-09
# (参考訳) Tilted Layer Fusion を用いたリアルタイム超解像加速器 [全文訳有]

A Real Time Super Resolution Accelerator with Tilted Layer Fusion ( http://arxiv.org/abs/2205.03997v1 )

ライセンス: CC BY 4.0
An-Jung Huang, Kai-Chieh Hsu and Tian-Sheuan Chang(参考訳) ディープラーニングベースのスーパーレゾリューションは高品質な結果を得るが、その重い計算負荷、大きなバッファ、高い外部メモリ帯域幅はモバイルデバイスでの使用を阻害する。 そこで本研究では,外部DRAMの帯域幅を92\%削減し,102KBのオンチップメモリを必要とする,傾き層融合方式のリアルタイムハードウェアアクセラレータを提案する。 40nmのCMOSプロセスで実装された設計は、600MHzで動作する場合、1920x1080@60fpsのスループットと544.3Kゲート数を実現している。

Deep learning based superresolution achieves high-quality results, but its heavy computational workload, large buffer, and high external memory bandwidth inhibit its usage in mobile devices. To solve the above issues, this paper proposes a real-time hardware accelerator with the tilted layer fusion method that reduces the external DRAM bandwidth by 92\% and just needs 102KB on-chip memory. The design implemented with a 40nm CMOS process achieves 1920x1080@60fps throughput with 544.3K gate count when running at 600MHz; it has higher throughput and lower area cost than previous designs.
翻訳日:2022-05-11 00:56:55 公開日:2022-05-09
# (参考訳) 視覚変換器用ローワイズ加速器 [全文訳有]

Row-wise Accelerator for Vision Transformer ( http://arxiv.org/abs/2205.03998v1 )

ライセンス: CC BY 4.0
Hong-Yi Wang, and Tian-Sheuan Chang(参考訳) 自然言語処理の成功を受けて、視覚アプリケーションのためのトランスフォーマーは、その優れた性能のために近年大きな注目を集めている。 しかし、既存の視覚用ディープラーニングハードウェアアクセラレーターは、モデルアーキテクチャの違いが大きいため、この構造を効率的に実行することはできない。 そこで本研究では,視覚変換器の主要動作を単一ドット製品プリミティブとして分割し,一元的かつ効率的な実行を実現する,行ワイドスケジューリングによる視覚変換器のハードウェアアクセラレータを提案する。 さらに、列に重みを共有することで、データを再利用し、メモリ使用量を削減できます。 TSMC 40nm CMOS技術の実装には、600MHzのクロック周波数で403.2 GOPSのスループットで262Kのゲート数と149KBのSRAMバッファしか必要としない。

Following the success of the natural language processing, the transformer for vision applications has attracted significant attention in recent years due to its excellent performance. However, existing deep learning hardware accelerators for vision cannot execute this structure efficiently due to significant model architecture differences. As a result, this paper proposes the hardware accelerator for vision transformers with row-wise scheduling, which decomposes major operations in vision transformers as a single dot product primitive for a unified and efficient execution. Furthermore, by sharing weights in columns, we can reuse the data and reduce the usage of memory. The implementation with TSMC 40nm CMOS technology only requires 262K gate count and 149KB SRAM buffer for 403.2 GOPS throughput at 600MHz clock frequency.
翻訳日:2022-05-11 00:49:49 公開日:2022-05-09
# (参考訳) ドライバーから学習して、Amazonのラストマイルルーティング研究課題に取り組む [全文訳有]

Learning from Drivers to Tackle the Amazon Last Mile Routing Research Challenge ( http://arxiv.org/abs/2205.04001v1 )

ライセンス: CC BY 4.0
Chen Wu, Yin Song, Verdi March, Eden Duthie(参考訳) Amazon Last Mile Routing Research Challengeの目標は、Amazonドライバの実際の体験を最適なルート計画と最適化のソリューションに統合することである。 本稿では,機械学習と従来のトラベリングセールスパーソン問題(TSP)を階層的に組み合わせた手法を提案する。 この方法は両世界の利益を享受する。 一方,各ゾーンに数個の停止区間があるゾーンレベルで,過去のルートから逐次確率モデルを学習することにより,ドライバのノウハウを符号化する。 その後、ロールアウトアルゴリズムと呼ばれる1ステップのポリシー反復法を使用して、学習した確率モデルからサンプリングされた妥当なゾーンシーケンスを生成する。 一方,本手法は富裕なTSP文献で開発された証明手法を用いて,各ゾーン内でのシーケンス停止を効率的に行う。 そのような組み合わせの結果は有望なようだ。 評価スコアは0.0374$で、これはトップ3チームが公式チャレンジリーダーボードで達成した結果に匹敵するものです。 さらに,本手法は,この課題の範囲を超えて,明確な逐次パターンを示す経路の学習に適用可能である。 このメソッドのソースコードはhttps://github.com/a ws-samples/amazon-sa gemaker-amazon-routi ng-challenge-solで公開されている。

The goal of the Amazon Last Mile Routing Research Challenge is to integrate the real-life experience of Amazon drivers into the solution of optimal route planning and optimization. This paper presents our method that tackles this challenge by hierarchically combining machine learning and conventional Traveling Salesperson Problem (TSP) solvers. Our method reaps the benefits from both worlds. On the one hand, our method encodes driver know-how by learning a sequential probability model from historical routes at the zone level, where each zone contains a few parcel stops. It then uses a single step policy iteration method, known as the Rollout algorithm, to generate plausible zone sequences sampled from the learned probability model. On the other hand, our method utilizes proven methods developed in the rich TSP literature to sequence stops within each zone efficiently. The outcome of such a combination appeared to be promising. Our method obtained an evaluation score of $0.0374$, which is comparable to what the top three teams have achieved on the official Challenge leaderboard. Moreover, our learning-based method is applicable to driving routes that may exhibit distinct sequential patterns beyond the scope of this Challenge. The source code of our method is publicly available at https://github.com/a ws-samples/amazon-sa gemaker-amazon-routi ng-challenge-sol
翻訳日:2022-05-11 00:43:29 公開日:2022-05-09
# (参考訳) マルチモーダル対話システムのためのparaphrase生成とエンティティ抽出によるデータ拡張 [全文訳有]

Data Augmentation with Paraphrase Generation and Entity Extraction for Multimodal Dialogue System ( http://arxiv.org/abs/2205.04006v1 )

ライセンス: CC BY 4.0
Eda Okur, Saurav Sahay, Lama Nachman(参考訳) コンテキスト的に認識されたインテリジェントエージェントは、リアルタイムにユーザとその周囲を理解するために必要となることが多い。 私たちの目標は、子どもたちの学習プロセスを支援する人工知能(AI)システムを構築することです。 このような複雑なフレームワークの中では、ゲームベースの学習環境において、子供たちとの効率的なタスク指向コミュニケーションを扱うために、SDS(Spken Dialogue Systems)が重要なビルディングブロックである。 我々は,幼児の基本的な数学概念を学ぶためのマルチモーダル対話システムに向けて取り組んでいる。 我々の焦点は、限られたデータセットでタスク指向SDSパイプラインの自然言語理解(NLU)モジュールを改善することです。 この研究は、小さなタスク固有のデータセットでトレーニングされたNLUモデルのパラフレーズ生成によるデータ拡張の可能性を探る。 また, 抽出剤のさらなるデータ拡張効果についても検討した。 我々は,小型シードデータを用いたモデル・イン・ザ・ループ(MITL)戦略のパラフレーズ化が,インテント認識タスクの性能改善をもたらす有望なアプローチであることを示した。

Contextually aware intelligent agents are often required to understand the users and their surroundings in real-time. Our goal is to build Artificial Intelligence (AI) systems that can assist children in their learning process. Within such complex frameworks, Spoken Dialogue Systems (SDS) are crucial building blocks to handle efficient task-oriented communication with children in game-based learning settings. We are working towards a multimodal dialogue system for younger kids learning basic math concepts. Our focus is on improving the Natural Language Understanding (NLU) module of the task-oriented SDS pipeline with limited datasets. This work explores the potential benefits of data augmentation with paraphrase generation for the NLU models trained on small task-specific datasets. We also investigate the effects of extracting entities for conceivably further data expansion. We have shown that paraphrasing with model-in-the-loop (MITL) strategies using small seed data is a promising approach yielding improved performance results for the Intent Recognition task.
翻訳日:2022-05-11 00:33:04 公開日:2022-05-09
# (参考訳) ResSFL:分散学習におけるモデル反転攻撃防止のための抵抗伝達フレームワーク

ResSFL: A Resistance Transfer Framework for Defending Model Inversion Attack in Split Federated Learning ( http://arxiv.org/abs/2205.04007v1 )

ライセンス: CC BY 4.0
Jingtao Li, Adnan Siraj Rakin, Xing Chen, Zhezhi He, Deliang Fan, Chaitali Chakrabarti(参考訳) この研究は、SFL(Split Federated Learning)に対するモデル反転(MI)攻撃に取り組むことを目的としている。 SFLは、複数のクライアントが生データではなく中間的なアクティベーション(フィーチャーマップ)を中央サーバに送信する、最近の分散トレーニングスキームである。 このようなスキームはクライアント側の計算負荷を軽減するのに役立ちますが、サーバによる中間的なアクティベーションから生データの再構築にも役立ちます。 sflを保護する既存の作業は推論のみを考慮し、トレーニング中に攻撃を処理しない。 そこで我々は,MI耐性を持つ分散フェデレート学習フレームワークResSFLを提案する。 攻撃者対応トレーニングを通じて抵抗性特徴抽出器を導出し、この抽出器を用いて標準sflトレーニングに先立ってクライアント側モデルを初期化する。 このような手法は、クライアント側対角訓練における強力な反転モデルの使用による計算複雑性の低減と、初期の訓練時代の攻撃の脆弱性の軽減に役立つ。 CIFAR-100データセット上では,ベースラインシステムで得られた0.005と比較して,約0.050の高再構成平均角誤差を持つVGG-11モデルに対するMI攻撃を軽減した。 このフレームワークは非常に低い計算オーバーヘッドで67.5%の精度(1%の精度低下)を達成する。 コードはhttps://github.com/z lijingtao/ResSFL.com で公開されている。

This work aims to tackle Model Inversion (MI) attack on Split Federated Learning (SFL). SFL is a recent distributed training scheme where multiple clients send intermediate activations (i.e., feature map), instead of raw data, to a central server. While such a scheme helps reduce the computational load at the client end, it opens itself to reconstruction of raw data from intermediate activation by the server. Existing works on protecting SFL only consider inference and do not handle attacks during training. So we propose ResSFL, a Split Federated Learning Framework that is designed to be MI-resistant during training. It is based on deriving a resistant feature extractor via attacker-aware training, and using this extractor to initialize the client-side model prior to standard SFL training. Such a method helps in reducing the computational complexity due to use of strong inversion model in client-side adversarial training as well as vulnerability of attacks launched in early training epochs. On CIFAR-100 dataset, our proposed framework successfully mitigates MI attack on a VGG-11 model with a high reconstruction Mean-Square-Error of 0.050 compared to 0.005 obtained by the baseline system. The framework achieves 67.5% accuracy (only 1% accuracy drop) with very low computation overhead. Code is released at: https://github.com/z lijingtao/ResSFL.
翻訳日:2022-05-11 00:11:19 公開日:2022-05-09
# (参考訳) negation-focused pre-trainingによるネゲーション検出の改善 [全文訳有]

Improving negation detection with negation-focused pre-training ( http://arxiv.org/abs/2205.04012v1 )

ライセンス: CC BY 4.0
Thinh Hung Truong, Timothy Baldwin, Trevor Cohn, Karin Verspoor(参考訳) 否定は、多くの言語理解タスクにおいて重要な共通言語的特徴であるが、異なる種類のテキストにおける表現の多様性のため、依然として難しい問題である。 最近の研究によると、最先端のNLPモデルは様々なタスクにおける否定を含むサンプルで性能が低く、否定検出モデルはドメイン間でうまく転送されない。 我々は,否定情報をより言語モデルに組み込むために,ターゲットデータの拡張と否定マスキングを含む新たな否定重視事前学習戦略を提案する。 提案手法は,強いベースラインであるNegBERT (Khandewal and Sawant, 2020) に対する否定検出性能と一般化性を向上することを示す。

Negation is a common linguistic feature that is crucial in many language understanding tasks, yet it remains a hard problem due to diversity in its expression in different types of text. Recent work has shown that state-of-the-art NLP models underperform on samples containing negation in various tasks, and that negation detection models do not transfer well across domains. We propose a new negation-focused pre-training strategy, involving targeted data augmentation and negation masking, to better incorporate negation information into language models. Extensive experiments on common benchmarks show that our proposed approach improves negation detection performance and generalizability over the strong baseline NegBERT (Khandewal and Sawant, 2020).
翻訳日:2022-05-11 00:10:19 公開日:2022-05-09
# (参考訳) あなたが何を描いているか分かる: いくつかのフリーハンドスケッチに条件づけられた学習把握検出 [全文訳有]

I Know What You Draw: Learning Grasp Detection Conditioned on a Few Freehand Sketches ( http://arxiv.org/abs/2205.04026v1 )

ライセンス: CC BY 4.0
Haitao Lin, Chilam Cheang, Yanwei Fu, Xiangyang Xue(参考訳) 本稿では,自由ハンドスケッチの理解による目標把握の問題に注目する。 このスケッチは、言語を定式化できない人や、テキストによる記述が手に入らない場合に有用である。 しかし、この新しい人間とロボットの対話的な方法の使い勝手に気づいている作品はほとんどない。 そこで本研究では,スケッチ指定対象に関連する潜在的把握構成を生成する手法を提案する。 抽象的な詳細を持つスケッチの本質的曖昧さのため、スケッチの構造を取り入れて表現能力を高めることにより、グラフの利点を生かしている。 このグラフ表現スケッチは、ネットワークの一般化を改善するためにさらに検証され、手描きスケッチの小さなコレクション(約100サンプル)を用いて、スケッチ待ちの把握検出を学習することができる。 さらに、我々のモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされます。 マルチオブジェクトVMRDとGraspNet-1Billionデータセットの実験は,提案手法の優れた一般化を実証している。 物理的ロボット実験により, 物体分割シーンにおける本手法の有用性を確認した。

In this paper, we are interested in the problem of generating target grasps by understanding freehand sketches. The sketch is useful for the persons who cannot formulate language and the cases where a textual description is not available on the fly. However, very few works are aware of the usability of this novel interactive way between humans and robots. To this end, we propose a method to generate a potential grasp configuration relevant to the sketch-depicted objects. Due to the inherent ambiguity of sketches with abstract details, we take the advantage of the graph by incorporating the structure of the sketch to enhance the representation ability. This graph-represented sketch is further validated to improve the generalization of the network, capable of learning the sketch-queried grasp detection by using a small collection (around 100 samples) of hand-drawn sketches. Additionally, our model is trained and tested in an end-to-end manner which is easy to be implemented in real-world applications. Experiments on the multi-object VMRD and GraspNet-1Billion datasets demonstrate the good generalization of the proposed method. The physical robot experiments confirm the utility of our method in object-cluttered scenes.
翻訳日:2022-05-11 00:00:23 公開日:2022-05-09
# (参考訳) 言語インストラクションによる6-DoFオブジェクトのGraspカテゴリレベルオブジェクトへの学習 [全文訳有]

Learning 6-DoF Object Poses to Grasp Category-level Objects by Language Instructions ( http://arxiv.org/abs/2205.04028v1 )

ライセンス: CC BY 4.0
Chilam Cheang, Haitao Lin, Yanwei Fu, Xiangyang Xue(参考訳) 本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。 このタスクはコンピュータビジョン、自然言語処理、ロボット工学のテクニックを必要とする。 我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。 重要な課題は、言語的指示からオブジェクトのカテゴリを推定し、既知のクラスから見えないオブジェクトの6-DoF情報を正確に推定することである。 対照的に、以前の研究はインスタンスレベルでオブジェクト候補のポーズを推測することに重点を置いていた。 本稿では,人間の意図を理解してロボットによる把持を実現するための,言語誘導型6自由度物体定位モデルを提案する。 そこで本研究では,新しい2段階法を提案する。 特に、第1ステージでは、オブジェクトの名前、属性、空間関係の言語記述を通じて、RGBイメージのターゲットをグラウンド化する。 第2段階は、収穫した深度画像から点雲を抽出し、全6-DoFオブジェクトをカテゴリレベルで推定する。 このような方法で,本手法では,人間の指示に従うことで特定の対象の特定が可能であり,モデルトレーニングに使用されていないカテゴリが未知のインスタンスの完全な6-DoFポーズを推定することができる。 その結果,本手法は最先端の言語条件把握手法と競合することがわかった。 重要なのは、現実世界のアプリケーションでフレームワークのユーザビリティを検証するために、私たちのアプローチを物理的ロボットにデプロイすることです。 私たちのロボット実験のデモビデオは、補足書を参照してください。

This paper studies the task of any objects grasping from the known categories by free-form language instructions. This task demands the technique in computer vision, natural language processing, and robotics. We bring these disciplines together on this open challenge, which is essential to human-robot interaction. Critically, the key challenge lies in inferring the category of objects from linguistic instructions and accurately estimating the 6-DoF information of unseen objects from the known classes. In contrast, previous works focus on inferring the pose of object candidates at the instance level. This significantly limits its applications in real-world scenarios.In this paper, we propose a language-guided 6-DoF category-level object localization model to achieve robotic grasping by comprehending human intention. To this end, we propose a novel two-stage method. Particularly, the first stage grounds the target in the RGB image through language description of names, attributes, and spatial relations of objects. The second stage extracts and segments point clouds from the cropped depth image and estimates the full 6-DoF object pose at category-level. Under such a manner, our approach can locate the specific object by following human instructions, and estimate the full 6-DoF pose of a category-known but unseen instance which is not utilized for training the model. Extensive experimental results show that our method is competitive with the state-of-the-art language-conditioned grasp method. Importantly, we deploy our approach on a physical robot to validate the usability of our framework in real-world applications. Please refer to the supplementary for the demo videos of our robot experiments.
翻訳日:2022-05-10 23:44:37 公開日:2022-05-09
# (参考訳) 多変量時系列データの深部フェデレーション異常検出 [全文訳有]

Deep Federated Anomaly Detection for Multivariate Time Series Data ( http://arxiv.org/abs/2205.04041v1 )

ライセンス: CC BY 4.0
Wei Zhu, Dongjin Song, Yuncong Chen, Wei Cheng, Bo Zong, Takehiko Mizoguchi, Cristian Lumezanu, Haifeng Chen, Jiebo Luo(参考訳) 多変量時系列データに対する多くの異常検出手法が開発されているにもかかわらず、データ共有が禁止されている間、多変量時系列データを異なるエッジデバイス間で均一に分散するフェデレーション設定に限定的な取り組みがなされている。 本稿では,フェデレーション付き非教師付き異常検出の問題について検討し,フェデレーション付きエクセプタベースディープニューラルネットワーク(Fed-ExDNN)を用いて,異なるエッジデバイス上での多変量時系列データの異常検出を行う。 具体的には,まず,エッジデバイス毎に異なるパターンをキャプチャするために学習した隠れパラメータからなるexemplarモジュールとの互換性に基づいて,局所時系列表現を学習するexemplar-based deep neural network(exdnn)を設計した。 次に、集中サーバ上に制約付きクラスタリング機構(FedCC)を用いて、異なるローカルな例のモジュールのパラメータをアライメントし集約し、統一されたグローバルな例のモジュールを得る。 最後に、グローバルな例題モジュールを各エッジデバイスに共有機能エンコーダと共に配置し、例題モジュールに対するテストデータの互換性を調べて異常検出を行う。 fed-exdnnは、exdnnでローカルな正規時系列パターンをキャプチャし、feedccでこれらのパターンを集約することで、異なるエッジデバイスに分散した異種データを同時に処理することができる。 ExDNNとFed-ExDNNは、最先端の異常検出アルゴリズムとフェデレートされた学習技術より優れていることを示す。

Despite the fact that many anomaly detection approaches have been developed for multivariate time series data, limited effort has been made on federated settings in which multivariate time series data are heterogeneously distributed among different edge devices while data sharing is prohibited. In this paper, we investigate the problem of federated unsupervised anomaly detection and present a Federated Exemplar-based Deep Neural Network (Fed-ExDNN) to conduct anomaly detection for multivariate time series data on different edge devices. Specifically, we first design an Exemplar-based Deep Neural network (ExDNN) to learn local time series representations based on their compatibility with an exemplar module which consists of hidden parameters learned to capture varieties of normal patterns on each edge device. Next, a constrained clustering mechanism (FedCC) is employed on the centralized server to align and aggregate the parameters of different local exemplar modules to obtain a unified global exemplar module. Finally, the global exemplar module is deployed together with a shared feature encoder to each edge device and anomaly detection is conducted by examining the compatibility of testing data to the exemplar module. Fed-ExDNN captures local normal time series patterns with ExDNN and aggregates these patterns by FedCC, and thus can handle the heterogeneous data distributed over different edge devices simultaneously. Thoroughly empirical studies on six public datasets show that ExDNN and Fed-ExDNN can outperform state-of-the-art anomaly detection algorithms and federated learning techniques.
翻訳日:2022-05-10 23:26:53 公開日:2022-05-09
# (参考訳) 自然発生入力と出力の少ないマイニング [全文訳有]

Few-shot Mining of Naturally Occurring Inputs and Outputs ( http://arxiv.org/abs/2205.04050v1 )

ライセンス: CC BY 4.0
Mandar Joshi and Terra Blevins and Mike Lewis and Daniel S. Weld and Luke Zettlemoyer(参考訳) ラベル付き自然言語トレーニングデータの作成は費用がかかり、かなりの努力を要する。 我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。 マイニングは,(1)入力と潜在的な出力を組み合わせるbiencoderに基づくリコール指向の高密度検索,(2)biencoderステージの出力を再ランク付けするクロスエンコーダベースのフィルタの2段階からなる。 モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。 SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の改善が得られた。 同様に、Xsum抽象要約における 1.46 ROUGE-L の改善が見られる。

Creating labeled natural language training data is expensive and requires significant human effort. We mine input output examples from large corpora using a supervised mining function trained using a small seed set of only 100 examples. The mining consists of two stages -- (1) a biencoder-based recall-oriented dense search which pairs inputs with potential outputs, and (2) a crossencoder-based filter which re-ranks the output of the biencoder stage for better precision. Unlike model-generated data augmentation, our method mines naturally occurring high-quality input output pairs to mimic the style of the seed set for multiple tasks. On SQuAD-style reading comprehension, augmenting the seed set with the mined data results in an improvement of 13 F1 over a BART-large baseline fine-tuned only on the seed set. Likewise, we see improvements of 1.46 ROUGE-L on Xsum abstractive summarization.
翻訳日:2022-05-10 23:06:56 公開日:2022-05-09
# (参考訳) siameseニューラルネットワークを用いたrydberg原子配列位相図の教師なし学習 [全文訳有]

Unsupervised Learning of Rydberg Atom Array Phase Diagram with Siamese Neural Networks ( http://arxiv.org/abs/2205.04051v1 )

ライセンス: CC BY 4.0
Zakaria Patel, Ejaaz Merali, Sebastian J. Wetzel(参考訳) 位相境界を検出するために,SNN(Siamese Neural Networks)に基づく教師なし機械学習手法を提案する。 本手法はIsing型系とRydberg原子配列のモンテカルロシミュレーションに適用する。 どちらの場合も、SNNは以前の研究と相反する相境界を明らかにする。 フィードフォワードニューラルネットワークのパワー、教師なし学習、そしてそれらの存在を知らずに複数のフェーズについて学ぶ能力の組み合わせは、新しい未知の物質相を探索する強力な方法を提供する。

We introduce an unsupervised machine learning method based on Siamese Neural Networks (SNN) to detect phase boundaries. This method is applied to Monte-Carlo simulations of Ising-type systems and Rydberg atom arrays. In both cases the SNN reveals phase boundaries consistent with prior research. The combination of leveraging the power of feed-forward neural networks, unsupervised learning and the ability to learn about multiple phases without knowing about their existence provides a powerful method to explore new and unknown phases of matter.
翻訳日:2022-05-10 22:51:33 公開日:2022-05-09
# (参考訳) 複雑なシステムの分類へのアプローチ:単語、テキストなど

Approaches to the classification of complex systems: Words, texts, and more ( http://arxiv.org/abs/2205.04060v1 )

ライセンス: CC BY 4.0
Andrij Rovenchak(参考訳) 章は、ランク-周波数依存、zipfの法則、周波数スペクトルなど、量的言語学の概念に関する入門情報から始まる。 量子アンサンブルにおけるレベル占有を持つテキストにおける単語の分布の類似性は、統計物理学との表層的類似性を暗示している。 これにより、「温度」、「化学的ポテンシャル」、「エントロピー」など、この物理的類似に基づいてテキストの様々なパラメータを定義することができる。 このようなパラメータは、複雑なシステムの例として機能するテキストを分類する変数のセットを提供する。 さらに、テキストはおそらく収集および分析する最も簡単な複雑なシステムである。 同様のアプローチは、例えば、よく知られた言語類似物によるゲノムを研究するために開発することができる。 ミトコンドリアdnaおよびウイルスrnaのヌクレオチド配列を定義するいくつかのアプローチを検討し、ゲノムの比較解析のための補助的ツールとしてそれらの応用を実証する。 最後に, ランク周波数依存性から容易に計算できるパラメータの1つとしてエントロピーについて考察する。 複素系の分類のいくつかの問題において識別パラメータであるため、エントロピーは限定された問題のクラスでのみ適切な解釈を与えることができる。 これまでのところ、その全体的な役割と重要性は未解決のままである。

The Chapter starts with introductory information about quantitative linguistics notions, like rank--frequency dependence, Zipf's law, frequency spectra, etc. Similarities in distributions of words in texts with level occupation in quantum ensembles hint at a superficial analogy with statistical physics. This enables one to define various parameters for texts based on this physical analogy, including "temperature", "chemical potential", entropy, and some others. Such parameters provide a set of variables to classify texts serving as an example of complex systems. Moreover, texts are perhaps the easiest complex systems to collect and analyze. Similar approaches can be developed to study, for instance, genomes due to well-known linguistic analogies. We consider a couple of approaches to define nucleotide sequences in mitochondrial DNAs and viral RNAs and demonstrate their possible application as an auxiliary tool for comparative analysis of genomes. Finally, we discuss entropy as one of the parameters, which can be easily computed from rank--frequency dependences. Being a discriminating parameter in some problems of classification of complex systems, entropy can be given a proper interpretation only in a limited class of problems. Its overall role and significance remain an open issue so far.
翻訳日:2022-05-10 22:33:24 公開日:2022-05-09
# (参考訳) 学生論文作成のための自動評価:調査 [全文訳有]

Automated Evaluation for Student Argumentative Writing: A Survey ( http://arxiv.org/abs/2205.04083v1 )

ライセンス: CC BY 4.0
Xinyu Wang, Yohan Lee, Juneyoung Park(参考訳) 本稿では,学生論文の自動評価という,未研究領域における研究成果の調査と整理を行う。 総合的なエッセイ評価に焦点を当てた従来の自動筆記評価とは異なり、この分野はより具体的であり、議論的エッセイの評価に焦点を当て、議論構造、議論強度特性スコアなどを含む特定のフィードバックを提供する。 集中的かつ詳細な評価は、学生が重要な議論スキルを得るのを助けるのに役立つ。 本稿では,タスクやデータ,メソッドに関する既存の作業を整理する。 我々はさらに、この分野の最新のベースラインを提供するために、代表データセット上でBERTを実験する。

This paper surveys and organizes research works in an under-studied area, which we call automated evaluation for student argumentative writing. Unlike traditional automated writing evaluation that focuses on holistic essay scoring, this field is more specific: it focuses on evaluating argumentative essays and offers specific feedback, including argumentation structures, argument strength trait score, etc. The focused and detailed evaluation is useful for helping students acquire important argumentation skill. In this paper we organize existing works around tasks, data and methods. We further experiment with BERT on representative datasets, aiming to provide up-to-date baselines for this field.
翻訳日:2022-05-10 22:31:16 公開日:2022-05-09
# (参考訳) 言語間輸血の評価のためのバランスドデータアプローチ--言語性血液バンクのマッピング [全文訳有]

A Balanced Data Approach for Evaluating Cross-Lingual Transfer: Mapping the Linguistic Blood Bank ( http://arxiv.org/abs/2205.04086v1 )

ライセンス: CC BY 4.0
Dan Malkin, Tomasz Limisiewicz, Gabriel Stanovsky(参考訳) プレトレーニング言語の選択は,BERTモデルに対する下流言語間移動に影響を及ぼすことを示す。 本研究では,データサイズの相違を軽減し,ドナーとして下流性能を向上させる事前学習言語を分類し,受信者としてゼロショット性能を改善する言語について検討する。 我々は、これらの関係を推定するために言語数における二次時間複雑性の方法を開発した。 本手法は,異なる言語特徴と2つの下流課題にまたがる多様な言語に対して有効であることがわかった。 より優れた事前学習構成を選択することで,大規模多言語モデルの開発者に通知することができる。

We show that the choice of pretraining languages affects downstream cross-lingual transfer for BERT-based models. We inspect zero-shot performance in balanced data conditions to mitigate data size confounds, classifying pretraining languages that improve downstream performance as donors, and languages that are improved in zero-shot performance as recipients. We develop a method of quadratic time complexity in the number of languages to estimate these relations, instead of an exponential exhaustive computation of all possible combinations. We find that our method is effective on a diverse set of languages spanning different linguistic features and two downstream tasks. Our findings can inform developers of large-scale multilingual language models in choosing better pretraining configurations.
翻訳日:2022-05-10 22:16:15 公開日:2022-05-09
# (参考訳) 相変わらず似てる! 制約付き教師なしテキストスタイル転送 [全文訳有]

So Different Yet So Alike! Constrained Unsupervised Text Style Transfer ( http://arxiv.org/abs/2205.04093v1 )

ライセンス: CC BY 4.0
Abhinav Ramesh Kashyap, Devamanyu Hazarika, Min-Yen Kan, Roger Zimmermann, Soujanya Poria(参考訳) 近年ではドメイン間のテキストの自動転送が普及している。 その目的の1つは、ソースからターゲットドメインへ翻訳されるテキストの意味的コンテンツを保存することである。 しかし、テキストの長さや記述性など、ソースと翻訳テキストの間の他の属性を明示的に保持していない。 転送の制約を維持するには、データ拡張やデバイアスを含むいくつかの下流アプリケーションがある。 本稿では,GAN(Generative Adversarial Network)モデルに2つの相補的損失を導入することによって,そのような制約のないテキストスタイル転送を実現する手法を提案する。 GANにおける競合的損失とは違って,識別器とジェネレータが協調して同じ損失を減少させる協調的損失を導入する。 1つは対照的な損失であり、もう1つは分類損失であり、潜在空間をさらに規則化し、類似した文をドメイン全体に近づけることを目的としている。 このようなトレーニングは複数のベンチマークデータセットに対するドメイン間の語彙的制約、構文的制約、ドメイン固有の制約を保ち、複数の属性が変更されることを実証する。 自動評価と人的評価の両面で,補完的な協調的損失がテキスト品質を向上させることを示す。

Automatic transfer of text between domains has become popular in recent times. One of its aims is to preserve the semantic content of text being translated from source to target domain. However, it does not explicitly maintain other attributes between the source and translated text, for e.g., text length and descriptiveness. Maintaining constraints in transfer has several downstream applications, including data augmentation and de-biasing. We introduce a method for such constrained unsupervised text style transfer by introducing two complementary losses to the generative adversarial network (GAN) family of models. Unlike the competing losses used in GANs, we introduce cooperative losses where the discriminator and the generator cooperate and reduce the same loss. The first is a contrastive loss and the second is a classification loss, aiming to regularize the latent space further and bring similar sentences across domains closer together. We demonstrate that such training retains lexical, syntactic, and domain-specific constraints between domains for multiple benchmark datasets, including ones where more than one attribute change. We show that the complementary cooperative losses improve text quality, according to both automated and human evaluation measures.
翻訳日:2022-05-10 22:02:08 公開日:2022-05-09
# (参考訳) SmoothNets: 微分プライベートディープラーニングのためのCNNアーキテクチャ設計の最適化 [全文訳有]

SmoothNets: Optimizing CNN architecture design for differentially private deep learning ( http://arxiv.org/abs/2205.04095v1 )

ライセンス: CC BY 4.0
Nicolas W. Remerscheid, Alexander Ziller, Daniel Rueckert, Georgios Kaissis(参考訳) 差分プライバシを持つディープニューラルネットワークをトレーニングするために最も広く使用されているアルゴリズムは、サンプル毎の勾配のクリッピングとノージングを必要とするdpsgdである。 これにより、非プライベートトレーニングに比べてモデルユーティリティが削減される。 経験的に、この精度の劣化がモデルアーキテクチャに強く依存していることが観察できる。 この現象を調査し,個々の性能を示す成分を組み合わせることで,dp-sgdトレーニングの課題に対する頑健性の向上を特徴とする,smoothnetと呼ばれる新しいモデルアーキテクチャを蒸留した。 実験では,2つのベンチマークデータセットの標準アーキテクチャに対してSmoothNetをベンチマークし,CIFAR-10の精度を$\varepsilon=7.0$で73.5\%,ImageNetteの$\varepsilon=7.0$で69.2\%とした。

The arguably most widely employed algorithm to train deep neural networks with Differential Privacy is DPSGD, which requires clipping and noising of per-sample gradients. This introduces a reduction in model utility compared to non-private training. Empirically, it can be observed that this accuracy degradation is strongly dependent on the model architecture. We investigated this phenomenon and, by combining components which exhibit good individual performance, distilled a new model architecture termed SmoothNet, which is characterised by increased robustness to the challenges of DP-SGD training. Experimentally, we benchmark SmoothNet against standard architectures on two benchmark datasets and observe that our architecture outperforms others, reaching an accuracy of 73.5\% on CIFAR-10 at $\varepsilon=7.0$ and 69.2\% at $\varepsilon=7.0$ on ImageNette, a state-of-the-art result compared to prior architectural modifications for DP.
翻訳日:2022-05-10 21:42:09 公開日:2022-05-09
# (参考訳) ReCAB-VAE:解析的多様性に基づくGumbel-Softmax変分推定 [全文訳有]

ReCAB-VAE: Gumbel-Softmax Variational Inference Based on Analytic Divergence ( http://arxiv.org/abs/2205.04104v1 )

ライセンス: CC BY 4.0
Sangshin Oh, Seyun Um, Hong-Goo Kang(参考訳) グンベル・ソフトマックス分布(gumbel-softmax distribution)は、しばしばカテゴリー分布の離散的特性を緩和し、微分可能な再パラメータ化によるバックプロパゲーションを可能にするために用いられる。 確実に分散勾配は低いが、最適化のための確率的サンプリングプロセスに依存している。 本研究では,リラックスしたカテゴリー分布のkullback-leibler divergence(kld)の上限に対応する,新しい発散様計量recab(relaxed categorical analytic bound)を提案する。 提案した計量は閉形式解を持つため実装が容易であり、実験結果から実際のKLDに近いことが分かる。 この新たな指標とともに、連続および緩和された離散潜在表現の両方をモデル化する緩やかな分類的境界変動オートエンコーダ(ReCAB-VAE)を提案する。 本稿では,提案手法に基づく感情音声合成システムを実装し,確率的推定やカテゴリ分布近似を用いたベースラインと比較して,感情表現を柔軟かつ安定的に制御できることを示す。

The Gumbel-softmax distribution, or Concrete distribution, is often used to relax the discrete characteristics of a categorical distribution and enable back-propagation through differentiable reparameterization. Although it reliably yields low variance gradients, it still relies on a stochastic sampling process for optimization. In this work, we present a relaxed categorical analytic bound (ReCAB), a novel divergence-like metric which corresponds to the upper bound of the Kullback-Leibler divergence (KLD) of a relaxed categorical distribution. The proposed metric is easy to implement because it has a closed form solution, and empirical results show that it is close to the actual KLD. Along with this new metric, we propose a relaxed categorical analytic bound variational autoencoder (ReCAB-VAE) that successfully models both continuous and relaxed discrete latent representations. We implement an emotional text-to-speech synthesis system based on the proposed framework, and show that the proposed system flexibly and stably controls emotion expressions with better speech quality compared to baselines that use stochastic estimation or categorical distribution approximation.
翻訳日:2022-05-10 21:33:24 公開日:2022-05-09
# (参考訳) 情報検索からみた知識グラフ完成度評価の再検討 [全文訳有]

Re-thinking Knowledge Graph Completion Evaluation from an Information Retrieval Perspective ( http://arxiv.org/abs/2205.04105v1 )

ライセンス: CC BY 4.0
Ying Zhou, Xuanang Chen, Ben He, Zheng Ye, Le Sun(参考訳) 知識グラフ補完(kgc)は、知識グラフの既知の事実に基づく知識三重項の推測を目的とする。 現在のKGC研究は、主にエンティティランキングプロトコルに従っており、その有効性は、テストトリプルにおけるマスクされたエンティティの予測ランクによって測定される。 全体的なパフォーマンスは、すべての個々の回答エンティティに対するmicro(平均)メトリックによって与えられる。 大規模知識基盤の不完全性のため、このようなエンティティのランキング設定は、未ラベルのトップランクのポジティブな例の影響を受けやすいため、現在の評価プロトコルがKGCシステムの公正な比較を保証するのに十分かどうかという疑問が提起される。 そこで,本稿では,ラベルスパーシティが現在のkgc評価にどのように影響するかを,マイクロメトリクスを用いて体系的に検討する。 具体的には、大規模な情報検索(IR)実験のためのTRECパラダイムに着想を得て、TRECプーリング法に従って人気のあるFB15k-237データセットのサンプルに基づいて、比較的「完全な」判定セットを作成する。 私たちの分析によると、オリジナルのラベルから"完全"のラベルに切り替えると、マイクロメトリックスの観点から、13の一般的なkgcモデルのシステムランキングが劇的に変わってしまうのは驚きです。 さらなる調査により、IRライクなマクロ(平均値)メトリクスは、異なる設定下でより安定で差別的であり、ラベルの間隔の影響が少ないことが示されている。 そこで我々は,KGC評価において,人間の努力とラベル完全性のバランスをとるためにTRECスタイルのプーリングを行うことを推奨し,KGCタスクのランキング特性を反映するIRライクなマクロメトリクスも報告する。

Knowledge graph completion (KGC) aims to infer missing knowledge triples based on known facts in a knowledge graph. Current KGC research mostly follows an entity ranking protocol, wherein the effectiveness is measured by the predicted rank of a masked entity in a test triple. The overall performance is then given by a micro(-average) metric over all individual answer entities. Due to the incomplete nature of the large-scale knowledge bases, such an entity ranking setting is likely affected by unlabelled top-ranked positive examples, raising questions on whether the current evaluation protocol is sufficient to guarantee a fair comparison of KGC systems. To this end, this paper presents a systematic study on whether and how the label sparsity affects the current KGC evaluation with the popular micro metrics. Specifically, inspired by the TREC paradigm for large-scale information retrieval (IR) experimentation, we create a relatively "complete" judgment set based on a sample from the popular FB15k-237 dataset following the TREC pooling method. According to our analysis, it comes as a surprise that switching from the original labels to our "complete" labels results in a drastic change of system ranking of a variety of 13 popular KGC models in terms of micro metrics. Further investigation indicates that the IR-like macro(-average) metrics are more stable and discriminative under different settings, meanwhile, less affected by label sparsity. Thus, for KGC evaluation, we recommend conducting TREC-style pooling to balance between human efforts and label completeness, and reporting also the IR-like macro metrics to reflect the ranking nature of the KGC task.
翻訳日:2022-05-10 21:18:20 公開日:2022-05-09
# (参考訳) 機械学習に基づくネットワーク侵入検知システムの汎用性について [全文訳有]

On Generalisability of Machine Learning-based Network Intrusion Detection Systems ( http://arxiv.org/abs/2205.04112v1 )

ライセンス: CC BY 4.0
Siamak Layeghy, Marius Portmann(参考訳) 提案する機械学習(ML)ベースのネットワーク侵入検出システム(NIDS)の多くは、合成ベンチマークデータセットで評価すると、ほぼ完璧な検出性能が得られる。 しかし、これらの結果が他のネットワークシナリオ、特に現実世界のネットワークに一般化するかどうかは記録されていない。 本稿では、最近発表された4つのベンチマークNIDSデータセット上で、7つの教師付き学習モデルおよび教師なし学習モデルを広範囲に評価することにより、MLベースのNIDSの汎用性について検討する。 我々の調査は、検討されたモデルのうちどのモデルもすべての研究データセットを一般化できないことを示唆している。 興味深いことに, 一般化可能性には高い非対称性があり, ソース領域とターゲット領域の入れ替えは分類性能を大きく変化させる可能性がある。 また,本研究では,教師なし学習手法が,検討シナリオにおける教師付き学習モデルよりも一般化されていることも示唆した。 これらの結果を説明するために SHAP 値を用いることで、一般可能性の欠如は主に、1つ以上の特徴の値と1つのデータセットモデルの組み合わせにおけるアタック/ベニオンクラスと、異なる特徴分布を持つ他のデータセットが存在しないことによる。

Many of the proposed machine learning (ML) based network intrusion detection systems (NIDSs) achieve near perfect detection performance when evaluated on synthetic benchmark datasets. Though, there is no record of if and how these results generalise to other network scenarios, in particular to real-world networks. In this paper, we investigate the generalisability property of ML-based NIDSs by extensively evaluating seven supervised and unsupervised learning models on four recently published benchmark NIDS datasets. Our investigation indicates that none of the considered models is able to generalise over all studied datasets. Interestingly, our results also indicate that the generalisability has a high degree of asymmetry, i.e., swapping the source and target domains can significantly change the classification performance. Our investigation also indicates that overall, unsupervised learning methods generalise better than supervised learning models in our considered scenarios. Using SHAP values to explain these results indicates that the lack of generalisability is mainly due to the presence of strong correspondence between the values of one or more features and Attack/Benign classes in one dataset-model combination and its absence in other datasets that have different feature distributions.
翻訳日:2022-05-10 20:53:02 公開日:2022-05-09
# (参考訳) 局所化adversarial domain generalization

Localized Adversarial Domain Generalization ( http://arxiv.org/abs/2205.04114v1 )

ライセンス: CC BY 4.0
Wei Zhu, Le Lu, Jing Xiao, Mei Han, Jiebo Luo, Adam P. Harrison(参考訳) ディープラーニングメソッドは、トレーニングデータに見られないドメインシフトに対処するのに苦労する可能性がある。 このことが、モデルの分散外化能力の一般化を目標とするドメイン一般化(dg)の研究につながった。 対数領域の一般化はDGに対する一般的なアプローチであるが、(1) 従来のアプローチでは、局所的な近傍がドメイン間で混在するように特徴を十分に整合させることに苦慮し、(2) 一般化性能を脅かすような崩壊に伴う特徴空間に苦しむことができる。 これらの制約に対処するために、空間コンパクト性維持~(LADG)による局所的対向領域一般化を提案する。 まず, ドメイン識別子として, 主分枝とともに, 逆局所化分類器を提案する。 これによりミニマックスゲームが構築され、フェアチュライザの目的は局所的な混合領域を作ることである。 第二に,機能空間の崩壊を緩和するために,符号化速度損失を用いることを提案する。 我々のアプローチを検証するために、Wilds DGベンチマークで包括的な実験を行い、LADGはほとんどのデータセットで競合相手よりも優れています。

Deep learning methods can struggle to handle domain shifts not seen in training data, which can cause them to not generalize well to unseen domains. This has led to research attention on domain generalization (DG), which aims to the model's generalization ability to out-of-distribution. Adversarial domain generalization is a popular approach to DG, but conventional approaches (1) struggle to sufficiently align features so that local neighborhoods are mixed across domains; and (2) can suffer from feature space over collapse which can threaten generalization performance. To address these limitations, we propose localized adversarial domain generalization with space compactness maintenance~(LADG) which constitutes two major contributions. First, we propose an adversarial localized classifier as the domain discriminator, along with a principled primary branch. This constructs a min-max game whereby the aim of the featurizer is to produce locally mixed domains. Second, we propose to use a coding-rate loss to alleviate feature space over collapse. We conduct comprehensive experiments on the Wilds DG benchmark to validate our approach, where LADG outperforms leading competitors on most datasets.
翻訳日:2022-05-10 20:31:44 公開日:2022-05-09
# (参考訳) 仮想現実における固定とサッカードの同定 [全文訳有]

Identifying Fixation and Saccades in Virtual Reality ( http://arxiv.org/abs/2205.04121v1 )

ライセンス: CC BY 4.0
Xiao-lin Chen and Wen-jun Hou(参考訳) 視線認識は、認知および視覚処理をよりよく理解するために、眼球運動データ量を大幅に削減することができる。 視線認識は、仮想現実における視線に基づくインタラクションアプリケーションにとって必須の前提条件である。 しかし、仮想現実環境の3次元特性は、既存の認識アルゴリズムにも新たな課題をもたらす。 7つの評価指標と総合スコア(7つの正規化基準値の平均値)に基づいて、3つの既存の認識アルゴリズム(Velocity-Threshold Identification、Dispersion-Threshold Identification、Velocity & Dispersion-Threshold Identification)と修正Velocity & Dispersion-Threshold Identificationアルゴリズムの最適パラメータを求める。 これら4つのアルゴリズムの性能を最適パラメータと比較する。 その結果,修正したVelocity & Dispersion-Threshold Identificationが最良であることがわかった。 インタフェースの複雑さが分類結果に与える影響も事前に検討されている。 その結果,アルゴリズムはインタフェースの複雑さに敏感ではないことがわかった。

Gaze recognition can significantly reduce the amount of eye movement data for a better understanding of cognitive and visual processing. Gaze recognition is an essential precondition for eye-based interaction applications in virtual reality. However, the three-dimensional characteristics of virtual reality environments also pose new challenges to existing recognition algorithms. Based on seven evaluation metrics and the Overall score (the mean of the seven normalized metric values), we obtain optimal parameters of three existing recognition algorithms (Velocity-Threshold Identification, Dispersion-Threshold Identification, and Velocity & Dispersion-Threshold Identification) and our modified Velocity & Dispersion-Threshold Identification algorithm. We compare the performance of these four algorithms with optimal parameters. The results show that our modified Velocity & Dispersion-Threshold Identification performs the best. The impact of interface complexity on classification results is also preliminarily explored. The results show that the algorithms are not sensitive to interface complexity.
翻訳日:2022-05-10 20:30:43 公開日:2022-05-09
# (参考訳) 局所的予測集約: フラストレーションやすいソースフリードメイン適応法 [全文訳有]

Local Prediction Aggregation: A Frustratingly Easy Source-free Domain Adaptation Method ( http://arxiv.org/abs/2205.04183v1 )

ライセンス: CC BY 4.0
Shiqi Yang, Yaxing Wang, Kai Wang, Joost van de Weijer, Shangling Jui(参考訳) 本稿では,sfda(source-free domain adaptation)法を提案する。 sfdaを教師なしクラスタリング問題として扱い,特徴空間内の局所の隣人が他の特徴よりも類似した予測を持つべきだという直観に従って,予測一貫性の目的を最適化する。 この目的は、特徴空間内の局所的な特徴が類似した予測を持つのに対して、特徴空間内のより遠くにある特徴が異なる予測を持つように促し、効率的な特徴クラスタリングとクラスタ割り当てを同時に実現する。 効率的な学習のために,2つの簡単な用語を含む目的の上限を最適化する。 さらに, 識別可能性と多様性の観点から, ドメイン適応, ソースフリードメイン適応, コントラスト学習において, 一般的な既存手法を関連付ける。 本手法は,sfdaの今後の研究において,単純かつ強固なベースラインとして採用できることを示す実験結果である。 コードはhttps://github.com/A lbert0147/LPA_SFDAで入手できる。

We propose a simple but effective source-free domain adaptation (SFDA) method. Treating SFDA as an unsupervised clustering problem and following the intuition that local neighbors in feature space should have more similar predictions than other features, we propose to optimize an objective of prediction consistency. This objective encourages local neighborhood features in feature space to have similar predictions while features farther away in feature space have dissimilar predictions, leading to efficient feature clustering and cluster assignment simultaneously. For efficient training, we seek to optimize an upper-bound of the objective which contains two simple terms. Furthermore, we relate popular existing methods in domain adaptation, source-free domain adaptation and contrastive learning via the perspective of discriminability and diversity. The experimental results prove the superiority of our method, and our method can be adopted as a simple but strong baseline for future research in SFDA. Code is available in https://github.com/A lbert0147/LPA_SFDA.
翻訳日:2022-05-10 20:03:32 公開日:2022-05-09
# (参考訳) トルコ語テキストのターゲット感分析のためのデータセットとBERTに基づくモデル [全文訳有]

A Dataset and BERT-based Models for Targeted Sentiment Analysis on Turkish Texts ( http://arxiv.org/abs/2205.04185v1 )

ライセンス: CC BY 4.0
M. Melih Mutlu, Arzucan \"Ozg\"ur(参考訳) Targeted Sentiment Analysisは、あるテキストから特定のターゲットに対する感情を抽出することを目的としている。 インターネットのアクセシビリティの増大によって注目を集めている分野であり、膨大な量のデータを生成することができる。 感覚分析は、一般的にトレーニングのために注釈付きデータを必要とするが、英語などの広く研究されている言語にとって、よく研究されている分野である。 トルコ語のような低リソース言語では、アノテーション付きデータが不足している。 対象感情分析に適した注釈付きトルコ語データセットを提案する。 また,目標感情分析の課題を達成するために,異なるアーキテクチャのBERTモデルを提案する。 その結果,提案モデルが従来の感情分析モデルよりも優れていることがわかった。

Targeted Sentiment Analysis aims to extract sentiment towards a particular target from a given text. It is a field that is attracting attention due to the increasing accessibility of the Internet, which leads people to generate an enormous amount of data. Sentiment analysis, which in general requires annotated data for training, is a well-researched area for widely studied languages such as English. For low-resource languages such as Turkish, there is a lack of such annotated data. We present an annotated Turkish dataset suitable for targeted sentiment analysis. We also propose BERT-based models with different architectures to accomplish the task of targeted sentiment analysis. The results demonstrate that the proposed models outperform the traditional sentiment analysis models for the targeted sentiment analysis task.
翻訳日:2022-05-10 19:40:02 公開日:2022-05-09
# (参考訳) 視覚的質問応答のためのオブジェクトグラフと関係グラフの連成学習 [全文訳有]

Joint learning of object graph and relation graph for visual question answering ( http://arxiv.org/abs/2205.04188v1 )

ライセンス: CC BY 4.0
Hao Li, Xu Li, Belhal Karimi, Jie Chen, Mingming Sun(参考訳) シーングラフによる視覚的質問応答(VQA)のモデル化は、推論精度と解釈可能性を大幅に向上させることができる。 しかし、既存のモデルは、図1(a)で誤った属性選択または欠落関係を引き起こす属性または関係を持つ複雑な推論質問に対して不十分に答えている。 これらのモデルは、シーングラフにおけるあらゆる種類の情報のバランスが取れず、関係や属性情報を無視しているためである。 本稿では,マルチスケールのシーングラフ情報を適切に符号化することで,バランスのとれた表現が得られる新しいデュアルメッセージパス拡張グラフニューラルネットワーク(DM-GNN)を提案する。 具体的には (i)シーングラフをオブジェクトとリレーションに多様化した2つのグラフに変換し、それらをエンコードする双対構造を設計し、関係から重みを増加させる。 (ii) エンコーダ出力を属性特徴と融合させ、属性から重みを増加させる。 (iii)オブジェクト、リレーション、属性間の情報伝達を強化するメッセージパッシング機構を提案する。 我々は、GQA、VG、モチーフ-VGを含むデータセットに関する広範な実験を行い、新しい最先端技術を実現する。

Modeling visual question answering(VQA) through scene graphs can significantly improve the reasoning accuracy and interpretability. However, existing models answer poorly for complex reasoning questions with attributes or relations, which causes false attribute selection or missing relation in Figure 1(a). It is because these models cannot balance all kinds of information in scene graphs, neglecting relation and attribute information. In this paper, we introduce a novel Dual Message-passing enhanced Graph Neural Network (DM-GNN), which can obtain a balanced representation by properly encoding multi-scale scene graph information. Specifically, we (i)transform the scene graph into two graphs with diversified focuses on objects and relations; Then we design a dual structure to encode them, which increases the weights from relations (ii)fuse the encoder output with attribute features, which increases the weights from attributes; (iii)propose a message-passing mechanism to enhance the information transfer between objects, relations and attributes. We conduct extensive experiments on datasets including GQA, VG, motif-VG and achieve new state of the art.
翻訳日:2022-05-10 19:32:44 公開日:2022-05-09
# (参考訳) 対向学習を用いた産業モニタリングのための代替データ拡張 [全文訳有]

Alternative Data Augmentation for Industrial Monitoring using Adversarial Learning ( http://arxiv.org/abs/2205.04222v1 )

ライセンス: CC BY-SA 4.0
Silvan Mertes, Andreas Margraf, Steffen Geinitz, Elisabeth Andr\'e(参考訳) 視覚検査ソフトウェアは、品質管理とプロセス監視のために製造業において重要な要素となっている。 セマンティックセグメンテーションモデルは、より正確な検査を可能にするため重要になっている。 しかし、これらのモデルは十分な精度を達成するために大きな画像データセットを必要とする。 トレーニングデータは希少なものや十分なアノテーションが欠けているものもあり、特に高度に専門化された運用環境に適用できる。 データ拡張はデータセットを拡張するための一般的な戦略である。 それでも、画像は狭い範囲でしか変化しない。 本稿では,小さな画像データセットを補完する新しい戦略を提案する。 このアプローチは、特定の産業ユースケースである炭素繊維の表面モニタリングに応用される。 2値ラベルの作成には,問題調整三角関数とWGANモデルという2つの異なる手法を適用する。 その後、pix2pixを使用してカラー画像に変換され、u-netのトレーニングに使用される。 その結果、三角関数はWGANモデルよりも優れていることが示唆された。 しかし,得られた画像の精査により,WGANと画像間翻訳が良好なセグメンテーション結果を得ることができ,従来のデータ拡張からわずかにずれていることがわかった。 本研究は,生成型adversarial networkを用いたデータ合成の産業応用を考察し,実運用環境のモニタリングシステムへの可能性について検討する。 \keywords{Image-to-Image Translation, Carbon Fiber, Data Augmentation, Computer Vision, Industrial Monitoring, Adversarial Learning。

Visual inspection software has become a key factor in the manufacturing industry for quality control and process monitoring. Semantic segmentation models have gained importance since they allow for more precise examination. These models, however, require large image datasets in order to achieve a fair accuracy level. In some cases, training data is sparse or lacks of sufficient annotation, a fact that especially applies to highly specialized production environments. Data augmentation represents a common strategy to extend the dataset. Still, it only varies the image within a narrow range. In this article, a novel strategy is proposed to augment small image datasets. The approach is applied to surface monitoring of carbon fibers, a specific industry use case. We apply two different methods to create binary labels: a problem-tailored trigonometric function and a WGAN model. Afterwards, the labels are translated into color images using pix2pix and used to train a U-Net. The results suggest that the trigonometric function is superior to the WGAN model. However, a precise examination of the resulting images indicate that WGAN and image-to-image translation achieve good segmentation results and only deviate to a small degree from traditional data augmentation. In summary, this study examines an industry application of data synthesization using generative adversarial networks and explores its potential for monitoring systems of production environments. \keywords{Image-to-Image Translation, Carbon Fiber, Data Augmentation, Computer Vision, Industrial Monitoring, Adversarial Learning.
翻訳日:2022-05-10 19:22:50 公開日:2022-05-09
# (参考訳) 偽造データと意図しないバイアス:性差別とヘイトスピーチ検出の事例 [全文訳有]

Counterfactually Augmented Data and Unintended Bias: The Case of Sexism and Hate Speech Detection ( http://arxiv.org/abs/2205.04238v1 )

ライセンス: CC BY 4.0
Indira Sen, Mattia Samory, Claudia Wagner, and Isabelle Augenstein(参考訳) Counterfactually Augmented Data (CAD) は、モデル堅牢性の指標である領域外一般化性の向上を目的としている。 この改善は、たまたまそれと関連付けられたスプリアスアーティファクトよりも、コンストラクタのコア機能を促進することで評価されている。 しかし、コア機能への過剰な依存は意図しないモデルバイアスにつながる可能性がある。 特に、構成駆動CAD -- コア機能の摂動 -- は、コア機能を使用するコンテキストを無視してモデルを誘導する可能性がある。 ここでは、性差別とヘイトスピーチ検出のためのモデルをテストする。 これらのハードケースでは、CADで訓練されたモデル、特に構成駆動型CADは、元の未飽和データで訓練されたモデルよりも高い偽陽性率を示す。 構成駆動で構成に依存しない、さまざまなCADセットを使用することで、意図しないバイアスを減らします。

Counterfactually Augmented Data (CAD) aims to improve out-of-domain generalizability, an indicator of model robustness. The improvement is credited with promoting core features of the construct over spurious artifacts that happen to correlate with it. Yet, over-relying on core features may lead to unintended model bias. Especially, construct-driven CAD -- perturbations of core features -- may induce models to ignore the context in which core features are used. Here, we test models for sexism and hate speech detection on challenging data: non-hateful and non-sexist usage of identity and gendered terms. In these hard cases, models trained on CAD, especially construct-driven CAD, show higher false-positive rates than models trained on the original, unperturbed data. Using a diverse set of CAD -- construct-driven and construct-agnostic -- reduces such unintended bias.
翻訳日:2022-05-10 19:05:05 公開日:2022-05-09
# (参考訳) 深部マニホールドサンプラーのマルチセグメント保存サンプリング [全文訳有]

Multi-segment preserving sampling for deep manifold sampler ( http://arxiv.org/abs/2205.04259v1 )

ライセンス: CC BY 4.0
Daniel Berenberg, Jae Hyeon Lee, Simon Kelow, Ji Won Park, Andrew Watkins, Vladimir Gligorijevi\'c, Richard Bonneau, Stephen Ra, Kyunghyun Cho(参考訳) 生物学的シーケンスのディープジェネレーティブモデリングは、明示的な生物学的洞察とモデルの柔軟性の間のバイアス分散トレードオフを調停するユニークな課題である。 deep manifold samplerは、関数予測器からの勾配を利用して可変長タンパク質配列を反復的にサンプリングする方法として最近提案されている。 本稿では,入力シーケンスに沿って保存されたセグメントと保存されていないセグメントを指定することにより,ドメイン固有の知識を直接包含できるマルチセグメン保存サンプリング手法を提案する。 IGHV1-18遺伝子にアノテートされた600万の重鎖配列上で, ディープ・多様体・サンプルラーとGPT-2言語モデルという2つのモデルを訓練することにより, 抗体設計の文脈での有効性を示す。 サンプリング中は,入力の相補性決定領域3(CDR3)のみに変動が制限される。 サンプルCDR3毎にGPT-2モデルからログ確率スコアを取得し,所望の保存領域を維持しつつ,複数セグメント保存サンプリングが合理的な設計を生成することを示す。

Deep generative modeling for biological sequences presents a unique challenge in reconciling the bias-variance trade-off between explicit biological insight and model flexibility. The deep manifold sampler was recently proposed as a means to iteratively sample variable-length protein sequences by exploiting the gradients from a function predictor. We introduce an alternative approach to this guided sampling procedure, multi-segment preserving sampling, that enables the direct inclusion of domain-specific knowledge by designating preserved and non-preserved segments along the input sequence, thereby restricting variation to only select regions. We present its effectiveness in the context of antibody design by training two models: a deep manifold sampler and a GPT-2 language model on nearly six million heavy chain sequences annotated with the IGHV1-18 gene. During sampling, we restrict variation to only the complementarity-dete rmining region 3 (CDR3) of the input. We obtain log probability scores from a GPT-2 model for each sampled CDR3 and demonstrate that multi-segment preserving sampling generates reasonable designs while maintaining the desired, preserved regions.
翻訳日:2022-05-10 18:49:03 公開日:2022-05-09
# (参考訳) サイト一般化:見えない場所からの磁気共鳴画像におけるストローク病変分割 [全文訳有]

Site Generalization: Stroke Lesion Segmentation on Magnetic Resonance Images from Unseen Sites ( http://arxiv.org/abs/2205.04329v1 )

ライセンス: CC BY 4.0
Weiyi Yu, Zhizhong Huang, Junping Zhang, Hongming Shan(参考訳) 脳卒中が脳血管疾患の主な原因であることから,MRI画像における脳梗塞の自動切除には大きな関心がある。 深層学習に基づくモデルが提案されているが、異なるスキャナー、イメージングプロトコル、人口間の大きな間隙だけでなく、脳卒中病変の形状、大きさ、位置のばらつきから、これらのモデルを未発見の場所に一般化することは困難である。 そこで我々は, MR画像上での脳卒中病変のセグメンテーションのための, SG-Netと呼ばれるU-netベースのセグメンテーションネットワークを提案する。 具体的には,入力からアフィンパラメータを動的に学習することにより,異なるサイトからの入力MR画像をサイト非関連のスタイルに標準化し,サイト間差を最小限に抑えるためにマスク適応型インスタンス正規化(MAIN)を提案する。 そして、勾配反転層を利用してU-netエンコーダにサイト不変表現を学習させ、MAINとともにモデル一般化をさらに改善する。 最後に、人間の脳の「擬対称性」にインスパイアされ、SG-Net内に埋め込まれる単純で効果的なデータ拡張技術を導入し、メモリ消費を半減させながらサンプルサイズを2倍にする。 その結果、脳からの脳卒中病変は半球内で容易に特定でき、訓練の単純さが向上する。 9つの異なるサイトからのMR画像を含むAnatomical Tracings of Lesions After Stroke (ATLAS)データセットのベンチマーク実験結果から、提案したSG-Netは、"leave-one-site-out&q uot;設定の下で、定量測定と定性比較の点で、最近発表された手法を大幅に上回っていることが示された。

There are considerable interests in automatic stroke lesion segmentation on magnetic resonance (MR) images in the medical imaging field, as strokes are the main cause of various cerebrovascular diseases. Although deep learning-based models have been proposed for this task, generalizing these models to unseen sites is difficult due to not only the large intersite discrepancy among different scanners, imaging protocols, and populations but also the variations in stroke lesion shape, size, and location. Thus, we propose a U-net--based segmentation network termed SG-Net to improve unseen site generalization for stroke lesion segmentation on MR images. Specifically, we first propose masked adaptive instance normalization (MAIN) to minimize intersite discrepancies, standardizing input MR images from different sites into a site-unrelated style by dynamically learning affine parameters from the input. Then, we leverage a gradient reversal layer to force the U-net encoder to learn site-invariant representation, which further improves the model generalization in conjunction with MAIN. Finally, inspired by the "pseudosymmetry" of the human brain, we introduce a simple, yet effective data augmentation technique that can be embedded within SG-Net to double the sample size while halving memory consumption. As a result, stroke lesions from the whole brain can be easily identified within a hemisphere, improving the simplicity of training. Experimental results on the benchmark Anatomical Tracings of Lesions After Stroke (ATLAS) dataset, which includes MR images from 9 different sites, demonstrate that under the "leave-one-site-out&q uot; setting, the proposed SG-Net substantially outperforms recently published methods in terms of quantitative metrics and qualitative comparisons.
翻訳日:2022-05-10 18:36:31 公開日:2022-05-09
# EF-BV:分散最適化におけるバイアス圧縮とアンバイアス圧縮の誤差フィードバックとばらつき低減の統一理論

EF-BV: A Unified Theory of Error Feedback and Variance Reduction Mechanisms for Biased and Unbiased Compression in Distributed Optimization ( http://arxiv.org/abs/2205.04180v1 )

ライセンス: Link先を確認
Laurent Condat, Kai Yi, Peter Richt\'arik(参考訳) 分散最適化やフェデレーション最適化や学習では、異なる演算ユニット間の通信がボトルネックとなり、勾配圧縮は各通信ラウンド内の反復メソッドで送信されるビット数を減らすために広く使われているテクニックである。 圧縮演算子には2つのクラスがあり、それを利用するアルゴリズムは別々である。 有界分散を持つ非バイアスランダム圧縮機(例:rund-k)の場合、MishchenkoらによるDIANAアルゴリズムが用いられる。 圧縮によって引き起こされる分散を扱う分散低減技術を実装した[2019]が現在の技術である。 バイアスのある圧縮機(例えばトップ-k)の場合、EF21アルゴリズムはRicht\'arik et al である。 圧縮によって導入されたエラーを処理するエラーフィードバック機構を実装した[2021]が,その最先端技術である。 これら2つの圧縮スキームとアルゴリズムのクラスは異なる解析と証明技術を持つ。 本稿では,それらをひとつのフレームワークに統合し,新しいアルゴリズムを提案し,特にDIANAとEF21を復元する。 我々はある条件下で線形収束を証明する。 我々の一般的な手法は、特に非バイアス圧縮機とバイアス圧縮機を含む、より大規模な圧縮機で機能し、バイアスと分散の2つのパラメータを持つ。 これにより、より細かい制御が可能になり、バイアスド圧縮機(実際に優れた性能が認識されている)が使用できる2つの世界のベストを継承することができます。 そして、圧縮機の独立したランダム性は圧縮の影響を緩和し、並列作業者の数が大きい場合に収束速度が向上する。 これら全ての特徴を持つアルゴリズムが提案されたのはこれが初めてである。 本稿では,コミュニケーション効率のよい分散学習の2つの世界に対する理解を深める。

In distributed or federated optimization and learning, communication between the different computing units is often the bottleneck, and gradient compression is a widely used technique for reducing the number of bits sent within each communication round of iterative methods. There are two classes of compression operators and separate algorithms making use of them. In the case of unbiased random compressors with bounded variance (e.g., rand-k), the DIANA algorithm of Mishchenko et al. [2019], which implements a variance reduction technique for handling the variance introduced by compression, is the current state of the art. In the case of biased and contractive compressors (e.g., top-k), the EF21 algorithm of Richt\'arik et al. [2021], which implements an error-feedback mechanism for handling the error introduced by compression, is the current state of the art. These two classes of compression schemes and algorithms are distinct, with different analyses and proof techniques. In this paper, we unify them into a single framework and propose a new algorithm, recovering DIANA and EF21 as particular cases. We prove linear convergence under certain conditions. Our general approach works with a new, larger class of compressors, which includes unbiased and biased compressors as particular cases, and has two parameters, the bias and the variance. These gives a finer control and allows us to inherit the best of the two worlds: biased compressors, whose good performance in practice is recognized, can be used. And independent randomness at the compressors allows to mitigate the effects of compression, with the convergence rate improving when the number of parallel workers is large. This is the first time that an algorithm with all these features is proposed. Our approach takes a step towards better understanding of two so-far distinct worlds of communication-effici ent distributed learning.
翻訳日:2022-05-10 18:08:13 公開日:2022-05-09
# 音響データを用いた屋外走行条件の疲労予測

Fatigue Prediction in Outdoor Running Conditions using Audio Data ( http://arxiv.org/abs/2205.04343v1 )

ライセンス: Link先を確認
Andreas Triantafyllopoulos, Sandra Ottl, Alexander Gebhard, Esther Rituerto-Gonz\'alez, Mirko Jaumann, Steffen H\"uttner, Valerie Dieter, Patrick Schneewei{\ss}, Inga Krau{\ss}, Maurice Gerczuk, Shahin Amiriparian, and Bj\"orn W. Schuller(参考訳) ランニングは一般的なレジャー活動であり、数人のアスリートにとってコアトレーニング連隊であるが、毎年29セントから79セントのランナーが過剰な怪我を負っている。 この傷は過度の疲労と結びついており、人の走り方を変える。 本研究では, ランナーの腕に装着したスマートフォンを用いて, リアルな屋外環境において収集した音声データを用いて, 疲労の主観評価尺度であるborg received perception of exertion (rpe) scale ($[6-20]$) をモデル化する可能性を検討する。 畳み込みニューラルネットワーク (convolutional neural network, cnns) を対数メルスペクトログラムで使用することにより, 被験者依存実験で平均絶対誤差が2.35ドルとなり, 他のセンサの信号よりも容易に非侵襲的に取得できながら, 疲労を効果的にモデル化できることを示した。

Although running is a common leisure activity and a core training regiment for several athletes, between $29\%$ and $79\%$ of runners sustain an overuse injury each year. These injuries are linked to excessive fatigue, which alters how someone runs. In this work, we explore the feasibility of modelling the Borg received perception of exertion (RPE) scale (range: $[6-20]$), a well-validated subjective measure of fatigue, using audio data captured in realistic outdoor environments via smartphones attached to the runners' arms. Using convolutional neural networks (CNNs) on log-Mel spectrograms, we obtain a mean absolute error of $2.35$ in subject-dependent experiments, demonstrating that audio can be effectively used to model fatigue, while being more easily and non-invasively acquired than by signals from other sensors.
翻訳日:2022-05-10 18:07:43 公開日:2022-05-09
# 量子アニーラを用いたランク付けと分類のための特徴選択

Towards Feature Selection for Ranking and Classification Exploiting Quantum Annealers ( http://arxiv.org/abs/2205.04346v1 )

ライセンス: Link先を確認
Maurizio Ferrari Dacrema, Fabio Moroni, Riccardo Nembrini, Nicola Ferro, Guglielmo Faggioli, Paolo Cremonesi(参考訳) 特徴の選択は多くのランク付け、分類、予測タスクで一般的なステップであり、多くの目的に役立ちます。 冗長又はノイズのある特徴を除去することにより、ランキングや分類の精度を向上し、その後の学習ステップの計算コストを低減できる。 しかし、機能選択はそれ自体が計算コストの高いプロセスである。 何十年にもわたって、理論的なアルゴリズムの論文に限られてきたが、量子コンピューティングは現実的な問題、特に量子アニーリングパラダイムに基づく特別目的解法に対処するための有効なツールになりつつある。 本稿では,現在利用可能な量子コンピューティングアーキテクチャを用いて,ランク付けと分類の2次特徴選択アルゴリズムの実現可能性を検討する。 実験分析には15の最先端データセットが含まれている。 量子コンピューティングハードウェアで得られる有効性は古典的な解法に匹敵するものであり、量子コンピュータは興味深い問題に取り組むのに十分な信頼性を持っていることを示している。 スケーラビリティの面では、現在の量子コンピュータは、特定の古典的アルゴリズムに対して限られたスピードアップを提供することができ、ハイブリッド量子古典戦略は、1000以上の問題に対する計算コストが低いことを示している。

Feature selection is a common step in many ranking, classification, or prediction tasks and serves many purposes. By removing redundant or noisy features, the accuracy of ranking or classification can be improved and the computational cost of the subsequent learning steps can be reduced. However, feature selection can be itself a computationally expensive process. While for decades confined to theoretical algorithmic papers, quantum computing is now becoming a viable tool to tackle realistic problems, in particular special-purpose solvers based on the Quantum Annealing paradigm. This paper aims to explore the feasibility of using currently available quantum computing architectures to solve some quadratic feature selection algorithms for both ranking and classification. The experimental analysis includes 15 state-of-the-art datasets. The effectiveness obtained with quantum computing hardware is comparable to that of classical solvers, indicating that quantum computers are now reliable enough to tackle interesting problems. In terms of scalability, current generation quantum computers are able to provide a limited speedup over certain classical algorithms and hybrid quantum-classical strategies show lower computational cost for problems of more than a thousand features.
翻訳日:2022-05-10 18:07:24 公開日:2022-05-09
# (参考訳) インターネットトラフィック予測のためのウェーブレットに基づくハイブリッド機械学習モデル [全文訳有]

Wavelet-Based Hybrid Machine Learning Model for Out-of-distribution Internet Traffic Prediction ( http://arxiv.org/abs/2205.04333v1 )

ライセンス: CC BY 4.0
Sajal Saha, Anwar Haque, and Greg Sidebottom(参考訳) コンピュータネットワークの積極的な管理を確保するためには,インターネットトラフィックの効率的な予測が不可欠である。 今日では、機械学習アプローチは現実世界の複雑なトラフィックをモデル化する上で有望なパフォーマンスを示している。 しかし、既存の研究の多くは、モデルトレーニングと評価データは同一の分布から来ていると仮定している。 しかし実際には、モデルがデプロイメントフェーズにおけるわずかあるいは完全に未知の分布からのデータを扱う可能性は高い。 本稿では,高度勾配昇降機,光勾配昇降機,確率勾配降下機,勾配昇降器,キャットブースト回帰器,および同一分布およびアウトオブ分布のデータを用いた重ね合わせアンサンブルモデルを用いて,機械学習の性能を検証・評価した。 また,ウェーブレット分解を統合したハイブリッド機械学習モデルを提案した。 実験の結果,96.4%の精度で独立アンサンブルモデルの性能が向上したのに対し,ハイブリッドアンサンブルモデルは分布内データに対して1%向上した。 しかし、トレーニングセットよりも分散シフトを持つ3つの異なるデータセットでテストすると、パフォーマンスが大幅に低下した。 しかし,提案するハイブリッドモデルでは,同一分布評価と非分布評価との性能差が,単独モデルと比較してかなり小さくなり,分布汎化の場合の分解手法の有効性が示された。

Efficient prediction of internet traffic is essential for ensuring proactive management of computer networks. Nowadays, machine learning approaches show promising performance in modeling real-world complex traffic. However, most existing works assumed that model training and evaluation data came from identical distribution. But in practice, there is a high probability that the model will deal with data from a slightly or entirely unknown distribution in the deployment phase. This paper investigated and evaluated machine learning performances using eXtreme Gradient Boosting, Light Gradient Boosting Machine, Stochastic Gradient Descent, Gradient Boosting Regressor, CatBoost Regressor, and their stacked ensemble model using data from both identical and out-of distribution. Also, we proposed a hybrid machine learning model integrating wavelet decomposition for improving out-of-distribution prediction as standalone models were unable to generalize very well. Our experimental results show the best performance of the standalone ensemble model with an accuracy of 96.4%, while the hybrid ensemble model improved it by 1% for in-distribution data. But its performance dropped significantly when tested with three different datasets having a distribution shift than the training set. However, our proposed hybrid model considerably reduces the performance gap between identical and out-of-distribution evaluation compared with the standalone model, indicating the decomposition technique's effectiveness in the case of out-of-distribution generalization.
翻訳日:2022-05-10 18:05:49 公開日:2022-05-09
# フェデレートラーニングにおけるFHEとDPの併用による全政党のデータ保護

Protecting Data from all Parties: Combining FHE and DP in Federated Learning ( http://arxiv.org/abs/2205.04330v1 )

ライセンス: Link先を確認
Arnaud Grivet S\'ebert, Renaud Sirdey, Oana Stan, C\'edric Gouy-Pailler(参考訳) 本稿では,フェデレートされた学習コンテキストにおけるデータプライバシのトレーニングを確実にする問題に取り組む。 完全準同型暗号(fhe)と差分プライバシー(dp)に依拠して,トレーニングデータのプライバシに関して,拡張脅威モデルに対処するセキュアなフレームワークを提案する。 特に,提案フレームワークは,トレーニングデータ所有者と集約サーバのすべての参加者から,トレーニングデータのプライバシを保護している。 詳細は、準同型暗号は学習段階で半正真正銘のサーバーをブラインドするが、差分プライバシーはトレーニングプロセスに参加している半正真正銘のクライアントからデータを保護し、訓練されたモデルへのブラックボックスまたはホワイトボックスアクセスを持つ興味深いエンドユーザから保護する。 本稿は,これらの手法を効果的に組み合わせるための新しい理論的,実用的な結果を提供する。 特に、新しい確率量子化演算子を用いて、同相暗号を用いることにより、ノイズが量子化され境界付けられたコンテキストにおいて、差分プライバシー保証を証明する。 本論文は, モデル品質(DP)と計算オーバーヘッド(FHE)の両方の観点から, これらの干渉にもかかわらず, フレームワーク全体の実用性を示す実験によって締めくくられた。

This paper tackles the problem of ensuring training data privacy in a federated learning context. Relying on Fully Homomorphic Encryption (FHE) and Differential Privacy (DP), we propose a secure framework addressing an extended threat model with respect to privacy of the training data. Notably, the proposed framework protects the privacy of the training data from all participants, namely the training data owners and an aggregating server. In details, while homomorphic encryption blinds a semi-honest server at learning stage, differential privacy protects the data from semi-honest clients participating in the training process as well as curious end-users with black-box or white-box access to the trained model. This paper provides with new theoretical and practical results to enable these techniques to be effectively combined. In particular, by means of a novel stochastic quantization operator, we prove differential privacy guarantees in a context where the noise is quantified and bounded due to the use of homomorphic encryption. The paper is concluded by experiments which show the practicality of the entire framework in spite of these interferences in terms of both model quality (impacted by DP) and computational overheads (impacted by FHE).
翻訳日:2022-05-10 17:54:59 公開日:2022-05-09
# 時間論理制御対象の高速化強化学習

Accelerated Reinforcement Learning for Temporal Logic Control Objectives ( http://arxiv.org/abs/2205.04424v1 )

ライセンス: Link先を確認
Yiannis Kantaros(参考訳) 本稿では,シークエンシングやカバレッジ,監視といった時間論理的任務をこなす未知のマルコフ決定過程(MDP)をモデル化した移動ロボットの学習制御ポリシの問題に対処する。 MDPはワークスペースの構造と制御決定の結果の不確実性を捉えている。 制御目的は,線形時間論理(LTL)式として指定された高次タスクの達成確率を最大化する制御ポリシを合成することである。 そこで本研究では,ltl制御目標に対する高速化モデルベース強化学習(rl)アルゴリズムを提案する。 そのサンプル効率は、タスク満足に寄与する方向へのバイアスの探索に依存している。 これはLTLタスクのオートマトン表現と継続的に学習されたMDPモデルを活用することで実現される。 最後に,近年の時間論理RL法に対して提案手法のサンプル効率を示す広範な比較実験を行った。

This paper addresses the problem of learning control policies for mobile robots modeled as unknown Markov Decision Processes (MDPs) that are tasked with temporal logic missions, such as sequencing, coverage, or surveillance. The MDP captures uncertainty in the workspace structure and the outcomes of control decisions. The control objective is to synthesize a control policy that maximizes the probability of accomplishing a high-level task, specified as a Linear Temporal Logic (LTL) formula. To address this problem, we propose a novel accelerated model-based reinforcement learning (RL) algorithm for LTL control objectives that is capable of learning control policies significantly faster than related approaches. Its sample-efficiency relies on biasing exploration towards directions that may contribute to task satisfaction. This is accomplished by leveraging an automaton representation of the LTL task as well as a continuously learned MDP model. Finally, we provide extensive comparative experiments that demonstrate the sample efficiency of the proposed method against recent temporal logic RL methods.
翻訳日:2022-05-10 17:54:34 公開日:2022-05-09
# 画像ラベリングのための非局所グラフPDEと高次幾何積分

A Nonlocal Graph-PDE and Higher-Order Geometric Integration for Image Labeling ( http://arxiv.org/abs/2205.03991v1 )

ライセンス: Link先を確認
Dmitrij Sitenko, Bastian Boll and Christoph Schn\"orr(参考訳) 本稿では,グラフ上の距離データをラベル付けするための新しい非局所部分差分方程式(PDE)を提案する。 PDE は \textit{J で導入された代入フローアプローチの非局所的再パラメータ化として導出される。 〜数学。 〜Imaging \& Vision} 58(2), 2017 このパラメータ化により、PDEを数値的に解くことは、非凸ポテンシャルに対するリーマン勾配流の計算と等価であることが示される。 我々は、このポテンシャルのエントロピー規則化差分関数(DC)分解を考案し、代入フローを統合する基本的な幾何学的オイラースキームが、確立されたDCプログラミングスキームによりPDEを解くのに等価であることを示す。 さらに幾何学的統合の観点からは、新しい加速直流計画法を考案するために、割当フローを駆動するベクトル場の高次情報を利用する基本的な方法が明らかになった。 両数値スキームの詳細な収束解析を数値実験により明らかにした。

This paper introduces a novel nonlocal partial difference equation (PDE) for labeling metric data on graphs. The PDE is derived as nonlocal reparametrization of the assignment flow approach that was introduced in \textit{J.~Math.~Imaging \& Vision} 58(2), 2017. Due to this parameterization, solving the PDE numerically is shown to be equivalent to computing the Riemannian gradient flow with respect to a nonconvex potential. We devise an entropy-regularized difference-of-convex -functions (DC) decomposition of this potential and show that the basic geometric Euler scheme for integrating the assignment flow is equivalent to solving the PDE by an established DC programming scheme. Moreover, the viewpoint of geometric integration reveals a basic way to exploit higher-order information of the vector field that drives the assignment flow, in order to devise a novel accelerated DC programming scheme. A detailed convergence analysis of both numerical schemes is provided and illustrated by numerical experiments.
翻訳日:2022-05-10 17:53:27 公開日:2022-05-09
# SwinIQA:圧縮画像品質評価のためのスウィン距離学習

SwinIQA: Learned Swin Distance for Compressed Image Quality Assessment ( http://arxiv.org/abs/2205.04264v1 )

ライセンス: Link先を確認
Jianzhao Liu, Xin Li, Yanding Peng, Tao Yu, Zhibo Chen(参考訳) 画像圧縮は最近、マルチメディアストレージと伝送において重要な重要性のために広く関心を集めている。 一方、圧縮画像に対する信頼性画像品質評価(IQA)は、様々な圧縮アルゴリズムの性能を検証するだけでなく、圧縮最適化の導出にも役立てることができる。 本論文では,スウィン距離空間における圧縮画像の知覚的品質を測定するために,フル参照画像品質評価尺度SwinIQAを設計する。 圧縮アーティファクトは、通常、様々な歪みタイプと度合いで一様ではないことが知られている。 複雑な歪み情報を維持しながら圧縮された画像を共有表現空間にワープするために,スウィン変換器の各段から階層的特徴表現を抽出する。 また,抽出した特徴表現をスウィン距離空間にマップするためにクロスアテンション操作を利用する。 実験の結果,提案手法は従来のCLICデータセットの手法と学習に基づく手法と比較して,人間の知覚的判断との整合性が高いことがわかった。

Image compression has raised widespread interest recently due to its significant importance for multimedia storage and transmission. Meanwhile, a reliable image quality assessment (IQA) for compressed images can not only help to verify the performance of various compression algorithms but also help to guide the compression optimization in turn. In this paper, we design a full-reference image quality assessment metric SwinIQA to measure the perceptual quality of compressed images in a learned Swin distance space. It is known that the compression artifacts are usually non-uniformly distributed with diverse distortion types and degrees. To warp the compressed images into the shared representation space while maintaining the complex distortion information, we extract the hierarchical feature representations from each stage of the Swin Transformer. Besides, we utilize cross attention operation to map the extracted feature representations into a learned Swin distance space. Experimental results show that the proposed metric achieves higher consistency with human's perceptual judgment compared with both traditional methods and learning-based methods on CLIC datasets.
翻訳日:2022-05-10 17:53:05 公開日:2022-05-09
# (参考訳) TGANet:ポリプセグメンテーション改善のためのテキスト誘導注意 [全文訳有]

TGANet: Text-guided attention for improved polyp segmentation ( http://arxiv.org/abs/2205.04280v1 )

ライセンス: CC BY 4.0
Nikhil Kumar Tomar, Debesh Jha, Ulas Bagci, Sharib Ali(参考訳) 大腸内視鏡は金の標準法であるが、操作性は高い。 前駆体である自動ポリープセグメンテーションは、早期に欠失率と大腸癌のタイムリーな治療を最小化することができる。 このタスクのために深層学習手法が開発されているが、ポリプサイズの変動はモデルトレーニングに影響を与える可能性があるため、トレーニングデータセットの大多数のサンプルのサイズ属性に制限されるため、異なるサイズのポリプに対して準最適結果を提供することができる。 本研究では,学習中のテキスト注意の形で,サイズとポリプ数に関連する特徴を利用する。 本稿では,異なるサイズのポリープに適応し,複数のポリープを持つケースに適応可能な特徴表現をネットワークで学習することのできる,テキストベースの埋め込みを重み付けする補助的分類タスクを提案する。 実験結果から, これらの追加テキスト埋め込みは, 最先端セグメンテーション法と比較して, モデル全体の性能を向上することが示された。 4つの異なるデータセットを調査し、サイズ固有の改善の洞察を提供する。 提案するテキスト誘導アテンションネットワーク(TGANet)は,異なるデータセットにおける可変サイズポリープによく対応できる。

Colonoscopy is a gold standard procedure but is highly operator-dependent. Automated polyp segmentation, a precancerous precursor, can minimize missed rates and timely treatment of colon cancer at an early stage. Even though there are deep learning methods developed for this task, variability in polyp size can impact model training, thereby limiting it to the size attribute of the majority of samples in the training dataset that may provide sub-optimal results to differently sized polyps. In this work, we exploit size-related and polyp number-related features in the form of text attention during training. We introduce an auxiliary classification task to weight the text-based embedding that allows network to learn additional feature representations that can distinctly adapt to differently sized polyps and can adapt to cases with multiple polyps. Our experimental results demonstrate that these added text embeddings improve the overall performance of the model compared to state-of-the-art segmentation methods. We explore four different datasets and provide insights for size-specific improvements. Our proposed text-guided attention network (TGANet) can generalize well to variable-sized polyps in different datasets.
翻訳日:2022-05-10 17:47:25 公開日:2022-05-09
# 距離保存品質と線形割当ソートを用いたグリッドレイアウトの評価と生成の改善

Improved Evaluation and Generation of Grid Layouts using Distance Preservation Quality and Linear Assignment Sorting ( http://arxiv.org/abs/2205.04255v1 )

ライセンス: Link先を確認
Kai Uwe Barthel, Nico Hezel, Klaus Jung and Konstantin Schall(参考訳) 類似性によってソートされた画像は、より多くの画像を同時に見ることができ、ストックフォトエージェンシーやeコマースアプリケーションにとって非常に有用である。 視覚的に並べ替えられたグリッドレイアウトは、グリッドに近接する画像が、その類似性に可能な限り近いように配置しようとする。 このようなアレンジメントを評価するための様々な指標が存在するが、人間の知覚品質と測定値の相関に関する実験的な証拠は少ない。 本稿では,アレンジメントの品質評価のための新しい指標として,距離保存品質(dpq)を提案する。 広汎なユーザテストでは,DPQと画像検索タスクの品質と性能の相関が,他の指標と比較して強いことがわかった。 さらに,FLAS(Fast Linear Assignment Sorting)を,視覚的なグリッドレイアウト作成のための新しいアルゴリズムとして導入する。 FLASは、実行時間と計算資源を改善しながら、非常に優れたソート品質を実現する。

Images sorted by similarity enables more images to be viewed simultaneously, and can be very useful for stock photo agencies or e-commerce applications. Visually sorted grid layouts attempt to arrange images so that their proximity on the grid corresponds as closely as possible to their similarity. Various metrics exist for evaluating such arrangements, but there is low experimental evidence on correlation between human perceived quality and metric value. We propose Distance Preservation Quality (DPQ) as a new metric to evaluate the quality of an arrangement. Extensive user testing revealed stronger correlation of DPQ with user-perceived quality and performance in image retrieval tasks compared to other metrics. In addition, we introduce Fast Linear Assignment Sorting (FLAS) as a new algorithm for creating visually sorted grid layouts. FLAS achieves very good sorting qualities while improving run time and computational resources.
翻訳日:2022-05-10 17:36:23 公開日:2022-05-09
# 病理組織学的染色翻訳における領域シフトの教師なし計測に向けて

Towards Measuring Domain Shift in Histopathological Stain Translation in an Unsupervised Manner ( http://arxiv.org/abs/2205.04368v1 )

ライセンス: Link先を確認
Zeeshan Nisar, Jelica Vasiljevi\'c, Pierre Gan\c{c}arski, Thomas Lampert(参考訳) デジタル病理学におけるドメインシフトは、異なる染色やスキャナーを使用する場合や、染色翻訳時に起こることがある。 ソースデータに基づいてトレーニングされたディープニューラルネットワークは、いくつかのドメインシフトを実行したデータにうまく一般化できない可能性がある。 ドメインシフトに対して堅牢になるための重要なステップは、それを検出して測定する能力です。 本稿では,pixelcnn と domain shift metric を用いてデジタル病理組織学におけるドメインシフトの検出と定量化を行い,一般化性能と強い相関関係を示す。 これらの発見は、(ソースデータに基づいて訓練された)モデルの平均性能を未発見のターゲットデータで推定するメカニズムへの道を開いた。

Domain shift in digital histopathology can occur when different stains or scanners are used, during stain translation, etc. A deep neural network trained on source data may not generalise well to data that has undergone some domain shift. An important step towards being robust to domain shift is the ability to detect and measure it. This article demonstrates that the PixelCNN and domain shift metric can be used to detect and quantify domain shift in digital histopathology, and they demonstrate a strong correlation with generalisation performance. These findings pave the way for a mechanism to infer the average performance of a model (trained on source data) on unseen and unlabelled target data.
翻訳日:2022-05-10 17:36:10 公開日:2022-05-09
# 画像超解像トランスにおける画素数の増加

Activating More Pixels in Image Super-Resolution Transformer ( http://arxiv.org/abs/2205.04437v1 )

ライセンス: Link先を確認
Xiangyu Chen, Xintao Wang, Jiantao Zhou, and Chao Dong(参考訳) トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。 しかし,これらのネットワークは帰属分析により,限られた空間範囲の入力情報しか利用できないことがわかった。 これは、Transformerのポテンシャルが既存のネットワークで完全に活用されていないことを意味する。 再構成のためにより多くの入力画素を活性化するために,新しいハイブリッドアテンショントランス(hat)を提案する。 チャンネルの注意と自己注意のスキームを組み合わせて、補完的な利点を生かしている。 さらに,クロスウィンドウ情報をよりよく集約するために,隣接するウィンドウ特徴間の相互作用を強化するために,重なり合うクロスアテンションモジュールを導入する。 トレーニング段階では、さらなる改善をもたらすため、同じタスク事前学習戦略も提案する。 大規模な実験により提案手法の有効性が示され, 全体的な手法は1dB以上の最先端手法よりも優れていた。 コードとモデルはhttps://github.com/c hxy95/hatで入手できる。

Transformer-based methods have shown impressive performance in low-level vision tasks, such as image super-resolution. However, we find that these networks can only utilize a limited spatial range of input information through attribution analysis. This implies that the potential of Transformer is still not fully exploited in existing networks. In order to activate more input pixels for reconstruction, we propose a novel Hybrid Attention Transformer (HAT). It combines channel attention and self-attention schemes, thus making use of their complementary advantages. Moreover, to better aggregate the cross-window information, we introduce an overlapping cross-attention module to enhance the interaction between neighboring window features. In the training stage, we additionally propose a same-task pre-training strategy to bring further improvement. Extensive experiments show the effectiveness of the proposed modules, and the overall method significantly outperforms the state-of-the-art methods by more than 1dB. Codes and models will be available at https://github.com/c hxy95/HAT.
翻訳日:2022-05-10 17:36:01 公開日:2022-05-09
# 予測の組み合わせ:50年以上のレビュー

Forecast combinations: an over 50-year review ( http://arxiv.org/abs/2205.04216v1 )

ライセンス: Link先を確認
Xiaoqian Wang, Rob J Hyndman, Feng Li, Yanfei Kang(参考訳) 予測コミュニティでは予測の組み合わせが著しく栄えており、近年では研究や活動の予測の主流となっている。 単一(ターゲット)シリーズから生成された複数の予測を組み合わせることで、異なるソースから収集された情報の統合により、正確性が向上し、単一の「最良の」予測を特定するリスクが軽減される。 組合せスキームは、推定のない単純な組み合わせ法から、時間変化重み、非線形結合、コンポーネント間の相関、クロスラーニングを含む洗練された方法へと進化してきた。 それらは点予測と確率予測の組み合わせを含む。 本稿では,既存のオープンソースソフトウェア実装と合わせて,予測組み合わせに関する広範な文献を概観する。 我々は,様々な手法の可能性と限界について議論し,これらのアイデアが時間とともにどのように発展してきたかを強調した。 予測組み合わせの有用性に関する重要な問題も調査されている。 最後に,現在の研究ギャップと今後の研究への可能性について考察する。

Forecast combinations have flourished remarkably in the forecasting community and, in recent years, have become part of the mainstream of forecasting research and activities. Combining multiple forecasts produced from the single (target) series is now widely used to improve accuracy through the integration of information gleaned from different sources, thereby mitigating the risk of identifying a single "best" forecast. Combination schemes have evolved from simple combination methods without estimation, to sophisticated methods involving time-varying weights, nonlinear combinations, correlations among components, and cross-learning. They include combining point forecasts, and combining probabilistic forecasts. This paper provides an up-to-date review of the extensive literature on forecast combinations, together with reference to available open-source software implementations. We discuss the potential and limitations of various methods and highlight how these ideas have developed over time. Some important issues concerning the utility of forecast combinations are also surveyed. Finally, we conclude with current research gaps and potential insights for future research.
翻訳日:2022-05-10 17:35:29 公開日:2022-05-09
# 連続ランク付確率スコア予測の数学的特性

Mathematical Properties of Continuous Ranked Probability Score Forecasting ( http://arxiv.org/abs/2205.04360v1 )

ライセンス: Link先を確認
Romain Pic and Cl\'ement Dombry and Philippe Naveau and Maxime Taillardat(参考訳) 過去数十年のスコアリングルールの特性に関する理論的進歩は、確率的予測におけるスコアリングルールの使用を拡大した。 気象予報では、決定論的物理モデルによる予報を改善するために統計的後処理技術が不可欠である。 最新の統計後処理手法は,連続ランク付き確率スコア (crps) で評価した分布回帰に基づく。 しかし、このようなCRPSの最小化の理論的性質は、主に無条件のフレームワーク(すなわち共変量を持たない)と無限のサンプルサイズを考慮に入れている。 これらの制限を回避し、分布回帰法における crps の観点から収束率の研究を行い、与えられた分布のクラスに対する収束の最適最小速度を求める。 さらに,k-ネアレスト近傍法と分布回帰のカーネル法は,それぞれ次元 $d\geq2$ と任意の次元における収束の最適速度に達することを示した。

The theoretical advances on the properties of scoring rules over the past decades have broaden the use of scoring rules in probabilistic forecasting. In meteorological forecasting, statistical postprocessing techniques are essential to improve the forecasts made by deterministic physical models. Numerous state-of-the-art statistical postprocessing techniques are based on distributional regression evaluated with the Continuous Ranked Probability Score (CRPS). However, theoretical properties of such minimization of the CRPS have mostly considered the unconditional framework (i.e. without covariables) and infinite sample sizes. We circumvent these limitations and study the rate of convergence in terms of CRPS of distributional regression methods We find the optimal minimax rate of convergence for a given class of distributions. Moreover, we show that the k-nearest neighbor method and the kernel method for the distributional regression reach the optimal rate of convergence in dimension $d\geq2$ and in any dimension, respectively.
翻訳日:2022-05-10 17:35:15 公開日:2022-05-09
# セルフサービスハイリスク意思決定のための解釈可能な機械学習

Interpretable Machine Learning for Self-Service High-Risk Decision-Making ( http://arxiv.org/abs/2205.04032v1 )

ライセンス: Link先を確認
Charles Recaido, Boris Kovalerchuk(参考訳) 本稿では,一般線座標(GLC)における視覚的知識発見による機械学習の解釈に寄与する。 解釈可能なデータセットユニットと一般的なライン座標としてのハイパーブロックの概念を組み合わせて、視覚的なセルフサービス機械学習モデルを作成する。 DSC1とDSC2の損失のない多次元座標系を提案する。 DSC1とDSC2は、グラフ構築アルゴリズムを用いて、複数のデータセット属性を1つの2次元(X, Y)カルテ面にマッピングすることができる。 ハイパーブロック解析は、視覚的に魅力的なデータセット属性の順序を決定し、ライン閉塞を減らすために用いられた。 ハイパーブロックは決定木規則を一般化でき、一連のdsc1またはdsc2プロットは決定木を視覚化できる。 DSC1とDSC2プロットはUCI MLリポジトリのベンチマークデータセットでテストされた。 彼らはデータの視覚的分類を許可した。 さらに、超ブロック不純物領域が発見され、リスクの高い意思決定のためのモデル選択を導くために最悪のモデル精度の上位推定をハイライトするデータセット分割を確立するために使用された。 DSC1とDSC2の主な利点は、その非常に解釈可能な性質である。 ドメインの専門家は、ビジュアルパターン発見を通じて、新しい機械学習モデルを制御または確立することができる。

This paper contributes to interpretable machine learning via visual knowledge discovery in general line coordinates (GLC). The concepts of hyperblocks as interpretable dataset units and general line coordinates are combined to create a visual self-service machine learning model. The DSC1 and DSC2 lossless multidimensional coordinate systems are proposed. DSC1 and DSC2 can map multiple dataset attributes to a single two-dimensional (X, Y) Cartesian plane using a graph construction algorithm. The hyperblock analysis was used to determine visually appealing dataset attribute orders and to reduce line occlusion. It is shown that hyperblocks can generalize decision tree rules and a series of DSC1 or DSC2 plots can visualize a decision tree. The DSC1 and DSC2 plots were tested on benchmark datasets from the UCI ML repository. They allowed for visual classification of data. Additionally, areas of hyperblock impurity were discovered and used to establish dataset splits that highlight the upper estimate of worst-case model accuracy to guide model selection for high-risk decision-making. Major benefits of DSC1 and DSC2 is their highly interpretable nature. They allow domain experts to control or establish new machine learning models through visual pattern discovery.
翻訳日:2022-05-10 17:29:41 公開日:2022-05-09
# 量子ニューラルネットワークオートエンコーダと分類器の産業事例研究への応用

Quantum neural network autoencoder and classifier applied to an industrial case study ( http://arxiv.org/abs/2205.04127v1 )

ライセンス: Link先を確認
Stefano Mangini, Alessia Marruzzo, Marco Piantanida, Dario Gerace, Daniele Bajoni, Chiara Macchiavello(参考訳) 量子コンピューティング技術は、学術研究から実際の産業応用への移行の過程にあり、近年の量子優位性の最初のヒントが示されている。 量子コンピュータの初期の実用利用においては、実際の産業プロセスに有用なアルゴリズムを開発することが重要である。 本研究では,量子オートエンコーダと量子分類器を組み合わせた量子パイプラインを提案し,まずセパレータから得られる古典的データ,すなわちエニ油処理プラントの1つで使用される機械を圧縮し,ラベル付けする。 この研究は、ベンチマークデータセットからの教育的データではなく、特に物理マシンからの実際のデータを使用して、産業パイプラインの実際のシナリオで量子コンピューティング手順を統合する最初の試みの1つです。

Quantum computing technologies are in the process of moving from academic research to real industrial applications, with the first hints of quantum advantage demonstrated in recent months. In these early practical uses of quantum computers it is relevant to develop algorithms that are useful for actual industrial processes. In this work we propose a quantum pipeline, comprising a quantum autoencoder followed by a quantum classifier, which are used to first compress and then label classical data coming from a separator, i.e., a machine used in one of Eni's Oil Treatment Plants. This work represents one of the first attempts to integrate quantum computing procedures in a real-case scenario of an industrial pipeline, in particular using actual data coming from physical machines, rather than pedagogical data from benchmark datasets.
翻訳日:2022-05-10 17:29:22 公開日:2022-05-09
# 感性サンプルを用いたロスレスブラックボックス透かしによるディープエンサンブルモデルの完全性検証

Verifying Integrity of Deep Ensemble Models by Lossless Black-box Watermarking with Sensitive Samples ( http://arxiv.org/abs/2205.04145v1 )

ライセンス: Link先を確認
Lina Lin and Hanzhou Wu(参考訳) 多くの分野でディープニューラルネットワーク(DNN)が広く使われるようになると、知的財産権(IP)侵害からDNNモデルを保護する研究がますます増えている。 多くの既存手法がデジタル透かしを用いてDNNモデルを保護する。 大多数は、内部ネットワーク構造/パラメータに直接透かしを埋め込むか、いわゆるトリガーサンプルセットで保護されるモデルを微調整することでゼロビット透かしを挿入する。 これらの手法は非常にうまく機能するが、個々のDNNモデルに対して設計されており、複数のDNNモデルを組み合わせて最終的な決定を行うディープアンサンブルモデル(DEM)に直接適用することはできない。 そこで,本論文では,demの完全性を検証するために使用できる新しいブラックボックス透かし法を提案する。 提案手法では、実世界のDEM攻撃を模倣し、非攻撃されたDEMと攻撃されたDEMのサブモデルの予測結果を分析することにより、ある程度の機密サンプルを慎重に選択する。 これらの細心の注意深いサンプルからターゲットDEMの予測結果を解析することにより、ターゲットDEMの完全性を検証することができる。 従来の多くの手法とは異なり,提案手法は保護対象とする元のDEMを変更せず,提案手法は無損失であることを示す。 実験の結果,1つのサブモデルのみを攻撃してもDEM整合性が確実に検証可能であることが確認された。

With the widespread use of deep neural networks (DNNs) in many areas, more and more studies focus on protecting DNN models from intellectual property (IP) infringement. Many existing methods apply digital watermarking to protect the DNN models. The majority of them either embed a watermark directly into the internal network structure/parameters or insert a zero-bit watermark by fine-tuning a model to be protected with a set of so-called trigger samples. Though these methods work very well, they were designed for individual DNN models, which cannot be directly applied to deep ensemble models (DEMs) that combine multiple DNN models to make the final decision. It motivates us to propose a novel black-box watermarking method in this paper for DEMs, which can be used for verifying the integrity of DEMs. In the proposed method, a certain number of sensitive samples are carefully selected through mimicking real-world DEM attacks and analyzing the prediction results of the sub-models of the non-attacked DEM and the attacked DEM on the carefully crafted dataset. By analyzing the prediction results of the target DEM on these carefully crafted sensitive samples, we are able to verify the integrity of the target DEM. Different from many previous methods, the proposed method does not modify the original DEM to be protected, which indicates that the proposed method is lossless. Experimental results have shown that the DEM integrity can be reliably verified even if only one sub-model was attacked, which has good potential in practice.
翻訳日:2022-05-10 17:29:08 公開日:2022-05-09
# (参考訳) CounterGeDi: 礼儀正しい、解毒され、感情的な反響を生成するための制御可能なアプローチ [全文訳有]

CounterGeDi: A controllable approach to generate polite, detoxified and emotional counterspeech ( http://arxiv.org/abs/2205.04304v1 )

ライセンス: CC BY 4.0
Punyajoy Saha, Kanishk Singh, Adarsh Kumar, Binny Mathew and Animesh Mukherjee(参考訳) 近年,オンライン嫌悪の爆発的増殖に対処するための対策として,対向話者支援のための生成モデルの開発が試みられている。 しかし、これらの提案はバニラ生成モデルによるものであるため、特定のヘイトスピーチのインスタンスに対応するのに必要なプロパティを含まない可能性がある。 本稿では、ダイアロGPTモデルの生成を、より丁寧で、解毒され、感情に満ちた反音声へと導くための、ジェネレータ(GeDi)のアンサンブルであるCounterGeDiを提案する。 3つのデータセットを用いてカウンタスペッチを生成し,異なる属性スコア間で有意な改善を観察する。 丁寧さと解毒率は, それぞれ15%, 6%増加し, 反響の感情は全データセットで少なくとも10%上昇した。 また,トリプル属性制御を実験し,補足属性,例えば礼儀正しさ,喜び感,デトキソフィケーションを組み合わせることで,単一属性よりも大きな改善を観察する。 これらすべての実験において、これらの制御の適用により生成されたテキストの関連性が低下しない。

Recently, many studies have tried to create generation models to assist counter speakers by providing counterspeech suggestions for combating the explosive proliferation of online hate. However, since these suggestions are from a vanilla generation model, they might not include the appropriate properties required to counter a particular hate speech instance. In this paper, we propose CounterGeDi - an ensemble of generative discriminators (GeDi) to guide the generation of a DialoGPT model toward more polite, detoxified, and emotionally laden counterspeech. We generate counterspeech using three datasets and observe significant improvement across different attribute scores. The politeness and detoxification scores increased by around 15% and 6% respectively, while the emotion in the counterspeech increased by at least 10% across all the datasets. We also experiment with triple-attribute control and observe significant improvement over single attribute results when combining complementing attributes, e.g., politeness, joyfulness and detoxification. In all these experiments, the relevancy of the generated text does not deteriorate due to the application of these controls
翻訳日:2022-05-10 17:27:31 公開日:2022-05-09
# 異方性構造の光-形物質移動

Photo-to-Shape Material Transfer for Diverse Structures ( http://arxiv.org/abs/2205.04018v1 )

ライセンス: Link先を確認
Ruizhen Hu, Xiangyu Su, Xiangkai Chen, Oliver Van Kaick, Hui Huang(参考訳) 本稿では,フォトリアリスティックな可照性材料を自動的に3d形状に割り当てる手法を提案する。 本手法では,実物体と3次元物体の被写体とをセグメンテーションで入力し,その被写体を用いて物体の形状への配置を誘導し,得られた形状の外観を被写体と可能な限り類似させる。 この目的を達成するために,画像翻訳ニューラルネットワークと物体割当ニューラルネットワークを組み合わせた手法を提案する。 画像翻訳ネットワークは、図柄から図柄までの色を、図柄から図柄への3次元形状の投影と、図柄から図柄への部分分割に変換する。 そして、材料予測ネットワークは、変換された画像と、材料の知覚的類似性に基づいて、現実的な材料の集合から材料を投影された部品に割り当てる。 提案手法の1つの重要なアイデアは, 翻訳ネットワークを用いて, 異物と形状投影との対応を確立することであり, 多様な構造を有する物体間の物質移動を可能にする。 提案手法のもう1つの鍵となる考え方は、画像翻訳によって提供される2対の(色, セグメンテーション)画像を用いて、素材割り当てをガイドすることで、割り当ての一貫性を確保することである。 提案手法は, 材料を形状に割り当てることで, 外観が入力例によく似るようにし, 結果の質を最先端の方法で向上させ, 高品質なフォトリアリスティック材料で数千の形状を自動生成できることを実証する。 この論文のコードとデータはhttps://github.com/X iangyuSu611/TMTで公開されている。

We introduce a method for assigning photorealistic relightable materials to 3D shapes in an automatic manner. Our method takes as input a photo exemplar of a real object and a 3D object with segmentation, and uses the exemplar to guide the assignment of materials to the parts of the shape, so that the appearance of the resulting shape is as similar as possible to the exemplar. To accomplish this goal, our method combines an image translation neural network with a material assignment neural network. The image translation network translates the color from the exemplar to a projection of the 3D shape and the part segmentation from the projection to the exemplar. Then, the material prediction network assigns materials from a collection of realistic materials to the projected parts, based on the translated images and perceptual similarity of the materials. One key idea of our method is to use the translation network to establish a correspondence between the exemplar and shape projection, which allows us to transfer materials between objects with diverse structures. Another key idea of our method is to use the two pairs of (color, segmentation) images provided by the image translation to guide the material assignment, which enables us to ensure the consistency in the assignment. We demonstrate that our method allows us to assign materials to shapes so that their appearances better resemble the input exemplars, improving the quality of the results over the state-of-the-art method, and allowing us to automatically create thousands of shapes with high-quality photorealistic materials. Code and data for this paper are available at https://github.com/X iangyuSu611/TMT.
翻訳日:2022-05-10 17:06:13 公開日:2022-05-09
# NeuralHDHair: 入射型ニューラル表現を用いた単一画像からの高忠実ヘアモデリング

NeuralHDHair: Automatic High-fidelity Hair Modeling from a Single Image Using Implicit Neural Representations ( http://arxiv.org/abs/2205.04175v1 )

ライセンス: Link先を確認
Keyu Wu, Yifan Ye, Lingchen Yang, Hongbo Fu, Kun Zhou, Youyi Zheng(参考訳) デジタル人間には、高忠実な3D髪が不可欠だ。 しかし、既存の単眼毛のモデリング手法は、デジタルシステム(例えば、複雑なユーザインタラクションや大きなデータベースに依存するため)へのデプロイが難しいか、粗い幾何学しか生成できない。 本稿では,1枚の画像から高忠実度毛髪をモデリングする柔軟で完全自動システムであるNeuralHDHairを紹介する。 本システムの主な実現方法は,階層的に高忠実な3dヘア幾何学的特徴を推測するirhairnet (implicit representation for hair using neural network) と,効率的に3dヘアストランドを並列に生成する growingnet ( growing hair strands using neural network) の2つである。 具体的には, 毛髪特徴を表現し, 毛髪の輝度マップから抽出した局所的詳細によりさらに高められた, 毛髪特徴を表す新しいボクセル型暗黙関数 (VIFu) を提案する。 従来の毛髪成長アルゴリズムの効率を向上させるために,推定された3次元毛髪幾何学的特徴に基づいてストランドを成長させるために局所的神経暗黙関数を採用する。 広範にわたる実験により,1枚の画像から高精細な3dヘアモデルを構築することが可能となり,その性能が向上した。

Undoubtedly, high-fidelity 3D hair plays an indispensable role in digital humans. However, existing monocular hair modeling methods are either tricky to deploy in digital systems (e.g., due to their dependence on complex user interactions or large databases) or can produce only a coarse geometry. In this paper, we introduce NeuralHDHair, a flexible, fully automatic system for modeling high-fidelity hair from a single image. The key enablers of our system are two carefully designed neural networks: an IRHairNet (Implicit representation for hair using neural network) for inferring high-fidelity 3D hair geometric features (3D orientation field and 3D occupancy field) hierarchically and a GrowingNet(Growing hair strands using neural network) to efficiently generate 3D hair strands in parallel. Specifically, we perform a coarse-to-fine manner and propose a novel voxel-aligned implicit function (VIFu) to represent the global hair feature, which is further enhanced by the local details extracted from a hair luminance map. To improve the efficiency of a traditional hair growth algorithm, we adopt a local neural implicit function to grow strands based on the estimated 3D hair geometric features. Extensive experiments show that our method is capable of constructing a high-fidelity 3D hair model from a single image, both efficiently and effectively, and achieves the-state-of-the-art performance.
翻訳日:2022-05-10 17:05:44 公開日:2022-05-09
# (参考訳) 限られたトレーニングデータを用いた効率的な交通予測に基づく転送学習 [全文訳有]

Transfer Learning Based Efficient Traffic Prediction with Limited Training Data ( http://arxiv.org/abs/2205.04344v1 )

ライセンス: CC BY 4.0
Sajal Saha, Anwar Haque, and Greg Sidebottom(参考訳) インターネットトラフィックの効率的な予測は、積極的な管理を確保するための自己組織化ネットワーク(son)の重要な部分である。 ディープラーニングを用いた精度の高いインターネットトラフィック予測には,既存のソリューションが数多く存在する。 しかし、ネットワーク内の各サービスプロバイダの個々の予測モデルの設計は、データの均一性、不足、異常のために難しい。 また、トレーニングデータが少ないネットワークトラヒック予測におけるディープシーケンスモデルの性能は、現在の研究ではあまり研究されていない。 本稿では,事前学習モデルの知識を生かした不適切な履歴データを用いて,交通予測におけるディープトランスファー学習手法の性能を検証・評価した。 まず、Recurrent Neural Network(RNN)、Long Short-Term Memory(LSTM)、LSTM Encoder-Decoder(LSTM _En_De)、LSTM_En_De with Attention Layer(LSTM_En_De_Atn )、Gated Recurrent Unit(GRU)の5つのディープシーケンスモデルに基づいて、ソースドメイン予測のための比較的大きな実世界のトラフィックデータセットを使用した。 次に、目標領域予測には、精度96.06%、精度96.05%のソース領域からの2つの最高の性能モデルLSTM_En_DeとLSTM_En_De_Atnが考慮される。 最後に、4つの特定のソースと宛先ペアのために収集された4つの小さなトラフィックデータセットをターゲットドメインで使用し、精度と実行時間の観点から標準学習と転送学習のパフォーマンスを比較する。 実験結果によると,移動学習はほとんどの場合の実行時間を削減するのに役立ち,モデルの精度はより大きなトレーニングセッションで伝達学習において向上する。

Efficient prediction of internet traffic is an essential part of Self Organizing Network (SON) for ensuring proactive management. There are many existing solutions for internet traffic prediction with higher accuracy using deep learning. But designing individual predictive models for each service provider in the network is challenging due to data heterogeneity, scarcity, and abnormality. Moreover, the performance of the deep sequence model in network traffic prediction with limited training data has not been studied extensively in the current works. In this paper, we investigated and evaluated the performance of the deep transfer learning technique in traffic prediction with inadequate historical data leveraging the knowledge of our pre-trained model. First, we used a comparatively larger real-world traffic dataset for source domain prediction based on five different deep sequence models: Recurrent Neural Network (RNN), Long Short-Term Memory (LSTM), LSTM Encoder-Decoder (LSTM_En_De), LSTM_En_De with Attention layer (LSTM_En_De_Atn), and Gated Recurrent Unit (GRU). Then, two best-performing models, LSTM_En_De and LSTM_En_De_Atn, from the source domain with an accuracy of 96.06% and 96.05% are considered for the target domain prediction. Finally, four smaller traffic datasets collected for four particular sources and destination pairs are used in the target domain to compare the performance of the standard learning and transfer learning in terms of accuracy and execution time. According to our experimental result, transfer learning helps to reduce the execution time for most cases, while the model's accuracy is improved in transfer learning with a larger training session.
翻訳日:2022-05-10 17:03:12 公開日:2022-05-09
# 牛のキャリングのためのAIベースのディジタルツインモデル

AI Based Digital Twin Model for Cattle Caring ( http://arxiv.org/abs/2205.04034v1 )

ライセンス: Link先を確認
Xue Han, Zihuai Lin(参考訳) 本稿では,人工知能(AI)を応用した,牛の状態のデジタル双生児を開発した。 この作業は、牛の状態をリモートで監視し追跡する農業用IoTシステム上に構築された。 農業用IoTシステムから取得したセンサデータを用いて,深層学習(DL)に基づく牛の健康のディジタル双生児モデルを構築した。 牛の健康および生理サイクルをリアルタイムで監視することができ、このモデルを用いて牛の次の生理サイクルの状態を予測することができる。 この研究の基礎は、デジタル双生児モデルの正当性を検証するために必要とされる膨大なデータである。 行動状態に関しては, 局所麻酔薬とメロキシカムの併用で治療した牛は, 最も痛みの少ない反応を示した。 この研究で開発されたデジタル双生児モデルは、牛の健康状態を監視するのに使える

In this paper, we developed innovative digital twins of cattle status that are powered by artificial intelligence (AI). The work was built on a farm IoT system that remotely monitors and tracks the state of cattle. A digital twin model of cattle health based on Deep Learning (DL) was generated using the sensor data acquired from the farm IoT system. The health and physiological cycle of cattle can be monitored in real time, and the state of the next physiological cycle of cattle can be anticipated using this model. The basis of this work is the vast amount of data which is required to validate the legitimacy of the digital twins model. In terms of behavioural state, it was found that the cattle treated with a combination of topical anaesthetic and meloxicam exhibits the least pain reaction. The digital twins model developed in this work can be used to monitor the health of cattle
翻訳日:2022-05-10 16:51:50 公開日:2022-05-09
# the world is its own best model" - オンライン行動選択による実世界の堅牢な操作

"The World Is Its Own Best Model": Robust Real-World Manipulation Through Online Behavior Selection ( http://arxiv.org/abs/2205.04172v1 )

ライセンス: Link先を確認
Manuel Baum and Oliver Brock(参考訳) ロボット操作は、高いレベルのタスク構造に違反する障害に対して堅牢であるべきです。 このような堅牢性は、タスクの離散的な高レベル状態を観察するために環境を常に監視することで達成できる。 これは、タスクの異なるフェーズが異なるセンサーパターンによって特徴づけられ、これらのパターンを監視することで、ロボットが瞬間にどのコントローラを実行するかを決定することができるためである。 これにより、これらのコントローラの時間的シーケンスに関する仮定が緩和され、予期せぬ乱れに対して動作が堅牢になる。 我々は、各状態がコントローラに希薄に関連付けられている離散状態に対する確率的フィルタとしてこの考え方を実装した。 この枠組みに基づいて、引き手を開き、驚くほど頑丈な方法でテニスボールをつかむことができるロボットシステムを提案する。

Robotic manipulation behavior should be robust to disturbances that violate high-level task-structure. Such robustness can be achieved by constantly monitoring the environment to observe the discrete high-level state of the task. This is possible because different phases of a task are characterized by different sensor patterns and by monitoring these patterns a robot can decide which controllers to execute in the moment. This relaxes assumptions about the temporal sequence of those controllers and makes behavior robust to unforeseen disturbances. We implement this idea as probabilistic filter over discrete states where each state is direcly associated with a controller. Based on this framework we present a robotic system that is able to open a drawer and grasp tennis balls from it in a surprisingly robust way.
翻訳日:2022-05-10 16:51:38 公開日:2022-05-09
# プライスDOES プライスDOES! セッションベースレコメンデーションにおける価格と利子選好のモデル化

Price DOES Matter! Modeling Price and Interest Preferences in Session-based Recommendation ( http://arxiv.org/abs/2205.04181v1 )

ライセンス: Link先を確認
Xiaokun Zhang, Bo Xu, Liang Yang, Chenliang Li, Fenglong Ma, Haifeng Liu, Hongfei Lin(参考訳) セッションベースのレコメンデーションは、匿名ユーザーが短い行動シーケンスに基づいて購入したいアイテムを予測することを目的としている。 セッションベースのレコメンデーションに対する現在のアプローチは、ユーザの関心の好みをモデル化することのみに焦点を当てているが、それらはすべてアイテムの重要な属性、すなわち価格を無視している。 多くのマーケティング研究は、価格要因がユーザーの行動に大きく影響し、ユーザーの購入決定は価格と利子の両方によって同時に決定されることを示した。 しかし、セッションベースのレコメンデーションに価格設定を組み込むことは自明ではない。 まず,各項目の特徴から異種情報を抽出し,ユーザの価格設定を捉えることは困難である。 第二に、ユーザ選択を決定する際に、価格と利害関係の複雑な関係をモデル化することは困難である。 以上の課題に対処するため,セッションベースレコメンデーションのためのCo-Guided Heterogeneous Hypergraph Network (CoHHN)を提案する。 第1の課題に向けて,ヘテロジニアスハイパーグラフを考案し,ヘテロジニアス情報とその相互関係を表現した。 二重チャネル集約機構は、ヘテロジニアスハイパーグラフに様々な情報を集約するように設計される。 その後,利用者の価格選好と関心選好を注目層を介して抽出する。 第2の課題は、価格と関心の嗜好の関係をモデル化し、相互の学習を強化するための協調学習方式である。 最後に,項目の特徴とユーザの価格と関心度に基づいてユーザの行動を予測する。 3つの実世界のデータセットに対する大規模な実験は、提案したCoHHNの有効性を示す。 さらなる分析により、セッションベースのレコメンデーションの価格の重要性が明らかになる。

Session-based recommendation aims to predict items that an anonymous user would like to purchase based on her short behavior sequence. The current approaches towards session-based recommendation only focus on modeling users' interest preferences, while they all ignore a key attribute of an item, i.e., the price. Many marketing studies have shown that the price factor significantly influences users' behaviors and the purchase decisions of users are determined by both price and interest preferences simultaneously. However, it is nontrivial to incorporate price preferences for session-based recommendation. Firstly, it is hard to handle heterogeneous information from various features of items to capture users' price preferences. Secondly, it is difficult to model the complex relations between price and interest preferences in determining user choices. To address the above challenges, we propose a novel method Co-guided Heterogeneous Hypergraph Network (CoHHN) for session-based recommendation. Towards the first challenge, we devise a heterogeneous hypergraph to represent heterogeneous information and rich relations among them. A dual-channel aggregating mechanism is then designed to aggregate various information in the heterogeneous hypergraph. After that, we extract users' price preferences and interest preferences via attention layers. As to the second challenge, a co-guided learning scheme is designed to model the relations between price and interest preferences and enhance the learning of each other. Finally, we predict user actions based on item features and users' price and interest preferences. Extensive experiments on three real-world datasets demonstrate the effectiveness of the proposed CoHHN. Further analysis reveals the significance of price for session-based recommendation.
翻訳日:2022-05-10 16:51:25 公開日:2022-05-09
# エネルギー機能ストアのためのデータモデル設計について

On Designing Data Models for Energy Feature Stores ( http://arxiv.org/abs/2205.04267v1 )

ライセンス: Link先を確認
Gregor Cerar, Bla\v{z} Bertalani\v{c}, An\v{z}e Pirnat, Andrej \v{C}ampa, Carolina Fortuna(参考訳) エネルギーインフラのデジタル化は、機械学習モデルによってしばしばサポートされる新しいデータ駆動のアプリケーションを可能にする。 しかし、現在のデータ駆動パイプラインにおけるドメイン固有のデータ変換、前処理、管理はまだ解決されていない。 本稿では、MLベースのエネルギーアプリケーションを開発するためのデータモデル、エネルギー特徴工学および特徴管理ソリューションについて、初めて研究する。 まず、エネルギー応用に適したデータモデルを設計するための分類法を提案し、データモデルをmlモデルトレーニングに適した機能に変換する機能工学技術を分析し、最後に、機能ストアで利用可能な設計を分析する。 短期予測データセットを用いて、よりリッチなデータモデルを設計し、結果のモデルの性能に関する特徴をエンジニアリングする利点を示す。 最後に、オープンソース機能ストアを含む3つの補完的な機能管理ソリューションをベンチマークする。

The digitization of the energy infrastructure enables new, data driven, applications often supported by machine learning models. However, domain specific data transformations, pre-processing and management in modern data driven pipelines is yet to be addressed. In this paper we perform a first time study on data models, energy feature engineering and feature management solutions for developing ML-based energy applications. We first propose a taxonomy for designing data models suitable for energy applications, analyze feature engineering techniques able to transform the data model into features suitable for ML model training and finally also analyze available designs for feature stores. Using a short-term forecasting dataset, we show the benefits of designing richer data models and engineering the features on the performance of the resulting models. Finally, we benchmark three complementary feature management solutions, including an open-source feature store.
翻訳日:2022-05-10 16:51:01 公開日:2022-05-09
# Whomとの相性は? AIシステムのための直接的・社会的目標

Aligned with Whom? Direct and social goals for AI systems ( http://arxiv.org/abs/2205.04279v1 )

ライセンス: Link先を確認
Anton Korinek and Avital Balwit(参考訳) 人工知能(AI)がより強力で広く普及するにつれて、AIシステムが追求したい目標を確実に追求する方法という、AIアライメントの問題に注目が集まっている。 本稿は、どの目標を考えるかによって2種類のアライメント問題を区別し、それぞれが必要とする異なるソリューションを分析します。 直接的なアライメント問題は、AIシステムがそれを操作するエンティティの目標を達成するかどうかを考慮する。 対照的に、社会アライメント問題は、より大きなグループや社会に対するAIシステムの影響をより広く検討している。 特に、システムが他人に外部性を課すかどうかも考慮している。 直接アライメント問題に対する解決策は、より堅牢な実装を中心としているが、社会アライメント問題は一般的に、個人とグループレベルの目標間の対立から生じ、このような対立を仲介するAIガバナンスの重要性を高める。 ソーシャルアライメント問題に対処するには、開発者やオペレータに既存の規範を強制することと、aiシステムに直接適用される新しい規範を設計する必要がある。

As artificial intelligence (AI) becomes more powerful and widespread, the AI alignment problem - how to ensure that AI systems pursue the goals that we want them to pursue - has garnered growing attention. This article distinguishes two types of alignment problems depending on whose goals we consider, and analyzes the different solutions necessitated by each. The direct alignment problem considers whether an AI system accomplishes the goals of the entity operating it. In contrast, the social alignment problem considers the effects of an AI system on larger groups or on society more broadly. In particular, it also considers whether the system imposes externalities on others. Whereas solutions to the direct alignment problem center around more robust implementation, social alignment problems typically arise because of conflicts between individual and group-level goals, elevating the importance of AI governance to mediate such conflicts. Addressing the social alignment problem requires both enforcing existing norms on their developers and operators and designing new norms that apply directly to AI systems.
翻訳日:2022-05-10 16:50:48 公開日:2022-05-09
# 実世界pegの非知覚穴におけるシミュレーションに基づく視覚政策の学習

Learning A Simulation-based Visual Policy for Real-world Peg In Unseen Holes ( http://arxiv.org/abs/2205.04297v1 )

ライセンス: Link先を確認
Liang Xie, Hongxiang Yu, Kechun Xu, Tong Yang, Minhang Wang, Haojian Lu, Rong Xiong, Yue Wang(参考訳) 本稿では,シミュレーションにおける複数の形状のトレーニングを可能とし,シミュレーションコストを最小限に抑えながら実世界の任意の形に適応できる学習型ビジュアルペグ・イン・ホールを提案する。 中心となる考え方は、感覚運動のポリシーの一般化を、高速適応型認識モジュールとシミュレートされた汎用ポリシーモジュールの設計に分離することである。 このフレームワークはセグメンテーションネットワーク(SN)、仮想センサーネットワーク(VSN)、コントローラネットワーク(CN)で構成されている。 具体的には、VSNは、セグメント画像から見えない形状のポーズを測定するために訓練される。 その後、形状非依存なポーズ測定により、cnは一般的なpeg-in-holeを達成するように訓練される。 最後に、実際の見えない穴に適用する場合、シミュレーションVSN+CNで必要とされるSNを微調整するだけでよい。 転送コストをさらに最小化するために,1分間の人間教育後にSNのデータを自動的に収集・注釈する手法を提案する。 実世界および実世界のシミュレーション結果は、目/目/手の設定の下で提示される。 提案手法を組み込んだ電気自動車充電システムでは,SN転送において,数百個の自動ラベル付きサンプルを用いて2~3秒で10/10の成功率を達成する。

This paper proposes a learning-based visual peg-in-hole that enables training with several shapes in simulation, and adapting to arbitrary unseen shapes in real world with minimal sim-to-real cost. The core idea is to decouple the generalization of the sensory-motor policy to the design of a fast-adaptable perception module and a simulated generic policy module. The framework consists of a segmentation network (SN), a virtual sensor network (VSN), and a controller network (CN). Concretely, the VSN is trained to measure the pose of the unseen shape from a segmented image. After that, given the shape-agnostic pose measurement, the CN is trained to achieve generic peg-in-hole. Finally, when applying to real unseen holes, we only have to fine-tune the SN required by the simulated VSN+CN. To further minimize the transfer cost, we propose to automatically collect and annotate the data for the SN after one-minute human teaching. Simulated and real-world results are presented under the configurations of eye-to/in-hand. An electric vehicle charging system with the proposed policy inside achieves a 10/10 success rate in 2-3s, using only hundreds of auto-labeled samples for the SN transfer.
翻訳日:2022-05-10 16:50:30 公開日:2022-05-09
# 非自己回帰型テキスト音声合成のためのクロス・Utterance Conditioned VAE

Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech ( http://arxiv.org/abs/2205.04120v1 )

ライセンス: Link先を確認
Yang Li, Cheng Yu, Guangzhi Sun, Hua Jiang, Fanglei Sun, Weiqin Zu, Ying Wen, Yang Yang, Jun Wang(参考訳) tts(end-to-end text-to-speech)システムの音声合成には,韻律変化のモデル化が重要である。 本稿では,過去文と未来文の両方から得られた音響的特徴,話者情報,テキスト特徴の条件付けにより,各音素の潜在韻律特徴の後方確率分布を推定するクロス発話条件vae(cuc-vae)を提案する。 推測時には、VAEが使用する標準ガウス分布の代わりに、CUC-VAEは、相互発話情報に基づいて条件付けられた発話固有の事前分布からのサンプリングを可能にする。 CUC-VAEの性能は、単語誤り率や韻律属性の標準偏差を含む、自然性、知性、定量的測定のための定性的聴取テストによって評価される。 LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。

Modelling prosody variation is critical for synthesizing natural and expressive speech in end-to-end text-to-speech (TTS) systems. In this paper, a cross-utterance conditional VAE (CUC-VAE) is proposed to estimate a posterior probability distribution of the latent prosody features for each phoneme by conditioning on acoustic features, speaker information, and text features obtained from both past and future sentences. At inference time, instead of the standard Gaussian distribution used by VAE, CUC-VAE allows sampling from an utterance-specific prior distribution conditioned on cross-utterance information, which allows the prosody features generated by the TTS system to be related to the context and is more similar to how humans naturally produce prosody. The performance of CUC-VAE is evaluated via a qualitative listening test for naturalness, intelligibility and quantitative measurements, including word error rates and the standard deviation of prosody attributes. Experimental results on LJ-Speech and LibriTTS data show that the proposed CUC-VAE TTS system improves naturalness and prosody diversity with clear margins.
翻訳日:2022-05-10 16:48:52 公開日:2022-05-09
# (参考訳) panoptic neural fields:意味的オブジェクト認識ニューラルシーン表現 [全文訳有]

Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation ( http://arxiv.org/abs/2205.04334v1 )

ライセンス: CC BY-SA 4.0
Abhijit Kundu, Kyle Genova, Xiaoqi Yin, Alireza Fathi, Caroline Pantofaru, Leonidas Guibas, Andrea Tagliasacchi, Frank Dellaert, Thomas Funkhouser(参考訳) 本稿では,物体(モノ)と背景(ストフ)の集合にシーンを分解するオブジェクト認識型ニューラルシーン表現であるPanoptic Neural Fields(PNF)を提案する。 各オブジェクトは向き付けられた3dバウンディングボックスと、位置、方向、時間を取り、密度と放射率を出力する多層パーセプトロン(mlp)によって表現される。 背景のものは、セマンティックラベルを出力する類似のMLPによって表現されます。 それぞれのオブジェクト MLP はインスタンス固有であるため、メタ学習初期化によって組み込まれたカテゴリ固有のプリエントを引き続き活用しながら、従来のオブジェクト認識アプローチよりも小さく、高速にすることができる。 我々のモデルは、カラー画像から任意のシーンのパノプティカル放射場表現を構築する。 市販のアルゴリズムを用いて、カメラのポーズ、オブジェクトのトラック、および2D画像セマンティックセグメンテーションを予測する。 次に,色画像からの自己スーパービジョンと予測されたセマンティックセグメンテーションからの疑似スーパービジョンを用いて,MDP重みと境界ボックスパラメータを共同で最適化する。 実世界の動的シーンを用いた実験では,新しいビュー合成,2次元panopticセグメンテーション,3次元シーン編集,マルチビュー深度予測などのタスクに有効に使用できることがわかった。

We present Panoptic Neural Fields (PNF), an object-aware neural scene representation that decomposes a scene into a set of objects (things) and background (stuff). Each object is represented by an oriented 3D bounding box and a multi-layer perceptron (MLP) that takes position, direction, and time and outputs density and radiance. The background stuff is represented by a similar MLP that additionally outputs semantic labels. Each object MLPs are instance-specific and thus can be smaller and faster than previous object-aware approaches, while still leveraging category-specific priors incorporated via meta-learned initialization. Our model builds a panoptic radiance field representation of any scene from just color images. We use off-the-shelf algorithms to predict camera poses, object tracks, and 2D image semantic segmentations. Then we jointly optimize the MLP weights and bounding box parameters using analysis-by-synthesi s with self-supervision from color images and pseudo-supervision from predicted semantic segmentations. During experiments with real-world dynamic scenes, we find that our model can be used effectively for several tasks like novel view synthesis, 2D panoptic segmentation, 3D scene editing, and multiview depth prediction.
翻訳日:2022-05-10 16:44:46 公開日:2022-05-09
# 視線投影による単眼3次元顔再構成

Single-Image 3D Face Reconstruction under Perspective Projection ( http://arxiv.org/abs/2205.04126v1 )

ライセンス: Link先を確認
Yueying Kao and Bowen Pan and Miao Xu and Jiangjing Lyu and Xiangyu Zhu and Yuanzhang Chang and Xiaobo Li and Zhen Lei and Zixiong Qin(参考訳) 3次元顔再建では, 鏡視投影の代替として直交投影法が広く採用されている。 この近似は、カメラと顔の距離が十分遠くてもうまく機能する。 しかし、顔がカメラに非常に近づいたり、カメラ軸に沿って動いたりするシナリオでは、遠近射影の歪みによる不正確な復元と不安定な時間的嵌合に悩まされる。 本稿では,視線投影による単一像の3次元顔再構成の課題に対処することを目的とする。 具体的には、ディープニューラルネットワークであるパースペクティブネットワーク(perspnet)が提案され、正準空間における3d顔形状を同時に再構成し、2dピクセルと3dポイントの対応を学習し、それによって6dof(6自由度)の顔ポーズを推定して視点投影を表現できる。 また,大規模なarkitfaceデータセットをコントリビュートすることで,3dポーズパラメータをアノテートした902,724枚の2d顔画像を含む視点投影のシナリオに基づいて,3d顔再構成ソリューションのトレーニングと評価を可能にする。 実験の結果,本手法は最先端手法よりも有意差が認められた。

In 3D face reconstruction, orthogonal projection has been widely employed to substitute perspective projection to simplify the fitting process. This approximation performs well when the distance between camera and face is far enough. However, in some scenarios that the face is very close to camera or moving along the camera axis, the methods suffer from the inaccurate reconstruction and unstable temporal fitting due to the distortion under the perspective projection. In this paper, we aim to address the problem of single-image 3D face reconstruction under perspective projection. Specifically, a deep neural network, Perspective Network (PerspNet), is proposed to simultaneously reconstruct 3D face shape in canonical space and learn the correspondence between 2D pixels and 3D points, by which the 6DoF (6 Degrees of Freedom) face pose can be estimated to represent perspective projection. Besides, we contribute a large ARKitFace dataset to enable the training and evaluation of 3D face reconstruction solutions under the scenarios of perspective projection, which has 902,724 2D facial images with ground-truth 3D face mesh and annotated 6DoF pose parameters. Experimental results show that our approach outperforms current state-of-the-art methods by a significant margin.
翻訳日:2022-05-10 16:24:30 公開日:2022-05-09
# 手話辞書による手話のスポッティングのスケールアップ

Scaling up sign spotting through sign language dictionaries ( http://arxiv.org/abs/2205.04152v1 )

ライセンス: Link先を確認
G\"ul Varol, Liliane Momeni, Samuel Albanie, Triantafyllos Afouras, Andrew Zisserman(参考訳) この作業の焦点は、$\textit{sign spotting}$ - 孤立したサインのビデオの場合、 $\textit{w whether}$ と $\textit{where}$ を連続的かつ協調的な手話ビデオで署名することである。 To achieve this sign spotting task, we train a model using multiple types of available supervision by: (1) $\textit{watching}$ existing footage which is sparsely labelled using mouthing cues; (2) $\textit{reading}$ associated subtitles (readily available translations of the signed content) which provide additional $\textit{weak-supervision}$; (3) $\textit{looking up}$ words (for which no co-articulated labelled examples are available) in visual sign language dictionaries to enable novel sign spotting. これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。 提案手法の有効性を低ショット符号スポッティングベンチマークで検証する。 また,本課題の研究を容易にするために,分離記号bsldictを用いた機械可読ブリティッシュ・サイン言語(bsl)辞書データセットを提案する。 データセット、モデル、コードはプロジェクトのページで利用可能です。

The focus of this work is $\textit{sign spotting}$ - given a video of an isolated sign, our task is to identify $\textit{whether}$ and $\textit{where}$ it has been signed in a continuous, co-articulated sign language video. To achieve this sign spotting task, we train a model using multiple types of available supervision by: (1) $\textit{watching}$ existing footage which is sparsely labelled using mouthing cues; (2) $\textit{reading}$ associated subtitles (readily available translations of the signed content) which provide additional $\textit{weak-supervision}$; (3) $\textit{looking up}$ words (for which no co-articulated labelled examples are available) in visual sign language dictionaries to enable novel sign spotting. These three tasks are integrated into a unified learning framework using the principles of Noise Contrastive Estimation and Multiple Instance Learning. We validate the effectiveness of our approach on low-shot sign spotting benchmarks. In addition, we contribute a machine-readable British Sign Language (BSL) dictionary dataset of isolated signs, BSLDict, to facilitate study of this task. The dataset, models and code are available at our project page.
翻訳日:2022-05-10 16:24:08 公開日:2022-05-09
# リモートセンシングセマンティクスセグメンテーションのための改良フローワープモジュール

Improved-Flow Warp Module for Remote Sensing Semantic Segmentation ( http://arxiv.org/abs/2205.04160v1 )

ライセンス: Link先を確認
Yinjie Zhang, Yi Liu, Wei Guo(参考訳) リモートセンシングセマンティクスセグメンテーションは、特定のラベルを持つ空中画像に各ピクセルを自動的に割り当てることを目的としている。 本稿では,リモートセンシングによるセマンティクスセグメンテーションのために,異なるスケールにまたがる意味的特徴マップを調整するための改良型フローワープモジュール(ifwm)を提案する。 改良されたフローワープモジュールは、畳み込みニューラルネットワークの特徴抽出プロセスと共に適用される。 まず、IFWMは、複数の画素のオフセットを学習可能な方法で計算し、マルチスケール特徴の不一致を軽減する。 第2に、オフセットは低解像度のdeep feature up-samplingプロセスに役立ち、機能アコーディオンを改善し、セマンティックセグメンテーションの精度を高める。 本手法を複数のリモートセンシングデータセット上で検証し,本手法の有効性を実証した。 .

Remote sensing semantic segmentation aims to assign automatically each pixel on aerial images with specific label. In this letter, we proposed a new module, called improved-flow warp module (IFWM), to adjust semantic feature maps across different scales for remote sensing semantic segmentation. The improved-flow warp module is applied along with the feature extraction process in the convolutional neural network. First, IFWM computes the offsets of pixels by a learnable way, which can alleviate the misalignment of the multi-scale features. Second, the offsets help with the low-resolution deep feature up-sampling process to improve the feature accordance, which boosts the accuracy of semantic segmentation. We validate our method on several remote sensing datasets, and the results prove the effectiveness of our method..
翻訳日:2022-05-10 16:23:46 公開日:2022-05-09
# CoCoLoT: 長期のビジュアルトラッキングに補完的なトラッカーを組み合わせる

CoCoLoT: Combining Complementary Trackers in Long-Term Visual Tracking ( http://arxiv.org/abs/2205.04261v1 )

ライセンス: Link先を確認
Matteo Dunnhofer, Christian Micheloni(参考訳) 異なるアルゴリズムの補完的な機能をどのように組み合わせるかは、視覚的なオブジェクト追跡に中心的な関心を寄せてきた。 このような問題に対する大きな進歩は達成されたが、短期追跡シナリオを考慮している。 代わりに、長期追跡設定はソリューションによって無視されている。 本稿では,長期追跡のシナリオを明確に検討し,補完的な視覚トラッカーの特性を組み合わせて長期追跡性能を向上させるフレームワークCoCoLoTを提案する。 cocolotは、オンライン学習された深層検証モデルを通じて、トラッカーがターゲットオブジェクトを追跡しているかどうかを判断し、最適な実行トラッカを選択する決定ポリシーを発動し、失敗したオブジェクトのパフォーマンスを補正する。 提案手法は広く評価され、他のいくつかのソリューションとの比較により、最も人気のある長期ビジュアルトラッキングベンチマークの最先端技術と競合することが判明した。

How to combine the complementary capabilities of an ensemble of different algorithms has been of central interest in visual object tracking. A significant progress on such a problem has been achieved, but considering short-term tracking scenarios. Instead, long-term tracking settings have been substantially ignored by the solutions. In this paper, we explicitly consider long-term tracking scenarios and provide a framework, named CoCoLoT, that combines the characteristics of complementary visual trackers to achieve enhanced long-term tracking performance. CoCoLoT perceives whether the trackers are following the target object through an online learned deep verification model, and accordingly activates a decision policy which selects the best performing tracker as well as it corrects the performance of the failing one. The proposed methodology is evaluated extensively and the comparison with several other solutions reveals that it competes favourably with the state-of-the-art on the most popular long-term visual tracking benchmarks.
翻訳日:2022-05-10 16:23:30 公開日:2022-05-09
# 無人航空機のシームズ物体追跡 : レビューと総合解析

Siamese Object Tracking for Unmanned Aerial Vehicle: A Review and Comprehensive Analysis ( http://arxiv.org/abs/2205.04281v1 )

ライセンス: Link先を確認
Changhong Fu, Kunhan Lu, Guangze Zheng, Junjie Ye, Ziang Cao, and Bowen Li(参考訳) 無人航空機(UAV)による視覚的物体追跡は幅広い応用を可能にしており、その汎用性と有効性からリモートセンシングの分野で注目を集めている。 ディープラーニングの革命的なトレンドの新たな力として、Siameseのネットワークは、正確性、堅牢性、スピードの有望なバランスで、視覚オブジェクトの追跡に力を入れている。 組み込みプロセッサの開発とディープニューラルネットワークの段階的な最適化により、シームズトラッカーは広範な研究を受け、UAVとの予備的な組み合わせを実現する。 しかし、UAVの計算資源の制限と複雑な実世界の状況のため、シームズネットワークによる航空追跡は多くの面で深刻な障害に直面している。 UAV追跡におけるシームズネットワークの展開について、本研究は、一般的なUAV搭載プロセッサを用いた評価に基づく、徹底的なUAV固有の分析とともに、先進的なシームズトラッカーの包括的なレビューを示す。 次に,実世界のUAV展開における代表的なシームズトラッカーの有効性と有効性を検証するために,搭載試験を行った。 さらに, 追跡コミュニティの発展を促進するため, 既存のシアムトラッカーの限界を分析し, 低照度評価による追加実験を行った。 最後に, リモートセンシング分野におけるsiamese uav追跡の開発に向けた展望について述べる。 先進的なSiameseトラッカーの統一フレームワーク、すなわちコードライブラリと実験的な評価の結果はhttps://github.com/v ision4robotics/Siame seTracking4UAVで公開されている。

Unmanned aerial vehicle (UAV)-based visual object tracking has enabled a wide range of applications and attracted increasing attention in the field of remote sensing because of its versatility and effectiveness. As a new force in the revolutionary trend of deep learning, Siamese networks shine in visual object tracking with their promising balance of accuracy, robustness, and speed. Thanks to the development of embedded processors and the gradual optimization of deep neural networks, Siamese trackers receive extensive research and realize preliminary combinations with UAVs. However, due to the UAV's limited onboard computational resources and the complex real-world circumstances, aerial tracking with Siamese networks still faces severe obstacles in many aspects. To further explore the deployment of Siamese networks in UAV tracking, this work presents a comprehensive review of leading-edge Siamese trackers, along with an exhaustive UAV-specific analysis based on the evaluation using a typical UAV onboard processor. Then, the onboard tests are conducted to validate the feasibility and efficacy of representative Siamese trackers in real-world UAV deployment. Furthermore, to better promote the development of the tracking community, this work analyzes the limitations of existing Siamese trackers and conducts additional experiments represented by low-illumination evaluations. In the end, prospects for the development of Siamese UAV tracking in the remote sensing field are discussed. The unified framework of leading-edge Siamese trackers, i.e., code library, and the results of their experimental evaluations are available at https://github.com/v ision4robotics/Siame seTracking4UAV .
翻訳日:2022-05-10 16:23:13 公開日:2022-05-09
# 胸部x線写真における異常検出のための解剖学的自己教師付き学習

Anatomy-aware Self-supervised Learning for Anomaly Detection in Chest Radiographs ( http://arxiv.org/abs/2205.04282v1 )

ライセンス: Link先を確認
Junya Sato, Yuki Suzuki, Tomohiro Wataya, Daiki Nishigaki, Kosuke Kita, Kazuki Yamagata, Noriyuki Tomiyama, and Shoji Kido(参考訳) 異常の正確な検出には大量のラベル付き医用画像が必要であるが、手動アノテーションは労働集約的かつ時間のかかるものである。 自己教師付き学習(SSL)は、手動のアノテーションなしでデータ固有の特徴を学習する訓練手法である。 いくつかのSSLベースのモデルが医療画像異常検出に使用されている。 これらのSSL手法は、自然および工業製品画像など、フィールド固有の複数の画像の表現を効果的に学習する。 しかし、医学的専門知識の要求により、SSLベースの典型的なモデルは、医用画像異常検出において非効率である。 解剖学的構造に基づく教師なし異常検出(UAD)を可能にするSSLベースのモデルを提案する。 このモデルは解剖学的アウェアペースト(anatpaste)拡張ツールを使用している。 AnatPasteは、しきい値に基づく肺セグメンテーションプレテキストタスクを使用して、正常な胸部X線写真における異常を発生させ、モデル事前訓練に使用される。 これらの異常は実際の異常と似ており、モデルがそれらを認識するのに役立つ。 3つのオープンソースの胸部x線画像データセットを用いて評価を行った。 我々のモデルは、既存のUADモデルの中で最も高い92.1%、78.7%、81.9%の曲線下面積を示す。 これは、プリテキストタスクとして解剖学的情報を使用した最初のSSLモデルである。 AnatPasteはさまざまなディープラーニングモデルや下流タスクに適用できる。 適切なセグメンテーションを固定することで、他のモダリティにも適用することができる。 私たちのコードは、https://github.com/j un-sato/AnatPaste.co mで公開されています。

Large numbers of labeled medical images are essential for the accurate detection of anomalies, but manual annotation is labor-intensive and time-consuming. Self-supervised learning (SSL) is a training method to learn data-specific features without manual annotation. Several SSL-based models have been employed in medical image anomaly detection. These SSL methods effectively learn representations in several field-specific images, such as natural and industrial product images. However, owing to the requirement of medical expertise, typical SSL-based models are inefficient in medical image anomaly detection. We present an SSL-based model that enables anatomical structure-based unsupervised anomaly detection (UAD). The model employs the anatomy-aware pasting (AnatPaste) augmentation tool. AnatPaste employs a threshold-based lung segmentation pretext task to create anomalies in normal chest radiographs, which are used for model pretraining. These anomalies are similar to real anomalies and help the model recognize them. We evaluate our model on three opensource chest radiograph datasets. Our model exhibit area under curves (AUC) of 92.1%, 78.7%, and 81.9%, which are the highest among existing UAD models. This is the first SSL model to employ anatomical information as a pretext task. AnatPaste can be applied in various deep learning models and downstream tasks. It can be employed for other modalities by fixing appropriate segmentation. Our code is publicly available at: https://github.com/j un-sato/AnatPaste.
翻訳日:2022-05-10 16:22:42 公開日:2022-05-09
# 自動車イベントデータを用いたスパイクニューラルネットワークによる物体検出

Object Detection with Spiking Neural Networks on Automotive Event Data ( http://arxiv.org/abs/2205.04339v1 )

ライセンス: Link先を確認
Lo\"ic Cordone, Beno\^it Miramond, Philippe Thierion(参考訳) 自動車組み込みアルゴリズムは、レイテンシ、精度、消費電力の面で非常に高い制約がある。 本研究では、イベントカメラから直接スパイキングニューラルネットワーク(SNN)をトレーニングし、高速で効率的な自動車組込みアプリケーションを設計することを提案する。 実際、SNNはより生物学的に現実的なニューラルネットワークであり、ニューロンは離散的で非同期なスパイクを使って通信する。 したがって、イベントデータはバイナリであり、空間と時間のスパースであり、スパイクニューラルネットワークの理想的な入力である。 しかし、これまでは、制御されていない環境で複雑な物体を検出するなど、自動車の現実的な問題に対して性能は不十分だった。 この問題に対処するために、私たちは、スパイクバックプロパゲーションに関する最新の進歩 - サーロゲートグラデーション学習、パラメトリックlif、spikingjellyフレームワーク - と、人気のディープラーニングネットワークであるswistynet、vgg、mobilenet、dungnetの4つの異なるsnsをトレーニングするための新しい \textit{voxel cube}イベントエンコーディングを利用した。 その結果,通常文献で考慮されるSNNのサイズと複雑さを増大させることができた。 本稿では,2つの自動車イベントデータセットの実験を行い,スパイクニューラルネットワークの最先端分類結果を確立した。 これらの結果に基づき、snsとssdを組み合わせることで、複雑なgen1 automotive detection eventデータセット上でオブジェクト検出が可能な最初のスパイクニューラルネットワークを提案する。

Automotive embedded algorithms have very high constraints in terms of latency, accuracy and power consumption. In this work, we propose to train spiking neural networks (SNNs) directly on data coming from event cameras to design fast and efficient automotive embedded applications. Indeed, SNNs are more biologically realistic neural networks where neurons communicate using discrete and asynchronous spikes, a naturally energy-efficient and hardware friendly operating mode. Event data, which are binary and sparse in space and time, are therefore the ideal input for spiking neural networks. But to date, their performance was insufficient for automotive real-world problems, such as detecting complex objects in an uncontrolled environment. To address this issue, we took advantage of the latest advancements in matter of spike backpropagation - surrogate gradient learning, parametric LIF, SpikingJelly framework - and of our new \textit{voxel cube} event encoding to train 4 different SNNs based on popular deep learning networks: SqueezeNet, VGG, MobileNet, and DenseNet. As a result, we managed to increase the size and the complexity of SNNs usually considered in the literature. In this paper, we conducted experiments on two automotive event datasets, establishing new state-of-the-art classification results for spiking neural networks. Based on these results, we combined our SNNs with SSD to propose the first spiking neural networks capable of performing object detection on the complex GEN1 Automotive Detection event dataset.
翻訳日:2022-05-10 16:22:22 公開日:2022-05-09
# RGB-Dカメラと3Dプリントマーカーを用いた新しい拡張現実超音波フレームワーク

A Novel Augmented Reality Ultrasound Framework Using an RGB-D Camera and a 3D-printed Marker ( http://arxiv.org/abs/2205.04350v1 )

ライセンス: Link先を確認
Yitian Zhou, Ga\'etan Lelu, Boris Labb\'e, Guillaume Pasquier, Pierre Le Gargasson, Albert Murienne and Laurent Launay(参考訳) 目的 3d手術空間における超音波画像の位置と追跡能力は,複数の臨床応用において非常に有益である。 これはしばしば、精密だが高価な光学的または電磁的な追跡システムを用いてプローブを追跡することで達成される。 我々のゴールは、標準RGB-Dカメラを用いたシンプルで低コストな拡張現実エコーフレームワークを開発することである。 メソッド。 超音波システムを用いて, Occipital Structure Core RGB-Dカメラ, 特別に設計された3Dマーカー, 高速クラウド登録アルゴリズムであるFaVoRを試作し, 評価を行った。 このプローブはソフトウェアPLUSツールキットを用いて3DプリントしたN線ファントムで校正された。 提案手法は簡易化され,ファントムに付加したマーカーやセンサは不要である。 また、拡張現実アプリケーションのためのOpenGLベースの可視化ソフトウェアを開発した。 結果だ キャリブレーションされたプローブは、シミュレートされた針挿入シナリオで実世界のビデオを強化するために使用された。 映像に超音波画像が映し出され, 視覚的コヒーレントな結果が得られた。 5cmの立方体を局在させるAR USフレームワークのエンドツーエンドの精度を評価した。 2つの実験から,ターゲットポジショニング誤差は5.6mmから5.9mm,-3.9度から4.2°の範囲であった。 結論だ 将来的にはrgb-dカメラがモバイルデバイスやarグラスに統合される可能性があり、このプロトタイプソリューションは臨床で3dフリーハンド超音波の使用が容易になると信じている。 将来の研究は、シミュレーションと実際の医療シナリオの両方において、商用追跡ソリューションによって得られたものとキャリブレーションの精度を比較することで、より厳密で徹底的な評価を含むべきである。

Purpose. Ability to locate and track ultrasound images in the 3D operating space is of great benefit for multiple clinical applications. This is often accomplished by tracking the probe using a precise but expensive optical or electromagnetic tracking system. Our goal is to develop a simple and low cost augmented reality echography framework using a standard RGB-D Camera. Methods. A prototype system consisting of an Occipital Structure Core RGB-D camera, a specifically-designe d 3D marker, and a fast point cloud registration algorithm FaVoR was developed and evaluated on an Ultrasonix ultrasound system. The probe was calibrated on a 3D-printed N-wire phantom using the software PLUS toolkit. The proposed calibration method is simplified, requiring no additional markers or sensors attached to the phantom. Also, a visualization software based on OpenGL was developed for the augmented reality application. Results. The calibrated probe was used to augment a real-world video in a simulated needle insertion scenario. The ultrasound images were rendered on the video, and visually-coherent results were observed. We evaluated the end-to-end accuracy of our AR US framework on localizing a cube of 5 cm size. From our two experiments, the target pose localization error ranges from 5.6 to 5.9 mm and from -3.9 to 4.2 degrees. Conclusion. We believe that with the potential democratization of RGB-D cameras integrated in mobile devices and AR glasses in the future, our prototype solution may facilitate the use of 3D freehand ultrasound in clinical routine. Future work should include a more rigorous and thorough evaluation, by comparing the calibration accuracy with those obtained by commercial tracking solutions in both simulated and real medical scenarios.
翻訳日:2022-05-10 16:21:52 公開日:2022-05-09
# 個人再識別のためのオンライン教師なしドメイン適応

Online Unsupervised Domain Adaptation for Person Re-identification ( http://arxiv.org/abs/2205.04383v1 )

ライセンス: Link先を確認
Hamza Rami, Matthieu Ospici, St\'ephane Lathuili\`ere(参考訳) unsupervised domain adaptation for person re-idification (person re-id) はラベル付きソースドメインの学習知識をラベル付きターゲットドメインに転送するタスクである。 この問題に対処する最近の論文のほとんどは、オフライントレーニング設定を採用しています。 より正確には、Re-IDモデルのトレーニングは、完全なトレーニング対象のドメインデータセットにアクセスできることを前提に行われます。 本稿では, 対象領域は, 実際の実世界アプリケーションにおいて, 異なるネットワークのカメラから連続的にデータが増大するデータストリームから成り立っていることを論じる。 Re-IDソリューションはまた、収集されたデータは限られた期間しか保存できないという機密規則によって制限されているため、モデルがこれまで見られたターゲット画像にアクセスできなくなる。 そこで本研究では,オンライン適応とプライバシ保護という2つの制約を満たした,非教師なしドメイン適応のための新しい実用的なオンライン設定を提案する。 次に、有名なMarket-1501、Duke、MSMT17ベンチマークを用いて、最新のUDAアルゴリズムを適用し、評価する。

Unsupervised domain adaptation for person re-identification (Person Re-ID) is the task of transferring the learned knowledge on the labeled source domain to the unlabeled target domain. Most of the recent papers that address this problem adopt an offline training setting. More precisely, the training of the Re-ID model is done assuming that we have access to the complete training target domain data set. In this paper, we argue that the target domain generally consists of a stream of data in a practical real-world application, where data is continuously increasing from the different network's cameras. The Re-ID solutions are also constrained by confidentiality regulations stating that the collected data can be stored for only a limited period, hence the model can no longer get access to previously seen target images. Therefore, we present a new yet practical online setting for Unsupervised Domain Adaptation for person Re-ID with two main constraints: Online Adaptation and Privacy Protection. We then adapt and evaluate the state-of-the-art UDA algorithms on this new online setting using the well-known Market-1501, Duke, and MSMT17 benchmarks.
翻訳日:2022-05-10 16:20:41 公開日:2022-05-09
# Modular Re-rankerを用いたLong Document Re- rank

Long Document Re-ranking with Modular Re-ranker ( http://arxiv.org/abs/2205.04275v1 )

ライセンス: Link先を確認
Luyu Gao, Jamie Callan(参考訳) BERTのようなディープ言語モデルに基づくニューラルリランカにとって、長いドキュメント再ランクは難しい問題だった。 初期の作業では、ドキュメントを短い文節のようなチャンクに分解する。 これらのチャンクは独立してスカラースコアや潜在ベクトルにマッピングされ、最終関連スコアにプールされる。 しかし、これらのエンコード・アンド・プール法は必然的に情報のボトルネック、すなわち低次元表現をもたらす。 本稿では,アテンション操作とモジュール型トランスフォーマー・リランカ・フレームワークを活用した,完全な問合せ-文書間インタラクションのモデル化を提案する。 まず、ドキュメントチャンクはエンコーダモジュールと独立してエンコードされる。 その後、対話モジュールがクエリをエンコードし、クエリからすべてのドキュメントチャンク表現に共同で注目する。 我々は、この新たな自由度を使ってドキュメント全体から重要な情報を収集できることを実証する。 実験の結果、この設計はロバスト04とクリューWeb09の2つの古典的IRコレクションとMS-MARCO文書ランキングを効果的に再ランク付けできることがわかった。

Long document re-ranking has been a challenging problem for neural re-rankers based on deep language models like BERT. Early work breaks the documents into short passage-like chunks. These chunks are independently mapped to scalar scores or latent vectors, which are then pooled into a final relevance score. These encode-and-pool methods however inevitably introduce an information bottleneck: the low dimension representations. In this paper, we propose instead to model full query-to-document interaction, leveraging the attention operation and modular Transformer re-ranker framework. First, document chunks are encoded independently with an encoder module. An interaction module then encodes the query and performs joint attention from the query to all document chunk representations. We demonstrate that the model can use this new degree of freedom to aggregate important information from the entire document. Our experiments show that this design produces effective re-ranking on two classical IR collections Robust04 and ClueWeb09, and a large-scale supervised collection MS-MARCO document ranking.
翻訳日:2022-05-10 16:19:53 公開日:2022-05-09
# 説明可能なモデル支援のための一般線座標に基づく決定木の可視化

Visualization of Decision Trees based on General Line Coordinates to Support Explainable Models ( http://arxiv.org/abs/2205.04035v1 )

ライセンス: Link先を確認
Alex Worland, Sridevi Wagle, Boris Kovalerchuk(参考訳) 機械学習モデル(ML)モデルの可視化は、MLプロセスの重要な部分であり、MLモデルの解釈可能性と予測精度を高める。 本稿では,決定木を解釈可能なモデルとして可視化する新しいSPC-DTを提案する。 これらの手法は Shifted Paired Coordinates (SPC) と呼ばれる一般線座標を用いている。 spcでは、各 n-d 点を 2-次元デカルト座標のシフト対を有向グラフとして可視化する。 新しいメソッドはDTモデルを視覚化するために既存のメソッドの機能を拡張し、補完する。 1)属性間の関係、(2)DT構造に対する個々のケース、(3)DT内のデータフロー、(4)各分割がDTノードのしきい値にどれだけきつくか、(5)n-D空間の一部のケースの密度を示す。 この情報はdtモデルの評価と改善においてドメインの専門家にとって重要である。 これらの手法の利点は、実データを用いてケーススタディで実証される。

Visualization of Machine Learning (ML) models is an important part of the ML process to enhance the interpretability and prediction accuracy of the ML models. This paper proposes a new method SPC-DT to visualize the Decision Tree (DT) as interpretable models. These methods use a version of General Line Coordinates called Shifted Paired Coordinates (SPC). In SPC, each n-D point is visualized in a set of shifted pairs of 2-D Cartesian coordinates as a directed graph. The new method expands and complements the capabilities of existing methods, to visualize DT models. It shows: (1) relations between attributes, (2) individual cases relative to the DT structure, (3) data flow in the DT, (4) how tight each split is to thresholds in the DT nodes, and (5) the density of cases in parts of the n-D space. This information is important for domain experts for evaluating and improving the DT models, including avoiding overgeneralization and overfitting of models, along with their performance. The benefits of the methods are demonstrated in the case studies, using three real datasets.
翻訳日:2022-05-10 16:16:41 公開日:2022-05-09
# ビザンティン攻撃で武装した複数の武装組織

Federated Multi-Armed Bandits Under Byzantine Attacks ( http://arxiv.org/abs/2205.04134v1 )

ライセンス: Link先を確認
Ilker Demirel, Yigit Yildirim, Cem Tekin(参考訳) マルチアームバンディット(mab)は、学習者が探索と搾取の間のトレードオフを制御し、累積報酬を最大化するシンプルな強化学習モデルである。 FMAB(Federated Multi-armed Bandits)は、多種多様なローカルモデルを持つ学習者のコホートがMABゲームをプレイし、パラメータサーバに集約されたフィードバックを伝達し、グローバルなフィードバックモデルを学習するフレームワークである。 連合学習モデルは、モデル更新攻撃やデータ中毒などの敵対的攻撃に対して脆弱である。 本研究では,学習プロセスに脅威をもたらす偽モデル更新を送信できるビザンティンクライアントの存在下でのFMAB問題について検討する。 我々はロバストな統計からツールを借り、ビザンチンのクライアントに対応するために中央値に基づく推定器feed-mom-ucbを提案する。 ビザンチンのクライアントがコホートの半分以上を構成する場合、クライアントとパラメータサーバ間の通信コストを含む、避けられないエラーマージンに対して${\cal O} (\log T)$の累積的後悔を発生させることができることを示す。 我々は,アルゴリズムパラメータ間の相互作用,回避不能なエラーマージン,後悔,通信コスト,アームの準最適差を分析した。 実験により, ビザンチン攻撃の存在下でのベースラインに対するFed-MoM-UCBの有効性を実証した。

Multi-armed bandits (MAB) is a simple reinforcement learning model where the learner controls the trade-off between exploration versus exploitation to maximize its cumulative reward. Federated multi-armed bandits (FMAB) is a recently emerging framework where a cohort of learners with heterogeneous local models play a MAB game and communicate their aggregated feedback to a parameter server to learn the global feedback model. Federated learning models are vulnerable to adversarial attacks such as model-update attacks or data poisoning. In this work, we study an FMAB problem in the presence of Byzantine clients who can send false model updates that pose a threat to the learning process. We borrow tools from robust statistics and propose a median-of-means-base d estimator: Fed-MoM-UCB, to cope with the Byzantine clients. We show that if the Byzantine clients constitute at most half the cohort, it is possible to incur a cumulative regret on the order of ${\cal O} (\log T)$ with respect to an unavoidable error margin, including the communication cost between the clients and the parameter server. We analyze the interplay between the algorithm parameters, unavoidable error margin, regret, communication cost, and the arms' suboptimality gaps. We demonstrate Fed-MoM-UCB's effectiveness against the baselines in the presence of Byzantine attacks via experiments.
翻訳日:2022-05-10 16:14:27 公開日:2022-05-09
# 垂直ロジスティック回帰における残留型ラベル保護機構

Residue-based Label Protection Mechanisms in Vertical Logistic Regression ( http://arxiv.org/abs/2205.04166v1 )

ライセンス: Link先を確認
Juntao Tan, Lan Zhang, Yang Liu, Anran Li, Ye Wu(参考訳) フェデレートラーニング(FL)は、分散参加者が互いにプライベートデータを公開することなく、グローバルモデルを共同で学習することを可能にする。 近年, 被験者が同一のサンプル群を持ち, 異なる特徴を持つ垂直flが注目されている。 本稿ではまず,垂直ロジスティック回帰モデルの潜在的なプライバシー漏洩を調査するためのラベル推論手法を提案する。 具体的には,ローカルデータセットと受信した復号勾配によって構築された線形方程式の系を解いて計算した剰余変数を用いて,プライベートに所有するラベルを推定できることを示す。 これに対処するため,我々は,局所微分プライバシーと準同型暗号技術を活用した付加的ノイズ機構,乗算的ノイズ機構,ハイブリッド機構の3つの保護機構を提案し,攻撃を防止し,垂直ロジスティック回帰のロバスト性を向上させる。 モデル。 実験結果から, 加法雑音機構と乗算雑音機構の両方が, モデル検査精度をわずかに低下させることなく, 効率的なラベル保護を達成できること, さらに, 試験精度を劣化させることなくラベル保護を達成できること, 保護技術の有効性と効率性を示す。

Federated learning (FL) enables distributed participants to collaboratively learn a global model without revealing their private data to each other. Recently, vertical FL, where the participants hold the same set of samples but with different features, has received increased attention. This paper first presents one label inference attack method to investigate the potential privacy leakages of the vertical logistic regression model. Specifically, we discover that the attacker can utilize the residue variables, which are calculated by solving the system of linear equations constructed by local dataset and the received decrypted gradients, to infer the privately owned labels. To deal with this, we then propose three protection mechanisms, e.g., additive noise mechanism, multiplicative noise mechanism, and hybrid mechanism which leverages local differential privacy and homomorphic encryption techniques, to prevent the attack and improve the robustness of the vertical logistic regression. model. Experimental results show that both the additive noise mechanism and the multiplicative noise mechanism can achieve efficient label protection with only a slight drop in model testing accuracy, furthermore, the hybrid mechanism can achieve label protection without any testing accuracy degradation, which demonstrates the effectiveness and efficiency of our protection techniques
翻訳日:2022-05-10 16:13:59 公開日:2022-05-09
# 微分プライベート合成データの公平性への影響評価

Evaluating the Fairness Impact of Differentially Private Synthetic Data ( http://arxiv.org/abs/2205.04321v1 )

ライセンス: Link先を確認
Blake Bullwinkel, Kristen Grabarz, Lily Ke, Scarlett Gong, Chris Tanner, Joshua Allen(参考訳) 微分プライベート(DP)合成データは、機密情報を含むデータの有効性を最大化するための有望なアプローチである。 しかし、プライバシーを実現するためにしばしば要求される過小表現されたクラスを抑圧するため、公平さと相反する可能性がある。 4つのDPシンセサイザーを評価し、これらのモデルのうち3つのモデルが下流のバイナリ分類タスクにおいてフェアネスの結果を劣化させることを実証した。 生成した合成データに含まれる少数集団の割合と公正さを関連付け,マルチラベルアンダーサンプリング法を用いて事前処理したデータに対する学習合成器は,精度を低下させることなく,より公平な結果を促進することができる。

Differentially private (DP) synthetic data is a promising approach to maximizing the utility of data containing sensitive information. Due to the suppression of underrepresented classes that is often required to achieve privacy, however, it may be in conflict with fairness. We evaluate four DP synthesizers and present empirical results indicating that three of these models frequently degrade fairness outcomes on downstream binary classification tasks. We draw a connection between fairness and the proportion of minority groups present in the generated synthetic data, and find that training synthesizers on data that are pre-processed via a multi-label undersampling method can promote more fair outcomes without degrading accuracy.
翻訳日:2022-05-10 16:13:34 公開日:2022-05-09
# 音響的特徴を用いたストレスの生理学的・評価・感情的指標のモデル化に関する研究

Insights on Modelling Physiological, Appraisal, and Affective Indicators of Stress using Audio Features ( http://arxiv.org/abs/2205.04328v1 )

ライセンス: Link先を確認
Andreas Triantafyllopoulos, Sandra Z\"ankert, Alice Baird, Julian Konzok, Brigitte M. Kudielka, and Bj\"orn W. Schuller(参考訳) ストレスは様々な生理症状や精神症状を呈する健康にとって大きな脅威である。 被験者がストレスエピソードを誘発している間に収集した音声サンプルを用いて、個人ストレス応答の自動的特徴付けの有望な結果を示した。 本研究では, コルチゾール測定, 自己評価, 影響測定によって得られた, 音声信号が生理的バイオマーカーのモデル化に適しているか, あるいは, 自己評価, 影響評価により明らかにした。 その結果、異なる指標が音響的特徴に様々な影響を与えるが、それらの補完的情報はマルチタスクアーキテクチャによって効果的に活用され、予測性能が向上することが示された。

Stress is a major threat to well-being that manifests in a variety of physiological and mental symptoms. Utilising speech samples collected while the subject is undergoing an induced stress episode has recently shown promising results for the automatic characterisation of individual stress responses. In this work, we introduce new findings that shed light onto whether speech signals are suited to model physiological biomarkers, as obtained via cortisol measurements, or self-assessed appraisal and affect measurements. Our results show that different indicators impact acoustic features in a diverse way, but that their complimentary information can nevertheless be effectively harnessed by a multi-tasking architecture to improve prediction performance for all of them.
翻訳日:2022-05-10 16:13:22 公開日:2022-05-09
# バックドア防御のためのモデル-コントラスト学習

Model-Contrastive Learning for Backdoor Defense ( http://arxiv.org/abs/2205.04411v1 )

ライセンス: Link先を確認
Zhihao Yue, Jun Xia, Zhiwei Ling, Ting Wang, Xian Wei, Mingsong Chen(参考訳) 人工知能(AI)技術の普及に伴い、安全クリティカルなシステムに配備されたディープニューラルネットワーク(DNN)を悪質に脅かすようなバックドアインジェクション攻撃が増えている。 DNNからのバックドアトリガーを効果的に消去できる様々な防御方法が存在するが、それらは依然として非無視的なアタック成功率(ASR)と、良心的正確性に大きな損失を被っている。 本稿では,dnnが有毒データのための機能空間に新たなクラスターを形成するという観測に触発されて,mclと呼ばれる新しいバックドア防御法を提案する。 具体的には、バックドアディフェンスを実装するためのモデルコントラスト学習は、2つのステップから構成される。 まず、バックドア攻撃トリガー合成技術を用いてトリガーを反転させる。 次に、インバージョントリガーは、毒付きデータの構築に使用され、モデル-コントラスト学習が利用可能であり、元の毒付き特徴表現から離れながら、毒付きデータの特徴表現を良性データのそれに近いものにすることができる。 複数のベンチマークデータセットにおける5つの攻撃方法に対する広範囲な実験を通じて、クリーンデータのわずか5%を使用して、mclは良性データの精度を維持しつつバックドアの脅威を減らすのにより効果的である。 MCLは良性精度を1%以下に縮退させることができる。

Along with the popularity of Artificial Intelligence (AI) techniques, an increasing number of backdoor injection attacks are designed to maliciously threaten Deep Neural Networks (DNNs) deployed in safety-critical systems. Although there exist various defense methods that can effectively erase backdoor triggers from DNNs, they still greatly suffer from a non-negligible Attack Success Rate (ASR) as well as a major loss in benign accuracy. Inspired by the observation that a backdoored DNN will form new clusters in its feature space for poisoned data, in this paper we propose a novel backdoor defense method named MCL based on model-contrastive learning. Specifically, model-contrastive learning to implement backdoor defense consists of two steps. First, we use the backdoor attack trigger synthesis technique to invert the trigger. Next, the inversion trigger is used to construct poisoned data, so that model-contrastive learning can be used, which makes the feature representations of poisoned data close to that of the benign data while staying away from the original poisoned feature representations. Through extensive experiments against five start-of-the-art attack methods on multiple benchmark datasets, using only 5% of clean data, MCL is more effective for reducing backdoor threats while maintaining higher accuracy of benign data. MCL can make the benign accuracy degenerate by less than 1%.
翻訳日:2022-05-10 16:13:06 公開日:2022-05-09
# (参考訳) ISA-bEL:エンティティリンクに基づくインテリジェント検索アルゴリズム [全文訳有]

ISA-bEL: Intelligent Search Algorithm based on Entity Linking ( http://arxiv.org/abs/2205.04322v1 )

ライセンス: CC BY 4.0
Rub\'en Gonz\'alez Sendino, M\'onica Ortega and Carlos Carrasco(参考訳) 今日では、人々がコンピュータと対話する方法が変化している。 テキストまたは音声ベースのインターフェースは、さまざまな業界で広く採用されている。 ユーザ入力を処理する最もよく使われる方法は、意図や検索アルゴリズムに基づくものである。 これらのソリューションでは、プロセス中にユーザの重要な情報が失われる可能性がある。 提案された自然言語処理パイプラインでは、エンティティがユーザの目的がある場所にあるという仮定の下で、エンティティが主要な役割を担います。 コンテキストによって供給されるエンティティは、知識グラフによってサポートされている特定のドメインに投影され、その結果、リンクされたエンティティとして名づけられる。 これらのリンクされたエンティティは、知識グラフ内のトップレベルの集約概念を検索する鍵として機能します。

Nowadays, the way in which the people interact with computers has changed. Text- or voice-based interfaces are being widely applied in different industries. Among the most used ways of processing the user input are those based on intents or retrieval algorithms. In these solutions, important information of the user could be lost in the process. For the proposed natural language processing pipeline the entities are going to take a principal role, under the assumption that entities are where the purpose of the user resides. Entities fed with context will be projected to a specific domain supported by a knowledge graph, resulting in what has been named as linked entities. These linked entities serve then as a key for searching a top level aggregation concept within our knowledge graph.
翻訳日:2022-05-10 16:12:12 公開日:2022-05-09
# インクリメンタルDETR:自己監督学習によるインクリメンタルFewショットオブジェクト検出

Incremental-DETR: Incremental Few-Shot Object Detection via Self-Supervised Learning ( http://arxiv.org/abs/2205.04042v1 )

ライセンス: Link先を確認
Na Dong, Yongqiang Zhang, Mingli Ding, Gim Hee Lee(参考訳) インクリメンタル・ショット・オブジェクト検出は,新規クラスからのラベル付きトレーニングデータのみを用いて,基礎クラスの知識を忘れずに新規クラスを検出することを目的としている。 関連したほとんどの先行研究は、新しいクラス当たりの豊富なトレーニングサンプルの可用性に依存するインクリメンタルなオブジェクト検出であり、新しいデータが不足している実世界の設定にスケーラビリティを著しく制限している。 本稿では,DeTRオブジェクト検出器上での微調整および自己教師型学習によるインクリメンタル・DETRを提案する。 まず、Selective Searchを擬似ラベルとして生成した追加のオブジェクト提案から、DETRのクラス固有のコンポーネントを自己スーパービジョンで微調整する。 さらに,DeTRのクラス固有のコンポーネントに知識蒸留を施した数発の微調整戦略を導入し,破滅的な忘れを伴わずに新しいクラスを検出するネットワークを奨励する。 標準のインクリメンタルなオブジェクト検出とインクリメンタルな数ショットのオブジェクト検出設定に関する広範囲な実験は、我々のアプローチが最先端のメソッドを大きく上回っていることを示している。

Incremental few-shot object detection aims at detecting novel classes without forgetting knowledge of the base classes with only a few labeled training data from the novel classes. Most related prior works are on incremental object detection that rely on the availability of abundant training samples per novel class that substantially limits the scalability to real-world setting where novel data can be scarce. In this paper, we propose the Incremental-DETR that does incremental few-shot object detection via fine-tuning and self-supervised learning on the DETR object detector. To alleviate severe over-fitting with few novel class data, we first fine-tune the class-specific components of DETR with self-supervision from additional object proposals generated using Selective Search as pseudo labels. We further introduce a incremental few-shot fine-tuning strategy with knowledge distillation on the class-specific components of DETR to encourage the network in detecting novel classes without catastrophic forgetting. Extensive experiments conducted on standard incremental object detection and incremental few-shot object detection settings show that our approach significantly outperforms state-of-the-art methods by a large margin.
翻訳日:2022-05-10 15:45:45 公開日:2022-05-09
# 半教師付きドメイン適応のためのマルチレベル一貫性学習

Multi-level Consistency Learning for Semi-supervised Domain Adaptation ( http://arxiv.org/abs/2205.04066v1 )

ライセンス: Link先を確認
Zizheng Yan, Yushuang Wu, Guanbin Li, Yipeng Qin, Xiaoguang Han, Shuguang Cui(参考訳) 半教師付きドメイン適応(SSDA)は、完全なラベル付きソースドメインから学習した知識を少ないラベル付きターゲットドメインに適用することを目的としている。 本稿では,SSDAのためのMCL(Multi-level Consistency Learning)フレームワークを提案する。 特に、私たちのmclは、ターゲットドメインサンプルの異なるビューの一貫性を3つのレベルに定めています。 (i) ドメイン間レベルでは、ターゲットサンプルの異なるビューの長所と短所を利用するプロトタイプベースの最適輸送手法を用いて、ソースとターゲットドメインを堅牢かつ正確に整列する。 (ii)ドメイン内レベルでは、新しいクラス間コントラストクラスタリング損失を提案することにより、識別的およびコンパクトな特徴表現の学習を容易にする。 (iii) サンプルレベルでは, 一貫性に基づく自己学習を行うことで, 標準実践に従い, 予測精度を向上させる。 実証的に、我々は3つの人気のあるssdaベンチマーク(visda2017、domainnet、office-homeデータセット)におけるmclフレームワークの有効性を検証し、mclフレームワークが最先端のパフォーマンスを達成することを実証した。

Semi-supervised domain adaptation (SSDA) aims to apply knowledge learned from a fully labeled source domain to a scarcely labeled target domain. In this paper, we propose a Multi-level Consistency Learning (MCL) framework for SSDA. Specifically, our MCL regularizes the consistency of different views of target domain samples at three levels: (i) at inter-domain level, we robustly and accurately align the source and target domains using a prototype-based optimal transport method that utilizes the pros and cons of different views of target samples; (ii) at intra-domain level, we facilitate the learning of both discriminative and compact target feature representations by proposing a novel class-wise contrastive clustering loss; (iii) at sample level, we follow standard practice and improve the prediction accuracy by conducting a consistency-based self-training. Empirically, we verified the effectiveness of our MCL framework on three popular SSDA benchmarks, i.e., VisDA2017, DomainNet, and Office-Home datasets, and the experimental results demonstrate that our MCL framework achieves the state-of-the-art performance.
翻訳日:2022-05-10 15:45:23 公開日:2022-05-09
# beyond bounding box: オブジェクト検出のためのマルチモーダル知識学習

Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection ( http://arxiv.org/abs/2205.04072v1 )

ライセンス: Link先を確認
Weixin Feng, Xingyuan Bu, Chenchen Zhang, Xubin Li(参考訳) マルチモーダル監視は、多くの視覚的言語理解タスクにおいて有望な結果を達成している。 しかしながら、人間の注釈付き言語コーパスの欠陥のため、完全に管理されたオブジェクト検出シナリオでは、マルチモーダル監視は未探索のままである。 本稿では,オブジェクト検出に効果的で偏りのない言語指導を導入するための言語プロンプトを活用し,言語指導から知識を学ぶために必要なマルチモーダル知識学習(\textbf{MKL})と呼ばれる新しいメカニズムを提案する。 具体的には、インスタンス認識とローカライゼーションのための広範囲なヒントとコンテキストを含む記述を生成するために、プロンプトを設計し、バウンディングボックスアノテーションで満たす。 言語からの知識は、画像レベルとオブジェクトレベルの相互情報を最大化することで、検出モデルに蒸留される。 さらに、生成された記述を操作して強陰性を生成し、検出器の性能をさらに向上させる。 実験の結果,提案手法は,MS-COCO と OpenImages のデータセットに対して 1.6 % $\sim$ 2.1 % で一貫した性能向上を実現した。

Multimodal supervision has achieved promising results in many visual language understanding tasks, where the language plays an essential role as a hint or context for recognizing and locating instances. However, due to the defects of the human-annotated language corpus, multimodal supervision remains unexplored in fully supervised object detection scenarios. In this paper, we take advantage of language prompt to introduce effective and unbiased linguistic supervision into object detection, and propose a new mechanism called multimodal knowledge learning (\textbf{MKL}), which is required to learn knowledge from language supervision. Specifically, we design prompts and fill them with the bounding box annotations to generate descriptions containing extensive hints and context for instances recognition and localization. The knowledge from language is then distilled into the detection model via maximizing cross-modal mutual information in both image- and object-level. Moreover, the generated descriptions are manipulated to produce hard negatives to further boost the detector performance. Extensive experiments demonstrate that the proposed method yields a consistent performance gain by 1.6\% $\sim$ 2.1\% and achieves state-of-the-art on MS-COCO and OpenImages datasets.
翻訳日:2022-05-10 15:45:03 公開日:2022-05-09
# 複雑なポーズによるワンビュー3dボディと布の再構築

Single-view 3D Body and Cloth Reconstruction under Complex Poses ( http://arxiv.org/abs/2205.04087v1 )

ライセンス: Link先を確認
Nicolas Ugrinovic, Albert Pumarola, Alberto Sanfeliu and Francesc Moreno-Noguer(参考訳) 近年, 空間内密な3次元点の占有状況を知るために, いわゆる暗黙的関数をモデル化したディープネットワークを利用して, 単一画像からの3次元人物形状復元が進んでいる。 しかし、このパラダイムに基づく現在のアルゴリズム、例えばPiFuHDは、人間の形や衣服の正確な形状を推定できるが、高解像度の入力画像が必要であり、複雑な身体のポーズを捉えることができない。 ほとんどの訓練と評価は、中性的なポーズでカメラの前に立つ人間の1k解像度の画像で行われる。 本稿では,任意のポーズや自閉四肢を持つことができる人間の画像を扱うために,既存の暗黙的機能に基づくモデルを拡張するために,公開データを活用する。 暗黙の関数の表現力は、幾何学と身体のポーズの詳細を同時にモデル化するのに十分ではないと論じる。 そこで,我々はまず,入力画像を低精細度で3次元の身体形状にマッピングする暗黙の関数を学習するが,その複雑さにもかかわらず,その基礎となる人間のポーズに正しく適合する粗大なアプローチを提案する。 次に, 平滑化面および入力画像上で条件付けられた変位マップを学習し, 衣服と身体の高周波詳細を符号化する。 実験では, この粗粒化戦略は, 形状の細部と形状の正しさのトレードオフが極めて良好であることを示し, 最新の最先端手法と比較した。 私たちのコードは公開されます。

Recent advances in 3D human shape reconstruction from single images have shown impressive results, leveraging on deep networks that model the so-called implicit function to learn the occupancy status of arbitrarily dense 3D points in space. However, while current algorithms based on this paradigm, like PiFuHD, are able to estimate accurate geometry of the human shape and clothes, they require high-resolution input images and are not able to capture complex body poses. Most training and evaluation is performed on 1k-resolution images of humans standing in front of the camera under neutral body poses. In this paper, we leverage publicly available data to extend existing implicit function-based models to deal with images of humans that can have arbitrary poses and self-occluded limbs. We argue that the representation power of the implicit function is not sufficient to simultaneously model details of the geometry and of the body pose. We, therefore, propose a coarse-to-fine approach in which we first learn an implicit function that maps the input image to a 3D body shape with a low level of detail, but which correctly fits the underlying human pose, despite its complexity. We then learn a displacement map, conditioned on the smoothed surface and on the input image, which encodes the high-frequency details of the clothes and body. In the experimental section, we show that this coarse-to-fine strategy represents a very good trade-off between shape detail and pose correctness, comparing favorably to the most recent state-of-the-art approaches. Our code will be made publicly available.
翻訳日:2022-05-10 15:44:39 公開日:2022-05-09
# (参考訳) FlowBot3D: Articulated Objectsを操作するために3次元Articulation Flowを学ぶ [全文訳有]

FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects ( http://arxiv.org/abs/2205.04382v1 )

ライセンス: CC BY 4.0
Ben Eisner, Harry Zhang, David Held(参考訳) ロボットが知覚できない物体のクラスを認識できるように一般化した3次元関節物体を知覚し操作する新しい手法を探索する。 本システムでは,様々な関節物体の部分の潜在的な動きを予測し,下方動作計画の指導を行い,物体の調音を行う視覚ベースシステムを提案する。 物体の動きを予測するために,ニューラルネットワークを訓練し,点群内の点の点方向を表す高密度ベクトル場を調音下で出力する。 次に,このベクトル場に基づく解析的動作プランナーを配置し,最大調音性を実現するポリシを実現する。 我々は,シミュレーションで完全に視覚システムを訓練し,シミュレーションと実世界の両方において未知のオブジェクトインスタンスと新しいカテゴリに一般化する能力を実証し,微調整のないSawyerロボットにポリシーを展開した。 その結果,シミュレーション実験と実世界実験の両方において,最先端の性能を実現することができた。

We explore a novel method to perceive and manipulate 3D articulated objects that generalizes to enable a robot to articulate unseen classes of objects. We propose a vision-based system that learns to predict the potential motions of the parts of a variety of articulated objects to guide downstream motion planning of the system to articulate the objects. To predict the object motions, we train a neural network to output a dense vector field representing the point-wise motion direction of the points in the point cloud under articulation. We then deploy an analytical motion planner based on this vector field to achieve a policy that yields maximum articulation. We train the vision system entirely in simulation, and we demonstrate the capability of our system to generalize to unseen object instances and novel categories in both simulation and the real world, deploying our policy on a Sawyer robot with no finetuning. Results show that our system achieves state-of-the-art performance in both simulated and real-world experiments.
翻訳日:2022-05-10 15:43:17 公開日:2022-05-09
# EASE: エンティティを意識した文埋め込みのコントラスト学習

EASE: Entity-Aware Contrastive Learning of Sentence Embedding ( http://arxiv.org/abs/2205.04260v1 )

ライセンス: Link先を確認
Sosuke Nishikawa, Ryokan Ri, Ikuya Yamada, Yoshimasa Tsuruoka, Isao Echizen(参考訳) 文とその関連エンティティ間のコントラスト学習を通じて文埋め込みを学習する新しい方法であるEASEを提案する。 エンティティ管理の利点は2つある:(1)エンティティはテキストセマンティクスの強力な指標であることが示され、文の埋め込みのためのリッチなトレーニング信号を提供するべきである;(2)エンティティは言語とは独立して定義され、それによって言語間アライメント管理に有用なものを提供する。 単言語と多言語の両方で、他の教師なしモデルに対してEASEを評価する。 EASE は英語のセマンティックテキスト類似性 (STS) と短文クラスタリング (STC) タスクにおいて, 競争力あるいは優れた性能を示し, 各種タスクの多言語設定において, ベースライン手法を著しく上回っていることを示す。 ソースコード、事前トレーニングされたモデル、および新しく構築された多言語stcデータセットは、https://github.com/s tudio-ousia/easeで利用可能です。

We present EASE, a novel method for learning sentence embeddings via contrastive learning between sentences and their related entities. The advantage of using entity supervision is twofold: (1) entities have been shown to be a strong indicator of text semantics and thus should provide rich training signals for sentence embeddings; (2) entities are defined independently of languages and thus offer useful cross-lingual alignment supervision. We evaluate EASE against other unsupervised models both in monolingual and multilingual settings. We show that EASE exhibits competitive or better performance in English semantic textual similarity (STS) and short text clustering (STC) tasks and it significantly outperforms baseline methods in multilingual settings on a variety of tasks. Our source code, pre-trained models, and newly constructed multilingual STC dataset are available at https://github.com/s tudio-ousia/ease.
翻訳日:2022-05-10 15:25:30 公開日:2022-05-09
# XSTEM: 模範的幹細胞合成アルゴリズム

XSTEM: An exemplar-based stemming algorithm ( http://arxiv.org/abs/2205.04355v1 )

ライセンス: Link先を確認
Kirk Baker(参考訳) stemingは、接尾辞を取り除き、関連する単語を標準形に縮小するプロセスである。 既存のアルゴリズムは、複雑さ、構成可能性、未知の単語の扱い、過度かつ過度な認識を避ける能力に関して異なる。 本稿では,単語ベースのルックアップテーブルの単純さと性能と,規則に基づく方法の強力な一般化性とを組み合わせた,高速でシンプルで構成可能で高精度なハイリコール・ステーミングアルゴリズムを提案する。

Stemming is the process of reducing related words to a standard form by removing affixes from them. Existing algorithms vary with respect to their complexity, configurability, handling of unknown words, and ability to avoid under- and over-stemming. This paper presents a fast, simple, configurable, high-precision, high-recall stemming algorithm that combines the simplicity and performance of word-based lookup tables with the strong generalizability of rule-based methods to avert problems with out-of-vocabulary words.
翻訳日:2022-05-10 15:25:15 公開日:2022-05-09
# (参考訳) ビジネス会話における効率的なエンティティリンクのためのelasticsearchによるblink [全文訳有]

BLINK with Elasticsearch for Efficient Entity Linking in Business Conversations ( http://arxiv.org/abs/2205.04438v1 )

ライセンス: CC BY 4.0
Md Tahmid Rahman Laskar, Cheng Chen, Aliaksandr Martsinovich, Jonathan Johnston, Xue-Yong Fu, Shashi Bhushan TN, Simon Corston-Oliver(参考訳) エンティティリンクシステムは、テキスト内のエンティティのテキスト参照と、知識ベースにおける対応するエントリを整列する。 しかし、実運用環境における効率的なリアルタイム推論のためのニューラルエンティティリンクシステムのデプロイは難しい作業である。 本稿では,ビジネス会話における製品と組織タイプのエンティティを,対応するwikipediaとwikidataのエントリに接続するニューラルエンティティリンクシステムを提案する。 提案するシステムはelasticsearchを利用して、リソース制限されたクラウドマシンにデプロイした場合の推論効率を保証し、高い精度を維持しながら推論速度とメモリ消費の面で大幅に改善する。

An Entity Linking system aligns the textual mentions of entities in a text to their corresponding entries in a knowledge base. However, deploying a neural entity linking system for efficient real-time inference in production environments is a challenging task. In this work, we present a neural entity linking system that connects the product and organization type entities in business conversations to their corresponding Wikipedia and Wikidata entries. The proposed system leverages Elasticsearch to ensure inference efficiency when deployed in a resource limited cloud machine, and obtains significant improvements in terms of inference speed and memory consumption while retaining high accuracy.
翻訳日:2022-05-10 15:22:11 公開日:2022-05-09
# Masked Co-attentional Transformerによる経時的画像と解剖学的MRIによる100倍高速/低用量PET再構成

Masked Co-attentional Transformer reconstructs 100x ultra-fast/low-dose whole-body PET from longitudinal images and anatomically guided MRI ( http://arxiv.org/abs/2205.04044v1 )

ライセンス: Link先を確認
Yan-Ran (Joyce) Wang, Liangqiong Qu, Natasha Diba Sheybani, Xiaolong Luo, Jiangshan Wang, Kristina Elizabeth Hawk, Ashok Joseph Theruvath, Sergios Gatidis, Xuerong Xiao, Allison Pribnow, Daniel Rubin, and Heike E. Daldrup-Link(参考訳) 癌患児の診断、治療モニタリング、監視に非常に価値があるが、ポジトロン放射断層撮影(PET)による全身のステージングには時間が必要であり、かなりの放射線曝露が伴う。 100倍(標準臨床用量の1%)超低用量/超高速全体PET再建は、前例のない速度で癌像を撮影する可能性があり、安全性が向上するが、機械学習の素早い使用では達成できない。 本研究では, ベースラインと後続PETとMR画像のグローバルな類似性を利用して, 同患者の連続PET/MR間の相互作用と関節推論を提供する, 長手多モードコアテンショナルCNN変換器Masked-LMCTransを開発した。 基準ベースラインPETの腫瘍領域を隠蔽し,追跡PETスキャンを再構築した。 このように、Masked-LMCTransは、これまで不可能であった100倍近いラジオ露光全体PETを再構成する。 この技術はまた、縦方向x線画像再構成のための新しい経路も開いている。 T\'ubingen UniversityのPET/MRI画像を用いて,小児悪性リンパ腫患者のStanford PET/MRI画像の訓練と評価を行った。 Masked-LMCTransの応用による100倍体PET画像の高画質化は、小児患者に対するより安全な画像撮影法とより短い検査成績の開発を著しく進めるとともに、これらの患者に対してPETによる頻繁な経時的モニタリングの可能性を広げる。

Despite its tremendous value for the diagnosis, treatment monitoring and surveillance of children with cancer, whole body staging with positron emission tomography (PET) is time consuming and associated with considerable radiation exposure. 100x (1% of the standard clinical dosage) ultra-low-dose/ultra -fast whole-body PET reconstruction has the potential for cancer imaging with unprecedented speed and improved safety, but it cannot be achieved by the naive use of machine learning techniques. In this study, we utilize the global similarity between baseline and follow-up PET and magnetic resonance (MR) images to develop Masked-LMCTrans, a longitudinal multi-modality co-attentional CNN-Transformer that provides interaction and joint reasoning between serial PET/MRs of the same patient. We mask the tumor area in the referenced baseline PET and reconstruct the follow-up PET scans. In this manner, Masked-LMCTrans reconstructs 100x almost-zero radio-exposure whole-body PET that was not possible before. The technique also opens a new pathway for longitudinal radiology imaging reconstruction, a significantly under-explored area to date. Our model was trained and tested with Stanford PET/MRI scans of pediatric lymphoma patients and evaluated externally on PET/MRI images from T\"ubingen University. The high image quality of the reconstructed 100x whole-body PET images resulting from the application of Masked-LMCTrans will substantially advance the development of safer imaging approaches and shorter exam-durations for pediatric patients, as well as expand the possibilities for frequent longitudinal monitoring of these patients by PET.
翻訳日:2022-05-10 15:09:31 公開日:2022-05-09
# リモートセンシング画像の超解像推定のためのデジタル表面モデルの作成

Exploiting Digital Surface Models for Inferring Super-Resolution for Remotely Sensed Images ( http://arxiv.org/abs/2205.04056v1 )

ライセンス: Link先を確認
Savvas Karatsiolis, Chirag Padubidri and Andreas Kamilaris(参考訳) 自然画像に適用されたスーパーレゾリューション(srr)モデルは、多くの成功を収めているが、リモートセンシング画像への応用は、結果に乏しい傾向がある。 リモートセンシングのイメージは、自然画像よりも複雑で、低解像度であること、ノイズがあること、大きなテクスチャの表面を描くことなど、その特異性がある。 その結果、リモートセンシング画像に特殊化されていないSRRモデルを適用すると、アーティファクトと貧弱な再構築が生じる。 そこで本稿では,従来の研究成果に触発されたアーキテクチャを提案し,srrモデルに現実的リモートセンシング画像の出力を強制する新しい手法を提案する。 この戦略により、リモートセンシングと密接な関係を持つタスク(標高マップ推論)から発生するモデルのトレーニング中に、より良いインフォームド更新を適用することができる。 それでも、nDSM補助情報は製造中に必要とされないため、モデルはその低解像度のペア以外の追加データなしで超解像度画像を推測する。 我々は、DFC2018データセットとルクセンブルクの全国的なLidarフライバイを含むデータセットという、DSMペアを含む異なる空間解像度の2つのリモートセンシングデータセットに対して、我々のモデルを評価した。 視覚検査により、推定された超解像度画像は特に優れた品質を示す。 特に、高解像度dfc2018データセットの結果は現実的であり、地上の真理画像とほとんど区別できない。

Despite the plethora of successful Super-Resolution Reconstruction (SRR) models applied to natural images, their application to remote sensing imagery tends to produce poor results. Remote sensing imagery is often more complicated than natural images and has its peculiarities such as being of lower resolution, it contains noise, and often depicting large textured surfaces. As a result, applying non-specialized SRR models on remote sensing imagery results in artifacts and poor reconstructions. To address these problems, this paper proposes an architecture inspired by previous research work, introducing a novel approach for forcing an SRR model to output realistic remote sensing images: instead of relying on feature-space similarities as a perceptual loss, the model considers pixel-level information inferred from the normalized Digital Surface Model (nDSM) of the image. This strategy allows the application of better-informed updates during the training of the model which sources from a task (elevation map inference) that is closely related to remote sensing. Nonetheless, the nDSM auxiliary information is not required during production and thus the model infers a super-resolution image without any additional data besides its low-resolution pairs. We assess our model on two remotely sensed datasets of different spatial resolutions that also contain the DSM pairs of the images: the DFC2018 dataset and the dataset containing the national Lidar fly-by of Luxembourg. Based on visual inspection, the inferred super-resolution images exhibit particularly superior quality. In particular, the results for the high-resolution DFC2018 dataset are realistic and almost indistinguishable from the ground truth images.
翻訳日:2022-05-10 15:09:00 公開日:2022-05-09
# PS-Net:ダイナミック磁気共鳴イメージングのための部分分離型モデリング

PS-Net: Deep Partially Separable Modelling for Dynamic Magnetic Resonance Imaging ( http://arxiv.org/abs/2205.04073v1 )

ライセンス: Link先を確認
Chentao Cao, Zhuo-Xu Cui, Qingyong Zhu, Dong Liang, Yanjie Zhu(参考訳) 低ランク正則化による深層学習法は、動的磁気共鳴(mr)イメージングにおいて魅力的な性能を得た。 しかし、これらの手法の多くは手作りの核規範によって先行して低ランクを表すものであり、固定正規化パラメータによってデータセット全体に対する低ランクの事前を正確に近似することはできない。 本稿では,動的mrイメージングのための学習型低ランク法を提案する。 特に、部分分離可能(PS)モデルのための半二分法分割法(HQS)アルゴリズムをネットワークに展開し、低ランクを学習可能なヌル空間変換によって適応的に特徴付ける。 心血管データセットを用いた実験により,提案モデルにより,最先端圧縮センシング(CS)法と既存の深層学習法を定量的かつ定性的に比較した。

Deep learning methods driven by the low-rank regularization have achieved attractive performance in dynamic magnetic resonance (MR) imaging. However, most of these methods represent low-rank prior by hand-crafted nuclear norm, which cannot accurately approximate the low-rank prior over the entire dataset through a fixed regularization parameter. In this paper, we propose a learned low-rank method for dynamic MR imaging. In particular, we unrolled the semi-quadratic splitting method (HQS) algorithm for the partially separable (PS) model to a network, in which the low-rank is adaptively characterized by a learnable null-space transform. Experiments on the cardiac cine dataset show that the proposed model outperforms the state-of-the-art compressed sensing (CS) methods and existing deep learning methods both quantitatively and qualitatively.
翻訳日:2022-05-10 15:08:38 公開日:2022-05-09
# ProQA: 統一質問応答のための構造的プロンプトに基づく事前学習

ProQA: Structural Prompt-based Pre-training for Unified Question Answering ( http://arxiv.org/abs/2205.04040v1 )

ライセンス: Link先を確認
Wanjun Zhong, Yifan Gao, Ning Ding, Yujia Qin, Zhiyuan Liu, Ming Zhou, Jiahai Wang, Jian Yin and Nan Duan(参考訳) 質問応答(qa)は自然言語処理における長年の課題である。 既存のQAは、主に特定の質問タイプ、知識ドメイン、推論スキルに焦点を当てています。 QA研究の専門性は、タスク間の共通点のモデリングや、より広範な応用のための一般化からシステムを妨げる。 この問題に対処するために,1つのモデルを用いて様々なタスクを解決する統一QAパラダイムであるProQAを提案する。 ProQAは橋として構造的プロンプトを統一し、構造的プロンプトベースの事前訓練によりQA中心の能力を向上させる。 構造的に設計されたプロンプトベースの入力スキーマを通じて、ProQAは、特定のQAタスクごとに知識のカスタマイズを維持しながら、すべてのQAタスクの知識一般化を同時にモデル化する。 さらに、ProQAは、構造的急速成形された大規模合成コーパスで事前訓練され、一般的に要求されるQA能力でモデルを強化する。 11のQAベンチマークの実験結果によると、ProQAはフルデータの微調整、少数ショット学習、ゼロショットテストシナリオの両方のパフォーマンスを継続的に向上する。 さらに、ProQAは、構造的プロンプトの利点を生かして、継続学習と転帰学習の両方に強い能力を示す。

Question Answering (QA) is a longstanding challenge in natural language processing. Existing QA works mostly focus on specific question types, knowledge domains, or reasoning skills. The specialty in QA research hinders systems from modeling commonalities between tasks and generalization for wider applications. To address this issue, we present ProQA, a unified QA paradigm that solves various tasks through a single model. ProQA takes a unified structural prompt as the bridge and improves the QA-centric ability by structural prompt-based pre-training. Through a structurally designed prompt-based input schema, ProQA concurrently models the knowledge generalization for all QA tasks while keeping the knowledge customization for every specific QA task. Furthermore, ProQA is pre-trained with structural prompt-formatted large-scale synthesized corpus, which empowers the model with the commonly-required QA ability. Experimental results on 11 QA benchmarks demonstrate that ProQA consistently boosts performance on both full data fine-tuning, few-shot learning, and zero-shot testing scenarios. Furthermore, ProQA exhibits strong ability in both continual learning and transfer learning by taking the advantages of the structural prompt.
翻訳日:2022-05-10 15:02:24 公開日:2022-05-09
# サブワードアライメントはまだ有用である:低リソース機械翻訳強化のためのvest-pocket法

Sub-Word Alignment Is Still Useful: A Vest-Pocket Method for Enhancing Low-Resource Machine Translation ( http://arxiv.org/abs/2205.04067v1 )

ライセンス: Link先を確認
Minhan Xu, Yu Hong(参考訳) 階層化サブワード間の埋め込み重複を利用して、親子変換学習法を拡張し、低リソース機械翻訳を改善する。 我々はMy-En、Id-En、Tr-Enの翻訳シナリオのベンチマークデータセットで実験を行う。 その結果, BLEUスコアは22.5, 28.0, 18.1であった。 さらに、この方法は、Tesla 16GB P100 GPUでのトレーニングにおいて、トレーニング時間を63.8%削減し、1.6時間に達する計算効率がよい。 実験中のすべてのモデルとソースコードは、再現可能な研究をサポートするために公開されます。

We leverage embedding duplication between aligned sub-words to extend the Parent-Child transfer learning method, so as to improve low-resource machine translation. We conduct experiments on benchmark datasets of My-En, Id-En and Tr-En translation scenarios. The test results show that our method produces substantial improvements, achieving the BLEU scores of 22.5, 28.0 and 18.1 respectively. In addition, the method is computationally efficient which reduces the consumption of training time by 63.8%, reaching the duration of 1.6 hours when training on a Tesla 16GB P100 GPU. All the models and source codes in the experiments will be made publicly available to support reproducible research.
翻訳日:2022-05-10 15:02:04 公開日:2022-05-09
# (参考訳) OpenPodcar:自動運転車研究のためのオープンソース自動車 [全文訳有]

OpenPodcar: an Open Source Vehicle for Self-Driving Car Research ( http://arxiv.org/abs/2205.04454v1 )

ライセンス: CC BY 4.0
Fanta Camara, Chris Waltham, Grey Churchill, and Charles Fox(参考訳) OpenPodcarは安価な、オープンソースのハードウェアとソフトウェア、自動運転車の研究プラットフォームで、既製の、頑丈で移動可能なスクータードナー車両をベースとしている。 ハードウェアとソフトウェアのビルド命令が提供され、ドナー車両を低コストで完全に自律的なプラットフォームに変換する。 オープンプラットフォームは、 (a)ハードウェアコンポーネント:CAD設計、材料請求書及びビルド指示 ロ 標準的なROSインタフェース及び車両のシミュレーションを提供するArduino、ROS及びGazebo制御及びシミュレーションソフトウェアファイル c) 標準ロボット自律計画制御の高レベルなROSソフトウェア実装と構成。例えば、移動ベースインターフェースとTimed-Elastic-Bandプランナーは、障害物の周りの電流から所望のポーズまで、車両を駆動するためのコマンドを実行する。 この車両は、ラストマイルの自動運転タクシーサービスとしての使用や、都市中心部周辺で同様の配送コンテナを輸送するなど、人間の乗客や同様の荷物を最大15km/hで輸送するのに十分な大きさである。 小型で安全で、標準的な研究所に駐車し、現実的な人間と車両の相互作用研究に使用できる。 新しいコンポーネントによるシステム構築コストは、2022年の合計で約7,000ドルである。 これによりopenpodcarは、現実世界のユーティリティ、安全性、コスト、研究の利便性のバランスが良い。

OpenPodcar is a low-cost, open source hardware and software, autonomous vehicle research platform based on an off-the-shelf, hard-canopy, mobility scooter donor vehicle. Hardware and software build instructions are provided to convert the donor vehicle into a low-cost and fully autonomous platform. The open platform consists of (a) hardware components: CAD designs, bill of materials, and build instructions; (b) Arduino, ROS and Gazebo control and simulation software files which provide standard ROS interfaces and simulation of the vehicle; and (c) higher-level ROS software implementations and configurations of standard robot autonomous planning and control, including the move_base interface with Timed-Elastic-Band planner which enacts commands to drive the vehicle from a current to a desired pose around obstacles. The vehicle is large enough to transport a human passenger or similar load at speeds up to 15km/h, for example for use as a last-mile autonomous taxi service or to transport delivery containers similarly around a city center. It is small and safe enough to be parked in a standard research lab and be used for realistic human-vehicle interaction studies. System build cost from new components is around USD7,000 in total in 2022. OpenPodcar thus provides a good balance between real world utility, safety, cost and research convenience.
翻訳日:2022-05-10 15:00:55 公開日:2022-05-09
# 線形潜在変数モデルの後方崩壊

Posterior Collapse of a Linear Latent Variable Model ( http://arxiv.org/abs/2205.04009v1 )

ライセンス: Link先を確認
Zihao Wang, Liu Ziyin(参考訳) この研究は、ベイジアン深層学習において頻繁に起こる、ある種の後方崩壊の存在と原因を特定するものである。 線形変分オートエンコーダを特別な場合として含む一般線形潜在変数モデルに対して, 後方崩壊の性質を, 先行による平均値の正則化と可能性の競合として正確に同定する。 また, 奥行き崩壊は, より深いアーキテクチャの学習の一般的な問題であり, ベイズ深層学習の理解を深める可能性も示唆した。

This work identifies the existence and cause of a type of posterior collapse that frequently occurs in the Bayesian deep learning practice. For a general linear latent variable model that includes linear variational autoencoders as a special case, we precisely identify the nature of posterior collapse to be the competition between the likelihood and the regularization of the mean due to the prior. Our result also suggests that posterior collapse may be a general problem of learning for deeper architectures and deepens our understanding of Bayesian deep learning.
翻訳日:2022-05-10 14:45:02 公開日:2022-05-09
# オートSDE:データ駆動確率力学系から効果的な還元力学を学ぶ

Auto-SDE: Learning effective reduced dynamics from data-driven stochastic dynamical systems ( http://arxiv.org/abs/2205.04151v1 )

ライセンス: Link先を確認
Lingyu Feng, Ting Gao, Min Dai and Jinqiao Duan(参考訳) マルチスケール確率力学系は、多くの実世界の応用において複雑な現象を描写できるため、科学的・工学的な問題に広く採用されている。 本研究は、低速確率力学系の効率的な還元ダイナミクスの研究に費やされている。 未知の低速確率系を満たす短時間の観測データから,Auto-SDEと呼ばれるニューラルネットワークを含む新しいアルゴリズムを提案し,不変の遅い多様体を学習する。 本手法は,離散化された確率微分方程式による損失を伴う一連の時間依存オートエンコーダニューラルネットワークの進化的性質を捉える。 また, 各種評価指標による数値実験により, 精度, 安定性, 有効性も証明した。

Multiscale stochastic dynamical systems have been widely adopted to scientific and engineering problems due to their capability of depicting complex phenomena in many real world applications. This work is devoted to investigating the effective reduced dynamics for a slow-fast stochastic dynamical system. Given observation data on a short-term period satisfying some unknown slow-fast stochastic system, we propose a novel algorithm including a neural network called Auto-SDE to learn invariant slow manifold. Our approach captures the evolutionary nature of a series of time-dependent autoencoder neural networks with the loss constructed from a discretized stochastic differential equation. Our algorithm is also proved to be accurate, stable and effective through numerical experiments under various evaluation metrics.
翻訳日:2022-05-10 14:44:53 公開日:2022-05-09
# 有害なミームにおけるエンティティの役割の検出:技術とその限界

Detecting the Role of an Entity in Harmful Memes: Techniques and Their Limitations ( http://arxiv.org/abs/2205.04402v1 )

ライセンス: Link先を確認
Rabindra Nath Nandi, Firoj Alam, Preslav Nakov(参考訳) 有害あるいは虐待的なオンラインコンテンツは時間とともに増え続けており、ソーシャルメディアプラットフォームや政府機関、政策立案者への懸念が高まっている。 このような有害または虐待的な内容は社会に大きな悪影響を及ぼし、例えば、サイバーいじめは自殺を招き、COVID-19に関する噂はワクチンの依存を招き、新型コロナウイルスの偽薬の宣伝は健康被害や死を引き起こす。 オンラインで投稿され、共有されるコンテンツは、テキスト的、ビジュアル的、あるいは両方の組み合わせ(ミームなど)でもよい。 本稿では,ConSTRAINT-2022共有タスクの一部として,有害ミームにおけるエンティティ(ヒーロー,悪役,被害者)の役割を検出するための実験と,そのタスクのためのシステムについて述べる。 さらに、異なる実験環境の比較分析(unimodal, multimodal, attention, augmentation)を行う。 再現性のため、実験コードを公開しています。 https://github.com/r obi56/harmful_memes_ block_fusion}

Harmful or abusive online content has been increasing over time, raising concerns for social media platforms, government agencies, and policymakers. Such harmful or abusive content can have major negative impact on society, e.g., cyberbullying can lead to suicides, rumors about COVID-19 can cause vaccine hesitance, promotion of fake cures for COVID-19 can cause health harms and deaths. The content that is posted and shared online can be textual, visual, or a combination of both, e.g., in a meme. Here, we describe our experiments in detecting the roles of the entities (hero, villain, victim) in harmful memes, which is part of the CONSTRAINT-2022 shared task, as well as our system for the task. We further provide a comparative analysis of different experimental settings (i.e., unimodal, multimodal, attention, and augmentation). For reproducibility, we make our experimental code publicly available. \url{https://github.com/r obi56/harmful_memes_ block_fusion}
翻訳日:2022-05-10 14:44:42 公開日:2022-05-09
# ディープネットワークに基づく疾患認識のための効果的なスキーム

An Effective Scheme for Maize Disease Recognition based on Deep Networks ( http://arxiv.org/abs/2205.04234v1 )

ライセンス: Link先を確認
Saeedeh Osouli, Behrouz Bolourian Haghighi, Ehsan Sadrossadat(参考訳) 過去数十年間、トウモロコシ製品の栽培地域は、人間、家畜、鶏肉の食物循環において重要な役割を担っているため、増加した。 さらに、植物の病気は食品の安全性に影響を与え、農作物の品質と量を大幅に減らすことができる。 病気の正確かつタイムリーな診断には多くの課題がある。 本研究では,前述の課題を克服する深層ニューラルネットワークに基づく新しい手法を提案する。 データが少ないため、転送学習技術は2つのよく知られたアーキテクチャの助けを借りて用いられる。 このようにして,事前学習されたmobilenetv2とインセプションネットワークを組み合わせることで,オブジェクト検出問題に対する効果的な性能が向上する。 moblienetv2とinceptionモジュールの畳み込み層は、重要な特徴を抽出するために、以前の層として並列に配置される。 また,クラスの不均衡問題は拡張戦略によって解決されている。 提案手法は近年発表された他の最先端モデルと比較して優れた性能を有する。 モデルの精度は約97%である。 その結果, 植物葉の疾患診断における有用性と有意な有用性が証明された。

In the last decades, the area under cultivation of maize products has increased because of its essential role in the food cycle for humans, livestock, and poultry. Moreover, the diseases of plants impact food safety and can significantly reduce both the quality and quantity of agricultural products. There are many challenges to accurate and timely diagnosis of the disease. This research presents a novel scheme based on a deep neural network to overcome the mentioned challenges. Due to the limited number of data, the transfer learning technique is employed with the help of two well-known architectures. In this way, a new effective model is adopted by a combination of pre-trained MobileNetV2 and Inception Networks due to their effective performance on object detection problems. The convolution layers of MoblieNetV2 and Inception modules are parallelly arranged as earlier layers to extract crucial features. In addition, the imbalance problem of classes has been solved by an augmentation strategy. The proposed scheme has a superior performance compared to other state-of-the-art models published in recent years. The accuracy of the model reaches 97%, approximately. In summary, experimental results prove the method's validity and significant performance in diagnosing disease in plant leaves.
翻訳日:2022-05-10 14:41:59 公開日:2022-05-09
# MixAugment & Mixup: 表情認識のための拡張方法

MixAugment & Mixup: Augmentation Methods for Facial Expression Recognition ( http://arxiv.org/abs/2205.04442v1 )

ライセンス: Link先を確認
Andreas Psaroudakis and Dimitrios Kollias(参考訳) 表情認識(FER)は,人間のコミュニケーションにおいて表情が中心的な役割を担っているため,近年注目されている。 ほとんどのFER方法論では、データ分析において強力なツールであるDeep Neural Networks(DNN)を使用している。 しかし、これらのネットワークはパワーにもかかわらず、トレーニングデータを記憶する傾向があるため、過度に適合する傾向にある。 さらに、現在FER用の非制約環境(すなわち、非制約環境)の大規模なデータベースは多くありません。 この問題を緩和するために、多くのデータ拡張技術が提案されている。 データ拡張は、元のデータに制約付き変換を適用することで、利用可能なデータの多様性を高める方法である。 このような手法の1つは、様々な分類タスクに肯定的な貢献をしたMixupである。 これによると、DNNはサンプルのペアとそのラベルの凸組み合わせに基づいて訓練される。 そこで本研究では,頭部ポーズ,照明条件,背景,背景,状況など,データに大きな変化が生じる領域内FERに対するMixupの有効性について検討する。 次に、MixAugmentと呼ばれるMixupに基づく新しいデータ拡張戦略を提案する。 これによると、ネットワークは仮想例と実例の組み合わせで同時にトレーニングされる。 我々は、MixAugment over Mixupおよび様々な最先端手法の有効性を実証する広範な実験研究を行っている。 さらに,dropout と mixup と mixaugment の組み合わせや,他のデータ拡張技術と mixaugment の組み合わせについても検討した。

Automatic Facial Expression Recognition (FER) has attracted increasing attention in the last 20 years since facial expressions play a central role in human communication. Most FER methodologies utilize Deep Neural Networks (DNNs) that are powerful tools when it comes to data analysis. However, despite their power, these networks are prone to overfitting, as they often tend to memorize the training data. What is more, there are not currently a lot of in-the-wild (i.e. in unconstrained environment) large databases for FER. To alleviate this issue, a number of data augmentation techniques have been proposed. Data augmentation is a way to increase the diversity of available data by applying constrained transformations on the original data. One such technique, which has positively contributed to various classification tasks, is Mixup. According to this, a DNN is trained on convex combinations of pairs of examples and their corresponding labels. In this paper, we examine the effectiveness of Mixup for in-the-wild FER in which data have large variations in head poses, illumination conditions, backgrounds and contexts. We then propose a new data augmentation strategy which is based on Mixup, called MixAugment. According to this, the network is trained concurrently on a combination of virtual examples and real examples; all these examples contribute to the overall loss function. We conduct an extensive experimental study that proves the effectiveness of MixAugment over Mixup and various state-of-the-art methods. We further investigate the combination of dropout with Mixup and MixAugment, as well as the combination of other data augmentation techniques with MixAugment.
翻訳日:2022-05-10 14:41:37 公開日:2022-05-09
# (参考訳) 事前訓練対象検出器を超えて:画像キャプションのためのクロスモーダルテキストと視覚コンテキスト [全文訳有]

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning ( http://arxiv.org/abs/2205.04363v1 )

ライセンス: CC BY-SA 4.0
Chia-Wen Kuo, Zsolt Kira(参考訳) 視覚キャプションの大幅な進歩は、主に事前訓練された機能と、自動回帰モデルへの豊富な入力として機能する固定されたオブジェクト検出器に依存している。 しかし、そのような方法の鍵となる制限は、モデルの出力が対象検出器の出力にのみ条件付けられることである。 そのような出力がすべての必要な情報を表現できるという仮定は非現実的であり、特に検出器がデータセット間で転送される場合である。 本稿では,この仮定によって引き起こされるグラフィカルモデルについて考察し,オブジェクト関係などの欠落情報を表す補助入力を追加することを提案する。 特に,視覚ゲノムデータセットから属性と関係を抽出し,キャプションモデルに条件を付けることを提案する。 重要なことは、このような文脈記述を検索するために、マルチモーダル事前学習モデル(CLIP)の使用を提案することである。 さらに、対象検出器モデルが凍結され、キャプションモデルが適切に接地できるように十分なリッチ性が持たない。 その結果,検出器と記述出力の両方を画像上に条件付けし,定性的かつ定量的にグラウンド化を改善することができることを示す。 画像キャプションの手法を検証し,事前学習したマルチモーダルモデルの重要性と各コンポーネントの徹底的な解析を行い,現在の技術,特にサイダーの+7.5%,bleu-4メトリクスの+1.3%に対して著しい改善を示した。

Significant progress has been made on visual captioning, largely relying on pre-trained features and later fixed object detectors that serve as rich inputs to auto-regressive models. A key limitation of such methods, however, is that the output of the model is conditioned only on the object detector's outputs. The assumption that such outputs can represent all necessary information is unrealistic, especially when the detector is transferred across datasets. In this work, we reason about the graphical model induced by this assumption, and propose to add an auxiliary input to represent missing information such as object relationships. We specifically propose to mine attributes and relationships from the Visual Genome dataset and condition the captioning model on them. Crucially, we propose (and show to be important) the use of a multi-modal pre-trained model (CLIP) to retrieve such contextual descriptions. Further, object detector models are frozen and do not have sufficient richness to allow the captioning model to properly ground them. As a result, we propose to condition both the detector and description outputs on the image, and show qualitatively and quantitatively that this can improve grounding. We validate our method on image captioning, perform thorough analyses of each component and importance of the pre-trained multi-modal model, and demonstrate significant improvements over the current state of the art, specifically +7.5% in CIDEr and +1.3% in BLEU-4 metrics.
翻訳日:2022-05-10 14:34:20 公開日:2022-05-09
# ビデオ質問応答のためのマルチスケールサンプリングによる階層ネットワーク

Multilevel Hierarchical Network with Multiscale Sampling for Video Question Answering ( http://arxiv.org/abs/2205.04061v1 )

ライセンス: Link先を確認
Min Peng, Chongyang Wang, Yuan Gao, Yu Shi and Xiang-Dong Zhou(参考訳) ビデオ質問応答(VideoQA)は、視覚的理解と自然言語処理のマルチモーダルな組み合わせを考えると難しい。 既存のほとんどのアプローチは、異なる時間スケールでの視覚的動き情報を無視するが、そのようなマルチスケール情報にディープラーニングモデルのマルチレベル処理能力を組み込む方法は不明である。 本稿では,ビデオQAのマルチスケールサンプリングによるマルチレベル階層ネットワーク(MHN)を提案する。 MHNはRecurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールで構成される。 マルチスケールサンプリングにより、RMIは、各スケールでの外観・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。 次に、共有トランスコーダを用いて、PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。 3つのビデオQAデータセットの広範な実験を通じて,従来の最先端技術よりも優れた性能を示し,各手法の有効性を正当化する。

Video question answering (VideoQA) is challenging given its multimodal combination of visual understanding and natural language processing. While most existing approaches ignore the visual appearance-motion information at different temporal scales, it is unknown how to incorporate the multilevel processing capacity of a deep learning model with such multiscale information. Targeting these issues, this paper proposes a novel Multilevel Hierarchical Network (MHN) with multiscale sampling for VideoQA. MHN comprises two modules, namely Recurrent Multimodal Interaction (RMI) and Parallel Visual Reasoning (PVR). With a multiscale sampling, RMI iterates the interaction of appearance-motion information at each scale and the question embeddings to build the multilevel question-guided visual representations. Thereon, with a shared transformer encoder, PVR infers the visual cues at each level in parallel to fit with answering different question types that may rely on the visual information at relevant levels. Through extensive experiments on three VideoQA datasets, we demonstrate improved performances than previous state-of-the-arts and justify the effectiveness of each part of our method.
翻訳日:2022-05-10 14:14:29 公開日:2022-05-09
# HierAttn: 皮膚病変診断におけるステージアテンションとブランチアテンションを効果的に学習する

HierAttn: Effectively Learn Representations from Stage Attention and Branch Attention for Skin Lesions Diagnosis ( http://arxiv.org/abs/2205.04326v1 )

ライセンス: Link先を確認
Wei Dai, Rui Liu, Tianyi Wu, Min Wang, Jianqin Yin, Jun Liu(参考訳) 皮膚がんの早期診断と治療には,皮膚病変の正確かつ偏りのない検査が重要である。 皮膚病変の視覚的特徴は、様々なデバイスを用いて異なる皮膚色を持つ患者から皮膚画像が収集されるため、大きく異なる。 近年,画像の早期診断のための分類法として,畳み込みニューラルネットワーク(cnns)が開発されている。 しかし,ネットワーク構造が重く,文脈情報を無視しているため,CNNの実用化は限られている。 視覚トランスフォーマー(vits)は自己着脱機構によってグローバルな特徴を学習するが、比較的大きなモデルサイズ(100m以上)を持つ。 これらの制限に対処するため,階層的かつ自己注意的なニューラルネットワークであるHierAttnを導入する。 hierattnは、マルチステージおよび階層ネットワークによるローカルおよびグローバル特徴の学習に基づく、新しい戦略を適用する。 dermoscopy image dataset isic2019 と smartphone photos dataset pad-ufes-20 を用いて hierattn の有効性を評価した。 実験の結果,HierAttnはMobileNetV3やMobileViTなど,最先端のモバイルネットワークの中で最高のトップ1の精度とAUCを達成した。 コードはhttps://github.com/a nthonyweidai/hieratt nで入手できる。

An accurate and unbiased examination of skin lesions is critical for the early diagnosis and treatment of skin cancers. The visual feature of the skin lesions varies significantly because skin images are collected from patients with different skin colours by using various devices. Recent studies have developed ensembled convolutional neural networks (CNNs) to classify the images for early diagnosis. However, the practical use of CNNs is limited because their network structures are heavyweight and neglect contextual information. Vision transformers (ViTs) learn the global features by self-attention mechanisms, but they also have comparatively large model sizes (more than 100M). To address these limitations, we introduce HierAttn, a lite and effective neural network with hierarchical and self attention. HierAttn applies a novel strategy based on learning local and global features by a multi-stage and hierarchical network. The efficacy of HierAttn was evaluated by using the dermoscopy images dataset ISIC2019 and smartphone photos dataset PAD-UFES-20. The experimental results show that HierAttn achieves the best top-1 accuracy and AUC among state-of-the-art mobile networks, including MobileNetV3 and MobileViT. The code is available at https://github.com/a nthonyweidai/HierAtt n.
翻訳日:2022-05-10 14:14:10 公開日:2022-05-09
# 自動機械学習システムとヒューマンインタラクションの役割とモード

The Roles and Modes of Human Interactions with Automated Machine Learning Systems ( http://arxiv.org/abs/2205.04139v1 )

ライセンス: Link先を確認
Thanh Tung Khuat, David Jacob Kedziora, Bogdan Gabrys(参考訳) 自動機械学習(AutoML)システムは、高度化とパフォーマンスの両面で進歩を続けているため、現状と期待の両方において、これらのフレームワーク内でのヒューマンコンピュータインタラクション(HCI)の‘how’と‘why’を理解することが重要である。 このような議論は、人間の関与する意思決定を支援するために高度なデータ処理機能を活用する、最適なシステム設計のために必要だが、マシン自律性の向上によってもたらされる機会とリスクを特定する上でも重要である。 この文脈では、以下の質問に焦点を合わせます。 i) HCIは現在、最先端のAutoMLアルゴリズム、特に開発、デプロイメント、メンテナンスの段階でどのように見えるか? (ii) AutoMLフレームワークにおけるHCIの期待は、ユーザや利害関係者によって異なるのでしょうか? 3) AutoMLソリューションがヒューマン信頼と広く受け入れられるように、どのようにHCIを管理することができるか。 (iv)AutoMLシステムがより自律的になり、複雑なオープンエンド環境から学習できるようになるにつれ、HCIの基本的性質は進化するのだろうか? これらの疑問を考慮するため、HCIの既存の文献をAutoMLの空間に投影する。 そこで我々は,ユーザインターフェース設計,ヒューマンバイアス緩和,人工知能(ai)への信頼といったトピックをレビューする。 さらに、HCIの将来を厳格に評価するために、AutoMLが効果的にオープンな環境でどのように現れるかを検討する。 この議論は必然的にautomlの開発経路、例えば推論の組み入れをレビューするが、実装の詳細ではなく、そのようなフレームワークでhciがなぜ発生するのかに焦点が当てられている。 最終的に、このレビューは、現在のAutoMLシステムと将来のAutoMLシステムの両方におけるヒューマンインタラクションの役割とモードの促進を目的とした、重要な研究方向を特定するのに役立つ。

As automated machine learning (AutoML) systems continue to progress in both sophistication and performance, it becomes important to understand the `how' and `why' of human-computer interaction (HCI) within these frameworks, both current and expected. Such a discussion is necessary for optimal system design, leveraging advanced data-processing capabilities to support decision-making involving humans, but it is also key to identifying the opportunities and risks presented by ever-increasing levels of machine autonomy. Within this context, we focus on the following questions: (i) How does HCI currently look like for state-of-the-art AutoML algorithms, especially during the stages of development, deployment, and maintenance? (ii) Do the expectations of HCI within AutoML frameworks vary for different types of users and stakeholders? (iii) How can HCI be managed so that AutoML solutions acquire human trust and broad acceptance? (iv) As AutoML systems become more autonomous and capable of learning from complex open-ended environments, will the fundamental nature of HCI evolve? To consider these questions, we project existing literature in HCI into the space of AutoML; this connection has, to date, largely been unexplored. In so doing, we review topics including user-interface design, human-bias mitigation, and trust in artificial intelligence (AI). Additionally, to rigorously gauge the future of HCI, we contemplate how AutoML may manifest in effectively open-ended environments. This discussion necessarily reviews projected developmental pathways for AutoML, such as the incorporation of reasoning, although the focus remains on how and why HCI may occur in such a framework rather than on any implementational details. Ultimately, this review serves to identify key research directions aimed at better facilitating the roles and modes of human interactions with both current and future AutoML systems.
翻訳日:2022-05-10 14:11:20 公開日:2022-05-09
# 命題モデルカウントのためのグラフニューラルネットワーク

Graph Neural Networks for Propositional Model Counting ( http://arxiv.org/abs/2205.04423v1 )

ライセンス: Link先を確認
Gaia Saveri and Luca Bortolussi(参考訳) グラフニューラルネットワーク(GNN)は、最近、いくつかの論理的推論タスクを解決するために活用されている。 それでも、命題モデルカウント(#SAT)のような数え上げ問題は、従来型の解法によってアプローチされている。 ここでは、クーチらの信仰伝播のためのGNNフレームワークに基づくアーキテクチャを提示し、自己注意型GNNで拡張し、#SAT問題を概ね解決するように訓練することで、このギャップに対処する。 我々のモデルは、ランダムなブール公式の小さな集合で訓練され、より大きな問題サイズに効果的にスケールできることを示し、芸術的近似解法の性能に匹敵するか、より優れた性能を発揮できることを示した。 さらに,SATエンコードされた組合せ問題など,異なる公式分布に対して優れた一般化結果を与えるために,効率よく微調整できることを示す。

Graph Neural Networks (GNNs) have been recently leveraged to solve several logical reasoning tasks. Nevertheless, counting problems such as propositional model counting (#SAT) are still mostly approached with traditional solvers. Here we tackle this gap by presenting an architecture based on the GNN framework for belief propagation (BP) of Kuch et al., extended with self-attentive GNN and trained to approximately solve the #SAT problem. We ran a thorough experimental investigation, showing that our model, trained on a small set of random Boolean formulae, is able to scale effectively to much larger problem sizes, with comparable or better performances of state of the art approximate solvers. Moreover, we show that it can be efficiently fine-tuned to provide good generalization results on different formulae distributions, such as those coming from SAT-encoded combinatorial problems.
翻訳日:2022-05-10 14:10:48 公開日:2022-05-09
# (参考訳) EigenNoise: ワームスターの表現に先立つコントラスト [全文訳有]

EigenNoise: A Contrastive Prior to Warm-Start Representations ( http://arxiv.org/abs/2205.04376v1 )

ライセンス: CC BY 4.0
Hunter Scott Heidenreich, Jake Ryland Williams(参考訳) 本研究では, 単語ベクトルの初期化手法について, 高密度で独立な共起モデルを用いて提案し, 競合性を示す予備的な結果を提供し, さらなる調査を保証している。 具体的には,情報理論最小記述長(MDL)を用いて,事前学習データ(EigenNoiseの場合)の欠如にもかかわらず,実験的に訓練されたGloVeの性能にアプローチできることを示す。 そこで,本研究では,この競争的初期化が事前学習データなしでどのように機能するか,また,調和的言語構造理論から情報を得たよりインテリジェントな初期化スキームの探索を誘致する。 この理論の応用は、言語表現がデータとコントラスト分布から獲得する基盤となる分布情報を解明した最近の発見の新しい(かつ効果的な)解釈にも寄与する。

In this work, we present a naive initialization scheme for word vectors based on a dense, independent co-occurrence model and provide preliminary results that suggest it is competitive and warrants further investigation. Specifically, we demonstrate through information-theoreti c minimum description length (MDL) probing that our model, EigenNoise, can approach the performance of empirically trained GloVe despite the lack of any pre-training data (in the case of EigenNoise). We present these preliminary results with interest to set the stage for further investigations into how this competitive initialization works without pre-training data, as well as to invite the exploration of more intelligent initialization schemes informed by the theory of harmonic linguistic structure. Our application of this theory likewise contributes a novel (and effective) interpretation of recent discoveries which have elucidated the underlying distributional information that linguistic representations capture from data and contrast distributions.
翻訳日:2022-05-10 14:09:01 公開日:2022-05-09
# イントロスペクティブ深層学習

Introspective Deep Metric Learning ( http://arxiv.org/abs/2205.04449v1 )

ライセンス: Link先を確認
Chengkun Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu(参考訳) 本稿では,不確実性を考慮した画像比較のための内観的深度学習(IDML)フレームワークを提案する。 従来のディープメトリック学習手法は、不確実性レベルに関係なく、画像間の自信ある意味距離を生成する。 しかし,良質な類似性モデルでは,より強固なトレーニングのために曖昧な画像を扱うための注意が必要である。 そこで本研究では,画像の意味的特徴とあいまいさをそれぞれ記述した,意味的埋め込みだけでなく付随する不確実性埋め込みを用いた画像表現を提案する。 さらに,その意味的差異とあいまいさの両方を考慮し,画像間の類似性判定を行うイントロスペクティブ類似度尺度を提案する。 我々は,CUB-200-2011,Cars19 6,Stanford Online Productsといった画像検索用データセット上で,最先端のパフォーマンスを実現する。 さらに,ImageNet-1K, CIFAR-10, CIFAR-100データセット上での画像分類の枠組みについて検討し, 提案したイントロスペクティブ・メトリックと既存のデータ混合手法を併用することで, より優れた結果が得られることを示す(例: ImageNet-1K上のCutMixの+0.44)。 コードはhttps://github.com/w angck20/idml。

This paper proposes an introspective deep metric learning (IDML) framework for uncertainty-aware comparisons of images. Conventional deep metric learning methods produce confident semantic distances between images regardless of the uncertainty level. However, we argue that a good similarity model should consider the semantic discrepancies with caution to better deal with ambiguous images for more robust training. To achieve this, we propose to represent an image using not only a semantic embedding but also an accompanying uncertainty embedding, which describes the semantic characteristics and ambiguity of an image, respectively. We further propose an introspective similarity metric to make similarity judgments between images considering both their semantic differences and ambiguities. Our framework attains state-of-the-art performance on the widely used CUB-200-2011, Cars196, and Stanford Online Products datasets for image retrieval. We further evaluate our framework for image classification on the ImageNet-1K, CIFAR-10, and CIFAR-100 datasets, which shows that equipping existing data mixing methods with the proposed introspective metric consistently achieves better results (e.g., +0.44 for CutMix on ImageNet-1K). Code is available at: https://github.com/w angck20/IDML.
翻訳日:2022-05-10 13:56:31 公開日:2022-05-09
# naturalspeech: エンド・ツー・エンドのテキストから音声合成

NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality ( http://arxiv.org/abs/2205.04421v1 )

ライセンス: Link先を確認
Xu Tan, Jiawei Chen, Haohe Liu, Jian Cong, Chen Zhang, Yanqing Liu, Xi Wang, Yichong Leng, Yuanhao Yi, Lei He, Frank Soong, Tao Qin, Sheng Zhao, Tie-Yan Liu(参考訳) テキスト・トゥ・スピーチ(TTS)は近年,学術・産業ともに急速に進歩している。 自然に、ttsシステムが人間レベルの品質を達成できるか、人間レベルの品質を定義して判断するか、どのように達成するか、といった疑問が生まれます。 本稿では,まず,測定の統計的意義に基づいて人間レベルの品質を定義し,その評価ガイドラインを記述し,次いで,ベンチマークデータセット上で人間レベルの品質を達成するNaturalSpeechと呼ばれるTSシステムを提案する。 具体的には、音素事前学習、微分時間モデリング、双方向前/後処理モデリング、VAEにおけるメモリ機構など、テキストから先行処理の能力を高め、音声から後続処理の複雑さを低減するためのいくつかの重要な設計により、波形生成のための変分オートエンコーダ(VAE)を利用する。 一般的なLJSpeechデータセットを用いた実験結果から,提案したNaturalSpeechは,pレベルp>0.05のウィルコクソン符号付きランクテストにより,文章レベルでの人間の記録に対して-0.01 CMOS(平均意見スコア)を達成した。

Text to speech (TTS) has made rapid progress in both academia and industry in recent years. Some questions naturally arise that whether a TTS system can achieve human-level quality, how to define/judge human-level quality and how to achieve it. In this paper, we answer these questions by first defining human-level quality based on statistical significance of measurement and describing the guidelines to judge it, and then proposing a TTS system called NaturalSpeech that achieves human-level quality on a benchmark dataset. Specifically, we leverage a variational autoencoder (VAE) for end-to-end text to waveform generation, with several key designs to enhance the capacity of prior from text and reduce the complexity of posterior from speech, including phoneme pre-training, differentiable duration modeling, bidirectional prior/posterior modeling, and memory mechanism in VAE. Experiment evaluations on popular LJSpeech dataset show that our proposed NaturalSpeech achieves -0.01 CMOS (comparative mean opinion score) to human recordings on sentence level, with Wilcoxon signed rank test at p-level p>>0.05, which demonstrates no statistically significant difference from human recordings for the first time on this dataset.
翻訳日:2022-05-10 13:56:08 公開日:2022-05-09
# CoCoA-MT:コントラスト制御MTのデータセットとベンチマークと形式化への応用

CoCoA-MT: A Dataset and Benchmark for Contrastive Controlled MT with Application to Formality ( http://arxiv.org/abs/2205.04022v1 )

ライセンス: Link先を確認
Maria N\u{a}dejde, Anna Currey, Benjamin Hsu, Xing Niu, Marcello Federico, Georgiana Dinu(参考訳) 機械翻訳(MT)タスクは、通常、入力セグメントに対して単一の翻訳を返すものとして定式化される。 しかし、多くの場合、複数の異なる翻訳が有効であり、適切な翻訳は、対象とする話者、話者の特性、さらには話者間の関係に依存する可能性がある。 特定の問題は、特に英語からフォーマルなマーカーを持つ言語に翻訳する際に生じる。 例えば、ドイツ語で「sind sie sich sicher」または「bist du dir sicher」と訳すことができる。 間違ったトーンや一貫性のないトーンを使うことは、特定の文化や人口動態のユーザにとって不適切あるいは厄介であると見なされることがある。 本研究は,少量のラベル付きコントラストデータから対象言語属性,この場合の形式性を制御する学習の問題に対処する。 アノテーション付きデータセット(CoCoA-MT)と関連する評価指標を導入し,6言語を対象とした形式性制御型MTモデルの訓練と評価を行った。 我々は,ラベル付きコントラストデータを微調整し,全体的な品質を維持しつつ高い精度(ドメイン内82%,ドメイン外73%)を達成することで,形式性制御モデルを訓練できることを示す。

The machine translation (MT) task is typically formulated as that of returning a single translation for an input segment. However, in many cases, multiple different translations are valid and the appropriate translation may depend on the intended target audience, characteristics of the speaker, or even the relationship between speakers. Specific problems arise when dealing with honorifics, particularly translating from English into languages with formality markers. For example, the sentence "Are you sure?" can be translated in German as "Sind Sie sich sicher?" (formal register) or "Bist du dir sicher?" (informal). Using wrong or inconsistent tone may be perceived as inappropriate or jarring for users of certain cultures and demographics. This work addresses the problem of learning to control target language attributes, in this case formality, from a small amount of labeled contrastive data. We introduce an annotated dataset (CoCoA-MT) and an associated evaluation metric for training and evaluating formality-controlled MT models for six diverse target languages. We show that we can train formality-controlled models by fine-tuning on labeled contrastive data, achieving high accuracy (82% in-domain and 73% out-of-domain) while maintaining overall quality.
翻訳日:2022-05-10 13:53:08 公開日:2022-05-09
# マルチタスク言語モデルに対する属性ベースタスク固有プルーニング

Attribution-based Task-specific Pruning for Multi-task Language Models ( http://arxiv.org/abs/2205.04157v1 )

ライセンス: Link先を確認
Nakyeong Yang, Yunah Jang, Hwanhee Lee, Seohyeong Jung, Kyomin Jung(参考訳) マルチタスク言語モデルは、1つのモデルだけで様々な自然言語理解タスクに優れた性能を示す。 しかし、これらの言語モデルは、特定のタスクにのみ使用される場合でも、必然的に不要な大規模モデルパラメータを利用する。 本稿では,マルチタスク言語モデルのためのトレーニングフリーなタスク特定プルーニング手法を提案する。 具体的には、特定のタスクを実行するために各ニューロンの重要性を計算するために属性法を用いる。 そして、この計算重要度を用いてタスク特異的に重要でないニューロンをプルークする。 6種類のデータセットを用いた実験の結果,提案手法がベースライン圧縮法を有意に上回っていることがわかった。 また,ラベル付きデータセットの数が不十分な低リソース設定に適用できるように拡張した。

Multi-task language models show outstanding performance for various natural language understanding tasks with only a single model. However, these language models inevitably utilize unnecessary large-scale model parameters, even when they are used for only a specific task. In this paper, we propose a novel training-free task-specific pruning method for multi-task language models. Specifically, we utilize an attribution method to compute the importance of each neuron for performing a specific task. Then, we prune task-specifically unimportant neurons using this computed importance. Experimental results on the six widely-used datasets show that our proposed pruning method significantly outperforms baseline compression methods. Also, we extend our method to be applicable in a low-resource setting, where the number of labeled datasets is insufficient.
翻訳日:2022-05-10 13:52:45 公開日:2022-05-09
# マニホールドミックスアップによる言語間伝達の促進

Enhancing Cross-lingual Transfer by Manifold Mixup ( http://arxiv.org/abs/2205.04182v1 )

ライセンス: Link先を確認
Huiyun Yang, Huadong Chen, Hao Zhou, Lei Li(参考訳) 大規模事前学習された多言語表現に基づき、近年の言語間転送方式は印象的な転送性能を達成している。 しかし、ターゲット言語のパフォーマンスは依然としてソース言語に及ばない。 本稿では,このような性能差が言語間表現の相違と強く関連していることを示す。 そこで本研究では,表現の不一致を適応的にコーディネートし,対象言語に対する妥協表現を与えるクロスリンガル多様体混合法(x-mixup法)を提案する。 XTREMEベンチマークの実験では、X-Mixupは複数のテキスト理解タスクで1.8%の性能向上を達成した。

Based on large-scale pre-trained multilingual representations, recent cross-lingual transfer methods have achieved impressive transfer performances. However, the performance of target languages still lags far behind the source language. In this paper, our analyses indicate such a performance gap is strongly associated with the cross-lingual representation discrepancy. To achieve better cross-lingual transfer performance, we propose the cross-lingual manifold mixup (X-Mixup) method, which adaptively calibrates the representation discrepancy and gives a compromised representation for target languages. Experiments on the XTREME benchmark show X-Mixup achieves 1.8% performance gains on multiple text understanding tasks, compared with strong baselines, and significantly reduces the cross-lingual representation discrepancy.
翻訳日:2022-05-10 13:52:35 公開日:2022-05-09
# (参考訳) 有害なミームの検出と理解:調査 [全文訳有]

Detecting and Understanding Harmful Memes: A Survey ( http://arxiv.org/abs/2205.04274v1 )

ライセンス: CC BY 4.0
Shivam Sharma, Firoj Alam, Md. Shad Akhtar, Dimitar Dimitrov, Giovanni Da San Martino, Hamed Firooz, Alon Halevy, Fabrizio Silvestri, Preslav Nakov, Tanmoy Chakraborty(参考訳) 有害コンテンツの自動識別は、ソーシャルメディアプラットフォーム、政策立案者、社会にとって大きな関心事である。 研究者はテキスト、視覚、音声のコンテンツを研究してきたが、通常は孤立している。 しかし、有害なコンテンツは、しばしば複数のモダリティを結合する(ミームの場合のように)。 これを念頭に置いて、有害ミームに焦点を当てた総合的な調査を実施します。 近年の文献を体系的に分析し,まず有害なミームの新たな類型論を提案し,その後,関連する芸術の状態を強調・要約する。 興味深い発見の1つは、多くの有害なミームが実際に研究されていないことである。 さらに、既存のデータセットは、ミームが表現できる感情スペクトルを含まない、主にマルチクラスシナリオをキャプチャする。 別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、異なる文化をブレンドして多言語化することもできる。 結論として,マルチモーダル・セミオティック,技術的制約,非自明な社会的関与に関するいくつかの課題を強調し,オンライン上の危害を指摘し,関連するフレームワークや支援的介入を実証的に検証し,今後の研究を動機付け,推進していくことなど,いくつかのオープンな側面を提示する。

The automatic identification of harmful content online is of major concern for social media platforms, policymakers, and society. Researchers have studied textual, visual, and audio content, but typically in isolation. Yet, harmful content often combines multiple modalities, as in the case of memes, which are of particular interest due to their viral nature. With this in mind, here we offer a comprehensive survey with a focus on harmful memes. Based on a systematic analysis of recent literature, we first propose a new typology of harmful memes, and then we highlight and summarize the relevant state of the art. One interesting finding is that many types of harmful memes are not really studied, e.g., such featuring self-harm and extremism, partly due to the lack of suitable datasets. We further find that existing datasets mostly capture multi-class scenarios, which are not inclusive of the affective spectrum that memes can represent. Another observation is that memes can propagate globally through repackaging in different languages and that they can also be multilingual, blending different cultures. We conclude by highlighting several challenges related to multimodal semiotics, technological constraints and non-trivial social engagement, and we present several open-ended aspects such as delineating online harm and empirically examining related frameworks and assistive interventions, which we believe will motivate and drive future research.
翻訳日:2022-05-10 13:50:05 公開日:2022-05-09
# TeamX@DravidianLangT ech-ACL2022: トロルベースのミーム分類の比較分析

TeamX@DravidianLangT ech-ACL2022: A Comparative Analysis for Troll-Based Meme Classification ( http://arxiv.org/abs/2205.04404v1 )

ライセンス: Link先を確認
Rabindra Nath Nandi, Firoj Alam, Preslav Nakov(参考訳) 偽ニュース、プロパガンダ、誤った情報、偽情報、有害なコンテンツのオンライン配信は、ソーシャルメディアプラットフォーム、政府機関、政策立案者、社会全体の懸念を引き起こした。 これは、そのような有害または虐待的なコンテンツが、身体的、感情的、リレーショナル、財務といった人々にいくつかの結果をもたらすためである。 textit{trolling-based} オンラインコンテンツには,挑発的,攻撃的,あるいは誤解を招くようなメッセージを,オーディエンスを誤解させる意図で投稿する,という考え方がある。 コンテンツはテキスト、ビジュアル、両方の組み合わせ、あるいはミームでもよい。 本研究では,テキスト,ビジュアル,マルチモーダルコンテンツを用いて,トロルに基づくミーム分類の比較分析を行った。 我々は、コード混合テキスト、マルチモーダル設定、およびマジョリティベースラインよりも改善した追加データセットの組み合わせに関して、いくつかの興味深い発見を報告する。

The spread of fake news, propaganda, misinformation, disinformation, and harmful content online raised concerns among social media platforms, government agencies, policymakers, and society as a whole. This is because such harmful or abusive content leads to several consequences to people such as physical, emotional, relational, and financial. Among different harmful content \textit{trolling-based} online content is one of them, where the idea is to post a message that is provocative, offensive, or menacing with an intent to mislead the audience. The content can be textual, visual, a combination of both, or a meme. In this study, we provide a comparative analysis of troll-based memes classification using the textual, visual, and multimodal content. We report several interesting findings in terms of code-mixed text, multimodal setting, and combining an additional dataset, which shows improvements over the majority baseline.
翻訳日:2022-05-10 13:28:29 公開日:2022-05-09
# Augmentations: 畳み込みニューラルネットワークの有効性に関する洞察

Augmentations: An Insight into their Effectiveness on Convolution Neural Networks ( http://arxiv.org/abs/2205.04064v1 )

ライセンス: Link先を確認
Sabeesh Ethiraj, Bharath Kumar Bolla(参考訳) 強化は、ニューラルネットワークのパフォーマンスを判断する上で重要な要素であり、パフォーマンスを高めるために重要なエッジを持つモデルを提供する。 モデルの堅牢性を高める能力は、viz-a-viz、モデルアーキテクチャ、拡張のタイプという2つの要素に依存する。 拡張はデータセットに非常に特有であり、すべての種類の拡張が必ずしもモデルのパフォーマンスにポジティブな影響をもたらすことは必須ではない。 したがって、さまざまなデータセットにまたがって一貫して機能し、アーキテクチャの種類、畳み込み、使用されるパラメータの数に不変である拡張子を特定する必要がある。 したがって、さまざまなデータセットにまたがって一貫して機能し、アーキテクチャの種類、畳み込み、使用されるパラメータの数に不変である拡張子を特定する必要がある。 本稿では,MNIST,FMNIST,CIFAR1 0データセットに対する3x3および奥行き分離可能な畳み込みを用いたパラメータの効果を評価する。 統計的証拠は、カットアウトやランダム水平フリップのような手法がパラメトリック・低・高アーキテクチャの両方で一致していることを示している。 奥行き分離可能な畳み込みは、より深いネットワークを構築する能力のため、より高いパラメータで3x3畳み込みよりも優れていた。 拡張は、3x3と深さ分離可能な畳み込みの間の精度の差を橋渡しし、モデル一般化におけるそれらの役割を確立した。 より多くの増補では、パフォーマンスに大きな変化は生じなかった。 また,高パラメータでの多重増補の相乗効果と低パラメータの相乗効果についても検討した。 この研究は、特定のディープラーニングタスクにおけるモデルのパフォーマンスを向上させるために、アーキテクチャ上の優越性と拡張性の微妙なバランスを達成する必要があることを証明している。

Augmentations are the key factor in determining the performance of any neural network as they provide a model with a critical edge in boosting its performance. Their ability to boost a model's robustness depends on two factors, viz-a-viz, the model architecture, and the type of augmentations. Augmentations are very specific to a dataset, and it is not imperative that all kinds of augmentation would necessarily produce a positive effect on a model's performance. Hence there is a need to identify augmentations that perform consistently well across a variety of datasets and also remain invariant to the type of architecture, convolutions, and the number of parameters used. Hence there is a need to identify augmentations that perform consistently well across a variety of datasets and also remain invariant to the type of architecture, convolutions, and the number of parameters used. This paper evaluates the effect of parameters using 3x3 and depth-wise separable convolutions on different augmentation techniques on MNIST, FMNIST, and CIFAR10 datasets. Statistical Evidence shows that techniques such as Cutouts and Random horizontal flip were consistent on both parametrically low and high architectures. Depth-wise separable convolutions outperformed 3x3 convolutions at higher parameters due to their ability to create deeper networks. Augmentations resulted in bridging the accuracy gap between the 3x3 and depth-wise separable convolutions, thus establishing their role in model generalization. At higher number augmentations did not produce a significant change in performance. The synergistic effect of multiple augmentations at higher parameters, with antagonistic effect at lower parameters, was also evaluated. The work proves that a delicate balance between architectural supremacy and augmentations needs to be achieved to enhance a model's performance in any given deep learning task.
翻訳日:2022-05-10 13:27:48 公開日:2022-05-09
# 多方法融合による画像間翻訳品質評価

Paired Image-to-Image Translation Quality Assessment Using Multi-Method Fusion ( http://arxiv.org/abs/2205.04186v1 )

ライセンス: Link先を確認
Stefan Borasinski, Esin Yavuz, S\'ebastien B\'ehuret(参考訳) 合成画像の最良の評価は、画像から画像への翻訳における長年の問題であり、現在に至るまでほとんど未解決のままである。 本稿では,ペアソースと変換間の画像品質の信号を組み合わせて,後者の類似性と仮定的基底真理を予測する新しい手法を提案する。 我々は、画像品質評価(IQA)メトリクスを用いて、勾配付き回帰器のアンサンブルを用いてマルチメソッドフュージョン(MMF)モデルを訓練し、深部画像構造とテクスチャ類似度(DISTS)を予測する。 分析の結果, 計算時間と予測精度の相関関係を考慮し, 特徴制約を課すことが判明した。 本稿では,合成画像の評価を効率よく自動化し,生成した画像から画像への変換モデルを拡張したMMFモデルを提案する。

How best to evaluate synthesized images has been a longstanding problem in image-to-image translation, and to date remains largely unresolved. This paper proposes a novel approach that combines signals of image quality between paired source and transformation to predict the latter's similarity with a hypothetical ground truth. We trained a Multi-Method Fusion (MMF) model via an ensemble of gradient-boosted regressors using Image Quality Assessment (IQA) metrics to predict Deep Image Structure and Texture Similarity (DISTS), enabling models to be ranked without the need for ground truth data. Analysis revealed the task to be feature-constrained, introducing a trade-off at inference between metric computation time and prediction accuracy. The MMF model we present offers an efficient way to automate the evaluation of synthesized images, and by extension the image-to-image translation models that generated them.
翻訳日:2022-05-10 13:27:22 公開日:2022-05-09
# (参考訳) ハイブリッドモデルベイズ推論のための動的ベイズネットワーク補助ABC-SMCによるバイオ製造プロセスの学習とロバスト制御 [全文訳有]

Dynamic Bayesian Network Auxiliary ABC-SMC for Hybrid Model Bayesian Inference to Accelerate Biomanufacturing Process Mechanism Learning and Robust Control ( http://arxiv.org/abs/2205.02410v2 )

ライセンス: CC BY 4.0
Wei Xie, Keqi Wang, Hua Zheng, Ben Feng(参考訳) バイオマニファクチャリング4.0の致命的なニーズにより,基礎となる生物処理機構の複雑な空間-時間因果相互依存性を特徴付ける確率的知識グラフハイブリッドモデルを提案する。 非線形反応、部分的に観察された状態、非定常ダイナミクスを含む重要な性質を忠実に捉えることができる。 限られたプロセス観察が与えられると、後続分布定量化モデルの不確実性が導出され、メカニズム学習が容易になり、ロバストなプロセス制御がサポートされる。 難解な確率の評価を避けるために,逐次モンテカルロ(abc-smc)を用いた近似ベイズ計算サンプリング法を開発した。 高確率およびモデルの不確実性を考えると、プロセス出力軌跡と一致させることは計算コストがかかる。 そこで本稿では,線形ガウス動的ベイズネットワーク (LG-DBN) 補助確率ベースABC-SMC アルゴリズムを提案する。 観測およびシミュレーションされた要約統計値の一致により,提案手法は計算コストを劇的に削減し,後部分布近似を改善することができる。

Driven by the critical needs of biomanufacturing 4.0, we present a probabilistic knowledge graph hybrid model characterizing complex spatial-temporal causal interdependencies of underlying bioprocessing mechanisms. It can faithfully capture the important properties, including nonlinear reactions, partially observed state, and nonstationary dynamics. Given limited process observations, we derive a posterior distribution quantifying model uncertainty, which can facilitate mechanism learning and support robust process control. To avoid evaluation of intractable likelihood, Approximate Bayesian Computation sampling with Sequential Monte Carlo (ABC-SMC) is developed to approximate the posterior distribution. Given high stochastic and model uncertainties, it is computationally expensive to match process output trajectories. Therefore, we propose a linear Gaussian dynamic Bayesian network (LG-DBN) auxiliary likelihood-based ABC-SMC algorithm. Through matching observed and simulated summary statistics, the proposed approach can dramatically reduce the computation cost and improve the posterior distribution approximation.
翻訳日:2022-05-10 13:11:45 公開日:2022-05-09
# パッセージ検索のための集団関連ラベル付け

Collective Relevance Labeling for Passage Retrieval ( http://arxiv.org/abs/2205.03273v2 )

ライセンス: Link先を確認
Jihyuk Kim, Minsoo Kim, and Seung-won Hwang(参考訳) deep learning for information retrieval (ir) は高品質なクエリドキュメント関連ラベルを必要とするが、そのようなラベルは本質的には乏しい。 ラベル平滑化は観測された確率質量を観測されていないインスタンス上で再分配する。 対照的に, 評価時に高い計算オーバーヘッドを伴わずに, インフォームドラベルの知識蒸留を提案する。 本研究の貢献は,より複雑な教師モデルから蒸留した成果を上回って,集団的知識を活かした,単純かつ効率的な教師モデルを設計することである。 具体的には、最先端の教師よりもx8まで速くトレーニングし、ランキングを蒸留します。 私たちのコードはhttps://github.com/j ihyukkim-nlp/Collect iveKDで公開されています。

Deep learning for Information Retrieval (IR) requires a large amount of high-quality query-document relevance labels, but such labels are inherently sparse. Label smoothing redistributes some observed probability mass over unobserved instances, often uniformly, uninformed of the true distribution. In contrast, we propose knowledge distillation for informed labeling, without incurring high computation overheads at evaluation time. Our contribution is designing a simple but efficient teacher model which utilizes collective knowledge, to outperform state-of-the-arts distilled from a more complex teacher model. Specifically, we train up to x8 faster than the state-of-the-art teacher, while distilling the rankings better. Our code is publicly available at https://github.com/j ihyukkim-nlp/Collect iveKD
翻訳日:2022-05-10 11:46:30 公開日:2022-05-09
# 準最適化によるチームポリシーの擬似学習

Semi-Supervised Imitation Learning of Team Policies from Suboptimal Demonstrations ( http://arxiv.org/abs/2205.02959v2 )

ライセンス: Link先を確認
Sangwon Seo and Vaibhav V. Unhelkar(参考訳) マルコフ領域における逐次タスクを実行するチームの振る舞いをモデル化する模倣学習アルゴリズムであるBayesian Team Imitation Learner(BTIL)を提案する。 既存のマルチエージェントの模倣学習技術とは対照的に、BTILはチームメンバーの時間的な精神状態を明確にモデル化し、推論することで、最適なチームワークのデモンストレーションから分散型チームポリシーの学習を可能にする。 さらに、小さなデータセットからサンプルおよびラベル効率のポリシー学習を可能にするため、BTILはベイズ的な視点を採用し、半教師付きデモンストレーションから学ぶことができる。 我々は,人工マルチエージェントタスクにおけるbtilの性能と,ヒューマンエージェントチームワークの新たなデータセットの実証とベンチマークを行った。 実験の結果、btilは、チームメンバの精神状態(時間的変動と潜在的に不一致)が行動に与える影響に関わらず、デモからチームのポリシーをうまく学習できることが分かりました。

We present Bayesian Team Imitation Learner (BTIL), an imitation learning algorithm to model behavior of teams performing sequential tasks in Markovian domains. In contrast to existing multi-agent imitation learning techniques, BTIL explicitly models and infers the time-varying mental states of team members, thereby enabling learning of decentralized team policies from demonstrations of suboptimal teamwork. Further, to allow for sample- and label-efficient policy learning from small datasets, BTIL employs a Bayesian perspective and is capable of learning from semi-supervised demonstrations. We demonstrate and benchmark the performance of BTIL on synthetic multi-agent tasks as well as a novel dataset of human-agent teamwork. Our experiments show that BTIL can successfully learn team policies from demonstrations despite the influence of team members' (time-varying and potentially misaligned) mental states on their behavior.
翻訳日:2022-05-10 11:46:17 公開日:2022-05-09