このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220912となっている論文です。

PDF登録状況(公開日: 20220912)

TitleAuthorsAbstract論文公表日・翻訳日
# ImageNet-trained CNNの形状と単純さの偏り

The shape and simplicity biases of adversarially robust ImageNet-trained CNNs ( http://arxiv.org/abs/2006.09373v6 )

ライセンス: Link先を確認
Peijie Chen, Chirag Agarwal, Anh Nguyen(参考訳) 人間の視覚と畳み込みニューラルネットワーク(CNN)の類似性は、ここ数年でますます高まっている。 しかしながら、バニラCNNは、人間が優れたパフォーマンスを示す敵対的またはアウト・オブ・ディストリビューション(OOD)の例を一般化するのに不足することが多い。 逆行訓練は、CNNの逆行性およびOODデータに対する堅牢性を改善するための主要な学習アルゴリズムであるが、その特性、特に逆行性CNNの内部で学んだ形状バイアスと内部特徴についてはほとんど知られていない。 本稿では,alexnet,googlenet,resnet-50モデルの汎用性を実現するための,形状バイアスと内部機構を理解するための徹底的かつ体系的な研究を行う。 標準のImageNet分類器はテクスチャバイアスが強いが、Rの分類器は形状に大きく依存している。 興味深いことに、敵の訓練はCNNの「不正化」過程において隠れたニューロンに3つの単純バイアスを誘導する。 すなわち、Rネットワーク内の各畳み込みニューロンは、(1) ピクセル単位のスムーズなパターン、すなわち、ネットワークを通過する高周波ノイズを遮断するメカニズム、(2) テクスチャや色(オブジェクトの代わりに)より低レベルな特徴、(3) 入力の種類がより少ないことを検出するようになる。 我々の発見は、ネットワークをより逆向きに堅牢にする興味深いメカニズムを明らかにし、また、なぜRネットワークがより大きな容量(Xie et al. 2020)から恩恵を受け、画像合成に先立って強いイメージとして機能するか(Santurkar et al. 2019)といった最近の発見を説明している。

Increasingly more similarities between human vision and convolutional neural networks (CNNs) have been revealed in the past few years. Yet, vanilla CNNs often fall short in generalizing to adversarial or out-of-distribution (OOD) examples which humans demonstrate superior performance. Adversarial training is a leading learning algorithm for improving the robustness of CNNs on adversarial and OOD data; however, little is known about the properties, specifically the shape bias and internal features learned inside adversarially-robust CNNs. In this paper, we perform a thorough, systematic study to understand the shape bias and some internal mechanisms that enable the generalizability of AlexNet, GoogLeNet, and ResNet-50 models trained via adversarial training. We find that while standard ImageNet classifiers have a strong texture bias, their R counterparts rely heavily on shapes. Remarkably, adversarial training induces three simplicity biases into hidden neurons in the process of "robustifying" CNNs. That is, each convolutional neuron in R networks often changes to detecting (1) pixel-wise smoother patterns, i.e., a mechanism that blocks high-frequency noise from passing through the network; (2) more lower-level features i.e. textures and colors (instead of objects);and (3) fewer types of inputs. Our findings reveal the interesting mechanisms that made networks more adversarially robust and also explain some recent findings e.g., why R networks benefit from a much larger capacity (Xie et al. 2020) and can act as a strong image prior in image synthesis (Santurkar et al. 2019).
翻訳日:2022-11-20 19:56:14 公開日:2022-09-12
# ニューラルSDEに対する決定論的近似

A Deterministic Approximation to Neural SDEs ( http://arxiv.org/abs/2006.08973v6 )

ライセンス: Link先を確認
Andreas Look, Melih Kandemir, Barbara Rakitsch, Jan Peters(参考訳) ニューラル確率微分方程式(NSDE)は、確率過程のドリフトと拡散関数をニューラルネットワークとしてモデル化する。 NSDEは正確な予測をすることが知られているが、その不確実な定量化特性はいまだ未解明のままである。 本報告では,NSDEの精度の高い不確実性推定は,計算的に禁忌であることを示す。 NSDEによって動的に制御される場合の遷移カーネルを正確に近似する計算的に手頃な決定論的スキームを開発する。 本手法では,2次元モーメントマッチングアルゴリズムを導入する。ニューラルネット層に沿って垂直方向と時間方向に沿って水平方向の2次元モーメントマッチングアルゴリズムを導入する。 遷移核の決定論的近似は、トレーニングと予測の両方に適用できる。 提案手法の不確実性校正品質は,モンテカルロサンプリングにおいて高い計算コスト導入後にのみマッチング可能であることを複数実験で確認した。 決定論的トレーニングの数値的安定性により,予測精度も向上する。

Neural Stochastic Differential Equations (NSDEs) model the drift and diffusion functions of a stochastic process as neural networks. While NSDEs are known to make accurate predictions, their uncertainty quantification properties have been remained unexplored so far. We report the empirical finding that obtaining well-calibrated uncertainty estimations from NSDEs is computationally prohibitive. As a remedy, we develop a computationally affordable deterministic scheme which accurately approximates the transition kernel, when dynamics is governed by a NSDE. Our method introduces a bidimensional moment matching algorithm: vertical along the neural net layers and horizontal along the time direction, which benefits from an original combination of effective approximations. Our deterministic approximation of the transition kernel is applicable to both training and prediction. We observe in multiple experiments that the uncertainty calibration quality of our method can be matched by Monte Carlo sampling only after introducing high computational cost. Thanks to the numerical stability of deterministic training, our method also improves prediction accuracy.
翻訳日:2022-11-20 19:19:21 公開日:2022-09-12
# メモリ効率3D GANのための階層的補正トレーニング

Hierarchical Amortized Training for Memory-efficient High Resolution 3D GAN ( http://arxiv.org/abs/2008.01910v4 )

ライセンス: Link先を確認
Li Sun, Junxiang Chen, Yanwu Xu, Mingming Gong, Ke Yu, Kayhan Batmanghelich(参考訳) Generative Adversarial Networks (GAN) は、データ拡張、ドメイン適応、モデル説明など、多くの潜在的な医療画像アプリケーションを持っている。 グラフィック処理ユニット(gpu)のメモリが限られているため、現在の3d ganモデルのほとんどは低解像度の医療画像で訓練されている。 本稿では,高分解能3d画像を生成するための新しいganアーキテクチャを提案する。 トレーニングと推論の異なる構成を使用することで、この目標を達成する。 学習中,低解像度画像とランダムに選択された高画質画像のサブボリュームを同時に生成する階層構造を採用する。 階層的設計には2つの利点がある: まず、高解像度画像のトレーニングに対するメモリ要求は、サブボリューム間で償却される。 さらに、高解像度サブボリュームを単一の低解像度画像に固定することで、サブボリューム間の解剖学的一貫性が保証される。 推論中、我々のモデルは完全な高解像度画像を直接生成できる。 また,同様の階層構造を持つエンコーダをモデルに組み込んで,画像から特徴を抽出する。 3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。 また,データ拡張および臨床関連特徴抽出における提案モデルの臨床的応用について述べる。

Generative Adversarial Networks (GAN) have many potential medical imaging applications, including data augmentation, domain adaptation, and model explanation. Due to the limited memory of Graphical Processing Units (GPUs), most current 3D GAN models are trained on low-resolution medical images, these models either cannot scale to high-resolution or are prone to patchy artifacts. In this work, we propose a novel end-to-end GAN architecture that can generate high-resolution 3D images. We achieve this goal by using different configurations between training and inference. During training, we adopt a hierarchical structure that simultaneously generates a low-resolution version of the image and a randomly selected sub-volume of the high-resolution image. The hierarchical design has two advantages: First, the memory demand for training on high-resolution images is amortized among sub-volumes. Furthermore, anchoring the high-resolution sub-volumes to a single low-resolution image ensures anatomical consistency between sub-volumes. During inference, our model can directly generate full high-resolution images. We also incorporate an encoder with a similar hierarchical structure into the model to extract features from the images. Experiments on 3D thorax CT and brain MRI demonstrate that our approach outperforms state of the art in image generation. We also demonstrate clinical applications of the proposed model in data augmentation and clinical-relevant feature extraction.
翻訳日:2022-11-02 18:38:28 公開日:2022-09-12
# 星の結婚の仕方: 文脈における意味の確率的制約

How to marry a star: probabilistic constraints for meaning in context ( http://arxiv.org/abs/2009.07936v3 )

ライセンス: Link先を確認
Katrin Erk, Aurelie Herbelot(参考訳) 本稿では,意味をインテンテンテンショナルと概念の両方として特徴づける「文脈における単語の意味」の概念を導出する。 本稿では,文脈における単語の意味に関する局所的および大域的制約に加えて,それらの相互作用も考慮し,発話解釈で観察される語彙変化や曖昧さをモデル化する枠組みを提案する。 文の意味を「位置記述システム」と表現し、発話理解を、観察された発話を考慮に入れた1つ以上の状況に記述する精神的なプロセスとみなす確率論的モデルを示す。 本稿では,実際にシステムを実装する方法を示し,様々な文脈化現象を含む例に適用する。

In this paper, we derive a notion of 'word meaning in context' that characterizes meaning as both intensional and conceptual. We introduce a framework for specifying local as well as global constraints on word meaning in context, together with their interactions, thus modelling the wide range of lexical shifts and ambiguities observed in utterance interpretation. We represent sentence meaning as a 'situation description system', a probabilistic model which takes utterance understanding to be the mental process of describing to oneself one or more situations that would account for an observed utterance. We show how the system can be implemented in practice, and apply it to examples containing various contextualisation phenomena.
翻訳日:2022-10-18 00:04:31 公開日:2022-09-12
# 回帰手法を用いた学生の学習スタイル予測

Predicting students' learning styles using regression techniques ( http://arxiv.org/abs/2209.12691v1 )

ライセンス: Link先を確認
Ahmad Mousa Altamimi, Mohammad Azzeh, Mahmoud Albashayreh(参考訳) 従来の学習システムは新型コロナウイルスのパンデミックに素早く対応し、オンラインや遠隔学習に移行した。 オンライン学習は、学習者とインストラクターの相互作用が最小限であり、学習者が最適な学習方法を持っているため、パーソナライズ方法を必要とする。 パーソナライズ手法の1つは学習者の学習スタイルを検出することである。 学習スタイルを検出するために,分類手法を用いたいくつかの研究が提案されている。 しかし、現在の検出モデルは、学習者が支配的なスタイルや学習スタイルがない場合、効果がない。 したがって,本研究の目的は2つある。 まず、回帰分析に基づく予測モデルの構築は、好む学習スタイルを推定するための確率論的アプローチを提供する。 第二に,学習スタイル検出のための回帰モデルと分類モデルの比較である。 概念モデルに基づいて,視覚,聴覚,読み書き,皮膚審美(VARK)の在庫アンケートを用いて,72名の学生のサンプルから収集したデータセットに基づいて,機械学習アルゴリズムのセットを実装した。 その結果,リグレッション手法は,複数の学習スタイルを持つ場合と確率が異なる場合の分類アルゴリズムよりも,実世界のシナリオにおいてより正確かつ代表的であることがわかった。 この研究は、教育機関が教育過程に学習スタイルを取り入れるのに役立つと信じている。

Traditional learning systems have responded quickly to the COVID pandemic and moved to online or distance learning. Online learning requires a personalization method because the interaction between learners and instructors is minimal, and learners have a specific learning method that works best for them. One of the personalization methods is detecting the learners' learning style. To detect learning styles, several works have been proposed using classification techniques. However, the current detection models become ineffective when learners have no dominant style or a mix of learning styles. Thus, the objective of this study is twofold. Firstly, constructing a prediction model based on regression analysis provides a probabilistic approach for inferring the preferred learning style. Secondly, comparing regression models and classification models for detecting learning style. To ground our conceptual model, a set of machine learning algorithms have been implemented based on a dataset collected from a sample of 72 students using visual, auditory, reading/writing, and kinesthetic (VARK's) inventory questionnaire. Results show that regression techniques are more accurate and representative for real-world scenarios than classification algorithms, where students might have multiple learning styles but with different probabilities. We believe that this research will help educational institutes to engage learning styles in the teaching process.
翻訳日:2022-10-02 23:49:58 公開日:2022-09-12
# emojispace:絵文字の空間表現

emojiSpace: Spatial Representation of Emojis ( http://arxiv.org/abs/2209.09871v1 )

ライセンス: Link先を確認
Moeen Mostafavi, Mahsa Pahlavikhah Varnosfaderani, Fateme Nikseresht, Seyed Ahmad Mansouri(参考訳) メッセージコミュニケーション中に非言語的なヒントがない場合、ユーザーは絵文字を使って感情の一部を表現する。 したがって、テキストメッセージング言語モデルの語彙に絵文字を持つことは、オンラインコミュニケーション分析のような多くの自然言語処理(NLP)アプリケーションを大幅に改善することができる。 一方、単語埋め込みモデルは、通常、非常に少ない絵文字のサンプルを含むwikipediaやgoogle newsデータセットのような非常に大きなテキストコーパスで訓練される。 本研究では,python のgenism ライブラリから word2vec モデルを用いて,word-emoji を組み込んだ emojispace を開発した。 われわれは40億以上のツイートからなるコーパスで絵文字スペースをトレーニングし、6700万以上のツイートを含むTwitterデータセットに感情分析を実装して評価した。 本研究では,ランダムフォレスト (rf) と線形支持ベクトルマシン (svm) の2つの異なる分類器の性能を比較した。 評価のために,絵文字空間の性能と事前学習した他の2つの埋め込みとの比較を行った。

In the absence of nonverbal cues during messaging communication, users express part of their emotions using emojis. Thus, having emojis in the vocabulary of text messaging language models can significantly improve many natural language processing (NLP) applications such as online communication analysis. On the other hand, word embedding models are usually trained on a very large corpus of text such as Wikipedia or Google News datasets that include very few samples with emojis. In this study, we create emojiSpace, which is a combined word-emoji embedding using the word2vec model from the Genism library in Python. We trained emojiSpace on a corpus of more than 4 billion tweets and evaluated it by implementing sentiment analysis on a Twitter dataset containing more than 67 million tweets as an extrinsic task. For this task, we compared the performance of two different classifiers of random forest (RF) and linear support vector machine (SVM). For evaluation, we compared emojiSpace performance with two other pre-trained embeddings and demonstrated that emojiSpace outperforms both.
翻訳日:2022-09-25 17:13:39 公開日:2022-09-12
# 遠隔医療用写真品質向上のためのAI支援ツールの開発と臨床評価

Development and Clinical Evaluation of an AI Support Tool for Improving Telemedicine Photo Quality ( http://arxiv.org/abs/2209.09105v1 )

ライセンス: Link先を確認
Kailas Vodrahalli, Justin Ko, Albert S. Chiou, Roberto Novoa, Abubakar Abid, Michelle Phung, Kiana Yekrang, Paige Petrone, James Zou, Roxana Daneshjou(参考訳) 新型コロナウイルスのパンデミックで遠隔医療の利用が加速し、皮膚の状態が一般的なユースケースとなった。 しかし、患者が送った写真の品質は依然として大きな限界である。 この問題に対処するため,我々は,遠隔医療における患者の写真品質を評価するための人工知能(ai)モデルであるtrueimage 2.0を開発した。 trueimage 2.0は、臨床医が写真品質にアノテートした1700枚の遠隔医療画像に基づいて訓練された。 357枚の遠隔医療画像の振り返りデータセットでTrueImage 2.0は、品質の悪い画像(ROC-AUC =0.78)と品質の悪い理由(Blurry ROC-AUC=0.84, Lighting issue ROC-AUC=0.70)を効果的に同定した。 パフォーマンスは年齢、性別、肌の色で一致します。 次に,98例を対象に臨床実験を行い,患者と画像の相互作用が写真品質の向上に繋がるか否かを検討した。 TrueImage 2.0では、画質の悪い患者を68.0%減らした。

Telemedicine utilization was accelerated during the COVID-19 pandemic, and skin conditions were a common use case. However, the quality of photographs sent by patients remains a major limitation. To address this issue, we developed TrueImage 2.0, an artificial intelligence (AI) model for assessing patient photo quality for telemedicine and providing real-time feedback to patients for photo quality improvement. TrueImage 2.0 was trained on 1700 telemedicine images annotated by clinicians for photo quality. On a retrospective dataset of 357 telemedicine images, TrueImage 2.0 effectively identified poor quality images (Receiver operator curve area under the curve (ROC-AUC) =0.78) and the reason for poor quality (Blurry ROC-AUC=0.84, Lighting issues ROC-AUC=0.70). The performance is consistent across age, gender, and skin tone. Next, we assessed whether patient-TrueImage 2.0 interaction led to an improvement in submitted photo quality through a prospective clinical pilot study with 98 patients. TrueImage 2.0 reduced the number of patients with a poor-quality image by 68.0%.
翻訳日:2022-09-25 17:12:32 公開日:2022-09-12
# 注意モデルによるSoCメッセージフローのマイニング

Mining SoC Message Flows with Attention Model ( http://arxiv.org/abs/2209.07929v1 )

ライセンス: Link先を確認
Md Rubel Ahmed, Bardia Nadimi, Hao Zheng(参考訳) システムオンチップ(SoC)設計の包括的な検証には,高品質なシステムレベルのメッセージフロー仕様が必要である。 しかし、そのような仕様のマニュアル開発とメンテナンスは大変な作業である。 本稿では,soc通信トレースから正確な流れ仕様を推定するための注意機構を備えた深部シーケンスモデリングを用いた破壊的手法を提案する。 提案手法は,既存の採掘ツールがしばしば困難であるSoC設計の同時実行によって引き起こされるSoCトレースの複雑さを克服することができる。 高度に並行な5つのトレース実験を行い,提案手法が既存の最新のトレースマイニングツールよりも優れていることを発見した。

High-quality system-level message flow specifications are necessary for comprehensive validation of system-on-chip (SoC) designs. However, manual development and maintenance of such specifications are daunting tasks. We propose a disruptive method that utilizes deep sequence modeling with the attention mechanism to infer accurate flow specifications from SoC communication traces. The proposed method can overcome the inherent complexity of SoC traces induced by the concurrent executions of SoC designs that existing mining tools often find extremely challenging. We conduct experiments on five highly concurrent traces and find that the proposed approach outperforms several existing state-of-the-art trace mining tools.
翻訳日:2022-09-25 17:12:12 公開日:2022-09-12
# 進化するネットワークにおける拡散を分類する時間的グラフレットカーネル

A Temporal Graphlet Kernel for Classifying Dissemination in Evolving Networks ( http://arxiv.org/abs/2209.07332v1 )

ライセンス: Link先を確認
Lutz Oettershagen, Nils M. Kriege, Claude Jordan, Petra Mutzel(参考訳) ラベル付き時間グラフの拡散過程を分類するために, \emph{temporal graphlet kernel} を導入する。 このような拡散過程は、動的ネットワークにおいてニュース、感染症、コンピュータウイルスを拡散(フェイク)することができる。 ネットワークはラベル付きテンポラリグラフとしてモデル化され、エッジは特定の時点に存在し、ノードラベルは時間とともに変化する。 分類問題は、感染確率の異なる感染症など、異なる起源やパラメータの拡散過程を識別することを要求する。 新しいカーネルは、時間グラフの特徴空間、すなわち、その構造、時間依存ノードラベル、エッジの時系列順で区別される小さなサブグラフにラベル付けされた時間グラフを表す。 効率よく可算であるグラフレットのクラスに基づいて、カーネルの変種を紹介します。 時間的ウェッジの場合,予測誤差の少ない高効率な近似カーネルを提案する。 我々のカーネルは計算が速く、最先端の手法よりも精度が高いことを示す。

We introduce the \emph{temporal graphlet kernel} for classifying dissemination processes in labeled temporal graphs. Such dissemination processes can be spreading (fake) news, infectious diseases, or computer viruses in dynamic networks. The networks are modeled as labeled temporal graphs, in which the edges exist at specific points in time, and node labels change over time. The classification problem asks to discriminate dissemination processes of different origins or parameters, e.g., infectious diseases with different infection probabilities. Our new kernel represents labeled temporal graphs in the feature space of temporal graphlets, i.e., small subgraphs distinguished by their structure, time-dependent node labels, and chronological order of edges. We introduce variants of our kernel based on classes of graphlets that are efficiently countable. For the case of temporal wedges, we propose a highly efficient approximative kernel with low error in expectation. We show that our kernels are faster to compute and provide better accuracy than state-of-the-art methods.
翻訳日:2022-09-16 13:40:08 公開日:2022-09-12
# 規則順守型合成データ-学習の言語フランカ

Rule-adhering synthetic data -- the lingua franca of learning ( http://arxiv.org/abs/2209.06679v1 )

ライセンス: Link先を確認
Michael Platzer and Ivona Krchova(参考訳) AIが生成した合成データは、既存のデータの一般的なパターンを抽出し、粒度レベルの代表として安全に共有する。 本研究では、データ合成にドメインの専門知識を取り入れ、その統計的性質と、既存のルールのドメイン知識を表現するためのアプローチを検討する。 得られた合成データ生成装置は、新しいサンプルを何個でも探すことができ、人間や機械が消費する学習のラングアフランカとして、共通のインテリジェンス源として機能する。 我々は,公開データセットの概念を実証し,その利点を記述論的解析と下流mlモデルを用いて評価する。

AI-generated synthetic data allows to distill the general patterns of existing data, that can then be shared safely as granular-level representative, yet novel data samples within the original semantics. In this work we explore approaches of incorporating domain expertise into the data synthesis, to have the statistical properties as well as pre-existing domain knowledge of rules be represented. The resulting synthetic data generator, that can be probed for any number of new samples, can then serve as a common source of intelligence, as a lingua franca of learning, consumable by humans and machines alike. We demonstrate the concept for a publicly available data set, and evaluate its benefits via descriptive analysis as well as a downstream ML model.
翻訳日:2022-09-15 13:43:32 公開日:2022-09-12
# One-Shot Doc Snippet Detection:テキスト以外のドキュメントで検索をパワーアップ

One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text ( http://arxiv.org/abs/2209.06584v1 )

ライセンス: Link先を確認
Abhinav Java, Shripad Deshmukh, Milan Aggarwal, Surgan Jandial, Mausoom Sarkar, Balaji Krishnamurthy(参考訳) デジタル文書のアクティブな消費は、検索を含む様々な応用の研究のスコープとなった。 伝統的に、ドキュメント内の検索は、構造化文書やフォームなどに一般的に存在するリッチなレイアウトや視覚的手がかりを無視して、テキストマッチング問題としてキャストされてきた。 ドキュメントスニペットの単一のクエリインスタンスが与えられた場合、ターゲットのドキュメントページにある同様のスニペットを検索しますか? 単発スニペット検出タスクとして MONOMER を提案する。 MONOMERは、コンテキストを視覚的、テキスト的、空間的なスニペットやドキュメントから切り離して、ターゲット文書のクエリスニペットを見つける。 我々は,one-shot object detection (bhrl), template matching, document understanding (layoutlmv3) のベースラインをモノマーが上回っていることを示す広範なアブレーションおよび実験を行った。 タスクに関連するデータが不足しているため、Flamingo FormsとPubLayNetという2つのデータセットから、多くの視覚的に類似したクエリスニペットとターゲットドキュメントペアを持つプログラム生成データに対してMONOMERをトレーニングする。 また、生成されたデータを検証するために人間の研究も行います。

Active consumption of digital documents has yielded scope for research in various applications, including search. Traditionally, searching within a document has been cast as a text matching problem ignoring the rich layout and visual cues commonly present in structured documents, forms, etc. To that end, we ask a mostly unexplored question: "Can we search for other similar snippets present in a target document page given a single query instance of a document snippet?". We propose MONOMER to solve this as a one-shot snippet detection task. MONOMER fuses context from visual, textual, and spatial modalities of snippets and documents to find query snippet in target documents. We conduct extensive ablations and experiments showing MONOMER outperforms several baselines from one-shot object detection (BHRL), template matching, and document understanding (LayoutLMv3). Due to the scarcity of relevant data for the task at hand, we train MONOMER on programmatically generated data having many visually similar query snippets and target document pairs from two datasets - Flamingo Forms and PubLayNet. We also do a human study to validate the generated data.
翻訳日:2022-09-15 13:31:17 公開日:2022-09-12
# 通信コストを考慮した分散オンラインパラメータ推定のための有限サンプル保証

Finite Sample Guarantees for Distributed Online Parameter Estimation with Communication Costs ( http://arxiv.org/abs/2209.06678v1 )

ライセンス: Link先を確認
Lei Xin, George Chiu, Shreyas Sundaram(参考訳) 本研究では,未知のパラメータを分散・オンライン方式で推定する問題について検討する。 分散オンライン学習に関する既存の研究は通常、漸近分析に焦点を当てるか、後悔の限界を提供する。 しかし、これらの結果は有限個の時間ステップの後に学習モデルの誤差の境界に直接翻訳することはできない。 本稿では,ネットワーク内の各エージェントが隣人と通信することで,その推定精度を向上させる分散オンライン推定アルゴリズムを提案する。 推定誤差の非漸近境界を提供し,基礎モデルの統計的性質を活用した。 本分析は,推定誤差と通信コストのトレードオフを示す。 さらに,本分析により,所望の推定精度を満たしつつ,通信の停止時間(通信に伴うコストのため)を決定することができる。 結果を検証する数値的な例も提供します。

We study the problem of estimating an unknown parameter in a distributed and online manner. Existing work on distributed online learning typically either focuses on asymptotic analysis, or provides bounds on regret. However, these results may not directly translate into bounds on the error of the learned model after a finite number of time-steps. In this paper, we propose a distributed online estimation algorithm which enables each agent in a network to improve its estimation accuracy by communicating with neighbors. We provide non-asymptotic bounds on the estimation error, leveraging the statistical properties of the underlying model. Our analysis demonstrates a trade-off between estimation error and communication costs. Further, our analysis allows us to determine a time at which the communication can be stopped (due to the costs associated with communications), while meeting a desired estimation accuracy. We also provide a numerical example to validate our results.
翻訳日:2022-09-15 13:08:27 公開日:2022-09-12
# マルチモーダル深層学習による手術作業時の認知負荷の同定

Identification of Cognitive Workload during Surgical Tasks with Multimodal Deep Learning ( http://arxiv.org/abs/2209.06208v1 )

ライセンス: Link先を確認
Kaizhe Jin, Adrian Rubio-Solis, Ravik Nain, Tochukwu Onyeogulu, Amirul Islam, Salman Khan, Tochukwu Onyeogulu, Amirul Islam, Salman Khan, Izzeddin Teeti, Fabio Cuzzolin and George Mylonas(参考訳) 操作室(OR)では、活動は他の典型的な作業環境とは異なる。 特に外科医は、健康やパフォーマンスに悪影響を及ぼす複数の精神組織的制約にさらされることが多い。 これは一般的に、予期せぬ、反復的なタスク、大量の情報、潜在的に危険を伴う認知的過負荷に対処する結果として生じる、関連する認知的ワークロード(CWL)の増加によるものである。 本稿では,4つの異なる手術課題におけるcwlのマルチモーダル認識のために,2つの機械学習手法のカスケードを提案する。 まず、移植学習の概念に基づくモデルを用いて、外科医がCWLを経験しているかどうかを特定する。 次に、畳み込みニューラルネットワーク(CNN)は、この情報を用いて、各手術タスクに関連するさまざまなタイプのCWLを識別する。 提案するマルチモーダルアプローチは、脳波(EEG)、機能近赤外分光(fNIRS)、瞳孔径からの隣接信号を考慮する。 信号の結合は時間(時間的)とチャネルの位置(空間的)で複雑な相関を可能にする。 データ収集は、HARMS Labで開発されたMulti-Sensing AI Environment for surgery Task $\&$ Role Optimisation platform (MAESTRO)によって実行される。 提案手法の性能を比較するため,多くの最先端の機械学習技術が実装されている。 実験の結果,提案モデルの精度は93%であった。

In operating Rooms (ORs), activities are usually different from other typical working environments. In particular, surgeons are frequently exposed to multiple psycho-organizational constraints that may cause negative repercussions on their health and performance. This is commonly attributed to an increase in the associated Cognitive Workload (CWL) that results from dealing with unexpected and repetitive tasks, as well as large amounts of information and potentially risky cognitive overload. In this paper, a cascade of two machine learning approaches is suggested for the multimodal recognition of CWL in a number of four different surgical tasks. First, a model based on the concept of transfer learning is used to identify if a surgeon is experiencing any CWL. Secondly, a Convolutional Neural Network (CNN) uses this information to identify different types of CWL associated to each surgical task. The suggested multimodal approach consider adjacent signals from electroencephalogram (EEG), functional near-infrared spectroscopy (fNIRS) and pupil eye diameter. The concatenation of signals allows complex correlations in terms of time (temporal) and channel location (spatial). Data collection is performed by a Multi-sensing AI Environment for Surgical Task $\&$ Role Optimisation platform (MAESTRO) developed at HARMS Lab. To compare the performance of the proposed methodology, a number of state-of-art machine learning techniques have been implemented. The tests show that the proposed model has a precision of 93%.
翻訳日:2022-09-15 13:02:10 公開日:2022-09-12
# フェアネスではない、フェアではない:完全情報採用ゲームにおける分布平等の失敗と関係平等の約束

It's Not Fairness, and It's Not Fair: The Failure of Distributional Equality and the Promise of Relational Equality in Complete-Information Hiring Games ( http://arxiv.org/abs/2209.05602v1 )

ライセンス: Link先を確認
Benjamin Fish and Luke Stark(参考訳) 公正性の計算的定義を定式化するための既存の取り組みは、システム内の個人に与えられる資源や決定によって平等が定義される、平等の分布的概念に主に焦点を当てている。 しかし、既存の差別と不正は、資源の不平等な分配ではなく、しばしば不平等な社会関係の結果である。 本稿では、公平性と平等の既存の計算および経済的な定義に対する最適化が、不平等な社会関係をいかに防げないかを示す。 これを実現するために、リレーショナルに不平等であるが、フェアネスの既存の分布概念を満たす単純な雇用市場における自己確認均衡の例を示す。 そこで本論文では,完全情報ゲームにおけるブラタントな関係不公平性の概念を導入し,この定義が,関係等式を計算システムに組み込むための新たなアプローチの創出にどのように役立つのかを論じる。

Existing efforts to formulate computational definitions of fairness have largely focused on distributional notions of equality, where equality is defined by the resources or decisions given to individuals in the system. Yet existing discrimination and injustice is often the result of unequal social relations, rather than an unequal distribution of resources. Here, we show how optimizing for existing computational and economic definitions of fairness and equality fail to prevent unequal social relations. To do this, we provide an example of a self-confirming equilibrium in a simple hiring market that is relationally unequal but satisfies existing distributional notions of fairness. In doing so, we introduce a notion of blatant relational unfairness for complete-information games, and discuss how this definition helps initiate a new approach to incorporating relational equality into computational systems.
翻訳日:2022-09-14 13:29:37 公開日:2022-09-12
# SENDER:ヒト脳におけるカノニカル,メタ,サブ機能結合性抽出のためのセミ非線形ディープコンストラクタ

SENDER: SEmi-Nonlinear Deep Efficient Reconstructor for Extraction Canonical, Meta, and Sub Functional Connectivity in the Human Brain ( http://arxiv.org/abs/2209.05627v1 )

ライセンス: Link先を確認
Wei Zhang, Yu Bao(参考訳) 深層線形および非線形学習法はすでに、機能的磁気共鳴信号を介して人間の脳内の機能的接続などの階層的特徴を研究するための重要な機械学習手法となっているが、大きな欠点は3つある。 深い線形学習法では,関数接続の階層構造は容易に説明できるが,より階層的な機能接続性を明らかにすることは困難である。 深い非線形学習法では、非完全接続型アーキテクチャは最適化が容易で過剰フィッティングの影響を受けないニューラルネットワーク構造の複雑さを減少させるが、機能的接続階層の説明は困難である。 重要なことに、浅い層でも深い線形/非線形の方法では、メタおよびサブファンクショナルな接続を検出するのは難しい; 4)。 ディープニューラルネットワークのような従来のディープ非線形手法と同様に、ハイパーパラメータは手動で調整する必要がある。 そこで本研究では,上記の欠点を克服するために,半非線形深部効率的再構成法(sender)という新しい深層ハイブリッド学習法を提案する。 送信者は、線形学習法で正準関数接続を検出するために、多層積層構造を用いる。 senderは、浅い層と深い層を通してのメタ機能接続を明らかにするために、非線形学習法のために実行される非完全接続アーキテクチャを実装している。 SENDERは提案したバックグラウンドコンポーネントを組み込んでサブファンクショナル接続を抽出する(4)。 SENDERは、ハイパーパラメータチューニングを自動的に実装するために、新しいランク低減演算子を採用する。 この効果をさらに検証するために,ヒト脳のmriデータを用いて送信機と4つのピア方法論を比較した。

Deep Linear and Nonlinear learning methods have already been vital machine learning methods for investigating the hierarchical features such as functional connectivity in the human brain via functional Magnetic Resonance signals; however, there are three major shortcomings: 1). For deep linear learning methods, although the identified hierarchy of functional connectivity is easily explainable, it is challenging to reveal more hierarchical functional connectivity; 2). For deep nonlinear learning methods, although non-fully connected architecture reduces the complexity of neural network structures that are easy to optimize and not vulnerable to overfitting, the functional connectivity hierarchy is difficult to explain; 3). Importantly, it is challenging for Deep Linear/Nonlinear methods to detect meta and sub-functional connectivity even in the shallow layers; 4). Like most conventional Deep Nonlinear Methods, such as Deep Neural Networks, the hyperparameters must be tuned manually, which is time-consuming. Thus, in this work, we propose a novel deep hybrid learning method named SEmi-Nonlinear Deep Efficient Reconstruction (SENDER), to overcome the aforementioned shortcomings: 1). SENDER utilizes a multiple-layer stacked structure for the linear learning methods to detect the canonical functional connectivity; 2). SENDER implements a non-fully connected architecture conducted for the nonlinear learning methods to reveal the meta-functional connectivity through shallow and deeper layers; 3). SENDER incorporates the proposed background components to extract the sub-functional connectivity; 4). SENDER adopts a novel rank reduction operator to implement the hyperparameters tuning automatically. To further validate the effectiveness, we compared SENDER with four peer methodologies using real functional Magnetic Resonance Imaging data for the human brain.
翻訳日:2022-09-14 13:29:18 公開日:2022-09-12
# SHMのトポロジ的データ解析 : 永続ホモロジー入門

On topological data analysis for SHM; an introduction to persistent homology ( http://arxiv.org/abs/2209.06155v1 )

ライセンス: Link先を確認
Tristan Gowdridge, Nikolaos Devilis, Keith Worden(参考訳) 本稿では,トポロジカルデータ解析と呼ばれる手法を用いて,データの「形状」を定量化する手法について議論する。 トポロジカルデータ解析における主要なツールは永続的ホモロジーであり、これは、値の範囲で計算された単純複素体のホモロジーから、データの形状を測定する手段である。 ここでは, 構造的健康モニタリングに特有な応用として, 必要な背景理論と持続的ホモロジーの計算法について述べる。 これらの結果は、位相的推論と高次元データの特徴を推測する能力を可能にする。 所定の距離パラメータのデータに対して単純な複合体を構築する。 この複合体は、データポイントの局所的近接に関する情報を符号化する。 この単体複体から特異ホモロジー値を計算することができる。 この考えを拡張して、距離パラメータは値の範囲に対して与えられ、ホモロジーはこの範囲で計算される。 永続ホモロジー(persistent homology)は、データのホモロジー的特徴がこの区間でどのように持続するかの表現である。 結果はデータに特有のものです。 異なるデータセットに対する永続的ホモロジーの比較を可能にする方法についても述べる。

This paper aims to discuss a method of quantifying the 'shape' of data, via a methodology called topological data analysis. The main tool within topological data analysis is persistent homology; this is a means of measuring the shape of data, from the homology of a simplicial complex, calculated over a range of values. The required background theory and a method of computing persistent homology is presented here, with applications specific to structural health monitoring. These results allow for topological inference and the ability to deduce features in higher-dimensional data, that might otherwise be overlooked. A simplicial complex is constructed for data for a given distance parameter. This complex encodes information about the local proximity of data points. A singular homology value can be calculated from this simplicial complex. Extending this idea, the distance parameter is given for a range of values, and the homology is calculated over this range. The persistent homology is a representation of how the homological features of the data persist over this interval. The result is characteristic to the data. A method that allows for the comparison of the persistent homology for different data sets is also discussed.
翻訳日:2022-09-14 13:27:35 公開日:2022-09-12
# データから新規で堅牢なサンプルを生成する:プライバシーの懸念なしにアクセス可能な共有

Generate novel and robust samples from data: accessible sharing without privacy concerns ( http://arxiv.org/abs/2209.06113v1 )

ライセンス: Link先を確認
David Banh, Alan Huang(参考訳) データセットから新しいサンプルを生成することで、余分な高価な操作が軽減され、侵入手順が増加し、プライバシーの問題が軽減される。 統計的にロバストなこれらの新しいサンプルは、プライバシが懸念されている場合、一時的および中間的な代替として使用できる。 この方法は、敵の攻撃の欠陥である識別問題やバイアスに関する問題なく、より良いデータ共有プラクティスを可能にする。

Generating new samples from data sets can mitigate extra expensive operations, increased invasive procedures, and mitigate privacy issues. These novel samples that are statistically robust can be used as a temporary and intermediate replacement when privacy is a concern. This method can enable better data sharing practices without problems relating to identification issues or biases that are flaws for an adversarial attack.
翻訳日:2022-09-14 13:21:52 公開日:2022-09-12
# ランダムプロセスデータに基づく最大異種領域の探索

Uncovering Regions of Maximum Dissimilarity on Random Process Data ( http://arxiv.org/abs/2209.05569v1 )

ライセンス: Link先を確認
Miguel de Carvalho and Gabriel Martos Venturini(参考訳) 2つのランダムな過程の局所的な特性の比較は、その過程が最も異なる時間や空間に光を当てることができる。 本稿では,二つのプロセスの限界特性があまり似ていない領域について,あるボリュームの領域について学習する手法を提案する。 提案手法は,興味のあるデータ自体が確率的プロセスであるような設定を完全汎用的に考案し,関数データ,時系列,点過程の文脈において,ある体積との最大相似性の領域を指摘できる。 両確率過程の基礎となるパラメータ関数は基底表現によってモデル化され、ベイズ推論は統合入れ子ラプラス近似によって行われる。 本研究は,提案手法を検証し,その適用例を犯罪学,金融学,医学のケーススタディで紹介する。

The comparison of local characteristics of two random processes can shed light on periods of time or space at which the processes differ the most. This paper proposes a method that learns about regions with a certain volume, where the marginal attributes of two processes are less similar. The proposed methods are devised in full generality for the setting where the data of interest are themselves stochastic processes, and thus the proposed method can be used for pointing out the regions of maximum dissimilarity with a certain volume, in the contexts of functional data, time series, and point processes. The parameter functions underlying both stochastic processes of interest are modeled via a basis representation, and Bayesian inference is conducted via an integrated nested Laplace approximation. The numerical studies validate the proposed methods, and we showcase their application with case studies on criminology, finance, and medicine.
翻訳日:2022-09-14 13:16:37 公開日:2022-09-12
# customics: マルチオミクス統合のための多彩なディープラーニングベースの戦略

CustOmics: A versatile deep-learning based strategy for multi-omics integration ( http://arxiv.org/abs/2209.05485v1 )

ライセンス: Link先を確認
Hakim Benkirane, Yoann Pradat, Stefan Michiels, Paul-Henry Courn\`ede(参考訳) 近年の高スループットシーケンシング技術の進歩により、患者サンプルを多様かつ相補的な分子レベルで表現する複数の特徴の抽出が可能になった。 このようなデータの生成は、複数の遺伝子とその機能間の相互関係を捉える高次元および異種データセットの統合に関する計算生物学における新たな課題につながった。 複雑なデータの合成潜在表現を学習する汎用性と能力のおかげで、ディープラーニング手法はマルチオミクスデータを統合する上で有望な視点を提供する。 これらの手法は、主にオートエンコーダモデルに基づく多くのオリジナルのアーキテクチャの概念を導いた。 しかし,課題の難しさから,グローバルなトレンドを損なうことなく,情報源の特質を最大限に活用する統合戦略が不可欠である。 本稿では,高次元マルチソース統合の場合のデータセットに適応する,カスタマイズ可能なオートエンコーダモデルを構築するための新しい戦略を提案する。 我々は,統合戦略が潜在表現に与える影響を評価し,新しい手法であるCustOmics(https://github.com/HakimBenkirane/CustOmics)を提案する最善の戦略を組み合わせる。 本稿では,複数のオミクスソースからのデータの統合に焦点をあて,分類や生存分析など,いくつかのタスクのテストケースにおける提案手法の性能を実証する。

Recent advances in high-throughput sequencing technologies have enabled the extraction of multiple features that depict patient samples at diverse and complementary molecular levels. The generation of such data has led to new challenges in computational biology regarding the integration of high-dimensional and heterogeneous datasets that capture the interrelationships between multiple genes and their functions. Thanks to their versatility and ability to learn synthetic latent representations of complex data, deep learning methods offer promising perspectives for integrating multi-omics data. These methods have led to the conception of many original architectures that are primarily based on autoencoder models. However, due to the difficulty of the task, the integration strategy is fundamental to take full advantage of the sources' particularities without losing the global trends. This paper presents a novel strategy to build a customizable autoencoder model that adapts to the dataset used in the case of high-dimensional multi-source integration. We will assess the impact of integration strategies on the latent representation and combine the best strategies to propose a new method, CustOmics (https://github.com/HakimBenkirane/CustOmics). We focus here on the integration of data from multiple omics sources and demonstrate the performance of the proposed method on test cases for several tasks such as classification and survival analysis.
翻訳日:2022-09-14 13:16:22 公開日:2022-09-12
# 分子のためのグラフニューラルネットワーク

Graph Neural Networks for Molecules ( http://arxiv.org/abs/2209.05582v1 )

ライセンス: Link先を確認
Yuyang Wang, Zijie Li, Amir Barati Farimani(参考訳) グラフィカルデータから表現を学習できるグラフニューラルネットワーク(GNN)は、自然に分子システムをモデル化するのに適している。 本稿では、GNNとその様々な有機分子への応用について紹介する。 GNNは、ノード機能を反復的に更新するために、汎用的で強力なフレームワークであるメッセージパッシング操作に依存している。 多くの研究がGNNアーキテクチャを設計し、2次元分子グラフの位相情報と3次元分子系の幾何学情報を効果的に学習している。 gnnは、分子特性予測、分子スコアリングとドッキング、分子最適化とデノボ生成、分子動力学シミュレーションなど、様々な分子応用に実装されている。 さらに、GNNを用いた分子の自己教師型学習の最近の発展についても概説する。

Graph neural networks (GNNs), which are capable of learning representations from graphical data, are naturally suitable for modeling molecular systems. This review introduces GNNs and their various applications for small organic molecules. GNNs rely on message-passing operations, a generic yet powerful framework, to update node features iteratively. Many researches design GNN architectures to effectively learn topological information of 2D molecule graphs as well as geometric information of 3D molecular systems. GNNs have been implemented in a wide variety of molecular applications, including molecular property prediction, molecular scoring and docking, molecular optimization and de novo generation, molecular dynamics simulation, etc. Besides, the review also summarizes the recent development of self-supervised learning for molecules with GNNs.
翻訳日:2022-09-14 13:15:59 公開日:2022-09-12
# 車内・道路データを用いた運転安全予測と安全経路マッピング

Driving Safety Prediction and Safe Route Mapping Using In-vehicle and Roadside Data ( http://arxiv.org/abs/2209.05604v1 )

ライセンス: Link先を確認
Yufei Huang, Mohsen Jafari, and Peter Jin(参考訳) 道路のリスクアセスメントは、過去の事故データに基づいて一般的に行われている。 ドライバーの行動やリアルタイム交通状況に関する情報が欠落することもある。 本稿では,道路の動的リスクヒートマップを作成するための手法であるsafe route mapping(srm)モデルを拡張し,予測を行う際の運転者の行動を考察する。 Androidアプリはドライバーの情報を収集してサーバにアップロードするように設計されている。 サーバ上では、顔認識がドライバーのデータ、例えば顔のランドマーク、視線方向、感情を抽出する。 運転者の眠気や気遣いを検出し、運転性能を評価する。 一方、ダイナミックなトラフィック情報は、ロードサイドカメラによってキャプチャされ、同じサーバにアップロードされる。 ビデオから車両を認識して速度と軌道プロファイルを構築するために,縦走査型動脈交通ビデオ解析を適用した。 これらのデータに基づいて、ライトgbmモデルを導入し、次の1、2秒でドライバーの競合指標を予測する。 次に、ファジィ論理モデルを用いて、過去のクラッシュ数や予測トラフィック競合指標を含む複数のデータソースを組み合わせて、道路セグメントのリスクスコアを算出する。 提案するsrmモデルは,実交通交差点と運転シミュレーションプラットフォームから収集したデータを用いて示す。 予測結果から,モデル精度が向上し,ドライバ動作機能の追加により,モデルの性能が向上することが示唆された。 最後に、可視化のためにリスクヒートマップが生成される。 当局は、ダイナミックヒートマップを使用して安全な回廊を指定でき、早期警戒と旅行計画のために法執行機関とドライバーを派遣することができる。

Risk assessment of roadways is commonly practiced based on historical crash data. Information on driver behaviors and real-time traffic situations is sometimes missing. In this paper, the Safe Route Mapping (SRM) model, a methodology for developing dynamic risk heat maps of roadways, is extended to consider driver behaviors when making predictions. An Android App is designed to gather drivers' information and upload it to a server. On the server, facial recognition extracts drivers' data, such as facial landmarks, gaze directions, and emotions. The driver's drowsiness and distraction are detected, and driving performance is evaluated. Meanwhile, dynamic traffic information is captured by a roadside camera and uploaded to the same server. A longitudinal-scanline-based arterial traffic video analytics is applied to recognize vehicles from the video to build speed and trajectory profiles. Based on these data, a LightGBM model is introduced to predict conflict indices for drivers in the next one or two seconds. Then, multiple data sources, including historical crash counts and predicted traffic conflict indicators, are combined using a Fuzzy logic model to calculate risk scores for road segments. The proposed SRM model is illustrated using data collected from an actual traffic intersection and a driving simulation platform. The prediction results show that the model is accurate, and the added driver behavior features will improve the model's performance. Finally, risk heat maps are generated for visualization purposes. The authorities can use the dynamic heat map to designate safe corridors and dispatch law enforcement and drivers for early warning and trip planning.
翻訳日:2022-09-14 13:15:47 公開日:2022-09-12
# instacartにおける組込み型食料品検索モデル

An Embedding-Based Grocery Search Model at Instacart ( http://arxiv.org/abs/2209.05555v1 )

ライセンス: Link先を確認
Yuqing Xie and Taesik Na and Xiao Xiao and Saurav Manchanda and Young Rao and Zhihong Xu and Guanghua Shu and Esther Vasiete and Tejaswi Tenneti and Haixun Wang(参考訳) eコマース検索の鍵は、大きくて騒がしいログデータをどのように活用するかだ。 本稿では,Instacartにおける食料品探索のための埋め込み型モデルを提案する。 システムは、2towerのトランスフォーマーベースのエンコーダアーキテクチャでクエリと製品表現を学習する。 コールドスタート問題に対処するために、コンテンツベースの機能に注目します。 ノイズの多いデータに基づいてモデルを効率的に訓練するために,自己学習法とカスケード学習法を提案する。 Acc オフラインの人間評価データセット上では RECALL@20 の相対的な改善を10% 達成し,オンライン A/B テストでは,検索毎のカート加算率 (CAPS) が4.1%,粗雑商品価値 (GMV) が1.5% 向上した。 本稿では,組込み型検索モデルの学習と展開方法を説明し,本手法の有効性に関する詳細な分析を行う。

The key to e-commerce search is how to best utilize the large yet noisy log data. In this paper, we present our embedding-based model for grocery search at Instacart. The system learns query and product representations with a two-tower transformer-based encoder architecture. To tackle the cold-start problem, we focus on content-based features. To train the model efficiently on noisy data, we propose a self-adversarial learning method and a cascade training method. AccOn an offline human evaluation dataset, we achieve 10% relative improvement in RECALL@20, and for online A/B testing, we achieve 4.1% cart-adds per search (CAPS) and 1.5% gross merchandise value (GMV) improvement. We describe how we train and deploy the embedding based search model and give a detailed analysis of the effectiveness of our method.
翻訳日:2022-09-14 13:05:53 公開日:2022-09-12
# ピアノ指先予測における出力変動改善のためのチェックリストモデル

Checklist Models for Improved Output Fluency in Piano Fingering Prediction ( http://arxiv.org/abs/2209.05622v1 )

ライセンス: Link先を確認
Nikita Srivatsan and Taylor Berg-Kirkpatrick(参考訳) 本研究は,ピアノ音楽の指先予測のための新しい手法を提案する。 従来のニューラルアプローチでは、これを独立予測を用いたシーケンスタギング問題として扱うことが多いが、強化学習によってトレーニングされたチェックリストシステムは、隠された状態に加えて最近の予測の表現を維持し、出力構造に対するソフトな制約を学習することができる。 また,キーボードの相対位置を先行音符にエンコードするために,神経モデルを用いた入力表現(前処理ではピアノの個々のキーに対して1ホットエンコードの形をとることが多い)を変更することで,より優れた性能を実現することができることを示す。 また,評価指標としてノート単位のラベリング精度を再評価し,モデルの出力の流動性,すなわち人間の遊びやすさを適切に測定していないことを指摘した。 そこで本研究では,隣り合う指の予測頻度を追跡する複数の統計値の比較を行い,個別に合理的な予測を行うのが物理的に困難であることを示すとともに,学習の損失を最小化するための強化学習戦略を実装した。 最後に、人間の専門家による評価を通じて、これらの指標に対する改善に直接寄与する性能の顕著な向上を示す。

In this work we present a new approach for the task of predicting fingerings for piano music. While prior neural approaches have often treated this as a sequence tagging problem with independent predictions, we put forward a checklist system, trained via reinforcement learning, that maintains a representation of recent predictions in addition to a hidden state, allowing it to learn soft constraints on output structure. We also demonstrate that by modifying input representations -- which in prior work using neural models have often taken the form of one-hot encodings over individual keys on the piano -- to encode relative position on the keyboard to the prior note instead, we can achieve much better performance. Additionally, we reassess the use of raw per-note labeling precision as an evaluation metric, noting that it does not adequately measure the fluency, i.e. human playability, of a model's output. To this end, we compare methods across several statistics which track the frequency of adjacent finger predictions that while independently reasonable would be physically challenging to perform in sequence, and implement a reinforcement learning strategy to minimize these as part of our training loss. Finally through human expert evaluation, we demonstrate significant gains in performability directly attributable to improvements with respect to these metrics.
翻訳日:2022-09-14 13:04:29 公開日:2022-09-12
# 不確実性下の探索のためのリスクアウェアなメタレベル意思決定

Risk-aware Meta-level Decision Making for Exploration Under Uncertainty ( http://arxiv.org/abs/2209.05580v1 )

ライセンス: Link先を確認
Joshua Ott, Sung-Kyun Kim, Amanda Bouman, Oriana Peltzer, Mamoru Sobue, Harrison Delecki, Mykel J. Kochenderfer, Joel Burdick, Ali-akbar Agha-mohammadi(参考訳) 未知環境のロボットによる探索は、センサ測定、局所化、行動実行、その他多くの要因において不確実性を考慮しなければならない不確実性の下で決定する問題である。 大規模探査アプリケーションの場合、自律システムは、障害や危険地形に関連するリスクを安全に評価しながら、環境のどの領域が探検に値するかを順次決定する課題を克服しなければならない。 本研究では,地域・グローバル探索に伴うトレードオフのバランスをとるためのリスク対応型メタレベル意思決定フレームワークを提案する。 メタレベルの意思決定は、局所的な政策とグローバルな政策を切り替えることによって古典的な階層的なカバレッジプランナーの上に構築される。 我々は, 環境史, トラバーサビリティリスク, キノダイナミック制約に関する情報を用いて, 地域政策とグローバル政策の切り替えに成功している政策実行の可能性を推論する。 シミュレーションと大規模な実世界のハードウェアテストの両方で、私たちのソリューションを検証しました。 その結果,局所探査とグローバル探査のバランスをとることで,大規模環境をより効率的に探索できることがわかった。

Robotic exploration of unknown environments is fundamentally a problem of decision making under uncertainty where the robot must account for uncertainty in sensor measurements, localization, action execution, as well as many other factors. For large-scale exploration applications, autonomous systems must overcome the challenges of sequentially deciding which areas of the environment are valuable to explore while safely evaluating the risks associated with obstacles and hazardous terrain. In this work, we propose a risk-aware meta-level decision making framework to balance the tradeoffs associated with local and global exploration. Meta-level decision making builds upon classical hierarchical coverage planners by switching between local and global policies with the overall objective of selecting the policy that is most likely to maximize reward in a stochastic environment. We use information about the environment history, traversability risk, and kinodynamic constraints to reason about the probability of successful policy execution to switch between local and global policies. We have validated our solution in both simulation and on a variety of large-scale real world hardware tests. Our results show that by balancing local and global exploration we are able to significantly explore large-scale environments more efficiently.
翻訳日:2022-09-14 13:03:14 公開日:2022-09-12
# CU-Net: 効率的なポイントクラウドカラーアップサンプリングネットワーク

CU-Net: Efficient Point Cloud Color Upsampling Network ( http://arxiv.org/abs/2209.06112v1 )

ライセンス: Link先を確認
Lingdong Wang, Mohammad Hajiesmaili, Jacob Chakareski, Ramesh K. Sitaraman(参考訳) Augmented Reality、Virtual Reality、テレプレゼンスシナリオにはポイントクラウドのアップサンプリングが必要である。 幾何アップサンプリングは点雲座標を密度化するためによく研究されているが、色アップサンプリングはほとんど見過ごされている。 本稿では,最初の深層学習点雲色アップサンプリングモデルであるCU-Netを提案する。 スパース畳み込みに基づく特徴抽出器とニューラル暗黙関数に基づく色予測モジュールを利用することで、CU-Netは線形時間と空間の複雑さを実現する。 したがって、CU-Netは理論上、2次複雑さを持つ既存の方法よりも効率的であることが保証されている。 実験の結果、CU-Netは、ベースラインよりも視覚的品質が良く、リアルタイムに100万点近い写実点雲をカラー化できることがわかった。 さらにCU-Netは任意のアップサンプリング比と見えないオブジェクトに適応できる。 ソースコードはまもなく公開される予定だ。

Point cloud upsampling is necessary for Augmented Reality, Virtual Reality, and telepresence scenarios. Although the geometry upsampling is well studied to densify point cloud coordinates, the upsampling of colors has been largely overlooked. In this paper, we propose CU-Net, the first deep-learning point cloud color upsampling model. Leveraging a feature extractor based on sparse convolution and a color prediction module based on neural implicit function, CU-Net achieves linear time and space complexity. Therefore, CU-Net is theoretically guaranteed to be more efficient than most existing methods with quadratic complexity. Experimental results demonstrate that CU-Net can colorize a photo-realistic point cloud with nearly a million points in real time, while having better visual quality than baselines. Besides, CU-Net can adapt to an arbitrary upsampling ratio and unseen objects. Our source code will be released to the public soon.
翻訳日:2022-09-14 12:57:02 公開日:2022-09-12
# RGBビデオからの人工的な3次元オブジェクトインタラクション:アプローチと課題の実証分析

Articulated 3D Human-Object Interactions from RGB Videos: An Empirical Analysis of Approaches and Challenges ( http://arxiv.org/abs/2209.05612v1 )

ライセンス: Link先を確認
Sanjay Haresh, Xiaohao Sun, Hanxiao Jiang, Angel X. Chang, Manolis Savva(参考訳) 人間と物体の相互作用は日常的に一般的である。 シングルビュー3D再構成の進歩にもかかわらず、オブジェクトを操作する人を示すRGBビデオから、明瞭な3Dオブジェクトモデルを推測することは依然として困難である。 本研究では,rgbビデオによる3次元物体間相互作用の再構築の課題を標準化し,3次元平面推定,3次元立方体推定,cadモデルフィッティング,暗黙的フィールドフィッティング,フリーフォームメッシュフィッティングの5種類の手法の体系的ベンチマークを行った。 実験の結果,観測対象に関する真理情報を提供しても,全ての手法が精度の高い結果を得るのに苦慮していることがわかった。 我々は,課題を困難なものにする重要な要因を特定し,この課題である3Dコンピュータビジョンタスクの今後の課題を提案する。 https://www.youtube.com/watch? v=5tAlKBojZwc

Human-object interactions with articulated objects are common in everyday life. Despite much progress in single-view 3D reconstruction, it is still challenging to infer an articulated 3D object model from an RGB video showing a person manipulating the object. We canonicalize the task of articulated 3D human-object interaction reconstruction from RGB video, and carry out a systematic benchmark of five families of methods for this task: 3D plane estimation, 3D cuboid estimation, CAD model fitting, implicit field fitting, and free-form mesh fitting. Our experiments show that all methods struggle to obtain high accuracy results even when provided ground truth information about the observed objects. We identify key factors which make the task challenging and suggest directions for future work on this challenging 3D computer vision task. Short video summary at https://www.youtube.com/watch?v=5tAlKBojZwc
翻訳日:2022-09-14 12:53:55 公開日:2022-09-12
# 神経特徴の粗視によるロバストカテゴリレベル6次元ポーズ推定

Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering of Neural Features ( http://arxiv.org/abs/2209.05624v1 )

ライセンス: Link先を確認
Wufei Ma, Angtian Wang, Alan Yuille, Adam Kortylewski(参考訳) 1枚のRGB画像からカテゴリレベルの6Dポーズ推定の問題を考える。 提案手法は,対象カテゴリーを立方体メッシュとして表現し,各メッシュ頂点におけるニューラル特徴アクティベーションの生成モデルを学習し,異なるレンダリングによるポーズ推定を行う。 レンダリングベースのアプローチの一般的な問題は、オブジェクトの3次元回転に関する情報を伝達せず、オブジェクトが部分的に隠されているときに信頼できないバウンディングボックスの提案に依存することである。 その代わりに、レンダリングプロセスを利用して6次元オブジェクトのスパースセットを推定する粗大な最適化戦略を導入し、その後、勾配に基づく最適化で洗練する。 このアプローチの収束を可能にする鍵は、対比学習を用いてスケールおよび回転不変に訓練された神経特徴表現である。 実験では,特に強い部分閉塞下での先行作業と比較して,カテゴリレベルの6次元ポーズ推定性能が向上することを示した。

We consider the problem of category-level 6D pose estimation from a single RGB image. Our approach represents an object category as a cuboid mesh and learns a generative model of the neural feature activations at each mesh vertex to perform pose estimation through differentiable rendering. A common problem of rendering-based approaches is that they rely on bounding box proposals, which do not convey information about the 3D rotation of the object and are not reliable when objects are partially occluded. Instead, we introduce a coarse-to-fine optimization strategy that utilizes the rendering process to estimate a sparse set of 6D object proposals, which are subsequently refined with gradient-based optimization. The key to enabling the convergence of our approach is a neural feature representation that is trained to be scale- and rotation-invariant using contrastive learning. Our experiments demonstrate an enhanced category-level 6D pose estimation performance compared to prior work, particularly under strong partial occlusion.
翻訳日:2022-09-14 12:53:40 公開日:2022-09-12
# centerformer: 3次元物体検出のためのセンタベーストランスフォーマ

CenterFormer: Center-based Transformer for 3D Object Detection ( http://arxiv.org/abs/2209.05588v1 )

ライセンス: Link先を確認
Zixiang Zhou, Xiangchen Zhao, Yu Wang, Panqu Wang, Hassan Foroosh(参考訳) 問合せベースのトランスフォーマーは、多くのイメージドメインタスクにおいて長距離の注目を構築する大きな可能性を示しているが、ポイントクラウドデータの圧倒的なサイズのため、LiDARベースの3Dオブジェクト検出では、ほとんど考慮されていない。 本稿では,3次元物体検出のための中心型トランスネットワークであるCenterFormerを提案する。 CenterFormerはまずセンターヒートマップを使用して、標準のvoxelベースのポイントクラウドエンコーダ上にセンター候補を選択する。 その後、トランスフォーマー内のクエリ埋め込みとして、センター候補の機能を使用する。 複数のフレームから機能をさらに集約するために,クロスアテンションを通じて特徴を融合するアプローチを設計する。 最後に、出力センター特徴表現のバウンディングボックスを予測するために回帰ヘッドが追加される。 我々の設計は変換器構造の収束困難と計算複雑性を低減する。 その結果,アンカーフリーオブジェクト検出ネットワークのベースラインが大幅に向上した。 CenterFormerは、Waymo Open Dataset上の単一モデルの最先端のパフォーマンスを達成し、検証セット上で73.7% mAPH、テストセット上で75.6% mAPHを達成し、以前に公開されたCNNやトランスフォーマーベースのメソッドよりも大幅に向上した。 私たちのコードはhttps://github.com/TuSimple/centerformerで公開されています。

Query-based transformer has shown great potential in constructing long-range attention in many image-domain tasks, but has rarely been considered in LiDAR-based 3D object detection due to the overwhelming size of the point cloud data. In this paper, we propose CenterFormer, a center-based transformer network for 3D object detection. CenterFormer first uses a center heatmap to select center candidates on top of a standard voxel-based point cloud encoder. It then uses the feature of the center candidate as the query embedding in the transformer. To further aggregate features from multiple frames, we design an approach to fuse features through cross-attention. Lastly, regression heads are added to predict the bounding box on the output center feature representation. Our design reduces the convergence difficulty and computational complexity of the transformer structure. The results show significant improvements over the strong baseline of anchor-free object detection networks. CenterFormer achieves state-of-the-art performance for a single model on the Waymo Open Dataset, with 73.7% mAPH on the validation set and 75.6% mAPH on the test set, significantly outperforming all previously published CNN and transformer-based methods. Our code is publicly available at https://github.com/TuSimple/centerformer
翻訳日:2022-09-14 12:44:59 公開日:2022-09-12
# Sparse-View Computed Tomography のための自己監督型座標投影ネットワーク

Self-Supervised Coordinate Projection Network for Sparse-View Computed Tomography ( http://arxiv.org/abs/2209.05483v1 )

ライセンス: Link先を確認
Qing Wu, Ruimin Feng, Hongjiang Wei, Jingyi Yu, and Yuyao Zhang(参考訳) 本研究では,逆トモグラフィ問題を解くことにより,単一のsvシンノグラムからアーチファクトフリーct画像を再構成する自己教師付き座標投影ネットワーク(scope)を提案する。 暗黙的ニューラル表現ネットワーク(INR)を用いて類似の問題を解決する最近の研究と比較すると,我々の重要な貢献はトモグラフィ画像再構成の質を教師付きディープラーニングCT再構成作業よりも向上させる,効果的でシンプルな再投影戦略である。 提案手法は線形代数と逆問題の間の単純な関係に着想を得ている。 非決定線形方程式系を解くために,まず,画像連続性によって解空間を制約し,粗い解を得るinrを導入する。 次に,線形方程式系の階調を向上し,より安定したCT画像解空間を創出する高密度なビュー・シングラムを提案する。 実験の結果,再投影戦略が画像再構成品質(psnr+3db)を大幅に向上させることが示された。 さらに、最近のハッシュエンコーディングをスコープモデルに統合することで、モデルのトレーニングを大幅に加速します。 最後に,SCOPEを並列に評価し,ファンX線SVCT再構成作業を行った。 実験結果から,提案したSCOPEモデルは,INRに基づく最新の2つの手法と,定性的に定量的に2つのよく知られたDL手法より優れていることが示された。

In the present work, we propose a Self-supervised COordinate Projection nEtwork (SCOPE) to reconstruct the artifacts-free CT image from a single SV sinogram by solving the inverse tomography imaging problem. Compared with recent related works that solve similar problems using implicit neural representation network (INR), our essential contribution is an effective and simple re-projection strategy that pushes the tomography image reconstruction quality over supervised deep learning CT reconstruction works. The proposed strategy is inspired by the simple relationship between linear algebra and inverse problems. To solve the under-determined linear equation system, we first introduce INR to constrain the solution space via image continuity prior and achieve a rough solution. And secondly, we propose to generate a dense view sinogram that improves the rank of the linear equation system and produces a more stable CT image solution space. Our experiment results demonstrate that the re-projection strategy significantly improves the image reconstruction quality (+3 dB for PSNR at least). Besides, we integrate the recent hash encoding into our SCOPE model, which greatly accelerates the model training. Finally, we evaluate SCOPE in parallel and fan X-ray beam SVCT reconstruction tasks. Experimental results indicate that the proposed SCOPE model outperforms two latest INR-based methods and two well-popular supervised DL methods quantitatively and qualitatively.
翻訳日:2022-09-14 12:42:08 公開日:2022-09-12
# cocktail party attack: 独立成分分析を用いた連合学習における集約型プライバシの破断

Cocktail Party Attack: Breaking Aggregation-Based Privacy in Federated Learning using Independent Component Analysis ( http://arxiv.org/abs/2209.05578v1 )

ライセンス: Link先を確認
Sanjay Kariyappa, Chuan Guo, Kiwan Maeng, Wenjie Xiong, G. Edward Suh, Moinuddin K Qureshi, Hsien-Hsin S. Lee(参考訳) Federated Learning (FL)は、複数のデータ所有者が保持する分散データ上で、プライバシ保護機械学習を実行することを目的としている。 この目的のために、FLはデータ所有者に対して、ローカルでトレーニングを行い、複数のデータ所有者に安全に集約された中央サーバと(プライベート入力の代わりに)勾配更新を共有することを要求する。 集約自体はプライバシ保護を提供していないが、前回の作業では、バッチサイズが十分に大きい場合に十分であることが示されている。 本稿では,従来の考え方とは対照的に,非常に大きなバッチサイズで集約された勾配からプライベート入力を回収できるカクテルパーティ攻撃(cpa)を提案する。 CPAは、完全に連結された層からの集約勾配は入力の線形結合であり、ブラインドソース分離(BSS)問題(一般にカクテルパーティー問題)としてフレーム勾配の反転をもたらすという決定的な洞察を利用する。 独立成分分析(ICA)は,完全接続ネットワークと畳み込みネットワークのプライベートな入力を復元するBSS問題の古典的な解であり,CPAが事前の勾配インバージョンアタックを著しく上回り,ImageNetサイズの入力にスケールし,最大1024個のバッチサイズで動作することを示す。

Federated learning (FL) aims to perform privacy-preserving machine learning on distributed data held by multiple data owners. To this end, FL requires the data owners to perform training locally and share the gradient updates (instead of the private inputs) with the central server, which are then securely aggregated over multiple data owners. Although aggregation by itself does not provably offer privacy protection, prior work showed that it may suffice if the batch size is sufficiently large. In this paper, we propose the Cocktail Party Attack (CPA) that, contrary to prior belief, is able to recover the private inputs from gradients aggregated over a very large batch size. CPA leverages the crucial insight that aggregate gradients from a fully connected layer is a linear combination of its inputs, which leads us to frame gradient inversion as a blind source separation (BSS) problem (informally called the cocktail party problem). We adapt independent component analysis (ICA)--a classic solution to the BSS problem--to recover private inputs for fully-connected and convolutional networks, and show that CPA significantly outperforms prior gradient inversion attacks, scales to ImageNet-sized inputs, and works on large batch sizes of up to 1024.
翻訳日:2022-09-14 12:36:19 公開日:2022-09-12
# KDDCUP'99およびNSL-KDDデータセットを用いた支援ベクトルマシンによる侵入検知システム:総合調査

Intrusion Detection Systems Using Support Vector Machines on the KDDCUP'99 and NSL-KDD Datasets: A Comprehensive Survey ( http://arxiv.org/abs/2209.05579v1 )

ライセンス: Link先を確認
Mikel K. Ngueajio, Gloria Washington, Danda B. Rawat, and Yolande Ngueabou(参考訳) サイバー攻撃やサイバースパイの増加に伴い、より優れた、より強力な侵入検知システム(IDS)の必要性はさらに高まっている。 IDSの基本課題は、インターネットに対する攻撃を検知する第一線として機能することである。 侵入者からの侵入戦術がより洗練され、検出が困難になるにつれて、研究者は侵入者を効果的に検出し、インターネットユーザの情報とインターネットネットワーク全体のセキュリティに対する信頼を維持するために、新しい機械学習(ml)技術を適用し始めた。 過去10年間で、DARPA、KDDCUP'99、NSL-KDD、CAIDA、CTU-13、UNSW-NB15など、さまざまなサイバーセキュリティベースのデータセットに対するMLとディープラーニング(DL)アーキテクチャに基づく侵入検出技術の研究が爆発的に増えている。 本研究では,同時代の文献を概観し,svm( support vector machine)アルゴリズムを分類器として適用した侵入検出手法の包括的調査を行った。 我々は、サイバーセキュリティにおいて最も広く使われている2つのデータセット、すなわちKDDCUP'99とNSL-KDDデータセットで評価された研究にのみ焦点を当てる。 本稿では,SVMs分類器の役割と,研究に関わるすべてのアルゴリズムについて,各手法の概要について述べる。 さらに,各手法を表形式で批判的にレビューし,各手法の性能尺度,強度,限界を強調する。

With the growing rates of cyber-attacks and cyber espionage, the need for better and more powerful intrusion detection systems (IDS) is even more warranted nowadays. The basic task of an IDS is to act as the first line of defense, in detecting attacks on the internet. As intrusion tactics from intruders become more sophisticated and difficult to detect, researchers have started to apply novel Machine Learning (ML) techniques to effectively detect intruders and hence preserve internet users' information and overall trust in the entire internet network security. Over the last decade, there has been an explosion of research on intrusion detection techniques based on ML and Deep Learning (DL) architectures on various cyber security-based datasets such as the DARPA, KDDCUP'99, NSL-KDD, CAIDA, CTU-13, UNSW-NB15. In this research, we review contemporary literature and provide a comprehensive survey of different types of intrusion detection technique that applies Support Vector Machines (SVMs) algorithms as a classifier. We focus only on studies that have been evaluated on the two most widely used datasets in cybersecurity namely: the KDDCUP'99 and the NSL-KDD datasets. We provide a summary of each method, identifying the role of the SVMs classifier, and all other algorithms involved in the studies. Furthermore, we present a critical review of each method, in tabular form, highlighting the performance measures, strengths, and limitations of each of the methods surveyed.
翻訳日:2022-09-14 12:35:54 公開日:2022-09-12
# メタ学習因果発見

Meta-learning Causal Discovery ( http://arxiv.org/abs/2209.05598v1 )

ライセンス: Link先を確認
Xinyue Wang, Konrad Kording(参考訳) 時間変化データからの因果発見(CD)は神経科学、医学、機械学習において重要である。 cdの技法には、一般にバイアスのないが高価であるランダム化実験が含まれる。 また、回帰、マッチング、グランジャー因果関係といったアルゴリズムも含まれており、これは人間の設計者による強い仮定の下でのみ正しい。 しかし、機械学習の他の領域で見つかったように、人間は通常、完全に正しくなく、データ駆動アプローチによって圧倒される。 ここでは、データ駆動方式で因果発見を改善することができるかどうかをテストする。 我々は、多数の因果成分(トランジスタ)を持つシステム、MOS 6502プロセッサ、そしてニューラルネットワークとして表される因果発見手順をメタ学習する。 この手順は、Multual InformationやGranger Causalityなど、人間によって設計された因果発見手順よりもはるかに優れている。 我々は、因果関係が既知の因果関係を持つ大規模データセットからCDプロシージャが人間の専門家によって設計される代わりに学習されるような、可能な限り監督的なアプローチを検討するべきであると論じる。 我々の発見は、ニューラルおよび医療データにおけるCDに対する新しいアプローチと、より広範な機械学習コミュニティを約束する。

Causal discovery (CD) from time-varying data is important in neuroscience, medicine, and machine learning. Techniques for CD include randomized experiments which are generally unbiased but expensive. It also includes algorithms like regression, matching, and Granger causality, which are only correct under strong assumptions made by human designers. However, as we found in other areas of machine learning, humans are usually not quite right and are usually outperformed by data-driven approaches. Here we test if we can improve causal discovery in a data-driven way. We take a system with a large number of causal components (transistors), the MOS 6502 processor, and meta-learn the causal discovery procedure represented as a neural network. We find that this procedure far outperforms human-designed causal discovery procedures, such as Mutual Information and Granger Causality. We argue that the causality field should consider, where possible, a supervised approach, where CD procedures are learned from large datasets with known causal relations instead of being designed by a human specialist. Our findings promise a new approach toward CD in neural and medical data and for the broader machine learning community.
翻訳日:2022-09-14 12:35:27 公開日:2022-09-12
# 森Zwanzigによる深層学習の定式化

The Mori-Zwanzig formulation of deep learning ( http://arxiv.org/abs/2209.05544v1 )

ライセンス: Link先を確認
Daniele Venturi and Xiantao Li(参考訳) 我々は,モリ・ズワンツィヒ(MZ)の可逆統計力学の定式化に基づく新しいディープラーニングの定式化を開発する。 新しい定式化は、ディープニューラルネットワークと離散確率力学系のよく知られた双対性に基づいて構築され、正確な線形作用素方程式を用いて、ネットワークを介して興味(条件予測と確率密度関数)を直接伝播することができる。 このような新しい方程式は、ディープニューラルネットワークの新しい効果的なパラメータ化を開発する出発点として利用することができ、演算子理論法によるディープラーニングを研究するための新しいフレームワークを提供する。 提案した深層学習のMZ定式化は、ニューラルネットワークの記憶という新しい概念を導入し、低次元モデリングとパラメータ化において基本的な役割を果たす。 縮約写像の理論を用いることで、ニューラルネットワークの記憶が層数で減衰するのに十分な条件を定式化する。 これにより、レイヤー毎のニューロン数(プロジェクション演算子を使用)を削減したり(メモリオペレータの減衰特性を使用して)レイヤー総数を削減したりして、ディープネットワークを浅いものに厳密に変換することが可能になります。

We develop a new formulation of deep learning based on the Mori-Zwanzig (MZ) formalism of irreversible statistical mechanics. The new formulation is built upon the well-known duality between deep neural networks and discrete stochastic dynamical systems, and it allows us to directly propagate quantities of interest (conditional expectations and probability density functions) forward and backward through the network by means of exact linear operator equations. Such new equations can be used as a starting point to develop new effective parameterizations of deep neural networks, and provide a new framework to study deep-learning via operator theoretic methods. The proposed MZ formulation of deep learning naturally introduces a new concept, i.e., the memory of the neural network, which plays a fundamental role in low-dimensional modeling and parameterization. By using the theory of contraction mappings, we develop sufficient conditions for the memory of the neural network to decay with the number of layers. This allows us to rigorously transform deep networks into shallow ones, e.g., by reducing the number of neurons per layer (using projection operators), or by reducing the total number of layers (using the decaying property of the memory operator).
翻訳日:2022-09-14 12:34:03 公開日:2022-09-12
# オンラインソーシャルメディア規制のための数学的枠組み

Mathematical Framework for Online Social Media Regulation ( http://arxiv.org/abs/2209.05550v1 )

ライセンス: Link先を確認
Wasim Huleihel and Yehonathan Refael(参考訳) ソーシャルメディアプラットフォーム(SMP)は、報酬の最大化を目的として、ユーザのフィードを構成するコンテンツを選択する手段として、アルゴリズムフィルタリング(AF)を利用する。 ユーザのフィードに表示すべきコンテンツを選択的に選択することは、自然的/公正なコンテンツ選択の下にあったものと比較して、ユーザの意思決定にある程度の影響をもたらす可能性がある。 過去10年にわたって見てきたように、アルゴリズムによるフィルタリングは、個々の決定の偏りから、全体の社会を形作ること、例えば、ユーザーの注意を新型コロナウイルスワクチンを入手するか、あるいは大統領候補を選ぶよう大衆に誘導することなど、有害な副作用を引き起こす可能性がある。 AFの悪影響を規制しようとする政府の継続的な試みは、官僚主義、法務、財政的な配慮により、しばしば複雑である。 一方、SMPは許容しきい値を超えた罰金を科されるのを避けるために、自身のアルゴリズム活動を監視する。 本稿では,この枠組みを数学的に定式化し,データ駆動型統計アルゴリズムを構築し,時間とともにユーザの信念を逸脱させないようにし,サンプルや複雑性の保証を行う。 提案アルゴリズムは,潜在的な敵対的ユーザに対して堅牢であることを示す。 この最先端アルゴリズムは、外部規制当局または自己規制のためのsmpによっても使用できる。

Social media platforms (SMPs) leverage algorithmic filtering (AF) as a means of selecting the content that constitutes a user's feed with the aim of maximizing their rewards. Selectively choosing the contents to be shown on the user's feed may yield a certain extent of influence, either minor or major, on the user's decision-making, compared to what it would have been under a natural/fair content selection. As we have witnessed over the past decade, algorithmic filtering can cause detrimental side effects, ranging from biasing individual decisions to shaping those of society as a whole, for example, diverting users' attention from whether to get the COVID-19 vaccine or inducing the public to choose a presidential candidate. The government's constant attempts to regulate the adverse effects of AF are often complicated, due to bureaucracy, legal affairs, and financial considerations. On the other hand SMPs seek to monitor their own algorithmic activities to avoid being fined for exceeding the allowable threshold. In this paper, we mathematically formalize this framework and utilize it to construct a data-driven statistical algorithm to regulate the AF from deflecting users' beliefs over time, along with sample and complexity guarantees. We show that our algorithm is robust against potential adversarial users. This state-of-the-art algorithm can be used either by authorities acting as external regulators or by SMPs for self-regulation.
翻訳日:2022-09-14 12:33:43 公開日:2022-09-12
# マルチスケール知識蒸留とデータ拡張によるメタラーニングによるオンライン連続学習

Online Continual Learning via the Meta-learning Update with Multi-scale Knowledge Distillation and Data Augmentation ( http://arxiv.org/abs/2209.06107v1 )

ライセンス: Link先を確認
Ya-nan Han, Jian-wei Liu(参考訳) 継続的学習は、タスクのシーケンスから現在のタスクを迅速かつ継続的に学習することを目的としている。 他の方法と比較して、experience replayに基づく手法は壊滅的な忘れを克服する大きな利点を示してきた。 この方法の一般的な制限の1つは、以前のタスクと現在のタスク間のデータの不均衡である。 また, この環境下での安定性・塑性ジレンマを効果的に解決する方法も緊急課題である。 本稿では,Multiscale Knowledge Distillation and Data Augmentation (MMKDDA)によるメタラーニング更新という新しいフレームワークを提案することにより,これらの課題を克服する。 具体的には, 長距離空間関係と短距離空間関係の進化を異なる特徴レベルで把握するために, マルチスケールの知識蒸留を適用し, データの不均衡を緩和する。 さらに,オンライン連続訓練におけるエピソードメモリと現在のタスクからのサンプルを混合することにより,確率分布の変化による副作用を軽減する。 さらに,これまでのタスク数を頼りに,メタラーニングアップデートを通じてモデルを最適化することで,安定性と可塑性のバランスを保ちたい。 最後に,4つのベンチマークデータセットについて実験的評価を行い,提案フレームワークが他の一般的なベースラインに対して有効であることを示すとともに,フレームワークにおける各コンポーネントの役割をさらに分析するためにアブレーション研究も行った。

Continual learning aims to rapidly and continually learn the current task from a sequence of tasks. Compared to other kinds of methods, the methods based on experience replay have shown great advantages to overcome catastrophic forgetting. One common limitation of this method is the data imbalance between the previous and current tasks, which would further aggravate forgetting. Moreover, how to effectively address the stability-plasticity dilemma in this setting is also an urgent problem to be solved. In this paper, we overcome these challenges by proposing a novel framework called Meta-learning update via Multi-scale Knowledge Distillation and Data Augmentation (MMKDDA). Specifically, we apply multiscale knowledge distillation to grasp the evolution of long-range and short-range spatial relationships at different feature levels to alleviate the problem of data imbalance. Besides, our method mixes the samples from the episodic memory and current task in the online continual training procedure, thus alleviating the side influence due to the change of probability distribution. Moreover, we optimize our model via the meta-learning update resorting to the number of tasks seen previously, which is helpful to keep a better balance between stability and plasticity. Finally, our experimental evaluation on four benchmark datasets shows the effectiveness of the proposed MMKDDA framework against other popular baselines, and ablation studies are also conducted to further analyze the role of each component in our framework.
翻訳日:2022-09-14 12:28:44 公開日:2022-09-12
# 自律運転におけるDNN推論の時間変化の理解

Understanding Time Variations of DNN Inference in Autonomous Driving ( http://arxiv.org/abs/2209.05487v1 )

ライセンス: Link先を確認
Liangkai Liu, Yanzhi Wang, and Weisong Shi(参考訳) ディープニューラルネットワーク(DNN)は、認識、決定、制御の精度が高いため、自律運転に広く利用されている。 自律運転のような安全クリティカルなシステムでは、リアルタイムに検知や認識などのタスクを実行することが車両の安全性にとって不可欠であり、アプリケーションの実行時間を予測する必要がある。 しかし、DNN推論では無視できない時間変化が観察される。 現在のDNN推論研究は、時間変動問題を無視するか、スケジューラに依存している。 現在の研究では、DNN推論時間の変化の根本原因は説明されていない。 DNN推論の時間変化を理解することは、自律運転のリアルタイムスケジューリングにおける根本的な課題となる。 本研究では,データ,i/o,モデル,ランタイム,ハードウェア,エンドツーエンド知覚システムという6つの視点から,dnn推論の時間的変動を微粒度で解析する。 6つの洞察は、DNN推論の時間変化を理解するために導かれる。

Deep neural networks (DNNs) are widely used in autonomous driving due to their high accuracy for perception, decision, and control. In safety-critical systems like autonomous driving, executing tasks like sensing and perception in real-time is vital to the vehicle's safety, which requires the application's execution time to be predictable. However, non-negligible time variations are observed in DNN inference. Current DNN inference studies either ignore the time variation issue or rely on the scheduler to handle it. None of the current work explains the root causes of DNN inference time variations. Understanding the time variations of the DNN inference becomes a fundamental challenge in real-time scheduling for autonomous driving. In this work, we analyze the time variation in DNN inference in fine granularity from six perspectives: data, I/O, model, runtime, hardware, and end-to-end perception system. Six insights are derived in understanding the time variations for DNN inference.
翻訳日:2022-09-14 12:27:44 公開日:2022-09-12
# 暗号通貨取引のための深層強化学習--バックテストオーバーフィッティングへの実践的アプローチ

Deep Reinforcement Learning for Cryptocurrency Trading: Practical Approach to Address Backtest Overfitting ( http://arxiv.org/abs/2209.05559v1 )

ライセンス: Link先を確認
Berend Gort, Xiao-Yang Liu, Xinghang Sun, Jiechao Gao, Shuaiyu Chen, Christina Dan Wang(参考訳) 非常に不安定な暗号通貨市場では、利益と信頼性の高いトレーディング戦略を設計することは困難である。 既存の研究は深層強化学習法を適用し、過剰適合による偽陽性の問題に苦しむバックテストの利益を楽観的に報告している。 本稿では,深層強化学習を用いた暗号通貨取引のバックテストオーバーフィットに対処する実践的アプローチを提案する。 まず, 仮説テストとして, バックテストオーバーフィットの検出を定式化する。 そして、DRLエージェントを訓練し、過適合の確率を推定し、過適合のエージェントを拒絶し、良好な取引性能の可能性が高まる。 最後に、05/01/2022から06/27/2022(暗号市場が2回クラッシュしている間に)までの試験期間における10の暗号について、未適合の深層強化学習エージェントは、過適合のエージェントよりもシャープ比が高く、均等な重量戦略、S&P DBM指数(市場ベンチマーク)が示され、実際の市場への展開の信頼性を提供する。

Designing profitable and reliable trading strategies is challenging in the highly volatile cryptocurrency market. Existing works applied deep reinforcement learning methods and optimistically reported increased profits in backtesting, which may suffer from the false positive issue due to overfitting. In this paper, we propose a practical approach to address backtest overfitting for cryptocurrency trading using deep reinforcement learning. First, we formulate the detection of backtest overfitting as a hypothesis test. Then, we train the DRL agents, estimate the probability of overfitting, and reject the overfitted agents, increasing the chance of good trading performance. Finally, on 10 cryptocurrencies over a testing period from 05/01/2022 to 06/27/2022 (during which the crypto market crashed two times), we show that the less overfitted deep reinforcement learning agents have a higher Sharpe ratio than that of more over-fitted agents, an equal weight strategy, and the S&P DBM Index (market benchmark), offering confidence in possible deployment to a real market.
翻訳日:2022-09-14 12:27:30 公開日:2022-09-12
# 分子グラフと自然言語を関連付けた分子マルチモーダル基礎モデル

A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language ( http://arxiv.org/abs/2209.05481v1 )

ライセンス: Link先を確認
Bing Su, Dazhao Du, Zhao Yang, Yujie Zhou, Jiangmeng Li, Anyi Rao, Hao Sun, Zhiwu Lu, Ji-Rong Wen(参考訳) 人工知能(AI)は幅広い分野における分子の理解に大きな進歩を遂げているが、既存のモデルは一般に単一の分子のモダリティから単一の認知能力を取得する。 分子知識の階層構造は深遠であるため、人間でさえ直感的な図形と専門的なテキストの両方を含む様々なモダリティから学び、理解を助ける。 そこで本研究では,分子グラフとその意味的関連テキストデータ(Science Citation Index論文からの引用)から,コントラスト学習を通じて事前学習した分子マルチモーダル基礎モデルを提案する。 このAIモデルは、分子グラフと自然言語を直接ブリッジする重要な試みである。 重要な点は, 2つの様相の特定の情報と補的情報を捉えることで, 提案するモデルが分子の専門知識をよりよく把握できることである。 実験の結果, クロスモーダル検索や分子キャプションなどのクロスモーダルタスクにおいて有望な性能を示すだけでなく, 分子特性の予測能力を高め, 自然言語記述から有意義な分子グラフを生成する能力を有することがわかった。 私たちのモデルは、生物学、化学、材料、環境、医学などの分野にまたがって、aiを応用した分野に幅広い影響を与えると信じています。

Although artificial intelligence (AI) has made significant progress in understanding molecules in a wide range of fields, existing models generally acquire the single cognitive ability from the single molecular modality. Since the hierarchy of molecular knowledge is profound, even humans learn from different modalities including both intuitive diagrams and professional texts to assist their understanding. Inspired by this, we propose a molecular multimodal foundation model which is pretrained from molecular graphs and their semantically related textual data (crawled from published Scientific Citation Index papers) via contrastive learning. This AI model represents a critical attempt that directly bridges molecular graphs and natural language. Importantly, through capturing the specific and complementary information of the two modalities, our proposed model can better grasp molecular expertise. Experimental results show that our model not only exhibits promising performance in cross-modal tasks such as cross-modal retrieval and molecule caption, but also enhances molecular property prediction and possesses capability to generate meaningful molecular graphs from natural language descriptions. We believe that our model would have a broad impact on AI-empowered fields across disciplines such as biology, chemistry, materials, environment, and medicine, among others.
翻訳日:2022-09-14 12:17:10 公開日:2022-09-12
# 複雑なネットワークとしてのディープニューラルネットワーク

Deep Neural Networks as Complex Networks ( http://arxiv.org/abs/2209.05488v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Gabriele La Malfa, Claudio Caprioli, Giuseppe Nicosia, Vito Latora(参考訳) Deep Neural Networksは物理的な観点から、‘links’と‘vertices’が反復的にデータを処理し、タスクを亜最適に解決するグラフである。 我々は、Deep Neural Networks(DNN)を重み付きグラフとして表現するために、複雑ネットワーク理論(CNT)を使用します。このフレームワークでは、DNNを動的システムとして研究するためのメトリクスを導入します。 CNTは、パラメータとニューロンの数、隠された層とアクティベーションの種類、および目的のタスクが異なるネットワークを識別する。 さらに,我々の指標が低パフォーマンスネットワークと高パフォーマンスネットワークを区別することを示す。 CNTは、DNNを推論するための包括的な手法であり、ネットワーク理論に物理的に根ざし、よく研究された入出力関係を超えたモデルの振る舞いを説明するための補完的なアプローチである。

Deep Neural Networks are, from a physical perspective, graphs whose `links` and `vertices` iteratively process data and solve tasks sub-optimally. We use Complex Network Theory (CNT) to represents Deep Neural Networks (DNNs) as directed weighted graphs: within this framework, we introduce metrics to study DNNs as dynamical systems, with a granularity that spans from weights to layers, including neurons. CNT discriminates networks that differ in the number of parameters and neurons, the type of hidden layers and activations, and the objective task. We further show that our metrics discriminate low vs. high performing networks. CNT is a comprehensive method to reason about DNNs and a complementary approach to explain a model's behavior that is physically grounded to networks theory and goes beyond the well-studied input-output relation.
翻訳日:2022-09-14 12:16:46 公開日:2022-09-12
# TEDL:不確実性定量化のための2段階の証拠深層学習手法

TEDL: A Two-stage Evidential Deep Learning Method for Classification Uncertainty Quantification ( http://arxiv.org/abs/2209.05522v1 )

ライセンス: Link先を確認
Xue Li, Wei Shen, Denis Charles(参考訳) 本稿では,Dempster-Shafer理論に基づく最近の不確実性定量化手法であるEvidential Deep Learning (EDL) 法の実験から着想を得た,分類タスクにおける深層学習モデルの不確かさを定量化する2段階学習手法であるTEDLを提案する。 より具体的には、edlはクロスエントロピー損失によって学習されるモデルに比べてaucが劣る傾向にあり、トレーニングにおいて非常に敏感である。 このような感度は信頼性の低い不確実性推定を引き起こす可能性があり、実用的な応用には危険である。 両制約を緩和するため,本研究では,このような感度の原因となる可能性のある2段階学習法を,第1段階はクロスエントロピー損失から学習し,第2段階はEDL損失から学習する。 また、Dying ReLU問題を回避するために、ReLUをELUに置き換えることで、EDL損失を再計算する。 大規模商用検索エンジンから収集した多種多様なトレーニングコーパスを用いた大規模実験を行い,提案する2段階学習フレームワークがaucを大幅に増加させ,トレーニングの堅牢性を大幅に向上させることを示す。

In this paper, we propose TEDL, a two-stage learning approach to quantify uncertainty for deep learning models in classification tasks, inspired by our findings in experimenting with Evidential Deep Learning (EDL) method, a recently proposed uncertainty quantification approach based on the Dempster-Shafer theory. More specifically, we observe that EDL tends to yield inferior AUC compared with models learnt by cross-entropy loss and is highly sensitive in training. Such sensitivity is likely to cause unreliable uncertainty estimation, making it risky for practical applications. To mitigate both limitations, we propose a simple yet effective two-stage learning approach based on our analysis on the likely reasons causing such sensitivity, with the first stage learning from cross-entropy loss, followed by a second stage learning from EDL loss. We also re-formulate the EDL loss by replacing ReLU with ELU to avoid the Dying ReLU issue. Extensive experiments are carried out on varied sized training corpus collected from a large-scale commercial search engine, demonstrating that the proposed two-stage learning framework can increase AUC significantly and greatly improve training robustness.
翻訳日:2022-09-14 12:16:30 公開日:2022-09-12
# 多段階計画値推定を用いたモデルベース強化学習

Model-based Reinforcement Learning with Multi-step Plan Value Estimation ( http://arxiv.org/abs/2209.05530v1 )

ライセンス: Link先を確認
Haoxin Lin, Yihao Sun, Jiaji Zhang, Yang Yu(参考訳) 強化学習のサンプル効率を改善するための有望な方法は、実世界のサンプルを保存するために学習モデルで多くの探索と評価を行うモデルベースの手法である。 しかし、学習モデルに無視できないモデル誤差がある場合、モデルのシーケンシャルステップを正確に評価することは困難であり、モデルの利用を制限する。 本稿では,マルチステップ動作をモデルベースrlに置き換える多段階計画を導入することで,この問題を軽減することを提案する。 提案手法は,行動計画の系列を所定の状態で実行した後,期待した割引リターンを評価する多段階計画価値推定手法を採用し,計画価値推定による多段階政策勾配を直接計算して方針を更新する。 新しいモデルベース強化学習アルゴリズムMPPVE (Model-based Planning Policy Learning with Multi-step Plan Value Estimation) は、学習モデルのより良い利用方法を示し、最先端のモデルベースRLアプローチよりも優れたサンプル効率を実現する。

A promising way to improve the sample efficiency of reinforcement learning is model-based methods, in which many explorations and evaluations can happen in the learned models to save real-world samples. However, when the learned model has a non-negligible model error, sequential steps in the model are hard to be accurately evaluated, limiting the model's utilization. This paper proposes to alleviate this issue by introducing multi-step plans to replace multi-step actions for model-based RL. We employ the multi-step plan value estimation, which evaluates the expected discounted return after executing a sequence of action plans at a given state, and updates the policy by directly computing the multi-step policy gradient via plan value estimation. The new model-based reinforcement learning algorithm MPPVE (Model-based Planning Policy Learning with Multi-step Plan Value Estimation) shows a better utilization of the learned model and achieves a better sample efficiency than state-of-the-art model-based RL approaches.
翻訳日:2022-09-14 12:16:08 公開日:2022-09-12
# bayesldm:縦断データの確率的モデリングのためのドメイン固有言語

BayesLDM: A Domain-Specific Language for Probabilistic Modeling of Longitudinal Data ( http://arxiv.org/abs/2209.05581v1 )

ライセンス: Link先を確認
Karine Tung, Steven De La Torre, Mohamed El Mistiri, Rebecca Braga De Braganca, Eric Hekler, Misha Pavel, Daniel Rivera, Pedja Klasnja, Donna Spruijt-Metz, Benjamin M. Marlin(参考訳) 本稿では,ベイズLDMを提案する。ベイズLDMとは,複雑な多変量時系列データと,特定のモデルで推論を行うために最適化された確率的プログラムコードを生成するコンパイラを組み合わせた,高レベルなモデリング言語である。 BayesLDMは、動的ベイズネットワーク(DBN)の効率的で宣言的な仕様に焦点を当てたベイズネットワークモデルのモデリングをサポートする。 bayesldmコンパイラはモデル仕様と利用可能なデータの検査を組み合わせることで、未知のモデルパラメータに対してベイズ推論を実行するコードを出力する。 これらの能力は、計算効率のよい確率的推論コードを生成するプロセスを抽象化することにより、複雑な縦断データの分析を伴うドメインにおける反復的モデリングワークフローを著しく加速する可能性がある。 ベイズLDMシステムコンポーネントについて述べるとともに、表現効率と推論最適化の効率を評価し、不均一で部分的に観察されるモバイル健康データを解析するためのシステムの適用例を示す。

In this paper we present BayesLDM, a system for Bayesian longitudinal data modeling consisting of a high-level modeling language with specific features for modeling complex multivariate time series data coupled with a compiler that can produce optimized probabilistic program code for performing inference in the specified model. BayesLDM supports modeling of Bayesian network models with a specific focus on the efficient, declarative specification of dynamic Bayesian Networks (DBNs). The BayesLDM compiler combines a model specification with inspection of available data and outputs code for performing Bayesian inference for unknown model parameters while simultaneously handling missing data. These capabilities have the potential to significantly accelerate iterative modeling workflows in domains that involve the analysis of complex longitudinal data by abstracting away the process of producing computationally efficient probabilistic inference code. We describe the BayesLDM system components, evaluate the efficiency of representation and inference optimizations and provide an illustrative example of the application of the system to analyzing heterogeneous and partially observed mobile health data.
翻訳日:2022-09-14 12:15:50 公開日:2022-09-12
# 未来を曲げる:曲率可変双曲空間における時間知識グラフの自己回帰モデリング

Bending the Future: Autoregressive Modeling of Temporal Knowledge Graphs in Curvature-Variable Hyperbolic Spaces ( http://arxiv.org/abs/2209.05635v1 )

ライセンス: Link先を確認
Jihoon Sohn, Mingyu Derek Ma, Muhao Chen(参考訳) 近年,時間変化知識グラフや時間的知識グラフ(TKG)に対する学術的関心が高まっている。 過去の研究では、歴史的情報を用いたTKG推論への多様なアプローチが示唆されている。 しかし、異なるタイムスタンプでそのような情報の階層化にはあまり注意が払われていない。 tkg が時間に基づく知識グラフの列であると仮定すると、時系列のクロノロジーはグラフ間の階層を導出する。 さらに、各知識グラフは階層レベルを持ち、互いに異なるかもしれない。 TKGのこれらの階層特性に対処するために、ユークリッド空間よりも階層を符号化する双曲空間を利用するHyperVCを提案する。 異なるタイムスタンプにおける知識グラフ間の時間的階層は、知識グラフを共通の双曲空間のベクトルとして埋め込むことによって表される。 さらに、知識グラフの多様な階層レベルは、それらの実体と関係の双曲的埋め込みの曲率を調整することで表される。 4つのベンチマークデータセットの実験では、特に階層レベルの高いデータセットにおいて、大幅な改善が示されている。

Recently there is an increasing scholarly interest in time-varying knowledge graphs, or temporal knowledge graphs (TKG). Previous research suggests diverse approaches to TKG reasoning that uses historical information. However, less attention has been given to the hierarchies within such information at different timestamps. Given that TKG is a sequence of knowledge graphs based on time, the chronology in the sequence derives hierarchies between the graphs. Furthermore, each knowledge graph has its hierarchical level which may differ from one another. To address these hierarchical characteristics in TKG, we propose HyperVC, which utilizes hyperbolic space that better encodes the hierarchies than Euclidean space. The chronological hierarchies between knowledge graphs at different timestamps are represented by embedding the knowledge graphs as vectors in a common hyperbolic space. Additionally, diverse hierarchical levels of knowledge graphs are represented by adjusting the curvatures of hyperbolic embeddings of their entities and relations. Experiments on four benchmark datasets show substantial improvements, especially on the datasets with higher hierarchical levels.
翻訳日:2022-09-14 12:15:35 公開日:2022-09-12
# ぼやけた拡散モデル

Blurring Diffusion Models ( http://arxiv.org/abs/2209.05557v1 )

ライセンス: Link先を確認
Emiel Hoogeboom, Tim Salimans(参考訳) 近年, rissanen et al. (2022) は, 等方性ガウス拡散の代替として, 熱散逸やぼけに基づく生成的モデリングのための新しいタイプの拡散過程を提案した。 ここでは,非等方性雑音を伴うガウス拡散過程を通じて,ぼかしを等価に定義できることを示す。 この接続を行うことで、逆熱散逸と消音拡散の間のギャップを橋渡しし、このモデル選択によって生じる帰納的バイアスに光を当てた。 最後に,標準ガウス音化拡散と逆熱散逸の両方を最良とする拡散模型の一般化クラスを提案し,これをぼやけ拡散モデルと呼ぶ。

Recently, Rissanen et al., (2022) have presented a new type of diffusion process for generative modeling based on heat dissipation, or blurring, as an alternative to isotropic Gaussian diffusion. Here, we show that blurring can equivalently be defined through a Gaussian diffusion process with non-isotropic noise. In making this connection, we bridge the gap between inverse heat dissipation and denoising diffusion, and we shed light on the inductive bias that results from this modeling choice. Finally, we propose a generalized class of diffusion models that offers the best of both standard Gaussian denoising diffusion and inverse heat dissipation, which we call Blurring Diffusion Models.
翻訳日:2022-09-14 12:11:27 公開日:2022-09-12
# PreSTU: シーンテキスト理解のための事前トレーニング

PreSTU: Pre-Training for Scene-Text Understanding ( http://arxiv.org/abs/2209.05534v1 )

ライセンス: Link先を確認
Jihyung Kil, Soravit Changpinyo, Xi Chen, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, and Radu Soricut(参考訳) 画像中のテキストの読み書き能力は、視覚と言語(V&L)モデルに欠けていることが多い。 強いシーンテキスト理解(STU)を示すV&Lモデルをどのように学習するか? 本稿では,シーンテキスト理解のための簡単な事前学習レシピであるPreSTUを提案する。 PreSTUは、単純なOCR対応事前学習目標と、大規模な画像テキストデータセットと、既製のOCR信号を組み合わせる。 本研究は,TextVQA,TextCaps,ST-VQA,VizWiz-VQAにおける事前学習目標の優位性を実証的に示す。 また,stu性能に影響する要因について検討し,事前学習時の画像分解能とデータセットスケールの重要性を強調する。

The ability to read and reason about texts in an image is often lacking in vision-and-language (V&L) models. How can we learn V&L models that exhibit strong scene-text understanding (STU)? In this paper, we propose PreSTU, a simple pre-training recipe specifically designed for scene-text understanding. PreSTU combines a simple OCR-aware pre-training objective with a large-scale image-text dataset with off-the-shelf OCR signals. We empirically demonstrate the superiority of this pre-training objective on TextVQA, TextCaps, ST-VQA, and VizWiz-VQA. We also study which factors affect STU performance, where we highlight the importance of image resolution and dataset scale during pre-training.
翻訳日:2022-09-14 12:10:17 公開日:2022-09-12
# VL-Taboo:視覚言語モデルの属性ベースゼロショット能力の解析

VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of Vision-Language Models ( http://arxiv.org/abs/2209.06103v1 )

ライセンス: Link先を確認
Felix Vogel, Nina Shvetsova, Leonid Karlinsky, Hilde Kuehne(参考訳) 大規模でランダムに収集されたデータに基づいてトレーニングされた視覚言語モデルは、出現以来、多くの領域で大きな影響を与えた。 しかし、画像テキストリトライバリのような様々な分野で優れたパフォーマンスを示すため、その内部動作は未だ完全には理解されていない。 現在の研究は、これらのモデルの真のゼロショット機能を分析している。 最初はトレーニングコーパスの分析から始まり、テストクラスが本当にゼロショットである程度と、それが個々のクラスのパフォーマンスとどのように相関しているかを評価します。 次に,これらのモデルの属性に基づくゼロショット学習能力の分析を行い,この古典的ゼロショット概念が大規模web上の監督からいかに良く生じているかを評価する。 最近リリースされたLAION400MデータコーパスとCLIP、OpenCLIP、FLAVAの事前トレーニングモデルを活用し、CUBおよびAWA2ベンチマークで属性ベースのゼロショット機能を評価する。 私たちの分析では、 (i)人気のあるゼロショットベンチマークのほとんどのクラスは、事前トレーニング中に(多く)観察される。 (二)ゼロショット性能は、主に、テキストに現れるたびにクラスラベルを認識するモデルの能力から生じ、クラスラベルを使用しない場合にのみ属性ベースのゼロショット学習の性能が著しく低下する。 (iii) 使用する属性の数は、性能に重大な影響を与える可能性があり、パフォーマンスが著しく低下するおそれがある。

Vision-language models trained on large, randomly collected data had significant impact in many areas since they appeared. But as they show great performance in various fields, such as image-text-retrieval, their inner workings are still not fully understood. The current work analyses the true zero-shot capabilities of those models. We start from the analysis of the training corpus assessing to what extent (and which of) the test classes are really zero-shot and how this correlates with individual classes performance. We follow up with the analysis of the attribute-based zero-shot learning capabilities of these models, evaluating how well this classical zero-shot notion emerges from large-scale webly supervision. We leverage the recently released LAION400M data corpus as well as the publicly available pretrained models of CLIP, OpenCLIP, and FLAVA, evaluating the attribute-based zero-shot capabilities on CUB and AWA2 benchmarks. Our analysis shows that: (i) most of the classes in popular zero-shot benchmarks are observed (a lot) during pre-training; (ii) zero-shot performance mainly comes out of models' capability of recognizing class labels, whenever they are present in the text, and a significantly lower performing capability of attribute-based zeroshot learning is only observed when class labels are not used; (iii) the number of the attributes used can have a significant effect on performance, and can easily cause a significant performance decrease.
翻訳日:2022-09-14 12:06:10 公開日:2022-09-12
# ロボット3dシーン理解のための大規模言語モデル活用

Leveraging Large Language Models for Robot 3D Scene Understanding ( http://arxiv.org/abs/2209.05629v1 )

ライセンス: Link先を確認
William Chen, Siyi Hu, Rajat Talak, Luca Carlone(参考訳) セマンティック3dシーン理解はロボット工学において重要な問題である。 空間的知覚において大きな進歩はあったが、ロボットは平均的な人間の家や場所に関する常識的な知識を持つには程遠い。 本研究では,シーン理解に共通理解を与えるための大規模言語モデルの利用について検討する。 具体的には,室内環境における部屋の分類に言語を活用するための3つのパラダイムを紹介する。 (i)ゼロショットアプローチ。 (ii)フィードフォワード分類器アプローチ、及び (iii) 対照的な分類法。 これらの手法は、現代の空間認識システムによって生成された3次元シーングラフで動作する。 次に,それぞれのアプローチを分析し,ゼロショット一般化と言語使用による伝達能力を示す。 最後に,これらの手法を室内の建築ラベルの推測に適用し,実環境におけるゼロショットアプローチを実証する。 すべてのコードはhttps://github.com/MIT-SPARK/llm_scene_understandingで見ることができる。

Semantic 3D scene understanding is a problem of critical importance in robotics. While significant advances have been made in spatial perception, robots are still far from having the common-sense knowledge about household objects and locations of an average human. We thus investigate the use of large language models to impart common sense for scene understanding. Specifically, we introduce three paradigms for leveraging language for classifying rooms in indoor environments based on their contained objects: (i) a zero-shot approach, (ii) a feed-forward classifier approach, and (iii) a contrastive classifier approach. These methods operate on 3D scene graphs produced by modern spatial perception systems. We then analyze each approach, demonstrating notable zero-shot generalization and transfer capabilities stemming from their use of language. Finally, we show these approaches also apply to inferring building labels from contained rooms and demonstrate our zero-shot approach on a real environment. All code can be found at https://github.com/MIT-SPARK/llm_scene_understanding.
翻訳日:2022-09-14 12:04:53 公開日:2022-09-12
# 製造工程における視覚自動検査のためのアクティブラーニングと近似モデル校正

Active Learning and Approximate Model Calibration for Automated Visual Inspection in Manufacturing ( http://arxiv.org/abs/2209.05486v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Luka Bizjak, Elena Trajkova, Patrik Zajec, Jelle Keizer, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 品質管理は、製造企業が製品の品質基準を満たし、ブランドの評判を損なう可能性を避けるために行う重要な活動である。 センサーのコストと接続の削減により、製造のデジタル化が促進された。 さらに、人工知能はより高度な自動化を可能にし、欠陥検査に必要な全体的なコストと時間を削減する。 本研究は,3つの積極的学習アプローチ(単一と複数オーラクル)と視覚検査を比較した。 本稿では,分類モデルの確率キャリブレーションに対する新しいアプローチと,基礎的真理を必要とせずにキャリブレーションの性能を評価するための2つの新しい指標を提案する。 philips consumer lifestyle bvによる実世界データ実験を行った。 その結果, アクティブな学習環境を探索することで, p=0.95の閾値を考慮し, 全体的な品質目標を損なうことなく, データラベル作成の労力を3~4%削減できることがわかった。 さらに, 提案手法では, 基礎的真理データのみを用いて, これまでの測定値と異なり, 適切な情報を収集できることを示す。 したがって,提案手法は,真理データを得るためのラベル付け作業にコミットすることなく,モデルの確率校正の質を推定できる。

Quality control is a crucial activity performed by manufacturing enterprises to ensure that their products meet quality standards and avoid potential damage to the brand's reputation. The decreased cost of sensors and connectivity enabled increasing digitalization of manufacturing. In addition, artificial intelligence enables higher degrees of automation, reducing overall costs and time required for defect inspection. This research compares three active learning approaches (with single and multiple oracles) to visual inspection. We propose a novel approach to probabilities calibration of classification models and two new metrics to assess the performance of the calibration without the need for ground truth. We performed experiments on real-world data provided by Philips Consumer Lifestyle BV. Our results show that explored active learning settings can reduce the data labeling effort by between three and four percent without detriment to the overall quality goals, considering a threshold of p=0.95. Furthermore, we show that the proposed metrics successfully capture relevant information otherwise available to metrics used up to date only through ground truth data. Therefore, the proposed metrics can be used to estimate the quality of models' probability calibration without committing to a labeling effort to obtain ground truth data.
翻訳日:2022-09-14 12:04:39 公開日:2022-09-12
# 動的出力フィードバックの最適化景観について:線形二次レギュレータを事例として

On the Optimization Landscape of Dynamic Output Feedback: A Case Study for Linear Quadratic Regulator ( http://arxiv.org/abs/2209.05042v1 )

ライセンス: Link先を確認
Jingliang Duan, Wenhan Cao, Yang Zheng, Lin Zhao(参考訳) 強化学習ヒンジにおけるポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。 これらのアルゴリズムに対する理論的洞察は、線形二次制御の解析から得られることが多い。 しかしながら、既存の文献のほとんどは、静的なフルステートまたはアウトプットフィードバックポリシー(コントローラ)の最適化の展望のみを考慮に入れている。 本稿では,線形二次制御(dlqr)のための動的出力フィードバックポリシーのより困難な場合について検討する。 まず、dlqrコストが動的コントローラの座標変換とどのように変化するかを示し、与えられた可観測安定化コントローラの最適変換を導出する。 この結果の核となるのは、観測可能な場合の dLQR の定常点の特異性であり、これは最適な類似性変換を持つオブザーバベースのコントローラの簡潔な形式である。 これらの結果は、部分的に観測された情報を含む一般的な意思決定問題に対する効率的なアルゴリズムの設計に光を当てた。

The convergence of policy gradient algorithms in reinforcement learning hinges on the optimization landscape of the underlying optimal control problem. Theoretical insights into these algorithms can often be acquired from analyzing those of linear quadratic control. However, most of the existing literature only considers the optimization landscape for static full-state or output feedback policies (controllers). We investigate the more challenging case of dynamic output-feedback policies for linear quadratic regulation (abbreviated as dLQR), which is prevalent in practice but has a rather complicated optimization landscape. We first show how the dLQR cost varies with the coordinate transformation of the dynamic controller and then derive the optimal transformation for a given observable stabilizing controller. At the core of our results is the uniqueness of the stationary point of dLQR when it is observable, which is in a concise form of an observer-based controller with the optimal similarity transformation. These results shed light on designing efficient algorithms for general decision-making problems with partially observed information.
翻訳日:2022-09-13 14:24:05 公開日:2022-09-12
# 決定論的および確率的非滑らかな非凸最適化のための勾配なし法

Gradient-Free Methods for Deterministic and Stochastic Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2209.05045v1 )

ライセンス: Link先を確認
Tianyi Lin, Zeyu Zheng and Michael I. Jordan(参考訳) 非滑らかな非凸最適化問題は機械学習やビジネス上の意思決定において広く現れるが、2つのコア課題は有限時間収束を保証する効率的な解法の開発を妨げている。 この論文の貢献は2つある。 まず, 定評のあるgoldstein subdifferential~\citep{goldstein-1977-optimization} と一様平滑化の関係を定め, 有限時間収束をgoldstein定常点の集合に保証する勾配自由法の設計の基礎と直観を与える。 第二に、非滑らかな非凸最適化問題のクラスを解くための勾配自由法 (GFM) と確率的 GFM を提案し、その両者が、$(\delta,\epsilon)$-Goldstein 定常点を、$O(d^{3/2}\delta^{-1}\epsilon^{-4})$で期待収束速度で、$d$ が問題次元であるときに、$(\delta,\epsilon)$-Goldstein を返却できることを示す。 GFMとSGFMの2相版も提案され, 改良された大規模評価結果が得られた。 最後に, \textsc{minst}データセットを用いたreluニューラルネットワークのトレーニングにおける2-sgfmの有効性を示す。

Nonsmooth nonconvex optimization problems broadly emerge in machine learning and business decision making, whereas two core challenges impede the development of efficient solution methods with finite-time convergence guarantee: the lack of computationally tractable optimality criterion and the lack of computationally powerful oracles. The contributions of this paper are two-fold. First, we establish the relationship between the celebrated Goldstein subdifferential~\citep{Goldstein-1977-Optimization} and uniform smoothing, thereby providing the basis and intuition for the design of gradient-free methods that guarantee the finite-time convergence to a set of Goldstein stationary points. Second, we propose the gradient-free method (GFM) and stochastic GFM for solving a class of nonsmooth nonconvex optimization problems and prove that both of them can return a $(\delta,\epsilon)$-Goldstein stationary point of a Lipschitz function $f$ at an expected convergence rate at $O(d^{3/2}\delta^{-1}\epsilon^{-4})$ where $d$ is the problem dimension. Two-phase versions of GFM and SGFM are also proposed and proven to achieve improved large-deviation results. Finally, we demonstrate the effectiveness of 2-SGFM on training ReLU neural networks with the \textsc{Minst} dataset.
翻訳日:2022-09-13 14:23:50 公開日:2022-09-12
# 潜在特徴表現学習によるネットワーク型インターネット検閲の検出

Detecting Network-based Internet Censorship via Latent Feature Representation Learning ( http://arxiv.org/abs/2209.05152v1 )

ライセンス: Link先を確認
Shawn P. Duncan and Hui Chen(参考訳) インターネット検閲は社会的重要性の現象であり、複数の分野から調査を引き寄せている。 Censored Planetなどいくつかの研究グループが、大規模なインターネット計測プラットフォームを運用して、ネットワークの到達可能性データを収集している。 しかし、既存の研究は通常、データからネットワークベースのインターネット検閲を検出するために手動で設計された規則(検閲指紋を使用する)に依存している。 このルールに基づくアプローチは、真の正の検知率が高いが、それはいくつかの課題に悩まされている。 これらの課題を克服するために、潜在特徴表現学習に基づく分類モデルと、ネットワークベースのインターネット検閲を検出する画像に基づく分類モデルの設計と評価を行う。 ネットワーク到達性データから潜在特徴表現を推定するために,データ中のデータ要素の構造と順序をキャプチャするシーケンシャル・ツー・シーケンス・オートエンコーダを提案する。 推定潜在特徴から検閲イベントの確率を推定するために、密結合型多層ニューラルネットワークモデルを用いる。 画像ベース分類モデルは、ネットワーク到達性データレコードをグレースケール画像として符号化し、高密度畳み込みニューラルネットワークを用いて画像が検閲されているか否かを分類する。 我々は,Censored Planetのデータセットを用いて,両アプローチを比較し,評価する。 どちらの分類モデルも、既知の指紋で検出されない検閲の事例を識別できるため、ネットワークベースのインターネット検閲を検出することができる。 潜在特徴表現は、潜在特徴学習アプローチが新しい検閲インスタンスの量とより多様なセットを発見して以来、データ内のニュアンスを符号化する可能性が高い。

Internet censorship is a phenomenon of societal importance and attracts investigation from multiple disciplines. Several research groups, such as Censored Planet, have deployed large scale Internet measurement platforms to collect network reachability data. However, existing studies generally rely on manually designed rules (i.e., using censorship fingerprints) to detect network-based Internet censorship from the data. While this rule-based approach yields a high true positive detection rate, it suffers from several challenges: it requires human expertise, is laborious, and cannot detect any censorship not captured by the rules. Seeking to overcome these challenges, we design and evaluate a classification model based on latent feature representation learning and an image-based classification model to detect network-based Internet censorship. To infer latent feature representations from network reachability data, we propose a sequence-to-sequence autoencoder to capture the structure and the order of data elements in the data. To estimate the probability of censorship events from the inferred latent features, we rely on a densely connected multi-layer neural network model. Our image-based classification model encodes a network reachability data record as a gray-scale image and classifies the image as censored or not using a dense convolutional neural network. We compare and evaluate both approaches using data sets from Censored Planet via a hold-out evaluation. Both classification models are capable of detecting network-based Internet censorship as we were able to identify instances of censorship not detected by the known fingerprints. Latent feature representations likely encode more nuances in the data since the latent feature learning approach discovers a greater quantity, and a more diverse set, of new censorship instances.
翻訳日:2022-09-13 14:23:19 公開日:2022-09-12
# 線形力学系の観測予測における公平性

Fairness in Forecasting of Observations of Linear Dynamical Systems ( http://arxiv.org/abs/2209.05274v1 )

ライセンス: Link先を確認
Quan Zhou, Jakub Marecek, Robert N. Shorten(参考訳) 機械学習では、トレーニングデータはしばしば、下層の人間集団の複数のサブグループの振る舞いを捉えている。 サブグループのトレーニングデータの性質を注意深く制御しない場合には、自己表現バイアスが発生する。 この効果に対抗するために,時系列予測問題において,サブグループフェアネスと瞬時フェアネスという2つの自然概念を導入する。 本稿では,非可換多項式最適化問題の凸化の階層を用いたフェアネス制約学習問題のグローバル収束法を示す。 保険申請に動機づけられた偏りのあるデータセットとよく知られたCompASデータセットに対する実験結果から,本手法の有効性が示された。 また,凸化における疎度を生かして,手法の実行時間を著しく短縮できることを示す。

In machine learning, training data often capture the behaviour of multiple subgroups of some underlying human population. When the nature of training data for subgroups are not controlled carefully, under-representation bias arises. To counter this effect we introduce two natural notions of subgroup fairness and instantaneous fairness to address such under-representation bias in time-series forecasting problems. Here we show globally convergent methods for the fairness-constrained learning problems using hierarchies of convexifications of non-commutative polynomial optimisation problems. Our empirical results on a biased data set motivated by insurance applications and the well-known COMPAS data set demonstrate the efficacy of our methods. We also show that by exploiting sparsity in the convexifications, we can reduce the run time of our methods considerably.
翻訳日:2022-09-13 14:22:25 公開日:2022-09-12
# GenLoco:四足歩行ロボットのための汎用ロコモーションコントローラ

GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots ( http://arxiv.org/abs/2209.05309v1 )

ライセンス: Link先を確認
Gilbert Feng, Hongbo Zhang, Zhongyu Li, Xue Bin Peng, Bhuvan Basireddy, Linzhu Yue, Zhitao Song, Lizhi Yang, Yunhui Liu, Koushil Sreenath, Sergey Levine(参考訳) 近年、市販で手頃な価格の四足ロボットが急増し、これらのプラットフォームの多くは研究や産業で積極的に使われている。 脚のあるロボットが使えるようになると、これらのロボットが有用なスキルを発揮できるコントローラーも必要になる。 しかし、コントローラー開発のための学習ベースのフレームワークの多くは、ロボット固有のコントローラーを訓練することに焦点を当てている。 本研究では,四足歩行ロボットのための汎用ロコモーション(GenLoco)コントローラのトレーニングフレームワークを提案する。 本フレームワークは,多種多様な四足歩行ロボットに同様の形態で展開可能な汎用ロコモーションコントローラを合成する。 本稿では,訓練用シミュレーションロボット群を手続き的に生成する,単純かつ効果的な形態素ランダム化手法を提案する。 我々のモデルは、この大規模なシミュレーションロボットのコントローラーを訓練することにより、トレーニング中に観察されなかった様々な形態を持つ新しいシミュレーションロボットに直接転送できる、より一般的な制御戦略を取得する。

Recent years have seen a surge in commercially-available and affordable quadrupedal robots, with many of these platforms being actively used in research and industry. As the availability of legged robots grows, so does the need for controllers that enable these robots to perform useful skills. However, most learning-based frameworks for controller development focus on training robot-specific controllers, a process that needs to be repeated for every new robot. In this work, we introduce a framework for training generalized locomotion (GenLoco) controllers for quadrupedal robots. Our framework synthesizes general-purpose locomotion controllers that can be deployed on a large variety of quadrupedal robots with similar morphologies. We present a simple but effective morphology randomization method that procedurally generates a diverse set of simulated robots for training. We show that by training a controller on this large set of simulated robots, our models acquire more general control strategies that can be directly transferred to novel simulated and real-world robots with diverse morphologies, which were not observed during training.
翻訳日:2022-09-13 14:21:00 公開日:2022-09-12
# ファクトリーフロア:産業用広告推薦モデルのためのMLエンジニアリング

On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models ( http://arxiv.org/abs/2209.05310v1 )

ライセンス: Link先を確認
Rohan Anil, Sandra Gadanho, Da Huang, Nijith Jacob, Zhuoshu Li, Dong Lin, Todd Phillips, Cristina Pop, Kevin Regan, Gil I. Shamir, Rakesh Shivanna, Qiqi Yan(参考訳) 産業規模の広告システムでは、広告クリックスルー率(CTR)の予測が中心的な問題である。 広告クリックはユーザーエンゲージメントの重要なクラスであり、しばしばユーザーにとって広告の有用性を示す主要なシグナルとして使われる。 さらに、広告主がクリックごとに課金されるクリック単価広告システムでは、クリック率の期待値が直接価値評価に反映される。 したがって、CTRモデルの開発は、ほとんどのインターネット広告会社にとって重要な投資である。 このような問題に対するエンジニアリングには、従来の精度向上、特に効率、再現性、キャリブレーション、クレジットアトリビューションを超えて、オンライン学習に適した多くの機械学習(ml)技術が必要である。 本稿では,Googleの検索広告CTRモデルに実装された実用技術について事例研究を行う。 本稿では,現在のML研究の重要領域を明らかにする産業ケーススタディと,大規模産業環境でのインパクトのある新しいML手法の評価と有用性について述べる。

For industrial-scale advertising systems, prediction of ad click-through rate (CTR) is a central problem. Ad clicks constitute a significant class of user engagements and are often used as the primary signal for the usefulness of ads to users. Additionally, in cost-per-click advertising systems where advertisers are charged per click, click rate expectations feed directly into value estimation. Accordingly, CTR model development is a significant investment for most Internet advertising companies. Engineering for such problems requires many machine learning (ML) techniques suited to online learning that go well beyond traditional accuracy improvements, especially concerning efficiency, reproducibility, calibration, credit attribution. We present a case study of practical techniques deployed in Google's search ads CTR model. This paper provides an industry case study highlighting important areas of current ML research and illustrating how impactful new ML methods are evaluated and made useful in a large-scale industrial setting.
翻訳日:2022-09-13 14:20:43 公開日:2022-09-12
# 深層強化学習におけるロバスト探索のための自己教師型シークエンシャル・インフォメーション・ブートネック

Self-supervised Sequential Information Bottleneck for Robust Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2209.05333v1 )

ライセンス: Link先を確認
Bang You, Jingming Xie, Youping Chen, Jan Peters, Oleg Arenz(参考訳) 効果的な探索は、疎い報酬や高次元状態空間を持つ環境における強化学習エージェントにとって重要である。 状態視数、好奇心、エントロピー最大化に基づく最近の研究は、エージェントが探索のために新しい状態に行く動機づけとなる固有の報酬信号を生成する。 しかし、エージェントは、センサーノイズや背景の変化など、新規だがタスク関連のない情報を含むセンサ入力に対する摂動によって注意をそらすことができる。 本研究では,時系列観測における逐次予測情報をモデル化・圧縮することにより,圧縮・時間的コヒーレント表現を学習するシーケンシャル情報ボトルネック目標を提案する。 ノイズの多い環境での効率的な探索のために,学習された表現に基づいてタスク関連状態の新規性をキャプチャする本質的な報酬を構築する。 実用的最適化のための逐次的情報ボトルネック目標の変分上界を導出し,導出上界の情報理論的解釈を提供する。 提案手法は, 好奇性, エントロピー最大化, 情報ゲインに基づく最先端の手法と比較して, ホワイトノイズと自然映像の両方の背景に頑健性をもたらすことを示す。

Effective exploration is critical for reinforcement learning agents in environments with sparse rewards or high-dimensional state-action spaces. Recent works based on state-visitation counts, curiosity and entropy-maximization generate intrinsic reward signals to motivate the agent to visit novel states for exploration. However, the agent can get distracted by perturbations to sensor inputs that contain novel but task-irrelevant information, e.g. due to sensor noise or changing background. In this work, we introduce the sequential information bottleneck objective for learning compressed and temporally coherent representations by modelling and compressing sequential predictive information in time-series observations. For efficient exploration in noisy environments, we further construct intrinsic rewards that capture task-relevant state novelty based on the learned representations. We derive a variational upper bound of our sequential information bottleneck objective for practical optimization and provide an information-theoretic interpretation of the derived upper bound. Our experiments on a set of challenging image-based simulated control tasks show that our method achieves better sample efficiency, and robustness to both white noise and natural video backgrounds compared to state-of-art methods based on curiosity, entropy maximization and information-gain.
翻訳日:2022-09-13 14:20:09 公開日:2022-09-12
# 強化学習のための探索と爆発の決定論的シークエンシング

Deterministic Sequencing of Exploration and Exploitation for Reinforcement Learning ( http://arxiv.org/abs/2209.05408v1 )

ライセンス: Link先を確認
Piyush Gupta and Vaibhav Srivastava(参考訳) 本稿では,システムモデル,すなわちマルコフ決定プロセス(MDP)と関連する最適ポリシーを同時に学習することを目的としたモデルベースRL問題に対して,探索と搾取をインターリーブするDSEE(Deterministic Sequencing of Exploration and Exploitation)アルゴリズムを提案する。 調査中、DSEEは環境を調査し、期待される報酬と移行確率の見積を更新する。 搾取中、システムダイナミクスの最新の見積もりは、高い確率で堅牢なポリシーを得るために使用される。 我々は,累積的後悔が時間のサブリニア関数として成長するように,探索と搾取期間の長さをデザインする。 また,マルチホップMDPとメトロポリス・ハスティングスアルゴリズムを用いて,各状態-作用対を高い確率で均一にサンプリングする方法についても検討した。

We propose Deterministic Sequencing of Exploration and Exploitation (DSEE) algorithm with interleaving exploration and exploitation epochs for model-based RL problems that aim to simultaneously learn the system model, i.e., a Markov decision process (MDP), and the associated optimal policy. During exploration, DSEE explores the environment and updates the estimates for expected reward and transition probabilities. During exploitation, the latest estimates of the system dynamics are used to obtain a robust policy with high probability. We design the lengths of the exploration and exploitation epochs such that the cumulative regret grows as a sub-linear function of time. We also discuss a method for efficient exploration using multi-hop MDP and Metropolis-Hastings algorithm to uniformly sample each state-action pair with high probability.
翻訳日:2022-09-13 14:19:46 公開日:2022-09-12
# 24GHzドップラーレーダを用いた手指ジェスチャー認識のための畳み込みエンコーダデコーダを用いた視覚変換器

Vision Transformer with Convolutional Encoder-Decoder for Hand Gesture Recognition using 24 GHz Doppler Radar ( http://arxiv.org/abs/2209.05032v1 )

ライセンス: Link先を確認
Kavinda Kehelella, Gayangana Leelarathne, Dhanuka Marasinghe, Nisal Kariyawasam, Viduneth Ariyarathna, Arjuna Madanayake, Ranga Rodrigo, Chamira U. S. Edussooriya(参考訳) 畳み込みエンコーダと組み合わされた変換器は、最近マイクロドップラーシグネチャを用いた手動ジェスチャー認識(HGR)に使われている。 マルチアンテナ連続波ドップラーレーダを用いたHGR用視覚変換器アーキテクチャを提案する。 提案するアーキテクチャは,畳み込みエンコーダデコーダ,3つのトランスフォーマー層を持つアテンションモジュール,多層パーセプトロンの3つのモジュールで構成される。 新たな畳み込みデコーダは、より大きなサイズのパッチをアテンションモジュールに供給し、機能抽出を改善する。 24GHzの2アンテナ連続波ドップラーレー受波機(Skariaら)に対応するデータセットを用いて得られた実験結果から,提案アーキテクチャが98.3%の精度を達成し,使用済みデータセットの最先端性を大幅に上回ることを確認した。

Transformers combined with convolutional encoders have been recently used for hand gesture recognition (HGR) using micro-Doppler signatures. We propose a vision-transformer-based architecture for HGR with multi-antenna continuous-wave Doppler radar receivers. The proposed architecture consists of three modules: a convolutional encoderdecoder, an attention module with three transformer layers, and a multi-layer perceptron. The novel convolutional decoder helps to feed patches with larger sizes to the attention module for improved feature extraction. Experimental results obtained with a dataset corresponding to a two-antenna continuous-wave Doppler radar receiver operating at 24 GHz (published by Skaria et al.) confirm that the proposed architecture achieves an accuracy of 98.3% which substantially surpasses the state-of-the-art on the used dataset.
翻訳日:2022-09-13 14:15:41 公開日:2022-09-12
# 双曲的自己教師付きコントラスト学習に基づくネットワーク異常検出

Hyperbolic Self-supervised Contrastive Learning Based Network Anomaly Detection ( http://arxiv.org/abs/2209.05049v1 )

ライセンス: Link先を確認
Yuanjun Shi(参考訳) 属性ネットワーク上の異常検出は近年,サイバーネティックな異常検出や不正検出など,多くの研究分野で注目を集めている。 グラフ表現へのディープラーニングの広範な適用により、既存のアプローチではユークリッドグラフエンコーダをバックボーンとして採用することを選択し、特に複雑なネットワークにおいて重要な階層情報を失う可能性がある。 この問題に対処するために,双曲的自己教師付きコントラスト学習を用いた効率的な異常検出フレームワークを提案する。 具体的には,まずサブグラフサンプリングを行い,データ拡張を行う。 次に,指数写像と対数写像を用いて双曲空間の階層情報を利用し,正の対のスコアを負の対から判別過程によって引いて異常値を求める。 最後に、4つの実世界のデータセットに対する広範な実験により、我々のアプローチは代表的ベースラインアプローチよりも優れていることを示した。

Anomaly detection on the attributed network has recently received increasing attention in many research fields, such as cybernetic anomaly detection and financial fraud detection. With the wide application of deep learning on graph representations, existing approaches choose to apply euclidean graph encoders as their backbone, which may lose important hierarchical information, especially in complex networks. To tackle this problem, we propose an efficient anomaly detection framework using hyperbolic self-supervised contrastive learning. Specifically, we first conduct the data augmentation by performing subgraph sampling. Then we utilize the hierarchical information in hyperbolic space through exponential mapping and logarithmic mapping and obtain the anomaly score by subtracting scores of the positive pairs from the negative pairs via a discriminating process. Finally, extensive experiments on four real-world datasets demonstrate that our approach performs superior over representative baseline approaches.
翻訳日:2022-09-13 14:15:21 公開日:2022-09-12
# データ駆動ニューズベンドル問題における特徴選択のための2レベル最適化

Bilevel Optimization for Feature Selection in the Data-Driven Newsvendor Problem ( http://arxiv.org/abs/2209.05093v1 )

ライセンス: Link先を確認
Breno Serrano, Stefan Minner, Maximilian Schiffer, Thibaut Vidal(参考訳) 本稿では,需要観測と外因性特徴からなる歴史的データに意思決定者がアクセスできる特徴に基づくニューズベンダー問題について検討する。 そこで本研究では,サンプル外性能を改善したスパースで説明可能なモデルを導出することを目的とした特徴選択法について検討する。 これまで、最先端の手法は正規化を利用しており、選択された特徴数や解ベクトルのノルムを罰する。 代替案として,新しい二段階プログラミング定式化を提案する。 上位レベルの問題は、保持された検証セットに基づいて順序決定のアウト・オブ・サンプルコストの見積を最小化する機能のサブセットを選択する。 下層問題は、上位層によって選択された特徴のみを用いて、トレーニングセット上の決定関数の最適係数を学習する。 本稿では,bilevelプログラムのための混合整数線形プログラム再構成法を提案する。 計算実験により, サンプルサイズ数百のインスタンスに対して, 地上構造を精度良く復元できることが判明した。 対照的に、正規化に基づく手法は、しばしば特徴回復時に失敗するか、同様の精度を得るために数千の観測を必要とする。 サンプル外の一般化に関しては、改善または同等のコストパフォーマンスを達成します。

We study the feature-based newsvendor problem, in which a decision-maker has access to historical data consisting of demand observations and exogenous features. In this setting, we investigate feature selection, aiming to derive sparse, explainable models with improved out-of-sample performance. Up to now, state-of-the-art methods utilize regularization, which penalizes the number of selected features or the norm of the solution vector. As an alternative, we introduce a novel bilevel programming formulation. The upper-level problem selects a subset of features that minimizes an estimate of the out-of-sample cost of ordering decisions based on a held-out validation set. The lower-level problem learns the optimal coefficients of the decision function on a training set, using only the features selected by the upper-level. We present a mixed integer linear program reformulation for the bilevel program, which can be solved to optimality with standard optimization solvers. Our computational experiments show that the method accurately recovers ground-truth features already for instances with a sample size of a few hundred observations. In contrast, regularization-based techniques often fail at feature recovery or require thousands of observations to obtain similar accuracy. Regarding out-of-sample generalization, we achieve improved or comparable cost performance.
翻訳日:2022-09-13 14:15:06 公開日:2022-09-12
# 社会推薦システムのための順序グラフガンマ信念ネットワーク

Ordinal Graph Gamma Belief Network for Social Recommender Systems ( http://arxiv.org/abs/2209.05106v1 )

ライセンス: Link先を確認
Dongsheng Wang, Chaojie Wang, Bo Chen, Mingyuan Zhou(参考訳) 順序変数として表現されるユーザ-itemの相互作用だけでなく,ユーザ間の関係を記述したソーシャルネットワークを利用したリコメンデーションシステムを構築するために,ユーザ-itemとユーザ-ユーザインタラクションを共同でモデル化する階層型ベイズモデル(OGFA)を開発した。 OGFAは、優れたレコメンデーションパフォーマンスを達成するだけでなく、代表ユーザの好みに応じた解釈可能な潜在因子も抽出する。 我々はさらに、OGFAをオーディナルグラフガンマ信念ネットワークに拡張し、複数のセマンティックレベルでユーザの好みや社会的コミュニティをキャプチャするマルチ確率層深層確率モデルを提案する。 効率的な推論のために,グラフの幅を生かし,大規模データセットにスケーラブルな並列ハイブリッドGibs-EMアルゴリズムを開発した。 実験の結果,提案モデルは明示的あるいは暗黙的なフィードバックを伴うレコメンデーションデータセットのベースラインを上回っているだけでなく,解釈可能な潜在表現も提供できることがわかった。

To build recommender systems that not only consider user-item interactions represented as ordinal variables, but also exploit the social network describing the relationships between the users, we develop a hierarchical Bayesian model termed ordinal graph factor analysis (OGFA), which jointly models user-item and user-user interactions. OGFA not only achieves good recommendation performance, but also extracts interpretable latent factors corresponding to representative user preferences. We further extend OGFA to ordinal graph gamma belief network, which is a multi-stochastic-layer deep probabilistic model that captures the user preferences and social communities at multiple semantic levels. For efficient inference, we develop a parallel hybrid Gibbs-EM algorithm, which exploits the sparsity of the graphs and is scalable to large datasets. Our experimental results show that the proposed models not only outperform recent baselines on recommendation datasets with explicit or implicit feedback, but also provide interpretable latent representations.
翻訳日:2022-09-13 14:14:46 公開日:2022-09-12
# 感性分析のための古典的および量子的機械学習モデルの比較研究

A Comparative Study of Classical and Quantum Machine Learning Models for Sentimental Analysis ( http://arxiv.org/abs/2209.05142v1 )

ライセンス: Link先を確認
Diksha Sharma, Parvinder Singh and Atul Kumar(参考訳) 映画レビューから構築したテキストデータの感情を分析し,分類する。 そのため、量子機械学習アルゴリズムによるカーネルベースのアプローチを用いる。 量子カーネルを構成するために、回転パラメータがテキストデータから得られるデータ点の古典的な非線形関数である異なるポーリ回転ゲートの組み合わせを用いて構成した回路を用いる。 提案モデルの性能解析のために,決定木,勾配ブースティング分類器,古典および量子サポートベクターマシンを用いた量子モデルの解析を行った。 その結果、量子カーネルモデルや量子支援ベクトルマシンは、全ての評価指標から分析に使用される他のアルゴリズムよりも優れていることがわかった。 古典的なサポートベクトルマシンと比較して、量子サポートベクトルマシンは、特徴や次元が増大しても、はるかに良い結果をもたらす。 この結果は、古典的なサポートベクターマシンのように量子サポートベクターマシンを使用すると、特徴の数が15ドルであれば、精度が9.4%向上することを示している。

We analyse and classify the sentiments of a text data constructed from movie reviews. For this, we use the kernel-based approach from quantum machine learning algorithms. In order to compose a quantum kernel, we use a circuit constructed using a combination of different Pauli rotational gates where the rotational parameter is a classical non-linear function of data points obtained from the text data. For analysing the performance of the proposed model, we analyse the quantum model using decision tree, gradient boosting classifier, and classical and quantum support vector machines. Our results show that quantum kernel model or quantum support vector machine outperforms all other algorithms used for analysis in terms of all evaluation metrics. In comparison to a classical support vector machine, the quantum support vector machine leads to significantly better results even with increased number of features or dimensions. The results clearly demonstrate increase in precision score by $9.4 \%$ using a quantum support vector machine as against a classical support vector machine if the number of features are $15$.
翻訳日:2022-09-13 14:14:28 公開日:2022-09-12
# 説明通路を有する構造的生成モデルにおける補正推論

Amortised Inference in Structured Generative Models with Explaining Away ( http://arxiv.org/abs/2209.05212v1 )

ライセンス: Link先を確認
Changmin Yu and Hugo Soulat and Neil Burgess and Maneesh Sahani(参考訳) 教師なし学習の重要な目標は、密度推定とサンプル生成を超えて、観測データに固有の構造を明らかにすることである。 このような構造は、確率的グラフィカルモデルを通して得られた説明的潜在変数間の相互作用パターンで表現することができる。 構造化グラフィカルモデルの学習には長い歴史があるが、教師なしモデリングにおける最近の研究は、独立した潜伏生成器を複雑なデータに変換するか、異なる観測変数が異なる潜伏ノードから導出されることを仮定して、柔軟な深層ネットワークベースの生成を強調している。 ここでは,複数変数にまたがる構造化因子を組み込むために,補正された変分推論の出力を拡張し,"説明"から生じる潜伏者間の観測誘起後続依存性を捉え,構造化グラフの複数のノードに依存する複雑な観測を可能にする。 パラメータ化された因子は、複雑な図形構造における変分メッセージパッシングと効率的に結合可能であることを示す。 ガウス過程因子分析モデルに基づくフレームワークのインスタンス化を行い、既知生成過程を持つ合成データに対する既存の手法に対する改善を実証的に評価する。 次に, 構造モデルを用いて, 海馬の運動野の高次元神経スパイキング時系列に適応し, モデルが行動的共変量と相関する潜在シグナルを同定することを示す。

A key goal of unsupervised learning is to go beyond density estimation and sample generation to reveal the structure inherent within observed data. Such structure can be expressed in the pattern of interactions between explanatory latent variables captured through a probabilistic graphical model. Although the learning of structured graphical models has a long history, much recent work in unsupervised modelling has instead emphasised flexible deep-network-based generation, either transforming independent latent generators to model complex data or assuming that distinct observed variables are derived from different latent nodes. Here, we extend the output of amortised variational inference to incorporate structured factors over multiple variables, able to capture the observation-induced posterior dependence between latents that results from "explaining away" and thus allow complex observations to depend on multiple nodes of a structured graph. We show that appropriately parameterised factors can be combined efficiently with variational message passing in elaborate graphical structures. We instantiate the framework based on Gaussian Process Factor Analysis models, and empirically evaluate its improvement over existing methods on synthetic data with known generative processes. We then fit the structured model to high-dimensional neural spiking time-series from the hippocampus of freely moving rodents, demonstrating that the model identifies latent signals that correlate with behavioural covariates.
翻訳日:2022-09-13 14:14:14 公開日:2022-09-12
# SmartKex: ヒープダンプからSSHキーを抽出する機械学習

SmartKex: Machine Learning Assisted SSH Keys Extraction From The Heap Dump ( http://arxiv.org/abs/2209.05243v1 )

ライセンス: Link先を確認
Christofer Fellicious, Stewart Sentanoe, Michael Granitzer, Hans P. Reiser(参考訳) デジタル法医学(digital forensics)は、デジタル装置から証拠を抽出、保存、文書化する過程である。 デジタル法医学における一般的な方法は、デジタル装置のメインメモリからデータを抽出することである。 しかし、主な課題は抽出すべき重要なデータを特定することである。 ユーザ名やパスワード、SSHセッションキーなどの暗号化キーなど、重要な情報がメインメモリに存在する。 本論文では,OpenSSHプロセスのヒープメモリスナップショットからセッションキーを抽出する機械学習支援手法であるSmartKexを提案する。 さらに、オープンに利用可能なデータセットと、追加データを作成するためのツールチェーンもリリースします。 最後に,SmartKexと単純なブルートフォース法を比較し,SmartKexがセッションキーを高精度かつ高いスループットで抽出できることを実証的に示す。 提供されたリソースにより、デジタル法医学、サイバーセキュリティ、機械学習の交差点の研究を強化するつもりです。

Digital forensics is the process of extracting, preserving, and documenting evidence in digital devices. A commonly used method in digital forensics is to extract data from the main memory of a digital device. However, the main challenge is identifying the important data to be extracted. Several pieces of crucial information reside in the main memory, like usernames, passwords, and cryptographic keys such as SSH session keys. In this paper, we propose SmartKex, a machine-learning assisted method to extract session keys from heap memory snapshots of an OpenSSH process. In addition, we release an openly available dataset and the corresponding toolchain for creating additional data. Finally, we compare SmartKex with naive brute-force methods and empirically show that SmartKex can extract the session keys with high accuracy and high throughput. With the provided resources, we intend to strengthen the research on the intersection between digital forensics, cybersecurity, and machine learning.
翻訳日:2022-09-13 14:13:50 公開日:2022-09-12
# TruVR: 説明可能な機械学習による信頼できるサイバーシック検出

TruVR: Trustworthy Cybersickness Detection using Explainable Machine Learning ( http://arxiv.org/abs/2209.05257v1 )

ライセンス: Link先を確認
Ripan Kumar Kundu, Rifatul Islam, Prasad Calyam, Khaza Anuarul Hoque(参考訳) サイバーシックネスは、仮想現実(vr)システムを使用する際に、吐き気、めまい、頭痛、眼の緊張、その他の不快感を特徴付けることができる。 これまで報告された機械学習(ML)とディープラーニング(DL)アルゴリズムは、ブラックボックスモデルを使用してVRサイバーシックの検出(分類)と予測(回帰)を行う。 さらに、vrセンサーは膨大なデータを生成し、複雑で大規模モデルを生成する。 したがって、サイバーシック検出モデルに固有の説明責任を持つことは、モデルの信頼性を大幅に向上させ、ML/DLモデルが特定の決定に達した理由と方法に関する洞察を与えることができる。 この問題に対処するために,サイバーシックネスの検出と予測を行う3つの説明可能な機械学習(xml)モデルを提案する。 1)説明可能な推進機(EBM) 2)決定木(dt)、及び 3)ロジスティック回帰(LR)。 我々は,サイバーシックネスのための生理学およびゲームプレイデータセットが公開されているxMLモデルを評価する。 その結果,ebmは生理的およびゲームプレイのデータセットに対して,99.75%,94.10%の精度でサイバーシックネスを検出できることがわかった。 一方、EBMはサイバーシック性を予測する一方で、生理的データセットは0.071、ゲームプレイデータセットは0.27のルート平均角誤差(RMSE)が得られた。 さらに、ebmベースのグローバル説明は、ゲームプレイデータセットにおけるサイバーシックネスを引き起こす重要な特徴として、露出長、回転、加速を明らかにする。 対照的に、ガルバニック皮膚反応と心拍数は生理学的データセットにおいて最も重要である。 また,ESMによる局所的な説明は,個々のサンプルに対するサイバーシックな要因を特定できる可能性が示唆された。 提案するxmlベースのサイバーシックネス検出手法は,より単純なサイバーシックネス検出・低減モデルを理解し,解析し,設計する上で有効である。

Cybersickness can be characterized by nausea, vertigo, headache, eye strain, and other discomforts when using virtual reality (VR) systems. The previously reported machine learning (ML) and deep learning (DL) algorithms for detecting (classification) and predicting (regression) VR cybersickness use black-box models; thus, they lack explainability. Moreover, VR sensors generate a massive amount of data, resulting in complex and large models. Therefore, having inherent explainability in cybersickness detection models can significantly improve the model's trustworthiness and provide insight into why and how the ML/DL model arrived at a specific decision. To address this issue, we present three explainable machine learning (xML) models to detect and predict cybersickness: 1) explainable boosting machine (EBM), 2) decision tree (DT), and 3) logistic regression (LR). We evaluate xML-based models with publicly available physiological and gameplay datasets for cybersickness. The results show that the EBM can detect cybersickness with an accuracy of 99.75% and 94.10% for the physiological and gameplay datasets, respectively. On the other hand, while predicting the cybersickness, EBM resulted in a Root Mean Square Error (RMSE) of 0.071 for the physiological dataset and 0.27 for the gameplay dataset. Furthermore, the EBM-based global explanation reveals exposure length, rotation, and acceleration as key features causing cybersickness in the gameplay dataset. In contrast, galvanic skin responses and heart rate are most significant in the physiological dataset. Our results also suggest that EBM-based local explanation can identify cybersickness-causing factors for individual samples. We believe the proposed xML-based cybersickness detection method can help future researchers understand, analyze, and design simpler cybersickness detection and reduction models.
翻訳日:2022-09-13 14:13:35 公開日:2022-09-12
# 下流機械学習のための低オーバーヘッド時系列前処理技術の評価

An Evaluation of Low Overhead Time Series Preprocessing Techniques for Downstream Machine Learning ( http://arxiv.org/abs/2209.05300v1 )

ライセンス: Link先を確認
Matthew L. Weiss, Joseph McDonald, David Bestor, Charles Yee, Daniel Edelman, Michael Jones, Andrew Prout, Andrew Bowne, Lindsey McEvoy, Vijay Gadepally, Siddharth Samsi(参考訳) 本稿では、下流機械学習におけるアライメント問題(アライメント問題)と呼ぶ長さの異なるマルチチャネル時系列データに対する前処理手法の適用について述べる。 マルチチャネル時系列データの誤アライメントは、欠落データ、様々なサンプリングレート、一貫性のない収集時間など、さまざまな理由で発生する可能性がある。 我々は,mit supercloud high performance computing (hpc) センターから収集されたマルチチャネル時系列データについて検討する。 このミスアライメントにより、計算ワークロードの分類などのタスクに対するAI/MLアプローチの構築が困難になる。 mit supercloudデータセットによる以前の教師付き分類作業に基づいて、全時系列から固定サブセットをサンプリングし、全時系列で要約統計を実行し、周波数領域にマッピングされた時系列から係数のサブセットをサンプリングする3つの幅広い低オーバーヘッドアプローチによってアライメント問題に対処する。 我々の最高の性能モデルは95%以上の分類精度を達成し、MIT SuperCloud Datasetによるマルチチャネル時系列分類に対する従来のアプローチよりも5%上回った。 これらの結果から,アライメント問題を解決するための低オーバーヘッドアプローチは,標準的な機械学習手法と相まって,高いレベルの分類精度を達成し,カーネル手法などのアライメント問題に対処するための今後のアプローチのベースラインとなることが示唆された。

In this paper we address the application of pre-processing techniques to multi-channel time series data with varying lengths, which we refer to as the alignment problem, for downstream machine learning. The misalignment of multi-channel time series data may occur for a variety of reasons, such as missing data, varying sampling rates, or inconsistent collection times. We consider multi-channel time series data collected from the MIT SuperCloud High Performance Computing (HPC) center, where different job start times and varying run times of HPC jobs result in misaligned data. This misalignment makes it challenging to build AI/ML approaches for tasks such as compute workload classification. Building on previous supervised classification work with the MIT SuperCloud Dataset, we address the alignment problem via three broad, low overhead approaches: sampling a fixed subset from a full time series, performing summary statistics on a full time series, and sampling a subset of coefficients from time series mapped to the frequency domain. Our best performing models achieve a classification accuracy greater than 95%, outperforming previous approaches to multi-channel time series classification with the MIT SuperCloud Dataset by 5%. These results indicate our low overhead approaches to solving the alignment problem, in conjunction with standard machine learning techniques, are able to achieve high levels of classification accuracy, and serve as a baseline for future approaches to addressing the alignment problem, such as kernel methods.
翻訳日:2022-09-13 14:12:47 公開日:2022-09-12
# 燃料電池電気自動車のための新しい学習ベースロバストモデル予測制御エネルギー管理戦略

A novel learning-based robust model predictive control energy management strategy for fuel cell electric vehicles ( http://arxiv.org/abs/2209.04995v1 )

ライセンス: Link先を確認
Shibo Li, Zhuoran Hou, Liang Chu, Jingjing Jiang and Yuanjian Zhang(参考訳) 多源電気機械結合により、燃料電池電気自動車(fcev)のエネルギー管理は、特に4輪駆動(4wd)のfcevのタイプにおいて比較的非線形で複雑になる。 複雑な非線形システムの正確な状態観測は、FCEVにおける素晴らしいエネルギー管理の基礎となる。 FCEVの省エネ可能性の解放を目指して,4WD FCEV の学習型頑健なモデル予測制御 (LRMPC) 戦略が提案され,複数のエネルギー源間の適切な電力分配に寄与する。 機械学習(ML)に基づくよく設計された戦略は、非線形システムの知識を、より優れたロバストな性能を持つ明示的な制御スキームに翻訳する。 まず、SOCの正確な状態オブザーバを確立するために、高い回帰精度と優れた一般化能力を有するML手法をオフラインで訓練する。 次に、状態オブザーバが生成するSOCの明示的なデータテーブルを用いて、車両の状態と車両部品の状態を含む入力特性の正確な状態変化を把握する。 具体的には、将来の速度基準を提供するための車両速度推定を深い森林で構築する。 次に、明示的なデータテーブルと車両速度推定を含むコンポーネントをモデル予測制御(MPC)と組み合わせて、FCEVにおける多自由度システムのための最先端の省エネ能力を解放する。 最後に, LRMPCの進行性能を評価するため, シミュレーション試験において詳細な評価を行う。 以上の結果から, LRMPCの省エネ電位と高リアルタイム適用能力の最適制御効果が示された。

The multi-source electromechanical coupling makes the energy management of fuel cell electric vehicles (FCEVs) relatively nonlinear and complex especially in the types of 4-wheel-drive (4WD) FCEVs. Accurate state observing for complicated nonlinear system is the basis for fantastic energy managing in FCEVs. Aiming at releasing the energy-saving potential of FCEVs, a novel learning-based robust model predictive control (LRMPC) strategy is proposed for a 4WD FCEV, contributing to suitable power distribution among multiple energy sources. The well-designed strategy based on machine learning (ML) translates the knowledge of the nonlinear system to the explicit controlling scheme with superior robust performance. To start with, ML methods with high regression accuracy and superior generalization ability are trained offline to establish the precise state observer for SOC. Then, explicit data tables for SOC generated by state observer are used for grabbing accurate state changing, whose input features include the vehicle status and the states of vehicle components. To be specific, the vehicle velocity estimation for providing future speed reference is constructed by deep forest. Next, the components including explicit data tables and vehicle velocity estimation are combined with model predictive control (MPC) to release the state-of-the-art energy-saving ability for the multi-freedom system in FCEVs, whose name is LRMPC. At last, the detailed assessment is performed in simulation test to validate the advancing performance of LRMPC. The corresponding results highlight the optimal control effect in energy-saving potential and strong real-time application ability of LRMPC.
翻訳日:2022-09-13 14:06:54 公開日:2022-09-12
# 非ホモフィラスグラフのノード分類のためのグラフ多項式畳み込みモデル

Graph Polynomial Convolution Models for Node Classification of Non-Homophilous Graphs ( http://arxiv.org/abs/2209.05020v1 )

ライセンス: Link先を確認
Kishan Wimalawarne and Taiji Suzuki(参考訳) 本研究では,高階グラフ畳み込みによる効率的な学習と,ノード分類のための隣接行列から直接学習する。 グラフ残差ネットワークを再検討し、残差層からReLU活性化を除去し、各残差層に1つの重み行列を適用する。 得られたモデルが正規化隣接行列、残留重み行列、残留スケーリングパラメータの多項式として新しいグラフ畳み込みモデルをもたらすことを示す。 さらに,直接グラフ多項式畳み込みモデルと隣接行列から直接学習する適応学習を提案する。 さらに,各残留層におけるスケーリングパラメータを学習するための完全適応モデルを提案する。 提案手法の一般化境界は,固有値スペクトル,スケーリングパラメータ,残余重みの上限の多項式として有界であることを示す。 理論的解析により,提案モデルでは,畳み込みの高次化と隣接行列からの直接学習を制限し,一般化境界を改良することができると論じる。 提案手法は,多くの実データを用いて,非ホモフィルグラフのノード分類精度の向上を実証する。

We investigate efficient learning from higher-order graph convolution and learning directly from adjacency matrices for node classification. We revisit the scaled graph residual network and remove ReLU activation from residual layers and apply a single weight matrix at each residual layer. We show that the resulting model lead to new graph convolution models as a polynomial of the normalized adjacency matrix, the residual weight matrix, and the residual scaling parameter. Additionally, we propose adaptive learning between directly graph polynomial convolution models and learning directly from the adjacency matrix. Furthermore, we propose fully adaptive models to learn scaling parameters at each residual layer. We show that generalization bounds of proposed methods are bounded as a polynomial of eigenvalue spectrum, scaling parameters, and upper bounds of residual weights. By theoretical analysis, we argue that the proposed models can obtain improved generalization bounds by limiting the higher-orders of convolutions and direct learning from the adjacency matrix. Using a wide set of real-data, we demonstrate that the proposed methods obtain improved accuracy for node-classification of non-homophilous graphs.
翻訳日:2022-09-13 14:06:28 公開日:2022-09-12
# 責任あるAIパターンカタログ:多言語文献レビュー

Responsible AI Pattern Catalogue: a Multivocal Literature Review ( http://arxiv.org/abs/2209.04963v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle, Didar Zowghi, Aurelie Jacquet(参考訳) 責任あるAIは、我々の時代における最大の科学的課題の1つであり、AI市場を解き放ち、導入を促進する鍵であると考えられてきた。 責任あるAI課題に対処するため、最近、AIシステムが従うはずのAI倫理原則フレームワークが多数公開された。 しかし、それ以上のベストプラクティスの指導がなければ、実践者は残らず残される。 また、アルゴリズムレベルでの重要な取り組みはシステムレベルではなく、主に数学に適応可能な倫理原則(プライバシーや公正性など)のサブセットに焦点を当てている。 それでも、倫理的な問題は、AIアルゴリズムやモデル以外のシステムの多くのAI、非AI、データコンポーネントを横断する開発ライフサイクルの任意のステップで起こりうる。 本稿では、システムの観点から責任あるAIを運用するために、パターン指向のアプローチを採用し、体系的多言語文学レビュー(MLR)の結果に基づいて責任あるAIパターンカタログを示す。 倫理的原理レベルやアルゴリズムレベルに留まらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。 責任あるaiパターンカタログは、パターンを3つのグループに分類する。 これらのパターンは、ステークホルダーが責任あるAIを実装するための体系的で実行可能なガイダンスを提供する。

Responsible AI has been widely considered as one of the greatest scientific challenges of our time and the key to unlock the AI market and increase the adoption. To address the responsible AI challenge, a number of AI ethics principles frameworks have been published recently, which AI systems are supposed to conform to. However, without further best practice guidance, practitioners are left with nothing much beyond truisms. Also, significant efforts have been placed at algorithm-level rather than system-level, mainly focusing on a subset of mathematics-amenable ethical principles (such as privacy and fairness). Nevertheless, ethical issues can occur at any step of the development lifecycle crosscutting many AI, non-AI and data components of systems beyond AI algorithms and models. To operationalize responsible AI from a system perspective, in this paper, we adopt a pattern-oriented approach and present a Responsible AI Pattern Catalogue based on the results of a systematic Multivocal Literature Review (MLR). Rather than staying at the ethical principle level or algorithm level, we focus on patterns that AI system stakeholders can undertake in practice to ensure that the developed AI systems are responsible throughout the entire governance and engineering lifecycle. The Responsible AI Pattern Catalogue classifies patterns into three groups: multi-level governance patterns, trustworthy process patterns, and responsible-AI-by-design product patterns. These patterns provide a systematic and actionable guidance for stakeholders to implement responsible AI.
翻訳日:2022-09-13 14:02:44 公開日:2022-09-12
# マルチモーダルストリーミング3Dオブジェクト検出

Multi-modal Streaming 3D Object Detection ( http://arxiv.org/abs/2209.04966v1 )

ライセンス: Link先を確認
Mazen Abdelfattah, Kaiwen Yuan, Z. Jane Wang, and Rabab Ward(参考訳) 現代の自動運転車は知覚のために機械式LiDARに大きく依存している。 現在の知覚法は一般に360{\deg}点雲を必要とし、LiDARが方位をスキャンして連続的なくさび形スライスを取得するために順次収集される。 フルスキャン(約100ms)の取得遅延は、安全操作に有害な時代遅れの知覚につながる可能性がある。 近年,LiDARスライスを直接処理し,先行するスライスの特徴を再利用して,スライスの狭い視野(FOV)を補償するストリーミング認識技術が提案されている。 しかし、これらの作品は全て単一のモダリティに基づいており、古い情報を必要とする。 一方、高周波カメラの画像は、LiDARスライスに比べて大きなFoVを提供するため、ストリーミングモデルをサポートすることができる。 しかし、このFoVの違いはセンサー融合を複雑にする。 そこで本研究では,従来のLiDARスライスの代わりにカメラ画像を用いて,最新の高密度・広視野のストリーミング知覚を実現する,革新的なカメラ-LiDARストリーミング3Dオブジェクト検出フレームワークを提案する。 提案手法は,難解なnuscenesベンチマークで先行するストリーミングモデルを上回る。 また、強力なフルスキャン検出器よりも高速である。 提案手法は, カメラ画像の欠落, 狭いLiDARスライス, 小型カメラとLiDARの誤校正に対する堅牢性を示す。

Modern autonomous vehicles rely heavily on mechanical LiDARs for perception. Current perception methods generally require 360{\deg} point clouds, collected sequentially as the LiDAR scans the azimuth and acquires consecutive wedge-shaped slices. The acquisition latency of a full scan (~ 100ms) may lead to outdated perception which is detrimental to safe operation. Recent streaming perception works proposed directly processing LiDAR slices and compensating for the narrow field of view (FOV) of a slice by reusing features from preceding slices. These works, however, are all based on a single modality and require past information which may be outdated. Meanwhile, images from high-frequency cameras can support streaming models as they provide a larger FoV compared to a LiDAR slice. However, this difference in FoV complicates sensor fusion. To address this research gap, we propose an innovative camera-LiDAR streaming 3D object detection framework that uses camera images instead of past LiDAR slices to provide an up-to-date, dense, and wide context for streaming perception. The proposed method outperforms prior streaming models on the challenging NuScenes benchmark. It also outperforms powerful full-scan detectors while being much faster. Our method is shown to be robust to missing camera images, narrow LiDAR slices, and small camera-LiDAR miscalibration.
翻訳日:2022-09-13 13:57:38 公開日:2022-09-12
# 可逆的アクティベーション変換による高忠実度可変レート画像圧縮

High-Fidelity Variable-Rate Image Compression via Invertible Activation Transformation ( http://arxiv.org/abs/2209.05054v1 )

ライセンス: Link先を確認
Shilv Cai, Zhijun Zhang, Liqun Chen, Luxin Yan, Sheng Zhong, Xu Zou(参考訳) 学習に基づく手法は、画像圧縮のコミュニティを効果的に促進している。 一方、変分オートエンコーダ(VAE)に基づく可変レートアプローチは、最近、様々な圧縮速度で異なるネットワークのセットの使用を避けるために多くの注目を集めている。 達成された顕著な性能にもかかわらず、複数の圧縮/圧縮操作が実行されると、これらのアプローチは容易に破損し、画像の品質が大幅に低下し、強力なアーティファクトが現れることになる。 そこで我々は,高忠実度微細可変レート画像圧縮の問題に取り組み,Invertible Activation Transformation (IAT)モジュールを提案する。 我々は、単一レートの非可逆ニューラルネットワーク(INN)モデルに基づいて、IATを数学的に非可逆的に実装し、その品質レベル(QLevel)をIATに供給し、スケーリングとバイアステンソルを生成する。 iatとqlevelは画像圧縮モデルに、画像の忠実性を維持しつつ、微妙な可変レート制御の能力を与える。 広範な実験により,iatモジュールを搭載した単一レート画像圧縮モデルが,妥協することなく可変レート制御を実現することを実証した。 IAT埋め込みモデルでは,最近の画像圧縮手法と同等の速度歪み特性が得られる。 さらに,本手法は,特に複数再符号化後に,最先端の可変レート画像圧縮手法よりも高い性能を示す。

Learning-based methods have effectively promoted the community of image compression. Meanwhile, variational autoencoder (VAE) based variable-rate approaches have recently gained much attention to avoid the usage of a set of different networks for various compression rates. Despite the remarkable performance that has been achieved, these approaches would be readily corrupted once multiple compression/decompression operations are executed, resulting in the fact that image quality would be tremendously dropped and strong artifacts would appear. Thus, we try to tackle the issue of high-fidelity fine variable-rate image compression and propose the Invertible Activation Transformation (IAT) module. We implement the IAT in a mathematical invertible manner on a single rate Invertible Neural Network (INN) based model and the quality level (QLevel) would be fed into the IAT to generate scaling and bias tensors. IAT and QLevel together give the image compression model the ability of fine variable-rate control while better maintaining the image fidelity. Extensive experiments demonstrate that the single rate image compression model equipped with our IAT module has the ability to achieve variable-rate control without any compromise. And our IAT-embedded model obtains comparable rate-distortion performance with recent learning-based image compression methods. Furthermore, our method outperforms the state-of-the-art variable-rate image compression method by a large margin, especially after multiple re-encodings.
翻訳日:2022-09-13 13:57:14 公開日:2022-09-12
# BON:人間活動認識のための拡張パブリックドメインデータセット

BON: An extended public domain dataset for human activity recognition ( http://arxiv.org/abs/2209.05077v1 )

ライセンス: Link先を確認
Girmaw Abebe Tadesse and Oliver Bent and Komminist Weldemariam and Md. Abrar Istiak and Taufiq Hasan and Andrea Cavallaro(参考訳) fpv(body-worn first-person vision)カメラは、対象者の視点から環境に関する情報の豊富なソースを抽出することができる。 しかし、ウェアラブルカメラを用いたオフィス活動理解の研究の進展は、オフィス環境における人間活動認識のためのより高度な(ディープラーニングなど)モデルをトレーニングするための十分なデータセットが欠如していることから、他の活動環境(キッチンや屋外避難室など)と比較して遅い。 本稿では,バルセロナ (spain), オックスフォード (uk), ナイロビ (kenya) の3か所において, 胸部に搭載されたgopro heroカメラを用いて, さまざまなオフィス設定で収集した大規模かつ一般公開されたoffice activity dataset (bon)の詳細について述べる。 BONデータセットには18の共通オフィスアクティビティが含まれており、人対人インタラクション(例えば、同僚とのチャット)、人対物(例えば、ホワイトボードに書き込む)、先天受容性(例えばウォーキング)に分類できる。 アノテーションは、ビデオの各セグメントに5秒の期間で提供される。 BONには25の被験者と2639のセグメントが含まれる。 サブドメインのさらなる研究を促進するために、将来の研究のベースラインとして使用できる結果も提供しました。

Body-worn first-person vision (FPV) camera enables to extract a rich source of information on the environment from the subject's viewpoint. However, the research progress in wearable camera-based egocentric office activity understanding is slow compared to other activity environments (e.g., kitchen and outdoor ambulatory), mainly due to the lack of adequate datasets to train more sophisticated (e.g., deep learning) models for human activity recognition in office environments. This paper provides details of a large and publicly available office activity dataset (BON) collected in different office settings across three geographical locations: Barcelona (Spain), Oxford (UK) and Nairobi (Kenya), using a chest-mounted GoPro Hero camera. The BON dataset contains eighteen common office activities that can be categorised into person-to-person interactions (e.g., Chat with colleagues), person-to-object (e.g., Writing on a whiteboard), and proprioceptive (e.g., Walking). Annotation is provided for each segment of video with 5-seconds duration. Generally, BON contains 25 subjects and 2639 total segments. In order to facilitate further research in the sub-domain, we have also provided results that could be used as baselines for future studies.
翻訳日:2022-09-13 13:56:52 公開日:2022-09-12
# 空間的登録を伴う男性骨盤骨盤構造の原型的少数ショットセグメンテーション

Prototypical few-shot segmentation for cross-institution male pelvic structures with spatial registration ( http://arxiv.org/abs/2209.05160v1 )

ライセンス: Link先を確認
Yiwen Li, Yunguan Fu, Iani Gayo, Qianye Yang, Zhe Min, Shaheer Saeed, Wen Yan, Yipei Wang, J. Alison Noble, Mark Emberton, Matthew J. Clarkson, Henkjan Huisman, Dean Barratt, Victor Adrian Prisacariu, Yipeng Hu(参考訳) 医用画像解析において、少ないショットラーニングを望ましいものにする技術は、サポート画像データの効率的な利用であり、新しいクラスを分類または分割するためにラベル付けされている。 この研究は、訓練されたネットワークが、訓練中に欠落している臨床的に興味深い構造に効果的に適応できるように、完全に3次元のプロトタイプな少数ショットセグメンテーションアルゴリズムを記述する。 第一に、新しいクラスのエピソディックな適応における制度間の広く認められた空間変動を補うために、新しい空間登録機構を、セグメンテーションヘッドと空間アライメントモジュールからなる原型学習に統合する。 第2に,不完全なアライメントによるトレーニングを支援するため,サポートマスクコンディショニングモジュールを提案し,サポート画像から利用可能なアノテーションをさらに活用する。 7つの施設で取得した589個の骨盤T2強調MR画像のデータセットを用いて、介入計画に重要な8つの解剖学的構造を分割する実験を行った。 その結果,3次元の定式化,空間登録,サポートマスクコンディショニングの各効果が示され,それぞれが独立的あるいは集団的に正の貢献をした。 従来提案されていた2D代替機と比較して,支援データが同一または異なる機関からのものであっても,統計的に有意な差がみられた。

The prowess that makes few-shot learning desirable in medical image analysis is the efficient use of the support image data, which are labelled to classify or segment new classes, a task that otherwise requires substantially more training images and expert annotations. This work describes a fully 3D prototypical few-shot segmentation algorithm, such that the trained networks can be effectively adapted to clinically interesting structures that are absent in training, using only a few labelled images from a different institute. First, to compensate for the widely recognised spatial variability between institutions in episodic adaptation of novel classes, a novel spatial registration mechanism is integrated into prototypical learning, consisting of a segmentation head and an spatial alignment module. Second, to assist the training with observed imperfect alignment, support mask conditioning module is proposed to further utilise the annotation available from the support images. Extensive experiments are presented in an application of segmenting eight anatomical structures important for interventional planning, using a data set of 589 pelvic T2-weighted MR images, acquired at seven institutes. The results demonstrate the efficacy in each of the 3D formulation, the spatial registration, and the support mask conditioning, all of which made positive contributions independently or collectively. Compared with the previously proposed 2D alternatives, the few-shot segmentation performance was improved with statistical significance, regardless whether the support data come from the same or different institutes.
翻訳日:2022-09-13 13:56:21 公開日:2022-09-12
# 負面カメラの姿勢誘導ループクロージャ

Attitude-Guided Loop Closure for Cameras with Negative Plane ( http://arxiv.org/abs/2209.05167v1 )

ライセンス: Link先を確認
Ze Wang, Kailun Yang, Peng Li, Fei Gao, Kaiwei Wang(参考訳) ループクロージャは、同時局在マッピング(SLAM)システムの重要なコンポーネントである。 大規模視野カメラ(FoV)は、パノラマ画像上のより周囲の機能を活用できるため、SLAMフィールドで広く注目を集めている。 パノラマレンズの負面に位置する情報的手がかりを組み込む大FoV VIOにおいて、画像特徴を単位長の3次元ベクトルで表現する。 パノラマFoVはループ閉鎖に有利であるように見えるが、ループ閉鎖フレームが既存の方法とほとんど一致しない大角度角度差では、その利点は容易に実現できない。 本研究では,超広帯域FoVの可能性を完全に解き放つために,VIOシステムの姿勢情報を活用し,ループ閉包の特徴点検出を導くことを提案する。 広範囲パノラマデータのループクロージャは、さらに多くの外れ値を伴うため、従来の外れ値拒否法は直接適用されない。 この問題に対処するために, LF-VIO の精度を向上させるために, 単位長表現に基づく新しい外乱除去手法を用いたループクロージャフレームワークを提案する。 パブリックなPALVIOデータセットでは、包括的な実験が実施され、提案したLF-VIO-Loopは最先端のビジュアル慣性オードメトリー法より優れている。 私たちのコードはhttps://github.com/flysoaryun/LF-VIO-Loop.comでオープンソース化されます。

Loop closure is an important component of Simultaneous Localization and Mapping (SLAM) systems. Large Field-of-View (FoV) cameras have received extensive attention in the SLAM field as they can exploit more surrounding features on the panoramic image. In large-FoV VIO, for incorporating the informative cues located on the negative plane of the panoramic lens, image features are represented by a three-dimensional vector with a unit length. While the panoramic FoV is seemingly advantageous for loop closure, the benefits cannot easily be materialized under large-attitude-angle differences, where loop-closure frames can hardly be matched by existing methods. In this work, to fully unleash the potential of ultra-wide FoV, we propose to leverage the attitude information of a VIO system to guide the feature point detection of the loop closure. As loop closure on wide-FoV panoramic data further comes with a large number of outliers, traditional outlier rejection methods are not directly applicable. To tackle this issue, we propose a loop closure framework with a new outlier rejection method based on the unit length representation, to improve the accuracy of LF-VIO. On the public PALVIO dataset, a comprehensive set of experiments is carried out and the proposed LF-VIO-Loop outperforms state-of-the-art visual-inertial-odometry methods. Our code will be open-sourced at https://github.com/flysoaryun/LF-VIO-Loop.
翻訳日:2022-09-13 13:55:55 公開日:2022-09-12
# 画像のインパルスノイズ除去のための低ランク先行法とl0法則

Low rank prior and l0 norm to remove impulse noise in images ( http://arxiv.org/abs/2209.05234v1 )

ライセンス: Link先を確認
Haijuan Hu(参考訳) パッチベースの低ランクは画像処理の重要な前提である。 さらに,この計算により,l0ノルムの最適化は,ランダム値のインパルス雑音下での最大推定値に対応する。 本稿では,ノイズ除去のための厳密なランクとl0ノルムを組み合わせた。 初期画像を生成するパッチベース重み付きフィルタ (PWMF) を用いて, 乗算器の交互方向法 (ADMM) を正式に用いた。 このモデルは凸ではないため、プラグ・アンド・プレイADMMとみなし、理論的収束性について論じない。 実験により、この手法は特に弱いコントラスト画像や中型のコントラスト画像に対して非常に優れた性能を示す。

Patch-based low rank is an important prior assumption for image processing. Moreover, according to our calculation, the optimization of l0 norm corresponds to the maximum likelihood estimation under random-valued impulse noise. In this article, we thus combine exact rank and l0 norm for removing the noise. It is solved formally using the alternating direction method of multipliers (ADMM), with our previous patch-based weighted filter (PWMF) producing initial images. Since this model is not convex, we consider it as a Plug-and-Play ADMM, and do not discuss theoretical convergence properties. Experiments show that this method has very good performance, especially for weak or medium contrast images.
翻訳日:2022-09-13 13:55:29 公開日:2022-09-12
# マルチバックドア検出のための適応摂動生成

Adaptive Perturbation Generation for Multiple Backdoors Detection ( http://arxiv.org/abs/2209.05244v1 )

ライセンス: Link先を確認
Yuhang Wang, Huafeng Shi, Rui Min, Ruijia Wu, Siyuan Liang, Yichao Wu, Ding Liang and Aishan Liu(参考訳) ディープニューラルネットワーク(dnn)はバックドア攻撃に対して脆弱であり、バックドア検出法の開発を動機付ける広範な証拠がある。 既存のバックドア検出方法は通常、個々の特定のタイプ(例えばパッチベースまたは摂動ベース)によるバックドア攻撃に適合する。 しかし、敵は実際には複数の種類のバックドア攻撃を発生させ、現在の検出戦略に挑戦する可能性がある。 本稿では,逆行性摂動がトリガーパターンと高い相関関係にあることを踏まえて,逆行性摂動を適応的に注入して複数種類のバックドア攻撃を検出する適応摂動生成(apg)フレームワークを提案する。 異なるトリガーパターンは、同じ対向的摂動の下で非常に多様な振る舞いを示すことが判明したので、まず、地域や攻撃予算を調整することで、複数の種類のバックドアトリガーに適合するグローバル・ローカル戦略を設計する。 摂動注入の効率をさらに高めるために,逆襲の最適領域を探索するための勾配誘導マスク生成戦略を提案する。 複数のデータセット(CIFAR-10, GTSRB, Tiny-ImageNet)で実施した大規模な実験により,本手法は最先端のベースライン(+12%)よりも優れていた。

Extensive evidence has demonstrated that deep neural networks (DNNs) are vulnerable to backdoor attacks, which motivates the development of backdoor detection methods. Existing backdoor detection methods are typically tailored for backdoor attacks with individual specific types (e.g., patch-based or perturbation-based). However, adversaries are likely to generate multiple types of backdoor attacks in practice, which challenges the current detection strategies. Based on the fact that adversarial perturbations are highly correlated with trigger patterns, this paper proposes the Adaptive Perturbation Generation (APG) framework to detect multiple types of backdoor attacks by adaptively injecting adversarial perturbations. Since different trigger patterns turn out to show highly diverse behaviors under the same adversarial perturbations, we first design the global-to-local strategy to fit the multiple types of backdoor triggers via adjusting the region and budget of attacks. To further increase the efficiency of perturbation injection, we introduce a gradient-guided mask generation strategy to search for the optimal regions for adversarial attacks. Extensive experiments conducted on multiple datasets (CIFAR-10, GTSRB, Tiny-ImageNet) demonstrate that our method outperforms state-of-the-art baselines by large margins(+12%).
翻訳日:2022-09-13 13:55:18 公開日:2022-09-12
# TrackletMapper: 交通参加軌道からの地表面のセグメンテーションとマッピング

TrackletMapper: Ground Surface Segmentation and Mapping from Traffic Participant Trajectories ( http://arxiv.org/abs/2209.05247v1 )

ライセンス: Link先を確認
Jannik Z\"urn, Sebastian Weber, Wolfram Burgard(参考訳) 道路や横断歩道などの地上インフラのロバストな分類は、歩行者と一緒に動く移動ロボットにとって必須の課題である。 多くのセマンティックセグメンテーションデータセットが自動運転車で利用可能であるが、そのようなデータセットで訓練されたモデルは、歩行者空間で動くロボットにデプロイされるときに大きなドメインギャップを示す。 歩行者の観点から記録された手動の注釈画像は高価で時間を要する。 この課題を克服するために, 歩道, 道路, 踏切などの地表面タイプを, 人手による注釈データを必要としないアノテートするフレームワークであるtrackletmapperを提案する。 そこで本研究では,ロボットのエゴトラジェクタリーと他のトラヒック参加者の経路をエゴビューカメラ画像に投影し,地上セグメンテーションモデルを訓練可能な複数種類の地上面に対してスパースな意味的アノテーションを作成する。 さらに, 地表面地図を集約し, カメラ画像に投影することで, さらなる性能向上のために自己蒸留を行い, スパーストラックレットアノテーションと比較してより密集した訓練アノテーションを作成できることを示した。 歩行者エリアで動作する移動ロボットのための大規模データセットについて,定性的かつ定量的に検証した。 コードとデータセットはhttp://trackletmapper.cs.uni-freiburg.deで公開される。

Robustly classifying ground infrastructure such as roads and street crossings is an essential task for mobile robots operating alongside pedestrians. While many semantic segmentation datasets are available for autonomous vehicles, models trained on such datasets exhibit a large domain gap when deployed on robots operating in pedestrian spaces. Manually annotating images recorded from pedestrian viewpoints is both expensive and time-consuming. To overcome this challenge, we propose TrackletMapper, a framework for annotating ground surface types such as sidewalks, roads, and street crossings from object tracklets without requiring human-annotated data. To this end, we project the robot ego-trajectory and the paths of other traffic participants into the ego-view camera images, creating sparse semantic annotations for multiple types of ground surfaces from which a ground segmentation model can be trained. We further show that the model can be self-distilled for additional performance benefits by aggregating a ground surface map and projecting it into the camera images, creating a denser set of training annotations compared to the sparse tracklet annotations. We qualitatively and quantitatively attest our findings on a novel large-scale dataset for mobile robots operating in pedestrian areas. Code and dataset will be made available at http://trackletmapper.cs.uni-freiburg.de.
翻訳日:2022-09-13 13:54:52 公開日:2022-09-12
# StructNeRF: 構造ヒントを有する屋内シーンのためのニューラルラジアンス場

StructNeRF: Neural Radiance Fields for Indoor Scenes with Structural Hints ( http://arxiv.org/abs/2209.05277v1 )

ライセンス: Link先を確認
Zheng Chen, Chen Wang, Yuan-Chen Guo, Song-Hai Zhang(参考訳) ニューラルレージアンス場(NeRF)は、高密度に撮像された入力画像を用いて光リアルなビュー合成を実現する。 しかし,NeRFの形状はスパースビューによって非常に制約が低く,新規なビュー合成品質が著しく低下する。 自己教師付き深度推定法に着想を得たSructNeRFを提案する。 StructNeRFは、自然にマルチビュー入力に埋め込まれた構造的ヒントを利用して、NeRFの制約のない幾何学的問題に対処する。 具体的には、テクスチャ領域と非テクスチャ領域にそれぞれ取り組む: テクスチャ領域の幾何学を制約するために、パッチベースのマルチビュー整合光度損失を提案する; 非テクスチャ領域では、それらを3次元一貫した平面として明示的に制限する。 本手法は,高密度自己監督深度制約により,外部データに付加的な訓練を加えることなく,NeRFの幾何およびビュー合成性能を向上する。 いくつかの実世界のデータセットに関する広範囲な実験により、structnerfは、量的にも質的にもまばらな入力を持つ屋内シーンの最先端の手法を上回っていることが示されている。

Neural Radiance Fields (NeRF) achieve photo-realistic view synthesis with densely captured input images. However, the geometry of NeRF is extremely under-constrained given sparse views, resulting in significant degradation of novel view synthesis quality. Inspired by self-supervised depth estimation methods, we propose StructNeRF, a solution to novel view synthesis for indoor scenes with sparse inputs. StructNeRF leverages the structural hints naturally embedded in multi-view inputs to handle the unconstrained geometry issue in NeRF. Specifically, it tackles the texture and non-texture regions respectively: a patch-based multi-view consistent photometric loss is proposed to constrain the geometry of textured regions; for non-textured ones, we explicitly restrict them to be 3D consistent planes. Through the dense self-supervised depth constraints, our method improves both the geometry and the view synthesis performance of NeRF without any additional training on external data. Extensive experiments on several real-world datasets demonstrate that StructNeRF surpasses state-of-the-art methods for indoor scenes with sparse inputs both quantitatively and qualitatively.
翻訳日:2022-09-13 13:54:29 公開日:2022-09-12
# ビデオによる深層学習による太陽フレア予測

Operational solar flare forecasting via video-based deep learning ( http://arxiv.org/abs/2209.05128v1 )

ライセンス: Link先を確認
Sabrina Guastavino, Francesco Marchetti, Federico Benvenuto, Cristina Campi, Michele Piana(参考訳) 運用フレア予報(operational flare forecasting)は、フレアの発生による宇宙の天候への影響に関する意思決定に使用できる予測を提供することを目標としている。 本研究は、太陽周期の周期性を考慮したネットワーク最適化のためのトレーニングと検証セットが生成される場合に、映像ベースのディープラーニングを運用目的に使用できることを示す。 具体的には、特定のサイクルフェーズに関連するフレアクラス率に応じてバランスの取れたアクティブな領域の集合を構築するために適用可能なアルゴリズムについて述べる。 これらのセットは、畳み込みニューラルネットワークとLong-Short Memory Networkを組み合わせた長期反復畳み込みネットワークをトレーニングし、検証するために使用される。 このアプローチの信頼性は、それぞれ2015年3月と2017年9月の太陽嵐を含む2つの予測ウィンドウで評価される。

Operational flare forecasting aims at providing predictions that can be used to make decisions, typically at a daily scale, about the space weather impacts of flare occurrence. This study shows that video-based deep learning can be used for operational purposes when the training and validation sets used for the network optimization are generated while accounting for the periodicity of the solar cycle. Specifically, the paper describes an algorithm that can be applied to build up sets of active regions that are balanced according to the flare class rates associated to a specific cycle phase. These sets are used to train and validate a Long-term Recurrent Convolutional Network made of a combination of a convolutional neural network and a Long-Short Memory network. The reliability of this approach is assessed in the case of two prediction windows containing the solar storm of March 2015 and September 2017, respectively.
翻訳日:2022-09-13 13:51:47 公開日:2022-09-12
# Visual-SLAM:幾何学的モデリングから学習に基づくセマンティックシーン理解への展開

A Review on Visual-SLAM: Advancements from Geometric Modelling to Learning-based Semantic Scene Understanding ( http://arxiv.org/abs/2209.05222v1 )

ライセンス: Link先を確認
Tin Lai(参考訳) SLAMは、ロボットが地図に関して自身を同時に位置づけしながら、これまで見えない環境を再構築する必要がある自律移動ロボットの基本的な問題の一つである。 特にvisual-slamは、移動ロボットの様々なセンサーを使用して地図の表現を収集し、センシングする。 従来、幾何学的モデルに基づく手法はSLAM問題に対処するために用いられてきた。 ディープラーニング技術などのコンピュータビジョンの最近の進歩は、Visual-SLAM問題に取り組むためのデータ駆動型アプローチを提供してきた。 このレビューは、様々な学習手法を用いて、Visual-SLAMドメインの最近の進歩を要約する。 まず、幾何モデルに基づくアプローチの簡潔な概要と、SLAMの現在のパラダイムに関する技術的レビューから始めます。 次に,移動ロボットから知覚入力を収集し,シーン理解を行うための学習に基づくアプローチを提案する。 ディープラーニングに基づく意味理解の現在のパラダイムを議論し、ビジュアルスラムの文脈下に置く。 最後に、Visual-SLAMにおける学習ベースのアプローチの方向性に関する課題とさらなる機会について論じる。

Simultaneous Localisation and Mapping (SLAM) is one of the fundamental problems in autonomous mobile robots where a robot needs to reconstruct a previously unseen environment while simultaneously localising itself with respect to the map. In particular, Visual-SLAM uses various sensors from the mobile robot for collecting and sensing a representation of the map. Traditionally, geometric model-based techniques were used to tackle the SLAM problem, which tends to be error-prone under challenging environments. Recent advancements in computer vision, such as deep learning techniques, have provided a data-driven approach to tackle the Visual-SLAM problem. This review summarises recent advancements in the Visual-SLAM domain using various learning-based methods. We begin by providing a concise overview of the geometric model-based approaches, followed by technical reviews on the current paradigms in SLAM. Then, we present the various learning-based approaches to collecting sensory inputs from mobile robots and performing scene understanding. The current paradigms in deep-learning-based semantic understanding are discussed and placed under the context of Visual-SLAM. Finally, we discuss challenges and further opportunities in the direction of learning-based approaches in Visual-SLAM.
翻訳日:2022-09-13 13:51:34 公開日:2022-09-12
# スマートパームツリー検出のための人工知能技術の活用:10年にわたるシステムレビュー

Leveraging Artificial Intelligence Techniques for Smart Palm Tree Detection: A Decade Systematic Review ( http://arxiv.org/abs/2209.05282v1 )

ライセンス: Link先を確認
Yosra Hajjaji, Wadii Boulila, Imed Riadh Farah(参考訳) 過去数年間、農業分野への総金融投資は大幅に増加している。 ヤシの木は多くの国の経済、特に北アフリカや中東において重要である。 ヤシの木の検出と計数に関するモニタリングは、様々なステークホルダーにとって有用な情報を提供する。作物の品質向上と害虫、病気、灌水、その他の潜在的な脅威の防止のために、収量推定と検査に役立つ。 その重要性にもかかわらず、この情報は依然として入手が困難である。 本研究は,2011年から2021年にかけてのスマートヤシ検出のためのAI技術に関する研究論文を体系的にレビューした。 4段階選択プロセスに基づくPRISMA手法を用いて系統的レビュー(SR)を行った。 2つの主な研究課題に答えるために,検索戦略から到達した合成活動について,包括的基準とともに22項目を収録した。 この研究の結果、過去10年間のヤシの木検出における人工知能の適用パターン、関係、ネットワーク、トレンドが明らかになった。 ほとんどの研究で良い結果が出たにもかかわらず、大規模なヤシプランテーションの効率的かつ効率的な管理は依然として課題である。 また、特に北アフリカにおいて、知的手のひらサービスに強い経済関係を持つ国は、この種の研究にもっと注意を払うべきである。 この研究の結果は、研究コミュニティと利害関係者の両方に利益をもたらす可能性がある。

Over the past few years, total financial investment in the agricultural sector has increased substantially. Palm tree is important for many countries' economies, particularly in northern Africa and the Middle East. Monitoring in terms of detection and counting palm trees provides useful information for various stakeholders; it helps in yield estimation and examination to ensure better crop quality and prevent pests, diseases, better irrigation, and other potential threats. Despite their importance, this information is still challenging to obtain. This study systematically reviews research articles between 2011 and 2021 on artificial intelligence (AI) technology for smart palm tree detection. A systematic review (SR) was performed using the PRISMA approach based on a four-stage selection process. Twenty-two articles were included for the synthesis activity reached from the search strategy alongside the inclusion criteria in order to answer to two main research questions. The study's findings reveal patterns, relationships, networks, and trends in applying artificial intelligence in palm tree detection over the last decade. Despite the good results in most of the studies, the effective and efficient management of large-scale palm plantations is still a challenge. In addition, countries whose economies strongly related to intelligent palm services, especially in North Africa, should give more attention to this kind of study. The results of this research could benefit both the research community and stakeholders.
翻訳日:2022-09-13 13:51:16 公開日:2022-09-12
# ワッサーシュタイン分布学習

Wasserstein Distributional Learning ( http://arxiv.org/abs/2209.04991v1 )

ライセンス: Link先を確認
Chengliang Tang, Nathan Lenssen, Ying Wei, Tian Zheng(参考訳) 学習条件密度と分布全体に影響を及ぼす要因は、データ駆動型アプリケーションにおいて不可欠である。 従来のアプローチは主に要約統計を扱うため、包括的な調査には不十分である。 近年,密度曲線を関数的結果としてモデル化する関数回帰法が開発されている。 そのようなモデルを開発する上での大きな課題は、密度結果の関数空間に対する非ネガティビティの固有の制約と単位積分である。 この根本的な問題を解決するために、ワッサースタイン距離$W_2$から始まるフレキシブルな密度オンスカラー回帰モデリングフレームワークであるワッサースタイン分布学習(WDL)を提案する。 次に、半パラメトリック条件ガウス混合モデル(SCGMM)の不均一で柔軟なクラスをモデルクラス $\mathfrak{F} \otimes \mathcal{T}$ として導入する。 結果として得られる距離空間 $(\mathfrak{f} \otimes \mathcal{t}, w_2)$ は必要制約を満たし、高密度で閉な部分空間を提供する。 提案モデルに適合させるために,増木を用いた偏極最適化に基づく効率的なアルゴリズムを更に開発する。 従来の文献と比較すると、WDLは条件密度の非線形依存性とそれらの導出した要約統計をよりよく特徴づけ、明らかにしている。 シミュレーションと実世界の応用を通してWDLフレームワークの有効性を示す。

Learning conditional densities and identifying factors that influence the entire distribution are vital tasks in data-driven applications. Conventional approaches work mostly with summary statistics, and are hence inadequate for a comprehensive investigation. Recently, there have been developments on functional regression methods to model density curves as functional outcomes. A major challenge for developing such models lies in the inherent constraint of non-negativity and unit integral for the functional space of density outcomes. To overcome this fundamental issue, we propose Wasserstein Distributional Learning (WDL), a flexible density-on-scalar regression modeling framework that starts with the Wasserstein distance $W_2$ as a proper metric for the space of density outcomes. We then introduce a heterogeneous and flexible class of Semi-parametric Conditional Gaussian Mixture Models (SCGMM) as the model class $\mathfrak{F} \otimes \mathcal{T}$. The resulting metric space $(\mathfrak{F} \otimes \mathcal{T}, W_2)$ satisfies the required constraints and offers a dense and closed functional subspace. For fitting the proposed model, we further develop an efficient algorithm based on Majorization-Minimization optimization with boosted trees. Compared with methods in the previous literature, WDL better characterizes and uncovers the nonlinear dependence of the conditional densities, and their derived summary statistics. We demonstrate the effectiveness of the WDL framework through simulations and real-world applications.
翻訳日:2022-09-13 13:50:57 公開日:2022-09-12
# 近似勾配および/またはノイズ測定によるバッチ確率勾配降下法の収束:理論と計算結果

Convergence of Batch Stochastic Gradient Descent Methods with Approximate Gradients and/or Noisy Measurements: Theory and Computational Results ( http://arxiv.org/abs/2209.05372v1 )

ライセンス: Link先を確認
Rajeeva L. Karandikar, Tadipatri Uday Kiran Reddy and M. Vidyasagar(参考訳) 本稿では,BSGD(Block Stochastic Gradient Descent)と呼ばれる一般式を用いた凸最適化について検討する。 各イテレーションでは、引数のすべてのコンポーネントが更新されるが、必要ではない部分もある。 アップデートの方向性は2つの可能性の1つだ。 (i)真の勾配のノイズによる測定、又は (i) 1次近似を用いて計算された近似勾配は、ノイズによって自分自身が破損する可能性のある関数値を用いて計算される。 この定式化は、現在使われている確率勾配法の大部分を取り入れている。 我々は,確率近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。 次に,予測収束を数値実験により検証する。 その結果、近似勾配を用いるとbsgdは収束し、運動量に基づく手法は分岐する。 しかしながら、我々のBSGDだけでなく、標準(完全更新)勾配降下や様々な運動量に基づく手法も、ノイズのある勾配でも収束する。

In this paper, we study convex optimization using a very general formulation called BSGD (Block Stochastic Gradient Descent). At each iteration, some but not necessary all components of the argument are updated. The direction of the update can be one of two possibilities: (i) A noise-corrupted measurement of the true gradient, or (ii) an approximate gradient computed using a first-order approximation, using function values that might themselves be corrupted by noise. This formulation embraces most of the currently used stochastic gradient methods. We establish conditions for BSGD to converge to the global minimum, based on stochastic approximation theory. Then we verify the predicted convergence through numerical experiments. Out results show that when approximate gradients are used, BSGD converges while momentum-based methods can diverge. However, not just our BSGD, but also standard (full-update) gradient descent, and various momentum-based methods, all converge, even with noisy gradients.
翻訳日:2022-09-13 13:50:35 公開日:2022-09-12
# VarArrayとt-SOT: 遠隔会話音声認識の最先端化

VarArray Meets t-SOT: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition ( http://arxiv.org/abs/2209.04974v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Jian Wu, Xiaofei Wang, Zhuo Chen, Jinyu Li, Takuya Yoshioka(参考訳) 本稿では,遠隔マイクロホンアレーで任意の形状のマルチトーカ重畳音声に対して,ストリーミング型自動音声認識(asr)フレームワークを提案する。 このフレームワークはt-sot-vaと名付けられ、アレイジオメトリに依存しない連続音声分離(vararray)と、トークンレベルシリアライズ出力トレーニング(t-sot)に基づくマルチトーカasrの2つを独自に開発した。 両技術を最大限に組み合わせるために,VarArray から分離した2つの音声信号に基づいて,連続化されたマルチストーカーの書き起こしを生成する t-SOT ベースの ASR モデルを新たに設計した。 また,単声単発asr学習データに基づいてvararrayの出力信号をシミュレートするasrモデルのための事前学習方式を提案する。 amiミーティングコーパスを用いた会話音声認識実験では,提案手法に基づくシステムが従来のコーパスよりも有意に優れていた。 本システムでは, ストリーミング推論能力を維持しつつ, マルチディスタント・マイクロホン設定において, AMI開発および評価セットに対して, 13.7%, 15.5%の単語誤り率を実現する。

This paper presents a novel streaming automatic speech recognition (ASR) framework for multi-talker overlapping speech captured by a distant microphone array with an arbitrary geometry. Our framework, named t-SOT-VA, capitalizes on independently developed two recent technologies; array-geometry-agnostic continuous speech separation, or VarArray, and streaming multi-talker ASR based on token-level serialized output training (t-SOT). To combine the best of both technologies, we newly design a t-SOT-based ASR model that generates a serialized multi-talker transcription based on two separated speech signals from VarArray. We also propose a pre-training scheme for such an ASR model where we simulate VarArray's output signals based on monaural single-talker ASR training data. Conversation transcription experiments using the AMI meeting corpus show that the system based on the proposed framework significantly outperforms conventional ones. Our system achieves the state-of-the-art word error rates of 13.7% and 15.5% for the AMI development and evaluation sets, respectively, in the multiple-distant-microphone setting while retaining the streaming inference capability.
翻訳日:2022-09-13 13:50:16 公開日:2022-09-12
# コミュニケーション効率とプライバシ保全機能に基づくフェデレーショントランスファー学習

Communication-Efficient and Privacy-Preserving Feature-based Federated Transfer Learning ( http://arxiv.org/abs/2209.05395v1 )

ライセンス: Link先を確認
Feng Wang, M. Cenk Gursoy and Senem Velipasalar(参考訳) フェデレーション学習は、クライアントのプライバシを保ちながら、関心を集めている。 フェデレーション学習の変種として、フェデレーション伝達学習は類似したタスクからの知識を活用し、集中的に研究されている。 しかし、無線帯域が限られているため、無線リンクによるフェデレート学習の通信効率は、数千テラバイトのアップリンクペイロードを必要とするタスクがあるため、重要である。 本稿では,コミュニケーション効率を向上させるために,既存の手法と比較して,アップリンクペイロードを5桁以上削減するための革新的な手法として,機能ベースフェデレート転送学習を提案する。 まず,パラメータ更新に代えて抽出した特徴と出力をアップロードするシステム設計を行い,このアプローチで必要なペイロードを決定し,既存のアプローチとの比較を行う。 その後,クライアントのプライバシを保護するランダムシャッフルスキームを分析した。 最後に,提案手法の有効性を示すために,画像分類タスクの実験を通して,提案手法の性能を評価する。

Federated learning has attracted growing interest as it preserves the clients' privacy. As a variant of federated learning, federated transfer learning utilizes the knowledge from similar tasks and thus has also been intensively studied. However, due to the limited radio spectrum, the communication efficiency of federated learning via wireless links is critical since some tasks may require thousands of Terabytes of uplink payload. In order to improve the communication efficiency, we in this paper propose the feature-based federated transfer learning as an innovative approach to reduce the uplink payload by more than five orders of magnitude compared to that of existing approaches. We first introduce the system design in which the extracted features and outputs are uploaded instead of parameter updates, and then determine the required payload with this approach and provide comparisons with the existing approaches. Subsequently, we analyze the random shuffling scheme that preserves the clients' privacy. Finally, we evaluate the performance of the proposed learning scheme via experiments on an image classification task to show its effectiveness.
翻訳日:2022-09-13 13:45:28 公開日:2022-09-12
# リアルタイム交通予測における残差補正

Residual Correction in Real-Time Traffic Forecasting ( http://arxiv.org/abs/2209.05406v1 )

ライセンス: Link先を確認
Daejin Kim, Youngin Cho, Dongmin Kim, Cheonbok Park, Jaegul Choo(参考訳) 全ての道路が空間的にも時間的にも互いに大きく依存しているため、交通状況の予測は非常に難しい。 近年,この空間的・時間的依存を捉えるために,グラフ畳み込みネットワークや時間畳み込みネットワークなどの特別設計アーキテクチャが導入されている。 交通予測の進歩は目覚ましいが、ディープラーニングベースの交通予測モデルは、主にイベント状況(高速な速度低下など)において、特定のパターンではまだ失敗している。 これらの故障は予測不能な騒音によるものであると一般的に受け入れられているが、過去の故障を考慮して修正できることが判明した。 具体的には、これらの故障における自己相関エラーを観察し、予測可能な情報が残っていることを示す。 本研究では,トラヒック予測のための残差推定モジュールであるrescalを,既存のトラヒック予測モデルに広く適用可能なアドオンモジュールとして導入する。 過去の誤差とグラフ信号を用いて将来の誤差を推定することにより,既存モデルの予測をリアルタイムにコーディネートする。 metr-la と pems-bay の広範な実験により,我々は誤りの相関を正確に把握し,イベント状況における各種交通予測モデルの故障を補正できることを示した。

Predicting traffic conditions is tremendously challenging since every road is highly dependent on each other, both spatially and temporally. Recently, to capture this spatial and temporal dependency, specially designed architectures such as graph convolutional networks and temporal convolutional networks have been introduced. While there has been remarkable progress in traffic forecasting, we found that deep-learning-based traffic forecasting models still fail in certain patterns, mainly in event situations (e.g., rapid speed drops). Although it is commonly accepted that these failures are due to unpredictable noise, we found that these failures can be corrected by considering previous failures. Specifically, we observe autocorrelated errors in these failures, which indicates that some predictable information remains. In this study, to capture the correlation of errors, we introduce ResCAL, a residual estimation module for traffic forecasting, as a widely applicable add-on module to existing traffic forecasting models. Our ResCAL calibrates the prediction of the existing models in real time by estimating future errors using previous errors and graph signals. Extensive experiments on METR-LA and PEMS-BAY demonstrate that our ResCAL can correctly capture the correlation of errors and correct the failures of various traffic forecasting models in event situations.
翻訳日:2022-09-13 13:45:12 公開日:2022-09-12
# ディープラーニングのためのFP8フォーマット

FP8 Formats for Deep Learning ( http://arxiv.org/abs/2209.05433v1 )

ライセンス: Link先を確認
Paulius Micikevicius, Dusan Stosic, Neil Burgess, Marius Cornea, Pradeep Dubey, Richard Grisenthwaite, Sangwon Ha, Alexander Heinecke, Patrick Judd, John Kamalu, Naveen Mellempudi, Stuart Oberman, Mohammad Shoeybi, Michael Siu, Hao Wu(参考訳) FP8は、現代のプロセッサで一般的な16ビットフォーマットを超えて、ディープラーニングトレーニング推論を加速するための自然な進歩である。 本稿では,e4m3 (4-bit exponentと3-bit mantissa)とe5m2 (5-bit exponentと2-bit mantissa)の2つのエンコーディングからなる8-bit floating point (fp8) binary interchange formatを提案する。 e5m2 は ieee 754 の特殊値表現規約に従うが、e4m3 のダイナミックレンジは無限大を表現せず、nans のマンティッサビットパターンのみを持つことで拡張される。 16ビットのトレーニングセッションで達成した結果の品質を効果的にマッチングし,FP8フォーマットが様々な画像や言語タスクに対して有効であることを示す。 我々の研究は、CNN、RNN、Transformerベースのモデルといった、現代の主要なニューラルネットワークアーキテクチャをカバーしています。 トレーニング実験には、最大175bのパラメータ、言語モデルが含まれています。 また,不動点 int8 量子化に抵抗する 16 ビット形式を用いて学習した言語モデルの fp8 後量子化についても検討した。

FP8 is a natural progression for accelerating deep learning training inference beyond the 16-bit formats common in modern processors. In this paper we propose an 8-bit floating point (FP8) binary interchange format consisting of two encodings - E4M3 (4-bit exponent and 3-bit mantissa) and E5M2 (5-bit exponent and 2-bit mantissa). While E5M2 follows IEEE 754 conventions for representatio of special values, E4M3's dynamic range is extended by not representing infinities and having only one mantissa bit-pattern for NaNs. We demonstrate the efficacy of the FP8 format on a variety of image and language tasks, effectively matching the result quality achieved by 16-bit training sessions. Our study covers the main modern neural network architectures - CNNs, RNNs, and Transformer-based models, leaving all the hyperparameters unchanged from the 16-bit baseline training sessions. Our training experiments include large, up to 175B parameter, language models. We also examine FP8 post-training-quantization of language models trained using 16-bit formats that resisted fixed point int8 quantization.
翻訳日:2022-09-13 13:44:50 公開日:2022-09-12
# 意味的特徴近傍のロバスト性検証の促進

Boosting Robustness Verification of Semantic Feature Neighborhoods ( http://arxiv.org/abs/2209.05446v1 )

ライセンス: Link先を確認
Anan Kabaha and Dana Drachsler-Cohen(参考訳) 深いニューラルネットワークは、セマンティックな特徴に基づいて入力を摂動する敵攻撃に弱いことが示されている。 既存の堅牢性分析器は、ネットワークの信頼性を高めるためにセマンティックな特徴地区を推論することができる。 しかし、これらの技術は大きな進歩を遂げたものの、深層ネットワークや大規模地区への拡大に苦戦している。 本稿では,検証プロセスを一連の小さな検証ステップに分割する,アクティブな学習手法であるVeePを紹介し,それぞれが既存のロバストネス解析器に送信される。 鍵となるアイデアは、次の最適なステップを予測するために、事前ステップを構築することです。 最適ステップは、パラメトリック回帰による認証速度と感度を推定することで予測される。 mnist, fashion-mnist, cifar-10, imagenet の veep を評価し,輝度,コントラスト,色相,彩度,明度といった様々な特徴の近傍を解析できることを示した。 平均して90分間のタイムアウトが与えられ、veepは最大認証可能な近所の96%を29分以内に検証し、既存の分割アプローチは平均して58分以内に最大認定可能な近所の73%を検証した。

Deep neural networks have been shown to be vulnerable to adversarial attacks that perturb inputs based on semantic features. Existing robustness analyzers can reason about semantic feature neighborhoods to increase the networks' reliability. However, despite the significant progress in these techniques, they still struggle to scale to deep networks and large neighborhoods. In this work, we introduce VeeP, an active learning approach that splits the verification process into a series of smaller verification steps, each is submitted to an existing robustness analyzer. The key idea is to build on prior steps to predict the next optimal step. The optimal step is predicted by estimating the certification velocity and sensitivity via parametric regression. We evaluate VeeP on MNIST, Fashion-MNIST, CIFAR-10 and ImageNet and show that it can analyze neighborhoods of various features: brightness, contrast, hue, saturation, and lightness. We show that, on average, given a 90 minute timeout, VeeP verifies 96% of the maximally certifiable neighborhoods within 29 minutes, while existing splitting approaches verify, on average, 73% of the maximally certifiable neighborhoods within 58 minutes.
翻訳日:2022-09-13 13:44:27 公開日:2022-09-12
# ロボット制御のためのDRL中の部分観測可能性

Partial Observability during DRL for Robot Control ( http://arxiv.org/abs/2209.04999v1 )

ライセンス: Link先を確認
Lingheng Meng, Rob Gorbet, Dana Kuli\'c(参考訳) 近年、Dep Reinforcement Learning(DRL)は、シミュレーションと現実世界の両方のロボット制御タスクにおいて大きな進歩を遂げている。 しかし、新しいロボット制御タスクにDRLを適用することは、特に研究者がアクションと観察空間と報酬関数を設計しなければならない場合、依然として難しい。 本稿では,ロボット制御タスクにDRLを適用する際の潜在的な障害源としての部分観測可能性について検討する。 種々の部分観測条件下での3つの共通DRLアルゴリズム(TD3, SAC, PPO)の性能を比較した。 TD3 と SAC は局所的最適および低性能な PPO において容易に立ち往生する。 本稿では,ワンステップブートストラップに基づく部分可観測性に対するロバスト性を改善するため,バニラtd3とsacの多段バージョンを提案する。

Deep Reinforcement Learning (DRL) has made tremendous advances in both simulated and real-world robot control tasks in recent years. Nevertheless, applying DRL to novel robot control tasks is still challenging, especially when researchers have to design the action and observation space and the reward function. In this paper, we investigate partial observability as a potential failure source of applying DRL to robot control tasks, which can occur when researchers are not confident whether the observation space fully represents the underlying state. We compare the performance of three common DRL algorithms, TD3, SAC and PPO under various partial observability conditions. We find that TD3 and SAC become easily stuck in local optima and underperform PPO. We propose multi-step versions of the vanilla TD3 and SAC to improve robustness to partial observability based on one-step bootstrapping.
翻訳日:2022-09-13 13:43:10 公開日:2022-09-12
# FiBiNet++:CTR予測のためのモデルサイズを大幅に削減したFiBiNetの改良

FiBiNet++:Improving FiBiNet by Greatly Reducing Model Size for CTR Prediction ( http://arxiv.org/abs/2209.05016v1 )

ライセンス: Link先を確認
Pengtao Zhang and Junlin Zhang(参考訳) クリックスルー率(ctr)推定は多くの実世界のアプリケーションにおいて最も基本的なタスクの一つとなり、この問題を解決するために様々な深層モデルが提案されている。 Some research has proved that FiBiNet is one of the best performance models and outperforms all other models on Avazu dataset.However, the large model size of FiBiNet hinders its wider applications.In this paper, we propose a novel FiBiNet++ model to redesign FiBiNet's model structure ,which greatly reducess model size while further improves its performance.Extensive experiments on three public datasets show that FiBiNet++ effectively reduces non-embedding model parameters of FiBiNet by 12x to 16x on three datasets and has comparable model size with DNN model which is the smallest one among deep CTR models.On the other hand, FiBiNet++ leads to significant performance improvements compared to state-of-the-art CTR methods,including FiBiNet.

Click-Through Rate(CTR) estimation has become one of the most fundamental tasks in many real-world applications and various deep models have been proposed to resolve this problem. Some research has proved that FiBiNet is one of the best performance models and outperforms all other models on Avazu dataset.However, the large model size of FiBiNet hinders its wider applications.In this paper, we propose a novel FiBiNet++ model to redesign FiBiNet's model structure ,which greatly reducess model size while further improves its performance.Extensive experiments on three public datasets show that FiBiNet++ effectively reduces non-embedding model parameters of FiBiNet by 12x to 16x on three datasets and has comparable model size with DNN model which is the smallest one among deep CTR models.On the other hand, FiBiNet++ leads to significant performance improvements compared to state-of-the-art CTR methods,including FiBiNet.
翻訳日:2022-09-13 13:42:57 公開日:2022-09-12
# PoseIt: Grasp安定解析のためのホールディングポースの視覚触覚データセット

PoseIt: A Visual-Tactile Dataset of Holding Poses for Grasp Stability Analysis ( http://arxiv.org/abs/2209.05022v1 )

ライセンス: Link先を確認
Shubham Kanitkar, Helen Jiang, Wenzhen Yuan(参考訳) 人間が現実世界の物体をつかむとき、私たちはしばしば腕を動かして物体を異なる姿勢で保持し、それを使うことができます。 対照的に、典型的な実験室の設定では、持ち上げ直後のグリップの安定性についてのみ研究する。 しかし、把持安定性は物体の保持姿勢によって大きく変化し、重力トルクとグリッパー接触力が完全に変化する可能性がある。 保持ポーズが把持安定性にどのように影響するかの研究を容易にするために,対象物を把持する全周期から収集した視覚および触覚データを含む,新たな多モードデータセットであるpositを提案する。 poseitのデータを使って、特定のポーズで把握された物体が安定しているかどうかを予測するタスクを定式化し、対処することができる。 提案課題に対して85%の精度でLSTM分類器を訓練する。 実験の結果,PoseItで訓練したマルチモーダルモデルは,視覚や触覚のみを用いた場合よりも精度が高く,分類器は見えない物体やポーズにも一般化できることがわかった。

When humans grasp objects in the real world, we often move our arms to hold the object in a different pose where we can use it. In contrast, typical lab settings only study the stability of the grasp immediately after lifting, without any subsequent re-positioning of the arm. However, the grasp stability could vary widely based on the object's holding pose, as the gravitational torque and gripper contact forces could change completely. To facilitate the study of how holding poses affect grasp stability, we present PoseIt, a novel multi-modal dataset that contains visual and tactile data collected from a full cycle of grasping an object, re-positioning the arm to one of the sampled poses, and shaking the object. Using data from PoseIt, we can formulate and tackle the task of predicting whether a grasped object is stable in a particular held pose. We train an LSTM classifier that achieves 85% accuracy on the proposed task. Our experimental results show that multi-modal models trained on PoseIt achieve higher accuracy than using solely vision or tactile data and that our classifiers can also generalize to unseen objects and poses.
翻訳日:2022-09-13 13:42:45 公開日:2022-09-12
# 協調型機械学習モデル学習のためのスマートコントラクトの検討

An Investigation of Smart Contract for Collaborative Machine Learning Model Training ( http://arxiv.org/abs/2209.05017v1 )

ライセンス: Link先を確認
Shengwen Ding, Chenhui Hu(参考訳) 機械学習(ML)はビッグデータの時代において様々な分野に浸透してきた。 従来のMLに比べてコラボレーティブ機械学習(CML)の利点は、より優れたモデルパフォーマンスと一般化をもたらす分散ノードやエージェントの共同作業にある。 mlモデルのトレーニングには大量の高品質データが必要であるため、データのプライバシに関する懸念を排除し、高品質なデータを確保する必要がある。 この問題を解決するため、私たちはCMLとスマートコントラクトの統合に目を向けました。 ブロックチェーンに基づいて、スマートコントラクトは、データ保存とバリデーションの自動実行と、CMLモデルのトレーニングの継続を可能にする。 シミュレーション実験では、スマートコントラクトのインセンティブ機構を定義し、データセット(num_words)の機能数、トレーニングデータのサイズ、データホルダがデータを送信するコストなど重要な要因を調査し、これらの要因がモデルのパフォーマンス指標にどのように影響するかを結論付けます。 例えば、num_wordsの値が増加するとモデル精度が向上し、実験結果の観察からより短時間で悪意のあるエージェントの悪影響を排除できる。 統計的分析により、スマートコントラクトの助けを借りて、無効データの影響を効果的に低減し、モデルの堅牢性を維持することが示されている。 また、既存の研究のギャップについても議論し、今後の研究の方向性を推し進める。

Machine learning (ML) has penetrated various fields in the era of big data. The advantage of collaborative machine learning (CML) over most conventional ML lies in the joint effort of decentralized nodes or agents that results in better model performance and generalization. As the training of ML models requires a massive amount of good quality data, it is necessary to eliminate concerns about data privacy and ensure high-quality data. To solve this problem, we cast our eyes on the integration of CML and smart contracts. Based on blockchain, smart contracts enable automatic execution of data preserving and validation, as well as the continuity of CML model training. In our simulation experiments, we define incentive mechanisms on the smart contract, investigate the important factors such as the number of features in the dataset (num_words), the size of the training data, the cost for the data holders to submit data, etc., and conclude how these factors impact the performance metrics of the model: the accuracy of the trained model, the gap between the accuracies of the model before and after simulation, and the time to use up the balance of bad agent. For instance, the increase of the value of num_words leads to higher model accuracy and eliminates the negative influence of malicious agents in a shorter time from our observation of the experiment results. Statistical analyses show that with the help of smart contracts, the influence of invalid data is efficiently diminished and model robustness is maintained. We also discuss the gap in existing research and put forward possible future directions for further works.
翻訳日:2022-09-13 13:37:53 公開日:2022-09-12
# CARE:変分推論による推論による頑健な学習

CARE: Certifiably Robust Learning with Reasoning via Variational Inference ( http://arxiv.org/abs/2209.05055v1 )

ライセンス: Link先を確認
Jiawei Zhang, Linyi Li, Ce Zhang, Bo Li(参考訳) ディープニューラルネットワーク(dnn)によって達成された最近の進歩にもかかわらず、それらはしばしば敵の攻撃に弱い。 DNNのロバスト性を改善するために集中的な研究努力がなされているが、多くの経験的防御は再び適応的に攻撃され、特に大規模データセットにおいて理論的に証明されたロバスト性は制限されている。 DNNのこのような脆弱性の潜在的な根本原因の1つは、強力な表現力を示しているが、堅牢で信頼性の高い予測を行うための推論能力がないことである。 本稿では,ドメイン知識を統合し,推論パラダイムによる堅牢な学習を実現することを目的とする。 特に,学習成分と推論成分からなる推論パイプライン(care)を用いた証明可能なロバストな学習を提案する。 具体的には,学習要素として標準DNNを用いて意味論的予測を行い,マルコフ論理ネットワーク(MLN)などの確率的グラフィカルモデルを利用して推論要素として機能し,知識・論理的推論を可能にする。 しかし、MLNの正確な推論は#P完全であることが知られており、パイプラインのスケーラビリティが制限されている。 そこで本研究では,効率的な予測最大化アルゴリズムに基づく変分推論によるMLN推論を提案する。 特に、グラフ畳み込みネットワーク(GCN)を利用して、変動推論中に後続分布を符号化し、GCN(E-step)のパラメータとMLN(M-step)の知識規則の重みを反復的に更新する。 さまざまなデータセットに関する広範囲な実験を行い,最先端のベースラインと比較して,careが極めて高い認証堅牢性を達成していることを示す。 さらに,ケアの実証的ロバスト性と知識統合の効果を示すため,異なるアブレーション研究を行った。

Despite great recent advances achieved by deep neural networks (DNNs), they are often vulnerable to adversarial attacks. Intensive research efforts have been made to improve the robustness of DNNs; however, most empirical defenses can be adaptively attacked again, and the theoretically certified robustness is limited, especially on large-scale datasets. One potential root cause of such vulnerabilities for DNNs is that although they have demonstrated powerful expressiveness, they lack the reasoning ability to make robust and reliable predictions. In this paper, we aim to integrate domain knowledge to enable robust learning with the reasoning paradigm. In particular, we propose a certifiably robust learning with reasoning pipeline (CARE), which consists of a learning component and a reasoning component. Concretely, we use a set of standard DNNs to serve as the learning component to make semantic predictions, and we leverage the probabilistic graphical models, such as Markov logic networks (MLN), to serve as the reasoning component to enable knowledge/logic reasoning. However, it is known that the exact inference of MLN (reasoning) is #P-complete, which limits the scalability of the pipeline. To this end, we propose to approximate the MLN inference via variational inference based on an efficient expectation maximization algorithm. In particular, we leverage graph convolutional networks (GCNs) to encode the posterior distribution during variational inference and update the parameters of GCNs (E-step) and the weights of knowledge rules in MLN (M-step) iteratively. We conduct extensive experiments on different datasets and show that CARE achieves significantly higher certified robustness compared with the state-of-the-art baselines. We additionally conducted different ablation studies to demonstrate the empirical robustness of CARE and the effectiveness of different knowledge integration.
翻訳日:2022-09-13 13:37:29 公開日:2022-09-12
# 機械学習モデルからの予測を説明する - アルゴリズム,ユーザ,教育学

Explaining Predictions from Machine Learning Models: Algorithms, Users, and Pedagogy ( http://arxiv.org/abs/2209.05084v1 )

ライセンス: Link先を確認
Ana Lucic(参考訳) 機械学習(ml)では、アルゴリズムによる予測が人間に与える影響が増加するため、モデル説明可能性が重要な問題となっている。 説明は、MLモデルが特定の予測を行う理由だけでなく、これらの予測をどのように変更するかを理解するのに役立つ。 本稿では,アルゴリズム,ユーザ,教育学の3点からmlモデルの説明可能性を調べ,説明可能性問題に対するいくつかの新しい解決法を提案する。

Model explainability has become an important problem in machine learning (ML) due to the increased effect that algorithmic predictions have on humans. Explanations can help users understand not only why ML models make certain predictions, but also how these predictions can be changed. In this thesis, we examine the explainability of ML models from three vantage points: algorithms, users, and pedagogy, and contribute several novel solutions to the explainability problem.
翻訳日:2022-09-13 13:36:58 公開日:2022-09-12
# 弱い絡み合いに対するモジュラー表現

Modular Representations for Weak Disentanglement ( http://arxiv.org/abs/2209.05336v1 )

ライセンス: Link先を確認
Andrea Valenti, Davide Bacciu(参考訳) 最近導入された弱い非絡み合い表現は、より柔軟性と引き換えに以前の非絡み合いの定義の制約を緩和するために提案された。 しかし、現時点では、データの変化の要因の数が増えるため、監視の量を増やすことでのみ、弱い絡み合いが達成できる。 本稿では,生成因子数に対して教師付き情報量を一定に保つことを可能にする新しい手法である弱絡みに対するモジュラ表現を提案する。 実験により、モジュラー表現を用いたモデルは、追加の監督を必要とせずに、以前の作業に対してパフォーマンスを向上できることが示された。

The recently introduced weakly disentangled representations proposed to relax some constraints of the previous definitions of disentanglement, in exchange for more flexibility. However, at the moment, weak disentanglement can only be achieved by increasing the amount of supervision as the number of factors of variations of the data increase. In this paper, we introduce modular representations for weak disentanglement, a novel method that allows to keep the amount of supervised information constant with respect the number of generative factors. The experiments shows that models using modular representations can increase their performance with respect to previous work without the need of additional supervision.
翻訳日:2022-09-13 13:36:26 公開日:2022-09-12
# ディープフェイクビデオ検出のためのランドマーク強化マルチモーダルグラフ学習

Landmark Enhanced Multimodal Graph Learning for Deepfake Video Detection ( http://arxiv.org/abs/2209.05419v1 )

ライセンス: Link先を確認
Zhiyuan Yan, Peng Sun, Yubo Lang, Shuo Du, Shanzhuo Zhang, Wei Wang(参考訳) 顔偽造技術の急速な発展に伴い、ディープフェイクビデオはデジタルメディアで広く注目を集めている。 犯人はこれらのビデオを利用して偽情報を拡散し、誤解を招く声明を出す。 既存のディープフェイク検出法は主にテクスチャの特徴に焦点を当てており、照明やノイズなどの外部のゆらぎの影響を受けやすい。 さらに、顔のランドマークに基づく検出方法は、外部変数に対してより堅牢であるが、詳細は不十分である。 したがって、空間、時間、周波数領域の特徴的な特徴を効果的にマイニングし、偽ビデオ検出のために顔のランドマークと融合する方法は、まだ未解決の問題である。 この目的のために,複数のモダリティの情報と顔のランドマークの幾何学的特徴に基づくLandmark Enhanced Multimodal Graph Neural Network (LEM-GNN)を提案する。 特に,フレームレベルでは,空間領域と周波数領域の要素の結合表現をマイニングすると同時に,モデルのロバスト性を高めるために幾何学的顔特徴を導入する融合機構を考案した。 ビデオレベルでは、まずビデオの各フレームをグラフ内のノードとみなし、時系列情報をグラフのエッジにエンコードする。 次に、グラフニューラルネットワーク(GNN)のメッセージパッシング機構を適用することにより、マルチモーダル機能を効果的に組み合わせて、ビデオ偽造の包括的な表現を得る。 大規模な実験により,我々の手法は広く使用されているベンチマークにおいて常に最先端のSOTA(State-of-the-art)よりも優れていた。

With the rapid development of face forgery technology, deepfake videos have attracted widespread attention in digital media. Perpetrators heavily utilize these videos to spread disinformation and make misleading statements. Most existing methods for deepfake detection mainly focus on texture features, which are likely to be impacted by external fluctuations, such as illumination and noise. Besides, detection methods based on facial landmarks are more robust against external variables but lack sufficient detail. Thus, how to effectively mine distinctive features in the spatial, temporal, and frequency domains and fuse them with facial landmarks for forgery video detection is still an open question. To this end, we propose a Landmark Enhanced Multimodal Graph Neural Network (LEM-GNN) based on multiple modalities' information and geometric features of facial landmarks. Specifically, at the frame level, we have designed a fusion mechanism to mine a joint representation of the spatial and frequency domain elements while introducing geometric facial features to enhance the robustness of the model. At the video level, we first regard each frame in a video as a node in a graph and encode temporal information into the edges of the graph. Then, by applying the message passing mechanism of the graph neural network (GNN), the multimodal feature will be effectively combined to obtain a comprehensive representation of the video forgery. Extensive experiments show that our method consistently outperforms the state-of-the-art (SOTA) on widely-used benchmarks.
翻訳日:2022-09-13 13:33:48 公開日:2022-09-12
# 鮮明に制御可能な3次元画像生成

Explicitly Controllable 3D-Aware Portrait Generation ( http://arxiv.org/abs/2209.05434v1 )

ライセンス: Link先を確認
Junshu Tang, Bo Zhang, Binxin Yang, Ting Zhang, Dong Chen, Lizhuang Ma, Fang Wen(参考訳) コストのかかるプロセスである従来のアバター生成パイプラインとは対照的に、現代の生成的アプローチは写真から直接データ配信を学習し、芸術の状況は、非常にリアルな画像を生み出すことができる。 非条件生成モデルを拡張し、ある程度の制御可能性を達成しようとする作業はたくさんあるが、特に大きなポーズでは、マルチビューの一貫性を確保することは依然として困難である。 本研究では,ポーズ,アイデンティティ,表現,照明に関するセマンティックパラメータに基づいて3次元一貫した肖像画を生成する3次元ポートレート生成ネットワークを提案する。 生成ネットワークは、ニューラルシーン表現を使用して3Dの肖像画をモデル化し、その生成は明示的な制御をサポートするパラメトリック顔モデルによって誘導される。 部分的な特徴を持つ画像と対比することで、潜伏した絡み合いをさらに強化することができるが、表情をアニメーションする際、例えば髪や背景など、非顔領域に顕著な矛盾が存在する。 本研究では、動的および静的な放射場を混合して合成出力を形成するボリュームブレンディング戦略を提案し、その2つの部分を共同学習されたセマンティックフィールドから分割する。 提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。 提案手法は,実画像とドメイン外マンガ顔に対する一般化能力も示しており,実アプリケーションでは大きな期待が持たれている。 さらなるビデオ結果とコードは、プロジェクトのwebページで入手できる。

In contrast to the traditional avatar creation pipeline which is a costly process, contemporary generative approaches directly learn the data distribution from photographs and the state of the arts can now yield highly photo-realistic images. While plenty of works attempt to extend the unconditional generative models and achieve some level of controllability, it is still challenging to ensure multi-view consistency, especially in large poses. In this work, we propose a 3D portrait generation network that produces 3D consistent portraits while being controllable according to semantic parameters regarding pose, identity, expression and lighting. The generative network uses neural scene representation to model portraits in 3D, whose generation is guided by a parametric face model that supports explicit control. While the latent disentanglement can be further enhanced by contrasting images with partially different attributes, there still exists noticeable inconsistency in non-face areas, e.g., hair and background, when animating expressions. We solve this by proposing a volume blending strategy in which we form a composite output by blending the dynamic and static radiance fields, with two parts segmented from the jointly learned semantic field. Our method outperforms prior arts in extensive experiments, producing realistic portraits with vivid expression in natural lighting when viewed in free viewpoint. The proposed method also demonstrates generalization ability to real images as well as out-of-domain cartoon faces, showing great promise in real applications. Additional video results and code will be available on the project webpage.
翻訳日:2022-09-13 13:33:26 公開日:2022-09-12
# 励磁課題を考慮した変圧器を用いた物品エンコーダの大規模評価

Large-scale Evaluation of Transformer-based Article Encoders on the Task of Citation Recommendation ( http://arxiv.org/abs/2209.05452v1 )

ライセンス: Link先を確認
Zoran Medi\'c, Jan \v{S}najder(参考訳) 近年、相互に関連のある科学論文の類似ベクトル表現を生成するために設計されたtransformer-based article encoder (taes)が、科学論文推薦のためのベンチマークデータセットで強力な性能を示している。 しかし、既存のベンチマークデータセットは、主に単一のドメインに焦点を当てており、場合によっては小さな候補プールに容易に負の値を含む。 このようなベンチマークでの表現の評価は、候補プールに何千もの記事があるセットアップにおけるtaesの現実的なパフォーマンスを曖昧にする可能性がある。 本研究では,より挑戦的な候補プールを持つ大規模ベンチマークでTAEを評価する。 我々は,TAEの性能を引用推薦タスクにおける語彙検索ベースラインモデルBM25と比較し,そのモデルが与えられた入力項目に引用するレコメンデーションのリストを生成する。 BM25は、まだ最先端のニューラルレトリバーと非常に競合していることがわかっています。 既存のベンチマークの限界に対する修正として、科学論文の表現を評価するための新しいベンチマークデータセットを提案する: 多領域引用推奨データセット(mdcr)は、異なる科学分野をカバーするもので、挑戦的な候補プールを含んでいる。

Recently introduced transformer-based article encoders (TAEs) designed to produce similar vector representations for mutually related scientific articles have demonstrated strong performance on benchmark datasets for scientific article recommendation. However, the existing benchmark datasets are predominantly focused on single domains and, in some cases, contain easy negatives in small candidate pools. Evaluating representations on such benchmarks might obscure the realistic performance of TAEs in setups with thousands of articles in candidate pools. In this work, we evaluate TAEs on large benchmarks with more challenging candidate pools. We compare the performance of TAEs with a lexical retrieval baseline model BM25 on the task of citation recommendation, where the model produces a list of recommendations for citing in a given input article. We find out that BM25 is still very competitive with the state-of-the-art neural retrievers, a finding which is surprising given the strong performance of TAEs on small benchmarks. As a remedy for the limitations of the existing benchmarks, we propose a new benchmark dataset for evaluating scientific article representations: Multi-Domain Citation Recommendation dataset (MDCR), which covers different scientific fields and contains challenging candidate pools.
翻訳日:2022-09-13 13:32:12 公開日:2022-09-12
# AI支援手術室における自動手術チェックリスト作成の状況把握

Situation Awareness for Automated Surgical Check-listing in AI-Assisted Operating Room ( http://arxiv.org/abs/2209.05056v1 )

ライセンス: Link先を確認
Tochukwu Onyeogulu, Amirul Islam, Salman Khan, Izzeddin Teeti, Fabio Cuzzolin(参考訳) 現在、より少ない侵襲的手術(MIS)を用いて外科的手術が実施されている。 これは、手術後の最小限の問題、出血の減少、軽傷の軽傷、迅速な回復など、多くの利点があるためである。 しかし、MISの制約された視野、小さな手術室、手術シーンの間接的な観察は、人間の臓器や組織を衝突させ、潜在的に損傷を与える可能性がある。 そのため、MISの問題は大幅に減少し、内視鏡的ビデオフィードを用いて外科用機器をリアルタイムで検出・監視することにより、手術手順の精度と成功率を高めることができる。 本稿では, 手術器具の検出を向上するために, YOLOV5オブジェクト検出器の一連の改良について検討, 解析, 評価を行った。 そこで我々は、パフォーマンスベースのアブレーション研究を行い、YOLOv5モデルのバックボーン、ネック、アンカー構造要素を変更する影響を調査し、ユニークな内視鏡データセットを注釈付けした。 さらに,4種類のSOTA検出器(YOLOv7,YOLOR,Scaled-YOLOv4,YOLOv3-SPP)のアブレーション試験の有効性を比較検討した。 mAP 98.3% のモデル性能と同様の推論速度を持つ YOLOv3-SPP を除いて、最初の YOLOv5 を含むベンチマークモデルは全て、我々の新しい内視鏡データセットを用いた実験において、我々の最も洗練されたモデルに取って代わられた。

Nowadays, there are more surgical procedures that are being performed using minimally invasive surgery (MIS). This is due to its many benefits, such as minimal post-operative problems, less bleeding, minor scarring, and a speedy recovery. However, the MIS's constrained field of view, small operating room, and indirect viewing of the operating scene could lead to surgical tools colliding and potentially harming human organs or tissues. Therefore, MIS problems can be considerably reduced, and surgical procedure accuracy and success rates can be increased by using an endoscopic video feed to detect and monitor surgical instruments in real-time. In this paper, a set of improvements made to the YOLOV5 object detector to enhance the detection of surgical instruments was investigated, analyzed, and evaluated. In doing this, we performed performance-based ablation studies, explored the impact of altering the YOLOv5 model's backbone, neck, and anchor structural elements, and annotated a unique endoscope dataset. Additionally, we compared the effectiveness of our ablation investigations with that of four additional SOTA object detectors (YOLOv7, YOLOR, Scaled-YOLOv4 and YOLOv3-SPP). Except for YOLOv3-SPP, which had the same model performance of 98.3% in mAP and a similar inference speed, all of our benchmark models, including the original YOLOv5, were surpassed by our top refined model in experiments using our fresh endoscope dataset.
翻訳日:2022-09-13 13:28:04 公開日:2022-09-12
# mmBody ベンチマーク:ミリ波レーダの3次元身体再構成データセットと解析

mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave Radar ( http://arxiv.org/abs/2209.05070v1 )

ライセンス: Link先を確認
Anjun Chen, Xiangyu Wang, Shaohao Zhu, Yanxu Li, Jiming Chen, Qi Ye(参考訳) ミリ波(mmWave)レーダーは、煙、雨、雪、照明の悪さといった悪環境でも使えるため、人気が高まっている。 以前の研究では、ノイズやスパースなmmWaveレーダ信号から3D骨格やメッシュを再構築する可能性を探っている。 しかし,mmWaveレーダを単独で使用したり,カメラと組み合わせたりする場合に考慮すべき重要な側面として,シーン間のmmWave信号からどのように3Dボディを再構築できるかは明らかではない。 これらの質問に答えるために、自動3Dボディアノテーションシステムが最初に設計され、複数のセンサーで構築され、大規模なデータセットを収集する。 データセットは、同期および校正されたmmWaveレーダーポイント雲と、異なるシーンにおけるRGB(D)イメージと、シーン内の人間のためのスケルトン/メシュアノテーションで構成されている。 このデータセットでは、さまざまなセンサからの入力を使って最先端のメソッドをトレーニングし、さまざまなシナリオでテストします。 その結果は 1)生成した点雲のノイズやスパース性にもかかわらず,mmwaveレーダは,rgbカメラよりも再構成精度は高いが,深度カメラよりは劣る。 2)RGB(D)カメラは深刻な影響を受けながら,mmWaveレーダからの再構成は悪天候の影響を受けやすい。 さらに、mmウェーブレーダからの再構成と異なるセンサからの信号の組み合わせを改善するためのデータセットと結果のシャドーインサイトの分析を行う。

Millimeter Wave (mmWave) Radar is gaining popularity as it can work in adverse environments like smoke, rain, snow, poor lighting, etc. Prior work has explored the possibility of reconstructing 3D skeletons or meshes from the noisy and sparse mmWave Radar signals. However, it is unclear how accurately we can reconstruct the 3D body from the mmWave signals across scenes and how it performs compared with cameras, which are important aspects needed to be considered when either using mmWave radars alone or combining them with cameras. To answer these questions, an automatic 3D body annotation system is first designed and built up with multiple sensors to collect a large-scale dataset. The dataset consists of synchronized and calibrated mmWave radar point clouds and RGB(D) images in different scenes and skeleton/mesh annotations for humans in the scenes. With this dataset, we train state-of-the-art methods with inputs from different sensors and test them in various scenarios. The results demonstrate that 1) despite the noise and sparsity of the generated point clouds, the mmWave radar can achieve better reconstruction accuracy than the RGB camera but worse than the depth camera; 2) the reconstruction from the mmWave radar is affected by adverse weather conditions moderately while the RGB(D) camera is severely affected. Further, analysis of the dataset and the results shadow insights on improving the reconstruction from the mmWave radar and the combination of signals from different sensors.
翻訳日:2022-09-13 13:27:40 公開日:2022-09-12
# 半拡散能動ステレオビジョンのための差マップの洗練のためのベイズ学習

Bayesian Learning for Disparity Map Refinement for Semi-Dense Active Stereo Vision ( http://arxiv.org/abs/2209.05082v1 )

ライセンス: Link先を確認
Laurent Valentin Jospin, Hamid Laga, Farid Boussaid, Mohammed Bennamoun(参考訳) 近年のステレオビジョンの発展の主な焦点は、受動ステレオビジョンにおいて、正確な密集した不均質マップを得る方法である。 アクティブビジョンシステムは、受動ステレオと比較してより正確な密度差の推定を可能にする。 しかし、サブピクセル精度の格差推定は未解決の問題であり、ほとんど注目されていない。 本稿では,ニューラルネットワークを学習し,半高能動ステレオビジョンのための高品質なサブピクセル不均一マップを推定する新たな学習手法を提案する。 重要な洞察は、ニューラルネットワークが、不一致推定を補正する情報が不十分なピクセルを無効にしながら、不一致マップを洗練する方法を共同で学べば、その精度を2倍にすることができる、ということである。 我々のアプローチはベイズ的モデリングに基づいており、検証された画素と無効化されたピクセルは確率的性質によって定義され、どのピクセルが注目に値するかをモデルが自分で選択する方法を学ぶことができる。 Active-Passive SimStereoのようなアクティブステレオデータセットを用いて,提案手法が現在最先端のアクティブステレオモデルより優れていることを示す。 また,提案手法は,ミドルベリーデータセットにおける最先端の受動的ステレオモデルと比較した。

A major focus of recent developments in stereo vision has been on how to obtain accurate dense disparity maps in passive stereo vision. Active vision systems enable more accurate estimations of dense disparity compared to passive stereo. However, subpixel-accurate disparity estimation remains an open problem that has received little attention. In this paper, we propose a new learning strategy to train neural networks to estimate high-quality subpixel disparity maps for semi-dense active stereo vision. The key insight is that neural networks can double their accuracy if they are able to jointly learn how to refine the disparity map while invalidating the pixels where there is insufficient information to correct the disparity estimate. Our approach is based on Bayesian modeling where validated and invalidated pixels are defined by their stochastic properties, allowing the model to learn how to choose by itself which pixels are worth its attention. Using active stereo datasets such as Active-Passive SimStereo, we demonstrate that the proposed method outperforms the current state-of-the-art active stereo models. We also demonstrate that the proposed approach compares favorably with state-of-the-art passive stereo models on the Middlebury dataset.
翻訳日:2022-09-13 13:27:12 公開日:2022-09-12
# インクリメンタルビデオハイライト検出のためのグローバルプロトタイプ符号化

Global Prototype Encoding for Incremental Video Highlights Detection ( http://arxiv.org/abs/2209.05166v1 )

ライセンス: Link先を確認
Sen Pei, Shixiong Xu, Ye Yuan, and Xiaojie Jin(参考訳) ビデオハイライト検出は、コンピュータビジョンタスクにおけるトピックとして長い間研究されてきた。 しかし、ほとんどの場合、この研究の主流となる手法は、あらかじめ一定の数のハイライトカテゴリを適切に定義し、同時にすべてのトレーニングデータを利用できるようにし、結果として、ハイライトカテゴリとデータセットのサイズの両方に関してスケーラビリティの低下につながるという、クローズドワールドの前提に基づいて構築されている。 本稿では,上記の問題に対処するために,拡張データセットで新たに定義された映像ハイライトを対応するプロトタイプを用いてキャプチャし,段階的に学習可能なビデオハイライト検出器を提案する。 同時に,5.1k以上のグルメビデオを含む,注釈付きで費用がかかる「emph{ByteFood}」というデータセットを,それぞれ「emph{cooking}」,「emph{eating}」,「emph{food material}」,「emph{presentation}」の4つの異なるドメインに属している。 私たちの知る限り、インクリメンタルな学習設定がビデオハイライト検出に導入されたのはこれが初めてであり、それによってビデオ入力のトレーニングの負担が軽減され、データセットのサイズとドメインの量の両方に比例して従来のニューラルネットワークのスケーラビリティが向上する。 さらに、提案したGPEは、現在のemph{ByteFood}の漸進的な学習方法を超え、少なくとも1.57\% mAPの改善を報告している。 コードとデータセットはすぐに利用可能になる。

Video highlights detection has been long researched as a topic in computer vision tasks, digging the user-appealing clips out given unexposed raw video inputs. However, in most case, the mainstream methods in this line of research are built on the closed world assumption, where a fixed number of highlight categories is defined properly in advance and need all training data to be available at the same time, and as a result, leads to poor scalability with respect to both the highlight categories and the size of the dataset. To tackle the problem mentioned above, we propose a video highlights detector that is able to learn incrementally, namely \textbf{G}lobal \textbf{P}rototype \textbf{E}ncoding (GPE), capturing newly defined video highlights in the extended dataset via their corresponding prototypes. Alongside, we present a well annotated and costly dataset termed \emph{ByteFood}, including more than 5.1k gourmet videos belongs to four different domains which are \emph{cooking}, \emph{eating}, \emph{food material}, and \emph{presentation} respectively. To the best of our knowledge, this is the first time the incremental learning settings are introduced to video highlights detection, which in turn relieves the burden of training video inputs and promotes the scalability of conventional neural networks in proportion to both the size of the dataset and the quantity of domains. Moreover, the proposed GPE surpasses current incremental learning methods on \emph{ByteFood}, reporting an improvement of 1.57\% mAP at least. The code and dataset will be made available sooner.
翻訳日:2022-09-13 13:26:54 公開日:2022-09-12
# Graphing the Future: Graph-based Activity Representation を用いたアクティビティと次のアクティブオブジェクト予測

Graphing the Future: Activity and Next Active Object Prediction using Graph-based Activity Representations ( http://arxiv.org/abs/2209.05194v1 )

ライセンス: Link先を確認
Victoria Manousaki, Konstantinos Papoutsakis and Antonis Argyros(参考訳) 本稿では,映像中の物体間インタラクションの視覚的予測のための新しい手法を提案する。 人間と物体の動きや将来の接触点を予測するのではなく、予測することを目指す。 (a)現在進行中のヒューマン・オブジェクトインタラクションのクラスと (b) 次のアクティブなオブジェクト(naos)のクラス(es)、すなわち、近未来の相互作用に関係し、その相互作用が起こる時間を含むオブジェクト(s)。 グラフマッチングはグラフ編集距離(GED)法に依存する。 提案手法の実験的評価は,人間と物体の相互作用を含む2つの確立されたビデオデータセット(msr daily activityとcad120)を用いて行った。 動作予測とNAO予測の両方において高い予測精度が得られた。

We present a novel approach for the visual prediction of human-object interactions in videos. Rather than forecasting the human and object motion or the future hand-object contact points, we aim at predicting (a)the class of the on-going human-object interaction and (b) the class(es) of the next active object(s) (NAOs), i.e., the object(s) that will be involved in the interaction in the near future as well as the time the interaction will occur. Graph matching relies on the efficient Graph Edit distance (GED) method. The experimental evaluation of the proposed approach was conducted using two well-established video datasets that contain human-object interactions, namely the MSR Daily Activities and the CAD120. High prediction accuracy was obtained for both action prediction and NAO forecasting.
翻訳日:2022-09-13 13:26:22 公開日:2022-09-12
# 一般化可能な人物再識別のためのスタイル変数と非関連学習

Style Variable and Irrelevant Learning for Generalizable Person Re-identification ( http://arxiv.org/abs/2209.05235v1 )

ライセンス: Link先を確認
Haobo Chen, Chuyang Zhao, Kai Tu, Junru Chen, Yadong Li, Boxun Li(参考訳) 近年、教師付き人物再識別(ReID)の未確認領域に対する性能が低下しているため、ドメイン一般化(DG)担当者のReIDは、ドメイン非感受性モデルを学び、ドメインバイアスの影響を抑えることを目的とした多くの注目を集めている。 本稿では,まず,スタイル要因がドメインバイアスの重要な部分であることを実験により検証する。 この結論に基づいて,スタイル要因がモデルに与える影響を排除するために,スタイル変数と非関連学習(SVIL)手法を提案する。 具体的には,SVIL でスタイルジッタモジュール (SJM) を設計する。 SJMモジュールは、特定のソースドメインのスタイルの多様性を強化し、様々なソースドメインのスタイルの違いを減らすことができる。 これにより、モデルがアイデンティティ関連情報に注目し、スタイル変更に敏感になる。 さらに,SJMモジュールとメタ学習アルゴリズムを有機的に組み合わせ,利点を最大化し,モデルの一般化能力をさらに向上させる。 私たちのSJMモジュールはプラグ&プレイと推論のコストフリーです。 SVILの有効性を確認し,提案手法はDG-ReIDベンチマークにおける最先端手法よりも高い性能を示す。

Recently, due to the poor performance of supervised person re-identification (ReID) to an unseen domain, Domain Generalization (DG) person ReID has attracted a lot of attention which aims to learn a domain-insensitive model and can resist the influence of domain bias. In this paper, we first verify through an experiment that style factors are a vital part of domain bias. Base on this conclusion, we propose a Style Variable and Irrelevant Learning (SVIL) method to eliminate the effect of style factors on the model. Specifically, we design a Style Jitter Module (SJM) in SVIL. The SJM module can enrich the style diversity of the specific source domain and reduce the style differences of various source domains. This leads to the model focusing on identity-relevant information and being insensitive to the style changes. Besides, we organically combine the SJM module with a meta-learning algorithm, maximizing the benefits and further improving the generalization ability of the model. Note that our SJM module is plug-and-play and inference cost-free. Extensive experiments confirm the effectiveness of our SVIL and our method outperforms the state-of-the-art methods on DG-ReID benchmarks by a large margin.
翻訳日:2022-09-13 13:26:11 公開日:2022-09-12
# $\beta$-CapsNet: Information BottleneckによるCapsNetのアンタングル表現学習

$\beta$-CapsNet: Learning Disentangled Representation for CapsNet by Information Bottleneck ( http://arxiv.org/abs/2209.05239v1 )

ライセンス: Link先を確認
Ming-fei Hu, Jian-wei Liu(参考訳) 本稿では,情報をコンパクトな形で蒸留し,解釈可能な因子化カプセルを学習する,情報ボトルネック制約によるCapsNetの不整合表現学習フレームワークを提案する。 当社の$\beta$-CapsNetフレームワークでは、ハイパーパラメータ$\beta$をトレードオフ不整合やその他のタスクに使用して、情報ボトルネック項をカプセル平均の制約として近似したKL分散に変換するために、変動推論を利用する。 教師あり学習では,画像クラスによらず,変形の種類を合成的に理解するためにクラス独立マスクベクトルが用いられ,パラメータ$\beta$をチューニングして広範囲な量的・質的実験を行い,乱れ,再構成,分類性能の関係を解明した。 さらに,unsupervised $\beta$-capsnetとそれに対応する動的ルーティングアルゴリズムが,無監督でカプセルを学習するために提案されている。

We present a framework for learning disentangled representation of CapsNet by information bottleneck constraint that distills information into a compact form and motivates to learn an interpretable factorized capsule. In our $\beta$-CapsNet framework, hyperparameter $\beta$ is utilized to trade-off disentanglement and other tasks, variational inference is utilized to convert the information bottleneck term into a KL divergence that is approximated as a constraint on the mean of the capsule. For supervised learning, class independent mask vector is used for understanding the types of variations synthetically irrespective of the image class, we carry out extensive quantitative and qualitative experiments by tuning the parameter $\beta$ to figure out the relationship between disentanglement, reconstruction and classfication performance. Furthermore, the unsupervised $\beta$-CapsNet and the corresponding dynamic routing algorithm is proposed for learning disentangled capsule in an unsupervised manner, extensive empirical evaluations suggest that our $\beta$-CapsNet achieves state-of-the-art disentanglement performance compared to CapsNet and various baselines on several complex datasets both in supervision and unsupervised scenes.
翻訳日:2022-09-13 13:25:51 公開日:2022-09-12
# LSTMオートエンコーダを用いたドライバの動作異常検出

Detecting Driver Drowsiness as an Anomaly Using LSTM Autoencoders ( http://arxiv.org/abs/2209.05269v1 )

ライセンス: Link先を確認
G\"ulin T\"ufekci, Alper Kayaba\c{s}i, Erdem Akag\"und\"uz, \.Ilkay Ulusoy(参考訳) 本稿では,LSTMオートエンコーダをベースとしたアーキテクチャを用いて,ResNet-34を特徴抽出器として使用する。 この問題は, 単科目における異常検出と見なされるため, 通常の運転表現のみを学習し, ネットワークの知識により, より高い再設計損失を生じる居住表現を区別することが期待される。 本研究は, lstmオートエンコーダの訓練性能とテスト中に発生する異常の解釈を, 異なる信頼性率で解析するラベル割り当て手法を用いて, 正常クリップと異常クリップの信頼性レベルを調査した。 本手法はNTHU-DDD上で実験を行い,運転者の眠気に対する最先端の異常検出手法を用いてベンチマークを行った。 その結果,曲線下0.8740領域の検出率(AUC)が得られ,特定のシナリオにおいて大幅な改善が期待できることがわかった。

In this paper, an LSTM autoencoder-based architecture is utilized for drowsiness detection with ResNet-34 as feature extractor. The problem is considered as anomaly detection for a single subject; therefore, only the normal driving representations are learned and it is expected that drowsiness representations, yielding higher reconstruction losses, are to be distinguished according to the knowledge of the network. In our study, the confidence levels of normal and anomaly clips are investigated through the methodology of label assignment such that training performance of LSTM autoencoder and interpretation of anomalies encountered during testing are analyzed under varying confidence rates. Our method is experimented on NTHU-DDD and benchmarked with a state-of-the-art anomaly detection method for driver drowsiness. Results show that the proposed model achieves detection rate of 0.8740 area under curve (AUC) and is able to provide significant improvements on certain scenarios.
翻訳日:2022-09-13 13:25:25 公開日:2022-09-12
# 一般画面コンテンツ品質評価のための深層特徴統計マッピング

Deep Feature Statistics Mapping for Generalized Screen Content Image Quality Assessment ( http://arxiv.org/abs/2209.05321v1 )

ライセンス: Link先を確認
Baoliang Chen, Hanwei Zhu, Lingyu Zhu, Shiqi Wang, Sam Kwong(参考訳) 自然画像の統計正則性は自然シーン統計と呼ばれ、非参照画像の品質評価において重要な役割を果たす。 しかし、通常コンピュータ生成されるスクリーンコンテンツ画像(SCI)はそのような統計を持っていないことが広く認識されている。 ここでは,SCIの質を効果的に決定できる指標に基づいて,SCIの統計を学習するための最初の試みを行う。 提案手法の基盤となるメカニズムは、物理的に取得されていないSCIが、学習方法で理解可能な統計に従うという野放な仮定に基づいている。 本研究では, 統計的偏差が品質評価において有効に活用できることを実証的に示し, 異なる設定で評価した場合, 提案手法の方が優れていることを示す。 SCI品質評価モデル(DFSS-IQA)は、既存のNR-IQAモデルと比較して有望な性能を示し、データセット間設定において高い一般化能力を示す。 本手法の実装はhttps://github.com/Baoliang93/DFSS-IQAで公開されている。

The statistical regularities of natural images, referred to as natural scene statistics, play an important role in no-reference image quality assessment. However, it has been widely acknowledged that screen content images (SCIs), which are typically computer generated, do not hold such statistics. Here we make the first attempt to learn the statistics of SCIs, based upon which the quality of SCIs can be effectively determined. The underlying mechanism of the proposed approach is based upon the wild assumption that the SCIs, which are not physically acquired, still obey certain statistics that could be understood in a learning fashion. We empirically show that the statistics deviation could be effectively leveraged in quality assessment, and the proposed method is superior when evaluated in different settings. Extensive experimental results demonstrate the Deep Feature Statistics based SCI Quality Assessment (DFSS-IQA) model delivers promising performance compared with existing NR-IQA models and shows a high generalization capability in the cross-dataset settings. The implementation of our method is publicly available at https://github.com/Baoliang93/DFSS-IQA.
翻訳日:2022-09-13 13:25:09 公開日:2022-09-12
# 画像処理技術とオートエンコーダを用いた染色体分割解析

Chromosome Segmentation Analysis Using Image Processing Techniques and Autoencoders ( http://arxiv.org/abs/2209.05414v1 )

ライセンス: Link先を確認
Amritha S Pallavoor, Prajwal A, Sundareshan TS, Sreekanth K Pallavoor(参考訳) 細胞遺伝学的診断において, 染色体解析とメタフェーズ画像からの同定が重要である。 主に、遺伝疾患や疾患の診断において、構成的、出生前、獲得された異常を識別するために使用される。 染色体をメタフェーズから同定するプロセスは退屈なもので、訓練された人員と実行に数時間を要する。 チャレンジは、特にメタフェーズ画像のタッチ、オーバーラップ、クラスタ化された染色体を扱う際に存在し、適切に区切らなければ間違った分類となる。 そこで本研究では, 染色体検出と染色体分割のプロセスを自動化する手法を提案し, 深層CNNアーキテクチャを用いて染色体のタイプを識別する手法を提案する。 中間相に見られる重複染色体の分離に2つの手法を用いた。1つは流域アルゴリズム、もう1つはオートエンコーダ、もう1つは流域アルゴリズムに基づく方法である。 これらの方法は、自動化と、アウトプットを生成するセグメンテーションを実行するための非常に小さな手作業の組み合わせを含む。 この手作業により、人間の直感、特に触覚、重複、クラスター染色体の扱いが考慮される。 セグメンテーションの際、個々の染色体画像はDeep CNNモデルを用いて95.75\%の精度でそれぞれのクラスに分類される。 さらに、これらの染色体を与えられた出力(通常、ヒトの通常のシナリオでは46個の個々の画像からなる)から、98\%の精度で個々のクラスに分類する分布戦略を付与する。 本研究は, 染色体分割に関わる純粋な手作業は, 画像処理技術により, 信頼性と満足度の高い結果を生み出すことにより, 極めて良好なレベルまで自動化できると結論づける。

Chromosome analysis and identification from metaphase images is a critical part of cytogenetics based medical diagnosis. It is mainly used for identifying constitutional, prenatal and acquired abnormalities in the diagnosis of genetic diseases and disorders. The process of identification of chromosomes from metaphase is a tedious one and requires trained personnel and several hours to perform. Challenge exists especially in handling touching, overlapping and clustered chromosomes in metaphase images, which if not segmented properly would result in wrong classification. We propose a method to automate the process of detection and segmentation of chromosomes from a given metaphase image, and in using them to classify through a Deep CNN architecture to know the chromosome type. We have used two methods to handle the separation of overlapping chromosomes found in metaphases - one method involving watershed algorithm followed by autoencoders and the other a method purely based on watershed algorithm. These methods involve a combination of automation and very minimal manual effort to perform the segmentation, which produces the output. The manual effort ensures that human intuition is taken into consideration, especially in handling touching, overlapping and cluster chromosomes. Upon segmentation, individual chromosome images are then classified into their respective classes with 95.75\% accuracy using a Deep CNN model. Further, we impart a distribution strategy to classify these chromosomes from the given output (which typically could consist of 46 individual images in a normal scenario for human beings) into its individual classes with an accuracy of 98\%. Our study helps conclude that pure manual effort involved in chromosome segmentation can be automated to a very good level through image processing techniques to produce reliable and satisfying results.
翻訳日:2022-09-13 13:24:52 公開日:2022-09-12
# 切り替え可能なオンライン知識蒸留

Switchable Online Knowledge Distillation ( http://arxiv.org/abs/2209.04996v1 )

ライセンス: Link先を確認
Biao Qian, Yang Wang, Hongzhi Yin, Richang Hong and Meng Wang(参考訳) オンライン知識蒸留(OKD)は,教師と生徒の違いを相互に活用することで,関連するモデルを改善する。 それらのギャップに関するいくつかの重要なボトルネック - 例えば、大きなギャップは、特に学生にとってパフォーマンスに悪影響を及ぼすのか? 教師と学生の間のギャップを定量化する方法? - は、限定的な正式な研究を受けている。 本稿では,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。 switokdの中核となるアイデアは、既存の技術によるテストフェーズの精度ギャップに注目するのではなく、トレーニングフェーズにおけるギャップ、すなわち蒸留ギャップを、2つのモード – エキスパートモード(教師の学習を継続しながら教師を一時停止する)と学習モード(教師を再開する)の切り替え戦略を通じて適応的に調整することだ。 適切な蒸留ギャップを確保するために,学習モードやエキスパートモードに切り替える際の形式的基準を提供する適応切換閾値を考案し,学生のパフォーマンスを向上させる。 一方、教師は私たちの適応的なスイッチングしきい値から恩恵を受け、基本的に他のオンラインアートと同等に保ちます。 さらにswitokdを2つの基底トポロジを持つ複数のネットワークに拡張する。 最後に、幅広い実験と分析により、最先端技術の分類におけるSwitOKDの利点が検証された。 私たちのコードはhttps://github.com/hfutqian/switokdで利用可能です。

Online Knowledge Distillation (OKD) improves the involved models by reciprocally exploiting the difference between teacher and student. Several crucial bottlenecks over the gap between them -- e.g., Why and when does a large gap harm the performance, especially for student? How to quantify the gap between teacher and student? -- have received limited formal study. In this paper, we propose Switchable Online Knowledge Distillation (SwitOKD), to answer these questions. Instead of focusing on the accuracy gap at test phase by the existing arts, the core idea of SwitOKD is to adaptively calibrate the gap at training phase, namely distillation gap, via a switching strategy between two modes -- expert mode (pause the teacher while keep the student learning) and learning mode (restart the teacher). To possess an appropriate distillation gap, we further devise an adaptive switching threshold, which provides a formal criterion as to when to switch to learning mode or expert mode, and thus improves the student's performance. Meanwhile, the teacher benefits from our adaptive switching threshold and keeps basically on a par with other online arts. We further extend SwitOKD to multiple networks with two basis topologies. Finally, extensive experiments and analysis validate the merits of SwitOKD for classification over the state-of-the-arts. Our code is available at https://github.com/hfutqian/SwitOKD.
翻訳日:2022-09-13 13:19:41 公開日:2022-09-12
# ビュー合成のための統一3dポイントクラウドの学習

Learning A Unified 3D Point Cloud for View Synthesis ( http://arxiv.org/abs/2209.05013v1 )

ライセンス: Link先を確認
Meng You, Mantang Guo, Xianqiang Lyu, Hui Liu, and Junhui Hou(参考訳) 3dポイントクラウド表現に基づくビュー合成手法が有効性を示している。 しかし,既存の手法では,単一のソースビューのみから新規ビューを合成することが一般的であり,複数のソースビューを一般化して高い再構築品質を追求することは容易ではない。 本稿では、異なるソースビューから統合された3Dポイントクラウドを学習する、新しいディープラーニングベースのビュー合成パラダイムを提案する。 具体的には、まずソースビューを3次元空間に投影し、深度マップに基づいてサブポイントクラウドを構築する。 次に,部分点雲の和集合上に定義された局所近傍の点を適応的に融合することにより,統一3次元点雲を学習する。 また、3次元形状誘導画像復元モジュールを提案し、穴を埋め、描画された新規ビューの高周波詳細を復元する。 3つのベンチマークデータセットによる実験結果から,本手法は最先端のビュー合成手法を定量的かつ視覚的に大きく上回ることを示した。

3D point cloud representation-based view synthesis methods have demonstrated effectiveness. However, existing methods usually synthesize novel views only from a single source view, and it is non-trivial to generalize them to handle multiple source views for pursuing higher reconstruction quality. In this paper, we propose a new deep learning-based view synthesis paradigm, which learns a unified 3D point cloud from different source views. Specifically, we first construct sub-point clouds by projecting source views to 3D space based on their depth maps. Then, we learn the unified 3D point cloud by adaptively fusing points at a local neighborhood defined on the union of the sub-point clouds. Besides, we also propose a 3D geometry-guided image restoration module to fill the holes and recover high-frequency details of the rendered novel views. Experimental results on three benchmark datasets demonstrate that our method outperforms state-of-the-art view synthesis methods to a large extent both quantitatively and visually.
翻訳日:2022-09-13 13:19:19 公開日:2022-09-12
# 合成データセットは、一般化された人物再同定のベンチマークに信頼できるか?

Is Synthetic Dataset Reliable for Benchmarking Generalizable Person Re-Identification? ( http://arxiv.org/abs/2209.05047v1 )

ライセンス: Link先を確認
Cuicui Kang(参考訳) 最近の研究では、合成データセットで訓練されたモデルは、公開現実のデータセットで訓練されたモデルよりも、より一般化可能な人物再識別(GPReID)のパフォーマンスを達成することができることが示されている。 一方、実世界の人物ReIDデータセットの制限のため、個人ReIDアルゴリズムをベンチマークするテストセットとして大規模合成データセットを使用することも重要かつ興味深いだろう。 合成データセットは、一般化可能な人物の再識別のベンチマークに信頼できるのか? 文献にこれを示す証拠はない。 そこで我々は,ペアワイズランキング分析(pra)という手法を考案し,ランキングの類似度を定量的に測定し,同一分布の統計テストを行う。 具体的には,kendallランク相関係数を用いて,異なるデータセット上でのアルゴリズムランキング間の相似性を評価する。 次に、合成データセットと実世界のデータセット間のアルゴリズムの相関関係が同一分布にあるか否かを判定するために、非パラメトリック2サンプルのコルモゴロフ・スミルノフ(KS)試験を行う。 10の代表的なアルゴリズム、人気のある現実世界のReIDデータセット3つ、そして最近リリースされた大規模合成データセット3つで包括的な実験を行います。 ペアワイズランキング分析と包括的評価により,近年の大規模合成データセットクローンは,実世界のデータセットと統計的に同じgpreidのベンチマークに確実に使用することができる。 そこで本研究では,実世界の監視データからプライバシーの懸念を全く受けずに,ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証している。 さらに、この研究は、合成データセットの将来の設計を刺激するかもしれない。

Recent studies show that models trained on synthetic datasets are able to achieve better generalizable person re-identification (GPReID) performance than that trained on public real-world datasets. On the other hand, due to the limitations of real-world person ReID datasets, it would also be important and interesting to use large-scale synthetic datasets as test sets to benchmark person ReID algorithms. Yet this raises a critical question: is synthetic dataset reliable for benchmarking generalizable person re-identification? In the literature there is no evidence showing this. To address this, we design a method called Pairwise Ranking Analysis (PRA) to quantitatively measure the ranking similarity and perform the statistical test of identical distributions. Specifically, we employ Kendall rank correlation coefficients to evaluate pairwise similarity values between algorithm rankings on different datasets. Then, a non-parametric two-sample Kolmogorov-Smirnov (KS) test is performed for the judgement of whether algorithm ranking correlations between synthetic and real-world datasets and those only between real-world datasets lie in identical distributions. We conduct comprehensive experiments, with ten representative algorithms, three popular real-world person ReID datasets, and three recently released large-scale synthetic datasets. Through the designed pairwise ranking analysis and comprehensive evaluations, we conclude that a recent large-scale synthetic dataset ClonedPerson can be reliably used to benchmark GPReID, statistically the same as real-world datasets. Therefore, this study guarantees the usage of synthetic datasets for both source training set and target testing set, with completely no privacy concerns from real-world surveillance data. Besides, the study in this paper might also inspire future designs of synthetic datasets.
翻訳日:2022-09-13 13:19:03 公開日:2022-09-12
# 英語、ポルトガル語、スペイン語の語彙単純化ベンチマーク

Lexical Simplification Benchmarks for English, Portuguese, and Spanish ( http://arxiv.org/abs/2209.05301v1 )

ライセンス: Link先を確認
Sanja Stajner, Daniel Ferres, Matthew Shardlow, Kai North, Marcos Zampieri, Horacio Saggion(参考訳) 高度に発達した国でさえ、人口の15-30\%は基本的な語彙で書かれたテキストしか理解できない。 日常的な文章に対する理解は限られており、社会において活発な役割を担い、医療、法的な表現、民主的選択に関する情報的な決定をすることを妨げる。 Lexical simplificationは、複雑な語彙や表現をシンプルに置き換え、本来の意味を保ちながら、テキストを誰でも理解できるようにすることを目的とした自然言語処理タスクである。 過去20年間にかなりの注目を集め、様々な言語で完全に自動化された語彙単純化システムが提案されている。 この分野の進展の主な障害は、語彙的単純化システムの構築と評価のための高品質なデータセットがないことである。 本稿では,英語,スペイン語,(ブラジル語)ポルトガル語における語彙簡略化のための新しいベンチマークデータセットを示し,データ選択とアノテーション手順の詳細を提供する。 これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。 データセットのユーザビリティを示すために,異なるアーキテクチャ(ニューラル対ニューラル)を持つ2つの最先端の語彙単純化システムを適用した。 英語、スペイン語、ブラジルポルトガル語の3つの言語すべてに対して、新しいデータセットでのパフォーマンスを評価します。 より公平な比較のために、システムの有効性の様々な側面を捉え、その強みと弱みについて議論するいくつかの評価尺度を用いる。 最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れている。 さらに重要なことは、現在最先端の神経語彙の単純化システムは、スペイン語やポルトガル語よりも英語の方がはるかに優れているということです。

Even in highly-developed countries, as many as 15-30\% of the population can only understand texts written using a basic vocabulary. Their understanding of everyday texts is limited, which prevents them from taking an active role in society and making informed decisions regarding healthcare, legal representation, or democratic choice. Lexical simplification is a natural language processing task that aims to make text understandable to everyone by replacing complex vocabulary and expressions with simpler ones, while preserving the original meaning. It has attracted considerable attention in the last 20 years, and fully automatic lexical simplification systems have been proposed for various languages. The main obstacle for the progress of the field is the absence of high-quality datasets for building and evaluating lexical simplification systems. We present a new benchmark dataset for lexical simplification in English, Spanish, and (Brazilian) Portuguese, and provide details about data selection and annotation procedures. This is the first dataset that offers a direct comparison of lexical simplification systems for three languages. To showcase the usability of the dataset, we adapt two state-of-the-art lexical simplification systems with differing architectures (neural vs.\ non-neural) to all three languages (English, Spanish, and Brazilian Portuguese) and evaluate their performances on our new dataset. For a fairer comparison, we use several evaluation measures which capture varied aspects of the systems' efficacy, and discuss their strengths and weaknesses. We find a state-of-the-art neural lexical simplification system outperforms a state-of-the-art non-neural lexical simplification system in all three languages. More importantly, we find that the state-of-the-art neural lexical simplification systems perform significantly better for English than for Spanish and Portuguese.
翻訳日:2022-09-13 13:09:28 公開日:2022-09-12
# 自動規範推論のためのlawalrulemlとtptpの橋渡し(拡張版)

Bridging between LegalRuleML and TPTP for Automated Normative Reasoning (extended version) ( http://arxiv.org/abs/2209.05090v1 )

ライセンス: Link先を確認
Alexander Steen, David Fuenmayor(参考訳) LegalRuleMLは、標準ルールのモデリングと交換のための包括的なXMLベースの表現フレームワークである。 一方、TPTP入力および出力フォーマットは、自動推論システムとのインタラクションのための汎用標準である。 本稿では,2つのコミュニティ間の橋渡しについて述べる。 (i)TPTPフォーマットに基づいた論理多元的規範推論言語を定義する。 (ii)法ルレムの関連断片とこの言語との翻訳スキームの提供及び (iii)この翻訳に基づく自動規範推論のための柔軟なアーキテクチャの提案。 例示的に3つの規範論理を用いてアプローチをインスタンス化し、実証する。

LegalRuleML is a comprehensive XML-based representation framework for modeling and exchanging normative rules. The TPTP input and output formats, on the other hand, are general-purpose standards for the interaction with automated reasoning systems. In this paper we provide a bridge between the two communities by (i) defining a logic-pluralistic normative reasoning language based on the TPTP format, (ii) providing a translation scheme between relevant fragments of LegalRuleML and this language, and (iii) proposing a flexible architecture for automated normative reasoning based on this translation. We exemplarily instantiate and demonstrate the approach with three different normative logics.
翻訳日:2022-09-13 13:08:48 公開日:2022-09-12
# 制限のあるエージェントへのリソース割り当て: 最小妥協による可能性の最大化

Resource Allocation to Agents with Restrictions: Maximizing Likelihood with Minimum Compromise ( http://arxiv.org/abs/2209.05170v1 )

ライセンス: Link先を確認
Yohai Trabelsi, Abhijin Adiga, Sarit Kraus, S.S. Ravi(参考訳) 制約のあるエージェントがリソースを競う多くのシナリオは、二部グラフの最大マッチング問題としてキャストできる。 我々の焦点はリソース割り当ての問題であり、エージェントはリソースとの互換性を損なうような制限を課す可能性がある。 各エージェントがリソースと何らかの確率でマッチするように、原則がランダムに最大マッチングを選択すると仮定する。 エージェントは、一定の範囲内で制限を変更することで、マッチする可能性を改善したい。 原則の目的は、不満足なエージェントに制限を緩和するよう助言し、緩和の総コストが予算の範囲内(エージェントによる調停)であり、リソースを割り当てる確率の増大が最大になるようにすることである。 我々は,この予算制約付き最大化問題のいくつかの変種に対してハードネス結果を確立し,他の変種に対してアルゴリズム的結果を与える。 提案手法は, 総合データセットと, 休暇活動データセットと教室データセットの2つの新しい実世界データセットについて実験的に評価した。

Many scenarios where agents with restrictions compete for resources can be cast as maximum matching problems on bipartite graphs. Our focus is on resource allocation problems where agents may have restrictions that make them incompatible with some resources. We assume that a Principle chooses a maximum matching randomly so that each agent is matched to a resource with some probability. Agents would like to improve their chances of being matched by modifying their restrictions within certain limits. The Principle's goal is to advise an unsatisfied agent to relax its restrictions so that the total cost of relaxation is within a budget (chosen by the agent) and the increase in the probability of being assigned a resource is maximized. We establish hardness results for some variants of this budget-constrained maximization problem and present algorithmic results for other variants. We experimentally evaluate our methods on synthetic datasets as well as on two novel real-world datasets: a vacation activities dataset and a classrooms dataset.
翻訳日:2022-09-13 13:08:41 公開日:2022-09-12
# ヒューマンオペレーターと仮想エージェントを組み合わせた効率的な顧客サービス

Efficient Customer Service Combining Human Operators and Virtual Agents ( http://arxiv.org/abs/2209.05226v1 )

ライセンス: Link先を確認
Yaniv Oshrat, Yonatan Aumann, Tal Hollander, Oleg Maksimov, Anita Ostroumov, Natali Shechtman, Sarit Kraus(参考訳) 人間のオペレータと仮想エージェント(ボット)を、クライアントに適切な顧客サービスを提供する効果的なハイブリッドシステムに組み込むことは、有望である。 このハイブリッドシステムは、ボットが適切なサービスを提供することができない場合に顧客のフラストレーションを減少させ、人間のオペレータと対話したいときに満足度を高める。 さらに,仮想エージェントが人間の操作者から漸進的に学習できるようにすることにより,このような仮想エージェントの構築・維持のコストと労力を削減できることが示唆された。 このようなハイブリッドシステムの動作と効率を規定する重要なパラメータを特定し、サービスを改善するために最適化すべき主なパラメータを決定するためにキュー理論を用いる。 パラメータの適切な選択により、これらのハイブリッドシステムは、期待される待ち時間と満足度を同時に減少させながら、提供されたクライアントの数を増やすことができる。

The prospect of combining human operators and virtual agents (bots) into an effective hybrid system that provides proper customer service to clients is promising yet challenging. The hybrid system decreases the customers' frustration when bots are unable to provide appropriate service and increases their satisfaction when they prefer to interact with human operators. Furthermore, we show that it is possible to decrease the cost and efforts of building and maintaining such virtual agents by enabling the virtual agent to incrementally learn from the human operators. We employ queuing theory to identify the key parameters that govern the behavior and efficiency of such hybrid systems and determine the main parameters that should be optimized in order to improve the service. We formally prove, and demonstrate in extensive simulations and in a user study, that with the proper choice of parameters, such hybrid systems are able to increase the number of served clients while simultaneously decreasing their expected waiting time and increasing satisfaction.
翻訳日:2022-09-13 13:08:26 公開日:2022-09-12
# CSL: 大規模中国の科学文献データセット

CSL: A Large-scale Chinese Scientific Literature Dataset ( http://arxiv.org/abs/2209.05034v1 )

ライセンス: Link先を確認
Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao, and Hui Zhang(参考訳) 科学文献は高品質なコーパスとして機能し、多くの自然言語処理(NLP)研究を支援している。 しかし、既存のデータセットは、中国科学NLPの発展を制限する英語を中心にしている。 本研究では,396k論文のタイトル,要約,キーワード,学術分野を含む大規模中国科学文献データセットであるCSLについて述べる。 我々の知る限り、CSLは中国初の科学的文書データセットである。 CSLは中国のコーパスとして機能する。 また、この半構造化データは、多くの教師付きNLPタスクを構成することができる自然なアノテーションである。 cslに基づいて,科学的領域タスク,すなわち要約,キーワード生成,テキスト分類におけるモデルの性能評価を行うベンチマークを示す。 評価タスクにおける既存のテキスト・テキスト・モデルの振る舞いを分析し,中国科学NLPタスクの課題を明らかにする。 データとコードはhttps://github.com/ydli-ai/CSLで入手できる。

Scientific literature serves as a high-quality corpus, supporting a lot of Natural Language Processing (NLP) research. However, existing datasets are centered around the English language, which restricts the development of Chinese scientific NLP. In this work, we present CSL, a large-scale Chinese Scientific Literature dataset, which contains the titles, abstracts, keywords and academic fields of 396k papers. To our knowledge, CSL is the first scientific document dataset in Chinese. The CSL can serve as a Chinese corpus. Also, this semi-structured data is a natural annotation that can constitute many supervised NLP tasks. Based on CSL, we present a benchmark to evaluate the performance of models across scientific domain tasks, i.e., summarization, keyword generation and text classification. We analyze the behavior of existing text-to-text models on the evaluation tasks and reveal the challenges for Chinese scientific NLP tasks, which provides a valuable reference for future research. Data and code are available at https://github.com/ydli-ai/CSL
翻訳日:2022-09-13 13:02:22 公開日:2022-09-12
# 意味保存型逆コード理解

Semantic-Preserving Adversarial Code Comprehension ( http://arxiv.org/abs/2209.05130v1 )

ライセンス: Link先を確認
Yiyang Li, Hongqiu Wu, Hai Zhao(参考訳) ソースコード理解タスクにおける事前学習言語モデル(PrLM)の驚異的な成功に基づいて、現在の文献研究は、PrLMの性能(一般化)をさらに向上する方法や、敵の攻撃に対する堅牢性について研究している。 しかし、両面間のトレードオフを妥協し、双方を効果的かつ実用的な方法で改善することを検討する者はいない。 このギャップを埋めるために、私たちは、最悪ケースのセマンティック保存コード埋め込み(SPACE)を提案し、最悪のケースではモデルに正しいラベルを予測させながら、最悪のケースのセマンティック保存攻撃を見つけます。 実験と分析により、SPACEは、コードに対するPrLMのパフォーマンスを高めながら、最先端の攻撃に対して堅牢であることを示す。

Based on the tremendous success of pre-trained language models (PrLMs) for source code comprehension tasks, current literature studies either ways to further improve the performance (generalization) of PrLMs, or their robustness against adversarial attacks. However, they have to compromise on the trade-off between the two aspects and none of them consider improving both sides in an effective and practical way. To fill this gap, we propose Semantic-Preserving Adversarial Code Embeddings (SPACE) to find the worst-case semantic-preserving attacks while forcing the model to predict the correct labels under these worst cases. Experiments and analysis demonstrate that SPACE can stay robust against state-of-the-art attacks while boosting the performance of PrLMs for code.
翻訳日:2022-09-13 13:02:10 公開日:2022-09-12
# Follow-Ups Likelihood を用いたオープンドメインダイアログ評価

Open-Domain Dialog Evaluation using Follow-Ups Likelihood ( http://arxiv.org/abs/2209.05185v1 )

ライセンス: Link先を確認
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans(参考訳) オープンドメインダイアログの自動評価は未解決の問題である。 また,既存の手法は人間のアノテーションと強く相関しない。 本稿では,フォローアップを用いた新たな自動評価手法を提案する: 言語モデルが一定組のフォローアップと会話を続ける確率を測定する(例えば,ここでは本当に関係がない,何を言いたいのか,など)。 既存の12の手法と比較すると,人間の評価と高い相関性が得られる。

Automatic evaluation of open-domain dialogs remains an unsolved problem. Moreover, existing methods do not correlate strongly with human annotations. This paper presents a new automated evaluation method using follow-ups: we measure the probability that a language model will continue the conversation with a fixed set of follow-ups (e.g., not really relevant here, what are you trying to say). When compared against twelve existing methods, our new evaluation achieves the highest correlation with human evaluations.
翻訳日:2022-09-13 13:01:56 公開日:2022-09-12
# 言語フラクタルによる危険事象の分類

Classification of hazard event via language fractal ( http://arxiv.org/abs/2209.05263v1 )

ライセンス: Link先を確認
Zhenhua Wang, Dong Gao, Bin Wang, Ming Ren(参考訳) HAZOPは産業の危険を明らかにするための安全パラダイムであり、報告書は有害事象(HaE)をカバーしている。 HaE分類の研究は、置換不可能な実用値を持っている。 しかし、この話題にそれほど注意を払っていない。 本稿では,言語の観点からのフラクタル法によるHaE分類を探索するために,DLFと呼ばれる新しい深層学習モデルを提案する。 その動機は、(1)HaEは自然に時系列の一種とみなすことができ、(2)HaEの意味は単語配列によって駆動されるということである。 具体的には、まずBERTを使ってHaEをベクトル化する。 次に,HmF-DFAと呼ばれる新しいマルチフラクタル手法を提案し,時系列と見なされるHaEベクトルを解析してHaEフラクタル系列を計算する。 最後に,新たな階層型ゲーティングニューラルネットワーク(hgnn)を設計し,haeフラクタル系列を処理し,haeの分類を行う。 ケーススタディには18のプロセスが必要です。 実験はHAZOPレポートに基づいて開始する。 実験の結果,dlf分類器は満足でき,有望であり,提案するhmf-dfaとhgnnは有効であり,haeへの言語フラクタルの導入は可能であった。 私たちのHaE分類システムは、HAZOPに役立ち、専門家、エンジニア、従業員、その他の企業にアプリケーションインセンティブをもたらします。 我々は,産業安全とフラクタル理論の日々の実践に,我々の研究が貢献できることを願っている。

HAZOP is a safety paradigm undertaken to reveal hazards in industry, its report covers valuable hazard events (HaE). The research on HaE classification has much irreplaceable pragmatic values. However, no study has paid such attention to this topic. In this paper, we present a novel deep learning model termed DLF to explore the HaE classification through fractal method from the perspective of language. The motivation is that (1): HaE can be naturally regarded as a kind of time series; (2): the meaning of HaE is driven by word arrangement. Specifically, first we employ BERT to vectorize HaE. Then, we propose a new multifractal method termed HmF-DFA to calculate HaE fractal series by analyzing the HaE vector who is regarded as a time series. Finally, we design a new hierarchical gating neural network (HGNN) to process the HaE fractal series to accomplish the classification of HaE. We take 18 processes for case study. We launch the experiment on the basis of their HAZOP reports. Experimental results demonstrate that our DLF classifier is satisfactory and promising, the proposed HmF-DFA and HGNN are effective, and the introduction of language fractal into HaE is feasible. Our HaE classification system can serve HAZOP and bring application incentives to experts, engineers, employees, and other enterprises, which is conducive to the intelligent development of industrial safety. We hope our research can contribute added support to the daily practice in industrial safety and fractal theory.
翻訳日:2022-09-13 13:01:49 公開日:2022-09-12
# deck: テキストから抑うつを検出するbertモデルの解釈性と一般化性を改善する行動テスト

DECK: Behavioral Tests to Improve Interpretability and Generalizability of BERT Models Detecting Depression from Text ( http://arxiv.org/abs/2209.05286v1 )

ライセンス: Link先を確認
Jekaterina Novikova, Ksenia Shkaruta(参考訳) テキストからうつ病を正確に検出するモデルは、パンデミック後の精神疾患に対処するための重要なツールである。 BERTベースの分類器の有望な性能と市販の可用性は、このタスクの優れた候補となる。 しかし、これらのモデルは性能の矛盾や一般化の貧弱さに苦しむことが知られている。 本稿では,抑うつ領域における BERT 分類器の解釈性の向上と一般化性の向上を可能にする抑うつ特異的モデル行動テストである DECK (Depression ChecKlist) を紹介する。 我々は、BERT、RoBERTa、ALBERTのうつ病分類器を3つのデータセット、Twitterベース2つ、臨床インタビューベース1つで評価するために23のテストを作成します。 私たちの評価は これらのモデルが 1) テキストの性別に敏感な変化に対して堅牢である。 2) 第一人称代名詞の使用の増加に関する重要な抑うつ的言語マーカー 3) 自殺思考などの他のうつ症状は検出できない。 また、DCKテストは、トレーニングデータに症状特異的情報を組み込んで、3つのBERTモデルの一般化性を一貫して改善し、配布外F1スコアは最大53.93%向上することを示した。

Models that accurately detect depression from text are important tools for addressing the post-pandemic mental health crisis. BERT-based classifiers' promising performance and the off-the-shelf availability make them great candidates for this task. However, these models are known to suffer from performance inconsistencies and poor generalization. In this paper, we introduce the DECK (DEpression ChecKlist), depression-specific model behavioural tests that allow better interpretability and improve generalizability of BERT classifiers in depression domain. We create 23 tests to evaluate BERT, RoBERTa and ALBERT depression classifiers on three datasets, two Twitter-based and one clinical interview-based. Our evaluation shows that these models: 1) are robust to certain gender-sensitive variations in text; 2) rely on the important depressive language marker of the increased use of first person pronouns; 3) fail to detect some other depression symptoms like suicidal ideation. We also demonstrate that DECK tests can be used to incorporate symptom-specific information in the training data and consistently improve generalizability of all three BERT models, with an out-of-distribution F1-score increase of up to 53.93%.
翻訳日:2022-09-13 13:01:25 公開日:2022-09-12
# DoubleMix: テキスト分類のための単純な補間に基づくデータ拡張

DoubleMix: Simple Interpolation-Based Data Augmentation for Text Classification ( http://arxiv.org/abs/2209.05297v1 )

ライセンス: Link先を確認
Hui Chen, Wei Han, Diyi Yang, Soujanya Poria(参考訳) 本稿では,テキスト分類におけるモデルのロバスト性を改善するために,DoubleMixと呼ばれる単純な補間に基づくデータ拡張手法を提案する。 DoubleMixはまず、いくつかの単純な拡張操作を活用して、トレーニングデータごとにいくつかの摂動サンプルを生成し、次に摂動データと元のデータを使用して、隠れたニューラルネットワーク空間で2段階の補間を実行する。 具体的には、まず摂動データを合成サンプルに混合し、それから元のデータと合成摂動データとを混合する。 doublemixは、隠れた空間で"シフト"機能を学習することで、モデルの堅牢性を高める。 6つのテキスト分類ベンチマークデータセットにおいて,本手法はトークンレベル,文レベル,隠れレベルデータ拡張技術など,いくつかの一般的なテキスト拡張手法よりも優れている。 また,低リソース環境での実験では,トレーニングデータが少ない場合,モデルの性能が一貫して向上することを示す。 広範なアブレーション研究とケーススタディにより,我々のアプローチのそれぞれのコンポーネントが最終性能に寄与することを確認し,挑戦的な反例において優れた性能を示すことが示された。 さらに,視覚解析により,提案手法が生成するテキスト機能は,高い解釈性を示す。 この論文のコードはhttps://github.com/declare-lab/doublemix.gitで確認できます。

This paper proposes a simple yet effective interpolation-based data augmentation approach termed DoubleMix, to improve the robustness of models in text classification. DoubleMix first leverages a couple of simple augmentation operations to generate several perturbed samples for each training data, and then uses the perturbed data and original data to carry out a two-step interpolation in the hidden space of neural models. Concretely, it first mixes up the perturbed data to a synthetic sample and then mixes up the original data and the synthetic perturbed data. DoubleMix enhances models' robustness by learning the "shifted" features in hidden space. On six text classification benchmark datasets, our approach outperforms several popular text augmentation methods including token-level, sentence-level, and hidden-level data augmentation techniques. Also, experiments in low-resource settings show our approach consistently improves models' performance when the training data is scarce. Extensive ablation studies and case studies confirm that each component of our approach contributes to the final performance and show that our approach exhibits superior performance on challenging counterexamples. Additionally, visual analysis shows that text features generated by our approach are highly interpretable. Our code for this paper can be found at https://github.com/declare-lab/DoubleMix.git.
翻訳日:2022-09-13 13:01:06 公開日:2022-09-12
# 制御のための統計的学習理論:有限サンプル視点

Statistical Learning Theory for Control: A Finite Sample Perspective ( http://arxiv.org/abs/2209.05423v1 )

ライセンス: Link先を確認
Anastasios Tsiamis, Ingvar Ziemann, Nikolai Matni, George J. Pappas(参考訳) このチュートリアル調査は、制御とシステム同定に関連する統計学習理論における最近の非漸近的進歩の概要を提供する。 制御のあらゆる領域でかなりの進歩があったが、この理論は線形系同定と線形二次制御器の学習において最もよく発達しており、これはこの写本の焦点である。 理論的な見地からすると、これらの進歩の根底にある多くの労力は、現代の高次元統計学と学習理論からのツールの適応であった。 機械学習からツールを統合することに関心のある制御理論家には非常に関係があるが、基礎となる材料は必ずしも容易にアクセスできない。 これに対処するため、我々は、最近の結果を支えるすべての重要なアイデアと技術機械を概説し、関連する資料の自己完結したプレゼンテーションを提供する。 オープンな問題や今後の方向性もいくつか紹介します。

This tutorial survey provides an overview of recent non-asymptotic advances in statistical learning theory as relevant to control and system identification. While there has been substantial progress across all areas of control, the theory is most well-developed when it comes to linear system identification and learning for the linear quadratic regulator, which are the focus of this manuscript. From a theoretical perspective, much of the labor underlying these advances has been in adapting tools from modern high-dimensional statistics and learning theory. While highly relevant to control theorists interested in integrating tools from machine learning, the foundational material has not always been easily accessible. To remedy this, we provide a self-contained presentation of the relevant material, outlining all the key ideas and the technical machinery that underpin recent results. We also present a number of open problems and future directions.
翻訳日:2022-09-13 12:57:46 公開日:2022-09-12
# TMSS:セグメンテーションと生存予測のためのエンドツーエンドトランスフォーマーベースのマルチモーダルネットワーク

TMSS: An End-to-End Transformer-based Multimodal Network for Segmentation and Survival Prediction ( http://arxiv.org/abs/2209.05036v1 )

ライセンス: Link先を確認
Numan Saeed, Ikboljon Sobirov, Roba Al Majzoub, Mohammad Yaqub(参考訳) 腫瘍学者はがん患者の生存を見積もると、マルチモーダルデータに依存する。 文献ではいくつかのマルチモーダル深層学習法が提案されているが、大半はモデル全体の後半段階で知識を共有する2つ以上の独立したネットワークを持つことに依存している。 一方、腫瘍学者は分析においてこれをせず、医療画像や患者の歴史などの複数の情報源から脳内の情報を抽出する。 本研究は,がんの定量化と患者の生存率推定において,腫瘍学者の分析行動を模倣する深層学習手法を提案する。 本稿では,変圧器の高次性を利用して異なるモダリティを処理可能な,エンドツーエンドの変圧器ベースのマルチモーダルネットワークTMSSを提案する。 このモデルは、HECKTOR(PET/CT画像チャレンジ)におけるHEAD & NeCK Tumorセグメンテーションと結果予測から、トレーニングデータセットのセグメンテーションと予後タスクを訓練し、検証した。 提案手法は, 独立セグメンテーションモデルに対して0.772+/-0.030のダイススコアを達成しつつ, 一致率0.763+/-0.14の最先端手法を著しく上回ることを示す。 コードは公開されている。

When oncologists estimate cancer patient survival, they rely on multimodal data. Even though some multimodal deep learning methods have been proposed in the literature, the majority rely on having two or more independent networks that share knowledge at a later stage in the overall model. On the other hand, oncologists do not do this in their analysis but rather fuse the information in their brain from multiple sources such as medical images and patient history. This work proposes a deep learning method that mimics oncologists' analytical behavior when quantifying cancer and estimating patient survival. We propose TMSS, an end-to-end Transformer based Multimodal network for Segmentation and Survival prediction that leverages the superiority of transformers that lies in their abilities to handle different modalities. The model was trained and validated for segmentation and prognosis tasks on the training dataset from the HEad & NeCK TumOR segmentation and the outcome prediction in PET/CT images challenge (HECKTOR). We show that the proposed prognostic model significantly outperforms state-of-the-art methods with a concordance index of 0.763+/-0.14 while achieving a comparable dice score of 0.772+/-0.030 to a standalone segmentation model. The code is publicly available.
翻訳日:2022-09-13 12:51:16 公開日:2022-09-12
# 鳥の目視知覚の悪魔に夢中になる: レビュー, 評価と準備

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe ( http://arxiv.org/abs/2209.05324v1 )

ライセンス: Link先を確認
Hongyang Li, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu, Huijie Wang, Enze Xie, Zhiqi Li, Hanming Deng, Hao Tian, Xizhou Zhu, Li Chen, Yulu Gao, Xiangwei Geng, Jia Zeng, Yang Li, Jiazhi Yang, Xiaosong Jia, Bohan Yu, Yu Qiao, Dahua Lin, Si Liu, Junchi Yan, Jianping Shi and Ping Luo(参考訳) 鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。 ほとんどの自律運転アルゴリズムに対する従来のアプローチは、フロントまたはビュービューで検出、セグメンテーション、トラッキングなどを行う。 センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEVの周囲のシーンは直感的で融合しやすいため、BEVの知覚はいくつかの利点を継承している。 BEVの知覚における中核的な問題は (a)ビュービューからBEVへのビュートランスフォーメーションによる失われた3D情報の再構築方法 b) bevグリッドにおける根拠真理アノテーションの取得方法 (c)異なるソースやビューの機能を組み込むためのパイプラインの定式化方法、及び (d) センサ構成によるアルゴリズムの適応と一般化の方法は、様々なシナリオで異なる。 本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。 さらに、業界からのBEVアプローチの体系的な設計もいくつか紹介されている。 さらに,カメラ,LiDAR,融合入力など,BEV知覚タスクの性能向上のための実用的なガイドブックも紹介した。 最後に,この領域における今後の研究の方向性を指摘する。 このレポートがコミュニティに光を当て、BEVの認識に関するさらなる研究を奨励することを期待しています。 最新の作業を収集するためにアクティブリポジトリを保持し、https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipeでトリックの袋を提供する。

Learning powerful representations in bird's-eye-view (BEV) for perception tasks is trending and drawing extensive attention both from industry and academia. Conventional approaches for most autonomous driving algorithms perform detection, segmentation, tracking, etc., in a front or perspective view. As sensor configurations get more complex, integrating multi-source information from different sensors and representing features in a unified view come of vital importance. BEV perception inherits several advantages, as representing surrounding scenes in BEV is intuitive and fusion-friendly; and representing objects in BEV is most desirable for subsequent modules as in planning and/or control. The core problems for BEV perception lie in (a) how to reconstruct the lost 3D information via view transformation from perspective view to BEV; (b) how to acquire ground truth annotations in BEV grid; (c) how to formulate the pipeline to incorporate features from different sources and views; and (d) how to adapt and generalize algorithms as sensor configurations vary across different scenarios. In this survey, we review the most recent work on BEV perception and provide an in-depth analysis of different solutions. Moreover, several systematic designs of BEV approach from the industry are depicted as well. Furthermore, we introduce a full suite of practical guidebook to improve the performance of BEV perception tasks, including camera, LiDAR and fusion inputs. At last, we point out the future research directions in this area. We hope this report would shed some light on the community and encourage more research effort on BEV perception. We keep an active repository to collect the most recent work and provide a toolbox for bag of tricks at https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe.
翻訳日:2022-09-13 12:50:52 公開日:2022-09-12
# ホロスティックセグメンテーション

Holistic Segmentation ( http://arxiv.org/abs/2209.05407v1 )

ライセンス: Link先を確認
Stefano Gasperini, Frithjof Winkelmann, Alvaro Marcos-Ramiro, Micheal Schmidt, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) パノプティカルセグメンテーションは入力、非標準および見えないオブジェクトの各ピクセルの予測を体系的に間違った出力に導く。 しかし、安全クリティカルな環境では、動物や道路上の失われた貨物を無視するといった危険な行動を避けるために、分散サンプルやコーナーケースに対する堅牢性が不可欠である。 データセットを駆動することは、基礎となるディストリビューションの長い尾を適切にサンプリングするのに十分なデータポイントを含むことができないため、メソッドは安全に配置される未知のシナリオに対処する必要がある。 それまでの方法は、未表示のオブジェクトを再識別することで、この問題の一部をターゲットにしていた。 本研究では、未知の未知のオブジェクトを未知のクラスから学習することなく、未知のオブジェクトをインスタンスに識別・分離するタスクを、既知のクラスの単視的セグメンテーションを実行しながら、包括的セグメンテーションを提案する。 U3HSは、まず未知を非常に不確実な領域として見つけ、次に対応するインスタンス認識の埋め込みを個々のオブジェクトにクラスタ化する。 そうすることで、未知のオブジェクトでパンオプティカルセグメンテーションで初めて、我々のu3hsは未知のデータでトレーニングされないため、オブジェクトのタイプに関して設定が制約されず、総合的なシーン理解が可能になります。 cityscapesとlost&found as a transferという2つのパブリックデータセットに関する広範な実験と比較は、競合するクローズドセットのpanopticセグメンテーション性能を持つ、全体的セグメンテーションの課題におけるu3hsの有効性を示している。

As panoptic segmentation provides a prediction for every pixel in input, non-standard and unseen objects systematically lead to wrong outputs. However, in safety-critical settings, robustness against out-of-distribution samples and corner cases is crucial to avoid dangerous behaviors, such as ignoring an animal or a lost cargo on the road. Since driving datasets cannot contain enough data points to properly sample the long tail of the underlying distribution, a method must deal with unknown and unseen scenarios to be deployed safely. Previous methods targeted part of this issue, by re-identifying already seen unlabeled objects. In this work, we broaden the scope proposing holistic segmentation: a task to identify and separate unseen unknown objects into instances, without learning from unknowns, while performing panoptic segmentation of known classes. We tackle this new problem with U3HS, which first finds unknowns as highly uncertain regions, then clusters the corresponding instance-aware embeddings into individual objects. By doing so, for the first time in panoptic segmentation with unknown objects, our U3HS is not trained with unknown data, thus leaving the settings unconstrained with respect to the type of objects and allowing for a holistic scene understanding. Extensive experiments and comparisons on two public datasets, namely Cityscapes and Lost&Found as a transfer, demonstrate the effectiveness of U3HS in the challenging task of holistic segmentation, with competitive closed-set panoptic segmentation performance.
翻訳日:2022-09-13 12:50:22 公開日:2022-09-12
# 2次元自由ハンド超音波脳画像の適応的3次元定位

Adaptive 3D Localization of 2D Freehand Ultrasound Brain Images ( http://arxiv.org/abs/2209.05477v1 )

ライセンス: Link先を確認
Pak-Hei Yeung, Moska Aliasi, Monique Haak, The INTERGROWTH-21st Consortium, Weidi Xie, Ana I.L. Namburete(参考訳) 2次元フリーハンド超音波は、出生前ケアと胎児成長モニタリングのメインステイである。 2次元超音波脳スキャンの3次元解剖学における対応する断面面のマッチングは、フリーハンドスキャンには不可欠だが、難しい。 外部追跡センサを使わずに3次元解剖学的アトラス内に2次元超音波像を適応的に局在させるフレームワークであるAdLocUIを提案する。 . まず,2次元スライスを用いた畳み込みニューラルネットワークの訓練を行い,3次元解剖学的アトラスの位置を推定した。 次に,3次元解剖学的アトラスにおける画像列全体の変位が,第1の画像から第1画像への変位と等しくなることを生かした,新しい非教師付きサイクル一貫性を用いて2次元自由手超音波画像で微調整する。 我々は,AdLocUIが3つの異なる超音波データセットに適応し,異なるマシンやプロトコルで取得し,ベースラインよりもはるかに優れたローカライゼーション精度を実現することを実証した。 AdLocUIは、ベッドサイドによるセンサレス2D超音波誘導に使用できる。 ソースコードはhttps://github.com/pakheiyeung/AdLocUIで入手できる。

Two-dimensional (2D) freehand ultrasound is the mainstay in prenatal care and fetal growth monitoring. The task of matching corresponding cross-sectional planes in the 3D anatomy for a given 2D ultrasound brain scan is essential in freehand scanning, but challenging. We propose AdLocUI, a framework that Adaptively Localizes 2D Ultrasound Images in the 3D anatomical atlas without using any external tracking sensor.. We first train a convolutional neural network with 2D slices sampled from co-aligned 3D ultrasound volumes to predict their locations in the 3D anatomical atlas. Next, we fine-tune it with 2D freehand ultrasound images using a novel unsupervised cycle consistency, which utilizes the fact that the overall displacement of a sequence of images in the 3D anatomical atlas is equal to the displacement from the first image to the last in that sequence. We demonstrate that AdLocUI can adapt to three different ultrasound datasets, acquired with different machines and protocols, and achieves significantly better localization accuracy than the baselines. AdLocUI can be used for sensorless 2D freehand ultrasound guidance by the bedside. The source code is available at https://github.com/pakheiyeung/AdLocUI.
翻訳日:2022-09-13 12:49:55 公開日:2022-09-12
# 構造力学のトポロジ的データ解析について : 永続ホモロジー入門

On topological data analysis for structural dynamics: an introduction to persistent homology ( http://arxiv.org/abs/2209.05134v1 )

ライセンス: Link先を確認
Tristan Gowdridge, Nikolaos Dervilis, Keith Worden(参考訳) トポロジカルなメソッドは、見過ごされる可能性のある新しいメトリクスとデータの精査方法を提案する方法を提供することができる。 本研究では、トポロジカルデータ解析と呼ばれるトピックを用いて、データの形状を定量化する手法を提案する。 トポロジカルデータ分析(TDA)の主要なツールは、永続的ホモロジーである。 永続ホモロジー(Persistent homology)は、長さのスケールでデータの形状を定量化する手法である。 本研究では, 持続的ホモロジーの計算に必要な背景と計算方法について概説する。 トポロジカルデータ解析の考え方は、それらの埋め込み次元を計算し、それらの一般的なトポロジを評価することによって、いくつかの一般的なアトラクションを解析するために非線形力学に使用される。 時間遅延埋め込みの最適遅延を決定するためにトポロジカルデータ解析を用いる手法も提案する。 TDAはまた、構造的健康モニタリングにおけるZ24 Bridgeのケーススタディにも適用され、データ収集条件によって分類された異なるデータパーティションの精査に使用される。 トポロジカルデータ解析のメトリクスは、パーティション間のデータを比較するために使用される。 その結果,損傷の存在は温度の影響よりも多様体形状を著しく変化させることがわかった。

Topological methods can provide a way of proposing new metrics and methods of scrutinising data, that otherwise may be overlooked. In this work, a method of quantifying the shape of data, via a topic called topological data analysis will be introduced. The main tool within topological data analysis (TDA) is persistent homology. Persistent homology is a method of quantifying the shape of data over a range of length scales. The required background and a method of computing persistent homology is briefly discussed in this work. Ideas from topological data analysis are then used for nonlinear dynamics to analyse some common attractors, by calculating their embedding dimension, and then to assess their general topologies. A method will also be proposed, that uses topological data analysis to determine the optimal delay for a time-delay embedding. TDA will also be applied to a Z24 Bridge case study in structural health monitoring, where it will be used to scrutinise different data partitions, classified by the conditions at which the data were collected. A metric, from topological data analysis, is used to compare data between the partitions. The results presented demonstrate that the presence of damage alters the manifold shape more significantly than the effects present from temperature.
翻訳日:2022-09-13 12:49:20 公開日:2022-09-12
# 3次元等分散による自己教師ありワイドベースライン視覚サーボ

Self-supervised Wide Baseline Visual Servoing via 3D Equivariance ( http://arxiv.org/abs/2209.05432v1 )

ライセンス: Link先を確認
Jinwook Huh, Jungseok Hong, Suveer Garg, Hyun Soo Park, and Volkan Isler(参考訳) 視覚サーボの難しい入力設定の1つは、初期と目標のカメラビューが遠く離れているときです。 このような設定は、広い基準線がオブジェクトの外観の劇的な変化を引き起こし、閉塞を引き起こすため困難である。 本稿では,3次元の地中真理監督を必要としない広視野ベースライン画像に対する自己監督型ビジュアルサーボ手法を提案する。 オブジェクトに対して絶対カメラが作用する既存のアプローチでは、3Dバウンディングボックスやメッシュの形式でオブジェクトの3D地上真実データが必要となる。 我々は、3D同値と呼ばれる幾何学的特性を利用してコヒーレントな視覚表現を学習し、その表現は3D変換の関数として予測可能な方法で変換される。 特徴空間が基礎となる測地線空間に忠実であることを保証するため、測地線保存制約を同値性とともに適用する。 我々は,これら2つの幾何学的特性を3次元の監督を必要とせずに効果的に実施できるシームズネットワークを設計する。 学習モデルでは、学習空間の勾配に従うだけで相対変換を推測することができ、閉ループ視覚サーボのフィードバックとして使用できる。 提案手法は,YCBデータセットから得られたオブジェクトに対して評価を行い,視覚サーボタスクや3D監視を用いた最先端手法に対するオブジェクトアライメントタスクにおいて有意義な性能を示す。 平均誤差が35%以上減少し,90%以上の成功率と3cmの誤差耐性が得られた。

One of the challenging input settings for visual servoing is when the initial and goal camera views are far apart. Such settings are difficult because the wide baseline can cause drastic changes in object appearance and cause occlusions. This paper presents a novel self-supervised visual servoing method for wide baseline images which does not require 3D ground truth supervision. Existing approaches that regress absolute camera pose with respect to an object require 3D ground truth data of the object in the forms of 3D bounding boxes or meshes. We learn a coherent visual representation by leveraging a geometric property called 3D equivariance-the representation is transformed in a predictable way as a function of 3D transformation. To ensure that the feature-space is faithful to the underlying geodesic space, a geodesic preserving constraint is applied in conjunction with the equivariance. We design a Siamese network that can effectively enforce these two geometric properties without requiring 3D supervision. With the learned model, the relative transformation can be inferred simply by following the gradient in the learned space and used as feedback for closed-loop visual servoing. Our method is evaluated on objects from the YCB dataset, showing meaningful outperformance on a visual servoing task, or object alignment task with respect to state-of-the-art approaches that use 3D supervision. Ours yields more than 35% average distance error reduction and more than 90% success rate with 3cm error tolerance.
翻訳日:2022-09-13 12:46:30 公開日:2022-09-12
# コミュニケーション圧縮による個人化フェデレーション学習

Personalized Federated Learning with Communication Compression ( http://arxiv.org/abs/2209.05148v1 )

ライセンス: Link先を確認
El Houcine Bergou, Konstantin Burlachenko, Aritra Dutta, Peter Richt\'arik(参考訳) データセンターにおける従来の機械学習(ML)モデルのトレーニングとは対照的に、フェデレーション学習(FL)は、リソース制約のある異種エッジデバイスに含まれるローカルデータセット上でMLモデルをトレーニングする。 既存のflアルゴリズムは、参加するすべてのデバイスに対して単一のグローバルモデルを学ぶことを目的としている。 hanzely と richt\'{a}rik (2020) は、従来のグローバルモデルと個々のデバイスでプライベートデータのみを使用してトレーニング可能なローカルモデルとのトレードオフをバランスさせることを目的とした、パーソナライズされたflモデルのトレーニングのための新しい定式化を提案した。 彼らはLoopless Gradient Descent (L2GD)と呼ばれる新しいアルゴリズムを考案し、このアルゴリズムがよりパーソナライズが必要な場合の通信複雑性の保証を改善することを示した。 本稿では,l2gdアルゴリズムに双方向圧縮機構を導入することで,ローカルデバイスとサーバ間の通信ボトルネックをさらに低減する。 fl設定で使用される他の圧縮ベースのアルゴリズムとは異なり、我々の圧縮l2gdアルゴリズムは、固定されたスケジュールで通信が起こらない確率的通信プロトコルで動作する。 さらに,圧縮されたL2GDアルゴリズムは圧縮のないバニラSGDと同様の収束率を維持する。 提案アルゴリズムの有効性を実証的に検証するために, 凸問題と非凸問題の両方について多種多様な数値実験を行った。

In contrast to training traditional machine learning (ML) models in data centers, federated learning (FL) trains ML models over local datasets contained on resource-constrained heterogeneous edge devices. Existing FL algorithms aim to learn a single global model for all participating devices, which may not be helpful to all devices participating in the training due to the heterogeneity of the data across the devices. Recently, Hanzely and Richt\'{a}rik (2020) proposed a new formulation for training personalized FL models aimed at balancing the trade-off between the traditional global model and the local models that could be trained by individual devices using their private data only. They derived a new algorithm, called Loopless Gradient Descent (L2GD), to solve it and showed that this algorithms leads to improved communication complexity guarantees in regimes when more personalization is required. In this paper, we equip their L2GD algorithm with a bidirectional compression mechanism to further reduce the communication bottleneck between the local devices and the server. Unlike other compression-based algorithms used in the FL-setting, our compressed L2GD algorithm operates on a probabilistic communication protocol, where communication does not happen on a fixed schedule. Moreover, our compressed L2GD algorithm maintains a similar convergence rate as vanilla SGD without compression. To empirically validate the efficiency of our algorithm, we perform diverse numerical experiments on both convex and non-convex problems and using various compression techniques.
翻訳日:2022-09-13 12:44:53 公開日:2022-09-12
# ネットワークフローのグラフニューラルモデリング

Graph Neural Modeling of Network Flows ( http://arxiv.org/abs/2209.05208v1 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) ネットワーク上のトラフィックを分散して基盤となるインフラを効果的に利用するネットワークフロー問題は、輸送や物流においてユビキタスである。 データ駆動最適化の魅力により、これらの問題はグラフ学習法を用いてますますアプローチされている。 その中でも、マルチコモディティ・ネットワーク・フロー(MCNF)問題は、複数のソースとシンク間の異なる大きさの複数のフロー(要求とも呼ばれる)の分布に関するため、その一般性から特に関心がある。 私たちが注目しているのは、トラフィック要求とルーティング戦略を考慮して、ネットワーク内の任意のリンクを最大限活用することです。 本稿では,MCNF問題に対するグラフニューラルネットワーク(GNN)に基づく新しいアプローチを提案する。 提案手法は,既存のグラフ学習手法に対して,不要にルーティングを制約するかなりの利益をもたらすことを示す。 提案手法を,17のサービスプロバイダトポロジと2つのフロールーティング方式を用いて,インターネットルーティングケーススタディにより広く評価する。 多くのネットワークにおいて、MPPは我々のメカニズムを使わない汎用的なGNNと競合している。 さらに,グラフ構造とフローのデータ駆動的ルーティングの困難さとの関係について考察した。

Network flow problems, which involve distributing traffic over a network such that the underlying infrastructure is used effectively, are ubiquitous in transportation and logistics. Due to the appeal of data-driven optimization, these problems have increasingly been approached using graph learning methods. Among them, the Multi-Commodity Network Flow (MCNF) problem is of particular interest given its generality, since it concerns the distribution of multiple flows (also called demands) of different sizes between several sources and sinks. The widely-used objective that we focus on is the maximum utilization of any link in the network, given traffic demands and a routing strategy. In this paper, we propose a novel approach based on Graph Neural Networks (GNNs) for the MCNF problem which uses distinctly parametrized message functions along each link, akin to a relational model where all edge types are unique. We show that our proposed method yields substantial gains over existing graph learning methods that constrain the routing unnecessarily. We extensively evaluate the proposed approach by means of an Internet routing case study using 17 Service Provider topologies and two flow routing schemes. We find that, in many networks, an MLP is competitive with a generic GNN that does not use our mechanism. Furthermore, we shed some light on the relationship between graph structure and the difficulty of data-driven routing of flows, an aspect that has not been considered in the existing work in the area.
翻訳日:2022-09-13 12:44:24 公開日:2022-09-12
# 影響関数が答えであるなら、質問とは何か?

If Influence Functions are the Answer, Then What is the Question? ( http://arxiv.org/abs/2209.05364v1 )

ライセンス: Link先を確認
Juhan Bae, Nathan Ng, Alston Lo, Marzyeh Ghassemi, Roger Grosse(参考訳) 影響関数は、モデルの学習パラメータに対する単一のトレーニングデータポイントの削除の効果を効率的に推定する。 影響推定は線形モデルのリトレーニングとよく合致するが、最近の研究では、ニューラルネットワークではこのアライメントが貧弱であることが示されている。 本研究では,この相違の原因となる要因を5つの項に分解して検討する。 さまざまなアーキテクチャやデータセットに対する各用語のコントリビューションと,ネットワーク幅やトレーニング時間といった要因による違いについて検討する。 実効的な影響関数推定は非線形ネットワークにおける一対一再トレーニングに適さないかもしれないが、近位ブレグマン応答関数 (PBRF) と呼ばれる別の対象に対してよく近似できることを示す。 pbrfは影響力のある例や誤記のある例を同定するなど,影響関数を動機づける多くの質問に依然として答えることができるため,影響関数推定のための現在のアルゴリズムは,従来の誤差解析よりも有意義な結果をもたらすことを示唆する。

Influence functions efficiently estimate the effect of removing a single training data point on a model's learned parameters. While influence estimates align well with leave-one-out retraining for linear models, recent works have shown this alignment is often poor in neural networks. In this work, we investigate the specific factors that cause this discrepancy by decomposing it into five separate terms. We study the contributions of each term on a variety of architectures and datasets and how they vary with factors such as network width and training time. While practical influence function estimates may be a poor match to leave-one-out retraining for nonlinear networks, we show they are often a good approximation to a different object we term the proximal Bregman response function (PBRF). Since the PBRF can still be used to answer many of the questions motivating influence functions, such as identifying influential or mislabeled examples, our results suggest that current algorithms for influence function estimation give more informative results than previous error analyses would suggest.
翻訳日:2022-09-13 12:40:25 公開日:2022-09-12
# 可変重み付き改良局所回帰を用いたモデル解釈

Model interpretation using improved local regression with variable importance ( http://arxiv.org/abs/2209.05371v1 )

ライセンス: Link先を確認
Gilson Y. Shimizu, Rafael Izbicki and Andre C. P. L. F. de Carvalho(参考訳) MLモデルの使用に関する根本的な疑問は、意思決定における透明性を高めるための予測の説明に関するものである。 解釈可能性の方法がいくつか現れたが、その説明の信頼性に関するいくつかのギャップが特定されている。 例えば、ほとんどのメソッドは不安定(データに小さな変更を加えて、非常に異なる説明をすることを意味する)で、無関係な特徴(ラベルとは無関係な特徴)にうまく対応しない。 本稿では,変数の重要度を考慮した重み付き距離に適合する局所回帰を用いて,これらの問題を克服する2つの新しい解釈可能性手法,すなわちVarImpとSupClusを紹介する。 VarImpは各インスタンスの説明を生成し、より複雑な関係を持つデータセットに適用することができるが、SupClusは同様の説明でインスタンスのクラスタを解釈し、クラスタを見つけることができる単純なデータセットに適用することができる。 本手法を最先端の手法と比較し,いくつかの指標,特に無関係な特徴をもつ高次元問題,および特徴と対象の関係が非線形である場合において,より優れた説明が得られることを示す。

A fundamental question on the use of ML models concerns the explanation of their predictions for increasing transparency in decision-making. Although several interpretability methods have emerged, some gaps regarding the reliability of their explanations have been identified. For instance, most methods are unstable (meaning that they give very different explanations with small changes in the data), and do not cope well with irrelevant features (that is, features not related to the label). This article introduces two new interpretability methods, namely VarImp and SupClus, that overcome these issues by using local regressions fits with a weighted distance that takes into account variable importance. Whereas VarImp generates explanations for each instance and can be applied to datasets with more complex relationships, SupClus interprets clusters of instances with similar explanations and can be applied to simpler datasets where clusters can be found. We compare our methods with state-of-the art approaches and show that it yields better explanations according to several metrics, particularly in high-dimensional problems with irrelevant features, as well as when the relationship between features and target is non-linear.
翻訳日:2022-09-13 12:40:06 公開日:2022-09-12
# SELTO: サンプル効率の良い学習トポロジ最適化

SELTO: Sample-Efficient Learned Topology Optimization ( http://arxiv.org/abs/2209.05098v1 )

ライセンス: Link先を確認
S\"oren Dittmer, David Erzmann, Henrik Harms, Peter Maass(参考訳) トポロジー最適化のためのサンプル効率のよいディープラーニング戦略を提案する。 エンドツーエンドのアプローチは監視され、物理ベースの前処理と等価ネットワークが含まれています。 ディープラーニングパイプラインのさまざまなコンポーネントが,必要なトレーニングサンプル数に与える影響を,大規模比較によって分析します。 その結果, 物理概念を含めれば, サンプル効率が大幅に向上するだけでなく, 予測の正確性も向上することがわかった。 最後に,問題と対応する真理解を含む2つのトポロジ最適化データセットを公表する。 これらのデータセットが、コンパラビリティとこの分野の今後の進歩を改善すると確信しています。

We present a sample-efficient deep learning strategy for topology optimization. Our end-to-end approach is supervised and includes physics-based preprocessing and equivariant networks. We analyze how different components of our deep learning pipeline influence the number of required training samples via a large-scale comparison. The results demonstrate that including physical concepts not only drastically improves the sample efficiency but also the predictions' physical correctness. Finally, we publish two topology optimization datasets containing problems and corresponding ground truth solutions. We are confident that these datasets will improve comparability and future progress in the field.
翻訳日:2022-09-13 12:38:03 公開日:2022-09-12
# コントラスト特徴学習を用いた行動に基づく早期自閉症診断

Action-based Early Autism Diagnosis Using Contrastive Feature Learning ( http://arxiv.org/abs/2209.05379v1 )

ライセンス: Link先を確認
Asha Rani, Pankaj Yadav, Yashaswi Verma(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder, ASD)は、神経疾患である。 その主な症状は、(言語および/または非言語)コミュニケーションの困難さ、堅固で反復的な行動である。 これらの症状は、通常(コントロール)個体と区別できないことが多いが、この疾患は、治療が遅れる早期に診断されないためである。 初期年齢では学習曲線が急なため、自閉症の早期診断は適切なタイミングで適切な介入が可能であり、自閉症児の成長に正の影響を与える可能性がある。 さらに、伝統的な自閉症診断の方法は、専門の精神科医を複数回訪問する必要があるが、このプロセスは時間がかかる可能性がある。 本稿では,簡単なアクションビデオクリップを用いて,自閉症の診断を自動化するための学習ベースアプローチを提案する。 このタスクは、利用可能な注釈付きデータの量は少なく、2つのカテゴリ(ASDとコントロール)のサンプル間のばらつきは一般的に区別できないため、特に難しい。 これは、ベースラインエンコーダの上のクロスエントロピー損失を用いて学習したバイナリ分類器の低性能からも明らかである。 そこで我々は,自己指導型と教師型両方の学習フレームワークにおいて,対照的な特徴学習を導入し,これらが2値分類器の予測精度を大幅に向上させることを示す。 さらに,2つの公開データセット上で異なるセットアップの下で徹底的な実験分析を行うことで,この検証を行う。

Autism, also known as Autism Spectrum Disorder (or ASD), is a neurological disorder. Its main symptoms include difficulty in (verbal and/or non-verbal) communication, and rigid/repetitive behavior. These symptoms are often indistinguishable from a normal (control) individual, due to which this disorder remains undiagnosed in early childhood leading to delayed treatment. Since the learning curve is steep during the initial age, an early diagnosis of autism could allow to take adequate interventions at the right time, which might positively affect the growth of an autistic child. Further, the traditional methods of autism diagnosis require multiple visits to a specialized psychiatrist, however this process can be time-consuming. In this paper, we present a learning based approach to automate autism diagnosis using simple and small action video clips of subjects. This task is particularly challenging because the amount of annotated data available is small, and the variations among samples from the two categories (ASD and control) are generally indistinguishable. This is also evident from poor performance of a binary classifier learned using the cross-entropy loss on top of a baseline encoder. To address this, we adopt contrastive feature learning in both self supervised and supervised learning frameworks, and show that these can lead to a significant increase in the prediction accuracy of a binary classifier on this task. We further validate this by conducting thorough experimental analyses under different set-ups on two publicly available datasets.
翻訳日:2022-09-13 12:37:54 公開日:2022-09-12
# MetaNetwork: デバイスモデルの一般化を改善するタスク依存型ネットワークパラメータ生成フレームワーク

MetaNetwork: A Task-agnostic Network Parameters Generation Framework for Improving Device Model Generalization ( http://arxiv.org/abs/2209.05227v1 )

ライセンス: Link先を確認
Zheqi Lv, Feng Wang, Kun Kuang, Yongwei Wang, Zhengyu Chen, Tao Shen, Hongxia Yang, Fei Wu(参考訳) モバイルデバイスに機械学習モデルをデプロイする動きが注目されている。 デバイス上のハードウェアリソースの制限によるモデル一般化問題に対処するには,クラウドモデルからのモデル圧縮などの技術により,デバイスモデルを軽量化する必要がある。 しかしながら、デバイスモデルの一般化を改善するための大きな障害は、デバイスモデルのデータ分散が時間とともに変化することが多いため、クラウドとデバイスモデルのデータ間の分散シフトである(例えば、ユーザーはレコメンデーションシステムで異なる好みを持っているかもしれない)。 リアルタイム微調整・蒸留法はこの状況を考慮しているが、計算能力の低さとリアルタイムラベル付きサンプルの不足のため、デバイス上でのトレーニングが必要となる。 本稿では,デバイス上でのトレーニングを行わずにクラウドから適応型デバイスモデルパラメータを生成するための新しいタスク非依存フレームワークであるmetanetworkを提案する。 具体的には、MetaNetworkはクラウド上にデプロイされ、MetaGeneratorとMetaStabilizerモジュールで構成されています。 MetaGeneratorは、サンプルからモデルパラメータへのマッピング機能を学ぶように設計されており、デバイスからクラウドにアップロードされたサンプルに基づいて、適応パラメータをデバイスに生成および配信することができる。 MetaStabilizerは、MetaGeneratorの振動を減らし、収束を加速し、トレーニングと推論の両方でモデルパフォーマンスを改善することを目的としている。 提案手法は,3つのデータセットを用いた2つのタスクで評価する。 広範な実験により、メタネットワークは異なるモダリティで競合性能を達成できることが示されている。

Deploying machine learning models on mobile devices has gained increasing attention. To tackle the model generalization problem with the limitations of hardware resources on the device, the device model needs to be lightweight by techniques such as model compression from the cloud model. However, the major obstacle to improve the device model generalization is the distribution shift between the data of cloud and device models, since the data distribution on device model often changes over time (e.g., users might have different preferences in recommendation system). Although real-time fine-tuning and distillation method take this situation into account, these methods require on-device training, which are practically infeasible due to the low computational power and a lack of real-time labeled samples on the device. In this paper, we propose a novel task-agnostic framework, named MetaNetwork, for generating adaptive device model parameters from cloud without on-device training. Specifically, our MetaNetwork is deployed on cloud and consists of MetaGenerator and MetaStabilizer modules. The MetaGenerator is designed to learn a mapping function from samples to model parameters, and it can generate and deliver the adaptive parameters to the device based on samples uploaded from the device to the cloud. The MetaStabilizer aims to reduce the oscillation of the MetaGenerator, accelerate the convergence and improve the model performance during both training and inference. We evaluate our method on two tasks with three datasets. Extensive experiments show that MetaNetwork can achieve competitive performances in different modalities.
翻訳日:2022-09-13 12:37:32 公開日:2022-09-12
# 分類基準の分析と比較

Analysis and Comparison of Classification Metrics ( http://arxiv.org/abs/2209.05355v1 )

ライセンス: Link先を確認
Luciana Ferrer(参考訳) さまざまなパフォーマンス指標が、分類決定を出力する分類システムのための機械学習文献で一般的に使用されている。 最も一般的なものは、精度、総誤差(1マイナスの精度)、バランスの取れた精度、総誤差(1マイナスのバランスの取れた精度)、Fスコア、マシューズ相関係数(MCC)である。 本稿では,これらの指標の定義を,すべての統計学習コースで導入されているが機械学習文献では滅多に用いられていない期待コスト(ec)と比較する。 本稿では,ECの実証的推定が総誤差と総誤差のバランスの両面の一般化版であることを示す。 さらに,f-score と mcc との関係を示し,ec の方がより汎用的で,シンプルで直感的で,モチベーションの高い ec よりも優れていると主張する。 我々は、f-score と mcc のサブ最適メトリクスとなるいくつかの問題を強調する。 ハードな決定よりも計算されるメトリクスのみに焦点を当てた現在のバージョンでは説明されていないが、ecはシステムのスコアのキャリブレーションを計測するための優れたツールであり、各クラスに対して最適な決定を下すことができるという、追加の利点がある。 私たちはその議論をこの原稿の将来版に残します。

A number of different performance metrics are commonly used in the machine learning literature for classification systems that output categorical decisions. Some of the most common ones are accuracy, total error (one minus accuracy), balanced accuracy, balanced total error (one minus balanced accuracy), F-score, and Matthews correlation coefficient (MCC). In this document, we review the definition of these metrics and compare them with the expected cost (EC), a metric introduced in every statistical learning course but rarely used in the machine learning literature. We show that the empirical estimate of the EC is a generalized version of both the total error and balanced total error. Further, we show its relation with F-score and MCC and argue that EC is superior to them, being more general, simpler, intuitive and well motivated. We highlight some issues with the F-score and the MCC that make them suboptimal metrics. While not explained in the current version of this manuscript, where we focus exclusively on metrics that are computed over hard decisions, the EC has the additional advantage of being a great tool to measure calibration of a system's scores and allows users to make optimal decisions given a set of posteriors for each class. We leave that discussion for a future version of this manuscript.
翻訳日:2022-09-13 12:34:09 公開日:2022-09-12
# 統合型医療連携学習におけるデータ評価の効率化に向けて

Towards More Efficient Data Valuation in Healthcare Federated Learning using Ensembling ( http://arxiv.org/abs/2209.05424v1 )

ライセンス: Link先を確認
Sourav Kumar, A. Lakshminarayanan, Ken Chang, Feri Guretno, Ivan Ho Mien, Jayashree Kalpathy-Cramer, Pavitra Krishnaswamy and Praveer Singh(参考訳) 複数の機関が共同でデータを共有せずに機械学習モデルをトレーニングするフェデレーション学習(fl)が普及している。 参加する機関は平等に貢献するものではなく、より多くのデータ、より良い品質データ、より多様なデータに貢献するものもある。 異なる機関の貢献を公平にランク付けするために、選択方法としてシェープ価値(SV)が登場した。 特に何百人ものコントリビュータがいる場合、SV計算は非常に高価である。 既存のsv計算技術は近似を用いる。 しかし、コントリビューション機関の数が余計な規模ではなさそうにない医療では、正確なSVの計算はいまだに高価だが不可能ではない。 そこで本稿では,SaFE (Shapley Value for Federated Learning using Ensembling) と呼ばれる効率的なSV計算手法を提案する。 実験により、SaFEは正確なSVに近い値を計算し、現在のSV近似よりも優れた性能を示す。 これは、多施設共同学習における各参加者の貢献度を決定するために、組織間の広範な異質性が急増し、迅速なデータ評価が必要となる医療画像環境に特に関係している。

Federated Learning (FL) wherein multiple institutions collaboratively train a machine learning model without sharing data is becoming popular. Participating institutions might not contribute equally, some contribute more data, some better quality data or some more diverse data. To fairly rank the contribution of different institutions, Shapley value (SV) has emerged as the method of choice. Exact SV computation is impossibly expensive, especially when there are hundreds of contributors. Existing SV computation techniques use approximations. However, in healthcare where the number of contributing institutions are likely not of a colossal scale, computing exact SVs is still exorbitantly expensive, but not impossible. For such settings, we propose an efficient SV computation technique called SaFE (Shapley Value for Federated Learning using Ensembling). We empirically show that SaFE computes values that are close to exact SVs, and that it performs better than current SV approximations. This is particularly relevant in medical imaging setting where widespread heterogeneity across institutions is rampant and fast accurate data valuation is required to determine the contribution of each participant in multi-institutional collaborative learning.
翻訳日:2022-09-13 12:33:48 公開日:2022-09-12
# 偽データ拡張におけるバイアスの課題

Bias Challenges in Counterfactual Data Augmentation ( http://arxiv.org/abs/2209.05104v1 )

ライセンス: Link先を確認
S Chandra Mouli, Yangze Zhou, Bruno Ribeiro(参考訳) 深層学習モデルは、主に課題を解決するために散発的な特徴に依存するため、分散性に欠ける傾向がある。 反事実データ拡張は、スプリアスの特徴に対して反事実不変な表現を(ほぼ)達成するための一般的な方法を提供する。 本研究では,与えられた入力の最も類似したコンテキストを推測する抽象機械である {\em context-guessing machine} によって,反実データ拡張が所望の反実データ不変性を達成できないことを示す。 理論的には、このような反ファクトデータ増大による不変性を解析し、コンテキストガッシングマシンによる反ファクトデータ増大がロバストなOOD分類に繋がらないような典型的なNLPタスクを記述する。

Deep learning models tend not to be out-of-distribution robust primarily due to their reliance on spurious features to solve the task. Counterfactual data augmentations provide a general way of (approximately) achieving representations that are counterfactual-invariant to spurious features, a requirement for out-of-distribution (OOD) robustness. In this work, we show that counterfactual data augmentations may not achieve the desired counterfactual-invariance if the augmentation is performed by a {\em context-guessing machine}, an abstract machine that guesses the most-likely context of a given input. We theoretically analyze the invariance imposed by such counterfactual data augmentations and describe an exemplar NLP task where counterfactual data augmentation by a context-guessing machine does not lead to robust OOD classifiers.
翻訳日:2022-09-13 12:32:16 公開日:2022-09-12
# フーリエニューラル演算子のラデマッハ複雑性のバウンディング

Bounding The Rademacher Complexity of Fourier Neural Operator ( http://arxiv.org/abs/2209.05150v1 )

ライセンス: Link先を確認
Taeyoung Kim and Myungjoo Kang(参考訳) フーリエニューラルオペレータ(fourier neural operator, fno)は、物理学に触発された機械学習手法の1つである。 特に、神経演算子である。 近年では、ディープオペレータネットワーク、GNO、MWTOなど、いくつかのタイプのニューラルオペレータが開発されている。 他のモデルと比較して、FNOは計算的に効率的であり、ある有限基底に依存しない函数空間間の非線形作用素を学習することができる。 本研究では,特定の群ノルムに基づくfnoのラデマシェ複雑性の境界について検討した。 これらのノルムに基づくキャパシティを用いて、FNOモデルの一般化誤差を限定する。 さらに,経験的一般化誤差と提案するfnoの容量との関係について検討した。 そこで本研究では,モデルアーキテクチャが一般化誤差に与える影響を把握し,FNOモデルに関する情報を様々な種類の容量に蓄積した。

A Fourier neural operator (FNO) is one of the physics-inspired machine learning methods. In particular, it is a neural operator. In recent times, several types of neural operators have been developed, e.g., deep operator networks, GNO, and MWTO. Compared with other models, the FNO is computationally efficient and can learn nonlinear operators between function spaces independent of a certain finite basis. In this study, we investigated the bounding of the Rademacher complexity of the FNO based on specific group norms. Using capacity based on these norms, we bound the generalization error of the FNO model. In addition, we investigated the correlation between the empirical generalization error and the proposed capacity of FNO. Based on this investigation, we gained insight into the impact of the model architecture on the generalization error and estimated the amount of information about FNO models stored in various types of capacities.
翻訳日:2022-09-13 12:31:59 公開日:2022-09-12
# 共起線形MDPの統計的推定:機器変数によるアプローチ

Statistical Estimation of Confounded Linear MDPs: An Instrumental Variable Approach ( http://arxiv.org/abs/2209.05186v1 )

ライセンス: Link先を確認
Miao Lu, Wenhao Yang, Liangyu Zhang, Zhihua Zhang(参考訳) マルコフ決定プロセス(MDP)では、観測不能な共同設立者がデータ生成プロセスに影響を与え、古典的非政治評価(OPE)推定者がターゲットポリシーの真の価値関数を特定できない可能性がある。 本稿では,観測可能な機器変数を持つMDPにおけるOPEの統計特性について検討する。 具体的には, インストゥルメンタル変数に基づく2段階推定器を提案し, 線形構造を持つmdpの統計的性質を定式化する。 非漸近解析では、$n$がサンプル数であるような$\mathcal{O}(n^{-1/2})$-error境界が証明される。 漸近解析では、2段階推定器は漸近的に正常であり、典型的には$n^{1/2}$である。 我々の知る限りでは、楽器変数を用いた線形MDPの2段階推定器の統計結果を示すのは初めてである。

In an Markov decision process (MDP), unobservable confounders may exist and have impacts on the data generating process, so that the classic off-policy evaluation (OPE) estimators may fail to identify the true value function of the target policy. In this paper, we study the statistical properties of OPE in confounded MDPs with observable instrumental variables. Specifically, we propose a two-stage estimator based on the instrumental variables and establish its statistical properties in the confounded MDPs with a linear structure. For non-asymptotic analysis, we prove a $\mathcal{O}(n^{-1/2})$-error bound where $n$ is the number of samples. For asymptotic analysis, we prove that the two-stage estimator is asymptotically normal with a typical rate of $n^{1/2}$. To the best of our knowledge, we are the first to show such statistical results of the two-stage estimator for confounded linear MDPs via instrumental variables.
翻訳日:2022-09-13 12:31:45 公開日:2022-09-12
# PAC-Bayes境界の効率評価に関する一考察

A Note on the Efficient Evaluation of PAC-Bayes Bounds ( http://arxiv.org/abs/2209.05188v1 )

ライセンス: Link先を確認
Felix Biggs(参考訳) リスク認定のためにPAC-Bayes理論を利用する場合、通常、PAC-Bayes後部のギブスリスクを推定し、バウンドする必要がある。 文献の多くの作品は、高い計算コストを伴い、大量のデータセットのパスを必要とする方法を採用している。 この写本は、データセットのサイズの順序で計算を節約する非常に一般的な代替案を提示している。

When utilising PAC-Bayes theory for risk certification, it is usually necessary to estimate and bound the Gibbs risk of the PAC-Bayes posterior. Many works in the literature employ a method for this which requires a large number of passes of the dataset, incurring high computational cost. This manuscript presents a very general alternative which makes computational savings on the order of the dataset size.
翻訳日:2022-09-13 12:31:28 公開日:2022-09-12
# 機械学習によるヘイト音声の自動検出における課題

A Review of Challenges in Machine Learning based Automated Hate Speech Detection ( http://arxiv.org/abs/2209.05294v1 )

ライセンス: Link先を確認
Abhishek Velankar, Hrushikesh Patil, Raviraj Joshi(参考訳) ソーシャルメディアにおけるヘイトスピーチの普及は、現在深刻な問題である。 これらのプラットフォームで発生した膨大な情報への不必要なアクセスは、人々が暴力を引き起こす有害なコンテンツに投稿し、反応するきっかけとなった。 オンラインコンテンツの検出と抑制は試みられているが、正確な特定は依然として困難である。 ディープラーニングベースのソリューションは、憎しみのあるコンテンツを識別する最前線にある。 しかし、ヘイトスピーチの文脈依存性、ユーザの意図、望ましくないバイアスなどといった要因は、このプロセスを過度に批判する。 本研究では,これらの問題を階層的に整理することで,ヘイトスピーチの自動検出における幅広い課題を深く探究する。 機械学習やディープラーニングによるヘイトスピーチ識別のソリューションが直面する課題に焦点を当てている。 トップレベルでは、データレベル、モデルレベル、人間レベルの課題を区別します。 さらに,各階層レベルの徹底的な分析を例で示す。 この調査は、ヘイトスピーチ検出の分野で、研究者がより効率的にソリューションを設計するのに役立つだろう。

The spread of hate speech on social media space is currently a serious issue. The undemanding access to the enormous amount of information being generated on these platforms has led people to post and react with toxic content that originates violence. Though efforts have been made toward detecting and restraining such content online, it is still challenging to identify it accurately. Deep learning based solutions have been at the forefront of identifying hateful content. However, the factors such as the context-dependent nature of hate speech, the intention of the user, undesired biases, etc. make this process overcritical. In this work, we deeply explore a wide range of challenges in automatic hate speech detection by presenting a hierarchical organization of these problems. We focus on challenges faced by machine learning or deep learning based solutions to hate speech identification. At the top level, we distinguish between data level, model level, and human level challenges. We further provide an exhaustive analysis of each level of the hierarchy with examples. This survey will help researchers to design their solutions more efficiently in the domain of hate speech detection.
翻訳日:2022-09-13 12:28:16 公開日:2022-09-12
# クラス間距離を考慮した混合クラス選択によるデータ拡張

Data Augmentation by Selecting Mixed Classes Considering Distance Between Classes ( http://arxiv.org/abs/2209.05122v1 )

ライセンス: Link先を確認
Shungo Fujii, Yasunori Ishii, Kazuki Kozuka, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi(参考訳) 深層学習を用いた物体認識における認識精度の向上には,データ拡張が不可欠である。 ミックスアップのような複数のデータセットから混合データを生成する方法は、トレーニングデータに含まれない新しい多様性を取得し、精度の向上に大きく貢献する。 しかし、混合のために選択されたデータはトレーニングプロセス全体でランダムにサンプリングされるため、適切なクラスやデータが選択されないケースもある。 本研究では,クラス確率に基づいてクラス間の距離を計算し,学習過程において混在する適切なクラスからデータを選択するデータ拡張手法を提案する。 混合データは、各クラスのトレーニング傾向に応じて動的に調整され、訓練を容易にする。 提案手法は従来の混合データ生成手法と組み合わせて適用した。 評価実験により,一般および長期画像認識データセットの認識性能が向上することを示した。

Data augmentation is an essential technique for improving recognition accuracy in object recognition using deep learning. Methods that generate mixed data from multiple data sets, such as mixup, can acquire new diversity that is not included in the training data, and thus contribute significantly to accuracy improvement. However, since the data selected for mixing are randomly sampled throughout the training process, there are cases where appropriate classes or data are not selected. In this study, we propose a data augmentation method that calculates the distance between classes based on class probabilities and can select data from suitable classes to be mixed in the training process. Mixture data is dynamically adjusted according to the training trend of each class to facilitate training. The proposed method is applied in combination with conventional methods for generating mixed data. Evaluation experiments show that the proposed method improves recognition performance on general and long-tailed image recognition datasets.
翻訳日:2022-09-13 12:28:00 公開日:2022-09-12
# レコメンデーションシステムにおける言語説明の忠実さとコヒーレンスについて

On Faithfulness and Coherence of Language Explanations for Recommendation Systems ( http://arxiv.org/abs/2209.05409v1 )

ライセンス: Link先を確認
Zhouhang Xie, Julian McAuley and Bodhisattwa Prasad Majumder(参考訳) レビューには製品特性やユーザの興味に関する豊富な情報が含まれており、リコメンダシステムのパフォーマンス向上に一般的に使用されている。 具体的には、レビュー生成を行うための共同学習が評価予測性能を向上させることを示す。 一方、これらのモデル生成レビューはレコメンデーションの説明となり、ユーザーは予測された評価についての洞察を提供する。 しかし、既存のモデルが人間的なレビューを生み出す可能性はあるが、この共同評価の背後にある根拠がどの程度明確かは不明だ。 本研究では,最先端のモデルとそのレビュー生成成分を調査する一連の評価を行う。 得られた説明は不安定であり, 推定評価の合理的な根拠となる前に, さらなる評価が必要であることを示す。

Reviews contain rich information about product characteristics and user interests and thus are commonly used to boost recommender system performance. Specifically, previous work show that jointly learning to perform review generation improves rating prediction performance. Meanwhile, these model-produced reviews serve as recommendation explanations, providing the user with insights on predicted ratings. However, while existing models could generate fluent, human-like reviews, it is unclear to what degree the reviews fully uncover the rationale behind the jointly predicted rating. In this work, we perform a series of evaluations that probes state-of-the-art models and their review generation component. We show that the generated explanations are brittle and need further evaluation before being taken as literal rationales for the estimated ratings.
翻訳日:2022-09-13 12:27:46 公開日:2022-09-12
# A*におけるヒューリスティックス学習のための微分損失関数

A Differentiable Loss Function for Learning Heuristics in A* ( http://arxiv.org/abs/2209.05206v1 )

ライセンス: Link先を確認
Leah Chrestien, Tomas Pevny, Antonin Komenda, Stefan Edelkamp(参考訳) ディープニューラルネットワークによって実現されるa*アルゴリズムのヒューリスティック関数の最適化は、通常、目標値に対するコストの推定の平方根損失を最小化する。 本稿は、絶対値ではなく相対値に依存するため、A*アルゴリズムの高速化につながるとは限らない、と論じる。 緩和策として,A*探索における過度に拡張された状態の上限となるL*損失を提案する。 ソコバンやモーゼなどの迷路ドメインにおける自動計画のための最先端のディープニューラルネットワークの最適化に使用されるL*損失は、解決された問題の割合、確立された計画の品質を大幅に改善し、拡張された状態の数を約50%削減する。

Optimization of heuristic functions for the A* algorithm, realized by deep neural networks, is usually done by minimizing square root loss of estimate of the cost to goal values. This paper argues that this does not necessarily lead to a faster search of A* algorithm since its execution relies on relative values instead of absolute ones. As a mitigation, we propose a L* loss, which upper-bounds the number of excessively expanded states inside the A* search. The L* loss, when used in the optimization of state-of-the-art deep neural networks for automated planning in maze domains like Sokoban and maze with teleports, significantly improves the fraction of solved problems, the quality of founded plans, and reduces the number of expanded states to approximately 50%
翻訳日:2022-09-13 12:25:53 公開日:2022-09-12
# データ拡張による統一状態表現学習

Unified State Representation Learning under Data Augmentation ( http://arxiv.org/abs/2209.05302v1 )

ライセンス: Link先を確認
Taylor Hearn, Sravan Jayanthi, Sehoon Ha(参考訳) 迅速なドメイン適応能力は、現実世界の問題に対する強化学習(rl)の適用性を高めるために重要である。 RLエージェントの一般化は実世界での成功に不可欠であるが、訓練されたエージェントが新しいタスクで完全に失敗する可能性があるため、ゼロショットポリシー転送は難しい問題である。 我々は,usra:unified state representation learning under data augmentationを提案する。このフレームワークは,観測に基づいてデータ拡張を行うことで,潜在統一状態表現を学習し,対象領域に一般化する能力を向上させる。 本稿では,DeepMind Control Generalization Benchmark for the Walker環境におけるアプローチの成功例を紹介するとともに,USRAがサンプル効率の向上とドメイン適応性能の14.3%向上を実現していることを示す。

The capacity for rapid domain adaptation is important to increasing the applicability of reinforcement learning (RL) to real world problems. Generalization of RL agents is critical to success in the real world, yet zero-shot policy transfer is a challenging problem since even minor visual changes could make the trained agent completely fail in the new task. We propose USRA: Unified State Representation Learning under Data Augmentation, a representation learning framework that learns a latent unified state representation by performing data augmentations on its observations to improve its ability to generalize to unseen target domains. We showcase the success of our approach on the DeepMind Control Generalization Benchmark for the Walker environment and find that USRA achieves higher sample efficiency and 14.3% better domain adaptation performance compared to the best baseline results.
翻訳日:2022-09-13 12:25:37 公開日:2022-09-12
# 質問分類による質問応答に対するドメイン適応

Domain Adaptation for Question Answering via Question Classification ( http://arxiv.org/abs/2209.04998v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Ziyi Kou, Lanyu Shang, Dong Wang(参考訳) 質問応答(qa)は、カスタマイズされたドメインからの質問に答える素晴らしい進歩を示しています。 しかしながら、特にQAシステムがソースドメインでトレーニングされているが、異なるターゲットドメインにデプロイされている場合、ドメイン適応はQAシステムにとって最も明白な課題の1つである。 本研究では,QA領域適応のための質問分類の潜在的な利点について検討する。 質問応答のための質問分類(qc4qa)を提案する。 具体的には、ソースデータとターゲットデータの両方に質問クラスを割り当てるために質問分類器を採用する。 そこで我々は,擬似ラベルによる自己指導型共同訓練を行った。 最適化のために、ソースとターゲットドメイン間のドメイン間不一致を最大平均不一致(MMD)距離で低減する。 また, 微粒化適応性能を示すために, 同じ質問クラスのQAサンプルのクラス内差を最小化する。 我々の知る限りでは、QAドメイン適応において、自己教師付き適応を用いた質問分類を利用する最初の研究である。 提案したQC4QAの有効性を,複数のデータセットの最先端ベースラインに対して一貫した改善により示す。

Question answering (QA) has demonstrated impressive progress in answering questions from customized domains. Nevertheless, domain adaptation remains one of the most elusive challenges for QA systems, especially when QA systems are trained in a source domain but deployed in a different target domain. In this work, we investigate the potential benefits of question classification for QA domain adaptation. We propose a novel framework: Question Classification for Question Answering (QC4QA). Specifically, a question classifier is adopted to assign question classes to both the source and target data. Then, we perform joint training in a self-supervised fashion via pseudo-labeling. For optimization, inter-domain discrepancy between the source and target domain is reduced via maximum mean discrepancy (MMD) distance. We additionally minimize intra-class discrepancy among QA samples of the same question class for fine-grained adaptation performance. To the best of our knowledge, this is the first work in QA domain adaptation to leverage question classification with self-supervised adaptation. We demonstrate the effectiveness of the proposed QC4QA with consistent improvements against the state-of-the-art baselines on multiple datasets.
翻訳日:2022-09-13 12:22:01 公開日:2022-09-12
# sancl: 選択的注意と自然コントラスト学習によるマルチモーダルレビュー支援性予測

SANCL: Multimodal Review Helpfulness Prediction with Selective Attention and Natural Contrastive Learning ( http://arxiv.org/abs/2209.05040v1 )

ライセンス: Link先を確認
Wei Han, Hui Chen, Zhen Hai, Soujanya Poria, Lidong Bing(参考訳) 電子商取引のブームに伴い、製品レビューを予測された有用度スコアに従ってソートすることを目的としたMRHP(Multimodal Review Helpfulness Prediction)が研究ホットスポットとなっている。 このタスクに関する以前の仕事は、注意に基づくモダリティ融合、情報統合、関係モデリングに焦点を当てている。 1) モデルは,無差別な注意定式化のために本質的な情報を把握できない場合がある。 2) 提供データ間の相関を最大限に活用する適切なモデリング手法が欠如している。 本稿では,MRHPのためのSANCL: Selective Attention and Natural Contrastive Learningを提案する。 SANCLは、より重要な領域に高い注意重みを強制するためのプローブベースの戦略を採用している。 また、データセット内の自然マッチングプロパティに基づいたコントラスト学習フレームワークも構築している。 3つのカテゴリを持つ2つのベンチマークデータセットの実験結果から、SANCLはメモリ消費を抑えながら最先端のベースライン性能を達成することが示された。

With the boom of e-commerce, Multimodal Review Helpfulness Prediction (MRHP), which aims to sort product reviews according to the predicted helpfulness scores has become a research hotspot. Previous work on this task focuses on attention-based modality fusion, information integration, and relation modeling, which primarily exposes the following drawbacks: 1) the model may fail to capture the really essential information due to its indiscriminate attention formulation; 2) lack appropriate modeling methods that take full advantage of correlation among provided data. In this paper, we propose SANCL: Selective Attention and Natural Contrastive Learning for MRHP. SANCL adopts a probe-based strategy to enforce high attention weights on the regions of greater significance. It also constructs a contrastive learning framework based on natural matching properties in the dataset. Experimental results on two benchmark datasets with three categories show that SANCL achieves state-of-the-art baseline performance with lower memory consumption.
翻訳日:2022-09-13 12:21:47 公開日:2022-09-12
# 多言語視覚質問応答に向けて

Towards Multi-Lingual Visual Question Answering ( http://arxiv.org/abs/2209.05401v1 )

ライセンス: Link先を確認
Soravit Changpinyo, Linting Xue, Idan Szpektor, Ashish V. Thapliyal, Julien Amelot, Xi Chen, Radu Soricut(参考訳) VQA(Visual Question Answering)は、主に英語のレンズを通して研究されている。 しかし、同じ方法で他の言語でVQAに取り組むには、かなりの量のリソースが必要になる。 本稿では,データとモデリングの両面で,多言語視覚質問応答(mVQA)のスケーラブルな解を提案する。 まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。 次に、Crossmodal-3600データセットの多言語キャプションに適用し、7言語でテスト専用のVQAベンチマークであるMAVERICS-XM3600(MaXM)を作成するための効率的なアノテーションプロトコルを開発する。 最後に,拡張性,オープンエンド,エンドツーエンドのmVQAモデリング手法を提案し,13言語で高い性能を示す。

Visual Question Answering (VQA) has been primarily studied through the lens of the English language. Yet, tackling VQA in other languages in the same manner would require considerable amount of resources. In this paper, we propose scalable solutions to multi-lingual visual question answering (mVQA), on both data and modeling fronts. We first propose a translation-based framework to mVQA data generation that requires much less human annotation efforts than the conventional approach of directly collection questions and answers. Then, we apply our framework to the multi-lingual captions in the Crossmodal-3600 dataset and develop an efficient annotation protocol to create MAVERICS-XM3600 (MaXM), a test-only VQA benchmark in 7 diverse languages. Finally, we propose an approach to unified, extensible, open-ended, and end-to-end mVQA modeling and demonstrate strong performance in 13 languages.
翻訳日:2022-09-13 12:21:10 公開日:2022-09-12
# 抽象目標のモデル化による次の行動予測

Predicting the Next Action by Modeling the Abstract Goal ( http://arxiv.org/abs/2209.05044v1 )

ライセンス: Link先を確認
Debaditya Roy and Basura Fernando(参考訳) 人間の行動を予測する問題は本質的に不確実である。 しかし、俳優が達成しようとしている目標を把握できれば、この不確実性を低減することができる。 本稿では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。 我々は、推論中に目標情報や観察された行動を持っていないので、視覚表現を用いて行動と目標の両方に関する情報をカプセル化する。 そこで我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。 この抽象目標を,変動リカレントネットワークを用いてパラメータを推定する分布として設計する。 我々は,次の行動に対する複数の候補をサンプリングし,抽象目標から従う最適な候補を決定するための目標整合度尺度を導入する。 提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。 ek55のs1法と比較して,top-1動詞の+13.69,+11.24,+5.19,top-1名詞,top-1行動予測精度の絶対的改善が得られた。 同様に、トップ1動詞(+10.75)、名詞(+5.84)、行動(+2.87)に設定された未確認キッチン(S2)の大幅な改善も得られる。 EGTEA Gaze+データセットでも同様の傾向が見られ、名詞、動詞、行動予測に対して+9.9、+13.1、+6.8の絶対的な改善が得られる。 本論文の提出により,本手法は現在,ek55およびegtea gaze+ https://competitions.codalab.org/competitions/20071#resultsコードが,https://github.com/debadityaroy/abstract_goalで利用可能である。

The problem of anticipating human actions is an inherently uncertain one. However, we can reduce this uncertainty if we have a sense of the goal that the actor is trying to achieve. Here, we present an action anticipation model that leverages goal information for the purpose of reducing the uncertainty in future predictions. Since we do not possess goal information or the observed actions during inference, we resort to visual representation to encapsulate information about both actions and goals. Through this, we derive a novel concept called abstract goal which is conditioned on observed sequences of visual features for action anticipation. We design the abstract goal as a distribution whose parameters are estimated using a variational recurrent network. We sample multiple candidates for the next action and introduce a goal consistency measure to determine the best candidate that follows from the abstract goal. Our method obtains impressive results on the very challenging Epic-Kitchens55 (EK55), EK100, and EGTEA Gaze+ datasets. We obtain absolute improvements of +13.69, +11.24, and +5.19 for Top-1 verb, Top-1 noun, and Top-1 action anticipation accuracy respectively over prior state-of-the-art methods for seen kitchens (S1) of EK55. Similarly, we also obtain significant improvements in the unseen kitchens (S2) set for Top-1 verb (+10.75), noun (+5.84) and action (+2.87) anticipation. Similar trend is observed for EGTEA Gaze+ dataset, where absolute improvement of +9.9, +13.1 and +6.8 is obtained for noun, verb, and action anticipation. It is through the submission of this paper that our method is currently the new state-of-the-art for action anticipation in EK55 and EGTEA Gaze+ https://competitions.codalab.org/competitions/20071#results Code available at https://github.com/debadityaroy/Abstract_Goal
翻訳日:2022-09-13 12:19:38 公開日:2022-09-12
# ディープフェイク検出用ディープ畳み込みプールトランス

Deep Convolutional Pooling Transformer for Deepfake Detection ( http://arxiv.org/abs/2209.05299v1 )

ライセンス: Link先を確認
Tianyi Wang, Harry Cheng, Kam Pui Chow, Liqiang Nie(参考訳) 近年、ソーシャルメディアデジタル法医学におけるセキュリティとプライバシーの懸念から、deepfakeが注目を集めている。 ネット上のDeepfakeビデオがますますリアルになるにつれて、従来の検出技術は本物と偽物の区別に失敗した。 既存のディープラーニング手法のほとんどは、畳み込みニューラルネットワークをバックボーンとして、顔画像内の局所的特徴と関係に焦点を当てている。 しかし,Deepfake検出に十分な一般情報を学習するには,局所的な特徴や関係が不十分である。 これにより,既存のディープフェイク検出手法がボトルネックとなり,検出性能がさらに向上した。 この問題に対処するために,ローカルおよびグローバルの両方で決定的な画像特徴を組み込む深層畳み込み変換器を提案する。 具体的には,抽出した特徴を豊かにし,有効性を高めるために畳み込みプールと再アテンションを適用する。 さらに,映像圧縮によるキーフレームと通常の画像フレーム間の特徴量差を可視化するために,モデルトレーニングにおいてほとんど議論されていない画像キーフレームを用いる。 最終的に、いくつかのdeepfakeベンチマークデータセットで広範な実験を行い、転送可能性を説明します。 提案手法は、内部および相互データセット実験において、最先端のベースラインを一貫して上回る。

Recently, Deepfake has drawn considerable public attention due to security and privacy concerns in social media digital forensics. As the wildly spreading Deepfake videos on the Internet become more realistic, traditional detection techniques have failed in distinguishing between the real and fake. Most existing deep learning methods mainly focus on local features and relations within the face image using convolutional neural networks as a backbone. However, local features and relations are insufficient for model training to learn enough general information for Deepfake detection. Therefore, the existing Deepfake detection methods have reached a bottleneck to further improving the detection performance. To address this issue, we propose a deep convolutional Transformer to incorporate the decisive image features both locally and globally. Specifically, we apply convolutional pooling and re-attention to enrich the extracted features and enhance the efficacy. Moreover, we employ the barely discussed image keyframes in model training for performance improvement and visualize the feature quantity gap between the key and normal image frames caused by video compression. We finally illustrate the transferability with extensive experiments on several Deepfake benchmark datasets. The proposed solution consistently outperforms several state-of-the-art baselines on both within- and cross-dataset experiments.
翻訳日:2022-09-13 12:18:58 公開日:2022-09-12
# ロボット操作のためのマルチタスクトランスフォーマーperceiver-actor

Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation ( http://arxiv.org/abs/2209.05451v1 )

ライセンス: Link先を確認
Mohit Shridhar, Lucas Manuelli, Dieter Fox(参考訳) トランスフォーマーは、大規模なデータセットでスケールする能力によって、視覚と自然言語処理に革命をもたらした。 しかしロボット操作では、データは限定的かつ高価である。 正しい問題定式化を持つトランスフォーマーの恩恵を受けられるか? マルチタスク 6-dof 操作のための言語条件付きビヘイビアクローニングエージェントである peract を用いて,この問題を調査した。 PerActはPerceiver Transformerで言語目標とRGB-Dのボクセル観測を符号化し、"次の最高のボクセルアクションを検出する"ことで識別されたアクションを出力する。 2dイメージで動作するフレームワークとは異なり、voxelized observationとaction spaceは、6-dofポリシーを効率的に学習するための強力な構造的優先を提供する。 この定式化により、1つのマルチタスクトランスフォーマーを18のRLBenchタスク(249のバリエーション)と7つの現実世界タスク(18のバリエーション)に対して、タスク毎のデモからトレーニングする。 以上の結果から,peract は非構造化イメージ・ツー・アクションエージェントや3d convnet ベースラインを大きく上回っている。

Transformers have revolutionized vision and natural language processing with their ability to scale with large datasets. But in robotic manipulation, data is both limited and expensive. Can we still benefit from Transformers with the right problem formulation? We investigate this question with PerAct, a language-conditioned behavior-cloning agent for multi-task 6-DoF manipulation. PerAct encodes language goals and RGB-D voxel observations with a Perceiver Transformer, and outputs discretized actions by "detecting the next best voxel action". Unlike frameworks that operate on 2D images, the voxelized observation and action space provides a strong structural prior for efficiently learning 6-DoF policies. With this formulation, we train a single multi-task Transformer for 18 RLBench tasks (with 249 variations) and 7 real-world tasks (with 18 variations) from just a few demonstrations per task. Our results show that PerAct significantly outperforms unstructured image-to-action agents and 3D ConvNet baselines for a wide range of tabletop tasks.
翻訳日:2022-09-13 12:14:17 公開日:2022-09-12
# handmime: 模倣学習による手話指書き獲得

HandMime: Sign Language Fingerspelling Acquisition via Imitation Learning ( http://arxiv.org/abs/2209.05135v1 )

ライセンス: Link先を確認
Federico Tavella and Aphrodite Galata and Angelo Cangelosi(参考訳) 細かな動きを学ぶことはロボティクスの最も難しいトピックの1つだ。 これは特にロボットの手に当てはまる。 ロボットによる手話の獲得や、より具体的には、ロボットによる手話の獲得は、そのような課題の具体例と見なすことができる。 本稿では,追加情報を使わずに映像例からデクスタースモータの模倣を学習する手法を提案する。 各関節に単一のアクチュエータを備えたロボットハンドのURDFモデルを構築した。 トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。 次に,運動模倣のための最先端強化学習アルゴリズム(すなわち近位政策最適化)を用いて,実演から抽出した動きを再現する方針を訓練する。 参照運動に基づいて模擬を行うために最適なハイパーパラメータ群を同定する。 さらに,6種類の指で綴られた文字を一般化する手法を実証した。

Learning fine-grained movements is among the most challenging topics in robotics. This holds true especially for robotic hands. Robotic sign language acquisition or, more specifically, fingerspelling sign language acquisition in robots can be considered a specific instance of such challenge. In this paper, we propose an approach for learning dexterous motor imitation from videos examples, without the use of any additional information. We build an URDF model of a robotic hand with a single actuator for each joint. By leveraging pre-trained deep vision models, we extract the 3D pose of the hand from RGB videos. Then, using state-of-the-art reinforcement learning algorithms for motion imitation (namely, proximal policy optimisation), we train a policy to reproduce the movement extracted from the demonstrations. We identify the best set of hyperparameters to perform imitation based on a reference motion. Additionally, we demonstrate the ability of our approach to generalise over 6 different fingerspelled letters.
翻訳日:2022-09-13 12:13:59 公開日:2022-09-12
# ソフト拡散: 一般的な崩壊に対するスコアマッチング

Soft Diffusion: Score Matching for General Corruptions ( http://arxiv.org/abs/2209.05442v1 )

ライセンス: Link先を確認
Giannis Daras, Mauricio Delbracio, Hossein Talebi, Alexandros G. Dimakis, Peyman Milanfar(参考訳) 我々は、以前知られていた拡散モデルを一般化したより広範な腐敗過程を定義する。 これらの一般的な拡散を逆転するために,任意の線形腐敗過程のスコア関数を確実に学習し,celebaのアート結果の状態を得るソフトスコアマッチング(soft score matching)という新しい目的を提案する。 ソフトスコアマッチングは、ネットワークの劣化過程を組み込んでモデルを訓練し、腐敗後のクリーンイメージが拡散観察と一致することを予測します。 本研究の目的は,腐敗過程の家族に対して適切な規則性条件下での確率の勾配を学習することである。 さらに,一般拡散過程の汚職レベルを選択するための基本的手法と,モメンタムサンプリングと呼ばれる新しいサンプリング手法を開発する。 汚職はガウスのぼやけと低等級の付加雑音を伴って評価した。 提案手法はCelebA-64上でのFIDスコアを1.85ドルで達成し,従来の線形拡散モデルよりも優れていた。 また,バニラ雑音拡散に比べ,計算量的に有意な効果を示した。

We define a broader family of corruption processes that generalizes previously known diffusion models. To reverse these general diffusions, we propose a new objective called Soft Score Matching that provably learns the score function for any linear corruption process and yields state of the art results for CelebA. Soft Score Matching incorporates the degradation process in the network and trains the model to predict a clean image that after corruption matches the diffused observation. We show that our objective learns the gradient of the likelihood under suitable regularity conditions for the family of corruption processes. We further develop a principled way to select the corruption levels for general diffusion processes and a novel sampling method that we call Momentum Sampler. We evaluate our framework with the corruption being Gaussian Blur and low magnitude additive noise. Our method achieves state-of-the-art FID score $1.85$ on CelebA-64, outperforming all previous linear diffusion models. We also show significant computational benefits compared to vanilla denoising diffusion.
翻訳日:2022-09-13 12:13:25 公開日:2022-09-12
# 医療画像における機械学習の再現性

Reproducibility in machine learning for medical imaging ( http://arxiv.org/abs/2209.05097v1 )

ライセンス: Link先を確認
Olivier Colliot, Elina Thibeau-Sutre, Ninon Burgos(参考訳) 再現性は科学の基盤であり、発見の複製はそれらが知識となる過程である。 多くの科学分野が再現性危機にさらされていると考えられている。 これにより、研究再現性を改善するために様々なガイドラインが出版された。 この実践的な章は、医療画像の機械学習分野の研究者への再現性の導入を目的としている。 まず、異なる種類の再現性を区別する。 それぞれの目的は、それを定義すること、それを達成するための要件を説明すること、有用性について議論することである。 この章は再現性の利点に関する議論と、この概念と研究実践におけるその実践に対する非教義的なアプローチへの嘆願で終わる。

Reproducibility is a cornerstone of science, as the replication of findings is the process through which they become knowledge. It is widely considered that many fields of science are undergoing a reproducibility crisis. This has led to the publications of various guidelines in order to improve research reproducibility. This didactic chapter intends at being an introduction to reproducibility for researchers in the field of machine learning for medical imaging. We first distinguish between different types of reproducibility. For each of them, we aim at defining it, at describing the requirements to achieve it and at discussing its utility. The chapter ends with a discussion on the benefits of reproducibility and with a plea for a non-dogmatic approach to this concept and its implementation in research practice.
翻訳日:2022-09-13 12:13:08 公開日:2022-09-12
# Swarm Heuristics を用いた障害物回避格子経路の学習 : 順序木への単射探索

Learning Obstacle-Avoiding Lattice Paths using Swarm Heuristics: Exploring the Bijection to Ordered Trees ( http://arxiv.org/abs/2209.05187v1 )

ライセンス: Link先を確認
Victor Parque(参考訳) 格子パスは離散/グリッドマップの効率的なナビゲーションをモデル化する機能エンティティである。 本稿では,根付き順序木に対する単射性を用いて,最も効率のよい衝突のない格子経路を生成するための新しい手法を提案する。 凸および非凸形状の障害物を有する航法シナリオにおける10種類の最先端および関連する自然刺激群群ヒューリスティックスを用いた計算研究は、衝突のない格子路の描画における実用可能性と効率性を示している。 本手法は離散写像の計画と組合せ最適化のための高速アルゴリズムの考案に有効であると考えられる。

Lattice paths are functional entities that model efficient navigation in discrete/grid maps. This paper presents a new scheme to generate collision-free lattice paths with utmost efficiency using the bijective property to rooted ordered trees, rendering a one-dimensional search problem. Our computational studies using ten state-of-the-art and relevant nature-inspired swarm heuristics in navigation scenarios with obstacles with convex and non-convex geometry show the practical feasibility and efficiency in rendering collision-free lattice paths. We believe our scheme may find use in devising fast algorithms for planning and combinatorial optimization in discrete maps.
翻訳日:2022-09-13 12:12:57 公開日:2022-09-12
# 知識ベース質問応答:意味的パーシングの視点から

Knowledge Base Question Answering: A Semantic Parsing Perspective ( http://arxiv.org/abs/2209.04994v1 )

ライセンス: Link先を確認
Yu Gu, Vardaan Pahuja, Gong Cheng, Yu Su(参考訳) 近年のディープラーニングの進歩は意味解析の研究を大いに推進している。 web apiへの自然言語インターフェース、テキストからsqlへの生成など、多くのダウンストリームタスクで改善がなされている。 しかし,これらの課題と密接な関係にあるにもかかわらず,知識ベース(KBQA)に対する質問応答の研究は比較的緩やかに進んでいる。 KBQAには,スキーマレベルの複雑性とファクトレベルの複雑性という2つのユニークな課題があります。 本調査では,KBQAを意味解析の幅広い文献に位置づけ,既存のKBQAアプローチがどのような課題に対処しようとしているのかを包括的に説明する。 独特な課題にかかわらず、KBQAに関する既存の研究で見過ごされている意味解析の文献から、いまだ多くのインスピレーションを得ることができると論じる。 議論から,KBQA研究のボトルネックをよりよく理解し,特に事前学習された言語モデルの時代において,KBQAが意味解析の文献に沿うための将来性のある方向性に光を当てることができた。

Recent advances in deep learning have greatly propelled the research on semantic parsing. Improvement has since been made in many downstream tasks, including natural language interface to web APIs, text-to-SQL generation, among others. However, despite the close connection shared with these tasks, research on question answering over knowledge bases (KBQA) has comparatively been progressing slowly. We identify and attribute this to two unique challenges of KBQA, schema-level complexity and fact-level complexity. In this survey, we situate KBQA in the broader literature of semantic parsing and give a comprehensive account of how existing KBQA approaches attempt to address the unique challenges. Regardless of the unique challenges, we argue that we can still take much inspiration from the literature of semantic parsing, which has been overlooked by existing research on KBQA. Based on our discussion, we can better understand the bottleneck of current KBQA research and shed light on promising directions for KBQA to keep up with the literature of semantic parsing, particularly in the era of pre-trained language models.
翻訳日:2022-09-13 12:12:38 公開日:2022-09-12
# CTスキャンによる肺動脈セグメンテーションのためのマルチビュー多段階およびマルチウィンドウフレームワーク

A multi view multi stage and multi window framework for pulmonary artery segmentation from CT scans ( http://arxiv.org/abs/2209.03918v3 )

ライセンス: Link先を確認
ZeYu Liu, Yi Wang, Jing Wen, Yong Zhang, Hao Yin, Chao Guo, Zhongyu Wang(参考訳) これはPARSE2022 Challengeの最終結果の第9位の技術的報告である。 3d cnnネットワークを用いた2段階法を用いて肺動脈の分画問題を解決する。 粗いモデルはROIを見つけるために使われ、細かいモデルはセグメンテーション結果を洗練するために使用される。 また, セグメンテーション性能を向上させるため, マルチビュー・マルチウィンドウレベル手法を採用すると同時に, 不整合ラベリングの影響を軽減するため, 微調整戦略を採用する。

This is the technical report of the 9th place in the final result of PARSE2022 Challenge. We solve the segmentation problem of the pulmonary artery by using a two-stage method based on a 3D CNN network. The coarse model is used to locate the ROI, and the fine model is used to refine the segmentation result. In addition, in order to improve the segmentation performance, we adopt multi-view and multi-window level method, at the same time we employ a fine-tune strategy to mitigate the impact of inconsistent labeling.
翻訳日:2022-09-13 10:36:36 公開日:2022-09-12
# テキストベースゲームのための深層強化学習エージェントの解析

An Analysis of Deep Reinforcement Learning Agents for Text-based Games ( http://arxiv.org/abs/2209.04105v2 )

ライセンス: Link先を確認
Chen Chen, Yue Dai, Josiah Poon, Caren Han(参考訳) テキストベースゲーム(TBG)は、ユーザやコンピュータエージェントがテキストインタラクションを行い、ゲーム目標を達成する複雑な環境であり、TBGエージェント設計およびトレーニングプロセスにおいては、エージェントモデルの効率と性能のバランスをとることが大きな課題である。 TBGエージェントを標準化した環境での深層学習モジュールの性能を確認し,その性能を異なる評価タイプで検証することが,TBGエージェント研究においても重要である。 我々は,手作りルールのない標準化されたTBGエージェントを構築し,TBG評価タイプを正式に分類し,我々の環境における選択手法を解析した。

Text-based games(TBG) are complex environments which allow users or computer agents to make textual interactions and achieve game goals.In TBG agent design and training process, balancing the efficiency and performance of the agent models is a major challenge. Finding TBG agent deep learning modules' performance in standardized environments, and testing their performance among different evaluation types is also important for TBG agent research. We constructed a standardized TBG agent with no hand-crafted rules, formally categorized TBG evaluation types, and analyzed selected methods in our environment.
翻訳日:2022-09-13 10:36:25 公開日:2022-09-12
# F-COREF: 高速で高精度で容易に参照解決

F-COREF: Fast, Accurate and Easy to Use Coreference Resolution ( http://arxiv.org/abs/2209.04280v2 )

ライセンス: Link先を確認
Shon Otmazgin, Arie Cattan, Yoav Goldberg(参考訳) fastcorefは、高速で正確で使いやすい英語のコリファレンス解決のためのpythonパッケージです。 パッケージはpipインストール可能で、2つのモードがある。lingmessアーキテクチャに基づく正確なモード、最先端のコリファレンス精度を提供する、そして、この作業の焦点である実質的に高速なモデルであるf-corefである。 モデル{}は、V100 GPU上で2.8K OntoNotesの文書を25秒で処理できる(LingMessモデルでは6分、一般的なAllenNLPコア参照モデルでは12分)。 この高速化はLingMessモデルからのコンパクトモデルの蒸留と,余剰バッチと呼ばれる手法による効率的なバッチ化との組み合わせによって実現される。 https://github.com/shon-otmazgin/fastcoref

We introduce fastcoref, a python package for fast, accurate, and easy-to-use English coreference resolution. The package is pip-installable, and allows two modes: an accurate mode based on the LingMess architecture, providing state-of-the-art coreference accuracy, and a substantially faster model, F-coref, which is the focus of this work. \model{} allows to process 2.8K OntoNotes documents in 25 seconds on a V100 GPU (compared to 6 minutes for the LingMess model, and to 12 minutes of the popular AllenNLP coreference model) with only a modest drop in accuracy. The fast speed is achieved through a combination of distillation of a compact model from the LingMess model, and an efficient batching implementation using a technique we call leftover batching. https://github.com/shon-otmazgin/fastcoref
翻訳日:2022-09-13 10:36:15 公開日:2022-09-12
# TEACH:3D人間のための時間的行動構成

TEACH: Temporal Action Composition for 3D Humans ( http://arxiv.org/abs/2209.04066v2 )

ライセンス: Link先を確認
Nikos Athanasiou, Mathis Petrovich, Michael J. Black, G\"ul Varol(参考訳) 自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成し,命令の時間的順序に従う。 特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。 テキストコンディショルドモーション合成における現在の技術は、入力として1つのアクションまたは1つの文だけを取る。 これは、アクションシーケンスを含む適切なトレーニングデータが欠如していることに加えて、非自己回帰モデル定式化の計算の複雑さによっても原因である。 この作業では、両方の問題に対処します。 まず,BABELの動作テキストコレクションを利用して,ラベル付きアクションを多種多様に表現し,それらの間の遷移を連続して生成する。 次に、動作のシーケンス内で非自己回帰的に動作するTransformerベースのアプローチを設計する。 この階層的な定式化は、複数のベースラインと比較して、我々の実験で有効であることを示す。 我々のアプローチはTAACH(Temporal Action compositions for Human Motions)と呼ばれ、多種多様な行動のためのリアルな人間の動きと、言語記述からの時間的構成を生成する。 この新しいタスクの作業を促進するために、調査目的のコードを$\href{teach.is.tue.mpg.de}{\text{website}}$で公開しています。

Given a series of natural language descriptions, our task is to generate 3D human motions that correspond semantically to the text, and follow the temporal order of the instructions. In particular, our goal is to enable the synthesis of a series of actions, which we refer to as temporal action composition. The current state of the art in text-conditioned motion synthesis only takes a single action or a single sentence as input. This is partially due to lack of suitable training data containing action sequences, but also due to the computational complexity of their non-autoregressive model formulation, which does not scale well to long sequences. In this work, we address both issues. First, we exploit the recent BABEL motion-text collection, which has a wide range of labeled actions, many of which occur in a sequence with transitions between them. Next, we design a Transformer-based approach that operates non-autoregressively within an action, but autoregressively within the sequence of actions. This hierarchical formulation proves effective in our experiments when compared with multiple baselines. Our approach, called TEACH for "TEmporal Action Compositions for Human motions", produces realistic human motions for a wide variety of actions and temporal compositions from language descriptions. To encourage work on this new task, we make our code available for research purposes at our $\href{teach.is.tue.mpg.de}{\text{website}}$.
翻訳日:2022-09-13 10:35:34 公開日:2022-09-12
# 二重Q-Learningによる自然災害時の市民移住

Double Q-Learning for Citizen Relocation During Natural Hazards ( http://arxiv.org/abs/2209.03800v2 )

ライセンス: Link先を確認
Alysson Ribeiro da Silva(参考訳) 自然災害は、死亡率、転職率、復興の決定により、世界中の社会経済に重大な悪影響を及ぼす可能性がある。 ロボット工学は自然災害発生時の被害者の特定と救助に成功している。 しかし、自律ロボットは、人で構成される救助隊を待つことなく、自ら移動することで、市民の命を救えるようなソリューションを展開するための努力はほとんど行われていない。 強化学習アプローチはそのようなソリューションのデプロイに使用することができるが、そのデプロイで最も有名なアルゴリズムのひとつであるQラーニングは、学習ルーチンの実行時に発生するバイアスのある結果に悩まされている。 本研究は, 自然災害時の住民移動における二重Q-ラーニングの能力を, グリッド世界に基づくリスクシミュレーションエンジンにより評価する, 部分観測可能なマルコフ決定プロセスに基づく市民移住の解決策を採用するものである。 結果から,簡単なシナリオでは100%以上,ハードシナリオでは50%近い性能を示すことがわかった。

Natural disasters can cause substantial negative socio-economic impacts around the world, due to mortality, relocation, rates, and reconstruction decisions. Robotics has been successfully applied to identify and rescue victims during the occurrence of a natural hazard. However, little effort has been taken to deploy solutions where an autonomous robot can save the life of a citizen by itself relocating it, without the need to wait for a rescue team composed of humans. Reinforcement learning approaches can be used to deploy such a solution, however, one of the most famous algorithms to deploy it, the Q-learning, suffers from biased results generated when performing its learning routines. In this research a solution for citizen relocation based on Partially Observable Markov Decision Processes is adopted, where the capability of the Double Q-learning in relocating citizens during a natural hazard is evaluated under a proposed hazard simulation engine based on a grid world. The performance of the solution was measured as a success rate of a citizen relocation procedure, where the results show that the technique portrays a performance above 100% for easy scenarios and near 50% for hard ones.
翻訳日:2022-09-13 10:35:09 公開日:2022-09-12