このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220830となっている論文です。

PDF登録状況(公開日: 20220830)

TitleAuthorsAbstract論文公表日・翻訳日
# 高品質視覚認識のための深部強化注意学習

Deep Reinforced Attention Learning for Quality-Aware Visual Recognition ( http://arxiv.org/abs/2007.06156v2 )

ライセンス: Link先を確認
Duo Li, Qifeng Chen(参考訳) 本稿では,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築し,その潜在能力を十分に活用するための注意モジュールの有効性を明らかにする。 任意のアテンションモジュールを備えた既存のニューラルネットワークを前提として,本ネットワークにおけるアテンションマップの質を評価するメタ批判ネットワークを提案する。 設計した報酬の離散性から,提案手法を強化学習環境に配置し,注意役者と再帰的批評家を交互に最適化し,一時的注意表現の即時的批評と修正を行い,Deep Reinforceed Attention Learning (DREAL) と呼ぶ。 これは、異なるタイプのアテンションモジュールを持つネットワークアーキテクチャに普遍的に適用することができ、各アテンションモジュールから生じる最終的な認識性能の相対的なゲインを最大化することで、その表現能力を促進することができる。

In this paper, we build upon the weakly-supervised generation mechanism of intermediate attention maps in any convolutional neural networks and disclose the effectiveness of attention modules more straightforwardly to fully exploit their potential. Given an existing neural network equipped with arbitrary attention modules, we introduce a meta critic network to evaluate the quality of attention maps in the main network. Due to the discreteness of our designed reward, the proposed learning method is arranged in a reinforcement learning setting, where the attention actors and recurrent critics are alternately optimized to provide instant critique and revision for the temporary attention representation, hence coined as Deep REinforced Attention Learning (DREAL). It could be applied universally to network architectures with different types of attention modules and promotes their expressive ability by maximizing the relative gain of the final recognition performance arising from each individual attention module, as demonstrated by extensive experiments on both category and instance recognition benchmarks.
翻訳日:2022-11-11 00:09:21 公開日:2022-08-30
# ルーマニアにおけるcovid-19解析と予測の切り替え

A regime switching on Covid19 analysis and prediction in Romania ( http://arxiv.org/abs/2007.13494v3 )

ライセンス: Link先を確認
Marian Petrica and Radu D. Stochitoiu and Marius Leordeanu and Ionel Popescu(参考訳) 本稿では,ルーマニアにおけるコビッド19の進化の3段階的解析を提案する。 パンデミックの予測には2つの大きな問題がある。 一つは、感染と回復が報告された人数が信頼できないという事実であるが、死亡者の数はより正確である。 第2の問題は、パンデミックの進化に影響を与える多くの要因があったことである。 本稿では,3段階の分析手法を提案する。 最初のステージは、ニューラルネットワークを使って行う古典的なSIRモデルに基づいています。 これは、日次パラメータの最初のセットを提供する。 第2段階では,死者を別個のカテゴリーに分離するsirモデルの改良を提案する。 最初の推定値とグリッドサーチを用いて,パラメータの日次推定を行う。 第3段階は、パラメータのターニングポイント(局所極端)の概念を定義するために使われる。 私たちはこれらの点の間を政権と呼ぶ。 SIRDの時間変化パラメータに基づいて予測を行う一般的な手法を概説する。

In this paper we propose a three stages analysis of the evolution of Covid19 in Romania. There are two main issues when it comes to pandemic prediction. The first one is the fact that the numbers reported of infected and recovered are unreliable, however the number of deaths is more accurate. The second issue is that there were many factors which affected the evolution of the pandemic. In this paper we propose an analysis in three stages. The first stage is based on the classical SIR model which we do using a neural network. This provides a first set of daily parameters. In the second stage we propose a refinement of the SIR model in which we separate the deceased into a distinct category. By using the first estimate and a grid search, we give a daily estimation of the parameters. The third stage is used to define a notion of turning points (local extremes) for the parameters. We call a regime the time between these points. We outline a general way based on time varying parameters of SIRD to make predictions.
翻訳日:2022-11-06 09:13:23 公開日:2022-08-30
# 実数値論理による不確実性推論の基礎

Foundations of Reasoning with Uncertainty via Real-valued Logics ( http://arxiv.org/abs/2008.02429v3 )

ライセンス: Link先を確認
Ronald Fagin, Ryan Riegel, Alexander Gray(参考訳) 実数値論理はニューロシンボリックなアプローチの数が増えているが、その論理推論能力は質的にのみ特徴づけられる。 このようなシステムの正しさとパワーを確立するための基盤を提供する。 我々は、すべての一般的なファジィ論理を含む、本質的にすべての実数値論理をカバーするためにパラメータ化できる、音と強完全公理化を与える。 文のクラスは非常にリッチであり、各クラスは実数値論理の論理式の集合に対して可能な実値のセットを記述し、実際の値の組み合わせが可能である。 強完全性(strong completeness)は、他の数式の集合の実値の組み合わせに関する情報が与えられた式の集合の実値の組み合わせについて推測できる情報を正確に導出することができる。 次に公理化を拡張して重み付き部分形式を扱う。 最後に、ある実数値論理とある自然な仮定の下で、ある文の集合が論理的に他の文を意味するかどうかを決定するための線形計画法に基づく決定手順を与える。

Real-valued logics underlie an increasing number of neuro-symbolic approaches, though typically their logical inference capabilities are characterized only qualitatively. We provide foundations for establishing the correctness and power of such systems. We give a sound and strongly complete axiomatization that can be parametrized to cover essentially every real-valued logic, including all the common fuzzy logics. Our class of sentences are very rich, and each describes a set of possible real values for a collection of formulas of the real-valued logic, including which combinations of real values are possible. Strong completeness allows us to derive exactly what information can be inferred about the combinations of real values of a collection of formulas given information about the combinations of real values of several other collections of formulas. We then extend the axiomatization to deal with weighted subformulas. Finally, we give a decision procedure based on linear programming for deciding, for certain real-valued logics and under certain natural assumptions, whether a set of our sentences logically implies another of our sentences.
翻訳日:2022-11-02 07:39:59 公開日:2022-08-30
# 非バイナリおよび時間確率ブロックモデルにおけるコミュニティリカバリ

Community recovery in non-binary and temporal stochastic block models ( http://arxiv.org/abs/2008.04790v5 )

ライセンス: Link先を確認
Konstantin Avrachenkov, Maximilien Dreveton, Lasse Leskel\"a(参考訳) 本稿では,N$ノードのネットワークにおける相互相互作用から潜在コミュニティメンバシップの推定について検討する。そこでは,観測された相互作用を,時系列や空間点パターンなどのより一般的なオブジェクトを除外することなく,バイナリ,カテゴリ,ベクトル値を含む任意の型にすることができる。 このようなデータの生成モデルとして、最小到達可能な誤差率の情報理論境界を導出する一般的な可測相互作用空間 $\mathcal s$ を持つ確率的ブロックモデルを導入する。 これらの境界は、データのスパーシティ、ブロック内相互作用分布とブロック間相互作用分布の統計的類似性、相互作用空間の形状と大きさの観点から、一貫性と強い一貫性のある推定子の存在に対する鋭い基準を与える。 一般的なフレームワークは、$N \to \infty$と$T \to \infty$の両方が時間とともに相関する設定において、$\mathcal S = \{0,1\}^T$で時間的および多重ネットワークを研究することができる。 時間的マルコフ相互作用に対しては、鋭い一貫性閾値を導出する。 また,観測データの非バイナリ性を完全に活用する高速オンライン推定アルゴリズムを提案する。 合成データと実データに関する数値実験は、非常にスパースなデータ配列であっても、これらのアルゴリズムが迅速に正確な推定を生成することを示している。

This article studies the estimation of latent community memberships from pairwise interactions in a network of $N$ nodes, where the observed interactions can be of arbitrary type, including binary, categorical, and vector-valued, and not excluding even more general objects such as time series or spatial point patterns. As a generative model for such data, we introduce a stochastic block model with a general measurable interaction space $\mathcal S$, for which we derive information-theoretic bounds for the minimum achievable error rate. These bounds yield sharp criteria for the existence of consistent and strongly consistent estimators in terms of data sparsity, statistical similarity between intra- and inter-block interaction distributions, and the shape and size of the interaction space. The general framework makes it possible to study temporal and multiplex networks with $\mathcal S = \{0,1\}^T$, in settings where both $N \to \infty$ and $T \to \infty$, and the temporal interaction patterns are correlated over time. For temporal Markov interactions, we derive sharp consistency thresholds. We also present fast online estimation algorithms which fully utilise the non-binary nature of the observed data. Numerical experiments on synthetic and real data show that these algorithms rapidly produce accurate estimates even for very sparse data arrays.
翻訳日:2022-10-31 12:40:06 公開日:2022-08-30
# BarsCTR: クリックスルーレート予測のためのオープンベンチマーク

BarsCTR: Open Benchmarking for Click-Through Rate Prediction ( http://arxiv.org/abs/2009.05794v4 )

ライセンス: Link先を確認
Jieming Zhu, Jinyang Liu, Shuai Yang, Qi Zhang, Xiuqiang He(参考訳) クリックスルー率(CTR)予測は、ユーザエクスペリエンスとプラットフォーム収益に直接的な影響を与えるため、多くのアプリケーションにとって重要なタスクである。 近年、CTR予測は学術と産業の両方で広く研究されており、様々なCTR予測モデルが生み出されている。 残念ながら、CTR予測研究には標準化されたベンチマークと一様評価プロトコルがまだ欠けている。 これは、既存の研究の非再現性や矛盾した実験結果をもたらし、その研究の実用的価値と潜在的影響を著しく制限する。 本研究では、CTR予測のためのオープンベンチマークを行い、再現可能な方法で異なるモデルの厳密な比較を行う。 この目的のために、合計12,000以上のGPU時間で7000以上の実験を行い、複数のデータセットと設定で24の既存モデルを再評価しました。 驚くべきことに、我々の実験は、十分なハイパーパラメータ探索とモデルチューニングにより、多くの深層モデルが予想よりも小さな差を持つことを示した。 また, ctr予測のモデル化を実際に進めることは, 極めて困難な研究課題であることを明らかにした。 我々のベンチマーク作業は、研究者が新しいモデルの有効性を便利に評価できるだけでなく、芸術の状態をかなり比較できると考えている。 我々は、この分野で再現可能な研究を促進するために、ベンチマークコード、評価プロトコル、ハイパーパラメータ設定を公開しました。

Click-through rate (CTR) prediction is a critical task for many applications, as its accuracy has a direct impact on user experience and platform revenue. In recent years, CTR prediction has been widely studied in both academia and industry, resulting in a wide variety of CTR prediction models. Unfortunately, there is still a lack of standardized benchmarks and uniform evaluation protocols for CTR prediction research. This leads to non-reproducible or even inconsistent experimental results among existing studies, which largely limits the practical value and potential impact of their research. In this work, we aim to perform open benchmarking for CTR prediction and present a rigorous comparison of different models in a reproducible manner. To this end, we ran over 7,000 experiments for more than 12,000 GPU hours in total to re-evaluate 24 existing models on multiple datasets and settings. Surprisingly, our experiments show that with sufficient hyper-parameter search and model tuning, many deep models have smaller differences than expected. The results also reveal that making real progress on the modeling of CTR prediction is indeed a very challenging research task. We believe that our benchmarking work could not only allow researchers to gauge the effectiveness of new models conveniently but also make them fairly compare with the state of the arts. We have publicly released the benchmarking code, evaluation protocols, and hyper-parameter settings of our work to promote reproducible research in this field.
翻訳日:2022-10-19 08:16:27 公開日:2022-08-30
# MLのデータ品質分析による自動フィージビリティスタディ:ラベルノイズを事例として

Automatic Feasibility Study via Data Quality Analysis for ML: A Case-Study on Label Noise ( http://arxiv.org/abs/2010.08410v4 )

ライセンス: Link先を確認
Cedric Renggli, Luka Rimanic, Luka Kolar, Wentao Wu, Ce Zhang(参考訳) 今日のAutoMLシステムを使用しているドメインエキスパートとの作業経験では、私たちが遭遇した一般的な問題は、"非現実的な期待"(unrealistic expect)と呼ばれるもの — ユーザがノイズの多いデータ取得プロセスで非常に困難なタスクに直面している場合、マシンラーニング(ML)で驚くほど高い精度を達成することが期待されます。 これらの多くは、最初から失敗する運命にある。 従来のソフトウェアエンジニアリングでは、この問題は、ソフトウェアシステムを開発する前に必須のステップであるフィージビリティスタディによって解決される。 本稿では、機械学習アプリケーションを構築する前に、体系的で理論的に確立された実現可能性研究を行うデータサイエンティストと機械学習エンジニアを支援することを目的としてSnoopyを提案する。 本稿では,MLモデルのアーティファクトのトレーニングや評価に使用されるデータセットにおけるデータ品質の問題から,基礎となるタスクの既約誤差(Bayes error rate,BER)を推定することで,この問題に対処する。 コンピュータビジョンと自然言語処理における6つのデータセット(異なるレベルの実・合成ノイズを含む)のベースライン実現可能性研究候補と比較した実用的なベイズ誤差推定器を設計する。 さらに, 反復ラベルの洗浄プロセスに付加的なシグナルを付加した系統的実現可能性研究を取り入れることで, ユーザが実質的なラベル作成時間と金銭的労力を節約できることを示す。

In our experience of working with domain experts who are using today's AutoML systems, a common problem we encountered is what we call "unrealistic expectations" -- when users are facing a very challenging task with a noisy data acquisition process, while being expected to achieve startlingly high accuracy with machine learning (ML). Many of these are predestined to fail from the beginning. In traditional software engineering, this problem is addressed via a feasibility study, an indispensable step before developing any software system. In this paper, we present Snoopy, with the goal of supporting data scientists and machine learning engineers performing a systematic and theoretically founded feasibility study before building ML applications. We approach this problem by estimating the irreducible error of the underlying task, also known as the Bayes error rate (BER), which stems from data quality issues in datasets used to train or evaluate ML model artifacts. We design a practical Bayes error estimator that is compared against baseline feasibility study candidates on 6 datasets (with additional real and synthetic noise of different levels) in computer vision and natural language processing. Furthermore, by including our systematic feasibility study with additional signals into the iterative label cleaning process, we demonstrate in end-to-end experiments how users are able to save substantial labeling time and monetary efforts.
翻訳日:2022-10-06 21:31:34 公開日:2022-08-30
# ゼロショット学習によるフレキシブルジョブ分類

Flexible Job Classification with Zero-Shot Learning ( http://arxiv.org/abs/2209.12678v1 )

ライセンス: Link先を確認
Thom Lake(参考訳) 分類学を用いて情報を整理するには、適切な分類クラスで対象(文書、画像など)を分類する必要がある。 ゼロショット学習の柔軟な性質は、分類器が分類学的修正に自然に適応できるため、このタスクに魅力的である。 本稿では,人間資源領域における現実的な分類展開シナリオの下で,微調整言語モデルを用いたゼロショットマルチラベル文書の分類について検討する。 実験により、ゼロショット学習は、この設定で非常に効果的であることが示されている。 トレーニングデータ予算を制御する場合、ゼロショット分類器は、すべてのクラスで訓練された従来のマルチラベル分類器と比較して、マクロAPの12%の相対的な増加を達成する。 これらの結果は、すべてのクラスに統一的にラベル付け予算を分散し、従来の分類技術を使用するよりも、ゼロショット技術を採用し、より多くのドキュメントに不完全なクラスセットを注釈付けするリソースを費やすことが好ましいことを示唆している。 その他の実験では、推奨システムの文献からよく知られたフィルタ/再ランク分解を採用すると、高性能ゼロショット分類器の計算負担が大幅に減少し、性能の2%しか低下しない計算オーバーヘッドが98%減少することを示した。 ここで示された証拠は、ゼロショット学習は分類学の柔軟性を著しく高め、将来の研究の方向性を強調する可能性があることを示している。

Using a taxonomy to organize information requires classifying objects (documents, images, etc) with appropriate taxonomic classes. The flexible nature of zero-shot learning is appealing for this task because it allows classifiers to naturally adapt to taxonomy modifications. This work studies zero-shot multi-label document classification with fine-tuned language models under realistic taxonomy expansion scenarios in the human resource domain. Experiments show that zero-shot learning can be highly effective in this setting. When controlling for training data budget, zero-shot classifiers achieve a 12% relative increase in macro-AP when compared to a traditional multi-label classifier trained on all classes. Counterintuitively, these results suggest in some settings it would be preferable to adopt zero-shot techniques and spend resources annotating more documents with an incomplete set of classes, rather than spreading the labeling budget uniformly over all classes and using traditional classification techniques. Additional experiments demonstrate that adopting the well-known filter/re-rank decomposition from the recommender systems literature can significantly reduce the computational burden of high-performance zero-shot classifiers, empirically resulting in a 98% reduction in computational overhead for only a 2% relative decrease in performance. The evidence presented here demonstrates that zero-shot learning has the potential to significantly increase the flexibility of taxonomies and highlights directions for future research.
翻訳日:2022-10-02 23:58:11 公開日:2022-08-30
# 弱教師付き視聴覚音源定位について

A Closer Look at Weakly-Supervised Audio-Visual Source Localization ( http://arxiv.org/abs/2209.09634v1 )

ライセンス: Link先を確認
Shentong Mo, Pedro Morgado(参考訳) 映像中の視覚的音源の位置を予測することを目的とした,視覚的音源の定位化が課題である。 音響対象の地中アノテーションの収集はコストがかかるため、音声と視覚信号の自然な共起を利用して、近年、バウンディングボックスアノテーションのないデータセットから学習できる弱教師付きローカライズ手法が多数提案されている。 重要な関心にもかかわらず、一般的な評価プロトコルには2つの大きな欠陥がある。 まず、完全に注釈付けされたデータセットを使用して早期停止を実行することで、トレーニングに必要なアノテーションの労力を大幅に増やすことができる。 第二に、現在の評価指標は、常に音源の存在を仮定している。 これはもちろん非現実的な仮定であり、可視的な音源のない(負の)サンプルでモデルのパフォーマンスを捉えるためには、より良いメトリクスが必要である。 これを実現するために,Flickr SoundNet と VGG-Sound Sources という人気ベンチマークの試験セットを拡張し,負のサンプルを含め,ローカライゼーションの精度とリコールのバランスをとる指標を用いて性能を測定する。 新たなプロトコルを用いて,先行手法を広範囲に評価した結果,先行手法の多くは負を識別できず,重大な過剰適合問題(最良結果の早期停止に重きを置く)に苦しむことが判明した。 また,これらの問題に対処する視覚音源定位のための新しい手法を提案する。 特に, 極端に視覚的なドロップアウトと運動量エンコーダの使用により, 提案手法が効果的に適合し, flickr soundnet と vgg-sound の両方で新たな最先端性能を確立することを見出した。 コードと事前学習されたモデルはhttps://github.com/stonemo/slavc.comで入手できる。

Audio-visual source localization is a challenging task that aims to predict the location of visual sound sources in a video. Since collecting ground-truth annotations of sounding objects can be costly, a plethora of weakly-supervised localization methods that can learn from datasets with no bounding-box annotations have been proposed in recent years, by leveraging the natural co-occurrence of audio and visual signals. Despite significant interest, popular evaluation protocols have two major flaws. First, they allow for the use of a fully annotated dataset to perform early stopping, thus significantly increasing the annotation effort required for training. Second, current evaluation metrics assume the presence of sound sources at all times. This is of course an unrealistic assumption, and thus better metrics are necessary to capture the model's performance on (negative) samples with no visible sound sources. To accomplish this, we extend the test set of popular benchmarks, Flickr SoundNet and VGG-Sound Sources, in order to include negative samples, and measure performance using metrics that balance localization accuracy and recall. Using the new protocol, we conducted an extensive evaluation of prior methods, and found that most prior works are not capable of identifying negatives and suffer from significant overfitting problems (rely heavily on early stopping for best results). We also propose a new approach for visual sound source localization that addresses both these problems. In particular, we found that, through extreme visual dropout and the use of momentum encoders, the proposed approach combats overfitting effectively, and establishes a new state-of-the-art performance on both Flickr SoundNet and VGG-Sound Source. Code and pre-trained models are available at https://github.com/stoneMo/SLAVC.
翻訳日:2022-09-25 17:48:56 公開日:2022-08-30
# タンパク質ポケットの配位分子:構造化医薬品設計のためのトランスフォーマーベース生成ソリューション

Tailoring Molecules for Protein Pockets: a Transformer-based Generative Solution for Structured-based Drug Design ( http://arxiv.org/abs/2209.06158v1 )

ライセンス: Link先を確認
Kehan Wu, Yingce Xia, Yang Fan, Pan Deng, Haiguang Liu, Lijun Wu, Shufang Xie, Tong Wang, Tao Qin and Tie-Yan Liu(参考訳) 構造に基づく薬物設計は、コンピュータによる創薬において注目を集めている。 予め定義された化合物のライブラリーを計算的にスクリーニングする仮想スクリーニングアプローチと比較して、ターゲットタンパク質の構造に基づくデ・ノボの薬物設計は、新しい薬物候補を提供することができる。 本稿では,TamGent (Target-aware molecule generator with Transformer) という生成ソリューションを提案する。 Transformerフレームワーク(ディープラーニングの最先端フレームワーク)に続き、Transformerエンコーダの変種を設計し、ターゲットの幾何学的情報を3Dで処理し、PubChemから1000万の化合物にトランスフォーマーデコーダを事前訓練する。 薬物バンクから標的に生成する候補化合物の体系的な評価は、結合親和性と薬物耐性が共に大きく改善されていることを示している。 TamGentは、有効性と効率の両面で、以前のベースラインを上回っている。 この方法は、SARS-CoV-2主プロテアーゼおよび癌原性変異KRAS G12Cの候補化合物を生成することによってさらに検証される。 以上の結果から, 従来確認されていた薬剤分子を再発見するだけでなく, ドッキングスコアの高い新規分子を産生し, 化合物プールを拡大し, 新規薬物の発見に繋がる可能性が示唆された。

Structure-based drug design is drawing growing attentions in computer-aided drug discovery. Compared with the virtual screening approach where a pre-defined library of compounds are computationally screened, de novo drug design based on the structure of a target protein can provide novel drug candidates. In this paper, we present a generative solution named TamGent (Target-aware molecule generator with Transformer) that can directly generate candidate drugs from scratch for a given target, overcoming the limits imposed by existing compound libraries. Following the Transformer framework (a state-of-the-art framework in deep learning), we design a variant of Transformer encoder to process 3D geometric information of targets and pre-train the Transformer decoder on 10 million compounds from PubChem for candidate drug generation. Systematical evaluation on candidate compounds generated for targets from DrugBank shows that both binding affinity and drugability are largely improved. TamGent outperforms previous baselines in terms of both effectiveness and efficiency. The method is further verified by generating candidate compounds for the SARS-CoV-2 main protease and the oncogenic mutant KRAS G12C. The results show that our method not only re-discovers previously verified drug molecules , but also generates novel molecules with better docking scores, expanding the compound pool and potentially leading to the discovery of novel drugs.
翻訳日:2022-09-18 16:52:52 公開日:2022-08-30
# 図形上の人物図からのインプシット3次元表現の推測

Inferring Implicit 3D Representations from Human Figures on Pictorial Maps ( http://arxiv.org/abs/2209.02385v1 )

ライセンス: Link先を確認
Raimund Schn\"urer, A. Cengiz \"Oztireli, Magnus Heitzler, Ren\'e Sieber, Lorenz Hurni(参考訳) 本研究では,画像地図上で最も頻繁に現れる人物である人物を3次元化するための自動ワークフローを提案する。 我々のワークフローは、訓練データ(SMPL-X、AGORA)とニューラルネットワークに基づいて、写真から実際の人間の1次元再構築を行う。 まず,完全連結層からなるネットワークに2次元ポーズ点の深さ座標を推定させる。 得られた3Dポーズポイントは、本体部の2Dマスクと共に深暗面ネットワークに入力され、3D符号距離場(SDF)を推定する。 すべての身体部位を組み立てることで、全体像の2次元深度画像と身体部分マスクを導出し、それを完全な畳み込みネットワークに入力して紫外線画像を予測する。 これらの紫外線画像と所定の視点のテクスチャを生成ネットワークに挿入し、他のビューのテクスチャをインペイントする。 そして、生成されたテクスチャを、レイマーチ装置内の推定体部に割り当てる。 我々は、複数のネットワーク構成を検証した後、12人の人物でワークフローをテストする。 特にsilhouetteベースの3dリカバリと暗黙のsdfsのリアルタイムレンダリングの課題を考慮すると、生成された3dモデルは一般的に有望である。 また、体部間の隙間を小さくし、テクスチャに絵の細部を加えるため、さらなる改善が必要となる。 全体として、構築された図形はデジタル3Dマップのアニメーションやストーリーテリングに使用することができる。

In this work, we present an automated workflow to bring human figures, one of the most frequently appearing entities on pictorial maps, to the third dimension. Our workflow is based on training data (i.e., SMPL-X, AGORA) and neural networks for single-view 3D reconstruction of real humans from photos. We first let a network consisting of fully connected layers estimate the depth coordinate of 2D pose points. The gained 3D pose points are inputted together with 2D masks of body parts into a deep implicit surface network to infer 3D signed distance fields (SDFs). By assembling all body parts, we derive 2D depth images and body part masks of the whole figure for different views, which are fed into a fully convolutional network to predict UV images. These UV images and the texture for the given perspective are inserted into a generative network to inpaint the textures for the other views. Finally, the generated textures are assigned to the inferred body parts in a ray marcher. We test our workflow with 12 pictorial human figures after having validated several network configurations. The created 3D models look generally promising, especially when considering the challenges of silhouette-based 3D recovery and real-time rendering of the implicit SDFs. Further improvement is needed to reduce gaps between the body parts and to add pictorial details to the textures. Overall, the constructed figures may be used for animation and storytelling in digital 3D maps.
翻訳日:2022-09-11 13:10:42 公開日:2022-08-30
# 脳-コンピューターインタフェースによる感情検出における運転課題の影響分析

Analyzing the impact of Driving tasks when detecting emotions through Brain-Computer Interfaces ( http://arxiv.org/abs/2209.00993v1 )

ライセンス: Link先を確認
Mario Quiles P\'erez, Enrique Tom\'as Mart\'inez Beltr\'an, Sergio L\'opez Bernal, Alberto Huertas Celdr\'an, Gregorio Mart\'inez P\'erez(参考訳) 交通事故は若者の主要な死因であり、今日では非常に多くの犠牲者が犠牲になっている。 事故を防ぐためにいくつかの技術が提案されており、bcis(brain-computer interface)が最も有望な技術である。 この文脈では、bcisは感情状態、集中力の問題、ストレスの多い状況を検出するのに使われており、ドライバーの決定に直接関係しているため、道路の基本的な役割を担っている。 しかし、bcisを運転シナリオにおける被験者の感情検出に適用した広範な文献はない。 このような状況では、解決すべき課題がいくつかあります。 (i)運転課題が感情検出に与える影響 (ii)運転シナリオにおいて、どの感情がより検出可能か。 これらの課題を改善するために,脳波と機械学習,深層学習アルゴリズムを用いて感情を検出するフレームワークを提案する。 さらに2つのシナリオが提示されるユースケースも設計されている。 第一のシナリオは音を第一のタスクとして聞くこと、第二のシナリオでは音を聞くことは第二のタスクとなり、運転シミュレータを使う第一のタスクとなる。 このようにして、この駆動シナリオでBCIが有用かどうかを示すことが意図されている。 その結果,2つの感情(非刺激,怒り,怒り)の検出には99%,3つの感情(非刺激,怒り,中立)には93%,4つの感情(非刺激,怒り,中立,喜び)には75%の精度が得られた。

Traffic accidents are the leading cause of death among young people, a problem that today costs an enormous number of victims. Several technologies have been proposed to prevent accidents, being Brain-Computer Interfaces (BCIs) one of the most promising. In this context, BCIs have been used to detect emotional states, concentration issues, or stressful situations, which could play a fundamental role in the road since they are directly related to the drivers' decisions. However, there is no extensive literature applying BCIs to detect subjects' emotions in driving scenarios. In such a context, there are some challenges to be solved, such as (i) the impact of performing a driving task on the emotion detection and (ii) which emotions are more detectable in driving scenarios. To improve these challenges, this work proposes a framework focused on detecting emotions using electroencephalography with machine learning and deep learning algorithms. In addition, a use case has been designed where two scenarios are presented. The first scenario consists in listening to sounds as the primary task to perform, while in the second scenario listening to sound becomes a secondary task, being the primary task using a driving simulator. In this way, it is intended to demonstrate whether BCIs are useful in this driving scenario. The results improve those existing in the literature , achieving 99% accuracy for the detection of two emotions (non-stimuli and angry), 93% for three emotions (non-stimuli, angry and neutral) and 75% for four emotions (non-stimuli, angry, neutral and joy).
翻訳日:2022-09-11 13:09:16 公開日:2022-08-30
# 画像分類器のロバスト性と不変性

Robustness and invariance properties of image classifiers ( http://arxiv.org/abs/2209.02408v1 )

ライセンス: Link先を確認
Apostolos Modas(参考訳) ディープニューラルネットワークは多くの画像分類タスクで印象的な結果を得た。 しかしながら、その性能は通常、制御された設定で測定されるため、ノイズの多い環境でのデプロイ時に、その決定が正しいことを保証することが重要である。 実際、ディープネットワークは、逆摂動として知られる知覚不能な画像変化でさえも、多種多様な意味保存画像修正に頑健ではない。 画像分類器の小さなデータ分散シフトに対する堅牢性の低さは、その信頼性に関する深刻な懸念を引き起こす。 信頼性の高い機械学習モデルを構築するためには、ロバスト性や不変性を形作るメカニズムを解析し理解するための原則的手法を設計する必要がある。 これはまさにこの論文の焦点です。 まず,スパース対向摂動の計算問題について検討する。 画像分類器の判断境界の形状を,スパース摂動を非常に高速に計算するために活用し,逆例と画像分類器が学習するデータ特徴の質的関係を明らかにする。 そして,この関係をよりよく理解するために,データサンプルから決定境界までの距離と,データに存在する特徴とを接続する幾何学的枠組みを提案する。 深層分類器は非識別的特徴に対する不変性に対して強い帰納的バイアスを有しており、敵の訓練はこの特性を利用して頑健性を示す。 最後に,データの非予期的腐敗に対する一般化の課題に着目し,画像の共通汚損に対する最先端の堅牢性を実現するための新しいデータ拡張手法を提案する。 全体として,深層画像分類器の基本機構の理解に寄与し,実環境にデプロイ可能な,より信頼性の高い機械学習システム構築への道を開く。

Deep neural networks have achieved impressive results in many image classification tasks. However, since their performance is usually measured in controlled settings, it is important to ensure that their decisions remain correct when deployed in noisy environments. In fact, deep networks are not robust to a large variety of semantic-preserving image modifications, even to imperceptible image changes known as adversarial perturbations. The poor robustness of image classifiers to small data distribution shifts raises serious concerns regarding their trustworthiness. To build reliable machine learning models, we must design principled methods to analyze and understand the mechanisms that shape robustness and invariance. This is exactly the focus of this thesis. First, we study the problem of computing sparse adversarial perturbations. We exploit the geometry of the decision boundaries of image classifiers for computing sparse perturbations very fast, and reveal a qualitative connection between adversarial examples and the data features that image classifiers learn. Then, to better understand this connection, we propose a geometric framework that connects the distance of data samples to the decision boundary, with the features existing in the data. We show that deep classifiers have a strong inductive bias towards invariance to non-discriminative features, and that adversarial training exploits this property to confer robustness. Finally, we focus on the challenging problem of generalization to unforeseen corruptions of the data, and we propose a novel data augmentation scheme for achieving state-of-the-art robustness to common corruptions of the images. Overall, our results contribute to the understanding of the fundamental mechanisms of deep image classifiers, and pave the way for building more reliable machine learning systems that can be deployed in real-world environments.
翻訳日:2022-09-11 13:04:44 公開日:2022-08-30
# 選好分離設定における代表的ソートモデルの選択--既存手順, 新規提案, および実験的比較の検討

Selection of a representative sorting model in a preference disaggregation setting: a review of existing procedures, new proposals, and experimental comparison ( http://arxiv.org/abs/2209.02410v1 )

ライセンス: Link先を確認
Micha{\l} W\'ojcik, Mi{\l}osz Kadzi\'nski, Krzysztof Ciomek(参考訳) 我々は,複数の基準分類の文脈において,選好分離を考える。 クラスを分離する値関数パラメータとしきい値は、意思決定者(dm)の割り当て例から推測される。 間接選好に適合するソートモデルの多重性を考えると、1つの代表モデルを選択することは異なる。 この目的のためにいくつかの手順をレビューし、最も差別的、平均的、中央的、善意的、攻撃的、調停的、強固なモデルを特定することを目的としている。 また,ロバストな代入規則を実践する3つの新しい手順を提案する。 彼らは確率的受容性を活用し、すべての可能なソートモデルによる結果の割り当てに対するサポートを最大化する。 16の手順のパフォーマンスは、複雑さの異なる問題インスタンス上で検証される。 実験の結果,分類精度の面では最も効率的な手法であり,DMのモデルを再現し,最もロバストな課題を達成できた。 これらには、実現可能なポリヘドロンの異なる解釈中心を同定するアプローチと、本論文で導入されたロバストな手法が含まれる。 さらに,すべての手続きの性能がクラス数,基準,特徴点,参照代入によってどのように影響を受けるかについて議論する。 最後に、ヨーロッパの都市におけるグリーンパフォーマンスの評価に関する研究において、すべてのアプローチの利用について述べる。

We consider preference disaggregation in the context of multiple criteria sorting. The value function parameters and thresholds separating the classes are inferred from the Decision Maker's (DM's) assignment examples. Given the multiplicity of sorting models compatible with indirect preferences, selecting a single, representative one can be conducted differently. We review several procedures for this purpose, aiming to identify the most discriminant, average, central, benevolent, aggressive, parsimonious, or robust models. Also, we present three novel procedures that implement the robust assignment rule in practice. They exploit stochastic acceptabilities and maximize the support given to the resulting assignments by all feasible sorting models. The performance of sixteen procedures is verified on problem instances with different complexities. The results of an experimental study indicate the most efficient procedure in terms of classification accuracy, reproducing the DM's model, and delivering the most robust assignments. These include approaches identifying differently interpreted centers of the feasible polyhedron and robust methods introduced in this paper. Moreover, we discuss how the performance of all procedures is affected by different numbers of classes, criteria, characteristic points, and reference assignments. Finally, we illustrate the use of all approaches in a study concerning the assessment of the green performance of European cities.
翻訳日:2022-09-11 13:04:17 公開日:2022-08-30
# MiDAS IoTセンサを用いた非侵入パワーセンシングによる使用状態同定のためのデータセットとベースラインアプローチ

A Dataset and Baseline Approach for Identifying Usage States from Non-Intrusive Power Sensing With MiDAS IoT-based Sensors ( http://arxiv.org/abs/2209.00987v1 )

ライセンス: Link先を確認
Bharath Muppasani, Cheyyur Jaya Anand, Chinmayi Appajigowda, Biplav Srivastava, Lokesh Johri(参考訳) 状態識別問題は、建物や工場など、あらゆるシステムの電力使用パターンの特定を目的としている。 本稿では,米国とインドの製造業,教育,医療機関の8つの機関から電力利用データセットを入手し,コミュニティがこの分野の研究を加速するための基盤として,教師なしの機械学習ベースのソリューションを提供する。

The state identification problem seeks to identify power usage patterns of any system, like buildings or factories, of interest. In this challenge paper, we make power usage dataset available from 8 institutions in manufacturing, education and medical institutions from the US and India, and an initial un-supervised machine learning based solution as a baseline for the community to accelerate research in this area.
翻訳日:2022-09-11 13:03:18 公開日:2022-08-30
# クリックスルーレート予測のためのフェデレーション学習におけるモデル更新集約のためのオンラインメタラーニング

Online Meta-Learning for Model Update Aggregation in Federated Learning for Click-Through Rate Prediction ( http://arxiv.org/abs/2209.00629v1 )

ライセンス: Link先を確認
Xianghang Liu, Bart{\l}omiej Twardowski, Tri Kurniawan Wijaya(参考訳) クリックスルー率(CTR)予測のフェデレート学習(FL)では、ユーザのデータはプライバシ保護のために共有されない。 学習は、クライアントデバイス上でローカルにトレーニングし、モデル変更のみをサーバに通信することで行われる。 主な課題は2つあります (一)クライアントの不均一性、重み付け平均法を用いてクライアントからのモデル更新を集約するflアルゴリズムは、進捗が遅く、学習結果が不十分である。 (ii)各実験に必要な計算時間とリソースが大きいため、試行錯誤方法論によるサーバ学習率の調整が困難である。 これらの課題に対処するために、モデル更新を集約する戦略を学ぶための簡単なオンラインメタラーニング手法を提案し、それらの属性に基づいてクライアントの重要性を適応的に重み付け、更新のステップサイズを調整する。 公開データセットについて広範な評価を行う。 本手法は, 収束速度と最終学習結果の品質の両方において, 最先端の手法を著しく上回っている。

In Federated Learning (FL) of click-through rate (CTR) prediction, users' data is not shared for privacy protection. The learning is performed by training locally on client devices and communicating only model changes to the server. There are two main challenges: (i) the client heterogeneity, making FL algorithms that use the weighted averaging to aggregate model updates from the clients have slow progress and unsatisfactory learning results; and (ii) the difficulty of tuning the server learning rate with trial-and-error methodology due to the big computation time and resources needed for each experiment. To address these challenges, we propose a simple online meta-learning method to learn a strategy of aggregating the model updates, which adaptively weighs the importance of the clients based on their attributes and adjust the step sizes of the update. We perform extensive evaluations on public datasets. Our method significantly outperforms the state-of-the-art in both the speed of convergence and the quality of the final learning results.
翻訳日:2022-09-02 13:38:07 公開日:2022-08-30
# 深層学習から見たアライメント問題

The alignment problem from a deep learning perspective ( http://arxiv.org/abs/2209.00626v1 )

ライセンス: Link先を確認
Richard Ngo(参考訳) 今後数十年のうちに、人工知能(agi)は、幅広い重要なタスクで人間の能力を超える可能性がある。 この報告書は、それを防ぐための実質的な行動がなければ、AIが人間の視点から非常に望ましくない(言い換えれば、不一致)目標を追求し、破滅的な結果をもたらす可能性がある理由を論じている。 報告書は、簡潔で具体的で技術的に根拠のある方法で、アライメントの問題に対する懸念を動機付ける重要な議論をカバーすることを目的としている。 特に、強化学習によってトレーニングされたニューラルネットワークは、さまざまな目標を達成するための計画を学ぶだろうし、誤った調整された目標を欺いて追求することでより多くの報酬を得るだろうし、従順性を損なう方法で一般化するからである。 Cotra(2022年)の以前のレポートのように、私の主張は、実証的なAGIトレーニングプロセスに関連して説明し、問題のさまざまな側面に対処するための研究の方向性を概説します。

Within the coming decades, artificial general intelligence (AGI) may surpass human capabilities at a wide range of important tasks. This report makes a case for why, without substantial action to prevent it, AGIs will likely use their intelligence to pursue goals which are very undesirable (in other words, misaligned) from a human perspective, with potentially catastrophic consequences. The report aims to cover the key arguments motivating concern about the alignment problem in a way that's as succinct, concrete and technically-grounded as possible. I argue that realistic training processes plausibly lead to the development of misaligned goals in AGIs, in particular because neural networks trained via reinforcement learning will learn to plan towards achieving a range of goals; gain more reward by deceptively pursuing misaligned goals; and generalize in ways which undermine obedience. As in an earlier report from Cotra (2022), I explain my claims with reference to an illustrative AGI training process, then outline possible research directions for addressing different aspects of the problem.
翻訳日:2022-09-02 13:34:02 公開日:2022-08-30
# SwiftPruner: 効率的な広告関連のための進化的プルーニング強化

SwiftPruner: Reinforced Evolutionary Pruning for Efficient Ad Relevance ( http://arxiv.org/abs/2209.00625v1 )

ライセンス: Link先を確認
Li Lyna Zhang, Youkow Homma, Yujing Wang, Min Wu, Mao Yang, Ruofei Zhang, Ting Cao, Wei Shen(参考訳) 広告関連モデリングは、Microsoft Bingを含むオンライン広告システムにおいて重要な役割を果たす。 この低レイテンシ設定でBERTのような強力なトランスフォーマーを活用するために、既存の多くのアプローチはアドサイドの計算をオフラインで行う。 効率的ではあるが、これらのアプローチはコールドスタート広告を提供することができない。 この研究はcpuプラットフォームにおけるコールドスタート広告のリアルタイムなオンライン推論を可能にするため、構造化プルーニングによる新しい低遅延bertの設計を目指している。 我々の課題は、従来の方法ではトランスフォーマーの全ての層を高い均一なスパース性にプルーピングすることで、許容可能な精度で十分な推論速度を達成できないモデルを生成することが一般的である。 本稿では,swiftprunerを提案する。swiftprunerは進化ベースの検索を利用して,待ち時間制約下で最もパフォーマンスのよいレイヤ間スパースbertモデルを自動的に見つける効率的なフレームワークである。 ランダムな突然変異を行う既存の進化アルゴリズムと異なり、レイヤーワイズスパースモデルの大きな空間を効率的に探索するためのより良い突然変異を行うために、レイテンシを検知する多目的報酬を持つ強化ミュータレータを提案する。 大規模な実験により,本手法は一様スパースベースラインや最先端探索法よりも高いROC AUCと低レイテンシを実現することが示された。 注目すべきは、CPU上の1900usのレイテンシ要件の下で、SwiftPrunerは、大規模な実世界のデータセット上でのBERT-Miniの均一なスパースベースラインよりも0.86%高いAUCを達成したことです。 オンラインA/Bテストによると、当社のモデルは、欠陥のあるコールドスタート広告と十分なリアルタイムサービスレイテンシの比率で11.7%の削減を実現している。

Ad relevance modeling plays a critical role in online advertising systems including Microsoft Bing. To leverage powerful transformers like BERT in this low-latency setting, many existing approaches perform ad-side computations offline. While efficient, these approaches are unable to serve cold start ads, resulting in poor relevance predictions for such ads. This work aims to design a new, low-latency BERT via structured pruning to empower real-time online inference for cold start ads relevance on a CPU platform. Our challenge is that previous methods typically prune all layers of the transformer to a high, uniform sparsity, thereby producing models which cannot achieve satisfactory inference speed with an acceptable accuracy. In this paper, we propose SwiftPruner - an efficient framework that leverages evolution-based search to automatically find the best-performing layer-wise sparse BERT model under the desired latency constraint. Different from existing evolution algorithms that conduct random mutations, we propose a reinforced mutator with a latency-aware multi-objective reward to conduct better mutations for efficiently searching the large space of layer-wise sparse models. Extensive experiments demonstrate that our method consistently achieves higher ROC AUC and lower latency than the uniform sparse baseline and state-of-the-art search methods. Remarkably, under our latency requirement of 1900us on CPU, SwiftPruner achieves a 0.86% higher AUC than the state-of-the-art uniform sparse baseline for BERT-Mini on a large scale real-world dataset. Online A/B testing shows that our model also achieves a significant 11.7% cut in the ratio of defective cold start ads with satisfactory real-time serving latency.
翻訳日:2022-09-02 13:27:40 公開日:2022-08-30
# 関数データの埋め込み:多次元スケーリングとマニフォールド学習

Embedding Functional Data: Multidimensional Scaling and Manifold Learning ( http://arxiv.org/abs/2208.14540v1 )

ライセンス: Link先を確認
Ery Arias-Castro, Wanli Qiao(参考訳) 我々は,多変量データの多次元スケールと次元縮小の領域で開発された概念,方法論,理論を機能設定に適用する。 我々は,この領域で重要な役割を担ってきた古典的スケーリングとisomap (prototypical method) に注目し,機能的データ分析の文脈での使用例を示す。 プロセスでは、環境メトリクスが果たす重要な役割を強調します。

We adapt concepts, methodology, and theory originally developed in the areas of multidimensional scaling and dimensionality reduction for multivariate data to the functional setting. We focus on classical scaling and Isomap -- prototypical methods that have played important roles in these area -- and showcase their use in the context of functional data analysis. In the process, we highlight the crucial role that the ambient metric plays.
翻訳日:2022-09-01 13:57:38 公開日:2022-08-30
# 健康モニタリングとリコンフィグレーションによるシステムレジリエンス

System Resilience through Health Monitoring and Reconfiguration ( http://arxiv.org/abs/2208.14525v1 )

ライセンス: Link先を確認
Ion Matei, Wiktor Piotrowski, Alexandre Perez, Johan de Kleer, Jorge Tierno, Wendy Mungovan and Vance Turnewitsch(参考訳) 人造システムのレジリエンスを改善するためのエンドツーエンドのフレームワークを実証する。 このフレームワークは物理ベースのデジタルツインモデルと,リアルタイム故障診断,予後,再構成を行う3つのモジュールに基づいている。 障害診断モジュールは、モデルベースの診断アルゴリズムを使用して障害の検出と分離を行い、不確定な診断ソリューションを曖昧にするためのシステムへの介入を生成する。 本研究では,物理に基づくディジタルツインの並列化モデルと代理モデルを用いて,故障診断アルゴリズムをリアルタイム性能にスケールアップする。 prognosticsモジュールは障害の進行を追跡し、オンラインの劣化モデルを訓練し、システムコンポーネントの有用な寿命を計算する。 さらに, 劣化モデルを用いて, 故障進行が運用要求に与える影響を評価する。 リコンフィグレーションモジュールは、セマンティックアタッチメントを備えたPDDLベースのプランニングを使用して、システム操作に対する障害の影響を最小限に抑えるようにシステム制御を調整する。 レジリエンスメトリックを定義し、燃料システムモデルの例を使って、フレームワークでメトリクスがどのように改善されているかを示します。

We demonstrate an end-to-end framework to improve the resilience of man-made systems to unforeseen events. The framework is based on a physics-based digital twin model and three modules tasked with real-time fault diagnosis, prognostics and reconfiguration. The fault diagnosis module uses model-based diagnosis algorithms to detect and isolate faults and generates interventions in the system to disambiguate uncertain diagnosis solutions. We scale up the fault diagnosis algorithm to the required real-time performance through the use of parallelization and surrogate models of the physics-based digital twin. The prognostics module tracks the fault progressions and trains the online degradation models to compute remaining useful life of system components. In addition, we use the degradation models to assess the impact of the fault progression on the operational requirements. The reconfiguration module uses PDDL-based planning endowed with semantic attachments to adjust the system controls so that the fault impact on the system operation is minimized. We define a resilience metric and use the example of a fuel system model to demonstrate how the metric improves with our framework.
翻訳日:2022-09-01 13:53:51 公開日:2022-08-30
# LINKS:データ駆動キネマティックデザインのための1億の平面リンク機構のデータセット

LINKS: A dataset of a hundred million planar linkage mechanisms for data-driven kinematic design ( http://arxiv.org/abs/2208.14567v1 )

ライセンス: Link先を確認
Amin Heyrani Nobari, Akash Srivastava, Dan Gutfreund, Faez Ahmed(参考訳) 本稿では,1億の1次自由平面結合機構と111億のカプラ曲線のデータセットであるlinksを紹介する。これは,既存の平面機構のデータベースの1000倍以上の大きさで,一般的なデータベースに含まれる4つのバー,6つのバー,\etcといった特定のメカニズムに限定されない。 リンクは、1億のメカニズム、各メカニズムのシミュレーションデータ、各メカニズムによって生成される正規化されたパス、キュレーションされたパス、データを生成してメカニズムをシミュレートするコード、リンク機構をインタラクティブに設計するためのライブwebデモなど、さまざまなコンポーネントで構成されている。 キュレートされた経路は、より設計空間の表現を可能にするメカニズムによって生成された経路のバイアスを取り除く尺度として提供される。 本稿では,このような大規模データセットを生成する方法の詳細と,そのようなスケールで大きな問題を克服する方法について述べる。 このような大きなデータセットを生成するために,1-DOF機構トポロジを生成するための新しい演算子を導入し,さらにシミュレーションをベクトル化し,シミュレータを多数のスレッドで並列化することで機構の遅いシミュレーションを高速化し,単純なシミュレーションアルゴリズムよりも800倍高速なシミュレーションを実現する。 これは、平均して500の候補のうち1つが有効である(そして全員が妥当性を決定するためにシミュレートされなければならない)ため、このデータセットの生成には数十億のシミュレーションが実行されなければならない。 次に、双方向のチャンファー距離に基づく形状検索研究を通して、データセットの深さを実証し、データセットを直接使用して、望ましい目標経路に非常に近い経路を辿るメカニズムを見つける方法を示す。

In this paper, we introduce LINKS, a dataset of 100 million one degree of freedom planar linkage mechanisms and 1.1 billion coupler curves, which is more than 1000 times larger than any existing database of planar mechanisms and is not limited to specific kinds of mechanisms such as four-bars, six-bars, \etc which are typically what most databases include. LINKS is made up of various components including 100 million mechanisms, the simulation data for each mechanism, normalized paths generated by each mechanism, a curated set of paths, the code used to generate the data and simulate mechanisms, and a live web demo for interactive design of linkage mechanisms. The curated paths are provided as a measure for removing biases in the paths generated by mechanisms that enable a more even design space representation. In this paper, we discuss the details of how we can generate such a large dataset and how we can overcome major issues with such scales. To be able to generate such a large dataset we introduce a new operator to generate 1-DOF mechanism topologies, furthermore, we take many steps to speed up slow simulations of mechanisms by vectorizing our simulations and parallelizing our simulator on a large number of threads, which leads to a simulation 800 times faster than the simple simulation algorithm. This is necessary given on average, 1 out of 500 candidates that are generated are valid~(and all must be simulated to determine their validity), which means billions of simulations must be performed for the generation of this dataset. Then we demonstrate the depth of our dataset through a bi-directional chamfer distance-based shape retrieval study where we show how our dataset can be used directly to find mechanisms that can trace paths very close to desired target paths.
翻訳日:2022-09-01 13:53:15 公開日:2022-08-30
# 多発性硬化症におけるGANを許容する判別器を用いた誘導注意モジュールを用いた病変予測

Lesion-Specific Prediction with Discriminator-Based Supervised Guided Attention Module Enabled GANs in Multiple Sclerosis ( http://arxiv.org/abs/2208.14533v1 )

ライセンス: Link先を確認
Jueqi Wang, Derek Berger, Erin Mazerolle, Jean-Alexis Delamer and Jacob Levman(参考訳) 多発性硬化症(multiple sclerosis, ms)は、脳の白質病変の発生を特徴とする慢性神経疾患である。 T2-fluid attenuated inversion recovery (FLAIR) 脳磁気共鳴画像(MRI)は、他のMRI法と比較して、MS病変のより優れた可視化とキャラクタリゼーションを提供する。 フォローアップ脳のFLAIR MRIは、臨床医が疾患の進行を監視するのに役立つ情報を提供する。 本研究では,一定の時間間隔でmsの病変特異的フレイアmriを予測するために,gans(generative adversarial network)の修正を提案する。 判別器に教師付き注意と拡張畳み込みを用い, 病変領域への注意に基づいて生成画像が本物かどうかの予測を支援するとともに, ジェネレータを改良し, 将来の検査の病変面積をより正確に予測する可能性を秘めている。 提案手法をいくつかのベースラインと1つの最先端CF-SAGANモデルと比較した。 以上の結果から,本手法は病変領域における予測誤差の標準偏差を,他のモデルと比較し,精度が高く,精度も高いことが示唆された。

Multiple Sclerosis (MS) is a chronic neurological condition characterized by the development of lesions in the white matter of the brain. T2-fluid attenuated inversion recovery (FLAIR) brain magnetic resonance imaging (MRI) provides superior visualization and characterization of MS lesions, relative to other MRI modalities. Follow-up brain FLAIR MRI in MS provides helpful information for clinicians towards monitoring disease progression. In this study, we propose a novel modification to generative adversarial networks (GANs) to predict future lesion-specific FLAIR MRI for MS at fixed time intervals. We use supervised guided attention and dilated convolutions in the discriminator, which supports making an informed prediction of whether the generated images are real or not based on attention to the lesion area, which in turn has potential to help improve the generator to predict the lesion area of future examinations more accurately. We compared our method to several baselines and one state-of-art CF-SAGAN model [1]. In conclusion, our results indicate that the proposed method achieves higher accuracy and reduces the standard deviation of the prediction errors in the lesion area compared with other models with similar overall performance.
翻訳日:2022-09-01 13:47:22 公開日:2022-08-30
# 軽量な差別化可能なアーキテクチャで、リソースに制約のある組み込みプラットフォームを検索する

You Only Search Once: On Lightweight Differentiable Architecture Search for Resource-Constrained Embedded Platforms ( http://arxiv.org/abs/2208.14446v1 )

ライセンス: Link先を確認
Xiangzhong Luo, Di Liu, Hao Kong, Shuo Huai, Hui Chen, Weichen Liu(参考訳) 探索効率から得られる差別化可能なニューラルアーキテクチャサーチ(NAS)は、競合するディープニューラルネットワーク(DNN)を自動設計する最も有力な代替手段として進化してきた。 DNNは、例えば自動運転車のランタイムレイテンシなど、現実世界のシナリオにおいて厳格なパフォーマンス制約の下で実行されなければならない。 しかし、与えられた性能制約を満たすアーキテクチャを得るためには、従来のハードウェア・アウェアな差別化可能なnasメソッドは、試行錯誤によってハイパーパラメータを手動でチューニングするために大量の検索を繰り返す必要があり、設計コストは比例的に増加する。 これを解決するために、LightNASと呼ばれる軽量ハードウェア対応の差別化可能なNASフレームワークを導入し、1回検索で様々な性能制約を満たす必要なアーキテクチャを見つけ出そうとする(例: \underline{\textit{you only search once}})。 これまでの最先端手法よりもlightnasが優れていることを示すために,広範な実験を行った。

Benefiting from the search efficiency, differentiable neural architecture search (NAS) has evolved as the most dominant alternative to automatically design competitive deep neural networks (DNNs). We note that DNNs must be executed under strictly hard performance constraints in real-world scenarios, for example, the runtime latency on autonomous vehicles. However, to obtain the architecture that meets the given performance constraint, previous hardware-aware differentiable NAS methods have to repeat a plethora of search runs to manually tune the hyper-parameters by trial and error, and thus the total design cost increases proportionally. To resolve this, we introduce a lightweight hardware-aware differentiable NAS framework dubbed LightNAS, striving to find the required architecture that satisfies various performance constraints through a one-time search (i.e., \underline{\textit{you only search once}}). Extensive experiments are conducted to show the superiority of LightNAS over previous state-of-the-art methods.
翻訳日:2022-09-01 13:39:54 公開日:2022-08-30
# 低qotマージンのタイムリー修復を誘発するソフトフェイルのモデル化

Modeling Soft-Failure Evolution for Triggering Timely Repair with Low QoT Margins ( http://arxiv.org/abs/2208.14535v1 )

ライセンス: Link先を確認
Sadananda Behera, Tania Panayiotou, Georgios Ellinas(参考訳) 本研究では,エンコーダ・デコーダ学習フレームワークの機能を利用して,長期にわたるソフト障害の進展を予測する。 これにより、コストのかかるハードフェールが発生する前に、qot(quality-of-transmission)マージンの少ないタイムリーな修理アクションのトリガーが可能になり、最終的に修理アクションの頻度と関連する運用コストが削減される。 具体的には, 規則に基づく固定qotマージンを利用したソフトフェイル検出方式とは対照的に, ハードフェイルの期待日数日前に修復動作を起こせること, 早期修復動作(ハードフェイル発生の数ヶ月前)または遅すぎる修理動作(ハードフェイル発生後)を生じさせる可能性があること, などが示されている。 コヒーレント受信機でモニターされたビットエラーレート情報を分析し、ソフトフェイルな進化をモデル化できる弾性光ネットワークで確立された光路について、両フレームワークを評価し比較する。

In this work, the capabilities of an encoder-decoder learning framework are leveraged to predict soft-failure evolution over a long future horizon. This enables the triggering of timely repair actions with low quality-of-transmission (QoT) margins before a costly hard-failure occurs, ultimately reducing the frequency of repair actions and associated operational expenses. Specifically, it is shown that the proposed scheme is capable of triggering a repair action several days prior to the expected day of a hard-failure, contrary to soft-failure detection schemes utilizing rule-based fixed QoT margins, that may lead either to premature repair actions (i.e., several months before the event of a hard-failure) or to repair actions that are taken too late (i.e., after the hard failure has occurred). Both frameworks are evaluated and compared for a lightpath established in an elastic optical network, where soft-failure evolution can be modeled by analyzing bit-error-rate information monitored at the coherent receivers.
翻訳日:2022-09-01 13:39:34 公開日:2022-08-30
# QuantTree を用いた多変量データストリームの非パラメトリックおよびオンライン変化検出

Nonparametric and Online Change Detection in Multivariate Datastreams using QuantTree ( http://arxiv.org/abs/2208.14801v1 )

ライセンス: Link先を確認
Luca Frittoli, Diego Carrera, Giacomo Boracchi(参考訳) 多変量データストリームにおけるオンライン変更検出の問題に対処し、偽アラーム前の期待時間を制御する非パラメトリックな変更検出アルゴリズムであるQuantTree Exponentially Weighted moving Average (QT-EWMA)を導入し、所望の平均実行長(ARL$_0$)を出力する。 偽アラームの制御は多くのアプリケーションで重要であり、データ分散を知ることなく多変量データストリームを監視するオンライン変更検出アルゴリズムによって保証されることは滅多にない。 多くの変化検出アルゴリズムと同様に、QT-EWMAは静止トレーニングセットからQuantTreeヒストグラムを用いてデータ分布のモデルを構築する。 トレーニングセットが極端に小さい場合でもデータストリームを監視するために,監視中のQuantTreeヒストグラムを漸進的に更新し,常にARL$_0$を制御できるQT-EWMA更新を提案する。 本実験は, 合成および実世界のデータストリーム上で実施され, QT-EWMAとQT-EWMAの更新によるARL$_0$と誤警報率の制御が, 同様の条件下で動作し, 検出遅延が低く, 同等であることを示す。

We address the problem of online change detection in multivariate datastreams, and we introduce QuantTree Exponentially Weighted Moving Average (QT-EWMA), a nonparametric change-detection algorithm that can control the expected time before a false alarm, yielding a desired Average Run Length (ARL$_0$). Controlling false alarms is crucial in many applications and is rarely guaranteed by online change-detection algorithms that can monitor multivariate datastreams without knowing the data distribution. Like many change-detection algorithms, QT-EWMA builds a model of the data distribution, in our case a QuantTree histogram, from a stationary training set. To monitor datastreams even when the training set is extremely small, we propose QT-EWMA-update, which incrementally updates the QuantTree histogram during monitoring, always keeping the ARL$_0$ under control. Our experiments, performed on synthetic and real-world datastreams, demonstrate that QT-EWMA and QT-EWMA-update control the ARL$_0$ and the false alarm rate better than state-of-the-art methods operating in similar conditions, achieving lower or comparable detection delays.
翻訳日:2022-09-01 13:39:14 公開日:2022-08-30
# 重み更新マグニチュードを用いたフェデレーション学習におけるシステム不均一性の低減

Reducing Impacts of System Heterogeneity in Federated Learning using Weight Update Magnitudes ( http://arxiv.org/abs/2208.14808v1 )

ライセンス: Link先を確認
Irene Wang(参考訳) ハンドヘルドデバイスの普及は、新しいアプリケーションの急速な成長を促した。 これらの新しいアプリケーションのいくつかは、通常プライベートでセンシティブなユーザーデータをトレーニングするために機械学習モデルを使用している。 Federated Learningは、機械学習モデルを各ハンドヘルドデバイス上でローカルにトレーニングし、ニューロンのアップデートをサーバと同期させる。 これによりユーザのプライバシが向上する一方で、テクノロジのスケーリングとソフトウェアの進歩により、さまざまなパフォーマンス機能を備えたハンドヘルドデバイスが実現している。 これにより、フェデレーション学習タスクのトレーニング時間は、いくつかの低パフォーマンスストラグラーデバイスによって決定され、基本的にトレーニングプロセス全体のボトルネックとなる。 本研究では,その性能と精度のフィードバックに基づいて,トラグラーのサブモデルを動的に形成することにより,フェデレーション学習の性能ボトルネックを軽減することを目的とする。 この目的のために、ニューロンの更新しきい値に基づいてサブモデルを形成する動的手法であるinvariant dropoutを提案する。 invariant dropoutは、非ストラグラークライアントからのニューロン更新を使用して、トレーニングイテレーション毎に各ストラグラー用にカスタマイズされたサブモデルを開発する。 イテレーションのために、しきい値よりも桁違いに小さい対応する重みを全て落とします。 5つの実世界のモバイルクライアントを用いてInvariant Dropoutを評価する。 評価の結果, ストラグラーの性能ボトルネックを軽減しつつ, 最大精度を1.4%向上できることがわかった。

The widespread adoption of handheld devices have fueled rapid growth in new applications. Several of these new applications employ machine learning models to train on user data that is typically private and sensitive. Federated Learning enables machine learning models to train locally on each handheld device while only synchronizing their neuron updates with a server. While this enables user privacy, technology scaling and software advancements have resulted in handheld devices with varying performance capabilities. This results in the training time of federated learning tasks to be dictated by a few low-performance straggler devices, essentially becoming a bottleneck to the entire training process. In this work, we aim to mitigate the performance bottleneck of federated learning by dynamically forming sub-models for stragglers based on their performance and accuracy feedback. To this end, we offer the Invariant Dropout, a dynamic technique that forms a sub-model based on the neuron update threshold. Invariant Dropout uses neuron updates from the non-straggler clients to develop a tailored sub-models for each straggler during each training iteration. All corresponding weights which have a magnitude less than the threshold are dropped for the iteration. We evaluate Invariant Dropout using five real-world mobile clients. Our evaluations show that Invariant Dropout obtains a maximum accuracy gain of 1.4% points over state-of-the-art Ordered Dropout while mitigating performance bottlenecks of stragglers.
翻訳日:2022-09-01 13:38:45 公開日:2022-08-30
# Augraphy: ドキュメントイメージのためのデータ拡張ライブラリ

Augraphy: A Data Augmentation Library for Document Images ( http://arxiv.org/abs/2208.14558v1 )

ライセンス: Link先を確認
Samay Maini, Alexander Groleau, Kok Wei Chee, Stefan Larson, Jonathan Boarman(参考訳) 本稿では,文書画像のリアルなデータ拡張戦略を目的としたPythonパッケージAaugraphyを紹介する。 Augraphyは、多くの異なる拡張戦略を使用して、印刷、スキャン、古いまたは汚い機械によるファックス化、時間の経過とともにインクの劣化、手書きのマーキングなど、標準的なオフィス操作から歪んだように見えるクリーンドキュメントイメージの強化版を作成する。 augraphyは、(1)文書の非ノイズ化などのタスクのための多様なトレーニングデータを生成すること、(2)文書画像モデリングタスクにおけるモデルのロバスト性を評価するための挑戦的なテストデータを生成するためのデータ拡張ツールとして使用できる。 本稿では,augraphyの概要と,augraphyのロバストネステストの例を3つ紹介する。

This paper introduces Augraphy, a Python package geared toward realistic data augmentation strategies for document images. Augraphy uses many different augmentation strategies to produce augmented versions of clean document images that appear as if they have been distorted from standard office operations, such as printing, scanning, and faxing through old or dirty machines, degradation of ink over time, and handwritten markings. Augraphy can be used both as a data augmentation tool for (1) producing diverse training data for tasks such as document de-noising, and (2) generating challenging test data for evaluating model robustness on document image modeling tasks. This paper provides an overview of Augraphy and presents three example robustness testing use-cases of Augraphy.
翻訳日:2022-09-01 13:28:59 公開日:2022-08-30
# MultiCoNER:複雑名前付きエンティティ認識のための大規模多言語データセット

MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity Recognition ( http://arxiv.org/abs/2208.14536v1 )

ライセンス: Link先を確認
Shervin Malmasi, Anjie Fang, Besnik Fetahu, Sudipta Kar, Oleg Rokhlenko(参考訳) 提案するMultiCoNERは,11言語にわたる3つのドメイン(Wiki文,質問,検索クエリ)と,多言語およびコード混合サブセットを対象とする,名前付きエンティティ認識のための大規模多言語データセットである。 このデータセットは、低コンテキストシナリオ(ショートテキストとアンケーステキスト)、映画のタイトルのような構文的に複雑なエンティティ、ロングテールエンティティの分散など、NERの現代的課題を表現するように設計されている。 26Mトークンデータセットは、ヒューリスティックベースの文サンプリング、テンプレート抽出とスロットング、機械翻訳などの技術を使用して、公開リソースからコンパイルされる。 我々は、ベースラインXLM-RoBERTaモデルと、ガゼッタを利用した最先端のGEMNETモデルという2つのNERモデルをデータセットに適用した。 ベースラインは適度なパフォーマンスを達成する(macro-F1=54%)。 ガゼッタを使用するGEMNETは大幅に改善されている(マクロF1=+30%の平均的な改善)。 MultiCoNERは、大規模な事前訓練された言語モデルにおいても課題を提起し、堅牢なNERシステムの構築においてさらなる研究に役立つと信じている。 MultiCoNERはhttps://registry.opendata.aws/multiconer/で公開されています。

We present MultiCoNER, a large multilingual dataset for Named Entity Recognition that covers 3 domains (Wiki sentences, questions, and search queries) across 11 languages, as well as multilingual and code-mixing subsets. This dataset is designed to represent contemporary challenges in NER, including low-context scenarios (short and uncased text), syntactically complex entities like movie titles, and long-tail entity distributions. The 26M token dataset is compiled from public resources using techniques such as heuristic-based sentence sampling, template extraction and slotting, and machine translation. We applied two NER models on our dataset: a baseline XLM-RoBERTa model, and a state-of-the-art GEMNET model that leverages gazetteers. The baseline achieves moderate performance (macro-F1=54%), highlighting the difficulty of our data. GEMNET, which uses gazetteers, improvement significantly (average improvement of macro-F1=+30%). MultiCoNER poses challenges even for large pre-trained language models, and we believe that it can help further research in building robust NER systems. MultiCoNER is publicly available at https://registry.opendata.aws/multiconer/ and we hope that this resource will help advance research in various aspects of NER.
翻訳日:2022-09-01 13:22:56 公開日:2022-08-30
# 適応する、または微調整する:抽象的要約に関するケーススタディ

To Adapt or to Fine-tune: A Case Study on Abstractive Summarization ( http://arxiv.org/abs/2208.14559v1 )

ライセンス: Link先を確認
Zheng Zhao and Pinzhen Chen(参考訳) 抽象要約の分野における最近の進歩は、モデルをスクラッチからトレーニングするのではなく、事前学習された言語モデルを活用する。 しかし、そのようなモデルは訓練が遅く、大きなオーバーヘッドが伴う。 研究者は、欠点を軽減するための小さなアダプタなど、いくつかの軽量な代替案を提案している。 それでも、アダプタの使用が、パフォーマンスの不快な犠牲を伴わずに効率を向上するという点で、要約作業の恩恵を受けるかどうかは不明だ。 本研究では,言語,ドメイン,タスク転送といった複雑さの異なる要約タスクの微調整とアダプタに関する多面的な調査を行う。 私たちの実験では、事前学習された言語モデルの微調整は、一般的にアダプタを使用するよりも優れたパフォーマンスを達成しています。 特に、アダプターは極低リソース条件下で微調整を超える。 さらに,多言語性,モデル収束性,ロバスト性に関する洞察を提供し,抽象要約における微調整やアダプタの実用的選択に光を当てたい。

Recent advances in the field of abstractive summarization leverage pre-trained language models rather than train a model from scratch. However, such models are sluggish to train and accompanied by a massive overhead. Researchers have proposed a few lightweight alternatives such as smaller adapters to mitigate the drawbacks. Nonetheless, it remains uncertain whether using adapters benefits the task of summarization, in terms of improved efficiency without an unpleasant sacrifice in performance. In this work, we carry out multifaceted investigations on fine-tuning and adapters for summarization tasks with varying complexity: language, domain, and task transfer. In our experiments, fine-tuning a pre-trained language model generally attains a better performance than using adapters; the performance gap positively correlates with the amount of training data used. Notably, adapters exceed fine-tuning under extremely low-resource conditions. We further provide insights on multilinguality, model convergence, and robustness, hoping to shed light on the pragmatic choice of fine-tuning or adapters in abstractive summarization.
翻訳日:2022-09-01 13:22:32 公開日:2022-08-30
# Swin-transformer-yolov5によるリアルタイムワイングレープバンチ検出

Swin-transformer-yolov5 For Real-time Wine Grape Bunch Detection ( http://arxiv.org/abs/2208.14508v1 )

ライセンス: Link先を確認
Shenglian Lu (1), Xiaoyu Liu (1), Zixaun He (2), Manoj Karkee (2) and Xin Zhang (3) ((1) Guangxi normal university, China, (2) Washington State University, US, (3) Mississippi State University, US)(参考訳) 本研究では, リアルタイムワイン品種検出において, Swin-transformer-YOLOv5 と Swin-T-YOLOv5 が提案され, YOLOv5 と Swin-transformer の両方の利点を継承した。 この研究は、2019年7月から9月にかけて、シャルドネ(白ベリーの皮)とメルロット(未熟時に白または白赤の混合ベリーの皮)の2種類のブドウ品種について行われた。 Swin-T-YOLOv5の優位性を検証するため、その性能はFaster R-CNN、YOLOv3、YOLOv4、YOLOv5など、一般的に使われている、競合するオブジェクト検出器と比較された。 いずれのモデルも,2つの異なる気象条件(晴れと曇り),2つの異なるベリー成熟段階(未熟と成熟),および3つの異なる日光方向/強度(朝,正午,午後)を総合的に比較した。 さらに,Swin-T-YOLOv5によるブドウの品種数予測は,アノテーション処理中の手動カウントや手動ラベリングなど,真理値と比較した。 その結果、提案されたSwin-T-YOLOv5は、天候が曇ったときに平均精度(mAP)が97%、F1スコアが0.89という他の研究モデルよりも優れていた。 このmAPはFaster R-CNN, YOLOv3, YOLOv4, YOLOv5より約44%, 18%, 14%, 4%高かった。 Swin-T-YOLOv5 は未熟果検出時に最低 mAP (90%) と F1-score (0.82) を達成し, 約40%, 5%, 3%, 1% の値を示した。 さらに、Swin-T-YOLOv5は、予測と地上の真実を比較する際に、R2の最大0.91と2.36の根平均二乗誤差(RMSE)を達成したシャルドネ品種に対してより良い性能を示した。 しかし、Merlotの品種では性能が劣り、R2の0.70とRMSEの3.30しか達成できなかった。

In this research, an integrated detection model, Swin-transformer-YOLOv5 or Swin-T-YOLOv5, was proposed for real-time wine grape bunch detection to inherit the advantages from both YOLOv5 and Swin-transformer. The research was conducted on two different grape varieties of Chardonnay (always white berry skin) and Merlot (white or white-red mix berry skin when immature; red when matured) from July to September in 2019. To verify the superiority of Swin-T-YOLOv5, its performance was compared against several commonly used/competitive object detectors, including Faster R-CNN, YOLOv3, YOLOv4, and YOLOv5. All models were assessed under different test conditions, including two different weather conditions (sunny and cloudy), two different berry maturity stages (immature and mature), and three different sunlight directions/intensities (morning, noon, and afternoon) for a comprehensive comparison. Additionally, the predicted number of grape bunches by Swin-T-YOLOv5 was further compared with ground truth values, including both in-field manual counting and manual labeling during the annotation process. Results showed that the proposed Swin-T-YOLOv5 outperformed all other studied models for grape bunch detection, with up to 97% of mean Average Precision (mAP) and 0.89 of F1-score when the weather was cloudy. This mAP was approximately 44%, 18%, 14%, and 4% greater than Faster R-CNN, YOLOv3, YOLOv4, and YOLOv5, respectively. Swin-T-YOLOv5 achieved its lowest mAP (90%) and F1-score (0.82) when detecting immature berries, where the mAP was approximately 40%, 5%, 3%, and 1% greater than the same. Furthermore, Swin-T-YOLOv5 performed better on Chardonnay variety with achieved up to 0.91 of R2 and 2.36 root mean square error (RMSE) when comparing the predictions with ground truth. However, it underperformed on Merlot variety with achieved only up to 0.70 of R2 and 3.30 of RMSE.
翻訳日:2022-09-01 13:20:42 公開日:2022-08-30
# TCAM: 弱ラベル非拘束ビデオにおける物体定位のための時間的クラス活性化マップ

TCAM: Temporal Class Activation Maps for Object Localization in Weakly-Labeled Unconstrained Videos ( http://arxiv.org/abs/2208.14542v1 )

ライセンス: Link先を確認
Soufiane Belharbi, Ismail Ben Ayed, Luke McCaffrey, Eric Granger(参考訳) 弱い教師付きビデオオブジェクトローカライゼーション(wsvol)は、オブジェクトクラスのようなグローバルビデオタグのみを使用して、ビデオ内のオブジェクトを特定できる。 最先端の手法は複数の独立した段階に依存しており、最初の時空間的提案は視覚と運動の手がかりを使って生成される。 ローカライゼーションは、1つ以上のビデオで最適化問題を解決することで行われ、ビデオタグは一般的にビデオクラスタリングに使用される。 これにより、ビデオごとのモデルやクラスごとのモデルが必要になります。 さらに、光学フローのような教師なしの動作方法や、ビデオタグが最適化から除外されるため、局所化領域は不要である。 本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。 CAM-TMP(Cam-Temporal Max Pooling)と呼ばれるアグリゲーション機構を用いて、ビデオ中の時空間情報を活用するために、識別深層学習(DL)モデルをトレーニングするために、TCAM(Temporal CAM)法が導入された。 特に、事前訓練されたCNN分類器によって生成されたCAMから関心領域(ROI)の活性化を収集し、DLモデルをトレーニングするためのピクセル単位の擬似ラベルを構築する。 さらに、グローバルな教師なしサイズの制約と、CRFのような局所的な制約を使用して、より正確なCAMを生成する。 単一の独立フレーム上の推論は、フレームクリップの並列処理とリアルタイムローカライズを可能にする。 未訓練ビデオのための2つの挑戦的なyoutube-objectsデータセットに関する広範囲な実験は、camメソッド(独立したフレームでトレーニング)が適切なローカライズ精度をもたらすことを示している。 提案手法では,WSVOLの精度が向上し,視覚的物体追跡や検出などのタスクに適応できる可能性が示唆された。 コードは公開されている。

Weakly supervised video object localization (WSVOL) allows locating object in videos using only global video tags such as object class. State-of-art methods rely on multiple independent stages, where initial spatio-temporal proposals are generated using visual and motion cues, then prominent objects are identified and refined. Localization is done by solving an optimization problem over one or more videos, and video tags are typically used for video clustering. This requires a model per-video or per-class making for costly inference. Moreover, localized regions are not necessary discriminant because of unsupervised motion methods like optical flow, or because video tags are discarded from optimization. In this paper, we leverage the successful class activation mapping (CAM) methods, designed for WSOL based on still images. A new Temporal CAM (TCAM) method is introduced to train a discriminant deep learning (DL) model to exploit spatio-temporal information in videos, using an aggregation mechanism, called CAM-Temporal Max Pooling (CAM-TMP), over consecutive CAMs. In particular, activations of regions of interest (ROIs) are collected from CAMs produced by a pretrained CNN classifier to build pixel-wise pseudo-labels for training the DL model. In addition, a global unsupervised size constraint, and local constraint such as CRF are used to yield more accurate CAMs. Inference over single independent frames allows parallel processing of a clip of frames, and real-time localization. Extensive experiments on two challenging YouTube-Objects datasets for unconstrained videos, indicate that CAM methods (trained on independent frames) can yield decent localization accuracy. Our proposed TCAM method achieves a new state-of-art in WSVOL accuracy, and visual results suggest that it can be adapted for subsequent tasks like visual object tracking and detection. Code is publicly available.
翻訳日:2022-09-01 13:19:55 公開日:2022-08-30
# アイドルタイムの予測利用によるev乗用車の運転効率の向上

Improving Operational Efficiency In EV Ridepooling Fleets By Predictive Exploitation of Idle Times ( http://arxiv.org/abs/2208.14852v1 )

ライセンス: Link先を確認
Jesper C. Provoost, Andreas Kamilaris, Gy\"oz\"o Gid\'ofalvi, Geert J. Heijenk, and Luc J.J. Wismans(参考訳) 電気自動車による配車システムでは、充電は複雑な意思決定プロセスである。 ほとんどの電気自動車(EV)タクシーサービスでは、ドライバーがエゴスティックな判断をしなければなりません。 モビリティシステムの現在の状態は、しばしば車両間で共有されていないか共有されていないため、システム最適化の決定が不可能である。 既存のアプローチのほとんどは、時間、場所、期間を包括的な制御アルゴリズムに組み合わせたり、リアルタイム操作には適さない。 そこで本研究では,アイドルタイムエクスプロイトレーション(itx)と呼ばれる,車両がアイドル状態にある期間を予測し,その期間をエネルギーの収穫に活用した,相乗りサービスに対するリアルタイム予測充電手法を提案する。 グラフ畳み込みネットワークと線形割当てアルゴリズムに依存し、悪用されたアイドル時間を最大化することで、車両と充電ステーションの最適なペアリングを考案する。 ニューヨーク市における実世界のデータセットに関する広範なシミュレーション研究を通じて,我々のアプローチを評価した。 その結果,itxは,実世界の相乗りシステムの収益性を再現するためにモデル化された金銭報酬関数を用いて,週に最低で5%(6000台の車両運用で7万ドル相当)のベースラインメソッドを上回った。 さらに、itxは、ベースライン方式と比較して、少なくとも4.68%の遅延を削減でき、一般的には、乗客の快適性を高める。 我々の結果は、ITXが日中エネルギーを回収し、バッテリーのレベルを安定させ、予期せぬ需要の急増に対するレジリエンスを高めることを実証している。 最後に、最高性能のベースライン戦略と比較すると、ピーク負荷は17.39%減少し、グリッドオペレーターに恩恵を与え、より持続可能な電力網の使用を可能にする。

In ridepooling systems with electric fleets, charging is a complex decision-making process. Most electric vehicle (EV) taxi services require drivers to make egoistic decisions, leading to decentralized ad-hoc charging strategies. The current state of the mobility system is often lacking or not shared between vehicles, making it impossible to make a system-optimal decision. Most existing approaches do not combine time, location and duration into a comprehensive control algorithm or are unsuitable for real-time operation. We therefore present a real-time predictive charging method for ridepooling services with a single operator, called Idle Time Exploitation (ITX), which predicts the periods where vehicles are idle and exploits these periods to harvest energy. It relies on Graph Convolutional Networks and a linear assignment algorithm to devise an optimal pairing of vehicles and charging stations, in pursuance of maximizing the exploited idle time. We evaluated our approach through extensive simulation studies on real-world datasets from New York City. The results demonstrate that ITX outperforms all baseline methods by at least 5% (equivalent to $70,000 for a 6,000 vehicle operation) per week in terms of a monetary reward function which was modeled to replicate the profitability of a real-world ridepooling system. Moreover, ITX can reduce delays by at least 4.68% in comparison with baseline methods and generally increase passenger comfort by facilitating a better spread of customers across the fleet. Our results also demonstrate that ITX enables vehicles to harvest energy during the day, stabilizing battery levels and increasing resilience to unexpected surges in demand. Lastly, compared to the best-performing baseline strategy, peak loads are reduced by 17.39% which benefits grid operators and paves the way for more sustainable use of the electrical grid.
翻訳日:2022-09-01 13:17:13 公開日:2022-08-30
# ハイブリッドスパースガウスプロセスを用いたデータ駆動型チャンス制約AC-OPF

Data-Driven Chance Constrained AC-OPF using Hybrid Sparse Gaussian Processes ( http://arxiv.org/abs/2208.14814v1 )

ライセンス: Link先を確認
Mile Mitrovic, Aleksandr Lukashevich, Petr Vorobev, Vladimir Terzija, Yury Maximov, Deepjyoti Deka(参考訳) 交流電流(AC)最適電力流(CC-OPF)問題は、発生の不確実性の下での発電と送電の経済効率に対処する。 後者は再生可能エネルギーの量が多いため、現代の電力網に固有のものである。 学術的な成功にもかかわらず、AC CC-OPF問題は非常に非線形で計算的に要求され、実際的な影響を制限している。 そこで本研究では,sparse and hybrid gaussian process (gp) フレームワークを用いて,入力の不確実性を伴う電力フロー方程式をモデル化する高速データ駆動型セットアップを提案する。 提案手法の有効性は,複数のIEEEテストケースに対して,最先端手法と比較して最大2倍高速かつ高精度な解を求める数値的な研究により主張する。

The alternating current (AC) chance-constrained optimal power flow (CC-OPF) problem addresses the economic efficiency of electricity generation and delivery under generation uncertainty. The latter is intrinsic to modern power grids because of the high amount of renewables. Despite its academic success, the AC CC-OPF problem is highly nonlinear and computationally demanding, which limits its practical impact. For improving the AC-OPF problem complexity/accuracy trade-off, the paper proposes a fast data-driven setup that uses the sparse and hybrid Gaussian processes (GP) framework to model the power flow equations with input uncertainty. We advocate the efficiency of the proposed approach by a numerical study over multiple IEEE test cases showing up to two times faster and more accurate solutions compared to the state-of-the-art methods.
翻訳日:2022-09-01 13:15:51 公開日:2022-08-30
# 学習型3次元EIT画像再構成法

A Learning-Based 3D EIT Image Reconstruction Method ( http://arxiv.org/abs/2208.14449v1 )

ライセンス: Link先を確認
Zhaoguang Yi, Zhou Chen, and Yunjie Yang(参考訳) 深層学習は電気インピーダンストモグラフィ(EIT)画像再構成問題を解決するために広く用いられている。 既存の物理モデルベースおよび学習ベースアプローチのほとんどは、2D EIT画像再構成に焦点を当てている。 しかし, 直接3次元領域に拡張した場合, 画像品質, ノイズ堅牢性の面での再構成性能は, 主に寸法の著しい増加により保証されることがほとんどない。 本稿では,ニューロンネットワーク(TN-Net)を用いた3D EIT画像再構成のための学習的アプローチを提案する。 シミュレーションおよび実験結果から,TN-Netの性能と一般化能力は,一般的な3次元EIT画像再構成アルゴリズムと比較して優れていた。

Deep learning has been widely employed to solve the Electrical Impedance Tomography (EIT) image reconstruction problem. Most existing physical model-based and learning-based approaches focus on 2D EIT image reconstruction. However, when they are directly extended to the 3D domain, the reconstruction performance in terms of image quality and noise robustness is hardly guaranteed mainly due to the significant increase in dimensionality. This paper presents a learning-based approach for 3D EIT image reconstruction, which is named Transposed convolution with Neurons Network (TN-Net). Simulation and experimental results show the superior performance and generalization ability of TN-Net compared with prevailing 3D EIT image reconstruction algorithms.
翻訳日:2022-09-01 13:15:14 公開日:2022-08-30
# BioSLAM: 一般的な場所認識のためのバイオインスパイアされた生涯記憶システム

BioSLAM: A Bio-inspired Lifelong Memory System for General Place Recognition ( http://arxiv.org/abs/2208.14543v1 )

ライセンス: Link先を確認
Peng Yin, Abulikemu Abuduweili, Shiqi Zhao, Changliu Liu and Sebastian Scherer(参考訳) これまでに訪れた地域に対して,様々な新しい外観を段階的に学習し,正確な位置認識を維持するための,生涯にわたるSLAMフレームワークであるBioSLAMを提案する。 人間とは異なり、人工ニューラルネットワークは破滅的な忘れ込みに悩まされ、新しい到着の訓練を受けた際に訪れた地域を忘れる可能性がある。 人間にとって、研究者は前回の出来事でニューロンを活性化させるために、脳内に記憶再生機構があることを発見した。 この発見にインスパイアされたBioSLAMは、フィードバック報酬に基づいてロボットの学習行動を制御するゲート生成リプレイを設計した。 具体的には、BioSLAMはメンテナンスのための新しいデュアルメモリメカニズムを提供する。 1)新しい観察を効率的に学習する動的記憶 2)新しい知識のバランスをとる静的メモリ。 ビジュアル/LiDARベースのSLAMシステムと組み合わせると、完全な処理パイプラインは、長期的位置認識の複雑さの増加に対して堅牢な位置認識能力を段階的に更新するのに役立つ。 BioSLAMを2つの段階的なSLAMシナリオで示す。 最初のシナリオでは、LiDARベースのエージェントが120kmの軌道で都市規模の環境を継続的に移動し、異なるタイプの3Dジオメトリー(オープンストリート、住宅エリア、商業ビル)に遭遇する。 BioSLAMはエージェントの位置認識能力を漸進的に更新し、最先端のインクリメンタルアプローチであるGenerative Replayを24%向上させることができる。 第2のシナリオでは、LiDARビジョンベースのエージェントが4.5kmの軌道でキャンパススケールのエリアを何度も移動します。 bioslamは、異なる外観下での最先端のアプローチよりも15\%高い位置認識精度を保証できる。 私たちの知る限り、BioSLAMは長期ナビゲーションタスクにおけるインクリメンタルな位置認識を支援するメモリ駆動型SLAMシステムとしては初めてのものです。

We present BioSLAM, a lifelong SLAM framework for learning various new appearances incrementally and maintaining accurate place recognition for previously visited areas. Unlike humans, artificial neural networks suffer from catastrophic forgetting and may forget the previously visited areas when trained with new arrivals. For humans, researchers discover that there exists a memory replay mechanism in the brain to keep the neuron active for previous events. Inspired by this discovery, BioSLAM designs a gated generative replay to control the robot's learning behavior based on the feedback rewards. Specifically, BioSLAM provides a novel dual-memory mechanism for maintenance: 1) a dynamic memory to efficiently learn new observations and 2) a static memory to balance new-old knowledge. When combined with a visual-/LiDAR- based SLAM system, the complete processing pipeline can help the agent incrementally update the place recognition ability, robust to the increasing complexity of long-term place recognition. We demonstrate BioSLAM in two incremental SLAM scenarios. In the first scenario, a LiDAR-based agent continuously travels through a city-scale environment with a 120km trajectory and encounters different types of 3D geometries (open streets, residential areas, commercial buildings). We show that BioSLAM can incrementally update the agent's place recognition ability and outperform the state-of-the-art incremental approach, Generative Replay, by 24%. In the second scenario, a LiDAR-vision-based agent repeatedly travels through a campus-scale area on a 4.5km trajectory. BioSLAM can guarantee the place recognition accuracy to outperform 15\% over the state-of-the-art approaches under different appearances. To our knowledge, BioSLAM is the first memory-enhanced lifelong SLAM system to help incremental place recognition in long-term navigation tasks.
翻訳日:2022-09-01 13:15:03 公開日:2022-08-30
# SINDyを用いたモデルベース強化学習

Model-Based Reinforcement Learning with SINDy ( http://arxiv.org/abs/2208.14501v1 )

ライセンス: Link先を確認
Rushiv Arora, Bruno Castro da Silva, Eliot Moss(参考訳) 強化学習(rl)における物理システムの非線形ダイナミクスを制御する新しい手法を提案するため,物理コミュニティにおける最近の進歩について考察する。 本手法は,技術モデル学習アルゴリズムの状況よりもはるかに少ないトラジェクトリ(1ロールアウトで$\leq 30$のタイムステップ)を用いて,基礎となるダイナミクスを発見することができることを確認した。 さらに,この手法は,モデルフリーアルゴリズムで要求されるモデルよりもはるかに少ないトラジェクトリを与えられたほぼ最適ポリシーを導き出すのに十分な精度のモデルを学習する。 これは、物理ベースの力学を持つシステムに対して、事前にモデルを開発する必要がないモデルベースのRLの利点をもたらす。 本アルゴリズムの有効性と適用性を確立するため,4つの古典的制御タスクの実験を行った。 基礎となるシステムのダイナミクスを学習した最適なポリシーが、うまく一般化できることがわかりました。 さらに、学習したポリシは、実際の物理システムにデプロイするとうまく動作し、モデルと実際のシステムギャップを橋渡しする。 さらに,本手法を最先端のモデルベースおよびモデルフリーアプローチと比較し,本手法が実際の物理系上でサンプリングされる軌道を,他の手法と比較して少なくすることを示した。 さらに,近似ダイナミクスモデルについて検討し,その性能も良好であることを確認した。

We draw on the latest advancements in the physics community to propose a novel method for discovering the governing non-linear dynamics of physical systems in reinforcement learning (RL). We establish that this method is capable of discovering the underlying dynamics using significantly fewer trajectories (as little as one rollout with $\leq 30$ time steps) than state of the art model learning algorithms. Further, the technique learns a model that is accurate enough to induce near-optimal policies given significantly fewer trajectories than those required by model-free algorithms. It brings the benefits of model-based RL without requiring a model to be developed in advance, for systems that have physics-based dynamics. To establish the validity and applicability of this algorithm, we conduct experiments on four classic control tasks. We found that an optimal policy trained on the discovered dynamics of the underlying system can generalize well. Further, the learned policy performs well when deployed on the actual physical system, thus bridging the model to real system gap. We further compare our method to state-of-the-art model-based and model-free approaches, and show that our method requires fewer trajectories sampled on the true physical system compared other methods. Additionally, we explored approximate dynamics models and found that they also can perform well.
翻訳日:2022-09-01 13:13:46 公開日:2022-08-30
# 個人差分帯域に対する動的グローバル感性

Dynamic Global Sensitivity for Differentially Private Contextual Bandits ( http://arxiv.org/abs/2208.14555v1 )

ライセンス: Link先を確認
Huazheng Wang, David Zhao, Hongning Wang(参考訳) banditアルゴリズムはインタラクティブレコメンデーションのリファレンスソリューションとなっている。 しかし、こうしたアルゴリズムはユーザーと直接対話して改善されたレコメンデーションに対処するため、その実用性に関して深刻なプライバシー上の懸念が持ち上がっている。 本研究では,モデルパラメータにラプラスノイズやガウス雑音を加えるツリーベース機構を用いて,微分プライベートな線形文脈バンディットアルゴリズムを提案する。 私たちの重要な洞察は、オンライン更新中にモデルが収束するにつれて、パラメータのグローバルな感度は時間とともに減少するということです。 既存のソリューションと比較して、動的大域的感度分析により、より少ないノイズを注入して、$\tilde o(\log{t}\sqrt{t}/\epsilon)$で、(\epsilon, \delta)$-differential privacyを得ることができます。 動的大域的感度により付加される雑音量と,提案するアルゴリズムの上限値に対する厳密な理論解析を行う。 合成データと実世界のデータセットの両方の実験結果は、既存のソリューションに対するアルゴリズムのアドバンテージを確認した。

Bandit algorithms have become a reference solution for interactive recommendation. However, as such algorithms directly interact with users for improved recommendations, serious privacy concerns have been raised regarding its practical use. In this work, we propose a differentially private linear contextual bandit algorithm, via a tree-based mechanism to add Laplace or Gaussian noise to model parameters. Our key insight is that as the model converges during online update, the global sensitivity of its parameters shrinks over time (thus named dynamic global sensitivity). Compared with existing solutions, our dynamic global sensitivity analysis allows us to inject less noise to obtain $(\epsilon, \delta)$-differential privacy with added regret caused by noise injection in $\tilde O(\log{T}\sqrt{T}/\epsilon)$. We provide a rigorous theoretical analysis over the amount of noise added via dynamic global sensitivity and the corresponding upper regret bound of our proposed algorithm. Experimental results on both synthetic and real-world datasets confirmed the algorithm's advantage against existing solutions.
翻訳日:2022-09-01 13:10:42 公開日:2022-08-30
# ハイブリッド行動空間を用いた深層マルチエージェント強化学習のさらなる探究

A further exploration of deep Multi-Agent Reinforcement Learning with Hybrid Action Space ( http://arxiv.org/abs/2208.14447v1 )

ライセンス: Link先を確認
Hongzhi Hua, Guixuan Wen, Kaigui Wu(参考訳) 深層強化学習(drl)をマルチエージェント分野に拡張する研究は、多くの複雑な問題を解決し、大きな成果を上げている。 しかしながら、これらの研究のほとんどが離散的あるいは連続的な行動空間にのみ焦点を合わせており、多エージェント深層強化学習を実世界環境問題に用いたことのある作品はほとんどない。 そこで本稿では,このギャップを埋めるために,マルチエージェントハイブリッドソフトアクタ-クリティック (mahsac) とマルチエージェントハイブリッドディープ決定論的ポリシー勾配 (mahddpg) の2つのアルゴリズムを提案する。 この2つのアルゴリズムは、集中的なトレーニングと分散実行(CTDE)パラダイムに従っており、ハイブリッドなアクション空間の問題に対処できる。 私たちの経験は、簡単なマルチエージェント粒子の世界であるマルチエージェント粒子環境と、いくつかの基本的なシミュレートされた物理で動いています。 実験の結果,これらのアルゴリズムは優れた性能を示した。

The research of extending deep reinforcement learning (drl) to multi-agent field has solved many complicated problems and made great achievements. However, almost all these studies only focus on discrete or continuous action space and there are few works having ever used multi-agent deep reinforcement learning to real-world environment problems which mostly have a hybrid action space. Therefore, in this paper, we propose two algorithms: deep multi-agent hybrid soft actor-critic (MAHSAC) and multi-agent hybrid deep deterministic policy gradients (MAHDDPG) to fill this gap. This two algorithms follow the centralized training and decentralized execution (CTDE) paradigm and could handle hybrid action space problems. Our experiences are running on multi-agent particle environment which is an easy multi-agent particle world, along with some basic simulated physics. The experimental results show that these algorithms have good performances.
翻訳日:2022-09-01 13:08:23 公開日:2022-08-30
# 複数の薬物相互作用を予測するグラフ距離ニューラルネットワーク

Graph Distance Neural Networks for Predicting Multiple Drug Interactions ( http://arxiv.org/abs/2208.14810v1 )

ライセンス: Link先を確認
Haifan zhou, Wenjing Zhou, Junfeng Wu(参考訳) 多剤併用が広く適用されているため、薬物-薬物相互作用(ddi)の正確な予測がますます重要になっている。 本手法では,薬物と薬物の相互作用を表すグラフを用いて,薬物と薬物の相互作用を表す。 我々は,DDIの予測をリンク予測問題に変換し,既知の薬物ノード特性とDDI型を利用して未知のDDI型を予測する。 薬物と薬物の相互作用を予測するグラフ距離ニューラルネットワーク(GDNN)を提案する。 まず、GDNNは、グラフ内の距離情報を完全に含むターゲットポイント法によるノードの初期特徴を生成する。 第2に、GDNNは改善されたメッセージパッシングフレームワークを採用し、各薬物ノードの埋め込み式をより良く生成し、ノードとエッジの特性を同期的に総合的に考慮する。 第3に、GDNNは組込み式を集約し、MLP処理を行い、最終的な予測される薬物相互作用型を生成する。 GDNNはogb-ddiデータセット上でTest Hits@20=0.9037を達成した。

Since multidrug combination is widely applied, the accurate prediction of drug-drug interaction (DDI) is becoming more and more critical. In our method, we use graph to represent drug-drug interaction: nodes represent drug; edges represent drug-drug interactions. Based on our assumption, we convert the prediction of DDI to link prediction problem, utilizing known drug node characteristics and DDI types to predict unknown DDI types. This work proposes a Graph Distance Neural Network (GDNN) to predict drug-drug interactions. Firstly, GDNN generates initial features for nodes via target point method, fully including the distance information in the graph. Secondly, GDNN adopts an improved message passing framework to better generate each drug node embedded expression, comprehensively considering the nodes and edges characteristics synchronously. Thirdly, GDNN aggregates the embedded expressions, undergoing MLP processing to generate the final predicted drug interaction type. GDNN achieved Test Hits@20=0.9037 on the ogb-ddi dataset, proving GDNN can predict DDI efficiently.
翻訳日:2022-09-01 13:07:45 公開日:2022-08-30
# コントラスト学習による名前付きエンティティ認識のためのbiエンコーダの最適化

Optimizing Bi-Encoder for Named Entity Recognition via Contrastive Learning ( http://arxiv.org/abs/2208.14565v1 )

ライセンス: Link先を確認
Sheng Zhang, Hao Cheng, Jianfeng Gao, Hoifung Poon(参考訳) 本稿では,同一ベクトル表現空間に候補テキストスパンとエンティティタイプをマップするために対比学習を適用する,名前付きエンティティ認識(ner)のための効率的なバイエンコーダフレームワークを提案する。 先行研究は主にシーケンスラベリングやスパン分類としてnerにアプローチしている。 代わりに、NERは、エンティティ参照のベクトル表現とその型との類似性を最大化する計量学習問題である。 これにより、ネストやフラットナーの扱いが簡単になり、ノイズの多い自己スーパービジョン信号の活用が容易になる。 NERのこのバイエンコーダの定式化における大きな課題は、エンティティの言及から非エンゲージスを分離することにある。 すべての非エンティティスパンを従来のメソッドと同じクラス(o)外部に明示的にラベル付ける代わりに、標準のコントラスト損失と組み合わせて学習される新しい動的しきい値損失を導入する。 実験により,本手法は,ネストや平らなNERなどの教師付き環境においても,一般領域における標準データセット(ACE2004,ACE2005)とバイオメディシン(GENIA,NCBI,BC5CDR,JNLPBA)などの高価値垂直領域にまたがって,新たな技術状態を確立することができた。

We present an efficient bi-encoder framework for named entity recognition (NER), which applies contrastive learning to map candidate text spans and entity types into the same vector representation space. Prior work predominantly approaches NER as sequence labeling or span classification. We instead frame NER as a metric learning problem that maximizes the similarity between the vector representations of an entity mention and its type. This makes it easy to handle nested and flat NER alike, and can better leverage noisy self-supervision signals. A major challenge to this bi-encoder formulation for NER lies in separating non-entity spans from entity mentions. Instead of explicitly labeling all non-entity spans as the same class Outside (O) as in most prior methods, we introduce a novel dynamic thresholding loss, which is learned in conjunction with the standard contrastive loss. Experiments show that our method performs well in both supervised and distantly supervised settings, for nested and flat NER alike, establishing new state of the art across standard datasets in the general domain (e.g., ACE2004, ACE2005) and high-value verticals such as biomedicine (e.g., GENIA, NCBI, BC5CDR, JNLPBA).
翻訳日:2022-09-01 13:04:19 公開日:2022-08-30
# マルチビューデータのワンステップクラスタリングのためのデュアル表現学習

Dual Representation Learning for One-Step Clustering of Multi-View Data ( http://arxiv.org/abs/2208.14450v1 )

ライセンス: Link先を確認
Wei Zhang, Zhaohong Deng, Kup-Sze Choi, Jun Wang, Shitong Wang(参考訳) マルチビューデータは、データマイニングアプリケーションでよく見られる。 マルチビューデータからの効果的な情報の抽出には、複数のビューを持つデータに対応するために、特定のクラスタリングメソッドを設計する必要がある。 本稿では,異なるビューの共通情報と特定情報の二重表現を利用する,新しい一段階のマルチビュークラスタリング手法を提案する。 モチベーションは、マルチビューデータはビュー間の一貫した知識だけでなく、各ビューのユニークな知識も含んでいるという理論的根拠から来ている。 一方、クラスタリングタスクに表現学習をより具体化するために、表現学習とクラスタリング分割を統合化するための一段階学習フレームワークが提案されている。 このフレームワークでは、表現学習とクラスタリング分割が相互に利益をもたらし、クラスタリングのパフォーマンスが効果的に向上する。 ベンチマークマルチビューデータセットを用いた大規模実験の結果,提案手法の優越性が明らかに示された。

Multi-view data are commonly encountered in data mining applications. Effective extraction of information from multi-view data requires specific design of clustering methods to cater for data with multiple views, which is non-trivial and challenging. In this paper, we propose a novel one-step multi-view clustering method by exploiting the dual representation of both the common and specific information of different views. The motivation originates from the rationale that multi-view data contain not only the consistent knowledge between views but also the unique knowledge of each view. Meanwhile, to make the representation learning more specific to the clustering task, a one-step learning framework is proposed to integrate representation learning and clustering partition as a whole. With this framework, the representation learning and clustering partition mutually benefit each other, which effectively improve the clustering performance. Results from extensive experiments conducted on benchmark multi-view datasets clearly demonstrate the superiority of the proposed method.
翻訳日:2022-09-01 13:01:49 公開日:2022-08-30
# 非英語医学NLPのための汎用言語モデルによる注釈付きデータセット作成

Annotated Dataset Creation through General Purpose Language Models for non-English Medical NLP ( http://arxiv.org/abs/2208.14493v1 )

ライセンス: Link先を確認
Johann Frei and Frank Kramer(参考訳) セマンティックアノテーションによるテキストデータセットの取得は困難だが、自然言語処理(NLP)における教師ありトレーニングには不可欠である。 一般的に、タスクのためのドメイン固有のコンテキストにおける新しいNLPパイプラインの開発と適用には、教師付き機械学習方式でNLPタスクに対処するカスタムデザインのデータセットが必要となることが多い。 医療データ処理のために非英語の言語で運用する場合、タスクマッチングデータセットの欠如やタスク固有の事前訓練モデルなど、いくつかのマイナーで主要な相互接続の問題が発生する。 我々の研究では、データ取得のトレーニングに事前訓練された言語モデルを活用して、ユースケース特定タスクのより小型で効率的なモデルのトレーニングに十分な大規模なデータセットを取得することを提案する。 提案手法の有効性を示すため,ドイツ語テキストの医学的NERモデルをトレーニングするために使用するカスタムデータセット(GPTNERMED)を作成するが,原則的に言語に依存しないままである。 得られたデータセットと事前トレーニングされたモデルは、https://github.com/frankkramer-lab/GPTNERMEDで公開されています。

Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processsing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom designed datasets to address NLP tasks in supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as lack of task-matching datasets as well as task-specific pre-trained models. In our work we suggest to leverage pretrained language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset which we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at: https://github.com/frankkramer-lab/GPTNERMED
翻訳日:2022-09-01 12:58:03 公開日:2022-08-30
# 微分可能DAG学習のためのTrncated Matrix Power Iteration

Truncated Matrix Power Iteration for Differentiable DAG Learning ( http://arxiv.org/abs/2208.14571v1 )

ライセンス: Link先を確認
Zhen Zhang, Ignavier Ng, Dong Gong, Yuhang Liu, Ehsan M Abbasnejad, Mingming Gong, Kun Zhang, Javen Qinfeng Shi(参考訳) DAG制約最適化問題の組合せ性のため,観測データからDAG(Directed Acyclic Graph Structure)を復元することは極めて困難である。 近年、DAG学習はDAG制約をスムーズな等式として特徴付け、概して隣接行列上の多項式に基づく連続最適化問題として採用されている。 既存の手法では、高次項上の大きな係数は数値の爆発によって有害であると主張するため、安定化のための高次多項式項に非常に小さな係数を置く。 逆に,隣接行列のスペクトル半径が小さい場合,高次項に対する大きな係数はdag学習に有益であり,高次項に対する大きな係数は小さい項よりもdag制約をはるかによく近似できることがわかった。 そこで本研究では, 近似的直列ベースDAG制約を実現するために, 効率的な行列パワーイテレーションを用いたDAG学習手法を提案する。 我々のDAG学習法は、様々な設定において、しばしば構造的ハミング距離の3倍以上の要因により、過去の最先端技術よりも優れています。

Recovering underlying Directed Acyclic Graph structures (DAG) from observational data is highly challenging due to the combinatorial nature of the DAG-constrained optimization problem. Recently, DAG learning has been cast as a continuous optimization problem by characterizing the DAG constraint as a smooth equality one, generally based on polynomials over adjacency matrices. Existing methods place very small coefficients on high-order polynomial terms for stabilization, since they argue that large coefficients on the higher-order terms are harmful due to numeric exploding. On the contrary, we discover that large coefficients on higher-order terms are beneficial for DAG learning, when the spectral radiuses of the adjacency matrices are small, and that larger coefficients for higher-order terms can approximate the DAG constraints much better than the small counterparts. Based on this, we propose a novel DAG learning method with efficient truncated matrix power iteration to approximate geometric series-based DAG constraints. Empirically, our DAG learning method outperforms the previous state-of-the-arts in various settings, often by a factor of 3 or more in terms of structural Hamming distance.
翻訳日:2022-09-01 12:57:06 公開日:2022-08-30
# 表現の制約は、知らないものを知るモデルになる

Constraining Representations Yields Models That Know What They Don't Know ( http://arxiv.org/abs/2208.14488v1 )

ライセンス: Link先を確認
Joao Monteiro, Pau Rodriguez, Pierre-Andre Noel, Issam Laradji, David Vazquez(参考訳) ニューラルネットワークのよく知られた障害モードは、特にトレーニング分布と何らかの異なるデータに対して、高い信頼性の誤った予測に対応している。 このような安全でない行動は、適用性を制限する。 それに対抗するために、正確な信頼度レベルを提供するモデルが、内部表現に制約を加えることで定義できることを示します。 すなわち、クラスラベルを固定されたユニークなバイナリベクタまたはクラスコードとしてエンコードし、モデル全体でクラス依存のアクティベーションパターンを強制するためにそれらを使用します。 結果予測器はTotal Activation Classifiers (TAC)と呼ばれ、TACはベース分類器の追加コンポーネントとして使われ、予測の信頼性を示す。 データインスタンスが与えられた場合、TACは中間表現を非結合集合にスライスし、そのようなスライスをスカラーに減らし、アクティベーションプロファイルを生成する。 トレーニング中、アクティベーションプロファイルは、所定のトレーニングインスタンスに割り当てられたコードにプッシュされる。 テスト時には、サンプルのアクティベーションプロファイルに最もよくマッチするコードに対応するクラスを予測することができる。 実験の結果,アクティベーションパターンとそれに対応する符号の類似性は,識別的信頼度スコアを誘導する安価な非教師なしアプローチをもたらすことがわかった。 すなわち、TACは既存のモデルから抽出した最先端の信頼性スコアと同程度に優れており、拒絶条件におけるモデルの価値は厳密に向上している。 また、TACは複数のタイプのアーキテクチャやデータモダリティでうまく機能することが観察された。

A well-known failure mode of neural networks corresponds to high confidence erroneous predictions, especially for data that somehow differs from the training distribution. Such an unsafe behaviour limits their applicability. To counter that, we show that models offering accurate confidence levels can be defined via adding constraints in their internal representations. That is, we encode class labels as fixed unique binary vectors, or class codes, and use those to enforce class-dependent activation patterns throughout the model. Resulting predictors are dubbed Total Activation Classifiers (TAC), and TAC is used as an additional component to a base classifier to indicate how reliable a prediction is. Given a data instance, TAC slices intermediate representations into disjoint sets and reduces such slices into scalars, yielding activation profiles. During training, activation profiles are pushed towards the code assigned to a given training instance. At testing time, one can predict the class corresponding to the code that best matches the activation profile of an example. Empirically, we observe that the resemblance between activation patterns and their corresponding codes results in an inexpensive unsupervised approach for inducing discriminative confidence scores. Namely, we show that TAC is at least as good as state-of-the-art confidence scores extracted from existing models, while strictly improving the model's value on the rejection setting. TAC was also observed to work well on multiple types of architectures and data modalities.
翻訳日:2022-09-01 12:56:20 公開日:2022-08-30
# 言語モデルは、イタリア語のアナフォリックゼロ代名詞のコアフェレントについて人間のような予測をするだろうか?

Do language models make human-like predictions about the coreferents of Italian anaphoric zero pronouns? ( http://arxiv.org/abs/2208.14554v1 )

ライセンス: Link先を確認
James A. Michaelov and Benjamin K. Bergen(参考訳) 一部の言語では、特定の文脈で引数を省略することができる。 しかし、人間の言語理解者は、これらのゼロ代名詞の意図された代名詞を確実に推論する。 ニューラル言語モデルも同じ期待を抽出するかどうかを問う。 本研究は,carminati (2005) が行った5つの行動実験から,代名詞ゼロの文に接すると,人間の行動を反映した12の現代言語モデルが期待できるかどうかを検証した。 xglm 2.9b, 4.5b, 7.5bの3つのモデルがすべての実験から人間の行動をキャプチャし、他のモデルがいくつかの結果のモデリングに成功した。 この結果は、コア推論に対する人間の期待は、言語への露出から導き出すことができ、また、人間の振る舞いをよりよく反映できる言語モデルの特徴も示している。

Some languages allow arguments to be omitted in certain contexts. Yet human language comprehenders reliably infer the intended referents of these zero pronouns, in part because they construct expectations about which referents are more likely. We ask whether Neural Language Models also extract the same expectations. We test whether 12 contemporary language models display expectations that reflect human behavior when exposed to sentences with zero pronouns from five behavioral experiments conducted in Italian by Carminati (2005). We find that three models - XGLM 2.9B, 4.5B, and 7.5B - capture the human behavior from all the experiments, with others successfully modeling some of the results. This result suggests that human expectations about coreference can be derived from exposure to language, and also indicates features of language models that allow them to better reflect human behavior.
翻訳日:2022-09-01 12:55:46 公開日:2022-08-30
# 電気制御のための強化学習エージェントの分散アンサンブル

Distributed Ensembles of Reinforcement Learning Agents for Electricity Control ( http://arxiv.org/abs/2208.14338v1 )

ライセンス: Link先を確認
Pierrick Pochelu, Serge G. Petiton, Bruno Conche(参考訳) 深層強化学習(あるいは単にRL)は、産業や研究用途で人気を集めている。 しかしそれでも、その普及を遅らせる重要な限界に悩まされている。 その性能は初期条件と非決定性に敏感である。 これらの課題を解決するために,RLエージェントのアンサンブルを構築し,長期的累積報酬に対するより良い局所決定を効率的に構築する手法を提案する。 2つの電気制御環境で異なるアンサンブル構成の手順を比較するために、数百の実験が初めて行われた。 我々は、4つのエージェントのアンサンブルが累積報酬を46%改善し、3.6倍の再現性を向上し、GPUやCPU上で自然に効率的にトレーニングし、並列に予測できることを発見した。

Deep Reinforcement Learning (or just "RL") is gaining popularity for industrial and research applications. However, it still suffers from some key limits slowing down its widespread adoption. Its performance is sensitive to initial conditions and non-determinism. To unlock those challenges, we propose a procedure for building ensembles of RL agents to efficiently build better local decisions toward long-term cumulated rewards. For the first time, hundreds of experiments have been done to compare different ensemble constructions procedures in 2 electricity control environments. We discovered an ensemble of 4 agents improves accumulated rewards by 46%, improves reproducibility by a factor of 3.6, and can naturally and efficiently train and predict in parallel on GPUs and CPUs.
翻訳日:2022-08-31 13:47:06 公開日:2022-08-30
# デジタルマーケットプレースにおける競争・アライメント・均衡

Competition, Alignment, and Equilibria in Digital Marketplaces ( http://arxiv.org/abs/2208.14423v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Michael I. Jordan, Nika Haghtalab(参考訳) 従来のプラットフォーム間の競争は、プラットフォームのアクションとユーザの好みを整合させることによって、ユーザユーティリティを改善することが知られている。 しかし、データ駆動のマーケットプレースでは、アライメントはどの程度表示されていますか? この問題を理論的観点から研究するために,プラットフォームアクションが帯域幅アルゴリズムであり,両プラットフォームがユーザ参加を競うデュオポリー市場を導入する。 この市場の注目すべき特徴は、レコメンデーションの品質がbanditアルゴリズムとユーザからのインタラクションによって提供されるデータ量の両方に依存することだ。 このアルゴリズム性能とユーザの行動の相互依存性は、市場均衡の構造と品質をユーザユーティリティの観点から複雑にしている。 私たちのおもな発見は、この市場における競争が、市場の成果をユーザユーティリティと完全に一致させていないことです。 興味深いことに、市場の結果はプラットフォームが別々のデータレポジトリを持っている場合だけでなく、プラットフォームが共有データレポジトリを持っている場合にも不一致を示す。 それでも、データ共有の仮定は、どのメカニズムがミスアライメントを駆動するかに影響し、特定の形式のミスアライメント(例えば、ベストケースと最悪の市場結果の品質)に影響を与える。 より広範に、我々の研究は、デジタル市場における競争が、さらなる調査に役立つユーザユーティリティーに微妙な結果をもたらすことを示している。

Competition between traditional platforms is known to improve user utility by aligning the platform's actions with user preferences. But to what extent is alignment exhibited in data-driven marketplaces? To study this question from a theoretical perspective, we introduce a duopoly market where platform actions are bandit algorithms and the two platforms compete for user participation. A salient feature of this market is that the quality of recommendations depends on both the bandit algorithm and the amount of data provided by interactions from users. This interdependency between the algorithm performance and the actions of users complicates the structure of market equilibria and their quality in terms of user utility. Our main finding is that competition in this market does not perfectly align market outcomes with user utility. Interestingly, market outcomes exhibit misalignment not only when the platforms have separate data repositories, but also when the platforms have a shared data repository. Nonetheless, the data sharing assumptions impact what mechanism drives misalignment and also affect the specific form of misalignment (e.g. the quality of the best-case and worst-case market outcomes). More broadly, our work illustrates that competition in digital marketplaces has subtle consequences for user utility that merit further investigation.
翻訳日:2022-08-31 13:46:54 公開日:2022-08-30
# 欧州の炭素・エネルギー価格のボラティリティと依存性のモデル化

Modeling Volatility and Dependence of European Carbon and Energy Prices ( http://arxiv.org/abs/2208.14311v1 )

ライセンス: Link先を確認
Jonathan Berrisch, Sven Pappert, Florian Ziel, Antonia Arsova(参考訳) 我々は、EUA(European Emission Allowances)の価格を調査し、その不確実性と関連するエネルギー市場への依存を分析する。 本稿では,データの特徴を利用した確率的多変量条件時系列モデルを提案する。 提案モデルと各種競合モデルの予測性能は, 転がり窓予測実験で評価され, 約2年間の実測結果が得られた。 これにより、30歩先を予測できる。 多変量確率予測の精度はエネルギースコアによって評価される。 我々は,ロシアによるウクライナ侵攻の観点から,ボラティリティの流出と時間変動の相関に注目した。

We study the prices of European Emission Allowances (EUA), whereby we analyze their uncertainty and dependencies on related energy markets. We propose a probabilistic multivariate conditional time series model that exploits key characteristics of the data. The forecasting performance of the proposed model and various competing models is evaluated in an extensive rolling window forecasting study, covering almost two years out-of-sample. Thereby, we forecast 30-steps ahead. The accuracy of the multivariate probabilistic forecasts is assessed by the energy score. We discuss our findings focusing on volatility spillovers and time-varying correlations, also in view of the Russian invasion of Ukraine.
翻訳日:2022-08-31 13:46:31 公開日:2022-08-30
# 交互最小化法による深層ニューラルネットワーク訓練の収束速度

Convergence Rates of Training Deep Neural Networks via Alternating Minimization Methods ( http://arxiv.org/abs/2208.14318v1 )

ライセンス: Link先を確認
Jintao Xu, Chenglong Bao, Wenxun Xing(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは、非凸性と非分離構造のため、機械学習において重要かつ困難な最適化問題である。 交代最小化(AM)アプローチはDNNの構成構造を分割し、ディープラーニングと最適化コミュニティに大きな関心を寄せている。 本稿では,AM型ネットワークトレーニング手法の収束率を解析するための統合フレームワークを提案する。 本解析は,降下アルゴリズムの設計要件を緩和するクルディカ・ロジャシェヴィチ(kl)特性と,j$-step 十分減少条件に基づく。 KL指数 $\theta$ が $[0,1)$ で異なる場合、詳細な局所収束率を示す。 さらに、局所 r-線型収束はより強固な$j$-step 十分減少条件下で議論される。

Training deep neural networks (DNNs) is an important and challenging optimization problem in machine learning due to its non-convexity and non-separable structure. The alternating minimization (AM) approaches split the composition structure of DNNs and have drawn great interest in the deep learning and optimization communities. In this paper, we propose a unified framework for analyzing the convergence rate of AM-type network training methods. Our analysis are based on the $j$-step sufficient decrease conditions and the Kurdyka-Lojasiewicz (KL) property, which relaxes the requirement of designing descent algorithms. We show the detailed local convergence rate if the KL exponent $\theta$ varies in $[0,1)$. Moreover, the local R-linear convergence is discussed under a stronger $j$-step sufficient decrease condition.
翻訳日:2022-08-31 13:45:13 公開日:2022-08-30
# マルチモーダル感性分析のためのビデオベースクロスモーダル補助ネットワーク

Video-based Cross-modal Auxiliary Network for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2208.13954v1 )

ライセンス: Link先を確認
Rongfei Chen, Wenju Zhou, Yang Li, Huiyu Zhou(参考訳) マルチモーダル感情分析は多モーダル相互作用における情報相補性のために幅広い応用がある。 以前の研究はより効率的な共同表現の研究に重点を置いているが、マルチモーダル融合の不十分なユニモーダル特徴抽出とデータ冗長性を考慮することは滅多にない。 本稿では,ビデオベースのクロスモーダル補助ネットワーク(VCAN)を提案し,音声特徴マップモジュールとクロスモーダル選択モジュールからなる。 最初のモジュールは、より包括的な音響表現を提供することで分類精度を向上させることを目的として、音声特徴抽出における特徴多様性を大幅に向上させるように設計されている。 冗長な視覚的特徴を扱うために、第2のモジュールは、オーディオ視覚データを統合する際に、冗長な視覚的フレームを効率的にフィルタリングする。 さらに、複数の画像分類ネットワークからなる分類器群を導入し、感情極性と感情カテゴリを予測する。 RAVDESS、CMU-MOSI、CMU-MOSEIベンチマークの大規模な実験結果から、VCANはマルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れていることが示唆された。

Multimodal sentiment analysis has a wide range of applications due to its information complementarity in multimodal interactions. Previous works focus more on investigating efficient joint representations, but they rarely consider the insufficient unimodal features extraction and data redundancy of multimodal fusion. In this paper, a Video-based Cross-modal Auxiliary Network (VCAN) is proposed, which is comprised of an audio features map module and a cross-modal selection module. The first module is designed to substantially increase feature diversity in audio feature extraction, aiming to improve classification accuracy by providing more comprehensive acoustic representations. To empower the model to handle redundant visual features, the second module is addressed to efficiently filter the redundant visual frames during integrating audiovisual data. Moreover, a classifier group consisting of several image classification networks is introduced to predict sentiment polarities and emotion categories. Extensive experimental results on RAVDESS, CMU-MOSI, and CMU-MOSEI benchmarks indicate that VCAN is significantly superior to the state-of-the-art methods for improving the classification accuracy of multimodal sentiment analysis.
翻訳日:2022-08-31 13:44:47 公開日:2022-08-30
# 合成画像の精細化による気道計測は特発性肺線維症における死亡予測を改善する

Airway measurement by refinement of synthetic images improves mortality prediction in idiopathic pulmonary fibrosis ( http://arxiv.org/abs/2208.14141v1 )

ライセンス: Link先を確認
Ashkan Pakzad, Mou-Cheng Xu, Wing Keung Cheung, Marie Vermant, Tinne Goos, Laurens J De Sadeleer, Stijn E Verleden, Wim A Wuyts, John R Hurst, Joseph Jacob(参考訳) 特発性肺線維症(IPF)のようないくつかの慢性肺疾患は、気道の異常な拡張によって特徴づけられる。 CT(Computed tomography)における気道特性の定量化は、疾患の進行を特徴づけるのに役立つ。 物理ベースの気道計測アルゴリズムは開発されてきたが、臨床で見られる気道形態の多様性のため、部分的には成功しなかった。 正確な気道アノテーションを得るコストが高いため、教師付き学習方法も実現不可能である。 本稿では,私たちのモデルであるATN(Airway Transfer Network)をトレーニングするために,知覚的損失を用いたスタイル伝達による気道合成を提案する。 我々はATNモデルと最新のGANベースネットワーク(simGAN)を比較した。 a) 質的評価 b)IPF患者113人の死亡率を予測するためのATNおよびsimGANベースのCT気道測定値の評価を行った。 ATNはsimGANよりも高速で訓練が容易であった。 ATNベースの気道測定は、IPF CT上のsimGAN由来気道測定値よりも一貫して死亡率の予測因子であることが判明した。 知覚的損失を用いて合成データを洗練するトランスフォーメーションネットワークによる気道合成は,特発性肺線維症の臨床CT解析におけるGAN法に代わる現実的な方法である。 ソースコードは、既存のオープンソースの気道分析フレームワークであるAirQuantと互換性のあるhttps://github.com/ashkanpakzad/ATNで確認できます。

Several chronic lung diseases, like idiopathic pulmonary fibrosis (IPF) are characterised by abnormal dilatation of the airways. Quantification of airway features on computed tomography (CT) can help characterise disease progression. Physics based airway measurement algorithms have been developed, but have met with limited success in part due to the sheer diversity of airway morphology seen in clinical practice. Supervised learning methods are also not feasible due to the high cost of obtaining precise airway annotations. We propose synthesising airways by style transfer using perceptual losses to train our model, Airway Transfer Network (ATN). We compare our ATN model with a state-of-the-art GAN-based network (simGAN) using a) qualitative assessment; b) assessment of the ability of ATN and simGAN based CT airway metrics to predict mortality in a population of 113 patients with IPF. ATN was shown to be quicker and easier to train than simGAN. ATN-based airway measurements were also found to be consistently stronger predictors of mortality than simGAN-derived airway metrics on IPF CTs. Airway synthesis by a transformation network that refines synthetic data using perceptual losses is a realistic alternative to GAN-based methods for clinical CT analyses of idiopathic pulmonary fibrosis. Our source code can be found at https://github.com/ashkanpakzad/ATN that is compatible with the existing open-source airway analysis framework, AirQuant.
翻訳日:2022-08-31 13:44:30 公開日:2022-08-30
# 検証可能な障害物検出

Verifiable Obstacle Detection ( http://arxiv.org/abs/2208.14403v1 )

ライセンス: Link先を確認
Ayoosh Bansal, Hunmin Kim, Simon Yu, Bo Li, Naira Hovakimyan, Marco Caccamo and Lui Sha(参考訳) 障害物の認識は、自動運転車にとって重要な安全上の懸念である。 現実の衝突は、致命的な衝突につながる自律的欠陥が障害物の存在を検出することから生じることを示している。 オープンソースの自動運転実装は、複雑な相互依存型ディープニューラルネットワークによる知覚パイプラインを示している。 これらのネットワークは完全な検証ができないため、安全クリティカルなタスクには適さない。 本研究では,既存のLiDARに基づく古典的障害物検出アルゴリズムの安全性検証を行う。 我々はこの障害物検出アルゴリズムの能力の厳密な限界を確立する。 安全基準を考えると、そのような境界は標準を確実に満たすLiDARセンサー特性を決定することができる。 このような分析は、ニューラルネットワークベースの知覚システムでは、まだ不可能である。 実世界のセンサデータに基づく実験結果を用いた障害物検出システムの厳密な解析を行う。

Perception of obstacles remains a critical safety concern for autonomous vehicles. Real-world collisions have shown that the autonomy faults leading to fatal collisions originate from obstacle existence detection. Open source autonomous driving implementations show a perception pipeline with complex interdependent Deep Neural Networks. These networks are not fully verifiable, making them unsuitable for safety-critical tasks. In this work, we present a safety verification of an existing LiDAR based classical obstacle detection algorithm. We establish strict bounds on the capabilities of this obstacle detection algorithm. Given safety standards, such bounds allow for determining LiDAR sensor properties that would reliably satisfy the standards. Such analysis has as yet been unattainable for neural network based perception systems. We provide a rigorous analysis of the obstacle detection system with empirical results based on real-world sensor data.
翻訳日:2022-08-31 13:44:11 公開日:2022-08-30
# ホログラフィと深層学習を用いた仮想衝突型ラベルフリーバイオアエロソル検出

Virtual impactor-based label-free bio-aerosol detection using holography and deep learning ( http://arxiv.org/abs/2208.13979v1 )

ライセンス: Link先を確認
Yi Luo, Yijie Zhang, Tairan Liu, Alan Yu, Yichen Wu, Aydogan Ozcan(参考訳) カビ胞子や花粉などの生物エアロゾルへの曝露は健康に悪影響を及ぼす可能性がある。 様々なバイオエアロゾルの長期モニタリングと定量化のためのポータブルで費用対効果の高い装置が必要である。 このニーズに対処するために,仮想インパクタによって集束された粒子状物質のホログラフィック画像を撮影し,選択的にスローダウンし,約6ミクロン以上の粒子を撮像ウィンドウに誘導する,移動可能で費用対効果の高いラベルレスバイオアエロソルセンサを提案する。 流れる粒子をパルスレーザーダイオードで照射し、レンズレス移動撮像装置においてCMOSイメージセンサにインラインホログラムを投入する。 この照明は、1つのパルス内で流れる粒子の無視可能なシフトを有する3つの短パルスを含み、同一粒子の3重ホログラムを撮像野を出る前に1つのフレームに記録し、各粒子の異なる視点を明らかにする。 仮想インパクト器内の粒子は、差分検出方式により局所化され、深層ニューラルネットワークは、取得したホログラフィック画像に基づいて、ラベルのない方法でエアロゾルタイプを分類する。 各種花粉(ブムダ, エルム, オーク, 松, シカモア, 小麦)を用いた仮想衝撃計を用いた移動式バイオエアロゾル検出器の成功を実証し, 92.91%のブラインド分類精度を得た。 この移動式で費用対効果の高い装置は700g程度で、粒子状物質を捕獲したり固定したりしないカートリッジフリーの仮想衝撃装置に基づいているため、長期間にわたって様々なバイオエアロゾルのラベルフリーセンシングや定量化に使用できる。

Exposure to bio-aerosols such as mold spores and pollen can lead to adverse health effects. There is a need for a portable and cost-effective device for long-term monitoring and quantification of various bio-aerosols. To address this need, we present a mobile and cost-effective label-free bio-aerosol sensor that takes holographic images of flowing particulate matter concentrated by a virtual impactor, which selectively slows down and guides particles larger than ~6 microns to fly through an imaging window. The flowing particles are illuminated by a pulsed laser diode, casting their inline holograms on a CMOS image sensor in a lens-free mobile imaging device. The illumination contains three short pulses with a negligible shift of the flowing particle within one pulse, and triplicate holograms of the same particle are recorded at a single frame before it exits the imaging field-of-view, revealing different perspectives of each particle. The particles within the virtual impactor are localized through a differential detection scheme, and a deep neural network classifies the aerosol type in a label-free manner, based on the acquired holographic images. We demonstrated the success of this mobile bio-aerosol detector with a virtual impactor using different types of pollen (i.e., bermuda, elm, oak, pine, sycamore, and wheat) and achieved a blind classification accuracy of 92.91%. This mobile and cost-effective device weighs ~700 g and can be used for label-free sensing and quantification of various bio-aerosols over extended periods since it is based on a cartridge-free virtual impactor that does not capture or immobilize particulate matter.
翻訳日:2022-08-31 13:43:13 公開日:2022-08-30
# ソース局在脳波特徴を用いた肥満のニューロシグナリング

Finding neural signatures for obesity using source-localized EEG features ( http://arxiv.org/abs/2208.14007v1 )

ライセンス: Link先を確認
Yuan Yue, Dirk De Ridder, Patrick Manning, Samantha Ross, Jeremiah D. Deng(参考訳) 肥満は、生活の質を著しく低下させるため、現代社会では深刻な問題である。 脳波(EEG)データを用いた肥満関連神経学的証拠の探索は,従来のアプローチに限られている。 本研究では,脳波データから得られるアルファバンド機能接続機能を用いて,肥満女性の脳ネットワークを同定する機械学習モデルを開発した。 総合的な分類精度は90%に達する。 以上の結果から, 肥満脳の特徴は, エネルギー要求などの自己参照情報を処理する領域が欠損する機能不全ネットワークであることが示唆された。

Obesity is a serious issue in the modern society since it associates to a significantly reduced quality of life. Current research conducted to explore the obesity-related neurological evidences using electroencephalography (EEG) data are limited to traditional approaches. In this study, we developed a novel machine learning model to identify brain networks of obese females using alpha band functional connectivity features derived from EEG data. An overall classification accuracy of 90% is achieved. Our finding suggests that the obese brain is characterized by a dysfunctional network in which the areas that are responsible for processing self-referential information such as energy requirement are impaired.
翻訳日:2022-08-31 13:42:42 公開日:2022-08-30
# スプリットコンピューティングにおける遅延精度トレードオフを改善するニューラルアーキテクチャ探索

Neural Architecture Search for Improving Latency-Accuracy Trade-off in Split Computing ( http://arxiv.org/abs/2208.13968v1 )

ライセンス: Link先を確認
Shoma Shimizu, Takayuki Nishio, Shota Saito, Yoichi Hirose, Chen Yen-Hsiu, Shinichi Shirakawa(参考訳) 本稿ではスプリットコンピューティングのためのニューラルアーキテクチャサーチ(NAS)手法を提案する。 Split Computingは、IoTシステムにディープラーニングをデプロイする際のプライバシとレイテンシの問題に対処する、新たな機械学習推論テクニックである。 スプリットコンピューティングでは、ニューラルネットワークモデルはネットワークを介してエッジサーバとIoTデバイスを使用して分離および協調処理される。 したがって、ニューラルネットワークモデルのアーキテクチャは、通信ペイロードサイズ、モデル精度、計算負荷に大きく影響する。 本稿では,スプリットコンピューティングのためのニューラルネットワークアーキテクチャ最適化の課題について述べる。 そこで我々は,待ち時間要件を満たす際に,最適なモデルアーキテクチャと分割点を共同で検討し,高い精度(計算と通信のトータルレイテンシを一定閾値より小さくする)を実現するNASCを提案する。 NASCは計算効率の良いアーキテクチャ探索のために繰り返しモデルトレーニングを必要としないワンショットNASを採用している。 ベンチマークデータのハードウェア(HW)-NAS-Benchを用いた性能評価の結果,提案したNASCは,ベースラインから約40~60%の遅延をわずかに低減し,"通信遅延とモデル精度"のトレードオフを改善することができた。

This paper proposes a neural architecture search (NAS) method for split computing. Split computing is an emerging machine-learning inference technique that addresses the privacy and latency challenges of deploying deep learning in IoT systems. In split computing, neural network models are separated and cooperatively processed using edge servers and IoT devices via networks. Thus, the architecture of the neural network model significantly impacts the communication payload size, model accuracy, and computational load. In this paper, we address the challenge of optimizing neural network architecture for split computing. To this end, we proposed NASC, which jointly explores optimal model architecture and a split point to achieve higher accuracy while meeting latency requirements (i.e., smaller total latency of computation and communication than a certain threshold). NASC employs a one-shot NAS that does not require repeating model training for a computationally efficient architecture search. Our performance evaluation using hardware (HW)-NAS-Bench of benchmark data demonstrates that the proposed NASC can improve the ``communication latency and model accuracy" trade-off, i.e., reduce the latency by approximately 40-60% from the baseline, with slight accuracy degradation.
翻訳日:2022-08-31 13:39:45 公開日:2022-08-30
# 二重チャネル3次元unet 3+による気道トリーモデリング

Airway Tree Modeling Using Dual-channel 3D UNet 3+ with Vesselness Prior ( http://arxiv.org/abs/2208.13969v1 )

ライセンス: Link先を確認
Hsiang-Chin Chien, Ching-Ping Wang, Jung-Chih Chen, Chia-Yen Lee(参考訳) 肺気道ツリーモデリングは肺疾患、特にCT(X線CT)の診断に不可欠である。 CT画像上の気道ツリーモデリングは、壁の厚さなどの3次元計測を専門家に提供することができる。 この情報は慢性閉塞性肺疾患[1-4]のような肺疾患の診断に大いに役立つ。 多くの学者が肺気道木をモデル化する様々な方法を試しており、その性質に基づいて2つの主要なカテゴリーに分けられる。 すなわち、モデルベースのアプローチとディープラーニングのアプローチです。 典型的なモデルベースのアプローチのパフォーマンスは通常、モデルパラメータのマニュアルチューニングに依存します。 利点は、医療画像のような小さなデータセットにとって有益な、大量のトレーニングデータを必要としないことです。 一方、モデルベースのパフォーマンスは誤解を招くかもしれません [5,6]。 近年, 深層学習は医用画像処理の分野で優れた成果を上げており, 医用画像セグメンテーション [7-11] にUNetベースの手法を用いている学者も多い。 UNetのすべてのバリエーションの中で、UNet 3+[11]は、UNetの他のバリエーションと比較して比較的良い結果です。 そこで本研究では,Frangiフィルタ[5]とUNet 3+[11]を組み合わせることで,肺気道ツリーモデリングの精度をさらに向上する。 フランジフィルターは、容器のような特徴を抽出するために用いられる。 船体のような機能は入力として使われ、デュアルチャネルのUNet 3+のトレーニングとテスト手順をガイドする。

The lung airway tree modeling is essential to work for the diagnosis of pulmonary diseases, especially for X-Ray computed tomography (CT). The airway tree modeling on CT images can provide the experts with 3-dimension measurements like wall thickness, etc. This information can tremendously aid the diagnosis of pulmonary diseases like chronic obstructive pulmonary disease [1-4]. Many scholars have attempted various ways to model the lung airway tree, which can be split into two major categories based on its nature. Namely, the model-based approach and the deep learning approach. The performance of a typical model-based approach usually depends on the manual tuning of the model parameter, which can be its advantages and disadvantages. The advantage is its don't require a large amount of training data which can be beneficial for a small dataset like medical imaging. On the other hand, the performance of model-based may be a misconcep-tion [5,6]. In recent years, deep learning has achieved good results in the field of medical image processing, and many scholars have used UNet-based methods in medical image segmentation [7-11]. Among all the variation of UNet, the UNet 3+ [11] have relatively good result compare to the rest of the variation of UNet. Therefor to further improve the accuracy of lung airway tree modeling, this study combines the Frangi filter [5] with UNet 3+ [11] to develop a dual-channel 3D UNet 3+. The Frangi filter is used to extracting vessel-like feature. The vessel-like feature then used as input to guide the dual-channel UNet 3+ training and testing procedures.
翻訳日:2022-08-31 13:39:24 公開日:2022-08-30
# HiGNN: 特徴量を考慮した分子特性予測のための階層型インフォーマティブグラフニューラルネットワーク

HiGNN: Hierarchical Informative Graph Neural Networks for Molecular Property Prediction Equipped with Feature-Wise Attention ( http://arxiv.org/abs/2208.13994v1 )

ライセンス: Link先を確認
Weimin Zhu, Yi Zhang, DuanCheng Zhao, Jianrong Xu, and Ling Wang(参考訳) 分子の薬物感受性と生物活性を解明し正確に予測することは、薬物の設計と発見において重要な役割を果たす。 近年,グラフニューラルネットワーク (GNN) はグラフに基づく分子特性予測において顕著な進歩を遂げている。 しかし、現在のグラフに基づくディープラーニング手法は、分子の階層的情報や特徴チャネル間の関係を無視している。 本研究では,分子グラフと化学合成可能なBRICSフラグメントの共表現学習を利用して,分子特性を予測する階層型情報グラフニューラルネットワークフレームワーク(HiGNN)を提案する。 さらに、HGNNアーキテクチャでは、メッセージパッシングフェーズ後にアトミックな特徴を適応的に再調整するプラグイン・アンド・プレイ・アテンションブロックが最初に設計されている。 広範な実験により、hignnは多くの挑戦的な薬物発見関連ベンチマークデータセットで最先端の予測性能を達成できることが示されている。 さらに, 分子フラグメント類似性機構を考案し, HiGNNモデルのサブグラフレベルでの解釈可能性について包括的に検討し, 強力な深層学習ツールとしてのHiGNNが, 望ましい性質や機能を持つ分子を設計するための分子の重要な構成要素を特定するのに役立つことを示した。 ソースコードはhttps://github.com/idruglab/hignn.comで公開されている。

Elucidating and accurately predicting the druggability and bioactivities of molecules plays a pivotal role in drug design and discovery and remains an open challenge. Recently, graph neural networks (GNN) have made remarkable advancements in graph-based molecular property prediction. However, current graph-based deep learning methods neglect the hierarchical information of molecules and the relationships between feature channels. In this study, we propose a well-designed hierarchical informative graph neural networks framework (termed HiGNN) for predicting molecular property by utilizing a co-representation learning of molecular graphs and chemically synthesizable BRICS fragments. Furthermore, a plug-and-play feature-wise attention block is first designed in HiGNN architecture to adaptively recalibrate atomic features after the message passing phase. Extensive experiments demonstrate that HiGNN achieves state-of-the-art predictive performance on many challenging drug discovery-associated benchmark datasets. In addition, we devise a molecule-fragment similarity mechanism to comprehensively investigate the interpretability of HiGNN model at the subgraph level, indicating that HiGNN as a powerful deep learning tool can help chemists and pharmacists identify the key components of molecules for designing better molecules with desired properties or functions. The source code is publicly available at https://github.com/idruglab/hignn.
翻訳日:2022-08-31 13:38:59 公開日:2022-08-30
# EchoGNN: グラフニューラルネットワークによる説明可能な射出差分推定

EchoGNN: Explainable Ejection Fraction Estimation with Graph Neural Networks ( http://arxiv.org/abs/2208.14003v1 )

ライセンス: Link先を確認
Masoud Mokhtari, Teresa Tsang, Purang Abolmaesumi, Renjie Liao(参考訳) エジェクション分画(EF)は心機能の重要な指標であり、心不全などの心機能障害に起因した患者の識別を可能にする。 EFは、左心室を手動で追跡し、その容積を特定のフレームで推定することにより、心エコー(echo)として知られる心エコービデオから推定される。 これらの推定は、マニュアルプロセスとビデオ品質の違いにより、オブザーバ間の可変性が高い。 このような不正確さの源泉と迅速な評価の必要性は、信頼性と説明可能な機械学習技術を必要とする。 本研究では,グラフニューラルネットワーク(GNN)に基づくモデルであるEchoGNNを導入し,エコービデオからEFを推定する。 我々のモデルはまず、1つまたは複数のエコーシン系列のフレームから潜時エコーグラフを推測する。 次に、このグラフのノードとエッジの重みを推定し、EF推定に役立つ個々のフレームの重要性を示す。 GNN回帰器はこの重み付きグラフを使用してEFを予測する。 我々は,学習グラフの重み付けが,人的介入が必要なタイミングを決定するために,EF推定のためのクリティカルフレームの同定を通じて説明可能性を提供することを示す。 EchoNet-DynamicパブリックEFデータセットでは、EchoGNNは、最先端のEF予測のパフォーマンスを達成し、説明可能性を提供する。

Ejection fraction (EF) is a key indicator of cardiac function, allowing identification of patients prone to heart dysfunctions such as heart failure. EF is estimated from cardiac ultrasound videos known as echocardiograms (echo) by manually tracing the left ventricle and estimating its volume on certain frames. These estimations exhibit high inter-observer variability due to the manual process and varying video quality. Such sources of inaccuracy and the need for rapid assessment necessitate reliable and explainable machine learning techniques. In this work, we introduce EchoGNN, a model based on graph neural networks (GNNs) to estimate EF from echo videos. Our model first infers a latent echo-graph from the frames of one or multiple echo cine series. It then estimates weights over nodes and edges of this graph, indicating the importance of individual frames that aid EF estimation. A GNN regressor uses this weighted graph to predict EF. We show, qualitatively and quantitatively, that the learned graph weights provide explainability through identification of critical frames for EF estimation, which can be used to determine when human intervention is required. On EchoNet-Dynamic public EF dataset, EchoGNN achieves EF prediction performance that is on par with state of the art and provides explainability, which is crucial given the high inter-observer variability inherent in this task.
翻訳日:2022-08-31 13:38:35 公開日:2022-08-30
# ハイパーパラメータ探索からGPUクラスタを利用した推論までのディープニューラルネットワークアンサンブルワークフロー

A Deep Neural Networks ensemble workflow from hyperparameter search to inference leveraging GPU clusters ( http://arxiv.org/abs/2208.14046v1 )

ライセンス: Link先を確認
Pierrick Pochelu, Serge G. Petiton, Bruno Conche(参考訳) アンサンブル付き機械学習(あるいはアンサンブル付きAutoML)は、Deep Neural Networks(DNN)のアンサンブルを自動的に構築して、定性的予測を実現する。 DNNのアンサンブルは、過度な適合を避けることでよく知られているが、それらはメモリと時間のかかるアプローチである。 したがって、理想的なAutoMLは、1回のランタイムで精度と推論速度に関する異なるアンサンブルを生成する。 これまでのAutoMLは、その一般化能力を最大化するために最適なモデルを探すことに重点を置いていたが、我々はより正確で多様な個別モデルのライブラリを構築し、アンサンブルを構築するために新しいAutoMLを提案する。 まず、我々の広範なベンチマークによると、非同期ハイパーバンドは、それらを組み合わせるために多数の多様なモデルを構築する効率的で堅牢な方法である。 そこで,多目的グリーディアルゴリズムに基づく新しいアンサンブル選択法を提案し,計算コストを制御して正確なアンサンブルを生成する。 最後に、アロケーション最適化に基づくGPUクラスタにおけるDNNアンサンブルの推論を最適化する新しいアルゴリズムを提案する。 学習フェーズと推論フェーズの両方において,gpuクラスタを用いた2つのデータセットにロバストな結果を示す。

Automated Machine Learning with ensembling (or AutoML with ensembling) seeks to automatically build ensembles of Deep Neural Networks (DNNs) to achieve qualitative predictions. Ensemble of DNNs are well known to avoid over-fitting but they are memory and time consuming approaches. Therefore, an ideal AutoML would produce in one single run time different ensembles regarding accuracy and inference speed. While previous works on AutoML focus to search for the best model to maximize its generalization ability, we rather propose a new AutoML to build a larger library of accurate and diverse individual models to then construct ensembles. First, our extensive benchmarks show asynchronous Hyperband is an efficient and robust way to build a large number of diverse models to combine them. Then, a new ensemble selection method based on a multi-objective greedy algorithm is proposed to generate accurate ensembles by controlling their computing cost. Finally, we propose a novel algorithm to optimize the inference of the DNNs ensemble in a GPU cluster based on allocation optimization. The produced AutoML with ensemble method shows robust results on two datasets using efficiently GPU clusters during both the training phase and the inference phase.
翻訳日:2022-08-31 13:38:15 公開日:2022-08-30
# 深部ニューラルネットワークの異種アンサンブル提供のための効率的かつ柔軟な推論システム

An efficient and flexible inference system for serving heterogeneous ensembles of deep neural networks ( http://arxiv.org/abs/2208.14049v1 )

ライセンス: Link先を確認
Pierrick Pochelu, Serge G. Petiton, Bruno Conche(参考訳) ディープニューラルネットワーク(DNN)のアンサンブルは定性的予測を達成しているが、それらは計算とメモリ集約である。 そのため、利用可能な計算リソースで大量の要求に答えるために需要が増大している。 単一のDNNの予測に焦点を当てた最近の推論サーバや推論フレームワークとは異なり、我々はDNNの柔軟性と効率のアンサンブルに対応する新しいソフトウェア層を提案する。 私たちの推論システムはいくつかの技術革新で設計されています。 まず、デバイス(CPUやGPU)とDNNインスタンス間の適切なアロケーション行列を見つけるための新しい手法を提案する。 メモリデバイスにDNNを割り当てる、そしてアロケーション設定を最適化し、アンサンブルを高速化する、欲張りのアルゴリズムを連続的に実行します。 第2に,バッチ処理や予測,結合ルールといった複数のプロセスに基づく推論システムを,オーバーヘッドを回避するために効率的な内部通信方式で設計する。 極端なシナリオ下での柔軟性と効率性を示す実験: 12個の重いDNNを4つのGPUにアンサンブルすることに成功した。 また、画像分類タスクにおいて、DNNのバッチサイズを最大2.7倍のスピードアップで最適化する単純なベースラインよりも優れている。

Ensembles of Deep Neural Networks (DNNs) have achieved qualitative predictions but they are computing and memory intensive. Therefore, the demand is growing to make them answer a heavy workload of requests with available computational resources. Unlike recent initiatives on inference servers and inference frameworks, which focus on the prediction of single DNNs, we propose a new software layer to serve with flexibility and efficiency ensembles of DNNs. Our inference system is designed with several technical innovations. First, we propose a novel procedure to find a good allocation matrix between devices (CPUs or GPUs) and DNN instances. It runs successively a worst-fit to allocate DNNs into the memory devices and a greedy algorithm to optimize allocation settings and speed up the ensemble. Second, we design the inference system based on multiple processes to run asynchronously: batching, prediction, and the combination rule with an efficient internal communication scheme to avoid overhead. Experiments show the flexibility and efficiency under extreme scenarios: It successes to serve an ensemble of 12 heavy DNNs into 4 GPUs and at the opposite, one single DNN multi-threaded into 16 GPUs. It also outperforms the simple baseline consisting of optimizing the batch size of DNNs by a speedup up to 2.7X on the image classification task.
翻訳日:2022-08-31 13:37:55 公開日:2022-08-30
# 深部繰り返し強化学習を用いたマルチユーザ遅延制約スケジューリング

Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning ( http://arxiv.org/abs/2208.14074v1 )

ライセンス: Link先を確認
Pihe Hu, Ling Pan, Yu Chen, Zhixuan Fang, Longbo Huang(参考訳) マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。 しかし、スケジューラがシステムダイナミクスの事前の情報なしで遅延とリソースの制約を同時に保証するためにリアルタイムの意思決定を行う必要があるため、これは重大な課題となる。 さらに、多くの実用的なシナリオは、例えばノイズや隠れた相関によって、部分的な可観測性の問題に悩まされる。 これらの課題に対処するために,recurrent softmax delay deep double deterministic policy gradient (\mathtt{rsd4}$) という,部分観察マルコフ決定過程(pomdp)に基づくデータ駆動型アルゴリズムを提案する。 $\mathtt{RSD4}$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。 また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的な可観測性に効率よく取り組み、拡張性を確保するためにユーザレベルの分解とノードレベルのマージを導入する。 シミュレーション/実世界のデータセットに関する大規模な実験は、$\mathtt{RSD4}$がシステムダイナミクスや部分的に観測可能な環境に対して堅牢であることを示し、既存のDRLや非DRLベースの手法よりも優れたパフォーマンスを実現している。

Multi-user delay constrained scheduling is important in many real-world applications including wireless communication, live streaming, and cloud computing. Yet, it poses a critical challenge since the scheduler needs to make real-time decisions to guarantee the delay and resource constraints simultaneously without prior information of system dynamics, which can be time-varying and hard to estimate. Moreover, many practical scenarios suffer from partial observability issues, e.g., due to sensing noise or hidden correlation. To tackle these challenges, we propose a deep reinforcement learning (DRL) algorithm, named Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient ($\mathtt{RSD4}$), which is a data-driven method based on a Partially Observed Markov Decision Process (POMDP) formulation. $\mathtt{RSD4}$ guarantees resource and delay constraints by Lagrangian dual and delay-sensitive queues, respectively. It also efficiently tackles partial observability with a memory mechanism enabled by the recurrent neural network (RNN) and introduces user-level decomposition and node-level merging to ensure scalability. Extensive experiments on simulated/real-world datasets demonstrate that $\mathtt{RSD4}$ is robust to system dynamics and partially observable environments, and achieves superior performances over existing DRL and non-DRL-based methods.
翻訳日:2022-08-31 13:37:30 公開日:2022-08-30
# OpenCLカーネルにおけるNLPに基づくデバイスマッピング最適化の活用に向けて

Towards making the most of NLP-based device mapping optimization for OpenCL kernels ( http://arxiv.org/abs/2208.14124v1 )

ライセンス: Link先を確認
Petros Vavaroutsos, Ioannis Oroutzoglou, Dimosthenis Masouros, Dimitrios Soudris(参考訳) 現在我々は、極端なデバイスの不均質な時代に生きている。 従来のCPUアーキテクチャの多様さにもかかわらず、GPUやFPGAのようなアクセラレータデバイスも、アプリケーションを実行するための利用可能なソリューションのプールを爆発させる前景に現れている。 しかし、アプリケーションごとに適切なデバイスを選択するのは、ハードウェアとソフトウェアの抽象的な関係のため、非常に難しい作業です。 精度の高い自動最適化アルゴリズムは、現在のハードウェアやソフトウェアの複雑さや多様性に対処するために必要である。 最適な実行は常に時間を要するトライアルとエラーアプローチに依存しています。 機械学習(ml)と自然言語処理(nlp)は、深層アーキテクチャに焦点を当てた研究によって、過去10年間にわたって繁栄してきた。 この文脈では、自動チューニングタスクを実行するために自然言語処理技術がソースコードに使われていることが研究の新たな分野である。 本稿では,OpenCLカーネルの高速化に最適なデバイス選択(CPUやGPU)の問題に対処する,Cummins et al.(Deeptune)の取り組みを拡張する。 我々は、Deeptuneの3つの大きな制限を特定し、これに基づいてソースコードの文脈情報を提供する4つの異なるDNNモデルを提案する。 実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4倍に向上させることがわかった。

Nowadays, we are living in an era of extreme device heterogeneity. Despite the high variety of conventional CPU architectures, accelerator devices, such as GPUs and FPGAs, also appear in the foreground exploding the pool of available solutions to execute applications. However, choosing the appropriate device per application needs is an extremely challenging task due to the abstract relationship between hardware and software. Automatic optimization algorithms that are accurate are required to cope with the complexity and variety of current hardware and software. Optimal execution has always relied on time-consuming trial and error approaches. Machine learning (ML) and Natural Language Processing (NLP) has flourished over the last decade with research focusing on deep architectures. In this context, the use of natural language processing techniques to source code in order to conduct autotuning tasks is an emerging field of study. In this paper, we extend the work of Cummins et al., namely Deeptune, that tackles the problem of optimal device selection (CPU or GPU) for accelerated OpenCL kernels. We identify three major limitations of Deeptune and, based on these, we propose four different DNN models that provide enhanced contextual information of source codes. Experimental results show that our proposed methodology surpasses that of Cummins et al. work, providing up to 4\% improvement in prediction accuracy.
翻訳日:2022-08-31 13:37:03 公開日:2022-08-30
# RAGUEL: Recourse-Aware Group Unfairness Elimination

RAGUEL: Recourse-Aware Group Unfairness Elimination ( http://arxiv.org/abs/2208.14175v1 )

ライセンス: Link先を確認
Aparajita Haldar, Teddy Cunningham, Hakan Ferhatosmanoglu(参考訳) 機械学習とランキングベースのシステムは、センシティブな意思決定プロセス(例えば、求職者の決定、クレジットスコアの割り当てなど)に広く使われているが、それらは結果の意図しないバイアスに対する懸念に陥り、アルゴリズムによる公平性(例えば、人口格差、平等機会)が関心の対象となっている。 agorithmic recourse'は属性の変更を通じて望ましくない結果を変更するための実現可能なリカバリアクションを提供する。 提案する修正のコストを最小限に抑えながら、ランク付けされたグループレベルのリコース公正の概念を導入し、ランク付けされたリコース公正制約を満たす「リコース対応」ソリューションを開発する。 我々のソリューションは、データベースレコードのランク付けリストをリオーダーし、グループレベルの不公平を軽減できる介入を提案する。 この再ランクは、データポイントに対する最小限の変更を識別し、これらの属性は、リコースの容易さに応じて重み付けされる。 次に、任意の粒度(銀行ローン金利の複数括弧、検索エンジン検索結果の複数ページなど)で再ランク付けできる効率的なブロックベース拡張を提案する。 実際のデータセットの評価は、既存の方法がリコースの不公平を悪化させる可能性も示していますが、我々のソリューションであるraguelは、リコースを認識できる公平性を大幅に改善します。 RAGUELは、カウンターファクト生成と再ランク付けの複合プロセスを通じて、リコースフェアネスを改善するための代替手段よりも優れており、大規模なデータセットでは効率的である。

While machine learning and ranking-based systems are in widespread use for sensitive decision-making processes (e.g., determining job candidates, assigning credit scores), they are rife with concerns over unintended biases in their outcomes, which makes algorithmic fairness (e.g., demographic parity, equal opportunity) an objective of interest. 'Algorithmic recourse' offers feasible recovery actions to change unwanted outcomes through the modification of attributes. We introduce the notion of ranked group-level recourse fairness, and develop a 'recourse-aware ranking' solution that satisfies ranked recourse fairness constraints while minimizing the cost of suggested modifications. Our solution suggests interventions that can reorder the ranked list of database records and mitigate group-level unfairness; specifically, disproportionate representation of sub-groups and recourse cost imbalance. This re-ranking identifies the minimum modifications to data points, with these attribute modifications weighted according to their ease of recourse. We then present an efficient block-based extension that enables re-ranking at any granularity (e.g., multiple brackets of bank loan interest rates, multiple pages of search engine results). Evaluation on real datasets shows that, while existing methods may even exacerbate recourse unfairness, our solution -- RAGUEL -- significantly improves recourse-aware fairness. RAGUEL outperforms alternatives at improving recourse fairness, through a combined process of counterfactual generation and re-ranking, whilst remaining efficient for large-scale datasets.
翻訳日:2022-08-31 13:36:42 公開日:2022-08-30
# ダイナミックシーンにおける新しい視点と時間合成のための可搬型マルチスコープカメラ

A Portable Multiscopic Camera for Novel View and Time Synthesis in Dynamic Scenes ( http://arxiv.org/abs/2208.14433v1 )

ライセンス: Link先を確認
Tianjia Zhang, Yuen-Fui Lau, and Qifeng Chen(参考訳) ダイナミックなシーンにおける新しいビューと時間合成のための専用モデルを備えた携帯型マルチスコープカメラシステムを提案する。 当社の目標は,携帯型多眼カメラを用いて,任意の視点からダイナミックシーンに対して高品質な画像のレンダリングを行うことである。 このような新しい視点と時間合成を実現するために,ニューラル・ラジアンス・フィールド(nerf)を時間領域と空間領域の両方で訓練する5台のカメラを備えた物理多眼カメラを開発した。 本モデルでは,6次元座標(3次元空間位置,1次元時間座標,2次元視方向)を視野依存性および時間変動放射輝度および容積密度にマッピングする。 ボリュームレンダリングを適用して、所定のカメラポーズと時間で写真リアルな画像をレンダリングする。 物理カメラのロバスト性を改善するため,時間的情報伝達を促進するために,カメラパラメータ最適化モジュールと時間的フレーム補間モジュールを提案する。 システムを評価するために実世界と合成データセットの両方で実験を行い,本手法が質的かつ定量的に代替ソリューションを上回ることを示した。 私たちのコードとデータセットはhttps://yuenfuilau.github.ioで利用可能です。

We present a portable multiscopic camera system with a dedicated model for novel view and time synthesis in dynamic scenes. Our goal is to render high-quality images for a dynamic scene from any viewpoint at any time using our portable multiscopic camera. To achieve such novel view and time synthesis, we develop a physical multiscopic camera equipped with five cameras to train a neural radiance field (NeRF) in both time and spatial domains for dynamic scenes. Our model maps a 6D coordinate (3D spatial position, 1D temporal coordinate, and 2D viewing direction) to view-dependent and time-varying emitted radiance and volume density. Volume rendering is applied to render a photo-realistic image at a specified camera pose and time. To improve the robustness of our physical camera, we propose a camera parameter optimization module and a temporal frame interpolation module to promote information propagation across time. We conduct experiments on both real-world and synthetic datasets to evaluate our system, and the results show that our approach outperforms alternative solutions qualitatively and quantitatively. Our code and dataset are available at https://yuenfuilau.github.io.
翻訳日:2022-08-31 13:33:50 公開日:2022-08-30
# MapTR:オンラインベクトル化HDマップ構築のための構造化モデリングと学習

MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction ( http://arxiv.org/abs/2208.14437v1 )

ライセンス: Link先を確認
Bencheng Liao, Shaoyu Chen, Xinggang Wang, Tianheng Cheng, Qian Zhang, Wenyu Liu, Chang Huang(参考訳) オンラインベクトル化hdマップ構築のための構造化されたエンドツーエンドフレームワークであるmaptrを提案する。 本研究では,マップ要素の定義の曖昧さを回避し,学習を容易にするため,マップ要素を等価な置換群で設定した点としてモデル化する。 構造化地図情報を柔軟にエンコードし,マップ要素学習のための階層的2部マッチングを行う階層的問合せ埋め込み方式を採用する。 MapTRは、nuScenesデータセット上の既存のベクトル化マップ構築アプローチの中で、最高のパフォーマンスと効率を達成する。 特に、maptr-nanoはrtx 3090でリアルタイム推論速度(25.1$ fps)で動作し、既存の最先端カメラベースの方法よりも8\times$が速い。 MapTR-tinyは、既存の最先端のマルチモダリティメソッドよりも13.5$mAP高速である。 定性的な結果から,MapTRは複雑かつ多様な運転シーンにおいて,安定かつ堅牢なマップ構築品質を維持していることがわかった。 実世界のシナリオでの有効性を証明するためのデモは \url{https://github.com/hustvl/MapTR} で公開されている。 MapTRは自動運転において非常に大きな価値があります。 さらなる研究とアプリケーションを容易にするため、コードはリリースされる予定だ。

We present MapTR, a structured end-to-end framework for efficient online vectorized HD map construction. We propose a unified permutation-based modeling approach, i.e., modeling map element as a point set with a group of equivalent permutations, which avoids the definition ambiguity of map element and eases learning. We adopt a hierarchical query embedding scheme to flexibly encode structured map information and perform hierarchical bipartite matching for map element learning. MapTR achieves the best performance and efficiency among existing vectorized map construction approaches on nuScenes dataset. In particular, MapTR-nano runs at real-time inference speed ($25.1$ FPS) on RTX 3090, $8\times$ faster than the existing state-of-the-art camera-based method while achieving $3.3$ higher mAP. MapTR-tiny significantly outperforms the existing state-of-the-art multi-modality method by $13.5$ mAP while being faster. Qualitative results show that MapTR maintains stable and robust map construction quality in complex and various driving scenes. Abundant demos are available at \url{https://github.com/hustvl/MapTR} to prove the effectiveness in real-world scenarios. MapTR is of great application value in autonomous driving. Code will be released for facilitating further research and application.
翻訳日:2022-08-31 13:33:30 公開日:2022-08-30
# Denoising Padded Autoencoder を用いた表現学習と解釈可能なリアクタシステム診断

Representation Learning based and Interpretable Reactor System Diagnosis Using Denoising Padded Autoencoder ( http://arxiv.org/abs/2208.14319v1 )

ライセンス: Link先を確認
Chengyuan Li, Zhifang Qiu, Zhangrui Yan, Meifu Li(参考訳) Gen III原子炉の大量生産により、事故の迅速かつ効果的な診断に深層学習(DL)技術を用いる傾向が一般的である。 深層学習理論を用いた原子炉事故の診断における従来の課題を克服するために, ノイズや故障データに対するロバスト性を保証し, 解釈可能な診断プロセスを提案する。 まず,信号対雑音比25.0の乱れデータに対して,表現抽出器が依然として有効であり,最大40.0%のモニタリングデータが欠落している,新しいDenoising Padded Autoencoder (DPAE)を提案する。 第2に,dpaeエンコーダを用いた浅層統計学習アルゴリズムによる表現抽出のための診断フレームワークを提案し,41.8%,80.8%の分類・回帰タスク評価指標を用いたステップワイズ診断手法を,エンドツーエンドの診断手法と比較検討した。 最後に、SHAPと特徴アブレーションを用いた階層的解釈アルゴリズムを提案し、入力監視パラメータの重要性を分析し、高い重要性パラメータの有効性を検証する。 本研究の結果は, 高安全性のシナリオにおいて, 堅牢かつ解釈可能な原子炉異常診断システムを構築するための参照手法を提供する。

With the mass construction of Gen III nuclear reactors, it is a popular trend to use deep learning (DL) techniques for fast and effective diagnosis of possible accidents. To overcome the common problems of previous work in diagnosing reactor accidents using deep learning theory, this paper proposes a diagnostic process that ensures robustness to noisy and crippled data and is interpretable. First, a novel Denoising Padded Autoencoder (DPAE) is proposed for representation extraction of monitoring data, with representation extractor still effective on disturbed data with signal-to-noise ratios up to 25.0 and monitoring data missing up to 40.0%. Secondly, a diagnostic framework using DPAE encoder for extraction of representations followed by shallow statistical learning algorithms is proposed, and such stepwise diagnostic approach is tested on disturbed datasets with 41.8% and 80.8% higher classification and regression task evaluation metrics, in comparison with the end-to-end diagnostic approaches. Finally, a hierarchical interpretation algorithm using SHAP and feature ablation is presented to analyze the importance of the input monitoring parameters and validate the effectiveness of the high importance parameters. The outcomes of this study provide a referential method for building robust and interpretable intelligent reactor anomaly diagnosis systems in scenarios with high safety requirements.
翻訳日:2022-08-31 13:33:09 公開日:2022-08-30
# 電子健康記録における木に基づくサブグループ発見:DTG治療における治療効果の不均一性

Tree-based Subgroup Discovery In Electronic Health Records: Heterogeneity of Treatment Effects for DTG-containing Therapies ( http://arxiv.org/abs/2208.14329v1 )

ライセンス: Link先を確認
Jiabei Yang, Ann W. Mwangi, Rami Kantor, Issa J. Dahabreh, Monicah Nyambura, Allison Delong, Joseph W. Hogan and Jon A. Steingrimsson(参考訳) 電子健康記録(ehrs)から得られる豊富な縦長個人レベルデータは、治療効果の多様性を調べるために使用できる。 しかし, EHRデータを用いた治療効果の推定には, 時間的差異, 時間的・時間的に不整合な共変量測定, 治療課題と結果, ドロップアウトによる損失・フォローアップなど, いくつかの課題がある。 本稿では, 汎用相互作用木アルゴリズムと, グループ探索のための汎用データ駆動手法と, 縦目標最大推定法を組み合わせることで, 縦方向データを用いた不均一な処理効果を持つサブグループを探索する木系アルゴリズムであるSDLDアルゴリズムを開発した。 本アルゴリズムは,ヒト免疫不全ウイルス (HIV) のサブグループに応用され,Dolutegravirを含む抗レトロウイルス療法 (ART) を受ける場合と非Dolutegravirを含むARTを受ける場合とでは体重増加のリスクが高い。

The rich longitudinal individual level data available from electronic health records (EHRs) can be used to examine treatment effect heterogeneity. However, estimating treatment effects using EHR data poses several challenges, including time-varying confounding, repeated and temporally non-aligned measurements of covariates, treatment assignments and outcomes, and loss-to-follow-up due to dropout. Here, we develop the Subgroup Discovery for Longitudinal Data (SDLD) algorithm, a tree-based algorithm for discovering subgroups with heterogeneous treatment effects using longitudinal data by combining the generalized interaction tree algorithm, a general data-driven method for subgroup discovery, with longitudinal targeted maximum likelihood estimation. We apply the algorithm to EHR data to discover subgroups of people living with human immunodeficiency virus (HIV) who are at higher risk of weight gain when receiving dolutegravir-containing antiretroviral therapies (ARTs) versus when receiving non dolutegravir-containing ARTs.
翻訳日:2022-08-31 13:32:45 公開日:2022-08-30
# 量子化による正規化最適輸送の収束速度

Convergence Rates for Regularized Optimal Transport via Quantization ( http://arxiv.org/abs/2208.14391v1 )

ライセンス: Link先を確認
Stephan Eckstein, Marcel Nutz(参考訳) 正規化パラメータが消失するときに発散正規化最適輸送の収束について検討する。 相対エントロピーや$L^{p}$正規化,一般輸送コスト,マルチマルジナル問題を含む一般分散系のシャープレートを求める。 量子化とマルティンゲールカップリングを用いた新しい手法は、非コンパクトな辺数に適しており、特に、有限の$(2+\delta)$-momentを持つすべての辺数に対して、エントロピー正規化された2-wasserstein距離の鋭い前次項を達成する。

We study the convergence of divergence-regularized optimal transport as the regularization parameter vanishes. Sharp rates for general divergences including relative entropy or $L^{p}$ regularization, general transport costs and multi-marginal problems are obtained. A novel methodology using quantization and martingale couplings is suitable for non-compact marginals and achieves, in particular, the sharp leading-order term of entropically regularized 2-Wasserstein distance for all marginals with finite $(2+\delta)$-moment.
翻訳日:2022-08-31 13:32:27 公開日:2022-08-30
# 患者データを用いた深層学習型ライム病分類器のエキスパートオピニオン除去

Expert Opinion Elicitation for Assisting Deep Learning based Lyme Disease Classifier with Patient Data ( http://arxiv.org/abs/2208.14384v1 )

ライセンス: Link先を確認
Sk Imran Hossain, Jocelyn de Go\"er de Herve, David Abrial, Richard Emillion, Isabelle Lebertb, Yann Frendo, Delphine Martineau, Olivier Lesens, Engelbert Mephu Nguifo(参考訳) 深層学習法を用いたライム病の早期症状であるエリテマ・ミクラン (em) 皮膚病変の診断は, 長期合併症の予防に有効である。 ディープラーニングに基づくem認識に関する既存の研究は、ライム病関連画像と関連する患者データとのデータセットの欠如による病変画像のみを利用している。 医師は、診断を確認するために皮膚病変の背景に関する患者の情報に頼る。 患者データから算出した確率スコアを用いた深層学習モデルを支援するため,15名の医師の意見を得た。 解答過程について質問紙調査を行い,emに関する質問紙調査を行った。 医師は質問に対する答えに相対的な重みを与えた。 我々はガウス混合密度推定を用いて医師の評価を確率スコアに変換した。 確率モデル検証のための形式的概念解析と決定木を利用した。 抽出された確率スコアを利用して、画像ベースのディープラーニングLyme病前スキャナーを堅牢にすることができる。

Diagnosing erythema migrans (EM) skin lesion, the most common early symptom of Lyme disease using deep learning techniques can be effective to prevent long-term complications. Existing works on deep learning based EM recognition only utilizes lesion image due to the lack of a dataset of Lyme disease related images with associated patient data. Physicians rely on patient information about the background of the skin lesion to confirm their diagnosis. In order to assist the deep learning model with a probability score calculated from patient data, this study elicited opinion from fifteen doctors. For the elicitation process, a questionnaire with questions and possible answers related to EM was prepared. Doctors provided relative weights to different answers to the questions. We converted doctors evaluations to probability scores using Gaussian mixture based density estimation. For elicited probability model validation, we exploited formal concept analysis and decision tree. The elicited probability scores can be utilized to make image based deep learning Lyme disease pre-scanners robust.
翻訳日:2022-08-31 13:27:33 公開日:2022-08-30
# AIにおける正しい構成ランタイムの強化 - 調査

Correct-by-Construction Runtime Enforcement in AI -- A Survey ( http://arxiv.org/abs/2208.14426v1 )

ライセンス: Link先を確認
Bettina K\"onighofer, Roderick Bloem, R\"udiger Ehlers, Christian Pek(参考訳) 実行時執行(runtime enforcement)とは、実行時のシステムの正式な仕様に関して正しい動作を強制する理論、技術、ツールを指す。 本稿では,AIの安全性を強制する具体的なアプリケーション領域に対して,実行時執行器を構築する技術に興味がある。 本稿では,従来のai分野での安全性の扱い方と,ランタイム・インテンサを統合することで,自己学習エージェントの安全性に関するより形式的な保証が与えられるかについて議論する。 そこで我々は, 離散的行動空間と連続的行動空間のアプローチを区別する手法について検討した。 本稿の目的は,AIの応用によって生じる特定の課題に焦点をあて,異なる実施手法の利点と限界をより深く理解することである。 最後に,今後の課題と展望を紹介する。

Runtime enforcement refers to the theories, techniques, and tools for enforcing correct behavior with respect to a formal specification of systems at runtime. In this paper, we are interested in techniques for constructing runtime enforcers for the concrete application domain of enforcing safety in AI. We discuss how safety is traditionally handled in the field of AI and how more formal guarantees on the safety of a self-learning agent can be given by integrating a runtime enforcer. We survey a selection of work on such enforcers, where we distinguish between approaches for discrete and continuous action spaces. The purpose of this paper is to foster a better understanding of advantages and limitations of different enforcement techniques, focusing on the specific challenges that arise due to their application in AI. Finally, we present some open challenges and avenues for future work.
翻訳日:2022-08-31 13:27:19 公開日:2022-08-30
# 自己回帰モデルと注意モジュールを組み合わせた無学習画像圧縮

Learned Lossless Image Compression With Combined Autoregressive Models And Attention Modules ( http://arxiv.org/abs/2208.13974v1 )

ライセンス: Link先を確認
Ran Wang, Jinming Liu, Heming Sun, Jiro Katto(参考訳) ロスレス画像圧縮は画像圧縮の重要な研究分野である。 近年,WebP,JPEG2000,FLIFといった従来のロスレス手法と比較して,学習ベースの画像圧縮手法は印象的な性能を達成している。 しかし、損失のない圧縮に適用できる、印象的な圧縮方法がまだたくさんある。 そこで本研究では,損失圧縮に広く用いられている手法を探索し,損失圧縮に適用する。 損失圧縮で示されたガウス混合モデル(GMM)の印象的な性能に触発されて、GMMによる損失のないネットワークアーキテクチャを生成する。 注意モジュールや自己回帰モデルの成功に加えて、注意モジュールを活用し、ネットワークアーキテクチャにおける生画像に対する追加の自己回帰モデルを追加して性能を向上させることを提案する。 実験の結果,従来のロスレス圧縮手法や既存の学習手法よりも優れた性能を示した。

Lossless image compression is an essential research field in image compression. Recently, learning-based image compression methods achieved impressive performance compared with traditional lossless methods, such as WebP, JPEG2000, and FLIF. However, there are still many impressive lossy compression methods that can be applied to lossless compression. Therefore, in this paper, we explore the methods widely used in lossy compression and apply them to lossless compression. Inspired by the impressive performance of the Gaussian mixture model (GMM) shown in lossy compression, we generate a lossless network architecture with GMM. Besides noticing the successful achievements of attention modules and autoregressive models, we propose to utilize attention modules and add an extra autoregressive model for raw images in our network architecture to boost the performance. Experimental results show that our approach outperforms most classical lossless compression methods and existing learning-based methods.
翻訳日:2022-08-31 13:26:48 公開日:2022-08-30
# 安定化・分解・脱ノイズ:自己監督型蛍光顕微鏡による脱ノイズ

Stabilize, Decompose, and Denoise: Self-Supervised Fluoroscopy Denoising ( http://arxiv.org/abs/2208.14022v1 )

ライセンス: Link先を確認
Ruizhou Liu, Qiang Ma, Zhiwei Cheng, Yuanyuan Lyu, Jianji Wang, S. Kevin Zhou(参考訳) フルオロスコープ(Fluoroscopy)は、X線を使って3Dオブジェクトの内部のリアルタイム2Dビデオを取得し、外科医が特に介入中に病理組織や組織機能を観察するのを助ける画像技術である。 しかし、低線量x線の臨床使用が主な原因で発生する大ノイズに苦しむため、蛍光顕微鏡技術が必要となる。 このようなノイズは、被写体とx線イメージングシステムとの間の相対運動に挑戦される。 本稿では,蛍光画像の領域知識を活用した自己監督型3段階フレームワークを提案する。 安定化:まず光学フロー計算に基づいて動的パノラマを構築し,X線検出器の運動によって誘導される非定常背景を安定化させる。 (II) 分割: マスクを用いたロバスト原理成分分析(RPCA)分解法を提案し, 検出動作を伴う映像を低ランク背景とスパースフォアグラウンドに分離する。 このような分解は専門家の読書習慣を満たす。 (iii)デノワーズ:最終的に、背景と前景を自己教師付き学習戦略によって別々に弁別し、その弁別された部分を2つの時空間フィルターで最終出力に融合させる。 本研究の有効性を評価するために,27本の映像(1,568フレーム)と対応する基底真理のフルオロスコープデータセットを収集した。 本実験は, 標準的なアプローチと比較して, 騒音低減効果, 改善効果の面で著しく向上したことを示す。 最後に、専門家の評価はこの効果を確認します。

Fluoroscopy is an imaging technique that uses X-ray to obtain a real-time 2D video of the interior of a 3D object, helping surgeons to observe pathological structures and tissue functions especially during intervention. However, it suffers from heavy noise that mainly arises from the clinical use of a low dose X-ray, thereby necessitating the technology of fluoroscopy denoising. Such denoising is challenged by the relative motion between the object being imaged and the X-ray imaging system. We tackle this challenge by proposing a self-supervised, three-stage framework that exploits the domain knowledge of fluoroscopy imaging. (i) Stabilize: we first construct a dynamic panorama based on optical flow calculation to stabilize the non-stationary background induced by the motion of the X-ray detector. (ii) Decompose: we then propose a novel mask-based Robust Principle Component Analysis (RPCA) decomposition method to separate a video with detector motion into a low-rank background and a sparse foreground. Such a decomposition accommodates the reading habit of experts. (iii) Denoise: we finally denoise the background and foreground separately by a self-supervised learning strategy and fuse the denoised parts into the final output via a bilateral, spatiotemporal filter. To assess the effectiveness of our work, we curate a dedicated fluoroscopy dataset of 27 videos (1,568 frames) and corresponding ground truth. Our experiments demonstrate that it achieves significant improvements in terms of denoising and enhancement effects when compared with standard approaches. Finally, expert rating confirms this efficacy.
翻訳日:2022-08-31 13:26:32 公開日:2022-08-30
# 移動カメラビデオとしてのポイントクラウドの扱い:非参照品質評価基準

Treating Point Cloud as Moving Camera Videos: A No-Reference Quality Assessment Metric ( http://arxiv.org/abs/2208.14085v1 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Xiongkuo Min, Yu Fan, Guangtao Zhai(参考訳) ポイントクラウドは3Dコンテンツのための最も広く使われているデジタル表現フォーマットの1つであり、その視覚的品質は、製造プロセス中にノイズや幾何学的シフトに悩まされ、送信プロセス中に圧縮やダウンサンプリングを行う。 点雲品質評価(PCQA)の課題に対処するために、点雲の視覚的品質レベルを静的な2次元投影により評価する多くのPCQA手法が提案されている。 このようなプロジェクションベースのPCQA手法は、成熟した画像品質評価(IQA)手法の助けを借りて競合性能を達成するが、静的視点と動的視点の両方を通して点雲を知覚する傾向にあるという事実と完全に一致しない。 そこで本稿では,ポイントクラウドを移動カメラビデオとして扱うとともに,ビデオ品質評価(VQA)手法を非参照(NR)方式で使用することにより,PCQAタスクの処理方法について検討する。 まず、カメラを4つの円形経路を通して点雲の周りで回転させ、撮影したビデオを生成する。 次に,訓練可能な2D-CNNモデルと事前学習された3D-CNNモデルを用いて,選択したキーフレームとビデオクリップから空間的品質認識特徴を抽出する。 最後に、ポイントクラウドの視覚的品質は、後退したビデオの品質値で表される。 実験の結果,提案手法は点雲の視覚的品質レベルを予測するのに有効であり,全参照PCQA法と競合することがわかった。 アブレーション研究は,提案フレームワークの合理性をさらに検証し,ダイナミックビューから抽出した品質認識特徴による貢献を確認する。

Point cloud is one of the most widely used digital representation formats for 3D contents, the visual quality of which may suffer from noise and geometric shift during the production procedure as well as compression and downsampling during the transmission process. To tackle the challenge of point cloud quality assessment (PCQA), many PCQA methods have been proposed to evaluate the visual quality levels of point clouds by assessing the rendered static 2D projections. Although such projection-based PCQA methods achieve competitive performance with the assistance of mature image quality assessment (IQA) methods, they neglect the dynamic quality-aware information, which does not fully match the fact that observers tend to perceive the point clouds through both static and dynamic views. Therefore, in this paper, we treat the point clouds as moving camera videos and explore the way of dealing with PCQA tasks via using video quality assessment (VQA) methods in a no-reference (NR) manner. First, we generate the captured videos by rotating the camera around the point clouds through four circular pathways. Then we extract both spatial and temporal quality-aware features from the selected key frames and the video clips by using trainable 2D-CNN and pre-trained 3D-CNN models respectively. Finally, the visual quality of point clouds is represented by the regressed video quality values. The experimental results reveal that the proposed method is effective for predicting the visual quality levels of the point clouds and even competitive with full-reference (FR) PCQA methods. The ablation studies further verify the rationality of the proposed framework and confirm the contributions made by the quality-aware features extracted from dynamic views.
翻訳日:2022-08-31 13:26:03 公開日:2022-08-30
# ロボット用合成rgbd画像からの6次元ポーズ推定の学習

Learning 6D Pose Estimation from Synthetic RGBD Images for Robotic Applications ( http://arxiv.org/abs/2208.14288v1 )

ライセンス: Link先を確認
Hongpeng Cao, Lukas Dirnberger, Daniele Bernardini, Cristina Piazza, Marco Caccamo(参考訳) 本研究では,3DスイートBlenderを利用して,ロボットピッキングのための6Dポーズを用いた合成RGBD画像データセットを生成するデータ生成パイプラインを提案する。 提案するパイプラインは、興味のある対象に対して、大量のフォトリアリスティックなrgbd画像を生成することができる。 さらに,実データと合成データのギャップを埋めるために,領域ランダム化手法の集合を導入する。 さらに,物体検出器YOLO-V4-tinyと6次元ポーズ推定アルゴリズムPVN3Dを統合し,リアルタイム2次元ポーズ推定手法を開発した。 提案するデータ生成パイプラインでは,事前学習されたモデルを用いずに合成データのみを使用して,ポーズ推定手法をスクラッチからトレーニングできる。 結果として得られたネットワークは、LineModデータセットで評価した場合の最先端手法と比較して競合性能を示す。 また,照明条件の異なる背景から家庭の物体を把握し,ロボット実験において提案手法を実証する。

In this work, we propose a data generation pipeline by leveraging the 3D suite Blender to produce synthetic RGBD image datasets with 6D poses for robotic picking. The proposed pipeline can efficiently generate large amounts of photo-realistic RGBD images for the object of interest. In addition, a collection of domain randomization techniques is introduced to bridge the gap between real and synthetic data. Furthermore, we develop a real-time two-stage 6D pose estimation approach by integrating the object detector YOLO-V4-tiny and the 6D pose estimation algorithm PVN3D for time sensitive robotics applications. With the proposed data generation pipeline, our pose estimation approach can be trained from scratch using only synthetic data without any pre-trained models. The resulting network shows competitive performance compared to state-of-the-art methods when evaluated on LineMod dataset. We also demonstrate the proposed approach in a robotic experiment, grasping a household object from cluttered background under different lighting conditions.
翻訳日:2022-08-31 13:25:32 公開日:2022-08-30
# PanorAMS: 都市環境における物体検出のための自動アノテーション

PanorAMS: Automatic Annotation for Detecting Objects in Urban Context ( http://arxiv.org/abs/2208.14295v1 )

ライセンス: Link先を確認
Inske Groenen, Stevan Rudinac and Marcel Worring(参考訳) 地理的参照パノラマ画像の大規模なコレクションは、世界中の都市で自由に利用でき、また様々な都市オブジェクトの位置情報やメタデータを含む詳細な地図も利用できる。 都市オブジェクトに関する豊富な情報を提供するが、オブジェクト検出のための手動アノテーションは費用がかかり、手間がかかり、難しい。 このようなマルチメディアソースを使って、手動ラベリングに代わる安価な代用として、街路レベルの画像を自動的にアノテートできるだろうか? panoramsフレームワークでは,都市環境情報に基づくパノラマ画像のバウンディングボックスアノテーションを自動生成する手法を導入する。 提案手法に従えば,オープンなデータソースのみを高速かつ自動で,大規模かつノイズの多い都市データセットのアノテーションを得ることができる。 このデータセットはアムステルダム市をカバーし、771,299パノラマ画像に含まれる22のオブジェクトカテゴリの1400万以上のノイズ境界ボックスアノテーションを含んでいる。 多くのオブジェクトに対して、構築値、関数、平均表面積などの地理空間メタデータから得られる詳細な情報も利用できる。 このような情報は、不可能ではないとしても、画像のみに基づいた手動ラベリングによって入手することは困難だっただろう。 詳細な評価のために,panorams-cleanデータセットである7,348イメージのサブセットに対して,147,075個の接地オブジェクトアノテーションを取得するためにデプロイする,パノラマ画像のバウンディングボックスアノテーションのための効率的なクラウドソーシングプロトコルを提案する。 PanorAMS-Noisyデータセットでは、ノイズの広範な分析と、異なる種類のノイズが画像分類と物体検出性能に与える影響について述べる。 我々は、この論文で提示されたデータセット、PanorAMSノイズとPanorAMSクリーン、ベンチマークとツールの両方を公開しています。

Large collections of geo-referenced panoramic images are freely available for cities across the globe, as well as detailed maps with location and meta-data on a great variety of urban objects. They provide a potentially rich source of information on urban objects, but manual annotation for object detection is costly, laborious and difficult. Can we utilize such multimedia sources to automatically annotate street level images as an inexpensive alternative to manual labeling? With the PanorAMS framework we introduce a method to automatically generate bounding box annotations for panoramic images based on urban context information. Following this method, we acquire large-scale, albeit noisy, annotations for an urban dataset solely from open data sources in a fast and automatic manner. The dataset covers the City of Amsterdam and includes over 14 million noisy bounding box annotations of 22 object categories present in 771,299 panoramic images. For many objects further fine-grained information is available, obtained from geospatial meta-data, such as building value, function and average surface area. Such information would have been difficult, if not impossible, to acquire via manual labeling based on the image alone. For detailed evaluation, we introduce an efficient crowdsourcing protocol for bounding box annotations in panoramic images, which we deploy to acquire 147,075 ground-truth object annotations for a subset of 7,348 images, the PanorAMS-clean dataset. For our PanorAMS-noisy dataset, we provide an extensive analysis of the noise and how different types of noise affect image classification and object detection performance. We make both datasets, PanorAMS-noisy and PanorAMS-clean, benchmarks and tools presented in this paper openly available.
翻訳日:2022-08-31 13:25:15 公開日:2022-08-30
# 乳腺疾患のサーモグラフィ画像による診断結果の比較

Comparing Results of Thermographic Images Based Diagnosis for Breast Diseases ( http://arxiv.org/abs/2208.14410v1 )

ライセンス: Link先を確認
E. O. Rodrigues and A. Conci and T. B. Borchartt and A. C. Paiva and A. C. Silva and T. MacHenry(参考訳) 本稿では,乳腺疾患検出における赤外線画像の有用性について検討する。 公的データに適用した場合の異なるアプローチの整合性について,SVM (Support Vector Machine) などの悪性乳房状態を検出するアルゴリズムを用いて得られた結果を比較する。 さらに,臨床治験の補完として実際のIRイメージングの能力を活用し,高分解能IRイメージングを用いた研究を促進するために,乳医の信頼性向上が不可欠であると考えられた。 静的な取得プロトコルのみが私たちの作業で考慮されています。 プロ・エンゲンハリア (PROENG) 公開データベース (54例, 48例) から, lO2 IR 単一乳房画像を用いた。 これらの画像は、UFPE(Universidade Federal de Pernambuco)大学病院から収集された。 最良結果を示す著者らによって提案されたのと同じ特徴を用い,逐次最小最適化(smo)分類器を用いて61.7 %,youden index 0.24 の精度を得た。

This paper examines the potential contribution of infrared (IR) imaging in breast diseases detection. It compares obtained results using some algorithms for detection of malignant breast conditions such as Support Vector Machine (SVM) regarding the consistency of different approaches when applied to public data. Moreover, in order to avail the actual IR imaging's capability as a complement on clinical trials and to promote researches using high-resolution IR imaging we deemed the use of a public database revised by confidently trained breast physicians as essential. Only the static acquisition protocol is regarded in our work. We used lO2 IR single breast images from the Pro Engenharia (PROENG) public database (54 normal and 48 with some finding). These images were collected from Universidade Federal de Pernambuco (UFPE) University's Hospital. We employed the same features proposed by the authors of the work that presented the best results and achieved an accuracy of 61.7 % and Youden index of 0.24 using the Sequential Minimal Optimization (SMO) classifier.
翻訳日:2022-08-31 13:24:44 公開日:2022-08-30
# 一次元畳み込みニューラルネットワークによる赤ワイン品質の予測

Prediction of Red Wine Quality Using One-dimensional Convolutional Neural Networks ( http://arxiv.org/abs/2208.14008v1 )

ライセンス: Link先を確認
Shengnan Di(参考訳) アルコール飲料として、何千年もワインは普及し続けており、ワインの品質評価はワインの生産と貿易において重要である。 ワインの品質予測には、サポートベクターマシン(SVM)、ランダムフォレスト(RF)、Kネアレスト隣人(KNN)、ディープニューラルネットワーク(DNN)、ロジスティック回帰(LR)など、さまざまなディープラーニングと機械学習アルゴリズムが提案されている。 しかし、これらの方法は、pH値、固定酸、クエン酸等との相関関係など、ワインの物性と化学的性質の内的関係を無視する。 このギャップを埋めるために,Pearson相関解析,PCA解析,Shapiro-Wilkテストを行い,隣接する特徴間の相関を捉えるために1D-CNNアーキテクチャを組み込んだ。 さらに,提案モデルのロバスト性を改善するために,ドロップアウトおよびバッチ正規化手法を実装した。 大規模実験により,本手法はワイン品質予測のベースラインアプローチを上回ることができることが示された。 さらに, アブレーション実験により, 1次元cnnモジュール, ドロップアウト, 正規化手法を組み込む効果も示された。

As an alcoholic beverage, wine has remained prevalent for thousands of years, and the quality assessment of wines has been significant in wine production and trade. Scholars have proposed various deep learning and machine learning algorithms for wine quality prediction, such as Support vector machine (SVM), Random Forest (RF), K-nearest neighbors (KNN), Deep neural network (DNN), and Logistic regression (LR). However, these methods ignore the inner relationship between the physical and chemical properties of the wine, for example, the correlations between pH values, fixed acidity, citric acid, and so on. To fill the gap, this paper conducts the Pearson correlation analysis, PCA analysis, and Shapiro-Wilk test on those properties and incorporates 1D-CNN architecture to capture the correlations among neighboring features. In addition, it implemented dropout and batch normalization techniques to improve the robustness of the proposed model. Massive experiments have shown that our method can outperform baseline approaches in wine quality prediction. Moreover, ablation experiments also demonstrate the effectiveness of incorporating the 1-D CNN module, Dropout, and normalization techniques.
翻訳日:2022-08-31 13:21:23 公開日:2022-08-30
# 相対正規化流を用いた異常検出

Anomaly Detection using Contrastive Normalizing Flows ( http://arxiv.org/abs/2208.14024v1 )

ライセンス: Link先を確認
Robert Schmier, Ullrich K\"othe, Christoph-Nikolas Straehle(参考訳) トレーニングデータから逸脱したテストデータを検出することは、安全で堅牢な機械学習の中心的な問題である。 生成モデル(例えば、標準的なログライクなトレーニングによる正規化フロー)によって学習される確率は、異常スコアとして不十分である。 非ラベル付き補助データセットと確率的外れ値を用いた異常検出を提案する。 補助データセット上で訓練された自己教師付き特徴抽出器を用いて,分布内データの確率を最大化し,補助データセットの確率を最小化することにより,抽出された特徴の正規化フローを訓練する。 これは,分布内分布と補助特徴密度の正規化正差の学習と等価であることを示す。 ベンチマークデータセットを用いた実験を行い, 確率, 確率比法, 最先端異常検出法と比較してロバストな改善を示す。

Detecting test data deviating from training data is a central problem for safe and robust machine learning. Likelihoods learned by a generative model, e.g., a normalizing flow via standard log-likelihood training, perform poorly as an anomaly score. We propose to use an unlabelled auxiliary dataset and a probabilistic outlier score for anomaly detection. We use a self-supervised feature extractor trained on the auxiliary dataset and train a normalizing flow on the extracted features by maximizing the likelihood on in-distribution data and minimizing the likelihood on the auxiliary dataset. We show that this is equivalent to learning the normalized positive difference between the in-distribution and the auxiliary feature density. We conduct experiments on benchmark datasets and show a robust improvement compared to likelihood, likelihood ratio methods and state-of-the-art anomaly detection methods.
翻訳日:2022-08-31 13:20:59 公開日:2022-08-30
# 時系列グラフ学習のための時間変数曲線付き自己教師付きリーマンGNN

A Self-supervised Riemannian GNN with Time Varying Curvature for Temporal Graph Learning ( http://arxiv.org/abs/2208.14073v1 )

ライセンス: Link先を確認
Li Sun, Junda Ye, Hao Peng, Philip S. Yu(参考訳) 時間グラフ上の表現学習は、現実世界の幅広い応用においてその基本的な重要性から、かなりの研究の注目を集めている。 多くの研究が時間依存表現の獲得に成功したが、それでも大きな課題に直面している。 一方、既存の手法のほとんどは、ある曲率で埋め込み空間を制限している。 しかし、その基礎となる幾何学は、時間の経過とともに、正の曲率超球面、零曲率ユークリッド空間、負曲率双曲空間の間でシフトする。 一方、これらの手法は通常、時間表現を学ぶために豊富なラベルを必要とし、その結果、実アプリケーションのラベルのないグラフでの使用を著しく制限する。 このギャップを埋めるために、一般リーマン空間における自己教師付き時空グラフ表現学習の問題を初めて研究し、超球面、ユークリッド空間、双曲空間間の移動に対する時間変化曲率を支持した。 本稿では,新しい自己教師付きリーマングラフニューラルネットワーク(selfrgnn)を提案する。 具体的には、理論的に基底化された時間符号化を持つ曲率可変リーマンGNNを設計し、時間とともに関数的曲率を定式化し、正、零、負の曲率空間間の進化シフトをモデル化する。 自己教師付き学習を可能にするために,新しい重み付け自己矛盾的アプローチを提案し,拡張せずにリーマン空間自体を探索し,リッチ曲率を用いたエッジベースの自己教師付き曲率学習を提案する。 広範な実験により, selfrgnn の優越性が示され, さらに, 時空グラフの時間変化曲率を実例で示す。

Representation learning on temporal graphs has drawn considerable research attention owing to its fundamental importance in a wide spectrum of real-world applications. Though a number of studies succeed in obtaining time-dependent representations, it still faces significant challenges. On the one hand, most of the existing methods restrict the embedding space with a certain curvature. However, the underlying geometry in fact shifts among the positive curvature hyperspherical, zero curvature Euclidean and negative curvature hyperbolic spaces in the evolvement over time. On the other hand, these methods usually require abundant labels to learn temporal representations, and thereby notably limit their wide use in the unlabeled graphs of the real applications. To bridge this gap, we make the first attempt to study the problem of self-supervised temporal graph representation learning in the general Riemannian space, supporting the time-varying curvature to shift among hyperspherical, Euclidean and hyperbolic spaces. In this paper, we present a novel self-supervised Riemannian graph neural network (SelfRGNN). Specifically, we design a curvature-varying Riemannian GNN with a theoretically grounded time encoding, and formulate a functional curvature over time to model the evolvement shifting among the positive, zero and negative curvature spaces. To enable the self-supervised learning, we propose a novel reweighting self-contrastive approach, exploring the Riemannian space itself without augmentation, and propose an edge-based self-supervised curvature learning with the Ricci curvature. Extensive experiments show the superiority of SelfRGNN, and moreover, the case study shows the time-varying curvature of temporal graph in reality.
翻訳日:2022-08-31 13:20:46 公開日:2022-08-30
# ANT:低ビットディープニューラルネットワーク量子化のための適応型数値型をエクスプロイトする

ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization ( http://arxiv.org/abs/2208.14286v1 )

ライセンス: Link先を確認
Cong Guo, Chen Zhang, Jingwen Leng, Zihan Liu, Fan Yang, Yunxin Liu, Minyi Guo, Yuhao Zhu(参考訳) 量子化(quantization)は、DNNモデルの計算とメモリコストを削減し、ますます大きくなってきている技術である。 既存の量子化ソリューションは固定点整数または浮動小数点型を使用し、どちらも元のモデルの精度を維持するためにより多くのビットを必要とする。 一方、可変長量子化は正規値の低ビット量子化と外れ値の分数に対する高精度を用いる。 この一連の作業はアルゴリズム的な利点をもたらすが、可変長エンコーディングと復号化によるハードウェアオーバーヘッドも大きい。 本研究では,ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。 我々のデータ型ANTは、DNNモデルにおけるテンソル内およびテンソル間適応の機会を活用するために、2つの重要なイノベーションを活用する。 まず,テンソル内の異なる値の重要性に適応するために,フロートとイントの利点を組み合わせたデータ型 flint を提案する。 第2に,各テンソルの分布特性に応じて最適な型を選択する適応フレームワークを提案する。 ANTのための統一処理要素アーキテクチャを設計し、既存のDNNアクセラレータと統合しやすいことを示す。 我々の設計は、最先端の量子化加速器よりも2.8$\times$スピードアップと2.5$\times$エネルギー効率の改善をもたらす。

Quantization is a technique to reduce the computation and memory cost of DNN models, which are getting increasingly large. Existing quantization solutions use fixed-point integer or floating-point types, which have limited benefits, as both require more bits to maintain the accuracy of original models. On the other hand, variable-length quantization uses low-bit quantization for normal values and high-precision for a fraction of outlier values. Even though this line of work brings algorithmic benefits, it also introduces significant hardware overheads due to variable-length encoding and decoding. In this work, we propose a fixed-length adaptive numerical data type called ANT to achieve low-bit quantization with tiny hardware overheads. Our data type ANT leverages two key innovations to exploit the intra-tensor and inter-tensor adaptive opportunities in DNN models. First, we propose a particular data type, flint, that combines the advantages of float and int for adapting to the importance of different values within a tensor. Second, we propose an adaptive framework that selects the best type for each tensor according to its distribution characteristics. We design a unified processing element architecture for ANT and show its ease of integration with existing DNN accelerators. Our design results in 2.8$\times$ speedup and 2.5$\times$ energy efficiency improvement over the state-of-the-art quantization accelerators.
翻訳日:2022-08-31 13:20:01 公開日:2022-08-30
# 継続的学習を監督する超越性: レビュー

Beyond Supervised Continual Learning: a Review ( http://arxiv.org/abs/2208.14307v1 )

ライセンス: Link先を確認
Benedikt Bagus, Alexander Gepperth, Timoth\'ee Lesort(参考訳) 連続学習(英: Continual Learning、CL)は、定常データ分布の通常の仮定を緩和あるいは省略する機械学習のフレーバーである。 例えば、CL問題におけるDNNをナビゲート的に適用すると、データ分布の変化は、いわゆる破滅的な忘れ(CF)効果、すなわち以前の知識の突然の喪失を引き起こす。 clの実現に多くの重要な貢献がなされているが、ほとんどの作品は監督された(分類)問題に取り組んでいる。 本稿では,clを他の場面で研究する文献について検討する。例えば,監督の少ない学習,教師なし学習,強化学習などである。 clのアプローチを分類するための単純なスキーマの提案に加えて、それぞれの設定に関連する具体的な課題と、clの分野全般への潜在的な貢献について論じる。

Continual Learning (CL, sometimes also termed incremental learning) is a flavor of machine learning where the usual assumption of stationary data distribution is relaxed or omitted. When naively applying, e.g., DNNs in CL problems, changes in the data distribution can cause the so-called catastrophic forgetting (CF) effect: an abrupt loss of previous knowledge. Although many significant contributions to enabling CL have been made in recent years, most works address supervised (classification) problems. This article reviews literature that study CL in other settings, such as learning with reduced supervision, fully unsupervised learning, and reinforcement learning. Besides proposing a simple schema for classifying CL approaches w.r.t. their level of autonomy and supervision, we discuss the specific challenges associated with each setting and the potential contributions to the field of CL in general.
翻訳日:2022-08-31 13:19:41 公開日:2022-08-30
# クラウドにおける分散ディープラーニングの解析

Analysis of Distributed Deep Learning in the Cloud ( http://arxiv.org/abs/2208.14344v1 )

ライセンス: Link先を確認
Aakash Sharma, Vivek M. Bhasi, Sonali Singh, Rishabh Jain, Jashwant Raj Gunasekaran, Subrata Mitra, Mahmut Taylan Kandemir, George Kesidis, Chita R. Das(参考訳) 本研究では,DDL がパブリッククラウド上で実行している際の様々な実行 "ストール" を判定できる総合分散ディープラーニング (DDL) プロファイラを導入することで,この問題を解決することを目的とする。 我々は,ネットワークと相互接続の2種類の通信ストールを推定するために,事前作業を拡張してプロファイラを実装した。 プロファイラを使用して一般的なDNNモデルをトレーニングして、さまざまなAWS GPUインスタンスを特徴付け、ユーザが情報的な決定を下すためのメリットと欠点をリストアップします。 より高価なGPUインスタンスは、すべてのDNNモデルにとって最もパフォーマンスが良くない可能性があり、AWSは、ハードウェア相互接続リソースを亜最適に割り当てる可能性がある。 具体的には、マシン内相互接続は、DNNトレーニング時間の最大90%の通信オーバーヘッドを導入でき、ネットワーク接続インスタンスは、単一のインスタンスでのトレーニングと比較して最大5倍の遅延を被る可能性がある。 さらに,層数や勾配数といったdnnのマクロな特徴が通信失速に与える影響をモデル化した。 最後に,ユーザがDDLの公開クラウド金融コストを抑えるための計測ベースのレコメンデーションモデルを提案する。

We aim to resolve this problem by introducing a comprehensive distributed deep learning (DDL) profiler, which can determine the various execution "stalls" that DDL suffers from while running on a public cloud. We have implemented the profiler by extending prior work to additionally estimate two types of communication stalls - interconnect and network stalls. We train popular DNN models using the profiler to characterize various AWS GPU instances and list their advantages and shortcomings for users to make an informed decision. We observe that the more expensive GPU instances may not be the most performant for all DNN models and AWS may sub-optimally allocate hardware interconnect resources. Specifically, the intra-machine interconnect can introduce communication overheads up to 90% of DNN training time and network-connected instances can suffer from up to 5x slowdown compared to training on a single instance. Further, we model the impact of DNN macroscopic features such as the number of layers and the number of gradients on communication stalls. Finally, we propose a measurement-based recommendation model for users to lower their public cloud monetary costs for DDL, given a time budget.
翻訳日:2022-08-31 13:19:28 公開日:2022-08-30
# 抽象モデルに基づく強化学習の分析

An Analysis of Abstracted Model-Based Reinforcement Learning ( http://arxiv.org/abs/2208.14407v1 )

ライセンス: Link先を確認
Rolf A. N. Starre, Marco Loog, Frans A. Oliehoek(参考訳) モデルベース強化学習(mbrl)のための多くの手法は、提供できるマルコフ決定プロセス(mdp)モデルの精度と学習効率の両方を保証する。 同時に、状態抽象化技術は、元の問題に関して境界損失を維持しながら、MDPのサイズを縮小することができる。 したがって、MBRLが抽象状態のみを観測する場合、両方の技術を組み合わせる際にそのような保証が得られないことは驚きである。 我々の理論的分析は、オンラインで収集されたサンプル(例えば現実世界)間の依存関係を抽象化することで、MBRLのほとんどの結果が直接この設定に拡張できないことを示す。 本研究の新しい結果は,マーチンガレットの濃度不等式を用いてこの問題を克服し,R-MAXなどのアルゴリズムの結果を抽象的な設定にまで拡張できることを示した。 したがって、抽象RLの最初の性能保証を生成する:抽象モデルを用いたモデルベース強化学習。

Many methods for Model-based Reinforcement learning (MBRL) provide guarantees for both the accuracy of the Markov decision process (MDP) model they can deliver and the learning efficiency. At the same time, state abstraction techniques allow for a reduction of the size of an MDP while maintaining a bounded loss with respect to the original problem. It may come as a surprise, therefore, that no such guarantees are available when combining both techniques, i.e., where MBRL merely observes abstract states. Our theoretical analysis shows that abstraction can introduce a dependence between samples collected online (e.g., in the real world), which means that most results for MBRL can not be directly extended to this setting. The new results in this work show that concentration inequalities for martingales can be used to overcome this problem and allows for extending the results of algorithms such as R-MAX to the setting with abstraction. Thus producing the first performance guarantees for Abstracted RL: model-based reinforcement learning with an abstracted model.
翻訳日:2022-08-31 13:19:07 公開日:2022-08-30
# 車線協調のための知的知覚システム

Intelligent Perception System for Vehicle-Road Cooperation ( http://arxiv.org/abs/2208.14052v1 )

ライセンス: Link先を確認
Songbin Chen(参考訳) 自動運転車の開発により、個々の車両の自動運転技術の改善がボトルネックになってきた。 自動車と道路の協調自動運転技術の進歩は、車両の認識範囲を拡大し、視覚障害領域を補完し、認識精度を向上し、自動運転技術の開発を促進し、車両と道路の統合を実現する。 このプロジェクトでは主にライダーを用いて、車両と道路機器データの共有と組み合わせを実現し、動的目標の検出と追跡を実現するためにデータ融合方式を開発する。 同時に、車道協調システムのためのいくつかのテストシナリオが設計され、車道協調認識システムをテストするために使用され、単車運転よりも車道協調運転の利点が証明された。

With the development of autonomous driving, the improvement of autonomous driving technology for individual vehicles has reached the bottleneck. The advancement of vehicle-road cooperation autonomous driving technology can expand the vehicle's perception range, supplement the perception blind area and improve the perception accuracy, to promote the development of autonomous driving technology and achieve vehicle-road integration. This project mainly uses lidar to develop data fusion schemes to realize the sharing and combination of vehicle and road equipment data and achieve the detection and tracking of dynamic targets. At the same time, some test scenarios for the vehicle-road cooperative system were designed and used to test our vehicle-road cooperative awareness system, which proved the advantages of vehicle-road cooperative autonomous driving over single-vehicle autonomous driving.
翻訳日:2022-08-31 13:18:35 公開日:2022-08-30
# ディエングリング形状と外観による制御可能な3次元生成逆顔モデル

Controllable 3D Generative Adversarial Face Model via Disentangling Shape and Appearance ( http://arxiv.org/abs/2208.14263v1 )

ライセンス: Link先を確認
Fariborz Taherkhani, Aashish Rai, Quankai Gao, Shaunak Srivastava, Xuanbai Chen, Fernando de la Torre, Steven Song, Aayush Prakash, Daeil Kim(参考訳) 3d顔モデリングはコンピュータビジョンとコンピュータグラフィックスの研究の活発な分野であり、仮想アバターの表情の伝達から合成データ生成まで幅広い応用を加速している。 既存の3dディープラーニング生成モデル(例えばvae、gan)は、形状と外観空間(例えば散乱効果、スペクティリティなど)における非線形をモデル化できるコンパクトな顔表現(形状とテクスチャの両方)を生成することができる。 しかし、微妙な表現の生成を制御する能力は欠如している。 本稿では,識別と表現を分離し,表現の粒度を制御できる新しい3次元顔生成モデルを提案する。 特に,教師付き自動エンコーダと生成的対向ネットワークを用いて,外観と形状の両面で高品質な3D顔を生成することを提案する。 包括的表現ラベル(Action Unit labels)を用いて学習した3次元顔の生成実験は、アイデンティティと表現を分離する方法を示し、アイデンティティを保ちながら表現を微調整する。

3D face modeling has been an active area of research in computer vision and computer graphics, fueling applications ranging from facial expression transfer in virtual avatars to synthetic data generation. Existing 3D deep learning generative models (e.g., VAE, GANs) allow generating compact face representations (both shape and texture) that can model non-linearities in the shape and appearance space (e.g., scatter effects, specularities, etc.). However, they lack the capability to control the generation of subtle expressions. This paper proposes a new 3D face generative model that can decouple identity and expression and provides granular control over expressions. In particular, we propose using a pair of supervised auto-encoder and generative adversarial networks to produce high-quality 3D faces, both in terms of appearance and shape. Experimental results in the generation of 3D faces learned with holistic expression labels, or Action Unit labels, show how we can decouple identity and expression; gaining fine-control over expressions while preserving identity.
翻訳日:2022-08-31 13:16:06 公開日:2022-08-30
# 原型学習による粗い網膜病変アノテーションの精製

Coarse Retinal Lesion Annotations Refinement via Prototypical Learning ( http://arxiv.org/abs/2208.14294v1 )

ライセンス: Link先を確認
Qinji Yu, Kang Dang, Ziyu Zhou, Yongwei Chen, Xiaowei Ding(参考訳) 網膜病変のセグメンテーションに対するディープラーニングに基づくアプローチは、しばしば大量の正確なピクセル単位のアノテートデータを必要とする。 しかし、病変領域をアウトラインする円や楕円のような粗いアノテーションはピクセルレベルのアノテーションより6倍効率が良い。 そこで本研究では,粗いアノテーションを画素レベルのセグメンテーションマスクに変換するアノテーション改善ネットワークを提案する。 我々の主な特徴は、異なるデータセットや病巣の種類にまたがる一般化能力を高めるためのプロトタイプ学習パラダイムの応用である。 また,病変が過度に小さすぎる難治性症例に対処するための試作モジュールも導入した。 提案手法は,公開可能なIDRiDデータセットに基づいてトレーニングを行い,公開DDRと実世界のプライベートデータセットに一般化した。 実験の結果,初期粗面を実質的に改善し,非定型ベースラインを大きなマージンで上回った。 さらに,クロスデータセットとクロスクラス設定の両方において,プロトタイプ重み付けモジュールの有用性を示す。

Deep-learning-based approaches for retinal lesion segmentation often require an abundant amount of precise pixel-wise annotated data. However, coarse annotations such as circles or ellipses for outlining the lesion area can be six times more efficient than pixel-level annotation. Therefore, this paper proposes an annotation refinement network to convert a coarse annotation into a pixel-level segmentation mask. Our main novelty is the application of the prototype learning paradigm to enhance the generalization ability across different datasets or types of lesions. We also introduce a prototype weighing module to handle challenging cases where the lesion is overly small. The proposed method was trained on the publicly available IDRiD dataset and then generalized to the public DDR and our real-world private datasets. Experiments show that our approach substantially improved the initial coarse mask and outperformed the non-prototypical baseline by a large margin. Moreover, we demonstrate the usefulness of the prototype weighing module in both cross-dataset and cross-class settings.
翻訳日:2022-08-31 13:15:47 公開日:2022-08-30
# 生体画像の複合図形分離:自己教師付き学習のための大規模データセットのマイニング

Compound Figure Separation of Biomedical Images: Mining Large Datasets for Self-supervised Learning ( http://arxiv.org/abs/2208.14357v1 )

ライセンス: Link先を確認
Tianyuan Yao, Chang Qu, Jun Long, Quan Liu, Ruining Deng, Yuanhan Tian, Jiachen Xu, Aadarsh Jha, Zuhayr Asad, Shunxing Bao, Mengyang Zhao, Agnes B. Fogo, Bennett A.Landman, Haichun Yang, Catie Chang, Yuankai Huo(参考訳) 自己教師付き学習(例えば、対照的な学習)の急速な発展により、より一般化可能なAIモデルを訓練するための大規模な画像を持つことの重要性は、医用画像解析において広く認識されている。 しかし、大規模タスク固有の無注釈データを大規模に収集することは、個々の研究室にとって困難である。 デジタル書籍、出版物、検索エンジンなどの既存のオンラインリソースは、大規模な画像を取得するための新しいリソースを提供する。 しかし、医療(例えば放射線学や病理学)で公開された画像は、サブプロットを持つ大量の複合人物で構成されている。 下流学習に使用可能な個々の画像から複合図形を抽出・分離するために,従来の検出バウンディングボックスアノテーションを使わずに簡易な複合図形分離(simcfs)フレームワークを提案する。 我々は,(1)資源の広範な境界付きボックスアノテーションの必要性を最小限に抑えるシミュレーションベースのトレーニングフレームワークを導入すること,(2)複合図形分離に最適化された新たなサイドロスを提案すること,(3)ハードケースをシミュレートするクラス内画像拡張手法を提案すること,(4)我々の知る限りでは,複合画像分離による自己教師付き学習の有効性を評価する最初の研究である。 提案したSimCFSは、ImageCLEF 2016 Compound Figure Separation Database上で最先端の性能を達成した。 大規模マイニング図を用いた事前学習学習モデルにより、コントラスト学習アルゴリズムを用いて下流画像分類作業の精度が向上した。 SimCFSのソースコードはhttps://github.com/hrlblab/ImageSeperationで公開されている。

With the rapid development of self-supervised learning (e.g., contrastive learning), the importance of having large-scale images (even without annotations) for training a more generalizable AI model has been widely recognized in medical image analysis. However, collecting large-scale task-specific unannotated data at scale can be challenging for individual labs. Existing online resources, such as digital books, publications, and search engines, provide a new resource for obtaining large-scale images. However, published images in healthcare (e.g., radiology and pathology) consist of a considerable amount of compound figures with subplots. In order to extract and separate compound figures into usable individual images for downstream learning, we propose a simple compound figure separation (SimCFS) framework without using the traditionally required detection bounding box annotations, with a new loss function and a hard case simulation. Our technical contribution is four-fold: (1) we introduce a simulation-based training framework that minimizes the need for resource extensive bounding box annotations; (2) we propose a new side loss that is optimized for compound figure separation; (3) we propose an intra-class image augmentation method to simulate hard cases; and (4) to the best of our knowledge, this is the first study that evaluates the efficacy of leveraging self-supervised learning with compound image separation. From the results, the proposed SimCFS achieved state-of-the-art performance on the ImageCLEF 2016 Compound Figure Separation Database. The pretrained self-supervised learning model using large-scale mined figures improved the accuracy of downstream image classification tasks with a contrastive learning algorithm. The source code of SimCFS is made publicly available at https://github.com/hrlblab/ImageSeperation.
翻訳日:2022-08-31 13:15:33 公開日:2022-08-30
# テキストに基づく人物探索における画像固有情報抑圧と暗黙的局所アライメント

Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search ( http://arxiv.org/abs/2208.14365v1 )

ライセンス: Link先を確認
Shuanglin Yan, Hao Tang, Liyan Zhang and Jinhui Tang(参考訳) テキストベースの人物検索は,問合せ文が記載された画像ギャラリーから同一の同一性を持つ歩行者画像を検索することを目的とした課題である。 近年,テキストに基づく人物検索が進歩し,画像とテキストの局所的な微粒化対応を学習することで,最先端の手法が優れた性能を発揮する。 しかし,既存の手法では,手作りスプリットあるいは外部ツールを用いて画像やテキストから画像部分やテキスト句を明示的に抽出し,複雑なクロスモーダル局所マッチングを行う。 また,既存の手法では,画像固有情報によるモダリティ間の情報不平等の問題はほとんど考慮されていない。 本稿では,テキストに基づく人物検索のための効率的な情報・セマンティックアライメントネットワーク (ISANet) を提案する。 具体的には,画像固有の情報抑圧モジュールをまず設計し,画像の背景や環境要因を,関連経路の局在化とチャネル注意濾過によってそれぞれ抑制する。 この設計は、情報不平等の問題を効果的に軽減し、画像とテキスト間の情報整合性を実現する。 次に,画像とテキストを適応的にアライメントする暗黙的局所アライメントモジュールを提案する。このモジュールは,モダリティ共有のセマンティックトピックセンタの集合に画像とテキストをアライメントし,追加の監督情報や複雑なクロスモーダルインタラクションを伴わずに,画像とテキストの局所的詳細対応を暗黙的に学習する。 さらに,地域視点の補足としてグローバルアライメントを導入する。 複数のデータベースに対する大規模な実験は、提案したISANetの有効性と優位性を示している。

Text-based person search is a challenging task that aims to search pedestrian images with the same identity from the image gallery given a query text description. In recent years, text-based person search has made good progress, and state-of-the-art methods achieve superior performance by learning local fine-grained correspondence between images and texts. However, the existing methods explicitly extract image parts and text phrases from images and texts by hand-crafted split or external tools and then conduct complex cross-modal local matching. Moreover, the existing methods seldom consider the problem of information inequality between modalities caused by image-specific information. In this paper, we propose an efficient joint Information and Semantic Alignment Network (ISANet) for text-based person search. Specifically, we first design an image-specific information suppression module, which suppresses image background and environmental factors by relation-guide localization and channel attention filtration respectively. This design can effectively alleviate the problem of information inequality and realize the information alignment between images and texts. Secondly, we propose an implicit local alignment module to adaptively aggregate image and text features to a set of modality-shared semantic topic centers, and implicitly learn the local fine-grained correspondence between images and texts without additional supervision information and complex cross-modal interactions. Moreover, a global alignment is introduced as a supplement to the local perspective. Extensive experiments on multiple databases demonstrate the effectiveness and superiority of the proposed ISANet.
翻訳日:2022-08-31 13:15:07 公開日:2022-08-30
# signet:室内シーンのための意味的・不変勾配駆動ネットワークによる内在的画像分解

SIGNet: Intrinsic Image Decomposition by a Semantic and Invariant Gradient Driven Network for Indoor Scenes ( http://arxiv.org/abs/2208.14369v1 )

ライセンス: Link先を確認
Partha Das, Sezer Karaoglu, Arjan Gijsenij, Theo Gevers(参考訳) 内在画像分解(IID)は制約の少ない問題である。 そのため、従来の手法では問題を制約するために手作りの先行手法を用いる。 しかし、これらの制約は複雑なシーンを扱う場合に制限される。 ディープラーニングベースのアプローチは、データを通じてこれらの制約を暗黙的に学習するが、しばしばデータセットバイアス(すべての可能な撮像条件を含まないため)に悩まされる。 本稿では,これら2つの組み合わせを提案する。 セマンティクスや不変特徴のようなコンポーネント固有の事前は、セマンティクス的および物理的に妥当なリフレクタンス遷移を得るために利用される。 これらの遷移は、プログレッシブCNNを暗黙の均一性制約で操り、反射率とシェーディングマップを分解するために用いられる。 提案法とプログレッシブcnnの併用により,iid性能が向上することを示すアブレーション研究を行った。 提案するデータセットと標準実世界のiiwデータセットの両方におけるアートパフォーマンスの現状は,提案手法の有効性を示している。 コードはhttps://github.com/Morpheus3000/SIGNetで公開されている。

Intrinsic image decomposition (IID) is an under-constrained problem. Therefore, traditional approaches use hand crafted priors to constrain the problem. However, these constraints are limited when coping with complex scenes. Deep learning-based approaches learn these constraints implicitly through the data, but they often suffer from dataset biases (due to not being able to include all possible imaging conditions). In this paper, a combination of the two is proposed. Component specific priors like semantics and invariant features are exploited to obtain semantically and physically plausible reflectance transitions. These transitions are used to steer a progressive CNN with implicit homogeneity constraints to decompose reflectance and shading maps. An ablation study is conducted showing that the use of the proposed priors and progressive CNN increase the IID performance. State of the art performance on both our proposed dataset and the standard real-world IIW dataset shows the effectiveness of the proposed method. Code is made available at https://github.com/Morpheus3000/SIGNet
翻訳日:2022-08-31 13:14:42 公開日:2022-08-30
# 出版タイトルのアイデアを特徴付けるためにキーフレーズ抽出と語彙多様性を組み合わせる

Combining keyphrase extraction and lexical diversity to characterize ideas in publication titles ( http://arxiv.org/abs/2208.13978v1 )

ライセンス: Link先を確認
James Powell, Martin Klein, Lyudmila Balakireva(参考訳) 書誌学以外にも、科学論文におけるアイデアの数の進化を特徴付けることにも関心がある。 これを調べる一般的なアプローチは、時間とともに語彙の変化を検出するために出版物のタイトルを分析することである。 フレーズ(特にキーフレーズ)は概念を表す概念であり、語彙の多様性のメトリクスはタイトルのフレーズバージョンに適用される。 したがって、語彙の多様性の変化は、研究のシフトや拡張の指標として扱われる。 したがって、キーフレーズの最適化は、このプロセスの重要な側面である。 1つではなく、ソースコーパスからより包括的なキーフレーズを生成するために、複数のフレーズ検出モデルを使用することを提案する。 このアプローチのもう1つの潜在的な利点は、これらの集合の結合と差が非特定の句を識別し省略する自動化技術を提供する可能性があることである。 我々は,複数のフレーズ検出モデルの性能を比較し,各単語のキーワード集合を解析し,各モデルからキーワードを取り入れたコーパスの語彙的多様性を4つの共通語彙的多様性指標を用いて算出する。

Beyond bibliometrics, there is interest in characterizing the evolution of the number of ideas in scientific papers. A common approach for investigating this involves analyzing the titles of publications to detect vocabulary changes over time. With the notion that phrases, or more specifically keyphrases, represent concepts, lexical diversity metrics are applied to phrased versions of the titles. Thus changes in lexical diversity are treated as indicators of shifts, and possibly expansion, of research. Therefore, optimizing detection of keyphrases is an important aspect of this process. Rather than just one, we propose to use multiple phrase detection models with the goal to produce a more comprehensive set of keyphrases from the source corpora. Another potential advantage to this approach is that the union and difference of these sets may provide automated techniques for identifying and omitting non-specific phrases. We compare the performance of several phrase detection models, analyze the keyphrase sets output of each, and calculate lexical diversity of corpora variants incorporating keyphrases from each model, using four common lexical diversity metrics.
翻訳日:2022-08-31 13:14:26 公開日:2022-08-30
# WikiLink:デザインイノベーションのための百科事典ベースのセマンティックネットワーク

WikiLink: an encyclopedia-based semantic network for design innovation ( http://arxiv.org/abs/2208.14349v1 )

ライセンス: Link先を確認
Haoyu Zuo, Qianzhi Jing, Tianqi Song, Huiting Liu, Lingyun Sun, Peter Childs, Liuqing Chen(参考訳) データ駆動設計とイノベーションは、価値ある有用な情報を再利用し提供するためのプロセスです。 しかし、デザイン革新のための既存の意味ネットワークは、技術的および科学的情報に限定されたデータソースに基づいている。 さらに、既存の研究では、意味ネットワークのエッジは、統計的あるいは意味的関係のみに基づいて構築されており、両者の関係の利点をフルに活用し、デザイン革新のための暗黙的な知識を発見する可能性は低い。 そこで我々はWikipediaに基づく意味ネットワークWikiLinkを構築した。 概念間の統計的重みと意味的重みの両方を融合する重みをウィキリンクに導入し、新しいアイデアを刺激するために4つのアルゴリズムを開発した。 評価実験を行い, ネットワークの有効性と有用性を示す用語, 関係, 規律を高い範囲で評価することで, ネットワークを特徴付けることを示す。 そして、実証とケーススタディの結果から、WikiLinkが概念設計における革新のためのアイデア生成ツールとして機能することを示唆している。 wikilinkのソースコードとバックエンドデータは、より多くのユーザが調査し構築できるようにオープンソースとして提供されている。

Data-driven design and innovation is a process to reuse and provide valuable and useful information. However, existing semantic networks for design innovation is built on data source restricted to technological and scientific information. Besides, existing studies build the edges of a semantic network only on either statistical or semantic relationships, which is less likely to make full use of the benefits from both types of relationships and discover implicit knowledge for design innovation. Therefore, we constructed WikiLink, a semantic network based on Wikipedia. Combined weight which fuses both the statistic and semantic weights between concepts is introduced in WikiLink, and four algorithms are developed for inspiring new ideas. Evaluation experiments are undertaken and results show that the network is characterised by high coverage of terms, relationships and disciplines, which proves the network's effectiveness and usefulness. Then a demonstration and case study results indicate that WikiLink can serve as an idea generation tool for innovation in conceptual design. The source code of WikiLink and the backend data are provided open-source for more users to explore and build on.
翻訳日:2022-08-31 13:14:09 公開日:2022-08-30
# シリコンウェハ生産モニタリングのための深いオープンセット認識

Deep Open-Set Recognition for Silicon Wafer Production Monitoring ( http://arxiv.org/abs/2208.14071v1 )

ライセンス: Link先を確認
Luca Frittoli, Diego Carrera, Beatrice Rossi, Pasqualina Fragneto, Giacomo Boracchi(参考訳) あらゆる電子機器に含まれるチップは、異なる生産段階の検査装置によって監視される円形シリコンウエハで製造される。 検査機械は、ウェハ内の欠陥を検出して検出し、ウェハ欠陥マップ(wdm)を返す。 正常な条件では、ウェーハは少数のランダムに分散した欠陥を示すが、特定のパターンにグループ化された欠陥は、生産ラインにおける既知のまたは新しい障害カテゴリを示す可能性がある。 言うまでもなく、半導体産業の主要な関心事は、これらのパターンを特定し、正常な生産条件を回復するためにできるだけ早く介入することである。 本稿では,wdmを既知のカテゴリに正確に分類し,新しいパターンを迅速に検出するためのオープンセット認識問題として,wdmモニタリングを提案する。 特に,サブマニフォールドスパース畳み込みネットワークに基づくウェハモニタリングのための包括的なパイプラインを提案する。これは,既知のクラスでトレーニングされたスパースデータを任意の解像度で処理するように設計されているディープアーキテクチャである。 新規性を検出するために,分類器の潜在表現に適合するガウス混合モデルに基づいて,外乱検出器を定義する。 WDMの実際のデータセットに対する実験により、サブマニフォールドスパース畳み込みによる完全分解能WDMの直接処理は、従来の畳み込みニューラルネットワークよりも優れた分類性能を示し、WDMを表すバイナリ画像のサイズを減らすのに予備的なビンニングが必要となる。 さらに,新奇性の検出において,最先端のオープンセット認識ソリューションを上回っている。

The chips contained in any electronic device are manufactured over circular silicon wafers, which are monitored by inspection machines at different production stages. Inspection machines detect and locate any defect within the wafer and return a Wafer Defect Map (WDM), i.e., a list of the coordinates where defects lie, which can be considered a huge, sparse, and binary image. In normal conditions, wafers exhibit a small number of randomly distributed defects, while defects grouped in specific patterns might indicate known or novel categories of failures in the production line. Needless to say, a primary concern of semiconductor industries is to identify these patterns and intervene as soon as possible to restore normal production conditions. Here we address WDM monitoring as an open-set recognition problem to accurately classify WDM in known categories and promptly detect novel patterns. In particular, we propose a comprehensive pipeline for wafer monitoring based on a Submanifold Sparse Convolutional Network, a deep architecture designed to process sparse data at an arbitrary resolution, which is trained on the known classes. To detect novelties, we define an outlier detector based on a Gaussian Mixture Model fitted on the latent representation of the classifier. Our experiments on a real dataset of WDMs show that directly processing full-resolution WDMs by Submanifold Sparse Convolutions yields superior classification performance on known classes than traditional Convolutional Neural Networks, which require a preliminary binning to reduce the size of the binary images representing WDMs. Moreover, our solution outperforms state-of-the-art open-set recognition solutions in detecting novelties.
翻訳日:2022-08-31 13:09:52 公開日:2022-08-30
# SSORN:ロバストホログラフィー推定のための自己監視外乱除去ネットワーク

SSORN: Self-Supervised Outlier Removal Network for Robust Homography Estimation ( http://arxiv.org/abs/2208.14093v1 )

ライセンス: Link先を確認
Yi Li, Wenjie Pei, Zhenyu He(参考訳) 従来のホモグラフィ推定パイプラインは、特徴検出、特徴マッチング、異常除去、変換推定の4つの主要なステップで構成されている。 最近のディープラーニングモデルは、単一畳み込みネットワークを用いたホモグラフィ推定問題に対処することを目的としている。 これらのモデルは、ホモグラフィ推定問題を単純化するためにエンドツーエンドで訓練されるが、従来のホモグラフィ推定パイプラインにおいて重要なステップである特徴マッチングステップや外れ値除去ステップが欠如している。 本稿では,従来のホモグラフィ推定パイプラインの4つのステップをすべて模倣した深層学習モデルの構築を試みる。 特に、機能マッチングステップはコストボリューム技術を用いて実装されている。 コストボリュームの外れ値を取り除くために,この外れ値除去問題をデノージング問題として扱い,新しい自己教師付き損失を提案する。 合成および実データセットに関する大規模な実験により、提案モデルが既存のディープラーニングモデルより優れていることが示された。

The traditional homography estimation pipeline consists of four main steps: feature detection, feature matching, outlier removal and transformation estimation. Recent deep learning models intend to address the homography estimation problem using a single convolutional network. While these models are trained in an end-to-end fashion to simplify the homography estimation problem, they lack the feature matching step and/or the outlier removal step, which are important steps in the traditional homography estimation pipeline. In this paper, we attempt to build a deep learning model that mimics all four steps in the traditional homography estimation pipeline. In particular, the feature matching step is implemented using the cost volume technique. To remove outliers in the cost volume, we treat this outlier removal problem as a denoising problem and propose a novel self-supervised loss to solve the problem. Extensive experiments on synthetic and real datasets demonstrate that the proposed model outperforms existing deep learning models.
翻訳日:2022-08-31 13:09:25 公開日:2022-08-30
# ロバスト音響誘導画像マニピュレーション

Robust Sound-Guided Image Manipulation ( http://arxiv.org/abs/2208.14114v1 )

ライセンス: Link先を確認
Seung Hyun Lee, Chanyoung Kim, Wonmin Byeon, Gyeongrok Oh, Jooyoung Lee, Sang Ho Yoon, Jinkyu Kim, Sangpil Kim(参考訳) 最近の成功は、例えば、晴れた日に風景シーンが、テキスト入力「レイニング」によって駆動される雨の日に同じシーンに操作されるように、テキストプロンプトで画像を操作できることを示唆している。 これらのアプローチはしばしば、マルチモーダル(テキストとイメージ)埋め込み空間を利用するStyleCLIPベースのイメージジェネレータを利用する。 しかし,このようなテキスト入力は,降雨時の豪雨と雷雨の区別など,リッチなセマンティック・キューの提供と合成においてしばしばボトルネックとなる。 この問題に対処するために、テキストよりも多様な意味的手がかり(生き生きとした感情や自然界のダイナミックな表現)を伝達できるため、画像操作において顕著な優位性を持つ追加のモダリティ、音の活用を提唱する。 本稿では,まず画像とテキストの組込み空間を音で拡張し,例えば雨音など,音声入力に基づいて画像を操作するための直接潜在最適化手法を提案する。 当社の音響誘導画像操作手法は,最先端のテキストや音声誘導画像操作手法よりも,意味的かつ視覚的に正確な操作結果が得られることを示す。 ダウンストリームタスク評価では,学習した画像-テキスト-音声統合埋め込み空間が音響入力を効果的に符号化することを示す。

Recent successes suggest that an image can be manipulated by a text prompt, e.g., a landscape scene on a sunny day is manipulated into the same scene on a rainy day driven by a text input "raining". These approaches often utilize a StyleCLIP-based image generator, which leverages multi-modal (text and image) embedding space. However, we observe that such text inputs are often bottlenecked in providing and synthesizing rich semantic cues, e.g., differentiating heavy rain from rain with thunderstorms. To address this issue, we advocate leveraging an additional modality, sound, which has notable advantages in image manipulation as it can convey more diverse semantic cues (vivid emotions or dynamic expressions of the natural world) than texts. In this paper, we propose a novel approach that first extends the image-text joint embedding space with sound and applies a direct latent optimization method to manipulate a given image based on audio input, e.g., the sound of rain. Our extensive experiments show that our sound-guided image manipulation approach produces semantically and visually more plausible manipulation results than the state-of-the-art text and sound-guided image manipulation methods, which are further confirmed by our human evaluations. Our downstream task evaluations also show that our learned image-text-sound joint embedding space effectively encodes sound inputs.
翻訳日:2022-08-31 13:09:09 公開日:2022-08-30
# FAKD:セマンティックセグメンテーションのための機能拡張知識蒸留

FAKD: Feature Augmented Knowledge Distillation for Semantic Segmentation ( http://arxiv.org/abs/2208.14143v1 )

ライセンス: Link先を確認
Jianlong Yuan, Qian Qi, Fei Du, Zhibin Wang, Fan Wang, Yifan Liu(参考訳) 本研究では,意味セグメンテーションに関する知識蒸留のためのデータ拡張について検討する。 教師ネットワークにおける騒音への過度な適応を避けるため,知識蒸留には多くの訓練例が不可欠である。 回転、翻訳、回転といった画像レベルの議論技術は、以前の知識蒸留フレームワークで広く使われている。 特徴空間における意味的方向の最近の進歩に触発されて,効率的な蒸留のために特徴空間に拡張を加えることを提案する。 具体的には、意味的な方向が与えられた場合、特徴空間の学生に対して無限の増大が得られる。 さらに,解析結果から,増補によって定義される損失に対する上限を最小化することで,これらの増補を同時に最適化できることを示した。 この観察に基づいて, 意味セグメンテーションにおける知識蒸留のための新しいアルゴリズムを開発した。 4つのセマンティクスセグメンテーションベンチマークに関する広範囲な実験により、提案手法が大きなオーバーヘッドを伴わずに現在の知識蒸留法の性能を向上できることが示されている。 コードはhttps://github.com/jianlong-yuan/fakd。

In this work, we explore data augmentations for knowledge distillation on semantic segmentation. To avoid over-fitting to the noise in the teacher network, a large number of training examples is essential for knowledge distillation. Imagelevel argumentation techniques like flipping, translation or rotation are widely used in previous knowledge distillation framework. Inspired by the recent progress on semantic directions on feature-space, we propose to include augmentations in feature space for efficient distillation. Specifically, given a semantic direction, an infinite number of augmentations can be obtained for the student in the feature space. Furthermore, the analysis shows that those augmentations can be optimized simultaneously by minimizing an upper bound for the losses defined by augmentations. Based on the observation, a new algorithm is developed for knowledge distillation in semantic segmentation. Extensive experiments on four semantic segmentation benchmarks demonstrate that the proposed method can boost the performance of current knowledge distillation methods without any significant overhead. Code is available at: https://github.com/jianlong-yuan/FAKD.
翻訳日:2022-08-31 13:08:43 公開日:2022-08-30
# synthehicle: 仮想都市におけるマルチカメラトラッキング

Synthehicle: Multi-Vehicle Multi-Camera Tracking in Virtual Cities ( http://arxiv.org/abs/2208.14167v1 )

ライセンス: Link先を確認
Fabian Herzog, Junpeng Chen, Torben Teepe, Johannes Gilg, Stefan H\"ormann, Gerhard Rigoll(参考訳) インテリジェントなトラフィックルーティングや事故防止といったスマートシティのアプリケーションは、正確な車両のローカライゼーションと追跡にコンピュータビジョン方式に依存している。 正確なラベル付きデータが少ないため、複数のカメラから3dで車両を検出・追跡することは困難である。 複数の車両の追跡とセグメンテーションのための大規模な合成データセットを複数重なり合うカメラビューと非重なり合うカメラビューで提示する。 既存の2Dバウンディングボックスの追跡真実のみを提供するデータセットとは異なり、我々のデータセットには、カメラと世界座標における3Dバウンディングボックスの完全なラベル、深さ推定、セマンティックとパノプティクスのセグメンテーションが含まれています。 このデータセットは、64の異なる日、雨、夜明け、夜の場面で340台のカメラから記録された17時間のラベル付きビデオ素材で構成されており、これまでマルチターゲットのマルチカメラ追跡のための最も広範なデータセットとなっている。 検出、車両再識別、シングルカメラとマルチカメラトラッキングのためのベースラインを提供する。 コードとデータは公開されている。

Smart City applications such as intelligent traffic routing or accident prevention rely on computer vision methods for exact vehicle localization and tracking. Due to the scarcity of accurately labeled data, detecting and tracking vehicles in 3D from multiple cameras proves challenging to explore. We present a massive synthetic dataset for multiple vehicle tracking and segmentation in multiple overlapping and non-overlapping camera views. Unlike existing datasets, which only provide tracking ground truth for 2D bounding boxes, our dataset additionally contains perfect labels for 3D bounding boxes in camera- and world coordinates, depth estimation, and instance, semantic and panoptic segmentation. The dataset consists of 17 hours of labeled video material, recorded from 340 cameras in 64 diverse day, rain, dawn, and night scenes, making it the most extensive dataset for multi-target multi-camera tracking so far. We provide baselines for detection, vehicle re-identification, and single- and multi-camera tracking. Code and data are publicly available.
翻訳日:2022-08-31 13:08:28 公開日:2022-08-30
# 密分布検出のための文脈多様性の探索

Probing Contextual Diversity for Dense Out-of-Distribution Detection ( http://arxiv.org/abs/2208.14195v1 )

ライセンス: Link先を確認
Silvio Galesso, Maria Alejandra Bravo, Mehdi Naouar, Thomas Brox(参考訳) 画像分類の文脈における分布外サンプル(ood)の検出は,近年,不確実性推定の話題と密接に関連する分野として注目され,活発に研究されている。 本稿では,oodセグメンテーションの課題について検討し,その課題について述べる。 セグメンテーションは、各ピクセルに対するモデルの結果が周囲の状況に依存する、密集した予測タスクである。 受容場と文脈への依存は、異なるクラスを区別し、それに対応するOoDエンティティを見つける役割を担っている。 セマンティックセグメンテーションモデル内で表現されるコンテキストの様々なレベルを活用するための効率的な戦略であるMOoSeを導入し、マルチスケール表現の単純な集約でさえ、OoDの検出と不確実性評価に一貫してポジティブな影響を与えることを示す。

Detection of out-of-distribution (OoD) samples in the context of image classification has recently become an area of interest and active study, along with the topic of uncertainty estimation, to which it is closely related. In this paper we explore the task of OoD segmentation, which has been studied less than its classification counterpart and presents additional challenges. Segmentation is a dense prediction task for which the model's outcome for each pixel depends on its surroundings. The receptive field and the reliance on context play a role for distinguishing different classes and, correspondingly, for spotting OoD entities. We introduce MOoSe, an efficient strategy to leverage the various levels of context represented within semantic segmentation models and show that even a simple aggregation of multi-scale representations has consistently positive effects on OoD detection and uncertainty estimation.
翻訳日:2022-08-31 13:08:13 公開日:2022-08-30
# ASpanFormer: アダプティブスパン変換器による非検出画像マッチング

ASpanFormer: Detector-Free Image Matching with Adaptive Span Transformer ( http://arxiv.org/abs/2208.14201v1 )

ライセンス: Link先を確認
Hongkai Chen, Zixin Luo, Lei Zhou, Yurun Tian, Mingmin Zhen, Tian Fang, David Mckinnon, Yanghai Tsin, Long Quan(参考訳) 画像間で堅牢で信頼性の高い対応を生成することは、多様なアプリケーションにとって基本的な課題である。 グローバルおよび局所的な粒度で文脈を捉えるために,階層的注意構造に基づいて構築されたトランスベース検出器フリーマッチングである aspanformer を提案する。 この目的を達成するために、まず、各クロスアテンションフェーズにフローマップを回帰して検索領域の中心を特定する。 次に、フローマップと共に推定される画素不確かさから、そのサイズを固定として経験的に構成する代わりに、その中心付近にサンプリンググリッドを生成する。 最後に、アテンションスパンと呼ばれる、派生領域内の2つの画像間でアテンションが計算される。 これらの手段により、我々は長距離依存を維持できるだけでなく、マッチングタスクにおける本質的な局所性とピースワイドな滑らかさを補う高関連性の画素間できめ細かな注意を喚起することができる。 評価ベンチマークにおける最先端の精度は,提案手法の強いマッチング能力を検証する。

Generating robust and reliable correspondences across images is a fundamental task for a diversity of applications. To capture context at both global and local granularity, we propose ASpanFormer, a Transformer-based detector-free matcher that is built on hierarchical attention structure, adopting a novel attention operation which is capable of adjusting attention span in a self-adaptive manner. To achieve this goal, first, flow maps are regressed in each cross attention phase to locate the center of search region. Next, a sampling grid is generated around the center, whose size, instead of being empirically configured as fixed, is adaptively computed from a pixel uncertainty estimated along with the flow map. Finally, attention is computed across two images within derived regions, referred to as attention span. By these means, we are able to not only maintain long-range dependencies, but also enable fine-grained attention among pixels of high relevance that compensates essential locality and piece-wise smoothness in matching tasks. State-of-the-art accuracy on a wide range of evaluation benchmarks validates the strong matching capability of our method.
翻訳日:2022-08-31 13:07:56 公開日:2022-08-30
# オンライン動作検出のための円窓型カスケードトランス

A Circular Window-based Cascade Transformer for Online Action Detection ( http://arxiv.org/abs/2208.14209v1 )

ライセンス: Link先を確認
Shuqiang Cao, Weixin Luo, Bairui Wang, Wei Zhang, Lin Ma(参考訳) オンライン行動検出は、長い歴史観測に基づく現在のフレームの正確な行動予測を目的としている。 一方、オンラインストリーミングビデオのリアルタイム推論を要求する。 本稿では,オンライン行動検出の新しい,効率的な原則を提案する。 1つのウィンドウで最新かつ最も古い歴史的表現を更新するだけであるが、既に計算されている中間表現を再利用する。 この原理に基づいて,複数ステージの注目と各ウィンドウのカスケード改善を行う,円形の履歴キューを備えたウィンドウベースカスケードトランスを導入する。 また,オンライン行動検出とオフライン行動セグメント化の関連性についても検討する。 このような余分な監督は、識別履歴のクラスタリングに役立ち、分類器とカスケードの改良をより良く訓練するための特徴増強として機能する。 提案手法は,THUMOS'14,TVSeries,HDDの3つの挑戦的データセットに対して,最先端の性能を実現する。 コードは受理後に利用可能になる。

Online action detection aims at the accurate action prediction of the current frame based on long historical observations. Meanwhile, it demands real-time inference on online streaming videos. In this paper, we advocate a novel and efficient principle for online action detection. It merely updates the latest and oldest historical representations in one window but reuses the intermediate ones, which have been already computed. Based on this principle, we introduce a window-based cascade Transformer with a circular historical queue, where it conducts multi-stage attentions and cascade refinement on each window. We also explore the association between online action detection and its counterpart offline action segmentation as an auxiliary task. We find that such an extra supervision helps discriminative history clustering and acts as feature augmentation for better training the classifier and cascade refinement. Our proposed method achieves the state-of-the-art performances on three challenging datasets THUMOS'14, TVSeries, and HDD. Codes will be available after acceptance.
翻訳日:2022-08-31 13:07:37 公開日:2022-08-30
# 学習周波数による夜間の場面解析

Boosting Night-time Scene Parsing with Learnable Frequency ( http://arxiv.org/abs/2208.14241v1 )

ライセンス: Link先を確認
Zhifeng Xie, Sen Wang, Ke Xu, Zhizhong Zhang, Xin Tan, Yuan Xie, Lizhuang Ma(参考訳) 夜間シーン解析(ntsp)は多くの視覚アプリケーション、特に自動運転には不可欠である。 既存の手法のほとんどは日中シーン解析のために提案されている。 ピクセル強度に基づく空間的手がかりを、照明下でもモデル化する。 そのため、夜間の場面では空間的文脈的手がかりが過度に露出した領域に埋もれてしまうなど、夜間の場面ではうまく機能しない。 本稿では,まず,昼と夜の場面の相違を解析するために,画像周波数に基づく統計的実験を行う。 映像の周波数分布は昼間と夜間の場面で大きく異なり,その頻度分布を理解することはNTSP問題にとって重要である。 そこで本研究では,夜間シーン解析における画像周波数分布の活用を提案する。 まず、異なる周波数係数間の関係をモデル化し、全ての周波数成分を動的に測定する学習可能な周波数エンコーダ(LFE)を提案する。 第2に,空間情報と周波数情報を融合して空間的文脈特徴の抽出を誘導する空間周波数融合モジュール(SFF)を提案する。 実験の結果,NightCity,NightCity+およびBDD100K-nightデータセットの最先端手法に対して,本手法が良好に動作することがわかった。 また,本手法を既存の昼間シーン解析手法に適用し,夜間シーンにおける性能を向上させることを実証した。

Night-Time Scene Parsing (NTSP) is essential to many vision applications, especially for autonomous driving. Most of the existing methods are proposed for day-time scene parsing. They rely on modeling pixel intensity-based spatial contextual cues under even illumination. Hence, these methods do not perform well in night-time scenes as such spatial contextual cues are buried in the over-/under-exposed regions in night-time scenes. In this paper, we first conduct an image frequency-based statistical experiment to interpret the day-time and night-time scene discrepancies. We find that image frequency distributions differ significantly between day-time and night-time scenes, and understanding such frequency distributions is critical to NTSP problem. Based on this, we propose to exploit the image frequency distributions for night-time scene parsing. First, we propose a Learnable Frequency Encoder (LFE) to model the relationship between different frequency coefficients to measure all frequency components dynamically. Second, we propose a Spatial Frequency Fusion module (SFF) that fuses both spatial and frequency information to guide the extraction of spatial context features. Extensive experiments show that our method performs favorably against the state-of-the-art methods on the NightCity, NightCity+ and BDD100K-night datasets. In addition, we demonstrate that our method can be applied to existing day-time scene parsing methods and boost their performance on night-time scenes.
翻訳日:2022-08-31 13:06:58 公開日:2022-08-30
# 人工硝子体エージェントを目指して:ゲーム、ジレンマ、機械学習

Towards Artificial Virtuous Agents: Games, Dilemmas and Machine Learning ( http://arxiv.org/abs/2208.14037v1 )

ライセンス: Link先を確認
Ajay Vishwanath, Einar Duenger B{\o}hn, Ole-Christoffer Granmo, Charl Maree and Christian Omlin(参考訳) 機械倫理は、安全で信頼性の高い人工知能(AI)を確保する必要性から、ここ数年で注目を集めている。 機械倫理における2つの主要な理論は非オントロジーと実用倫理である。 一方、ヴィチュア倫理は代替倫理理論としてしばしば言及されている。 この興味深いアプローチは、一般的な倫理理論よりもある程度の利点があるが、その形式化、共生性、および倫理的なジレンマの解決の困難から、人工的な有意なエージェントをエンジニアリングすることにはほとんど努力が払われていない。 モラルジレンマを備えたロールプレイングゲームを用いて,このギャップを埋めることを提案する。 紙、お願い、人生など、いくつかのゲームが存在するが、主人公は、自分にとって大切なものを諦めて正しい行動を選択しなければならない状況に遭遇する。 このようなゲームからインスピレーションを得て、システム的なロールプレイングゲームが、人工エージェント内で美徳を育むためにどのように設計できるかを示す。 親和性に基づく強化学習や説明可能なAIといった現代のAI技術を用いて、このようなロールプレイングゲームをする活発なエージェントの実装を動機付け、美徳な倫理的なレンズを通してそれらの決定を検証します。 このようなエージェントと環境の開発は、倫理的エージェントの開発における美徳倫理の価値を実践的に形式化し実証するための第一歩である。

Machine ethics has received increasing attention over the past few years because of the need to ensure safe and reliable artificial intelligence (AI). The two dominantly used theories in machine ethics are deontological and utilitarian ethics. Virtue ethics, on the other hand, has often been mentioned as an alternative ethical theory. While this interesting approach has certain advantages over popular ethical theories, little effort has been put into engineering artificial virtuous agents due to challenges in their formalization, codifiability, and the resolution of ethical dilemmas to train virtuous agents. We propose to bridge this gap by using role-playing games riddled with moral dilemmas. There are several such games in existence, such as Papers, Please and Life is Strange, where the main character encounters situations where they must choose the right course of action by giving up something else dear to them. We draw inspiration from such games to show how a systemic role-playing game can be designed to develop virtues within an artificial agent. Using modern day AI techniques, such as affinity-based reinforcement learning and explainable AI, we motivate the implementation of virtuous agents that play such role-playing games, and the examination of their decisions through a virtue ethical lens. The development of such agents and environments is a first step towards practically formalizing and demonstrating the value of virtue ethics in the development of ethical agents.
翻訳日:2022-08-31 13:04:30 公開日:2022-08-30
# レスキューへの事前認識合成データ:極めて限られた実データを用いた動物行動推定

Prior-Aware Synthetic Data to the Rescue: Animal Pose Estimation with Very Limited Real Data ( http://arxiv.org/abs/2208.13944v1 )

ライセンス: Link先を確認
Le Jiang, Shuangjun Liu, Xiangyu Bai, Sarah Ostadabbas(参考訳) 正確な注釈付き画像データセットは、ポーズから動物の行動を研究する上で不可欠な要素である。 私たちが知っている種数と比較すると、既存のラベル付きポーズデータセットはほんの一部しかカバーしていないが、包括的な大規模データセットの構築は必然的に高価である。 そこで本研究では,ターゲット動物からの実際の画像の少ない四足歩行におけるポーズ推定を目的とした,非常にデータ効率のよい戦略を提案する。 ImageNetなどの汎用画像データセットに予めトレーニングした重み付きバックボーンネットワークを微調整することで、対象動物のポーズデータに対する高い需要を軽減し、事前のオブジェクトセグメンテーションやキーポイント推定の事前知識を学習することにより、トレーニング時間を短縮できることを確認した。 しかし、深刻なデータ不足(例えば、$<10^2$実画像)に直面した場合でも、モデルの性能は満足できないままである。 そこで我々はPASynと呼ばれる先行認識型合成動物データ生成パイプラインを導入し,ロバストポーズ推定に不可欠な動物のポーズデータを増やした。 PASynは、いくつかのアニメーション3D動物モデルで変動生成モデルをトレーニングすることで、確率論的に有意な合成ポーズデータセットSynAPを生成する。 また、合成動物画像を実際の背景にブレンドするために、スタイル転送戦略を用いる。 我々は,3つの人気のある背骨ネットワークによるアプローチによる改善を評価し,動物園内の実際の動物から収集した動物ポーズ画像のポーズ推定精度を検証した。

Accurately annotated image datasets are essential components for studying animal behaviors from their poses. Compared to the number of species we know and may exist, the existing labeled pose datasets cover only a small portion of them, while building comprehensive large-scale datasets is prohibitively expensive. Here, we present a very data efficient strategy targeted for pose estimation in quadrupeds that requires only a small amount of real images from the target animal. It is confirmed that fine-tuning a backbone network with pretrained weights on generic image datasets such as ImageNet can mitigate the high demand for target animal pose data and shorten the training time by learning the the prior knowledge of object segmentation and keypoint estimation in advance. However, when faced with serious data scarcity (i.e., $<10^2$ real images), the model performance stays unsatisfactory, particularly for limbs with considerable flexibility and several comparable parts. We therefore introduce a prior-aware synthetic animal data generation pipeline called PASyn to augment the animal pose data essential for robust pose estimation. PASyn generates a probabilistically-valid synthetic pose dataset, SynAP, through training a variational generative model on several animated 3D animal models. In addition, a style transfer strategy is utilized to blend the synthetic animal image into the real backgrounds. We evaluate the improvement made by our approach with three popular backbone networks and test their pose estimation accuracy on publicly available animal pose images as well as collected from real animals in a zoo.
翻訳日:2022-08-31 13:02:42 公開日:2022-08-30
# PercentMatch: マルチラベル半監督分類のためのパーセンタイルベースの動的閾値

PercentMatch: Percentile-based Dynamic Thresholding for Multi-Label Semi-Supervised Classification ( http://arxiv.org/abs/2208.13946v1 )

ライセンス: Link先を確認
Junxiang Huang, Alexander Huang, Beatriz C. Guerra, Yen-Yun Yu(参考訳) 半教師付き学習(SSL)における最近の研究の多くは、シングルラベル分類問題において高いパフォーマンスを達成しているが、同様に重要で未探索の問題は、マルチラベル分類タスクにおけるラベルなしデータの利点を活用する方法である。 SSLの成功をマルチラベル分類に拡張するために、まず図例を用いて分析し、マルチラベル分類に存在する余分な課題について直感を得る。 この分析に基づいて、トレーニング中の各クラスに対する正および負の擬似ラベルのスコア閾値を動的に変更するパーセンタイルベースのしきい値調整スキームであるPercentMatchを提案する。 単純さを欠くことなくPascal VOC2007およびMS-COCOデータセットにおいて,最近のSSL手法と比較して高い性能を達成する。

While much of recent study in semi-supervised learning (SSL) has achieved strong performance on single-label classification problems, an equally important yet underexplored problem is how to leverage the advantage of unlabeled data in multi-label classification tasks. To extend the success of SSL to multi-label classification, we first analyze with illustrative examples to get some intuition about the extra challenges exist in multi-label classification. Based on the analysis, we then propose PercentMatch, a percentile-based threshold adjusting scheme, to dynamically alter the score thresholds of positive and negative pseudo-labels for each class during the training, as well as dynamic unlabeled loss weights that further reduces noise from early-stage unlabeled predictions. Without loss of simplicity, we achieve strong performance on Pascal VOC2007 and MS-COCO datasets when compared to recent SSL methods.
翻訳日:2022-08-31 13:02:15 公開日:2022-08-30
# ソースレス非教師付きドメイン適応のための不確かさ誘起トランスファービリティ表現

Uncertainty-Induced Transferability Representation for Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2208.13986v1 )

ライセンス: Link先を確認
Jiangbo Pei, Zhuqing Jiang, Aidong Men, Liang Chen, Yang Liu and Qingchao Chen(参考訳) source-free unsupervised domain adaptation (sfuda)は、ラベルのないターゲットデータと十分に訓練されたソースドメインモデルの知識を使ってターゲットドメインモデルを学ぶことを目的としている。 これまでのSFUDAの作業は、ソース知識に基づいたターゲットデータのセマンティクスの推測に重点を置いていた。 ソース知識の転送可能性を測定することなく、これらの手法はソース知識を十分に活用せず、推定されたターゲットセマンティクスの信頼性の特定に失敗した。 しかし、既存の転送可能性の測定にはソースデータかターゲットラベルが必要です。 そこで,本研究では,まず,ソースデータと対象ラベルが存在しない場合に,ソースエンコーダのチャネル毎の転送可能性を分析するツールとして不確実性を利用する,新たな不確実性誘起転送可能性表現(utr)を提案する。 ドメインレベルの UTR は、エンコーダチャネルがターゲットドメインにどの程度転送可能かを明らかにし、インスタンスレベルの UTR は、推論されたターゲットセマンティクスの信頼性を特徴付ける。 第2に、UTRに基づくSFUDAのための新しいキャリブレーション適応フレームワーク(CAF)を提案する。 一 対象モデルを誘導し、転送可能なソース知識を学習し、転送不能なソース知識を廃棄するソース知識校正モジュール ii) 目的セマンティクスキャリブレーションモジュールは、信頼性の低いセマンティクスをキャリブレーションする。 キャリブレーションされたソース知識とターゲットセマンティクスの助けを借りて、モデルはターゲットドメインに安全かつ究極的には適応する。 実験結果を用いて本手法の有効性を検証し,提案手法が3つのSFUDAベンチマークの最先端性能を実現することを実証した。 コードはhttps://github.com/spiresearch/utrで入手できる。

Source-free unsupervised domain adaptation (SFUDA) aims to learn a target domain model using unlabeled target data and the knowledge of a well-trained source domain model. Most previous SFUDA works focus on inferring semantics of target data based on the source knowledge. Without measuring the transferability of the source knowledge, these methods insufficiently exploit the source knowledge, and fail to identify the reliability of the inferred target semantics. However, existing transferability measurements require either source data or target labels, which are infeasible in SFUDA. To this end, firstly, we propose a novel Uncertainty-induced Transferability Representation (UTR), which leverages uncertainty as the tool to analyse the channel-wise transferability of the source encoder in the absence of the source data and target labels. The domain-level UTR unravels how transferable the encoder channels are to the target domain and the instance-level UTR characterizes the reliability of the inferred target semantics. Secondly, based on the UTR, we propose a novel Calibrated Adaption Framework (CAF) for SFUDA, including i)the source knowledge calibration module that guides the target model to learn the transferable source knowledge and discard the non-transferable one, and ii)the target semantics calibration module that calibrates the unreliable semantics. With the help of the calibrated source knowledge and the target semantics, the model adapts to the target domain safely and ultimately better. We verified the effectiveness of our method using experimental results and demonstrated that the proposed method achieves state-of-the-art performances on the three SFUDA benchmarks. Code is available at https://github.com/SPIresearch/UTR.
翻訳日:2022-08-31 13:01:59 公開日:2022-08-30
# SoMoFormer: トランスフォーマーを使ったマルチパーソンポーズ予測

SoMoFormer: Multi-Person Pose Forecasting with Transformers ( http://arxiv.org/abs/2208.14023v1 )

ライセンス: Link先を確認
Edward Vendrow, Satyajit Kumar, Ehsan Adeli, Hamid Rezatofighi(参考訳) 人間のポーズ予測は、複雑な人体の動きと姿勢のダイナミクスを伴う困難な問題である。 環境に複数の人がいる場合、人の動きは他の人の動きや動的動きに影響される可能性がある。 マルチパーソン・ダイナミック・ポーズ予測の問題に焦点をあてた以前の研究はいくつかあるが、それらはしばしば、ポーズ・シーケンス全体を時系列としてモデル化する(関節間の基礎的な関係を無視している)。 本稿では,多人数3次元ポーズ予測のためのソーシャルモーショントランスフォーマー(somoformer)という新しい手法を提案する。 私たちのトランスフォーマーアーキテクチャは、人間の動作入力を時系列ではなくジョイントシーケンスとしてモデル化し、各ジョイントに対する将来の動作シーケンス全体を並列に予測しながらジョイントに注意を向けることができます。 この課題の修正により,ソモフォーマーはシーン内のすべての人々のジョイントを入力クエリとして使用することで,自然に多人数場面に拡張できることを示した。 学習した埋め込みを、関節の種類、個人アイデンティティ、グローバルな位置を表すために使用し、我々のモデルは、関節と人の間の関係を学習し、同じまたは近くの人々の関節により強く参加する。 SoMoFormerは、CMU-MocapとMuPoTS-3Dデータセットと同様に、SoMoFベンチマークで長期動作予測のための最先端の手法より優れている。 コードは公開後利用可能になる。

Human pose forecasting is a challenging problem involving complex human body motion and posture dynamics. In cases that there are multiple people in the environment, one's motion may also be influenced by the motion and dynamic movements of others. Although there are several previous works targeting the problem of multi-person dynamic pose forecasting, they often model the entire pose sequence as time series (ignoring the underlying relationship between joints) or only output the future pose sequence of one person at a time. In this paper, we present a new method, called Social Motion Transformer (SoMoFormer), for multi-person 3D pose forecasting. Our transformer architecture uniquely models human motion input as a joint sequence rather than a time sequence, allowing us to perform attention over joints while predicting an entire future motion sequence for each joint in parallel. We show that with this problem reformulation, SoMoFormer naturally extends to multi-person scenes by using the joints of all people in a scene as input queries. Using learned embeddings to denote the type of joint, person identity, and global position, our model learns the relationships between joints and between people, attending more strongly to joints from the same or nearby people. SoMoFormer outperforms state-of-the-art methods for long-term motion prediction on the SoMoF benchmark as well as the CMU-Mocap and MuPoTS-3D datasets. Code will be made available after publication.
翻訳日:2022-08-31 13:01:29 公開日:2022-08-30
# CAIR: Instagramフィルタ除去のための高速で軽量なマルチスケールカラーアテンションネットワーク

CAIR: Fast and Lightweight Multi-Scale Color Attention Network for Instagram Filter Removal ( http://arxiv.org/abs/2208.14039v1 )

ライセンス: Link先を確認
Woon-Ha Yeo, Wang-Taek Oh, Kyung-Su Kang, Young-Il Kim, Han-Cheol Ryu(参考訳) 画像復元はコンピュータビジョンにおいて重要かつ困難な課題である。 フィルタリングされた画像を元の画像に戻すことは、様々なコンピュータビジョンタスクに役立つ。 高速で軽量なモデルに非線形活性化関数フリーネットワーク(nafnet)を用い,より高精度なカラー情報を抽出するカラーアテンションモジュールを追加した。 本稿では,Instagramフィルタ除去(CAIR)のためのマルチスケールおよびカラーアテンションを備えた,高精度で高速で軽量なネットワークを提案する。 実験結果によると、提案されたCAIRは、既存のInstagramフィルタ除去ネットワークを高速かつ軽量に、約11$\times$高速で2.4$\times$軽量で、IFFIデータセットでは3.69dB PSNRを超えている。 CAIRは高品質なInstagramフィルタを除去し、質的な結果のカラー情報を復元する。 ソースコードとトレーニング済みのウェイトは \url{https://github.com/hnv-lab/cair} で入手できる。

Image restoration is an important and challenging task in computer vision. Reverting a filtered image to its original image is helpful in various computer vision tasks. We employ a nonlinear activation function free network (NAFNet) for a fast and lightweight model and add a color attention module that extracts useful color information for better accuracy. We propose an accurate, fast, lightweight network with multi-scale and color attention for Instagram filter removal (CAIR). Experiment results show that the proposed CAIR outperforms existing Instagram filter removal networks in fast and lightweight ways, about 11$\times$ faster and 2.4$\times$ lighter while exceeding 3.69 dB PSNR on IFFI dataset. CAIR can successfully remove the Instagram filter with high quality and restore color information in qualitative results. The source code and pretrained weights are available at \url{https://github.com/HnV-Lab/CAIR}.
翻訳日:2022-08-31 13:01:05 公開日:2022-08-30
# 政治的見出しの感情分析のためのスペインのデータセット

A Spanish dataset for Targeted Sentiment Analysis of political headlines ( http://arxiv.org/abs/2208.13947v1 )

ライセンス: Link先を確認
Tom\'as Alves Salgueiro, Emilio Recart Zapata, Dami\'an Furman, Juan Manuel P\'erez, Pablo Nicol\'as Fern\'andez Larrosa(参考訳) 主観的なテキストは、ユーザーの特定の振る舞いを誘発できるため、いくつかの作品によって研究されている。 ほとんどの研究はソーシャルネットワークにおけるユーザ生成テキストに焦点を当てているが、他のテキストは特定のトピックに関する意見も含み、政治的決定の際の判断基準に影響を与える可能性がある。 本研究は、2019年のアルゼンチン大統領選挙で主要メディアが発行したニュース見出しのドメインを対象とした、ターゲティングセンティメント分析(Targeted Sentiment Analysis)の課題に対処する。 この目的のために、2019年の選挙の候補者に言及する1,976見出しの極性データセットを目標レベルで提示する。 事前学習した言語モデルに基づく最先端の分類アルゴリズムを用いた予備実験により,対象情報の有効性が示唆された。 データとトレーニング済みのモデルを公開しています。

Subjective texts have been studied by several works as they can induce certain behaviours in their users. Most work focuses on user-generated texts in social networks, but some other texts also comprise opinions on certain topics and could influence judgement criteria during political decisions. In this work, we address the task of Targeted Sentiment Analysis for the domain of news headlines, published by the main outlets during the 2019 Argentinean Presidential Elections. For this purpose, we present a polarity dataset of 1,976 headlines mentioning candidates in the 2019 elections at the target level. Preliminary experiments with state-of-the-art classification algorithms based on pre-trained linguistic models suggest that target information is helpful for this task. We make our data and pre-trained models publicly available.
翻訳日:2022-08-31 12:57:03 公開日:2022-08-30
# near: 名前付きエンティティと臨床概念の属性認識

NEAR: Named Entity and Attribute Recognition of clinical concepts ( http://arxiv.org/abs/2208.13949v1 )

ライセンス: Link先を確認
Namrata Nath, Sang-Heon Lee, Ivan Lee(参考訳) 名前付きエンティティ認識(英語: named entity recognition、ner)または臨床テキストから概念を抽出することは、テキスト中のエンティティを識別し、問題、治療、テスト、臨床部門、発生(入退院や退院など)などのカテゴリに分類するタスクである。 NERはElectronic Health Records(EHR)の非構造化データ処理と活用において重要な要素となる。 概念のスパンやカテゴリを特定することはそれ自体が困難な作業であるが、これらのエンティティは、名前付きエンティティのコンシューマに意味を暗示する否定のような属性を持つこともできる。 エンティティとその資格属性を識別する研究はほとんど行われていない。 本研究は,nerタスクをタグシーケンスラベルを割り当てた属性に対して教師付きマルチラベルタグ付け問題としてモデル化することにより,エンティティとその属性を検出する領域に寄与することを目指している。 本稿では,BiLSTM n-CRF, BiLSTM-CRF-Smax-TF, BiLSTM n-CRF-TFの3つのアーキテクチャを提案する。 2010 i2b2/VA と i2b2 2012 の共有タスクデータセットを用いて,これらの手法の評価を行った。 それぞれのモデルが最良ナーf1スコア0。 i2b2 2010/va と i2b2 2012 はそれぞれ 894 と 0.808 である。 その結果,i2b2 2010/VAおよびi2b2 2012データセットでは,それぞれ0.832,0.836,マクロ平均F1極性スコアは0.924,0.888であった。 i2b2 2012データセットを用いて行ったモダリティ調査では, マイクロ平均F1およびマクロ平均F1のスコアが0.818, 0.501であった。

Named Entity Recognition (NER) or the extraction of concepts from clinical text is the task of identifying entities in text and slotting them into categories such as problems, treatments, tests, clinical departments, occurrences (such as admission and discharge) and others. NER forms a critical component of processing and leveraging unstructured data from Electronic Health Records (EHR). While identifying the spans and categories of concepts is itself a challenging task, these entities could also have attributes such as negation that pivot their meanings implied to the consumers of the named entities. There has been little research dedicated to identifying the entities and their qualifying attributes together. This research hopes to contribute to the area of detecting entities and their corresponding attributes by modelling the NER task as a supervised, multi-label tagging problem with each of the attributes assigned tagging sequence labels. In this paper, we propose 3 architectures to achieve this multi-label entity tagging: BiLSTM n-CRF, BiLSTM-CRF-Smax-TF and BiLSTM n-CRF-TF. We evaluate these methods on the 2010 i2b2/VA and the i2b2 2012 shared task datasets. Our different models obtain best NER F1 scores of 0. 894 and 0.808 on the i2b2 2010/VA and i2b2 2012 respectively. The highest span based micro-averaged F1 polarity scores obtained were 0.832 and 0.836 on the i2b2 2010/VA and i2b2 2012 datasets respectively, and the highest macro-averaged F1 polarity scores obtained were 0.924 and 0.888 respectively. The modality studies conducted on i2b2 2012 dataset revealed high scores of 0.818 and 0.501 for span based micro-averaged F1 and macro-averaged F1 respectively.
翻訳日:2022-08-31 12:56:52 公開日:2022-08-30
# imci: ファクト抽出と検証のためのマルチビューコンテキスト情報の統合

IMCI: Integrate Multi-view Contextual Information for Fact Extraction and Verification ( http://arxiv.org/abs/2208.14001v1 )

ライセンス: Link先を確認
Hao Wang, Yangguang Li, Zhen Huang, Yong Dou(参考訳) 自動フェイクニュース検出技術の急速な発展に伴い、事実抽出と検証(fever)が注目を集めている。 このタスクは、数百万のオープンドメインwikipedia文書から最も関連する事実証拠を抽出し、対応するクレームの信頼性を検証することを目的としている。 タスクにはいくつかの強力なモデルが提案されており、大きな進歩を遂げているが、マルチビューのコンテキスト情報を使用しないため、パフォーマンスが向上しないと主張している。 本稿では,事実抽出と検証に多視点コンテキスト情報(IMCI)を統合することを提案する。 各証拠文について,文書内文脈と文書間文脈という2種類の文脈を定義する。 文書内コンテキストは、文書のタイトルと、同じ文書からの他の全ての文からなる。 文書間の文脈は、異なる文書から生じるかもしれない他のすべての証拠から成り立っている。 次に,複数視点の文脈情報を統合して,そのタスクを処理するエビデンス文を符号化する。 FEVER 1.0共有タスクにおける実験結果から,我々のIMCIフレームワークは,事実抽出と検証の両面で大きな進歩を示し,勝利したFEVERスコア72.97%,オンラインブラインドテストセットのラベル精度75.84%で最先端のパフォーマンスを達成した。 また,多視点の文脈情報の影響を検出するため,アブレーション研究を行う。 私たちのコードはhttps://github.com/phoenixsecularbird/IMCIでリリースされます。

With the rapid development of automatic fake news detection technology, fact extraction and verification (FEVER) has been attracting more attention. The task aims to extract the most related fact evidences from millions of open-domain Wikipedia documents and then verify the credibility of corresponding claims. Although several strong models have been proposed for the task and they have made great progress, we argue that they fail to utilize multi-view contextual information and thus cannot obtain better performance. In this paper, we propose to integrate multi-view contextual information (IMCI) for fact extraction and verification. For each evidence sentence, we define two kinds of context, i.e. intra-document context and inter-document context}. Intra-document context consists of the document title and all the other sentences from the same document. Inter-document context consists of all other evidences which may come from different documents. Then we integrate the multi-view contextual information to encode the evidence sentences to handle the task. Our experimental results on FEVER 1.0 shared task show that our IMCI framework makes great progress on both fact extraction and verification, and achieves state-of-the-art performance with a winning FEVER score of 72.97% and label accuracy of 75.84% on the online blind test set. We also conduct ablation study to detect the impact of multi-view contextual information. Our codes will be released at https://github.com/phoenixsecularbird/IMCI.
翻訳日:2022-08-31 12:56:25 公開日:2022-08-30
# 学習可能なアクティベーション機能を有するトランスフォーマー

Transformers with Learnable Activation Functions ( http://arxiv.org/abs/2208.14111v1 )

ライセンス: Link先を確認
Haishuo Fang, Ji-Ung Lee, Nafise Sadat Moosavi, Iryna Gurevych(参考訳) アクティベーション関数は入力データのトポロジカルな複雑さを低減し、モデルの性能を向上させる上で大きな影響を与える可能性がある。 適切なアクティベーション関数の選択は、ニューラルモデル設計において不可欠なステップである。 しかし、アクティベーション関数の選択はトランスフォーマーベースの言語モデルではほとんど議論されない。 アクティベーション機能は事前に選択され、事前訓練から微調整まで固定される。 その結果、モデルに課された帰納バイアスは、この長いライフサイクルの間に調整できない。 さらに、後に開発されたモデル(例えばRoBERTa、BART、GPT-3)は、しばしば以前の作業(例えばBERT)を正当化せずに同じアクティベーション関数を使用する。 本稿では,Transformerアーキテクチャにおいて,学習可能なアクティベーション関数であるRational Activation Function(RAF)の有効性を検討する。 従来の事前定義されたアクティベーション関数とは対照的に、RAFは入力データに従ってトレーニング中に最適なアクティベーション関数を適応的に学習することができる。 実験の結果,RAFT(RAFT)はGELU関数を持つバニラBERTよりも精度が低いことがわかった。 ダウンストリームタスクにおけるRAFTを、低域およびフルデータ設定で評価する。 この結果から,RAFTはタスクや設定の大部分において,対応するモデルよりも優れていた。 例えば、RAFTはGLUEベンチマークのバニラBERTを、ローデータシナリオ(100のトレーニング例が利用可能)で平均5.71ポイント、フルデータ設定で2.05ポイントで上回っている。 学習されたRAFの形状の分析により、それらは事前訓練されたモデルの異なる層間で大きく異なり、従来の活性化関数と大きく異なるように見えることが明らかになった。 RAFTは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。

Activation functions can have a significant impact on reducing the topological complexity of input data and therefore improve the performance of the model. Selecting a suitable activation function is an essential step in neural model design. However, the choice of activation function is seldom discussed or explored in Transformer-based language models. Their activation functions are chosen beforehand and then remain fixed from pre-training to fine-tuning. As a result, the inductive biases they imposed on models cannot be adjusted during this long life cycle. Moreover, subsequently developed models (e.g., RoBERTa, BART, and GPT-3) often follow up prior work (e.g., BERT) to use the same activation function without justification. In this paper, we investigate the effectiveness of using Rational Activation Function (RAF), a learnable activation function, in the Transformer architecture. In contrast to conventional, predefined activation functions, RAFs can adaptively learn optimal activation functions during training according to input data. Our experiments show the RAF-based Transformer (RAFT) achieves a lower validation perplexity than a vanilla BERT with the GELU function. We further evaluate RAFT on downstream tasks in low- and full-data settings. Our results show that RAFT outperforms the counterpart model across the majority of tasks and settings. For instance, RAFT outperforms vanilla BERT on the GLUE benchmark by 5.71 points on average in low-data scenario (where 100 training examples are available) and by 2.05 points on SQuAD in full-data setting. Analysis of the shapes of learned RAFs further unveils that they substantially vary between different layers of the pre-trained model and mostly look very different from conventional activation functions. RAFT opens a new research direction for analyzing and interpreting pre-trained models according to the learned activation functions.
翻訳日:2022-08-31 12:56:03 公開日:2022-08-30
# 人間フィードバックによるオープンドメインチャットボットの強化に向けて

Towards Boosting the Open-Domain Chatbot with Human Feedback ( http://arxiv.org/abs/2208.14165v1 )

ライセンス: Link先を確認
Hua Lu, Siqi Bao, Huang He, Fan Wang, Hua Wu, Haifeng Wang(参考訳) ソーシャルメディアコメントで事前学習された多くのオープンドメインの対話モデルは、コヒーレントな応答を生成するが、実際のユーザとの対話において、魅力的な応答を生成するのが困難である。 この現象は、主に注釈付き人間と人間の会話の欠如と、人間の好みとの相違に起因する可能性がある。 本稿では,2種類の人間フィードバック(明示的なデモンストレーションと暗黙的嗜好を含む)を収集し活用する,オープンドメインチャットボットを強化するための,新規かつ効率的なアプローチを提案する。 アノテーションにモデル生成候補の応答の選択や修正を依頼することで、Diamanteは人間に示された応答を効率的に収集し、中国のチャットデータセットを構築する。 人間の嗜好との整合性を高めるため、Diamanteはデータ収集プロセスにおける暗黙の嗜好を活用し、世代評価共同トレーニングを導入する。 包括的実験により、diamanteデータセットとジョイントトレーニングパラダイムは、中国の事前訓練された対話モデルの性能を著しく向上させることができることが示された。

Many open-domain dialogue models pre-trained with social media comments can generate coherent replies but have difficulties producing engaging responses when interacting with real users. This phenomenon might mainly result from the deficiency of annotated human-human conversations and the misalignment with human preference. In this paper, we propose a novel and efficient approach Diamante to boost the open-domain chatbot, where two kinds of human feedback (including explicit demonstration and implicit preference) are collected and leveraged. By asking annotators to select or amend the model-generated candidate responses, Diamante efficiently collects the human demonstrated responses and constructs a Chinese chit-chat dataset. To enhance the alignment with human preference, Diamante leverages the implicit preference in the data collection process and introduces the generation-evaluation joint training. Comprehensive experiments indicate that the Diamante dataset and joint training paradigm can significantly boost the performance of Chinese pre-trained dialogue models.
翻訳日:2022-08-31 12:55:35 公開日:2022-08-30
# エンティティトラッキングのための効率的かつ解釈可能なニューラルモデル

Efficient and Interpretable Neural Models for Entity Tracking ( http://arxiv.org/abs/2208.14252v1 )

ライセンス: Link先を確認
Shubham Toshniwal(参考訳) The Lord of the Ringsのような小説を理解するためには、自然言語モデルには何が必要だろうか? とりわけ、そのようなモデルは次のようなことが可能でなければならない。 (a)テキストに紹介された新しい文字(人物)とその属性を識別し、記録する b) 予め導入した文字への後続の参照を特定し、属性を更新する。 エンティティトラッキングの問題は言語理解に不可欠であり、質問応答や要約などのNLPにおける幅広いダウンストリームアプリケーションに有用である。 本論文では、エンティティ追跡モデルの使用促進に関する2つの重要な問題に焦点を当てる。 (i)小説等の長い文書にエンティティ追跡モデルをスケーリングすること。 (ii)エンティティ追跡を言語モデルに統合する。 言語技術を長いドキュメントに適用することは、最近関心を集めているが、計算の制約は、現在のメソッドをスケールアップする上で重要なボトルネックである。 本論文では,事前学習された言語モデルから派生したリッチで固定次元のベクトル表現を持つエンティティを表現し,エンティティの短命な性質を生かして,計算効率の高いエンティティ追跡モデルを開発することができると主張する。 また、エンティティトラッキングを言語モデルに統合することについても議論しています。 (i)現在のNLPアプリケーションにおける事前訓練言語モデルのユビキタス利用を踏まえて、幅広い応用 (ii) 独立したエンティティトラッキングモデルを統合するよりも、新しい事前学習された言語モデルをスワップする方がずっと簡単であるため、導入が容易である。

What would it take for a natural language model to understand a novel, such as The Lord of the Rings? Among other things, such a model must be able to: (a) identify and record new characters (entities) and their attributes as they are introduced in the text, and (b) identify subsequent references to the characters previously introduced and update their attributes. This problem of entity tracking is essential for language understanding, and thus, useful for a wide array of downstream applications in NLP such as question-answering, summarization. In this thesis, we focus on two key problems in relation to facilitating the use of entity tracking models: (i) scaling entity tracking models to long documents, such as a novel, and (ii) integrating entity tracking into language models. Applying language technologies to long documents has garnered interest recently, but computational constraints are a significant bottleneck in scaling up current methods. In this thesis, we argue that computationally efficient entity tracking models can be developed by representing entities with rich, fixed-dimensional vector representations derived from pretrained language models, and by exploiting the ephemeral nature of entities. We also argue for the integration of entity tracking into language models as it will allow for: (i) wider application given the current ubiquitous use of pretrained language models in NLP applications, and (ii) easier adoption since it is much easier to swap in a new pretrained language model than to integrate a separate standalone entity tracking model.
翻訳日:2022-08-31 12:55:16 公開日:2022-08-30
# 経験的リスク最小化のためのfrank-wolfe法の改良にtaylor近似勾配を用いる

Using Taylor-Approximated Gradients to Improve the Frank-Wolfe Method for Empirical Risk Minimization ( http://arxiv.org/abs/2208.13933v1 )

ライセンス: Link先を確認
Zikai Xiong and Robert M. Freund(参考訳) フランク=ウルフ法(frank-wolfe method)は、イテレートの構造誘導性や、特に可算集合上の線形最小化が射影よりも計算効率が高い設定により、統計学や機械学習の応用においてますます有用である。 統計的および機械学習における基本的な最適化問題の1つである経験的リスク最小化の設定において、フランク・ウルフ法の計算効率は通常、データ観測数n$で線形に増加する。 これは典型的な確率的射影法の場合とは全く対照的である。 n$への依存を減らすために、典型的な滑らかな損失関数(例えば、左方形損失とロジスティック損失)の2階の滑らかさを調べ、決定論的および確率的設定の変種を含むテイラー級数近似勾配でフランク=ウルフ法を修正を提案する。 最適性トレランス$\varepsilon$が十分小さい体制における現在の最先端手法と比較して、我々の手法は凸と非凸の両方の設定においてフランク・ウルフ法の最適収束率を得ながら、大きな$n$への依存を同時に低減することができる。 また,計算保証を実現するための適応的なステップサイズアプローチを提案する。 最後に,コンベックスおよび非凸二項分類問題に対する実世界のデータセット上での既存手法に対する高速化を示す計算実験を行った。

The Frank-Wolfe method has become increasingly useful in statistical and machine learning applications, due to the structure-inducing properties of the iterates, and especially in settings where linear minimization over the feasible set is more computationally efficient than projection. In the setting of Empirical Risk Minimization -- one of the fundamental optimization problems in statistical and machine learning -- the computational effectiveness of Frank-Wolfe methods typically grows linearly in the number of data observations $n$. This is in stark contrast to the case for typical stochastic projection methods. In order to reduce this dependence on $n$, we look to second-order smoothness of typical smooth loss functions (least squares loss and logistic loss, for example) and we propose amending the Frank-Wolfe method with Taylor series-approximated gradients, including variants for both deterministic and stochastic settings. Compared with current state-of-the-art methods in the regime where the optimality tolerance $\varepsilon$ is sufficiently small, our methods are able to simultaneously reduce the dependence on large $n$ while obtaining optimal convergence rates of Frank-Wolfe methods, in both the convex and non-convex settings. We also propose a novel adaptive step-size approach for which we have computational guarantees. Last of all, we present computational experiments which show that our methods exhibit very significant speed-ups over existing methods on real-world datasets for both convex and non-convex binary classification problems.
翻訳日:2022-08-31 12:52:16 公開日:2022-08-30
# FDB: 不正データセットベンチマーク

FDB: Fraud Dataset Benchmark ( http://arxiv.org/abs/2208.14417v1 )

ライセンス: Link先を確認
Prince Grover, Zheng Li, Jianbo Liu, Jakub Zablocki, Hao Zhou, Julia Xu and Anqi Cheng(参考訳) 標準化されたデータセットとベンチマークは、コンピュータビジョン、自然言語処理、マルチモーダルおよび表の設定の革新を刺激している。 他のよく研究されているフィールドと比較して、不正検出には多くの違いがある。 違いは、高いレベルの不均衡、多様な特徴タイプ、頻繁な不正パターンの変更、問題の敵対的性質などである。 これらの違いにより、他の分類タスク用に設計されたモデリングアプローチは、不正検出にはうまくいかない可能性がある。 FDB(Fraud Dataset Benchmark)は,不正検出を目的とした公開データセットのコンパイルである。 fdbは詐欺行為に関連する様々なタスクを含み、詐欺的なカード不正取引の特定、ボット攻撃の検出、悪意のあるurlの分類、コンテンツモデレーションへのローンのリスクの予測などを含む。 fdbのpythonベースのライブラリは、標準化されたトレーニングとテスト分割によるデータローディングのための一貫したapiを提供する。 参考までに、FDB上の異なるモデリングアプローチのベースライン評価も提供する。 さまざまな研究やビジネス上の問題に対するAutomated Machine Learning(AutoML)の人気が高まっていることを踏まえ、ベースライン評価にAutoMLフレームワークを使用しました。 不正防止のためには、限られたリソースとMLの専門知識が欠如している組織は、しばしば調査員のチームを雇い、ブロックリストと手動のルールを使う。 このような組織は、本番環境にデプロイしやすく、不正防止の要件を満たすAutoMLソリューションの恩恵を受けることができる。 我々は、fdbが、異なる詐欺モードであるoperandi(mos)に対応したカスタマイズされた不正検出技術の開発と、ベンチマークのすべてのデータセットでうまく機能するautomlシステムの改善に役立つことを望んでいる。

Standardized datasets and benchmarks have spurred innovations in computer vision, natural language processing, multi-modal and tabular settings. We note that, as compared to other well researched fields fraud detection has numerous differences. The differences include a high class imbalance, diverse feature types, frequently changing fraud patterns, and adversarial nature of the problem. Due to these differences, the modeling approaches that are designed for other classification tasks may not work well for the fraud detection. We introduce Fraud Dataset Benchmark (FDB), a compilation of publicly available datasets catered to fraud detection. FDB comprises variety of fraud related tasks, ranging from identifying fraudulent card-not-present transactions, detecting bot attacks, classifying malicious URLs, predicting risk of loan to content moderation. The Python based library from FDB provides consistent API for data loading with standardized training and testing splits. For reference, we also provide baseline evaluations of different modeling approaches on FDB. Considering the increasing popularity of Automated Machine Learning (AutoML) for various research and business problems, we used AutoML frameworks for our baseline evaluations. For fraud prevention, the organizations that operate with limited resources and lack ML expertise often hire a team of investigators, use blocklists and manual rules, all of which are inefficient and do not scale well. Such organizations can benefit from AutoML solutions that are easy to deploy in production and pass the bar of fraud prevention requirements. We hope that FDB helps in the development of customized fraud detection techniques catered to different fraud modus operandi (MOs) as well as in the improvement of AutoML systems that can work well for all datasets in the benchmark.
翻訳日:2022-08-31 12:51:51 公開日:2022-08-30
# MeloForm: エキスパートシステムとニューラルネットワークに基づくメロディを音楽形式で生成する

MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks ( http://arxiv.org/abs/2208.14345v1 )

ライセンス: Link先を確認
Peiling Lu, Xu Tan, Botao Yu, Tao Qin, Sheng Zhao, Tie-Yan Liu(参考訳) 人間は通常、音楽のアイデアを表現するために音楽形式に従って要素を整理することで作曲する。 しかし,ニューラルネットワークを用いた音楽生成では,楽譜上のラベル付きデータが欠如しているため,実現は困難である。 本稿では,専門家システムとニューラルネットワークを用いたメロディ生成システムであるMeloFormを開発する。 具体的には 1) モチーフからフレーズへ音楽要素を展開し,前段階の音楽形式に応じた繰り返しやバリエーションのある区間に旋律を生成させる専門家システムを設計する。 2) 生成したメロディは音楽的豊かさの欠如を考慮し, メロディを改良するトランスフォーマーベース改良モデルの設計を行った。 MeloFormは、エキスパートシステムによる正確な音楽形式制御と、ニューラルモデルによる音楽豊かさ学習の利点を享受している。 主観的および客観的な評価は、メロフォームが97.79%の精度で正確な音楽形式制御を持つ旋律を生成し、主観的評価スコアの点数を0.75, 0.50, 0.86, 0.89で上回る。 また、メロフォームは、詩やコーラス形式、ロンド形式、変奏形式、ソナタ形式など、様々な形式をサポートすることができる。

Human usually composes music by organizing elements according to the musical form to express music ideas. However, for neural network-based music generation, it is difficult to do so due to the lack of labelled data on musical form. In this paper, we develop MeloForm, a system that generates melody with musical form using expert systems and neural networks. Specifically, 1) we design an expert system to generate a melody by developing musical elements from motifs to phrases then to sections with repetitions and variations according to pre-given musical form; 2) considering the generated melody is lack of musical richness, we design a Transformer based refinement model to improve the melody without changing its musical form. MeloForm enjoys the advantages of precise musical form control by expert systems and musical richness learning via neural models. Both subjective and objective experimental evaluations demonstrate that MeloForm generates melodies with precise musical form control with 97.79% accuracy, and outperforms baseline systems in terms of subjective evaluation score by 0.75, 0.50, 0.86 and 0.89 in structure, thematic, richness and overall quality, without any labelled musical form data. Besides, MeloForm can support various kinds of forms, such as verse and chorus form, rondo form, variational form, sonata form, etc.
翻訳日:2022-08-31 12:51:22 公開日:2022-08-30
# CUAHN-VIO:Visual-Inertial Odometryのためのコンテンツと不確かさを意識したホログラフィネットワーク

CUAHN-VIO: Content-and-Uncertainty-Aware Homography Network for Visual-Inertial Odometry ( http://arxiv.org/abs/2208.13935v1 )

ライセンス: Link先を確認
Yingfu Xu and Guido C. H. E. de Croon(参考訳) 学習ベースのビジュアルエゴモーション推定は、現実世界でアジャイルなモバイルロボットをナビゲートする準備ができていないと約束されている。 本稿では,下向きカメラを備えたマイクロエアロ車両(MAV)用に設計された,頑健で効率的な単眼型視覚慣性眼振計CUAHN-VIOを提案する。 ビジョンフロントエンドは、非ホログラフィ画像の内容とネットワーク予測の障害ケースに対して堅牢な、コンテンツと不確実性を認識するホモグラフィネットワーク(CUAHN)である。 ホモグラフィ変換を予測するだけでなく、その不確かさを推定する。 訓練は自己監督されており、しばしば取得が難しい基礎的な真実を必要としない。 ネットワークは、微調整なしで新しい環境に"プラグ・アンド・プレイ"を展開できる優れた一般化を備えている。 軽量拡張カルマンフィルタ(EKF)は、VIOバックエンドとして機能し、ネットワークからの平均予測と分散推定を利用して、視覚計測の更新を行う。 CUAHN-VIOは、高速なパブリックデータセットで評価され、最先端(SOTA)VIOアプローチと競合する精度を示す。 動作の曖昧さ、ネットワークの推論時間(約23ms)、安定した処理遅延(約26ms)のおかげで、CUAHN-VIOはNvidia Jetson TX2組み込みプロセッサ上で高速なMAVをナビゲートすることに成功した。

Learning-based visual ego-motion estimation is promising yet not ready for navigating agile mobile robots in the real world. In this article, we propose CUAHN-VIO, a robust and efficient monocular visual-inertial odometry (VIO) designed for micro aerial vehicles (MAVs) equipped with a downward-facing camera. The vision frontend is a content-and-uncertainty-aware homography network (CUAHN) that is robust to non-homography image content and failure cases of network prediction. It not only predicts the homography transformation but also estimates its uncertainty. The training is self-supervised, so that it does not require ground truth that is often difficult to obtain. The network has good generalization that enables "plug-and-play" deployment in new environments without fine-tuning. A lightweight extended Kalman filter (EKF) serves as the VIO backend and utilizes the mean prediction and variance estimation from the network for visual measurement updates. CUAHN-VIO is evaluated on a high-speed public dataset and shows rivaling accuracy to state-of-the-art (SOTA) VIO approaches. Thanks to the robustness to motion blur, low network inference time (~23ms), and stable processing latency (~26ms), CUAHN-VIO successfully runs onboard an Nvidia Jetson TX2 embedded processor to navigate a fast autonomous MAV.
翻訳日:2022-08-31 12:50:29 公開日:2022-08-30
# FUSION:Fused Normalization Statisticsによる完全教師なしテスト時間ステイン適応

FUSION: Fully Unsupervised Test-Time Stain Adaptation via Fused Normalization Statistics ( http://arxiv.org/abs/2208.14206v1 )

ライセンス: Link先を確認
Nilanjan Chattopadhyay, Shiv Gehlot, Nitin Singhal(参考訳) 染色は、組織学的スライドを作成しながら、吸引体の微細構造を明らかにする。 ソースとターゲットの発色差として定義される染色変化は、染色中の特性の変化によって引き起こされ、結果として分布の変化とターゲットの性能が低下する。 染色正規化の目的は、ターゲットの色分布をソースのそれと一致させることである。 しかし、染色の正常化は根底の形態を歪ませ、誤った診断につながる。 本研究では,非教師付きテストタイムシナリオにおいて,ターゲットに対してモデルを調整することにより,ターゲットエンドでの有意なラベル付けの必要性をなくし,ステンド適応を促進する新しい方法であるfusionを提案する。 fusionはターゲットのバッチ正規化統計を変更し、重み付け係数を用いてソース統計と融合することで動作する。 このアルゴリズムは重み付け係数に基づいて2つの極値のうちの1つに還元する。 トレーニングや監督の欠如にもかかわらず、FUSIONは2つの公開データセットに関する包括的な実験によって示されるように、分類と密集予測(セグメンテーション)のための既存の等価アルゴリズムを超越している。

Staining reveals the micro structure of the aspirate while creating histopathology slides. Stain variation, defined as a chromatic difference between the source and the target, is caused by varying characteristics during staining, resulting in a distribution shift and poor performance on the target. The goal of stain normalization is to match the target's chromatic distribution to that of the source. However, stain normalisation causes the underlying morphology to distort, resulting in an incorrect diagnosis. We propose FUSION, a new method for promoting stain-adaption by adjusting the model to the target in an unsupervised test-time scenario, eliminating the necessity for significant labelling at the target end. FUSION works by altering the target's batch normalization statistics and fusing them with source statistics using a weighting factor. The algorithm reduces to one of two extremes based on the weighting factor. Despite the lack of training or supervision, FUSION surpasses existing equivalent algorithms for classification and dense predictions (segmentation), as demonstrated by comprehensive experiments on two public datasets.
翻訳日:2022-08-31 12:50:04 公開日:2022-08-30
# 光文字認識システムにおけるブラックボックス攻撃

A Black-Box Attack on Optical Character Recognition Systems ( http://arxiv.org/abs/2208.14302v1 )

ライセンス: Link先を確認
Samet Bayram and Kenneth Barner(参考訳) 敵対的機械学習は、ディープラーニングモデルの脆弱性を示す新興分野である。 人工知能(A.I.)モデルに挑戦するための攻撃方法の探索は重要な関心事である。 このようなa.i.モデルの信頼性と堅牢性は、効果的な敵対的攻撃方法の増加に対する主要な懸念の1つである。 分類タスクは敵攻撃の主要な脆弱な領域である。 攻撃戦略の大半は、カラーまたはグレースケールの画像に対して開発されている。 その結果、バイナリ画像認識システムに対する敵攻撃は十分に研究されていない。 バイナリ画像は単一のチャネルを持つ2つのピクセル値信号である。 バイナリ画像の単純さは、カラー画像やグレースケール画像、すなわち計算効率に比べて大きな利点がある。 さらに、手書き文字認識、プレート番号識別、銀行チェック認識システムなど、ほとんどの光学文字認識システム(O.C.R.s)は、処理ステップでバイナリイメージまたはバイナライズを使用する。 本稿では,バイナリ画像分類器に対して,簡便かつ効率的な攻撃手法である効率的な組合せブラックボックス攻撃を提案する。 2つの異なるデータセットと3つの分類ネットワークにおける攻撃手法の効率を検証し,その性能を示す。 さらに,提案手法と最先端手法との比較を行い,利点と欠点,適用性について検討した。

Adversarial machine learning is an emerging area showing the vulnerability of deep learning models. Exploring attack methods to challenge state of the art artificial intelligence (A.I.) models is an area of critical concern. The reliability and robustness of such A.I. models are one of the major concerns with an increasing number of effective adversarial attack methods. Classification tasks are a major vulnerable area for adversarial attacks. The majority of attack strategies are developed for colored or gray-scaled images. Consequently, adversarial attacks on binary image recognition systems have not been sufficiently studied. Binary images are simple two possible pixel-valued signals with a single channel. The simplicity of binary images has a significant advantage compared to colored and gray scaled images, namely computation efficiency. Moreover, most optical character recognition systems (O.C.R.s), such as handwritten character recognition, plate number identification, and bank check recognition systems, use binary images or binarization in their processing steps. In this paper, we propose a simple yet efficient attack method, Efficient Combinatorial Black-box Adversarial Attack, on binary image classifiers. We validate the efficiency of the attack technique on two different data sets and three classification networks, demonstrating its performance. Furthermore, we compare our proposed method with state-of-the-art methods regarding advantages and disadvantages as well as applicability.
翻訳日:2022-08-31 12:49:46 公開日:2022-08-30
# 分類アルゴリズムを用いた心・縦隔心臓組織の自動分別について

On the Automated Segmentation of Epicardial and Mediastinal Cardiac Adipose Tissues Using Classification Algorithms ( http://arxiv.org/abs/2208.14352v1 )

ライセンス: Link先を確認
\'Erick Oliveira Rodrigues and Felipe Fernandes Cordeiro de Morais and Aura Conci(参考訳) 心臓周囲の脂肪蓄積量の定量化は、いくつかの疾患と相関する健康リスク因子を評価するための正確な方法である。 しかし、このタイプの評価は、必要な人的負荷のために臨床実践に広く採用されていない。 本研究は,心臓脂肪パッドの自動セグメンテーションのための新しい技術を提案する。 本手法は,心臓CT画像のセグメンテーションに分類アルゴリズムを適用することに基づく。 さらに,本課題に対するいくつかのアルゴリズムの性能評価を行い,より優れた予測モデルを提案する。 実験の結果, 心内膜脂肪および縦隔脂肪の分類における平均正率は98.4%であり, 96.2%であった。 平均すると、分割された患者と基礎的真理に関するサイス類似度指数は96.8%であった。 サーフォア法はこれまで、心臓脂肪の自動分画における最も正確な結果が得られてきた。

The quantification of fat depots on the surroundings of the heart is an accurate procedure for evaluating health risk factors correlated with several diseases. However, this type of evaluation is not widely employed in clinical practice due to the required human workload. This work proposes a novel technique for the automatic segmentation of cardiac fat pads. The technique is based on applying classification algorithms to the segmentation of cardiac CT images. Furthermore, we extensively evaluate the performance of several algorithms on this task and discuss which provided better predictive models. Experimental results have shown that the mean accuracy for the classification of epicardial and mediastinal fats has been 98.4% with a mean true positive rate of 96.2%. On average, the Dice similarity index, regarding the segmented patients and the ground truth, was equal to 96.8%. Therfore, our technique has achieved the most accurate results for the automatic segmentation of cardiac fats, to date.
翻訳日:2022-08-31 12:49:28 公開日:2022-08-30
# FAST-AID脳:脳のための人工知能を用いた高速かつ正確なセグメンテーションツール

FAST-AID Brain: Fast and Accurate Segmentation Tool using Artificial Intelligence Developed for Brain ( http://arxiv.org/abs/2208.14360v1 )

ライセンス: Link先を確認
Mostafa Mehdipour Ghazi and Mads Nielsen(参考訳) 臨床実習で使用される医用画像は異種であり、学術研究におけるスキャンと同等の品質ではない。 前処理は、解剖学、アーティファクト、イメージングパラメータが異常でプロトコルが異なる極端なケースで分解される。 これらのバリエーションにロバストな方法が最も必要である。 人間の脳を132領域に高速かつ高精度に分割するための新しい深層学習法を提案する。 提案モデルは, 効率的なU-Netライクなネットワークと, 直交2次元平面と脳ラベルの融合に対する異なる視点の交叉点と階層的関係の利点を利用する。 脳の分節と頭蓋内体積(ICV)の推定に部分的にラベル付けされたデータを活用するために、弱教師付き学習が展開される。 さらに、データプライバシを保ちながらモデルの堅牢なトレーニングのために、変動性の高い現実的な脳スキャンを生成して、MRIデータの拡張にデータ拡張を用いる。 提案手法は,画像の事前処理や性能低下を伴わずに頭蓋骨や他の人工物を含む脳MRIデータに適用することができる。 異なるアトラスを用いた実験により, 訓練モデルのセグメンテーション性能を最先端と比較して評価し, 提案モデルのセグメンテーション精度とロバスト性が, 異なる領域内および領域間データセットにまたがる既存手法と比較して高い値を示した。

Medical images used in clinical practice are heterogeneous and not the same quality as scans studied in academic research. Preprocessing breaks down in extreme cases when anatomy, artifacts, or imaging parameters are unusual or protocols are different. Methods robust to these variations are most needed. A novel deep learning method is proposed for fast and accurate segmentation of the human brain into 132 regions. The proposed model uses an efficient U-Net-like network and benefits from the intersection points of different views and hierarchical relations for the fusion of the orthogonal 2D planes and brain labels during the end-to-end training. Weakly supervised learning is deployed to take the advantage of partially labeled data for the whole brain segmentation and estimation of the intracranial volume (ICV). Moreover, data augmentation is used to expand the magnetic resonance imaging (MRI) data by generating realistic brain scans with high variability for robust training of the model while preserving data privacy. The proposed method can be applied to brain MRI data including skull or any other artifacts without preprocessing the images or a drop in performance. Several experiments using different atlases are conducted to evaluate the segmentation performance of the trained model compared to the state-of-the-art, and the results show higher segmentation accuracy and robustness of the proposed model compared to the existing methods across different intra- and inter-domain datasets.
翻訳日:2022-08-31 12:49:15 公開日:2022-08-30
# 量子ニューラルネットワークにおける対称プルーニング

Symmetric Pruning in Quantum Neural Networks ( http://arxiv.org/abs/2208.14057v1 )

ライセンス: Link先を確認
Xinbiao Wang, Junyu Liu, Tongliang Liu, Yong Luo, Yuxuan Du, Dacheng Tao(参考訳) 量子系の多くの基本的な性質は、そのハミルトニアン状態と基底状態によって捉えられる。 基底状態準備 (GSP) の重要性にもかかわらず、このタスクは古典的には大規模ハミルトニアンにとっては難解である。 現代の量子マシンの力を発揮する量子ニューラルネットワーク(QNN)は、この問題を克服するための主要なプロトコルとして登場した。 そのため、GSPではQNNの性能向上が重要なトピックとなっている。 経験的な証拠から、ハンドクラフト対称アンサットを持つqnnは一般的に非対称アンサットを持つものよりも訓練性が良いことが示されているが、理論的な説明は研究されていない。 この知識ギャップを埋めるために、実効的な量子ニューラルネットワークカーネル(EQNTK)を提案し、この概念を過パラメータ化理論と結びつけ、QNNの収束を大域的最適に定量化する。 その結果、対称アンサーゼの進行は、パラメータや量子回路の深さを少なく要求し、良質なロスランドスケープと高速収束を許容する過度なパラメータ化状態に達することが判明した。 EQNTKによって導かれた対称プルーニング(SP)スキームは、過パラメータ化および非対称化から対称アンサッツを自動的に調整し、ハミルトンの明示的な対称性情報が利用できない場合にQNNの性能を大幅に向上させる。 EQNTKの分析結果とSPの有効性を検証するため,大規模な数値シミュレーションを行った。

Many fundamental properties of a quantum system are captured by its Hamiltonian and ground state. Despite the significance of ground states preparation (GSP), this task is classically intractable for large-scale Hamiltonians. Quantum neural networks (QNNs), which exert the power of modern quantum machines, have emerged as a leading protocol to conquer this issue. As such, how to enhance the performance of QNNs becomes a crucial topic in GSP. Empirical evidence showed that QNNs with handcraft symmetric ansatzes generally experience better trainability than those with asymmetric ansatzes, while theoretical explanations have not been explored. To fill this knowledge gap, here we propose the effective quantum neural tangent kernel (EQNTK) and connect this concept with over-parameterization theory to quantify the convergence of QNNs towards the global optima. We uncover that the advance of symmetric ansatzes attributes to their large EQNTK value with low effective dimension, which requests few parameters and quantum circuit depth to reach the over-parameterization regime permitting a benign loss landscape and fast convergence. Guided by EQNTK, we further devise a symmetric pruning (SP) scheme to automatically tailor a symmetric ansatz from an over-parameterized and asymmetric one to greatly improve the performance of QNNs when the explicit symmetry information of Hamiltonian is unavailable. Extensive numerical simulations are conducted to validate the analytical results of EQNTK and the effectiveness of SP.
翻訳日:2022-08-31 12:45:35 公開日:2022-08-30
# 行動可能な説明と忘れられる権利とのトレードオフについて

On the Trade-Off between Actionable Explanations and the Right to be Forgotten ( http://arxiv.org/abs/2208.14137v1 )

ライセンス: Link先を確認
Martin Pawelczyk and Tobias Leemann and Asia Biega and Gjergji Kasneci(参考訳) 機械学習(ML)モデルがハイテイクなアプリケーションにますます導入されているため、政策立案者はより厳格なデータ保護規制(GDPR、CCPAなど)を提案している。 一つの重要な原則は ``right to be forget'' であり、ユーザーは自分のデータを削除できる。 もうひとつの重要な原則は、アルゴリズムリコースとしても知られる、実行可能な説明の権利であり、ユーザーは不利な決定をリバースすることができる。 現在、この2つの原則を同時に運用できるかどうかは不明である。 そこで本研究では,データ削除要求の文脈において,リコース無効化の問題を紹介し,検討する。 より具体的には、一般的な最先端アルゴリズムの挙動を理論的かつ実証的に分析し、少数のデータ削除要求(例:1または2)が予測モデルの更新を保証した場合、これらのアルゴリズムによって生成されたリコースが無効になることを示す。 線形モデルや過パラメータ化されたニューラルネットワークの設定 -- ニューラルネットワーク(NTK)のレンズを通して研究されている -- については、重要なトレーニングポイントの最小サブセットを特定するためのフレームワークを提案する。 当社のフレームワークを使用することで、トレーニングセットから最大2つのデータインスタンスを削除することで、ポピュラーな最先端アルゴリズムが出力するリコースの最大95%を無効化できることを実証的に確認しました。 したがって、我々の研究は ``right to be forget''' という文脈における ``the right to an actionable explanation''' の互換性に関する根本的な疑問を提起する。

As machine learning (ML) models are increasingly being deployed in high-stakes applications, policymakers have suggested tighter data protection regulations (e.g., GDPR, CCPA). One key principle is the ``right to be forgotten'' which gives users the right to have their data deleted. Another key principle is the right to an actionable explanation, also known as algorithmic recourse, allowing users to reverse unfavorable decisions. To date it is unknown whether these two principles can be operationalized simultaneously. Therefore, we introduce and study the problem of recourse invalidation in the context of data deletion requests. More specifically, we theoretically and empirically analyze the behavior of popular state-of-the-art algorithms and demonstrate that the recourses generated by these algorithms are likely to be invalidated if a small number of data deletion requests (e.g., 1 or 2) warrant updates of the predictive model. For the setting of linear models and overparameterized neural networks -- studied through the lens of neural tangent kernels (NTKs) -- we suggest a framework to identify a minimal subset of critical training points, which when removed, would lead to maximize the fraction of invalidated recourses. Using our framework, we empirically establish that the removal of as little as 2 data instances from the training set can invalidate up to 95 percent of all recourses output by popular state-of-the-art algorithms. Thus, our work raises fundamental questions about the compatibility of ``the right to an actionable explanation'' in the context of the ``right to be forgotten''.
翻訳日:2022-08-31 12:45:07 公開日:2022-08-30
# 分割データからシンプレクティック進化を学習するLeap-frogニューラルネットワーク

Leap-frog neural network for learning the symplectic evolution from partitioned data ( http://arxiv.org/abs/2208.14148v1 )

ライセンス: Link先を確認
Xin Li, Jian Li and Zhihong Jeff Xia(参考訳) ハミルトン系では, 位置の学習と予測について考察する。 (q)と運動量 (p)シンプレクティック進化マップによって生成される変数。 chen & tao (2021) と同様、シンプレクティック写像は生成関数によって表現される。 さらに、時系列(q_i, p_i)を複数のパーティションに分割し、次に跳躍フロッグニューラルネットワーク(LFNN)をトレーニングして、最初の(初期条件)と残りのパーティションの1つの生成関数を近似することで、新しい学習手法を開発する。 システム進化を短時間で予測するために、LFNNは累積誤差の問題を効果的に回避できる。 次に、lfnnを用いて2:3共鳴カイパーベルトの挙動をかなり長い時間で学習し、前の研究で構築されたニューラルネットワークに2つの重要な改善(li et al. 2022):(1)ジャコビ積分の保存、(2)軌道進化の高精度予測。 LFNNはハミルトン系の長期進化を予測するのに有用である可能性が示唆された。

For the Hamiltonian system, this work considers the learning and prediction of the position (q) and momentum (p) variables generated by a symplectic evolution map. Similar to Chen & Tao (2021), the symplectic map is represented by the generating function. In addition, we develop a new learning scheme by splitting the time series (q_i, p_i) into several partitions, and then train a leap-frog neural network (LFNN) to approximate the generating function between the first (i.e. initial condition) and one of the rest partitions. For predicting the system evolution in a short timescale, the LFNN could effectively avoid the issue of accumulative error. Then the LFNN is applied to learn the behavior of the 2:3 resonant Kuiper belt objects, in a much longer time period, and there are two significant improvements on the neural network constructed in our previous work (Li et al. 2022): (1) conservation of the Jacobi integral ; (2) highly accurate prediction of the orbital evolution. We propose that the LFNN may be useful to make the prediction of the long time evolution of the Hamiltonian system.
翻訳日:2022-08-31 12:44:40 公開日:2022-08-30
# 予測に基づくワンショットダイナミックパーキング価格設定

Prediction-based One-shot Dynamic Parking Pricing ( http://arxiv.org/abs/2208.14231v1 )

ライセンス: Link先を確認
Seoyoung Hong, Heejoo Shin, Jeongwhan Choi, and Noseong Park(参考訳) 多くの大都市は駐車場の不足で有名である。 そこで本研究では,駐車場価格を動的に調整する,アクティブな予測駆動最適化フレームワークを提案する。 我々は,神経常微分方程式(nodes)などの最先端のディープラーニング技術を用いて,過去の占有率と価格情報から,将来のパーキング占有率予測モデルを設計する。 また,ノードの連続的・単射的特性から,最適解を求めるのに1回の反復しか必要としない事前学習予測モデルによる単発価格最適化手法を考案した。 言い換えれば、事前学習された予測モデルへの価格入力を最適化し、駐車ブロック内の占有率を目標とする。 サンフランシスコとシアトルで何年にもわたって収集されたデータを実験しています。 予測モデルは,時間的および時空間的予測モデルと比較して,最良の精度を示す。 提案手法は他のブラックボックスおよびホワイトボックス検索法に比べて検索時間を大幅に上回り,常に最適な価格解を返す。

Many U.S. metropolitan cities are notorious for their severe shortage of parking spots. To this end, we present a proactive prediction-driven optimization framework to dynamically adjust parking prices. We use state-of-the-art deep learning technologies such as neural ordinary differential equations (NODEs) to design our future parking occupancy rate prediction model given historical occupancy rates and price information. Owing to the continuous and bijective characteristics of NODEs, in addition, we design a one-shot price optimization method given a pre-trained prediction model, which requires only one iteration to find the optimal solution. In other words, we optimize the price input to the pre-trained prediction model to achieve targeted occupancy rates in the parking blocks. We conduct experiments with the data collected in San Francisco and Seattle for years. Our prediction model shows the best accuracy in comparison with various temporal or spatio-temporal forecasting models. Our one-shot optimization method greatly outperforms other black-box and white-box search methods in terms of the search time and always returns the optimal price solution.
翻訳日:2022-08-31 12:43:23 公開日:2022-08-30
# k-MS: 形態的再構成に基づく新しいクラスタリングアルゴリズム

k-MS: A novel clustering algorithm based on morphological reconstruction ( http://arxiv.org/abs/2208.14390v1 )

ライセンス: Link先を確認
\'E. O. Rodrigues and L. Torok and P. Liatsis and J. Viterbo and A. Conci(参考訳) 本研究は,k-モルフォロジー集合(k-ms)と呼ばれるクラスター化アルゴリズムを提案する。 最悪のシナリオでは、k-MSはCPU並列のk-Meansよりも高速で、データセットの可視化が強化され、クラスタ化が非常に異なる。 また、ミトーシスやTRICLUSTのような密度や形状に敏感な類似のクラスター化法よりも高速である。 さらに、k-MSは決定論的であり、k-Meansや他のクラスタ化アルゴリズムとは異なる、与えられた入力サンプルと入力パラメータのために作成できる、固有の最大クラスタの感覚を持つ。 言い換えれば、定数 k 、構造要素、データセットが与えられた場合、k-MS はランダム/擬似ランダム関数を使わずに k 以下のクラスタを生成する。 最後に、提案アルゴリズムは画像やデータセットからノイズを取り除くための簡単な手段も提供する。

This work proposes a clusterization algorithm called k-Morphological Sets (k-MS), based on morphological reconstruction and heuristics. k-MS is faster than the CPU-parallel k-Means in worst case scenarios and produces enhanced visualizations of the dataset as well as very distinct clusterizations. It is also faster than similar clusterization methods that are sensitive to density and shapes such as Mitosis and TRICLUST. In addition, k-MS is deterministic and has an intrinsic sense of maximal clusters that can be created for a given input sample and input parameters, differing from k-Means and other clusterization algorithms. In other words, given a constant k, a structuring element and a dataset, k-MS produces k or less clusters without using random/ pseudo-random functions. Finally, the proposed algorithm also provides a straightforward means for removing noise from images or datasets in general.
翻訳日:2022-08-31 12:43:07 公開日:2022-08-30
# 重量変動潜在因果モデル

Weight-variant Latent Causal Models ( http://arxiv.org/abs/2208.14153v1 )

ライセンス: Link先を確認
Yuhang Liu, Zhen Zhang, Dong Gong, Mingming Gong, Biwei Huang, Anton van den Hengel, Kun Zhang, Javen Qinfeng Shi(参考訳) 因果表現学習(causal representation learning)は、低レベルの観察の裏にある潜在的な高レベル因果変数を公開する。 それにもかかわらず、観測データから真の潜伏因果表現を特定することは大きな課題である。 本研究では,潜在因果変数の同定に注目する。 この目的のために, トランジット性, 置換, スケーリングという, 潜在空間における3つの固有性質を解析した。 過渡性は潜在因果変数の識別性を著しく阻害するが、置換とスケーリングは潜在因果変数の同定の方向性を導く。 推移性を壊すために、基礎となる潜在因果関係を線形ガウスモデルと仮定し、ガウス雑音の重み、平均、分散を付加的に観測される変数によって変調する。 これらの仮定の下では、潜在因果変数が自明な置換とスケーリングまで特定可能であることを理論的に示す。 この理論的な結果に基づいて, 潜在因果変数を直接学習する構造因果変分オートエンコーダと呼ばれる新しい手法を提案し, 潜在因果変数から観測対象変数へのマッピングを提案する。 合成および実データを用いた実験結果から,潜在因果変数を学習するための同定結果と提案手法の有効性が示された。

Causal representation learning exposes latent high-level causal variables behind low-level observations, which has enormous potential for a set of downstream tasks of interest. Despite this, identifying the true latent causal representation from observed data is a great challenge. In this work we focus on identifying latent causal variables. To this end, we analysis three intrinsic properties in latent space, including transitivity, permutation and scaling. We show that the transitivity severely hinders the identifiability of latent causal variables, while permutation and scaling guide the direction of identifying latent causal variable. To break the transitivity, we assume the underlying latent causal relations to be linear Gaussian models, in which the weights, mean and variance of Gaussian noise are modulated by an additionally observed variable. Under these assumptions we theoretically show that the latent causal variables can be identifiable up to trivial permutation and scaling. Built on this theoretical result, we propose a novel method, termed Structural caUsAl Variational autoEncoder, which directly learns latent causal variables, together with the mapping from the latent causal variables to the observed ones. Experimental results on synthetic and real data demonstrate the identifiable result and the ability of the proposed method for learning latent causal variables.
翻訳日:2022-08-31 12:40:33 公開日:2022-08-30
# マルチソース・ドメイン適応のための潜在因果コンテンツの同定

Identifying Latent Causal Content for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2208.14161v1 )

ライセンス: Link先を確認
Yuhang Liu, Zhen Zhang, Dong Gong, Mingming Gong, Biwei Huang, Kun Zhang, Javen Qinfeng Shi(参考訳) マルチソースドメイン適応(MSDA)は、複数のソースドメインからのすべてのデータがラベル付けされ、対象ドメインからのデータがラベル付けされていない設定の下で、ターゲットドメインデータのラベルを予測することを学ぶ。 この問題に対処するため、ほとんどのメソッドはドメイン間の不変表現の学習に焦点を当てている。 しかし、それらの成功はドメイン間でラベル分布が変わらないという仮定に大きく依存している。 そこで本研究では,潜在内容変数の限界分布がドメイン間で変化し,潜在内容が与えられたラベルの条件分布がドメイン間で不変である,新たな仮定である潜在共変量シフトを提案する。 データおよびラベル生成プロセスとして、潜在因果グラフを形成する潜在コンテンツ変数を補完する潜在スタイル変数を導入する。 潜時空間の推移性により潜時型変数は同定できないが、潜時型変数は若干の温和な条件下で単純なスケーリングまで識別可能であることを示す。 これにより、不変表現を学習するのではなく、潜在コンテンツ変数に基づいて不変ラベル分布条件を学習するMSDAの新しい手法を提案する。 シミュレーションおよび実データに対する経験的評価は,不変表現に基づく多くの最先端手法と比較し,提案手法の有効性を示す。

Multi-source domain adaptation (MSDA) learns to predict the labels in target domain data, under the setting where all data from multiple source domains are labelled and the data from the target domain are unlabeled. To handle this problem, most of methods focus on learning invariant representations across domains. However, their success severely relies on the assumption that label distribution remains unchanged across domains. To mitigate it, we propose a new assumption, latent covariate shift, where the marginal distribution of the latent content variable changes across domains, and the conditional distribution of the label given the latent content remains invariant across domains. We introduce a latent style variable to complement the latent content variable forming a latent causal graph as the data and label generating process. We show that although the latent style variable is unidentifiable due to transitivity property in the latent space, the latent content variable can be identified up to simple scaling under some mild conditions. This motivates us to propose a novel method for MSDA, which learns the invariant label distribution conditional on the latent content variable, instead of learning invariant representations. Empirical evaluation on simulation and real data demonstrates the effectiveness of the proposed method, compared with many state-of-the-art methods based on invariant representation.
翻訳日:2022-08-31 12:40:09 公開日:2022-08-30
# MRL: 注意と畳み込みを混合する学習

MRL: Learning to Mix with Attention and Convolutions ( http://arxiv.org/abs/2208.13975v1 )

ライセンス: Link先を確認
Shlok Mohta, Hisahiro Suganuma and Yoshiki Tanaka(参考訳) 本稿では,提案した入力特徴を効果的かつ効率的に混合することを目的とした,MRL(Mixing Regionally and Locally)と呼ばれる視覚領域のためのニューラルアーキテクチャブロックを提案する。 入力特徴混合タスクを局所的・局所的な混合として分岐する。 効率的な混合を実現するために,局所的混合と局所的混合に制限された畳み込み核に対して自己アテンションによって提供される領域全体の受容場を利用する。 より具体的には,提案手法は地域特徴に関連付けられた地域特徴を混合し,続いて地域特徴を混合する局所的特徴を混合する。 実験により、この自己結合と畳み込みのハイブリッド化により、能力、一般化(右帰納バイアス)、効率が向上することが示された。 同様のネットワーク設定の下では、MRLは分類、オブジェクト検出、セグメンテーションタスクにおいて、それと同等または同等である。 また, MRLに基づくネットワークアーキテクチャがH&Eヒストロジーデータセットの最先端性能を実現することを示す。 我々は、データセット固有の一般化を改善するために、グループ畳み込みのようなレイヤを組み込むことで、MRLフレームワークが提供する汎用性を強調しつつ、Kumar、CoNSep、CPM-17データセットに対して0.843、0.855、0.892のDICEを実現した。

In this paper, we present a new neural architectural block for the vision domain, named Mixing Regionally and Locally (MRL), developed with the aim of effectively and efficiently mixing the provided input features. We bifurcate the input feature mixing task as mixing at a regional and local scale. To achieve an efficient mix, we exploit the domain-wide receptive field provided by self-attention for regional-scale mixing and convolutional kernels restricted to local scale for local-scale mixing. More specifically, our proposed method mixes regional features associated with local features within a defined region, followed by a local-scale features mix augmented by regional features. Experiments show that this hybridization of self-attention and convolution brings improved capacity, generalization (right inductive bias), and efficiency. Under similar network settings, MRL outperforms or is at par with its counterparts in classification, object detection, and segmentation tasks. We also show that our MRL-based network architecture achieves state-of-the-art performance for H&E histology datasets. We achieved DICE of 0.843, 0.855, and 0.892 for Kumar, CoNSep, and CPM-17 datasets, respectively, while highlighting the versatility offered by the MRL framework by incorporating layers like group convolutions to improve dataset-specific generalization.
翻訳日:2022-08-31 12:39:31 公開日:2022-08-30
# CW-SSIMを用いたテクスチャ画像の異常検出のためのディープオートエンコーダ

Deep Autoencoders for Anomaly Detection in Textured Images using CW-SSIM ( http://arxiv.org/abs/2208.14045v1 )

ライセンス: Link先を確認
Andrea Bionda, Luca Frittoli, Giacomo Boracchi(参考訳) 画像中の異常領域の検出は,産業モニタリングにおいて頻繁に発生する問題である。 関連する例として、正常な条件で特定のテクスチャに適合する組織やその他の産物の分析があるが、欠陥は正常なパターンの変化をもたらす。 本稿では,複雑なウェーブレット構造類似度(cw-ssim)に基づく損失関数を採用することで,従来のオートエンコーダ損失関数と比較して,このタイプの画像に対して優れた検出性能が得られることを示す。 我々のよく知られた異常検出ベンチマーク実験は、この損失関数で訓練された単純なモデルが、より深く、より大きく、より計算的に要求されるニューラルネットワークを活用する最先端の手法に匹敵する、あるいは優れた性能を達成できることを示している。

Detecting anomalous regions in images is a frequently encountered problem in industrial monitoring. A relevant example is the analysis of tissues and other products that in normal conditions conform to a specific texture, while defects introduce changes in the normal pattern. We address the anomaly detection problem by training a deep autoencoder, and we show that adopting a loss function based on Complex Wavelet Structural Similarity (CW-SSIM) yields superior detection performance on this type of images compared to traditional autoencoder loss functions. Our experiments on well-known anomaly detection benchmarks show that a simple model trained with this loss function can achieve comparable or superior performance to state-of-the-art methods leveraging deeper, larger and more computationally demanding neural networks.
翻訳日:2022-08-31 12:39:05 公開日:2022-08-30
# カメラトラップ画像で動物を分類する高速RCNN+FPN

Weakly Supervised Faster-RCNN+FPN to classify animals in camera trap images ( http://arxiv.org/abs/2208.14060v1 )

ライセンス: Link先を確認
Pierrick Pochelu, Clara Erard, Philippe Cordier, Serge G. Petiton, Bruno Conche(参考訳) カメラトラップは、生息地や行動のためにこれまで観測できなかった多くの種の動物研究に革命をもたらした。 一般的には木に固定されたカメラで、トリガー時に短い画像列を取る。 ディープラーニングは、分類や空のイメージに従って画像分類を自動化するために、ワークロードを克服する可能性がある。 しかし、標準的なディープニューラルネットワーク分類器は、動物が高精細画像のごく一部を表現しているため失敗する。 そこで我々はWeakly Object Detection Faster-RCNN+FPNというワークフローを提案する。 このモデルは、画像ごとに動物分類ラベルのみを必要とするが、手動のバウンディングボックスアノテーションを必要としないため、弱い監督を受けている。 まず、複数のフレームからの動作を用いて、弱教師付き境界ボックスアノテーションを自動的に実行する。 そして、この弱い監督力を使ってFaster-RCNN+FPNモデルを訓練する。 パプアニューギニアとミズーリの生物多様性監視キャンペーンの2つのデータセットから、容易に再現可能なテストベッドで実験結果が得られた。

Camera traps have revolutionized the animal research of many species that were previously nearly impossible to observe due to their habitat or behavior. They are cameras generally fixed to a tree that take a short sequence of images when triggered. Deep learning has the potential to overcome the workload to automate image classification according to taxon or empty images. However, a standard deep neural network classifier fails because animals often represent a small portion of the high-definition images. That is why we propose a workflow named Weakly Object Detection Faster-RCNN+FPN which suits this challenge. The model is weakly supervised because it requires only the animal taxon label per image but doesn't require any manual bounding box annotations. First, it automatically performs the weakly-supervised bounding box annotation using the motion from multiple frames. Then, it trains a Faster-RCNN+FPN model using this weak supervision. Experimental results have been obtained with two datasets from a Papua New Guinea and Missouri biodiversity monitoring campaign, then on an easily reproducible testbed.
翻訳日:2022-08-31 12:38:50 公開日:2022-08-30
# 非参照型事前学習モデルによる正規化付き限定データの深部生成モデリング

Deep Generative Modeling on Limited Data with Regularization by Nontransferable Pre-trained Models ( http://arxiv.org/abs/2208.14133v1 )

ライセンス: Link先を確認
Yong Zhong, Hongtao Liu, Xiaodong Liu, Fan Bao, Weiran Shen, Chongxuan Li(参考訳) 深層生成モデル(DGM)はデータイーガーである。 本質的には、限られたデータで複雑なモデルを学ぶことは、大きな分散と、容易に過剰な適合に苦しむからです。 本稿では,非移動可能事前学習モデルを用いて限定データによる生成モデルの分散を低減した,emph{regularized deep generative model} (reg-dgm)を提案する。 形式的には、Reg-DGMはデータ分布とDGMの間の一定のばらつきの重み付け和と、事前訓練されたモデル w.r.t. によって定義されたエネルギー関数の期待を最適化する。 理論的には、非パラメトリックな設定におけるReg-DGMの大域的最小値の存在と特異性を特徴付け、単純だが代表的なガウス整合例における平均二乗誤差と期待リスクの統計的利点を厳密に証明する。 経験的には、Reg-DGMでDGMと事前訓練されたモデルを指定することは、非常に柔軟である。 特に、ImageNetで事前訓練されたResNet-18分類器とデータ依存エネルギー関数により、Reg-DGMは、限られたデータを持ついくつかのベンチマークにおいて、StyleGAN2やADAを含む強力なDGMの生成性能を一貫して改善し、最先端の手法に対する競合的な結果を得る。

Deep generative models (DGMs) are data-eager. Essentially, it is because learning a complex model on limited data suffers from a large variance and easily overfits. Inspired by the \emph{bias-variance dilemma}, we propose \emph{regularized deep generative model} (Reg-DGM), which leverages a nontransferable pre-trained model to reduce the variance of generative modeling with limited data. Formally, Reg-DGM optimizes a weighted sum of a certain divergence between the data distribution and the DGM and the expectation of an energy function defined by the pre-trained model w.r.t. the DGM. Theoretically, we characterize the existence and uniqueness of the global minimum of Reg-DGM in the nonparametric setting and rigorously prove the statistical benefits of Reg-DGM w.r.t. the mean squared error and the expected risk in a simple yet representative Gaussian-fitting example. Empirically, it is quite flexible to specify the DGM and the pre-trained model in Reg-DGM. In particular, with a ResNet-18 classifier pre-trained on ImageNet and a data-dependent energy function, Reg-DGM consistently improves the generation performance of strong DGMs including StyleGAN2 and ADA on several benchmarks with limited data and achieves competitive results to the state-of-the-art methods.
翻訳日:2022-08-31 12:38:34 公開日:2022-08-30
# 心内膜および縦隔脂肪量予測における機械学習

Machine learning in the prediction of cardiac epicardial and mediastinal fat volumes ( http://arxiv.org/abs/2208.14374v1 )

ライセンス: Link先を確認
\'E. O. Rodrigues and V. H. A. Pinheiro and P. Liatsis and A. Conci(参考訳) 本稿では,回帰アルゴリズムを用いて心内膜および縦隔脂肪量を予測する手法を提案する。 以上の結果から,これらの脂肪を高い相関度で予測することは可能であり,両者の脂肪体積の手動または自動分割の必要性を軽減できることが示唆された。 代わりに、どちらか一方だけをセグメンテーションすれば十分であり、もう一方のボリュームはかなり正確に予測できる。 MLP回帰器を用いた回転フォレスト法で得られた心内膜脂肪の相関係数は0.9876であり, 絶対誤差は14.4%, ルート相対2乗誤差は15.7%であった。 縦隔による心内膜脂肪の予測において得られた相関係数は0.9683であり, 絶対誤差は19.6%, 相対誤差は24.9%であった。 さらに,線形回帰器の適用可能性を分析し,基礎となる近似を直観的に解釈する。 この場合、心内膜に基づいて縦隔脂肪を予測するための相関係数は 0.9534 であり、相対絶対誤差 31.6%、根相対二乗誤差 30.1% である。 縦隔脂肪に基づく心膜脂肪の予測では, 相関係数は0.8531であり, 絶対誤差は50.43%, 根相対誤差は52.06%であった。 まとめると、この予測アプローチにより、現在最先端で用いられている一般的な医学的分析といくつかの分別・定量化手法を高速化することができ、その結果、コストを削減し、健康問題の軽減につながる予防的治療を可能にする。

We propose a methodology to predict the cardiac epicardial and mediastinal fat volumes in computed tomography images using regression algorithms. The obtained results indicate that it is feasible to predict these fats with a high degree of correlation, thus alleviating the requirement for manual or automatic segmentation of both fat volumes. Instead, segmenting just one of them suffices, while the volume of the other may be predicted fairly precisely. The correlation coefficient obtained by the Rotation Forest algorithm using MLP Regressor for predicting the mediastinal fat based on the epicardial fat was 0.9876, with a relative absolute error of 14.4% and a root relative squared error of 15.7%. The best correlation coefficient obtained in the prediction of the epicardial fat based on the mediastinal was 0.9683 with a relative absolute error of 19.6% and a relative squared error of 24.9%. Moreover, we analysed the feasibility of using linear regressors, which provide an intuitive interpretation of the underlying approximations. In this case, the obtained correlation coefficient was 0.9534 for predicting the mediastinal fat based on the epicardial, with a relative absolute error of 31.6% and a root relative squared error of 30.1%. On the prediction of the epicardial fat based on the mediastinal fat, the correlation coefficient was 0.8531, with a relative absolute error of 50.43% and a root relative squared error of 52.06%. In summary, it is possible to speed up general medical analyses and some segmentation and quantification methods that are currently employed in the state-of-the-art by using this prediction approach, which consequently reduces costs and therefore enables preventive treatments that may lead to a reduction of health problems.
翻訳日:2022-08-31 12:38:04 公開日:2022-08-30
# マルチラベル視覚解析のための自己教師付きピラミッド表現学習

Self-Supervised Pyramid Representation Learning for Multi-Label Visual Analysis and Beyond ( http://arxiv.org/abs/2208.14439v1 )

ライセンス: Link先を確認
Cheng-Yen Hsieh, Chih-Jung Chang, Fu-En Yang, Yu-Chiang Frank Wang(参考訳) 自己教師付き学習は多くの視覚タスクに役立つことが示されているが、既存の技術は主に画像レベルの操作に焦点を当てている。 さらに、既存のSSLメソッドは、画像スケール内および画像スケール内における上記の表現を十分に記述し、関連付けることができないかもしれない。 本稿では,自己改善ピラミッド表現学習(SS-PRL)フレームワークを提案する。 提案したSS-PRLは、適切なプロトタイプを学習することで、パッチレベルでのピラミッド表現を導出し、画像内の固有の意味情報を観察し、関連付けることができる。 特に,SS-PRLにおけるパッチレベルの相互相関学習について述べる。 提案するモデル事前学習のためのss-prlにより,マルチラベル分類,オブジェクト検出,インスタンスセグメンテーションなど,さまざまなアプリケーションのモデルに容易に適応し,微調整できることを示す。

While self-supervised learning has been shown to benefit a number of vision tasks, existing techniques mainly focus on image-level manipulation, which may not generalize well to downstream tasks at patch or pixel levels. Moreover, existing SSL methods might not sufficiently describe and associate the above representations within and across image scales. In this paper, we propose a Self-Supervised Pyramid Representation Learning (SS-PRL) framework. The proposed SS-PRL is designed to derive pyramid representations at patch levels via learning proper prototypes, with additional learners to observe and relate inherent semantic information within an image. In particular, we present a cross-scale patch-level correlation learning in SS-PRL, which allows the model to aggregate and associate information learned across patch scales. We show that, with our proposed SS-PRL for model pre-training, one can easily adapt and fine-tune the models for a variety of applications including multi-label classification, object detection, and instance segmentation.
翻訳日:2022-08-31 12:37:34 公開日:2022-08-30
# ネットワーク埋め込みのための連想学習

Associative Learning for Network Embedding ( http://arxiv.org/abs/2208.14376v1 )

ライセンス: Link先を確認
Yuchen Liang, Dmitry Krotov, Mohammed J. Zaki(参考訳) ネットワーク埋め込みタスクは、トポロジカルおよび構造情報を取り入れながら、ネットワーク内のノードを低次元ベクトルとして表現することである。 既存のほとんどのアプローチは、直接あるいは暗黙的に近接行列を分解することでこの問題を解決する。 本稿では,現代ホップフィールドネットワーク(mhn)を連想学習に活用した,新たな視点によるネットワーク埋め込み手法を提案する。 ネットワークは各ノードの内容とそのノードの隣人との関係を学習する。 これらの協会はMHNの記憶として機能する。 ネットワークのリカレントダイナミクスにより、ノードの隣接ノードを考えると、マスクされたノードをリカバリすることができる。 提案手法は,ノード分類やリンク予測などの下流タスクに対して評価を行う。 その結果,一般的な行列因子分解法やディープラーニングに基づく手法と比較して,競合性能が示された。

The network embedding task is to represent the node in the network as a low-dimensional vector while incorporating the topological and structural information. Most existing approaches solve this problem by factorizing a proximity matrix, either directly or implicitly. In this work, we introduce a network embedding method from a new perspective, which leverages Modern Hopfield Networks (MHN) for associative learning. Our network learns associations between the content of each node and that node's neighbors. These associations serve as memories in the MHN. The recurrent dynamics of the network make it possible to recover the masked node, given that node's neighbors. Our proposed method is evaluated on different downstream tasks such as node classification and linkage prediction. The results show competitive performance compared to the common matrix factorization techniques and deep learning based methods.
翻訳日:2022-08-31 12:34:31 公開日:2022-08-30
# グレイ画像とスパース深度マップによる宇宙船の深度完了

Spacecraft depth completion based on the gray image and the sparse depth map ( http://arxiv.org/abs/2208.14030v1 )

ライセンス: Link先を確認
Xiang Liu, Hongyuan Wang, Zhiqiang Yan, Yu Chen, Xinlong Chen, Weichun Chen(参考訳) 宇宙船の3次元構造を知覚することは、多くの軌道上の宇宙ミッションを成功させるための前提条件であり、多くの下流のビジョンアルゴリズムに重要なインプットを提供する。 本稿では,光検出・測位センサ(lidar)と単眼カメラを用いて,宇宙船の3次元構造を検出することを提案する。 この目的のために,SDCNet(Spacecraft Depth Completion Network)を提案し,グレー画像とスパース深度マップに基づいて深度マップを復元する。 具体的には、sdcnetは、対象レベルの宇宙船深度完了タスクを前景セグメンテーションサブタスクと前景深度完了サブタスクに分解する。 このように、前景の宇宙船深度完了に対する背景干渉を効果的に回避する。 さらに,注意に基づく特徴融合モジュールも提案し,各入力間の補完情報を集約し,チャネルに沿った異なる特徴と空間次元との相関を逐次的に推定する。 さらに、宇宙船の深度完了結果の品質をより直感的に反映できるオブジェクトレベルの深度完了性能を評価するために、4つの指標が提案されている。 最後に、宇宙船の深度完了アルゴリズムの訓練とテストのために、大規模な衛星深度完了データセットを構築します。 このデータセットに関する実証実験では、提案したSDCNetの有効性を実証し、関心の絶対誤差0.25m、絶対トラクション誤差0.759mを達成し、最先端の手法をはるかに上回った。 宇宙船の姿勢推定実験も深度完了結果に基づいて行われ, 予測された深部深部マップが下流の視覚課題のニーズに合致する可能性が示唆された。

Perceiving the three-dimensional (3D) structure of the spacecraft is a prerequisite for successfully executing many on-orbit space missions, and it can provide critical input for many downstream vision algorithms. In this paper, we propose to sense the 3D structure of spacecraft using light detection and ranging sensor (LIDAR) and a monocular camera. To this end, Spacecraft Depth Completion Network (SDCNet) is proposed to recover the dense depth map based on gray image and sparse depth map. Specifically, SDCNet decomposes the object-level spacecraft depth completion task into foreground segmentation subtask and foreground depth completion subtask, which segments the spacecraft region first and then performs depth completion on the segmented foreground area. In this way, the background interference to foreground spacecraft depth completion is effectively avoided. Moreover, an attention-based feature fusion module is also proposed to aggregate the complementary information between different inputs, which deduces the correlation between different features along the channel and the spatial dimension sequentially. Besides, four metrics are also proposed to evaluate object-level depth completion performance, which can more intuitively reflect the quality of spacecraft depth completion results. Finally, a large-scale satellite depth completion dataset is constructed for training and testing spacecraft depth completion algorithms. Empirical experiments on the dataset demonstrate the effectiveness of the proposed SDCNet, which achieves 0.25m mean absolute error of interest and 0.759m mean absolute truncation error, surpassing state-of-the-art methods by a large margin. The spacecraft pose estimation experiment is also conducted based on the depth completion results, and the experimental results indicate that the predicted dense depth map could meet the needs of downstream vision tasks.
翻訳日:2022-08-31 12:34:20 公開日:2022-08-30
# MODNet:マルチオフセットポイントクラウド マルチスケールパッチ用にカスタマイズされたネットワーク

MODNet: Multi-offset Point Cloud Denoising Network Customized for Multi-scale Patches ( http://arxiv.org/abs/2208.14160v1 )

ライセンス: Link先を確認
Anyi Huang, Qian Xie, Zhoutao Wang, Dening Lu, Mingqiang Wei, Jun Wang(参考訳) 3次元表面の複雑度は、しばしば、残留ノイズを含む表面劣化における最先端の点雲デノイング(PCD)モデルが誤って取り除かれた幾何学的詳細をもたらす。 点の幾何を符号化するマルチスケールパッチはPCDでは一般的な知恵となっているが,抽出した多スケール特徴の単純な集約は,雑音点周辺の幾何情報に基づいて適切なスケール情報を適応的に利用できない。 これは、特に複雑な曲面上の辺や点に近い点に対して、表面劣化をもたらす。 マルチスケールの幾何学的知覚情報をネットワークに誘導し、マルチスケールの情報を活用すれば、表面劣化の問題を取り除くことができるのか? そこで我々は,マルチスケールパッチ用にカスタマイズされたMODNet(Multi-offset Denoising Network)を提案する。 まず,3つのスケールパッチの低レベル特徴をパッチ特徴エンコーダによって抽出する。 第二に、マルチスケール知覚モジュールは、各スケールの特徴に対してマルチスケールの幾何学情報を埋め込み、マルチスケールの重みを補強し、マルチオフセットのデノジング変位を導出するように設計されている。 第三に、マルチオフセットデコーダは3つのスケールオフセットを回帰し、これは多スケールの重みによって誘導され、適応的に重み付けして最終変位を予測する。 実験は,合成データと実データの両方において,新たな最先端性能を実現することを実証する。

The intricacy of 3D surfaces often results cutting-edge point cloud denoising (PCD) models in surface degradation including remnant noise, wrongly-removed geometric details. Although using multi-scale patches to encode the geometry of a point has become the common wisdom in PCD, we find that simple aggregation of extracted multi-scale features can not adaptively utilize the appropriate scale information according to the geometric information around noisy points. It leads to surface degradation, especially for points close to edges and points on complex curved surfaces. We raise an intriguing question -- if employing multi-scale geometric perception information to guide the network to utilize multi-scale information, can eliminate the severe surface degradation problem? To answer it, we propose a Multi-offset Denoising Network (MODNet) customized for multi-scale patches. First, we extract the low-level feature of three scales patches by patch feature encoders. Second, a multi-scale perception module is designed to embed multi-scale geometric information for each scale feature and regress multi-scale weights to guide a multi-offset denoising displacement. Third, a multi-offset decoder regresses three scale offsets, which are guided by the multi-scale weights to predict the final displacement by weighting them adaptively. Experiments demonstrate that our method achieves new state-of-the-art performance on both synthetic and real-scanned datasets.
翻訳日:2022-08-31 12:33:45 公開日:2022-08-30
# GaitFi:WiFiと視覚マルチモーダル学習によるロバストデバイスフリーな人間識別

GaitFi: Robust Device-Free Human Identification via WiFi and Vision Multimodal Learning ( http://arxiv.org/abs/2208.14326v1 )

ライセンス: Link先を確認
Lang Deng, Jianfei Yang, Shenghai Yuan, Han Zou, Chris Xiaoxuan Lu, Lihua Xie(参考訳) 人間識別のための重要なバイオマーカーとして、人間の歩行は被検者協力なしで受動的センサーによって遠隔で収集することができ、防犯、セキュリティ検出、その他の人間識別アプリケーションにおいて重要な役割を担っている。 現在、ほとんどの研究は歩行認識を行うためのカメラとコンピュータビジョン技術に基づいている。 しかし、視界に基づく手法は照明不足に直面すると信頼性が低く、性能が低下する。 本稿では,wi-fi信号と映像を人間の識別に利用するマルチモーダル歩行認識法であるgaitfiを提案する。 GaitFiでは、WiFiのマルチパス伝搬を反映したチャネル状態情報(CSI)が収集され、人間の視線を捉え、ビデオはカメラによってキャプチャされる。 強固な歩容情報を学習するために,バックボーンネットワークとして軽量な残差畳み込みネットワーク(lrcn)を提案し,さらに,歩容検索タスクにwifiと視覚機能を統合することにより,双方向歩行を提案する。 GaitFiは、異なるレベルの機能で三重項の損失と分類損失によって訓練されている。 大規模な実験は現実世界で行われ、GaitFiは1つのWiFiまたはカメラに基づく最先端の歩行認識手法より優れており、12人の被験者の識別タスクに対して94.2%の精度で達成されている。

As an important biomarker for human identification, human gait can be collected at a distance by passive sensors without subject cooperation, which plays an essential role in crime prevention, security detection and other human identification applications. At present, most research works are based on cameras and computer vision techniques to perform gait recognition. However, vision-based methods are not reliable when confronting poor illuminations, leading to degrading performances. In this paper, we propose a novel multimodal gait recognition method, namely GaitFi, which leverages WiFi signals and videos for human identification. In GaitFi, Channel State Information (CSI) that reflects the multi-path propagation of WiFi is collected to capture human gaits, while videos are captured by cameras. To learn robust gait information, we propose a Lightweight Residual Convolution Network (LRCN) as the backbone network, and further propose the two-stream GaitFi by integrating WiFi and vision features for the gait retrieval task. The GaitFi is trained by the triplet loss and classification loss on different levels of features. Extensive experiments are conducted in the real world, which demonstrates that the GaitFi outperforms state-of-the-art gait recognition methods based on single WiFi or camera, achieving 94.2% for human identification tasks of 12 subjects.
翻訳日:2022-08-31 12:33:21 公開日:2022-08-30
# 持続性初期化:時系列予測のためのトランスフォーマーアーキテクチャの新しい適応

Persistence Initialization: A novel adaptation of the Transformer architecture for Time Series Forecasting ( http://arxiv.org/abs/2208.14236v1 )

ライセンス: Link先を確認
Espen Haugsdal, Erlend Aune, Massimiliano Ruocco(参考訳) 時系列予測は多くの実世界の応用において重要な問題である。 ディープニューラルネットワークのアンサンブルは最近、印象的な予測精度を達成したが、多くの現実世界ではそのような大きなアンサンブルは実用的ではない。 トランスフォーマーモデルは様々な挑戦的な問題にうまく適用された。 本稿では,パーシステンス初期化(Persistence Initialization)と呼ばれる時系列予測タスクに着目したトランスフォーマーアーキテクチャの新しい適応を提案する。 このモデルは、乗算ゲーティング機構と残留スキップ接続を組み合わせることで、ナイーブ永続モデルとして初期化される。 ReZero正規化とロータリー位置符号化を備えたデコーダトランスを用いるが、この適応は任意の自己回帰型ニューラルネットワークモデルに適用できる。 提案手法をm4データセット上で評価し,アンサンブル法と比較し,性能評価を行った。 また,最近提案した時系列予測用トランスフォーマーモデルと比較し,M4データセット上での優れた性能を示す。 広範囲にわたるアブレーション研究は、パーシステンス初期化がより良い性能とより速い収束をもたらすことを示している。 モデルのサイズが大きくなるにつれて、提案した適応モデルのみの性能が向上する。 また,正規化と位置符号化の選択の重要性を判定するために追加のアブレーション研究を行い,ロータリーエンコーディングと再ゼロ正規化の両方が良好な予測性能に不可欠であることを見出した。

Time series forecasting is an important problem, with many real world applications. Ensembles of deep neural networks have recently achieved impressive forecasting accuracy, but such large ensembles are impractical in many real world settings. Transformer models been successfully applied to a diverse set of challenging problems. We propose a novel adaptation of the original Transformer architecture focusing on the task of time series forecasting, called Persistence Initialization. The model is initialized as a naive persistence model by using a multiplicative gating mechanism combined with a residual skip connection. We use a decoder Transformer with ReZero normalization and Rotary positional encodings, but the adaptation is applicable to any auto-regressive neural network model. We evaluate our proposed architecture on the challenging M4 dataset, achieving competitive performance compared to ensemble based methods. We also compare against existing recently proposed Transformer models for time series forecasting, showing superior performance on the M4 dataset. Extensive ablation studies show that Persistence Initialization leads to better performance and faster convergence. As the size of the model increases, only the models with our proposed adaptation gain in performance. We also perform an additional ablation study to determine the importance of the choice of normalization and positional encoding, and find both the use of Rotary encodings and ReZero normalization to be essential for good forecasting performance.
翻訳日:2022-08-31 12:32:21 公開日:2022-08-30
# ハイパーリレーショナル知識グラフのための学習表現

Learning Representations for Hyper-Relational Knowledge Graphs ( http://arxiv.org/abs/2208.14322v1 )

ライセンス: Link先を確認
Harry Shomer, Wei Jin, Juanhui Li, Yao Ma, Jiliang Tang(参考訳) 知識グラフ(KG)は、一意関係の事実の表現を学習する能力で有名になった。 近年、一意関係事実の制限を超えて、より複雑で現実的な情報を表現できる超関係事実のモデリングに焦点が当てられている。 しかし,従来のKGの学習手法は,三進数から三進数への情報の流れを目視しながら,三進数から三進数へのコミュニケーションの強化に重点を置いている。 これは、特に大量の修飾子が提示された場合に、準最適修飾子表現に繋がる可能性がある。 これは、複数のアグリゲータを使用してハイパーリレーショナル事実の表現を学ぶフレームワークを設計する動機付けとなります。 複数のデータセットにまたがるハイパーリレーショナルナレッジグラフ補完のためのフレームワークの有効性を実証した。 さらに, フレームワークにおける各種成分の重要性を検証するため, アブレーション研究を行った。 結果を再現するコードは、 \url{https://github.com/HarryShomer/QUAD} にある。

Knowledge graphs (KGs) have gained prominence for their ability to learn representations for uni-relational facts. Recently, research has focused on modeling hyper-relational facts, which move beyond the restriction of uni-relational facts and allow us to represent more complex and real-world information. However, existing approaches for learning representations on hyper-relational KGs majorly focus on enhancing the communication from qualifiers to base triples while overlooking the flow of information from base triple to qualifiers. This can lead to suboptimal qualifier representations, especially when a large amount of qualifiers are presented. It motivates us to design a framework that utilizes multiple aggregators to learn representations for hyper-relational facts: one from the perspective of the base triple and the other one from the perspective of the qualifiers. Experiments demonstrate the effectiveness of our framework for hyper-relational knowledge graph completion across multiple datasets. Furthermore, we conduct an ablation study that validates the importance of the various components in our framework. The code to reproduce our results can be found at \url{https://github.com/HarryShomer/QUAD}.
翻訳日:2022-08-31 12:32:00 公開日:2022-08-30
# 時系列における教師なし異常検出のためのDenoising Architecture

Denoising Architecture for Unsupervised Anomaly Detection in Time-Series ( http://arxiv.org/abs/2208.14337v1 )

ライセンス: Link先を確認
Wadie Skaf and Tom\'a\v{s} Horv\'ath(参考訳) 時系列の異常は、銀行や航空宇宙、情報技術、セキュリティ、医療など、さまざまな産業における重要なシナリオに関する洞察を提供する。 しかし, 時系列データにおける異常の特定は, 異常の定義が不正確であること, ラベルの頻繁な欠如, およびそのようなデータに存在する非常に複雑な時間的相関により, 特に困難である。 LSTMオートエンコーダ(LSTM Autoencoder)は、長期記憶ネットワークに基づく異常検出のためのエンコーダデコーダスキームである。 本稿では,このLSTMエンコーダ・デコーダモデルの補完としてDenoising Architectureを導入し,実世界と人工的に生成されたデータセットへの影響について検討する。 提案アーキテクチャは精度とトレーニング速度の両方を向上し,LSTMオートエンコーダを非教師付き異常検出タスクに対してより効率的にすることを示した。

Anomalies in time-series provide insights of critical scenarios across a range of industries, from banking and aerospace to information technology, security, and medicine. However, identifying anomalies in time-series data is particularly challenging due to the imprecise definition of anomalies, the frequent absence of labels, and the enormously complex temporal correlations present in such data. The LSTM Autoencoder is an Encoder-Decoder scheme for Anomaly Detection based on Long Short Term Memory Networks that learns to reconstruct time-series behavior and then uses reconstruction error to identify abnormalities. We introduce the Denoising Architecture as a complement to this LSTM Encoder-Decoder model and investigate its effect on real-world as well as artificially generated datasets. We demonstrate that the proposed architecture increases both the accuracy and the training speed, thereby, making the LSTM Autoencoder more efficient for unsupervised anomaly detection tasks.
翻訳日:2022-08-31 12:31:42 公開日:2022-08-30
# 小サンプル試験における完全ベイズ最適化の事例

The case for fully Bayesian optimisation in small-sample trials ( http://arxiv.org/abs/2208.13960v1 )

ライセンス: Link先を確認
Yuji Saikai(参考訳) ブラックボックス関数の評価に費用がかかる場合、サンプル効率がベイズ最適化の主目的であるが、タイプIIの最大可能性(ML-II)に基づく標準アプローチは失敗し、小さなサンプル試験で性能が低下する可能性がある。 この論文は、完全なベイズ最適化(FBO)を代替として採用する3つの説得力のある理由を提供する。 第一に、ML-IIの失敗は、既存の研究で示されるよりも一般的である。 第2に、FBOはML-IIよりも堅牢であり、ロバストネスの価格はほぼ自明である。 第3に、FBOは実装が簡単になり、実用的になるほど高速になった。 この論文は、モデル、アルゴリズム、ソフトウェアプラットフォームに関する現在の実践を反映した、関連する実験を用いた議論をサポートする。 利点はコストを上回るように見えるため、研究者たちはアプリケーションにFBOを採用して、貴重な研究リソースを浪費する潜在的な失敗を防げるようにすべきである。

While sample efficiency is the main motive for use of Bayesian optimisation when black-box functions are expensive to evaluate, the standard approach based on type II maximum likelihood (ML-II) may fail and result in disappointing performance in small-sample trials. The paper provides three compelling reasons to adopt fully Bayesian optimisation (FBO) as an alternative. First, failures of ML-II are more commonplace than implied by the existing studies using the contrived settings. Second, FBO is more robust than ML-II, and the price of robustness is almost trivial. Third, FBO has become simple to implement and fast enough to be practical. The paper supports the argument using relevant experiments, which reflect the current practice regarding models, algorithms, and software platforms. Since the benefits seem to outweigh the costs, researchers should consider adopting FBO for their applications so that they can guard against potential failures that end up wasting precious research resources.
翻訳日:2022-08-31 12:31:23 公開日:2022-08-30
# 2次元顕微鏡画像から3次元形状を予測する拡散モデル

A Diffusion Model Predicts 3D Shapes from 2D Microscopy Images ( http://arxiv.org/abs/2208.14125v1 )

ライセンス: Link先を確認
Dominik J. E. Waibel, Ernst R\"ooell, Bastian Rieck, Raja Giryes, Carsten Marr(参考訳) 拡散モデルは生成モデルの一種であり、自然画像データセットでトレーニングされた場合の現実的な画像の作成において、他の生成モデルと比較して優れた性能を示す。 2次元(2次元)単細胞顕微鏡画像から3次元(3次元)細胞形状予測の逆問題を解く拡散モデルであるdisPRを導入する。 従来の2次元顕微鏡画像を用いて,現実的な3次元形状復元の予測を行う。 特徴量に基づく単一細胞分類タスクにおけるデータ拡張ツールとしての DISPR の適用性を示すため、6つの高度不均衡クラスに分類された細胞から形態的特徴を抽出した。 DISPRの予測を3つのマイノリティクラスに追加することで、マクロF1スコアは$F1_\text{macro} = 55.2 \pm 4.6\%$から$F1_\text{macro} = 72.2 \pm 4.9\%$に改善された。 この文脈で拡散モデルを用いた最初の手法として、拡散モデルが3次元の逆問題に適用可能であること、そして2次元顕微鏡画像から現実的な形態的特徴を持つ3次元形状を再構築できることを実証した。

Diffusion models are a class of generative models, showing superior performance as compared to other generative models in creating realistic images when trained on natural image datasets. We introduce DISPR, a diffusion-based model for solving the inverse problem of three-dimensional (3D) cell shape prediction from two-dimensional (2D) single cell microscopy images. Using the 2D microscopy image as a prior, DISPR is conditioned to predict realistic 3D shape reconstructions. To showcase the applicability of DISPR as a data augmentation tool in a feature-based single cell classification task, we extract morphological features from the cells grouped into six highly imbalanced classes. Adding features from predictions of DISPR to the three minority classes improved the macro F1 score from $F1_\text{macro} = 55.2 \pm 4.6\%$ to $F1_\text{macro} = 72.2 \pm 4.9\%$. With our method being the first to employ a diffusion-based model in this context, we demonstrate that diffusion models can be applied to inverse problems in 3D, and that they learn to reconstruct 3D shapes with realistic morphological features from 2D microscopy images.
翻訳日:2022-08-31 12:28:48 公開日:2022-08-30
# autows-bench-101:100ラベルによる自動弱い監督

AutoWS-Bench-101: Benchmarking Automated Weak Supervision with 100 Labels ( http://arxiv.org/abs/2208.14362v1 )

ライセンス: Link先を確認
Nicholas Roberts, Xintong Li, Tzu-Heng Huang, Dyah Adila, Spencer Schoenberg, Cheng-Yu Liu, Lauren Pick, Haotian Ma, Aws Albarghouthi, Frederic Sala(参考訳) 弱監視(WS)はラベル付きデータセットを構築するための強力な手法であり、ラベル付きデータに対して教師付きモデルをトレーニングする。 ハンドラベルデータを、ラベル機能(lfs)で表現された複数のノイズ・ボタン・チープラベル推定値に置き換える。 多くのドメインでうまく使われているが、複雑なまたは高次元の特徴を持つドメインのラベリング関数を構築することの難しさにより、弱い監督のアプリケーションスコープは制限されている。 これを解決するために、少数の手法が、小さな基底真理ラベルを用いてLF設計プロセスを自動化することを提案した。 本稿では、従来のWS技術の適用がこれまで困難あるいは不可能であった様々なアプリケーションドメインのセットであるWS設定に挑戦する上で、自動化WS(AutoWS)テクニックを評価するためのフレームワークであるAutoWS-Bench-101を紹介します。 AutoWS は、WS のアプリケーションスコープの拡大に向けた有望な方向であるが、ゼロショット基礎モデルのような強力なメソッドの出現は、AutoWS の技術が現代のゼロショットや少数ショットの学習者とどのように比較または協力するかを理解する必要があることを示している。 このことはAutoWS-Bench-101の中心的な問題である: 各タスクに100のラベルの初期セットが与えられたら、実践者はAutoWSメソッドを使って追加のラベルを生成するべきか、あるいは基礎モデルのゼロショット予測や教師付き学習のようなより単純なベースラインを使うべきかを問う。 多くの環境では、autowsメソッドが基礎モデルからの信号を取り込む必要があると観察し、autows-bench-101はこの方向の将来の研究を促進する。 我々はAutoWS手法の徹底的なアブレーション研究を結論付けている。

Weak supervision (WS) is a powerful method to build labeled datasets for training supervised models in the face of little-to-no labeled data. It replaces hand-labeling data with aggregating multiple noisy-but-cheap label estimates expressed by labeling functions (LFs). While it has been used successfully in many domains, weak supervision's application scope is limited by the difficulty of constructing labeling functions for domains with complex or high-dimensional features. To address this, a handful of methods have proposed automating the LF design process using a small set of ground truth labels. In this work, we introduce AutoWS-Bench-101: a framework for evaluating automated WS (AutoWS) techniques in challenging WS settings -- a set of diverse application domains on which it has been previously difficult or impossible to apply traditional WS techniques. While AutoWS is a promising direction toward expanding the application-scope of WS, the emergence of powerful methods such as zero-shot foundation models reveals the need to understand how AutoWS techniques compare or cooperate with modern zero-shot or few-shot learners. This informs the central question of AutoWS-Bench-101: given an initial set of 100 labels for each task, we ask whether a practitioner should use an AutoWS method to generate additional labels or use some simpler baseline, such as zero-shot predictions from a foundation model or supervised learning. We observe that in many settings, it is necessary for AutoWS methods to incorporate signal from foundation models if they are to outperform simple few-shot baselines, and AutoWS-Bench-101 promotes future research in this direction. We conclude with a thorough ablation study of AutoWS methods.
翻訳日:2022-08-31 12:28:24 公開日:2022-08-30
# 遺伝的アルゴリズムを用いたCT画像における心膜輪郭の自動認識

Automated recognition of the pericardium contour on processed CT images using genetic algorithms ( http://arxiv.org/abs/2208.14375v1 )

ライセンス: Link先を確認
E. O. Rodrigues and L. O. Rodrigues and L. S. N. Oliveira and A. Conci and P. Liatsis(参考訳) 本研究は,CT画像を用いたヒト心臓の心膜輪郭の追跡と認識における遺伝的アルゴリズム(GA)の利用を提案する。 腹膜の各スライスは楕円形でモデル化でき、そのパラメータは最適に決定する必要があると仮定する。 最適な楕円体は心膜輪郭に沿っており、それによって心臓の心外膜脂肪と縦隔脂肪を適切に分離する。 医療診断における心膜輪郭補充剤の追跡と自動同定 通常、このプロセスは、必要な労力のために手動で行われるか、まったく行われない。 さらに、心膜検出は、ヒト心臓に関連する2種類の脂肪を分離する以前に提案された自動化方法を改善する可能性がある。 これらの脂肪の定量化は、特定の循環器疾患の発生に関連する重要な健康リスクマーカー情報を提供する。 最後に,GAは処理時間に十分満足できる解を提供すると結論づける。

This work proposes the use of Genetic Algorithms (GA) in tracing and recognizing the pericardium contour of the human heart using Computed Tomography (CT) images. We assume that each slice of the pericardium can be modelled by an ellipse, the parameters of which need to be optimally determined. An optimal ellipse would be one that closely follows the pericardium contour and, consequently, separates appropriately the epicardial and mediastinal fats of the human heart. Tracing and automatically identifying the pericardium contour aids in medical diagnosis. Usually, this process is done manually or not done at all due to the effort required. Besides, detecting the pericardium may improve previously proposed automated methodologies that separate the two types of fat associated to the human heart. Quantification of these fats provides important health risk marker information, as they are associated with the development of certain cardiovascular pathologies. Finally, we conclude that GA offers satisfiable solutions in a feasible amount of processing time.
翻訳日:2022-08-31 12:27:41 公開日:2022-08-30
# ソーシャルネットワーキングサービス文書における感情認識の相違を引き起こす表現

Expressions Causing Differences in Emotion Recognition in Social Networking Service Documents ( http://arxiv.org/abs/2208.14244v1 )

ライセンス: Link先を確認
Tsubasa Nakagawa, Shunsuke Kitada, Hitoshi Iyatomi(参考訳) オンラインで交換されたテキストから著者の感情を正しく推測することはしばしば困難であり、著者と読者の認識の違いは問題となる。 本稿では,著者と読み手の間で感情認識の相違を生じさせる文の検出と,その差異を引き起こす表現の種類を検出するための新しい枠組みを提案する。 提案フレームワークは,感情認識の違いを生じる文を検出する変換器(BERT)による双方向エンコーダ表現と,そのような文に特徴的な表現を取得する解析から構成される。 ソーシャルネットワークサービス(SNS)文書の著者と3人の読者が注釈付けした感情ラベル付きSNS文書データセットに基づいて,AUC=0.772で「隠れアンガー文」を検出し,怒りの認識に違いが生じた。 SNS文書には意味の理解が極めて難しい文が多数含まれており,本検出器が検出した文を解析することにより,隠れアンガー文に特徴的な表現がいくつか得られた。 検出された文や表現は、明確に怒りを伝えておらず、作者の怒りを推測することは難しいが、暗黙の怒りが指摘されれば、なぜ怒っているのかを推測できる。 実用的には、このフレームワークは誤解に基づいて問題を緩和する能力を持っているだろう。

It is often difficult to correctly infer a writer's emotion from text exchanged online, and differences in recognition between writers and readers can be problematic. In this paper, we propose a new framework for detecting sentences that create differences in emotion recognition between the writer and the reader and for detecting the kinds of expressions that cause such differences. The proposed framework consists of a bidirectional encoder representations from transformers (BERT)-based detector that detects sentences causing differences in emotion recognition and an analysis that acquires expressions that characteristically appear in such sentences. The detector, based on a Japanese SNS-document dataset with emotion labels annotated by both the writer and three readers of the social networking service (SNS) documents, detected "hidden-anger sentences" with AUC = 0.772; these sentences gave rise to differences in the recognition of anger. Because SNS documents contain many sentences whose meaning is extremely difficult to interpret, by analyzing the sentences detected by this detector, we obtained several expressions that appear characteristically in hidden-anger sentences. The detected sentences and expressions do not convey anger explicitly, and it is difficult to infer the writer's anger, but if the implicit anger is pointed out, it becomes possible to guess why the writer is angry. Put into practical use, this framework would likely have the ability to mitigate problems based on misunderstandings.
翻訳日:2022-08-31 12:27:26 公開日:2022-08-30
# 超モデルエコシステム:ドメイン適応の観点から

Super-model ecosystem: A domain-adaptation perspective ( http://arxiv.org/abs/2208.14092v1 )

ライセンス: Link先を確認
Fengxiang He, Dacheng Tao(参考訳) 本稿では、ドメイン適応による新しいスーパーモデルパラダイムの理論的基礎を確立することを試みる。そこでは、まず、大量のデータに基づいて超モデル(またはいくつかの論文の基盤モデル)を訓練し、それを様々な特定のドメインに適応させる。 超モデルパラダイムは、計算コストとデータコストと二酸化炭素排出量を減らすのに役立つ。 超モデルパラダイムを2段階の拡散過程としてモデル化する:(1)事前学習段階において、モデルパラメータはランダムイニシャルから拡散して定常分布に収束し、(2)微調整段階では、モデルパラメータを別の定常分布に輸送する。 両方の訓練段階はそれぞれ2つのマクスウェル・ボルツマン分布に収束するuhlenbeck-ornstein過程によって数学的にモデル化される。 次に、$\mathcal O(1/\sqrt{N})$ 一般化境界は、PAC-ベイジアンフレームワークによって確立される。 この理論は、微調整段階の一般化誤差が領域適応において支配的であることを見出している。 さらに,本理論は,共分散行列と収束局所最小値のシフトに基づいて,ソース領域と対象領域の領域差を特徴付ける新しい尺度によって一般化が決定されることを示唆している。

This paper attempts to establish the theoretical foundation for the emerging super-model paradigm via domain adaptation, where one first trains a very large-scale model, {\it i.e.}, super model (or foundation model in some other papers), on a large amount of data and then adapts it to various specific domains. Super-model paradigms help reduce computational and data cost and carbon emission, which is critical to AI industry, especially enormous small and medium-sized enterprises. We model the super-model paradigm as a two-stage diffusion process: (1) in the pre-training stage, the model parameter diffuses from random initials and converges to a steady distribution; and (2) in the fine-tuning stage, the model parameter is transported to another steady distribution. Both training stages can be mathematically modeled by the Uhlenbeck-Ornstein process which converges to two Maxwell-Boltzmann distributions, respectively, each of which characterizes the corresponding convergent model. An $\mathcal O(1/\sqrt{N})$ generalization bound is then established via PAC-Bayesian framework. The theory finds that the generalization error of the fine-tuning stage is dominant in domain adaptation. In addition, our theory suggests that the generalization is determined by a new measure that characterizes the domain discrepancy between the source domain and target domain, based on the covariance matrices and the shift of the converged local minimum.
翻訳日:2022-08-31 12:27:02 公開日:2022-08-30
# O-RANにおける動的スライス管理のための進化的深部強化学習

Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in O-RAN ( http://arxiv.org/abs/2208.14394v1 )

ライセンス: Link先を確認
Fatemeh Lotfi, Omid Semiari, Fatemeh Afghah(参考訳) 次世代無線ネットワークは、様々なサービスと基準を同時に満たす必要がある。 今後の厳格な基準に対処するため、フレキシブルデザイン、分散仮想およびプログラマブルコンポーネント、インテリジェントなクローズドループ制御などの特徴を区別する新しいオープン無線アクセスネットワーク(o-ran)が開発された。 O-RANスライシングは、状況の変化に直面したネットワーク品質保証(QoS)のための重要な戦略として検討されている。 しかし、異なるネットワークスライスを動的に制御し、環境の急激な変化に起因するサービスレベル合意(SLA)の変動を避ける必要がある。 そこで本稿では,プロビジョニングされたリソースを通じてネットワークスライスをインテリジェントに管理できる新しいフレームワークを提案する。 多様な異種環境のため、インテリジェントな機械学習アプローチでは、無線ネットワークにおける最も厳しい状況に対処し、収束を加速するために十分な探索が必要である。 この問題を解決するために,無線アクセスネットワーク(RAN)インテリジェントコントローラ(RIC)モジュールにおけるスライス管理学習プロセスの高速化と最適化を目的として,進化に基づく深層強化学習(EDRL)に基づく新しい手法を提案する。 この目的のために、O-RANスライシングはマルコフ決定プロセス(MDP)として表現され、EDRLアプローチを使用してサービス需要を満たすためにリソース割り当てを最適に解決する。 サービス要求の達成に関して、シミュレーションの結果、提案手法はDRLベースラインを62.2%上回る結果となった。

The next-generation wireless networks are required to satisfy a variety of services and criteria concurrently. To address upcoming strict criteria, a new open radio access network (O-RAN) with distinguishing features such as flexible design, disaggregated virtual and programmable components, and intelligent closed-loop control was developed. O-RAN slicing is being investigated as a critical strategy for ensuring network quality of service (QoS) in the face of changing circumstances. However, distinct network slices must be dynamically controlled to avoid service level agreement (SLA) variation caused by rapid changes in the environment. Therefore, this paper introduces a novel framework able to manage the network slices through provisioned resources intelligently. Due to diverse heterogeneous environments, intelligent machine learning approaches require sufficient exploration to handle the harshest situations in a wireless network and accelerate convergence. To solve this problem, a new solution is proposed based on evolutionary-based deep reinforcement learning (EDRL) to accelerate and optimize the slice management learning process in the radio access network's (RAN) intelligent controller (RIC) modules. To this end, the O-RAN slicing is represented as a Markov decision process (MDP) which is then solved optimally for resource allocation to meet service demand using the EDRL approach. In terms of reaching service demands, simulation results show that the proposed approach outperforms the DRL baseline by 62.2%.
翻訳日:2022-08-31 12:26:37 公開日:2022-08-30
# DLDNN:ニューラルネットワークによる決定論的側方変位設計自動化

DLDNN: Deterministic Lateral Displacement Design Automation by Neural Networks ( http://arxiv.org/abs/2208.14303v1 )

ライセンス: Link先を確認
Farzad Vatandoust, Hoseyn A. Amiri, Sima Mas-hafi(参考訳) サイズに基づくバイオ粒子/細胞分離は、エキソソームやDNA分離といった応用のための様々なバイオメディカルな処理ステップに不可欠である。 このようなマイクロ流体デバイスの設計と改善は、研究と使用のための均質なエンドリゾルト製造の需要に最善を期すための課題である。 決定論的側方変位(DLD)は、長年にわたって広く注目を集めてきた同様の原理を利用する。 しかし、粒子軌道とその誘導モードの予測的理解の欠如は、DLDデバイスの設計を反復的な手順にする。 そこで本稿では,この問題に対処するための高速汎用設計自動化プラットフォームについて検討する。 そのため、畳み込みニューラルネットワークと人工ニューラルネットワークを用いて、幅広いDLD構成の速度場と臨界径を学習した。 後にこれらのネットワークは、自動化ツールを構築するために多目的進化アルゴリズムと組み合わせられた。 ニューラルネットワークの精度を保証した後、開発ツールは12の臨界条件でテストされた。 負荷条件に達すると、自動化コンポーネントは確実に動作し、エラーは4%未満だった。 さらに、このツールは、他のフィールドベースの問題に対して一般化可能であり、ニューラルネットワークは、この方法の不可欠な部分であるため、同様の物理に対する伝達学習を可能にする。 この研究で生成されたすべてのコードは、トレーニング済みのニューラルネットワークモデルとともに、https://github.com/hoseynaamiri/dldnnで利用可能である。

Size-based separation of bioparticles/cells is crucial to a variety of biomedical processing steps for applications such as exosomes and DNA isolation. Design and improvement of such microfluidic devices is a challenge to best answer the demand for producing homogeneous end-result for study and use. Deterministic lateral displacement (DLD) exploits a similar principle that has drawn extensive attention over years. However, the lack of predictive understanding of the particle trajectory and its induced mode makes designing a DLD device an iterative procedure. Therefore, this paper investigates a fast versatile design automation platform to address this issue. To do so, convolutional and artificial neural networks were employed to learn velocity fields and critical diameters of a wide range of DLD configurations. Later, these networks were combined with a multi-objective evolutionary algorithm to construct the automation tool. After ensuring the accuracy of the neural networks, the developed tool was tested for 12 critical conditions. Reaching the imposed conditions, the automation components performed reliably with errors of less than 4%. Moreover, this tool is generalizable to other field-based problems and since the neural network is an integral part of this method, it enables transfer learning for similar physics. All the codes generated and used in this study alongside the pre-trained neural network models are available on https://github.com/HoseynAAmiri/DLDNN.
翻訳日:2022-08-31 12:26:12 公開日:2022-08-30
# 大規模言語モデルを用いた忠実推論

Faithful Reasoning Using Large Language Models ( http://arxiv.org/abs/2208.14271v1 )

ライセンス: Link先を確認
Antonia Creswell and Murray Shanahan(参考訳) 現代の大言語モデル(lms)は印象的な質問応答能力を示しているが、その答えはモデルへの単一の呼び出しの産物である。 これは不透明な程度を満足させ、特に本質的にマルチステップである問題においてパフォーマンスを損なう。 これらの制限に対処するために, 因果構造が問題の根底にある論理構造を反映したプロセスを通じて, lmsが忠実な多段階推論を行う方法を示す。 提案手法では,各ステップが2つの微調整されたLMへのコール,1つは選択用,1つは推論用,それぞれから,有効な推論トレースを生成する。 提案手法は,推論品質を向上させるために,推論トレースの空間をビームサーチする。 本稿では,マルチステップ論理推論と科学的質問応答に対するモデルの有効性を実証し,最終回答の精度でベースラインを上回り,ユーザによる妥当性確認が可能な人間解釈可能な推論トレースを生成する。

Although contemporary large language models (LMs) demonstrate impressive question-answering capabilities, their answers are typically the product of a single call to the model. This entails an unwelcome degree of opacity and compromises performance, especially on problems that are inherently multi-step. To address these limitations, we show how LMs can be made to perform faithful multi-step reasoning via a process whose causal structure mirrors the underlying logical structure of the problem. Our approach works by chaining together reasoning steps, where each step results from calls to two fine-tuned LMs, one for selection and one for inference, to produce a valid reasoning trace. Our method carries out a beam search through the space of reasoning traces to improve reasoning quality. We demonstrate the effectiveness of our model on multi-step logical deduction and scientific question-answering, showing that it outperforms baselines on final answer accuracy, and generates humanly interpretable reasoning traces whose validity can be checked by the user.
翻訳日:2022-08-31 12:25:38 公開日:2022-08-30
# 抽出質問応答変換器を用いた実世界会話コーパスのインテント景観構築

Building the Intent Landscape of Real-World Conversational Corpora with Extractive Question-Answering Transformers ( http://arxiv.org/abs/2208.12886v2 )

ライセンス: Link先を確認
Jean-Philippe Corbeil, Mia Taige Li, Hadi Abdi Ghavidel(参考訳) カスタマーサービスを持つ企業にとって、会話データ内のマッピング意図は、自然言語理解(NLU)に基づいたアプリケーション構築に不可欠である。 それでも、騒々しいオンラインチャットや音声書き起こしから意図を収集する確立した自動化技術は存在しない。 単純なクラスタリングアプローチはインテントスパース対話には適していない。 そこで本研究では,現実世界の対話から意図や意図の分類を抽出する教師なしパイプラインを提案する。 パイプラインでは,抽出した質問応答エレクトラモデルを用いてインテントスパン候補をマイニングし,文埋め込みを利用して低レベル密度クラスタリングを行い,上位階層クラスタリングを行う。 本研究は,SQuAD2データセット上に微調整されたELECTRA大モデルによる対話理解の一般化能力を示すものである。 適切なプロンプト質問により、このモデルは意図に関する言語的検証率を85%以上達成する。 さらに、マルチドゴデータセットから平均94.3%のリコールで5つのドメインのインテントスキームを再構築した。

For companies with customer service, mapping intents inside their conversational data is crucial in building applications based on natural language understanding (NLU). Nevertheless, there is no established automated technique to gather the intents from noisy online chats or voice transcripts. Simple clustering approaches are not suited to intent-sparse dialogues. To solve this intent-landscape task, we propose an unsupervised pipeline that extracts the intents and the taxonomy of intents from real-world dialogues. Our pipeline mines intent-span candidates with an extractive Question-Answering Electra model and leverages sentence embeddings to apply a low-level density clustering followed by a top-level hierarchical clustering. Our results demonstrate the generalization ability of an ELECTRA large model fine-tuned on the SQuAD2 dataset to understand dialogues. With the right prompting question, this model achieves a rate of linguistic validation on intent spans beyond 85%. We furthermore reconstructed the intent schemes of five domains from the MultiDoGo dataset with an average recall of 94.3%.
翻訳日:2022-08-31 10:48:44 公開日:2022-08-30
# ロックプールとXyloを用いたサブmWニューロモルフィックSNNオーディオ処理

Sub-mW Neuromorphic SNN audio processing applications with Rockpool and Xylo ( http://arxiv.org/abs/2208.12991v2 )

ライセンス: Link先を確認
Hannah Bos and Dylan Muir(参考訳) スパイキングニューラルネットワーク(SNN)は、特に低消費電力のSNN推論ASICと組み合わせた場合、時間信号処理のための効率的な計算機構を提供する。 SNNは歴史的に構成が困難であり、任意のタスクの解を見つけるための一般的な方法が欠如している。 近年,SNNに対して勾配差最適化法が適用されやすくなっている。 したがって、SNNとSNN推論プロセッサは、クラウドに依存しないエネルギー制約環境において、商用の低消費電力信号処理に適したプラットフォームを提供する。 しかし、これまでのところ、これらの手法は産業のMLエンジニアにはアクセスできず、単一のSNNアプリケーションをうまく構成するために大学院レベルのトレーニングを必要としている。 本稿では、任意の時間信号処理アプリケーションをサブmW SNN推論ハードウェアに設計、訓練、デプロイするための便利な高レベルパイプラインを示す。 時間スケールの信号特徴を抽出するためにシナプス時間定数のピラミッドを用いて、時間信号処理用に設計された新しい単純なSNNアーキテクチャを適用する。 我々は、このアーキテクチャを、ストリーミングモードでXylo SNN推論プロセッサにデプロイされた環境音声分類タスクで実証する。 本アプリケーションは,低消費電力で高い精度(98%)と低レイテンシ(100ms)を実現する(<4muW推論パワー)。 当社のアプローチでは,SNNアプリケーションのトレーニングとデプロイを,一般的なNNバックグラウンドを持つMLエンジニアに提供しています。 我々は、NeuromorphicハードウェアとSNNを商用の低消費電力・エッジ信号処理アプリケーションにとって魅力的な選択肢にしたいと考えています。

Spiking Neural Networks (SNNs) provide an efficient computational mechanism for temporal signal processing, especially when coupled with low-power SNN inference ASICs. SNNs have been historically difficult to configure, lacking a general method for finding solutions for arbitrary tasks. In recent years, gradient-descent optimization methods have been applied to SNNs with increasing ease. SNNs and SNN inference processors therefore offer a good platform for commercial low-power signal processing in energy constrained environments without cloud dependencies. However, to date these methods have not been accessible to ML engineers in industry, requiring graduate-level training to successfully configure a single SNN application. Here we demonstrate a convenient high-level pipeline to design, train and deploy arbitrary temporal signal processing applications to sub-mW SNN inference hardware. We apply a new straightforward SNN architecture designed for temporal signal processing, using a pyramid of synaptic time constants to extract signal features at a range of temporal scales. We demonstrate this architecture on an ambient audio classification task, deployed to the Xylo SNN inference processor in streaming mode. Our application achieves high accuracy (98%) and low latency (100ms) at low power (<4muW inference power). Our approach makes training and deploying SNN applications available to ML engineers with general NN backgrounds, without requiring specific prior experience with spiking NNs. We intend for our approach to make Neuromorphic hardware and SNNs an attractive choice for commercial low-power and edge signal processing applications.
翻訳日:2022-08-31 10:48:27 公開日:2022-08-30
# Mori-RAN:ハイブリッドコントラスト融合によるマルチビューロバスト表現学習

MORI-RAN: Multi-view Robust Representation Learning via Hybrid Contrastive Fusion ( http://arxiv.org/abs/2208.12545v2 )

ライセンス: Link先を確認
Guanzhou Ke, Yongqi Zhu, Yang Yu(参考訳) マルチビュー表現学習は、クラスタリングや分類など、多くのマルチビュータスクに不可欠である。 しかし、コミュニティを困惑させる2つの課題がある。 一 大量ラベルなしデータから堅牢な多視点表現の学習方法及び方法 二 ビューの一貫性とビューの特異性のバランスをとる方法 そこで本稿では,ラベルのないデータから堅牢なビュー-共通表現を抽出するハイブリッドコントラスト融合アルゴリズムを提案する。 具体的には、追加の表現空間の導入とこの空間での表現の整合により、モデルが堅牢なビュー共通表現を学習できることがわかった。 同時に,モデルが自明な解を得られないことを保証するために,非対称なコントラスト戦略を考案した。 実験の結果,提案手法は4つの実世界のデータセットにおいて,クラスタリングと分類において12の競合的マルチビュー手法を上回った。 ソースコードは近く、 \url{https://github.com/guanzhou-ke/mori-ran}で入手できる。

Multi-view representation learning is essential for many multi-view tasks, such as clustering and classification. However, there are two challenging problems plaguing the community: i)how to learn robust multi-view representation from mass unlabeled data and ii) how to balance the view consistency and the view specificity. To this end, in this paper, we proposed a hybrid contrastive fusion algorithm to extract robust view-common representation from unlabeled data. Specifically, we found that introducing an additional representation space and aligning representations on this space enables the model to learn robust view-common representations. At the same time, we designed an asymmetric contrastive strategy to ensure that the model does not obtain trivial solutions. Experimental results demonstrated that the proposed method outperforms 12 competitive multi-view methods on four real-world datasets in terms of clustering and classification. Our source code will be available soon at \url{https://github.com/guanzhou-ke/mori-ran}.
翻訳日:2022-08-31 10:48:03 公開日:2022-08-30
# セマンティクスセグメンテーションネットワークによる画像の効果的なタンパリング

Effective Image Tampering Localization via Semantic Segmentation Network ( http://arxiv.org/abs/2208.13739v2 )

ライセンス: Link先を確認
Haochen Zhu, Gang Cao, Mo Zhao(参考訳) 強力な画像編集ツールが広く使われるようになると、画像の改ざんは簡単でリアルになる。 既存の画像法は、精度と堅牢性の低い課題に直面している。 タンパー付き領域は一般的にセマンティックオブジェクトであり,本文では,ディープセマンティックセグメンテーションネットワークに基づく効果的な画像タンパー化手法を提案する。 ConvNeXtネットワークは、より優れた特徴表現を学ぶためのエンコーダとして使用される。 マルチスケール機能はupernetデコーダによって融合され、より優れた位置決め能力を達成する。 効果的なモデルトレーニングを確保するために、損失と効果的なデータ拡張を併用する。 実験結果から,提案手法の局所化性能は他の最先端手法よりも優れていたことが確認された。

With the widespread use of powerful image editing tools, image tampering becomes easy and realistic. Existing image forensic methods still face challenges of low accuracy and robustness. Note that the tampered regions are typically semantic objects, in this letter we propose an effective image tampering localization scheme based on deep semantic segmentation network. ConvNeXt network is used as an encoder to learn better feature representation. The multi-scale features are then fused by Upernet decoder for achieving better locating capability. Combined loss and effective data augmentation are adopted to ensure effective model training. Extensive experimental results confirm that localization performance of our proposed scheme outperforms other state-of-the-art ones.
翻訳日:2022-08-31 10:47:50 公開日:2022-08-30
# JARVIS : 会話型エンボディードエージェントのためのニューロシンボリック・コモンセンス推論フレームワーク

JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents ( http://arxiv.org/abs/2208.13266v2 )

ライセンス: Link先を確認
Kaizhi Zheng, Kaiwen Zhou, Jing Gu, Yue Fan, Jialu Wang, Zonglin Di, Xuehai He, Xin Eric Wang(参考訳) 実生活タスクを実行するための会話型具体化エージェントの構築は、効果的な人間-エージェントコミュニケーション、マルチモーダル理解、長距離シーケンシャルな意思決定などを必要とするため、長い間、非常に困難な研究目標でした。 従来のシンボリックメソッドにはスケーリングと一般化の問題があり、エンドツーエンドのディープラーニングモデルはデータの不足と高いタスクの複雑さに苦しんでおり、説明が難しいことが多い。 両世界から利益を得るため,モジュール性,汎用性,解釈可能な対話型具体化エージェントのためのニューロシンボリックコモンセンス推論(jarvis)フレームワークを提案する。 まず,大規模言語モデル(LLM)による言語理解とサブゴール計画の促進と,視覚的観察から意味マップを構築することによって,記号表現を取得する。 次に,タスクレベルとアクションレベルの共通感覚に基づくサブゴール計画とアクション生成のシンボリックモジュールの理由について述べる。 TEAChデータセットの大規模実験により, ダイアログヒストリ(EDH), ダイアログからのトラジェクトリ(TfD), 2エージェントタスク完了(TATC)を含む3つのダイアログベースの実施タスクに対して, 最新のSOTA(State-of-the-art)を実現するJARVISフレームワークの有効性と効率を検証した(例: EDHの未確認成功率を6.1\%から15.8\%に引き上げる)。 さらに,タスク性能に影響を及ぼす重要な要因を体系的に分析し,いくつかの設定で手法の優位性を示す。 JARVISモデルは、Alexa Prize SimBot Public Benchmark Challengeで第1位です。

Building a conversational embodied agent to execute real-life tasks has been a long-standing yet quite challenging research goal, as it requires effective human-agent communication, multi-modal understanding, long-range sequential decision making, etc. Traditional symbolic methods have scaling and generalization issues, while end-to-end deep learning models suffer from data scarcity and high task complexity, and are often hard to explain. To benefit from both worlds, we propose a Neuro-Symbolic Commonsense Reasoning (JARVIS) framework for modular, generalizable, and interpretable conversational embodied agents. First, it acquires symbolic representations by prompting large language models (LLMs) for language understanding and sub-goal planning, and by constructing semantic maps from visual observations. Then the symbolic module reasons for sub-goal planning and action generation based on task- and action-level common sense. Extensive experiments on the TEACh dataset validate the efficacy and efficiency of our JARVIS framework, which achieves state-of-the-art (SOTA) results on all three dialog-based embodied tasks, including Execution from Dialog History (EDH), Trajectory from Dialog (TfD), and Two-Agent Task Completion (TATC) (e.g., our method boosts the unseen Success Rate on EDH from 6.1\% to 15.8\%). Moreover, we systematically analyze the essential factors that affect the task performance and also demonstrate the superiority of our method in few-shot settings. Our JARVIS model ranks first in the Alexa Prize SimBot Public Benchmark Challenge.
翻訳日:2022-08-31 09:16:24 公開日:2022-08-30
# LodView RDFブラウザによる多言語言語リンク型オープンデータクラウド上のナビゲーション

Adapting the LodView RDF Browser for Navigation over the Multilingual Linguistic Linked Open Data Cloud ( http://arxiv.org/abs/2208.13295v2 )

ライセンス: Link先を確認
Alexander Kirillovich and Konstantin Nikolaev(参考訳) 本稿は,多言語言語リンクオープンデータクラウド上のナビゲーションにおけるlodviewの利用について述べる。 まず、LodViewが属するPubbyライクなツールのクラスを定義し、このクラスとURI非参照ツール、RDFブラウザ、LOD視覚化ツールのクラスとの関係を明らかにする。 第2に,lodviewの指定目的への使用を阻害するいくつかの制限を明らかにし,これらの制限を修正するための改善を提案する。 これらの改善は 1) キリルURIの解決 2) 資源のタートル表現におけるキリルURIの復号 3) キリル文字のサポート 4) 資源のRDF表現のためのユーザフレンドリーなURL 5)ハッシュURIのサポート。 6) ネスト資源の拡大 7)RDFコレクションのサポート 8) 資源財産価値の図式化及び 9) $\LaTeX$ 数学表記のサポート。 第3に,提案する改善のいくつかを部分的に実装する。

The paper is dedicated to the use of LodView for navigation over the multilingual Linguistic Linked Open Data cloud. First, we define the class of Pubby-like tools, that LodView belongs to, and clarify the relation of this class to the classes of URI dereferenciation tools, RDF browsers and LOD visualization tools. Second, we reveal several limitations of LodView that impede its use for the designated purpose, and propose improvements to be made for fixing these limitations. These improvements are: 1) resolution of Cyrillic URIs; 2) decoding Cyrillic URIs in Turtle representations of resources; 3) support of Cyrillic literals; 4) user-friendly URLs for RDF representations of resources; 5) support of hash URIs; 6) expanding nested resources; 7) support of RDF collections; 8) pagination of resource property values; and 9) support of $\LaTeX$ math notation. Third, we partially implement several of the proposed improvements.
翻訳日:2022-08-31 09:15:50 公開日:2022-08-30
# 変動情報を用いたイベント引数抽出のための多形式変換学習モデル

A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational Information Bottleneck ( http://arxiv.org/abs/2208.13017v2 )

ライセンス: Link先を確認
Jie Zhou and Qi Zhang and Qin Chen and Liang He and Xuanjing Huang(参考訳) イベント引数抽出(EAE)は、自然言語処理で広く研究されているテキストから与えられた役割を持つ引数を抽出することを目的としている。 これまでのほとんどの研究は、専用のニューラルネットワークを備えた特定のEAEデータセットで優れたパフォーマンスを実現している。 しかしながら、これらのアーキテクチャは、さまざまなアノテーションスキーマやフォーマットを持つ新しいデータセットやシナリオに適応することが通常難しい。 さらに、トレーニングには大規模なラベル付きデータに依存するが、多くの場合、ラベル付きコストが高いため使用できない。 本稿では,新しいデータセットにおける既存のEAEデータセットにおける情報,特に共通知識を利用した多変量情報ボトルネックを有するマルチフォーマットトランスファー学習モデルを提案する。 具体的には、異なるフォーマットのデータセットから、フォーマット共有とフォーマット固有の知識の両方を学ぶための、共有固有のプロンプトフレームワークを紹介します。 EAEの共通知識をさらに吸収し、無関係なノイズを除去するために、我々は、変動情報ボトルネックをアーキテクチャに統合し、共有表現を洗練します。 3つのベンチマークデータセットに対して広範な実験を行い、EAE上での新たな最先端性能を得る。

Event argument extraction (EAE) aims to extract arguments with given roles from texts, which have been widely studied in natural language processing. Most previous works have achieved good performance in specific EAE datasets with dedicated neural architectures. Whereas, these architectures are usually difficult to adapt to new datasets/scenarios with various annotation schemas or formats. Furthermore, they rely on large-scale labeled data for training, which is unavailable due to the high labelling cost in most cases. In this paper, we propose a multi-format transfer learning model with variational information bottleneck, which makes use of the information especially the common knowledge in existing datasets for EAE in new datasets. Specifically, we introduce a shared-specific prompt framework to learn both format-shared and format-specific knowledge from datasets with different formats. In order to further absorb the common knowledge for EAE and eliminate the irrelevant noise, we integrate variational information bottleneck into our architecture to refine the shared representation. We conduct extensive experiments on three benchmark datasets, and obtain new state-of-the-art performance on EAE.
翻訳日:2022-08-31 09:15:37 公開日:2022-08-30
# 文類似性のための合成データ同定に基づく重み付け戦略

Reweighting Strategy based on Synthetic Data Identification for Sentence Similarity ( http://arxiv.org/abs/2208.13376v2 )

ライセンス: Link先を確認
Taehee Kim, ChaeHun Park, Jimin Hong, Radhika Dua, Edward Choi and Jaegul Choo(参考訳) 意味のある文の埋め込みは自然言語処理における多くのタスクにおいて重要である。 このような組込みを実現するために、最近の研究は、トレーニングコーパスとして事前学習言語モデル(plms)からの合成データを利用するというアイデアを探求している。 しかし、plmは人間の文章とは大きく異なる文を生成することが多い。 これらすべての合成例を、深層ニューラルネットワークのトレーニングに等しく扱うことは、意味的に意味のある埋め込みの学習に悪影響を及ぼす可能性があると仮定する。 これを分析するために,まず,機械文を識別する分類器を訓練し,機械によって識別された文の言語的特徴が,人間文と大きく異なることを観察する。 そこで本研究では,まず分類器を訓練し,各文の重要度を計測する手法を提案する。 分類器からの蒸留情報は、信頼できる文埋め込みモデルを訓練するために使用される。 実世界の4つのデータセットを広範囲に評価することにより、合成データに基づいてトレーニングしたモデルが一般化し、既存のベースラインを上回っていることを示す。 実装はhttps://github.com/ddehun/coling2022_reweighting_stsで公開しています。

Semantically meaningful sentence embeddings are important for numerous tasks in natural language processing. To obtain such embeddings, recent studies explored the idea of utilizing synthetically generated data from pretrained language models (PLMs) as a training corpus. However, PLMs often generate sentences much different from the ones written by human. We hypothesize that treating all these synthetic examples equally for training deep neural networks can have an adverse effect on learning semantically meaningful embeddings. To analyze this, we first train a classifier that identifies machine-written sentences, and observe that the linguistic features of the sentences identified as written by a machine are significantly different from those of human-written sentences. Based on this, we propose a novel approach that first trains the classifier to measure the importance of each sentence. The distilled information from the classifier is then used to train a reliable sentence embedding model. Through extensive evaluation on four real-world datasets, we demonstrate that our model trained on synthetic data generalizes well and outperforms the existing baselines. Our implementation is publicly available at https://github.com/ddehun/coling2022_reweighting_sts.
翻訳日:2022-08-31 09:15:20 公開日:2022-08-30
# 感情によるペア抽出の促進を目的とした一般的な節間関係の学習

Learning a General Clause-to-Clause Relationships for Enhancing Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2208.13549v2 )

ライセンス: Link先を確認
Hang Chen, Xinyu Yang, Xiang Li(参考訳) 感情原因ペア抽出(ECPE)は,潜在的な感情のペアとそれに対応する原因を文書から抽出することを目的とした,新たな課題である。 従来のアプローチはペア対ペア関係のモデリングに重点を置いており、有望な結果を得た。 しかし、文書の基盤構造を根本的に象徴する節間関係は、まだ研究の初期段階にある。 本稿では,新しい節間関係を定義する。 そこで本研究では,E-GAT と Activation Sort を組み合わせた EA-GAT という一般節レベルの符号化モデルを提案する。 E-GATは、異なる種類の節から情報を集約するために設計されており、Activation Sortは個々の感情/原因予測とソートベースのマッピングを利用して、節をより好ましい表現に伝達する。 EA-GATは節レベルの符号化モデルであるため、あらゆる従来のアプローチと広く統合することができる。 実験の結果、我々のアプローチは、中国と英語のベンチマークコーパスにおける現在のすべてのアプローチに対して、平均2.1\%$と1.03\%$という大きな利点があることがわかった。

Emotion-cause pair extraction (ECPE) is an emerging task aiming to extract potential pairs of emotions and corresponding causes from documents. Previous approaches have focused on modeling the pair-to-pair relationship and achieved promising results. However, the clause-to-clause relationship, which fundamentally symbolizes the underlying structure of a document, has still been in its research infancy. In this paper, we define a novel clause-to-clause relationship. To learn it applicably, we propose a general clause-level encoding model named EA-GAT comprising E-GAT and Activation Sort. E-GAT is designed to aggregate information from different types of clauses; Activation Sort leverages the individual emotion/cause prediction and the sort-based mapping to propel the clause to a more favorable representation. Since EA-GAT is a clause-level encoding model, it can be broadly integrated with any previous approach. Experimental results show that our approach has a significant advantage over all current approaches on the Chinese and English benchmark corpus, with an average of $2.1\%$ and $1.03\%$.
翻訳日:2022-08-31 09:15:02 公開日:2022-08-30
# CMD:相互蒸留を用いた自己教師型3次元行動表現学習

CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Distillation ( http://arxiv.org/abs/2208.12448v2 )

ライセンス: Link先を確認
Yunyao Mao, Wengang Zhou, Zhenbo Lu, Jiajun Deng, Houqiang Li(参考訳) 3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。 それでも、この情報をモデル化し活用する方法は、自己教師付き3次元行動表現学習において難しい問題である。 本研究では,双方向知識蒸留問題としてクロスモーダル相互作用を定式化する。 教師の知識を学生に伝達する古典的な蒸留ソリューションとは異なり、この研究では、知識は継続的に更新され、モダリティ間で双方向に蒸留される。 そこで,本稿では,以下の設計のクロスモーダル相互蒸留(cmd)フレームワークを提案する。 一方, 類似度分布は, 各モードで学習した知識をモデル化するために導入され, リレーショナル情報は対照的なフレームワークに自然に適合する。 一方, 教師と学生は, 蒸留工程を安定させ, モダリティ間で高信頼情報を伝達するために非対称な構成を用いる。 導出により、過去の作品における相互正の鉱業は、我々のCMDの劣化版とみなすことができる。 我々は,NTU RGB+D 60,NTU RGB+D 120,PKU-MMD IIデータセットについて広範な実験を行った。 提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。 コードはhttps://github.com/maoyunyao/cmdで入手できる。

In 3D action recognition, there exists rich complementary information between skeleton modalities. Nevertheless, how to model and utilize this information remains a challenging problem for self-supervised 3D action representation learning. In this work, we formulate the cross-modal interaction as a bidirectional knowledge distillation problem. Different from classic distillation solutions that transfer the knowledge of a fixed and pre-trained teacher to the student, in this work, the knowledge is continuously updated and bidirectionally distilled between modalities. To this end, we propose a new Cross-modal Mutual Distillation (CMD) framework with the following designs. On the one hand, the neighboring similarity distribution is introduced to model the knowledge learned in each modality, where the relational information is naturally suitable for the contrastive frameworks. On the other hand, asymmetrical configurations are used for teacher and student to stabilize the distillation process and to transfer high-confidence information between modalities. By derivation, we find that the cross-modal positive mining in previous works can be regarded as a degenerated version of our CMD. We perform extensive experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD II datasets. Our approach outperforms existing self-supervised methods and sets a series of new records. The code is available at: https://github.com/maoyunyao/CMD
翻訳日:2022-08-31 09:14:41 公開日:2022-08-30
# sphere depth: 球面領域からのパノラマ深度の推定

SphereDepth: Panorama Depth Estimation from Spherical Domain ( http://arxiv.org/abs/2208.13714v2 )

ライセンス: Link先を確認
Qingsong Yan, Qiang Wang, Kaiyong Zhao, Bo Li, Xiaowen Chu, Fei Deng(参考訳) パノラマ画像は、周辺環境の完全な情報を同時に示すことができ、仮想観光、ゲーム、ロボット工学等に多くの利点がある。 しかし, パノラマ深度推定の進展は, 一般的な投影法によって生じる歪みや不連続性の問題を完全に解決することができない。 本稿では,プロジェクション前処理なしで球面メッシュ上の深度を直接予測する新しいパノラマ深度推定法であるSphereDepthを提案する。 中心となる考え方は、パノラマ画像と球面メッシュの関係を確立し、深層ニューラルネットワークを使用して球面領域の特徴を抽出して深度を予測することである。 高分解能パノラマデータによる効率問題に対処するため,提案した球面メッシュ処理フレームワークに2つのハイパーパラメータを導入し,推論速度と精度のバランスをとる。 3つのパノラマデータセット上で検証されたspheredepthは、パノラマ深度推定の最先端手法と同等の結果を得る。 球面領域設定の利点により、spheredepthは高品質のポイントクラウドを生成し、歪みと不連続性の問題を著しく軽減することができる。

The panorama image can simultaneously demonstrate complete information of the surrounding environment and has many advantages in virtual tourism, games, robotics, etc. However, the progress of panorama depth estimation cannot completely solve the problems of distortion and discontinuity caused by the commonly used projection methods. This paper proposes SphereDepth, a novel panorama depth estimation method that predicts the depth directly on the spherical mesh without projection preprocessing. The core idea is to establish the relationship between the panorama image and the spherical mesh and then use a deep neural network to extract features on the spherical domain to predict depth. To address the efficiency challenges brought by the high-resolution panorama data, we introduce two hyper-parameters for the proposed spherical mesh processing framework to balance the inference speed and accuracy. Validated on three public panorama datasets, SphereDepth achieves comparable results with the state-of-the-art methods of panorama depth estimation. Benefiting from the spherical domain setting, SphereDepth can generate a high-quality point cloud and significantly alleviate the issues of distortion and discontinuity.
翻訳日:2022-08-31 09:14:20 公開日:2022-08-30