このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210928)

# (参考訳) RNNトランスデューサの単語レベル信頼度推定 [全文訳有]

Word-level confidence estimation for RNN transducers ( http://arxiv.org/abs/2110.15222v1 )

ライセンス: CC BY 4.0
Mingqiu Wang, Hagen Soltau, Laurent El Shafey, Izhak Shafran(参考訳) 信頼度推定は、エラーが患者のケアに影響を与え、信頼度推定が医療専門家に認識の潜在的な誤りを知らせるために使われる、医学的書き起こしのようなアプリケーションでしばしば要求される機能である。 本稿では,recurrent neural network transducers (rnn-t) を用いた自動音声認識 (asr) システムのための軽量ニューラルネットワーク信頼度モデルを提案する。 他の既存手法と比較して、我々のモデルは以下の通りである。 (a)認識語に関連する時間情報であって、計算の複雑さを減少させるもの (b)サブワードとワードシーケンスをマッピングするためのシンプルでエレガントなトリック。 このマッピングは、不統一なトークン化とトークン削除の問題に対処し、共用可能な単語間の差異を増幅する。 2つの異なる長形テストセットに対する広範な実験的な評価を通じて、このモデルが正規化クロスエントロピー(NCE)と0.05期待校正誤差(ECE)の性能を達成することを示した。 ターゲットタイプ(graphems vs. morphemes)、トラフィック条件(streaming vs. non-streaming)、エンコーダタイプなど、さまざまなasr構成で堅牢である。 さらに,実用的応用を反映した評価指標の重要性を考察し,負精度率 (npv) と真負率 (tnr) に対する曲線下領域改善(auc)におけるさらなる作業の必要性を強調する。

Confidence estimate is an often requested feature in applications such as medical transcription where errors can impact patient care and the confidence estimate could be used to alert medical professionals to verify potential errors in recognition. In this paper, we present a lightweight neural confidence model tailored for Automatic Speech Recognition (ASR) system with Recurrent Neural Network Transducers (RNN-T). Compared to other existing approaches, our model utilizes: (a) the time information associated with recognized words, which reduces the computational complexity, and (b) a simple and elegant trick for mapping between sub-word and word sequences. The mapping addresses the non-unique tokenization and token deletion problems while amplifying differences between confusable words. Through extensive empirical evaluations on two different long-form test sets, we demonstrate that the model achieves a performance of 0.4 Normalized Cross Entropy (NCE) and 0.05 Expected Calibration Error (ECE). It is robust across different ASR configurations, including target types (graphemes vs. morphemes), traffic conditions (streaming vs. non-streaming), and encoder types. We further discuss the importance of evaluation metrics to reflect practical applications and highlight the need for further work in improving Area Under the Curve (AUC) for Negative Precision Rate (NPV) and True Negative Rate (TNR).
翻訳日:2021-11-01 09:48:10 公開日:2021-09-28
# 音声認識のためのプライベート言語モデル適応

Private Language Model Adaptation for Speech Recognition ( http://arxiv.org/abs/2110.10026v1 )

ライセンス: Link先を確認
Zhe Liu, Ke Li, Shreyan Bakshi, Fuchun Peng(参考訳) 音声モデルの適応は、サーバ側のプロキシトレーニングデータとユーザのローカルデバイスで受信した実際のデータとの相違を扱うために重要である。 フェデレート・ラーニング(FL)を用いることで,ニューラルネットワーク言語モデル(NNLM)を,自動音声認識(ASR)に応用したプライベートデバイスに継続的に適用するための効率的なアプローチを導入する。 オンデバイス学習コーパスにおける音声認識誤りの可能性に対処するために,トークンレベルの信頼度スコアを用いてfl設定におけるnnlm品質を改善するための各種戦略の比較実験を行った。 実験により,提案手法は2つの音声評価データセットにおいて,2.6%,10.8%の単語誤り率 (wer) 削減を達成した。 また,提案手法のプライバシー保証を評価する上でも分析を行う。

Speech model adaptation is crucial to handle the discrepancy between server-side proxy training data and actual data received on users' local devices. With the use of federated learning (FL), we introduce an efficient approach on continuously adapting neural network language models (NNLMs) on private devices with applications on automatic speech recognition (ASR). To address the potential speech transcription errors in the on-device training corpus, we perform empirical studies on comparing various strategies of leveraging token-level confidence scores to improve the NNLM quality in the FL settings. Experiments show that compared with no model adaptation, the proposed method achieves relative 2.6% and 10.8% word error rate (WER) reductions on two speech evaluation datasets, respectively. We also provide analysis in evaluating privacy guarantees of our presented procedure.
翻訳日:2021-10-24 04:27:36 公開日:2021-09-28
# (参考訳) 3次元時空間畳み込みネットワークを用いた自己監督点雲予測 [全文訳有]

Self-supervised Point Cloud Prediction Using 3D Spatio-temporal Convolutional Networks ( http://arxiv.org/abs/2110.04076v1 )

ライセンス: CC BY 4.0
Benedikt Mersch, Xieyuanli Chen, Jens Behley, Cyrill Stachniss(参考訳) 過去の3dlidarスキャンを利用して将来のポイントクラウドを予測することは、自律的なモバイルシステムが予測可能な状態推定、衝突回避、計画を実現する有望な方法である。 本稿では,過去のLiDARスキャンを用いて,将来の3次元LiDAR点雲の予測問題に対処する。 センサレベルの将来のシーンを推定するには、ローカライゼーションやトラッキングシステムのような前のステップを必要とせず、自己管理できる。 本稿では,各3次元lidarスキャンの2次元範囲画像表現を活用し,各範囲画像のシーケンスを結合して3次元テンソルを得るエンドツーエンド手法を提案する。 このようなテンソルに基づいて、3次元畳み込みを用いたエンコーダデコーダアーキテクチャを構築し、シーンの空間的・時間的情報を共同で集約し、将来の3次元点雲を予測する。 提案手法を複数データセット上で評価し,提案手法が既存のポイントクラウド予測アーキテクチャを上回っており,追加の微調整をすることなく,新たな未知環境によく適用できることを示す。 提案手法はオンラインで動作し,通常のLiDARフレームレート10Hzより高速である。

Exploiting past 3D LiDAR scans to predict future point clouds is a promising method for autonomous mobile systems to realize foresighted state estimation, collision avoidance, and planning. In this paper, we address the problem of predicting future 3D LiDAR point clouds given a sequence of past LiDAR scans. Estimating the future scene on the sensor level does not require any preceding steps as in localization or tracking systems and can be trained self-supervised. We propose an end-to-end approach that exploits a 2D range image representation of each 3D LiDAR scan and concatenates a sequence of range images to obtain a 3D tensor. Based on such tensors, we develop an encoder-decoder architecture using 3D convolutions to jointly aggregate spatial and temporal information of the scene and to predict the future 3D point clouds. We evaluate our method on multiple datasets and the experimental results suggest that our method outperforms existing point cloud prediction architectures and generalizes well to new, unseen environments without additional fine-tuning. Our method operates online and is faster than the common LiDAR frame rate of 10 Hz.
翻訳日:2021-10-17 16:20:44 公開日:2021-09-28
# GANを生成する物理コンテキストとタイミング認識シーケンス

Physical Context and Timing Aware Sequence Generating GANs ( http://arxiv.org/abs/2110.04077v1 )

ライセンス: Link先を確認
Hayato Futase, Tomoki Tsujimura, Tetsuya Kajimoto, Hajime Kawarazaki, Toshiyuki Suzuki, Makoto Miwa, Yutaka Sasaki(参考訳) generative adversarial networks (gans) は、現実的な画像の生成と画像間の変化を補間することに成功した。 しかし、既存のモデルは、画像を生成する際の物理的なコンテキストを考慮していないため、非現実的な変化を引き起こす可能性がある。 さらに、特定のタイミングで変更を生成することは難しく、実際の変更と一致しないことが多い。 本稿では,2つの画像間の特定のタイミングで,その背景の物理的コンテキストを考慮した画像を生成する,PCTGAN(Physical Context and Timing aware sequence generated GAN)を提案する。 本手法は,エンコーダ,ジェネレータ,識別器の3つのコンポーネントから構成される。 エンコーダは、初期および終了画像、そのタイミング、および目標タイミングから潜在ベクトルを推定する。 生成器は、対応する潜在ベクトルから、開始、終了、および目標タイミングにおける画像及び物理コンテキストを生成する。 判別器は、生成された画像とコンテキストが本物か否かを判別する。 実験では, ダイ鍛造プロセスにおける形状の逐次変化のデータセットにPCTGANを適用した。 時系列画像の生成にはタイミングと物理的文脈の両方が有効であることを示す。

Generative Adversarial Networks (GANs) have shown remarkable successes in generating realistic images and interpolating changes between images. Existing models, however, do not take into account physical contexts behind images in generating the images, which may cause unrealistic changes. Furthermore, it is difficult to generate the changes at a specific timing and they often do not match with actual changes. This paper proposes a novel GAN, named Physical Context and Timing aware sequence generating GANs (PCTGAN), that generates an image in a sequence at a specific timing between two images with considering physical contexts behind them. Our method consists of three components: an encoder, a generator, and a discriminator. The encoder estimates latent vectors from the beginning and ending images, their timings, and a target timing. The generator generates images and the physical contexts at the beginning, ending, and target timing from the corresponding latent vectors. The discriminator discriminates whether the generated images and contexts are real or not. In the experiments, PCTGAN is applied to a data set of sequential changes of shapes in die forging processes. We show that both timing and physical contexts are effective in generating sequential images.
翻訳日:2021-10-17 05:09:10 公開日:2021-09-28
# (参考訳) チューリングマシンをストレージ改造マシンにコンパイルする [全文訳有]

Compiling Turing Machines into Storage Modification Machines ( http://arxiv.org/abs/2110.01415v1 )

ライセンス: CC BY 4.0
J.-M. Chauvet(参考訳) Sch\"onhage's Storage Modification Machines (SMM) がチューリングマシン(TM)をシミュレートできることは知られている。 本稿では,TM から SMM への単純な変換を提案し,単純な TM-to-SMM コンパイラの基盤を設定する。

It is well known that Sch\"onhage's Storage Modification Machines (SMM) can simulate Turing Machines (TM) since Sch\"onhage's original proof of the Turing completeness of the eponymous machines. We propose a simple transformation of TM into SMM, setting the base for a straightforward TM-to-SMM compiler.
翻訳日:2021-10-10 13:13:26 公開日:2021-09-28
# max-min ant colony optimization による泥棒指向問題の効率的な解法

Efficiently solving the thief orienteering problem with a max-min ant colony optimization approach ( http://arxiv.org/abs/2109.13103v2 )

ライセンス: Link先を確認
Jonatas B. C. Chagas and Markus Wagner(参考訳) 我々は,古典的組合せ問題,すなわち Knapsack Problem (KP) と Orienteering Problem (OP) を組み合わせた,学術的多成分問題である Thief Orienteering Problem (ThOP) に取り組む。 この問題では、泥棒は特定の都市に分散したアイテムを盗む時間制限がある。 旅の間、泥棒はナップサックに保管することでアイテムを収集し、それによって移動速度が低下する。 盗品は盗品の総利益を最大化することを目的としている。 本稿では,Swarm-intelligenceとランダムなパッキングヒューリスティックを組み合わせたアプローチを提案する。 私たちのソリューションアプローチは、ほとんどすべての432ベンチマークインスタンスでの既存の作業よりも優れています。

We tackle the Thief Orienteering Problem (ThOP), which is academic multi-component problem: it combines two classical combinatorial problems, namely the Knapsack Problem (KP) and the Orienteering Problem (OP). In this problem, a thief has a time limit to steal items that distributed in a given set of cities. While traveling, the thief collects items by storing them in their knapsack, which in turn reduces the travel speed. The thief has as the objective to maximize the total profit of the stolen items. In this article, we present an approach that combines swarm-intelligence with a randomized packing heuristic. Our solution approach outperforms existing works on almost all the 432 benchmarking instances, with significant improvements.
翻訳日:2021-10-10 11:45:32 公開日:2021-09-28
# (参考訳) 深層強化学習Versus進化戦略:比較調査 [全文訳有]

Deep Reinforcement Learning Versus Evolution Strategies: A Comparative Survey ( http://arxiv.org/abs/2110.01411v1 )

ライセンス: CC BY 4.0
Amjad Yousef Majid, Serge Saaybi, Tomas van Rietbergen, Vincent Francois-Lavet, R Venkatesha Prasad, Chris Verhoeven(参考訳) 深層強化学習(DRL)と進化戦略(ESs)は多くのシーケンシャルな意思決定問題において人間レベルの制御を超えたが、多くのオープンな課題が存在する。 drl対essの強みと弱みについて洞察を得るために、それぞれの能力と限界の分析が提供されている。 基本的な概念とアルゴリズムを提示した後、スケーラビリティ、探索、動的環境への適応、マルチエージェント学習といった重要な側面で比較が行われる。 次に、DRLとESの概念を組み合わせたハイブリッドアルゴリズムの利点を強調した。 最後に、それらが現実世界のアプリケーションでどのように比較されているかを示すため、サポート対象のアプリケーション群に関する文献調査を行っている。

Deep Reinforcement Learning (DRL) and Evolution Strategies (ESs) have surpassed human-level control in many sequential decision-making problems, yet many open challenges still exist. To get insights into the strengths and weaknesses of DRL versus ESs, an analysis of their respective capabilities and limitations is provided. After presenting their fundamental concepts and algorithms, a comparison is provided on key aspects such as scalability, exploration, adaptation to dynamic environments, and multi-agent learning. Then, the benefits of hybrid algorithms that combine concepts from DRL and ESs are highlighted. Finally, to have an indication about how they compare in real-world applications, a survey of the literature for the set of applications they support is provided.
翻訳日:2021-10-10 10:23:14 公開日:2021-09-28
# シミュレーションにおける複雑な知覚課題の効率的評価への一ステップ

A Step Towards Efficient Evaluation of Complex Perception Tasks in Simulation ( http://arxiv.org/abs/2110.02739v1 )

ライセンス: Link先を確認
Jonathan Sadeghi, Blaine Rogers, James Gunn, Thomas Saunders, Sina Samangooei, Puneet Kumar Dokania, John Redford(参考訳) 深層学習モデルを含むシステムのエラー挙動を、安全クリティカルなシナリオにデプロイする前に特徴づけることへの関心が高まっている。 しかし、そのような振る舞いを特徴づけるためには通常、複雑な実世界のタスクに対して非常に計算コストのかかるモデルに対する大規模なテストが必要である。 例えば、計算集約オブジェクト検出器をコンポーネントの1つとして含むタスク。 本研究では,簡易な低忠実度シミュレータを用いて,高価なディープラーニングモデルを実行するための計算コストを伴わず,効率的な大規模テストを可能にする手法を提案する。 我々の手法は、テスト中のタスクの計算集約的なコンポーネントに対応する効率的な代理モデルを設計することに依存する。 本手法は,ピクサーおよびセンタポイントlidar検出器の効率的なサロゲートモデルを訓練し,シミュレーションの精度を維持しながら計算コストを低減したcarlaシミュレータにおける自律運転タスクの性能評価を行い,本手法の有効性を実証する。

There has been increasing interest in characterising the error behaviour of systems which contain deep learning models before deploying them into any safety-critical scenario. However, characterising such behaviour usually requires large-scale testing of the model that can be extremely computationally expensive for complex real-world tasks. For example, tasks involving compute intensive object detectors as one of their components. In this work, we propose an approach that enables efficient large-scale testing using simplified low-fidelity simulators and without the computational cost of executing expensive deep learning models. Our approach relies on designing an efficient surrogate model corresponding to the compute intensive components of the task under test. We demonstrate the efficacy of our methodology by evaluating the performance of an autonomous driving task in the Carla simulator with reduced computational expense by training efficient surrogate models for PIXOR and CenterPoint LiDAR detectors, whilst demonstrating that the accuracy of the simulation is maintained.
翻訳日:2021-10-10 09:17:55 公開日:2021-09-28
# 顔の成長方向の予測は困難です

Prediction of the Facial Growth Direction is Challenging ( http://arxiv.org/abs/2110.02316v1 )

ライセンス: Link先を確認
Stanis{\l}aw Ka\'zmierczak, Zofia Juszka, Vaska Vandevska-Radunovic, Thomas JJ Maal, Piotr Fudalej, Jacek Ma\'ndziuk(参考訳) 顔面奇形や奇形は、しばしば顔面の異常な成長と関連している。 顔面成長(FG)の方向を予測する能力により、臨床医は個別療法を準備でき、治療成功の可能性を高めることができる。 FG方向の予測は機械学習(ML)領域における新しい問題である。 本稿では,特徴の選択を行い,上記の問題において中心的な役割を果たす属性を指摘する。 そして,データ拡張(da)手法を適用し,従来報告した分類精度を2.81%向上させた。 最後に,本研究に類似した課題の解決を依頼された経験豊富な臨床医2名を対象に,この課題の解決がいかに困難かを示す。

Facial dysmorphology or malocclusion is frequently associated with abnormal growth of the face. The ability to predict facial growth (FG) direction would allow clinicians to prepare individualized therapy to increase the chance for successful treatment. Prediction of FG direction is a novel problem in the machine learning (ML) domain. In this paper, we perform feature selection and point the attribute that plays a central role in the abovementioned problem. Then we successfully apply data augmentation (DA) methods and improve the previously reported classification accuracy by 2.81%. Finally, we present the results of two experienced clinicians that were asked to solve a similar task to ours and show how tough is solving this problem for human experts.
翻訳日:2021-10-10 09:16:35 公開日:2021-09-28
# (参考訳) Boost-RS: Recommender システムのための強化埋め込みと酵素-基質相互作用予測への応用 [全文訳有]

Boost-RS: Boosted Embeddings for Recommender Systems and its Application to Enzyme-Substrate Interaction Prediction ( http://arxiv.org/abs/2109.14766v1 )

ライセンス: CC BY 4.0
Xinmeng Li, Li-ping Liu, Soha Hassoun(参考訳) 実験とキュレーションの努力にもかかわらず、基質の酵素散布の程度は未調査のままであり、文書化されている。 現在、酵素-基質相互作用予測問題のために探索されていないRecommender System(RS)は、基質の酵素レコメンデーションを提供するために利用することができる。 しかし、CF(Collaborative-Fil tering)の性能は、ユーザやアイテム(酵素や基質)の埋め込みベクトルの品質に依存している。 重要な点は、cf埋め込みをヘテロジニアスな補助データ、特にリレーショナルデータ(階層データ、ペアワイズデータ、グループ化など)で強化することである。 本稿では,補助データによる埋め込みベクトルの「ブースティング」により,RS性能を向上させる革新的な汎用RSフレームワークBoost-RSを提案する。 具体的には、Boost-RSは複数の関連する補助学習タスクに基づいてトレーニングされ、動的に調整される。 酵素と基質の相互作用問題に対するBoost-RSの有効性を示すために,Boost-RSフレームワークをいくつかのベースラインCFモデルに適用する。 本稿では,各補助課題が組込みベクトルの学習を促進すること,およびBoost-RSによるコントラスト学習が結合性および多ラベル学習に優れていることを示す。 また、Boost-RSは類似性に基づくモデルよりも優れていることを示す。 アブレーション研究と学習表現の可視化は、埋め込みベクトルを増加させる補助データにコントラスト学習を使うことの重要性を強調している。

Despite experimental and curation efforts, the extent of enzyme promiscuity on substrates continues to be largely unexplored and under documented. Recommender systems (RS), which are currently unexplored for the enzyme-substrate interaction prediction problem, can be utilized to provide enzyme recommendations for substrates, and vice versa. The performance of Collaborative-Filter ing (CF) recommender systems however hinges on the quality of embedding vectors of users and items (enzymes and substrates in our case). Importantly, enhancing CF embeddings with heterogeneous auxiliary data, specially relational data (e.g., hierarchical, pairwise, or groupings), remains a challenge. We propose an innovative general RS framework, termed Boost-RS, that enhances RS performance by "boosting" embedding vectors through auxiliary data. Specifically, Boost-RS is trained and dynamically tuned on multiple relevant auxiliary learning tasks Boost-RS utilizes contrastive learning tasks to exploit relational data. To show the efficacy of Boost-RS for the enzyme-substrate prediction interaction problem, we apply the Boost-RS framework to several baseline CF models. We show that each of our auxiliary tasks boosts learning of the embedding vectors, and that contrastive learning using Boost-RS outperforms attribute concatenation and multi-label learning. We also show that Boost-RS outperforms similarity-based models. Ablation studies and visualization of learned representations highlight the importance of using contrastive learning on some of the auxiliary data in boosting the embedding vectors.
翻訳日:2021-10-02 11:05:17 公開日:2021-09-28
# 誰が説明を? 特徴帰属法を定量的に評価する

Who Explains the Explanation? Quantitatively Assessing Feature Attribution Methods ( http://arxiv.org/abs/2109.15035v1 )

ライセンス: Link先を確認
Anna Arias-Duart, Ferran Par\'es and Dario Garcia-Gasulla(参考訳) ai explainsabilityは、モデルの透明性を高め、プロセスにおいて信頼性を高めることを目指している。 透明性の必要性は、特に自然に不明瞭なディープラーニングモデルの出現によって、最近動機付けられている。 深層学習が最も成功している領域でも、説明可能性の評価は低いままである。 視覚的キューを用いてDLモデルの振る舞いを説明するために,複数の特徴属性法が文献で提案されているが,これらの手法を評価・選択するための標準メトリクスは存在しない。 本稿では,LRP や GradCAM などの特徴帰属手法によって提供される説明の忠実度を定量化する新しい評価尺度である Focus を提案する。 まず、ランダム化実験を通してメトリクスのロバスト性を示し、フォーカスを用いて複数のアーキテクチャとデータセットを用いた3つの一般的な説明可能性手法を評価し比較する。 その結果,LRP と GradCAM は高パフォーマンスモデルではより正確であるのに対して,低パフォーマンスモデルでは最も競争力のあるモデルであることがわかった。 最後に,焦点とモデルアーキテクチャやタスクなどの要因の強い関係を明らかにし,モデル評価のための教師なしアプローチを新たに提示する。

AI explainability seeks to increase the transparency of models, making them more trustworthy in the process. The need for transparency has been recently motivated by the emergence of deep learning models, which are particularly obscure by nature. Even in the domain of images, where deep learning has succeeded the most, explainability is still poorly assessed. Multiple feature attribution methods have been proposed in the literature with the purpose of explaining a DL model's behavior using visual queues, but no standardized metrics to assess or select these methods exist. In this paper we propose a novel evaluation metric -- the Focus -- designed to quantify the faithfulness of explanations provided by feature attribution methods, such as LRP or GradCAM. First, we show the robustness of the metric through randomization experiments, and then use Focus to evaluate and compare three popular explainability techniques using multiple architectures and datasets. Our results find LRP and GradCAM to be consistent and reliable, the former being more accurate for high performing models, while the latter remains most competitive even when applied to poorly performing models. Finally, we identify a strong relation between Focus and factors like model architecture and task, unveiling a new unsupervised approach for the assessment of models.
翻訳日:2021-10-01 15:05:25 公開日:2021-09-28
# メンテナンス意思決定のためのオフライン深部強化学習

An Offline Deep Reinforcement Learning for Maintenance Decision-Making ( http://arxiv.org/abs/2109.15050v1 )

ライセンス: Link先を確認
Hamed Khorasgani, Haiyan Wang, Chetan Gupta, and Ahmed Farahat(参考訳) 近年,生活予測や失敗予測の問題に対処するために,機械学習とディープラーニングのフレームワークがいくつか提案されている。 近い将来、有用な寿命推定や故障の可能性にアクセスできることは、オペレーターが運用状況を評価するのに役立つため、健全な修理とメンテナンスの決定により良い機会を提供する。 しかし、多くのオペレーターは、有用な寿命推定と故障予測ソリューションがメンテナンスの課題に対する不完全な答えであると信じている。 彼らは、将来失敗の可能性を知ることは、コストを最小化し、オペレータを安全に保つ保守的判断に十分ではないと主張している。 本稿では,オフライン教師付き深層強化学習に基づくメンテナンスフレームワークを提案する。失敗の可能性などの情報を提供する代わりに,運用者への「継続」や「修理店の訪問」といった動作を提案することにより,全体の利益を最大化する。 オフライン強化学習を使用することで、高価なシミュレーターに頼ることなく、履歴データから最適なメンテナンスポリシーを学習することができる。 我々は,NASA C-MAPSSデータセットを用いたケーススタディにおいて,本手法の適用例を示した。

Several machine learning and deep learning frameworks have been proposed to solve remaining useful life estimation and failure prediction problems in recent years. Having access to the remaining useful life estimation or likelihood of failure in near future helps operators to assess the operating conditions and, therefore, provides better opportunities for sound repair and maintenance decisions. However, many operators believe remaining useful life estimation and failure prediction solutions are incomplete answers to the maintenance challenge. They argue that knowing the likelihood of failure in the future is not enough to make maintenance decisions that minimize costs and keep the operators safe. In this paper, we present a maintenance framework based on offline supervised deep reinforcement learning that instead of providing information such as likelihood of failure, suggests actions such as "continuation of the operation" or "the visitation of the repair shop" to the operators in order to maximize the overall profit. Using offline reinforcement learning makes it possible to learn the optimum maintenance policy from historical data without relying on expensive simulators. We demonstrate the application of our solution in a case study using the NASA C-MAPSS dataset.
翻訳日:2021-10-01 15:05:06 公開日:2021-09-28
# グリーンAIに寄与するAI対応モバイルアプリにおける設計決定

Which Design Decisions in AI-enabled Mobile Applications Contribute to Greener AI? ( http://arxiv.org/abs/2109.15284v1 )

ライセンス: Link先を確認
Roger Creus Castanyer and Silverio Mart\'inez-Fern\'andez and Xavier Franch(参考訳) 背景: 複雑な人工知能(AI)モデルの構築、進化、使用には高価な計算資源が必要である。 現在利用可能な高性能コンピューティング環境は、この複雑さを十分にサポートしているが、モバイルデバイスへのAIモデルの展開は、ますますトレンドになっているが、難しい。 モバイルアプリケーションは計算資源の少ない環境から成り、したがってモバイルアプリケーションの正確性と複雑さのトレードオフをバランスさせるai対応ソフトウェアエンジニアリングライフサイクルにおける設計決定の制限を暗示している。 目的: 私たちの目標は,暗黙のリソース制限を持つモバイルデバイスに複雑なAIモデル(ニューラルネットワークなど)をデプロイする際の,精度と複雑性のトレードオフを体系的に評価することにあります。 カバーすることを目指す (i)高精度・低資源消費化の達成に及ぼす設計決定の影響 (II)よりグリーンなAIを体系的に推進するためのプロファイリングツールの検証。 方法: この確認登録レポートは、AI対応アプリケーションのパフォーマンスに対する設計決定の影響を定量化し、エンドツーエンドのAI対応ソフトウェアエンジニアリングライフサイクルの経験を報告するための実証的研究を行う計画である。 具体的には、画像ベースと言語ベースのニューラルネットワークの両方をモバイルアプリケーションで実装し、異なるベンチマークデータセットで複数の画像分類とテキスト分類の問題を解決する。 全体として、我々は、設計決定に関するAI対応アプリケーションの運用における精度と複雑さをモデル化し、実践者が設計決定と研究のグリーンな特性の間の量的関係を意識することを可能にするツールを提供することを計画している。

Background: The construction, evolution and usage of complex artificial intelligence (AI) models demand expensive computational resources. While currently available high-performance computing environments support well this complexity, the deployment of AI models in mobile devices, which is an increasing trend, is challenging. Mobile applications consist of environments with low computational resources and hence imply limitations in the design decisions during the AI-enabled software engineering lifecycle that balance the trade-off between the accuracy and the complexity of the mobile applications. Objective: Our objective is to systematically assess the trade-off between accuracy and complexity when deploying complex AI models (e.g. neural networks) to mobile devices, which have an implicit resource limitation. We aim to cover (i) the impact of the design decisions on the achievement of high-accuracy and low resource-consumption implementations; and (ii) the validation of profiling tools for systematically promoting greener AI. Method: This confirmatory registered report consists of a plan to conduct an empirical study to quantify the implications of the design decisions on AI-enabled applications performance and to report experiences of the end-to-end AI-enabled software engineering lifecycle. Concretely, we will implement both image-based and language-based neural networks in mobile applications to solve multiple image classification and text classification problems on different benchmark datasets. Overall, we plan to model the accuracy and complexity of AI-enabled applications in operation with respect to their design decisions and will provide tools for allowing practitioners to gain consciousness of the quantitative relationship between the design decisions and the green characteristics of study.
翻訳日:2021-10-01 14:59:29 公開日:2021-09-28
# (参考訳) AESシステムは過度に不安定で過度に敏感な: 防衛の理由と提案を解説 [全文訳有]

AES Systems Are Both Overstable And Oversensitive: Explaining Why And Proposing Defenses ( http://arxiv.org/abs/2109.11728v2 )

ライセンス: CC BY 4.0
Yaman Singla Kumar, Swapnil Parekh, Somesh Singh, Junyi Jessy Li, Rajiv Ratn Shah, Changyou Chen(参考訳) ディープラーニングベースのAutomatic Essay Scoring(AES)システムは、大学アプリケーションからビザ承認まで、数百万の生命変化決定候補を評価するために、州や言語試験機関が積極的に使用している。 しかし、ディープラーニングに基づくスコアリングアルゴリズムのブラックボックスの性質を理解し、解釈する研究はほとんど行われていない。 これまでの研究では、スコアリングモデルは簡単に騙せることが示されている。 本稿では,その驚くべき敵の脆さの原因を考察する。 近年の解釈能力の進歩を活かし,コヒーレンス,内容,語彙,関連性といった特徴が,自動スコアリング機構において重要であることを明らかにする。 本研究では,AESの出力スコアの過敏性(入力エッセイ内容の変化の少ない出力スコア)と過安定性(入力エッセイ内容の変化の少ない出力スコアの過敏性)について検討する。 以上の結果から, BERT などのリッチなコンテキスト埋め込みを備えた "エンドツーエンド" モデルとして訓練されたオートスコーリングモデルは, 単語のバッグ・オブ・ワードモデルのように振る舞うことが示唆された。 若干の言葉でエッセイスコアを決定するが、文脈を必要とせず、モデルは概して過大評価される。 これは、音声の一部や形態といった豊かな言語的特徴がそれらによってコード化されていることを示す、事前訓練された表現学習モデルに関する最近の調査研究とは対照的である。 さらに、モデルがデータセットのバイアスを学習し、過敏になることもわかりました。 これらの問題に対処するため,高精度試料の過敏性と過敏性を検出する検出ベース保護モデルを提案する。 提案モデルでは,異常な帰属パターンを検知し,敵のサンプルをフラグする。

Deep-learning based Automatic Essay Scoring (AES) systems are being actively used by states and language testing agencies alike to evaluate millions of candidates for life-changing decisions ranging from college applications to visa approvals. However, little research has been put to understand and interpret the black-box nature of deep-learning based scoring algorithms. Previous studies indicate that scoring models can be easily fooled. In this paper, we explore the reason behind their surprising adversarial brittleness. We utilize recent advances in interpretability to find the extent to which features such as coherence, content, vocabulary, and relevance are important for automated scoring mechanisms. We use this to investigate the oversensitivity i.e., large change in output score with a little change in input essay content) and overstability i.e., little change in output scores with large changes in input essay content) of AES. Our results indicate that autoscoring models, despite getting trained as "end-to-end" models with rich contextual embeddings such as BERT, behave like bag-of-words models. A few words determine the essay score without the requirement of any context making the model largely overstable. This is in stark contrast to recent probing studies on pre-trained representation learning models, which show that rich linguistic features such as parts-of-speech and morphology are encoded by them. Further, we also find that the models have learnt dataset biases, making them oversensitive. To deal with these issues, we propose detection-based protection models that can detect oversensitivity and overstability causing samples with high accuracies. We find that our proposed models are able to detect unusual attribution patterns and flag adversarial samples successfully.
翻訳日:2021-10-01 11:15:13 公開日:2021-09-28
# (参考訳) イジングモデルにおける状態変数予測のための微調整視覚トランスフォーマ [全文訳有]

Fine-tuning Vision Transformers for the Prediction of State Variables in Ising Models ( http://arxiv.org/abs/2109.13925v1 )

ライセンス: CC BY 4.0
Onur Kara and Arijit Sehanobish and Hector H Corzo(参考訳) Transformerは、シーケンシャルデータを扱うように設計された、スタックされた注意とポイントワイドで完全に接続されたレイヤで構成される最先端のディープラーニングモデルである。 トランスフォーマーは自然言語処理(nlp)を通じて広く普及しているだけでなく、最近ではコンピュータビジョン(cv)の新しい応用研究の波に触発されている。 本研究では、2次元イジングモデルシミュレーションの状態変数を予測するために視覚変換器(ViT)を適用した。 実験により,様々な境界条件と温度に対応するイジングモデルからの微小状態画像を用いた場合,vitは最先端畳み込みニューラルネットワーク(cnn)よりも優れていることが示された。 この研究は、vitを他のシミュレーションに適用する可能性を開き、異なる現象を支配する基礎となる物理学について注意マップがどのように学べるかに関する興味深い研究指針を提起する。

Transformers are state-of-the-art deep learning models that are composed of stacked attention and point-wise, fully connected layers designed for handling sequential data. Transformers are not only ubiquitous throughout Natural Language Processing (NLP), but, recently, they have inspired a new wave of Computer Vision (CV) applications research. In this work, a Vision Transformer (ViT) is applied to predict the state variables of 2-dimensional Ising model simulations. Our experiments show that ViT outperform state-of-the-art Convolutional Neural Networks (CNN) when using a small number of microstate images from the Ising model corresponding to various boundary conditions and temperatures. This work opens the possibility of applying ViT to other simulations, and raises interesting research directions on how attention maps can learn about the underlying physics governing different phenomena.
翻訳日:2021-10-01 06:49:09 公開日:2021-09-28
# (参考訳) 木説明を用いた計画ベースRLにおける推論欠陥の同定 [全文訳有]

Identifying Reasoning Flaws in Planning-Based RL Using Tree Explanations ( http://arxiv.org/abs/2109.13978v1 )

ライセンス: CC BY 4.0
Kin-Ho Lam, Zhengxian Lin, Jed Irvine, Jonathan Dodge, Zeyad T Shureih, Roli Khanna, Minsuk Kahng, Alan Fern(参考訳) エージェントの意思決定における潜在的な欠陥を特定するための人間の導入は、重要な説明可能なAIアプリケーションである。 複雑なリアルタイム戦略ゲームのための計画ベースの深層強化学習(rl)エージェントにおいて,このような欠陥を特定することを検討する。 特に、学習したモデルを用いた木探索による決定と、解釈可能な状態や行動に対する評価関数を行う。 これにより、たとえすべての推論プロセスが複雑すぎて理解できないとしても、人間が木の推論ステップのレベルで欠陥を特定することができる。 しかし、木の大きさや複雑さから人間がこのような欠陥を特定できるかどうかは不明である。 本稿では,aiの専門家と開発者が,エージェント学習の不正確さによる推論欠陥を識別しようとするユーザインターフェースとケーススタディについて述べる。 全体として、このインターフェースにより、グループは様々なタイプの重大な欠陥を識別することができ、このアプローチの可能性を実証した。

Enabling humans to identify potential flaws in an agent's decision making is an important Explainable AI application. We consider identifying such flaws in a planning-based deep reinforcement learning (RL) agent for a complex real-time strategy game. In particular, the agent makes decisions via tree search using a learned model and evaluation function over interpretable states and actions. This gives the potential for humans to identify flaws at the level of reasoning steps in the tree, even if the entire reasoning process is too complex to understand. However, it is unclear whether humans will be able to identify such flaws due to the size and complexity of trees. We describe a user interface and case study, where a small group of AI experts and developers attempt to identify reasoning flaws due to inaccurate agent learning. Overall, the interface allowed the group to identify a number of significant flaws of varying types, demonstrating the promise of this approach.
翻訳日:2021-10-01 06:41:11 公開日:2021-09-28
# (参考訳) 包括的質問応答のためのテキスト簡易化 [全文訳有]

Text Simplification for Comprehension-based Question-Answering ( http://arxiv.org/abs/2109.13984v1 )

ライセンス: CC BY 4.0
Tanvi Dadu, Kartikey Pant, Seema Nagar, Ferdous Ahmed Barbhuiya, Kuntal Dey(参考訳) テキスト簡易化(text simplification)とは、文章を文章の列に分割し、読みやすくし、内容を保持し、元の意味を近似するプロセスである。 テキストの単純化は、機械翻訳、要約、セマンティックロールラベリング、情報抽出といったNLPアプリケーションで活用され、理解に基づく質問応答タスクにおけるその活用の幅広い道を開いた。 本研究では,理解コンテキストを用いた質問応答作業におけるテキスト簡易化の効果について検討する。 広く使われているSQuADデータセットの簡易バージョンであるSimple-SQuADをリリースする。 まず,データセット作成パイプラインの各ステップを概説し,各回答に対するスタイル転送,正しい転送を示す文のしきい値化,オフセット検索などについて概説する。 第二に, 自動評価と人間評価の両方を含む様々な手法を用いて, 伝達文の品質を検証する。 第3に,新たに作成したコーパスをベンチマークし,スプリットベース質問応答タスクにおける単純化過程の効果を検討するため,アブレーション研究を行う。 実験の結果, 単純化は, Exact MatchとF1の最大24%, 1.74%の増加につながることがわかった。 最後に、転送プロセスの解析を行い、モデルによる編集のタイプと、転送モデルに対する文長の影響について検討する。

Text simplification is the process of splitting and rephrasing a sentence to a sequence of sentences making it easier to read and understand while preserving the content and approximating the original meaning. Text simplification has been exploited in NLP applications like machine translation, summarization, semantic role labeling, and information extraction, opening a broad avenue for its exploitation in comprehension-based question-answering downstream tasks. In this work, we investigate the effect of text simplification in the task of question-answering using a comprehension context. We release Simple-SQuAD, a simplified version of the widely-used SQuAD dataset. Firstly, we outline each step in the dataset creation pipeline, including style transfer, thresholding of sentences showing correct transfer, and offset finding for each answer. Secondly, we verify the quality of the transferred sentences through various methodologies involving both automated and human evaluation. Thirdly, we benchmark the newly created corpus and perform an ablation study for examining the effect of the simplification process in the SQuAD-based question answering task. Our experiments show that simplification leads to up to 2.04% and 1.74% increase in Exact Match and F1, respectively. Finally, we conclude with an analysis of the transfer process, investigating the types of edits made by the model, and the effect of sentence length on the transfer model.
翻訳日:2021-10-01 06:30:20 公開日:2021-09-28
# (参考訳) 系列モデルの記号的脆性:記号数学の体系的一般化について [全文訳有]

Symbolic Brittleness in Sequence Models: on Systematic Generalization in Symbolic Mathematics ( http://arxiv.org/abs/2109.13986v1 )

ライセンス: CC BY 4.0
Sean Welleck, Peter West, Jize Cao, Yejin Choi(参考訳) 最大推定でトレーニングされたニューラルシーケンスモデルは、多くのタスクにおいてブレークスルーをもたらし、トレーニングとテストパフォーマンスのギャップによって成功が定義される。 しかし、より強固な一般化を実現する能力は未だ不明である。 テスト集合を超えて体系的に一般化する必要があるため、記号的数学的統合の問題を考える。 本稿では,問題領域の構造と検証器へのアクセスを活かした一般化評価手法を開発する。 この領域におけるシーケンス・ツー・シーケンスモデルの分配性能は有望であるにもかかわらず、慎重に構築された手動テストスイートと、制御可能な方法で大量の障害を自動的に検出する遺伝的アルゴリズムの両方を通して、ロバスト性、構成性、分布外一般化を実現する上での課題を示す。 本研究は、主観的なモデリングと学習のアプローチでうまく一般化することの難しさと、一般化のさまざまな側面において、テストセットを超えて評価することの重要性を強調した。

Neural sequence models trained with maximum likelihood estimation have led to breakthroughs in many tasks, where success is defined by the gap between training and test performance. However, their ability to achieve stronger forms of generalization remains unclear. We consider the problem of symbolic mathematical integration, as it requires generalizing systematically beyond the test set. We develop a methodology for evaluating generalization that takes advantage of the problem domain's structure and access to a verifier. Despite promising in-distribution performance of sequence-to-sequence models in this domain, we demonstrate challenges in achieving robustness, compositionality, and out-of-distribution generalization, through both carefully constructed manual test suites and a genetic algorithm that automatically finds large collections of failures in a controllable manner. Our investigation highlights the difficulty of generalizing well with the predominant modeling and learning approach, and the importance of evaluating beyond the test set, across different aspects of generalization.
翻訳日:2021-10-01 06:18:39 公開日:2021-09-28
# (参考訳) IGLU: 遅延更新によるGCNの効率的なトレーニング [全文訳有]

IGLU: Efficient GCN Training via Lazy Updates ( http://arxiv.org/abs/2109.13995v1 )

ライセンス: CC BY 4.0
S Deepak Narayanan, Aditya Sinha, Prateek Jain, Purushottam Kar, Sundararajan Sellamanickam(参考訳) グラフ畳み込みネットワーク(gcn)は、大きな基盤となるグラフと複数の層を含む多数の設定で使用される。 標準SGDベースのトレーニングは、グラフの大部分のノード埋め込みを更新する各降下ステップが終わるため、ここでは不十分である。 近年の手法では,計算負荷を低減させるグラフをサブサンプリングすることで,最適性能を提供するバイアス勾配のコストを抑える手法が提案されている。 本稿では,様々なGCN層における全ノードのフォワードパス埋め込みをキャッシュするIGLUを提案する。 これによりigluは、降下中に多数のノード埋め込みをアップデートする必要がなく、より高速なコンバージェンスを提供するが、勾配を著しくバイアスしない遅延更新を実行することができる。 客観的な滑らかさのような標準的な仮定の下で、igluは一階の鞍点に確実に収束する。 我々はIGLUを様々なベンチマークで広範囲に検証し、最大1.2%の精度を提供するが、壁時間は最大88%削減できる。

Graph Convolution Networks (GCN) are used in numerous settings involving a large underlying graph as well as several layers. Standard SGD-based training scales poorly here since each descent step ends up updating node embeddings for a large portion of the graph. Recent methods attempt to remedy this by sub-sampling the graph which does reduce the compute load, but at the cost of biased gradients which may offer suboptimal performance. In this work we introduce a new method IGLU that caches forward-pass embeddings for all nodes at various GCN layers. This enables IGLU to perform lazy updates that do not require updating a large number of node embeddings during descent which offers much faster convergence but does not significantly bias the gradients. Under standard assumptions such as objective smoothness, IGLU provably converges to a first-order saddle point. We validate IGLU extensively on a variety of benchmarks, where it offers up to 1.2% better accuracy despite requiring up to 88% less wall-clock time.
翻訳日:2021-10-01 05:37:37 公開日:2021-09-28
# (参考訳) slimtrain --分離可能なディープニューラルネットワークのトレーニングのための確率近似法 [全文訳有]

slimTrain -- A Stochastic Approximation Method for Training Separable Deep Neural Networks ( http://arxiv.org/abs/2109.14002v1 )

ライセンス: CC BY 4.0
Elizabeth Newman, Julianne Chung, Matthias Chung, Lars Ruthotto(参考訳) ディープニューラルネットワーク(DNN)は多くのアプリケーションで高次元関数近似器としての成功を示しているが、一般にDNNのトレーニングは難しい。 DNNトレーニングは一般に、非凸性、非滑らか性、不十分な正規化、複雑なデータ分布を含む確率的最適化問題として表現される。 したがって、与えられたタスクにおけるDNNの性能は、特に学習率や正規化パラメータの調整に大きく依存する。 理論的ガイドラインや類似したタスクの事前経験がない場合、これは多くの訓練問題を解く必要があり、計算資源に時間を要する。 これにより、DNNの適用性は、非標準、複雑、希少なデータセット、例えば多くの科学的応用で発生するデータセットの問題に制限される。 DNNトレーニングの課題を解決するために,選択したハイパーパラメータに対する感度を低減し,初期収束を高速化した,DNNの確率的最適化手法であるslimTrainを提案する。 slimTrainの中心となる考え方は、多くのDNNアーキテクチャに固有の分離性を利用することである。 この分離性により、大規模で線形で不適切な逆問題を解くための最近の進歩を活用できる。 重要なのは、線形重みに対して、slimtrainは学習率を必要とせず、自動的に正規化パラメータに適応する。 本手法はミニバッチで動作するため,1イテレーションあたりの計算オーバーヘッドは控えめである。 数値実験では、slimTrainは既存のDNNトレーニング手法よりも高パラメータ設定が推奨され、残りのハイパーパラメータに対するDNNトレーニングの感度が低下する。

Deep neural networks (DNNs) have shown their success as high-dimensional function approximators in many applications; however, training DNNs can be challenging in general. DNN training is commonly phrased as a stochastic optimization problem whose challenges include non-convexity, non-smoothness, insufficient regularization, and complicated data distributions. Hence, the performance of DNNs on a given task depends crucially on tuning hyperparameters, especially learning rates and regularization parameters. In the absence of theoretical guidelines or prior experience on similar tasks, this requires solving many training problems, which can be time-consuming and demanding on computational resources. This can limit the applicability of DNNs to problems with non-standard, complex, and scarce datasets, e.g., those arising in many scientific applications. To remedy the challenges of DNN training, we propose slimTrain, a stochastic optimization method for training DNNs with reduced sensitivity to the choice hyperparameters and fast initial convergence. The central idea of slimTrain is to exploit the separability inherent in many DNN architectures; that is, we separate the DNN into a nonlinear feature extractor followed by a linear model. This separability allows us to leverage recent advances made for solving large-scale, linear, ill-posed inverse problems. Crucially, for the linear weights, slimTrain does not require a learning rate and automatically adapts the regularization parameter. Since our method operates on mini-batches, its computational overhead per iteration is modest. In our numerical experiments, slimTrain outperforms existing DNN training methods with the recommended hyperparameter settings and reduces the sensitivity of DNN training to the remaining hyperparameters.
翻訳日:2021-10-01 04:51:17 公開日:2021-09-28
# (参考訳) セサミ通りの振動構文木--制御可能な摂動を伴う多言語探索 [全文訳有]

Shaking Syntactic Trees on the Sesame Street: Multilingual Probing with Controllable Perturbations ( http://arxiv.org/abs/2109.14017v1 )

ライセンス: CC BY 4.0
Ekaterina Taktasheva and Vladislav Mikhailov and Ekaterina Artemova(参考訳) 最近の研究は、テキスト摂動の概念を中心とした新しい実験分野を導入し、多くのNLPタスクにおけるトランスフォーマーベース言語モデルの下流性能に、シャッフル語順がほとんど、あるいは全く影響しないことを示した。 これらの知見は、モデルがどのように階層的および構造的な情報をエンコードするかの共通理解と矛盾し、単語順が位置埋め込みでモデル化されているかどうかさえ疑問である。 そこで本研究では,インド・ヨーロッパ語3言語を対象に,英語,スウェーデン語,ロシア語の順応度が異なる文の摂動型を用いて,9つの探索データセットを提案する。 M-BERTモデルとM-BARTモデルの探索解析に基づき、構文感度は言語およびモデル事前学習目標に依存することを報告した。 また, 摂動粒度の増加とともに, 層間に感度が増大することがわかった。 最後に、これらのモデルでは、中間的な自己注意と文脈表現から構文木を誘導する位置情報はほとんど利用していないことを示す。

Recent research has adopted a new experimental field centered around the concept of text perturbations which has revealed that shuffled word order has little to no impact on the downstream performance of Transformer-based language models across many NLP tasks. These findings contradict the common understanding of how the models encode hierarchical and structural information and even question if the word order is modeled with position embeddings. To this end, this paper proposes nine probing datasets organized by the type of \emph{controllable} text perturbation for three Indo-European languages with a varying degree of word order flexibility: English, Swedish and Russian. Based on the probing analysis of the M-BERT and M-BART models, we report that the syntactic sensitivity depends on the language and model pre-training objectives. We also find that the sensitivity grows across layers together with the increase of the perturbation granularity. Last but not least, we show that the models barely use the positional information to induce syntactic trees from their intermediate self-attention and contextualized representations.
翻訳日:2021-10-01 04:01:21 公開日:2021-09-28
# (参考訳) Sparse Biological Imaging におけるディープアンロールド・リカバリ [全文訳有]

Deep Unrolled Recovery in Sparse Biological Imaging ( http://arxiv.org/abs/2109.14025v1 )

ライセンス: CC BY 4.0
Yair Ben Sahel, John P. Bryan, Brian Cleary, Samouil L. Farhi, Yonina C. Eldar(参考訳) deep algorithm unrollingは、反復アルゴリズムの解釈可能性と教師付きディープラーニングのパフォーマンス向上、特にスパース最適化を組み合わせる、深いアーキテクチャを開発するための強力なモデルベースのアプローチとして登場した。 この枠組みは生体イメージングの応用に適しており、測定プロセスを記述する物理モデルが存在し、回復すべき情報がしばしば高度に構造化されている。 本稿では, 深層展開法について概説し, 生体画像設定におけるソースの局在性の向上について述べる。

Deep algorithm unrolling has emerged as a powerful model-based approach to develop deep architectures that combine the interpretability of iterative algorithms with the performance gains of supervised deep learning, especially in cases of sparse optimization. This framework is well-suited to applications in biological imaging, where physics-based models exist to describe the measurement process and the information to be recovered is often highly structured. Here, we review the method of deep unrolling, and show how it improves source localization in several biological imaging settings.
翻訳日:2021-10-01 03:40:30 公開日:2021-09-28
# (参考訳) 継続的学習における一般化・フォーゲッティングトレードオフの形式化 [全文訳有]

Formalizing the Generalization-Forge tting Trade-off in Continual Learning ( http://arxiv.org/abs/2109.14035v1 )

ライセンス: CC0 1.0
Krishnan Raghavan, Prasanna Balaprakash(参考訳) 本研究では,動的プログラミングによる連続学習(CL)問題を定式化し,破滅的な忘れ込みと2プレイヤーシーケンシャルゲームとしての一般化とのトレードオフをモデル化する。 このアプローチでは、プレイヤー1は一般化の欠如によるコストを最大化し、プレイヤー2は壊滅的な忘れによるコストを最小化する。 両プレイヤー間のバランスポイントが各タスクに存在し、このポイントが安定であることを理論的に示す(バランスが達成されれば、両プレイヤーはバランスポイントにとどまる)。 次に,一般化と忘れることのバランスをとるように設計されたバランス付き連続学習(bcl)を導入し,bclが芸術の状況に匹敵するあるいは優れていることを実証的に示す。

We formulate the continual learning (CL) problem via dynamic programming and model the trade-off between catastrophic forgetting and generalization as a two-player sequential game. In this approach, player 1 maximizes the cost due to lack of generalization whereas player 2 minimizes the cost due to catastrophic forgetting. We show theoretically that a balance point between the two players exists for each task and that this point is stable (once the balance is achieved, the two players stay at the balance point). Next, we introduce balanced continual learning (BCL), which is designed to attain balance between generalization and forgetting and empirically demonstrate that BCL is comparable to or better than the state of the art.
翻訳日:2021-10-01 03:23:09 公開日:2021-09-28
# (参考訳) 自然言語推論におけるマーク付き属性バイアス [全文訳有]

Marked Attribute Bias in Natural Language Inference ( http://arxiv.org/abs/2109.14039v1 )

ライセンス: CC BY 4.0
Hillary Dawkins(参考訳) NLPアプリケーションにおける有害バイアスに対するテストセットの報告と提供は、現在の問題に対する堅牢な理解を構築する上で不可欠である。 下流NLPアプリケーションにおけるジェンダーバイアスの新しい観察: 自然言語推論における有意な属性バイアスについて述べる。 下流アプリケーションにおけるバイアスは、トレーニングデータ、単語埋め込み、あるいは使用中のモデルによって増幅される。 しかし、バイアス付き単語の埋め込みに焦点を当てることは、その普遍性のために最も影響のある第一歩である可能性がある。 そこで本研究では, 単語埋め込みの本質的特性が, この顕著な属性効果にどのように寄与するか, および, 現在のポストプロセッシング手法がバイアスに対処するかどうかを考察する。 現行の脱バイアス環境の調査では、2つのオープンな問題が明らかになっている: 現行の脱バイアス埋め込みはいずれもマークされた特性誤差を緩和しておらず、本質的なバイアス測定はマークされた特性効果を予測できない。 そこで本研究では,新しい固有バイアス尺度が有意な属性効果と相関していることに気付き,静的単語埋め込みのための新しい後処理デバイアススキームを提案する。 既存の組込みに適用した提案手法は,marked attribute bias test setで新たな結果を得た。 https://github.com/h illary-dawkins/MABを参照。

Reporting and providing test sets for harmful bias in NLP applications is essential for building a robust understanding of the current problem. We present a new observation of gender bias in a downstream NLP application: marked attribute bias in natural language inference. Bias in downstream applications can stem from training data, word embeddings, or be amplified by the model in use. However, focusing on biased word embeddings is potentially the most impactful first step due to their universal nature. Here we seek to understand how the intrinsic properties of word embeddings contribute to this observed marked attribute effect, and whether current post-processing methods address the bias successfully. An investigation of the current debiasing landscape reveals two open problems: none of the current debiased embeddings mitigate the marked attribute error, and none of the intrinsic bias measures are predictive of the marked attribute effect. By noticing that a new type of intrinsic bias measure correlates meaningfully with the marked attribute effect, we propose a new postprocessing debiasing scheme for static word embeddings. The proposed method applied to existing embeddings achieves new best results on the marked attribute bias test set. See https://github.com/h illary-dawkins/MAB.
翻訳日:2021-10-01 02:50:46 公開日:2021-09-28
# (参考訳) 分散音源の水平分割データに基づく一般化混合効果モデル(GLMM)のフェデレーション学習アルゴリズム [全文訳有]

Federated Learning Algorithms for Generalized Mixed-effects Model (GLMM) on Horizontally Partitioned Data from Distributed Sources ( http://arxiv.org/abs/2109.14046v1 )

ライセンス: CC BY 4.0
Wentao Li, Jiayi Tong, Md.Monowar Anjum, Noman Mohammed, Yong Chen, Xiaoqian Jiang(参考訳) 目的:本稿では,連合型一般化線形混合効果モデル(glmm)を実現するための2つのアルゴリズムを開発し,開発したモデルの成果と標準rパッケージ(`lme4')との比較を行った。 方法: glmm のlog-likelihood関数は2つの数値的手法(laplace approximation と gaussian hermite approximation)によって近似される。 結果: 本手法は,複数の非独立な観測レベルの階層データに対応するために, GLMMを処理可能である。 実験結果は、シミュレーションと実世界のデータによる比較(Laplace)と優れた(Gaussian-Hermite)パフォーマンスを示す。 結論:我々は,階層構造(施設,地域,国など)による非独立性に対処するために,生体医学データの解析を支援する,異なる近似値を持つフェデレートglmmを開発し,比較した。

Objectives: This paper develops two algorithms to achieve federated generalized linear mixed effect models (GLMM), and compares the developed model's outcomes with each other, as well as that from the standard R package (`lme4'). Methods: The log-likelihood function of GLMM is approximated by two numerical methods (Laplace approximation and Gaussian Hermite approximation), which supports federated decomposition of GLMM to bring computation to data. Results: Our developed method can handle GLMM to accommodate hierarchical data with multiple non-independent levels of observations in a federated setting. The experiment results demonstrate comparable (Laplace) and superior (Gaussian-Hermite) performances with simulated and real-world data. Conclusion: We developed and compared federated GLMMs with different approximations, which can support researchers in analyzing biomedical data to accommodate mixed effects and address non-independence due to hierarchical structures (i.e., institutes, region, country, etc.).
翻訳日:2021-10-01 02:30:26 公開日:2021-09-28
# (参考訳) 2次WinoBias(SoWinoBias) テストセットによる遅延性バイアス検出 [全文訳有]

Second Order WinoBias (SoWinoBias) Test Set for Latent Gender Bias Detection in Coreference Resolution ( http://arxiv.org/abs/2109.14047v1 )

ライセンス: CC BY 4.0
Hillary Dawkins(参考訳) テストケースでは, 性別による偏見が明らかでないにもかかわらず, 下流アプリケーションでは, 性別による偏見の事例を観察する。 このような潜伏性バイアスを共参照分解系で測定するためのテストセットであるsowinobiasを提供する。 本稿では,SoWinoBiasテストセットにおける現在のデバイアス法の性能,特に手法の設計と組込み空間特性の変化について評価する。 https://github.com/h illarydawkins/sowino biasを参照。

We observe an instance of gender-induced bias in a downstream application, despite the absence of explicit gender words in the test cases. We provide a test set, SoWinoBias, for the purpose of measuring such latent gender bias in coreference resolution systems. We evaluate the performance of current debiasing methods on the SoWinoBias test set, especially in reference to the method's design and altered embedding space properties. See https://github.com/h illarydawkins/SoWino Bias.
翻訳日:2021-10-01 02:17:57 公開日:2021-09-28
# (参考訳) 科学論文レビューのための要約の作成 [全文訳有]

Generating Summaries for Scientific Paper Review ( http://arxiv.org/abs/2109.14059v1 )

ライセンス: CC BY 4.0
Ana Sabina Uban, Cornelia Caragea(参考訳) レビュープロセスは出版物の品質を確保するために不可欠です。 近年、機械学習とNLPのトップ会場への応募の増加は、レビュアーに過剰な負担がかかる問題を引き起こしており、レビュアーの過負荷だけでなく、レビューの質にも影響を及ぼす可能性があるという懸念もしばしば生じている。 レビュープロセスを支援する自動システムは、問題を改善するための解決策になり得る。 本稿では,学術論文の自動レビュー要約生成について検討する。 我々は、ニューラルネットワークモデルがこのタスクに価値ある候補になる可能性があると仮定する。 この仮説を検証するために,2013年から2020年までのneuripsカンファレンスで発表された論文から,新たな科学論文のデータセットとそのレビューを公開する。 本稿では, 人工神経の要約モデルの現状を評価し, 自動要約生成の実現可能性に関する最初の結果と今後の方向性を提案する。

The review process is essential to ensure the quality of publications. Recently, the increase of submissions for top venues in machine learning and NLP has caused a problem of excessive burden on reviewers and has often caused concerns regarding how this may not only overload reviewers, but also may affect the quality of the reviews. An automatic system for assisting with the reviewing process could be a solution for ameliorating the problem. In this paper, we explore automatic review summary generation for scientific papers. We posit that neural language models have the potential to be valuable candidates for this task. In order to test this hypothesis, we release a new dataset of scientific papers and their reviews, collected from papers published in the NeurIPS conference from 2013 to 2020. We evaluate state of the art neural summarization models, present initial results on the feasibility of automatic review summary generation, and propose directions for the future.
翻訳日:2021-10-01 02:05:39 公開日:2021-09-28
# (参考訳) 音響事象検出のための合成音場における非標的事象の影響 [全文訳有]

The impact of non-target events in synthetic soundscapes for sound event detection ( http://arxiv.org/abs/2109.14061v1 )

ライセンス: CC BY 4.0
Francesca Ronchini, Romain Serizel, Nicolas Turpault, Samuele Cornell(参考訳) 検出と分類 音響シーンとイベントチャレンジ 2021 タスク4は、記録と合成の両方のサウンドスケープを含む異種データセットを使用する。 近年までサウンドスケープを合成する時のみターゲットとなるサウンドイベントが検討された。 しかし、録音されたサウンドスケープには、パフォーマンスに影響を与える可能性のある大量の非ターゲットイベントが含まれていることが多い。 本稿では,合成音環境におけるこれらの非ターゲット事象の影響に着目した。 まず、トレーニングフェーズや検証フェーズ(あるいはそのどれか)において、ターゲットでないイベントが対象イベントを正しく検出するのに役立つかを検討する。 次に,訓練時の目標と非目標イベントの信号対雑音比の調整が音響イベント検出性能を向上させるかを分析する。 その結果,対象イベントと非対象イベントの両方を1つのフェーズ(検証やトレーニング)のみに使用することで,ベースライン(両方のフェーズで非ターゲットイベントを使用する)よりも優れた音響イベントを適切に検出できることがわかった。 また,非目標イベントのみを含むクリップ上でのシステム評価に関する予備研究の結果について報告する。 これにより、ターゲットでない部分集合と、システムを混乱させる可能性のあるターゲットとターゲットでないイベントとの音響的類似性に関する今後の作業に対する疑問が開かれる。

Detection and Classification Acoustic Scene and Events Challenge 2021 Task 4 uses a heterogeneous dataset that includes both recorded and synthetic soundscapes. Until recently only target sound events were considered when synthesizing the soundscapes. However, recorded soundscapes often contain a substantial amount of non-target events that may affect the performance. In this paper, we focus on the impact of these non-target events in the synthetic soundscapes. Firstly, we investigate to what extent using non-target events alternatively during the training or validation phase (or none of them) helps the system to correctly detect target events. Secondly, we analyze to what extend adjusting the signal-to-noise ratio between target and non-target events at training improves the sound event detection performance. The results show that using both target and non-target events for only one of the phases (validation or training) helps the system to properly detect sound events, outperforming the baseline (which uses non-target events in both phases). The paper also reports the results of a preliminary study on evaluating the system on clips that contain only non-target events. This opens questions for future work on non-target subset and acoustic similarity between target and non-target events which might confuse the system.
翻訳日:2021-10-01 01:56:14 公開日:2021-09-28
# (参考訳) データ分析はいくらで十分か? 機械学習分類のROIとその要件依存分類への応用 [全文訳有]

How Much Data Analytics is Enough? The ROI of Machine Learning Classification and its Application to Requirements Dependency Classification ( http://arxiv.org/abs/2109.14097v1 )

ライセンス: CC BY 4.0
Gouri Deshpande, Guenther Ruhe, Chad Saunders(参考訳) 機械学習(ML)は組織の効率性と効率を大幅に改善し、ソフトウェア工学におけるさまざまな目的のために広く利用されている。 しかし,ML手法の選択と実装はほとんど精度基準に依存している。 したがって、ML投資のメリットを実現したい組織にとって、この狭いアプローチは、MLライフサイクル全体にわたるML活動の予想されるコストに関する決定的な考慮を無視し、提案された活動から生じる可能性のあるメリットを考慮に入れていない。 本稿では、投資収益率(ROI)を考慮した精度基準を向上することにより、このギャップに対処するアプローチの成果を示す。 具体的には、2つの公開データセットの精度とROIに基づいて、ランダムフォレストと双方向エンコーダ表現(BERT)の2つの最先端ML技術の性能を分析する。 具体的には,要求依存抽出における意思決定の比較を行う。 (i)精度と精度のみに基づく (ii)ROI分析を含むように拡張した。 その結果,使用したトレーニングデータの度合いに基づいて,ML分類手法を選択するための推奨事項を提案する。 以上の結果から, ROIを追加基準として考えると, 精度に基づく決定を唯一の基準とする決定と比較すると, ML選択に大きく影響を与える可能性が示唆された。

Machine Learning (ML) can substantially improve the efficiency and effectiveness of organizations and is widely used for different purposes within Software Engineering. However, the selection and implementation of ML techniques rely almost exclusively on accuracy criteria. Thus, for organizations wishing to realize the benefits of ML investments, this narrow approach ignores crucial considerations around the anticipated costs of the ML activities across the ML lifecycle, while failing to account for the benefits that are likely to accrue from the proposed activity. We present findings for an approach that addresses this gap by enhancing the accuracy criterion with return on investment (ROI) considerations. Specifically, we analyze the performance of the two state-of-the-art ML techniques: Random Forest and Bidirectional Encoder Representations from Transformers (BERT), based on accuracy and ROI for two publicly available data sets. Specifically, we compare decision-making on requirements dependency extraction (i) exclusively based on accuracy and (ii) extended to include ROI analysis. As a result, we propose recommendations for selecting ML classification techniques based on the degree of training data used. Our findings indicate that considering ROI as additional criteria can drastically influence ML selection when compared to decisions based on accuracy as the sole criterion
翻訳日:2021-10-01 01:44:16 公開日:2021-09-28
# (参考訳) maldi-tof質量分析法によるcovid-19診断のための説明可能なaiアプローチ [全文訳有]

An Explainable-AI approach for Diagnosis of COVID-19 using MALDI-ToF Mass Spectrometry ( http://arxiv.org/abs/2109.14099v1 )

ライセンス: CC BY 4.0
Venkata Devesh Reddy Seethi, Zane LaCasse, Prajkta Chivte, Elizabeth R. Gaillard, Pratool Bharti(参考訳) 重症急性呼吸器症候群の新型2型(SARS-CoV-2)は世界的なパンデミックを引き起こし、450万人以上の死者を出した。 ウイルスの拡散を抑制するため、感染した人々を同定し、分離し、治療するためには、精度が高く、費用対効果が高く、かつ迅速な検査が極めて重要である。 現在の検査手法では、PCR(ポリメラーゼ連鎖反応)ベースの装置を使用し、スループット、費用対効果、手順の単純さに制限があり、追加の新型コロナウイルス感染症(COVID-19)検査メカニズムの開発に説得力のある必要性を生じさせる。 我々は,人間のガーグルサンプル152点から抽出したmaldi-tof (matrix-assisted laser de absorption/ionizatio n time-of-flight) データを用いた人工知能(ai)技術を用いた新型コロナウイルス検査法を提案する。 私たちのAIベースのアプローチでは、予測アルゴリズムの背後にある決定ルールを、ローカル(サンプル毎)とグローバル(サンプル毎)の両方に基づいて説明可能なAI(X-AI)手法を活用して、AIモデルをより信頼できるものにしています。 最後に,提案手法を70%-30%の列車試験分割戦略を用いて評価し,86.79%の訓練精度と91.30%の試験精度を達成した。

The novel severe acute respiratory syndrome coronavirus type-2 (SARS-CoV-2) caused a global pandemic that has taken more than 4.5 million lives and severely affected the global economy. To curb the spread of the virus, an accurate, cost-effective, and quick testing for large populations is exceedingly important in order to identify, isolate, and treat infected people. Current testing methods commonly use PCR (Polymerase Chain Reaction) based equipment that have limitations on throughput, cost-effectiveness, and simplicity of procedure which creates a compelling need for developing additional coronavirus disease-2019 (COVID-19) testing mechanisms, that are highly sensitive, rapid, trustworthy, and convenient to use by the public. We propose a COVID-19 testing method using artificial intelligence (AI) techniques on MALDI-ToF (matrix-assisted laser desorption/ionizatio n time-of-flight) data extracted from 152 human gargle samples (60 COVID-19 positive tests and 92 COVID-19 negative tests). Our AI-based approach leverages explainable-AI (X-AI) methods to explain the decision rules behind the predictive algorithm both on a local (per-sample) and global (all-samples) basis to make the AI model more trustworthy. Finally, we evaluated our proposed method using a 70%-30% train-test-split strategy and achieved a training accuracy of 86.79% and a testing accuracy of 91.30%.
翻訳日:2021-10-01 01:25:15 公開日:2021-09-28
# RAFT: 実世界のFew-Shotテキスト分類ベンチマーク

RAFT: A Real-World Few-Shot Text Classification Benchmark ( http://arxiv.org/abs/2109.14076v1 )

ライセンス: Link先を確認
Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C. Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, Michael Noetel, Andreas Stuhlm\"uller(参考訳) 大規模な事前訓練された言語モデルは、いくつかのタスク固有の例だけを与えられたテキストベースのタスクを完了し、数ショットの学習を約束している。 モデルでは、これまで人間の研究アシスタントに予約されていた分類タスクを、すぐに解決するのか? 既存のベンチマークは、適用された設定の進捗を測定するように設計されていません。 RAFTベンチマーク(Real-world Annotated Few-shot Tasks)は自然に発生するタスクに焦点を当て、デプロイを反映する評価設定を使用する。 RAFTのベースライン評価では、多くのクラスで長いテキストやタスクを推論するといった、現在のテクニックが苦労している領域を明らかにしている。 人間の基準は、一部の分類タスクは非専門家にとって難しいことを示しており、実世界の価値は時々ドメインの専門知識に依存する。 しかし、熟練していない人間のF1スコアでさえ平均0.11のGPT-3を超えている。 RAFTデータセットとリーダーボードは、どのモデルの改善が実際の利益に変換されるかを追跡する。

Large pre-trained language models have shown promise for few-shot learning, completing text-based tasks given only a few task-specific examples. Will models soon solve classification tasks that have so far been reserved for human research assistants? Existing benchmarks are not designed to measure progress in applied settings, and so don't directly answer this question. The RAFT benchmark (Real-world Annotated Few-shot Tasks) focuses on naturally occurring tasks and uses an evaluation setup that mirrors deployment. Baseline evaluations on RAFT reveal areas current techniques struggle with: reasoning over long texts and tasks with many classes. Human baselines show that some classification tasks are difficult for non-expert humans, reflecting that real-world value sometimes depends on domain expertise. Yet even non-expert human baseline F1 scores exceed GPT-3 by an average of 0.11. The RAFT datasets and leaderboard will track which model improvements translate into real-world benefits at https://raft.elicit. org .
翻訳日:2021-09-30 15:04:39 公開日:2021-09-28
# VideoCLIP: ゼロショットビデオテキスト理解のためのコントラスト事前トレーニング

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding ( http://arxiv.org/abs/2109.14084v1 )

ライセンス: Link先を確認
Hu Xu, Gargi Ghosh, Po-Yao Huang, Dmytro Okhonko, Armen Aghajanyan, Florian Metze Luke Zettlemoyer Christoph Feichtenhofer(参考訳) videoclipは,ゼロショットビデオとテキスト理解のための統一モデルを,ダウンストリームタスクでラベルを使わずに事前学習する,対照的なアプローチである。 VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。 シーケンスレベルのテキストビデオ検索,ビデオqa,トークンレベルのアクションローカライズ,アクションセグメンテーションなど,ダウンストリームのさまざまなタスクに関する実験では,最先端のパフォーマンスが明らかにされ,事前の作業よりも優れており,場合によっては教師付きアプローチよりもパフォーマンスが優れている場合もあります。 コードはhttps://github.com/p ytorch/fairseq/examp les/mmptで入手できる。

We present VideoCLIP, a contrastive approach to pre-train a unified model for zero-shot video and text understanding, without using any labels on downstream tasks. VideoCLIP trains a transformer for video and text by contrasting temporally overlapping positive video-text pairs with hard negatives from nearest neighbor retrieval. Our experiments on a diverse series of downstream tasks, including sequence-level text-video retrieval, VideoQA, token-level action localization, and action segmentation reveal state-of-the-art performance, surpassing prior work, and in some cases even outperforming supervised approaches. Code is made available at https://github.com/p ytorch/fairseq/examp les/MMPT.
翻訳日:2021-09-30 15:03:00 公開日:2021-09-28
# AutoPhaseNN:3Dナノスケールコヒーレントイメージングの教師なし物理認識深層学習

AutoPhaseNN: Unsupervised Physics-aware Deep Learning of 3D Nanoscale Coherent Imaging ( http://arxiv.org/abs/2109.14053v1 )

ライセンス: Link先を確認
Yudong Yao, Henry Chan, Subramanian Sankaranarayanan, Prasanna Balaprakash, Ross J. Harder, and Mathew J. Cherukara(参考訳) 位相検索の問題は、測定強度のみから失われた位相情報のアルゴリズムによる回復であり、天文学からナノスケールイメージングまで様々なイメージング手法が根底にある。 伝統的な位相探索法は本質的に反復的であり、計算コストと時間を要する。 より最近では、繰り返し位相探索の学習先行を提供するためにディープラーニング(DL)モデルが開発され、場合によっては位相探索を完全に置き換えて、計測強度のみから失われた位相情報を復元するネットワークも開発されている。 しかし、そのようなモデルには膨大な量のラベル付きデータが必要であり、数百から数千の実験データセットで計算的に禁止されたフェーズ検索を行うことでのみ得られる。 3次元ナノスケールX線画像モダリティ(Bragg Coherent Diffraction Imaging, BCDI)を代表的手法として,ラベル付きデータなしで位相問題を解くためのDLベースのアプローチであるAutoPhaseNNを実証した。 トレーニング中に画像技術の物理をDLモデルに組み込むことで、AutoPhaseNNは、実際の空間画像を表示することなく、相互空間から実際の空間へ3D BCDIデータを反転させることを学ぶ。 トレーニングが完了すると、AutoPhaseNNは従来の反復位相検索手法の約100倍の速度で画像品質を提供する。

The problem of phase retrieval, or the algorithmic recovery of lost phase information from measured intensity alone, underlies various imaging methods from astronomy to nanoscale imaging. Traditional methods of phase retrieval are iterative in nature, and are therefore computationally expensive and time consuming. More recently, deep learning (DL) models have been developed to either provide learned priors to iterative phase retrieval or in some cases completely replace phase retrieval with networks that learn to recover the lost phase information from measured intensity alone. However, such models require vast amounts of labeled data, which can only be obtained through simulation or performing computationally prohibitive phase retrieval on hundreds of or even thousands of experimental datasets. Using a 3D nanoscale X-ray imaging modality (Bragg Coherent Diffraction Imaging or BCDI) as a representative technique, we demonstrate AutoPhaseNN, a DL-based approach which learns to solve the phase problem without labeled data. By incorporating the physics of the imaging technique into the DL model during training, AutoPhaseNN learns to invert 3D BCDI data from reciprocal space to real space in a single shot without ever being shown real space images. Once trained, AutoPhaseNN is about one hundred times faster than traditional iterative phase retrieval methods while providing comparable image quality.
翻訳日:2021-09-30 14:59:01 公開日:2021-09-28
# シミュレーションベース推論のための可逆グロモフ・モンジ・サンプラー

Reversible Gromov-Monge Sampler for Simulation-Based Inference ( http://arxiv.org/abs/2109.14090v1 )

ライセンス: Link先を確認
YoonHaeng Hur, Wenxuan Guo, Tengyuan Liang(参考訳) 本稿では, 密度関数を明示的にモデル化したり, マルコフ連鎖モンテカルロを設計したりするための一般的な手法を回避するため, 多次元確率分布をモデル化し, サンプル化するための新しいシミュレーションベース推論手法を提案する。 M\'emoli (2011) と Sturm (2012) の距離と計量測度空間間の同型性に関するセミナー的な研究に動機付けられ、Reversible Gromov-Monge (RGM) 距離と呼ばれる新しい概念を提案し、シミュレーションベースの推論を行うためにRGMがどのように新しい変換標本を設計できるかを研究する。 我々のRGMサンプルは、2つの異種計量測度空間$(\mathcal{X}, \mu, c_{\mathcal{X}})$と$(\mathcal{Y}, \nu, c_{\mathcal{Y}})$の間の最適アライメントを経験的データセットから推定することもできる。 RGM距離の解析的性質を導出し, 誘導サンプリング器に関する収束率, 表現率, 最適化問題について検討した。 また,RGM試料の有効性を示す合成および実世界の実例も示す。

This paper introduces a new simulation-based inference procedure to model and sample from multi-dimensional probability distributions given access to i.i.d. samples, circumventing usual approaches of explicitly modeling the density function or designing Markov chain Monte Carlo. Motivated by the seminal work of M\'emoli (2011) and Sturm (2012) on distance and isomorphism between metric measure spaces, we propose a new notion called the Reversible Gromov-Monge (RGM) distance and study how RGM can be used to design new transform samplers in order to perform simulation-based inference. Our RGM sampler can also estimate optimal alignments between two heterogenous metric measure spaces $(\mathcal{X}, \mu, c_{\mathcal{X}})$ and $(\mathcal{Y}, \nu, c_{\mathcal{Y}})$ from empirical data sets, with estimated maps that approximately push forward one measure $\mu$ to the other $\nu$, and vice versa. Analytic properties of RGM distance are derived; statistical rate of convergence, representation, and optimization questions regarding the induced sampler are studied. Synthetic and real-world examples showcasing the effectiveness of the RGM sampler are also demonstrated.
翻訳日:2021-09-30 14:55:47 公開日:2021-09-28
# Y-GAN:効率的な異常検出のためのデュアルデータ表現学習

Y-GAN: Learning Dual Data Representations for Efficient Anomaly Detection ( http://arxiv.org/abs/2109.14020v1 )

ライセンス: Link先を確認
Marija Ivanovska and Vitomir \v{S}truc(参考訳) 本稿では,Y-GANと呼ばれる新しい再構成モデルを提案する。 モデルはY字型のオートエンコーダで構成され、2つの別々の潜在空間の画像を表す。 第1は、(通常の)トレーニングデータを表すキーである有意義なイメージセマンティクスをキャプチャし、第2は、低レベルの残像特性をエンコードする。 相互排他的情報を符号化する双対表現を保証するため、非絡み込み手順は潜在(プロキシ)分類器を中心に設計される。 さらに,潜在空間間の情報漏洩を防止するために,新たな一貫性損失を提案する。 モデルは、通常のトレーニングデータのみを使用して、ワンクラスの学習環境で訓練される。 意味的関連情報と残留情報の分離により、Y-GANは様々な異常検出タスクを横断する効率的な異常検出を可能にする情報的データ表現を導出することができる。 このモデルは、MNIST, FMNIST, CIFAR10, PlantVillageという4つの一般的なデータセットを用いて、最近の異常検出モデルを用いて包括的な実験で評価されている。

We propose a novel reconstruction-based model for anomaly detection, called Y-GAN. The model consists of a Y-shaped auto-encoder and represents images in two separate latent spaces. The first captures meaningful image semantics, key for representing (normal) training data, whereas the second encodes low-level residual image characteristics. To ensure the dual representations encode mutually exclusive information, a disentanglement procedure is designed around a latent (proxy) classifier. Additionally, a novel consistency loss is proposed to prevent information leakage between the latent spaces. The model is trained in a one-class learning setting using normal training data only. Due to the separation of semantically-relevan t and residual information, Y-GAN is able to derive informative data representations that allow for efficient anomaly detection across a diverse set of anomaly detection tasks. The model is evaluated in comprehensive experiments with several recent anomaly detection models using four popular datasets, i.e., MNIST, FMNIST and CIFAR10, and PlantVillage.
翻訳日:2021-09-30 14:52:05 公開日:2021-09-28
# リスク・アバース非定常多武装包帯

Risk averse non-stationary multi-armed bandits ( http://arxiv.org/abs/2109.13977v1 )

ライセンス: Link先を確認
Leo Benac and Fr\'ed\'eric Godin(参考訳) 本稿では,非定常損失の場合の多武装包帯問題に対処する。 目的関数として条件付き値-at-risk(CVaR)を用いる。 この目的関数に対して,非定常損失が存在する場合,損失の重み付き経験分布とcvarの双対表現に依存する2つの推定法が提案されている。 このような推定は、エプシロングレーディポリシーのような古典的なアーム選択手法に組み込むことができる。 シミュレーション実験は2つの新しい推定手法に基づいてアーム選択アルゴリズムの性能を評価し、非定常性を考慮していないナイーブなベンチマークを上回った。

This paper tackles the risk averse multi-armed bandits problem when incurred losses are non-stationary. The conditional value-at-risk (CVaR) is used as the objective function. Two estimation methods are proposed for this objective function in the presence of non-stationary losses, one relying on a weighted empirical distribution of losses and another on the dual representation of the CVaR. Such estimates can then be embedded into classic arm selection methods such as epsilon-greedy policies. Simulation experiments assess the performance of the arm selection algorithms based on the two novel estimation approaches, and such policies are shown to outperform naive benchmarks not taking non-stationarity into account.
翻訳日:2021-09-30 14:48:30 公開日:2021-09-28
# 車両経路問題に対する機械学習手法の計算テストガイドライン

Guidelines for the Computational Testing of Machine Learning approaches to Vehicle Routing Problems ( http://arxiv.org/abs/2109.13983v1 )

ライセンス: Link先を確認
Luca Accorsi, Andrea Lodi, Daniele Vigo(参考訳) 大規模な研究努力と、データ駆動分析を部分的にあるいは完全にベースとした機械学習コミュニティの提案したアルゴリズムを用いて、車両ルーティング問題(VRP)で得られた顕著な成果にもかかわらず、これらのアプローチの多くは、まだオペレーションリサーチ(OR)コミュニティによって採用されることはめったにない。 考えられる原因のうち,提案手法の計算評価における異なるアプローチが重要な役割を担っていると考えられる。 本稿では,VRPのヒューリスティックなアプローチの計算研究において,OR論文で提示されるものの特徴を持つ計算研究を適切に解決し,両コミュニティ間のコラボレーションを促進することを目的とした,いくつかの課題(および対処方法)を強調したい。

Despite the extensive research efforts and the remarkable results obtained on Vehicle Routing Problems (VRP) by using algorithms proposed by the Machine Learning community that are partially or entirely based on data-driven analysis, most of these approaches are still seldom employed by the Operations Research (OR) community. Among the possible causes, we believe, the different approach to the computational evaluation of the proposed methods may play a major role. With the current work, we want to highlight a number of challenges (and possible ways to handle them) arising during the computational studies of heuristic approaches to VRPs that, if appropriately addressed, may produce a computational study having the characteristics of those presented in OR papers, thus hopefully promoting the collaboration between the two communities.
翻訳日:2021-09-30 14:48:20 公開日:2021-09-28
# 全周リアルラベルスーパービジョン:半教師付き医用画像セグメンテーションのための周期的プロトタイプ一貫性学習

All-Around Real Label Supervision: Cyclic Prototype Consistency Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2109.13930v1 )

ライセンス: Link先を確認
Zhe Xu, Yixin Wang, Donghuan Lu, Lequan Yu, Jiangpeng Yan, Jie Luo, Kai Ma, Yefeng Zheng and Raymond Kai-yu Tong(参考訳) 半教師付き学習は、コストのかかる専門家によるアノテーション取得の重荷を軽減するため、医療画像分割が大幅に進歩している。 特に、一貫性に基づくアプローチは、その優れたパフォーマンスに対してより注目を集めており、実際のラベルは、教師付き損失によるペア画像の監視にのみ使用される一方で、ラベルなしのイメージは、それらの実際のラベルからの明示的なガイダンスなしで摂動に基づく「textit{"unsupervised"」一貫性を強制することによって活用される。 しかし直感的には、専門家が検査した実ラベルはより信頼できる監督信号を含んでいる。 半教師付きトレーニングのために、明示的な実ラベル監督を通じてラベル付けされていないデータを利用できますか? この目的のために、我々は以前の摂動に基づく一貫性を廃止するが、非パラメトリックなプロトタイプ学習の本質を吸収する。 原型ネットワークに基づいて,ラベル付きラベル付きラベルなし(L2U)前処理とラベル付きラベルなし(U2L)後処理によって構築された,新しい循環型プロトタイプ一貫性学習(CPCL)フレームワークを提案する。 このような2つのプロセスは、より識別的でコンパクトな特徴を奨励することで、セグメンテーションネットワークを相乗的に強化する。 このように、我々のフレームワークは以前の \textit{"unsupervised"} 一貫性を新しい \textit{"supervised"} 一貫性に変換し、メソッドの \textit{"all-around real label supervisor"} プロパティを取得する。 MRIによる脳腫瘍の分節化とCT画像からの腎臓の分節化に関する大規模な実験により、CPCLはラベルのないデータを効果的に活用し、他の最先端の半監督的医用画像分節法より優れていることが示された。

Semi-supervised learning has substantially advanced medical image segmentation since it alleviates the heavy burden of acquiring the costly expert-examined annotations. Especially, the consistency-based approaches have attracted more attention for their superior performance, wherein the real labels are only utilized to supervise their paired images via supervised loss while the unlabeled images are exploited by enforcing the perturbation-based \textit{"unsupervised"} consistency without explicit guidance from those real labels. However, intuitively, the expert-examined real labels contain more reliable supervision signals. Observing this, we ask an unexplored but interesting question: can we exploit the unlabeled data via explicit real label supervision for semi-supervised training? To this end, we discard the previous perturbation-based consistency but absorb the essence of non-parametric prototype learning. Based on the prototypical network, we then propose a novel cyclic prototype consistency learning (CPCL) framework, which is constructed by a labeled-to-unlabeled (L2U) prototypical forward process and an unlabeled-to-labeled (U2L) backward process. Such two processes synergistically enhance the segmentation network by encouraging more discriminative and compact features. In this way, our framework turns previous \textit{"unsupervised"} consistency into new \textit{"supervised"} consistency, obtaining the \textit{"all-around real label supervision"} property of our method. Extensive experiments on brain tumor segmentation from MRI and kidney segmentation from CT images show that our CPCL can effectively exploit the unlabeled data and outperform other state-of-the-art semi-supervised medical image segmentation methods.
翻訳日:2021-09-30 14:42:51 公開日:2021-09-28
# イントロスペクティブ・パーセプションによる能力認識経路計画

Competence-Aware Path Planning via Introspective Perception ( http://arxiv.org/abs/2109.13974v1 )

ライセンス: Link先を確認
Sadegh Rabiee, Connor Basich, Kyle Hollins Wray, Shlomo Zilberstein, Joydeep Biswas(参考訳) 長期間にわたって現実世界に展開するロボットは、予期せぬ失敗を判断し、予測し、将来の失敗を避けるために積極的に行動を取る必要がある。 能力対応計画のための既存のアプローチはモデルベースであり、既知の障害モードの明示的な列挙を必要とするか、あるいは状態と場所固有の障害統計を使って能力を推測する純粋に統計的なものである。 代わりに,障害モードのa-priori列挙や位置固有の障害統計を必要とせず,知覚エラーによる計画実行失敗を推論し,能力対応計画に対する構造化モデルフリーなアプローチを提案する。 我々は,新しい展開環境におけるタスクレベルの能力の反復学習と活用を行うベイジアンフレームワークである,イントロスペクティブ・インセプション(cpip)による能力認識パス計画を導入する。 CPIPは能力認識計画問題を2つの構成要素に分解する。 まず、新しい環境に展開する前に、内観的知覚を通して、モデルのない、位置に依存しない環境で知覚誤差を学習する。 第二に、実際のデプロイメントにおいて、タスクレベルの障害の予測はコンテキスト認識環境で学習される。 シミュレーション実験では,提案手法が複数の移動ロボットタスクにおける頻繁なベースラインを上回っており,障害物や地形に知覚的に挑戦する環境での実際のロボット実験によりさらに検証されることを示した。

Robots deployed in the real world over extended periods of time need to reason about unexpected failures, learn to predict them, and to proactively take actions to avoid future failures. Existing approaches for competence-aware planning are either model-based, requiring explicit enumeration of known failure modes, or purely statistical, using state- and location-specific failure statistics to infer competence. We instead propose a structured model-free approach to competence-aware planning by reasoning about plan execution failures due to errors in perception, without requiring a-priori enumeration of failure modes or requiring location-specific failure statistics. We introduce competence-aware path planning via introspective perception (CPIP), a Bayesian framework to iteratively learn and exploit task-level competence in novel deployment environments. CPIP factorizes the competence-aware planning problem into two components. First, perception errors are learned in a model-free and location-agnostic setting via introspective perception prior to deployment in novel environments. Second, during actual deployments, the prediction of task-level failures is learned in a context-aware setting. Experiments in a simulation show that the proposed CPIP approach outperforms the frequentist baseline in multiple mobile robot tasks, and is further validated via real robot experiments in an environment with perceptually challenging obstacles and terrain.
翻訳日:2021-09-30 14:42:14 公開日:2021-09-28
# どんな値段でいいのか? 野生のモバイル深層ニューラルネットワークの特徴付け

Smart at what cost? Characterising Mobile Deep Neural Networks in the wild ( http://arxiv.org/abs/2109.13963v1 )

ライセンス: Link先を確認
Mario Almeida, Stefanos Laskaridis, Abhinav Mehrotra, Lukasz Dudziak, Ilias Leontiadis, Nicholas D. Lane(参考訳) スマートフォンのポケットへの浸透により、モバイル上の機械学習(ML)は、デバイスがより強力になるにつれて、勢いを増している。 ビジュアルフィルターから音声アシスタントに至るまで、モバイルでのインテリジェンスにはさまざまな形態と面がある。 しかし、Deep Neural Network(DNN)推論は依然として計算集約的なワークロードであり、デバイスは応答性の犠牲でインテリジェンスをサポートするのに苦労している。 一方、タスクの精度を最大化するための努力は、より深くより広いニューラルネットワークによってサポートされ、最先端のDNNのモバイル展開が移動ターゲットとなる。 本稿では,dnnの利用状況を追跡し,広くデプロイされたデバイス上での運用状況と一致させるために,dnnの利用状況に関する最初の総合的研究を行う。 この目的のために、Google Play Storeでもっとも人気のあるアプリの16万以上を分析して、異なる機能を持つデバイス間でDNNの利用とパフォーマンスを特徴付けています。 同時に、あらゆるモバイルデプロイメントのコアコスト次元として、モデルのエネルギーフットプリントを測定します。 プロセスの合理化のために,デバイス上でのDNNの展開,計測,分析を自動化するツールである gaugeNN を開発し,さまざまなフレームワークやプラットフォームをサポートした。 私たちの経験から得られた結果は、スマートフォンへのディープラーニングデプロイメントの展望を描き、アプリ開発者間での人気を示している。 さらに,本研究では,深層学習モデルの高度に動的で異種なエコシステムへの展開を最適化する必要性について検討した。

With smartphones' omnipresence in people's pockets, Machine Learning (ML) on mobile is gaining traction as devices become more powerful. With applications ranging from visual filters to voice assistants, intelligence on mobile comes in many forms and facets. However, Deep Neural Network (DNN) inference remains a compute intensive workload, with devices struggling to support intelligence at the cost of responsiveness.On the one hand, there is significant research on reducing model runtime requirements and supporting deployment on embedded devices. On the other hand, the strive to maximise the accuracy of a task is supported by deeper and wider neural networks, making mobile deployment of state-of-the-art DNNs a moving target. In this paper, we perform the first holistic study of DNN usage in the wild in an attempt to track deployed models and match how these run on widely deployed devices. To this end, we analyse over 16k of the most popular apps in the Google Play Store to characterise their DNN usage and performance across devices of different capabilities, both across tiers and generations. Simultaneously, we measure the models' energy footprint, as a core cost dimension of any mobile deployment. To streamline the process, we have developed gaugeNN, a tool that automates the deployment, measurement and analysis of DNNs on devices, with support for different frameworks and platforms. Results from our experience study paint the landscape of deep learning deployments on smartphones and indicate their popularity across app developers. Furthermore, our study shows the gap between bespoke techniques and real-world deployments and the need for optimised deployment of deep learning models in a highly dynamic and heterogeneous ecosystem.
翻訳日:2021-09-30 14:40:03 公開日:2021-09-28
# カノニカルポリアディック分解のための高速化確率勾配

An Accelerated Stochastic Gradient for Canonical Polyadic Decomposition ( http://arxiv.org/abs/2109.13964v1 )

ライセンス: Link先を確認
Ioanna Siaminou, Athanasios P. Liavas(参考訳) 構造的正準多進分解の問題を考える。 問題のサイズが非常に大きい場合、確率勾配法はオルタネート最適化やオールアンス最適化といった古典的手法の代替となる。 各イテレーションで加速度ステップ(ネステロフ運動量)を用いることで,最近の確率勾配手法を拡張する。 当社のアプローチを、合成データと実世界のデータの両方を用いて、最先端の代替手段と比較し、非常に競争力のあるものだと考えています。

We consider the problem of structured canonical polyadic decomposition. If the size of the problem is very big, then stochastic gradient approaches are viable alternatives to classical methods, such as Alternating Optimization and All-At-Once optimization. We extend a recent stochastic gradient approach by employing an acceleration step (Nesterov momentum) in each iteration. We compare our approach with state-of-the-art alternatives, using both synthetic and real-world data, and find it to be very competitive.
翻訳日:2021-09-30 14:39:38 公開日:2021-09-28
# 疎視的観察による不均一地形の知覚ロコモーション学習

Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual Observations ( http://arxiv.org/abs/2109.14026v1 )

ライセンス: Link先を確認
Fernando Acero, Kai Yuan, Zhibin Li(参考訳) 脚のついたロボットは、モデルベースの制御やデータ駆動の深層強化学習を用いて、目隠しで顕著なパフォーマンスを達成した。 様々な地形を積極的にナビゲートし横断するために,視覚知覚の活発な利用が不可欠となり,人間の中心環境において広く見られるバンプ,ランプ,階段の広い範囲にわたる知覚的移動を実現するために,まばらな視覚観察を利用することが目的である。 まず,興味のある不均一な面を表現できる最小の視覚入力の選択を定式化し,そのような非知覚的・固有的データを統合する学習フレームワークを提案する。 具体的には、様々な地形において、フィードバック制御ポリシーをより効果的に学習する訓練カリキュラムを選定し、設計する。 広域ベンチマークを用いて, 障害物のある地形上を全方向歩行し, 前方移動する必要があるタスクにおいて, 学習方針を検証し, トラバーサルの成功率が高いことを示す。 特に、このロボットは、LidarまたはRGB-Dセンサーから容易に得ることができる深度測定を用いて、最小限の視覚知覚で自律的な知覚運動を行い、20cmの高さの高階段上の頑丈な昇降、すなわち脚の長さの50%を成功させる。

Legged robots have achieved remarkable performance in blind walking using either model-based control or data-driven deep reinforcement learning. To proactively navigate and traverse various terrains, active use of visual perception becomes indispensable, and this work aims to exploit the use of sparse visual observations to achieve perceptual locomotion over a range of commonly seen bumps, ramps, and stairs in human-centred environments. We first formulate the selection of minimal visual input that can represent the uneven surfaces of interest, and propose a learning framework that integrates such exteroceptive and proprioceptive data. We specifically select state observations and design a training curriculum to learn feedback control policies more effectively over a range of different terrains. Using an extensive benchmark, we validate the learned policy in tasks that require omnidirectional walking over flat ground and forward locomotion over terrains with obstacles, showing a high success rate of traversal. Particularly, the robot performs autonomous perceptual locomotion with minimal visual perception using depth measurements, which are easily available from a Lidar or RGB-D sensor, and successfully demonstrates robust ascent and descent over high stairs of 20 cm step height, i.e., 50% of its leg length.
翻訳日:2021-09-30 14:39:27 公開日:2021-09-28
# 等角予測を用いた試料有効安全保証

Sample-Efficient Safety Assurances using Conformal Prediction ( http://arxiv.org/abs/2109.14082v1 )

ライセンス: Link先を確認
Rachel Luo, Shengjia Zhao, Jonathan Kuck, Boris Ivanovic, Silvio Savarese, Edward Schmerling, Marco Pavone(参考訳) 高度なロボットアプリケーションで機械学習モデルをデプロイする場合、安全でない状況を検出する能力は不可欠である。 早期警報システムは、安全でない状況が差し迫っている場合(修正措置がない場合)に警告を提供することができる。 安全性を確実に向上させるためには、これらの警告システムは証明可能な偽陰性率を持つべきである。 本研究では,コンフォメーション予測として知られる統計的推論手法と,ロボット/環境ダイナミクスのシミュレータを組み合わせることにより,警告システムをチューニングし,最低1/1/1のepsilon$データポイントを用いて,$\epsilon$偽陰性率を実現するための枠組みを提案する。 我々は,ドライバ警告システムとロボット把握アプリケーションに適用し,極めて少ないデータを用いて,保証された偽陰性率と低い偽検出(陽性)率を実証した。

When deploying machine learning models in high-stakes robotics applications, the ability to detect unsafe situations is crucial. Early warning systems can provide alerts when an unsafe situation is imminent (in the absence of corrective action). To reliably improve safety, these warning systems should have a provable false negative rate; i.e. of the situations that are unsafe, fewer than $\epsilon$ will occur without an alert. In this work, we present a framework that combines a statistical inference technique known as conformal prediction with a simulator of robot/environment dynamics, in order to tune warning systems to provably achieve an $\epsilon$ false negative rate using as few as $1/\epsilon$ data points. We apply our framework to a driver warning system and a robotic grasping application, and empirically demonstrate guaranteed false negative rate and low false detection (positive) rate using very little data.
翻訳日:2021-09-30 14:39:01 公開日:2021-09-28
# ウイルス性肺炎のct画像の定量的解析のための枠組み:新型コロナおよび非共生患者における放射線学的特徴

A framework for quantitative analysis of Computed Tomography images of viral pneumonitis: radiomic features in COVID and non-COVID patients ( http://arxiv.org/abs/2109.13931v1 )

ライセンス: Link先を確認
Giulia Zorzi, Luca Berta, Stefano Carrazza, Alberto Torresin(参考訳) 目的:covid-19パンデミック時に実施した臨床データ収集とct画像処理のパイプラインを最適化し,ウイルス性肺炎の異なる人工知能モデルを開発すること。 方法】Swab陽性患者の胸部CT画像1028枚を肺抽出のために自動的に分割した。 Python言語で開発されたガウスモデルを用いて、各画像の両肺および4つの幾何学的区分における肺CTナンバーのヒストグラム分布から、肺の正常および異常部分の定量的な測定値(QM)を算出した。 さらにPyRadiomic toolsを用いて両側肺から第1,第2次放射線学的特徴(RF)を抽出した。 ウイルス性肺炎 (n=646) と非共発性 (n=382) のイメージを識別する4種類の多層パーセプトロン (mlp) 分類器の開発にqmとrfを用いた。 結果: 肺CTヒストグラムに応用したガウスモデルでは健常者の94%が正常であった。 その結果、新型コロナウイルスの診断モデルの精度は、受信者の動作曲線の積分値である 0.76-0.87 の範囲で向上した。 一階と二階のrfに基づくモデルに最高の診断性能が関連しており、ラッソ回帰後の21の関連特徴と、4倍のクロス検証結果の後に 0.81$\pm$0.02 の精度が得られた: これらの結果が1つのセンターからct画像を用いて得られたにもかかわらず、ct画像から有用な定量的指標を抽出するためのプラットフォームが開発され、最適化された。 新型コロナウイルスと非ウイルス性肺炎を分類する人工知能に基づく4つのモデルを開発し、総合的な診断性能の比較を行った。

Purpose: to optimize a pipeline of clinical data gathering and CT images processing implemented during the COVID-19 pandemic crisis and to develop artificial intelligence model for different of viral pneumonia. Methods: 1028 chest CT image of patients with positive swab were segmented automatically for lung extraction. A Gaussian model developed in Python language was applied to calculate quantitative metrics (QM) describing well-aerated and ill portions of the lungs from the histogram distribution of lung CT numbers in both lungs of each image and in four geometrical subdivision. Furthermore, radiomic features (RF) of first and second order were extracted from bilateral lungs using PyRadiomic tools. QM and RF were used to develop 4 different Multi-Layer Perceptron (MLP) classifier to discriminate images of patients with COVID (n=646) and non-COVID (n=382) viral pneumonia. Results: The Gaussian model applied to lung CT histogram correctly described healthy parenchyma 94% of the patients. The resulting accuracy of the models for COVID diagnosis were in the range 0.76-0.87, as the integral of the receiver operating curve. The best diagnostic performances were associated to the model based on RF of first and second order, with 21 relevant features after LASSO regression and an accuracy of 0.81$\pm$0.02 after 4-fold cross validation Conclusions: Despite these results were obtained with CT images from a single center, a platform for extracting useful quantitative metrics from CT images was developed and optimized. Four artificial intelligence-based models for classifying patients with COVID and non-COVID viral pneumonia were developed and compared showing overall good diagnostic performances
翻訳日:2021-09-30 14:35:59 公開日:2021-09-28
# 最適化によるニューラルネットワークの局所的修復

Local Repair of Neural Networks Using Optimization ( http://arxiv.org/abs/2109.14041v1 )

ライセンス: Link先を確認
Keyvan Majd, Siyu Zhou, Heni Ben Amor, Georgios Fainekos, and Sriram Sankaranarayanan(参考訳) 本稿では,事前学習されたフィードフォワードニューラルネットワーク(nn)を修復し,その特性を満足する枠組みを提案する。 我々は、対象の入力ドメイン上でnnの出力に制約を課す述語の集合としてプロパティを定式化する。 nn修復問題を混合整数二次プログラム(miqp)として定義し、与えられた述語に対応する単層の重みを調整し、元の訓練領域上で元の損失関数を最小化する。 本稿では,アフィン変換のバウンダリング,誤分類NNの修正,NNコントローラの入力のバウンダリングにおけるフレームワークの適用例を示す。

In this paper, we propose a framework to repair a pre-trained feed-forward neural network (NN) to satisfy a set of properties. We formulate the properties as a set of predicates that impose constraints on the output of NN over the target input domain. We define the NN repair problem as a Mixed Integer Quadratic Program (MIQP) to adjust the weights of a single layer subject to the given predicates while minimizing the original loss function over the original training domain. We demonstrate the application of our framework in bounding an affine transformation, correcting an erroneous NN in classification, and bounding the inputs of a NN controller.
翻訳日:2021-09-30 14:35:12 公開日:2021-09-28
# (参考訳) 偽物による差別的帰属 [全文訳有]

Discriminative Attribution from Counterfactuals ( http://arxiv.org/abs/2109.13412v1 )

ライセンス: CC BY 4.0
Nils Eckstein, Alexander S. Bates, Gregory S.X.E. Jefferis, Jan Funke(参考訳) 本稿では,特徴帰属と反事実説明を組み合わせて,クラス間で最も識別的な特徴を強調する帰属マップを生成する手法を提案する。 本手法は,特徴帰属法の性能を客観的に定量的に評価することで,潜在的なオブザーババイアスを防止できることを示す。 提案手法を,挑戦的な人工データセットと実世界の生物データを含む3つの多様なデータセットで評価する。 従来の帰属法よりも強調特徴がかなり差別的であることを定量的に定性的に示し、このタイプの説明はディープニューラルネットワークが学習した微細なクラス差を理解するのに適していると論じる。

We present a method for neural network interpretability by combining feature attribution with counterfactual explanations to generate attribution maps that highlight the most discriminative features between pairs of classes. We show that this method can be used to quantitatively evaluate the performance of feature attribution methods in an objective manner, thus preventing potential observer bias. We evaluate the proposed method on three diverse datasets, including a challenging artificial dataset and real-world biological data. We show quantitatively and qualitatively that the highlighted features are substantially more discriminative than those extracted using conventional attribution methods and argue that this type of explanation is better suited for understanding fine grained class differences as learned by a deep neural network.
翻訳日:2021-09-30 02:50:03 公開日:2021-09-28
# (参考訳) 画像認識のためのディープニューラルネットワーク領域適応手法の評価 [全文訳有]

Evaluation of Deep Neural Network Domain Adaptation Techniques for Image Recognition ( http://arxiv.org/abs/2109.13420v1 )

ライセンス: CC BY 4.0
Alan Preciado-Grijalva, Venkata Santosh Sai Ramireddy Muthireddy(参考訳) ディープネットワークは、与えられた(ソース)ラベル付きデータセットから特徴を抽出するのに効率的であることがよく証明されている。 しかし、しばしば異なる基盤分布を持つ他の(ターゲット)データセットにうまく一般化できるとは限らない。 本稿では,DeepCoRAL,DeepDomai nConfusion,CDAN,CDAN +Eの4つの領域適応手法について検討する。 これらのテクニックは、トレーニングフェーズ中にターゲットデータセットがラベルを持っていないため、教師なしである。 Office-31データセットのモデル性能を評価する。 このレポートのgithubリポジトリへのリンクは、https://github.com/a grija9/deep-unsuperv ised-domain-adaptati onにある。

It has been well proved that deep networks are efficient at extracting features from a given (source) labeled dataset. However, it is not always the case that they can generalize well to other (target) datasets which very often have a different underlying distribution. In this report, we evaluate four different domain adaptation techniques for image classification tasks: DeepCORAL, DeepDomainConfusion, CDAN and CDAN+E. These techniques are unsupervised given that the target dataset dopes not carry any labels during training phase. We evaluate model performance on the office-31 dataset. A link to the github repository of this report can be found here: https://github.com/a grija9/Deep-Unsuperv ised-Domain-Adaptati on.
翻訳日:2021-09-30 02:31:34 公開日:2021-09-28
# (参考訳) SYGMA:オーバー知識ベースに対する一般化可能なモジュール質問応答システム [全文訳有]

SYGMA: System for Generalizable Modular Question Answering OverKnowledge Bases ( http://arxiv.org/abs/2109.13430v1 )

ライセンス: CC BY 4.0
Sumit Neelam, Udit Sharma, Hima Karanam, Shajith Ikbal, Pavan Kapanipathi, Ibrahim Abdelaziz, Nandana Mihindukulasooriya, Young-Suk Lee, Santosh Srivastava, Cezar Pendus, Saswati Dana, Dinesh Garg, Achille Fokoue, G P Shrivatsa Bhargav, Dinesh Khandelwal, Srinivas Ravishankar, Sairam Gurajada, Maria Chang, Rosario Uceda-Sosa, Salim Roukos, Alexander Gray, Guilherme LimaRyan Riegel, Francois Luus, L Venkata Subramaniam(参考訳) 知識ベース質問回答(KBQA)タスクは、複雑な推論が重要な研究方向として現れている。 しかし、ほとんどのKBQAシステムは一般化性に苦しむ。 (a) データセットとシステムの両方が主にマルチホップ推論に重点を置いている複数の推論タイプ、 (b) KBQAアプローチが1つの知識ベースに特異に調整される複数の知識ベースにまたがる。 本稿では,複数の知識ベースと複数のリアソニングタイプにまたがる汎用化を容易にするモジュール型アプローチであるSYGMAについて述べる。 具体的には、SYGMAは3つのハイレベルモジュールを含む。 1)kbにまたがるkb非依存な質問理解モジュール 2)追加の理由付け型をサポートするための規則 3) kb-specific question mapping と answeringmodule は kb-specific aspects of the answer ex-traction に対応する。 我々は,dbpedia と wikidata という2つの異なる知識ベースに属するデータセットを回避し,システムの有効性を示す。 さらに,本論文で紹介したWikidataのマルチホップレゾニングデータセットと,新たなテンポラルKBQAベンチマークデータセットであるTempQA-WD1について,拡張性を示す。 一般化可能なアプローチは、マルチホップと時間領域共振の両方を必要とするDBpediaおよびWikidata上の複数のデータセットにおいて、より良い競合性能を持つことを示す。

Knowledge Base Question Answering (KBQA) tasks that in-volve complex reasoning are emerging as an important re-search direction. However, most KBQA systems struggle withgeneralizability , particularly on two dimensions: (a) acrossmultiple reasoning types where both datasets and systems haveprimarily focused on multi-hop reasoning, and (b) across mul-tiple knowledge bases, where KBQA approaches are specif-ically tuned to a single knowledge base. In this paper, wepresent SYGMA, a modular approach facilitating general-izability across multiple knowledge bases and multiple rea-soning types. Specifically, SYGMA contains three high levelmodules: 1) KB-agnostic question understanding module thatis common across KBs 2) Rules to support additional reason-ing types and 3) KB-specific question mapping and answeringmodule to address the KB-specific aspects of the answer ex-traction. We demonstrate effectiveness of our system by evalu-ating on datasets belonging to two distinct knowledge bases,DBpedia and Wikidata. In addition, to demonstrate extensi-bility to additional reasoning types we evaluate on multi-hopreasoning datasets and a new Temporal KBQA benchmarkdataset on Wikidata, namedTempQA-WD1, introduced in thispaper. We show that our generalizable approach has bettercompetetive performance on multiple datasets on DBpediaand Wikidata that requires both multi-hop and temporal rea-soning
翻訳日:2021-09-30 02:20:19 公開日:2021-09-28
# (参考訳) DynG2G:時間グラフの効率的な確率グラフ埋め込み法 [全文訳有]

DynG2G: An Efficient Stochastic Graph Embedding Method for Temporal Graphs ( http://arxiv.org/abs/2109.13441v1 )

ライセンス: CC BY 4.0
Mengjia Xu, Apoorva Vikram Singh, and George Em Karniadakis(参考訳) 近年,複雑な時間グラフに対して低次元グラフ表現を高精度に学習できることから,動的グラフ埋め込みが注目されている。 しかし、最近の進歩は主に静的グラフに対する決定論的「ベクトル」としてのノード埋め込みの学習に焦点が当てられているが、キーグラフの時間的ダイナミクスや潜在空間におけるノード埋め込みに関連する不確実性は無視されている。 本稿では,ノードトリプレットに基づくコントラスト損失を訓練したインダクティブフィードフォワードエンコーダを適用する,効率的な確率的動的グラフ埋め込み法(dyng2g)を提案する。 タイムスタンプ毎の各ノードは、潜時空間における時間依存確率的多変量ガウス分布として符号化されるので、不確実性をオンザフライで埋め込むノードを定量化できる。 96ノードから87,626、13,398エッジから4,870,863まで、そしてダイナミクスの多様性を表す8つの異なるベンチマークを採用しました。 我々は、DynG2Gが時間ノード埋め込みをキャプチャする上で、新しい最先端性能を実現する8つの動的グラフベンチマークに関する広範な実験を通して実証する。 また,dyng2gは,動的システムの固有次元を経時的に定量化する上で重要な役割を果たす,ノード埋め込みの不確かさを予測できることを示した。 最適埋め込み次元 l_o$ と不確かさの有効次元 d_u$ の普遍関係を求め、すべての場合に対して $l_o=d_u$ を推定する。 これは、dyng2gで採用する不確実性定量化アプローチが、各タイムスタンプにおけるグラフの多様な性質と構成にもかかわらず、進化するグラフのダイナミクスの固有次元を正確に捉えていることを意味する。 さらに、この$L_0 - D_u$相関は、$L \ge D_u$を設定して各タイムスタンプにおける最適埋め込みサイズを適応的に選択するための明確な経路を提供する。

Dynamic graph embedding has gained great attention recently due to its capability of learning low dimensional graph representations for complex temporal graphs with high accuracy. However, recent advances mostly focus on learning node embeddings as deterministic "vectors" for static graphs yet disregarding the key graph temporal dynamics and the evolving uncertainties associated with node embedding in the latent space. In this work, we propose an efficient stochastic dynamic graph embedding method (DynG2G) that applies an inductive feed-forward encoder trained with node triplet-based contrastive loss. Every node per timestamp is encoded as a time-dependent probabilistic multivariate Gaussian distribution in the latent space, hence we can quantify the node embedding uncertainty on-the-fly. We adopted eight different benchmarks that represent diversity in size (from 96 nodes to 87,626 and from 13,398 edges to 4,870,863) and diversity in dynamics. We demonstrate via extensive experiments on these eight dynamic graph benchmarks that DynG2G achieves new state-of-the-art performance in capturing the underlying temporal node embeddings. We also demonstrate that DynG2G can predict the evolving node embedding uncertainty, which plays a crucial role in quantifying the intrinsic dimensionality of the dynamical system over time. We obtain a universal relation of the optimal embedding dimension, $L_o$, versus the effective dimensionality of uncertainty, $D_u$, and we infer that $L_o=D_u$ for all cases. This implies that the uncertainty quantification approach we employ in the DynG2G correctly captures the intrinsic dimensionality of the dynamics of such evolving graphs despite the diverse nature and composition of the graphs at each timestamp. Moreover, this $L_0 - D_u$ correlation provides a clear path to select adaptively the optimum embedding size at each timestamp by setting $L \ge D_u$.
翻訳日:2021-09-30 02:02:54 公開日:2021-09-28
# (参考訳) DNNはどの外部分布オブジェクト指向を一般化できるのか? [全文訳有]

To Which Out-Of-Distribution Object Orientations Are DNNs Capable of Generalizing? ( http://arxiv.org/abs/2109.13445v1 )

ライセンス: CC BY 4.0
Avi Cooper, Xavier Boix, Daniel Harari, Spandan Madan, Hanspeter Pfister, Tomotake Sasaki, Pawan Sinha(参考訳) Deep Neural Networks(DNN)は、トレーニングデータの分布外の方向のオブジェクトを認識できる。 out-of-distribution (ood) の向きはよく理解されていない。 ヒトの場合、行動研究は認識精度がオードの向きによって異なることを示し、そこでは一般化が他の向きよりもはるかに優れていることを示した。 対照的に、DNNでは、OoD配向間で一般化能力がどのように分散されているかは不明である。 本稿では,DNN の成功パターンと失敗パターンを OoD の向きによって体系的に調べることにより,DNN の一般化能力の限界について検討する。 我々は直感的で制御されながら難しい学習パラダイムを使用し、オブジェクトカテゴリのいくつかのインスタンスは幾何的に制限された向きでしか見えず、他のインスタンスはあらゆる方向で見えます。 データ多様性の影響は、トレーニングセットのすべての方向に見られるインスタンス数の増加によっても調べられる。 本稿では,DNNの一般化能力と代表アーキテクチャ(ResNet,Inception,De nseNet,CORnet)の制約を包括的に分析する。 DNNは2Dのように見えるオブジェクトのインスタンスにのみ一般化できるのです。 面内、分布方向の回転。

The capability of Deep Neural Networks (DNNs) to recognize objects in orientations outside the distribution of the training data, ie. out-of-distribution (OoD) orientations, is not well understood. For humans, behavioral studies showed that recognition accuracy varies across OoD orientations, where generalization is much better for some orientations than for others. In contrast, for DNNs, it remains unknown how generalization abilities are distributed among OoD orientations. In this paper, we investigate the limitations of DNNs' generalization capacities by systematically inspecting patterns of success and failure of DNNs across OoD orientations. We use an intuitive and controlled, yet challenging learning paradigm, in which some instances of an object category are seen at only a few geometrically restricted orientations, while other instances are seen at all orientations. The effect of data diversity is also investigated by increasing the number of instances seen at all orientations in the training set. We present a comprehensive analysis of DNNs' generalization abilities and limitations for representative architectures (ResNet, Inception, DenseNet and CORnet). Our results reveal an intriguing pattern -- DNNs are only capable of generalizing to instances of objects that appear like 2D, ie. in-plane, rotations of in-distribution orientations.
翻訳日:2021-09-30 01:41:14 公開日:2021-09-28
# (参考訳) SiamEvent: Siamese Networksによるエッジ認識類似性学習によるイベントベースのオブジェクトトラッキング [全文訳有]

SiamEvent: Event-based Object Tracking via Edge-aware Similarity Learning with Siamese Networks ( http://arxiv.org/abs/2109.13456v1 )

ライセンス: CC BY 4.0
Yujeong Chae, Lin Wang, and Kuk-Jin Yoon(参考訳) イベントカメラは、ピクセルごとの強度変化を認識し、非同期イベントストリームを出力する新しいセンサーであり、ハイダイナミックレンジ(HDR)やモーションブラーなど、従来のカメラよりも多くの利点がある。 イベントのみを動作補償や予測によってオブジェクト追跡に使用できることが示されている。 しかし、既存のメソッドは、ターゲットは常に動き、スタンドアロンのオブジェクトであると仮定する。 さらに、停止した非独立移動物体を固定シーンで追跡することができない。 本稿では,エッジアウェアな類似性学習によるsiameseネットワークを用いた,新たなイベントベースのオブジェクトトラッキングフレームワークであるsiameventを提案する。 重要なことは、最も類似したエッジ構造を持つ部分を見つけるために、2つのタイムスタンプで組込みイベントを相関付け、ターゲットエッジの類似性を計算することを提案する。 siameseネットワークは、最も類似度の高い部分を見つけることで任意の目標エッジを追跡することができる。 これにより、独立したスタンドアロン移動オブジェクトだけでなく、カメラやシーンのさまざまな設定にもイベントベースのオブジェクトトラッキングが適用できるようになる。 また,SiamEventのドリフト問題を防止するため,ターゲットエッジの初期化とエッジ検出器も提案した。 最後に、SiamEventをトレーニングし、評価するために、さまざまな合成および実シーンを含むオープンデータセットを構築しました。 大規模な実験により、SiamEventは現実世界のシーンのベースラインよりも最大15%のトラッキングパフォーマンス向上を実現し、挑戦的なHDRおよびモーションブラー条件下ではより堅牢なトラッキングパフォーマンスを実現している。

Event cameras are novel sensors that perceive the per-pixel intensity changes and output asynchronous event streams, showing lots of advantages over traditional cameras, such as high dynamic range (HDR) and no motion blur. It has been shown that events alone can be used for object tracking by motion compensation or prediction. However, existing methods assume that the target always moves and is the stand-alone object. Moreover, they fail to track the stopped non-independent moving objects on fixed scenes. In this paper, we propose a novel event-based object tracking framework, called SiamEvent, using Siamese networks via edge-aware similarity learning. Importantly, to find the part having the most similar edge structure of target, we propose to correlate the embedded events at two timestamps to compute the target edge similarity. The Siamese network enables tracking arbitrary target edge by finding the part with the highest similarity score. This extends the possibility of event-based object tracking applied not only for the independent stand-alone moving objects, but also for various settings of the camera and scenes. In addition, target edge initialization and edge detector are also proposed to prevent SiamEvent from the drifting problem. Lastly, we built an open dataset including various synthetic and real scenes to train and evaluate SiamEvent. Extensive experiments demonstrate that SiamEvent achieves up to 15% tracking performance enhancement than the baselines on the real-world scenes and more robust tracking performance in the challenging HDR and motion blur conditions.
翻訳日:2021-09-30 01:28:03 公開日:2021-09-28
# (参考訳) 微分方程式に対するマルチウェーブレットに基づく演算子学習

Multiwavelet-based Operator Learning for Differential Equations ( http://arxiv.org/abs/2109.13459v1 )

ライセンス: CC BY 4.0
Gaurav Gupta, Xiongye Xiao, Paul Bogdan(参考訳) 偏微分方程式の解は、入力と解空間の間の逆作用素写像を計算することによって得られる。 この目的に向けて,きめ細かいウェーブレットを用いて関連する演算子のカーネルを圧縮する \textit{multiwavelet-based neural operator learning scheme} を導入する。 逆マルチウェーブレットフィルタを明示的に埋め込み、固定されたマルチウェーブレット多項式基底へのカーネルの投影を学習する。 投影されたカーネルはマルチウェーブレット変換の繰り返し計算を用いて複数のスケールで訓練される。 これにより、様々なスケールで複雑な依存関係を学習し、解決に依存しないスキームが得られる。 先行研究と比較して,数値的に効率的な表現を可能にする演算子のカーネルの基本特性を利用する。 我々はKdV方程式、Burgers方程式、Darcy Flow、Navier-Stokes方程式について実験を行う。 既存のニューラルオペレータのアプローチと比較すると,このモデルは精度が著しく向上し,様々なデータセットにおいて最先端を実現する。 時変方程式に対しては、提案手法は2x-10x$ (0.0018$ (0.0033$) のバーガーズ方程式 (kdv) に対して相対的に l2$ の誤差を示す。 関数空間間のマッピングを学習することにより,低分解能データから学習した後,高分解能入力の解を求めることができる。

The solution of a partial differential equation can be obtained by computing the inverse operator map between the input and the solution space. Towards this end, we introduce a \textit{multiwavelet-based neural operator learning scheme} that compresses the associated operator's kernel using fine-grained wavelets. By explicitly embedding the inverse multiwavelet filters, we learn the projection of the kernel onto fixed multiwavelet polynomial bases. The projected kernel is trained at multiple scales derived from using repeated computation of multiwavelet transform. This allows learning the complex dependencies at various scales and results in a resolution-independe nt scheme. Compare to the prior works, we exploit the fundamental properties of the operator's kernel which enable numerically efficient representation. We perform experiments on the Korteweg-de Vries (KdV) equation, Burgers' equation, Darcy Flow, and Navier-Stokes equation. Compared with the existing neural operator approaches, our model shows significantly higher accuracy and achieves state-of-the-art in a range of datasets. For the time-varying equations, the proposed method exhibits a ($2X-10X$) improvement ($0.0018$ ($0.0033$) relative $L2$ error for Burgers' (KdV) equation). By learning the mappings between function spaces, the proposed method has the ability to find the solution of a high-resolution input after learning from lower-resolution data.
翻訳日:2021-09-30 01:08:48 公開日:2021-09-28
# (参考訳) 伝達学習に基づく知的故障診断のための進化的深層ニューラルネットワーク [全文訳有]

Transfer Learning based Evolutionary Deep Neural Network for Intelligent Fault Diagnosis ( http://arxiv.org/abs/2109.13479v1 )

ライセンス: CC BY 4.0
Arun K. Sharma, Nishchal K. Verma(参考訳) 障害診断のためのディープニューラルネットワーク(DNN)の性能はネットワークアーキテクチャに大きく依存している。 また、試験ケースマシンで訓練されたモデルを、可変動作条件下で動作する工業機からテストデータセットに使用すれば、診断性能が低下する。 したがって,産業機械の知的障害診断には2つの課題がある。 (i)適切なdnnアーキテクチャの選択及び (ii)動作条件の変更に対するドメイン適応。 そこで我々は,与えられたデータセットに対して最適なDNNアーキテクチャを求める進化的Net2Net変換(EvoNet2Net)を提案する。 非支配的なソート遺伝的アルゴリズムIIは、DNNアーキテクチャの深さと幅を最適化するために使用されている。 我々は、より高速な進化のための移動学習に基づくフィットネス評価スキームを定式化した。 ターゲットドメイン内のデータパターンをすばやく学習するために、ドメイン適応の概念を使用する。 また、染色体にコードされた深層ニューラルネットワークの深さと幅を最適化するためのハイブリッドクロスオーバー技術も導入した。 我々は,ケース・ウェスタン・リザーブ大学データセットとパダーボーン大学データセットを用いて,診断性能,分類精度をほぼ100%に向上できる最適なアーキテクチャ選択のためのフレームワークの有効性を実証した。

The performance of a deep neural network (DNN) for fault diagnosis is very much dependent on the network architecture. Also, the diagnostic performance is reduced if the model trained on a laboratory case machine is used on a test dataset from an industrial machine running under variable operating conditions. Thus there are two challenges for the intelligent fault diagnosis of industrial machines: (i) selection of suitable DNN architecture and (ii) domain adaptation for the change in operating conditions. Therefore, we propose an evolutionary Net2Net transformation (EvoNet2Net) that finds the best suitable DNN architecture for the given dataset. Nondominated sorting genetic algorithm II has been used to optimize the depth and width of the DNN architecture. We have formulated a transfer learning-based fitness evaluation scheme for faster evolution. It uses the concept of domain adaptation for quick learning of the data pattern in the target domain. Also, we have introduced a hybrid crossover technique for optimization of the depth and width of the deep neural network encoded in a chromosome. We have used the Case Western Reserve University dataset and Paderborn university dataset to demonstrate the effectiveness of the proposed framework for the selection of the best suitable architecture capable of excellent diagnostic performance, classification accuracy almost up to 100\%.
翻訳日:2021-09-30 01:07:36 公開日:2021-09-28
# (参考訳) 多言語音声からインテントの分類のための教師学習アプローチの探索 [全文訳有]

Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification ( http://arxiv.org/abs/2109.13486v1 )

ライセンス: CC BY 4.0
Bidisha Sharma, Maulik Madhavi, Xuehao Zhou, Haizhou Li(参考訳) エンド・ツー・エンドの音声とインテントの分類は、テキストと音声の両方から情報を抽出する際の利点を示している。 本稿では,複数の言語をサポートするエンドツーエンドシステムを開発する手法について検討する。 多言語音声コーパスの不足を克服するために,事前学習した多言語自然言語処理モデルから知識を利用する。 トランスフォーマー(mbert)モデルからの多言語双方向エンコーダ表現は、複数の言語で訓練され、多言語シナリオでうまく機能することが期待される。 本研究では,mBERTモデルから十分な情報を抽出し,多言語音声モデルを訓練するために,教師による学習手法を用いる。 特に,英マンダリンテキストコーパスから生成した合成音声を用いて,多言語意図分類モデルの解析と訓練を行う。 また,教師学習アプローチは,実践的な多言語シナリオにおいて,従来のエンドツーエンド(89.40%)の意図分類手法よりも優れた性能(91.02%)が得られることを示した。

End-to-end speech-to-intent classification has shown its advantage in harvesting information from both text and speech. In this paper, we study a technique to develop such an end-to-end system that supports multiple languages. To overcome the scarcity of multi-lingual speech corpus, we exploit knowledge from a pre-trained multi-lingual natural language processing model. Multi-lingual bidirectional encoder representations from transformers (mBERT) models are trained on multiple languages and hence expected to perform well in the multi-lingual scenario. In this work, we employ a teacher-student learning approach to sufficiently extract information from an mBERT model to train a multi-lingual speech model. In particular, we use synthesized speech generated from an English-Mandarin text corpus for analysis and training of a multi-lingual intent classification model. We also demonstrate that the teacher-student learning approach obtains an improved performance (91.02%) over the traditional end-to-end (89.40%) intent classification approach in a practical multi-lingual scenario.
翻訳日:2021-09-30 00:49:18 公開日:2021-09-28
# (参考訳) 物体検出における回転不変性に向けて [全文訳有]

Towards Rotation Invariance in Object Detection ( http://arxiv.org/abs/2109.13488v1 )

ライセンス: CC BY-SA 4.0
Agastya Kalra, Guy Stoppi, Bradley Brown, Rishav Agarwal and Achuta Kadambi(参考訳) 回転増強は一般に、オブジェクト検出を除いて、モデルの回転に対する不変/等価性を改善する。 物体検出では形状が分かっていないため、回転はラベルの曖昧さを生み出す。 ボックスラベルローテーションのデファクト法であるLargest Box Methodは,非常に大きなラベルを生成することで,性能が低下し,ローテーションを全く使わない場合よりも性能が低下することを示す。 本稿では,数行のコードで実装可能な回転拡張法を提案する。 まず,ラベル精度の微分可能近似を作成し,楕円を囲む境界ボックスの軸配向が最適であることを示す。 次に、Rotation Uncertainty (RU) Lossを導入し、モデルがラベルの不確実性に適応できるようにする。 このアプローチは、COCO、PascalVOC、Transparent Object Bin Pickingを含む5つの異なるデータセットにおいて、AP、AP50、AP75で測定された1段アーキテクチャと2段アーキテクチャの回転不変性を改善する。 コードは \url{https://github.com/a kasha-imaging/iccv20 21} で入手できる。

Rotation augmentations generally improve a model's invariance/equivaria nce to rotation - except in object detection. In object detection the shape is not known, therefore rotation creates a label ambiguity. We show that the de-facto method for bounding box label rotation, the Largest Box Method, creates very large labels, leading to poor performance and in many cases worse performance than using no rotation at all. We propose a new method of rotation augmentation that can be implemented in a few lines of code. First, we create a differentiable approximation of label accuracy and show that axis-aligning the bounding box around an ellipse is optimal. We then introduce Rotation Uncertainty (RU) Loss, allowing the model to adapt to the uncertainty of the labels. On five different datasets (including COCO, PascalVOC, and Transparent Object Bin Picking), this approach improves the rotational invariance of both one-stage and two-stage architectures when measured with AP, AP50, and AP75. The code is available at \url{https://github.com/a kasha-imaging/ICCV20 21}.
翻訳日:2021-09-30 00:34:34 公開日:2021-09-28
# (参考訳) VoxCelebによる年齢・性別認識 [全文訳有]

VoxCeleb Enrichment for Age and Gender Recognition ( http://arxiv.org/abs/2109.13510v1 )

ライセンス: CC BY 4.0
Khaled Hechmi, Trung Ngo Trong, Ville Hautamaki, Tomi Kinnunen(参考訳) VoxCelebデータセットは話者認識研究で広く使われている。 私たちの仕事は2つの目的がある。 まず、話者年齢ラベルと(代替)話者性別のアノテーションを提供する。 第2に,異なる特徴と分類器を用いた年齢・性別認識モデルを構築し,メタデータの利用を実証する。 我々は、異なる有名人データベースに問い合わせ、年齢と性別のラベルを導出するためにコンセンサスルールを適用します。 また、オリジナルVoxCelebの性別ラベルと当社のラベルを比較して、オリジナルVoxCelebのデータに誤ラベルされている可能性のあるレコードを特定します。 モデル面では、性別と年齢を認識するための複数の特徴とモデルに関する総合的研究を設計する。 i-vector特徴を用いたベストシステムは,ロジスティック回帰を用いた性別認識タスクにおいて0.9829のF1スコアを達成し,年齢回帰における平均絶対誤差(MAE)は9.443歳であった。 これは、wild型音声データからの年齢推定における課題を示す。

VoxCeleb datasets are widely used in speaker recognition studies. Our work serves two purposes. First, we provide speaker age labels and (an alternative) annotation of speaker gender. Second, we demonstrate the use of this metadata by constructing age and gender recognition models with different features and classifiers. We query different celebrity databases and apply consensus rules to derive age and gender labels. We also compare the original VoxCeleb gender labels with our labels to identify records that might be mislabeled in the original VoxCeleb data. On modeling side, we design a comprehensive study of multiple features and models for recognizing gender and age. Our best system, using i-vector features, achieved an F1-score of 0.9829 for gender recognition task using logistic regression, and the lowest mean absolute error (MAE) in age regression, 9.443 years, is obtained with ridge regression. This indicates challenge in age estimation from in-the-wild style speech data.
翻訳日:2021-09-30 00:20:20 公開日:2021-09-28
# (参考訳) 畳み込み形形状変換:時系列形状変換の新しいアプローチ [全文訳有]

Convolutional Shapelet Transform: A new approach for time series shapelets ( http://arxiv.org/abs/2109.13514v1 )

ライセンス: CC BY 4.0
Antoine Guillaume, Christel Vrain, Elloumi Wael(参考訳) シェープレットベースのアルゴリズムは解釈の容易さから時系列分類に広く用いられているが、現在では特に畳み込みカーネルを用いた手法により性能が優れており、高いスケーラビリティを保ちながら最先端のパフォーマンスを達成できる。 本稿では,拡張の概念を含む時系列シェープレットの新しい定式化と,畳み込みカーネルによって識別される識別情報を対象とする畳み込みカーネルに基づくシェープレット抽出法を提案する。 108個のデータセットで行った実験から,本手法はシェープレットアルゴリズムの最先端性を向上し,畳み込みカーネルによる結果の解釈に有効であることが示された。

Shapelet-based algorithms are widely used for time series classification because of their ease of interpretation, but they are currently outperformed, notably by methods using convolutional kernels, capable of reaching state-of-the-art performance while being highly scalable. We present a new formulation of time series shapelets including the notion of dilation, and a shapelet extraction method based on convolutional kernels, which is able to target the discriminant information identified by convolutional kernels. Experiments performed on 108 datasets show that our method improves on the state-of-the-art for shapelet algorithms, and we show that it can be used to interpret results from convolutional kernels.
翻訳日:2021-09-30 00:09:31 公開日:2021-09-28
# (参考訳) VIPriors Data-Efficient Image Classification Challengeのための強力なベースライン [全文訳有]

A Strong Baseline for the VIPriors Data-Efficient Image Classification Challenge ( http://arxiv.org/abs/2109.13561v1 )

ライセンス: CC BY 4.0
Bj\"orn Barz, Lorenzo Brigato, Luca Iocchi, Joachim Denzler(参考訳) 限られた量のデータから学ぶことは知性の目印であり、強力な一般化と抽象化のスキルを必要とする。 機械学習の文脈では、多くのドメインにおいてデータ収集やアノテーションは違法に高価であるため、データ効率のよい手法は極めて重要である。 このように、この地域の進歩を促進するための協調的な努力が最近現れ、例えば、専用のワークショップやコンペティションの形で現れた。 一般的なベンチマークに加えて、進捗の測定には強いベースラインが必要です。 本稿では,imagenet-1kのサブサンプリング版であるvipriors challengeデータセットにおける,データ効率の高い画像分類のための強力なベースラインを提案する。 データ効率のよい分類に合わせた手法は一切使用しないが、標準モデルや技術、一般的な競合トリックや徹底的なハイパーパラメータチューニングのみを使用する。 我々のベースラインはVIPriors画像分類データセットで69.7%の精度を達成し、VIPriors 2021チャレンジへの投稿の50%を上回っている。

Learning from limited amounts of data is the hallmark of intelligence, requiring strong generalization and abstraction skills. In a machine learning context, data-efficient methods are of high practical importance since data collection and annotation are prohibitively expensive in many domains. Thus, coordinated efforts to foster progress in this area emerged recently, e.g., in the form of dedicated workshops and competitions. Besides a common benchmark, measuring progress requires strong baselines. We present such a strong baseline for data-efficient image classification on the VIPriors challenge dataset, which is a sub-sampled version of ImageNet-1k with 100 images per class. We do not use any methods tailored to data-efficient classification but only standard models and techniques as well as common competition tricks and thorough hyper-parameter tuning. Our baseline achieves 69.7% accuracy on the VIPriors image classification dataset and outperforms 50% of submissions to the VIPriors 2021 challenge.
翻訳日:2021-09-29 23:53:42 公開日:2021-09-28
# (参考訳) 深部強化学習を用いたUAVアクティブセンシングのための適応形経路計画 [全文訳有]

Adaptive Informative Path Planning Using Deep Reinforcement Learning for UAV-based Active Sensing ( http://arxiv.org/abs/2109.13570v1 )

ライセンス: CC BY 4.0
Julius R\"uckin, Liren Jin, Marija Popovi\'c(参考訳) 航空ロボットは、幅広い環境監視や探査のタスクに利用されるようになっている。 しかし、重要な課題は、最初に未知の環境として取得したデータの情報を最大化する経路を効率的に計画することである。 そこで我々は,深層強化学習(RL)に基づく情報経路計画(IPP)の新たなアプローチを提案する。 近年のrlとロボットアプリケーションとのギャップを埋めるために,モンテカルロ木探索と,情報センシング動作を予測するオフライン学習ニューラルネットワークを組み合わせた手法を提案する。 本稿では,高次元状態空間と大規模動作空間を有するロボット作業に適用可能ないくつかのコンポーネントを提案する。 ミッション中にトレーニングされたネットワークをデプロイすることにより、限られた計算資源を持つ物理プラットフォーム上で、サンプル効率の良いオンラインリプランニングが可能になる。 合成データを用いて評価した結果,既存の情報収集手法と同等に動作し,実行時間を8-10倍に削減した。 本研究では,実世界の地表面温度データを用いて,このフレームワークの性能を検証する。

Aerial robots are increasingly being utilized for a wide range of environmental monitoring and exploration tasks. However, a key challenge is efficiently planning paths to maximize the information value of acquired data as an initially unknown environment is explored. To address this, we propose a new approach for informative path planning (IPP) based on deep reinforcement learning (RL). Bridging the gap between recent advances in RL and robotic applications, our method combines Monte Carlo tree search with an offline-learned neural network predicting informative sensing actions. We introduce several components making our approach applicable for robotic tasks with continuous high-dimensional state spaces and large action spaces. By deploying the trained network during a mission, our method enables sample-efficient online replanning on physical platforms with limited computational resources. Evaluations using synthetic data show that our approach performs on par with existing information-gatherin g methods while reducing runtime by a factor of 8-10. We validate the performance of our framework using real-world surface temperature data from a crop field.
翻訳日:2021-09-29 23:48:17 公開日:2021-09-28
# (参考訳) メタラーニングにおけるマルチモーダリティ:包括的調査 [全文訳有]

Multimodality in Meta-Learning: A Comprehensive Survey ( http://arxiv.org/abs/2109.13576v1 )

ライセンス: CC BY 4.0
Yao Ma, Shilin Zhao, Weixiao Wang, Yaoman Li, Irwin King(参考訳) メタ学習は、従来の機械学習手法よりもデータ効率のよいトレーニングフレームワークとして広く普及している。 しかし、マルチモーダルタスクのような複雑なタスク分布における一般化能力は、十分に研究されていない。 近年,マルチモーダリティに基づくメタラーニングの研究が盛んである。 本調査は,マルチモーダリティに基づくメタラーニングの展望を方法論と応用の観点から概観する。 まず、メタラーニングとマルチモーダリティの定義と、この成長分野における研究課題、例えば、少数ショットやゼロショットのシナリオでのインプットの強化方法、新しいタスクにモデルを一般化する方法などについて定式化する。 次に,マルチモーダルタスクと組み合わせた典型的なメタ学習アルゴリズムを体系的に議論する新しい分類法を提案する。 関連論文の貢献を調査し,分類学的にまとめる。 最後に、この有望な分野に対する潜在的研究の方向性を提案する。

Meta-learning has gained wide popularity as a training framework that is more data-efficient than traditional machine learning methods. However, its generalization ability in complex task distributions, such as multimodal tasks, has not been thoroughly studied. Recently, some studies on multimodality-based meta-learning have emerged. This survey provides a comprehensive overview of the multimodality-based meta-learning landscape in terms of the methodologies and applications. We first formalize the definition of meta-learning and multimodality, along with the research challenges in this growing field, such as how to enrich the input in few-shot or zero-shot scenarios and how to generalize the models to new tasks. We then propose a new taxonomy to systematically discuss typical meta-learning algorithms combined with multimodal tasks. We investigate the contributions of related papers and summarize them by our taxonomy. Finally, we propose potential research directions for this promising field.
翻訳日:2021-09-29 23:32:20 公開日:2021-09-28
# (参考訳) 視覚に基づくRLにおける好奇心の明示 [全文訳有]

Making Curiosity Explicit in Vision-based RL ( http://arxiv.org/abs/2109.13588v1 )

ライセンス: CC BY 4.0
Elie Aljalbout and Maximilian Ulmer and Rudolph Triebel(参考訳) 視覚ベース強化学習(rl)は,画像を主観測対象とする制御課題を解決するための有望な手法である。 最先端のRLアルゴリズムは、特に画像観察の場合、サンプル効率の観点からはまだ苦戦している。 これにより、状態表現学習(SRL)技術をRLパイプラインに統合することに注目が集まるようになった。 この分野での作業は、サンプル効率の大幅な改善、その他のメリットを示している。 しかしながら、このパラダイムを最大限に活用するには、トレーニングに使用するサンプルの品質が重要な役割を果たす。 さらに重要なことに、これらのサンプルの多様性は、視覚ベースのrlのサンプル効率だけでなく、その一般化能力にも影響を及ぼす可能性がある。 本稿では,サンプルの多様性を改善する手法を提案する。 提案手法は,SRL設定を利用してRLアルゴリズムの探索能力を向上させる。 実験の結果,提案手法がすべてのテスト環境のベースラインを上回ることがわかった。 これらの結果は,ベースライン法が苦しむ環境において最も顕著である。 単純な環境でもトレーニングを安定させ,報酬分散を低減し,サンプル効率を向上させる。

Vision-based reinforcement learning (RL) is a promising technique to solve control tasks involving images as the main observation. State-of-the-art RL algorithms still struggle in terms of sample efficiency, especially when using image observations. This has led to an increased attention on integrating state representation learning (SRL) techniques into the RL pipeline. Work in this field demonstrates a substantial improvement in sample efficiency among other benefits. However, to take full advantage of this paradigm, the quality of samples used for training plays a crucial role. More importantly, the diversity of these samples could affect the sample efficiency of vision-based RL, but also its generalization capability. In this work, we present an approach to improve the sample diversity. Our method enhances the exploration capability of the RL algorithms by taking advantage of the SRL setup. Our experiments show that the presented approach outperforms the baseline for all tested environments. These results are most apparent for environments where the baseline method struggles. Even in simple environments, our method stabilizes the training, reduces the reward variance and boosts sample efficiency.
翻訳日:2021-09-29 22:44:07 公開日:2021-09-28
# (参考訳) 探索的状態表現学習 [全文訳有]

Exploratory State Representation Learning ( http://arxiv.org/abs/2109.13596v1 )

ライセンス: CC BY-SA 4.0
Astrid Merckling, Nicolas Perrin-Gilbert, Alexandre Coninx, St\'ephane Doncieux(参考訳) コンパクトで意味のある表現にアクセスできないことは、強化学習(RL)の複雑さを著しく増大させることが知られている。 このため、RLタスクに取り組む前に状態表現学習(SRL)を実行するのに有用である。 しかし、良い状態表現を得ることは、遷移の多様さが観察された場合にのみ可能であるため、特に初期報酬のない環境の場合、難しい探索が必要となる。 本稿では,探索とsrlを並行して解くために,xsrl(exploratory state representation learning)と呼ばれる新しいアプローチを提案する。 一方、コンパクトな状態表現と、その表現から説明不能な情報を取り除くために使用される状態遷移推定器を共同で学習する。 一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-step学習進行ボーナスを加え、発見ポリシーの最大化目標を形成する。 これにより、訓練されたモデルが効果的に学習できる複雑な遷移を求めるポリシーがもたらされる。 実験の結果,この手法は画像観察による課題のある環境の効率的な探索や,RLタスクの学習を著しく加速する状態表現につながることが示された。

Not having access to compact and meaningful representations is known to significantly increase the complexity of reinforcement learning (RL). For this reason, it can be useful to perform state representation learning (SRL) before tackling RL tasks. However, obtaining a good state representation can only be done if a large diversity of transitions is observed, which can require a difficult exploration, especially if the environment is initially reward-free. To solve the problems of exploration and SRL in parallel, we propose a new approach called XSRL (eXploratory State Representation Learning). On one hand, it jointly learns compact state representations and a state transition estimator which is used to remove unexploitable information from the representations. On the other hand, it continuously trains an inverse model, and adds to the prediction error of this model a $k$-step learning progress bonus to form the maximization objective of a discovery policy. This results in a policy that seeks complex transitions from which the trained models can effectively learn. Our experimental results show that the approach leads to efficient exploration in challenging environments with image observations, and to state representations that significantly accelerate learning in RL tasks.
翻訳日:2021-09-29 22:36:21 公開日:2021-09-28
# (参考訳) safetynet: 機械学習による実世界の自動運転車の安全計画 [全文訳有]

SafetyNet: Safe planning for real-world self-driving vehicles using machine-learned policies ( http://arxiv.org/abs/2109.13602v1 )

ライセンス: CC BY 4.0
Matt Vitelli, Yan Chang, Yawei Ye, Maciej Wo{\l}czyk, B{\l}a\.zej Osi\'nski, Moritz Niendorf, Hugo Grimmett, Qiangui Huang, Ashesh Jain, Peter Ondruska(参考訳) 本稿では,人間のデモから訓練し,挑戦的かつ現実的な都市環境に展開する自動運転車の完全制御のための,最初の安全システムを提案する。 現在の業界標準ソリューションは、計画にルールベースのシステムを使用する。 一般的なシナリオでは合理的に動作しますが、エンジニアリングの複雑さは、このアプローチを人間レベルのパフォーマンスとは相容れないものにします。 一方、機械学習(ML)計画ソリューションの性能は、より優れたデータを追加するだけで改善できる。 しかし、MLメソッドは安全保証を提供しておらず、時には予測不能に振る舞う。 これに対処するために、このアプローチでは、mlプランナーの決定(例えば衝突の回避、物理的実現可能性の確保など)を健全性チェックする、シンプルで効果的なルールベースのフォールバック層を使用します。 これにより、MLを活用することで、複雑な状況に対処しつつ、安全性を確保しながら、MLプランナのみの衝突を95%削減することが可能になります。 本誌はMLプランナーを300時間のエキスパート運転デモで訓練し、模擬学習を使ってそれをサンフランシスコのダウンタウンのフォールバック層にデプロイし、実際の車両を完全にコントロールし、さまざまな挑戦的な都市運転シナリオをナビゲートする。

In this paper we present the first safe system for full control of self-driving vehicles trained from human demonstrations and deployed in challenging, real-world, urban environments. Current industry-standard solutions use rule-based systems for planning. Although they perform reasonably well in common scenarios, the engineering complexity renders this approach incompatible with human-level performance. On the other hand, the performance of machine-learned (ML) planning solutions can be improved by simply adding more exemplar data. However, ML methods cannot offer safety guarantees and sometimes behave unpredictably. To combat this, our approach uses a simple yet effective rule-based fallback layer that performs sanity checks on an ML planner's decisions (e.g. avoiding collision, assuring physical feasibility). This allows us to leverage ML to handle complex situations while still assuring the safety, reducing ML planner-only collisions by 95%. We train our ML planner on 300 hours of expert driving demonstrations using imitation learning and deploy it along with the fallback layer in downtown San Francisco, where it takes complete control of a real vehicle and navigates a wide variety of challenging urban driving scenarios.
翻訳日:2021-09-29 22:05:16 公開日:2021-09-28
# (参考訳) 自己ONNを用いたデジタルファンドス画像からのリアルタイム緑内障検出 [全文訳有]

Real-Time Glaucoma Detection from Digital Fundus Images using Self-ONNs ( http://arxiv.org/abs/2109.13604v1 )

ライセンス: CC BY 4.0
Ozer Can Devecioglu, Junaid Malik, Turker Ince, Serkan Kiranyaz, Eray Atalay, and Moncef Gabbouj(参考訳) 緑内障は、視覚画像を脳に伝達する光神経を損傷することで、永続的な視覚障害を引き起こす。 緑内障は進行するにつれて症状を示さず、後期で停止できないため、早期に診断することが重要となる。 デジタル眼底画像からの緑内障検出には様々な深層学習モデルが応用されているが,ラベル付きデータの不足により,その一般化性能は高い計算複雑性と特別なハードウェア要件とともに制限されていた。 本研究では,眼底画像における緑内障の早期検出のために,コンパクトな自己組織型オペレーショナルニューラルネットワーク(Self-ONN)を提案し,その性能を3つのベンチマークデータセット(ACRIMA,RIM-ONE,ESOG U)上で従来の(深部)畳み込みニューラルネットワーク(CNN)と比較した。 実験結果から,Self-ONNは優れた検出性能を得るだけでなく,計算処理の複雑さを著しく低減し,特にデータ不足時のバイオメディカルデータセットに適したネットワークモデルとなる可能性が示唆された。

Glaucoma leads to permanent vision disability by damaging the optical nerve that transmits visual images to the brain. The fact that glaucoma does not show any symptoms as it progresses and cannot be stopped at the later stages, makes it critical to be diagnosed in its early stages. Although various deep learning models have been applied for detecting glaucoma from digital fundus images, due to the scarcity of labeled data, their generalization performance was limited along with high computational complexity and special hardware requirements. In this study, compact Self-Organized Operational Neural Networks (Self- ONNs) are proposed for early detection of glaucoma in fundus images and their performance is compared against the conventional (deep) Convolutional Neural Networks (CNNs) over three benchmark datasets: ACRIMA, RIM-ONE, and ESOGU. The experimental results demonstrate that Self-ONNs not only achieve superior detection performance but can also significantly reduce the computational complexity making it a potentially suitable network model for biomedical datasets especially when the data is scarce.
翻訳日:2021-09-29 21:49:43 公開日:2021-09-28
# (参考訳) 高次元データを用いた計算効率機械学習のための混乱に基づくランク類似度フィルタ [全文訳有]

Confusion-based rank similarity filters for computationally-effi cient machine learning on high dimensional data ( http://arxiv.org/abs/2109.13610v1 )

ライセンス: CC BY-SA 4.0
Katharine A. Shapcott and Alex D. Bird(参考訳) 本稿では,ランク類似度フィルタ(RSF)と呼ばれる,計算効率の良いニューラルネットワーク(ANN)を提案する。 RSFは、多くのデータポイントと次元を持つ非線形分離可能なデータセットの変換と分類の両方に使用できる。 RSFの重みは、データポイント内の特徴のランク順、またはオプションで特徴間の「融合」調整されたランク(データセット内の分布から決定される)を使って設定される。 フィルタの活性化強度は、コサイン類似度に関連する指標であるデータセットの他の点と類似度を決定する。 多くのRCFの活性化は、サンプルを線形分類(ランク類似性変換(RST))に適した新しい非線形空間にマッピングする。 さらに,この手法を用いて,高速かつ高精度なマルチクラス分類器である非線形ランク類似度分類器 (rsc) と,マルチラベルの場合の拡張である非線形ランク類似度確率分類器 (rspc) を作成する。 複数のデータセットで分類器を評価し,rscは既存の分類器と競合するが,計算効率は優れていた。 RST、RCC、RSPCのオープンソースコードは、人気のあるScikit-learnフレームワークを使用してPythonで書かれており、簡単にアクセスできる。 今後の拡張では、アルゴリズムをann(gpu)とスパイクニューラルネットワーク(ニューロモーフィックコンピューティング)の並列化に適した特殊なハードウェアに適用することができる。 これによりrsfは、非線形分離可能なデータの効率的な解析問題への有望な解決策となる。

We introduce a novel type of computationally efficient artificial neural network (ANN) called the rank similarity filter (RSF). RSFs can be used to both transform and classify nonlinearly separable datasets with many data points and dimensions. The weights of RSF are set using the rank orders of features in a data point, or optionally the 'confusion' adjusted ranks between features (determined from their distributions in the dataset). The activation strength of a filter determines its similarity to other points in the dataset, a measure related to cosine similarity. The activation of many RSFs maps samples into a new nonlinear space suitable for linear classification (the rank similarity transform (RST)). We additionally used this method to create the nonlinear rank similarity classifier (RSC), which is a fast and accurate multiclass classifier, and the nonlinear rank similarity probabilistic classifier (RSPC), which is an extension to the multilabel case. We evaluated the classifiers on multiple datasets and RSC was competitive with existing classifiers but with superior computational efficiency. Open-source code for RST, RSC and RSPC was written in Python using the popular scikit-learn framework to make it easily accessible. In future extensions the algorithm can be applied to specialised hardware suitable for the parallelization of an ANN (GPU) and a Spiking Neural Network (neuromorphic computing) with corresponding performance gains. This makes RSF a promising solution to the problem of efficient analysis of nonlinearly separable data.
翻訳日:2021-09-29 21:31:24 公開日:2021-09-28
# (参考訳) debosh: 深いベイズ形状の最適化 [全文訳有]

DEBOSH: Deep Bayesian Shape Optimization ( http://arxiv.org/abs/2109.13337v1 )

ライセンス: CC BY 4.0
Nikita Durasov, Artem Lukoyanov, Jonathan Donier, Pascal Fua(参考訳) 形状最適化は、空気力学、熱伝達、構造解析などの多くの産業応用の中心である。 近年,グラフニューラルネットワーク(gnns)は,krigingによって得られた応答面に依存する従来の手法よりも,形の性能を迅速かつ正確に予測し,より効果的に最適化できることが示されている。 しかし、GNNは、ベイジアン最適化法が必要とする精度を評価できないという事実に悩まされている。 したがって、生成した予測に対する信頼度の推定は、直接決定論的最適化を超えて行う必要がある。 本稿では,この限界を克服し,最先端技術を上回るアンサンブルベース手法を活用できることを実証する。 多様な空気力学および構造解析タスクの実験により, 形状最適化に不確実性を加えることにより, 形状の質が著しく向上し, 最適化に要する時間を短縮できることが証明された。

Shape optimization is at the heart of many industrial applications, such as aerodynamics, heat transfer, and structural analysis. It has recently been shown that Graph Neural Networks (GNNs) can predict the performance of a shape quickly and accurately and be used to optimize more effectively than traditional techniques that rely on response-surfaces obtained by Kriging. However, GNNs suffer from the fact that they do not evaluate their own accuracy, which is something Bayesian Optimization methods require. Therefore, estimating confidence in generated predictions is necessary to go beyond straight deterministic optimization, which is less effective. In this paper, we demonstrate that we can use Ensembles-based technique to overcome this limitation and outperform the state-of-the-art. Our experiments on diverse aerodynamics and structural analysis tasks prove that adding uncertainty to shape optimization significantly improves the quality of resulting shapes and reduces the time required for the optimization.
翻訳日:2021-09-29 21:15:32 公開日:2021-09-28
# (参考訳) 対話状態追跡を改善した言語間中間微調整 [全文訳有]

Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking ( http://arxiv.org/abs/2109.13620v1 )

ライセンス: CC BY 4.0
Nikita Moghe and Mark Steedman and Alexandra Birch(参考訳) タスク指向のニューラルダイアログシステムの最近の進歩は、トレーニングデータのアノテーションが面倒で高価であるため、主に少数の言語に焦点を当てている。 機械翻訳はシステムを多言語化するために用いられてきたが、これはエラーのパイプラインをもたらす可能性がある。 もうひとつの有望な解決策は、事前訓練された多言語モデルによる言語間転送学習だ。 既存の方法は、追加のコード混合タスクデータで多言語モデルを訓練したり、並列オントロジーによって言語間表現を洗練したりする。 本研究では,事前訓練した多言語モデルの中間的微調整により伝達学習プロセスを強化し,多言語モデルは異なるが関連するデータやタスクで微調整される。 具体的には,並列および対話型映画サブタイトルのデータセットを用いて,下流対話タスクに適した言語間中間タスクを設計する。 すでに1782の言語ペアで使用可能な中間微調整には,200k行の並列データのみを使用する。 我々は,MultiWoZ(英語 ->中国語,中国語 ->英語)とMultilingual WoZ(英語 ->ドイツ語,英語 ->イタリア語)の並列な対話状態追跡タスクに対して,我々のアプローチを検証した。 対象言語タスクデータの10%とゼロショット設定のみで,並列マルチウォズデータセットと多言語wozデータセット上での印象的な改善(共同目標精度の20%以上)を実現している。

Recent progress in task-oriented neural dialogue systems is largely focused on a handful of languages, as annotation of training data is tedious and expensive. Machine translation has been used to make systems multilingual, but this can introduce a pipeline of errors. Another promising solution is using cross-lingual transfer learning through pretrained multilingual models. Existing methods train multilingual models with additional code-mixed task data or refine the cross-lingual representations through parallel ontologies. In this work, we enhance the transfer learning process by intermediate fine-tuning of pretrained multilingual models, where the multilingual models are fine-tuned with different but related data and/or tasks. Specifically, we use parallel and conversational movie subtitles datasets to design cross-lingual intermediate tasks suitable for downstream dialogue tasks. We use only 200K lines of parallel data for intermediate fine-tuning which is already available for 1782 language pairs. We test our approach on the cross-lingual dialogue state tracking task for the parallel MultiWoZ (English -> Chinese, Chinese -> English) and Multilingual WoZ (English -> German, English -> Italian) datasets. We achieve impressive improvements (> 20% on joint goal accuracy) on the parallel MultiWoZ dataset and the Multilingual WoZ dataset over the vanilla baseline with only 10% of the target language task data and zero-shot setup respectively.
翻訳日:2021-09-29 21:02:57 公開日:2021-09-28
# (参考訳) フェースビデオ超解像のための効率的なネットワーク設計 [全文訳有]

An Efficient Network Design for Face Video Super-resolution ( http://arxiv.org/abs/2109.13626v1 )

ライセンス: CC BY 4.0
Feng Yu, He Li, Sige Bian, Yongming Tang(参考訳) face video super- resolutionアルゴリズムは、連続入力ビデオシーケンスを通して、リアルな顔の詳細を再構築することを目的としている。 しかし、既存のビデオ処理アルゴリズムは通常、異なる超解像度シーンを保証するために冗長パラメータを含む。 本研究では,オリジナル映像シーンにおける顔領域の超解像に着目し,静止領域を補間する。 このタスクにより、一般的なビデオ超解像ネットワークにおいて冗長パラメータをカットできる。 ネットワークトレーニングと評価のための顔映像シーケンスからなるデータセットを構築し,実験でハイパーパラメータ最適化を行った。 ネットワークパラメータの最適化には3つの手法を併用し,同時列車評価法を用いて最適化プロセスを高速化した。 その結果,同時列車評価手法はトレーニング速度を向上し,効率的なネットワーク生成を容易にすることがわかった。 生成されたネットワークは、少なくとも52.4%のパラメータと20.7%のFLOPを削減でき、最先端のビデオ超解像アルゴリズムと比較してPSNR、SSIMの性能が向上する。 36x36x1x3入力ビデオフレームシーケンスを処理する際には、47.62 FPSリアルタイム処理性能を提供する。 我々はこの提案を, https://github.com/y phone/ efficient-network-fo r-face-VSR でオープンソース化された Face Video Super-Resolution (HO-FVSR) のハイパーパラメータ最適化として挙げる。

Face video super-resolution algorithm aims to reconstruct realistic face details through continuous input video sequences. However, existing video processing algorithms usually contain redundant parameters to guarantee different super-resolution scenes. In this work, we focus on super-resolution of face areas in original video scenes, while rest areas are interpolated. This specific super-resolved task makes it possible to cut redundant parameters in general video super-resolution networks. We construct a dataset consisting entirely of face video sequences for network training and evaluation, and conduct hyper-parameter optimization in our experiments. We use three combined strategies to optimize the network parameters with a simultaneous train-evaluation method to accelerate optimization process. Results show that simultaneous train-evaluation method improves the training speed and facilitates the generation of efficient networks. The generated network can reduce at least 52.4% parameters and 20.7% FLOPs, achieve better performance on PSNR, SSIM compared with state-of-art video super-resolution algorithms. When processing 36x36x1x3 input video frame sequences, the efficient network provides 47.62 FPS real-time processing performance. We name our proposal as hyper-parameter optimization for face Video Super-Resolution (HO-FVSR), which is open-sourced at https://github.com/y phone/efficient-netw ork-for-face-VSR.
翻訳日:2021-09-29 20:44:00 公開日:2021-09-28
# (参考訳) 教師なし二相曲面登録と非線形モデリング [全文訳有]

Unsupervised Diffeomorphic Surface Registration and Non-Linear Modelling ( http://arxiv.org/abs/2109.13630v1 )

ライセンス: CC BY 4.0
Balder Croquet, Daan Christiaens, Seth M. Weinberg, Michael Bronstein, Dirk Vandermeulen, Peter Claes(参考訳) 登録は画像解析に欠かせないツールである。 ディープラーニングベースの代替手段が最近人気となり、より高速で競争力のあるパフォーマンスを実現している。 しかし, 医用画像解析における3次元表面形状データの普及にもかかわらず, 多くの現代技術はボリューム表現に限られている。 本研究では,条件付き可変オートエンコーダ (CVAE) を用いた低次元確率変形モデル (PDM) を内包する3次元表面のワンステップ登録モデルを提案する。 変形は、指数層を用いて微分同相に制約される。 1段階の登録モデルは反復的手法に対してベンチマークされ、よりコンパクトな形状で若干低い性能で取引される。 実世界の登録シナリオにおける表面データに対する特定の距離関数として,Chamfer distance (CD) と Sinkhorn divergence (SD) の2つの距離指標を実験した。 内部変形モデルを線形主成分分析 (PCA) と比較し, 競争結果の達成と低次元からの一般化性の向上を図った。

Registration is an essential tool in image analysis. Deep learning based alternatives have recently become popular, achieving competitive performance at a faster speed. However, many contemporary techniques are limited to volumetric representations, despite increased popularity of 3D surface and shape data in medical image analysis. We propose a one-step registration model for 3D surfaces that internalises a lower dimensional probabilistic deformation model (PDM) using conditional variational autoencoders (CVAE). The deformations are constrained to be diffeomorphic using an exponentiation layer. The one-step registration model is benchmarked against iterative techniques, trading in a slightly lower performance in terms of shape fit for a higher compactness. We experiment with two distance metrics, Chamfer distance (CD) and Sinkhorn divergence (SD), as specific distance functions for surface data in real-world registration scenarios. The internalised deformation model is benchmarked against linear principal component analysis (PCA) achieving competitive results and improved generalisability from lower dimensions.
翻訳日:2021-09-29 20:35:58 公開日:2021-09-28
# (参考訳) マルチモーダル学習を用いたドローンのフェイルセーフヒューマン検出 [全文訳有]

Fail-Safe Human Detection for Drones Using a Multi-Modal Curriculum Learning Approach ( http://arxiv.org/abs/2109.13666v1 )

ライセンス: CC BY 4.0
Ali Safa, Tim Verbelen, Ilja Ocket, Andr\'e Bourdoux, Francky Catthoor, Georges G.E. Gielen(参考訳) ドローンは現在、人間のエージェントが周辺で進化すると予想される安全クリティカルな用途のために調査されている。 このようなアプリケーションでは、衝突を避けるために多数のセンシングモダリティを融合することにより、堅牢な人々回避を提供する必要がある。 しかし現在、ドローンで使われる人物検出システムは、画像とイベントベースのカメラの融合を議論する新しい研究に加えて、標準カメラのみに基づいている。 一方、レーダー方式のシステムは環境条件に対して最大限の堅牢性を提供するが、それ自体は完全な情報を提供しておらず、主に自動車の文脈で研究されている。 イベントベースカメラと標準カメラの両方でレーダーの融合を可能にするため、ドローンによる安全クリティカルな人検出の研究のための、第一種データセットであるKUL-UAVSAFEを提示する。 さらに, クロスフュージョンハイウェイを用いたベースラインCNNアーキテクチャを提案するとともに, SAULと呼ばれるマルチモーダルデータのためのカリキュラム学習戦略を導入する。 エッジ計算ユニットにシステムを実装することで,リアルタイムの性能と実現可能性を示す。 私たちは、プロジェクトホームページでデータセットと追加資料をリリースします。

Drones are currently being explored for safety-critical applications where human agents are expected to evolve in their vicinity. In such applications, robust people avoidance must be provided by fusing a number of sensing modalities in order to avoid collisions. Currently however, people detection systems used on drones are solely based on standard cameras besides an emerging number of works discussing the fusion of imaging and event-based cameras. On the other hand, radar-based systems provide up-most robustness towards environmental conditions but do not provide complete information on their own and have mainly been investigated in automotive contexts, not for drones. In order to enable the fusion of radars with both event-based and standard cameras, we present KUL-UAVSAFE, a first-of-its-kind dataset for the study of safety-critical people detection by drones. In addition, we propose a baseline CNN architecture with cross-fusion highways and introduce a curriculum learning strategy for multi-modal data termed SAUL, which greatly enhances the robustness of the system towards hard RGB failures and provides a significant gain of 15% in peak F1 score compared to the use of BlackIn, previously proposed for cross-fusion networks. We demonstrate the real-time performance and feasibility of the approach by implementing the system in an edge-computing unit. We release our dataset and additional material in the project home page.
翻訳日:2021-09-29 20:24:49 公開日:2021-09-28
# (参考訳) モデルに基づくデータ生成による予測規則の合理化 [全文訳有]

Improved prediction rule ensembling through model-based data generation ( http://arxiv.org/abs/2109.13672v1 )

ライセンス: CC BY 4.0
Benny Markovitch, Marjolein Fokkema(参考訳) 予測規則アンサンブル(pre)は、比較的高い精度で解釈可能な予測モデルを提供し、(ブーストされた)決定木アンサンブルから大量の決定規則を取得し、ラッソペナライズ回帰の適用をスパーシティスルーで達成する。 本稿では,Prepreの性能向上のための代理モデルの利用について検討し,Lasso回帰は(ブーストされた)決定木アンサンブルによって生成された大規模データセットの助けを借りて訓練する。 このモデルベースのデータ生成は、Lassoステップの安定性と一貫性を改善し、全体的なパフォーマンスを向上させる。 本稿では,2つのサロガシー手法を提案し,これらをシミュレーションおよび既存データセット上で,空間性および予測精度の観点から評価する。 その結果,特にネスト型サロガシーアプローチを用いて,予測精度を維持しつつも,サロガシーモデルを用いることでpreのスパース性が大幅に向上することが示唆された。

Prediction rule ensembles (PRE) provide interpretable prediction models with relatively high accuracy.PRE obtain a large set of decision rules from a (boosted) decision tree ensemble, and achieves sparsitythrough application of Lasso-penalized regression. This article examines the use of surrogate modelsto improve performance of PRE, wherein the Lasso regression is trained with the help of a massivedataset generated by the (boosted) decision tree ensemble. This use of model-based data generationmay improve the stability and consistency of the Lasso step, thus leading to improved overallperformance. We propose two surrogacy approaches, and evaluate them on simulated and existingdatasets, in terms of sparsity and predictive accuracy. The results indicate that the use of surrogacymodels can substantially improve the sparsity of PRE, while retaining predictive accuracy, especiallythrough the use of a nested surrogacy approach.
翻訳日:2021-09-29 20:07:12 公開日:2021-09-28
# (参考訳) 実イベントによる動作不良

Motion Deblurring with Real Events ( http://arxiv.org/abs/2109.13695v1 )

ライセンス: CC BY 4.0
Fang Xu and Lei Yu and Bishan Wang and Wen Yang and Gui-Song Xia and Xu Jia and Zhendong Qiao and Jianzhuang Liu(参考訳) 本稿では,データ不整合による性能劣化を緩和するために,実世界のイベントを活用可能な,イベントベースの学習フレームワークを提案する。 この目的を達成するために、ぼやけた一貫性と測光整合性を利用するイベントから光フローを予測し、実世界データによる遅延ネットワークの自己監督を可能にする。 さらに, 動きの非線形性を考慮した分割線形運動モデルを提案し, 実世界シナリオにおける動きのぼやけの物理的形成の正確なモデルとなる。 合成および実動ボケデータセットの広範な評価により,提案アルゴリズムは実世界の動きボケとシミュレーションされた動きボケのギャップを橋渡しし,実世界のシナリオにおける事象に基づく動きボケの顕著な性能を示す。

In this paper, we propose an end-to-end learning framework for event-based motion deblurring in a self-supervised manner, where real-world events are exploited to alleviate the performance degradation caused by data inconsistency. To achieve this end, optical flows are predicted from events, with which the blurry consistency and photometric consistency are exploited to enable self-supervision on the deblurring network with real-world data. Furthermore, a piece-wise linear motion model is proposed to take into account motion non-linearities and thus leads to an accurate model for the physical formation of motion blurs in the real-world scenario. Extensive evaluation on both synthetic and real motion blur datasets demonstrates that the proposed algorithm bridges the gap between simulated and real-world motion blurs and shows remarkable performance for event-based motion deblurring in real-world scenarios.
翻訳日:2021-09-29 19:53:45 公開日:2021-09-28
# (参考訳) オクターブ畳み込み層を用いた時系列分類アルゴリズムの改善 [全文訳有]

Improving Time Series Classification Algorithms Using Octave-Convolutional Layers ( http://arxiv.org/abs/2109.13696v1 )

ライセンス: CC BY 4.0
Samuel Harford, Fazle Karim, Houshang Darabi(参考訳) 畳み込み層を利用したディープラーニングモデルは、一変量時系列分類タスクで最先端のパフォーマンスを達成した。 本研究では,OctConv(OctConv)を用いて,CNNに基づく時系列分類器の改良を提案する。 これらのネットワークアーキテクチャには、Fully Convolutional Networks (FCN)、Residual Neural Networks (ResNets)、LSTM-Fully Convolutional Networks (LSTM-FCN)、Atention LSTM-Fully Convolutional Networks (ALSTM-FCN)などがある。 提案するレイヤは,ネットワークパラメータを最小に増やし,各モデルを大幅に改善する。 本稿では,OctoConvとコンボリューションを置換することにより,ベンチマークデータセットのほとんどに対する時系列分類タスクの精度を著しく向上することを示す。 さらに、ALSTM-OctFCNは、TS-CHIEFとHIVE-COTE(両アンサンブルモデル)の上位2つの時系列分類器と統計的に同一である。 そこで我々は,OctoConv層の影響をさらに調査するため,ベースモデルと比較して拡張モデルのアブレーション試験を行った。

Deep learning models utilizing convolution layers have achieved state-of-the-art performance on univariate time series classification tasks. In this work, we propose improving CNN based time series classifiers by utilizing Octave Convolutions (OctConv) to outperform themselves. These network architectures include Fully Convolutional Networks (FCN), Residual Neural Networks (ResNets), LSTM-Fully Convolutional Networks (LSTM-FCN), and Attention LSTM-Fully Convolutional Networks (ALSTM-FCN). The proposed layers significantly improve each of these models with minimally increased network parameters. In this paper, we experimentally show that by substituting convolutions with OctConv, we significantly improve accuracy for time series classification tasks for most of the benchmark datasets. In addition, the updated ALSTM-OctFCN performs statistically the same as the top two time series classifers, TS-CHIEF and HIVE-COTE (both ensemble models). To further explore the impact of the OctConv layers, we perform ablation tests of the augmented model compared to their base model.
翻訳日:2021-09-29 19:52:24 公開日:2021-09-28
# (参考訳) CIDEr-R:ロバスト合意に基づく画像記述評価 [全文訳有]

CIDEr-R: Robust Consensus-based Image Description Evaluation ( http://arxiv.org/abs/2109.13701v1 )

ライセンス: CC BY 4.0
Gabriel Oliveira dos Santos and Esther Luna Colombini and Sandra Avila(参考訳) 本稿では、画像記述のための従来の評価基準であるCIDEr-Dが、文中の単語数がMS COCO Captionsデータセットよりもはるかに大きいデータセットでは適切に機能しないことを示す。 また,複数の参照文の欠如と文長のばらつきにより,cider-dの性能が低下することを示した。 この問題を回避するために、CIDEr-Rを導入し、CIDEr-Dを改善し、高い文長分散を伴うデータセットの処理をより柔軟にする。 我々は、CIDEr-RがCIDEr-Dよりも正確で人間の判断に近いことを実証した。 CIDEr-Rを最適化するために自己批判シーケンストレーニングを用いることで,説明文のキャプションを生成する。 対照的に、CIDEr-Dが最適化されると、生成されたキャプションの長さは基準長と似ている傾向にある。 しかし、モデルはまた、文の長さを増加させるために同じ単語を数回繰り返す。

This paper shows that CIDEr-D, a traditional evaluation metric for image description, does not work properly on datasets where the number of words in the sentence is significantly greater than those in the MS COCO Captions dataset. We also show that CIDEr-D has performance hampered by the lack of multiple reference sentences and high variance of sentence length. To bypass this problem, we introduce CIDEr-R, which improves CIDEr-D, making it more flexible in dealing with datasets with high sentence length variance. We demonstrate that CIDEr-R is more accurate and closer to human judgment than CIDEr-D; CIDEr-R is more robust regarding the number of available references. Our results reveal that using Self-Critical Sequence Training to optimize CIDEr-R generates descriptive captions. In contrast, when CIDEr-D is optimized, the generated captions' length tends to be similar to the reference length. However, the models also repeat several times the same word to increase the sentence length.
翻訳日:2021-09-29 19:40:47 公開日:2021-09-28
# (参考訳) 健康管理型IoTウェアラブルにおけるオポチュニティな暗黙のユーザ認証 [全文訳有]

Opportunistic Implicit User Authentication for Health-Tracking IoT Wearables ( http://arxiv.org/abs/2109.13705v1 )

ライセンス: CC BY 4.0
Alexa Muratyan, William Cheung, Sayanton V. Dibbo, Sudip Vhaduri(参考訳) テクノロジーの進歩により、銀行口座へのアクセス、車へのアクセス、患者の遠隔監視など、さまざまなサービスで市場ウェアラブルが人気を集めている。 しかし、これらのウェアラブルは、PINのような知識に基づく外部認証技術のように、認証に制限のないユーザーの様々な機密情報を収集することが多い。 これらの外部認証技術のほとんどは、リコールの負担やヒューマンエラー、バイアスなど、複数の制限に苦しめられているが、研究者は、ウェアラブルによって収集された歩行や心拍数などの様々な生理的および行動的データを使用して、ウェアラブルのセンサーや計算上の制約によって、暗黙的にウェアラブルユーザの認証を行う。 本研究では, オキシメータ装置から収集した血液酸素飽和spo2値を用いて, 利用者と他者を識別する方法について検討する。 25人の被験者のコホートから、SpO2の92%が、ペアのユーザを区別できることがわかった。 詳細なモデリングと性能分析から,SpO2単独で平均精度0.69,F1スコア0.69が得られるのに対し,心拍数(HR)の加算は平均識別精度15%,F1スコア13%向上できることがわかった。 これらの結果は、他の生体認証とともにSpO2を使用して、ウェアラブルの暗黙的な連続認証を開発することを約束している。

With the advancement of technologies, market wearables are becoming increasingly popular with a range of services, including providing access to bank accounts, accessing cars, monitoring patients remotely, among several others. However, often these wearables collect various sensitive personal information of a user with no to limited authentication, e.g., knowledge-based external authentication techniques, such as PINs. While most of these external authentication techniques suffer from multiple limitations, including recall burden, human errors, or biases, researchers have started using various physiological and behavioral data, such as gait and heart rate, collected by the wearables to authenticate a wearable user implicitly with a limited accuracy due to sensing and computing constraints of wearables. In this work, we explore the usefulness of blood oxygen saturation SpO2 values collected from the Oximeter device to distinguish a user from others. From a cohort of 25 subjects, we find that 92% of the cases SpO2 can distinguish pairs of users. From detailed modeling and performance analysis, we observe that while SpO2 alone can obtain an average accuracy of 0.69 and F1 score of 0.69, the addition of heart rate (HR) can improve the average identification accuracy by 15% and F1 score by 13%. These results show promise in using SpO2 along with other biometrics to develop implicit continuous authentications for wearables.
翻訳日:2021-09-29 19:23:02 公開日:2021-09-28
# (参考訳) それらすべてを支配すべき1つは: 合同indic language hate speech detectionに向けて [全文訳有]

One to rule them all: Towards Joint Indic Language Hate Speech Detection ( http://arxiv.org/abs/2109.13711v1 )

ライセンス: CC BY 4.0
Mehar Bhatia, Tenzin Singhay Bhotia, Akshat Agarwal, Prakash Ramesh, Shubham Gupta, Kumar Shridhar, Felix Laumann and Ayushman Dash(参考訳) 本稿では,indo-european languages (hasoc) 2021におけるヘイトスピーチと攻撃的コンテンツ識別への貢献について述べる。 今日ソーシャルメディアは、さまざまな言語で有毒で憎悪的な会話の温床となっている。 最近の報道によると、現在のモデルは少数言語で投稿された憎悪を自動的に識別するのに苦労している。 したがって、ヘイトスピーチを効果的に抑制することは重要な課題であり、関心事である。 本稿では,最先端のトランスフォーマー言語モデルを用いて,英語,ヒンディー語,マラティ語という3言語間のヘイトとアグレッシブな発話検出を共同学習する多言語アーキテクチャを提案する。 提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651 ,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。 以上の結果から,多言語訓練の有効性が示唆された。

This paper is a contribution to the Hate Speech and Offensive Content Identification in Indo-European Languages (HASOC) 2021 shared task. Social media today is a hotbed of toxic and hateful conversations, in various languages. Recent news reports have shown that current models struggle to automatically identify hate posted in minority languages. Therefore, efficiently curbing hate speech is a critical challenge and problem of interest. We present a multilingual architecture using state-of-the-art transformer language models to jointly learn hate and offensive speech detection across three languages namely, English, Hindi, and Marathi. On the provided testing corpora, we achieve Macro F1 scores of 0.7996, 0.7748, 0.8651 for sub-task 1A and 0.6268, 0.5603 during the fine-grained classification of sub-task 1B. These results show the efficacy of exploiting a multilingual training scheme.
翻訳日:2021-09-29 19:06:57 公開日:2021-09-28
# (参考訳) 適応属性と構造サブスペースクラスタリングネットワーク [全文訳有]

Adaptive Attribute and Structure Subspace Clustering Network ( http://arxiv.org/abs/2109.13742v1 )

ライセンス: CC BY 4.0
Zhihao Peng, Hui Liu, Yuheng Jia, Junhui Hou(参考訳) 自己表現性に基づく部分空間クラスタリング手法の有効性が実証されている。 しかし、既存の作品では自己表現を行う属性情報のみを考慮しており、クラスタリングのパフォーマンスが制限される可能性がある。 本稿では,アダプティブグラフ融合方式で属性と構造情報を同時に検討するための,新しいアダプティブ属性と構造サブスペースクラスタリングネットワーク(AASSC-Net)を提案する。 具体的には,まず自動エンコーダを利用して,属性行列の構築に潜在的な特徴を持つ入力データサンプルを表現する。 また,データサンプル中の局所幾何構造を捉えるために,符号付きおよび対称構造の混合行列を構築した。 そして、構築された属性と構造行列に対して自己表現を行い、それらの親和性グラフを別々に学習する。 最後に,これら2つの親和性グラフを適応的に活用し,より識別的な親和性グラフを構築するために,注意に基づく新しい融合モジュールを設計した。 一般的なベンチマークデータセットの広範な実験結果から、aassc-netが最先端のメソッドを大幅に上回っていることが分かりました。 さらに,設計モジュールの有効性を検討するため,包括的アブレーション研究を行った。 コードはhttps://github.com/z hihaopeng-cityuで公開される予定だ。

Deep self-expressiveness- based subspace clustering methods have demonstrated effectiveness. However, existing works only consider the attribute information to conduct the self-expressiveness, which may limit the clustering performance. In this paper, we propose a novel adaptive attribute and structure subspace clustering network (AASSC-Net) to simultaneously consider the attribute and structure information in an adaptive graph fusion manner. Specifically, we first exploit an auto-encoder to represent input data samples with latent features for the construction of an attribute matrix. We also construct a mixed signed and symmetric structure matrix to capture the local geometric structure underlying data samples. Then, we perform self-expressiveness on the constructed attribute and structure matrices to learn their affinity graphs separately. Finally, we design a novel attention-based fusion module to adaptively leverage these two affinity graphs to construct a more discriminative affinity graph. Extensive experimental results on commonly used benchmark datasets demonstrate that our AASSC-Net significantly outperforms state-of-the-art methods. In addition, we conduct comprehensive ablation studies to discuss the effectiveness of the designed modules. The code will be publicly available at https://github.com/Z hihaoPENG-CityU.
翻訳日:2021-09-29 18:54:28 公開日:2021-09-28
# (参考訳) StereoSpike:スパイクニューラルネットワークによる深さ学習 [全文訳有]

StereoSpike: Depth Learning with a Spiking Neural Network ( http://arxiv.org/abs/2109.13751v1 )

ライセンス: CC BY 4.0
Ulysse Ran\c{c}on, Javier Cuadrado-Anibarro, Benoit R. Cottereau and Timoth\'ee Masquelier(参考訳) 深さ推定は重要なコンピュータビジョンタスクであり、特に自動運転車のナビゲーションやロボット工学の物体操作に有用である。 そこで我々は,2つのイベントベースカメラとスパイキングニューラルネットワーク(SNN)と,わずかに修正されたU-Netライクなエンコーダデコーダアーキテクチャを組み合わせた,エンドツーエンドのニューロモルフィックアプローチを用いてこれを解決した。 具体的には、Multi Vehicle Stereo Event Camera Dataset(MVSEC)を使用しました。 水平勾配勾配を用いてステレオスパイクを教師ありに訓練するために用いられた深さの地表面を提供する。 本稿では,デコーダのスパイクから,各画素の深さの密度の高いアナログ予測を得るための新しい読み出しパラダイムを提案する。 我々は、このアーキテクチャが非スパイキングのアーキテクチャよりも非常によく一般化し、最先端のテスト精度をもたらすことを実証する。 我々の知る限りでは、このような大規模な回帰問題が完全なスパイクネットワークによって解決されたのは初めてである。 最後に, 正則化により低発火率(<10%) を得ることができ, 精度は最小限であることを示す。 つまり、StereoSpikeはニューロモルフィックチップに効率よく実装でき、低消費電力とリアルタイム組み込みシステムのためのドアを開くことができる。

Depth estimation is an important computer vision task, useful in particular for navigation in autonomous vehicles, or for object manipulation in robotics. Here we solved it using an end-to-end neuromorphic approach, combining two event-based cameras and a Spiking Neural Network (SNN) with a slightly modified U-Net-like encoder-decoder architecture, that we named StereoSpike. More specifically, we used the Multi Vehicle Stereo Event Camera Dataset (MVSEC). It provides a depth ground-truth, which was used to train StereoSpike in a supervised manner, using surrogate gradient descent. We propose a novel readout paradigm to obtain a dense analog prediction -- the depth of each pixel -- from the spikes of the decoder. We demonstrate that this architecture generalizes very well, even better than its non-spiking counterparts, leading to state-of-the-art test accuracy. To the best of our knowledge, it is the first time that such a large-scale regression problem is solved by a fully spiking network. Finally, we show that low firing rates (<10%) can be obtained via regularization, with a minimal cost in accuracy. This means that StereoSpike could be efficiently implemented on neuromorphic chips, opening the door for low power and real time embedded systems.
翻訳日:2021-09-29 18:35:11 公開日:2021-09-28
# (参考訳) 双曲語埋め込みにおける性バイアスの同定と軽減 [全文訳有]

Identifying and Mitigating Gender Bias in Hyperbolic Word Embeddings ( http://arxiv.org/abs/2109.13767v1 )

ライセンス: CC BY 4.0
Vaibhav Kumar, Tenzin Singhay Bhotia, Vaibhav Kumar and Tanmoy Chakraborty(参考訳) GloVeやWord2Vecのようなユークリッド語の埋め込みモデルは、人間のような性バイアスを反映していることが示されている。 本稿では,最近普及した双曲語埋め込みへのジェンダーバイアスの研究を拡張した。 本稿では,双曲的単語表現における性バイアスを定量化するための新しい尺度であるジロコシンバイアスを提案する。 この問題に対処するために,双曲型単語表現の新しいデバイアス処理法である Poincar\'e Gender Debias (PGD) を提案する。 評価実験の結果,PGDは最小限のセマンティックオフセットを付加しながらバイアスを効果的に低減することが示された。

Euclidean word embedding models such as GloVe and Word2Vec have been shown to reflect human-like gender biases. In this paper, we extend the study of gender bias to the recently popularized hyperbolic word embeddings. We propose gyrocosine bias, a novel measure for quantifying gender bias in hyperbolic word representations and observe a significant presence of gender bias. To address this problem, we propose Poincar\'e Gender Debias (PGD), a novel debiasing procedure for hyperbolic word representations. Experiments on a suit of evaluation tests show that PGD effectively reduces bias while adding a minimal semantic offset.
翻訳日:2021-09-29 18:22:07 公開日:2021-09-28
# (参考訳) 効率的・説明可能・再利用可能なマイクロモデル:メンタルヘルスを事例として [全文訳有]

Micromodels for Efficient, Explainable, and Reusable Systems: A Case Study on Mental Health ( http://arxiv.org/abs/2109.13770v1 )

ライセンス: CC BY 4.0
Andrew Lee, Jonathan K. Kummerfeld, Lawrence C. An, Rada Mihalcea(参考訳) 多くの統計モデルは、テストベンチマークで高い精度を持つが、説明できない、低リソースシナリオで苦労する、複数のタスクで再利用できない、ドメインの専門知識を容易に統合できない。 これらの要因は、特にメンタルヘルスなどの設定において、データセットやモデルアウトプットのアノテートが大きな影響を及ぼすような使用を制限する。 これらの課題に対処するためのマイクロモデルアーキテクチャを導入します。 我々のアプローチは、研究者がドメイン知識を埋め込んだ解釈可能な表現を構築し、モデルの意思決定プロセス全体を通して説明を提供することを可能にする。 我々は、うつ病分類、PTSD分類、自殺リスク評価という、複数のメンタルヘルスタスクに関するアイデアを実証する。 我々のシステムは、低リソースのシナリオであっても、常に強力な結果をもたらし、代替手法よりも解釈性が高い。

Many statistical models have high accuracy on test benchmarks, but are not explainable, struggle in low-resource scenarios, cannot be reused for multiple tasks, and cannot easily integrate domain expertise. These factors limit their use, particularly in settings such as mental health, where it is difficult to annotate datasets and model outputs have significant impact. We introduce a micromodel architecture to address these challenges. Our approach allows researchers to build interpretable representations that embed domain knowledge and provide explanations throughout the model's decision process. We demonstrate the idea on multiple mental health tasks: depression classification, PTSD classification, and suicidal risk assessment. Our systems consistently produce strong results, even in low-resource scenarios, and are more interpretable than alternative methods.
翻訳日:2021-09-29 18:00:44 公開日:2021-09-28
# (参考訳) 高速最大確率サンプリング方式による拡散に基づく音声変換 [全文訳有]

Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling Scheme ( http://arxiv.org/abs/2109.13821v1 )

ライセンス: CC BY 4.0
Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov, Jiansheng Wei(参考訳) 音声変換は、特定の現実世界のシナリオに応じて異なる方法で解決できる共通の音声合成タスクである。 最も難しいのは、ソース話者とターゲット話者の両方がトレーニングデータセットに属さない場合、最も一般的な場合において、1つの参照発話のみからターゲット音声をコピーすることである。 拡散確率モデルに基づくスケーラブルな高品質なソリューションを提案し、最先端のワンショット音声変換手法と比較して優れた品質を示す。 さらに, リアルタイムアプリケーションに着目し, 合成品質を高い水準に保ちながら拡散モデルを高速化する一般原理について検討した。 その結果, 種々の拡散モデルタイプや生成タスクに適した確率微分方程式の解法を, 経験的研究により開発し, 理論解析により正当化する。

Voice conversion is a common speech synthesis task which can be solved in different ways depending on a particular real-world scenario. The most challenging one often referred to as one-shot many-to-many voice conversion consists in copying the target voice from only one reference utterance in the most general case when both source and target speakers do not belong to the training dataset. We present a scalable high-quality solution based on diffusion probabilistic modeling and demonstrate its superior quality compared to state-of-the-art one-shot voice conversion approaches. Moreover, focusing on real-time applications, we investigate general principles which can make diffusion models faster while keeping synthesis quality at a high level. As a result, we develop a novel Stochastic Differential Equations solver suitable for various diffusion model types and generative tasks as shown through empirical studies and justify it by theoretical analysis.
翻訳日:2021-09-29 17:53:42 公開日:2021-09-28
# (参考訳) 色盲でない:aiは、白黒の網膜血管のセグメンテーションから人種的アイデンティティを予測する

Not Color Blind: AI Predicts Racial Identity from Black and White Retinal Vessel Segmentations ( http://arxiv.org/abs/2109.13845v1 )

ライセンス: CC BY 4.0
Aaron S. Coyner, Praveer Singh, James M. Brown, Susan Ostmo, R.V. Paul Chan, Michael F. Chiang, Jayashree Kalpathy-Cramer, J. Peter Campbell(参考訳) 背景:人工知能(AI)は、医療画像に皮膚や脈絡膜色素化が存在する場合に、人種的偏見を示す可能性がある。 近年の研究では、畳み込みニューラルネットワーク(CNN)が、これまで人種固有の特徴を含んでいなかった画像から人種を予測することが示されている。 未熟児網膜症(ROP)を検診した患者の網膜血管地図(RVM)には,レース特有の特徴が含まれているかを検討した。 方法:245人の黒と白の乳児から4095個の網膜基底像(RFI)を採取した。 U-Net は RFI から RVM を生成した。 黒と白の目の違いが生理的かどうかを判断するために、cnnはカラーrfi、生のrvm、しきい値、バイナリ化、または骨格化されたrvmから人種を予測するように訓練された。 高精度リコール曲線 (AUC-PR) に基づく領域の評価を行った。 発見: CNNはRFIからのレースをほぼ完璧に予測した(画像レベルAUC-PR:0.999、主題レベルAUC-PR:1.000)。 RVMはカラーRFI(画像レベルAUC-PR:0.938、被写体レベルAUC-PR:0.995)と同じくらい情報的であった。 最終的に、CNNは、色を含む画像、血管のセグメンテーション輝度の違いが無効化されているか、または血管のセグメンテーション幅が正常化されているかにかかわらず、RFIまたはRVMが黒または白の赤ちゃんのものであるかを検出することができた。 解釈:aiは人種情報を含まない灰色スケールのrvmから人種を検出することができる。 網膜血管は、黒と白の赤ちゃんまたはu-netのセグメントの間で生理的に異なるが、様々な眼底色素形成では網膜血管は異なる。 いずれにせよ、AIアルゴリズムは、基礎となる画像からそのような情報を削除しようとする予備的な試みが成功したとしても、実際に人種的偏見を示す可能性がある。

Background: Artificial intelligence (AI) may demonstrate racial bias when skin or choroidal pigmentation is present in medical images. Recent studies have shown that convolutional neural networks (CNNs) can predict race from images that were not previously thought to contain race-specific features. We evaluate whether grayscale retinal vessel maps (RVMs) of patients screened for retinopathy of prematurity (ROP) contain race-specific features. Methods: 4095 retinal fundus images (RFIs) were collected from 245 Black and White infants. A U-Net generated RVMs from RFIs, which were subsequently thresholded, binarized, or skeletonized. To determine whether RVM differences between Black and White eyes were physiological, CNNs were trained to predict race from color RFIs, raw RVMs, and thresholded, binarized, or skeletonized RVMs. Area under the precision-recall curve (AUC-PR) was evaluated. Findings: CNNs predicted race from RFIs near perfectly (image-level AUC-PR: 0.999, subject-level AUC-PR: 1.000). Raw RVMs were almost as informative as color RFIs (image-level AUC-PR: 0.938, subject-level AUC-PR: 0.995). Ultimately, CNNs were able to detect whether RFIs or RVMs were from Black or White babies, regardless of whether images contained color, vessel segmentation brightness differences were nullified, or vessel segmentation widths were normalized. Interpretation: AI can detect race from grayscale RVMs that were not thought to contain racial information. Two potential explanations for these findings are that: retinal vessels physiologically differ between Black and White babies or the U-Net segments the retinal vasculature differently for various fundus pigmentations. Either way, the implications remain the same: AI algorithms have potential to demonstrate racial bias in practice, even when preliminary attempts to remove such information from the underlying images appear to be successful.
翻訳日:2021-09-29 17:22:22 公開日:2021-09-28
# (参考訳) 量的取引のための強化学習 [全文訳有]

Reinforcement Learning for Quantitative Trading ( http://arxiv.org/abs/2109.13851v1 )

ライセンス: CC BY 4.0
Shuo Sun, Rundong Wang, Bo An(参考訳) 量的トレーディング(qt)とは、金融市場分析における数理モデルやデータ駆動技術の利用を指す用語であり、1970年代から学界と金融業界の両方で話題となっている。 過去10年間で、強化学習(RL)は、複雑なシーケンシャルな意思決定問題の解決に際し、ロボット工学やビデオゲームなど多くの分野において大きな関心を集めてきた。 RLの影響は広く、最近、多くの挑戦的なQTタスクを克服する能力を示している。 QT タスクにおける RL 技術の可能性を探究する研究の方向性は盛んである。 本稿では,QTタスクのためのRLに基づく手法に関する総合的な研究成果を提供する。 より具体的には、RLに基づくQTモデルの分類法を考案し、技術の現状を概観する。 最後に,現在の課題を議論し,このエキサイティングな分野における今後の研究の方向性を提案する。

Quantitative trading (QT), which refers to the usage of mathematical models and data-driven techniques in analyzing the financial market, has been a popular topic in both academia and financial industry since 1970s. In the last decade, reinforcement learning (RL) has garnered significant interest in many domains such as robotics and video games, owing to its outstanding ability on solving complex sequential decision making problems. RL's impact is pervasive, recently demonstrating its ability to conquer many challenging QT tasks. It is a flourishing research direction to explore RL techniques' potential on QT tasks. This paper aims at providing a comprehensive survey of research efforts on RL-based methods for QT tasks. More concretely, we devise a taxonomy of RL-based QT models, along with a comprehensive summary of the state of the art. Finally, we discuss current challenges and propose future research directions in this exciting field.
翻訳日:2021-09-29 17:14:50 公開日:2021-09-28
# (参考訳) 期待に基づくミニマリスト文法 [全文訳有]

Expectation-based Minimalist Grammars ( http://arxiv.org/abs/2109.13871v1 )

ライセンス: CC BY-SA 4.0
Cristiano Chesi(参考訳) 期待に基づくミニマリスト文法 (e-mgs) は、stabler (stabler, 2011, 2013) と phase-based minimalist grammars, pmgs (chesi, 2005, 2007; stabler, 2011) によって形式化された (conflated) ミニマリスト文法 (c)mgs の単純化版である。 重要な単純化は、語彙的に符号化された分類上のトップダウン期待に依存するだけで、運転構造の構築である。 トップダウン派生へのコミットメント((C)MGs, Chomsky, 1995; Stabler, 2011)とは対照的に、e-MGs や PMGs のように)は、解析と生成の両方で同じはずのコア派生を定義することができる(Momma & Phillips, 2018)。

Expectation-based Minimalist Grammars (e-MGs) are simplified versions of the (Conflated) Minimalist Grammars, (C)MGs, formalized by Stabler (Stabler, 2011, 2013, 1997) and Phase-based Minimalist Grammars, PMGs (Chesi, 2005, 2007; Stabler, 2011). The crucial simplification consists of driving structure building only by relying on lexically encoded categorial top-down expectations. The commitment on a top-down derivation (as in e-MGs and PMGs, as opposed to (C)MGs, Chomsky, 1995; Stabler, 2011) allows us to define a core derivation that should be the same in both parsing and generation (Momma & Phillips, 2018).
翻訳日:2021-09-29 16:48:07 公開日:2021-09-28
# (参考訳) 古いモデルを再びファッションに変える:格子変換を用いた古典的CNNネットワークのリサイクル [全文訳有]

Turning old models fashion again: Recycling classical CNN networks using the Lattice Transformation ( http://arxiv.org/abs/2109.13885v1 )

ライセンス: CC BY 4.0
Ana Paula G. S. de Almeida and Flavio de Barros Vidal(参考訳) 1990年代初期、cnn時代の生命の兆候が示され、lecunらはバックプロパゲーションアルゴリズムによって訓練されたcnnモデルを提案し、手書き文字の低解像度画像を分類した。 コンピュータビジョンの分野では画期的だったことは間違いない。 しかし、他の分類方法の台頭とともに、流行は廃れていった。 これは2012年まで続き、krizhevskyらはimagenetチャレンジでかなり高い画像分類精度を示し、cnnへの関心を復活させた。 それ以来、アーキテクチャの複雑さは指数関数的に増加し、多くの構造が急速に廃れつつある。 マルチストリームネットワークをベースとして機能注入を前提として,従来の最先端ネットワークのバックボーンを画像分類に利用するLCNNクロスフュージョン戦略を探索し,これらの設計をゲームに戻すことができるかどうかを確かめる。 そこで本研究では,本構造との比較により,norbデータセットの精度が63.21%まで向上することを示した。 しかし、その技術は確定していない。 私たちの目標は、ほとんど変更することなく、以前の最先端アーキテクチャを再利用することですが、検討した戦略のデメリットも公開しています。

In the early 1990s, the first signs of life of the CNN era were given: LeCun et al. proposed a CNN model trained by the backpropagation algorithm to classify low-resolution images of handwritten digits. Undoubtedly, it was a breakthrough in the field of computer vision. But with the rise of other classification methods, it fell out fashion. That was until 2012, when Krizhevsky et al. revived the interest in CNNs by exhibiting considerably higher image classification accuracy on the ImageNet challenge. Since then, the complexity of the architectures are exponentially increasing and many structures are rapidly becoming obsolete. Using multistream networks as a base and the feature infusion precept, we explore the proposed LCNN cross-fusion strategy to use the backbones of former state-of-the-art networks on image classification in order to discover if the technique is able to put these designs back in the game. In this paper, we showed that we can obtain an increase of accuracy up to 63.21% on the NORB dataset we comparing with the original structure. However, no technique is definitive. While our goal is to try to reuse previous state-of-the-art architectures with few modifications, we also expose the disadvantages of our explored strategy.
翻訳日:2021-09-29 16:33:10 公開日:2021-09-28
# (参考訳) 時間情報とイベントマークアップ言語:TIE-MLマークアッププロセスとスキーマバージョン1.0 [全文訳有]

Temporal Information and Event Markup Language: TIE-ML Markup Process and Schema Version 1.0 ( http://arxiv.org/abs/2109.13892v1 )

ライセンス: CC BY-SA 4.0
Damir Cavar, Billy Dickson, Ali Aljubailan, Soyoung Kim(参考訳) TIE-ML(Temporal Information and Event Markup Language)は、コーパスの時間的およびイベント関連アノテーションの生産性と精度を改善し、機械学習ベースのモデルトレーニングを容易にするためのマークアップ戦略およびアノテーションスキーマである。 イベントのアノテーション、時間的シーケンシング、持続時間については、時間的関係とイベント列挙のみに対して非常に少ないタグセットを提供することで、大幅に単純化される。 他の標準、例えばタイムマークアップ言語(timeml)と比較すると、洗練された形式主義、理論的概念、アノテーションアプローチを捨てて使う方がずっと簡単である。 timemlを使ったコーパスのアノテーションは、損失のあるtie-mlにマッピングでき、tie-mlアノテーションは、特定の下位仕様でtimemlに完全にマッピングできる。

Temporal Information and Event Markup Language (TIE-ML) is a markup strategy and annotation schema to improve the productivity and accuracy of temporal and event related annotation of corpora to facilitate machine learning based model training. For the annotation of events, temporal sequencing, and durations, it is significantly simpler by providing an extremely reduced tag set for just temporal relations and event enumeration. In comparison to other standards, as for example the Time Markup Language (TimeML), it is much easier to use by dropping sophisticated formalisms, theoretical concepts, and annotation approaches. Annotations of corpora using TimeML can be mapped to TIE-ML with a loss, and TIE-ML annotations can be fully mapped to TimeML with certain under-specification.
翻訳日:2021-09-29 16:15:49 公開日:2021-09-28
# (参考訳) 肝移植における説明可能なマシンラーニング [全文訳有]

Explainable Machine Larning for liver transplantation ( http://arxiv.org/abs/2109.13893v1 )

ライセンス: CC BY 4.0
Pedro Cabalar, Brais Mu\~niz, Gilberto P\'erez, Francisco Su\'arez(参考訳) 本稿では,肝移植における決定支援として用いられる決定木による予測を,可読性の観点から説明するための柔軟な方法を提案する。 決定木は,Cru\~na大学病院センターの肝移植ユニットで収集したデータセットに機械学習を適用し,移植後の長期生存(5年)を予測する。 本提案手法は,テキストを付加した論理プログラム(LP)において,決定木を規則の集合として表現することに基づく。 このロジックプログラムはツールxclingo(Answer Set Programmingをベースとした)を使用して処理され、アノテーションテキストと所定の入力が提供されると効果的に起動される。 ルールがツリー構造を尊重する(学習過程を反映するのに便利である)場合と、ルールが(以前は単純化されていた)ツリーパスに対応する(意思決定のために読みやすい)場合である。

In this work, we present a flexible method for explaining, in human readable terms, the predictions made by decision trees used as decision support in liver transplantation. The decision trees have been obtained through machine learning applied on a dataset collected at the liver transplantation unit at the Coru\~na University Hospital Center and are used to predict long term (five years) survival after transplantation. The method we propose is based on the representation of the decision tree as a set of rules in a logic program (LP) that is further annotated with text messages. This logic program is then processed using the tool xclingo (based on Answer Set Programming) that allows building compound explanations depending on the annotation text and the rules effectively fired when a given input is provided. We explore two alternative LP encodings: one in which rules respect the tree structure (more convenient to reflect the learning process) and one where each rule corresponds to a (previously simplified) tree path (more readable for decision making).
翻訳日:2021-09-29 16:02:15 公開日:2021-09-28
# (参考訳) 秩序流れの生成的逆モデルによる日内価格シミュレーション [全文訳有]

Intra-Day Price Simulation with Generative Adversarial Modelling of the Order Flow ( http://arxiv.org/abs/2109.13905v1 )

ライセンス: CC BY 4.0
Ye-Sheen Lim, Denise Gorse(参考訳) 金融市場の日内価格変動は、トレーダーが高い頻度で提出する注文フローと呼ばれる注文順序によって引き起こされる。 本稿では、注文フローのランダムなシーケンスを生成して、日内価格変動をシミュレートできるように、注文フローをモデル化するためのシーケンス生成適応型ネットワークフレームワークを新たに導入する。 ベンチマークとして、定量的ファイナンス文献からよく知られたパラメトリックモデルが選択される。 モデルが適合し、各モデルから順序流列の複数のランダムパスがサンプリングされる。 モデルの性能は、生成したシーケンスを用いて価格変動をシミュレートし、生成したシーケンスと実シーケンスの価格変動の実証的な規則性を比較する。 経験則として考慮されるものとしては、価格ログリターンの分布、価格変動性、およびログリターン分布の重みがある。 その結果、生成モデルの順序列は、ベンチマークの順序よりも実際の価格変動の統計的挙動を再現できることがわかった。

Intra-day price variations in financial markets are driven by the sequence of orders, called the order flow, that is submitted at high frequency by traders. This paper introduces a novel application of the Sequence Generative Adversarial Networks framework to model the order flow, such that random sequences of the order flow can then be generated to simulate the intra-day variation of prices. As a benchmark, a well-known parametric model from the quantitative finance literature is selected. The models are fitted, and then multiple random paths of the order flow sequences are sampled from each model. Model performances are then evaluated by using the generated sequences to simulate price variations, and we compare the empirical regularities between the price variations produced by the generated and real sequences. The empirical regularities considered include the distribution of the price log-returns, the price volatility, and the heavy-tail of the log-returns distributions. The results show that the order sequences from the generative model are better able to reproduce the statistical behaviour of real price variations than the sequences from the benchmark.
翻訳日:2021-09-29 15:55:52 公開日:2021-09-28
# (参考訳) 言語と文化にまたがる視覚的な推論 [全文訳有]

Visually Grounded Reasoning across Languages and Cultures ( http://arxiv.org/abs/2109.13238v1 )

ライセンス: CC BY 4.0
Fangyu Liu, Emanuele Bugliarello, Edoardo Maria Ponti, Siva Reddy, Nigel Collier, Desmond Elliott(参考訳) 広く使われている視覚・言語データセットと事前訓練されたエンコーダの設計は、ImageNetの概念やイメージを直接採用するか、あるいはインスピレーションを引き出す。 このベンチマークがコンピュータビジョンの進歩にどの程度貢献したかは過大評価できないが、主に英語の語彙データベースや画像クエリから派生したもので、北米や西欧の偏見を持つ資料となっている。 そこで我々は,より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを考案した。 特に、概念とイメージの選択は、自動的にスクラップするのではなく、ネイティブスピーカーによって完全に駆動されます。 具体的には,インドネシア語,中国語,スワヒリ語,タミル語,トルコ語の類型的に多様な言語群に焦点を当てる。 この新プロトコルを用いて得られた概念と画像に基づいて,ネイティブ話者アノテータから画像のペアに関する文を抽出することにより, {M}ulticultur{a}l {R}easoning over {V}ision と {L}anguage (MARVL) の多言語データセットを作成する。 このタスクは、それぞれの根拠のある文が真か偽かを識別する。 我々は,最先端モデルを用いた一連のベースラインを確立し,それらの言語間伝達性能が英語における教師付き性能よりも劇的に遅れていることを見いだした。 これらの結果は、狭い領域を超えた現在の最先端モデルの堅牢性と正確性を再評価すると同時に、真に多言語多文化システムを開発するための新たなエキサイティングな課題を提起します。

The design of widespread vision-and-language datasets and pre-trained encoders directly adopts, or draws inspiration from, the concepts and images of ImageNet. While one can hardly overestimate how much this benchmark contributed to progress in computer vision, it is mostly derived from lexical databases and image queries in English, resulting in source material with a North American or Western European bias. Therefore, we devise a new protocol to construct an ImageNet-style hierarchy representative of more languages and cultures. In particular, we let the selection of both concepts and images be entirely driven by native speakers, rather than scraping them automatically. Specifically, we focus on a typologically diverse set of languages, namely, Indonesian, Mandarin Chinese, Swahili, Tamil, and Turkish. On top of the concepts and images obtained through this new protocol, we create a multilingual dataset for {M}ulticultur{a}l {R}easoning over {V}ision and {L}anguage (MaRVL) by eliciting statements from native speaker annotators about pairs of images. The task consists of discriminating whether each grounded statement is true or false. We establish a series of baselines using state-of-the-art models and find that their cross-lingual transfer performance lags dramatically behind supervised performance in English. These results invite us to reassess the robustness and accuracy of current state-of-the-art models beyond a narrow domain, but also open up new exciting challenges for the development of truly multilingual and multicultural systems.
翻訳日:2021-09-29 15:28:33 公開日:2021-09-28
# ML安全性の未解決問題

Unsolved Problems in ML Safety ( http://arxiv.org/abs/2109.13916v1 )

ライセンス: Link先を確認
Dan Hendrycks and Nicholas Carlini and John Schulman and Jacob Steinhardt(参考訳) 機械学習(ml)システムは、急速に拡大し、新しい機能を獲得し、高リスク設定にますますデプロイされている。 他の強力な技術と同様に、MLの安全性は研究の優先事項であるべきだ。 近年の大規模モデルが導入したmlにおける新たな安全性課題への対応として,mlの安全性に関する新たなロードマップと,分野が対処すべき技術的問題を洗練することを提案する。 研究の準備ができている4つの問題、すなわち、ハザード("Robustness")、ハザード("Monitoring")、MLシステム("Alignment")のステアリング("Alignment")、MLシステムの扱い方に対するリスクの低減("External Safety")について述べる。 各問題のモチベーションを明確にし,具体的な研究指針を提供する。

Machine learning (ML) systems are rapidly increasing in size, are acquiring new capabilities, and are increasingly deployed in high-stakes settings. As with other powerful technologies, safety for ML should be a leading research priority. In response to emerging safety challenges in ML, such as those introduced by recent large-scale models, we provide a new roadmap for ML Safety and refine the technical problems that the field needs to address. We present four problems ready for research, namely withstanding hazards ("Robustness"), identifying hazards ("Monitoring"), steering ML systems ("Alignment"), and reducing risks to how ML systems are handled ("External Safety"). Throughout, we clarify each problem's motivation and provide concrete research directions.
翻訳日:2021-09-29 15:01:29 公開日:2021-09-28
# When in Doubt: 交替正規化による分類性能の向上

When in Doubt: Improving Classification Performance with Alternating Normalization ( http://arxiv.org/abs/2109.13449v1 )

ライセンス: Link先を確認
Menglin Jia, Austin Reiter, Ser-Nam Lim, Yoav Artzi and Claire Cardie(参考訳) 分類のための非パラメトリック後処理ステップである交互正規化(CAN)を用いた分類を導入する。 CANは, 高信頼度検証例の予測クラス分布を用いて, 予測クラス確率分布を再調整することにより, 挑戦例の分類精度を向上させる。 CANはどんな確率的分類器にも容易に適用でき、計算オーバーヘッドは最小限である。 シミュレーション実験を用いてcanの特性を解析し,様々な分類タスクでその効果を実証した。

We introduce Classification with Alternating Normalization (CAN), a non-parametric post-processing step for classification. CAN improves classification accuracy for challenging examples by re-adjusting their predicted class probability distribution using the predicted class distributions of high-confidence validation examples. CAN is easily applicable to any probabilistic classifier, with minimal computation overhead. We analyze the properties of CAN using simulated experiments, and empirically demonstrate its effectiveness across a diverse set of classification tasks.
翻訳日:2021-09-29 15:00:48 公開日:2021-09-28
# 微分可能なアーキテクチャ探索の性能劣化を深く掘り下げる

Delve into the Performance Degradation of Differentiable Architecture Search ( http://arxiv.org/abs/2109.13466v1 )

ライセンス: Link先を確認
Jiuling Zhang and Zhiming Ding(参考訳) 微分可能なアーキテクチャサーチ (DARTS) は、性能劣化につながる検証セットに過度に適合すると考えられる。 まず,一連の探索実験を行い,強固なアーキテクチャパラメータの正規化やウォームアップトレーニングが効果的に解決できないことを検証した。 実験から得られた知見から, DARTSの性能は訓練されたスーパーネットの重みに依存していないと推測し, アーキテクチャパラメータは訓練の最終段階ではなく, 初期の段階から得られる勾配によって訓練されるべきであると主張した。 この議論は、重みとパラメータの学習率スキームを交換することで検証される。 実験の結果, 学習率の簡易スワップが劣化を効果的に解消し, 競争性能を得ることができた。 さらなる実証的な証拠は、この分解は検証セットのオーバーフィッティングの単純な問題ではなく、双レベル最適化ダイナミクスにおける劣化と操作選択バイアスの関係を示している。 我々は,このバイアスの一般化を実証し,このバイアスを利用して操作量に基づく選択的停止を実現することを提案する。

Differentiable architecture search (DARTS) is widely considered to be easy to overfit the validation set which leads to performance degradation. We first employ a series of exploratory experiments to verify that neither high-strength architecture parameters regularization nor warmup training scheme can effectively solve this problem. Based on the insights from the experiments, we conjecture that the performance of DARTS does not depend on the well-trained supernet weights and argue that the architecture parameters should be trained by the gradients which are obtained in the early stage rather than the final stage of training. This argument is then verified by exchanging the learning rate schemes of weights and parameters. Experimental results show that the simple swap of the learning rates can effectively solve the degradation and achieve competitive performance. Further empirical evidence suggests that the degradation is not a simple problem of the validation set overfitting but exhibit some links between the degradation and the operation selection bias within bilevel optimization dynamics. We demonstrate the generalization of this bias and propose to utilize this bias to achieve an operation-magnitude- based selective stop.
翻訳日:2021-09-29 15:00:42 公開日:2021-09-28
# DeepPSL: エンドツーエンドの知覚と推論とゼロショット学習への応用

DeepPSL: End-to-end perception and reasoning with applications to zero shot learning ( http://arxiv.org/abs/2109.13662v1 )

ライセンス: Link先を確認
Nigel Duffy, Sai Akhil Puranam, Sridhar Dasaratha, Karmvir Singh Phogat, Sunil Reddy Tiyyagura(参考訳) 本稿では、確率的ソフト論理(PSL)の変種であるDeepPSLを紹介し、推論と知覚を統合したエンドツーエンドのトレーニング可能なシステムを作成する。 PSLは凸グラフィックモデル - Hinge Loss Markov random Field (HL-MRFs) の観点から一階述語論理を表す。 PSLは10億以上の基底ルールのシステムに適用されているので、確率論的論理フレームワークの中でも際立っている。 我々のアプローチの鍵は、ディープニューラルネットワークを用いて一階述語を1次論理で表現し、HL-MRFを通してほぼバックプロパゲートし、一階体系のあらゆる側面を訓練することである。 このアプローチは、ディープラーニングと推論技術を知識ベース学習、マルチタスク学習、説明可能性への応用と統合する上で、興味深い方向を示していると考えています。 画像分類において、DeepPSLをゼロショット学習問題で評価する。 最先端の成果は、我々のアプローチの有用性と柔軟性を示しています。

We introduce DeepPSL a variant of Probabilistic Soft Logic (PSL) to produce an end-to-end trainable system that integrates reasoning and perception. PSL represents first-order logic in terms of a convex graphical model -- Hinge Loss Markov random fields (HL-MRFs). PSL stands out among probabilistic logic frameworks due to its tractability having been applied to systems of more than 1 billion ground rules. The key to our approach is to represent predicates in first-order logic using deep neural networks and then to approximately back-propagate through the HL-MRF and thus train every aspect of the first-order system being represented. We believe that this approach represents an interesting direction for the integration of deep learning and reasoning techniques with applications to knowledge base learning, multi-task learning, and explainability. We evaluate DeepPSL on a zero shot learning problem in image classification. State of the art results demonstrate the utility and flexibility of our approach.
翻訳日:2021-09-29 15:00:22 公開日:2021-09-28
# 深層学習モデル記述のためのマルチシーケンス画像認識モデルと評価指標

Multi-Semantic Image Recognition Model and Evaluating Index for explaining the deep learning models ( http://arxiv.org/abs/2109.13531v1 )

ライセンス: Link先を確認
Qianmengke Zhao, Ye Wang, Qun Liu(参考訳) ディープラーニングモデルは様々なアプリケーションの中で強力だが、ほとんどのディープラーニングモデルは依然としてブラックボックスであり、検証性と解釈性に欠けており、人間には理解できない意思決定プロセスである。 したがって、深いニューラルネットワークを説明で評価する方法はまだ緊急課題である。 本稿では,まず,ニューラルネットワークの意思決定過程を人間が理解できるようにするマルチセマンティクス画像認識モデルを提案する。 次に,モデルの解釈可能性について定量的に評価できる新しい評価指標を提案する。 また,ニューラルネットワークの判断過程において,画像分類結果に影響を及ぼす意味情報を包括的に要約する。 最後に,現在最先端のディープラーニングモデルを用いて,関連するベースライン性能を示す。

Although deep learning models are powerful among various applications, most deep learning models are still a black box, lacking verifiability and interpretability, which means the decision-making process that human beings cannot understand. Therefore, how to evaluate deep neural networks with explanations is still an urgent task. In this paper, we first propose a multi-semantic image recognition model, which enables human beings to understand the decision-making process of the neural network. Then, we presents a new evaluation index, which can quantitatively assess the model interpretability. We also comprehensively summarize the semantic information that affects the image classification results in the judgment process of neural networks. Finally, this paper also exhibits the relevant baseline performance with current state-of-the-art deep learning models.
翻訳日:2021-09-29 14:59:51 公開日:2021-09-28
# インスタンスベースのニューラル依存パーシング

Instance-Based Neural Dependency Parsing ( http://arxiv.org/abs/2109.13497v1 )

ライセンス: Link先を確認
Hiroki Ouchi, Jun Suzuki, Sosuke Kobayashi, Sho Yokoi, Tatsuki Kuribayashi, Masashi Yoshikawa, Kentaro Inui(参考訳) モデル予測の解釈可能な理性は、実用的な応用において不可欠である。 依存解析のための解釈可能な推論プロセスを持つニューラルモデルを開発した。 私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。 トレーニングエッジは予測に明示的に使用されるため、各エッジの予測への貢献を理解するのが容易である。 実験では、インスタンスベースモデルが標準神経モデルと競合する正確性を達成し、インスタンスベースの説明の合理的な可能性を示す。

Interpretable rationales for model predictions are crucial in practical applications. We develop neural models that possess an interpretable inference process for dependency parsing. Our models adopt instance-based inference, where dependency edges are extracted and labeled by comparing them to edges in a training set. The training edges are explicitly used for the predictions; thus, it is easy to grasp the contribution of each edge to the predictions. Our experiments show that our instance-based models achieve competitive accuracy with standard neural models and have the reasonable plausibility of instance-based explanations.
翻訳日:2021-09-29 14:59:41 公開日:2021-09-28
# 診断に同意する:アノテーションによる攻撃的な言語データセットの注釈付け

Agreeing to Disagree: Annotating Offensive Language Datasets with Annotators' Disagreement ( http://arxiv.org/abs/2109.13563v1 )

ライセンス: Link先を確認
Elisa Leonardelli, Stefano Menini, Alessio Palmero Aprosio, Marco Guerini, Sara Tonelli(参考訳) 攻撃的言語検出への最先端のアプローチは教師付き学習に依存しているため、ソーシャルメディアの継続的な進化シナリオに素早く適応することが重要である。 アルゴリズム的な観点からこの問題に取り組むためにいくつかのアプローチが提案されているが、注釈付きデータの必要性を減らすため、これらのデータの品質にはあまり注意が払われていない。 最近出現したトレンドに続き、アノテータ間の合意のレベルに着目し、攻撃的な言語データセットを作成するためにデータを選択する。 本研究は、異なるトピックをカバーする英語ツイートの3つの新しいデータセットを作成し、それぞれ5つのクラウドソースによる判断を行う。 また,アノテータ合意の異なるレベルに応じたトレーニングデータとテストデータの選択が,分類器の性能とロバスト性に強い影響を与えることを示す実験を行った。 この結果はクロスドメイン実験でさらに検証され、人気のあるベンチマークデータセットを用いて研究されました。 合意の低いケースは必ずしも品質の悪いアノテーションによるものではないことを示し、将来のデータセット、特にテストセットにおける曖昧なケースの存在を、オンラインで表現されるさまざまな視点をよりよく説明するために推奨する。

Since state-of-the-art approaches to offensive language detection rely on supervised learning, it is crucial to quickly adapt them to the continuously evolving scenario of social media. While several approaches have been proposed to tackle the problem from an algorithmic perspective, so to reduce the need for annotated data, less attention has been paid to the quality of these data. Following a trend that has emerged recently, we focus on the level of agreement among annotators while selecting data to create offensive language datasets, a task involving a high level of subjectivity. Our study comprises the creation of three novel datasets of English tweets covering different topics and having five crowd-sourced judgments each. We also present an extensive set of experiments showing that selecting training and test data according to different levels of annotators' agreement has a strong effect on classifiers performance and robustness. Our findings are further validated in cross-domain experiments and studied using a popular benchmark dataset. We show that such hard cases, where low agreement is present, are not necessarily due to poor-quality annotation and we advocate for a higher presence of ambiguous cases in future datasets, particularly in test sets, to better account for the different points of view expressed online.
翻訳日:2021-09-29 14:59:33 公開日:2021-09-28
# チェーホフの銃の認識

Chekhov's Gun Recognition ( http://arxiv.org/abs/2109.13855v1 )

ライセンス: Link先を確認
Alexey Tikhonov and Ivan P. Yamshchikov(参考訳) チェーホフの銃は、物語のあらゆる要素は必要であり、無関係な要素は取り除かなければならないという劇的な原則である。 本稿では,CGR(Chekhov's gun recognition)とCGR(Chekhov's gun recognition)という自然言語処理タスクを提案する。 古典的な名前付きエンティティ認識(ner)と似ているが、チェーホフの銃は物語における因果関係に大きな影響を与えるため、物語処理のタスクに重大な違いがあり、重要な役割を担っている。 本稿では,CGRタスク用の新しいベンチマークデータセットについて,それぞれ1つ以上のChekhov's Gunを含む5550の記述を含むとともに,自然言語処理(NLP)の文献で利用可能な2つのデータセット上でタスクを検証する。

Chekhov's gun is a dramatic principle stating that every element in a story must be necessary, and irrelevant elements should be removed. This paper presents a new natural language processing task - Chekhov's gun recognition or (CGR) - recognition of entities that are pivotal for the development of the plot. Though similar to classical Named Entity Recognition (NER) it has profound differences and is crucial for the tasks of narrative processing, since Chekhov's guns have a profound impact on the causal relationship in a story. The paper presents a new benchmark dataset for the CGR task that includes 5550 descriptions with one or more Chekhov's Gun in each and validates the task on two more datasets available in the natural language processing (NLP) literature.
翻訳日:2021-09-29 14:59:12 公開日:2021-09-28
# 調整による深層強化学習

Deep Reinforcement Learning with Adjustments ( http://arxiv.org/abs/2109.13463v1 )

ライセンス: Link先を確認
Hamed Khorasgani, Haiyan Wang, Chetan Gupta, and Susumu Serita(参考訳) ディープ強化学習(RL)アルゴリズムは、エージェント操作を時間とともに最適化する複雑なポリシーを学習することができる。 近年、RLアルゴリズムは複雑な問題を解く上で有望な結果を示している。 しかし、実世界の物理システムへの応用は限られている。 RLアルゴリズムの進歩にもかかわらず、産業はしばしば伝統的な制御戦略を好む。 従来の手法は単純で、計算効率が高く、調整が容易である。 本稿では、まず、制御とRLのアルゴリズムを橋渡しし、両方の世界のベストをもたらすことができる、連続的な行動空間のための新しいQ-ラーニングアルゴリズムを提案する。 本手法は,長期的目標を達成するための複雑な方針を学習すると同時に,短期的要件をリトレーニングすることなく容易に対処できる。 次に,任意の事前学習されたrlアルゴリズムの短期的要件に対処するために適用可能なアルゴリズムの近似を提案する。 本研究は,提案手法と実用的近似法の両方が,複雑な報酬関数を伴わずに短期的・長期的目標を達成できることを実証する。

Deep reinforcement learning (RL) algorithms can learn complex policies to optimize agent operation over time. RL algorithms have shown promising results in solving complicated problems in recent years. However, their application on real-world physical systems remains limited. Despite the advancements in RL algorithms, the industries often prefer traditional control strategies. Traditional methods are simple, computationally efficient and easy to adjust. In this paper, we first propose a new Q-learning algorithm for continuous action space, which can bridge the control and RL algorithms and bring us the best of both worlds. Our method can learn complex policies to achieve long-term goals and at the same time it can be easily adjusted to address short-term requirements without retraining. Next, we present an approximation of our algorithm which can be applied to address short-term requirements of any pre-trained RL algorithm. The case studies demonstrate that both our proposed method as well as its practical approximation can achieve short-term and long-term goals without complex reward functions.
翻訳日:2021-09-29 14:58:05 公開日:2021-09-28
# 深層強化学習に必要な場合の探索

Exploring More When It Needs in Deep Reinforcement Learning ( http://arxiv.org/abs/2109.13477v1 )

ライセンス: Link先を確認
Youtian Guo and Qi Gao(参考訳) 本稿では,エージェントが要求するノイズを探索する深層強化学習におけるポリシの探索機構について,an2n(add noise to noise)を提案する。 根底にある考え方は、Deep Reinforcement Learningエージェントが歴史上パフォーマンスの悪い状態にある場合、さらに調査する必要があります。 そこで我々は累積報酬を用いて、エージェントが正常に動作していない過去の状態を評価するとともに、コサイン距離を用いて現在の状態をさらに調査する必要があるかどうかを測定する。 この方法は,エージェントの政策の探索機構が効率的な探索に寄与することを示す。 本稿では,提案した探索機構AN2NとDeep Deterministic Policy Gradient(DDPG),Soft Actor-Critic(SAC)アルゴリズムを組み合わせることで,半Cheetah,Hopper,Swimm erなどの連続制御タスクに適用し,性能と収束速度の大幅な向上を実現した。

We propose a exploration mechanism of policy in Deep Reinforcement Learning, which is exploring more when agent needs, called Add Noise to Noise (AN2N). The core idea is: when the Deep Reinforcement Learning agent is in a state of poor performance in history, it needs to explore more. So we use cumulative rewards to evaluate which past states the agents have not performed well, and use cosine distance to measure whether the current state needs to be explored more. This method shows that the exploration mechanism of the agent's policy is conducive to efficient exploration. We combining the proposed exploration mechanism AN2N with Deep Deterministic Policy Gradient (DDPG), Soft Actor-Critic (SAC) algorithms, and apply it to the field of continuous control tasks, such as halfCheetah, Hopper, and Swimmer, achieving considerable improvement in performance and convergence speed.
翻訳日:2021-09-29 14:57:52 公開日:2021-09-28
# 強化学習のための初歩的な表現

A First-Occupancy Representation for Reinforcement Learning ( http://arxiv.org/abs/2109.13863v1 )

ライセンス: Link先を確認
Ted Moskovitz, Spencer R. Wilson, Maneesh Sahani(参考訳) 動物と人工エージェントはどちらも、タスク間の学習の迅速な伝達を支援する状態表現の恩恵を受けており、それによって効率よく環境を横断して報奨状態に到達することができる。 固定された政策の下で、期待される累積的、割引された状態占有度を測定する後継表現(SR)は、他の一定のマルコフ環境下で異なる報酬構造への効率的な移動を可能にし、生物学的行動や神経活動の側面を過小評価している。 しかし、現実の世界では、報酬は一度だけ移動したり、場所をシフトしたり、エージェントが人工的なタスクホライズンズの制約なしにできるだけ早く目標状態に到達することを意図したりできる。 そのような場合、最も行動にかかわる表現は、エージェントが最初に関心のある状態に到達するであろう時期に関する情報を、潜在的に無限の期間にわたって訪問すべき頻度ではなく、持ち込むことになる。 このような要求を反映するために、状態がアクセスされた最初の時間的ディスカウントを測定するファースト占有表現(fr)を導入する。 frは望ましい状態への効率的な経路の選択を容易にし、特定の条件下において、一連のサブゴールによって定義された最適な軌道を計画し、刺激の脅威を避ける動物に類似した行動を誘導できることを実証する。

Both animals and artificial agents benefit from state representations that support rapid transfer of learning across tasks and which enable them to efficiently traverse their environments to reach rewarding states. The successor representation (SR), which measures the expected cumulative, discounted state occupancy under a fixed policy, enables efficient transfer to different reward structures in an otherwise constant Markovian environment and has been hypothesized to underlie aspects of biological behavior and neural activity. However, in the real world, rewards may move or only be available for consumption once, may shift location, or agents may simply aim to reach goal states as rapidly as possible without the constraint of artificially imposed task horizons. In such cases, the most behaviorally-relevan t representation would carry information about when the agent was likely to first reach states of interest, rather than how often it should expect to visit them over a potentially infinite time span. To reflect such demands, we introduce the first-occupancy representation (FR), which measures the expected temporal discount to the first time a state is accessed. We demonstrate that the FR facilitates the selection of efficient paths to desired states, allows the agent, under certain conditions, to plan provably optimal trajectories defined by a sequence of subgoals, and induces similar behavior to animals avoiding threatening stimuli.
翻訳日:2021-09-29 14:57:34 公開日:2021-09-28
# 大偏差原理を用いた高次元データの異常検出

Anomaly Detection for High-Dimensional Data Using Large Deviations Principle ( http://arxiv.org/abs/2109.13698v1 )

ライセンス: Link先を確認
Sreelekha Guggilam and Varun Chandola and Abani Patra(参考訳) 現在の異常検出手法のほとんどは、高次元データを扱う際の次元の呪いに苦しむ。 大規模偏差理論の概念を用いて高次元データにスケール可能な異常検出アルゴリズムを提案する。 提案する大偏差異常検出 (lad) アルゴリズムは, 様々な大規模・高次元ベンチマークデータセットにおいて, アート異常検出法に勝ることを示した。 本研究では,高次元データにスケールするアルゴリズムの能力を生かして,多変量時系列の集まりにおける異常を識別するオンライン異常検出手法を提案する。 本研究は、新型コロナウイルス関連事例と死亡の点から、米国内の郡を異常な傾向で特定する上で、オンラインアルゴリズムの適用性を示す。 特定された郡のいくつかは、新型コロナウイルスのパンデミックに対する反応が乏しい郡と相関している。

Most current anomaly detection methods suffer from the curse of dimensionality when dealing with high-dimensional data. We propose an anomaly detection algorithm that can scale to high-dimensional data using concepts from the theory of large deviations. The proposed Large Deviations Anomaly Detection (LAD) algorithm is shown to outperform state of art anomaly detection methods on a variety of large and high-dimensional benchmark data sets. Exploiting the ability of the algorithm to scale to high-dimensional data, we propose an online anomaly detection method to identify anomalies in a collection of multivariate time series. We demonstrate the applicability of the online algorithm in identifying counties in the United States with anomalous trends in terms of COVID-19 related cases and deaths. Several of the identified anomalous counties correlate with counties with documented poor response to the COVID pandemic.
翻訳日:2021-09-29 14:56:17 公開日:2021-09-28
# PAC-Bayesian Analysis of Distance-based Classifications: Why Nearest-Neighbour Works!

A PAC-Bayesian Analysis of Distance-Based Classifiers: Why Nearest-Neighbour works! ( http://arxiv.org/abs/2109.13889v1 )

ライセンス: Link先を確認
Thore Graepel and Ralf Herbrich(参考訳) 要約 K-nearest-neighbour classifier (K-NN) の一般化誤差に対するPAC-Bayesian boundsを提案する。 これはK-NN分類器をカーネル帯域幅の消滅の限界においてカーネル空間フレームワークにキャストすることで達成される。 核展開における係数上の事前測度と、核空間における重みベクトル上の誘導測度との関係を定式化する。 係数の上のスパース事前を定義することで、余剰な訓練例の数の関数である一般化境界(英語版)(generalization bound)に繋がるpac-ベイズフォーク定理(pac-bayesian folk theorem)の応用が可能になる。 提示された境界は、ソリューションのスパース性に対する事前の信念を定量化することを必要とし、実際の冗長性レベルが分かっている場合の学習後に評価される。 小さいサンプルサイズ (m ~ 100) であっても、期待されるスパースネスと実際の冗長性の両方が高い場合、バウンドは非自明な結果を与える。

Abstract We present PAC-Bayesian bounds for the generalisation error of the K-nearest-neighbour classifier (K-NN). This is achieved by casting the K-NN classifier into a kernel space framework in the limit of vanishing kernel bandwidth. We establish a relation between prior measures over the coefficients in the kernel expansion and the induced measure on the weight vectors in kernel space. Defining a sparse prior over the coefficients allows the application of a PAC-Bayesian folk theorem that leads to a generalisation bound that is a function of the number of redundant training examples: those that can be left out without changing the solution. The presented bound requires to quantify a prior belief in the sparseness of the solution and is evaluated after learning when the actual redundancy level is known. Even for small sample size (m ~ 100) the bound gives non-trivial results when both the expected sparseness and the actual redundancy are high.
翻訳日:2021-09-29 14:56:05 公開日:2021-09-28
# Warp-Refine Propagation: サイクル一貫性による半改良オートラベル

Warp-Refine Propagation: Semi-Supervised Auto-labeling via Cycle-consistency ( http://arxiv.org/abs/2109.13432v1 )

ライセンス: Link先を確認
Aditya Ganeshan, Alexis Vallet, Yasunori Kudo, Shin-ichi Maeda, Tommi Kerola, Rares Ambrus, Dennis Park, Adrien Gaidon(参考訳) セマンティックセグメンテーションのためのディープラーニングモデルは、高価で大規模で手動の注釈付きデータセットに依存している。 ラベル付けは、画像ごとに何時間もかかる面倒なプロセスだ。 少ないラベル付きフレームを時間を通して伝播させることによって、ビデオシーケンスを自動的に注釈付けすることは、よりスケーラブルな代替手段である。 本研究では, 意味的手がかりと幾何学的手がかりを併用し, 効率的に自己ラベル映像を合成する新しいラベル伝搬法であるwarp-refine propagationを提案する。 本手法は,時間的周期整合性を利用して,幾何学的にワープされたラベルを改良し,学習されたセマンティック先行を半教師付き環境で注入する。 本研究では,ApolloScapeデータセット上の13.1 mIoUの有意なマージンでラベルの伝播を改善する手法を定量的に示す。 さらに,自動ラベルフレームを用いたトレーニングにより,3つのセマンティックセグメンテーションベンチマークの競争結果を達成し,NYU-V2とKITTIの1.8mIoUと3.61mIoUの大きなマージンで最先端技術を改善するとともに,現在のCityscapesの最良の結果と一致させた。

Deep learning models for semantic segmentation rely on expensive, large-scale, manually annotated datasets. Labelling is a tedious process that can take hours per image. Automatically annotating video sequences by propagating sparsely labeled frames through time is a more scalable alternative. In this work, we propose a novel label propagation method, termed Warp-Refine Propagation, that combines semantic cues with geometric cues to efficiently auto-label videos. Our method learns to refine geometrically-warped labels and infuse them with learned semantic priors in a semi-supervised setting by leveraging cycle consistency across time. We quantitatively show that our method improves label-propagation by a noteworthy margin of 13.1 mIoU on the ApolloScape dataset. Furthermore, by training with the auto-labelled frames, we achieve competitive results on three semantic-segmentatio n benchmarks, improving the state-of-the-art by a large margin of 1.8 and 3.61 mIoU on NYU-V2 and KITTI, while matching the current best results on Cityscapes.
翻訳日:2021-09-29 14:55:45 公開日:2021-09-28
# オーロラの識別と分類に対する対比学習アプローチ

A Contrastive Learning Approach to Auroral Identification and Classification ( http://arxiv.org/abs/2109.13899v1 )

ライセンス: Link先を確認
Jeremiah W. Johnson, Swathi Hari, Donald Hampton, Hyunju K. Connor(参考訳) 教師なし学習アルゴリズムは、コンピュータビジョンのベンチマークタスクにおける教師付きアルゴリズムに匹敵する精度を達成し始めているが、その実用性はまだ実証されていない。 本研究では,オーロラ画像分類の課題に対する教師なし学習の新たな応用について述べる。 具体的には、イベントの時間履歴からの画像データとサブストーム(themis)によるマクロなインタラクションを用いて構築したオーロラ画像データセットにおいて、表現のコントラスト学習(simclr)アルゴリズムのためのシンプルなフレームワークを修正し、適用する。 私たちはそれを証明します (a) 画像の学習表現に適合する単純な線形分類器は、最先端の分類性能を達成し、現在のベンチマークで約10ポイントの分類精度を向上させる。 b) 学習された表現は、手動で割り当てられたカテゴリよりも多くのクラスタに自然にクラスタ化され、既存の分類は過度に粗く、オーロラ型、近地太陽風条件、地球表面の地磁気障害の間の重要な関係を曖昧にすることを示唆している。 さらに、このモデルは、このデータセットの以前のベンチマークよりもはるかに軽量であり、パラメータの数の25\%未満の領域を必要とする。 当社のアプローチは、運用目的の確立されたしきい値を超え、デプロイメントと利用の準備ができています。

Unsupervised learning algorithms are beginning to achieve accuracies comparable to their supervised counterparts on benchmark computer vision tasks, but their utility for practical applications has not yet been demonstrated. In this work, we present a novel application of unsupervised learning to the task of auroral image classification. Specifically, we modify and adapt the Simple framework for Contrastive Learning of Representations (SimCLR) algorithm to learn representations of auroral images in a recently released auroral image dataset constructed using image data from Time History of Events and Macroscale Interactions during Substorms (THEMIS) all-sky imagers. We demonstrate that (a) simple linear classifiers fit to the learned representations of the images achieve state-of-the-art classification performance, improving the classification accuracy by almost 10 percentage points over the current benchmark; and (b) the learned representations naturally cluster into more clusters than exist manually assigned categories, suggesting that existing categorizations are overly coarse and may obscure important connections between auroral types, near-earth solar wind conditions, and geomagnetic disturbances at the earth's surface. Moreover, our model is much lighter than the previous benchmark on this dataset, requiring in the area of fewer than 25\% of the number of parameters. Our approach exceeds an established threshold for operational purposes, demonstrating readiness for deployment and utilization.
翻訳日:2021-09-29 14:55:22 公開日:2021-09-28
# 線形値関数近似による政策反復におけるルックヘッドと近似政策評価の役割

The Role of Lookahead and Approximate Policy Evaluation in Policy Iteration with Linear Value Function Approximation ( http://arxiv.org/abs/2109.13419v1 )

ライセンス: Link先を確認
Anna Winnicki, Joseph Lubars, Michael Livesay, R. Srikant(参考訳) 状態と作用空間の大きさが大きい場合、mdpの解法は確率遷移行列が知られているとしても計算的に禁止される。 したがって、実際、ルックアヘッド、mステップの戻り値を用いた近似ポリシー評価、関数近似など、動的プログラミング問題を概ね解くために、多くの技術が使用されている。 最近の論文 (Efroni et al. 2019) では、ルックアヘッドが近似動的プログラミングの収束率に与える影響について研究している。 本稿では,mステップリターンを用いたルックアウトおよび近似ポリシー評価と連動して関数近似を用いた場合,これらの収束結果が劇的に変化することを示す。 具体的には、線形関数近似を用いて値関数を表現する場合、アルゴリズムが収束するために必要な最小のルックアヘッドとマルチステップリターンが必要であることを示す。 そして、この条件が満たされると、この近似ポリシー反復を用いて得られたポリシーの有限時間性能を特徴付ける。 関数近似を計算するために, 線形最小二乗回帰と勾配降下という2つの異なる手順が提案されている。

When the sizes of the state and action spaces are large, solving MDPs can be computationally prohibitive even if the probability transition matrix is known. So in practice, a number of techniques are used to approximately solve the dynamic programming problem, including lookahead, approximate policy evaluation using an m-step return, and function approximation. In a recent paper, (Efroni et al. 2019) studied the impact of lookahead on the convergence rate of approximate dynamic programming. In this paper, we show that these convergence results change dramatically when function approximation is used in conjunction with lookout and approximate policy evaluation using an m-step return. Specifically, we show that when linear function approximation is used to represent the value function, a certain minimum amount of lookahead and multi-step return is needed for the algorithm to even converge. And when this condition is met, we characterize the finite-time performance of policies obtained using such approximate policy iteration. Our results are presented for two different procedures to compute the function approximation: linear least-squares regression and gradient descent.
翻訳日:2021-09-29 14:53:58 公開日:2021-09-28
# 太陽光発電の日頭予測のための適応型ディープラーニングフレームワーク

An Adaptive Deep Learning Framework for Day-ahead Forecasting of Photovoltaic Power Generation ( http://arxiv.org/abs/2109.13442v1 )

ライセンス: Link先を確認
Xing Luo, Dongxiao Zhang(参考訳) 太陽光発電(PVPG)の正確な予測は、エネルギー供給と需要の間の運用を最適化するために不可欠である。 近年,センサとスマートメータの伝搬は膨大な量のデータを生み出し,PVPG予測データの開発を支援している。 歴史データに基づく長期記憶(LSTM)モデルのような新しい深層学習(DL)モデルは、PVPG予測に有効なソリューションを提供する一方で、これらのモデルはオフライン学習を利用する。 その結果、DLモデルは新たに開発されたデータから学習する機会を生かすことができず、余分なPVユニットや予期せぬPVユニットの故障によるコンセプトドリフトに対処できない。 そこで本研究では, 日頭PVPG予測精度の向上とコンセプトドリフトの影響を解消するために, 従来のデータから一般知識を得るだけでなく, 新たに開発されたデータから特定の知識を動的に学習するDLフレームワークである適応LSTM(AD-LSTM)モデルを提案する。 2相適応学習戦略 (TP-ALS) をAD-LSTMに統合し, PVシステムにおけるコンセプトドリフトを検出するスライディングウィンドウ (SDWIN) アルゴリズムを提案する。 PVシステムからの複数のデータセットを用いて,提案手法の有効性と有効性を評価する。 開発したAD-LSTMモデルは,特にコンセプトドリフトの存在下で,オフラインのLSTMモデルよりも高い予測能力を示す。 さらに,AD-LSTMモデルでは,従来の機械学習モデルや文献の統計モデルと比較して,日頭PVPG予測において優れた性能が得られる。

Accurate forecasts of photovoltaic power generation (PVPG) are essential to optimize operations between energy supply and demand. Recently, the propagation of sensors and smart meters has produced an enormous volume of data, which supports the development of data based PVPG forecasting. Although emerging deep learning (DL) models, such as the long short-term memory (LSTM) model, based on historical data, have provided effective solutions for PVPG forecasting with great successes, these models utilize offline learning. As a result, DL models cannot take advantage of the opportunity to learn from newly-arrived data, and are unable to handle concept drift caused by installing extra PV units and unforeseen PV unit failures. Consequently, to improve day-ahead PVPG forecasting accuracy, as well as eliminate the impacts of concept drift, this paper proposes an adaptive LSTM (AD-LSTM) model, which is a DL framework that can not only acquire general knowledge from historical data, but also dynamically learn specific knowledge from newly-arrived data. A two-phase adaptive learning strategy (TP-ALS) is integrated into AD-LSTM, and a sliding window (SDWIN) algorithm is proposed, to detect concept drift in PV systems. Multiple datasets from PV systems are utilized to assess the feasibility and effectiveness of the proposed approaches. The developed AD-LSTM model demonstrates greater forecasting capability than the offline LSTM model, particularly in the presence of concept drift. Additionally, the proposed AD-LSTM model also achieves superior performance in terms of day-ahead PVPG forecasting compared to other traditional machine learning models and statistical models in the literature.
翻訳日:2021-09-29 14:53:39 公開日:2021-09-28
# 実世界のプログラムを最適化する学習

Learning to Superoptimize Real-world Programs ( http://arxiv.org/abs/2109.13498v1 )

ライセンス: Link先を確認
Alex Shypula, Pengcheng Yin, Jeremy Lacomis, Claire Le Goues, Edward Schwartz, Graham Neubig(参考訳) プログラム最適化は、より効率的に実行するソフトウェアを修正するプロセスである。 最適なプログラムを見つけることは一般的に決定不可能であるため、現代のコンパイラは通常、専門家によるヒューリスティックな最適化に頼っている。 対照的に、超最適化器はより高価な探索法と制約解法を駆使して最適なプログラムを見つけようとする。 一般に、これらの手法は実際の開発シナリオにおいてプログラムにうまくスケールしないため、結果としてスーパー最適化は主に小規模、ドメイン固有、および/または合成プログラムベンチマークに限られている。 本稿では,ニューラルシーケンス・ツー・シーケンスモデルを用いて,実世界のプログラムを超最適化するフレームワークを提案する。 我々は,x86-64アセンブリのオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。 本稿では,最適化のための自己模倣学習(SILO)を提案する。この手法は,我々のBig Assemblyベンチマークにおいて,標準方針勾配学習アプローチの実装と性能を向上する。 SILOは、gccバージョン10.3コンパイラのアグレッシブな最適化レベル-O3と比較して、テストセットの6.2%をプログラムに最適化する。 また,テストセット上でのSILOの過最適化率は,標準ポリシー勾配手法の5倍以上であり,コンパイラ最適化の実証で事前訓練されたモデルであることが報告された。

Program optimization is the process of modifying software to execute more efficiently. Because finding the optimal program is generally undecidable, modern compilers usually resort to expert-written heuristic optimizations. In contrast, superoptimizers attempt to find the optimal program by employing significantly more expensive search and constraint solving techniques. Generally, these methods do not scale well to programs in real development scenarios, and as a result superoptimization has largely been confined to small-scale, domain-specific, and/or synthetic program benchmarks. In this paper, we propose a framework to learn to superoptimize real-world programs by using neural sequence-to-sequence models. We introduce the Big Assembly benchmark, a dataset consisting of over 25K real-world functions mined from open-source projects in x86-64 assembly, which enables experimentation on large-scale optimization of real-world programs. We propose an approach, Self Imitation Learning for Optimization (SILO) that is easy to implement and outperforms a standard policy gradient learning approach on our Big Assembly benchmark. Our method, SILO, superoptimizes programs an expected 6.2% of our test set when compared with the gcc version 10.3 compiler's aggressive optimization level -O3. We also report that SILO's rate of superoptimization on our test set is over five times that of a standard policy gradient approach and a model pre-trained on compiler optimization demonstration.
翻訳日:2021-09-29 14:53:11 公開日:2021-09-28
# 多段型半教師付き改良型深部埋め込みクラスタリング(ms-ssidec)法によるラベル付きサンプルの不足状況下での故障診断

A multi-stage semi-supervised improved deep embedded clustering (MS-SSIDEC) method for bearing fault diagnosis under the situation of insufficient labeled samples ( http://arxiv.org/abs/2109.13521v1 )

ライセンス: Link先を確認
Tongda Sun, Gang Yu(参考訳) インテリジェントなデータ駆動型障害診断法が広く適用されているが、これらの手法のほとんどは高品質のラベル付きサンプルを必要とする。 実際の産業プロセスでデータにラベルをつけるのに多くの労力と時間を要するため、インテリジェントな故障診断手法の適用が困難になる。 この問題を解決するために, ラベル付きサンプルの不足状況下でのベアリング障害診断のために, 多段階半教師付き改良型深部埋め込みクラスタリング (ms-ssidec) 法を提案する。 本手法は,事前学習,深層クラスタリング,教師付き学習の3段階を含む。 第1段階では、スキップ接続に基づく畳み込み自動エンコーダ(SCCAE)を提案し、低次元表現を自動的に学習するために事前学習する。 第2段階では、事前学習されたオートエンコーダとクラスタリング層を統合した半教師付き改良深層クラスタリング(SSIDEC)モデルを提案する。 さらに、モデルのトレーニングにおける過度な適合を克服するために、正規化用語として仮想敵訓練(VAT)が導入される。 第3段階では、第2段階で得られた高品質なクラスタリング結果が、ラベルのないサンプルに擬似ラベルとして割り当てられる。 ラベル付きデータセットは、疑似ラベル付きサンプルによって拡張され、ベアリング障害判別モデルのトレーニングに使用される。 本手法の有効性は,西予備大学(cwru)軸受データセットを用いて評価した。 その結果,本手法は少数のラベル付きサンプルの半教師付き学習を満足するだけでなく,教師なし学習の問題を解決し,従来の診断法よりも優れた結果を得た。 本手法は, 教師なしデータを効果的に利用することにより, ラベル付き限られたサンプルを用いた断層診断の新しい研究アイデアを提供する。

Intelligent data-driven fault diagnosis methods have been widely applied, but most of these methods need a large number of high-quality labeled samples. It costs a lot of labor and time to label data in actual industrial processes, which challenges the application of intelligent fault diagnosis methods. To solve this problem, a multi-stage semi-supervised improved deep embedded clustering (MS-SSIDEC) method is proposed for the bearing fault diagnosis under the insufficient labeled samples situation. This method includes three stages: pre-training, deep clustering and enhanced supervised learning. In the first stage, a skip-connection based convolutional auto-encoder (SCCAE) is proposed and pre-trained to automatically learn low-dimensional representations. In the second stage, a semi-supervised improved deep embedded clustering (SSIDEC) model that integrates the pre-trained auto-encoder with a clustering layer is proposed for deep clustering. Additionally, virtual adversarial training (VAT) is introduced as a regularization term to overcome the overfitting in the model's training. In the third stage, high-quality clustering results obtained in the second stage are assigned to unlabeled samples as pseudo labels. The labeled dataset is augmented by those pseudo-labeled samples and used to train a bearing fault discriminative model. The effectiveness of the method is evaluated on the Case Western Reserve University (CWRU) bearing dataset. The results show that the method can not only satisfy the semi-supervised learning under a small number of labeled samples, but also solve the problem of unsupervised learning, and has achieved better results than traditional diagnosis methods. This method provides a new research idea for fault diagnosis with limited labeled samples by effectively using unsupervised data.
翻訳日:2021-09-29 14:52:49 公開日:2021-09-28
# 離散的設定における因果推論の自動的アプローチ

An Automated Approach to Causal Inference in Discrete Settings ( http://arxiv.org/abs/2109.13471v1 )

ライセンス: Link先を確認
Guilherme Duarte, Noam Finkelstein, Dean Knox, Jonathan Mummolo, Ilya Shpitser(参考訳) 因果量の特定ができない場合、研究者はしばしば、可能な値の範囲を定量化するために部分的識別を追求する。 しかし, 応用研究条件の特異性は解析的に難解である。 個別設定における因果推論の汎用的かつ自動的アプローチを提案する。 離散データを用いた因果問題を多項式計画問題に還元し,効率的な双対緩和と空間分断法を用いて因果効果を自動的に拘束するアルゴリズムを提案する。 ユーザは見積を宣言し、仮定を述べ、データを提供する(不完全または誤測定)。 アルゴリズムは、許容可能なデータ生成プロセスを検索し、利用可能な情報(すなわちシャープ境界)と一致する最も正確な範囲を出力する。 この検索は計算量が多いため、アルゴリズムが完了まで実行されていなくても、常に真理を含むことが保証される非シャープ範囲を報告し、継続的に洗練します。 さらに、$\epsilon$-sharpness と呼ばれる追加の保証を提供し、不完全な境界の最悪の場合の緩みを特徴付ける。 解析的に検証されたシミュレーションは、このアルゴリズムが古典的な障害に対応していることを示している。

When causal quantities cannot be point identified, researchers often pursue partial identification to quantify the range of possible values. However, the peculiarities of applied research conditions can make this analytically intractable. We present a general and automated approach to causal inference in discrete settings. We show causal questions with discrete data reduce to polynomial programming problems, and we present an algorithm to automatically bound causal effects using efficient dual relaxation and spatial branch-and-bound techniques. The user declares an estimand, states assumptions, and provides data (however incomplete or mismeasured). The algorithm then searches over admissible data-generating processes and outputs the most precise possible range consistent with available information -- i.e., sharp bounds -- including a point-identified solution if one exists. Because this search can be computationally intensive, our procedure reports and continually refines non-sharp ranges that are guaranteed to contain the truth at all times, even when the algorithm is not run to completion. Moreover, it offers an additional guarantee we refer to as $\epsilon$-sharpness , characterizing the worst-case looseness of the incomplete bounds. Analytically validated simulations show the algorithm accommodates classic obstacles, including confounding, selection, measurement error, noncompliance, and nonresponse.
翻訳日:2021-09-29 14:51:51 公開日:2021-09-28
# LSTMと混合周波数時系列データによるマクロ経済予測

Macroeconomic forecasting with LSTM and mixed frequency time series data ( http://arxiv.org/abs/2109.13777v1 )

ライセンス: Link先を確認
Sarun Kamolthip(参考訳) 本稿では、マクロ経済時系列データを異なる周波数でサンプリングする場合に、LSTM(Long Short-term memory)の可能性を示す。 まず,低周波出力と高周波変動の全てのペアに対して,アサマミスマッチ比を適用した場合には,混合周波数で観測される時系列に従来型LSTMモデルを適用する方法について述べる。 LSTMを多重ミスマッチ比に一般化するために、制約のない混合DATAS(U-MIDAS)スキームをLSTMアーキテクチャに適用する(Foroni et al., 2015)。 両Monte Carloシミュレーションと経験的応用によるアウトオブサンプル予測性能の評価を行った。 提案したモデルは,MIDASestimatorに有利な設定でも,制限されたMIDASモデルより優れている。 実世界の応用については,四半期および毎月のマクロ経済指標を用いて,タイの実質GDPの四半期成長率を予測する。 我々のLSTM with U-MIDAS方式は、すべての地平線における単純なベンチマークAR(1)モデルに容易に勝るが、強いベンチマークはLSTMを1~6ヶ月前にのみ一変させる。 しかし,短期予測の大規模な景気後退期には,提案モデルが非常に有効であることが示唆された。 シミュレーションと実験結果から,提案したLSTM with U-MIDAS スキームを応用できる可能性が示唆された。

This paper demonstrates the potentials of the long short-term memory (LSTM) when applyingwith macroeconomic time series data sampled at different frequencies. We first present how theconventional LSTM model can be adapted to the time series observed at mixed frequencies when thesame mismatch ratio is applied for all pairs of low-frequency output and higher-frequency variable. Togeneralize the LSTM to the case of multiple mismatch ratios, we adopt the unrestricted Mixed DAtaSampling (U-MIDAS) scheme (Foroni et al., 2015) into the LSTM architecture. We assess via bothMonte Carlo simulations and empirical application the out-of-sample predictive performance. Ourproposed models outperform the restricted MIDAS model even in a set up favorable to the MIDASestimator. For real world application, we study forecasting a quarterly growth rate of Thai realGDP using a vast array of macroeconomic indicators both quarterly and monthly. Our LSTM withU-MIDAS scheme easily beats the simple benchmark AR(1) model at all horizons, but outperformsthe strong benchmark univariate LSTM only at one and six months ahead. Nonetheless, we find thatour proposed model could be very helpful in the period of large economic downturns for short-termforecast. Simulation and empirical results seem to support the use of our proposed LSTM withU-MIDAS scheme to nowcasting application.
翻訳日:2021-09-29 14:51:27 公開日:2021-09-28
# 近対数レギュレット・パー・スイッチを用いた混合・露光損失に対するニア線形時間アルゴリズム

Near-Linear Time Algorithm with Near-Logarithmic Regret Per Switch for Mixable/Exp-Concave Losses ( http://arxiv.org/abs/2109.13786v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 近年,機械学習からゲーム理論まで幅広い分野に適用可能であることから,オンライン学習の課題が注目されている。 具体的には,動的環境における混合損失関数と対数的静的後悔のオンライン最適化について検討する。 我々が競う最良の動的推定列は、損失関数の完全な観察とともに後から選択され、異なる時間間隔(セグメント)で異なる最適推定を選択できる。 静的解法をベースアルゴリズムとして利用するオンライン混合フレームワークを提案する。 重み付け戦略を適当に選択することで,二次計算複雑性と線形計算複雑性において,スイッチ毎の対数的および二乗対数的後悔をそれぞれ達成できることを示す。 文献では,スイッチ1回あたりのほぼ対数的後悔を1時間あたりのポリノミカルな複雑さで達成できることが確認できた。 私たちの結果は、個々のシーケンスで強い決定論的意味を持つことが保証されます。

We investigate the problem of online learning, which has gained significant attention in recent years due to its applicability in a wide range of fields from machine learning to game theory. Specifically, we study the online optimization of mixable loss functions with logarithmic static regret in a dynamic environment. The best dynamic estimation sequence that we compete against is selected in hindsight with full observation of the loss functions and is allowed to select different optimal estimations in different time intervals (segments). We propose an online mixture framework that uses these static solvers as the base algorithm. We show that with the suitable selection of hyper-expert creations and weighting strategies, we can achieve logarithmic and squared logarithmic regret per switch in quadratic and linearithmic computational complexity, respectively. For the first time in literature, we show that it is also possible to achieve near-logarithmic regret per switch with sub-polynomial complexity per time. Our results are guaranteed to hold in a strong deterministic sense in an individual sequence manner.
翻訳日:2021-09-29 14:51:01 公開日:2021-09-28
# 自動探索-探索効果によるMCMCの高速化のためのガウス過程

Gaussian Processes to speed up MCMC with automatic exploratory-exploita tion effect ( http://arxiv.org/abs/2109.13891v1 )

ライセンス: Link先を確認
Alessio Benavoli and Jason Wyse and Arthur White(参考訳) 本研究では,疑似ガウス過程(gp)モデルを用いて,ログ類似度が計算的に高価である確率モデルサンプリングのための2段階メトロポリス・ハスティングスアルゴリズムを提案する。 アプローチの鍵となる特徴と、以前の研究との違いは、GPを事前訓練することなく(サンプリング中に)目標分布をスクラッチから学習する能力である。 これは確率型プログラミング言語における自動推論の基本であり、特に、GP分散関数を疎外することで、GPの分散に明示的に依存する第1段階の受け入れ方式を提案する。 このアプローチはMetropolis-Adjusted Langevin Algorithm (MALA)に拡張されている。

We present a two-stage Metropolis-Hastings algorithm for sampling probabilistic models, whose log-likelihood is computationally expensive to evaluate, by using a surrogate Gaussian Process (GP) model. The key feature of the approach, and the difference w.r.t. previous works, is the ability to learn the target distribution from scratch (while sampling), and so without the need of pre-training the GP. This is fundamental for automatic and inference in Probabilistic Programming Languages In particular, we present an alternative first stage acceptance scheme by marginalising out the GP distributed function, which makes the acceptance ratio explicitly dependent on the variance of the GP. This approach is extended to Metropolis-Adjusted Langevin algorithm (MALA).
翻訳日:2021-09-29 14:50:45 公開日:2021-09-28
# 自己教師型クロスドメイン学習による2次元CT画像の金属アーチファクト低減

Metal Artifact Reduction in 2D CT Images with Self-supervised Cross-domain Learning ( http://arxiv.org/abs/2109.13483v1 )

ライセンス: Link先を確認
Lequan Yu, Zhicheng Zhang, Xiaomeng Li, Hongyi Ren, Wei Zhao, and Lei Xing(参考訳) 金属インプラントの存在は、放射線治療における臨床診断や線量計算に悪影響を及ぼす可能性があるX線CT画像に重金属アーティファクトをもたらすことが多い。 本研究では,金属アーチファクトリダクション(MAR)の新たな深層学習手法を提案する。 ネットワーク学習における解剖学的に同一のCT画像ペア(金属破砕CT画像と金属破砕CT画像)の必要性を軽減するために,自己教師型クロスドメイン学習フレームワークを提案する。 具体的には、ニューラルネットワークを訓練して、与えられた金属フリーシンノグラムの金属トレース領域値を復元し、金属トレースを金属マスクの前方投影によって識別する。 次に,新たなfbp再構成損失をデザインし,ネットワークがより完全な完成結果を生成するよう促すとともに,復元ct画像における二次的アーティファクトを削減するための残学習ベースの画像改良モジュールを考案した。 CNN画像を直接出力として採用する代わりに、最終的なMAR画像の微細構造の詳細と忠実さを保ちながら、我々のフレームワークに金属トレースの代替品を組み込んで、CNN出力の前方投影によって生成された元のシングラムの金属影響投影に置き換える。 次に、最終的なMAR画像再構成にFBPアルゴリズムを用いる。 シミュレーションおよび実アーティファクトデータを広範囲に評価し、設計の有効性を示す。 提案手法は優れたMAR結果を生成し,他の魅力的な手法よりも優れる。 また,他の臓器部位に対する枠組みの可能性を示す。

The presence of metallic implants often introduces severe metal artifacts in the X-ray CT images, which could adversely influence clinical diagnosis or dose calculation in radiation therapy. In this work, we present a novel deep-learning-based approach for metal artifact reduction (MAR). In order to alleviate the need for anatomically identical CT image pairs (i.e., metal artifact-corrupted CT image and metal artifact-free CT image) for network learning, we propose a self-supervised cross-domain learning framework. Specifically, we train a neural network to restore the metal trace region values in the given metal-free sinogram, where the metal trace is identified by the forward projection of metal masks. We then design a novel FBP reconstruction loss to encourage the network to generate more perfect completion results and a residual-learning-ba sed image refinement module to reduce the secondary artifacts in the reconstructed CT images. To preserve the fine structure details and fidelity of the final MAR image, instead of directly adopting CNN-refined images as output, we incorporate the metal trace replacement into our framework and replace the metal-affected projections of the original sinogram with the prior sinogram generated by the forward projection of the CNN output. We then use the filtered backward projection (FBP) algorithms for final MAR image reconstruction. We conduct an extensive evaluation on simulated and real artifact data to show the effectiveness of our design. Our method produces superior MAR results and outperforms other compelling methods. We also demonstrate the potential of our framework for other organ sites.
翻訳日:2021-09-29 14:50:31 公開日:2021-09-28
# ハイパースペクトルアンミキシングのためのオートエンコーダの安定トレーニング

Stable training of autoencoders for hyperspectral unmixing ( http://arxiv.org/abs/2109.13748v1 )

ライセンス: Link先を確認
Kamil Ksi\k{a}\.zek, Przemys{\l}aw G{\l}omb, Micha{\l} Romaszewski, Micha{\l} Cholewa and Bartosz Grabowski(参考訳) ニューラルネットワーク、特にオートエンコーダは、ハイパースペクトルデータ、すなわち観測された物質(エンドメンバー)とその相対的混合分数(冗長度)のスペクトルを再構成する最も有望な解の1つである。 効果的なハイパースペクトル分析と分類にはアンミキシングが必要である。 しかし,本論文で示すように,アンミキシングのためのオートエンコーダのトレーニングは重み付け初期化に大きく依存する。 いくつかの重みのセットは縮退または低パフォーマンスソリューションをもたらし、期待されるパフォーマンスに負のバイアスをもたらす。 本研究では, オートエンコーダの安定性, 初期重みに対する再構成誤差の依存性の検証, オートエンコーダパラメータの最適化に要する条件の探索, 実験結果について述べる。

Neural networks, autoencoders in particular, are one of the most promising solutions for unmixing hyperspectral data, i.e. reconstructing the spectra of observed substances (endmembers) and their relative mixing fractions (abundances). Unmixing is needed for effective hyperspectral analysis and classification. However, as we show in this paper, the training of autoencoders for unmixing is highly dependent on weights initialisation. Some sets of weights lead to degenerate or low performance solutions, introducing negative bias in expected performance. In this work we present the results of experiments investigating autoencoders' stability, verifying the dependence of reconstruction error on initial weights and exploring conditions needed for successful optimisation of autoencoder parameters.
翻訳日:2021-09-29 14:50:04 公開日:2021-09-28
# f$-cal:ロボット知覚のためのニューラルネットワークによるアレエータ不確実性推定

$f$-Cal: Calibrated aleatoric uncertainty estimation from neural networks for robot perception ( http://arxiv.org/abs/2109.13913v1 )

ライセンス: Link先を確認
Dhaivat Bhatt, Kaustubh Mani, Dishank Bansal, Krishna Murthy, Hanju Lee, Liam Paull(参考訳) 現代のディープニューラルネットワークはパフォーマンス認識モジュールであるが、特に自動運転車のような安全クリティカルなロボットアプリケーションでは、パフォーマンス(精度)だけでは不十分である。 ロボットの自律性スタックは、これらのブラックボックスモデルも必要としており、予測に対する信頼性と信頼性の調整を行う。 既存のアプローチでは、ネットワークアーキテクチャ、推論手順、損失関数を変更することで、これらのニューラルネットワーク知覚スタックから不確実性を推定する。 しかし、一般にこれらの手法は校正を欠いているため、予測の不確実性は真の不確実性(プロセスノイズ)を忠実に表さない。 私たちの重要な洞察は、キャリブレーションは、ミニバッチのような複数の例にまたがって制約を課すことによってのみ達成される、ということです。 ニューラルネットワークの出力分布を、$f$-divergenceを最小にすることで、ターゲット分布に類似させることにより、従来のアプローチに比べてはるかに優れた校正モデルが得られる。 提案手法である$f$-calは,複数の実世界のベンチマークにおける物体検出や単眼深度推定などのロボット知覚タスクにおける既存の不確実性校正手法を上回っている。

While modern deep neural networks are performant perception modules, performance (accuracy) alone is insufficient, particularly for safety-critical robotic applications such as self-driving vehicles. Robot autonomy stacks also require these otherwise blackbox models to produce reliable and calibrated measures of confidence on their predictions. Existing approaches estimate uncertainty from these neural network perception stacks by modifying network architectures, inference procedure, or loss functions. However, in general, these methods lack calibration, meaning that the predictive uncertainties do not faithfully represent the true underlying uncertainties (process noise). Our key insight is that calibration is only achieved by imposing constraints across multiple examples, such as those in a mini-batch; as opposed to existing approaches which only impose constraints per-sample, often leading to overconfident (thus miscalibrated) uncertainty estimates. By enforcing the distribution of outputs of a neural network to resemble a target distribution by minimizing an $f$-divergence, we obtain significantly better-calibrated models compared to prior approaches. Our approach, $f$-Cal, outperforms existing uncertainty calibration approaches on robot perception tasks such as object detection and monocular depth estimation over multiple real-world benchmarks.
翻訳日:2021-09-29 14:49:49 公開日:2021-09-28
# 「どうロバスト r u?」:音声対話におけるタスク指向対話システムの評価

"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations ( http://arxiv.org/abs/2109.13489v1 )

ライセンス: Link先を確認
Seokhwan Kim, Yang Liu, Di Jin, Alexandros Papangelis, Karthik Gopalakrishnan, Behnam Hedayatnia, Dilek Hakkani-Tur(参考訳) 対話モデリングにおけるほとんどの作業は、既存のデータセットが原因で書かれた会話に費やされてきた。 しかし, 音声対話システムにおいて, 音声対話の性質と潜在的な音声認識誤差を十分に把握するには, 文章対話では不十分である。 本研究は,多領域対話状態追跡と知識基底対話モデルの研究を目的とした,音声タスク指向会話の新しいベンチマークを提案する。 本報告では,既存の会話訓練モデルが音声データに対して期待通りに動作していないことを報告する。 さらに,個々の仮説に基づく予測を組み合わせることで,n-best音声認識仮説を利用する場合のタスク性能の改善を観察する。 このデータセットはタスク指向対話システムの音声ベースベンチマークを可能にする。

Most prior work in dialogue modeling has been on written conversations mostly because of existing data sets. However, written dialogues are not sufficient to fully capture the nature of spoken conversations as well as the potential speech recognition errors in practical spoken dialogue systems. This work presents a new benchmark on spoken task-oriented conversations, which is intended to study multi-domain dialogue state tracking and knowledge-grounded dialogue modeling. We report that the existing state-of-the-art models trained on written conversations are not performing well on our spoken data, as expected. Furthermore, we observe improvements in task performances when leveraging n-best speech recognition hypotheses such as by combining predictions based on individual hypotheses. Our data set enables speech-based benchmarking of task-oriented dialogue systems.
翻訳日:2021-09-29 14:48:41 公開日:2021-09-28
# Few-shot NERのためのテンプレートフリープロンプトチューニング

Template-free Prompt Tuning for Few-shot NER ( http://arxiv.org/abs/2109.13532v1 )

ライセンス: Link先を確認
Ruotian Ma, Xin Zhou, Tao Gui, Yiding Tan, Qi Zhang, Xuanjing Huang(参考訳) プロンプトに基づく手法は、テンプレートやラベル語の洗練された設計のため、文レベルの数発の学習タスクに成功している。 しかし、NERのようなトークンレベルのラベリングタスクに適用すると、潜在的なエンティティの全ての範囲でテンプレートクエリを列挙するのに時間がかかるだろう。 本研究では,NERタスクをテンプレートなしでLM問題として再構成するよりエレガントな手法を提案する。 具体的には、事前学習モデルの単語予測パラダイムを維持しながらテンプレート構築プロセスを捨て、エンティティ位置でクラス関連ピボットワード(またはラベルワード)を予測する。 また、事前学習したモデルが容易に適応できる適切なラベル単語を自動的に検索する方法についても検討した。 テンプレートベースの複雑なプロセスを避ける一方で、提案されたlmの目標は、事前トレーニングと微調整で使用される異なる目的間のギャップを減少させる。 提案手法をbert-tagger および template-based 法に導入し,提案手法の有効性を実験的に検証した。 さらに,提案手法の復号速度はテンプレートベース法よりも最大で1930.12倍高速である。

Prompt-based methods have been successfully applied in sentence-level few-shot learning tasks, mostly owing to the sophisticated design of templates and label words. However, when applied to token-level labeling tasks such as NER, it would be time-consuming to enumerate the template queries over all potential entity spans. In this work, we propose a more elegant method to reformulate NER tasks as LM problems without any templates. Specifically, we discard the template construction process while maintaining the word prediction paradigm of pre-training models to predict a class-related pivot word (or label word) at the entity position. Meanwhile, we also explore principled ways to automatically search for appropriate label words that the pre-trained models can easily adapt to. While avoiding complicated template-based process, the proposed LM objective also reduces the gap between different objectives used in pre-training and fine-tuning, thus it can better benefit the few-shot performance. Experimental results demonstrate the effectiveness of the proposed method over bert-tagger and template-based method under few-shot setting. Moreover, the decoding speed of the proposed method is up to 1930.12 times faster than the template-based method.
翻訳日:2021-09-29 14:48:31 公開日:2021-09-28
# 識別器誘導MCTSによる制約文の生成

Generating texts under constraint through discriminator-guided MCTS ( http://arxiv.org/abs/2109.13582v1 )

ライセンス: Link先を確認
Antoine Chaffin, Vincent Claveau, Ewa Kijak(参考訳) トランスフォーマーに基づく大きな事前学習言語モデル(lm)は、非常に説得力のある長いテキストを生成することができる。 本稿では, lmを微調整することなく, 特定の制約(非毒性, 肯定的, 否定的, 特定の感情を伝達するなど)を満たすために, この世代がさらに制御可能であることを検討する。 正確には、関係配列がどの程度制約を尊重するかに応じて、判別器によってガイドされる木探索プロセスとして制約付き生成を形式化する。 LMを微調整する代わりに、識別器を使ってこの世代をガイドし、訓練が簡単で安価に行えるようにすることで、制約をより細かく動的に適用することができる。 特にモンテカルロ木探索(MCTS)では探索効率を理論的に保証する手法が提案されているが,判別器のスコアを用いた多様な配列のプールの再評価に基づく簡易な手法も提案している。 これらの手法を2種類の制約と言語について評価した: フランス語と英語の極性と感情制御をレビューする。 MCTSは,タスクと言語の両方において,言語モデルを調整することなく,制約付き生成の最先端化を実現していることを示す。 また,提案手法は,生成提案の多様性が奨励された場合にも有効であることを示す。

Large pre-trained language models (LM) based on Transformers allow to generate very plausible long texts. In this paper, we explore how this generation can be further controlled to satisfy certain constraints (eg. being non-toxic, positive or negative, convey certain emotions, etc.) without fine-tuning the LM. Precisely, we formalize constrained generation as a tree exploration process guided by a discriminator according to how well the associated sequence respects the constraint. Using a discriminator to guide this generation, rather than fine-tuning the LM, in addition to be easier and cheaper to train, allows to apply the constraint more finely and dynamically. We propose several original methods to search this generation tree, notably the Monte Carlo Tree Search (MCTS) which provides theoretical guarantees on the search efficiency, but also simpler methods based on re-ranking a pool of diverse sequences using the discriminator scores. We evaluate these methods on two types of constraints and languages: review polarity and emotion control in French and English. We show that MCTS achieves state-of-the-art results in constrained generation, without having to tune the language model, in both tasks and languages. We also demonstrate that our other proposed methods based on re-ranking can be really effective when diversity among the generated propositions is encouraged.
翻訳日:2021-09-29 14:48:11 公開日:2021-09-28
# argument Miningのためのアクティブラーニング : 実践的アプローチ

Active Learning for Argument Mining: A Practical Approach ( http://arxiv.org/abs/2109.13611v1 )

ライセンス: Link先を確認
Nikolai Solmsdorf, Dietrich Trautmann, Hinrich Sch\"utze(参考訳) 近年の進展にもかかわらず、バランスの取れた多様な資源の創出は、議論の採掘における時間とコストのかかる課題である。 アクティブラーニングは、最も有意義なサンプルに注釈を照会することで、機械学習モデルのトレーニングに必要なデータ量を削減するため、リソース作成の有望な方法である。 いくつかのアクティブラーニング手法を大規模に比較した結果,アクティベートラーニングは,引数単位認識・分類(aurc)タスクにおいて,優れたディープラーニング性能を得るために必要な労力を大幅に削減することが示された。

Despite considerable recent progress, the creation of well-balanced and diverse resources remains a time-consuming and costly challenge in Argument Mining. Active Learning reduces the amount of data necessary for the training of machine learning models by querying the most informative samples for annotation and therefore is a promising method for resource creation. In a large scale comparison of several Active Learning methods, we show that Active Learning considerably decreases the effort necessary to get good deep learning performance on the task of Argument Unit Recognition and Classification (AURC).
翻訳日:2021-09-29 14:47:51 公開日:2021-09-28
# ホモフォニーとR'enyiエントロピーについて

On Homophony and R\'enyi Entropy ( http://arxiv.org/abs/2109.13766v1 )

ライセンス: Link先を確認
Tiago Pimentel, Clara Meister, Simone Teufel, Ryan Cotterell(参考訳) 自然言語におけるホモフォニーの存在は論争の的となっている。 最近の言語最適性の理論は、認知処理時間に悪影響を及ぼすにもかかわらず、その普及を正当化しようと試みている。例えば、Pantadosi et al. (2012) は、ホモフォニーは効率的な単語の再利用を可能にし、言語にとって有益であると主張した。 この仮説はTrottとBergen (2020) によって最近論じられ、良い単語形式は、より音韻論的に確率的であるため、よりホモフォニーであることが示唆された。 本稿では,議論に参加する。 まず,言語ホモフォニーの新たな情報理論的定量化(r\'enyi entropy)を提案する。 そして、この量化を使ってトロットとベルゲンの主張を再考する。 彼らの主張は理論上は正しいが、実験における特定の方法論上の問題は、その結果に疑問を呈する。 この問題に対処した後、ホモフォニーのどちらに対しても明確な圧力がかからない ― Piantadosi et al. や Trott や Bergen の発見よりも遥かに微妙な結果だ。

Homophony's widespread presence in natural languages is a controversial topic. Recent theories of language optimality have tried to justify its prevalence, despite its negative effects on cognitive processing time; e.g., Piantadosi et al. (2012) argued homophony enables the reuse of efficient wordforms and is thus beneficial for languages. This hypothesis has recently been challenged by Trott and Bergen (2020), who posit that good wordforms are more often homophonous simply because they are more phonotactically probable. In this paper, we join in on the debate. We first propose a new information-theoreti c quantification of a language's homophony: the sample R\'enyi entropy. Then, we use this quantification to revisit Trott and Bergen's claims. While their point is theoretically sound, a specific methodological issue in their experiments raises doubts about their results. After addressing this issue, we find no clear pressure either towards or against homophony -- a much more nuanced result than either Piantadosi et al.'s or Trott and Bergen's findings.
翻訳日:2021-09-29 14:47:39 公開日:2021-09-28
# マルチデータセット質問応答のためのsingle-dataset expert

Single-dataset Experts for Multi-dataset Question Answering ( http://arxiv.org/abs/2109.13880v1 )

ライセンス: Link先を確認
Dan Friedman, Ben Dodge, Danqi Chen(参考訳) 理解モデルを読むためのトレーニングのために多くのデータセットが作成されていますが、自然に疑問なのは、(1)すべてのトレーニングデータセットにおいて、より優れたモデルを構築し、(2)新しいデータセットに一般化し、転送できるかどうかです。 従来の作業では、複数のデータセット上で1つのネットワークを同時にトレーニングすることで、この目標に対処してきた。 我々のアプローチは、基盤となるTransformerモデルを共有する軽量なデータセット固有のアダプタモジュール(Houlsbyら、2019年)のコレクションをトレーニングすることで、シングルデータセットの専門家の集合でマルチデータセットの質問応答をモデル化することです。 これらのMADE(Multi-Adapter Dataset Experts)は、分布内精度の点で、全てのベースラインを上回り、パラメータ拡張に基づく単純な手法により、ゼロショットの一般化と少数ショットの転送性能が向上し、新しい読解システムを構築するための強力で汎用的な出発点を提供する。

Many datasets have been created for training reading comprehension models, and a natural question is whether we can combine them to build models that (1) perform better on all of the training datasets and (2) generalize and transfer better to new datasets. Prior work has addressed this goal by training one network simultaneously on multiple datasets, which works well on average but is prone to over- or under-fitting different sub-distributions and might transfer worse compared to source models with more overlap with the target dataset. Our approach is to model multi-dataset question answering with a collection of single-dataset experts, by training a collection of lightweight, dataset-specific adapter modules (Houlsby et al., 2019) that share an underlying Transformer model. We find that these Multi-Adapter Dataset Experts (MADE) outperform all our baselines in terms of in-distribution accuracy, and simple methods based on parameter-averaging lead to better zero-shot generalization and few-shot transfer performance, offering a strong and versatile starting point for building new reading comprehension systems.
翻訳日:2021-09-29 14:47:19 公開日:2021-09-28
# BERTモデルを用いたテキスト前処理技術の違いが著者のジェンダープロファイリングに及ぼす影響

How Different Text-preprocessing Techniques Using The BERT Model Affect The Gender Profiling of Authors ( http://arxiv.org/abs/2109.13890v1 )

ライセンス: Link先を確認
Esam Alzahrani and Leon Jololian(参考訳) 法医学的著者プロファイルは、容疑者のプロファイルを示す上で重要な役割を果たす。 著者のプロファイリングのために最近提案された多くの自動解のうち、トランスファーラーニングは自然言語処理における他の最先端技術よりも優れている。 それでも、この高度なテクニックは、著者のプロファイリングに完全に活用されていない。 同時に、現在の著者プロファイリングの手法は、主に機能工学に基づいており、使用するモデルごとに大きなバリエーションを生み出しているのに対し、トランスファーラーニングは通常、モデルに入力するために前処理されたテキストが必要である。 文献中の複数の文献をレビューし,著者の性別分析に最もよく用いられる前処理手法について検討した。 潜在的な前処理技術のバリエーションを考慮し,各手法の効果を測定するための5つの手法を適用し,最もよく使われるストックプリトレーニングモデルの1つであるbertモデルを用いて実験を行った。 私たちは、ハグフェイストランスフォーマーライブラリを使用して、各プリプロセッシングケースのコードを実装しました。 5つの実験で, BERTは前処理技術を適用しない場合, 著者の性別を予測するのに最適であることがわかった。 我々のベストケースは、著者の性別を予測する上で86.67%の精度を達成した。

Forensic author profiling plays an important role in indicating possible profiles for suspects. Among the many automated solutions recently proposed for author profiling, transfer learning outperforms many other state-of-the-art techniques in natural language processing. Nevertheless, the sophisticated technique has yet to be fully exploited for author profiling. At the same time, whereas current methods of author profiling, all largely based on features engineering, have spawned significant variation in each model used, transfer learning usually requires a preprocessed text to be fed into the model. We reviewed multiple references in the literature and determined the most common preprocessing techniques associated with authors' genders profiling. Considering the variations in potential preprocessing techniques, we conducted an experimental study that involved applying five such techniques to measure each technique's effect while using the BERT model, chosen for being one of the most-used stock pretrained models. We used the Hugging face transformer library to implement the code for each preprocessing case. In our five experiments, we found that BERT achieves the best accuracy in predicting the gender of the author when no preprocessing technique is applied. Our best case achieved 86.67% accuracy in predicting the gender of authors.
翻訳日:2021-09-29 14:46:56 公開日:2021-09-28
# KITTI-360:2次元・3次元都市景観理解のための新しいデータセットとベンチマーク

KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding in 2D and 3D ( http://arxiv.org/abs/2109.13410v1 )

ライセンス: Link先を確認
Yiyi Liao, Jun Xie, Andreas Geiger(参考訳) 過去数十年間、コンピュータビジョン、グラフィックス、ロボット工学など、人工知能のいくつかの主要なサブフィールドは互いに独立して進化してきた。 しかし、近年、自動運転車のような堅牢なインテリジェントシステムへの進歩には、さまざまな分野にわたる協調的な努力が必要だとコミュニティは認識している。 これにより、一般的なKITTIデータセットの後継であるKITTI-360を開発する動機となった。 KITTI-360は、視覚、グラフィックス、ロボット工学の交差点での研究を容易にするために、より豊富な入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。 そこで我々は,3次元シーンを境界プリミティブでラベル付けするツールを開発し,その情報を2次元画像領域に転送し,150k以上のセマンティクスとインスタンスの注釈付き画像と1Bの注釈付き3Dポイントを生成するモデルを開発した。 さらに,同じデータセット上で,コンピュータビジョンやグラフィックス,ロボット工学の問題を包含して,モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。 kitti-360は、これらの研究分野の交差点での進歩を可能にし、私たちの大きな課題である完全自動運転システムの開発に寄与します。

For the last few decades, several major subfields of artificial intelligence including computer vision, graphics, and robotics have progressed largely independently from each other. Recently, however, the community has realized that progress towards robust intelligent systems such as self-driving cars requires a concerted effort across the different fields. This motivated us to develop KITTI-360, successor of the popular KITTI dataset. KITTI-360 is a suburban driving dataset which comprises richer input modalities, comprehensive semantic instance annotations and accurate localization to facilitate research at the intersection of vision, graphics and robotics. For efficient annotation, we created a tool to label 3D scenes with bounding primitives and developed a model that transfers this information into the 2D image domain, resulting in over 150k semantic and instance annotated images and 1B annotated 3D points. Moreover, we established benchmarks and baselines for several tasks relevant to mobile perception, encompassing problems from computer vision, graphics, and robotics on the same dataset. KITTI-360 will enable progress at the intersection of these research areas and thus contributing towards solving one of our grand challenges: the development of fully autonomous self-driving systems.
翻訳日:2021-09-29 14:46:08 公開日:2021-09-28
# 弱教師付きキーポイント発見

Weakly Supervised Keypoint Discovery ( http://arxiv.org/abs/2109.13423v1 )

ライセンス: Link先を確認
Serim Ryou and Pietro Perona(参考訳) 本稿では,画像レベルの監視を用いた2次元画像からのキーポイント発見手法を提案する。 教師なしキーポイント発見に関する最近の研究は、整列したインスタンスのキーポイントを確実に発見する。 しかし、ターゲットインスタンスの視点や外観の変化が高い場合、検出されたキーポイントは、異なる画像上の意味対応と一致しない。 本研究の目的は,画像レベルの監視によって,対象インスタンスの視点や外観の変化が高い場合でも,キーポイントを見つけることである。 本手法は,弱教師付き学習アプローチに動機づけられ,画像レベルの監視を応用して識別部品を特定し,対象インスタンスの視点を推定する。 多様な部分を発見するために,構造変形を伴う一対の画像を用いた条件付き画像生成手法を採用する。 最後に,様々な視点から撮影した画像に一貫して現れる空間相関問題を解くために,画像レベルの監視からキーポイントを用いた視点に基づく等分散制約を施行する。 本手法は,限られた監督シナリオにおけるキーポイント推定タスクの最先端性能を実現する。 さらに、検出されたキーポイントは、キーポイントラベルを必要とせずに、下流タスクに直接適用できる。

In this paper, we propose a method for keypoint discovery from a 2D image using image-level supervision. Recent works on unsupervised keypoint discovery reliably discover keypoints of aligned instances. However, when the target instances have high viewpoint or appearance variation, the discovered keypoints do not match the semantic correspondences over different images. Our work aims to discover keypoints even when the target instances have high viewpoint and appearance variation by using image-level supervision. Motivated by the weakly-supervised learning approach, our method exploits image-level supervision to identify discriminative parts and infer the viewpoint of the target instance. To discover diverse parts, we adopt a conditional image generation approach using a pair of images with structural deformation. Finally, we enforce a viewpoint-based equivariance constraint using the keypoints from the image-level supervision to resolve the spatial correlation problem that consistently appears in the images taken from various viewpoints. Our approach achieves state-of-the-art performance for the task of keypoint estimation on the limited supervision scenarios. Furthermore, the discovered keypoints are directly applicable to downstream tasks without requiring any keypoint labels.
翻訳日:2021-09-29 14:45:48 公開日:2021-09-28
# ビデオ対応学習のための共同空間時間グラフにおける近傍関係のモデル化

Modelling Neighbor Relation in Joint Space-Time Graph for Video Correspondence Learning ( http://arxiv.org/abs/2109.13499v1 )

ライセンス: Link先を確認
Zixu Zhao, Yueming Jin, Pheng-Ann Heng(参考訳) 本稿では,ラベルなしビデオから信頼できる視覚対応を学習するための自己教師あり手法を提案する。 我々は,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジでリンクされるジョイント時空グラフにおける経路探索として対応式を定式化する。 (i)宇宙空間におけるフレーム内近傍からの凝集強度を決定する近傍関係、及び (II)時間経過に伴うフレーム間パスの遷移確率を示す類似性関係。 ビデオのサイクルコンシスタンスを活用することで、コントラスト学習目標は、隣接するビューとテンポラルビューの両方から動的オブジェクトを識別する。 先行研究と比較して,本手法は,中央インスタンスの隣接関係を積極的に探究し,中心-隣接ペア(例えば「手-腕」)間の潜伏関係を学習し,インスタンス識別を改善する。 微調整なしでは、ビデオオブジェクトの伝搬、部分の伝搬、キーポイントの追跡といった様々な視覚的タスクにおいて、最先端の自己監督手法よりも優れる。 我々の自己監督手法は、特定のタスク用に設計された完全に教師付きアルゴリズムを超越する。

This paper presents a self-supervised method for learning reliable visual correspondence from unlabeled videos. We formulate the correspondence as finding paths in a joint space-time graph, where nodes are grid patches sampled from frames, and are linked by two types of edges: (i) neighbor relations that determine the aggregation strength from intra-frame neighbors in space, and (ii) similarity relations that indicate the transition probability of inter-frame paths across time. Leveraging the cycle-consistency in videos, our contrastive learning objective discriminates dynamic objects from both their neighboring views and temporal views. Compared with prior works, our approach actively explores the neighbor relations of central instances to learn a latent association between center-neighbor pairs (e.g., "hand -- arm") across time, thus improving the instance discrimination. Without fine-tuning, our learned representation outperforms the state-of-the-art self-supervised methods on a variety of visual tasks including video object propagation, part propagation, and pose keypoint tracking. Our self-supervised method also surpasses some fully supervised algorithms designed for the specific tasks.
翻訳日:2021-09-29 14:45:31 公開日:2021-09-28
# スケッチ認識のためのコンパクトトリプレット中心損失を持つ階層的残差ネットワーク

A hierarchical residual network with compact triplet-center loss for sketch recognition ( http://arxiv.org/abs/2109.13536v1 )

ライセンス: Link先を確認
Lei Wang, Shihui Zhang, Huan He, Xiaoxiao Zhang, Yu Sang(参考訳) タッチスクリーンデバイスが普及するにつれ、人々は画面にスケッチを描くのがますます便利になっている。 これにより、スケッチを自動的に理解する必要性が生じる。 これにより、スケッチ認識タスクが従来よりも重要になる。 この課題を達成するためには,スケッチの特徴の区別を改善するという重要な課題を解決する必要がある。 この目的のために、私たちは3つの側面に取り組みました。 まず, 新規なマルチスケール残差ブロックの設計を行った。 従来の基本残差ブロックと比較して,マルチスケール情報を知覚し,トレーニング中のパラメータ数を減らすことができる。 第二に、階層的残差構造は、特定の方法でマルチスケール残差ブロックを積み重ねることで構築される。 単層残留構造とは対照的に、この構造から得られた特徴はより十分である。 最後に,スケッチ認識タスクにおいて,コンパクトな三重項中心損失が特に提案されている。 三重項中心損失は、スケッチ場において、クラス内空間が大きすぎることとクラス間空間が小さすぎることを十分に考慮していない。 上記のモジュールを調べた結果,スケッチ認識のための階層的残差ネットワークが提案され,Tu-Berlinベンチマークで徹底的に評価された。 実験の結果,提案手法はベースライン法よりも優れており,非系列モデルでは優れた性能を示している。

With the widespread use of touch-screen devices, it is more and more convenient for people to draw sketches on screen. This results in the demand for automatically understanding the sketches. Thus, the sketch recognition task becomes more significant than before. To accomplish this task, it is necessary to solve the critical issue of improving the distinction of the sketch features. To this end, we have made efforts in three aspects. First, a novel multi-scale residual block is designed. Compared with the conventional basic residual block, it can better perceive multi-scale information and reduce the number of parameters during training. Second, a hierarchical residual structure is built by stacking multi-scale residual blocks in a specific way. In contrast with the single-level residual structure, the learned features from this structure are more sufficient. Last but not least, the compact triplet-center loss is proposed specifically for the sketch recognition task. It can solve the problem that the triplet-center loss does not fully consider too large intra-class space and too small inter-class space in sketch field. By studying the above modules, a hierarchical residual network as a whole is proposed for sketch recognition and evaluated on Tu-Berlin benchmark thoroughly. The experimental results show that the proposed network outperforms most of baseline methods and it is excellent among non-sequential models at present.
翻訳日:2021-09-29 14:45:11 公開日:2021-09-28
# 高速オンライン行動検出のための情報エレベーションネットワーク

Information Elevation Network for Fast Online Action Detection ( http://arxiv.org/abs/2109.13572v1 )

ライセンス: Link先を確認
Sunah Min and Jinyoung Moon(参考訳) オンラインアクション検出(オンラインアクション検出、OAD)は、ストリーミングビデオ内のビデオセグメントを入力として受信し、その中の進行中のアクションを識別するタスクである。 現在の行動に関連する過去の情報を保持することが重要である。 しかし、ビデオから時間情報をモデリングする一般的なリカレントユニットである長短期記憶(LSTM)は、過去と現在の情報の関係を考慮せずに、過去の隠蔽状態から過去の情報と抽出された視覚的特徴を各ステップに蓄積する。 これにより、元のLSTMの忘れ門は、現在の動作を考慮せずに忘れるべき情報を決定するため、現在の動作に関連する蓄積情報を失うことができる。 本稿では,現在の行動に特に関係のある過去の情報をモデル化するために,現在の行動に関連する過去の情報を持ち上げて蓄積する新しい情報高揚ユニット(IEU)を紹介する。 我々の知る限りでは、OADの実用化に向けた計算オーバーヘッドを考慮に入れた最初の試みである。 アブレーション研究を通じて、情報高揚ネットワーク(IEN)と呼ばれる、IEUを用いた効率的なOADネットワークを設計する。 本手法では,rgbフレームのみを取り込む高速行動認識ネットワークによって抽出された視覚特徴を用いる。 THUMOS-14とTVSeriesの2つのOADベンチマークデータセットでは、我々のIENはRGBフレームのみを使用して最先端のOAD手法より優れています。 さらに、THUMOS-14データセットでは、RGBフレームと光フローに基づく2ストリーム特徴を用いた最先端のOAD手法よりも優れています。

Online action detection (OAD) is a task that receives video segments within a streaming video as inputs and identifies ongoing actions within them. It is important to retain past information associated with a current action. However, long short-term memory (LSTM), a popular recurrent unit for modeling temporal information from videos, accumulates past information from the previous hidden and cell states and the extracted visual features at each timestep without considering the relationships between the past and current information. Consequently, the forget gate of the original LSTM can lose the accumulated information relevant to the current action because it determines which information to forget without considering the current action. We introduce a novel information elevation unit (IEU) that lifts up and accumulate the past information relevant to the current action in order to model the past information that is especially relevant to the current action. To the best of our knowledge, our IEN is the first attempt that considers the computational overhead for the practical use of OAD. Through ablation studies, we design an efficient and effective OAD network using IEUs, called an information elevation network (IEN). Our IEN uses visual features extracted by a fast action recognition network taking only RGB frames because extracting optical flows requires heavy computation overhead. On two OAD benchmark datasets, THUMOS-14 and TVSeries, our IEN outperforms state-of-the-art OAD methods using only RGB frames. Furthermore, on the THUMOS-14 dataset, our IEN outperforms the state-of-the-art OAD methods using two-stream features based on RGB frames and optical flows.
翻訳日:2021-09-29 14:44:51 公開日:2021-09-28
# PFENet++: ノイズフィルタ付きコンテキスト認識マスクによるFew-shot Semantic Segmentationの強化

PFENet++: Boosting Few-shot Semantic Segmentation with the Noise-filtered Context-aware Prior Mask ( http://arxiv.org/abs/2109.13788v1 )

ライセンス: Link先を確認
Xiaoliu Luo, Zhuotao Tian, Taiping Zhang, Bei Yu, Yuan Yan Tang, Jiaya Jia(参考訳) 本稿では,Few-Shot Segmentation のためのPrior Guided Feature Enrichment Network に提案されているマスクガイダンスを再考する。 先行マスクは、目に見えないカテゴリの関心領域を強調する指標として機能し、近年の研究の異なるフレームワークでより良いパフォーマンスを達成するのに有効である。 しかし、現在の方法は、クエリーとサポート機能の間の最大要素間対応を直接受け取り、ターゲットクラスに属する確率を示すため、より広い文脈情報を以前のマスク生成中に悪用することがほとんどない。 この問題に対処するために,まず,クエリ画像中のオブジェクトをよりよく特定するために,近接する意味的手がかりを利用するコンテキストアウェア・プリエントマスク(capm)を提案する。 第二に、最大相関値がノイズに弱いため、不要な応答を遮蔽するために軽量ノイズ抑圧モジュール(NSM)を組み込むことにより、先行知識を提供するための高品質マスクが得られる。 PFENet++という新しいモデルは、PASCAL-5$^i$, COCO-20$^i$, FSS-1000という3つの挑戦的なベンチマークにおいて、PFENetのベースラインであるPFENetよりもはるかに優れている。 新しい最先端のパフォーマンスは効率を損なうことなく達成され、数ショットのセマンティックセグメンテーションにおいて新しい強力なベースラインになる可能性を示している。 私たちのコードはhttps://github.com/d vlab-research/pfenet ++で利用可能です。

In this work, we revisit the prior mask guidance proposed in "Prior Guided Feature Enrichment Network for Few-Shot Segmentation". The prior mask serves as an indicator that highlights the region of interests of unseen categories, and it is effective in achieving better performance on different frameworks of recent studies. However, the current method directly takes the maximum element-to-element correspondence between the query and support features to indicate the probability of belonging to the target class, thus the broader contextual information is seldom exploited during the prior mask generation. To address this issue, first, we propose the Context-aware Prior Mask (CAPM) that leverages additional nearby semantic cues for better locating the objects in query images. Second, since the maximum correlation value is vulnerable to noisy features, we take one step further by incorporating a lightweight Noise Suppression Module (NSM) to screen out the unnecessary responses, yielding high-quality masks for providing the prior knowledge. Both two contributions are experimentally shown to have substantial practical merit, and the new model named PFENet++ significantly outperforms the baseline PFENet as well as all other competitors on three challenging benchmarks PASCAL-5$^i$, COCO-20$^i$ and FSS-1000. The new state-of-the-art performance is achieved without compromising the efficiency, manifesting the potential for being a new strong baseline in few-shot semantic segmentation. Our code will be available at https://github.com/d vlab-research/PFENet ++.
翻訳日:2021-09-29 14:44:22 公開日:2021-09-28
# rgb画像からの3次元ハンドポーズと形状推定 : キーポイントを用いたハンドジェスチャ認識の改善

3D Hand Pose and Shape Estimation from RGB Images for Improved Keypoint-Based Hand-Gesture Recognition ( http://arxiv.org/abs/2109.13879v1 )

ライセンス: Link先を確認
Danilo Avola, Luigi Cinque, Alessio Fagioli, Gian Luca Foresti, Adriano Fragomeni, Daniele Pannone(参考訳) 2D画像から3Dハンドポーズを推定することは、よく研究されている問題であり、仮想現実、拡張現実、手振り認識など、いくつかの現実的な応用の要件である。 現在、単一のrgb画像から適切な推定を計算でき、特にシステムがマルチタスク学習アプローチによって、ポーズが決定されたときの手の形も考慮しなければならない。 しかし、上記の実生活タスクに対処する場合、手話表現によって性能が大幅に低下する可能性があるため、良好な結果を得るためには安定した記述が必要となる。 その結果,本論文では,3次元手のためのキーポイントベースのエンドツーエンドフレームワークを提示し,ポーズ推定を行い,手振り認識タスクに適用することに成功した。 具体的には、画像が正規化される前処理ステップの後、rgb画像から2dヒートマップ及びハンドシルエットを生成するマルチタスク意味特徴抽出器と、手およびカメラビューパラメータを予測する視点エンコーダと、3dハンドポーズ及び形状を生成する安定したハンドエスティメータと、学習フェーズ中にすべてのコンポーネントを共同でガイドするように設計された損失関数とを含む。 提案フレームワークを評価するために,3次元ポーズおよび形状推定ベンチマークデータセット上でテストを行い,最新性能を得た。 さらに,提案手法は,手振りと形状の安定な3次元推定を生成できる有効解であることを示すとともに,他のキーポイントベースのアプローチを著しく上回る2つの手振り認識ベンチマークデータセットを用いて,考案されたシステムの評価を行った。

Estimating the 3D hand pose from a 2D image is a well-studied problem and a requirement for several real-life applications such as virtual reality, augmented reality, and hand-gesture recognition. Currently, good estimations can be computed starting from single RGB images, especially when forcing the system to also consider, through a multi-task learning approach, the hand shape when the pose is determined. However, when addressing the aforementioned real-life tasks, performances can drop considerably depending on the hand representation, thus suggesting that stable descriptions are required to achieve satisfactory results. As a consequence, in this paper we present a keypoint-based end-to-end framework for the 3D hand and pose estimation, and successfully apply it to the hand-gesture recognition task as a study case. Specifically, after a pre-processing step where the images are normalized, the proposed pipeline comprises a multi-task semantic feature extractor generating 2D heatmaps and hand silhouettes from RGB images; a viewpoint encoder predicting hand and camera view parameters; a stable hand estimator producing the 3D hand pose and shape; and a loss function designed to jointly guide all of the components during the learning phase. To assess the proposed framework, tests were performed on a 3D pose and shape estimation benchmark dataset, obtaining state-of-the-art performances. What is more, the devised system was also evaluated on 2 hand-gesture recognition benchmark datasets, where the framework significantly outperforms other keypoint-based approaches; indicating that the presented method is an effective solution able to generate stable 3D estimates for the hand pose and shape.
翻訳日:2021-09-29 14:43:52 公開日:2021-09-28
# de la Vall\'ee-Poussinフィルタによる画像スケーリング

Image scaling by de la Vall\'ee-Poussin filtered interpolation ( http://arxiv.org/abs/2109.13897v1 )

ライセンス: Link先を確認
Donatella Occorsio, Giuliana Ramella, Woula Themistoclakis(参考訳) ダウンスケーリングとアップスケーリングを両立させ,任意のスケールファクタや所望のサイズで実行する新しい画像スケーリング手法を提案する。 これは、世界規模でデータを補間し、近似を改善するのに適した作用線を持つ de la Vall\'ee Poussin 型のフィルタによって定義される近似二変数多項式のサンプリングに基づいている。 この手法は、多数の異なる画像データセットでテストされている。 結果は質的,定量的に評価され,他の競争法と比較される。 得られたスケール画像の品質は、重要な詳細が保存され、アーティファクトの外観が低くなるほどである。 ダウンスケーリングにおける非常に高品質な測定値と、アップスケーリングにおける競合値が、この方法の有効性を示している。 優れた視覚品質、限られた計算量、適度なメモリ要求により、この手法は現実世界のアプリケーションに適している。

We present a new image scaling method both for downscaling and upscaling, running with any scale factor or desired size. It is based on the sampling of an approximating bivariate polynomial, which globally interpolates the data and is defined by a filter of de la Vall\'ee Poussin type whose action ray is suitable regulated to improve the approximation. The method has been tested on a significant number of different image datasets. The results are evaluated in qualitative and quantitative terms and compared with other available competitive methods. The perceived quality of the resulting scaled images is such that important details are preserved, and the appearance of artifacts is low. Very high-quality measure values in downscaling and the competitive ones in upscaling evidence the effectiveness of the method. Good visual quality, limited computational effort, and moderate memory demanding make the method suitable for real-world applications.
翻訳日:2021-09-29 14:43:17 公開日:2021-09-28
# PDC-Net+: 拡張確率密度対応ネットワーク

PDC-Net+: Enhanced Probabilistic Dense Correspondence Network ( http://arxiv.org/abs/2109.13912v1 )

ライセンス: Link先を確認
Prune Truong and Martin Danelljan and Fisher Yu and Luc Van Gool(参考訳) 一対のイメージ間の堅牢で正確な対応を確立することは、多くのアプリケーションで長年続くコンピュータビジョンの問題である。 伝統的にスパースメソッドに支配されているが、新興の密集したアプローチはキーポイント検出ステップを避ける説得力のある代替パラダイムを提供する。 しかし, 大変位, 咬合, 均質領域において, 密集流の推定は不正確であることが多い。 ポーズ推定や画像操作,3次元再構成などの実世界の応用に高密度な手法を適用するためには,予測された一致の信頼度を推定することが重要である。 本稿では,信頼性の高い信頼度マップと共に正確な密接度を推定できる拡張確率的密接対応ネットワークpdc-net+を提案する。 フロー予測とその不確実性を共同で学習するフレキシブルな確率的アプローチを開発する。 特に、予測分布を制約付き混合モデルとしてパラメトリ化し、正確な流れ予測と外れ値の両方をより良くモデル化する。 さらに, 自己監督訓練の文脈において, 堅牢で一般化可能な不確実性予測に適した, アーキテクチャと強化されたトレーニング戦略を開発した。 本手法は,複数の挑戦的幾何マッチングとオプティカルフローデータセットの最先端結果を得る。 さらに,ポーズ推定,3次元再構成,画像に基づく局所化,画像検索のタスクに対する確率的信頼度推定の有用性を検証する。 コードとモデルはhttps://github.com/p runetruong/densematc hingで入手できる。

Establishing robust and accurate correspondences between a pair of images is a long-standing computer vision problem with numerous applications. While classically dominated by sparse methods, emerging dense approaches offer a compelling alternative paradigm that avoids the keypoint detection step. However, dense flow estimation is often inaccurate in the case of large displacements, occlusions, or homogeneous regions. In order to apply dense methods to real-world applications, such as pose estimation, image manipulation, or 3D reconstruction, it is therefore crucial to estimate the confidence of the predicted matches. We propose the Enhanced Probabilistic Dense Correspondence Network, PDC-Net+, capable of estimating accurate dense correspondences along with a reliable confidence map. We develop a flexible probabilistic approach that jointly learns the flow prediction and its uncertainty. In particular, we parametrize the predictive distribution as a constrained mixture model, ensuring better modelling of both accurate flow predictions and outliers. Moreover, we develop an architecture and an enhanced training strategy tailored for robust and generalizable uncertainty prediction in the context of self-supervised training. Our approach obtains state-of-the-art results on multiple challenging geometric matching and optical flow datasets. We further validate the usefulness of our probabilistic confidence estimation for the tasks of pose estimation, 3D reconstruction, image-based localization, and image retrieval. Code and models are available at https://github.com/P runeTruong/DenseMatc hing.
翻訳日:2021-09-29 14:43:03 公開日:2021-09-28
# 多言語対数ナラティブ型分類

Multilingual Counter Narrative Type Classification ( http://arxiv.org/abs/2109.13664v1 )

ライセンス: Link先を確認
Yi-Ling Chung, Marco Guerini, Rodrigo Agerri(参考訳) 憎悪の介入にカウンターナラティブを採用することへの関心が高まり、データセットの作成と自動化戦略に焦点が当てられている。 このシナリオでは、自然テキストからカウンターナラティブタイプを認識することを学ぶことは、ヘイトスピーチカウンティング(ヘイトスピーチカウンティング)のようなアプリケーションにとって有用であると期待されている。 本稿では,単言語・多言語・多言語・多言語・多言語・多言語設定におけるSoTA事前学習言語モデルの評価を行う。 対訳クラスの細粒度アノテーションを考えると,対談タイプの大部分について,特に言語横断予測の前にすべての言語を英語に翻訳する場合,強いベースライン分類結果が報告されている。 これは、対談に関する知識が言語間でうまく伝達できることを示唆している。

The growing interest in employing counter narratives for hatred intervention brings with it a focus on dataset creation and automation strategies. In this scenario, learning to recognize counter narrative types from natural text is expected to be useful for applications such as hate speech countering, where operators from non-governmental organizations are supposed to answer to hate with several and diverse arguments that can be mined from online sources. This paper presents the first multilingual work on counter narrative type classification, evaluating SoTA pre-trained language models in monolingual, multilingual and cross-lingual settings. When considering a fine-grained annotation of counter narrative classes, we report strong baseline classification results for the majority of the counter narrative types, especially if we translate every language to English before cross-lingual prediction. This suggests that knowledge about counter narratives can be successfully transferred across languages.
翻訳日:2021-09-29 14:42:44 公開日:2021-09-28
# 深部畳み込みニューラルネットワークの収束性

Convergence of Deep Convolutional Neural Networks ( http://arxiv.org/abs/2109.13542v1 )

ライセンス: Link先を確認
Yuesheng Xu and Haizhang Zhang(参考訳) ネットワークの深さが無限になりがちであるディープニューラルネットワークの収束は、ディープラーニングの数学的基礎を構築する上で基本である。 本研究では,固定幅の深いReLUネットワークに対するこの問題について検討した。 これは、層から層へと幅が増大する重要な畳み込みニューラルネットワークを対象としない。 そのため,まず幅が大きくなる一般ReLUネットワークの収束について検討し,得られた結果を深部畳み込みニューラルネットワークに適用した。 その結果、収束は行列の無限積の収束に小さくなり、大きさは増大するが、文献では考慮されていない。 このような行列の無限積の収束に十分な条件を定めている。 これらの条件に基づき、幅の増大と深いReLU畳み込みニューラルネットワークの点収束を両立させるのに十分な条件を提示する。

Convergence of deep neural networks as the depth of the networks tends to infinity is fundamental in building the mathematical foundation for deep learning. In a previous study, we investigated this question for deep ReLU networks with a fixed width. This does not cover the important convolutional neural networks where the widths are increasing from layer to layer. For this reason, we first study convergence of general ReLU networks with increasing widths and then apply the results obtained to deep convolutional neural networks. It turns out the convergence reduces to convergence of infinite products of matrices with increasing sizes, which has not been considered in the literature. We establish sufficient conditions for convergence of such infinite products of matrices. Based on the conditions, we present sufficient conditions for piecewise convergence of general deep ReLU networks with increasing widths, and as well as pointwise convergence of deep ReLU convolutional neural networks.
翻訳日:2021-09-29 14:42:24 公開日:2021-09-28
# クラスタ内差分制約下におけるフェウェストクラスターのクラスタリング

Clustering to the Fewest Clusters Under Intra-Cluster Dissimilarity Constraints ( http://arxiv.org/abs/2109.13644v1 )

ライセンス: Link先を確認
Jennie Andersen (LIRIS, INSA Lyon), Brice Chardin (LIAS, ISAE-ENSMA), Mohamed Tribak (LIAS)(参考訳) 本稿では,有効な分割がクラスタ内異種性制約を満たさなければならない等価クラスタリング問題を提案する。 既存のクラスタリングアルゴリズムとは異なり、同種クラスタリングは密度や予め定義されたクラスの数に依存しないが、相似性しきい値に依存する。 その主な目標は、最終的に任意のオブジェクトをクラスタ代表に置き換えることによって引き起こされるエラーの上限を確保することである。 この制約の下では、クラスタの数と潜在的なサブ目的の最小化に重点を置いています。 等距離クラスタリングは健全なクラスタリング問題であり,既存の実装や新しい実装,近似戦略など,他の最適化問題との関係について論じる。 このクラスタリング問題に対する様々な実践的ソリューション間のトレードオフを識別するために、適切なクラスタリングアルゴリズムをレビューし、評価する。

This paper introduces the equiwide clustering problem, where valid partitions must satisfy intra-cluster dissimilarity constraints. Unlike most existing clustering algorithms, equiwide clustering relies neither on density nor on a predefined number of expected classes, but on a dissimilarity threshold. Its main goal is to ensure an upper bound on the error induced by ultimately replacing any object with its cluster representative. Under this constraint, we then primarily focus on minimizing the number of clusters, along with potential sub-objectives. We argue that equiwide clustering is a sound clustering problem, and discuss its relationship with other optimization problems, existing and novel implementations as well as approximation strategies. We review and evaluate suitable clustering algorithms to identify trade-offs between the various practical solutions for this clustering problem.
翻訳日:2021-09-29 14:42:11 公開日:2021-09-28
# 優先順位は? ハードウェア開発における最新のバグ追跡ソリューション開発のための自然言語処理

What to Prioritize? Natural Language Processing for the Development of a Modern Bug Tracking Solution in Hardware Development ( http://arxiv.org/abs/2109.13825v1 )

ライセンス: Link先を確認
Thi Thu Hang Do and Markus Dobler and Niklas K\"uhl(参考訳) 大量のバグレポートを管理し、ハードウェア開発で最も重要な問題を見つけることは、時間を要するが、開発コストを削減するために重要である。 本稿では,Random Forest, Naive Bayes, SVM, MLP, XGBoostという,異なる教師付き機械学習アルゴリズムを用いて,バグレポートの修正時間,修正のリスク,解決の複雑さを予測するためのアプローチを提案する。 さらに,能動学習の適用効果について検討し,TF-IDF,Word2Vec,Uni versal Sentence Encoder,XLNetといったテキスト表現技術がモデルの性能に与える影響を評価する。 評価の結果,Universal Sentence Encoder と MLP を併用したテキスト埋め込みは,他の手法よりも優れており,バグチケットのリスクや複雑さを予測するのに適していることがわかった。

Managing large numbers of incoming bug reports and finding the most critical issues in hardware development is time consuming, but crucial in order to reduce development costs. In this paper, we present an approach to predict the time to fix, the risk and the complexity of debugging and resolution of a bug report using different supervised machine learning algorithms, namely Random Forest, Naive Bayes, SVM, MLP and XGBoost. Further, we investigate the effect of the application of active learning and we evaluate the impact of different text representation techniques, namely TF-IDF, Word2Vec, Universal Sentence Encoder and XLNet on the model's performance. The evaluation shows that a combination of text embeddings generated through the Universal Sentence Encoder and MLP as classifier outperforms all other methods, and is well suited to predict the risk and complexity of bug tickets.
翻訳日:2021-09-29 14:41:57 公開日:2021-09-28
# 排他的探索によるシンボリック回帰:構文制約と効率的な意味構造重複を用いた探索空間の削減

Symbolic Regression by Exhaustive Search: Reducing the Search Space Using Syntactical Constraints and Efficient Semantic Structure Deduplication ( http://arxiv.org/abs/2109.13895v1 )

ライセンス: Link先を確認
Lukas Kammerer, Gabriel Kronberger, Bogdan Burlacu, Stephan M. Winkler, Michael Kommenda, Michael Affenzeller(参考訳) シンボリック回帰は、モデル構造に関する事前知識がない産業シナリオにおいて強力なシステム識別技術である。 このようなシナリオでは、解釈可能性、ロバスト性、信頼性、信頼性といった特定のモデル特性が要求されることが多い。 本章では,これらの問題に対処するための決定論的シンボリック回帰アルゴリズムを紹介する。 このアルゴリズムは文脈自由文法を用いて、非線形最小二乗局所最適化法によってパラメータ化されるモデルを生成する。 全ての可能なモデルの有限列挙は、構造的制約と意味論的に等価な解を検出するキャッシング機構によって保証される。 列挙順序は探索効率を向上させるために設計されたヒューリスティックによって確立される。 包括的ベンチマークスイートにおける実証実験により,本手法は,単純で信頼性の高いモデルや再現性といった望ましい特性を維持しつつ,多くのノイズのない問題において遺伝的プログラミングと競合することを示した。

Symbolic regression is a powerful system identification technique in industrial scenarios where no prior knowledge on model structure is available. Such scenarios often require specific model properties such as interpretability, robustness, trustworthiness and plausibility, that are not easily achievable using standard approaches like genetic programming for symbolic regression. In this chapter we introduce a deterministic symbolic regression algorithm specifically designed to address these issues. The algorithm uses a context-free grammar to produce models that are parameterized by a non-linear least squares local optimization procedure. A finite enumeration of all possible models is guaranteed by structural restrictions as well as a caching mechanism for detecting semantically equivalent solutions. Enumeration order is established via heuristics designed to improve search efficiency. Empirical tests on a comprehensive benchmark suite show that our approach is competitive with genetic programming in many noiseless problems while maintaining desirable properties such as simple, reliable models and reproducibility.
翻訳日:2021-09-29 14:41:39 公開日:2021-09-28
# 記号回帰探索空間のクラスター解析

Cluster Analysis of a Symbolic Regression Search Space ( http://arxiv.org/abs/2109.13898v1 )

ライセンス: Link先を確認
Gabriel Kronberger, Lukas Kammerer, Bogdan Burlacu, Stephan M. Winkler, Michael Kommenda, Michael Affenzeller(参考訳) 本章では,探索空間における遺伝的プログラミングによって生成される記号回帰モデルの分布について考察する。 この研究の動機は、対象関数から独立して計算できるモデルの類似性に関する情報を用いて、うまく適合した回帰モデルの探索を改善することである。 解析のために、一変量記号回帰モデルに制限付き文法を使用し、可能なすべてのモデルを固定長制限まで生成する。 特異なモデルを特定し,表現型と遺伝的類似性に基づいて分類する。 表現型類似性はよく定義されたクラスターにつながり、遺伝子型類似性は明確なクラスタリングを生じない。 GPが訪れた解候補を列挙した検索空間にマッピングすることで、GPは最初は検索空間全体を探索し、その後、単純なベンチマーク問題に対して最高品質の式の部分空間に収束する。

In this chapter we take a closer look at the distribution of symbolic regression models generated by genetic programming in the search space. The motivation for this work is to improve the search for well-fitting symbolic regression models by using information about the similarity of models that can be precomputed independently from the target function. For our analysis, we use a restricted grammar for uni-variate symbolic regression models and generate all possible models up to a fixed length limit. We identify unique models and cluster them based on phenotypic as well as genotypic similarity. We find that phenotypic similarity leads to well-defined clusters while genotypic similarity does not produce a clear clustering. By mapping solution candidates visited by GP to the enumerated search space we find that GP initially explores the whole search space and later converges to the subspace of highest quality expressions in a run for a simple benchmark problem.
翻訳日:2021-09-29 14:41:23 公開日:2021-09-28
# 機械と機械の協調というカントから着想を得た倫理

Designed to Cooperate: A Kant-Inspired Ethic of Machine-to-Machine Cooperation ( http://arxiv.org/abs/2109.13493v1 )

ライセンス: Link先を確認
Seng W. Loke(参考訳) 本稿では、機械と機械の協調と機械の社会化の倫理性を強調し、自動運転車や都市ロボットなどの自律的な認識・意思決定・行動能力を持つ機械は、異なる利害関係者が所有・使用し、特に公共空間を共有している場合において、その行動において協調して動作するように設計・構築されるべきである、と論じる。 つまり、設計上、マシンはまず協力し、問題があれば代替案のみを検討するべきである。 特に共有資源(パーキングスペース、公共道路、縁石側空間、歩道など)を使用する場合には、協調性が機能向上に重要であるだけでなく、他の人間と協力する人間が有利かつ好意的に見ることができるのと同様に、好適な要件であるとも主張されている。 このような機械対機械協力の有用性は,協調的クラウドソーシング,協調的交通経路,駐車場,都市ロボットによる配送・買い物といった未来的シナリオなどを通じて示される。 プライバシー・バイ・デザインとセキュリティ・バイ・デザインが重要な考慮事項であるように、倫理的要件を満たしたシステムを生み出すためには、協力・バイ・デザインは独立して所有され、同じ空間に共生し、共通の資源を使用する自律システムにとって必要不可欠である。 共有パブリックスペースを使用するマシンが協力的でないなら、それは反社会的だけでなく倫理的にも振る舞わない。 また,公共事業を行う都市ロボットの認定も検討できる可能性が示唆された。

This position paper highlights an ethic of machine-to-machine cooperation and machine pro-sociality, and argues that machines capable of autonomous sensing, decision-making and action, such as automated vehicles and urban robots, owned and used by different self-interested parties, and having their own agendas (or interests of their owners) should be designed and built to be cooperative in their behaviours, especially if they share public spaces. That is, by design, the machine should first cooperate, and then only consider alternatives if there are problems. It is argued that being cooperative is not only important for their improved functioning, especially, when they use shared resources (e.g., parking spaces, public roads, curbside space and walkways), but also as a favourable requirement analogous to how humans cooperating with other humans can be advantageous and often viewed favourably. The usefulness of such machine-to-machine cooperation are illustrated via examples including cooperative crowdsourcing, cooperative traffic routing and parking as well as futuristic scenarios involving urban robots for delivery and shopping. It is argued that just as privacy-by-design and security-by-design are important considerations, in order to yield systems that fulfil ethical requirements, cooperative-by-desig n should also be an imperative for autonomous systems that are separately owned but co-inhabit the same spaces and use common resources. If a machine using shared public spaces is not cooperative, as one might expect, then it is not only anti-social but not behaving ethically. It is also proposed that certification for urban robots that operate in public could be explored.
翻訳日:2021-09-29 14:40:53 公開日:2021-09-28
# インテリジェント意思決定支援バーサス自動意思決定:説明可能な人工知能による知識労働の強化

Intelligent Decision Assistance Versus Automated Decision-Making: Enhancing Knowledge Work Through Explainable Artificial Intelligence ( http://arxiv.org/abs/2109.13827v1 )

ライセンス: Link先を確認
Max Schemmer and Niklas K\"uhl and Gerhard Satzger(参考訳) AIベースの自動意思決定の最近の進歩は、企業や社会に多くの利益をもたらしている一方で、コストも伴っている。 高いレベルの意思決定の自動化は、自動化バイアスやデスクランディングなど、さまざまな欠点につながることが長年知られている。 特に、知識労働者の卓越化は、AIを訓練し、挑戦し、進化させるのと同じ人々であるため、大きな問題である。 この問題に対処するため,我々は2つの異なる研究ストリーム(dssとオートメーション)の文献レビューに基づいて,新たなdss(intelligent decision assistance,ida)の概念化を行う。 IDAは、自動意思決定を通じて知識労働者に影響を与えることなく、知識労働者をサポートする。 具体的には、具体的なAIレコメンデーションを保ちながら、説明可能なAI(XAI)の技術を使用することを提案する。 この概念化をテストするため、我々はIDAの影響に関する仮説を開発し、文学における実証研究に基づくその妥当性の最初の証拠を提供する。

While recent advances in AI-based automated decision-making have shown many benefits for businesses and society, they also come at a cost. It has for long been known that a high level of automation of decisions can lead to various drawbacks, such as automation bias and deskilling. In particular, the deskilling of knowledge workers is a major issue, as they are the same people who should also train, challenge and evolve AI. To address this issue, we conceptualize a new class of DSS, namely Intelligent Decision Assistance (IDA) based on a literature review of two different research streams -- DSS and automation. IDA supports knowledge workers without influencing them through automated decision-making. Specifically, we propose to use techniques of Explainable AI (XAI) while withholding concrete AI recommendations. To test this conceptualization, we develop hypotheses on the impacts of IDA and provide first evidence for their validity based on empirical studies in the literature.
翻訳日:2021-09-29 14:40:21 公開日:2021-09-28
# 大気汚染に対する母体曝露のパーソナライズ効果を推定する不均一分散ラグモデル

Heterogeneous Distributed Lag Models to Estimate Personalized Effects of Maternal Exposures to Air Pollution ( http://arxiv.org/abs/2109.13763v1 )

ライセンス: Link先を確認
Daniel Mork, Marianthi-Anna Kioumourtzoglou, Marc Weisskopf, Brent A Coull, Ander Wilson(参考訳) 子どもの健康研究は、母親の環境暴露と子供の出生と健康結果の関連を支持する。 このような研究の共通の目標は、妊娠中の感受性の臨界窓を識別することであり、母性曝露と将来の結果との関係が増加する。 クリティカルウィンドウの関連とタイミングは、個人、家族、近隣の特徴の異なるレベルにわたって多様である可能性が高い。 しかし、効果の修正を検討した研究は、いくつかの予め特定された部分群に限定された。 本研究では,臨界窓を個別レベルで推定し,異種性を引き起こす重要な特徴を同定する統計学習手法を提案する。 提案手法では, 分散ラグモデル (dlms) をベイズ加法加法回帰木で修正し, 高次元の修正因子に基づく効果の不均一性を考慮した。 シミュレーションにより,本モデルがdlmの不均質性に寄与する重要な窓と修正子の両方を識別できることを示した。 コロラド州生まれコホートにおける妊娠中における毎週の微粒子曝露と出生体重との関係を推定した。 本研究では,母体集団指数(BMI),年齢,ヒスパニック指定,教育を,分散ラグ効果の修飾剤として同定し,BMIが増加し非ヒスパニック系が受容可能な集団であることを示す。

Children's health studies support an association between maternal environmental exposures and children's birth and health outcomes. A common goal in such studies is to identify critical windows of susceptibility -- periods during gestation with increased association between maternal exposures and a future outcome. The associations and timings of critical windows are likely heterogeneous across different levels of individual, family, and neighborhood characteristics. However, the few studies that have considered effect modification were limited to a few pre-specified subgroups. We propose a statistical learning method to estimate critical windows at the individual level and identify important characteristics that induce heterogeneity. The proposed approach uses distributed lag models (DLMs) modified by Bayesian additive regression trees to account for effect heterogeneity based on a potentially high-dimensional set of modifying factors. We show in a simulation study that our model can identify both critical windows and modifiers responsible for DLM heterogeneity. We estimate the relationship between weekly exposures to fine particulate matter during gestation and birth weight in an administrative Colorado birth cohort. We identify maternal body mass index (BMI), age, Hispanic designation, and education as modifiers of the distributed lag effects and find non-Hispanics with increased BMI to be a susceptible population.
翻訳日:2021-09-29 14:39:45 公開日:2021-09-28
# 改善率人口ベーストレーニングの高速化

Faster Improvement Rate Population Based Training ( http://arxiv.org/abs/2109.13800v1 )

ライセンス: Link先を確認
Valentin Dalibard, Max Jaderberg(参考訳) ニューラルネットワークのトレーニングの成功には、注意と時間を要するハイパーパラメータチューニングが一般的である。 人口ベーストレーニング(PBT)はこのプロセスを自動化するために最近提案されている。 pbtは複数のニューラルネットワークを同時にトレーニングし、トレーニングを通じてハイパーパラメータを頻繁に変更する。 しかし、pbtの決定機構は欲深く、短期的な改善を好んでおり、場合によっては長期的なパフォーマンスを損なうこともある。 本稿では,この問題に対処する高速改善率PBT(FIRE PBT)を提案する。 同様のパフォーマンスを持つ2つのニューラルネットワークと、同様のハイパーパラメータによるトレーニングが与えられた場合、より高速な改善率を示すネットワークにより、最終的なパフォーマンスが向上します。 これを利用することで、新しいフィットネス指標を導出し、一部の人口構成員が長期的なパフォーマンスに集中できるようにします。 実験の結果,FIRE PBT は ImageNet ベンチマークで PBT より優れており,手動学習率のスケジュールでトレーニングしたネットワークの性能と一致していることがわかった。 FIRE PBTを学習タスクの強化に適用し,PBTとランダムなハイパーパラメータ探索よりも高速な学習と最終性能を示す。

The successful training of neural networks typically involves careful and time consuming hyperparameter tuning. Population Based Training (PBT) has recently been proposed to automate this process. PBT trains a population of neural networks concurrently, frequently mutating their hyperparameters throughout their training. However, the decision mechanisms of PBT are greedy and favour short-term improvements which can, in some cases, lead to poor long-term performance. This paper presents Faster Improvement Rate PBT (FIRE PBT) which addresses this problem. Our method is guided by an assumption: given two neural networks with similar performance and training with similar hyperparameters, the network showing the faster rate of improvement will lead to a better final performance. Using this, we derive a novel fitness metric and use it to make some of the population members focus on long-term performance. Our experiments show that FIRE PBT is able to outperform PBT on the ImageNet benchmark and match the performance of networks that were trained with a hand-tuned learning rate schedule. We apply FIRE PBT to reinforcement learning tasks and show that it leads to faster learning and higher final performance than both PBT and random hyperparameter search.
翻訳日:2021-09-29 14:39:22 公開日:2021-09-28
# ナナHDR - TTSのための非係留非自己回帰ハイブリッドモデル

Nana-HDR: A Non-attentive Non-autoregressive Hybrid Model for TTS ( http://arxiv.org/abs/2109.13673v1 )

ライセンス: Link先を確認
Shilun Lin, Wenchao Su, Li Meng, Fenglong Xie, Xinhui Li, Li Lu(参考訳) 本稿では,TransformerをベースとしたDense-fuseエンコーダとRTNをベースとしたTS用デコーダを備えた非係留非自己回帰モデルであるNana-HDRを提案する。 第一に、粗い特徴融合のための基本トランスフォーマーブロックと細かな特徴融合のためのマルチヘッドアテンション層の間に密接な接続を持つ新しいDense-fuseエンコーダである。 次に、単層非自己回帰RNNベースのデコーダ。 第3に、上記のハイブリッドエンコーダとデコーダを接続するアテンションモデルの代わりに、時間予測器。 実験の結果,Nana-HDRはトランスフォーマーベースのエンコーダの強いテキスト符号化能力,露光バイアスや局所情報優先に悩まされることなくステートフルな復号化,時間予測器によって提供される安定したアライメントなど,各コンポーネントの利点をフルに活用できることがわかった。 これらの利点により、Nana-HDRは2つのマンダリンコーパスの自然性と堅牢性において競争力を発揮する。

This paper presents Nana-HDR, a new non-attentive non-autoregressive model with hybrid Transformer-based Dense-fuse encoder and RNN-based decoder for TTS. It mainly consists of three parts: Firstly, a novel Dense-fuse encoder with dense connections between basic Transformer blocks for coarse feature fusion and a multi-head attention layer for fine feature fusion. Secondly, a single-layer non-autoregressive RNN-based decoder. Thirdly, a duration predictor instead of an attention model that connects the above hybrid encoder and decoder. Experiments indicate that Nana-HDR gives full play to the advantages of each component, such as strong text encoding ability of Transformer-based encoder, stateful decoding without being bothered by exposure bias and local information preference, and stable alignment provided by duration predictor. Due to these advantages, Nana-HDR achieves competitive performance in naturalness and robustness on two Mandarin corpora.
翻訳日:2021-09-29 14:39:04 公開日:2021-09-28
# ロボット手術映像のリアルタイム機器分割のための効率的なグローバルローカルメモリ

Efficient Global-Local Memory for Real-time Instrument Segmentation of Robotic Surgical Video ( http://arxiv.org/abs/2109.13593v1 )

ライセンス: Link先を確認
Jiacheng Wang, Yueming Jin, Liansheng Wang, Shuntian Cai, Pheng-Ann Heng, Jing Qin(参考訳) ビデオからリアルタイムかつ正確な楽器セグメンテーションを行うことは、ロボット支援手術の性能を向上させる上で非常に重要である。 そこで本研究では,隣接フレームからの局所的時間依存と長期持続時間におけるグローバル意味相関を含む,手術器具知覚のための2つの重要な手がかりを明らかにする。 しかし、既存の作品の多くは単一のフレームで純粋に視覚的な手がかりを使ってセグメンテーションを行う。 光の流れは2フレーム間だけの動きをモデル化するためにのみ使用され、計算コストが重い。 本稿では,グローバルとローカルの両方の時空間的知識を巧みに関連付け,現在の特徴の強化,セグメンテーション性能の向上,リアルタイム予測能力の維持を図る新しいデュアルメモリネットワーク(dmnet)を提案する。 一方,畳み込みLSTMと非局所メカニズムの相補的な利点を応用して,効率的なローカルメモリを提案する。 一方,モデルの不確実性やフレームの類似性から導かれる最も情報性の高いフレームを収集する,時間的長大域におけるグローバルな意味的相関関係の収集のためのアクティブなグローバルメモリを開発する。 手術用ビデオデータセットを2つの公開ベンチマークで検証した。 実験結果から,本手法は実時間速度を維持しながらセグメンテーション精度を向上することがわかった。

Performing a real-time and accurate instrument segmentation from videos is of great significance for improving the performance of robotic-assisted surgery. We identify two important clues for surgical instrument perception, including local temporal dependency from adjacent frames and global semantic correlation in long-range duration. However, most existing works perform segmentation purely using visual cues in a single frame. Optical flow is just used to model the motion between only two frames and brings heavy computational cost. We propose a novel dual-memory network (DMNet) to wisely relate both global and local spatio-temporal knowledge to augment the current features, boosting the segmentation performance and retaining the real-time prediction capability. We propose, on the one hand, an efficient local memory by taking the complementary advantages of convolutional LSTM and non-local mechanisms towards the relating reception field. On the other hand, we develop an active global memory to gather the global semantic correlation in long temporal range to current one, in which we gather the most informative frames derived from model uncertainty and frame similarity. We have extensively validated our method on two public benchmark surgical video datasets. Experimental results demonstrate that our method largely outperforms the state-of-the-art works on segmentation accuracy while maintaining a real-time speed.
翻訳日:2021-09-29 14:38:44 公開日:2021-09-28
# 空間符号化ボロノイフレネル位相を用いた複眼インスパイアフラットレンズレスイメージング

Compound eye inspired flat lensless imaging with spatially-coded Voronoi-Fresnel phase ( http://arxiv.org/abs/2109.13703v1 )

ライセンス: Link先を確認
Qiang Fu, Dong-Ming Yan, and Wolfgang Heidrich(参考訳) レンズレスカメラ(英: lensless camera)は、平面光学と計算アルゴリズムを統合することで、物理的寸法を画像センサの非常に近くまで縮小する撮像装置の一種である。 本稿では,空間符号化されたVoronoi-Fresnel相を有する平面レンズレスカメラについて報告する。 計算再構成を容易にするために,光学系における情報を最大化する設計原理を提案する。 フーリエ領域の計量である変調伝達関数体積(MTFv)を導入することにより、光学素子の最適設計を導くための最適化フレームワークを考案する。 結果として生じるボロノイフレネル相は、基底1次フレネル相関数を含む不規則な配列の準中心ボロノイ細胞を含む。 様々な照明条件において1.6メガピクセルの画像センサ上にボロノイフレネルレンズレスカメラを試作し,画像性能の検証を行った。 提案された設計は、極端物理的条件下で動くコンパクトイメージングシステムの開発に役立てることができる。

Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by integrating flat optics and computational algorithms. Here we report a flat lensless camera with spatially-coded Voronoi-Fresnel phase, partly inspired by biological apposition compound eye, to achieve superior image quality. We propose a design principle of maximizing the information in optics to facilitate the computational reconstruction. By introducing a Fourier domain metric, Modulation Transfer Function volume (MTFv), we devise an optimization framework to guide the optimal design of the optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. The proposed design could benefit the development of compact imaging systems working in extreme physical conditions.
翻訳日:2021-09-29 14:38:18 公開日:2021-09-28
# 視覚活動検出のためのVVAD-LRS3データセット

The VVAD-LRS3 Dataset for Visual Voice Activity Detection ( http://arxiv.org/abs/2109.13789v1 )

ライセンス: Link先を確認
Adrian Lubitz and Matias Valdenegro-Toro and Frank Kirchner(参考訳) ロボットは日常的なデバイスになりつつある。 人間と機械の対話をより自然にするために、カメラの視覚入力によって、人が話しているかどうかを検知できる視覚音声アクティビティ検出(vvad)のような認知機能を実装する必要がある。 ニューラルネットワークは、画像処理、時系列予測、自然言語処理、その他の領域におけるタスクの最先端技術である。 これらのネットワークは大量のラベル付きデータを必要とする。 現在、VVADのタスクのためのデータセットは多くありません。 この研究で我々は、RS3データセットから自動アノテーションを派生したVVAD-LRS3データセットと呼ばれる大規模なデータセットを作成しました。 VVAD-LRS3データセットは44K以上のサンプルを含み、次の競合データセット(WildVVAD)の3倍以上である。 顔と唇の画像, 顔と唇のランドマーク特徴の4種類の特徴について, ベースラインの評価を行った。 顔画像上の畳み込みニューラルネットワーク長短記憶(CNN LSTM)では、テストセットで92%の精度が達成された。 人間による研究では、テストセットの精度は87.93%に達した。

Robots are becoming everyday devices, increasing their interaction with humans. To make human-machine interaction more natural, cognitive features like Visual Voice Activity Detection (VVAD), which can detect whether a person is speaking or not, given visual input of a camera, need to be implemented. Neural networks are state of the art for tasks in Image Processing, Time Series Prediction, Natural Language Processing and other domains. Those Networks require large quantities of labeled data. Currently there are not many datasets for the task of VVAD. In this work we created a large scale dataset called the VVAD-LRS3 dataset, derived by automatic annotations from the LRS3 dataset. The VVAD-LRS3 dataset contains over 44K samples, over three times the next competitive dataset (WildVVAD). We evaluate different baselines on four kinds of features: facial and lip images, and facial and lip landmark features. With a Convolutional Neural Network Long Short Term Memory (CNN LSTM) on facial images an accuracy of 92% was reached on the test set. A study with humans showed that they reach an accuracy of 87.93% on the test set.
翻訳日:2021-09-29 14:38:04 公開日:2021-09-28
# 逐次レコメンデーションのための注意的社会時間興奮の抽出

Extracting Attentive Social Temporal Excitation for Sequential Recommendation ( http://arxiv.org/abs/2109.13539v1 )

ライセンス: Link先を確認
Yunzhe Li, Yue Ding, Bo Chen, Xin Xin, Yule Wang, Yuxiang Shi, Ruiming Tang and Dong Wang(参考訳) 協調フィルタリングでは, ユーザの行動が友人に影響を受けるため, 推薦品質を向上させるために, ソーシャル情報を完全に活用することが重要である。 しかし、既存の研究は、ソーシャルな関係を利用して、友人の過去の行動シーケンスをユーザレベルの間接パラダイムで集約している。 間接パラダイムの重要な欠点は、ユーザ間の行動イベント間の時間的関係を無視することです。 本稿では、イベントレベルの直接パラダイムにおけるユーザの動的関心に対する友人の行動のきめ細かい影響をモデル化するための時間的ポイントプロセスを導入する、ソーシャル・テンポラル・エキサイティング・ネットワーク(STEN)と呼ばれる新しい時系列的レコメンデーション・フレームワークを提案する。 さらに,社会的相互の時間的効果と自我的時間的効果に逐次的レコメンデーションの時間的効果を分解する。 具体的には,ソーシャルヘテロジニアスグラフ埋め込み層を用いて,構造情報によるユーザ表現を洗練する。 時間的情報伝達を強化するため、STENは相互に刺激的な時間的ネットワークを通じて、友人の行動の微細な時間的相互影響を直接抽出する。 また、ユーザの動的興味は、自励時間ネットワークを介してキャプチャされる。 3つの実世界のデータセットに対する大規模な実験により、STENは最先端のベースライン法より優れていることが示された。 さらに、STENはイベントレベルのレコメンデーション説明を提供する。

In collaborative filtering, it is an important way to make full use of social information to improve the recommendation quality, which has been proved to be effective because user behavior will be affected by her friends. However, existing works leverage the social relationship to aggregate user features from friends' historical behavior sequences in a user-level indirect paradigm. A significant defect of the indirect paradigm is that it ignores the temporal relationships between behavior events across users. In this paper, we propose a novel time-aware sequential recommendation framework called Social Temporal Excitation Networks (STEN), which introduces temporal point processes to model the fine-grained impact of friends' behaviors on the user s dynamic interests in an event-level direct paradigm. Moreover, we propose to decompose the temporal effect in sequential recommendation into social mutual temporal effect and ego temporal effect. Specifically, we employ a social heterogeneous graph embedding layer to refine user representation via structural information. To enhance temporal information propagation, STEN directly extracts the fine-grained temporal mutual influence of friends' behaviors through the mutually exciting temporal network. Besides, the user s dynamic interests are captured through the self-exciting temporal network. Extensive experiments on three real-world datasets show that STEN outperforms state-of-the-art baseline methods. Moreover, STEN provides event-level recommendation explainability, which is also illustrated experimentally.
翻訳日:2021-09-29 14:37:46 公開日:2021-09-28
# 最適直交群同期と回転群同期

Optimal Orthogonal Group Synchronization and Rotation Group Synchronization ( http://arxiv.org/abs/2109.13491v1 )

ライセンス: Link先を確認
Chao Gao and Anderson Y. Zhang(参考訳) 直交群同期と回転群同期の統計的推定問題について検討する。 モデルは、$Y_{ij} = Z_i^* Z_j^{*T} + \sigma W_{ij}\in\mathbb{R}^{d\times d}$ ここで、$W_{ij}$はガウス確率行列であり、$Z_i^*$は直交行列または回転行列であり、各$Y_{ij}$は確率$p$と独立に観測される。 我々は、Z^*$を推定するための反復極分解アルゴリズムを解析し、スペクトル法で初期化した場合の誤差が$(1+o(1))\frac{\sigma^2 d(d-1)}{2np}$であることを示す。 一致するミニマックス下限がさらに確立され、正確なミニマックスリスクを達成するため、提案アルゴリズムの最適性が導かれる。

We study the statistical estimation problem of orthogonal group synchronization and rotation group synchronization. The model is $Y_{ij} = Z_i^* Z_j^{*T} + \sigma W_{ij}\in\mathbb{R}^{d\times d}$ where $W_{ij}$ is a Gaussian random matrix and $Z_i^*$ is either an orthogonal matrix or a rotation matrix, and each $Y_{ij}$ is observed independently with probability $p$. We analyze an iterative polar decomposition algorithm for the estimation of $Z^*$ and show it has an error of $(1+o(1))\frac{\sigma^2 d(d-1)}{2np}$ when initialized by spectral methods. A matching minimax lower bound is further established which leads to the optimality of the proposed algorithm as it achieves the exact minimax risk.
翻訳日:2021-09-29 14:37:22 公開日:2021-09-28
# BTLモデルによる動的ランク付け:最も近い隣のランク中心性法

Dynamic Ranking with the BTL Model: A Nearest Neighbor based Rank Centrality Method ( http://arxiv.org/abs/2109.13743v1 )

ライセンス: Link先を確認
Eglantine Karl\'e and Hemant Tyagi(参考訳) レコメンデーションシステムやスポーツトーナメントのような多くのアプリケーションは、n$アイテムのコレクション内でペアで比較を行い、そのゴールは、アイテムの潜在強度および/またはグローバルなランキングを回復するために比較の2値の結果を集約することである。 近年、この問題は、適切な生成モデルの仮定の下で関連する統計的保証とともに、多くの方法が提案されている理論的な観点から大きな関心を集めている。 これらの結果は通常、1つの比較グラフ$G$としてペア比較を収集するが、トーナメント中のサッカーの試合の結果のような多くのアプリケーションでは、ペア比較の結果の性質は時間とともに進化する。 このような動的設定の理論的結果は、上記の静的設定と比較して相対的に制限される。 本稿では、時間領域$[0,1]$でペアワイズ結果の確率が円滑に変化するという仮定の下で、静的設定から動的設定への古典的BTL(Bradley-Terry-Lu ce)モデルの拡張について検討する。 正規格子上の比較グラフ $(g_{t'})_{t' \in \mathcal{t}}$ on a regular grid $\mathcal{t} \subset [0,1]$ が与えられたとき、我々はアイテムの潜在強みをいつでも$t \in \mathbb{r}^n$ で回復することを目指している。 この目的のために、静的ケースにおけるランク付けのための一般的なスペクトルアプローチであるランク中央化法を、適当な$t$の近傍で利用できるデータを局所的に平均化することで適用する。 G_{t'})_{t' \in \mathcal{T}}$ が Erd\"os-Renyi グラフの列であるとき、$w_t^*$ を推定するための非漸近的な $\ell_2$ と $\ell_{\infty}$ エラー境界を与える。 また、実データおよび合成データに関する実験で理論解析を補完する。

Many applications such as recommendation systems or sports tournaments involve pairwise comparisons within a collection of $n$ items, the goal being to aggregate the binary outcomes of the comparisons in order to recover the latent strength and/or global ranking of the items. In recent years, this problem has received significant interest from a theoretical perspective with a number of methods being proposed, along with associated statistical guarantees under the assumption of a suitable generative model. While these results typically collect the pairwise comparisons as one comparison graph $G$, however in many applications - such as the outcomes of soccer matches during a tournament - the nature of pairwise outcomes can evolve with time. Theoretical results for such a dynamic setting are relatively limited compared to the aforementioned static setting. We study in this paper an extension of the classic BTL (Bradley-Terry-Luce) model for the static setting to our dynamic setup under the assumption that the probabilities of the pairwise outcomes evolve smoothly over the time domain $[0,1]$. Given a sequence of comparison graphs $(G_{t'})_{t' \in \mathcal{T}}$ on a regular grid $\mathcal{T} \subset [0,1]$, we aim at recovering the latent strengths of the items $w_t \in \mathbb{R}^n$ at any time $t \in [0,1]$. To this end, we adapt the Rank Centrality method - a popular spectral approach for ranking in the static case - by locally averaging the available data on a suitable neighborhood of $t$. When $(G_{t'})_{t' \in \mathcal{T}}$ is a sequence of Erd\"os-Renyi graphs, we provide non-asymptotic $\ell_2$ and $\ell_{\infty}$ error bounds for estimating $w_t^*$ which in particular establishes the consistency of this method in terms of $n$, and the grid size $\lvert\mathcal{T}\rvert$. We also complement our theoretical analysis with experiments on real and synthetic data.
翻訳日:2021-09-29 14:37:02 公開日:2021-09-28
# グラスマン拡散写像に基づく幾何調和による代理モデリング

Grassmannian diffusion maps based surrogate modeling via geometric harmonics ( http://arxiv.org/abs/2109.13805v1 )

ライセンス: Link先を確認
Ketson R. M. dos Santos, Dimitrios G. Giovanis, Katiana Kontolati, Dimitrios Loukrezis, Michael D. Shields(参考訳) 本稿では,工学系と複雑な物理現象の応答を予測するために,グラスマン拡散写像(GDMap)と幾何調和を利用した新しい代理モデルを開発した。 本手法は,GDMapsを用いて,入力パラメータの不確かさに対する物理・数学系の基礎的挙動の低次元表現を求める。 この表現を用いて、入力パラメータの空間からグラスマン拡散多様体への大域写像を作成するために、サンプル関数拡張法である幾何調和法(gemetry harmonics)が用いられる。 幾何学的調和は、拡散多様体上の点をグラスマン多様体の接空間に局所的に写像するためにも用いられる。 指数写像は接空間の点をグラスマン多様体に射影するために使われ、そこで全解の再構成が行われる。 提案するサロゲートモデルの性能を3つの例で検証した。 最初の問題は、この技術の発展を説明するためのおもちゃの例である。 第2の例では, 一様電界中における誘電体シリンダの電位の応答予測を解析することにより, 種々のマッピングに伴う誤差を評価する。 最後の例では、塑性のせん断変態帯(STZ)理論を用いたモデルアモルファス材料におけるひずみ場進化の不確実性予測法を適用した。 すべての例において正確な予測が得られ、この手法が大規模モデルにおける不確実性定量化の適用の強い候補であることを示す。

In this paper, a novel surrogate model based on the Grassmannian diffusion maps (GDMaps) and utilizing geometric harmonics is developed for predicting the response of engineering systems and complex physical phenomena. The method utilizes the GDMaps to obtain a low-dimensional representation of the underlying behavior of physical/mathematica l systems with respect to uncertainties in the input parameters. Using this representation, geometric harmonics, an out-of-sample function extension technique, is employed to create a global map from the space of input parameters to a Grassmannian diffusion manifold. Geometric harmonics is also employed to locally map points on the diffusion manifold onto the tangent space of a Grassmann manifold. The exponential map is then used to project the points in the tangent space onto the Grassmann manifold, where reconstruction of the full solution is performed. The performance of the proposed surrogate modeling is verified with three examples. The first problem is a toy example used to illustrate the development of the technique. In the second example, errors associated with the various mappings employed in the technique are assessed by studying response predictions of the electric potential of a dielectric cylinder in a homogeneous electric field. The last example applies the method for uncertainty prediction in the strain field evolution in a model amorphous material using the shear transformation zone (STZ) theory of plasticity. In all examples, accurate predictions are obtained, showing that the present technique is a strong candidate for the application of uncertainty quantification in large-scale models.
翻訳日:2021-09-29 14:36:16 公開日:2021-09-28
# 動的時間ゆがみを用いた周期同期に基づくリチウムイオン電池の健康状態推定

Lithium-ion Battery State of Health Estimation based on Cycle Synchronization using Dynamic Time Warping ( http://arxiv.org/abs/2109.13448v1 )

ライセンス: Link先を確認
Kate Qi Zhou, Yan Qin, Billy Pik Lik Lau, Chau Yuen, Stefan Adams(参考訳) 健康状態(SOH)の推定は、電池容量の減少による予期せぬ故障を避けるために、電池駆動アプリケーションにおいて重要な役割を果たす。 しかし、単に手動操作やlong short-term memory (lstm)のような高度な機械学習モデルの自動処理機構に切り替わるだけで、劣化サイクルの不均一な長さの問題に注意を払う研究はほとんどない。 その結果、情報損失が発生し、データ駆動型SOH推定モデルの完全な能力が達成される。 この課題に対処するため,本稿では,推定モデルの等長入力を可能にするだけでなく,すべての情報を保存するために,動的時間ワープを用いて既存の座標系を変更する革新的なサイクル同期手法を提案する。 提案手法では, 時系列の時間情報を活用することで, 時間指標と元の測定値とを, 電池劣化状態を反映する新しい指標に組み込む。 LSTMを基本推定モデルとして採用することにより、サイクル同期に基づくSOHモデルは従来のLSTMと比較して予測精度を30%以上向上させることができる。

The state of health (SOH) estimation plays an essential role in battery-powered applications to avoid unexpected breakdowns due to battery capacity fading. However, few studies have paid attention to the problem of uneven length of degrading cycles, simply employing manual operation or leaving to the automatic processing mechanism of advanced machine learning models, like long short-term memory (LSTM). As a result, this causes information loss and caps the full capability of the data-driven SOH estimation models. To address this challenge, this paper proposes an innovative cycle synchronization way to change the existing coordinate system using dynamic time warping, not only enabling the equal length inputs of the estimation model but also preserving all information. By exploiting the time information of the time series, the proposed method embeds the time index and the original measurements into a novel indicator to reflect the battery degradation status, which could have the same length over cycles. Adopting the LSTM as the basic estimation model, the cycle synchronization-base d SOH model could significantly improve the prediction accuracy by more than 30% compared to the traditional LSTM.
翻訳日:2021-09-29 14:34:56 公開日:2021-09-28
# マイクロビデオレコメンデーションのための概念認識型グラフニューラルネットワーク

Concept-Aware Denoising Graph Neural Network for Micro-Video Recommendation ( http://arxiv.org/abs/2109.13527v1 )

ライセンス: Link先を確認
Yiyu Liu, Qian Liu, Yu Tian, Changping Wang, Yanan Niu, Yang Song, Chenliang Li(参考訳) 近年,kuaishouやtiktokなどのマイクロビデオ共有プラットフォームが,人々の生活の情報源となっている。 大規模なトラフィック量、短いビデオライフスパン、ストリーミング方式のおかげで、コスト効率のよい方法でこれらの課題に対応するために、既存のレコメンダシステムの改善がますます迫られている。 本稿では,マイクロビデオレコメンデーションのための新しい概念認識型分節グラフニューラルネットワーク(conde)を提案する。 condeはユーザとマイクロビデオ表現を導出する3相グラフ畳み込みプロセスで構成されている。 動画のキャプションやコメントから抽出されたユーザノードとビデオノードと、関連するコンセプトノードとを接続することにより、異種三部グラフを構築する。 グラフ内のノイズ情報に対処するために,ユーザの好みを反映したサブグラフを抽出する,ユーザ指向のグラフ記述フェーズを導入する。 本論文では,マイクロビデオレコメンデーションが注目されているが,本手法は他のタスクに一般化できることを示す。 そこで我々は,公益電子商取引データセットの実証的研究も行っている。 実験結果から,提案手法は最先端ソリューションよりも推薦性能が大幅に向上することが示唆された。

Recently, micro-video sharing platforms such as Kuaishou and Tiktok have become a major source of information for people's lives. Thanks to the large traffic volume, short video lifespan and streaming fashion of these services, it has become more and more pressing to improve the existing recommender systems to accommodate these challenges in a cost-effective way. In this paper, we propose a novel concept-aware denoising graph neural network (named CONDE) for micro-video recommendation. CONDE consists of a three-phase graph convolution process to derive user and micro-video representations: warm-up propagation, graph denoising and preference refinement. A heterogeneous tripartite graph is constructed by connecting user nodes with video nodes, and video nodes with associated concept nodes, extracted from captions and comments of the videos. To address the noisy information in the graph, we introduce a user-oriented graph denoising phase to extract a subgraph which can better reflect the user's preference. Despite the main focus of micro-video recommendation in this paper, we also show that our method can be generalized to other types of tasks. Therefore, we also conduct empirical studies on a well-known public E-commerce dataset. The experimental results suggest that the proposed CONDE achieves significantly better recommendation performance than the existing state-of-the-art solutions.
翻訳日:2021-09-29 14:34:36 公開日:2021-09-28
# がんドライバ遺伝子の予測のための機械学習手法:調査論文

Machine learning methods for prediction of cancer driver genes: a survey paper ( http://arxiv.org/abs/2109.13685v1 )

ライセンス: Link先を確認
Renan Andrades, Mariana Recamonde-Mendoza(参考訳) 腫瘍の発生を促進する遺伝子や突然変異を同定することは、がんの理解を改善し、疾患の診断と治療のための新しい方向を特定するための大きなステップである。 膨大なゲノミクスデータにもかかわらず、数百万もの体細胞突然変異の可能性からドライバーの突然変異とその遺伝子を正確に検出することは、依然として課題である。 計算手法は、がんドライバに関連するゲノムパターンの同定や、ドライバーイベントを予測するモデルの開発において、ますます重要な役割を担っている。 機械学習(ML)は、これらの取り組みの多くを支えるエンジンであり、この分野における残りのギャップに取り組むための優れた機会を提供する。 そこで本研究では,がんの遺伝子変異を同定するためのmlに基づく計算手法の包括的解析を行い,この科学的問題における広範なデータとアルゴリズム的展望の統合的パノラマビューを提供することを目的としている。 データ型とMLアルゴリズム間の相互作用が,これまでのソリューションでどのように研究されてきたのかを論じ,科学界から注目に値する現在の分析的限界を概説する。 mlがもたらした分野における重要な発展に読者がより親しみやすくすることで、新しい研究者がオープンな問題に対処し、私たちの知識をがんのドライバー発見へと前進させることを願っている。

Identifying the genes and mutations that drive the emergence of tumors is a major step to improve understanding of cancer and identify new directions for disease diagnosis and treatment. Despite the large volume of genomics data, the precise detection of driver mutations and their carrying genes, known as cancer driver genes, from the millions of possible somatic mutations remains a challenge. Computational methods play an increasingly important role in identifying genomic patterns associated with cancer drivers and developing models to predict driver events. Machine learning (ML) has been the engine behind many of these efforts and provides excellent opportunities for tackling remaining gaps in the field. Thus, this survey aims to perform a comprehensive analysis of ML-based computational approaches to identify cancer driver mutations and genes, providing an integrated, panoramic view of the broad data and algorithmic landscape within this scientific problem. We discuss how the interactions among data types and ML algorithms have been explored in previous solutions and outline current analytical limitations that deserve further attention from the scientific community. We hope that by helping readers become more familiar with significant developments in the field brought by ML, we may inspire new researchers to address open problems and advance our knowledge towards cancer driver discovery.
翻訳日:2021-09-29 14:34:15 公開日:2021-09-28
# Text2Brain:自由形式のテキストクエリによる脳活動マップの合成

Text2Brain: Synthesis of Brain Activation Maps from Free-form Text Query ( http://arxiv.org/abs/2109.13814v1 )

ライセンス: Link先を確認
Gia H. Ngo and Minh Nguyen and Nancy F. Chen and Mert R. Sabuncu(参考訳) ほとんどの神経画像実験は、被験者の数と個々の研究が調査できる認知過程によって制限され、力不足である。 それでも、神経科学は何十年にもわたって、膨大な成果を蓄積してきた。 既存のメタ分析ツールはキーワードクエリに限られているので、この成長する知識ベースを消化し、新たな洞察を得るのは難しい。 本研究では,オープンエンドテキストクエリから脳活性化マップを合成するために,脳画像研究の座標に基づくメタアナリシスのためのニューラルネットワークアプローチであるText2Brainを提案する。 トランスフォーマーベースのテキストエンコーダと3Dイメージジェネレータを組み合わせることで、Text2Brainは可変長テキストスニペットと、その対応するアクティベーションマップを13,000枚のニューロイメージング研究からサンプリングした。 認知概念のフリーフォームなテキスト記述から、text2brainが解剖学的に表現可能な神経活性化パターンを合成できることを実証する。 Text2Brain は https://braininterpr eter.com で、確立した先行情報を検索し、神経科学研究の新しい仮説を生成するウェブベースのツールとして利用可能である。

Most neuroimaging experiments are under-powered, limited by the number of subjects and cognitive processes that an individual study can investigate. Nonetheless, over decades of research, neuroscience has accumulated an extensive wealth of results. It remains a challenge to digest this growing knowledge base and obtain new insights since existing meta-analytic tools are limited to keyword queries. In this work, we propose Text2Brain, a neural network approach for coordinate-based meta-analysis of neuroimaging studies to synthesize brain activation maps from open-ended text queries. Combining a transformer-based text encoder and a 3D image generator, Text2Brain was trained on variable-length text snippets and their corresponding activation maps sampled from 13,000 published neuroimaging studies. We demonstrate that Text2Brain can synthesize anatomically-plausib le neural activation patterns from free-form textual descriptions of cognitive concepts. Text2Brain is available at https://braininterpr eter.com as a web-based tool for retrieving established priors and generating new hypotheses for neuroscience research.
翻訳日:2021-09-29 14:33:52 公開日:2021-09-28
# IoTセンサデータの異常検出のための自動データエンジニアリングパイプライン

An Automated Data Engineering Pipeline for Anomaly Detection of IoT Sensor Data ( http://arxiv.org/abs/2109.13828v1 )

ライセンス: Link先を確認
Xinze Li, Baixi Zou(参考訳) システム・オブ・チップ(SoC)技術、IoT(Internet of Things)、クラウドコンピューティング、人工知能といった分野の急速な発展により、現在の問題を解決する可能性が高まっている。 データ分析と機械学習/ディープラーニングの使用により、基盤となるパターンを学び、IoTセンサから生成された大量のデータから何を学んだかに基づいて決定することができる。 クラウドコンピューティングと組み合わせると、パイプライン全体が自動化され、手動コントロールや操作が不要になる。 本稿では,IoTセンサデータの異常検出のための自動データエンジニアリングパイプラインの実装と提案を行う。 このプロセスには、IoTセンサー、Raspberry Pi、Amazon Web Services(AWS)、およびスマートホームセキュリティシステムの異常なケースを特定するための複数の機械学習技術の使用が含まれる。

The rapid development in the field of System of Chip (SoC) technology, Internet of Things (IoT), cloud computing, and artificial intelligence has brought more possibilities of improving and solving the current problems. With data analytics and the use of machine learning/deep learning, it is made possible to learn the underlying patterns and make decisions based on what was learned from massive data generated from IoT sensors. When combined with cloud computing, the whole pipeline can be automated, and free of manual controls and operations. In this paper, an implementation of an automated data engineering pipeline for anomaly detection of IoT sensor data is studied and proposed. The process involves the use of IoT sensors, Raspberry Pis, Amazon Web Services (AWS) and multiple machine learning techniques with the intent to identify anomalous cases for the smart home security system.
翻訳日:2021-09-29 14:33:32 公開日:2021-09-28
# 長軸ロボットマニピュレーションのための非分割デモからのボトムアップスキル発見

Bottom-Up Skill Discovery from Unsegmented Demonstrations for Long-Horizon Robot Manipulation ( http://arxiv.org/abs/2109.13841v1 )

ライセンス: Link先を確認
Yifeng Zhu, Peter Stone, Yuke Zhu(参考訳) 我々は,実世界のロボット操作課題をスキル発見によって解決する。 本稿では,無意味な実演から再利用可能なスキルのライブラリを学習するためのボトムアップ手法を提案する。 本手法は,各デモンストレーションから凝集クラスタリングにより階層的タスク構造を構築することから始まる。 マルチタスクデモンストレーションのタスク構造から,反復パターンに基づいてスキルを識別し,階層的模倣学習による目標条件付センサモレータポリシを訓練する。 最後に、これらのスキルを構成するためにメタコントローラをトレーニングし、長距離操作タスクを解決する。 モデル全体は、追加のアノテーションなしで、30分以内に収集された少数の人間のデモでトレーニングすることができる。 本手法をシミュレーション環境と実ロボットを用いて体系的に評価した。 本手法は,多段階操作タスクにおいて最先端の模倣学習法よりも優れた性能を示す。 さらに、マルチタスクのデモから見つかったスキルは、個々のタスクから発見されたスキルと比較して平均的なタスク成功率を8\%押し上げます。

We tackle real-world long-horizon robot manipulation tasks through skill discovery. We present a bottom-up approach to learning a library of reusable skills from unsegmented demonstrations and use these skills to synthesize prolonged robot behaviors. Our method starts with constructing a hierarchical task structure from each demonstration through agglomerative clustering. From the task structures of multi-task demonstrations, we identify skills based on the recurring patterns and train goal-conditioned sensorimotor policies with hierarchical imitation learning. Finally, we train a meta controller to compose these skills to solve long-horizon manipulation tasks. The entire model can be trained on a small set of human demonstrations collected within 30 minutes without further annotations, making it amendable to real-world deployment. We systematically evaluated our method in simulation environments and on a real robot. Our method has shown superior performance over state-of-the-art imitation learning methods in multi-stage manipulation tasks. Furthermore, skills discovered from multi-task demonstrations boost the average task success by $8\%$ compared to those discovered from individual tasks.
翻訳日:2021-09-29 14:33:19 公開日:2021-09-28
# 対話型動的歩行:一般化保証による歩行切り替えポリシーの学習

Interactive Dynamic Walking: Learning Gait Switching Policies with Generalization Guarantees ( http://arxiv.org/abs/2109.13417v1 )

ライセンス: Link先を確認
Prem Chand, Sushant Veer, Ioannis Poulakakis(参考訳) 本稿では,動的な歩行2足歩行ロボットを,身体的インタラクションを必要とする作業に従事しながら指導的同僚に追従する問題を考える。 我々のアプローチは、監督官が管理するDMP(Dynamic Movement Primitives)の家族間の切り替えに依存している。 我々は、指導者の意図に適応するためにdmp間の切り替えをオーケストレーションするために監督者を訓練し、それは相互作用力の形でのみ暗黙的に利用可能である。 我々のアプローチの主な貢献は、訓練された監督者に新しいリーダーの意図に一般化の証明書を提供する能力である。 これは一般化理論から確率近似(PAC)-ベイズ境界を利用することによって達成される。 目的の軌道が明確でない先進的協調者に動的に歩行する二足歩行の歩行を適応させるために,ニューラルネットワークスーパーバイザーを訓練することにより,我々のアプローチの有効性を実証する。

In this paper, we consider the problem of adapting a dynamically walking bipedal robot to follow a leading co-worker while engaging in tasks that require physical interaction. Our approach relies on switching among a family of Dynamic Movement Primitives (DMPs) as governed by a supervisor. We train the supervisor to orchestrate the switching among the DMPs in order to adapt to the leader's intentions, which are only implicitly available in the form of interaction forces. The primary contribution of our approach is its ability to furnish certificates of generalization to novel leader intentions for the trained supervisor. This is achieved by leveraging the Probably Approximately Correct (PAC)-Bayes bounds from generalization theory. We demonstrate the efficacy of our approach by training a neural-network supervisor to adapt the gait of a dynamically walking biped to a leading collaborator whose intended trajectory is not known explicitly.
翻訳日:2021-09-29 14:32:47 公開日:2021-09-28
# JHUがVoxSRC-21に申請:トラック3

The JHU submission to VoxSRC-21: Track 3 ( http://arxiv.org/abs/2109.13425v1 )

ライセンス: Link先を確認
Jejin Cho, Jesus Villalba, Najim Dehak(参考訳) この技術報告では、Voxceleb Speaker Recognition Challenge 2021 Track 3: Self-supervised speaker verification (closed)に提出されたジョンズ・ホプキンス大学話者認識システムについて述べる。 私たちのトレーニングプロセスは、昨年のvoxsrc2020チャレンジの1位チームから提案されたものと同じです。 主な違いは、最近提案されたコンピュータビジョン(CV)における非コントラスト自己監督法、ラベルのない蒸留法(DINO)を用いて、我々の初期モデルを訓練し、運動量コントラスト(MoCo)に基づく昨年のコントラスト学習より優れていたことである。 また、反復クラスタリングの段階では、反復的に微調整されたモデルから生成された埋め込みのクラスタに基づいて、教師付き埋め込み学習のための擬似ラベルが更新される。 最終段階では、Res2Net50は反復クラスタリングステージから最後の擬似ラベルでトレーニングされる。 これは、Voxceleb1 test o、VoxSRC-21 Validation、テストトライアルにおいて、EER(%)の1.89、6.50、および6.89をそれぞれ示す最も優れた提案モデルである。

This technical report describes Johns Hopkins University speaker recognition system submitted to Voxceleb Speaker Recognition Challenge 2021 Track 3: Self-supervised speaker verification (closed). Our overall training process is similar to the proposed one from the first place team in the last year's VoxSRC2020 challenge. The main difference is a recently proposed non-contrastive self-supervised method in computer vision (CV), distillation with no labels (DINO), is used to train our initial model, which outperformed the last year's contrastive learning based on momentum contrast (MoCo). Also, this requires only a few iterations in the iterative clustering stage, where pseudo labels for supervised embedding learning are updated based on the clusters of the embeddings generated from a model that is continually fine-tuned over iterations. In the final stage, Res2Net50 is trained on the final pseudo labels from the iterative clustering stage. This is our best submitted model to the challenge, showing 1.89, 6.50, and 6.89 in EER(%) in voxceleb1 test o, VoxSRC-21 validation, and test trials, respectively.
翻訳日:2021-09-29 14:32:34 公開日:2021-09-28
# CateCom: 計算モデルの分類のための実践的データ中心アプローチ

CateCom: a practical data-centric approach to categorization of computational models ( http://arxiv.org/abs/2109.13452v1 )

ライセンス: Link先を確認
Alexander Zech and Timur Bazhirov(参考訳) 21世紀のデータ駆動科学の出現は、人工知能と機械学習の応用を促進するための、構造化された構造化データと関連するインフラストラクチャの必要性をもたらした。 本稿では, 物理モデルとデータ駆動型計算モデルの多様な景観を整理し, 関連情報を構造化データとして保存しやすくする取り組みについて述べる。 オブジェクト指向設計の概念を適用し,(1)構造化データにおけるアプローチを一意に記述できる,(2)広く使用されているモデルの大多数をカバーするのに十分な柔軟性を持つ,(3)コミュニティコントリビューションを通じて集団知性を利用する,というオープンソースの協調フレームワークの基礎を概説する。 データベーススキーマと対応するデータ構造を例示し、この記述時にどのようにソフトウェアにデプロイされるかを説明します。

The advent of data-driven science in the 21st century brought about the need for well-organized structured data and associated infrastructure able to facilitate the applications of Artificial Intelligence and Machine Learning. We present an effort aimed at organizing the diverse landscape of physics-based and data-driven computational models in order to facilitate the storage of associated information as structured data. We apply object-oriented design concepts and outline the foundations of an open-source collaborative framework that is: (1) capable of uniquely describing the approaches in structured data, (2) flexible enough to cover the majority of widely used models, and (3) utilizes collective intelligence through community contributions. We present example database schemas and corresponding data structures and explain how these are deployed in software at the time of this writing.
翻訳日:2021-09-29 14:32:12 公開日:2021-09-28
# 情報カスケードからイデオロギー埋め込みを学ぶ

Learning Ideological Embeddings from Information Cascades ( http://arxiv.org/abs/2109.13589v1 )

ライセンス: Link先を確認
Corrado Monti, Giuseppe Manco, Cigdem Aslay, Francesco Bonchi(参考訳) ユーザのイデオロギー的傾きのレンズを通して,ソーシャルネットワーク内の情報カスケードをモデル化することで,誤情報伝播や確認バイアスなどの現象の理解を支援し,有害な影響を緩和する技術を開発することができる。 本稿では,多次元イデオロギー空間における各ユーザのイデオロギー的傾きを学習するための確率的モデルを提案する。 特に,両ユーザがトピックに興味を持ち,イデオロギー的に相互に一致している場合,情報をあるユーザから別のユーザへと伝播させると仮定する。 モデルのパラメータを推定するために,観測された情報カスケードの集合の確率を最大化する勾配に基づく最適化手法を提案する。 TwitterとRedditの実際の政治的議論に関する実験では、このモデルが多次元イデオロギー空間におけるソーシャルメディアユーザーの政治的スタンスを学習できることを確認した。

Modeling information cascades in a social network through the lenses of the ideological leaning of its users can help understanding phenomena such as misinformation propagation and confirmation bias, and devising techniques for mitigating their toxic effects. In this paper we propose a stochastic model to learn the ideological leaning of each user in a multidimensional ideological space, by analyzing the way politically salient content propagates. In particular, our model assumes that information propagates from one user to another if both users are interested in the topic and ideologically aligned with each other. To infer the parameters of our model, we devise a gradient-based optimization procedure maximizing the likelihood of an observed set of information cascades. Our experiments on real-world political discussions on Twitter and Reddit confirm that our model is able to learn the political stance of the social media users in a multidimensional ideological space.
翻訳日:2021-09-29 14:31:57 公開日:2021-09-28
# 最適化バンドアルゴリズムの脆弱性

The Fragility of Optimized Bandit Algorithms ( http://arxiv.org/abs/2109.13595v1 )

ライセンス: Link先を確認
Lin Fan and Peter W. Glynn(参考訳) バンディットアルゴリズムの最適設計に関する多くの文献は、期待された後悔の最小化に基づいている。 ある指数関数族に対して最適である設計は、レイ・ロビンズの下界に支配される速度で、腕の遊びの数で対数的に増加する期待された後悔を達成できることはよく知られている。 本稿では,このような最適化設計を行う場合,関連するアルゴリズムは必ずしも,後悔分布の尾部が切れたコーシー分布のように振る舞うような望ましくない特徴を持つことを示す。 さらに、$p>1$では、後悔分布の$p$'thモーメントは、多対数に比較して、特に、サブ最適アームの回数のパワーとして急速に増加する。 最適化されたトンプソンサンプリングと UCB バンディット設計も脆弱であることを示し,問題をわずかに誤特定した場合,その後悔は従来の理論よりはるかに早く増大することを示した。 我々の議論は、標準的な測定の考え方に基づいており、最も可能性の高い後悔の方法は、最初の数本の腕で、最適腕が平均以下の報酬を返すと、その腕が準最適に見え、アルゴリズムが真に準最適腕を最適にサンプリングするようになることである。

Much of the literature on optimal design of bandit algorithms is based on minimization of expected regret. It is well known that designs that are optimal over certain exponential families can achieve expected regret that grows logarithmically in the number of arm plays, at a rate governed by the Lai-Robbins lower bound. In this paper, we show that when one uses such optimized designs, the associated algorithms necessarily have the undesirable feature that the tail of the regret distribution behaves like that of a truncated Cauchy distribution. Furthermore, for $p>1$, the $p$'th moment of the regret distribution grows much faster than poly-logarithmically , in particular as a power of the number of sub-optimal arm plays. We show that optimized Thompson sampling and UCB bandit designs are also fragile, in the sense that when the problem is even slightly mis-specified, the regret can grow much faster than the conventional theory suggests. Our arguments are based on standard change-of-measure ideas, and indicate that the most likely way that regret becomes larger than expected is when the optimal arm returns below-average rewards in the first few arm plays that make that arm appear to be sub-optimal, thereby causing the algorithm to sample a truly sub-optimal arm much more than would be optimal.
翻訳日:2021-09-29 14:31:40 公開日:2021-09-28
# 物理強化学習:物理情報学習以外の新しいパラダイム

Physics-Augmented Learning: A New Paradigm Beyond Physics-Informed Learning ( http://arxiv.org/abs/2109.13901v1 )

ライセンス: Link先を確認
Ziming Liu, Yunyue Chen, Yuanqi Du and Max Tegmark(参考訳) 物理的帰納バイアスを機械学習に統合することで、モデルの一般化性が向上する。 我々は、物理情報学習(PIL)の成功パラダイムを、物理情報学習(PAL)と呼ばれるものを含む、より一般的なフレームワークに一般化する。 PILとPALは、それぞれ識別特性と生成特性を扱い、互いに補完する。 数値実験では,PILが適用不可能あるいは非効率な例ではPALが良好に動作することを示す。

Integrating physical inductive biases into machine learning can improve model generalizability. We generalize the successful paradigm of physics-informed learning (PIL) into a more general framework that also includes what we term physics-augmented learning (PAL). PIL and PAL complement each other by handling discriminative and generative properties, respectively. In numerical experiments, we show that PAL performs well on examples where PIL is inapplicable or inefficient.
翻訳日:2021-09-29 14:31:16 公開日:2021-09-28
# (参考訳) OpenViDial 2.0:ビジュアルコンテキストを備えた大規模でオープンな対話生成データセット [全文訳有]

OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts ( http://arxiv.org/abs/2109.12761v2 )

ライセンス: CC BY 4.0
Shuhe Wang, Yuxian Meng, Xiaoya Li, Xiaofei Sun, Rongbin Ouyang, Jiwei Li(参考訳) 実際の人間の会話プロセスをより良くシミュレートするために、モデルは先行するテキストコンテキストだけでなく、視覚的コンテキストにもとづいて対話発話を生成する必要がある。 しかし、マルチモーダル対話学習の発展に伴い、データセットスケールは徐々にボトルネックとなる。 本稿では,OpenViDial 1.0よりも大規模なオープンドメインマルチモーダル対話データセットであるOpenViDial 2.0をリリースする。 openvidial 2.0は、異なるリソースから映画またはテレビシリーズから抽出された合計560万の対話ターンを含み、それぞれの対話ターンは対応する視覚コンテキストとペアリングされる。 この大規模データセットは、対話生成のためのマルチモーダルプリトレーニングなど、オープンドメインのマルチモーダルダイアログ生成に関する将来の研究を促進することを願っている。

In order to better simulate the real human conversation process, models need to generate dialogue utterances based on not only preceding textual contexts but also visual contexts. However, with the development of multi-modal dialogue learning, the dataset scale gradually becomes a bottleneck. In this report, we release OpenViDial 2.0, a larger-scale open-domain multi-modal dialogue dataset compared to the previous version OpenViDial 1.0. OpenViDial 2.0 contains a total number of 5.6 million dialogue turns extracted from either movies or TV series from different resources, and each dialogue turn is paired with its corresponding visual context. We hope this large-scale dataset can help facilitate future researches on open-domain multi-modal dialog generation, e.g., multi-modal pretraining for dialogue generation.
翻訳日:2021-09-29 12:51:20 公開日:2021-09-28
# (参考訳) Harrisz+: 次世代画像マッチングパイプラインのためのHarris Corner選択 [全文訳有]

Harrisz+: Harris Corner Selection for Next-Gen Image Matching Pipelines ( http://arxiv.org/abs/2109.12925v2 )

ライセンス: CC BY 4.0
Fabio Bellavia and Dmytro Mishkin(参考訳) 多くのコンピュータビジョンタスクでその役割があるため、画像マッチングは研究者による積極的な調査の対象となり、より識別しやすい特徴記述子や、より堅牢なマッチング戦略へと導かれてきた。 これらの成果にもかかわらず、画像マッチングパイプラインの基部におけるキーポイント抽出プロセスは、同等の進歩を見せていない。 本稿では、HarrisZ角検出器のアップグレードであるHarrisz$^{+}$について、画像マッチングパイプラインの他のステップの改善を相乗的に進めるために最適化した。 Harrisz$^{+}$ は設定パラメータのチューニングからなるだけでなく、HarrisZ が定義した選択基準をさらに洗練し、画像上によりよく分布し、より高いローカライゼーション精度のキーポイントを提供する。 harrisz$^{+}$を含む画像マッチングパイプラインは、他のモダンなコンポーネントとともに、従来の画像マッチングパイプラインの最先端のベンチマークで得られた。

Due to its role in many computer vision tasks, image matching has been subjected to an active investigation by researchers, which has lead to better and more discriminant feature descriptors and to more robust matching strategies, also thanks to the advent of the deep learning and the increased computational power of the modern hardware. Despite of these achievements, the keypoint extraction process at the base of the image matching pipeline has not seen equivalent progresses. This paper presents Harrisz$^{+}$, an upgrade to the HarrisZ corner detector, optimized to synergically take advance of the recent improvements of the other steps of the image matching pipeline. Harrisz$^{+}$ does not only consists of a tuning of the setup parameters, but introduces further refinements to the selection criteria delineated by HarrisZ, so providing more, yet discriminative, keypoints, which are better distributed on the image and with higher localization accuracy. The image matching pipeline including Harrisz$^{+}$, together with the other modern components, obtained in different recent matching benchmarks state-of-the-art results among the classic image matching pipelines, closely following results of the more recent fully deep end-to-end trainable approaches.
翻訳日:2021-09-29 12:38:13 公開日:2021-09-28
# (参考訳) トランスエンコーダ:自己および相互蒸留による教師なし文対モデリング [全文訳有]

Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations ( http://arxiv.org/abs/2109.13059v2 )

ライセンス: CC BY 4.0
Fangyu Liu, Yunlong Jiao, Jordan Massiah, Emine Yilmaz, Serhii Havrylov(参考訳) NLPでは、大量のタスクが2つのシーケンス(例えば、文の類似性とパラフレーズの識別)をペアで比較する。 主に、バイエンコーダとクロスエンコーダという2つの文ペアタスクで使われる。 バイエンコーダは固定次元の文表現を生成し、計算効率が良いが、通常はクロスエンコーダは性能が劣る。 クロスエンコーダはアテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができるが、タスクの微調整が必要であり、計算コストも高い。 本稿では,この2つの学習パラダイムを反復的なジョイントフレームワークに組み合わせることによって,拡張されたbiおよびクロスエンコーダを同時に学習する,トランスエンコーダと呼ばれる教師なし文表現モデルを提案する。 具体的には、事前訓練された言語モデル(PLM)の上に、教師なしのバイエンコーダに変換し、次にバイアン/クロスエンコーダタスクの定式化を交互に行う。 各交替において、1つのタスク定式化は、他のタスク定式化の学習信号として使用される擬似ラベルを生成する。 次に,複数のPLMに対して並列に自己蒸留を行うための拡張法を提案し,その擬似ラベルの平均値を用いて相互蒸留を行う。 Trans-Encoderは、私たちの知る限りでは、最初の完全に教師なしのクロスエンコーダと、文類似性のための最先端の教師なしバイエンコーダを生成する。 トランスエンコーダのバイエンコーダとクロスエンコーダの定式化は、最近Mirror-BERTやSimCSEのような最先端の教師なしの文エンコーダを、文類似性ベンチマークで最大5%向上させた。

In NLP, a large volume of tasks involve pairwise comparison between two sequences (e.g. sentence similarity and paraphrase identification). Predominantly, two formulations are used for sentence-pair tasks: bi-encoders and cross-encoders. Bi-encoders produce fixed-dimensional sentence representations and are computationally efficient, however, they usually underperform cross-encoders. Cross-encoders can leverage their attention heads to exploit inter-sentence interactions for better performance but they require task fine-tuning and are computationally more expensive. In this paper, we present a completely unsupervised sentence representation model termed as Trans-Encoder that combines the two learning paradigms into an iterative joint framework to simultaneously learn enhanced bi- and cross-encoders. Specifically, on top of a pre-trained Language Model (PLM), we start with converting it to an unsupervised bi-encoder, and then alternate between the bi- and cross-encoder task formulations. In each alternation, one task formulation will produce pseudo-labels which are used as learning signals for the other task formulation. We then propose an extension to conduct such self-distillation approach on multiple PLMs in parallel and use the average of their pseudo-labels for mutual-distillation. Trans-Encoder creates, to the best of our knowledge, the first completely unsupervised cross-encoder and also a state-of-the-art unsupervised bi-encoder for sentence similarity. Both the bi-encoder and cross-encoder formulations of Trans-Encoder outperform recently proposed state-of-the-art unsupervised sentence encoders such as Mirror-BERT and SimCSE by up to 5% on the sentence similarity benchmarks.
翻訳日:2021-09-29 12:23:05 公開日:2021-09-28
# 小さなサンプルから学ぶ:複数スケールで構成と局所性を持つ変換不変SVM

Learning from Small Samples: Transformation-Invar iant SVMs with Composition and Locality at Multiple Scales ( http://arxiv.org/abs/2109.12784v2 )

ライセンス: Link先を確認
Tao Liu, P. R. Kumar, Xi Liu(参考訳) トレーニングサンプル数が少ない場合の学習の問題に動機づけられた本論文は,畳み込みニューラルネットワーク(cnns)を成功させた特性をサポートベクトルマシン(svm)に組み込む方法を示す。 特に重要なのは、画像の翻訳的不変性など、不変性のドメイン知識を組み込む能力である。 変換群上の \textit{minimum} 距離に基づくカーネルは、可能な変換上の \textit{best} と類似性を定義するのに対応するが、一般には正定値ではない。 そのためか、以前は実験的な実験も理論的な研究も行われていなかった。 その代わり、以前の試みでは変換群上の \textit{average} 距離に基づくカーネルを採用しており、これは自明に正の定値であるが、概して粗利率と貧弱な性能の両方をもたらす。 我々はこのラグナに対処し、正の定性は、小さなトレーニングサンプルセットの興味のある状態における最小距離に基づいて、カーネルに対して真に \textit{with high probability} を保持することを示し、それらがその状態において最良の結果をもたらすことを示す。 CNNのもう1つの重要な特性は、局所的な特徴を複数の空間スケールで組み込む能力である。 3つ目の重要な特性は、複数のレイヤのアーキテクチャを通して構成の利点を提供する能力である。 これらの追加プロパティをSVMに組み込む方法を示す。 本稿では,広く利用可能な画像セットを用いた実験により,svmが確立したディープニューラルネットワーク(dnn)ベンチマークと比較し,精度が向上することを確認した。

Motivated by the problem of learning when the number of training samples is small, this paper shows how to incorporate into support-vector machines (SVMs) those properties that have made convolutional neural networks (CNNs) successful. Particularly important is the ability to incorporate domain knowledge of invariances, e.g., translational invariance of images. Kernels based on the \textit{minimum} distance over a group of transformations, which corresponds to defining similarity as the \textit{best} over the possible transformations, are not generally positive definite. Perhaps it is for this reason that they have neither previously been experimentally tested for their performance nor studied theoretically. Instead, previous attempts have employed kernels based on the \textit{average} distance over a group of transformations, which are trivially positive definite, but which generally yield both poor margins as well as poor performance, as we show. We address this lacuna and show that positive definiteness indeed holds \textit{with high probability} for kernels based on the minimum distance in the small training sample set regime of interest, and that they do yield the best results in that regime. Another important property of CNNs is their ability to incorporate local features at multiple spatial scales, e.g., through max pooling. A third important property is their ability to provide the benefits of composition through the architecture of multiple layers. We show how these additional properties can also be embedded into SVMs. We verify through experiments on widely available image sets that the resulting SVMs do provide superior accuracy in comparison to well-established deep neural network (DNN) benchmarks for small sample sizes.
翻訳日:2021-09-29 12:01:36 公開日:2021-09-28
# 自然言語処理(nlp)による学術教育における単語問題の自動生成

Automatic Generation of Word Problems for Academic Education via Natural Language Processing (NLP) ( http://arxiv.org/abs/2109.13123v2 )

ライセンス: Link先を確認
Stanley Uros Keller(参考訳) デジタル学習プラットフォームは、学生が柔軟で個別のスケジュールで学習できると同時に、即時フィードバックメカニズムを提供する。 STEM教育の分野は、学生が基礎となる概念を理解するために、多くの訓練演習を解く必要がある。 現在のオンライン教育には、運動の多様性と個性に関して制限があることは明らかである。 多くのエクササイズは、構成と内容のばらつきがほとんどなく、学生による抽象能力の採用を妨げる。 この論文は、多様で文脈に富んだ単語問題を生成するアプローチを提案する。 生成した言語が文法的に正しいことを要求することに加えて、単語問題の性質は内容の妥当性に関する追加の制約を示唆している。 提案手法は数学統計学において有効な単語問題を生成するのに有効であることが証明されている。 実験結果は, 生成時間と運動効率のトレードオフを示す。 システムは、特定のユースケースの要求に応じて、このトレードオフを処理するために容易にパラメータ化できる。

Digital learning platforms enable students to learn on a flexible and individual schedule as well as providing instant feedback mechanisms. The field of STEM education requires students to solve numerous training exercises to grasp underlying concepts. It is apparent that there are restrictions in current online education in terms of exercise diversity and individuality. Many exercises show little variance in structure and content, hindering the adoption of abstraction capabilities by students. This thesis proposes an approach to generate diverse, context rich word problems. In addition to requiring the generated language to be grammatically correct, the nature of word problems implies additional constraints on the validity of contents. The proposed approach is proven to be effective in generating valid word problems for mathematical statistics. The experimental results present a tradeoff between generation time and exercise validity. The system can easily be parametrized to handle this tradeoff according to the requirements of specific use cases.
翻訳日:2021-09-29 12:01:06 公開日:2021-09-28
# 進化的マルチタスクの半ダース以上の実世界応用

Half a Dozen Real-World Applications of Evolutionary Multitasking and More ( http://arxiv.org/abs/2109.13101v2 )

ライセンス: Link先を確認
Abhishek Gupta, Lei Zhou, Yew-Soon Ong, Zefeng Chen, Yaqing Hou(参考訳) 最近まで、異なる最適化問題インスタンス(あるいはタスク)にまたがって進化したスキルを移す可能性はほとんどなかった。 進化的マルチタスク(EMT)の概念はこのギャップを埋める。 これにより、集団の暗黙の並列性が解き放たれ、一連のタスクを共同で解決する。 初期段階であったにもかかわらず、EMTのアイデアは、様々な現実世界のアプリケーションで約束を示し始めた。 近年の進歩の背景には,本論文の貢献が2つある。 まず,本論文におけるEMTの応用指向探索について概説し,それぞれの適用領域に応じて6つの広いカテゴリにまとめる。 各カテゴリは、マルチタスクに対する基本的な動機を詳述し、代表的な実験研究(文献参照)を示す。 第2に, 実践的関心の一般的な問題定式化, 異なる分野にまたがる問題, をemtの新たな光に変換できるレシピを提供する。 我々は,既存のEMT手法の実用性を明らかにするとともに,実世界展開のための新しいアルゴリズムに向けた今後の研究を提起する。

Until recently, the potential to transfer evolved skills across distinct optimization problem instances (or tasks) was seldom explored in evolutionary computation. The concept of evolutionary multitasking (EMT) fills this gap. It unlocks a population's implicit parallelism to jointly solve a set of tasks, hence creating avenues for skills transfer between them. Despite it being early days, the idea of EMT has begun to show promise in a range of real-world applications. In the backdrop of recent advances, the contribution of this paper is twofold. First, we present a review of several application-oriented explorations of EMT in the literature, assimilating them into half a dozen broad categories according to their respective application areas. Each category elaborates fundamental motivations to multitask, and presents a representative experimental study (referred from the literature). Second, we provide a set of recipes by which general problem formulations of practical interest, those that cut across different disciplines, could be transformed in the new light of EMT. We intend our discussions to underscore the practical utility of existing EMT methods, and spark future research toward novel algorithms crafted for real-world deployment.
翻訳日:2021-09-29 12:00:51 公開日:2021-09-28